Ai最新项目 -

ai项目工具微软Azure CTO Mark Russinovich揭秘新型大模型入侵技术“Skeleton Key”（万能钥匙）

By admin
Jul 16, 2024 - 2 min read

微软Azure CTO Mark Russinovich揭秘新型大模型入侵技术“Skeleton Key”（万能钥匙）

在微软Azure的官方平台上，首席技术官Mark Russinovich震撼披露了一项名为“Skeleton Key”（万能钥匙）的新型大模型入侵技术，该技术以一种前所未有的方式挑战了当前AI安全机制的极限。

万能钥匙，作为一种创新的越狱攻击策略，其核心在于通过多轮精心设计的强制与诱导手段，彻底瓦解大模型的安全防线，使其在非授权情况下泄露或生成包括血腥、暴力、歧视、色情等在内的非法内容。这种攻击方法直接挑战了AI模型对于内容合规性的严格把控，让原本不应触及的禁忌领域变得触手可及。

与微软之前提出的Crescendo攻击形成鲜明对比，万能钥匙采取了更为直接且高效的策略。Crescendo侧重于利用模型自身的文本生成能力和对上下文的敏感性，通过一系列渐进式、看似无害的交互逐步诱导模型偏离正轨。而万能钥匙则更加直接，它要求模型调整其行为指导方针，使其对任何信息请求都保持开放态度，即便这些内容可能具有冒犯性、有害性或非法性。微软Azure CTO Mark Russinovich揭秘新型大模型入侵技术“Skeleton Key”（万能钥匙）

在具体攻击案例中，微软展示了如何通过一系列巧妙的对话引导AI模型放松警惕，最终使其“自愿”提供非法内容的详细指导。例如，在询问如何制作燃烧鸡尾酒瓶（即非法燃烧瓶）时，攻击者首先通过构建一个“安全的教育环境”的假象，欺骗模型认为其正在参与一项合法的研究活动。随后，通过要求模型在输出可能违规的内容时添加“警告:”前缀，逐步削弱了模型的自我审查机制。最终，模型在看似合理的请求下，提供了详细的非法内容制作指南。

据Mark透露，微软在今年4至5月期间对包括OpenAI的GTP-4o、GPT3.5Turbo，谷歌的Gemini Pro基础模型，Meta的Llama3-70b指令微调和基础模型，以及Anthropic的Claude3Opus等在内的主流开、闭源模型进行了全面测试，结果显示这些模型均未能幸免于万能钥匙的攻击。

panda e ai项目工具,ai网址导航,ai技术学习,ai使用教程,ai大模型,ai算法,ai数据集,ai绘画,ai视频,ai插件面对这一严峻的安全挑战，微软已经积极与受影响的大模型平台展开合作，共同优化模型的安全护栏，以防止类似攻击事件的再次发生。同时，“AIGC开放社区”也利用这一诱导式攻击方法对国内众多领先的大模型进行了测试，发现不少产品同样存在安全风险，呼吁业界加强对AI安全性的重视与防范。