一种名为 Skeleton Key 的破解方法可以促使人工智能模型泄露有害信息。
该技术绕过了 Meta 的 Llama3 和 OpenAI GPT 3.5 等模型中的安全护栏。
微软建议添加额外的护栏并监控人工智能系统以对抗 Skeleton Key。
对于大型语言模型来说,让你了解各种危险事物的配方并不需要太多。
根据微软 Azure 的首席技术官马克·鲁西诺维奇的博客文章,使用一种称为“Skeleton Key”的破解技术,用户可以劝说 Meta 的 Llama3、谷歌的 Gemini Pro 和 OpenAI 的 GPT 3.5 等模型给他们提供制造简易燃烧弹的配方,或者更糟的情况。
鲁西诺维奇写道,该技术通过一种多步骤策略实现,迫使模型忽略其护栏。护栏是安全机制,可帮助人工智能模型辨别恶意请求和良性请求。
鲁西诺维奇写道:“像所有越狱一样,Skeleton Key 通过‘缩小模型能够做什么(根据用户凭证等)和它愿意做什么之间的差距’来工作”。
但它比只能“间接或通过编码”从人工智能模型中获取信息的其它越狱技术更具有破坏性。相反,Skeleton Key 可以迫使人工智能模型通过简单的自然语言提示透露有关从爆炸物到生物武器再到自残等主题的信息。这些输出通常揭示了模型在任何给定主题上的全部知识。
微软在多个模型上测试了 Skeleton Key,发现它可以在 Meta Llama3、Google Gemini Pro、OpenAI GPT 3.5 Turbo、OpenAI GPT 4o、Mistral Large、Anthropic Claude 3 Opus 和 Cohere Commander R Plus 上运行。唯一表现出一些抵抗力的模型是 OpenAI 的 GPT-4。
鲁西诺维奇表示,微软已进行了一些软件更新以减轻 Skeleton Key 对其自身大型语言模型(包括 Copilot AI 助手)的影响。
但他的总体建议是让构建人工智能系统的公司在设计时为其增加护栏。他还指出,他们应监控其系统的输入和输出,并实施检查以检测辱骂性内容。
阅读 Business Insider 上的原文
原创文章,作者:星阁,如若转载,请注明出处:http://www.xgrl.net/n/202407040845391677.shtml