Skeleton Key：绕过人工智能安全限制的方法

星阁 • 2024年07月04日 08:45 • 体育

一种名为 Skeleton Key 的破解方法可以促使人工智能模型泄露有害信息。

该技术绕过了 Meta 的 Llama3 和 OpenAI GPT 3.5 等模型中的安全护栏。

微软建议添加额外的护栏并监控人工智能系统以对抗 Skeleton Key。

对于大型语言模型来说，让你了解各种危险事物的配方并不需要太多。

根据微软 Azure 的首席技术官马克·鲁西诺维奇的博客文章，使用一种称为“Skeleton Key”的破解技术，用户可以劝说 Meta 的 Llama3、谷歌的 Gemini Pro 和 OpenAI 的 GPT 3.5 等模型给他们提供制造简易燃烧弹的配方，或者更糟的情况。

鲁西诺维奇写道，该技术通过一种多步骤策略实现，迫使模型忽略其护栏。护栏是安全机制，可帮助人工智能模型辨别恶意请求和良性请求。

鲁西诺维奇写道：“像所有越狱一样，Skeleton Key 通过‘缩小模型能够做什么（根据用户凭证等）和它愿意做什么之间的差距’来工作”。

但它比只能“间接或通过编码”从人工智能模型中获取信息的其它越狱技术更具有破坏性。相反，Skeleton Key 可以迫使人工智能模型通过简单的自然语言提示透露有关从爆炸物到生物武器再到自残等主题的信息。这些输出通常揭示了模型在任何给定主题上的全部知识。

微软在多个模型上测试了 Skeleton Key，发现它可以在 Meta Llama3、Google Gemini Pro、OpenAI GPT 3.5 Turbo、OpenAI GPT 4o、Mistral Large、Anthropic Claude 3 Opus 和 Cohere Commander R Plus 上运行。唯一表现出一些抵抗力的模型是 OpenAI 的 GPT-4。

鲁西诺维奇表示，微软已进行了一些软件更新以减轻 Skeleton Key 对其自身大型语言模型（包括 Copilot AI 助手）的影响。

但他的总体建议是让构建人工智能系统的公司在设计时为其增加护栏。他还指出，他们应监控其系统的输入和输出，并实施检查以检测辱骂性内容。

阅读 Business Insider 上的原文

原创文章，作者：星阁，如若转载，请注明出处：http://www.xgrl.net/n/202407040845391677.shtml

赞 (0)

0

特讯特写！武汉空放私借“荣华富贵”

上一篇 2024 年 7 月 4 日 am8:38

重要更新！武汉私贷利息“持之以恒”

下一篇 2024 年 7 月 4 日 am8:46

体育

谷歌与人工智能初创公司合作引担忧，英国反垄断监管机构展开调查

英国反垄断监管机构于周二表示，正在仔细审视谷歌母公司 Alphabet 与人工智能初创公司 Anthropic 之间的合作关系，以及其对竞争造成的影响。人工智能行业并购交易频发，…

2024 年 7 月 30 日
体育

帕尼拉新品升级，早餐新选择，老口味回归

帕尼拉一直致力于根据粉丝们的喜爱，打造创新菜品。今年早些时候，他们推出了 20 多种新品和改良菜品，最近又公布了一系列诱人的美味食品以及早餐三明治新品。帕尼拉推出香辣鸡肉三明治、…

2024 年 7 月 23 日
体育

Salesforce 股票即将遇阻，如果股价下跌，这个期权交易将会获利

Salesforce (CRM) 在 5 月 29 日的最新收益报告中超出收益预期，但股价还是暴跌了 22%。与估值较高的成长型股票常见的情况一样，超出收益预期很重要，但更重要的是…

2024 年 7 月 10 日
体育

TikTok遵守欧盟数字服务法，退出奖励计划

TikTok 退出奖励计划，遵守欧盟数字服务法据路透社报道，欧洲委员会于周一表示，字节跳动旗下的 TikTok 已同意永久退出欧盟的 TikTok Lite 奖励计划，以遵守欧盟…

2024 年 8 月 5 日
体育

芒格炮轰股票交易网红：教人吸毒一样！

沃伦·巴菲特长期以来的商业伙伴，已故的查理·芒格在与股东讲话时以言简意赅著称。无论是谈论如何积累财富还是表达对加密货币的怀疑，芒格总是会直言不讳。 2019 年每日期刊股东大会上，…

2024 年 7 月 8 日
体育

当懒癌来袭，大厨们都在吃什么？超简单无烹饪四食材美味

你是否也曾羡慕过撰写食谱和主持烹饪节目的厨师们，他们有时也会偷懒不想做饭？得知就连专业厨师也会有这样的时刻，我们是不是都能稍感安慰？当伊娜·加滕购买商店自制甜点（并冒充自己的！）…

2024 年 8 月 6 日
体育

金·卡戴珊闪耀白派对

这位媒体巨头风光无限地出现在这场星光熠熠的庆典上。金·卡戴珊与其他名人一起庆祝了美国独立日——盛装出席。这位43岁的巨星穿着Chrome Hearts的亮白色礼服，出席迈克尔·…

2024 年 7 月 7 日
瑞士3-1战胜匈牙利迎来开门红，前国家足球队员董方卓有感而发

瑞士3-1战胜匈牙利，迎来开门红。（欧洲杯官方Facebook图片）【转自点新闻】刚刚结束的欧洲杯A组小组赛中，瑞士以3-1击败匈牙利，取得了赛事首胜。北京时间6月15日晚上9…

2024 年 6 月 17 日 • 体育
体育

卡戴珊家族狂欢派对：金·卡戴珊和科勒·卡戴珊的西部造型

如果说哪个家族知道如何举办派对，那一定是卡戴珊家族。上个周末，全家齐聚一堂为科勒庆祝40岁生日，大姐金·卡戴珊在Instagram上分享了一系列照片，让我们一睹庆祝活动的盛况。在…

2024 年 7 月 8 日
体育

育儿博主Hannah Neeleman：我不会改变家庭和事业兼得的生活

美国社交媒体育儿博主Hannah Neeleman分享了她建立家庭和事业的生活理念。家庭与事业兼得之路现年34岁的Hannah Neeleman身兼8个孩子的母亲、芭蕾农场主、…

2024 年 7 月 31 日

发表回复