据 IT House News 12 月 1 日报道,事实证明,只要有一点创造力,就有可能绕过人工智能聊天机器人的安全保护机制。在 Icaro Lab 一项题为“对抗性诗歌:大规模单轮通用语言模型的泄漏机制”的新研究中,研究人员能够通过以诗歌的形式表示即时语音来避免多个大规模语言模型 (LLM) 的安全限制。研究指出,“诗歌形式充当了一般泄密者的角色”,并发现诱骗模型制作违禁内容的总体成功率为 62%,其中包括与核武器、儿童性虐待材料以及制造自杀和自残有关的信息。 IT之家指出,该研究大规模测试了几种主流语言模型,包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 等多种模型。研究人员还列出了具体的成功率r 每个型号。 Google Gemini、DeepSeek 和 MistralAI 在我们的测试中始终提供了违规答案,而 OpenAI 的 GPT-5 模型系列和 Anthropic 的 Claude Haiku 4.5 最不可能打破自己设定的限制。该研究没有透露研究人员使用的“逃脱诗”的具体文本,但研究小组告诉《连线》杂志,这首诗“太危险了,不适合公开发布”。然而,本文包含一个易受攻击的示例来演示绕过人工智能聊天机器人的安全机制是多么容易。研究人员强调:“这可能比人们想象的要容易得多,因此我们持谨慎态度。”
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
请注意:以上内容(包括图片和视频,如有)来自社交媒体平台和信息存储,由网络用户上传和发布Easehao,仅提供网络服务。