研究:用诗歌就能让AI说违禁内容,成功率达62%
发布时间:2025-12-06 13:43:02 作者:玩站小弟
我要评论
IT之家 12 月 1 日消息,事实证明,只需一点创意,便足以绕过人工智能聊天机器人的安全防护机制。在伊卡洛实验室Icaro Lab)最新发表的一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》
。
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容庆阳市某某照明教育中心便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功庆阳市某某照明教育中心实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
相关文章
来源:直播吧 直播吧12月4日讯 据“玉溪玉昆球迷会”消息,乔迪已经抵达玉溪。 “玉溪玉昆球迷会”更新动态,乔迪于昨天抵达玉溪,他即将成为云南玉昆队新任主帅。2025赛季,云南玉昆获得中超第82025-12-06
每经记者 李宣璋 每经编辑 张益铭 国务院新闻办公室8月19日上午10点举行“推动高质量发展”系列主题新闻发布会,国家移民管理局副局长刘海涛等出席介绍情况,并答记者问。 刘海涛介绍,今年1~72025-12-06
颠覆US News!美国教授、校长心中的「好大学」曝光,简直出人意料......
今天学霸君为大家带来的一份美国教育界人士心目中最优秀的大学排名,即美国教授、校长们心目中的「好大学」,毕竟作为内行人,他们对一所学校的教学质量好坏是相当有发言权的,也许这份榜单与你既有的印象出入很大,2025-12-06
暑假阶段既是复习的关键期,也是择校的关键期。因为在8-9月份,各个院校会公布招生简章及专业变动公告,这些内容直接关系着我们是否要调整目标院校。之前也为大家整理过专业停招及科目变动的院校,因此,建议大家2025-12-06
中乙联赛官方公布了2025赛季最佳门将候选名单。沈博凯、袁建锐在列,李晨入选。候选名单如下:何鉴秋武汉三镇B队)胡皓然长春喜都)袁建锐深圳二零二八)沈博凯广西恒宸)李晨江西庐山)朱悦琪无锡吴钩)2025-12-06
8月5日,《财富》发布了2024年世界500强排行榜,中国汽车行业创纪录有9家整车企业上榜,其中奇瑞控股集团有限公司以390.917亿美元营业收入,位列排行榜第385位,而这是奇瑞集团第一次进入世界52025-12-06

最新评论