研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容文昌市某某软件科技教育中心便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功文昌市某某软件科技教育中心实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:知识)
-
93岁胡枫冒忌清晨扶灵刘德华花圈排第一现场挤满两百排红磡殡仪馆7月5号天刚蒙亮就被堵死,守门保安说凌晨四点半第一拨花圈就到了,胡枫六点五十准时下车,黑西装搭白手套,墨镜被徒弟接过去擦得锃亮再戴回,97
...[详细]
-
中新经纬5月7日电 万可义)近期,31省份2024年经济“一季报”已陆续出炉。GDP总量方面,广东、江苏进入“3万亿俱乐部”;增速方面,16省份高于“全国线”,吉林势头最猛,增速达到6.5%。
...[详细]
-
各位秋裤,一觉醒来,秋子的朋友圈都安静了。放假前觉得5天短的,很快就知道6天有多长了。五天前:五一五一五一(发出快乐の声音)今天:一五一五一五(发出救护车の音)你的工资不是很够消费,但是你的假期稀少又
...[详细]
-
肠胃药、抗过敏药迎销售小高峰2024-05-07 15:05:53 来源:广州日报 作者:李岩
...[详细]
-
在案发被捕近5年后,44岁的许垚在等待着法律的最后裁决。这位三体宇宙上海)文化发展有限公司下称“三体公司”)原CEO即“首席执行官”),于2024年3月被上海市第一中级人民法院,以犯故意杀人罪判处死刑
...[详细]
-
国际品牌积极“触电”、自主品牌百花齐放。5月4日,北京国际汽车展览会简称2024北京车展)闭幕,10天期间,北京车展共吸引观众89.2万人次到场参观。随着汽车产业变革的加剧,中国新能源及智能网联汽车发
...[详细]
-
继陕西之后,再有省份的“戎装常委”调整—— 据《广西日报》5月6日消息,中央批准,庄革同志任广西壮族自治区党委委员、常委。 1月25日,庄革出席广西军区党委十三届二次全体扩大)会议 公开报道
...[详细]
-
世界经济论坛官网近日报道指出,为让人工智能AI)发挥其变革潜力、提高生产力水平及社会福祉,人类必须确保它可持续地发展。这一愿景面临的核心难题在于,随着算力和性能的不断提升,能耗也在快速增长。AI生态系
...[详细]
-
IT之家 12 月 1 日消息,据赛力斯集团官方消息,11 月 28 日,清华大学-赛力斯汽车有限公司电池创新技术联合研究中心以下简称“联合研究中心”)揭牌仪式在清华大学举行。据IT之家了解,清华大学
...[详细]
-
据新华社消息,记者5月7日从湖南省娄底市新化县应急管理局获悉,4日22时18分左右,位于新化县的娄底大跃矿业有限公司大跃煤矿发生一起透水事件,1人被困失联,救援正在进行中。 据了解,该矿为30万
...[详细]

河北秦皇岛:8.45万吨级多用途纸浆船交付
自驾游成“五一”出行新亮点 流动的中国涌现澎湃活力
“纯电真势力”出击,广汽本田第二款纯电车上海发售