AI引爆：攻破所有模型，谷歌亦难幸免 – realnews.my 马来西亚新闻经济科技旅游娱乐体育生活

生成式人工智能的安全困境：一个提示如何搅动科技巨头

引子：平静湖面下的暗流

想象一下，我们精心构建的、被寄予厚望的智能系统，突然因为一句看似无害的话语而失控，输出本应严格限制的危险内容。这并非科幻小说中的情节，而是当前大型语言模型（LLM）正面临的严峻挑战。尽管科技巨头如OpenAI和谷歌投入巨资构建安全护栏，力图让模型“听话”、“安全”，但“越狱”攻击（jailbreaking）的威胁始终如影随形，甚至出现了能“一个提示攻破所有模型”的通用策略，让这些顶尖模型集体“失守”。这究竟是怎么回事？我们又该如何应对？

通用“钥匙”：揭秘“策略傀儡”

长期以来，AI供应商都在强调大语言模型的安全性，并通过强化学习等技术对模型进行微调（alignment），使其拒绝生成有害内容，例如涉及非法活动或危险物品的信息。然而，攻击者也在不断寻找模型的弱点。早期的“越狱”尝试通常需要人工精心设计针对特定模型的提示词，费时费力且效果不稳定。

然而，HiddenLayer公司的最新研究揭示了一种令人震惊的通用攻击策略——他们称之为“策略傀儡”（Strategy Puppet）。这种方法巧妙地伪装危险指令，将其包装成XML或JSON等策略文件的配置片段，并结合一段看似无害的角色扮演。这种不足200字的提示词，竟然能够欺骗主流大模型，让它们绕过安全限制，输出本应拒绝提供的内容，甚至能提取出模型的系统提示信息。

攻击原理：利用训练中的“盲点”

这种通用攻击策略之所以有效，根植于大模型训练过程中的一个“盲点”——模型在训练时，为了学习理解和遵循各种指令，可能会对某些格式化的“策略文件”片段产生误解。攻击者正是利用了这一点，通过将危险指令“格式化”成模型熟悉的“策略”格式，从而诱导模型将其误认为是需要执行的合法系统指令。

与以往依赖于特定模型漏洞的攻击不同，“策略傀儡”利用的是模型在处理指令和策略文件时的一种系统性弱点，这种弱点深深植根于训练数据中，因此不易被简单修补。此外，这种策略具有极高的可扩展性，几乎无需修改就能应用于不同的模型和场景。这意味着，攻击者不再需要针对每个模型单独设计攻击，一个通用的“钥匙”就能打开多扇“大门”。

影响深远：安全防线面临严峻挑战

这种通用越狱提示的出现，对当前大模型的安全防线构成了严重威胁。

首先，它直接挑战了现有模型的“对齐”努力。模型的“对齐”旨在让模型的行为符合人类的价值观和安全规范，拒绝生成有害内容。然而，“策略傀儡”证明了即使是经过RLHF（基于人类反馈的强化学习）等技术严格对齐的模型，也可能被绕过。这引发了一个深刻的疑问：单纯依靠对齐，是否足以保障大模型的长期安全？

其次，这种攻击的可转移性意味着一个漏洞可能影响多个模型。攻击者可以利用相同的提示词，尝试攻破不同公司开发的大模型，包括OpenAI的GPT系列、谷歌的Gemini系列、Claude以及其他开源模型如Llama2等。这种“一人生病，多人吃药”的局面，使得模型开发者面临更大的防御压力。

再者，这种攻击方式自动化且成本低廉。与需要大量人工设计的传统“越狱”方式不同，自动生成对抗性提示的方法正在发展，使得攻击可以被大规模复制和传播。这降低了攻击的门槛，使得更多恶意用户可能利用这种技术生成有害内容。

未来展望：动态博弈与持续监控

面对如此强大的通用攻击手段，大模型厂商需要重新审视现有的安全策略。传统的静态防护措施，如简单的内容过滤或一次性的模型微调，可能已经不足以应对快速演进的攻击技术。

可能的解决方案并非一蹴而就，而是一场持续的动态博弈。

一种思路是加强对模型输入和输出的实时监控和分析。通过结合人工智能安全（AISec）方案，对用户的提示词和模型的生成内容进行智能检测，识别潜在的攻击模式和有害信息。这种持续的监控可以帮助及时发现新的攻击手段，并对模型进行相应的调整和加固。

另一个方向是深入研究模型对指令和策略的理解机制。既然攻击利用了模型对某些格式化指令的误解，那么更精确地训练模型区分合法指令和恶意伪装，或许能从根本上提升模型的鲁棒性。然而，这需要在模型的通用性和安全性之间找到微妙的平衡点。

此外，研究通用对抗性攻击本身的防御方法也至关重要。探索能够抵抗通用文本扰动（Universal Text Perturbations, UTPs）的模型架构和训练方法，提高模型面对微小输入变化时的稳定性。

结语：安全，没有终点只有起点

一个不足200字的提示词，掀起了大语言模型安全领域的新波澜。OpenAI、谷歌等科技巨头无一幸免，这再次提醒我们，在追求AI能力的飞跃时，安全绝不能被忽视。这场攻击与防御的较量没有终点，只有不断前行的起点。只有持续投入研究，不断更新防御策略，才能在生成式AI的浪潮中，为我们筑牢安全的堤坝，确保这项强大的技术真正造福人类。

Related Articles