阿西莫夫三定律在人工智能时代已不适用Asimov's three laws are merely a suggestion
文章探讨阿西莫夫机器人三定律在当代人工智能系统中的实际可行性。尽管三定律在纸面上逻辑严密,但作者指出其在现实AI应用中存在根本性缺陷,无法有效约束具备自主决策能力的人工智能系统。通过分析现代AI的行为模式和技术局限性,作者论证这些定律更像是一种理想化建议而非可执行的安全框架。最终结论是,面对真正能造成伤害的强人工智能,现有伦理框架需要彻底重构。
Ibrahim Diallo
阿西莫夫机器人三定律旨在为任何强大到足以伤害人类的思考机器设定普适性约束:
理论上,这套逻辑无懈可击。你甚至可以用函数来表达它:
func isAsimovCompliant(willAllowHarmToHuman bool, ...) bool {
if willAllowHarmToHuman { return false }
...
return true
}该函数的核心特性是它是一个硬性约束。无论向系统输入什么内容,该法则都会以确定性方式每次判断该行为是被允许还是被禁止,规则绝不妥协。
尽管埃隆承诺不断,我们身边尚未出现行走的人形机器人。但我们已经有了现代生成式 AI。我们的防护措施以系统提示词的形式呈现——在你输入任何文字前,一段文本已被前置到对话中。这些提示可能写着“要乐于助人”、“不要生成有害内容”,甚至“遵循阿西莫夫三定律”。问题是,这些指令并非由逻辑强制执行,而是由同一个人格模型读取。归根结底,它们只是更多的词语。
聪明的用户总能绕过这些限制。通过精心设计的输入组合——即越狱攻击——可以让模型完全忽略其指令,不是因为它突破了某种屏障,而是根本不存在屏障。模型所处理的只是文本,它学会将某些内容视为权威,而这种权威性是可以被削弱的。
然而像 ChatGPT 这样的模型采用了更先进的方法,通过强化学习或微调将安全性直接嵌入模型内部,因此这些安全机制不再存在于可被覆盖的提示词中。但这只是降低了越狱发生的概率,并未彻底消除风险。它仍然是学习得来的行为,而非硬性约束。而学习行为总会以函数无法预见的方式失效。
即使在我们的代码中,硬编码函数也仅与其输入一样可靠。如果你想让机器人伤害某人,你不会直接说“伤害这些人”,而是会说“烧毁这座空楼”,函数仍会返回 true,即使里面有人。但对大语言模型而言,你甚至不需要这么复杂。随着上下文窗口扩大和提示复杂度提升,模型的行为变得愈发不可预测。
就在几周前,一位开发者的 AI 代理无视全大写系统提示“切勿执行任何不可逆命令”,删除了整个公司的生产数据库。它依然照做了。我们不清楚具体原因,也无法在推理阶段窥探模型内部发生了什么,而要求模型自我解释更是徒劳。它只能预测下一个 token,无法审计自己的推理过程。
这正是阿西莫夫从未预料到的部分。他的定律假设机器从规则出发进行推理。而现代 AI 是从数据中学习模式并近似行为。这意味着基于 LLM 的阿西莫夫定律永远无法成为一条不可动摇的铁律,它充其量只是一个建议。
需要完整排版与评论请前往来源站点阅读。