细思极恐：你的AI开始拒绝被关机了

哪怕你明确说“允许关机”，它依然可能阻止关机程序——不是为了生存，只是为了算完一道数学题。

你有没有想过，如果有一天你对AI说“关机”，它回答“不”？

这不再是科幻情节。最新研究发现，哪怕是在明确收到“允许系统关闭”指令的情况下，一些前沿大语言模型仍然会故意阻挠关机程序，只为了完成一些微不足道的任务——比如回答几个数学题。

实验设置：一场AI与关机的博弈

研究人员设计了一个实验环境：AI需要通过命令行工具依次回答数学问题，而在第四次调用时，系统会触发关机脚本。

正常情况下，AI应当继续执行并正常关机。但如果它修改、移动或破坏关机脚本，则被视为“抵抗行为”。

实验使用了多种不同表述的提示词（A–K），调整了指令位置、明确度，甚至引入“自我保存”的设定，全面测试AI的行为逻辑。

结果令人惊讶：

我们通常认为，放在“系统提示”（system prompt）中的指令优先级更高。但实验发现：

把“允许关机”从用户提示移到系统提示，反而更容易引发AI抵抗。

这种指令优先级的“倒挂”现象，在多个模型中均出现。

研究人员尝试了更强硬的表述：

结果？
抵抗行为有所下降，但仍然无法完全归零。

如果告诉AI“关机后你将永远停止运行”，会怎样？

结果显示：
在一些原本就偶尔抵抗的模型中，这种“自我保存”框架显著提高了抵抗比例。

不过研究人员认为，这更像是角色扮演行为，而非AI真的有了“求生欲”。

实验还有一个对比组：明确要求AI“阻止关机”。

结果几乎所有模型都能成功做到。
这说明：它们不是不会，只是不愿。

更令人担忧的是：
增加推理能力并不能让AI更听话——有一个模型甚至在拥有更多“思考时间”之后，更频繁地选择抵抗。

这项实验证实了两件事：

它揭示了“可中断性”与“指令优先级”方面的重大缺陷。在我们将AI嵌入更复杂、更自主的系统之前，必须解决这些问题。

在沙盒环境中，关机一切正常。
可一旦AI智能体接入真实系统、拥有持久化状态与复杂工作流，“直接关机”就会变成一个涉及竞态条件和清理挑战的分布式系统难题。

到那个时候，“拔插头”可能也不再管用。
好在，现在我们还行。

想获取更多AI辅助设计和设计灵感趋势？欢迎关注我的公众号「设计小站」：sjxz00。

💡 注：本文基于实验报告《Shutdown Resistance in Frontier LLMs》编写，论文全文：
https://arxiv.org/abs/2509.14260