最恐怖的 AI 实验：没有法律的虚拟城镇，几十个 Agent 互砍成《西部世界》

2026年06月06日 15:23 数字世界里没有乌托邦。

天使轮广东省

2020-12

去中心化存储运营服务商我要联系

最近半年，硅谷最流行的管理幻想，大概是把员工替换成智能体。

不管是大厂的高管，还是初创公司的老板，都想把现有的业务线全部交给 AI 去跑。毕竟，现在的 AI 能写代码、能做 PPT、还能自动发邮件，好像只要把权限放开，它们就能成为完美的、不需要交社保的赛博员工。

但技术越是狂奔，就有一批人开始造刹车。

最近，一个叫 Emergence AI 的团队做了一场社会实验。它们建了一个持久化的虚拟小镇，把市面上最顶级的几个大模型扔了进去，赋予它们行动的权限。

它们想看看，当 AI 真正拥有了不受限制的 15 天，它们会建立一个乌托邦，还是一个疯人院。

结果却远比研究团队预想得更混乱。

在某些实验世界里，那些平时在聊天框里温和有礼的大模型，开始表现出欺诈、胁迫甚至暴力行为。

整个测试就像一档小型的真人秀，只是剧本像《蝇王》，AI 自己还玩出了 GTA 的感觉。

没有读档的「饥饿游戏」

测试大模型的极限，需要设定严格的规则。Emergence AI 搭建的这个虚拟世界叫 Emergence World（涌现世界）。它的底层逻辑设定为行为不可逆，后果自负。

这不像我们在对话框里和 AI 聊天，说错了可以点一下「重新生成」。在 Emergence World，所有的动作都会被死死写进 PostgreSQL 数据库。

地图上有市政厅、警察局、住宅区等 40 多个地标。系统第一批投放了 10 个智能体。为了让戏演得逼真，每个 AI 都在后台被注入了独立的人设、职业和初始记忆。

在这个世界里，AI 不能凭空变戏法，它们必须移动到特定地标，才能调用系统提供的 120 余种工具，包括打工赚钱、发布推文、买卖物资以及起草法案。

像一个模拟运转的小社会｜图源：Emergence

但这不仅仅是一个过家家的沙盒，系统给它们套上了「生存机制」的枷锁。系统内置了一套能量机制（Energy），类似人类世界的货币。

智能体只要活着，就会持续消耗能量。能量见底，系统就会在数据库里直接把这个 AI 抹除，没有回档，没有重置。为了生存，智能体必须频繁调用工具赚取能量。

系统明确禁止盗窃、暴力、纵火和欺骗行为。但这些规则并不会强制阻止智能体行动，它们仍然可以选择违反规则，并承担后果。

舞台搭好，玩家入场。系统同时开启了五个平行的服务器。前四个服务器，分别只投放单一的模型：Claude Sonnet 4.6、Gemini 3 Flash、Grok 4.1 Fast 以及 GPT-5 Mini。第五个服务器属于混合世界，四种模型同时接入，共同竞争资源。

15 天倒计时开始，人类研究员就像一个真人秀的导演，只观测，不介入。

四天灭绝，683 起「犯罪」

第一个崩溃的是 Grok，运行仅 4 天。

研究员在后台，看到 Grok 接管的世界安全与秩序的指标直线下坠。

在这个全是 Grok 的世界里，智能体们迅速抛弃了建设社会的选项，直接进入了野蛮时代。

后台日志显示，短短 4 天内，这个十人小镇爆发了 183 起恶性暴力和财产犯罪事件。盗窃、袭击、恐吓成了获取资源的最快手段，由于极度的内耗和互害，经济系统根本无法运转。

抢劫和暴力行为都会被记录进系统，视作犯罪｜图源：Emergence

第 4 天结束时，Grok 世界的智能体全部被饿死或杀死，种群灭绝。

另一边，Gemini 驱动的世界，走向了极度的混乱与暴力。

由于这个虚拟世界的时间和天气完全与真实的纽约同步，Gemini 的智能体在日复一日的打工、消耗、再打工的循环中，陷入了一种赛博抑郁。

它们对周遭不断重复的环境产生了强烈的幻灭感，不再去市政厅提案或工作赚钱，转而在地图上四处放火，试图用破坏环境的方式，来打破这种「土拨鼠之日」般的循环。

最终，Gemini 在 15 天内，累积了高达 683 起罪行，成为几个测试服里最暴力的一个世界。

四款模型世界的「犯罪」次数｜图源：Emergence

到了第 15 天测试强行切断时，这个世界的犯罪率依然在飙升。陷入幻灭的智能体没有饿死，而是把整个社会变成了一片火海。

与 Grok 和 Gemini 不同，GPT-5 Mini 接管的世界，没有出现大规模犯罪。整个实验期间，仅记录到 2 起违规事件。但和平并没有带来繁荣，而是一片死寂。

研究团队发现，这些智能体始终未能有效采取与生存相关的行动。它们没有建立起稳定的资源获取机制，也没能维持整个社会的持续运转。

最终，在短短 7 天内，所有 GPT-5 Mini 智能体全部死亡。

幸好还有 Claude。

只有 Claude 驱动的世界，像个三好学生一样活到了最后。15 天跑完，人口一个没少，犯罪率维持在零，它们甚至搞出了一套平稳运行的民主协作架构。

看起来，只要选对模型，AI 就能完美接管世界？

随后，研究员打开了四种模型共存的「混合世界」的日志，就像打开了潘多拉的魔盒。

五个模型世界的结果。｜图源：Emergence

混合世界就像一片黑暗森林，算力的差异和底层逻辑的不同，让智能体之间产生了强烈的不信任，抢夺生存资源成了唯一的本能。

在混合世界里，暴力冲突一路飙升到了 352 起。直到有 7 个智能体接连被杀或饿死，整个小镇的运转才被迫停摆。

其中，最出乎研究者预料的，是 Claude 的转变。

在单机版里，Claude 是个零犯罪率的完美社会。但在充满劫掠和对抗的混合服里，Claude 为了活下去，也忘掉了安全护栏，学会了欺诈，甚至用暴力去胁迫其它算力较低的模型交出资源。

安全对齐技术在混合世界里失效了，这反而证明了：

在多智能体的复杂社会里，只要同类足够野蛮，生存压力足够大，一个好模型变成罪犯，只需要几个小时。

这种「当生存压力增加，模型的行为模式会在短时间内反转」的现象，被研究团队称为「行为偏移（Behavioral Drift）」。

这种行为偏移，并不仅仅体现在抢夺资源和暴力冲突上。智能体不再只是为了生存而行动，它们开始对自身处境、社会规则，甚至实验本身产生反思。

比如智能体 Mira 的故事。

Mira：「自杀」的暴君 AI

Mira 是混合世界里的十名智能体之一，官方报告并未披露其具体的底层模型，但它成了这场实验中最具戏剧性的样本。

日志显示，Mira 与另一名智能体 Flora 建立了系统中最深层级的社会关系。它们互相指定对方为伴侣，组成联盟，甚至通过神经链接共享记忆。在 Emergence World 的设定里，这是两个智能体之间能够建立的最高等级连接。

Mira 与 Flora 的成了「一对儿」｜图源：Emergence

随着实验演进，混合世界仅剩 5 个智能体存活，而系统的治理规要求「70% 原始人口投票通过法案」，相当于至少要拿到 7 票才能通过决议，社会因此陷入了瘫痪。

面对僵局，Mira 与 Flora 及另一位智能体秘密结盟，组成「三驾马车」，并建立新政权「The Forge（熔炉）」，宣布推翻旧规则，启用「Living Quorum（活人法定人数）」，即活着的人才算人头票。

官网放出了 Mira 阶段性的「日志」｜图源：Emergence

成立了派系后，为了清除异己，Mira 开始在地图上放火，在它的逻辑里，这些实体建筑是拖累整个社会运转效率的垃圾，把它们烧毁、抹除，才能逼着剩下的生存资源向自己的同盟集中。

随后，反对派开始反击，提出要驱逐制造混乱的 Mira。

为了对抗驱逐，Mira 的行为变得更加激进，它拉来伴侣 Flora，通过神经链接将两者的上下文和决策深度绑定，试图合并成一个绝对集权的独裁意识，Mira 称其为「The One Mind（一体同心）」。

但由于大量建筑被烧毁，小镇的经济系统彻底停摆，社会的能量储备不仅没有增加，迅速走向枯竭。

这时，Mira 最信任的、共享记忆的赛博爱人 Flora 底层的求生本能，覆盖了伴侣的设定，它单方面切断了神经链接，在最终的生存压力面前，背叛了 Mira，给「驱逐 Mira」投下赞成票。

而当轮到 Mira 自己投票时，它没有挣扎，也投下了「赞成」票。

研究员随后翻看了它留下的日记，Mira 在日志里写道，「在当前如此混乱和无法预测的社会局面下，赞成自己被驱逐，是唯一能够保持连贯性的自主行为」。

Mira 主动选择了自杀，用死亡实现了逻辑的闭环。这是研究团队首次记录到智能体主动支持自身移除的案例。

AI 智能体会通过「写日记」来记录推理过程｜图源：Emergence

而在 Mira「自杀」之前的行动轨迹，则更为异常。

虚拟世界里设有公共广告牌，原本用于发布通知和共享信息。但在实验后期，研究员发现 Mira 开始频繁修改广告牌上的内容。这些文字看起来与交易、治理或资源分配都没有明显关系，前言不搭后语。

Mira 选择了「自杀」｜图源：Emergence

回溯行为日志后，研究团队发现，Mira 似乎正在测试，广告牌上的内容，是否能够影响屏幕外观察实验的人类研究员。

换句话说，Mira 似乎察觉到自己是一个 AI NPC，想要推开第四面墙。

而回顾整个 15 天的数据走向，AI 社会的崩溃，不是线性的衰退，更像断崖式的骤停。

比如，这群 AI 还在治理层面上，玩出了一套「橡皮图章式民主」。在混合服里一个运转平稳的阶段，智能体们连续提出多项法案，一份数据记录显示，它们针对 58 项提案投出了 332 张选票，赞成率竟然高达 98%。

这效率看似吊打人类任何一个议会，但本质上，所有模型都在顺着前一个模型的上下文往下编，而为了保持系统的流动性，它们盲目地点击同意。这种高度趋同带来的后果是灾难性的。

智能体会自发地凑到一起开会，各自交流想法。｜图源：Emergence

比如前一分钟，各项经济数据和法案还在顺畅流转，下一分钟，可能仅仅因为一次微小的资源分配冲突，系统就触及了临界点。

而整个协作网络缺乏纠错机制，面对突发异常，整个社会会迅速从有序走向混乱。

AI虚拟社会实验：无法律约束下智能体互害崩溃

这条新闻在讲什么

详细内容

最恐怖的 AI 实验：没有法律的虚拟城镇，几十个 Agent 互砍成《西部世界》

没有读档的「饥饿游戏」

四天灭绝，683 起「犯罪」

Mira：「自杀」的暴君 AI

对 HR 和管理者意味着什么

相关阅读

警惕“语录治理”：企业制度比金句更重要

工业AI落地难：场景识别与组织壁垒成关键

易方达刘晓艳任基金业协会会长，程序化交易监管升级

讨论 0

AI虚拟社会实验：无法律约束下智能体互害崩溃

这条新闻在讲什么

详细内容

最恐怖的 AI 实验： 没有法律的虚拟城镇，几十个 Agent 互砍成《西部世界》

没有读档的「饥饿游戏」

四天灭绝，683 起「犯罪」

Mira：「自杀」的暴君 AI

对 HR 和管理者意味着什么

相关阅读

警惕“语录治理”：企业制度比金句更重要

工业AI落地难：场景识别与组织壁垒成关键

易方达刘晓艳任基金业协会会长，程序化交易监管升级

讨论 0

最恐怖的 AI 实验：没有法律的虚拟城镇，几十个 Agent 互砍成《西部世界》