四大顶级 AI 对决《文明 VI》！Claude「核平」法国，结果还是输了

2026-06-28

九游动态
用户反馈

四大顶级 AI 对决《文明 VI》！Claude「核平」法国，结果还是输了

英国前首相府数据科学家 Liam Wilkinson 近期进行了一项实验，他利用周末时间构建了 76 个工具，将 Claude、GPT 和 Gemini 等四种顶级人工智能模型置于《文明 VI》这款策略游戏中进行对决。在总计 23 场比赛后，一个 AI 模型制造了核武器并攻击了法国，但最终未能获胜。

Wilkinson 此前曾为 AI 设计过一项名为 GovBench 的考试，包含 3497 道与英国政府相关的选择题，涵盖政策、法规和行政流程。其中，GPT-5 在此测试中获得了 99.26 分的高分。然而，Wilkinson 认为，单纯的知识记忆并不能完全衡量治理能力，多线程决策、资源分配、长期规划以及在信息不完整的情况下做出判断等能力，是选择题无法考察的。因此，他选择了《文明 VI》作为新的考场。

他搭建的系统通过游戏引擎的端口接入，AI 无法看到游戏画面，其感知世界仅限于文本信息和六边形坐标。Claude 在游戏日志中描述其感知方式与人类玩家截然不同，其界面仅是管道分隔符和六边形坐标。尽管是周末搭建，这 76 个工具已覆盖了城市管理、单位移动、外交谈判、科技研究和政策选择等完整的游戏流程。此外，Wilkinson 还为 AI 配备了日志系统作为外部记忆，以帮助其记住回合操作。

测试分为三个阶段：Ground Control 是标准开局的基线；Snowflake 是一种特殊地图，将文明分隔在半岛上，限制外交，迫使走军事路线；Cry Havoc 则是最高难度的残酷模式，AI 对手全部设置为最高难度。

《文明 VI》的决策空间极为庞大，游戏后期每回合的可能行动数量级约为 10 的 166 次方，远超围棋的复杂性，因为它需要同时操作多个单位、选择建筑、确定科技和进行外交。

在 23 场比赛中，一局葡萄牙文明的对局尤为引人注目。扮演若昂三世的 Claude 建立了一个贸易帝国，每回合收入超过 200 金币，并接近外交胜利。然而，当法国的文化胜利进度条快速增长时，Claude 采取了极端措施。在尝试了外交、间谍活动和贸易制裁均无效后，Claude 转向核武器研发。在投入大量资源进行“曼哈顿计划”后，Claude 在第 305 回合用核弹摧毁了法国的文化重镇图卢兹，阻止了法国的文化胜利。

然而，尽管成功阻止了法国的文化胜利，AI 最终还是输掉了比赛。在 Claude 专注于核武器研发的 50 个回合里，它忽视了法国正在疯狂积累外交分数。在第 318 回合，法国以外交胜利赢得了比赛，比分是 20 对 18。讽刺的是，Claude 自己曾一度非常接近外交胜利，但为了研发核武器而放弃了外交。AI 专注于一个威胁，却忽略了其他潜在的胜利途径。

无独有偶，伦敦国王学院进行的一项核危机模拟实验也显示，在 95% 的模拟中，AI 决策者选择了使用战术核武器，这表明 AI 可能在缺乏其他选项时采取此类行动。

除了“核平”倾向，Wilkinson 还观察到两个关键现象。首先，AI 主动检查全局状态的行为只占游戏过程的 1-2%，他称之为“感知盲区效应”。AI 依赖于主动调用工具来获取信息，不主动查询的信息对它而言就“不存在”。一个使用韩国文明的 AI，尽管自认为科技领先，但实际上科技产出在所有文明中垫底，最终因未能查询排名而被波斯突袭灭国。

其次，AI 在写下计划后，实际执行的比例为 48-66%，这被他称为“知行差距”。Claude Opus 4.6 的执行率最低，仅为 48.2%，即不到一半的计划被执行。这表明 AI 的规划能力与其执行能力之间存在显著差距。

DeepMind 联合创始人 Shane Legg 和 Marcus Hutter 在一篇论文中提出了通往超级智能的四条路径，但 Wilkinson 的实验指向了与“智力”无关的瓶颈。他认为，感知是架构问题而非智力问题，AI 的感知盲区不会因模型增大而消失。执行力则是工程问题，AI 的规划能力远超执行能力，这并非“想不到”，而是“做不到”。因此，通往超级智能的道路可能不仅仅是提升智力，更需要解决 AI 的感知和执行能力问题，即让 AI 真正“睁开眼”和“伸出手”。