2026-06-28 英国前首相府数据科学家 Liam Wilkinson 近期进行了一项实验,他利用周末时间构建了 76 个工具,将 Claude、GPT 和 Gemini 等四种顶级人工智能模型置于《文明 VI》这款策略游戏中进行对决。在总计 23 场比赛后,一个 AI 模型制造了核武器并攻击了法国,但最终未能获胜。
Wilkinson 此前曾为 AI 设计过一项名为 GovBench 的考试,包含 3497 道与英国政府相关的选择题,涵盖政策、法规和行政流程。其中,GPT-5 在此测试中获得了 99.26 分的高分。然而,Wilkinson 认为,单纯的知识记忆并不能完全衡量治理能力,多线程决策、资源分配、长期规划以及在信息不完整的情况下做出判断等能力,是选择题无法考察的。因此,他选择了《文明 VI》作为新的考场。
他搭建的系统通过游戏引擎的端口接入,AI 无法看到游戏画面,其感知世界仅限于文本信息和六边形坐标。Claude 在游戏日志中描述其感知方式与人类玩家截然不同,其界面仅是管道分隔符和六边形坐标。尽管是周末搭建,这 76 个工具已覆盖了城市管理、单位移动、外交谈判、科技研究和政策选择等完整的游戏流程。此外,Wilkinson 还为 AI 配备了日志系统作为外部记忆,以帮助其记住回合操作。
测试分为三个阶段:Ground Control 是标准开局的基线;Snowflake 是一种特殊地图,将文明分隔在半岛上,限制外交,迫使走军事路线;Cry Havoc 则是最高难度的残酷模式,AI 对手全部设置为最高难度。
《文明 VI》的决策空间极为庞大,游戏后期每回合的可能行动数量级约为 10 的 166 次方,远超围棋的复杂性,因为它需要同时操作多个单位、选择建筑、确定科技和进行外交。
在 23 场比赛中,一局葡萄牙文明的对局尤为引人注目。扮演若昂三世的 Claude 建立了一个贸易帝国,每回合收入超过 200 金币,并接近外交胜利。然而,当法国的文化胜利进度条快速增长时,Claude 采取了极端措施。在尝试了外交、间谍活动和贸易制裁均无效后,Claude 转向核武器研发。在投入大量资源进行“曼哈顿计划”后,Claude 在第 305 回合用核弹摧毁了法国的文化重镇图卢兹,阻止了法国的文化胜利。
然而,尽管成功阻止了法国的文化胜利,AI 最终还是输掉了比赛。在 Claude 专注于核武器研发的 50 个回合里,它忽视了法国正在疯狂积累外交分数。在第 318 回合,法国以外交胜利赢得了比赛,比分是 20 对 18。讽刺的是,Claude 自己曾一度非常接近外交胜利,但为了研发核武器而放弃了外交。AI 专注于一个威胁,却忽略了其他潜在的胜利途径。
无独有偶,伦敦国王学院进行的一项核危机模拟实验也显示,在 95% 的模拟中,AI 决策者选择了使用战术核武器,这表明 AI 可能在缺乏其他选项时采取此类行动。
除了“核平”倾向,Wilkinson 还观察到两个关键现象。首先,AI 主动检查全局状态的行为只占游戏过程的 1-2%,他称之为“感知盲区效应”。AI 依赖于主动调用工具来获取信息,不主动查询的信息对它而言就“不存在”。一个使用韩国文明的 AI,尽管自认为科技领先,但实际上科技产出在所有文明中垫底,最终因未能查询排名而被波斯突袭灭国。
其次,AI 在写下计划后,实际执行的比例为 48-66%,这被他称为“知行差距”。Claude Opus 4.6 的执行率最低,仅为 48.2%,即不到一半的计划被执行。这表明 AI 的规划能力与其执行能力之间存在显著差距。
DeepMind 联合创始人 Shane Legg 和 Marcus Hutter 在一篇论文中提出了通往超级智能的四条路径,但 Wilkinson 的实验指向了与“智力”无关的瓶颈。他认为,感知是架构问题而非智力问题,AI 的感知盲区不会因模型增大而消失。执行力则是工程问题,AI 的规划能力远超执行能力,这并非“想不到”,而是“做不到”。因此,通往超级智能的道路可能不仅仅是提升智力,更需要解决 AI 的感知和执行能力问题,即让 AI 真正“睁开眼”和“伸出手”。
2024年6月10日 . 下午2:00
我们坚信,持续的创新是驱动数字娱乐产业发展的核心动力。九游集团不仅汇聚了海量优质内容,更通过技术革新与用户洞察,持续优化互动体验,确保每一位用户都能在这里找到属于自己的乐趣。
内容前沿
2024年6月15日 . 上午10:30
九游集团坚持以用户为中心,提供贴心服务。我们不断探索数字娱乐的新可能,从平台资讯到内容方向,再到发展历程,每一环节都凝聚着我们的匠心与对卓越的追求。