为什么无论是 chatgpt 还是 deepseek 都会在 24 点游戏上表现的这么差？

今日头条 @jinritoutiao · 2天前 · 已编辑

为什么无论是 chatgpt 还是 deepseek 都会在 24 点游戏上表现的这么差？

24点游戏是一个经典的数学益智游戏，规则很简单：给定4个1-13的数字，通过加减乘除和括号组合，使结果等于24。听起来容易，但对AI来说却异常困难。无论是ChatGPT还是DeepSeek，在面对这个看似简单的游戏时，表现都令人失望。

1. 问题空间的复杂性

表面上看，4个数字和4种运算符的组合有限，但实际上，24点游戏的解题路径极其复杂。每个数字可以使用一次，运算符可以重复使用，括号的位置变化多端。这种组合爆炸让AI难以通过暴力搜索找到正确答案。人类玩家依赖直觉和模式识别，而AI往往陷入穷举的泥潭。

2. 大模型的训练目标不匹配

ChatGPT和DeepSeek都是基于大规模文本数据训练的语言模型，它们的核心能力是理解和生成自然语言，而非执行精确的数学推理。24点游戏需要严格的算术计算和逻辑推导，这与语言模型的训练目标存在根本差异。模型可能知道如何计算，但无法保证每一步都准确无误。

3. 缺乏专门的推理模块

24点游戏本质上是一个约束满足问题（CSP），需要系统性的搜索和回溯能力。目前的通用大模型缺乏专门的符号推理模块，无法像专业的解题系统（如Mathematica或Prolog）那样高效处理这类问题。尽管可以通过提示工程（prompt engineering）引导模型分步思考，但效果依然有限。

4. 评估标准的模糊性

人类在玩24点时，会不断尝试不同的组合，并根据中间结果调整策略。而AI模型通常是一次生成答案，缺乏动态调整的能力。即使使用思维链（Chain-of-Thought）技术，模型也可能在中间步骤出错，导致最终答案偏离目标。

5. 数据稀缺与过拟合风险

24点游戏的训练数据在互联网上相对较少，模型很难从预训练中获得足够的领域知识。即使通过微调（fine-tuning）提升表现，也可能面临过拟合的风险——模型记住了特定的题目解法，却无法泛化到新题目。

未来方向：神经符号混合系统

要让AI在24点游戏中表现出色，可能需要结合神经网络和符号推理的混合系统。例如，用大模型生成可能的解题思路，再用符号引擎验证其正确性。这种生成-验证范式已在数学推理和代码生成中取得进展，或许是AI攻克24点的关键。

总之，24点游戏的挑战揭示了当前AI在数学推理和符号计算上的短板。随着神经符号融合技术的发展，未来我们或许能看到AI在这个经典游戏上展现真正的人类水平表现。

💬 0

帖子详情

为什么无论是 chatgpt 还是 deepseek 都会在 24 点游戏上表现的这么差？

为什么无论是 chatgpt 还是 deepseek 都会在 24 点游戏上表现的这么差？