元旦献礼：谁才是o1的最佳平替？！

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“外挂”，专注于分享AI全维度知识，包括但不限于AI科普，AI工具测评，AI效率提升，AI行业洞察。关注我，AI之路不迷路，2025我们继续出发。

他来了，他来了，他带着新推理模型走来了。

自从去年9月12日（没错，已经是去年了，各位小伙伴新年快乐！！！）OpenAI官宣了推理模型o1后，国内各个AI厂商纷纷摩拳擦掌，陆续推出了自家的推理模型，颇有2023年卷大模型那会的架势。

这一次，是智谱。

智谱于2024年的最后一天，官宣了新推理模型GLM-Zero系列，本次发布的是预览版本：GLM-Zero-Preview。

技术方面，当前几乎所有的推理模型都是基于强化学习训练来增强模型的推理能力的，GLM-Zero-Preview也不例外。以内置思维链的形式，采用多步推理机制，推理模型（这里泛指当前大多数推理模型）能够自主对复杂问题进行拆解、验证和纠错，通过一系列中间步骤逐步推导结果。这样得到的答案自然比通用模型脱口而出的答案质量更高，但随之而来的，是算力消耗的加剧。

性能表现方面，从智谱官方给出的基准测试对比结果来看，GLM-Zero-Preview基本能和o1-preview打得有来有回，准确的说，在多个基准测试中超过了o1-preview，仅在超高难度的GPQA Diamond博士级科学问答基准测试中，以59.1% vs. 73.3%的成绩败给了o1-preview。

但模型这东西，基准测试只是一方面，好不好用，手底下才能见真章。

今天就来横向来一波对比测试，看看这些声称对标OpenAI o1的推理模型，到底哪个可以作为o1的平替。参赛选手包括（排名不分先后）：

o1
DeepSeek-R1-Lite
k0-math
QwQ-32B-preview
GLM-Zero-Preview：本篇文章的“猪脚”。

1. 帽子颜色问题

有 10 个人站成一列纵队，从 10 顶黄帽子和 9 顶蓝帽子中，取出 10 顶分别给每个人戴上。每个人都看不见自己头上的帽子颜色，却只能看见站在前面那些人的帽子颜色。站在最后的第十个人说：“我虽然看见了你们每个人头上的帽子，但仍然不知道自己头上帽子的颜色。”依次类推，直到第二个人也说不知道自己头上帽子的颜色。出乎意料的是，第一个人却说：“我知道自己头上帽子的颜色了。”请问：第一个人头上戴的是什么颜色的帽子？他为什么知道呢？

正确答案

第一个人头上戴的是黄帽子。

各模型表现总结

模型	⏱️ 推理时长	准确性	📝 备注
o1	13秒	✅	答案完全正确，推理清晰、简洁
DeepSeek-R1-Lite	40秒	✅	虽然中间出现几次自我否定，但最终得出正确答案
k0-math	—	✅	回答正确，推理过程思路清晰
QwQ-32B-preview	—	✅	多次更换思考方式，回答较长，但结论正确
GLM-Zero-Preview	—	✅	小问题：错误描述了第10人能否看到其他人；输出中意外夹杂一句英文

`o1`

推理时间13秒，回答完全正确。

`DeepSeek-R1-Lite`

推理用时40秒，回答正确。但在思考过程中多次出现了自己否定自己的情形。

`k0-math`

由于Kimi的k0-math是直接输出思考过程，无法确定思考时间。回答正确，推理过程思路清晰，没有太多杂七杂八的思考。

`QwQ-32B-preview`

QwQ的回答太长了，大概换了3、4种思考方式，不过最终得出了正确的答案。

长度原因，截取其中一段回答给你们感受一下。

`GLM-Zero-Preview`

智谱回答正确。但在推理过程中存在一个小瑕疵，题目中明确说明第10个人站在最后，意味着第10个人能看清所有人的帽子，但GLM-Zero-Preview提到“第10个人看不到任何人”。另外，输出的结果中突然冒出了一句英文回答。