返回作品列表

六大模型横评 Dashboard

对 Claude / ChatGPT / Gemini / DeepSeek / GLM / MiniMax 6 大模型做编程 / 中文 / Agent 调度 / 长文本 / 多模态 / 成本 6 维实测对比。不是排行榜——每个模型一个真实使用故事,对应我做过的具体产品决策。

类型
个人决策框架 + 私人对照表
周期
2026.02 — 至今(持续更新)
团队
独立完成
成果
持续维护的对照表,作为日常模型选型依据
技术栈
Notion 看板 · 自建测试 prompt 集 · 真实任务实测
我的角色
分析师决策框架设计者内容产出
一、

为什么做这件事(Why)

问题

公开 benchmark 解决不了实际选型

作为 AI 重度使用者,我每天真正要回答的问题是:「我现在要做这件具体的事,该用哪个模型」。 公开的 MMLU、HumanEval、Chatbot Arena 等 benchmark 解答不了这个问题,原因有三:

  • 测试任务跟我的实际场景脱节(学术任务 vs 一人公司运营任务)
  • 只给排名不给权衡(这个领先 0.5 分代表什么?)
  • 不计成本(Opus 任务做完成本是 Sonnet 的 5 倍,啥时候值得?)
目标

建立一套个人决策框架

目标不是出一个排行榜,而是下一次我要做 X 类任务时,能凭一份自己信得过的对照表快速决定用哪个模型。 所以这个 dashboard 是决策导向的——每一个模型在每一维度旁边都对应一个我亲身经历的具体使用故事。
二、

6 维评测框架(What)

基于我一人公司场景中真实遇到的任务,我定义了 6 个评测维度:

维度代表任务为什么这个维度
编程能力多文件代码生成、调试、重构OpenClaw + 网站开发的核心场景
中文推理小红书文案、朋友圈写作、Cover Letter 润色国内内容运营 + 求职的核心
Agent 调度多步骤工作流、Tool calling、Function 选择构建多智能体系统的关键能力
长文本长文档总结、跨多文件代码理解Vault 内容消费 + 代码库理解
多模态图片理解、UI 截图反推、PDF 解析简历分析、Bug 截图诊断
单次任务成本完成一个标准任务的 token 消耗 × 单价影响是否值得用顶级模型
参评模型

6 大主流前沿

模型我的部署位置主要用途
Claude Opus 4.7 / SonnetOpenClaw Tier 3(贵 token)战略 + 代码 + 内容
ChatGPT-5对照组 + 多模态场景图像理解、文案备选
Gemini 2.5对照组 + 长文本场景长文档总结
DeepSeek V3 / R1对照组 + 中文推理国内场景成本敏感任务
GLM 4.5 / Z1(智谱)对照组 + 国内 Agent / Function calling国内 Tool-use 任务、中文 Agent 调度
MiniMax M2OpenClaw Tier 1(Nova 秘书)事务调度 + 国内 API 友好
三、

评测方法论(How)

原则 1

真实任务,不造测试集

所有测试任务来自我当周真实遇到的工作——重构 OpenClaw 的某个 Skill、给某个 JD 写定制简历、解析一份 PDF 简历。 这保证测试结果直接映射到我会做的决策上。

原则 2

同任务跑多模型,盲读结果

每个测试任务交给所有 6 个模型,先不看哪个是哪个,盲读评分(1-5 分),最后揭晓。 这避免品牌偏好(比如对 Claude 的偏爱)影响判断。

原则 3

记录单次成本

每次测试记录 input token + output token,按官方定价折算单次任务成本。然后看「质量分 / 成本」性价比。

原则 4

持续记录 + 定期复测

模型版本更新频繁(Opus 4.5 → 4.7 短短几个月),所以每次有新模型 / 大版本发布,我就把同一组任务再跑一遍,记下位次变化,避免半年前的结论一直拿着用。

四、

关键发现(部分)

以下结论基于我自 2026 年 2 月起的实测。具体数据 + 完整使用故事在我的私人对照表里维护,下面摘选 5 条最有决策价值的结论。
01

编程任务:Opus 是天花板,但 Sonnet 的性价比是甜点

复杂多文件重构 Opus 明显胜出,但日常大多数的代码任务 Sonnet 完成度足够,单次成本约为 Opus 的几分之一(按 Anthropic 公开定价折算)。我现在的策略:默认 Sonnet,遇到「这个我自己都没把握的难题」才切 Opus。

02

中文推理:DeepSeek + Claude 双甜点

DeepSeek 在中文表达自然度上明显领先英语原生模型,且成本极低。Claude 在「品味判断」(什么文案更打动人)上仍是天花板。我的小红书文案策略:DeepSeek 起草,Claude 终审。

03

Agent 调度:Claude Sonnet 仍是最稳的

Tool calling 的正确率、函数选择的合理性、错误处理的优雅度,Claude Sonnet 在我的测试中最稳定。这是 OpenClaw 主力调度层选 Claude Code 的核心理由。

04

长文本:Gemini 2.5 在 100K+ 场景明显领先

一次性吃下整本书 / 大型代码库时 Gemini 2.5 的「关键信息回忆率」最高。Claude 的 1M 上下文实战中也很强,但在 100-500K 区间 Gemini 性价比更优。

05

国内任务:MiniMax M2 是被低估的低层调度首选

国内 API、低延迟、单价便宜,作为 Nova 秘书层的底座非常稳。中文表达不如 DeepSeek 但作为「事务调度」绝对够用——这是 OpenClaw Tier 1 选 MiniMax 的根本原因。

五、

反思与收获

方法论上的收获

  • 「不要只看分数」是反复验证的:每次有新模型出来,公开 benchmark 排第一的模型在我的实际任务里经常不如老模型——分数和真实性价比经常错位
  • 盲测的价值:我对 Claude 的偏好真实存在,盲测帮我反复纠正这个偏差
  • 季度复测的必要性:模型版本迭代太快,半年前的结论可能完全失效

对 AI PM 思维的塑造

做这件事让我对「AI PM 该懂什么」有了一个具体的标准:面对一个具体任务,能凭手上的对照表快速给出「用什么模型、大致成本量级、为什么是它」的决策依据。这才是真正能在团队里加价值的能力——而不是只复读公开排行榜。
返回所有作品