对 Claude / ChatGPT / Gemini / DeepSeek / GLM / MiniMax 6 大模型做编程 / 中文 / Agent 调度 / 长文本 / 多模态 / 成本 6 维实测对比。不是排行榜——每个模型一个真实使用故事,对应我做过的具体产品决策。
作为 AI 重度使用者,我每天真正要回答的问题是:「我现在要做这件具体的事,该用哪个模型」。 公开的 MMLU、HumanEval、Chatbot Arena 等 benchmark 解答不了这个问题,原因有三:
基于我一人公司场景中真实遇到的任务,我定义了 6 个评测维度:
| 维度 | 代表任务 | 为什么这个维度 |
|---|---|---|
| 编程能力 | 多文件代码生成、调试、重构 | OpenClaw + 网站开发的核心场景 |
| 中文推理 | 小红书文案、朋友圈写作、Cover Letter 润色 | 国内内容运营 + 求职的核心 |
| Agent 调度 | 多步骤工作流、Tool calling、Function 选择 | 构建多智能体系统的关键能力 |
| 长文本 | 长文档总结、跨多文件代码理解 | Vault 内容消费 + 代码库理解 |
| 多模态 | 图片理解、UI 截图反推、PDF 解析 | 简历分析、Bug 截图诊断 |
| 单次任务成本 | 完成一个标准任务的 token 消耗 × 单价 | 影响是否值得用顶级模型 |
| 模型 | 我的部署位置 | 主要用途 |
|---|---|---|
| Claude Opus 4.7 / Sonnet | OpenClaw Tier 3(贵 token) | 战略 + 代码 + 内容 |
| ChatGPT-5 | 对照组 + 多模态场景 | 图像理解、文案备选 |
| Gemini 2.5 | 对照组 + 长文本场景 | 长文档总结 |
| DeepSeek V3 / R1 | 对照组 + 中文推理 | 国内场景成本敏感任务 |
| GLM 4.5 / Z1(智谱) | 对照组 + 国内 Agent / Function calling | 国内 Tool-use 任务、中文 Agent 调度 |
| MiniMax M2 | OpenClaw Tier 1(Nova 秘书) | 事务调度 + 国内 API 友好 |
所有测试任务来自我当周真实遇到的工作——重构 OpenClaw 的某个 Skill、给某个 JD 写定制简历、解析一份 PDF 简历。 这保证测试结果直接映射到我会做的决策上。
每个测试任务交给所有 6 个模型,先不看哪个是哪个,盲读评分(1-5 分),最后揭晓。 这避免品牌偏好(比如对 Claude 的偏爱)影响判断。
每次测试记录 input token + output token,按官方定价折算单次任务成本。然后看「质量分 / 成本」性价比。
模型版本更新频繁(Opus 4.5 → 4.7 短短几个月),所以每次有新模型 / 大版本发布,我就把同一组任务再跑一遍,记下位次变化,避免半年前的结论一直拿着用。
复杂多文件重构 Opus 明显胜出,但日常大多数的代码任务 Sonnet 完成度足够,单次成本约为 Opus 的几分之一(按 Anthropic 公开定价折算)。我现在的策略:默认 Sonnet,遇到「这个我自己都没把握的难题」才切 Opus。
DeepSeek 在中文表达自然度上明显领先英语原生模型,且成本极低。Claude 在「品味判断」(什么文案更打动人)上仍是天花板。我的小红书文案策略:DeepSeek 起草,Claude 终审。
Tool calling 的正确率、函数选择的合理性、错误处理的优雅度,Claude Sonnet 在我的测试中最稳定。这是 OpenClaw 主力调度层选 Claude Code 的核心理由。
一次性吃下整本书 / 大型代码库时 Gemini 2.5 的「关键信息回忆率」最高。Claude 的 1M 上下文实战中也很强,但在 100-500K 区间 Gemini 性价比更优。
国内 API、低延迟、单价便宜,作为 Nova 秘书层的底座非常稳。中文表达不如 DeepSeek 但作为「事务调度」绝对够用——这是 OpenClaw Tier 1 选 MiniMax 的根本原因。