让 Claude Code 写代码,让 Codex 做审查:一种更现实的双 Agent 编程工作流

一句话先讲完

这篇文章的核心不是“Claude Code 和 Codex 谁更强”,而是:把 Claude Code 当主力编码与规划工具,把 Codex 当独立审查者,让两个 Agent 在 PR 流程里互相补位。

作者的推荐流程很简单:Claude Code 先规划和实现,提交 PR 后让 Codex 审查,Codex 找出问题后再让 Claude Code 修复,循环到 review 通过。这个组合的价值在于,它不依赖单个模型一次性做对所有事情,而是把“写代码”和“挑毛病”拆给两个不同风格的工具。

为什么这件事值得关注

AI coding agent 的能力已经不只停留在补全代码。作者提到,他会尽量把电脑上的常规任务交给 coding agent 完成,包括设置预算、做 PPT、写邮件、配置框架、阅读 API 文档并完成集成。

这背后的变化是:Agent 正在从“辅助写代码”变成“替你操作一部分计算机工作流”。如果代码产出速度大幅提高,原来的瓶颈就会转移到需求澄清、方案判断、审查和上线风险控制上。

所以这篇文章真正有价值的地方,不是列举两个工具的功能,而是提出一个更现实的工程判断:不要把一个 Agent 当成万能开发者,要把不同 Agent 放进适合它们的位置。

Claude Code 更适合做主力 Driver

作者更偏向把 Claude Code 作为日常开发时的主力工具。

原因主要有三个。

第一,Claude Code 在规划和澄清需求上表现更好。作者认为它更擅长发现模糊点、主动提问,并提醒哪些决策会影响最终方案。这一点对复杂任务很重要,因为很多编程错误并不是语法错误,而是需求边界、架构取舍或上下文理解出了问题。

第二,Claude Code 的产品功能更贴近日常开发流程。原文提到几个作者常用的点:

这些功能不一定是模型能力本身,但会直接影响开发者使用 Agent 的连续性和操作成本。

第三,作者认为 Claude 桌面端和 Claude Cowork 的体验也更好。因此在需要自己参与、需要持续交互和判断的场景里,Claude Code 更像一个主要协作者。

Codex 的价值在于互补,不只是备用

作者也明确说,Codex 不只是 Claude Code 不可用时的替代品。

原文提到 Claude Code 近期可用率接近 99.0%,作者认为这个稳定性表现不理想,因此 Codex 可以作为重要备用工具。但 Codex 的价值不止于此。

作者最看重 Codex 的三个场景是:

还有一个很关键的体验判断:作者觉得 Codex 更擅长严格遵循用户的直接指令,而 Claude Code 偶尔会做一些用户并没有要求的事。

这点对工程团队很重要。主力开发 Agent 可以更主动、更会规划,但审查 Agent 反而应该更“冷静”:少发挥,多检查,按规则指出问题。

最值得借鉴的流程:Claude 写,Codex 审

原文最有实践价值的是这个循环:

  1. 用 Claude Code 做初始规划和代码实现。
  2. 创建 GitHub PR。
  3. 在 PR 中标记 Codex 做代码审查。
  4. Codex 提出问题。
  5. Claude Code 根据 Codex 的 review 修复。
  6. 重新请求 review,直到通过。

作者说,这个流程已经帮他发现了大量 Claude Code 初次写代码时引入的问题。如果没有 Codex 或人工 review,这些问题可能会进入生产。

这个说法值得重视。因为随着 AI 生成代码速度变快,团队很容易进入一种危险状态:代码越来越多,review 能力却没有同步增长。最后不是开发变快,而是风险堆积变快。

双 Agent 流程的价值,就是把“生成”和“质检”拆开。一个 Agent 负责构建,另一个 Agent 负责反对和检查。两者不需要完全一致,甚至最好不要完全一致。

这不是取消人工审查,而是改变人工审查的位置

原文中有一句判断比较激进:在代码产量极大的情况下,人工 review 已经不现实。

我更保守一点理解:AI review 不应该替代所有人工审查,但应该前置掉大量低级问题和常规风险。

比较合理的团队流程可能是:

这样人工审查不是消失,而是从“逐行找低级 bug”转向“审边界、审风险、审取舍”。

对工程团队的启发

这篇文章最值得带走的不是某个工具功能,而是一个工作流原则:不要问哪个 Agent 最强,要问哪个 Agent 适合放在哪个环节。

Claude Code 这类更会规划和持续协作的工具,适合作为 driver;Codex 这类更适合按规则审查、速度快、可集成 PR 的工具,适合作为 reviewer 或 fallback。

如果团队已经开始大量使用 AI 写代码,建议尽早把以下边界说清楚:

否则,多 Agent 不会自动带来质量提升,只会让修改速度更快、责任边界更模糊。

我的结论

这篇文章的实用价值在于,它把 AI coding 的讨论从“单模型能力比较”推进到了“工程流程设计”。

更成熟的 Agent 使用方式,不是让一个模型从头到尾包办,而是让不同模型承担不同角色:一个负责推进,一个负责质疑;一个负责实现,一个负责审查;一个负责速度,一个负责边界。

如果你已经在团队里使用 Claude Code、Codex 或类似工具,可以先从最小流程开始:主力 Agent 写代码,第二个 Agent 做只读 review,人类只审关键风险。

这比盲目追逐最新模型更可靠,也更接近真实工程生产。