codex exec 或原生 MCP Server 调用 Codex,根据任务类型选择 Plan-Execute 或 Independent Review 模式,是当前最成熟、最高效的 Check and Balance 方案。ACP 适用于 IDE 场景而非纯终端 agent-to-agent 协作。
| 维度 | Claude Code (Opus 4.6) | Codex CLI (GPT-5.4) |
|---|---|---|
| 上下文窗口 | 200K(1M beta) | 1M |
| 最大输出 | 128K tokens | — |
| 核心优势 | Adaptive Thinking、精确执行、Agent Teams 并行编排 | 广度分析、Tool Search(省 47% token)、原生 Computer Use |
| SWE-Bench Pro | ~45-46% | 57.7% |
| 编排原语 | Subagent、Agent Teams、Skills、Hooks | 无内置编排(需外部工具) |
| MCP 角色 | 客户端(连接外部工具) | 客户端 + 服务端(可被调用) |
| 沙箱模式 | 无原生沙箱 | read-only / workspace-write / danger-full-access |
| 非交互模式 | claude -p "prompt" | codex exec |
| Claude Code 盲区 | Codex 可弥补 | 反之 |
|---|---|---|
| 单一模型视角可能遗漏的 bug | GPT-5.4 不同训练数据→不同关注点 | Opus 4.6 精确推理补充 Codex 的执行偏差 |
| 缺乏原生沙箱保护 | Codex read-only 沙箱确保审查安全 | Claude Code 的 Hooks 系统提供细粒度控制 |
| 编排开销消耗上下文 | Codex 1M 上下文处理大型代码库分析 | Claude Code 的 Subagent 隔离上下文避免污染 |
核心洞察: agent-mux 项目作者的总结——"what Opus misses in a code review, Codex catches"。这不是冗余,而是互补覆盖。两个模型有不同的训练数据和推理偏好,对同一段代码会关注不同的问题。
| 评估维度 | Claude Code → Codex | Codex → Claude Code |
|---|---|---|
| 编排能力 | ★★★★★ | ★★☆☆☆ |
| 调用便利性 | ★★★★★ | ★★☆☆☆ |
| 结果综合 | ★★★★★ | ★★☆☆☆ |
| 上下文管理 | ★★★★★ | ★★☆☆☆ |
| 社区验证 | ★★★★★ | ★★☆☆☆ |
关键理据:
codex exec 就是为非交互式/脚本化调用设计的,支持 --json 输出、--sandbox read-only 沙箱、--ephemeral 无痕执行。例外: 如果你在 IDE(Zed/JetBrains)中工作,ACP 让两者平等地在编辑器中协作,此时无明确主从关系。
| 维度 | 直接 CLI (codex exec) | MCP Server | ACP |
|---|---|---|---|
| 设置复杂度 | 零 | 低(一条命令) | 中(需桥接器) |
| 协议标准化 | 低 | 高 | 高 |
| 终端原生性 | 完美 | 好 | 差(面向编辑器) |
| 上下文开销 | 最低 | 中 | 中 |
| 自动化程度 | 手动触发 | Claude Code 可自主决定调用时机 | 编辑器驱动 |
ACP(Agent Client Protocol)是由 Zed 发起(2025年8月)、后由 Zed 和 JetBrains 共同开发的开放标准。核心使命:标准化编辑器/IDE 与编程代理之间的通信,类比 LSP。
ACP separates agents from editors. Agents implement one protocol and work everywhere. Editors adopt one protocol and support every agent.
为什么 ACP 不适合纯终端的 agent-to-agent 场景:
codex exec 多一层抽象但无额外价值。# 让 Codex 审查当前目录的代码
codex exec -m gpt-5.4 -c model_reasoning_effort=xhigh \
--sandbox read-only --ephemeral \
"Review the code in src/ for bugs, security issues, and performance problems"
关键参数:
-m gpt-5.4:使用 GPT-5.4 模型-c model_reasoning_effort=xhigh:最高推理深度--sandbox read-only:只读沙箱--ephemeral:不保存 session--json:可选,输出 JSONL 便于程序化处理# 使用 Codex 原生 MCP Server
claude mcp add codex -- codex mcp-server
# 或使用社区增强版(更多功能)
claude mcp add codex-cli -- npx -y codex-mcp-server
配置完成后,Claude Code 自动发现 Codex 工具,可在对话中自然使用。
核心流程:
codex exec(不传入 Claude 的分析,确保独立性)codex exec 生成详细实现计划(禁止写代码)codex exec 审查 git diff 与原计划的偏差| 因素 | 直接 CLI 方式 | MCP Server 方式 |
|---|---|---|
| API 成本 | 按实际 token 计费 | 同左 + MCP schema 额外 token |
| 延迟 | Codex exec 启动约 2-5 秒 + 推理时间 | 同左 + MCP 握手开销 |
| 上下文消耗 | Codex 输出回到 Claude Code 主上下文 | MCP 工具定义占用部分上下文 |
优化建议: 审查任务用 --sandbox read-only;简单任务用 -c model_reasoning_effort=medium;大型代码库利用 Codex 1M 上下文。
Q1: 怎样配合更好?
利用各自优势分工:Codex 擅长广度分析、计划制定、代码审查;Claude Code 擅长精确执行、编排协调。两者交叉验证实现盲区互补。
Q2: 谁调谁?
Claude Code 调 Codex 更好。Claude Code 有完整编排基础设施,Codex 的 codex exec 天然适合被编排。
Q3: 直接命令行 vs ACP?
ACP 是编辑器-Agent 标准化协议,核心价值在 IDE 集成。纯终端场景下,直接 CLI 或 MCP Server 是更优选择。
Q4: 具体方案?
从方案 A(直接 CLI)起步 → 升级方案 B(MCP Server)→ 日常使用方案 C/D(Super Review / Plan-Execute-Review)。
# 1. 确保两个工具都已安装
npm i -g @openai/codex
# 2. 验证 Codex 可用
codex exec -m gpt-5.4 --sandbox read-only --ephemeral "Hello, respond with OK"
# 3. (可选)配置 MCP Server
claude mcp add codex -- codex mcp-server
# 4. 开始使用(在 Claude Code 中)
# "请用 codex 帮我审查 src/ 目录的代码"
调研日期: 2026-03-08 | 数据有效期: 至 2026-06(AI 工具领域 3-6 个月窗口)