让 Claude Code 越用越强:一套可落地的持续改进工作流

> 来源:Towards Data Science《How I Continually Improve My Claude Code》 > 作者:Eivind Kjosbakken > 原文链接:https://towardsdatascience.com/how-i-continually-improve-my-claude-code/ > 提炼目标:把文章观点整理成一套可分享、可执行、可复盘的 Claude Code / AI coding agent 持续改进教程。

0. 核心结论

Claude Code 的效率提升,不只来自模型升级,也来自你能否让它从过去的使用记录中学习。

最小可落地闭环是:

回顾最近会话 → 找出重复错误和低效操作 → 生成改进建议 → 沉淀到项目上下文/技能/脚本 → 下一次任务自动复用

一句话:不要只使用默认 Claude Code,要建立一个让 Claude Code 每天复盘、修正、沉淀经验的反馈循环。

---

1. 这套方法解决什么问题?

很多人使用 Claude Code 时,会反复遇到这些问题:

这些问题的本质不是模型不够强,而是没有把使用过程中的教训转成下一次可复用的规则

本文的做法是:让 Claude Code 定期回顾自己的历史表现,把问题转成明确的改进项。

---

2. 你最终会得到什么?

落地后,你应该得到 5 类产物:

1. 一条每日或每周执行的复盘任务; 2. 一份 AI coding 会话复盘报告; 3. 更新后的 AGENTS.md / CLAUDE.md / 项目说明; 4. 针对重复问题创建的技能、脚本或检查清单; 5. 一套多 agent 并行管理规则。

这些产物会让 Claude Code 更懂你的:

---

3. 适用场景

适合:

不适合一上来就自动化的情况:

安全原则:复盘可以自动,规则落地要审查。

---

4. 第一步:创建“过去表现复盘”提示词

先写一个固定复盘 prompt。可以保存为 review-past-performance.md

# Review Past Performance

请回顾我最近 24 小时与 Claude Code / coding agent 的交互记录。

重点检查:

1. 我在哪些任务上卡住了?
2. agent 是否做了错误假设?
3. agent 是否进行了不必要的工具调用?
4. 哪些上下文本该提前提供?
5. 哪些错误重复出现?
6. 哪些验证步骤缺失或太晚执行?
7. 哪些问题适合沉淀到 AGENTS.md / CLAUDE.md?
8. 哪些问题适合做成脚本、skill、pre-commit hook 或测试命令?
9. 哪些经验是跨仓库通用的?哪些只适用于当前仓库?

请输出:

## 今日主要问题
- 问题:
- 证据:
- 影响:

## 可立即修复的流程问题
- 修复项:
- 应写入哪里:AGENTS.md / CLAUDE.md / skill / script / test / docs
- 风险:

## 不应沉淀的内容
列出只适用于一次性任务、可能过期、或证据不足的内容。

## 建议补丁
只给出建议,不要直接修改文件,除非我明确授权。

这段 prompt 的关键不是“让 AI 总结”,而是让它把复盘结果分成:

---

5. 第二步:手动跑一次复盘,不要急着自动化

在建立 cron 之前,先手动执行 2-3 次。

目的:确认它输出的是有用建议,而不是泛泛而谈。

你可以这样要求 Claude Code:

请根据 review-past-performance.md 的规则,只读回顾最近的 coding agent 会话。
不要修改任何文件。
输出可执行建议,并标注每条建议应该进入 AGENTS.md、CLAUDE.md、skill、script、test,还是不应沉淀。

人工检查时重点看:

[ ] 是否引用了具体问题,而不是空泛建议?
[ ] 是否区分了临时任务和长期规则?
[ ] 是否避免保存敏感信息?
[ ] 是否没有把一次性路径、PR 号、临时错误写成长期规则?
[ ] 是否给出了明确落点:文档、技能、脚本、测试?
[ ] 是否包含回滚或删除过时规则的建议?

只有当手动结果稳定有用后,再考虑定时化。

---

6. 第三步:把复盘结果沉淀到正确位置

复盘建议不能都塞进一个文件。推荐这样分层:

写入 AGENTS.md / CLAUDE.md

适合:

示例:

## Agent Rules

- 修改数据库执行逻辑前,必须先阅读 `core/db_executor.py` 和相关测试。
- 新增功能必须补 mock 测试。
- 提交前运行 `pytest tests/ -v`。
- 不要修改 `.env`,只更新 `.env.example`。

做成 skill / workflow

适合:

示例:

当用户要求修改生产 SQL 执行流程时:
1. 先读配置和测试;
2. 禁止改事务核心逻辑;
3. 写计划;
4. 补 mock 测试;
5. 跑完整测试;
6. 输出风险说明。

做成脚本

适合:

示例:

#!/usr/bin/env bash
set -euo pipefail

python -m ruff check .
python -m pytest tests/ -v
git diff --check

不应沉淀

不要保存:

---

7. 第四步:设置定时复盘

当手动复盘稳定后,可以设置 cron。

Linux 示例:

crontab -e

加入:

0 2 * * * /home/you/bin/review-claude-code-performance.sh >> /home/you/logs/claude-code-review.log 2>&1

示例脚本 review-claude-code-performance.sh

#!/usr/bin/env bash
set -euo pipefail

cd /path/to/your/workspace

# 伪命令:按你的 Claude Code / CLI 环境替换
claude-code run \
  --prompt-file /path/to/review-past-performance.md \
  --readonly \
  --output /path/to/reviews/$(date +%F)-review.md

如果你的工具不支持这样的 CLI 参数,也可以保留为“每日手动运行”。重点不是 cron 本身,而是固定频率复盘

建议节奏:

---

8. 第五步:建立“规则升级”审核门槛

不要让 AI 自动把所有建议写进长期上下文。建议使用三档处理:

A. 立即沉淀
- 重复出现 2 次以上;
- 有明确证据;
- 对未来任务有帮助;
- 不含敏感信息;
- 不依赖临时状态。

B. 观察
- 只出现 1 次;
- 可能是偶发问题;
- 适用边界不清楚;
- 需要再验证。

C. 丢弃
- 一次性任务状态;
- 很快会过期;
- 没有证据;
- 可能误导未来 agent;
- 含敏感信息。

推荐在复盘报告末尾加一个表述:

请不要直接修改长期规则。
先把建议分成“立即沉淀 / 观察 / 丢弃”,并说明理由。

---

9. 第六步:优化多 agent 并发管理

文章里作者提到一个经验阈值:同时运行超过 7 个 agent 后,人类容易失去控制。

这个数字不是通用标准,但提醒很重要:并发 agent 的瓶颈通常是人的注意力,不是机器数量。

建议这样管理:

同一仓库

多个仓库

人类侧状态管理

每个 agent 都应该能回答:

你现在在做什么?
已经完成什么?
卡在哪里?
下一步是什么?
需要我决策什么?
验证结果是什么?

如果工具有 recap / summary 功能,开启它。没有的话,就要求 agent 每轮关键节点输出短 recap。

---

10. 第七步:让 agent 自主推进,只在必要时问你

长任务里,低效交互通常是这样的:

人:下一步做什么?
AI:我建议先看文件。
人:那你看吧。
AI:我看完了,建议修改。
人:那你改吧。
AI:改完了,要不要测试?

这会把人变成“确认按钮”。

更好的 prompt 是:

请尽可能自主完成实现、测试和验证。
不要因为普通中间步骤停下来问我。

只有在以下情况才向我提问:
1. 缺少关键业务信息;
2. 存在不可逆或高风险副作用;
3. 多个方案会显著影响架构方向;
4. 需要访问我没有提供的外部凭据或系统;
5. 继续执行可能破坏数据或生产环境。

每完成一个阶段,请给出:
- 已完成事项;
- 修改文件;
- 验证命令和结果;
- 下一步计划。

这个 prompt 的目标是让 agent 从“问答机器人”变成“可监督执行者”。

---

11. 第八步:给 agent 自我验证能力

如果你希望 agent 独立运行更久,就必须给它验证路径。

至少提供:

## Verification

- 单元测试:`pytest tests/ -v`
- 格式检查:`ruff check .`
- 类型检查:`ty check .`
- 构建:`npm run build`
- 白盒检查:`git diff --check`

没有验证命令,agent 就只能靠“看起来对”。

推荐在 AGENTS.md / CLAUDE.md 里写清楚:

## Before declaring done

1. Run the narrowest relevant test first.
2. Then run the project-level validation command if the change is broad.
3. Report exact commands and outcomes.
4. If tests fail, fix or explain why the failure is unrelated.

---

12. 第九步:每周清理一次上下文债务

持续沉淀也会带来副作用:规则会变多、变旧、互相冲突。

所以需要定期清理:

[ ] 哪些规则已经过期?
[ ] 哪些规则太细,应该删除?
[ ] 哪些规则重复?
[ ] 哪些规则是一次性任务残留?
[ ] 哪些规则应该从全局下沉到项目?
[ ] 哪些规则应该从项目升级成通用 skill?

记住:上下文不是越多越好,而是越准确越好。

---

13. 可直接复制的复盘模板

# AI Coding Agent Daily Review

## Scope
回顾最近 24 小时的 AI coding agent 会话。只读分析,不直接修改文件。

## Look for
- 重复错误
- 错误假设
- 缺失上下文
- 不必要工具调用
- 没有验证就宣布完成
- 反复询问本可自主判断的问题
- 多 agent 并发导致的人类上下文切换问题

## Output

### 1. Repeated mistakes
- Mistake:
- Evidence:
- Proposed prevention:
- Where to store: AGENTS.md / CLAUDE.md / skill / script / test / discard

### 2. Missing context
- Missing context:
- Where it should be documented:
- Suggested text:

### 3. Tooling opportunities
- Repeated manual step:
- Candidate script/hook/test:
- Risk:

### 4. Agent autonomy improvements
- Where agent stopped too early:
- What prompt/rule would prevent it:

### 5. Do not preserve
- Temporary or stale facts that should not become long-term context:

---

14. 可直接复制的 agent 自主执行提示词

你是 coding agent。请尽可能自主完成任务,不要把我当成每一步的确认按钮。

工作规则:
1. 先阅读项目上下文文件,如 AGENTS.md、CLAUDE.md、README、测试说明。
2. 明确任务边界和风险。
3. 使用最小必要修改。
4. 自己运行相关测试和验证命令。
5. 遇到失败先尝试定位和修复。
6. 只有遇到关键业务歧义、不可逆副作用、生产数据风险、凭据缺失或架构方向选择时,才停下来问我。

完成时输出:
- 修改了什么;
- 为什么这样改;
- 运行了哪些验证;
- 结果是什么;
- 是否还有风险或后续建议。

---

15. 最小落地版本

如果你只想今天开始,不要做复杂系统。先做这 4 步:

1. 写一个 review-past-performance.md; 2. 每周手动让 Claude 回顾最近会话; 3. 只把重复出现、证据明确的规则写进 AGENTS.md / CLAUDE.md; 4. 给 agent 加一句自主执行 prompt:

请尽可能自主完成实现、测试和验证;只有遇到关键业务歧义、不可逆副作用或生产风险时才停下来问我。

做到这一步,就已经能减少大量重复解释和低价值确认。

---

16. 常见坑

坑 1:自动把复盘建议写进长期规则

不要这样做。AI 总结出来的是候选建议,不是事实。

坑 2:把一次性任务状态沉淀下来

例如“某 PR 已提交”“某 bug 已修好”“今天测试失败”不应进入长期上下文。

坑 3:只增加规则,不删除规则

长期上下文会腐化。必须定期删掉过时规则。

坑 4:并发 agent 越多越好

并发上限取决于人的注意力。超过你能管理的数量,只会增加混乱。

坑 5:让 agent 自主执行,但不给验证命令

没有测试和验证,自主执行会变成自主猜测。

---

17. 总结

这篇文章真正值得带走的不是“凌晨 2 点跑一个 cron”,而是一种 AI coding 的复利机制:

> 每次 AI coding 的失败和低效,都应该变成下一次更少出错的规则、脚本或上下文。

落地路径很简单:

1. 复盘最近会话; 2. 找重复错误; 3. 区分长期规则和临时噪音; 4. 写入合适的上下文层; 5. 给 agent 自主执行和自我验证能力; 6. 定期清理过时规则。

当你开始同时管理多个 AI coding agent 时,真正的瓶颈会从“模型会不会写代码”变成“你能不能管理好这些 agent 的上下文、节奏和验证闭环”。