--- title: "把 AI Coding Agent 变成会持续改进的工程伙伴" source_url: "https://towardsdatascience.com/how-i-continually-improve-my-claude-code/" source_summary: "/home/lin/.hermes/projects/hermes-gsummary-workflow/runs/outputs/20260519-162949-How-I-Continually-Improve-My-Claude-Code-2653629-777971080-summary.md" created: "2026-05-19" type: "tutorial" ---

把 AI Coding Agent 变成会持续改进的工程伙伴

> 适用对象:已经在使用 Claude Code、Codex、Hermes Agent 或类似 AI coding agent 的个人开发者 / 小团队。 > 核心目标:不要只“用” Agent,而是给它建立一个可验证、可回滚、不过度膨胀的持续改进闭环。

1. 一句话原则

AI coding agent 的能力提升,不应该只依赖模型升级;更现实的路径是:

会话记录 / 运行日志
→ 只读复盘
→ 识别高频失败模式
→ 生成候选改进
→ 分层沉淀到文档 / skill / wiki / memory / cron
→ 验证后再进入 active 行为

这篇教程基于 Eivind Kjosbakken 的文章《How I Continually Improve My Claude Code》,但不会照搬“每天自动改规则文件”的做法。这里采用更适合 Hermes / 本地 Agent 工作流的安全版本:先生成候选,后验证,再最小落地

2. 为什么需要持续改进闭环

很多人使用 AI coding agent 的方式是一次性的:

问题是,同样的错误会反复出现:

持续改进闭环要解决的是:让每一次失败都变成下一次更少失败的输入

3. 不要直接自动写全局规则

文章里提到的做法是让 Agent 定时复盘,然后自动更新类似 agents.md 的规则文件。这个方向有价值,但直接照搬有风险。

主要风险:

更安全的原则是:

自动发现问题可以;自动修改 active 行为要非常克制。

4. 推荐架构:五层沉淀

把复盘结果分层,而不是都塞进一个规则文件。

4.1 Project report:先放证据

用于保存复盘报告、候选问题、验证记录。

适合内容:

示例路径:

.hermes/projects/hermes-continual-review/reports/2026-05-week3.md

4.2 Skill:保存可重复流程

适合内容:

判断标准:如果一个流程未来会重复 3 次以上,且有明确触发条件,就考虑 skill。

4.3 Wiki:保存概念和长期知识

适合内容:

Wiki 不应保存大量临时操作日志。

4.4 Memory / User profile:只保存稳定偏好和事实

适合内容:

不适合内容:

4.5 Cron:只调度稳定、低噪音、可回滚的流程

适合内容:

不适合一开始就 daily 自动改配置。

5. 最小可用闭环:一周一次只读复盘

先从最小版本开始。

输入

输出

一份只读报告,包含:

1. 高频失败模式
2. 证据来源
3. 建议落点:memory / skill / wiki / cron / project docs / 不沉淀
4. 风险等级:低 / 中 / 高
5. 是否需要用户审批
6. 最小修改建议
7. 验证方法

不做的事

第一阶段不要自动:

6. 可复制 Prompt:只读复盘版

下面这个 prompt 可以用于 Claude Code、Codex、Hermes 子任务或其他 Agent。

你是 AI coding agent 持续改进审查员。

目标:只读分析最近一段时间的会话/日志,找出可复用的改进候选。

硬性边界:
- 不要修改 memory、skills、wiki、cron、runtime config 或项目代码。
- 不要创建新任务。
- 不要把一次性任务状态当成长期知识。
- 所有建议必须带证据和落点。

请输出:
1. Top 5 高频失败模式
2. 每个失败模式的证据摘要
3. 推荐沉淀层:project report / skill / wiki / memory / cron / discard
4. 为什么不是其他层
5. 风险等级
6. 最小改动建议
7. 验证方法
8. 需要用户审批的事项

7. 可复制 Prompt:候选落地审查版

当只读复盘报告质量稳定后,再用第二个 prompt 审查是否值得落地。

你是 Hermes 知识治理审查员。

输入是一份 continual-review 候选报告。请判断每条候选是否应该进入 active 层。

规则:
- workflow 候选优先进入 skill/reference,不进入 memory。
- 概念知识优先进入 wiki,不进入 skill。
- 稳定用户偏好才考虑 user profile。
- 临时任务进展直接丢弃。
- cron 只能在 one-shot 结果连续稳定后再建议 recurring。
- runtime/config 改动必须有备份、check、doctor、smoke 和回滚路径。

输出表述:
- 采纳 / 暂缓 / 拒绝
- 推荐落点
- 最小修改范围
- 验证方法
- 回滚方式
- 是否需要用户批准

8. Hermes 映射示例

如果你使用 Hermes,可以这样映射文章里的机制。

Claude Code conversation log    → Hermes session_search
Daily review cron               → Hermes cronjob one-shot / weekly job
agents.md                       → AGENTS.md / CLAUDE.md / skill / wiki 分层
review-past-performance skill   → continual-review skill 或 project-local prompt
recap / agent view              → 子任务边界、delegate_task 摘要、cron 输出记录

重点不是工具名字,而是闭环结构:

观察 → 归因 → 候选 → 分层 → 验证 → 最小落地

9. 一个具体例子:Agent 总是忘记跑测试

观察

最近 5 次代码修改里,有 3 次 Agent 在总结时说“已完成”,但没有实际运行测试。

错误落地

不要直接写入全局规则:

永远必须运行所有测试。

这太粗暴,可能导致小文档修改也跑完整测试套件。

更好的候选

沉淀到 coding workflow skill:

当任务修改 src/ 或 tests/ 下代码时,完成前必须运行对应最小测试;
如果测试耗时过长,先运行目标模块测试,并说明未运行全量测试的原因。

验证

下一次代码任务检查:

10. 一个具体例子:Agent 反复问本可查到的问题

观察

Agent 经常问:

项目测试命令是什么?
配置文件在哪里?
wiki 路径是什么?

但这些信息其实可通过文件或已有记忆查到。

推荐改进

补到对应 workflow skill:

提问前先做 prerequisite discovery:
- 查 CLAUDE.md / AGENTS.md
- 查项目 README
- 查已有 skill
- 查 session_search 或 wiki
只有工具无法找回且问题会改变执行路径时,才向用户提问。

不推荐

不要把所有项目路径都写进 memory。普通项目路径会过期,应放项目文档或 wiki index。

11. 一个具体例子:复盘发现适合入 wiki 的文章

观察

某篇文章不是单次新闻,而是提出了稳定方法论,例如“AI coding agent 持续改进闭环”。

推荐落点

不推荐

12. 多 Agent 并发的简化规则

文章提到作者用 Warp 管理多个 Agent。对 Hermes 或其他 Agent 系统,更通用的规则是:

一个子 Agent = 一个清晰边界 = 一个可验证输出

实践建议:

示例任务拆分:

任务 A:只读审查最近 20 条失败会话,输出候选问题。
任务 B:只读审查现有 skills,找出可能承接候选的 skill。
任务 C:只读审查 wiki 是否已有相关概念页。
父任务:合并 A/B/C,提出最小落地方案。

13. 推荐成熟度路线

Level 0:人工复盘

偶尔回看会话,总结失败点。

适合刚开始。

Level 1:one-shot 只读复盘

手动触发一次 Agent 复盘,输出报告。

适合验证 prompt 和报告格式。

Level 2:每周只读复盘

每周 cron 生成候选报告,但不自动改 active 层。

适合个人长期使用。

Level 3:半自动落地

低风险 skill/reference patch 可以由 Agent 提案,人类批准后执行。

适合已有稳定治理规则的环境。

Level 4:受限自动落地

只允许少数低风险、可回滚、带测试的改动自动应用。

大多数个人环境不需要一开始做到这里。

14. 落地检查清单

在把复盘机制变成定时任务前,先检查:

15. 推荐默认策略

如果你是个人开发者或小团队,建议默认采用:

每周一次,只读复盘;
只输出候选,不自动修改;
候选按层分类;
经验证和审批后最小落地;
稳定后才考虑更高频或半自动。

这比“每天自动改规则文件”慢一点,但长期更安全,也更不容易污染 Agent 的长期行为。

16. 结语

AI coding agent 的持续改进不是靠堆更多规则,而是靠一个小而稳定的反馈系统:

少写全局规则,
多保存证据,
按层沉淀,
先验证,再自动化。

当这个闭环跑起来后,Agent 不只是执行工具,而会逐渐贴合你的项目、偏好和工程边界。真正的收益来自长期复利,而不是一次 prompt 优化。