--- title: "把 AI Coding Agent 变成会持续改进的工程伙伴" source_url: "https://towardsdatascience.com/how-i-continually-improve-my-claude-code/" source_summary: "/home/lin/.hermes/projects/hermes-gsummary-workflow/runs/outputs/20260519-162949-How-I-Continually-Improve-My-Claude-Code-2653629-777971080-summary.md" created: "2026-05-19" type: "tutorial" ---

把 AI Coding Agent 变成会持续改进的工程伙伴

> 适用对象：已经在使用 Claude Code、Codex、Hermes Agent 或类似 AI coding agent 的个人开发者 / 小团队。 > 核心目标：不要只“用” Agent，而是给它建立一个可验证、可回滚、不过度膨胀的持续改进闭环。

1. 一句话原则

AI coding agent 的能力提升，不应该只依赖模型升级；更现实的路径是：

会话记录 / 运行日志
→ 只读复盘
→ 识别高频失败模式
→ 生成候选改进
→ 分层沉淀到文档 / skill / wiki / memory / cron
→ 验证后再进入 active 行为

这篇教程基于 Eivind Kjosbakken 的文章《How I Continually Improve My Claude Code》，但不会照搬“每天自动改规则文件”的做法。这里采用更适合 Hermes / 本地 Agent 工作流的安全版本：先生成候选，后验证，再最小落地。

2. 为什么需要持续改进闭环

很多人使用 AI coding agent 的方式是一次性的：

给需求
看代码
修报错
结束会话

问题是，同样的错误会反复出现：

Agent 不知道项目约定
重复运行错误命令
总是忘记测试路径
把临时任务状态写进长期记忆
过早问用户，而不是先查工具
或者相反，擅自执行有副作用的操作

持续改进闭环要解决的是：让每一次失败都变成下一次更少失败的输入。

3. 不要直接自动写全局规则

文章里提到的做法是让 Agent 定时复盘，然后自动更新类似 agents.md 的规则文件。这个方向有价值，但直接照搬有风险。

主要风险：

上下文膨胀：每个小教训都写进全局提示词，长期会拖慢并污染推理。
规则冲突：旧规则和新规则可能互相矛盾。
记忆污染：一次性任务状态被误写成永久偏好。
过度自动化：cron 每天输出低价值噪音，最后没人看。
active 行为漂移：Agent 自动改自己的行为，但没有审查和回滚点。

更安全的原则是：

自动发现问题可以；自动修改 active 行为要非常克制。

4. 推荐架构：五层沉淀

把复盘结果分层，而不是都塞进一个规则文件。

4.1 Project report：先放证据

用于保存复盘报告、候选问题、验证记录。

适合内容：

最近 7 天失败模式
哪些会话出现了重复问题
哪些建议还没有验证
哪些改动需要审批

示例路径：

.hermes/projects/hermes-continual-review/reports/2026-05-week3.md

4.2 Skill：保存可重复流程

适合内容：

如何调试某类问题
如何做代码审查
如何执行 TDD
如何处理某类文章摘要和入库

判断标准：如果一个流程未来会重复 3 次以上，且有明确触发条件，就考虑 skill。

4.3 Wiki：保存概念和长期知识

适合内容：

AI coding agent 持续改进闭环
多 Agent 协作模式
本地知识治理原则
某个外部文章提炼出的稳定方法论

Wiki 不应保存大量临时操作日志。

4.4 Memory / User profile：只保存稳定偏好和事实

适合内容：

用户偏好先 one-shot 验证，再 recurring cron
用户偏好执行类任务先明确边界
环境长期事实，例如 Hermes wiki 路径

不适合内容：

“今天修了某个 bug”
“某篇文章已总结”
“某个计划 Phase 2 完成”

4.5 Cron：只调度稳定、低噪音、可回滚的流程

适合内容：

每周运行一次只读健康检查
每周生成候选复盘报告
有明确输出质量门槛的监控任务

不适合一开始就 daily 自动改配置。

5. 最小可用闭环：一周一次只读复盘

先从最小版本开始。

输入

最近 7 天会话记录
最近失败或中断的任务
用户纠正过的行为
被加载但暴露缺陷的 skills
cron 最近状态

输出

一份只读报告，包含：

1. 高频失败模式
2. 证据来源
3. 建议落点：memory / skill / wiki / cron / project docs / 不沉淀
4. 风险等级：低 / 中 / 高
5. 是否需要用户审批
6. 最小修改建议
7. 验证方法

不做的事

第一阶段不要自动：

写 memory
patch skill
改 wiki
创建 recurring cron
修改 Hermes runtime config

6. 可复制 Prompt：只读复盘版

下面这个 prompt 可以用于 Claude Code、Codex、Hermes 子任务或其他 Agent。

你是 AI coding agent 持续改进审查员。

目标：只读分析最近一段时间的会话/日志，找出可复用的改进候选。

硬性边界：
- 不要修改 memory、skills、wiki、cron、runtime config 或项目代码。
- 不要创建新任务。
- 不要把一次性任务状态当成长期知识。
- 所有建议必须带证据和落点。

请输出：
1. Top 5 高频失败模式
2. 每个失败模式的证据摘要
3. 推荐沉淀层：project report / skill / wiki / memory / cron / discard
4. 为什么不是其他层
5. 风险等级
6. 最小改动建议
7. 验证方法
8. 需要用户审批的事项

7. 可复制 Prompt：候选落地审查版

当只读复盘报告质量稳定后，再用第二个 prompt 审查是否值得落地。

你是 Hermes 知识治理审查员。

输入是一份 continual-review 候选报告。请判断每条候选是否应该进入 active 层。

规则：
- workflow 候选优先进入 skill/reference，不进入 memory。
- 概念知识优先进入 wiki，不进入 skill。
- 稳定用户偏好才考虑 user profile。
- 临时任务进展直接丢弃。
- cron 只能在 one-shot 结果连续稳定后再建议 recurring。
- runtime/config 改动必须有备份、check、doctor、smoke 和回滚路径。

输出表述：
- 采纳 / 暂缓 / 拒绝
- 推荐落点
- 最小修改范围
- 验证方法
- 回滚方式
- 是否需要用户批准

8. Hermes 映射示例

如果你使用 Hermes，可以这样映射文章里的机制。

Claude Code conversation log    → Hermes session_search
Daily review cron               → Hermes cronjob one-shot / weekly job
agents.md                       → AGENTS.md / CLAUDE.md / skill / wiki 分层
review-past-performance skill   → continual-review skill 或 project-local prompt
recap / agent view              → 子任务边界、delegate_task 摘要、cron 输出记录

重点不是工具名字，而是闭环结构：

观察 → 归因 → 候选 → 分层 → 验证 → 最小落地

9. 一个具体例子：Agent 总是忘记跑测试

观察

最近 5 次代码修改里，有 3 次 Agent 在总结时说“已完成”，但没有实际运行测试。

错误落地

不要直接写入全局规则：

永远必须运行所有测试。

这太粗暴，可能导致小文档修改也跑完整测试套件。

更好的候选

沉淀到 coding workflow skill：

当任务修改 src/ 或 tests/ 下代码时，完成前必须运行对应最小测试；
如果测试耗时过长，先运行目标模块测试，并说明未运行全量测试的原因。

验证

下一次代码任务检查：

是否识别修改范围
是否选择最小测试
是否报告测试命令和结果
是否没有把“计划运行”当作“已经运行”

10. 一个具体例子：Agent 反复问本可查到的问题

观察

Agent 经常问：

项目测试命令是什么？
配置文件在哪里？
wiki 路径是什么？

但这些信息其实可通过文件或已有记忆查到。

不推荐

不要把所有项目路径都写进 memory。普通项目路径会过期，应放项目文档或 wiki index。

11. 一个具体例子：复盘发现适合入 wiki 的文章

观察

某篇文章不是单次新闻，而是提出了稳定方法论，例如“AI coding agent 持续改进闭环”。

不推荐

不要直接写成 skill，除非已经有可重复操作步骤。
不要写 memory，因为这不是用户偏好。
不要立刻创建 cron，因为还没验证输出质量。

12. 多 Agent 并发的简化规则

文章提到作者用 Warp 管理多个 Agent。对 Hermes 或其他 Agent 系统，更通用的规则是：

一个子 Agent = 一个清晰边界 = 一个可验证输出

实践建议：

子任务不要共享同一个可写文件，除非有明确合并顺序。
子 Agent 不要做外部副作用，除非主 Agent 会验证结果。
每个子任务必须返回证据：路径、命令、测试结果、URL 或 ID。
父 Agent 不要直接相信“完成了”，必须读回文件或跑检查。

示例任务拆分：

任务 A：只读审查最近 20 条失败会话，输出候选问题。
任务 B：只读审查现有 skills，找出可能承接候选的 skill。
任务 C：只读审查 wiki 是否已有相关概念页。
父任务：合并 A/B/C，提出最小落地方案。

13. 推荐成熟度路线

Level 0：人工复盘

偶尔回看会话，总结失败点。

适合刚开始。

Level 1：one-shot 只读复盘

手动触发一次 Agent 复盘，输出报告。

适合验证 prompt 和报告格式。

Level 2：每周只读复盘

每周 cron 生成候选报告，但不自动改 active 层。

适合个人长期使用。

Level 3：半自动落地

低风险 skill/reference patch 可以由 Agent 提案，人类批准后执行。

适合已有稳定治理规则的环境。

Level 4：受限自动落地

只允许少数低风险、可回滚、带测试的改动自动应用。

大多数个人环境不需要一开始做到这里。

14. 落地检查清单

在把复盘机制变成定时任务前，先检查：

[ ] 是否已有至少 2 次 one-shot 报告？
[ ] 报告是否能正确区分 memory / skill / wiki / cron / discard？
[ ] 是否避免把任务进度写成长期事实？
[ ] 是否给每条建议提供证据？
[ ] 是否明确哪些改动需要审批？
[ ] 是否有回滚方式？
[ ] 是否不会每天制造低价值通知？
[ ] 是否有一条明确的停止规则：连续低价值输出就暂停？

15. 推荐默认策略

如果你是个人开发者或小团队，建议默认采用：

每周一次，只读复盘；
只输出候选，不自动修改；
候选按层分类；
经验证和审批后最小落地；
稳定后才考虑更高频或半自动。

这比“每天自动改规则文件”慢一点，但长期更安全，也更不容易污染 Agent 的长期行为。

16. 结语

AI coding agent 的持续改进不是靠堆更多规则，而是靠一个小而稳定的反馈系统：

少写全局规则，
多保存证据，
按层沉淀，
先验证，再自动化。

当这个闭环跑起来后，Agent 不只是执行工具，而会逐渐贴合你的项目、偏好和工程边界。真正的收益来自长期复利，而不是一次 prompt 优化。

把 AI Coding Agent 变成会持续改进的工程伙伴

1. 一句话原则

2. 为什么需要持续改进闭环

3. 不要直接自动写全局规则

4. 推荐架构：五层沉淀

4.1 Project report：先放证据

4.2 Skill：保存可重复流程

4.3 Wiki：保存概念和长期知识

4.4 Memory / User profile：只保存稳定偏好和事实

4.5 Cron：只调度稳定、低噪音、可回滚的流程

5. 最小可用闭环：一周一次只读复盘

输入

输出

不做的事

6. 可复制 Prompt：只读复盘版

7. 可复制 Prompt：候选落地审查版

8. Hermes 映射示例

9. 一个具体例子：Agent 总是忘记跑测试

观察

错误落地

更好的候选

验证

10. 一个具体例子：Agent 反复问本可查到的问题

观察

推荐改进

不推荐

11. 一个具体例子：复盘发现适合入 wiki 的文章

观察

推荐落点

不推荐

12. 多 Agent 并发的简化规则

13. 推荐成熟度路线

Level 0：人工复盘

Level 1：one-shot 只读复盘

Level 2：每周只读复盘

Level 3：半自动落地

Level 4：受限自动落地

14. 落地检查清单

15. 推荐默认策略

16. 结语