--- title: "把 AI Coding Agent 变成会持续改进的工程伙伴" source_url: "https://towardsdatascience.com/how-i-continually-improve-my-claude-code/" source_summary: "/home/lin/.hermes/projects/hermes-gsummary-workflow/runs/outputs/20260519-162949-How-I-Continually-Improve-My-Claude-Code-2653629-777971080-summary.md" created: "2026-05-19" type: "tutorial" ---
把 AI Coding Agent 变成会持续改进的工程伙伴
> 适用对象:已经在使用 Claude Code、Codex、Hermes Agent 或类似 AI coding agent 的个人开发者 / 小团队。 > 核心目标:不要只“用” Agent,而是给它建立一个可验证、可回滚、不过度膨胀的持续改进闭环。
1. 一句话原则
AI coding agent 的能力提升,不应该只依赖模型升级;更现实的路径是:
会话记录 / 运行日志
→ 只读复盘
→ 识别高频失败模式
→ 生成候选改进
→ 分层沉淀到文档 / skill / wiki / memory / cron
→ 验证后再进入 active 行为这篇教程基于 Eivind Kjosbakken 的文章《How I Continually Improve My Claude Code》,但不会照搬“每天自动改规则文件”的做法。这里采用更适合 Hermes / 本地 Agent 工作流的安全版本:先生成候选,后验证,再最小落地。
2. 为什么需要持续改进闭环
很多人使用 AI coding agent 的方式是一次性的:
- 给需求
- 看代码
- 修报错
- 结束会话
问题是,同样的错误会反复出现:
- Agent 不知道项目约定
- 重复运行错误命令
- 总是忘记测试路径
- 把临时任务状态写进长期记忆
- 过早问用户,而不是先查工具
- 或者相反,擅自执行有副作用的操作
持续改进闭环要解决的是:让每一次失败都变成下一次更少失败的输入。
3. 不要直接自动写全局规则
文章里提到的做法是让 Agent 定时复盘,然后自动更新类似 agents.md 的规则文件。这个方向有价值,但直接照搬有风险。
主要风险:
- 上下文膨胀:每个小教训都写进全局提示词,长期会拖慢并污染推理。
- 规则冲突:旧规则和新规则可能互相矛盾。
- 记忆污染:一次性任务状态被误写成永久偏好。
- 过度自动化:cron 每天输出低价值噪音,最后没人看。
- active 行为漂移:Agent 自动改自己的行为,但没有审查和回滚点。
更安全的原则是:
自动发现问题可以;自动修改 active 行为要非常克制。4. 推荐架构:五层沉淀
把复盘结果分层,而不是都塞进一个规则文件。
4.1 Project report:先放证据
用于保存复盘报告、候选问题、验证记录。
适合内容:
- 最近 7 天失败模式
- 哪些会话出现了重复问题
- 哪些建议还没有验证
- 哪些改动需要审批
示例路径:
.hermes/projects/hermes-continual-review/reports/2026-05-week3.md4.2 Skill:保存可重复流程
适合内容:
- 如何调试某类问题
- 如何做代码审查
- 如何执行 TDD
- 如何处理某类文章摘要和入库
判断标准:如果一个流程未来会重复 3 次以上,且有明确触发条件,就考虑 skill。
4.3 Wiki:保存概念和长期知识
适合内容:
- AI coding agent 持续改进闭环
- 多 Agent 协作模式
- 本地知识治理原则
- 某个外部文章提炼出的稳定方法论
Wiki 不应保存大量临时操作日志。
4.4 Memory / User profile:只保存稳定偏好和事实
适合内容:
- 用户偏好先 one-shot 验证,再 recurring cron
- 用户偏好执行类任务先明确边界
- 环境长期事实,例如 Hermes wiki 路径
不适合内容:
- “今天修了某个 bug”
- “某篇文章已总结”
- “某个计划 Phase 2 完成”
4.5 Cron:只调度稳定、低噪音、可回滚的流程
适合内容:
- 每周运行一次只读健康检查
- 每周生成候选复盘报告
- 有明确输出质量门槛的监控任务
不适合一开始就 daily 自动改配置。
5. 最小可用闭环:一周一次只读复盘
先从最小版本开始。
输入
- 最近 7 天会话记录
- 最近失败或中断的任务
- 用户纠正过的行为
- 被加载但暴露缺陷的 skills
- cron 最近状态
输出
一份只读报告,包含:
1. 高频失败模式
2. 证据来源
3. 建议落点:memory / skill / wiki / cron / project docs / 不沉淀
4. 风险等级:低 / 中 / 高
5. 是否需要用户审批
6. 最小修改建议
7. 验证方法不做的事
第一阶段不要自动:
- 写 memory
- patch skill
- 改 wiki
- 创建 recurring cron
- 修改 Hermes runtime config
6. 可复制 Prompt:只读复盘版
下面这个 prompt 可以用于 Claude Code、Codex、Hermes 子任务或其他 Agent。
你是 AI coding agent 持续改进审查员。
目标:只读分析最近一段时间的会话/日志,找出可复用的改进候选。
硬性边界:
- 不要修改 memory、skills、wiki、cron、runtime config 或项目代码。
- 不要创建新任务。
- 不要把一次性任务状态当成长期知识。
- 所有建议必须带证据和落点。
请输出:
1. Top 5 高频失败模式
2. 每个失败模式的证据摘要
3. 推荐沉淀层:project report / skill / wiki / memory / cron / discard
4. 为什么不是其他层
5. 风险等级
6. 最小改动建议
7. 验证方法
8. 需要用户审批的事项7. 可复制 Prompt:候选落地审查版
当只读复盘报告质量稳定后,再用第二个 prompt 审查是否值得落地。
你是 Hermes 知识治理审查员。
输入是一份 continual-review 候选报告。请判断每条候选是否应该进入 active 层。
规则:
- workflow 候选优先进入 skill/reference,不进入 memory。
- 概念知识优先进入 wiki,不进入 skill。
- 稳定用户偏好才考虑 user profile。
- 临时任务进展直接丢弃。
- cron 只能在 one-shot 结果连续稳定后再建议 recurring。
- runtime/config 改动必须有备份、check、doctor、smoke 和回滚路径。
输出表述:
- 采纳 / 暂缓 / 拒绝
- 推荐落点
- 最小修改范围
- 验证方法
- 回滚方式
- 是否需要用户批准8. Hermes 映射示例
如果你使用 Hermes,可以这样映射文章里的机制。
Claude Code conversation log → Hermes session_search
Daily review cron → Hermes cronjob one-shot / weekly job
agents.md → AGENTS.md / CLAUDE.md / skill / wiki 分层
review-past-performance skill → continual-review skill 或 project-local prompt
recap / agent view → 子任务边界、delegate_task 摘要、cron 输出记录重点不是工具名字,而是闭环结构:
观察 → 归因 → 候选 → 分层 → 验证 → 最小落地9. 一个具体例子:Agent 总是忘记跑测试
观察
最近 5 次代码修改里,有 3 次 Agent 在总结时说“已完成”,但没有实际运行测试。
错误落地
不要直接写入全局规则:
永远必须运行所有测试。这太粗暴,可能导致小文档修改也跑完整测试套件。
更好的候选
沉淀到 coding workflow skill:
当任务修改 src/ 或 tests/ 下代码时,完成前必须运行对应最小测试;
如果测试耗时过长,先运行目标模块测试,并说明未运行全量测试的原因。验证
下一次代码任务检查:
- 是否识别修改范围
- 是否选择最小测试
- 是否报告测试命令和结果
- 是否没有把“计划运行”当作“已经运行”
10. 一个具体例子:Agent 反复问本可查到的问题
观察
Agent 经常问:
项目测试命令是什么?
配置文件在哪里?
wiki 路径是什么?但这些信息其实可通过文件或已有记忆查到。
推荐改进
补到对应 workflow skill:
提问前先做 prerequisite discovery:
- 查 CLAUDE.md / AGENTS.md
- 查项目 README
- 查已有 skill
- 查 session_search 或 wiki
只有工具无法找回且问题会改变执行路径时,才向用户提问。不推荐
不要把所有项目路径都写进 memory。普通项目路径会过期,应放项目文档或 wiki index。
11. 一个具体例子:复盘发现适合入 wiki 的文章
观察
某篇文章不是单次新闻,而是提出了稳定方法论,例如“AI coding agent 持续改进闭环”。
推荐落点
- raw source:保存原文链接和摘要路径
- concept page:提炼方法论
- index/log:记录来源和更新时间
不推荐
- 不要直接写成 skill,除非已经有可重复操作步骤。
- 不要写 memory,因为这不是用户偏好。
- 不要立刻创建 cron,因为还没验证输出质量。
12. 多 Agent 并发的简化规则
文章提到作者用 Warp 管理多个 Agent。对 Hermes 或其他 Agent 系统,更通用的规则是:
一个子 Agent = 一个清晰边界 = 一个可验证输出实践建议:
- 子任务不要共享同一个可写文件,除非有明确合并顺序。
- 子 Agent 不要做外部副作用,除非主 Agent 会验证结果。
- 每个子任务必须返回证据:路径、命令、测试结果、URL 或 ID。
- 父 Agent 不要直接相信“完成了”,必须读回文件或跑检查。
示例任务拆分:
任务 A:只读审查最近 20 条失败会话,输出候选问题。
任务 B:只读审查现有 skills,找出可能承接候选的 skill。
任务 C:只读审查 wiki 是否已有相关概念页。
父任务:合并 A/B/C,提出最小落地方案。13. 推荐成熟度路线
Level 0:人工复盘
偶尔回看会话,总结失败点。
适合刚开始。
Level 1:one-shot 只读复盘
手动触发一次 Agent 复盘,输出报告。
适合验证 prompt 和报告格式。
Level 2:每周只读复盘
每周 cron 生成候选报告,但不自动改 active 层。
适合个人长期使用。
Level 3:半自动落地
低风险 skill/reference patch 可以由 Agent 提案,人类批准后执行。
适合已有稳定治理规则的环境。
Level 4:受限自动落地
只允许少数低风险、可回滚、带测试的改动自动应用。
大多数个人环境不需要一开始做到这里。
14. 落地检查清单
在把复盘机制变成定时任务前,先检查:
- [ ] 是否已有至少 2 次 one-shot 报告?
- [ ] 报告是否能正确区分 memory / skill / wiki / cron / discard?
- [ ] 是否避免把任务进度写成长期事实?
- [ ] 是否给每条建议提供证据?
- [ ] 是否明确哪些改动需要审批?
- [ ] 是否有回滚方式?
- [ ] 是否不会每天制造低价值通知?
- [ ] 是否有一条明确的停止规则:连续低价值输出就暂停?
15. 推荐默认策略
如果你是个人开发者或小团队,建议默认采用:
每周一次,只读复盘;
只输出候选,不自动修改;
候选按层分类;
经验证和审批后最小落地;
稳定后才考虑更高频或半自动。这比“每天自动改规则文件”慢一点,但长期更安全,也更不容易污染 Agent 的长期行为。
16. 结语
AI coding agent 的持续改进不是靠堆更多规则,而是靠一个小而稳定的反馈系统:
少写全局规则,
多保存证据,
按层沉淀,
先验证,再自动化。当这个闭环跑起来后,Agent 不只是执行工具,而会逐渐贴合你的项目、偏好和工程边界。真正的收益来自长期复利,而不是一次 prompt 优化。