15. 评测、调试与最终项目

Agent 开发最大的错觉是“刚才那次看起来能跑，所以它是对的”。模型输出不稳定，真实仓库复杂，工具和上下文状态很多。如果没有评测和调试体系，你会在每次改 prompt 或工具描述后重新手工试一遍，而且无法判断退化来自哪里。

三层测试

教学项目至少需要三层测试：

真实模型端到端测试只做 smoke。它可以告诉你系统能连通，但不适合作为主要回归测试。主要回归必须确定、便宜、可重复。

会话日志天然是调试材料。一次失败任务可以导出为 JSONL，测试 harness 读取后重建 active branch，断言：

这比截屏或人工描述 bug 更可靠。

Agent 应该统计每次模型请求的 usage、耗时、工具耗时和重试次数。没有这些数据，你无法回答“为什么这个任务花了这么久”或“哪个模型最贵”。成本信息可以作为事件和 session entry 记录，不必每次都进入模型上下文。

常见指标：

最终项目不是复刻某个现成产品，而是证明你理解 Agent 工程边界。选择一个小型 TypeScript 仓库，让 tiny-agent 完成一次真实修改：

验收时不要只看最终代码是否正确，还要看过程是否可审计。

你的 tiny-agent 需要满足：

当 Agent 行为异常时，按这个顺序查：

这条顺序很重要。很多“模型不听话”的问题，其实是上下文投影漏了约束，或者工具错误写得不可行动。

构建 Coding Agent 的核心不是找到一段神奇 prompt，而是把一个不确定的模型放进确定的工程边界里：协议清晰，工具受控，状态可恢复，事件可观察，权限可审计，扩展有边界。做到这些之后，模型能力提升会自然变成系统能力提升；否则模型越强，系统越难控制。