Built 26/04/17 09:08commit f8ff6f9
Anthropic:长时应用开发的 Harness 设计
中文 | English
摘要
这份来源描述了 Anthropic 如何把长时编码 harness 从简单任务拆分演化为 planner-generator-evaluator 架构,并指出最有效的提升来自显式评估、结构化交接产物,以及随着模型能力提升而定期简化脚手架。
来源
- 原始文件: raw/anthropic/Harness design for long-running application development.md
- 中文译文原始文件: raw/anthropic/Harness design for long-running application development.zh.md
- 原始 URL: https://www.anthropic.com/engineering/harness-design-long-running-apps
- 作者: Prithvi Rajasekaran
- 收录日期: 2026-04-08
这篇讲清了什么
- 把多 agent 编码 harness 重述为 generator-evaluator 体系,并增加 planner 来把模糊 prompt 扩展成产品规格。
- 论证默认的自我评估是偏弱的,而一个独立且怀疑的 evaluator 比“自我批评式 generator”更容易调优。
- 区分 context reset 和 compaction:reset 更能直接解决上下文焦虑,但会增加编排成本。
- 强调脚手架是暂时性的,随着模型进步,应重新测试哪些负重假设还成立。
- 通过 evaluator 工具、sprint 契约和阈值化评分标准,把“验证”具体化。
核心观点
- 在任务接近模型能力边界时,planner、generator、evaluator 的角色分工会比单 agent 带来更好的长时编码结果。
- 长时工作会逐渐失去一致性,因此结构化产物和明确交接非常重要。
- evaluator 不是总需要的;只有当任务超出当前模型单独可靠处理的范围时,它才值得这部分成本。
- 当新模型吸收了原先由脚手架提供的职责后,harness 就应该变得更简单。
对本库整理的启发
- 当来源描述的是一种操作方法而不只是概念时,source ingestion 应保留结构化产物。
- 关于 agent 系统的主题页不仅要记录架构,还要记录每一层在何时不再值得它的复杂度成本。
- lint pass 不应只找坏链,还应识别那些来源暗示了“缺失 canonical topic”的地方。