Built 26/04/17 09:08commit f8ff6f9

Anthropic：长时应用开发的 Harness 设计

中文 | English

摘要

这份来源描述了 Anthropic 如何把长时编码 harness 从简单任务拆分演化为 planner-generator-evaluator 架构，并指出最有效的提升来自显式评估、结构化交接产物，以及随着模型能力提升而定期简化脚手架。

来源

原始文件: raw/anthropic/Harness design for long-running application development.md
中文译文原始文件: raw/anthropic/Harness design for long-running application development.zh.md
原始 URL: https://www.anthropic.com/engineering/harness-design-long-running-apps
作者: Prithvi Rajasekaran
收录日期: 2026-04-08

这篇讲清了什么

把多 agent 编码 harness 重述为 generator-evaluator 体系，并增加 planner 来把模糊 prompt 扩展成产品规格。
论证默认的自我评估是偏弱的，而一个独立且怀疑的 evaluator 比“自我批评式 generator”更容易调优。
区分 context reset 和 compaction：reset 更能直接解决上下文焦虑，但会增加编排成本。
强调脚手架是暂时性的，随着模型进步，应重新测试哪些负重假设还成立。
通过 evaluator 工具、sprint 契约和阈值化评分标准，把“验证”具体化。

核心观点

在任务接近模型能力边界时，planner、generator、evaluator 的角色分工会比单 agent 带来更好的长时编码结果。
长时工作会逐渐失去一致性，因此结构化产物和明确交接非常重要。
evaluator 不是总需要的；只有当任务超出当前模型单独可靠处理的范围时，它才值得这部分成本。
当新模型吸收了原先由脚手架提供的职责后，harness 就应该变得更简单。

对本库整理的启发

当来源描述的是一种操作方法而不只是概念时，source ingestion 应保留结构化产物。
关于 agent 系统的主题页不仅要记录架构，还要记录每一层在何时不再值得它的复杂度成本。
lint pass 不应只找坏链，还应识别那些来源暗示了“缺失 canonical topic”的地方。

相关页面