Skip to content
Built 26/04/17 09:08commit f8ff6f9

Anthropic:长时应用开发的 Harness 设计

中文 | English

摘要

这份来源描述了 Anthropic 如何把长时编码 harness 从简单任务拆分演化为 planner-generator-evaluator 架构,并指出最有效的提升来自显式评估、结构化交接产物,以及随着模型能力提升而定期简化脚手架。

来源

这篇讲清了什么

  • 把多 agent 编码 harness 重述为 generator-evaluator 体系,并增加 planner 来把模糊 prompt 扩展成产品规格。
  • 论证默认的自我评估是偏弱的,而一个独立且怀疑的 evaluator 比“自我批评式 generator”更容易调优。
  • 区分 context reset 和 compaction:reset 更能直接解决上下文焦虑,但会增加编排成本。
  • 强调脚手架是暂时性的,随着模型进步,应重新测试哪些负重假设还成立。
  • 通过 evaluator 工具、sprint 契约和阈值化评分标准,把“验证”具体化。

核心观点

  • 在任务接近模型能力边界时,planner、generator、evaluator 的角色分工会比单 agent 带来更好的长时编码结果。
  • 长时工作会逐渐失去一致性,因此结构化产物和明确交接非常重要。
  • evaluator 不是总需要的;只有当任务超出当前模型单独可靠处理的范围时,它才值得这部分成本。
  • 当新模型吸收了原先由脚手架提供的职责后,harness 就应该变得更简单。

对本库整理的启发

  • 当来源描述的是一种操作方法而不只是概念时,source ingestion 应保留结构化产物。
  • 关于 agent 系统的主题页不仅要记录架构,还要记录每一层在何时不再值得它的复杂度成本。
  • lint pass 不应只找坏链,还应识别那些来源暗示了“缺失 canonical topic”的地方。

相关页面