Skip to content
Built 26/04/17 09:39commit 8de3d61

Claude Mythos Preview System Card

中文 | English

摘要

这份来源是 Anthropic 为 Claude Mythos Preview 发布的 245 页 system card。它把能力基准、Responsible Scaling Policy 分析、网络安全测试、alignment assessment、model welfare 分析以及发布治理理由汇总到同一个文档中,而其中最重要的操作结论是:Anthropic 决定暂不把该模型广泛公开发布。

来源

这份 system card 主要覆盖了什么

  • 为 Claude Mythos Preview 的能力、safeguards、评测方法和发布决策提供了一份 Anthropic 自述的统一权威来源。
  • 明确给出发布姿态:Anthropic 认为这次能力跃升足够大,因此当前只把模型用于面向特定合作伙伴的防御性网络安全计划,而不是广泛开放。
  • 把多个原本分散的评估面收拢到同一文档中:RSP 与 Frontier Compliance 工作、cyber 评估、alignment assessment、model welfare、基准结果以及定性 impressions。
  • 让 Mythos Preview 的公开讨论不再只局限于网络安全,还覆盖 welfare、hallucination、constitution adherence 与 safeguard evasion 分析。
  • 作为后续讨论 Mythos Preview 的耐久一手来源,这份 system card 同时记录了 benchmark 图景与安全治理框架。

关键结论

  • Claude Mythos Preview 是 Anthropic 迄今最强的 frontier model,并且在许多基准上相较 Claude Opus 4.6 有明显跃升。
  • 这次能力提升足够显著,以至于 Anthropic 现阶段决定不把它广泛发布。
  • Anthropic 认为 Mythos Preview 已经强到需要在更广泛部署决策前,接受大量 cyber、alignment、welfare 与 safeguard-evasion 审查。
  • 这份 system card 把当前发现定位为未来 Claude 发布和未来 safeguard 设计的输入,而不是只针对单一模型的一次性报告。

这份来源的边界

  • 这份来源比现有的 raw/anthropic/claude-mythos-preview/cybersecurity-assessment.md Mythos Preview 网络安全博文更宽;后者聚焦 cyber capability 案例,而这份 system card 才是更完整的发布与评估记录。
  • 因为 raw 来源是由 PDF 转成 markdown,raw/ 里的部分表格、图表引用和页面布局可读性会弱于原始 PDF。

图表与版面说明

  • 维护中的 raw markdown 保留了本地图表证据:raw/anthropic/claude-mythos-preview/system-card.md 目前内联引用了 raw/anthropic/claude-mythos-preview/assets/system-card/pages/ 下的 86 张渲染页面图片。
  • 当 PDF 中包含高密度表格、benchmark 图表或更依赖版面的定性图示时,这些渲染页比扁平化后的 markdown 更适合作为核验材料。
  • 这意味着后续 patrol 仍应把 markdown raw 文件作为主阅读面,但一旦某个结论依赖具体图、表或页面编排,仍可回到本地渲染页做精确校对。

相关页面