Built 26/04/17 09:39commit 8de3d61
Claude Mythos Preview System Card
中文 | English
摘要
这份来源是 Anthropic 为 Claude Mythos Preview 发布的 245 页 system card。它把能力基准、Responsible Scaling Policy 分析、网络安全测试、alignment assessment、model welfare 分析以及发布治理理由汇总到同一个文档中,而其中最重要的操作结论是:Anthropic 决定暂不把该模型广泛公开发布。
来源
- 原始文件: raw/anthropic/claude-mythos-preview/system-card.md
- 中文译文原始文件: raw/anthropic/claude-mythos-preview/system-card.zh.md
- 原始 URL: https://www-cdn.anthropic.com/08ab9158070959f88f296514c21b7facce6f52bc.pdf
- 发布日期: 2026-04-07
- 收录日期: 2026-04-12
- 翻译状态: 中文 raw sibling 已在 2026-04-12 完成刷新,现已作为与英文 raw 同步维护的忠实译文,包含修复后的 Markdown 结构、恢复后的图表插入位置,以及对照源 PDF 做过的段落级措辞清理。
这份 system card 主要覆盖了什么
- 为 Claude Mythos Preview 的能力、safeguards、评测方法和发布决策提供了一份 Anthropic 自述的统一权威来源。
- 明确给出发布姿态:Anthropic 认为这次能力跃升足够大,因此当前只把模型用于面向特定合作伙伴的防御性网络安全计划,而不是广泛开放。
- 把多个原本分散的评估面收拢到同一文档中:RSP 与 Frontier Compliance 工作、cyber 评估、alignment assessment、model welfare、基准结果以及定性 impressions。
- 让 Mythos Preview 的公开讨论不再只局限于网络安全,还覆盖 welfare、hallucination、constitution adherence 与 safeguard evasion 分析。
- 作为后续讨论 Mythos Preview 的耐久一手来源,这份 system card 同时记录了 benchmark 图景与安全治理框架。
关键结论
- Claude Mythos Preview 是 Anthropic 迄今最强的 frontier model,并且在许多基准上相较 Claude Opus 4.6 有明显跃升。
- 这次能力提升足够显著,以至于 Anthropic 现阶段决定不把它广泛发布。
- Anthropic 认为 Mythos Preview 已经强到需要在更广泛部署决策前,接受大量 cyber、alignment、welfare 与 safeguard-evasion 审查。
- 这份 system card 把当前发现定位为未来 Claude 发布和未来 safeguard 设计的输入,而不是只针对单一模型的一次性报告。
这份来源的边界
- 这份来源比现有的
raw/anthropic/claude-mythos-preview/cybersecurity-assessment.mdMythos Preview 网络安全博文更宽;后者聚焦 cyber capability 案例,而这份 system card 才是更完整的发布与评估记录。 - 因为 raw 来源是由 PDF 转成 markdown,
raw/里的部分表格、图表引用和页面布局可读性会弱于原始 PDF。
图表与版面说明
- 维护中的 raw markdown 保留了本地图表证据:
raw/anthropic/claude-mythos-preview/system-card.md目前内联引用了raw/anthropic/claude-mythos-preview/assets/system-card/pages/下的 86 张渲染页面图片。 - 当 PDF 中包含高密度表格、benchmark 图表或更依赖版面的定性图示时,这些渲染页比扁平化后的 markdown 更适合作为核验材料。
- 这意味着后续 patrol 仍应把 markdown raw 文件作为主阅读面,但一旦某个结论依赖具体图、表或页面编排,仍可回到本地渲染页做精确校对。