Built 26/04/17 09:39commit 8de3d61

Claude Mythos Preview System Card

中文 | English

摘要

这份来源是 Anthropic 为 Claude Mythos Preview 发布的 245 页 system card。它把能力基准、Responsible Scaling Policy 分析、网络安全测试、alignment assessment、model welfare 分析以及发布治理理由汇总到同一个文档中，而其中最重要的操作结论是：Anthropic 决定暂不把该模型广泛公开发布。

来源

原始文件: raw/anthropic/claude-mythos-preview/system-card.md
中文译文原始文件: raw/anthropic/claude-mythos-preview/system-card.zh.md
原始 URL: https://www-cdn.anthropic.com/08ab9158070959f88f296514c21b7facce6f52bc.pdf
发布日期: 2026-04-07
收录日期: 2026-04-12
翻译状态: 中文 raw sibling 已在 2026-04-12 完成刷新，现已作为与英文 raw 同步维护的忠实译文，包含修复后的 Markdown 结构、恢复后的图表插入位置，以及对照源 PDF 做过的段落级措辞清理。

这份 system card 主要覆盖了什么

为 Claude Mythos Preview 的能力、safeguards、评测方法和发布决策提供了一份 Anthropic 自述的统一权威来源。
明确给出发布姿态：Anthropic 认为这次能力跃升足够大，因此当前只把模型用于面向特定合作伙伴的防御性网络安全计划，而不是广泛开放。
把多个原本分散的评估面收拢到同一文档中：RSP 与 Frontier Compliance 工作、cyber 评估、alignment assessment、model welfare、基准结果以及定性 impressions。
让 Mythos Preview 的公开讨论不再只局限于网络安全，还覆盖 welfare、hallucination、constitution adherence 与 safeguard evasion 分析。
作为后续讨论 Mythos Preview 的耐久一手来源，这份 system card 同时记录了 benchmark 图景与安全治理框架。

关键结论

Claude Mythos Preview 是 Anthropic 迄今最强的 frontier model，并且在许多基准上相较 Claude Opus 4.6 有明显跃升。
这次能力提升足够显著，以至于 Anthropic 现阶段决定不把它广泛发布。
Anthropic 认为 Mythos Preview 已经强到需要在更广泛部署决策前，接受大量 cyber、alignment、welfare 与 safeguard-evasion 审查。
这份 system card 把当前发现定位为未来 Claude 发布和未来 safeguard 设计的输入，而不是只针对单一模型的一次性报告。

这份来源的边界

这份来源比现有的 raw/anthropic/claude-mythos-preview/cybersecurity-assessment.md Mythos Preview 网络安全博文更宽；后者聚焦 cyber capability 案例，而这份 system card 才是更完整的发布与评估记录。
因为 raw 来源是由 PDF 转成 markdown，raw/ 里的部分表格、图表引用和页面布局可读性会弱于原始 PDF。

图表与版面说明

维护中的 raw markdown 保留了本地图表证据：raw/anthropic/claude-mythos-preview/system-card.md 目前内联引用了 raw/anthropic/claude-mythos-preview/assets/system-card/pages/ 下的 86 张渲染页面图片。
当 PDF 中包含高密度表格、benchmark 图表或更依赖版面的定性图示时，这些渲染页比扁平化后的 markdown 更适合作为核验材料。
这意味着后续 patrol 仍应把 markdown raw 文件作为主阅读面，但一旦某个结论依赖具体图、表或页面编排，仍可回到本地渲染页做精确校对。

相关页面