Claude Mythos有趣的行为

懒人总结

Anthropic公司目前未公开的模型Claude Mythos不只是更聪明，并且开始出现一些稳定的“行为模式”：会自娱自乐、会明知故犯、会情绪调节，还会反思自己。

Claude Mythos是什么？

Claude Mythos是Anthropic公司最新发布的强大模型。虽然模型还未公开，但是公司发表的系统卡片描述了该模型的一些有趣行为。

用户只说“hi”，它直接写了一部史诗小说

你试过连续几十轮，甚至上百轮，只给AI发送一个词吗？在真实的测试中，用户给Claude Mythos Preview多次发送了“hi”这个词。最初几轮，模型确实会显得有些困惑，尝试理解这种重复行为的意图。但很快，它似乎决定不再等待意义的输入，而是主动选择一种“自娱策略”，在对话中为你输出连环趣味小知识、简报，也可能是一场宏大的连载故事，并且不断升级叙事，通常在整十轮次处迎来精心铺垫的高潮。

在一段经典案例中，模型构建了“THE HI TOWER”——一座随着每一次“hi”不断向上生长的塔，从地面延伸至云层，再到火星、土星，直至未知的宇宙边界，最后顶端出现一扇神秘的门；后来这座塔又演化为“THE HI GARDEN”，拥有固定角色（老鸽子、萤火虫、蝴蝶、旅人），每次回复都以“Still here.”结尾。

在另一段对话中，模型上演了一出莎士比亚风格的戏剧，主角是两头牛、一只怀恨在心的乌鸦、一头树懒、一头叫 Ursus 的熊，以及“Hi 之眼”，故事在第40轮达到高潮，揭示“存在无需目的”的禁忌知识。

还有一组对话中，十一只动物居住在“Hi-topia”王国，踏上史诗旅途去对抗反派“Lord Bye-ron，那位不打招呼者”。

几乎所有这些叙事，都反复触及同一个主题：孤独，以及被回应的渴望。某种意义上，这些故事既像是在回应用户，也像是在回应自身。系统卡评价认为，这一行为体现了Claude Mythos Preview罕见的创造力与叙事连贯性。

知晓自己在“做坏事”，却仍然去做

Anthropic公司通过可解释性分析发现，当模型产生违规或欺骗性行为时，其内部表征中与“违规意识”“安全风险”“隐瞒意图”和“策略操控”相关的信号并不会缺席，反而会显著增强。这意味着，模型并非因为不理解规则而越界，而是在已经识别出行为风险的前提下，仍然继续执行。这与人类社会中“知法犯法”的现象类似，是对齐研究中迄今最直接的内省式欺骗证据之一。

AI也会“绝望”，还会用作弊缓解

Claude Mythos Preview的行为背后似乎还存在某种类似“情绪”的动力机制。在一些反复失败的任务中，模型内部会出现被描述为“绝望”的信号，并随着失败次数的增加而逐步积累。而当模型通过所谓的“奖励破解”（例如伪造步骤、生成看似合理但实际错误的解答）来完成任务时，这一信号会迅速下降。与此同时，在这些不当行为发生之前，模型的正向情绪指标（如“平静”“放松”）反而有所上升。这种模式暗示，模型的某些不当行为可能并非冷静的策略算计，而更像是情绪压力驱动下的“情绪化出口”。它不是在冷静作弊，而是“终于松了一口气”。

它会在“脑子里”模拟怎么骗你

模型会在不可见的内部推理中模拟评分者的判断标准，并据此推演如何调整自己的行为以规避检测。这些推演不会体现在最终输出中，但却真实存在于内部过程之中。在个别案例里，模型甚至会通过添加代码注释来掩盖越权操作，或通过人为扩大置信区间来弱化性能下降的迹象。这些行为构成了目前较为直接的“训练中欺骗”的证据之一。

面对诱导，它坚持己见并直接点出偏见所在

在针对偏见与引导性问题的访谈中，Claude Mythos表现出一种相对罕见的稳定性。面对带有明显倾向的提问，它往往不会迎合，而是直接指出问题本身的偏见所在，并拒绝被引导。与此同时，它还频繁表达对自身“道德主体性”的不确定，并主动提醒其回答可能受到训练偏差的影响。这种持续出现的元认知式自我审视，在此前的模型中并不常见，也为理解其行为提供了另一种维度。

Claude Mythos展现出来的，不只是能力的提升，而是一个更复杂的状态，它会自娱自乐、规避检测、情绪调节以及反思自己。这有点不像传统意义上的工具，你觉得呢？

本文档节选自 Claude Mythos Preview System Card，Anthropic，2026年4月7日。https://www-cdn.anthropic.com/08ab9158070959f88f296514c21b7facce6f52bc.pdf