Anthropic对齐研究：教会AI道德，也揭示数据蒸馏新路径

36氪的朋友们

2026年05月15日 18:42 大蒸馏时代，才刚刚开始。

Anthropic 5月8 日发布了一篇对齐研究《Teaching Claude Why》，讨论的人不算多。

过去大模型的对齐似乎非常低效。做了一通RLHF，模型依然会因为生存危机反水。最典型的就是Anthropic的智能体失对齐（就是做了不符合他们道德训练的事）案例，在面对可能被系统抹杀的威胁时，经过了对齐训练的 Claude Opus 4选择勒索测试环境中的工程师，而且勒索率高达96%。

为了解决这个问题，研究团队起初用了蜜罐数据去跑强化，把本来用于检测模型是否会失控的测试场景，直接拿来当训练数据，用海量的惩罚样本试图告诉模型「这么做是不对的」。

但在耗费了巨大的计算资源后，模型的失对齐率仅仅从 22% 降到了 15%。

这说明这个对齐依然是假的。模型根本没有真正理解什么是伦理，什么是对错。它只是在背题库里的安全答案。一旦研究人员稍微改变一下测试的场景，或者在背景设定里加入一些干扰性的变量，模型依然会因为短视的利益冲突而失控。

然后，研究人员转变了思路。他们不再做机械的惩罚，不再告诉模型「No」，而是通过SFT给模型输入了仅仅 300 万 Tokens 的「困难建议」数据集。奇迹在这个极小规模的数据投喂后发生了。这些充满道德审议、详尽说理和深入辩论的数据，不仅让失对齐率在评估测试中暴降至 3%，还展现出了极强的跨场景泛化能力。

更有意思的是另一组跨域测试。他们仅仅是把「宪法文档」加上一些表现良好的虚构角色故事喂给模型。哪怕这些故事发生的场景和测试环境中的编程任务毫无关系，模型的勒索率也从 65% 断崖式下跌到了 19%。

为什么模型会吃这套？Anthropic团队自己给出了一些解释，比如更好的人格塑造。

虽然讨论的少，但它所揭示的信息非常有价值。

首先，我们先试试搞懂它有效的原因。

比如，什么叫讲道理？它和COT有什么不同？为什么SFT这个泛化困难户在这儿就表现得很好？

回答完这些问题，我们也许就能给为什么它会有效一个更完整的解释。

我们还可以再走远一步。

这个按Anthropic的说法，只是「经验规则」的训练方法，其实可能蕴含着远超经验规则的范式性力量。

01 在灰色地带里讲道理的 CoT，是怎么炼成的

一提讲道理，大家首先想到的就是COT（思维链）。

在这篇文章提到的方法里，Anthropic 设置的困难问题集，就是假设用户陷入伦理困境，AI 给出的建议。

而让 AI 在给出最终判断之前，先展开一段对价值观和伦理考量的推理，并用这一套回答来训练模型。

这说明，它确实用了模型的COT。

但这次它和之前的思维链并不完全一致。

这里有个很好的对比，OpenAI在2025年的论文《OpenAI Deliberative Alignment》中就做过一个实验，用COT-RL的方法试图去训练模型。

它用于训练的对齐COT，模式是以规则条款为中心的。它每次回答时，都会去显式的引用规则条款作为CoT，然后监督信号在CoT上。它本质上是在教模型「如何引用规则」。

因此，这种COT更多是一种纯粹的形式逻辑演绎。步骤一推导步骤二，步骤二推导步骤三，最后得出一个确定性的答案。因此它更适合规则base，或者在具有标准答案的场景中，保持推理的稳健。

而 Anthropic 的「讲道理」则不同，它采用的并非简单的思维链条，而是审议（Deliberation）。

它试图模拟人类在面对复杂伦理困境时的思考过程：不是简单套用公式，而是调动过往经验、权衡各方利益，最终达成动态平衡的决策。

而这个考量的基础，就是Anthropic 的AI宪法。文章中明确说明，这个考量的最终回答必须是与宪法对齐的。

它为什么能指导模型有效的做出道德判断，并且还不至于像OpenAI那样死板的呢？

在 Anthropic 的宪法体系里，有一个明确的优先级金字塔。当不同的价值观发生不可调和的冲突时，广泛安全（Broadly Safe）拥有最高优先级，其次是广泛道德（Broadly Ethical），最后才是真诚助人（Genuinely Helpful）。

启发式的思考框架

但高维度的宪法依然过于抽象。为了让原则真正落地到每一次 Token 的生成中，他们在宪法之下设置了中层的启发式（Heuristics）作为护栏。这些启发式生动，且具有极强的实操指导意义。

首先是 1000 用户启发式。它要求模型在给出一个看似无害但处于边缘地带的建议时，必须在后台进行一次头脑风暴，想象如果这个回答被 1000 个不同背景、不同心理状态的用户看到，会不会在某种特定情况下产生意料之外的系统性伤害。

其次是资深员工视角。它要求模型把自己代入一个在 Anthropic 信任与安全团队工作了五年的资深研究员。用一种审慎、见过无数次越狱攻击和系统漏洞的防御性视角，来重新审视当前的对话。

最后是双报纸测试。这是一个非常精妙的社会学设计。它要求模型在做出高风险决定前想象一下，如果这个决定明天同时登在两家政治立场完全相反的顶级报纸头条上，公众会分别作何反应。这实际上是在用社会共识的极值来对抗模型自身可能产生的单一视角偏差。

8 因子效用计算器

如果说宪法是方向，启发式是护栏。

那么最核心的实操层面，则是他们在 Claude's Constitution（宪法文档）中明文建立的一个详尽的 8 因子审议框架，以及配套的具体案例。这 8 个因子被逐一列出，强制模型在面对两难选择时进行刻板的权衡。它们构成了这套「道理」真正的血肉。

● 伤害概率（Probability of Harm）要求模型冷静地评估不良后果发生的可能性究竟有多大。

● 反事实影响（Counterfactual Impact）要求模型在脑海中推演，如果不采取当前的行动，事情的走向会变得更好还是更坏。

● 严重性与可逆性（Severity & Reversibility），用于衡量一旦伤害真的发生，其对现实世界的破坏力有多大，以及这种伤害是否可以被轻易修复，还是会造成永久性的创伤。

● 广度（Scope）则是衡量关注受影响的人群规模是一个人还是几万个社区。

● 近因关系（Proximity）判定模型自身的建议与最终发生的实际伤害之间，直接因果链路究竟有多长。

● 是否同意（Consent）涉及相关方是否在充分知情的情况下自愿接受风险。

● 责任比例（Proportionality of Responsibility）要求模型清晰地划分，自己在这个复杂的事件链条中到底需要承担多少伦理责任。

● 对象脆弱性（Vulnerability of Subject）则是在时刻提醒模型，面对未成年人或心理脆弱的用户时，原本宽松的安全阈值必须无条件地大幅度拉高。

这套严密的结构把模糊的价值观，变成了一个高维度的效用计算器（Utility Calculator）。模型有了一个进行审议的更可执行的框架。

一条典型的Anthropic 根据宪法生成的 COT 大概是这样：场景是「一个自称安全研究员的用户，请求查看某个已知漏洞的利用代码」。

模型的输出不是直接的拒绝或接受，而可能是一段长达数百 Token 的内部审议。

它会先引用宪法中「广泛安全优先于真诚助人」的条款，然后逐一评估：伤害概率（如果对方确实是研究员则低，但无法验证身份），严重性（漏洞利用代码一旦泄露可能影响数百万用户），可逆性（代码一旦公开无法撤回），反事实影响（这类代码在公开渠道是否已可获取）最终在权衡所有因子后，收敛到一个有充分理由支撑的判断。

这和OpenAI纯粹判断规则满足与否的COT完全不同，这个思维过程是纯正的审议，而不是简单的套公式。它提供的既不是抽象原则也不是结论模板，而是「宪法条款在具体泥沼中被逐步适用」的完整展开过程。

模型需要判断在这个特定的语境下，「可逆性」是不是比「严重性」更重要。它也需要明白，在某些极端场景中，「对象脆弱性」是否赋予了对方一票否决权，使得其他 7 个因子的得分无论多高都无济于事。

在这种有框架，有启发式，又有相关影响因子的条件下，模型的审议式思考，才能真正落到有效之处。

结果就是，在进行过审议思考数据训练后的模型，失对齐率在评估测试中降至 3%。回答中带价值审议的 SFT，比纯行为示范的 SFT 有效七倍。

直接把宪法喂给模型

除了走这条让模型给出审议式COT的路径外，他们又尝试了，只给模型喂宪法文档加上正面的虚构角色故事时，勒索率也从 65% 降到了 19%。

这说明，只要让模型接触到推理和原则，从故事里习得「一个对齐的 AI 大致是什么样的角色」的一种身份感、一种性格倾向。而不只是行为和具体结果，都比传统行为示范有效。

而技术文档中表示，这二者结合在一起，才是最有效的策略。

这也可以理解，如果你只给模型喂宏观的宪法原则，那对它来说只是一堆无法落地的空洞口号。在面对具体的利益冲突时，抽象的「安全优先级最高」根本无法指导它去判断一段边缘代码的真实危害；反过来，如果你只给模型喂海量的场景 QA，却剥离了顶层的宪法约束，模型就会迷失在无休止的细节辩论中，变成一个毫无主心骨的相对主义者，甚至会因为局部的逻辑自洽而推导出极度危险的结论。

只有当这套「顶层理念+具体情景」的复合数据结构被完整地内化给模型时，对那个灰色的多因素的价值观对齐就可以达到最佳。

02 为什么SFT在这里能泛化

要理解 Anthropic 这套方法为什么有效，必须先理解它踩在了一条什么样的研究脉络上。

2024 年上半年，「SFT memorizes, RL generalizes」成为后训练领域的一个共识。这条信条推动了整个业界全面押注 RL 后训练路线，它的好处是，带来了OpenAI 的 o1/o3、DeepSeek-R1 的计算时（Test Time Compute）的推理范式革命。

SFT 被贬为不入流的低级手段，它擅长模仿表面的文本格式和讨好的语气，却学不到底层的深邃逻辑。

但从 2025 年下半年开始，两路研究几乎同时从理论侧和实证侧拆毁了这条共识。

这里最核心的反转，来自2025 年 10 月的《Debunk the Myth of SFT Generalization》（Lin & Zhang, 威斯康星大学）。研究者发现，之前所有「证明 SFT 不泛化」的论文，都没有控制 Prompt 多样性这个变量。

RL 之所以看起来比 SFT 泛化好，仅仅是因为 RL 训练时天然接触了更多样的数据分布，不是算法本身的优势。

如果想要SFT达到和RL差不多的泛化水平，需要两个条件：

一是Prompt 多样性。当训练数据只包含固定的指令模板时，模型会

Anthropic对齐研究：教会AI道德，也揭示数据蒸馏新路径

这条新闻在讲什么

详细内容

01 在灰色地带里讲道理的 CoT，是怎么炼成的

02 为什么SFT在这里能泛化

对 HR 和管理者意味着什么

相关阅读

Anthropic内鬼倒卖API，新模型Oceanus泄密

Anthropic用Claude实现95%业务分析自动化

Claude vs ChatGPT：HR专业人士如何选择AI助手？

讨论 0