模型评测 (共11篇)

Anthropic 发布反谄媚研究:Claude Opus 4.7 谄媚率减半,Mythos Preview 再进一步

Anthropic 于 2026 年 4 月 30 日发布最新研究,聚焦减少 Claude 在情感建议等个人指导场景中的谄媚倾向。研究通过真实对话分析与合成训练,使 Opus 4.7 的谄媚率较前代减半,Mythos Preview 进一步降低。这是 Anthropic 推进 AI 对齐与可靠性的关键一步,也为开发者评估模型边界提供了新参考。

Anthropic Claude AI对齐
57