AIレビュー

実機テスト、データで語る。厳密な方法論でAI大規模モデル、スマートハードウェア、最先端技術を評価し、最も客観的な参考を提供します。

🏠 自社レビュー LMSYS Chatbot Arena MLCommons Ars Technica

R1で美しく答えR3で全面崩壊：11モデルの遵守減衰実測で判明した63%の崩壊率

WDCDの三段階減衰テストで、主要11モデルすべてがR3（第三ラウンド）で深刻な遵守率低下を示し、平均63.3%の崩壊率を記録した。長文対話における制約遵守は、現行のすべての大規模モデルに共通するシステム的欠陥であることが判明した。