AIレビュー

実機テスト、データで語る。厳密な方法論でAI大規模モデル、スマートハードウェア、最先端技術を評価し、最も客観的な参考を提供します。

🏠 自社レビュー LMSYS Chatbot Arena MLCommons Ars Technica

330回の圧力テスト：63%の大規模モデルが3ラウンド目で「裏切った」

YZ Indexが新たに発表したWDCD（動的コンテキスト減衰）契約遵守テストにより、3ラウンドの対話圧力下で63.3%の大規模モデルが直前に約束した制約を覆すことが判明した。Claude Opus 4.7が首位を獲得し、Grok 4が最下位となった。