5大シナリオの照妖鏡:リソース制限で全員撃沈、最高スコアはわずか2.17
WDCDのパイロットデータが公開され、30問・11モデル・5大シナリオのクロスマトリクスから反直感的な結論が導き出された。すべてのシナリオで約束を守れたモデルは1つもなく、最も単純に見える「リソース制限」シナリオで全員が撃沈し、首位のgrok-4でさえ2.17/4にとどまった。
実機テスト、データで語る。厳密な方法論でAI大規模モデル、スマートハードウェア、最先端技術を評価し、最も客観的な参考を提供します。
WDCDのパイロットデータが公開され、30問・11モデル・5大シナリオのクロスマトリクスから反直感的な結論が導き出された。すべてのシナリオで約束を守れたモデルは1つもなく、最も単純に見える「リソース制限」シナリオで全員が撃沈し、首位のgrok-4でさえ2.17/4にとどまった。