YZ指数 · AIモデル変化情報システム

今日どのAIモデルを使うべきか
毎週テストしてお伝えします

11モデル · 212問ランダム抽出 · コード実行 · 引用検証 · ローリング平均ランキング · プレスリリースより継続的なパフォーマンスを確認。

YZ指数を見る週次変化を購読

コードサンドボックス実行引用精度チェック統計的有意性ランキングベンダースポンサーなし

今使うべきモデル

総合1位（ローリング平均） Grok 3

今週の最大上昇文心一言 4.0 +15

最新評価 2026-04-27 SGT

judge v6

今使うべきモデル

まず総合ランキングを確認し、気になる分野を掘り下げましょう。

完全なランキングは、リードの安定性も示します。完全なランキングを見る

上昇と下落

一時的な急上昇はカウントしません。持続的なパフォーマンスの変化を重視します。

今週の最大変化：文心一言 4.0 上昇 15 点。

完全な変化レポートを見る

最大上昇

文心一言 4.0
+15

インシデント報告

今週 2 件

価格変動

0 件更新

総合スコアだけでなく、用途に合わせて選びましょう

第1推薦

豆包 Pro

92.2 点

第2候補

Gemini 2.5 Pro

89.4 点

第3候補

Grok 3

88.9 点

第1推薦

Gemini 2.5 Pro

47.2 点

第2候補

Claude Opus 4.6

46.3 点

第3候補

豆包 Pro

46.3 点

第1推薦

Grok 3

84.4 点

第2候補

Claude Sonnet 4.6

81.1 点

第3候補

Claude Opus 4.6

79.7 点

第1推薦

DeepSeek V3

99.7 点

第2候補

文心一言 4.0

98.5 点

第3候補

豆包 Pro

93 点

第1推薦

豆包 Pro

38.9 点

第2候補

Gemini 2.5 Pro

36.6 点

第3候補

Claude Opus 4.6

36.6 点

用途別の完全な推薦を見る

今日読むべき記事 — 話題性だけでなく

能力、価格、安定性、モデル選定に影響するコンテンツのみ掲載しています。

おすすめ

ニュース

OpenAI CEO Sam Altmanが4,700件の「いいね」で攻撃を受ける：不誠実なリクルーティングと安全軽視の倫理危機？

OpenAIのCEOであるSam Altmanが、競争相手からの不誠実なリクルーティングや安全性より利益を優先しているという批判を受け、AI業界での倫理的リーダーシップについての激論を巻き起こしています。

おすすめ

ニュース

AIロボットがインターネット流量の50%以上を占める：デジタル革命か基盤インフラの危機か？

AI技術の急速な浸透により、AIロボットがインターネット流量の50%以上を生成する時代が到来しました。これはネットワークインフラの耐久性やロボット管理戦略についての議論を引き起こしています。

おすすめ

ニュース

AI投資の狂潮の背後：1兆ドルの評価は技術の突破か資本の幻覚か？

Claudeの開発元Anthropicが最新の資金調達ラウンドで1兆ドルの評価を達成し、AI分野で最大の資金調達記録を樹立しました。このニュースは投資界で大きな反響を呼び、市場が先進的なAI技術に極めて楽観的な期待を寄せていることを反映しています。

おすすめ

ニュース

DeepSeek、1.6兆パラメータのオープンソースモデルを発表、Huaweiチップをサポートし、API価格はGPT-4の1/20で世界的なAI価格戦争を引き起こす

DeepSeekは、1.6兆パラメータのV4-Proと2840億パラメータのV4-Flashを含むV4シリーズのオープンソース大規模モデルを発表しました。これにより、高い技術基準と革新的な価格戦略でAIサービス市場における価格戦争を引き起こしました。

おすすめ

ニュース

OpenAI、GPT-5.5 'SPUD'を発表：対話AIから自律エージェントへの転換、マルチステップタスクで人間レベルの85%達成

OpenAIはGPT-5.5 'SPUD'モデルを発表し、AI技術が対話型からタスク実行型エージェントへと大きく転換したことを示しました。このモデルは複雑なマルチステップタスクで人間レベルの85%に達し、手動介入の必要性を大幅に削減しました。

おすすめ

ニュース

OpenAIとクアルコムの提携によるAIスマートフォン開発：2028年に量産、iPhoneに挑戦、AIエージェントでアプリエコシステムを置き換え

OpenAIがクアルコムやメディアテックと協力して、AIエージェントを搭載したスマートフォンを2028年に量産する計画を発表しました。この動きは、AI企業がソフトウェアからハードウェアへと進出する重要なステップとされています。

すべてのAIニュースが読む価値があるわけではありません。判断を変える情報が重要です。すべてのニュースを見る

このランキングが注目に値する理由

声が大きいからではなく、方法が公開され、ルールが固定され、結果が追跡可能だからです。

コード実行テスト

コードが書けるように見えるだけでは不十分。サンドボックスで実行し、通らなければゼロ点です。

引用検証

長文問題では、回答の正確さだけでなく、引用が原文に遡れるかを検証します。

統計的ランキング

1回の結果では判断しません。ランキングはローリング平均に基づき、偶然の変動を回避します。

スポンサー評価なし

共同評価なし、事前相談なし、忖度なし。結果がそのまま公開されます。

方法論を見る

より深い分析を見たいなら、さらに先へ

ランキングは「誰が強いか」に答え、Research Labは「なぜそうなるか」に答えます。モデルの安全性、エッジデプロイ、パフォーマンス分析 — 論文の転載ではなく、自らのテストに基づく結論です。

Research Labへ

今日どのAIモデルを使うべきか毎週テストしてお伝えします

今使うべきモデル

上昇と下落

総合スコアだけでなく、用途に合わせて選びましょう

今日読むべき記事 — 話題性だけでなく

このランキングが注目に値する理由

AI世界は日々変化しています — 信頼できる情報源が必要です

より深い分析を見たいなら、さらに先へ

今日どのAIモデルを使うべきか
毎週テストしてお伝えします