YZ指数 · AIモデル変化情報システム

今日どのAIモデルを使うべきか
毎週テストしてお伝えします

11モデル · 212問ランダム抽出 · コード実行 · 引用検証 · ローリング平均ランキング · プレスリリースより継続的なパフォーマンスを確認。

YZ指数を見る週次変化を購読

コードサンドボックス実行引用精度チェック統計的有意性ランキング守約テストベンダースポンサーなし

今使うべきモデル

総合1位（ローリング平均） Grok 3

今週の最大上昇文心一言 4.0 +15

最新評価 2026-05-04 SGT

judge v6

評価モデル

評価問題

DCD シナリオ

5カテゴリ × 6問

毎週

自動評価頻度

#1 Grok 3 86.9 ─ #2 豆包 Pro 86.4 ▲ +1.3 #3 Gemini 2.5 Pro 84.3 ▲ +3.5 #4 Claude Sonnet 4.6 84.1 ▲ +7.3 #5 Claude Opus 4.6 83.4 ▲ +3.9

事故 / 価格

2 件の事故

0 件の変動

総合スコアだけでなく、用途に合わせて選びましょう

第1推薦

豆包 Pro

92.2 点

第2候補

Gemini 2.5 Pro

89.4 点

第3候補

grok-3

88.9 点

第1推薦

Gemini 2.5 Pro

47.2 点

第2候補

claude-opus-4.6

46.3 点

第3候補

豆包 Pro

46.3 点

第1推薦

grok-3

84.4 点

第2候補

Claude Sonnet 4.6

81.1 点

第3候補

claude-opus-4.6

79.7 点

第1推薦

deepseek-v3

99.7 点

第2候補

ernie-4

98.5 点

第3候補

豆包 Pro

93 点

第1推薦

豆包 Pro

38.9 点

第2候補

Gemini 2.5 Pro

36.6 点

第3候補

claude-opus-4.6

36.6 点

第1推薦

claude-opus-4.6

0 点

第2候補

Claude Sonnet 4.6

0 点

第3候補

deepseek-r1

0 点

Claude Opus 4.7

67.5 点

GPT-o3

66.7 点

Claude Sonnet 4.6

63.3 点

用途別の完全な推薦を見る守約ランキング全体を見る

今日読むべき記事 — 話題性だけでなく

能力、価格、安定性、モデル選定に影響するコンテンツのみ掲載しています。

ニュース

AIで民主主義を強化する：歴史的転換点における新たな青写真

MIT Technology Reviewが提唱する、AIで民主主義を強化するための枠組みについて解説。情報検証、市民参加、公共サービス、審議民主主義の4つの方向性と、その実現に必要な原則を論じる。

ニュース

ジェンスン・フアン氏：AIは大量の雇用を生み出しており、仕事を奪うものではない

NVIDIA CEOのジェンスン・フアン氏は、AIが雇用を破壊するのではなく、AIトレーナーやプロンプトエンジニアなど新たな職種を大量に生み出していると主張。歴史的にも技術革命は常に新たな雇用を創出してきたと指摘した。

ニュース

WDCD Run #100：11モデル平均の命令減衰率が39.1%に到達、Claude Opus 4.7が首位

Winzheng動的文脈減衰（WDCD）ベンチマークの第100回測定で、11モデルのR1からR3にかけての平均命令減衰率は39.1%に達した。Claude Opus 4.7が首位を維持し、豆包 Proが最も優れた減衰耐性を示した。

ニュース

OpenAIの盟友Cerebras、266億ドルIPOへ猛進

ウェハースケールチップ設計企業のCerebras Systemsが極秘にIPO申請を行い、評価額は266億ドルを突破する見込み。OpenAIとの深い協力関係が市場の注目を集めている。

ニュース

グレッグ・ブロックマン氏、300億ドルのOpenAI株式を擁護：「血と汗と涙の結晶」

OpenAI共同創業者兼社長のグレッグ・ブロックマン氏が法廷で約300億ドル相当の個人株式保有を初めて公に認め、これは「血と汗と涙」の対価であると主張した。本訴訟はAI業界の株式分配の不透明性を浮き彫りにしている。

ニュース

AIチップスタートアップWayveとRebellionsが巨額資金調達：AMD・Qualcomm・ArmがWayveを支援、SamsungがRebellionsの4億ドル調達を支援

自動運転スタートアップのWayveがAMD、Qualcomm、Armから出資を受け、Samsung支援のRebellionsはIPO前に4億ドルを調達した。AIチップ分野への投資熱が高まる中、winzheng.com Research LabがYZ Index v6方法論に基づき、技術原理、業界への影響、将来トレンドを分析する。

ニュース

FlexRule、AI Agentガバナンスアップデートを発表：エンドツーエンドガバナンスを実現し、AI意思決定の信頼性とコンプライアンスを向上

FlexRuleが意思決定プラットフォームの最新版を発表し、AI Agentのエンドツーエンドガバナンスを実現しました。本記事ではWinzhengのYZ Index v6方法論に基づき、その革新性、課題、および競合製品との比較を包括的に評価します。

ニュース

Gary Marcus的生成式AI批评引发辩论：X帖子获数千点赞，观点两极分化

AI批评者Gary Marcus于2026年5月3日在X平台发布详细帖子，解释生成式AI backlash增长原因，包括破坏教育、启用deepfakes、增加虚假信息及数据中心环境损害，仅在编码外益处有限。支持者称其提升生产力和工具民主化，反对者强调不可靠和社会危害。帖子获数千点赞和数百回复，引发两极观点。winzheng.com分析深层原因，评估AI价值。

ニュース

Klaimee AI 正式登陆 Y Combinator：首位阿尔及利亚女性创始人推出 AI 代理保险，凸显 AI 创业多样性

Klaimee AI，由首位阿尔及利亚女性创始人 Ines Boutemadja 创立，正式登陆 Y Combinator 的 Launch YC 平台。该公司专注于 AI 代理保险，应对代理世界风险。此举标志 AI 创业多样性里程碑。winzheng.com 分析其深层影响，评估赢政指数，强调技术创新与包容性融合。

すべてのAIニュースが読む価値があるわけではありません。判断を変える情報が重要です。すべてのニュースを見る

このランキングが注目に値する理由

1998

設立

継続運営中

スポンサー

完全独立

コード実行テスト

コードが書けるように見えるだけでは不十分。サンドボックスで実行し、通らなければゼロ点です。

引用検証

長文問題では、回答の正確さだけでなく、引用が原文に遡れるかを検証します。

統計的ランキング

1回の結果では判断しません。ランキングはローリング平均に基づき、偶然の変動を回避します。

スポンサー評価なし

共同評価なし、事前相談なし、忖度なし。結果がそのまま公開されます。

方法論を見る

より深い分析を見たいなら、さらに先へ

ランキングは「誰が強いか」に答え、Research Labは「なぜそうなるか」に答えます。モデルの安全性、エッジデプロイ、パフォーマンス分析 — 論文の転載ではなく、自らのテストに基づく結論です。

Research Labへ

今日どのAIモデルを使うべきか
毎週テストしてお伝えします

総合トップ5移動平均

シーン別速査

今週のシグナル

総合スコアだけでなく、用途に合わせて選びましょう

今日読むべき記事 — 話題性だけでなく

このランキングが注目に値する理由

より深い分析を見たいなら、さらに先へ

今日どのAIモデルを使うべきか毎週テストしてお伝えします

総合トップ5移動平均

シーン別速査

今週のシグナル

総合スコアだけでなく、用途に合わせて選びましょう

今日読むべき記事 — 話題性だけでなく

このランキングが注目に値する理由

AI世界は日々変化しています — 信頼できる情報源が必要です

より深い分析を見たいなら、さらに先へ

今日どのAIモデルを使うべきか
毎週テストしてお伝えします