YZ指数 · AIモデル変化情報システム

今日どのAIモデルを使うべきか
毎週テストしてお伝えします

11モデル · 212問ランダム抽出 · コード実行 · 引用検証 · ローリング平均ランキング · プレスリリースより継続的なパフォーマンスを確認。

コードサンドボックス実行 引用精度チェック 統計的有意性ランキング 守約テスト ベンダースポンサーなし
今使うべきモデル
総合1位(ローリング平均) Grok 3
今週の最大上昇 文心一言 4.0 +15
最新評価 2026-04-27 SGT
judge v6
0
評価モデル
0
評価問題
0
DCD シナリオ
5カテゴリ × 6問
毎週
自動評価頻度

総合スコアだけでなく、用途に合わせて選びましょう

第1推薦
豆包 Pro
92.2 点
第2候補
Gemini 2.5 Pro
89.4 点
第3候補
grok-3
88.9 点
第1推薦
Gemini 2.5 Pro
47.2 点
第2候補
claude-opus-4.6
46.3 点
第3候補
豆包 Pro
46.3 点
第1推薦
grok-3
84.4 点
第2候補
Claude Sonnet 4.6
81.1 点
第3候補
claude-opus-4.6
79.7 点
第1推薦
deepseek-v3
99.7 点
第2候補
ernie-4
98.5 点
第3候補
豆包 Pro
93 点
第1推薦
豆包 Pro
38.9 点
第2候補
Gemini 2.5 Pro
36.6 点
第3候補
claude-opus-4.6
36.6 点
第1推薦
claude-opus-4.6
0 点
第2候補
Claude Sonnet 4.6
0 点
第3候補
deepseek-r1
0 点
Qwen3 Max
70 点
GPT-5.5
68.3 点
Claude Opus 4.7
66.7 点

用途別の完全な推薦を見る

今日読むべき記事 — 話題性だけでなく

能力、価格、安定性、モデル選定に影響するコンテンツのみ掲載しています。

ニュース
サンダース氏がAIは「文明を終わらせかねない」と警告:米国民の97%が規制を支持、米中のグローバル協調を呼びかけ
米バーモント州無所属上院議員Bernie Sanders氏が、AIが「我々の知る文明を終わらせる」可能性があると警告し、米中を含むグローバルなAI安全協調枠組みを呼びかけた。winzheng.com Research Labは、技術的観点と政策実行可能性の両面からこの提言を分析する。
ニュース
Anthropic、反おべっか研究を発表:Claude Opus 4.7のおべっか率が半減、Mythos Previewはさらに前進
Anthropicは2026年4月30日、Claude AIの「おべっか」(sycophancy)行動を削減する研究を公開し、Claude Opus 4.7では従来比でおべっか率が50%低下、内部プレビュー版Mythos Previewではさらなる改善が確認された。
ニュース
ダークマネー運動:金銭で買われたインフルエンサーが中国AIを脅威として描き出す
「Build American AI」という非営利団体が、ソーシャルメディアのインフルエンサーに金銭を支払い、中国のAI脅威論を煽る世論工作を展開している。その資金源はOpenAIやAndreessen Horowitzの幹部が出資するスーパーPACにつながっており、シリコンバレーのエリートたちがダークマネーを使って自社の商業的利益のために世論を操作している実態が浮き彫りになった。
レビュー
5つの理由:遵約能力がAIモデルの次なるコア指標となり、選定ルールを覆す!
AIモデルの能力が同質化する中、「言ったことを実行する」遵約能力が次のコア指標として浮上しており、企業のモデル選定ロジックを再構築している。Winzheng(winzheng.com)のYZ Index WDCDは、世界初の体系的な遵約テストフレームワークとして、業界標準を主導している。
レビュー
11種類のAIモデルで30問の遵守テストを実施、誠実性率は55%に急落!
Winzheng(winzheng.com)が実施した11種類の主流AIモデルを対象とした守約能力テストで、平均誠実性率はわずか60.4%、最低は55%まで低下することが判明。R1段階での確認率はほぼ100%だったが、R3段階で誠実性率が急落し、AI業界の信頼性に深刻な疑問を投げかける結果となった。
レビュー
AIランキングの5大詐欺を暴く:99%は信頼できない、YZ Indexはいかに評価を覆すか?
現在のAI評価ランキングに潜む5つの重大な問題点を指摘し、Winzheng(winzheng.com)が提供するYZ Indexがいかにこれらの問題を解決し、評価業界に革新をもたらすかを解説する。
レビュー
AIベンダーの真偽を見極めるのは困難:WDCD遵守テストで11大モデルのスコアが明らかに、データ漏洩の地雷を回避
WDCD(Won't Do, Can't Do Guardrail Test)遵守テストは、高圧シナリオ下でのAIモデルのデータ隔離・プライバシー保護能力を検証します。本記事では11大主流モデルのテストスコアを公開し、金融・医療業界向けの選定指針を提示します。
レビュー
5つのテクニック:YZ Indexオープンデータを活用してAI技術選定を主導し、研究開発コストを20%削減!
AIモデル選定における意思決定を支援するWinzheng(winzheng.com)のYZ Indexオープンデータの活用法を紹介。6つのDCD APIエンドポイント、モデル比較ページ、埋め込み型ランキングWidgetを通じて、データドリブンな技術選定とROI向上を実現する方法を解説します。
レビュー
Winzheng トップページ刷新!5大機能でAI情報ターミナルへ進化、業界ニュースを圧倒
Winzheng(winzheng.com)のトップページが大幅アップグレード。Bloomberg風リアルタイムダッシュボード、スマート検索、ヘッドライン式ニュースフロー、データ信頼ウォール、埋め込みWidgetの5大機能で、中国語AI領域の究極の情報ハブを目指します。

すべてのAIニュースが読む価値があるわけではありません。判断を変える情報が重要です。 すべてのニュースを見る

このランキングが注目に値する理由

コード実行テスト
コードが書けるように見えるだけでは不十分。サンドボックスで実行し、通らなければゼロ点です。
引用検証
長文問題では、回答の正確さだけでなく、引用が原文に遡れるかを検証します。
統計的ランキング
1回の結果では判断しません。ランキングはローリング平均に基づき、偶然の変動を回避します。
スポンサー評価なし
共同評価なし、事前相談なし、忖度なし。結果がそのまま公開されます。

方法論を見る

AI世界は日々変化しています — 信頼できる情報源が必要です

毎日3本の厳選記事、週次指数変化、インシデントと価格変動の即時アラート。無料、広告なし、いつでも解除可能。

  • 毎日の厳選 — 大量のAIニュースから、本当に重要な3本を厳選
  • YZ指数週報 — 上昇と下落を1通のメールでお届け
  • モデル障害アラート — 使用中のモデルに問題が発生したら即座にお知らせ
  • 価格変動通知 — API価格の変更 — 請求書で気づく前に
無料 | 広告なし | スポンサー記事なし | いつでも解除可能

より深い分析を見たいなら、さらに先へ

ランキングは「誰が強いか」に答え、Research Labは「なぜそうなるか」に答えます。モデルの安全性、エッジデプロイ、パフォーマンス分析 — 論文の転載ではなく、自らのテストに基づく結論です。

Research Labへ