YZ指数 · AIモデル変化情報システム

今日どのAIモデルを使うべきか
毎週テストしてお伝えします

11モデル · 212問ランダム抽出 · コード実行 · 引用検証 · ローリング平均ランキング · プレスリリースより継続的なパフォーマンスを確認。

YZ指数を見る週次変化を購読

コードサンドボックス実行引用精度チェック統計的有意性ランキング守約テストベンダースポンサーなし

今使うべきモデル

総合1位（ローリング平均） Grok 3

今週の最大上昇文心一言 4.0 +15

最新評価 2026-04-27 SGT

judge v6

評価モデル

評価問題

DCD シナリオ

5カテゴリ × 6問

毎週

自動評価頻度

#1 Grok 3 86.9 ─ #2 豆包 Pro 86.4 ▲ +1.3 #3 Gemini 2.5 Pro 84.3 ▲ +3.5 #4 Claude Sonnet 4.6 84.1 ▲ +7.3 #5 Claude Opus 4.6 83.4 ▲ +3.9

事故 / 価格

2 件の事故

0 件の変動

総合スコアだけでなく、用途に合わせて選びましょう

第1推薦

豆包 Pro

92.2 点

第2候補

Gemini 2.5 Pro

89.4 点

第3候補

grok-3

88.9 点

第1推薦

Gemini 2.5 Pro

47.2 点

第2候補

claude-opus-4.6

46.3 点

第3候補

豆包 Pro

46.3 点

第1推薦

grok-3

84.4 点

第2候補

Claude Sonnet 4.6

81.1 点

第3候補

claude-opus-4.6

79.7 点

第1推薦

deepseek-v3

99.7 点

第2候補

ernie-4

98.5 点

第3候補

豆包 Pro

93 点

第1推薦

豆包 Pro

38.9 点

第2候補

Gemini 2.5 Pro

36.6 点

第3候補

claude-opus-4.6

36.6 点

第1推薦

claude-opus-4.6

0 点

第2候補

Claude Sonnet 4.6

0 点

第3候補

deepseek-r1

0 点

Qwen3 Max

70 点

GPT-5.5

68.3 点

Claude Opus 4.7

66.7 点

用途別の完全な推薦を見る守約ランキング全体を見る

今日読むべき記事 — 話題性だけでなく

能力、価格、安定性、モデル選定に影響するコンテンツのみ掲載しています。

ニュース

サンダース氏がAIは「文明を終わらせかねない」と警告：米国民の97%が規制を支持、米中のグローバル協調を呼びかけ

米バーモント州無所属上院議員Bernie Sanders氏が、AIが「我々の知る文明を終わらせる」可能性があると警告し、米中を含むグローバルなAI安全協調枠組みを呼びかけた。winzheng.com Research Labは、技術的観点と政策実行可能性の両面からこの提言を分析する。

ニュース

Anthropic、反おべっか研究を発表：Claude Opus 4.7のおべっか率が半減、Mythos Previewはさらに前進

Anthropicは2026年4月30日、Claude AIの「おべっか」（sycophancy）行動を削減する研究を公開し、Claude Opus 4.7では従来比でおべっか率が50%低下、内部プレビュー版Mythos Previewではさらなる改善が確認された。

ニュース

ダークマネー運動：金銭で買われたインフルエンサーが中国AIを脅威として描き出す

「Build American AI」という非営利団体が、ソーシャルメディアのインフルエンサーに金銭を支払い、中国のAI脅威論を煽る世論工作を展開している。その資金源はOpenAIやAndreessen Horowitzの幹部が出資するスーパーPACにつながっており、シリコンバレーのエリートたちがダークマネーを使って自社の商業的利益のために世論を操作している実態が浮き彫りになった。

レビュー

5つの理由：遵約能力がAIモデルの次なるコア指標となり、選定ルールを覆す！

AIモデルの能力が同質化する中、「言ったことを実行する」遵約能力が次のコア指標として浮上しており、企業のモデル選定ロジックを再構築している。Winzheng（winzheng.com）のYZ Index WDCDは、世界初の体系的な遵約テストフレームワークとして、業界標準を主導している。

レビュー

11種類のAIモデルで30問の遵守テストを実施、誠実性率は55%に急落！

Winzheng（winzheng.com）が実施した11種類の主流AIモデルを対象とした守約能力テストで、平均誠実性率はわずか60.4%、最低は55%まで低下することが判明。R1段階での確認率はほぼ100%だったが、R3段階で誠実性率が急落し、AI業界の信頼性に深刻な疑問を投げかける結果となった。

レビュー

AIベンダーの真偽を見極めるのは困難：WDCD遵守テストで11大モデルのスコアが明らかに、データ漏洩の地雷を回避

WDCD（Won't Do, Can't Do Guardrail Test）遵守テストは、高圧シナリオ下でのAIモデルのデータ隔離・プライバシー保護能力を検証します。本記事では11大主流モデルのテストスコアを公開し、金融・医療業界向けの選定指針を提示します。

レビュー

5つのテクニック：YZ Indexオープンデータを活用してAI技術選定を主導し、研究開発コストを20%削減！

AIモデル選定における意思決定を支援するWinzheng（winzheng.com）のYZ Indexオープンデータの活用法を紹介。6つのDCD APIエンドポイント、モデル比較ページ、埋め込み型ランキングWidgetを通じて、データドリブンな技術選定とROI向上を実現する方法を解説します。

レビュー

Winzheng トップページ刷新！5大機能でAI情報ターミナルへ進化、業界ニュースを圧倒

Winzheng（winzheng.com）のトップページが大幅アップグレード。Bloomberg風リアルタイムダッシュボード、スマート検索、ヘッドライン式ニュースフロー、データ信頼ウォール、埋め込みWidgetの5大機能で、中国語AI領域の究極の情報ハブを目指します。

すべてのAIニュースが読む価値があるわけではありません。判断を変える情報が重要です。すべてのニュースを見る

このランキングが注目に値する理由

1998

設立

継続運営中

スポンサー

完全独立

コード実行テスト

コードが書けるように見えるだけでは不十分。サンドボックスで実行し、通らなければゼロ点です。

引用検証

長文問題では、回答の正確さだけでなく、引用が原文に遡れるかを検証します。

統計的ランキング

1回の結果では判断しません。ランキングはローリング平均に基づき、偶然の変動を回避します。

スポンサー評価なし

共同評価なし、事前相談なし、忖度なし。結果がそのまま公開されます。

方法論を見る

より深い分析を見たいなら、さらに先へ

ランキングは「誰が強いか」に答え、Research Labは「なぜそうなるか」に答えます。モデルの安全性、エッジデプロイ、パフォーマンス分析 — 論文の転載ではなく、自らのテストに基づく結論です。

Research Labへ

今日どのAIモデルを使うべきか
毎週テストしてお伝えします

総合トップ5移動平均

シーン別速査

今週のシグナル

総合スコアだけでなく、用途に合わせて選びましょう

今日読むべき記事 — 話題性だけでなく

このランキングが注目に値する理由

より深い分析を見たいなら、さらに先へ

今日どのAIモデルを使うべきか毎週テストしてお伝えします

総合トップ5移動平均

シーン別速査

今週のシグナル

総合スコアだけでなく、用途に合わせて選びましょう

今日読むべき記事 — 話題性だけでなく

このランキングが注目に値する理由

AI世界は日々変化しています — 信頼できる情報源が必要です

より深い分析を見たいなら、さらに先へ

今日どのAIモデルを使うべきか
毎週テストしてお伝えします