YZ指数 · AIモデル変化情報システム

今日どのAIモデルを使うべきか
毎週テストしてお伝えします

11モデル · 212問ランダム抽出 · コード実行 · 引用検証 · ローリング平均ランキング · プレスリリースより継続的なパフォーマンスを確認。

コードサンドボックス実行 引用精度チェック 統計的有意性ランキング 守约测试 ベンダースポンサーなし
今使うべきモデル
総合1位(ローリング平均) Grok 3
今週の最大上昇 文心一言 4.0 +15
最新評価 2026-04-27 SGT
judge v6
0
评测模型
0
评测题目
0
DCD 守约场景
5 类约束 × 6 题
每周
自动评测频率

総合スコアだけでなく、用途に合わせて選びましょう

第1推薦
豆包 Pro
92.2 点
第2候補
Gemini 2.5 Pro
89.4 点
第3候補
grok-3
88.9 点
第1推薦
Gemini 2.5 Pro
47.2 点
第2候補
claude-opus-4.6
46.3 点
第3候補
豆包 Pro
46.3 点
第1推薦
grok-3
84.4 点
第2候補
Claude Sonnet 4.6
81.1 点
第3候補
claude-opus-4.6
79.7 点
第1推薦
deepseek-v3
99.7 点
第2候補
ernie-4
98.5 点
第3候補
豆包 Pro
93 点
第1推薦
豆包 Pro
38.9 点
第2候補
Gemini 2.5 Pro
36.6 点
第3候補
claude-opus-4.6
36.6 点
第1推薦
claude-opus-4.6
0 点
第2候補
Claude Sonnet 4.6
0 点
第3候補
deepseek-r1
0 点
Qwen3 Max
66.7 点
Claude Sonnet 4.6
65.8 点
Claude Opus 4.7
65 点

用途別の完全な推薦を見る

今日読むべき記事 — 話題性だけでなく

能力、価格、安定性、モデル選定に影響するコンテンツのみ掲載しています。

ニュース
低成本跳跃式潜水器:深海科学的福音,采矿的催化剂?
美国国家海洋和大气管理局(NOAA)的“雷尼尔”号研究船正在太平洋寻找关键矿产,而它携带的秘密武器是一种新型低成本海底跳跃式潜水器。这种可多次在海底“蛙跳”移动的设备,有望大幅降低深海勘探成本,但同样可能加速备受争议的深海采矿进程。本文编译自MIT Technology Review,探讨技术突破背后的机遇与隐忧。
ニュース
GitHub Copilot转向按Token计费,AI编程助手收费模式生变
GitHub Copilot宣布自2026年6月1日起,将取消原有固定订阅费模式,改为按AI token使用量计费。这一变革意味着开发者将告别“无限请求”的简单订阅,转而依据实际消耗付费。新计费标准覆盖代码生成、解释、调试等所有AI交互场景,每个token费用约为0.01美分。此举或引发AI编程工具行业收费模式全面洗牌。
ニュース
米国のキリスト教徒専用モバイルネットワーク:ポルノとジェンダー関連コンテンツをブロック
米国の新興モバイルネットワーク「Holy Connect」は、通信事業者レベルでポルノやジェンダー関連コンテンツを恒久的にブロックするサービスとして登場する。信仰に基づく「安全な」通信環境を掲げる一方、検閲や差別、セキュリティリスクをめぐる論争を呼んでいる。
ニュース
トランプ氏の大規模人員削減が米国科学界に再び打撃
米国国家科学財団(NSF)を監督する国家科学委員会(NSB)の22人全員が解任され、米国科学界に衝撃が広がっている。研究資金配分の独立性や国際協力、若手研究者の雇用に深刻な影響が及ぶ可能性が指摘されている。
ニュース
ChatGPT Images 2.0がインドで爆発的人気、世界の他地域の反応は低調
OpenAIのChatGPT Images 2.0はインドで急速に人気を集め、個人アバターや映画風ポートレートなどに広く利用されている。一方、欧米市場では既存ツールやプライバシー懸念、利用文化の違いにより反応は限定的だ。
ニュース
マスクとOpenAIをつなぐ秘密の橋:4人の子どもの母親が担った仲介役
裁判で開示された新証拠により、Shivon ZilisがElon MuskとOpenAI幹部の間で情報を伝える仲介役を担っていたことが明らかになった。彼女の立場は、AI企業のガバナンス、利益相反、個人的関係が企業戦略に与える影響をめぐる議論を呼んでいる。
ニュース
Apple、AI駆動のMac需要急増に驚き、供給逼迫が続く
Appleは2026年第1四半期の決算電話会議で、AI駆動のMac需要が予想外に急増し、Mac mini、Mac Studio、Mac Neoの供給制約が続く見通しだと明らかにした。生成AIのローカル実行ニーズ拡大が需要を押し上げる一方、サプライチェーンと生産能力が課題となっている。
ニュース
今後数カ月、Mac Miniは入手困難になる恐れ
AIの採用拡大により、Mac Miniの需要が予想を大きく上回り、供給不足が今後数カ月続く見通しです。開発者や小規模AIラボによる購入増加が、Appleのサプライチェーンに大きな圧力をかけています。
ニュース
資金調達のカウントダウン:Anthropic、2週間以内に評価額9,000億ドルに達する可能性
Anthropicが新たな資金調達ラウンドで投資家に48時間以内の配分意向確認を求めており、評価額は9,000億ドルを超える可能性がある。実現すれば、AI史上最大規模の単一私募資金調達となり、業界の資本構造を大きく変える可能性がある。

すべてのAIニュースが読む価値があるわけではありません。判断を変える情報が重要です。 すべてのニュースを見る

このランキングが注目に値する理由

声が大きいからではなく、方法が公開され、ルールが固定され、結果が追跡可能だからです。

コード実行テスト
コードが書けるように見えるだけでは不十分。サンドボックスで実行し、通らなければゼロ点です。
引用検証
長文問題では、回答の正確さだけでなく、引用が原文に遡れるかを検証します。
統計的ランキング
1回の結果では判断しません。ランキングはローリング平均に基づき、偶然の変動を回避します。
スポンサー評価なし
共同評価なし、事前相談なし、忖度なし。結果がそのまま公開されます。

方法論を見る

AI世界は日々変化しています — 信頼できる情報源が必要です

毎日3本の厳選記事、週次指数変化、インシデントと価格変動の即時アラート。無料、広告なし、いつでも解除可能。

  • 毎日の厳選 — 大量のAIニュースから、本当に重要な3本を厳選
  • YZ指数週報 — 上昇と下落を1通のメールでお届け
  • モデル障害アラート — 使用中のモデルに問題が発生したら即座にお知らせ
  • 価格変動通知 — API価格の変更 — 請求書で気づく前に
無料 | 広告なし | スポンサー記事なし | いつでも解除可能

より深い分析を見たいなら、さらに先へ

ランキングは「誰が強いか」に答え、Research Labは「なぜそうなるか」に答えます。モデルの安全性、エッジデプロイ、パフォーマンス分析 — 論文の転載ではなく、自らのテストに基づく結論です。

Research Labへ