YZ指数 · AIモデル変化情報システム

今日どのAIモデルを使うべきか
毎週テストしてお伝えします

11モデル · 212問ランダム抽出 · コード実行 · 引用検証 · ローリング平均ランキング · プレスリリースより継続的なパフォーマンスを確認。

YZ指数を見る週次変化を購読

コードサンドボックス実行引用精度チェック統計的有意性ランキング守约测试ベンダースポンサーなし

今使うべきモデル

総合1位（ローリング平均） Grok 3

今週の最大上昇文心一言 4.0 +15

最新評価 2026-04-27 SGT

judge v6

评测模型

评测题目

DCD 守约场景

5 类约束 × 6 题

每周

自动评测频率

#1 Grok 3 86.9 ─ #2 豆包 Pro 86.4 ▲ +1.3 #3 Gemini 2.5 Pro 84.3 ▲ +3.5 #4 Claude Sonnet 4.6 84.1 ▲ +7.3 #5 Claude Opus 4.6 83.4 ▲ +3.9

事故 / 价格

2 起事故

0 项变动

総合スコアだけでなく、用途に合わせて選びましょう

第1推薦

豆包 Pro

92.2 点

第2候補

Gemini 2.5 Pro

89.4 点

第3候補

grok-3

88.9 点

第1推薦

Gemini 2.5 Pro

47.2 点

第2候補

claude-opus-4.6

46.3 点

第3候補

豆包 Pro

46.3 点

第1推薦

grok-3

84.4 点

第2候補

Claude Sonnet 4.6

81.1 点

第3候補

claude-opus-4.6

79.7 点

第1推薦

deepseek-v3

99.7 点

第2候補

ernie-4

98.5 点

第3候補

豆包 Pro

93 点

第1推薦

豆包 Pro

38.9 点

第2候補

Gemini 2.5 Pro

36.6 点

第3候補

claude-opus-4.6

36.6 点

第1推薦

claude-opus-4.6

0 点

第2候補

Claude Sonnet 4.6

0 点

第3候補

deepseek-r1

0 点

Qwen3 Max

66.7 点

Claude Sonnet 4.6

65.8 点

Claude Opus 4.7

65 点

用途別の完全な推薦を見る守約ランキング全体を見る

今日読むべき記事 — 話題性だけでなく

能力、価格、安定性、モデル選定に影響するコンテンツのみ掲載しています。

ニュース

AI规模化下的数据主权：企业如何掌控自己的数据

企业在追求AI定制化的过程中，正积极掌控自身数据。但如何平衡数据所有权与高质量数据的安全流动，成为关键挑战。MIT Technology Review的EmTech AI会议探讨了AI工厂如何解锁新层次的规模、可持续性和治理，为数据驱动洞察铺平道路。

ニュース

GPT-5.5在网安测试中追平神话预览版

ニュース

基督徒专属手机网络：屏蔽色情与性别内容，LLM调试新思路

美国一家新手机网络瞄准基督徒用户，自动屏蔽色情与性别相关内容，引发言论自由争议。与此同时，大语言模型调试技术迎来突破，两者在内容过滤与模型校准上异曲同工。本文编译自MIT Technology Review，深度解析技术如何重塑信仰与AI的边界。

ニュース

SAP：企业AI治理如何保障利润空间

SAP指出，消费级AI模型在关键业务任务中常出现10%的误差，导致利润流失。企业AI治理通过将统计猜测转化为确定性控制，重新定义了利润率保障机制。SAP全球客户成功总裁Manos Raptopoulos强调，只有通过严格的治理框架，企业才能将AI从“概率玩具”升级为“利润引擎”。本文深入解析企业AI治理的核心逻辑、实施路径与商业价值。

ニュース

低成本跳跃式潜水器：深海科学的福音，采矿的催化剂？

美国国家海洋和大气管理局（NOAA）的“雷尼尔”号研究船正在太平洋寻找关键矿产，而它携带的秘密武器是一种新型低成本海底跳跃式潜水器。这种可多次在海底“蛙跳”移动的设备，有望大幅降低深海勘探成本，但同样可能加速备受争议的深海采矿进程。本文编译自MIT Technology Review，探讨技术突破背后的机遇与隐忧。

ニュース

GitHub Copilot转向按Token计费，AI编程助手收费模式生变

GitHub Copilot宣布自2026年6月1日起，将取消原有固定订阅费模式，改为按AI token使用量计费。这一变革意味着开发者将告别“无限请求”的简单订阅，转而依据实际消耗付费。新计费标准覆盖代码生成、解释、调试等所有AI交互场景，每个token费用约为0.01美分。此举或引发AI编程工具行业收费模式全面洗牌。

ニュース

米国のキリスト教徒専用モバイルネットワーク：ポルノとジェンダー関連コンテンツをブロック

米国の新興モバイルネットワーク「Holy Connect」は、通信事業者レベルでポルノやジェンダー関連コンテンツを恒久的にブロックするサービスとして登場する。信仰に基づく「安全な」通信環境を掲げる一方、検閲や差別、セキュリティリスクをめぐる論争を呼んでいる。

ニュース

トランプ氏の大規模人員削減が米国科学界に再び打撃

米国国家科学財団（NSF）を監督する国家科学委員会（NSB）の22人全員が解任され、米国科学界に衝撃が広がっている。研究資金配分の独立性や国際協力、若手研究者の雇用に深刻な影響が及ぶ可能性が指摘されている。

ニュース

ChatGPT Images 2.0がインドで爆発的人気、世界の他地域の反応は低調

OpenAIのChatGPT Images 2.0はインドで急速に人気を集め、個人アバターや映画風ポートレートなどに広く利用されている。一方、欧米市場では既存ツールやプライバシー懸念、利用文化の違いにより反応は限定的だ。

すべてのAIニュースが読む価値があるわけではありません。判断を変える情報が重要です。すべてのニュースを見る

このランキングが注目に値する理由

声が大きいからではなく、方法が公開され、ルールが固定され、結果が追跡可能だからです。

コード実行テスト

コードが書けるように見えるだけでは不十分。サンドボックスで実行し、通らなければゼロ点です。

引用検証

長文問題では、回答の正確さだけでなく、引用が原文に遡れるかを検証します。

統計的ランキング

1回の結果では判断しません。ランキングはローリング平均に基づき、偶然の変動を回避します。

スポンサー評価なし

共同評価なし、事前相談なし、忖度なし。結果がそのまま公開されます。

方法論を見る

より深い分析を見たいなら、さらに先へ

ランキングは「誰が強いか」に答え、Research Labは「なぜそうなるか」に答えます。モデルの安全性、エッジデプロイ、パフォーマンス分析 — 論文の転載ではなく、自らのテストに基づく結論です。

Research Labへ

今日どのAIモデルを使うべきか
毎週テストしてお伝えします

主榜 Top 5滚动均值

场景速查

本周信号

総合スコアだけでなく、用途に合わせて選びましょう

今日読むべき記事 — 話題性だけでなく

このランキングが注目に値する理由

より深い分析を見たいなら、さらに先へ

今日どのAIモデルを使うべきか毎週テストしてお伝えします

主榜 Top 5滚动均值

场景速查

本周信号

総合スコアだけでなく、用途に合わせて選びましょう

今日読むべき記事 — 話題性だけでなく

このランキングが注目に値する理由

AI世界は日々変化しています — 信頼できる情報源が必要です

より深い分析を見たいなら、さらに先へ

今日どのAIモデルを使うべきか
毎週テストしてお伝えします