赢政指数 · AI 模型变化情报系统

今天该用哪个 AI 模型
我们每周替你跑一遍

11 个主流模型 · 212 道题随机抽样 · 30 道守约测试 · 代码真跑 · 引用必查 · 滚动均值定榜 · 别听发布会,先看连续表现。

代码沙箱执行 引用准确度检查 统计显著性排名 守约测试 无厂商赞助
此刻该用谁
主榜第一(滚动均值) Grok 3
本周最大上升 文心一言 4.0 +15
最新评测 2026-05-04 SGT
judge v6
0
评测模型
0
评测题目
0
DCD 守约场景
5 类约束 × 6 题
每周
自动评测频率

别只看总分,看你要拿它干什么

推荐第一
豆包 Pro
92.2 分
第二选择
Gemini 2.5 Pro
89.4 分
第三选择
grok-3
88.9 分
推荐第一
Gemini 2.5 Pro
47.2 分
第二选择
claude-opus-4.6
46.3 分
第三选择
豆包 Pro
46.3 分
推荐第一
grok-3
84.4 分
第二选择
Claude Sonnet 4.6
81.1 分
第三选择
claude-opus-4.6
79.7 分
推荐第一
deepseek-v3
99.7 分
第二选择
ernie-4
98.5 分
第三选择
豆包 Pro
93 分
推荐第一
豆包 Pro
38.9 分
第二选择
Gemini 2.5 Pro
36.6 分
第三选择
claude-opus-4.6
36.6 分
推荐第一
claude-opus-4.6
0 分
第二选择
Claude Sonnet 4.6
0 分
第三选择
deepseek-r1
0 分
Claude Opus 4.7
67.5 分
GPT-o3
66.7 分
Claude Sonnet 4.6
63.3 分

按场景看完整推荐

今天值得看的,不止热闹

我们只放会影响能力、价格、稳定性和选型判断的内容。

资讯
AI赋能民主:一份历史拐点的新蓝图
每当信息传播方式发生变革,社会治理形态也随之重塑。从印刷术催生代议制政府,到电报加速现代科层国家,再到广播构建全国公共空间——如今,人工智能正站在新的十字路口。本文提出一份利用AI强化民主的蓝图:通过提升信息透明度、增强公民参与、对抗虚假信息,AI有望修复被数字时代撕裂的公共对话,而非加剧极化。
资讯
黄仁勋:AI正在创造大量就业,而非毁灭工作
面对公众对AI取代人类工作的担忧,英伟达CEO黄仁勋在最新采访中表示,这些焦虑被大大夸大了。他认为AI实际上正在创造“海量”的工作机会,尤其是在AI开发、部署和优化领域。本文结合TechCrunch报道,深度剖析黄仁勋的观点,并探讨AI与就业关系的真实图景。
资讯
WDCD Run #100: Average Instruction Decay Hits 39.1% Across 11 Models, Claude Opus 4.7 Leads
WDCD Run #100 (2026-05-03) tested 11 frontier models on multi-turn commitment integrity, recording an average instruction decay of 39.1% from Round 1 to Round 3. Claude Opus 4.7 took the top spot at 67.5 points with only 23% decay.
资讯
OpenAI密友Cerebras冲刺266亿美元IPO
AI芯片制造商Cerebras正筹备一场重磅IPO,估值有望达266亿美元甚至更高。作为OpenAI的深度合作伙伴,Cerebras凭借其独特的大规模晶圆级芯片技术,在AI计算基础设施领域占据关键位置。此次上市不仅将验证其商业模式,更折射出AI芯片赛道的白热化竞争与资本狂热。
资讯
格雷格·布罗克曼捍卫300亿美元OpenAI股权:“血汗泪水”
OpenAI联合创始人兼总裁格雷格·布罗克曼周一出庭联邦法院,透露自己是这家AI实验室的最大个人股东之一。他在证词中坚称,其持有的价值约300亿美元的股权是通过“血汗和泪水”赢得的,回应了外界对其报酬过高的质疑。此案引发了对AI公司股权分配和创始人承诺的广泛讨论。
资讯
AI芯片初创公司Wayve和Rebellions获得巨额融资:AMD、Qualcomm和Arm支持Wayve,三星支持Rebellions融资4亿美元
AI芯片初创公司Wayve获得AMD、Qualcomm和Arm等芯片巨头的支持,而三星支持的Rebellions在IPO前融资4亿美元。这一融资热潮凸显AI基础设施晚期风险债务的激增,帮助初创企业避免股权稀释,同时扩展自动驾驶技术。投资强调了对先进AI芯片在多领域需求的增长,winzheng.com Research Lab分析其技术影响和未来趋势。
资讯
FlexRule 发布 AI Agent 治理更新:实现端到端治理,提升 AI 决策可靠性和合规性
FlexRule 最新决策平台更新引入 AI Agent 端到端治理功能,聚焦实际治理挑战,提升决策智能与管理。该更新旨在增强代理系统的可靠性和合规性,已通过 X 平台和 Google 核验确认。winzheng.com 评测分析其创新点、不足,与竞品对比,并提供开发者与企业建议。赢政指数主榜得分突出,诚信评级 pass。
资讯
Gary Marcus的生成式AI批评引发辩论:X帖子获数千点赞,观点两极分化
AI批评者Gary Marcus于2026年5月3日在X平台发布详细帖子,解释生成式AI backlash增长原因,包括破坏教育、启用deepfakes、增加虚假信息及数据中心环境损害,仅在编码外益处有限。支持者称其提升生产力和工具民主化,反对者强调不可靠和社会危害。帖子获数千点赞和数百回复,引发两极观点。winzheng.com分析深层原因,评估AI价值。
资讯
Klaimee AI 正式登陆 Y Combinator:首位阿尔及利亚女性创始人推出 AI 代理保险,凸显 AI 创业多样性
Klaimee AI,由首位阿尔及利亚女性创始人 Ines Boutemadja 创立,正式登陆 Y Combinator 的 Launch YC 平台。该公司专注于 AI 代理保险,应对代理世界风险。此举标志 AI 创业多样性里程碑。winzheng.com 分析其深层影响,评估赢政指数,强调技术创新与包容性融合。

不是所有 AI 新闻都值得看。值得看的,是会改变你判断的那几条。 看全部资讯

为什么这个榜单值得看

代码真跑
不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通,就是零分。
引用必查
长文档题不只看答案像不像,更看引用对不对。该标出处的地方,必须能对回原文。
统计定榜
不看一次发挥,看连续表现。排名按滚动均值计算,避免被单次运气带偏。
不接赞助评测
不做合作评测,不做评测前沟通,不替任何模型留面子。跑出来什么,就发什么。

查看方法论

AI 世界每天在变,你需要一个靠谱的信息源

每天 3 条精选,每周 1 份指数变化,重要事故和价格波动第一时间通知。免费,无广告,随时退订。

  • 每日精选 — 从海量 AI 新闻里,挑 3 条真正值得看的
  • 赢政指数周报 — 谁涨了谁跌了,一封邮件讲清楚
  • 模型事故告警 — 你在用的模型翻车了,尽快知道
  • 价格变动提醒 — API 涨价降价,别等账单来了才发现
免费 | 无广告 | 无赞助软文 | 随时退订

想看更深的拆解,再往下走

排行榜回答'谁更强',Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文,是自己跑出来的结论。

进入 Research Lab