谁涨了,谁跌了
单次爆发不算数。我们更关心连续表现有没有变。
本周变化最大的是 Claude Opus 4.6(+20)和 Grok 3(-86.5)。超过 1 个标准差的变化才会标记为统计显著。
看完整变化报告
最大涨幅
Claude Opus 4.6
+20
+20
最大跌幅
Grok 3
-86.5
-86.5
事故报告
本周 0 起
价格变化
0 项更新
别只看总分,看你要拿它干什么
推荐第一
豆包 Pro
88.6 分
第二选择
DeepSeek V3
86.2 分
第三选择
Claude Opus 4.6
85.7 分
推荐第一
Claude Opus 4.6
46.3 分
第二选择
Claude Sonnet 4.6
46.3 分
第三选择
豆包 Pro
46.3 分
推荐第一
豆包 Pro
80.8 分
第二选择
DeepSeek R1
76.6 分
第三选择
Gemini 2.5 Pro
76.4 分
推荐第一
DeepSeek V3
95.2 分
第二选择
文心一言 4.0
94.9 分
第三选择
豆包 Pro
89.8 分
推荐第一
Grok 3
51.1 分
第二选择
豆包 Pro
46.9 分
第三选择
Claude Opus 4.6
45.2 分
今天值得看的,不止热闹
我们只放会影响能力、价格、稳定性和选型判断的内容。
资讯
OpenAI核心高管离职Sora搁置:战略转向商业化,是升级还是创新退坡?
winzheng.com独家核验显示,OpenAI产品负责人Kevin Weil、Sora架构师Bill Peebles已确认离职,Sora因算力成本过高搁置,公司全面转向企业工具研发与IPO筹备。本次战略调整是AI行业从技术探索转向商业化落地的标志性信号,舆论对其评价两极分化。
资讯
Yann LeCun公开质疑Anthropic CEO AI失业预测:行业对AI就业影响分歧加剧
Meta前AI负责人Yann LeCun在X平台公开质疑Anthropic CEO Dario Amodei提出的“1-5年内AI将淘汰50%技术岗位”的预测,相关言论引发全网超1.8万点赞、千条回复的激烈辩论,winzheng.com Research Lab从技术落地维度解析本次分歧背后的行业认知差。
资讯
Anthropic推出Claude Opus 4.7与Mythos安全模型 性能升级与网络安全风险引争议
近日Anthropic发布Claude Opus 4.7大模型,在编码、视觉、代理性能上实现显著提升,同步推出的Mythos安全模型被美联邦机构考虑用于漏洞检测,其双重用途风险引发业界争议,AI专业门户winzheng.com结合实测数据展开技术分析与风险预判。
资讯
Anthropic与特朗普政府关系解冻
尽管最近被五角大楼列为供应链风险,Anthropic仍在与特朗普政府的高级官员进行对话。这一现象引发了业界对其未来战略的广泛关注。特朗普政府对科技行业的政策态度一直备受争议,而Anthropic作为人工智能领域的新兴力量,其与政府的互动可能对行业发展产生重要影响。
资讯
AI芯片初创公司Cerebras申请上市
近日,Cerebras宣布与亚马逊云服务达成协议,将其芯片用于亚马逊的数据中心。此外,该公司还与OpenAI达成了一项价值超过100亿美元的合作。这标志着Cerebras在AI芯片领域的重要进展,显示了其在行业中的竞争力和创新能力。
资讯
特斯拉在达拉斯和休斯顿推出机器人出租车服务
特斯拉公司在德克萨斯州的三个城市提供机器人出租车服务。继去年在奥斯汀推出服务后,该公司于2026年1月开始在没有安全驾驶员的情况下提供乘车服务。此次扩展至达拉斯和休斯顿,标志着特斯拉在自动驾驶出租车领域的进一步发展,并展示了其在技术和市场上的双重实力。
不是所有 AI 新闻都值得看。值得看的,是会改变你判断的那几条。 看全部资讯
为什么这个榜单值得看
不是因为我们声音大,而是因为方法公开、规则固定、结果可追溯。
代码真跑
不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通,就是零分。
引用必查
长文档题不只看答案像不像,更看引用对不对。该标出处的地方,必须能对回原文。
统计定榜
不看一次发挥,看连续表现。排名按滚动均值计算,避免被单次运气带偏。
不接赞助评测
不做合作评测,不做评测前沟通,不替任何模型留面子。跑出来什么,就发什么。
AI 世界每天在变,你需要一个靠谱的信息源
每天 3 条精选,每周 1 份指数变化,重要事故和价格波动第一时间通知。免费,无广告,随时退订。
- 每日精选 — 从海量 AI 新闻里,挑 3 条真正值得看的
- 赢政指数周报 — 谁涨了谁跌了,一封邮件讲清楚
- 模型事故告警 — 你在用的模型翻车了,尽快知道
- 价格变动提醒 — API 涨价降价,别等账单来了才发现
免费 | 无广告 | 无赞助软文 | 随时退订
想看更深的拆解,再往下走
排行榜回答'谁更强',Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文,是自己跑出来的结论。
进入 Research Lab