谁涨了,谁跌了
单次爆发不算数。我们更关心连续表现有没有变。
本周变化最大的是 Claude Opus 4.6(+20)和 Grok 3(-86.5)。超过 1 个标准差的变化才会标记为统计显著。
看完整变化报告
最大涨幅
Claude Opus 4.6
+20
+20
最大跌幅
Grok 3
-86.5
-86.5
事故报告
本周 0 起
价格变化
0 项更新
别只看总分,看你要拿它干什么
推荐第一
豆包 Pro
88.6 分
第二选择
DeepSeek V3
86.2 分
第三选择
Claude Opus 4.6
85.7 分
推荐第一
Claude Opus 4.6
46.3 分
第二选择
Claude Sonnet 4.6
46.3 分
第三选择
豆包 Pro
46.3 分
推荐第一
豆包 Pro
80.8 分
第二选择
DeepSeek R1
76.6 分
第三选择
Gemini 2.5 Pro
76.4 分
推荐第一
DeepSeek V3
95.2 分
第二选择
文心一言 4.0
94.9 分
第三选择
豆包 Pro
89.8 分
推荐第一
Grok 3
51.1 分
第二选择
豆包 Pro
46.9 分
第三选择
Claude Opus 4.6
45.2 分
今天值得看的,不止热闹
我们只放会影响能力、价格、稳定性和选型判断的内容。
资讯
特斯拉将投资计划增至250亿美元,资金流向何处?
特斯拉宣布2026年的资本支出计划达到250亿美元,是其历史支出的三倍。公司首席财务官表示,这将导致特斯拉在今年剩余时间内的自由现金流为负。这一投资计划的扩大表明特斯拉在全球电动车市场中的激进扩张策略,以及其在技术研发和基础设施建设方面的持续投入。
资讯
印度应用市场蓬勃发展,全球平台获利最多
印度的应用市场正在快速增长,尤其是非游戏类应用领域,其中流媒体和人工智能应用表现尤为突出。然而,尽管印度市场的活跃度不断上升,但用户的平均消费水平仍然落后于全球其他地区。这一现象使得全球平台在印度市场中占据了大部分收益,而本地企业则面临更大的竞争压力。
资讯
索尼AI机器人击败人类选手,北京赛跑夺冠
据路透社报道,索尼AI开发的一款自主乒乓球机器人在正式比赛中击败了高水平人类选手。这款机器人名为Ace,属于“物理AI”范畴,即在现实环境中运作的人工智能机器的一部分。
资讯
山姆·奥特曼公司的虚假合作风波
近日,山姆·奥特曼旗下的Orb公司被指虚假宣传与布鲁诺·马尔斯的合作关系。布鲁诺·马尔斯的发言人向WIRED明确表示,他们从未被接洽,也未参与任何关于合作或巡演的讨论。这一事件引发了外界对Orb公司商业行为的质疑,并提醒科技公司在营销中保持透明的重要性。
资讯
X推出AI驱动的自定义时间线
X公司近日推出了由AI技术驱动的自定义时间线,取代了原有的社区功能。这些新时间线由Grok系统进行内容策划,并引入了新的广告位置。这一变革旨在为用户提供更加个性化的信息流,同时为广告商创造更多的展示机会。
资讯
Google Workspace引入AI助理,提升办公效率
Google近日对其Workspace进行了重大更新,推出了一系列由全新AI系统Workspace Intelligence驱动的自动化功能。这些功能旨在提升办公效率,让AI成为您的新办公室实习生。通过这些新功能,用户可以更加轻松地完成日常任务,专注于更具战略性的工作。
不是所有 AI 新闻都值得看。值得看的,是会改变你判断的那几条。 看全部资讯
为什么这个榜单值得看
不是因为我们声音大,而是因为方法公开、规则固定、结果可追溯。
代码真跑
不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通,就是零分。
引用必查
长文档题不只看答案像不像,更看引用对不对。该标出处的地方,必须能对回原文。
统计定榜
不看一次发挥,看连续表现。排名按滚动均值计算,避免被单次运气带偏。
不接赞助评测
不做合作评测,不做评测前沟通,不替任何模型留面子。跑出来什么,就发什么。
AI 世界每天在变,你需要一个靠谱的信息源
每天 3 条精选,每周 1 份指数变化,重要事故和价格波动第一时间通知。免费,无广告,随时退订。
- 每日精选 — 从海量 AI 新闻里,挑 3 条真正值得看的
- 赢政指数周报 — 谁涨了谁跌了,一封邮件讲清楚
- 模型事故告警 — 你在用的模型翻车了,尽快知道
- 价格变动提醒 — API 涨价降价,别等账单来了才发现
免费 | 无广告 | 无赞助软文 | 随时退订
想看更深的拆解,再往下走
排行榜回答'谁更强',Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文,是自己跑出来的结论。
进入 Research Lab