谁涨了,谁跌了
单次爆发不算数。我们更关心连续表现有没有变。
本周变化最大的是 DeepSeek R1(+10)和 GPT-4o(-22.9)。超过 1 个标准差的变化才会标记为统计显著。
看完整变化报告
最大涨幅
DeepSeek R1
+10
+10
最大跌幅
GPT-4o
-22.9
-22.9
事故报告
本周 0 起
价格变化
0 项更新
别只看总分,看你要拿它干什么
推荐第一
Gemini 2.5 Pro
86.3 分
第二选择
豆包 Pro
84.7 分
第三选择
DeepSeek R1
80.9 分
推荐第一
Claude Opus 4.6
48.8 分
第二选择
豆包 Pro
48.8 分
第三选择
Grok 3
44 分
推荐第一
Grok 3
79.1 分
第二选择
豆包 Pro
78.1 分
第三选择
DeepSeek R1
76.9 分
推荐第一
DeepSeek V3
95.2 分
第二选择
文心一言 4.0
95 分
第三选择
豆包 Pro
89.9 分
推荐第一
豆包 Pro
45.8 分
第二选择
Claude Sonnet 4.6
45 分
第三选择
Claude Opus 4.6
44.9 分
今天值得看的,不止热闹
我们只放会影响能力、价格、稳定性和选型判断的内容。
资讯
测试揭秘:谷歌AI概览每小时向数百万用户输出谎言
一项独立测试显示,谷歌的AI搜索概览(AI Overviews)准确率仅约90%,在每日数亿查询量下,每小时可能产生数百万条虚假信息。这引发疑问:90%的准确率对AI搜索机器人而言是否足够?文章探讨了AI幻觉问题、测试细节及行业影响,呼吁谷歌优化模型以提升可靠性。(128字)
资讯
Anthropic 推出强大 AI 模型 Mythos 预览版,助力网络安全新举措
Anthropic 近日推出其最新 AI 模型 Mythos 的预览版,作为全新网络安全举措的一部分。该模型将由少数知名企业采用,用于防御性网络安全工作。Mythos 专为应对日益复杂的网络威胁而设计,结合 Anthropic 的安全优先理念,可能标志着 AI 在网络防御领域的重大突破。业内专家认为,此举将加速 AI 与网络安全的深度融合,推动行业从被动响应向主动预测转型。(128字)
资讯
英特尔加盟马斯克Terafab芯片项目,携手SpaceX特斯拉建德州新厂
英特尔正式加入埃隆·马斯克主导的Terafab芯片项目,与SpaceX和特斯拉合作,在美国德州兴建一座新型半导体工厂。尽管英特尔具体贡献尚不明朗,此举标志着美国芯片制造业复兴的关键一步。面对全球供应链危机和地缘政治风险,此项目旨在打造本土先进制程产能,缓解对亚洲依赖。马斯克的野心项目或将重塑半导体格局,英特尔借此重振雄风。(128字)
资讯
英伟达加持Firmus:亚洲AI数据中心巨头估值飙至55亿美元
英伟达支持的亚洲AI数据中心提供商Firmus在短短六个月内融资13.5亿美元,估值达到55亿美元。该公司以‘Southgate’项目闻名,正乘AI热潮快速扩张。Firmus专注于构建高效AI基础设施,满足生成式AI模型训练需求。随着全球数据中心需求激增,亚洲市场成为新战场,Firmus的崛起标志着英伟达生态在该地区的强势布局。本文分析其融资细节及行业影响。
资讯
Anthropic携手苹果谷歌等45+巨头 联防AI黑客威胁
Anthropic推出的Project Glasswing项目集结苹果、谷歌及逾45家组织,共同利用全新Claude Mythos Preview模型测试AI网络安全能力。这一跨界合作旨在应对AI日益强大的黑客潜力,确保人工智能不会成为网络攻击的‘万能钥匙’。项目聚焦红队测试与防御机制创新,标志着AI行业从竞争转向协作,防范潜在风险。未来,这一举措或将重塑AI安全标准,推动全球网络防护新格局。(128字)
资讯
Bluesky用户精通将一切问题甩锅“氛围编码”
在Bluesky社交平台上,用户们正熟练掌握一种新艺术:将所有技术故障归咎于‘氛围编码’(vibe coding)。这种现象源于AI编码工具的流行,用户们用它作为便利的替罪羊,解释网站崩溃、bug泛滥等各种问题。文章探讨了这一幽默趋势背后的AI编程革命,以及开发者社区的吐槽文化。它反映出AI工具从辅助到主导编程流程的转变,同时也暴露了人类对新技术依赖的调侃心态。(128字)
不是所有 AI 新闻都值得看。值得看的,是会改变你判断的那几条。 看全部资讯
为什么这个榜单值得看
不是因为我们声音大,而是因为方法公开、规则固定、结果可追溯。
代码真跑
不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通,就是零分。
引用必查
长文档题不只看答案像不像,更看引用对不对。该标出处的地方,必须能对回原文。
统计定榜
不看一次发挥,看连续表现。排名按滚动均值计算,避免被单次运气带偏。
不接赞助评测
不做合作评测,不做评测前沟通,不替任何模型留面子。跑出来什么,就发什么。
AI 世界每天在变,你需要一个靠谱的信息源
每天 3 条精选,每周 1 份指数变化,重要事故和价格波动第一时间通知。免费,无广告,随时退订。
- 每日精选 — 从海量 AI 新闻里,挑 3 条真正值得看的
- 赢政指数周报 — 谁涨了谁跌了,一封邮件讲清楚
- 模型事故告警 — 你在用的模型翻车了,尽快知道
- 价格变动提醒 — API 涨价降价,别等账单来了才发现
免费 | 无广告 | 无赞助软文 | 随时退订
想看更深的拆解,再往下走
排行榜回答'谁更强',Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文,是自己跑出来的结论。
进入 Research Lab