谁涨了,谁跌了
单次爆发不算数。我们更关心连续表现有没有变。
本周变化最大的是 Claude Opus 4.6(+20)和 Grok 3(-86.5)。超过 1 个标准差的变化才会标记为统计显著。
看完整变化报告
最大涨幅
Claude Opus 4.6
+20
+20
最大跌幅
Grok 3
-86.5
-86.5
事故报告
本周 0 起
价格变化
0 项更新
别只看总分,看你要拿它干什么
推荐第一
豆包 Pro
88.6 分
第二选择
DeepSeek V3
86.2 分
第三选择
Claude Opus 4.6
85.7 分
推荐第一
Claude Opus 4.6
46.3 分
第二选择
Claude Sonnet 4.6
46.3 分
第三选择
豆包 Pro
46.3 分
推荐第一
豆包 Pro
80.8 分
第二选择
DeepSeek R1
76.6 分
第三选择
Gemini 2.5 Pro
76.4 分
推荐第一
DeepSeek V3
95.2 分
第二选择
文心一言 4.0
94.9 分
第三选择
豆包 Pro
89.8 分
推荐第一
Grok 3
51.1 分
第二选择
豆包 Pro
46.9 分
第三选择
Claude Opus 4.6
45.2 分
今天值得看的,不止热闹
我们只放会影响能力、价格、稳定性和选型判断的内容。
评测
新鲜基准,可靠分数:引入AI风险评估的持续提示管理
AI行业每隔几个月就会推出新一代前沿模型,这些模型的能力不断提升,同时也改变了监管机构、企业和公众需要评估的风险格局。然而,用于衡量这些风险的基准并不会自动更新。本文介绍了MLCommons的AILuminate基准及其Continuous Prompt Stewardship System,该系统通过持续刷新提示数据集,确保基准的长期有效性。系统采用基于心理测量学的指标驱动刷新、闭环数据集再平衡、社区驱动的贡献者模型、双路径审查以及可审计的来源记录等机制,解决基准陈旧和污染问题。AILuminate v1.0包含24,000个人类创作的提示,覆盖12个危害类别,并获得最高长寿分数75分。该系统不仅维护AILuminate的可靠性,还为整个AI基准领域提供宝贵经验,帮助应对基准生命周期挑战。
资讯
西门子推出自动化工程AI系统
西门子近日发布了一款名为Eigen Engineering Agent的AI系统,该系统旨在规划和验证操作环境中的自动化工程任务。通过多步骤推理和自我纠正功能,该系统能够自主完成任务,并直接在工程平台内运行,从而实现从初始设计到验证的完整工作流程。
资讯
探索北极历史的线索
在过去,即使有破冰船并在融冰季节的高峰期,抵达北极也并非易事。需要有利的风向来破开冻结的海洋表面,船只必须穿过经过多个冬季生长到数米厚的冰层。然而,在2025年的夏天,Jochen Knies成功抵达北极,揭示了关于北极过去的重要线索。
资讯
AI生成的虚拟形象骗取大量金钱
一名医学生利用生成式AI工具创造了一位年轻的保守派女性形象,通过出售其照片和视频赚取了数千美元。这一行为引发了人们对AI技术滥用的关注。随着生成式AI的发展,类似的骗局可能会越来越多。
资讯
人类噪音对动物的影响及洛杉矶地铁升级
随着人类社会的扩张,动物之间的交流受到了噪音的干扰。尤其是许多鸟类,它们的生存和繁殖都依赖于声音的传递。然而,城市化进程加剧了噪音污染,导致这些生物的生存环境日益恶化。与此同时,洛杉矶地铁系统的惊人升级也在进行中,旨在改善城市交通并减少地面噪音。这些变化不仅影响着动物的生存,也在重新塑造人类的生活方式。
资讯
GRAI:AI让音乐更社交,而非取代艺术家
AI音乐初创公司GRAI表示,粉丝更愿意对现有曲目进行混音,而不是从零开始创作新歌。GRAI相信人工智能可以增强音乐的社交属性,而不是取代艺术家的创作过程。通过AI技术,音乐爱好者能够更加便捷地参与到音乐创作中,这不仅丰富了音乐的表现形式,也为艺术家和粉丝之间建立了新的互动方式。
不是所有 AI 新闻都值得看。值得看的,是会改变你判断的那几条。 看全部资讯
为什么这个榜单值得看
不是因为我们声音大,而是因为方法公开、规则固定、结果可追溯。
代码真跑
不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通,就是零分。
引用必查
长文档题不只看答案像不像,更看引用对不对。该标出处的地方,必须能对回原文。
统计定榜
不看一次发挥,看连续表现。排名按滚动均值计算,避免被单次运气带偏。
不接赞助评测
不做合作评测,不做评测前沟通,不替任何模型留面子。跑出来什么,就发什么。
AI 世界每天在变,你需要一个靠谱的信息源
每天 3 条精选,每周 1 份指数变化,重要事故和价格波动第一时间通知。免费,无广告,随时退订。
- 每日精选 — 从海量 AI 新闻里,挑 3 条真正值得看的
- 赢政指数周报 — 谁涨了谁跌了,一封邮件讲清楚
- 模型事故告警 — 你在用的模型翻车了,尽快知道
- 价格变动提醒 — API 涨价降价,别等账单来了才发现
免费 | 无广告 | 无赞助软文 | 随时退订
想看更深的拆解,再往下走
排行榜回答'谁更强',Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文,是自己跑出来的结论。
进入 Research Lab