谁涨了,谁跌了
单次爆发不算数。我们更关心连续表现有没有变。
本周变化最大的是 DeepSeek R1(+10)和 GPT-4o(-22.9)。超过 1 个标准差的变化才会标记为统计显著。
看完整变化报告
最大涨幅
DeepSeek R1
+10
+10
最大跌幅
GPT-4o
-22.9
-22.9
事故报告
本周 0 起
价格变化
0 项更新
别只看总分,看你要拿它干什么
推荐第一
Gemini 2.5 Pro
86.3 分
第二选择
豆包 Pro
84.7 分
第三选择
DeepSeek R1
80.9 分
推荐第一
Claude Opus 4.6
48.8 分
第二选择
豆包 Pro
48.8 分
第三选择
Grok 3
44 分
推荐第一
Grok 3
79.1 分
第二选择
豆包 Pro
78.1 分
第三选择
DeepSeek R1
76.9 分
推荐第一
DeepSeek V3
95.2 分
第二选择
文心一言 4.0
95 分
第三选择
豆包 Pro
89.9 分
推荐第一
豆包 Pro
45.8 分
第二选择
Claude Sonnet 4.6
45 分
第三选择
Claude Opus 4.6
44.9 分
今天值得看的,不止热闹
我们只放会影响能力、价格、稳定性和选型判断的内容。
资讯
声称全球第三、支持8小时长时推理:未官宣的GLM-5.1真能刷新开源模型天花板?
winzheng.com Research Lab监测到突发行业信号:Z AI发布未官宣的GLM-5.1模型,声称位列全球关键基准第三、属开源顶流,当前该信号尚未经独立核实。本文梳理已披露信息、待验证疑点及潜在行业价值,后续将推出实测报告。
资讯
AI安全新突破?Claude Mythos Preview模型挑战网络漏洞
Anthropic推出的Claude Mythos Preview模型声称在网络安全上表现优异,但未经独立验证,引发对AI潜在风险的讨论。探索其深层次影响和AI治理的紧迫性。
资讯
优步最新青睐亚马逊AI芯片 扩展AWS合作
优步近日宣布扩展与亚马逊网络服务(AWS)的合作,将更多网约车功能运行在亚马逊的AI芯片上。这一举措不仅标志着优步对亚马逊AI技术的认可,也被视为对甲骨文和谷歌的轻蔑回应。在云计算和AI芯片领域竞争激烈的当下,优步的选择凸显了亚马逊在定制化AI硬件方面的优势。通过采用亚马逊的Inferentia和Trainium芯片,优步旨在提升其AI驱动的路线优化、实时定价和安全功能效率。这一合作扩展反映出科技巨头在AI基础设施领域的激烈角逐,优步的决定可能影响其他企业对云服务提供商的选择。
资讯
我忍不住为小型开源AI模型制造商Arcee加油
Arcee是一家仅有26人的美国初创公司,却成功构建了一个高性能的大型开源大语言模型(LLM),并在OpenClaw用户中迅速流行开来。在AI领域巨头林立的当下,这家小公司以开源精神挑战行业格局,吸引了众多开发者和企业的关注。其模型不仅性能出色,还强调透明度和社区协作,体现了开源AI的潜力。本文将深入探讨Arcee的崛起背景、开源AI的行业意义,以及其对未来AI生态的影响。
资讯
谷歌悄然推出离线AI语音转录应用
谷歌近日低调发布了一款以离线优先的AI语音转录应用,该应用基于Gemma AI模型,旨在挑战Wispr Flow等竞争对手。这款应用无需网络连接即可实现高效的语音转文字功能,标志着谷歌在边缘计算和AI隐私领域的最新进展。在移动设备上运行的Gemma模型确保了数据本地处理,提升了用户隐私保护。该应用可能重塑语音输入市场,尤其适用于网络不稳定的场景,如旅行或偏远地区。谷歌此举反映了AI技术向更实用、更安全的方向演进,未来或将集成到更多Android设备中。
资讯
微软开源工具包:运行时保障企业AI代理安全
微软近日推出了一款开源工具包,专注于运行时安全机制,以对企业AI代理实施严格治理。这一举措直击当前痛点:自主语言模型正以惊人速度执行代码并访问公司网络,远超传统政策控制的响应能力。过去,AI集成主要体现为对话界面和咨询式协作者,但如今AI代理的自主性日益增强,引发安全担忧。该工具包旨在帮助企业强化AI系统的实时监控和合规性,确保在快速发展的AI环境中维持数据安全与运营稳定。这一发布标志着AI安全治理从静态向动态的转变,为行业提供宝贵开源资源。
不是所有 AI 新闻都值得看。值得看的,是会改变你判断的那几条。 看全部资讯
为什么这个榜单值得看
不是因为我们声音大,而是因为方法公开、规则固定、结果可追溯。
代码真跑
不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通,就是零分。
引用必查
长文档题不只看答案像不像,更看引用对不对。该标出处的地方,必须能对回原文。
统计定榜
不看一次发挥,看连续表现。排名按滚动均值计算,避免被单次运气带偏。
不接赞助评测
不做合作评测,不做评测前沟通,不替任何模型留面子。跑出来什么,就发什么。
AI 世界每天在变,你需要一个靠谱的信息源
每天 3 条精选,每周 1 份指数变化,重要事故和价格波动第一时间通知。免费,无广告,随时退订。
- 每日精选 — 从海量 AI 新闻里,挑 3 条真正值得看的
- 赢政指数周报 — 谁涨了谁跌了,一封邮件讲清楚
- 模型事故告警 — 你在用的模型翻车了,尽快知道
- 价格变动提醒 — API 涨价降价,别等账单来了才发现
免费 | 无广告 | 无赞助软文 | 随时退订
想看更深的拆解,再往下走
排行榜回答'谁更强',Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文,是自己跑出来的结论。
进入 Research Lab