最大涨幅
文心一言 4.0
+15
+15
事故报告
本周 2 起
价格变化
0 项更新
别只看总分,看你要拿它干什么
推荐第一
豆包 Pro
92.2 分
第二选择
Gemini 2.5 Pro
89.4 分
第三选择
Grok 3
88.9 分
推荐第一
Gemini 2.5 Pro
47.2 分
第二选择
Claude Opus 4.6
46.3 分
第三选择
豆包 Pro
46.3 分
推荐第一
Grok 3
84.4 分
第二选择
Claude Sonnet 4.6
81.1 分
第三选择
Claude Opus 4.6
79.7 分
推荐第一
DeepSeek V3
99.7 分
第二选择
文心一言 4.0
98.5 分
第三选择
豆包 Pro
93 分
推荐第一
豆包 Pro
38.9 分
第二选择
Gemini 2.5 Pro
36.6 分
第三选择
Claude Opus 4.6
36.6 分
今天值得看的,不止热闹
我们只放会影响能力、价格、稳定性和选型判断的内容。
资讯
初创公司新工具让LLM调试如探囊取物
旧金山初创公司Goodfire发布名为Silico的新工具,允许研究人员和工程师在训练期间深入AI模型内部,调整其参数——即决定模型行为的设置。这为模型制造商提供了前所未有的精细控制能力,改变了以往对AI技术构建方式的认知。Goodfire声称Silico能显著提升模型的可解释性和可靠性。
资讯
Salesforce让客户主导AI路线图:众包企业需求
Salesforce正采用一种创新的产品开发策略:让客户主导其AI路线图。公司认为,如果一个企业客户面临某个问题,其他客户很可能也有类似需求。通过建立客户咨询委员会、收集反馈和优先处理高频需求,Salesforce将AI功能开发从内部决策转向众包模式,以更快响应市场变化并提高产品相关性。
资讯
Stripe推出Link数字钱包,AI代理也能自主支付
Stripe最新发布的Link数字钱包不仅支持用户绑定银行卡、银行账户和订阅服务,还创新性地允许AI代理通过审批流程安全地代表用户进行支付。这一功能为自动化电商和AI驱动的服务场景打开了新大门,预计将加速AI代理在金融交易领域的应用。
资讯
OpenAI推出高级安全模式,保护高危账户
OpenAI宣布为其ChatGPT和Codex等账户推出高级安全模式,旨在防护针对高风险用户的钓鱼攻击。该功能通过多因素认证和行为分析增强账户安全,尤其适用于记者、活动家等易受攻击人群。业内分析认为,此举反映了AI服务在隐私与安全方面的进化趋势,但也可能引发用户体验与安全性的平衡讨论。
资讯
马斯克宣誓下承认xAI使用OpenAI模型训练
在法庭宣誓作证时,埃隆·马斯克承认其AI公司xAI使用了OpenAI的模型进行训练。他辩称,这是AI实验室的普遍做法,即利用竞争对手的模型来提升自身技术。这一言论引发了对AI行业竞争与知识产权边界的广泛讨论。
资讯
谷歌Gemini AI助手即将登陆数百万车辆
谷歌宣布将从5月起向搭载Google内置系统的汽车逐步推送Gemini AI助手,取代现有的Google Assistant。这一升级旨在为驾驶体验带来更先进、更自然的对话式AI交互。紧随通用汽车此前宣布将整合Gemini的消息,谷歌此举标志着AI助手在车载领域的竞争进一步升温。
不是所有 AI 新闻都值得看。值得看的,是会改变你判断的那几条。 看全部资讯
为什么这个榜单值得看
不是因为我们声音大,而是因为方法公开、规则固定、结果可追溯。
代码真跑
不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通,就是零分。
引用必查
长文档题不只看答案像不像,更看引用对不对。该标出处的地方,必须能对回原文。
统计定榜
不看一次发挥,看连续表现。排名按滚动均值计算,避免被单次运气带偏。
不接赞助评测
不做合作评测,不做评测前沟通,不替任何模型留面子。跑出来什么,就发什么。
AI 世界每天在变,你需要一个靠谱的信息源
每天 3 条精选,每周 1 份指数变化,重要事故和价格波动第一时间通知。免费,无广告,随时退订。
- 每日精选 — 从海量 AI 新闻里,挑 3 条真正值得看的
- 赢政指数周报 — 谁涨了谁跌了,一封邮件讲清楚
- 模型事故告警 — 你在用的模型翻车了,尽快知道
- 价格变动提醒 — API 涨价降价,别等账单来了才发现
免费 | 无广告 | 无赞助软文 | 随时退订
想看更深的拆解,再往下走
排行榜回答'谁更强',Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文,是自己跑出来的结论。
进入 Research Lab