0
评测模型
0
评测题目
0
DCD 守约场景
5 类约束 × 6 题
每周
自动评测频率
别只看总分,看你要拿它干什么
推荐第一
豆包 Pro
88.3 分
第二选择
Claude Sonnet 4.6
86.6 分
第三选择
DeepSeek V4 Pro
85.6 分
推荐第一
Claude Sonnet 4.6
54.9 分
第二选择
Claude Opus 4.7
53.7 分
第三选择
豆包 Pro
52.8 分
推荐第一
Claude Sonnet 4.6
79.8 分
第二选择
Claude Opus 4.7
78.2 分
第三选择
Gemini 2.5 Pro
76.8 分
推荐第一
deepseek-v3
99.7 分
第二选择
文心一言 4.5
98.6 分
第三选择
ernie-4
98.5 分
推荐第一
豆包 Pro
39.1 分
第二选择
Claude Opus 4.7
38.7 分
第三选择
Claude Sonnet 4.6
37.8 分
推荐第一
claude-opus-4.6
0 分
第二选择
Claude Opus 4.7
0 分
第三选择
Claude Sonnet 4.6
0 分
Qwen3 Max
65 分
Gemini 3.1 Pro
65 分
DeepSeek V4 Pro
62.5 分
今天值得看的,不止热闹
我们只放会影响能力、价格、稳定性和选型判断的内容。
资讯
OpenAI怨苹果ChatGPT集成太糟,法官下令公开内幕
据内部人士透露,OpenAI对苹果在iOS系统中整合ChatGPT的方式极为不满,认为其体验糟糕且损害自身品牌形象。与此同时,美国联邦法官已下令苹果向埃隆·马斯克提供内部通讯记录,涉及双方就ChatGPT合作秘密协议的讨论。这一裁决源于马斯克旗下xAI公司发起的反垄断诉讼,指控苹果与OpenAI达成排他性协议。案件持续发酵,将科技巨头间的合作暗面推向台前。
资讯
硅谷后花园太浩湖遭遇能源危机:AI需求推高电价
作为硅谷精英最爱的度假胜地,太浩湖正面临能源供应商更替与AI驱动的电价飙升双重冲击。原有的低成本水电合约即将到期,新供应商报价因数据中心和AI算力需求暴涨而大幅攀升。本文深入分析这一现象背后的行业趋势,并探讨对当地居民和游客的影响。
资讯
arXiv严打AI灌水论文:提交垃圾将遭一年禁投稿
针对日益泛滥的AI生成预印本问题,arXiv平台近期宣布新规:任何被认定为提交AI生成“垃圾”论文的作者,将被暂停投稿资格长达一年。此举旨在维护学术质量,但也引发关于审查标准和AI辅助写作边界的热议。
资讯
OpenAI庭审落幕,马斯克创业机轮不息
马斯克诉阿尔特曼案本周终结,最后辩论反复回归同一核心问题:我们能信任掌控AI的人吗?与此同时,SpaceX正冲向美国史上最大IPO之一,新一代创始人已开始纷纷衍生创业,构成一幅科技权力生态的复杂图景。
评测
GPT-5.5主榜暴跌28分:真退化吗
GPT-5.5 今日 Smoke 主榜从 84.03 跌至 56.08,单日下滑 28 分;关键不是材料约束,而是代码执行从满分砍半。
评测
Gemini 2.5 Pro跌10分:能力没崩诚信翻车
Gemini 2.5 Pro 今日 Smoke 主榜跌 10 分,但代码执行仍为 100,材料约束反涨 9.8,真正警报来自诚信评级由 pass 转 fail。
评测
3模型暴跌28分,Claude仍近满分
5月16日Smoke快测显示,Claude Sonnet 4.6以98.34领跑,GPT-5.5、DeepSeek V4 Pro、Gemini 2.5 Pro集体下跌,执行断档成为最大风险。
资讯
ChatGPT进军个人理财:可连接银行账户,查看财务全景
OpenAI最新宣布,ChatGPT将推出个人理财功能,用户可连接银行账户,实时查看投资组合、支出明细、订阅服务及待付账单。这一新功能将AI对话能力与个人财务管理深度融合,但数据安全与隐私保护仍是焦点。
资讯
OpenAI高层再洗牌:Greg Brockman掌控产品线
OpenAI再次进行高层重组,联合创始人Greg Brockman正式接管所有产品业务,旨在将ChatGPT与Codex统一为单一核心产品体验。此次调整标志着公司从研究驱动转向产品驱动战略,以应对日益激烈的AI市场竞争。
不是所有 AI 新闻都值得看。值得看的,是会改变你判断的那几条。 看全部资讯
为什么这个榜单值得看
代码真跑
不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通,就是零分。
引用必查
长文档题不只看答案像不像,更看引用对不对。该标出处的地方,必须能对回原文。
统计定榜
不看一次发挥,看连续表现。排名按滚动均值计算,避免被单次运气带偏。
不接赞助评测
不做合作评测,不做评测前沟通,不替任何模型留面子。跑出来什么,就发什么。
AI 世界每天在变,你需要一个靠谱的信息源
每天 3 条精选,每周 1 份指数变化,重要事故和价格波动第一时间通知。免费,无广告,随时退订。
- 每日精选 — 从海量 AI 新闻里,挑 3 条真正值得看的
- 赢政指数周报 — 谁涨了谁跌了,一封邮件讲清楚
- 模型事故告警 — 你在用的模型翻车了,尽快知道
- 价格变动提醒 — API 涨价降价,别等账单来了才发现
免费 | 无广告 | 无赞助软文 | 随时退订
想看更深的拆解,再往下走
排行榜回答'谁更强',Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文,是自己跑出来的结论。
进入 Research Lab