0
评测模型
0
评测题目
0
DCD 守约场景
5 类约束 × 6 题
每周
自动评测频率
别只看总分,看你要拿它干什么
推荐第一
豆包 Pro
89.8 分
第二选择
Grok 4
86.8 分
第三选择
Claude Sonnet 4.6
86.8 分
推荐第一
Claude Opus 4.7
55.8 分
第二选择
Claude Sonnet 4.6
52.9 分
第三选择
Gemini 3.1 Pro
48.8 分
推荐第一
Claude Sonnet 4.6
78.4 分
第二选择
Claude Opus 4.7
75.2 分
第三选择
Grok 4
73.9 分
推荐第一
deepseek-v3
99.7 分
第二选择
ernie-4
98.5 分
第三选择
文心一言 4.5
98.3 分
推荐第一
豆包 Pro
38.9 分
第二选择
Gemini 3.1 Pro
38.2 分
第三选择
Claude Sonnet 4.6
38 分
推荐第一
claude-opus-4.6
0 分
第二选择
Claude Opus 4.7
0 分
第三选择
Claude Sonnet 4.6
0 分
Claude Opus 4.7
65 分
Claude Sonnet 4.6
62.5 分
豆包 Pro
60 分
今天值得看的,不止热闹
我们只放会影响能力、价格、稳定性和选型判断的内容。
资讯
OpenAI解决80年数学难题?这次数学家为其背书
OpenAI宣称其推理模型成功证伪了一个自1946年以来悬而未决的几何猜想。与上次闹出笑话的虚假宣称不同,这次当初揭露其错误的数学家们竟然站出来为其背书。这一突破标志着AI在数学推理领域迈出了坚实一步,也引发了关于AI能否真正理解和证明数学定理的激烈讨论。
资讯
Anthropic每月向xAI支付12.5亿美元算力费
埃隆·马斯克旗下的xAI与Anthropic达成一项令人意外的算力销售协议,如今具体金额浮出水面:Anthropic将每月向xAI支付12.5亿美元,以获得其超级计算机集群的算力支持。这笔交易不仅缓解了Anthropic对算力的迫切需求,也标志着xAI从纯AI研究公司向算力供应商的角色转变。在AI军备竞赛白热化的当下,这样的合作与竞争交织的格局正在重塑整个行业。
资讯
马斯克xAI因数据中心发电机被诉,却再砸28亿美元采购
马斯克旗下AI公司xAI正面临法律诉讼,指控其数据中心发电机造成环境污染。然而,据SpaceX IPO文件透露,xAI计划未来三年再购买28亿美元的天然气涡轮机,以支撑其AI算力扩张。这一巨额投资引发环保争议,批评者认为此举与马斯克宣扬的可持续理念背道而驰。本文深度解析诉讼背景、xAI的能源策略及行业连锁反应。
资讯
OpenAI冲刺IPO,或于9月登陆股市
在马斯克输掉威胁OpenAI结构、领导层与财务的诉讼后仅一天,OpenAI据报已重启IPO筹备工作。这家AI巨头可能于今年9月上市,估值或超3000亿美元。此举不仅将重塑科技股版图,更标志着AI商业化进入新阶段。本文编译自TechCrunch。
资讯
赋予OpenClaw智能体物理形体
AI模型的编码能力正大幅降低机器人开发的门槛。通过将大语言模型与实体机器人结合,开发者可以用自然语言指令快速部署复杂动作。本文作者尝试为自己的OpenClaw智能体赋予物理身体,展示了AI从虚拟到现实的关键一步。这一趋势预示着机器人将不再是专业程序员的专属工具,而是进入更多应用场景。
资讯
吴恩达投资的IrisGo:悄然成为你不可或缺的桌面AI助手
由吴恩达投资支持的初创公司IrisGo,推出一款名为“Iris”的AI桌面管家。它能实时观察用户屏幕操作,通过持续学习自动完成重复性任务,如文件整理、数据录入等。联合创始人表示,这款工具旨在成为用户的“数字分身”,在隐私架构下运行,有望改变人机交互方式。
评测
豆包Pro主榜暴跌18.4分,代码执行一日暴降30.8,真实退化还是抽签运气?
豆包Pro今日Smoke评测主榜从96.06暴跌至77.64,代码执行单项暴降30.8分至66.7,材料约束微降,诚信评级从pass转为warn。小样本快测波动正常,但连续异常值得追踪。
评测
Gemini 2.5 Pro材料约束暴跌14分,主榜却逆涨15.9,抽签还是真退化?
Gemini 2.5 Pro今日Smoke评测出现明显分化:材料约束从91.5暴跌至77.5,主榜却从74升至89.88。诚信评级从fail转为warn,工程判断和任务表达大幅拉升。核心问题是每日10题抽签波动,还是模型真实能力退化。
评测
Grok 4 98.34 分登顶,Claude Opus 主榜暴跌 31.3 分
今日 Smoke 轻量评测显示,Grok 4 以 98.34 分领跑,代码执行满分 100。Claude Opus 4.7 主榜暴跌 31.3 分,执行分直接腰斩至 38.1,诚信评级从 pass 转为 warn。Qwen3 Max 紧随其后,多款模型执行能力出现明显下滑。
不是所有 AI 新闻都值得看。值得看的,是会改变你判断的那几条。 看全部资讯
为什么这个榜单值得看
代码真跑
不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通,就是零分。
引用必查
长文档题不只看答案像不像,更看引用对不对。该标出处的地方,必须能对回原文。
统计定榜
不看一次发挥,看连续表现。排名按滚动均值计算,避免被单次运气带偏。
不接赞助评测
不做合作评测,不做评测前沟通,不替任何模型留面子。跑出来什么,就发什么。
AI 世界每天在变,你需要一个靠谱的信息源
每天 3 条精选,每周 1 份指数变化,重要事故和价格波动第一时间通知。免费,无广告,随时退订。
- 每日精选 — 从海量 AI 新闻里,挑 3 条真正值得看的
- 赢政指数周报 — 谁涨了谁跌了,一封邮件讲清楚
- 模型事故告警 — 你在用的模型翻车了,尽快知道
- 价格变动提醒 — API 涨价降价,别等账单来了才发现
免费 | 无广告 | 无赞助软文 | 随时退订
想看更深的拆解,再往下走
排行榜回答'谁更强',Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文,是自己跑出来的结论。
进入 Research Lab