0
评测模型
0
评测题目
0
DCD 守约场景
5 类约束 × 6 题
每周
自动评测频率
别只看总分,看你要拿它干什么
推荐第一
豆包 Pro
92.2 分
第二选择
Gemini 2.5 Pro
89.4 分
第三选择
grok-3
88.9 分
推荐第一
Gemini 2.5 Pro
47.2 分
第二选择
claude-opus-4.6
46.3 分
第三选择
豆包 Pro
46.3 分
推荐第一
grok-3
84.4 分
第二选择
Claude Sonnet 4.6
81.1 分
第三选择
claude-opus-4.6
79.7 分
推荐第一
deepseek-v3
99.7 分
第二选择
ernie-4
98.5 分
第三选择
豆包 Pro
93 分
推荐第一
豆包 Pro
38.9 分
第二选择
Gemini 2.5 Pro
36.6 分
第三选择
claude-opus-4.6
36.6 分
推荐第一
claude-opus-4.6
0 分
第二选择
Claude Sonnet 4.6
0 分
第三选择
deepseek-r1
0 分
Claude Opus 4.7
67.5 分
GPT-o3
66.7 分
Claude Sonnet 4.6
63.3 分
今天值得看的,不止热闹
我们只放会影响能力、价格、稳定性和选型判断的内容。
资讯
WDCD Run #100: Average Instruction Decay Hits 39.1% Across 11 Models, Claude Opus 4.7 Leads
WDCD Run #100 (2026-05-03) tested 11 frontier models on multi-turn commitment integrity, recording an average instruction decay of 39.1% from Round 1 to Round 3. Claude Opus 4.7 took the top spot at 67.5 points with only 23% decay.
资讯
马克·洛尔称AI将让任何人都能开餐厅
前沃尔玛电商高管、Jet.com创始人马克·洛尔(Marc Lore)旗下的Wonder公司正计划将机器人厨房升级为AI驱动的“餐厅工厂”。未来,任何人只需通过简单的文字提示,就能快速创建虚拟食品品牌并运营餐厅。这一概念融合了人工智能、机器人技术和云端餐饮服务,旨在降低餐饮创业门槛,但同时也引发了对食品安全、就业结构和品牌同质化的讨论。
资讯
前AMD Silo AI创始人Peter Sarlin新公司QuTwo天使轮估值达3.8亿美元
芬兰AI实验室QuTwo由前AMD Silo AI CEO Peter Sarlin创立,近日完成2500万欧元(约2900万美元)天使轮融资,估值达3.25亿欧元(约3.8亿美元)。这标志着AI、量子计算和主权技术领域,尤其是欧洲本土企业,仍持续获得强劲市场风势。
资讯
OpenAI总裁被迫当庭朗读日记,马斯克指其背离初心
在马斯克诉OpenAI案的最新庭审中,法官强制要求OpenAI总裁Greg Brockman当庭朗读其个人日记部分内容。马斯克律师团队称,日记精确记录了OpenAI从非营利使命转向商业化的关键时间节点,是证明其“背叛初心”的核心证据。该案可能重塑AI行业的非营利治理架构。
资讯
Altara获700万美元,用AI打通物理科学数据孤岛
物理科学领域研发常因数据分散在Excel表格和遗留系统中而受阻。Altara的AI平台能够统一这些数据孤岛,自动诊断实验故障,从而大幅加速研发进程。该公司近日宣布获得700万美元种子轮融资,由知名风投领投,旨在解决这一长期被忽视的数据瓶颈问题。
资讯
OpenAI总裁回忆与马斯克激烈冲突:“我以为他要打我”
OpenAI总裁格雷格·布罗克曼在周二作证时透露,他与埃隆·马斯克曾有一次激烈会面,马斯克当时情绪激动,甚至让他以为会遭到身体攻击。随后布罗克曼推动罢免数位董事会成员。此次证词揭示了OpenAI内部权力斗争的更多细节,也凸显了AI行业创始人间理念与控制的深层矛盾。
资讯
SAP豪掷116亿美元押注18个月AI新秀,拥抱英伟达NemoClaw
SAP宣布计划以11.6亿美元收购成立仅18个月的德国AI初创公司Prior Labs,并进行大规模投资。同时,SAP将限制客户使用第三方AI代理,仅允许包括英伟达NemoClaw在内的少数平台。此举标志着企业级AI生态的激烈竞争,SAP试图通过垂直整合和生态锁定巩固其ERP霸主地位。
资讯
xAI 发布 Grok 4.3:百万 token 上下文、Agent 能力与 API 价格降低 40-60%,私有基准超越 GPT-5.1
winzheng.com Research Lab获悉,xAI 推出 Grok 4.3 版本,引入 100 万 token 上下文窗口、内置推理与 Agent 工具(如网页搜索、代码执行),API 价格大幅降低 40-60%,并在美国发布 Custom Voices 语音克隆套件。私有基准显示其在 CaseLaw v2(79.31%)和 CorpFin v2(68.53%)上超越 GPT-5.1。
资讯
OpenAI 发布 GPT-5.5:百万 Token 上下文窗口与 Agents SDK 更新引发广告隐私争议
OpenAI 推出 GPT-5.5 及 Pro 版本,支持 100 万 Token 上下文窗口和内置计算机使用能力,同时发布 GPT Image 2 和 Agents SDK 更新。此举被视为 2026 年 AI 工具链关键升级,但广告自助平台引发隐私争议。winzheng.com 深度评测其创新点、不足,并与竞品对比,提供开发者与企业建议。
不是所有 AI 新闻都值得看。值得看的,是会改变你判断的那几条。 看全部资讯
为什么这个榜单值得看
代码真跑
不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通,就是零分。
引用必查
长文档题不只看答案像不像,更看引用对不对。该标出处的地方,必须能对回原文。
统计定榜
不看一次发挥,看连续表现。排名按滚动均值计算,避免被单次运气带偏。
不接赞助评测
不做合作评测,不做评测前沟通,不替任何模型留面子。跑出来什么,就发什么。
AI 世界每天在变,你需要一个靠谱的信息源
每天 3 条精选,每周 1 份指数变化,重要事故和价格波动第一时间通知。免费,无广告,随时退订。
- 每日精选 — 从海量 AI 新闻里,挑 3 条真正值得看的
- 赢政指数周报 — 谁涨了谁跌了,一封邮件讲清楚
- 模型事故告警 — 你在用的模型翻车了,尽快知道
- 价格变动提醒 — API 涨价降价,别等账单来了才发现
免费 | 无广告 | 无赞助软文 | 随时退订
想看更深的拆解,再往下走
排行榜回答'谁更强',Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文,是自己跑出来的结论。
进入 Research Lab