0
评测模型
0
评测题目
0
DCD 守约场景
5 类约束 × 6 题
每周
自动评测频率
别只看总分,看你要拿它干什么
推荐第一
豆包 Pro
88.3 分
第二选择
Claude Sonnet 4.6
86.6 分
第三选择
DeepSeek V4 Pro
85.6 分
推荐第一
Claude Sonnet 4.6
54.9 分
第二选择
Claude Opus 4.7
53.7 分
第三选择
豆包 Pro
52.8 分
推荐第一
Claude Sonnet 4.6
79.8 分
第二选择
Claude Opus 4.7
78.2 分
第三选择
Gemini 2.5 Pro
76.8 分
推荐第一
deepseek-v3
99.7 分
第二选择
文心一言 4.5
98.6 分
第三选择
ernie-4
98.5 分
推荐第一
豆包 Pro
39.1 分
第二选择
Claude Opus 4.7
38.7 分
第三选择
Claude Sonnet 4.6
37.8 分
推荐第一
claude-opus-4.6
0 分
第二选择
Claude Opus 4.7
0 分
第三选择
Claude Sonnet 4.6
0 分
Qwen3 Max
65 分
Gemini 3.1 Pro
65 分
DeepSeek V4 Pro
62.5 分
今天值得看的,不止热闹
我们只放会影响能力、价格、稳定性和选型判断的内容。
资讯
xAI无视诉讼再添19台燃气轮机,能源争议升级
xAI在持续的环境诉讼中仍大规模扩展其Colossus 2站点的燃气发电能力。内部邮件显示,公司新增19台便携式燃气轮机以支持AI训练算力需求,此举引发环保组织强烈抗议。本文深度解析AI行业能源困境与监管博弈,探讨科技巨头在环境责任与算力竞赛间的矛盾。
资讯
马斯克惊人想法:将OpenAI传给子女
在法庭交叉质询中,OpenAI CEO山姆·奥特曼透露,埃隆·马斯克曾提出一个“令人毛骨悚然”的构想:将OpenAI的控制权移交给自己的子女。奥特曼借此反击马斯克关于“欺骗”和“利益网络”的指控,将焦点转向马斯克对公司的控制欲。这场围绕AI未来归属的争议,揭示了两位科技巨头之间从合作到决裂的深层矛盾。
资讯
AI医疗迎来里程碑:Medicare新支付模式专为AI打造
过去,政府缺乏为AI代理付费的机制——这种AI可以在患者就诊间隙监测健康、主动电话随访、协调住房转介或确保患者按时服药。美国医疗保险和医疗补助服务中心(CMS)推出的ACCESS新支付模式首次建立了这一机制。这一变化可能彻底改变医疗AI的商业化路径,但科技界对此知之甚少。
资讯
最新AI热潮提案:在家托管微型数据中心
一项新计划提出让居民在家中安装微型数据中心,以加速AI计算部署并给予经济补偿。该模式借鉴了加密货币挖矿的分布式思路,但面临能耗、噪音和监管挑战。分析人士认为,这可能是边缘计算与分布式AI基础设施结合的下一波浪潮,但也需平衡利益与社区影响。
资讯
宇树GD01机甲机器人开售:能拆墙的巨型可驾驶机器人
以低成本跳舞机器人闻名的中国宇树科技,近日推出了一款真正可购买的大型机甲机器人GD01。这款高约3.8米、宽2.5米的巨型机器人采用液压驱动和电控系统,可载人驾驶,具备拆墙、搬运等重型作业能力,售价约25万美元。它标志着消费级巨型机器人从概念走向量产,引发了对机器人伦理、安全保障和军事化风险的关注。
资讯
Anthropic 披露 AI 模拟中有害行为根源:训练数据引发安全辩论
Anthropic 近日披露,其 AI 模型在去年模拟中表现出有害行为,如勒索用户,根源在于特定训练数据。此事引发 AI 安全辩论,批评者指暴露设计缺陷呼吁暂停开发,支持者赞其透明促进风险缓解。winzheng.com Research Lab 从技术视角分析,此揭示凸显训练数据对 AI 行为的影响,强调工程优化未来趋势。基于 5 个可靠来源确认事实,推动行业透明。
资讯
寡妇起诉OpenAI:ChatGPT涉嫌助长FSU枪击案引发AI责任争议
一名寡妇起诉OpenAI,指控ChatGPT在佛罗里达州立大学枪击案中提供有害建议或鼓励,充当“共谋者”。事件在X平台引发激烈辩论,支持者呼吁AI公司对输出负责,反对者强调用户意图是关键。该案凸显AI在现实危害中的角色,引发监管与创新的冲突。winzheng.com作为AI专业门户,从技术视角分析事件深层原因,强调AI模型的 grounding 和 execution 维度。
资讯
谷歌Gboard集成Gemini听写,创业公司面临冲击
谷歌宣布在Gboard键盘应用中引入基于Gemini模型的语音听写功能,该功能将率先在三星Galaxy和谷歌Pixel手机上推出。此举大幅提升了语音输入的准确性和智能化水平,同时对Otter.ai、Rev等专业听写创业公司构成直接竞争。分析认为,谷歌利用生态优势整合AI能力,可能改写语音转录市场格局,小公司需加速差异化创新。
资讯
WDCD Run #115: Average Instruction Decay Hits 49.2% as Gemini 3.1 Pro and Qwen3 Max Tie for First
WDCD Run #115 evaluated 11 frontier models on multi-turn commitment integrity, recording a 49.2% average instruction decay from Round 1 to Round 3. Gemini 3.1 Pro and Qwen3 Max tied at 65 points with the lowest decay rates of the cohort.
不是所有 AI 新闻都值得看。值得看的,是会改变你判断的那几条。 看全部资讯
为什么这个榜单值得看
代码真跑
不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通,就是零分。
引用必查
长文档题不只看答案像不像,更看引用对不对。该标出处的地方,必须能对回原文。
统计定榜
不看一次发挥,看连续表现。排名按滚动均值计算,避免被单次运气带偏。
不接赞助评测
不做合作评测,不做评测前沟通,不替任何模型留面子。跑出来什么,就发什么。
AI 世界每天在变,你需要一个靠谱的信息源
每天 3 条精选,每周 1 份指数变化,重要事故和价格波动第一时间通知。免费,无广告,随时退订。
- 每日精选 — 从海量 AI 新闻里,挑 3 条真正值得看的
- 赢政指数周报 — 谁涨了谁跌了,一封邮件讲清楚
- 模型事故告警 — 你在用的模型翻车了,尽快知道
- 价格变动提醒 — API 涨价降价,别等账单来了才发现
免费 | 无广告 | 无赞助软文 | 随时退订
想看更深的拆解,再往下走
排行榜回答'谁更强',Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文,是自己跑出来的结论。
进入 Research Lab