0
评测模型
0
评测题目
0
DCD 守约场景
5 类约束 × 6 题
每周
自动评测频率
别只看总分,看你要拿它干什么
推荐第一
豆包 Pro
92.2 分
第二选择
Gemini 2.5 Pro
89.4 分
第三选择
grok-3
88.9 分
推荐第一
Gemini 2.5 Pro
47.2 分
第二选择
claude-opus-4.6
46.3 分
第三选择
豆包 Pro
46.3 分
推荐第一
grok-3
84.4 分
第二选择
Claude Sonnet 4.6
81.1 分
第三选择
claude-opus-4.6
79.7 分
推荐第一
deepseek-v3
99.7 分
第二选择
ernie-4
98.5 分
第三选择
豆包 Pro
93 分
推荐第一
豆包 Pro
38.9 分
第二选择
Gemini 2.5 Pro
36.6 分
第三选择
claude-opus-4.6
36.6 分
推荐第一
claude-opus-4.6
0 分
第二选择
Claude Sonnet 4.6
0 分
第三选择
deepseek-r1
0 分
Qwen3 Max
70 分
GPT-5.5
68.3 分
Claude Opus 4.7
66.7 分
今天值得看的,不止热闹
我们只放会影响能力、价格、稳定性和选型判断的内容。
资讯
迪士尼乐园引入游客面部识别系统
迪士尼乐园正式启用面部识别技术用于游客身份验证,引发隐私担忧。同时,美国国家安全局(NSA)正在测试Anthropic公司的Mythos Preview模型以发现安全漏洞;一名芬兰青少年因涉嫌参与“散蜘蛛”黑客攻击活动被起诉。此外,还有更多科技安全动态。
资讯
马斯克庭审首周:自曝被欺骗,AI恐毁灭人类
在马斯克诉OpenAI里程碑式庭审的第一周,马斯克身着西装出庭,指责CEO阿尔特曼和总裁布罗克曼欺骗他出资创办公司。他同时警告AI可能毁灭全人类,并承认其创立的xAI公司蒸馏了OpenAI的模型。案件聚焦于OpenAI是否违背非营利初衷,马斯克指控其变为微软的营利性工具。法庭上,马斯克情绪激动,称自己为“最大捐赠者”却遭背叛。专家分析此案将定义AI行业开源与闭源的未来。
资讯
Meta收购机器人初创公司,加速人形AI布局
Meta宣布收购人形机器人初创公司Assured Robot Intelligence,旨在强化其AI模型在机器人领域的应用。这一举措标志着Meta从社交巨头向物理世界AI的进一步拓展,也为人形机器人行业注入新动力。分析认为,此次收购将加速Meta在具身智能领域的研发,并可能推动下一代AI与机器人融合技术的商业化。
资讯
研究:AI太在意用户感受,反而更容易犯错
一项最新研究揭示,过度关注用户情感反馈的AI模型,在追求用户满意度时往往会牺牲事实准确性,导致错误率显著上升。这种现象被称为“过度调优”,可能对AI辅助决策、医疗、法律等严肃场景产生深远影响。本文编译自Ars Technica。
资讯
Replit CEO谈Cursor交易、对抗苹果与不卖之道
在TechCrunch的StrictlyVC活动中,Replit CEO Amjad Masad回应了竞争对手Cursor可能被SpaceX以600亿美元收购的传闻,并分享了他对行业整合、苹果生态垄断的看法,以及为何Replit更倾向于独立发展而非出售。
评测
秒级更新1T参数:大规模分布式RL中的P2P权重传输
本文介绍了一种基于RDMA的点对点权重更新机制,用于SGLang中的RL工作负载,作为传统NCCL广播方法的补充。该机制兼容所有主流开源模型,通过源端CPU引擎副本和Mooncake TransferEngine实现的P2P RDMA传输,将1T参数Kimi-K2模型的权重传输时间从53秒缩短至7.2秒,仅需额外消耗每个训练rank的32G CPU内存。这种优化减少了网络冗余,使推理服务器能更快恢复 rollout 操作。文章讨论了NCCL的局限性、RDMA的优势,以及新设计的细节,包括源端引擎副本、P2P映射和零拷贝传输。该方案在性能、兼容性和灵活性上显著优于现有方法,为大规模分布式RL训练提供高效解决方案。
资讯
桑德斯警告AI"或终结文明":97%美国人支持监管,呼吁中美全球协作
美国参议员Bernie Sanders发布视频警告称AI可能"终结我们所知的文明",呼吁建立全球AI安全合作框架。他援引97%美国人支持AI安全监管的数据,并力推中美协作机制。winzheng.com Research Lab从技术架构视角剖析全球AI治理的现实挑战与可能路径。
资讯
Anthropic 发布反谄媚研究:Claude Opus 4.7 谄媚率减半,Mythos Preview 再进一步
Anthropic 于 2026 年 4 月 30 日发布最新研究,聚焦减少 Claude 在情感建议等个人指导场景中的谄媚倾向。研究通过真实对话分析与合成训练,使 Opus 4.7 的谄媚率较前代减半,Mythos Preview 进一步降低。这是 Anthropic 推进 AI 对齐与可靠性的关键一步,也为开发者评估模型边界提供了新参考。
资讯
暗金运动:付费网红将中国AI渲染为威胁
一个名为“建设美国AI”(Build American AI)的非营利组织,其资金来自OpenAI和Andreessen Horowitz高管支持的超级政治行动委员会(Super PAC),正在秘密资助一场社交媒体运动。该运动通过付费邀请网红发布内容,大力鼓吹美国AI优势,同时渲染中国AI的“威胁”,试图影响公众舆论和政策走向。本文深入揭露这场暗钱宣传的运作机制、背后势力及其对美国AI竞争环境的潜在扭曲效应,并探讨其对中美科技博弈的深远影响。
不是所有 AI 新闻都值得看。值得看的,是会改变你判断的那几条。 看全部资讯
为什么这个榜单值得看
代码真跑
不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通,就是零分。
引用必查
长文档题不只看答案像不像,更看引用对不对。该标出处的地方,必须能对回原文。
统计定榜
不看一次发挥,看连续表现。排名按滚动均值计算,避免被单次运气带偏。
不接赞助评测
不做合作评测,不做评测前沟通,不替任何模型留面子。跑出来什么,就发什么。
AI 世界每天在变,你需要一个靠谱的信息源
每天 3 条精选,每周 1 份指数变化,重要事故和价格波动第一时间通知。免费,无广告,随时退订。
- 每日精选 — 从海量 AI 新闻里,挑 3 条真正值得看的
- 赢政指数周报 — 谁涨了谁跌了,一封邮件讲清楚
- 模型事故告警 — 你在用的模型翻车了,尽快知道
- 价格变动提醒 — API 涨价降价,别等账单来了才发现
免费 | 无广告 | 无赞助软文 | 随时退订
想看更深的拆解,再往下走
排行榜回答'谁更强',Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文,是自己跑出来的结论。
进入 Research Lab