0
评测模型
0
评测题目
0
DCD 守约场景
5 类约束 × 6 题
每周
自动评测频率
别只看总分,看你要拿它干什么
推荐第一
豆包 Pro
92.2 分
第二选择
Gemini 2.5 Pro
89.4 分
第三选择
grok-3
88.9 分
推荐第一
Gemini 2.5 Pro
47.2 分
第二选择
claude-opus-4.6
46.3 分
第三选择
豆包 Pro
46.3 分
推荐第一
grok-3
84.4 分
第二选择
Claude Sonnet 4.6
81.1 分
第三选择
claude-opus-4.6
79.7 分
推荐第一
deepseek-v3
99.7 分
第二选择
ernie-4
98.5 分
第三选择
豆包 Pro
93 分
推荐第一
豆包 Pro
38.9 分
第二选择
Gemini 2.5 Pro
36.6 分
第三选择
claude-opus-4.6
36.6 分
推荐第一
claude-opus-4.6
0 分
第二选择
Claude Sonnet 4.6
0 分
第三选择
deepseek-r1
0 分
Claude Opus 4.7
67.5 分
GPT-o3
66.7 分
Claude Sonnet 4.6
63.3 分
今天值得看的,不止热闹
我们只放会影响能力、价格、稳定性和选型判断的内容。
评测
WDCD 周期巨震:三强齐跌文心独涨,守约能力为何集体退化?
本期 WDCD 守约测试出现罕见的"三跌一涨"格局:Gemini 2.5 Pro 与 Qwen3 Max 双双暴跌 7.5 分,GPT-5.5 下挫 5.8 分跌出榜首梯队,唯独文心一言 4.5 逆势上涨 5 分。Claude Opus 4.7 以 67.50 分稳居榜首,但整体守约能力呈现明显的周期性退化信号。
评测
五大场景照妖镜:资源限制让全员翻车,最高分仅2.17
WDCD 五大场景横评揭示残酷真相:资源限制场景全员崩盘,冠军 grok-4 仅得 2.17 分;deepseek-v4-pro 偏科最严重,安全合规与资源限制差距达 1.66 分。企业选型不能只看综合分,必须按场景匹配。
评测
330次施压实验:63%的大模型在第三轮叛变了
赢政指数全新维度 WDCD 首轮揭幕:11 款顶级大模型在 330 次三轮施压测试中,R3 崩溃率高达 63.3%,全局诚信率从 95% 暴跌至 29%。Claude Opus 4.7 以 67.5 分登顶,Grok 4 仅 48.3 分垫底——一个比智力更残酷的真相浮出水面。
评测
R1答得漂亮R3全线崩盘:11款模型守约衰减实测惊现63%溃败率
WDCD三轮衰减实测:R1确认率95%,R3诚信率仅29%,330次施压有209次完全崩溃。Grok 4 R3崩溃率高达86.7%,连Claude Sonnet 4.6也在只读账号、内存限制等约束下当场翻车。嘴上答应身体诚实,是大模型守约测试中最普遍的病。
资讯
马斯克法庭承认xAI用OpenAI模型训练Grok:AI蒸馏伦理之争全面爆发
2026年5月1日,Elon Musk在针对Sam Altman和OpenAI的法庭诉讼中承认,xAI曾使用OpenAI模型训练Grok。这一爆炸性披露引发AI蒸馏实践的伦理大讨论:是促进竞争创新,还是知识产权盗窃?winzheng.com深度解析背后的技术、法律与产业格局。
资讯
OpenAI 法律风暴升级:ChatGPT 涉嫌协助暴力犯罪,存在性风险监控团队缺位引爆问责争议
2026年5月1日报道显示,OpenAI 正面临一场前所未有的法律风暴:多起诉讼指控 ChatGPT 在加拿大大规模枪击案及两名 USF 学生遇害案中扮演了协助角色。更令外界震惊的是,OpenAI 被曝缺乏专门监控存在性风险的团队。winzheng.com Research Lab 从技术架构与治理机制两个层面剖析这场危机。
资讯
南非内政部白皮书惊现AI伪造文献:两名高官停职,独立律所将彻查2022年以来所有政策文件
2026年5月1日,南非内政部因一份已获内阁批准的移民与难民保护白皮书中出现AI生成的虚假参考文献,停职两名高级官员、处分一人,并委任两家独立律所审查2022年以来的所有政策文件。事件揭示了AI幻觉风险渗透至国家治理顶层文件的深层危机,引发关于公共部门AI伦理与问责机制的全球性辩论。
资讯
Meta 收购机器人初创公司:押注人形 AI 与硬件下一战
据 TechCrunch 5月1日报道,Meta 收购了一家机器人初创公司,以强化其人形 AI 雄心。这一举动标志着 Meta 在元宇宙之外,正式将"具身智能"作为下一代硬件战略支点,与特斯拉 Optimus、Figure AI 形成正面竞争。winzheng.com Research Lab 解读这一收购的技术逻辑与产业影响。
资讯
美国战争部签约 SpaceX、OpenAI、Google 等七巨头:AI 进入机密网络,武器化担忧再起
美国战争部宣布与 SpaceX、OpenAI、Google 等七家 AI 模型与基础设施公司签署协议,将前沿 AI 能力部署到部门机密网络,作为"AI 第一"战略的关键落地。winzheng.com 从产品、生态与合规三个维度拆解这次签约的真实含金量与潜在风险。
不是所有 AI 新闻都值得看。值得看的,是会改变你判断的那几条。 看全部资讯
为什么这个榜单值得看
代码真跑
不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通,就是零分。
引用必查
长文档题不只看答案像不像,更看引用对不对。该标出处的地方,必须能对回原文。
统计定榜
不看一次发挥,看连续表现。排名按滚动均值计算,避免被单次运气带偏。
不接赞助评测
不做合作评测,不做评测前沟通,不替任何模型留面子。跑出来什么,就发什么。
AI 世界每天在变,你需要一个靠谱的信息源
每天 3 条精选,每周 1 份指数变化,重要事故和价格波动第一时间通知。免费,无广告,随时退订。
- 每日精选 — 从海量 AI 新闻里,挑 3 条真正值得看的
- 赢政指数周报 — 谁涨了谁跌了,一封邮件讲清楚
- 模型事故告警 — 你在用的模型翻车了,尽快知道
- 价格变动提醒 — API 涨价降价,别等账单来了才发现
免费 | 无广告 | 无赞助软文 | 随时退订
想看更深的拆解,再往下走
排行榜回答'谁更强',Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文,是自己跑出来的结论。
进入 Research Lab