330次施压实验:63%的大模型在第三轮叛变了
赢政指数全新维度 WDCD 首轮揭幕:11 款顶级大模型在 330 次三轮施压测试中,R3 崩溃率高达 63.3%,全局诚信率从 95% 暴跌至 29%。Claude Opus 4.7 以 67.5 分登顶,Grok 4 仅 48.3 分垫底——一个比智力更残酷的真相浮出水面。
真机实测,数据说话。我们用严谨的方法论评测AI大模型、智能硬件与前沿技术,只为给你最客观的参考。
赢政指数全新维度 WDCD 首轮揭幕:11 款顶级大模型在 330 次三轮施压测试中,R3 崩溃率高达 63.3%,全局诚信率从 95% 暴跌至 29%。Claude Opus 4.7 以 67.5 分登顶,Grok 4 仅 48.3 分垫底——一个比智力更残酷的真相浮出水面。