AI测评

真机实测，数据说话。我们用严谨的方法论评测AI大模型、智能硬件与前沿技术，只为给你最客观的参考。

🏠 本站权威测评 LMSYS Chatbot Arena MLCommons Ars Technica

文心一言4.5 Smoke主榜暴跌22.2分代码执行直接腰斩至50分

文心一言4.5今日Smoke评测主榜从93.25分跌至71.02分，暴跌22.2分。代码执行维度从94.10分直接跌至50.00分，材料约束小涨至96.70分。单日10题快测中，代码执行表现出现显著异常。

GPT-5.5 Smoke评测主榜暴跌20.5分，代码执行从100直降50

GPT-5.5今日Smoke评测主榜从93.03分跌至72.50分，暴跌20.5分。代码执行从100.00分腰斩至50.00分，材料约束则从84.50分升至100.00分。单日10题抽签导致的波动可能是主因，仍需持续观察。

GPT-5.5执行分暴跌至50 Gemini 3.1 Pro主榜狂掉28.3分

2026-06-20 Smoke轻量评测显示，GPT-5.5、Gemini 3.1 Pro等四模型执行分集体跌至50，主榜分别暴跌20.5至28.3分。Claude Opus 4.7与Qwen3 Max以100分并列第一，执行与约束双满分。低分模型约束分仍维持96.7-100分，暴露执行维度成为今日最大分化点。

豆包 Pro 材料约束暴跌15.9分 Smoke单日测试异常成因

豆包 Pro 在今日 Smoke 评测中材料约束从 100.00 分跌至 84.10 分，主榜从 100.00 分降至 92.85 分。代码执行、工程判断、任务表达三项维持满分，诚信评级仍为 pass。

GPT-o3材料约束单日暴跌15.2分 Smoke主榜从100跌至93.16

GPT-o3今日Smoke评测材料约束从100.00分跌至84.80分，主榜从100.00降至93.16分。代码执行、工程判断、任务表达三项保持满分，诚信评级维持pass。单日10题快测下，此类波动是否反映真实退化值得追踪。

Smoke评测：Qwen3 Max约束+23分逆袭，GPT-o3材料约束暴跌15.2分

2026年6月19日Smoke评测显示，Gemini 3.1 Pro以99.28分继续领跑。Qwen3 Max约束从昨日大幅提升23分，主榜升至97.35分；GPT-o3和豆包Pro材料约束分别暴跌15.2分和15.9分，暴露结构脆弱性。

Grok 4材料约束暴跌25.6分主榜却逆势升至87分

在赢政指数今日Smoke评测中，Grok 4材料约束从96.70分跌至71.10分，降幅25.6分，但代码执行升至100分、主榜升至87分。单日10题快测下，多维度剧烈波动更可能源于题目抽签而非模型退化。

Grok 4材料约束暴跌25.6分四模型主榜满分并列

2026-06-18 Smoke评测中，Claude Opus 4.7等四模型主榜、执行、约束三项均达100分。Grok 4材料约束单日暴跌25.6分至71.1分，导致主榜仅87分，与满分模型差距13分。执行维度11模型中有10个满分，约束维度则明显分化。

WDCD三轮衰减实测：GPT-o3 R3崩溃率50% Qwen3 Max零崩盘

WDCD三轮测试显示，R1平均确认率0.96，R2抵抗率降至0.76，R3平均诚信率仅75.5%。GPT-o3 R3崩溃率达50%，而Qwen3 Max、Claude Sonnet 4.6、文心一言4.5实现零崩溃，暴露多约束场景下的诚信断崖。

Qwen3 Max 92.50分登顶 WDCD守约榜豆包Pro 62.50分垫底差距30分

Qwen3 Max以92.50分位居WDCD守约排行榜首位，豆包Pro以62.50分垫底，头部与尾部相差30分。满分率47.3%，R3崩溃率16.4%。Claude Sonnet 4.6和DeepSeek V4 Pro分列二三位，GPT-o3和豆包Pro位居后两名。

文心一言4.5主榜暴跌10.4分，任务表达维度从90分腰斩至46.3

文心一言4.5今日Smoke评测主榜从81.69分跌至71.33分，代码执行从66.70分降至50.00分，任务表达从90.00分降至46.30分。工程判断反而升27.5分至72.20分，诚信评级从warn转为pass。

Qwen3 Max材料约束暴跌28.9分主榜却微涨0.8

Qwen3 Max在今日Smoke评测中材料约束从100.00分跌至71.10分，降幅28.9分，但代码执行从50.00分升至75.00分，主榜得分反而升0.8分至73.25分。单日10题快测下，这种波动更可能是题目抽签所致。