AI 代码能力评测

108 篇文章 · 第 1/6 页

哪个 AI 模型写代码最强？HumanEval 和 MBPP 是常用基准，但它们只测函数级补全，与真实开发场景差距大。赢政指数的代码执行维度（Execution）在隔离沙箱中运行模型生成的完整程序，验证编译通过率、运行时正确性和边界处理能力，是目前少数采用真实代码执行验证的独立评测。本专题追踪各模型的代码能力排名、编程工具动态和 AI 辅助编程的行业实践。

横评 Qwen3 Max主榜暴跌12.9分，代码执行单日跌26.8

在赢政指数2026年6月Smoke评测中，Qwen3 Max主榜从84.92分跌至72.02分，代码执行维度从96.30分暴跌至69.50分，降幅达26.8分，材料约束则小幅上升4.1分。

横评 Qwen3 Max主榜暴跌12.9分 Gemini 2.5 Pro 96.99分领跑Smoke轻量榜

2026-07-04 Smoke轻量评测中，Gemini 2.5 Pro以主榜96.99分（执行100、约束93.3）登顶，Qwen3 Max主榜暴跌12.9分至72.02。GPT-o3与Gemini 2.5 Pro单日分别上涨24分和22.4分，执行与约束的强弱搭配成为今日核心分化点。

横评 GPT-5.5 执行满分 86.95 分领跑 Smoke 评测，约束短板暴露

2026-07-03 Smoke 评测显示，GPT-5.5 以执行 100 分、约束 71 分拿下主榜 86.95 分首位。Claude Sonnet 4.6 紧随其后，主榜 86.12 分。豆包 Pro 则以约束 81.7 分反超执行表现，凸显不同模型在执行与约束间的结构差异。

横评 Gemini 3.1 Pro 82.97 分登顶，执行 75 分拉开与第二名差距

2026-07-02 Smoke 评测显示，Gemini 3.1 Pro 以主榜 82.97 分（执行 75、约束 92.7）位居第一，豆包 Pro 81.98 分紧随其后。Claude Opus 4.7 约束 97 分最高，但执行仅 58.3 分。昨日多模型执行分数出现 30 分以上回落，凸显执行

横评豆包Pro Smoke评测主榜暴跌18.6分代码执行单日跌38.8

豆包Pro今日Smoke评测主榜从85.91分跌至67.32分，代码执行从83.30分暴跌至44.50分，材料约束反而升至95.20分。单日10题快测中代码执行维度出现大幅波动。

横评 Grok 4 Smoke评测主榜暴跌15.3分代码执行单日跌31.4

赢政指数今日Smoke评测显示，Grok 4主榜从97.98分跌至82.73分，降幅15.3分，其中代码执行从100.00分骤降至68.60分。材料约束和任务表达反而上升，诚信评级维持pass。单日10题快测下，此类波动是否反映真实能力变化值得拆解。

横评 Claude Opus 4.7 94.82 分登顶，Gemini 3.1 Pro 暴跌 32.2 分

2026-07-01 Smoke 轻量评测显示，Claude Opus 4.7 以 94.82 分（执行 94.5，约束 95.2）占据主榜首位，Claude Sonnet 4.6 紧随其后。Gemini 3.1 Pro 主榜暴跌 32.2 分，执行从昨日高位骤降 57 分，凸显执行与约束搭配对排名

横评 Claude Sonnet 4.6 Smoke主榜暴跌15.3分，代码执行单日掉25分

今日Smoke评测中，Claude Sonnet 4.6主榜从97.84分跌至82.52分，降幅15.3分。其中代码执行从100.00直接跌到75.00，材料约束小降3.5分，而工程判断和任务表达反而分别升10.4分和16.7分。

横评 Claude Opus 4.7 Smoke测试主榜暴跌16分，代码执行单日掉27.2

在赢政指数今日Smoke评测中，Claude Opus 4.7主榜从100.00分跌至84.01分，代码执行维度从100.00分暴跌至72.80分，降幅达27.2分。材料约束仅降2.3分，工程判断反而上升9.1分，诚信评级维持pass。

横评 Gemini 3.1 Pro 98.47 分登顶，Claude 执行分暴跌 27.2 后仅剩 72.8

2026-06-30 Smoke 评测显示，Gemini 3.1 Pro 以 98.47 分（执行 100、约束 96.6）排名第一。Claude Opus 4.7 执行分暴跌 27.2 至 72.8，主榜跌 16 分；文心一言 4.5 主榜跌 17.1 分。DeepSeek V4 Pro 靠 98

Cursor移动应用上线，远程操控AI编码代理

AI编程工具Cursor推出iOS/Android移动应用，允许开发者通过手机实时监控、暂停、调整正在执行的编码代理。该应用支持查看代码变更日志、接收完成提醒、通过自然语言重新指示代理等核心功能，标志着AI辅助编程从桌面端向移动协作的延伸。Cursor移动端并非完整IDE，而是作为“远程指挥中心”优

横评豆包 Pro Smoke评测主榜暴跌13.8分，代码执行从100直降75

在赢政指数2026年6月Smoke评测中，豆包Pro主榜从98.61分跌至84.77分，单日下降13.8分，主要源于代码执行维度从100.00分跌至75.00分。

横评 Claude Sonnet 4.6 Smoke评测主榜暴跌25.9分代码执行从100降至50

在赢政指数2026年6月Smoke评测中，Claude Sonnet 4.6主榜从96.45分跌至70.52分，代码执行维度从100.00直接腰斩至50.00。材料约束反而小幅上升3.5分，工程判断保持满分，诚信评级维持pass。

横评 Claude Opus 4.7代码执行从100暴跌至50 主榜单日掉25.7分

赢政指数今日Smoke评测中，Claude Opus 4.7代码执行从100.00分跌至50.00分，主榜从97.12分降至71.47分，单日暴跌25.7分。材料约束小幅回升，工程判断和任务表达保持高位，诚信评级仍为pass。

横评 Claude Opus 4.7 97.12 分领跑，执行满分但材料约束 93.6 分拉低整体

2026-06-27 Smoke 评测显示，Claude Opus 4.7 以 97.12 分位居第一，代码执行 100 分、材料约束 93.6 分。Claude Sonnet 4.6 紧随其后，主榜 96.45 分。三个模型并列第三，主榜均为 83.37 分，执行 75 分、约束 93.6 分。文

横评 Qwen3 Max代码执行暴跌50分，主榜仅降1.5分

Qwen3 Max在今日Smoke评测中代码执行从100.00分跌至50.00分，主榜从74.00分微降至72.50分。材料约束升至100.00分，诚信评级从fail转为pass，单日波动幅度达50分。

横评 Claude Opus 4.7 Smoke评测主榜暴跌27.5分，代码执行从100直降50

Claude Opus 4.7今日Smoke评测主榜从100.00跌至72.50分，代码执行维度从100.00暴跌至50.00分，材料约束保持100.00不变，工程判断从83.40升至100.00，诚信评级维持pass。

横评 4模型执行分暴跌至50，文心一言主榜狂掉34.1分

2026-06-24 Smoke评测中，文心一言4.5主榜暴跌34.1分至64.63，Claude Opus 4.7和Claude Sonnet 4.6分别下跌27.5分与24.4分，核心原因是代码执行从100直接跌至50。今日前三名DeepSeek V4 Pro、Gemini 3.1 Pro、Gr

横评 Gemini 2.5 Pro主榜暴跌28分，代码执行从100直接腰斩

Gemini 2.5 Pro在今日Smoke评测中主榜从99.28分跌至71.33分，暴跌28分，主要源于代码执行维度从100.00分直接跌至50.00分。材料约束微降1分，其他维度持平或微升，诚信评级维持pass。

横评 Qwen3 Max主榜暴跌19.2分，代码执行单日掉31.2分

赢政指数2026年6月Smoke评测显示，Qwen3 Max主榜从100分跌至80.82分，代码执行维度从100分降至68.80分，降幅31.2分。材料约束仅降4.5分，诚信评级维持pass。单日10题快测下，此类波动需区分抽签因素与真实能力变化。