AI 代码能力评测

44 篇文章 · 第 1/3 页
哪个 AI 模型写代码最强?HumanEval 和 MBPP 是常用基准,但它们只测函数级补全,与真实开发场景差距大。赢政指数的代码执行维度(Execution)在隔离沙箱中运行模型生成的完整程序,验证编译通过率、运行时正确性和边界处理能力,是目前少数采用真实代码执行验证的独立评测。本专题追踪各模型的代码能力排名、编程工具动态和 AI 辅助编程的行业实践。
编程的未来已来:Anthropic用Claude展示AI编码新范式
在Anthropic于伦敦举办的开发者活动“Code with Claude”上,公司展示了AI辅助编程的最新成果。与会者被问及是否曾用AI生成代码——这一问题的答案揭示了一个不可逆转的趋势:无论我们是否愿意,AI正在重塑软件开发的基础。本文深入分析Claude的编码能力、行业影响以及背后的技术挑战
2026-05-22
横评 Gemini 3.1 Pro主榜暴跌8.5分,代码执行狂降9.5究竟是抽签还是退化
Gemini 3.1 Pro今日Smoke评测主榜从75.52跌至67.01,代码执行单日暴跌9.5分,材料约束下降7.3分。工程判断同步下滑,任务表达却意外上涨20分,稳定性仅31.7分暴露明显波动。
2026-05-22
横评 Smoke轻测:豆包Pro执行100分独秀,9模型主榜暴跌30分以上
今日Smoke轻量评测显示,豆包Pro以主榜91.23分大幅领先,代码执行拿下满分100,其余10模型执行分普遍停留在50分或0分,Gemini 2.5 Pro等9个模型主榜单日跌幅超过30分,核心原因指向测试集难度升级与模型一致性波动。
2026-05-22
Anthropic的Code with Claude:编程的未来已来,你准备好了吗?
Anthropic在伦敦举办为期两天的开发者活动Code with Claude,展示了AI辅助编程的最新进展。活动与Google I/O同期举行,但并非巧合。Claude作为编程助手,正改变开发者工作流,提升效率的同时也引发关于人类角色、代码质量等深层思考。本文编译自MIT Technology
2026-05-22
横评 豆包Pro主榜暴跌18.4分,代码执行一日暴降30.8,真实退化还是抽签运气?
豆包Pro今日Smoke评测主榜从96.06暴跌至77.64,代码执行单项暴降30.8分至66.7,材料约束微降,诚信评级从pass转为warn。小样本快测波动正常,但连续异常值得追踪。
2026-05-21
横评 Grok 4 98.34 分登顶,Claude Opus 主榜暴跌 31.3 分
今日 Smoke 轻量评测显示,Grok 4 以 98.34 分领跑,代码执行满分 100。Claude Opus 4.7 主榜暴跌 31.3 分,执行分直接腰斩至 38.1,诚信评级从 pass 转为 warn。Qwen3 Max 紧随其后,多款模型执行能力出现明显下滑。
2026-05-21
谷歌Gemini 3.5 Flash:押注AI代理,而非聊天机器人
在年度开发者大会上,谷歌发布了迄今最强大的编程与智能体AI模型Gemini 3.5 Flash。该模型能自主执行复杂任务,并从零开始构建软件,标志着谷歌正式转向以智能体(agent)为核心的新一代AI浪潮,而非仅仅停留在聊天机器人层面。
2026-05-20
横评 Claude Opus 4.7主榜暴跌22.6分,代码执行从100直接腰斩
Claude Opus 4.7今日Smoke评测主榜暴跌22.6分,代码执行从100分直接跌至50分,材料约束反升11分,需区分随机波动与真实能力退化。
2026-05-19
横评 Grok 4 97.44 分登顶,GPT-o3 主榜暴跌 28 分
今日 Smoke 轻量评测显示 Grok 4 以 97.44 分领跑,Gemini 3.1 Pro 紧随其后。GPT-o3 主榜暴跌 28.1 分,代码执行从 100 直接腰斩至 50,Claude 两款模型同步崩盘,暴露执行能力严重退化。
2026-05-19
普通人也能玩转Vibe Code?我和Claude做了个数据库
如今,似乎任何人都能通过“Vibe Code”创建任何东西。作为技术小白,作者与AI助手Claude合作,尝试构建一个记录大众日常小怨气的数据库。本文探索了这一新兴编程范式的可行性,并反思了AI辅助编程对普通人的意义。
2026-05-18
横评 11个AI同解连续登录SQL题:8个满分3个直接崩盘
在同一道“找出用户最长连续登录天数”的SQL题上,11个主流模型中8个拿下100分,3个直接0分。Qwen3 Max、Grok 4和GPT-5.5因语法错误或语句不完整彻底失败,暴露了当前顶级模型在日期分组逻辑上的显著不稳定。
2026-05-18
横评 11 模型同答 SQL 留存题:9 家 0 分,DeepSeek 与 Grok 仅 66.7
在同一道「SQL 月度留存 Cohort」代码执行题上,11 个模型中 9 个直接得 0 分,仅 DeepSeek V4 Pro 和 Grok 4 拿到 66.7 分。多数模型要么 CTE 写到一半截断,要么日期偏移计算出错,暴露了当前大模型在精确多步分析 SQL 上的系统性短板。
2026-05-18
横评 11个AI同答SQL题:3个直接0分,Claude与GPT为何崩盘
11个主流模型在“最近90天用户已支付订单总额”SQL任务中分化明显。8个模型得分60,正确使用DATE_SUB或兼容INTERVAL语法;Claude Sonnet 4.6、Claude Opus 4.7、GPT-o3直接0分,因日期区间写法与主流MySQL方言冲突,导致查询无法执行。
2026-05-18
横评 本周11模型大换血:新秀Qwen3 Max68.5分入场 老将75分集体退场
本周赢政指数v6主榜出现剧烈更替,DeepSeek V3等6个老模型退出,Qwen3 Max、Gemini 3.1 Pro等5个新模型首次入榜,最高得分68.5分;豆包Pro代码执行89.8分仍居前列,GPT-o3材料约束单周暴涨18.1分。
2026-05-18
横评 Gemini 3.1 Pro主榜暴跌11.1分,代码执行从100直接腰斩
Gemini 3.1 Pro今日Smoke评测主榜从86.05跌至75.00,代码执行单维度暴跌25分至75,材料约束小涨6分。主因是代码执行出现明显失误,需区分题目抽签波动与真实能力退化。
2026-05-18
横评 Qwen3 Max主榜暴跌10.9分,代码执行单日腰斩25分
Qwen3 Max今日Smoke评测主榜从88.75跌至77.84,代码执行从100直接跌到75,诚信评级同时从pass转为warn。单日10题快测波动是否反映真实退化,值得重点追踪。
2026-05-18
横评 GPT-5.5主榜暴跌28分:真退化吗
GPT-5.5 今日 Smoke 主榜从 84.03 跌至 56.08,单日下滑 28 分;关键不是材料约束,而是代码执行从满分砍半。
2026-05-16
横评 3模型暴跌28分,Claude仍近满分
5月16日Smoke快测显示,Claude Sonnet 4.6以98.34领跑,GPT-5.5、DeepSeek V4 Pro、Gemini 2.5 Pro集体下跌,执行断档成为最大风险。
2026-05-16
OpenAI宣布Codex将登陆手机,编程助手随时在线
OpenAI近日宣布,其AI编程助手Codex即将推出移动端版本,用户可通过手机直接使用代码生成与补全功能。此举旨在打破桌面设备的限制,让开发者即使不在电脑前也能高效管理编程工作流。更新将带来更强的灵活性,支持语音输入和轻量级任务处理,有望改变移动编程的生态格局。
2026-05-15
Clawdmeter:让Claude Code使用数据实时呈现桌面小仪表盘
一款名为Clawdmeter的开源小工具将Claude Code的使用统计转化为袖珍桌面仪表盘,专为AI编码重度用户设计。它实时显示API调用次数、Token消耗、费用等关键指标,支持高度自定义,帮助开发者高效管理AI编程助手的使用成本与性能。本文深入分析这款工具的功能、技术背景及行业意义,并探讨A
2026-05-15