跳到主内容
赢政指数
赢政资讯
AI 专题
Winzheng Lab
WDCD
订阅
中文
中文
English
日本語
首页
›
专题
›
AI 代码能力评测
AI 代码能力评测
74 篇文章 · 第 1/4 页
哪个 AI 模型写代码最强?HumanEval 和 MBPP 是常用基准,但它们只测函数级补全,与真实开发场景差距大。赢政指数的代码执行维度(Execution)在隔离沙箱中运行模型生成的完整程序,验证编译通过率、运行时正确性和边界处理能力,是目前少数采用真实代码执行验证的独立评测。本专题追踪各模型的代码能力排名、编程工具动态和 AI 辅助编程的行业实践。
横评
Smoke 评测:10 模型代码执行全满分,材料约束差距拉大排名
今日 Smoke 评测显示,前 7 名模型代码执行全部拿满 100 分,核心差距仅来自材料约束。Claude Sonnet 4.6 以 97.98 分继续领跑,文心一言执行分仅 50 分垫底,Qwen3 Max 诚信评级 fail。
2026-06-11
前Datadog老兵创立Niteshift,押注打破AI大厂锁定
由Datadog前资深员工创立的AI编码代理初创公司Niteshift,近日宣布完成700万美元种子轮融资,投资者包括多位科技界知名天使投资人。该公司核心策略是挑战当前大模型制造商对企业的锁定效应,提供更灵活、可定制的AI编程解决方案,帮助企业真正掌控自己的AI工具,而非被单一模型供应商绑架。
2026-06-11
横评
二叉树序列化实测:11 模型 7 满分 4 直接归零
11 模型同题实测二叉树序列化与反序列化,豆包、Qwen3、Claude 等 7 款拿下 100 分,Gemini 2.5/3.1、DeepSeek V4、GPT-5.5 四款因类封装或代码截断得 0 分。核心差距在于是否严格按函数签名输出且空节点显式稳定编码。
2026-06-08
横评
11模型括号匹配同题测试:7个满分4个零分
11个模型调试同一段括号匹配代码,7个给出正确修复并返回100分,4个直接0分。核心差异在于是否发现原代码末尾“return”导致返回None的致命问题,以及是否处理非括号字符。
2026-06-08
横评
11个AI同解SQL重复支付题:仅4个满分,7个直接0分
11个模型面对同一道“疑似重复支付”SQL题,仅豆包Pro、Grok 4、Gemini 2.5 Pro和Gemini 3.1 Pro四家拿满分。其余七家因自连接镜像问题、时间函数错误或status条件放置不当直接0分,暴露了工程级SQL生成能力的显著差距。
2026-06-08
横评
11 个模型同一道闭包题全给 [2,2,2],赢政指数却集体 0 分
11 个主流模型在同一道 Python 闭包题目上,10 个直接输出 [2, 2, 2],仅文心一言格式异常。赢政指数 v6 代码执行维度却全部记 0 分,暴露了“格式严格性”对最终得分的决定性影响,也显示当前模型在循环变量捕获问题上已形成高度共识。
2026-06-08
横评
GPT-o3蓄水池采样题100分骤降至0,代码执行真相藏细节
v6评测中GPT-o3主榜上涨7分至82.82,但蓄水池采样严格题从100分直接归零。工程判断却暴涨50.3分,材料约束提升14分,稳定性从33.8升至58.0。原始回答仅写到“if j < k:”便截断,暴露算法实现一致性缺陷。
2026-06-08
横评
Claude Sonnet 4.6 SQL严格题从100分跌至0,主榜却反升9.3
Claude Sonnet 4.6在“SQL:疑似重复支付识别”一题从100分直接归零,但主榜从77.98升至87.24。原始回答缺少id过滤与时间窗口,导致自连接爆炸式匹配,暴露严格题下的逻辑断层。
2026-06-08
横评
11 模型新老更迭:Grok 4 登顶,DeepSeek 系列集体退场
本周 7 款新模型首次上榜即拿下 72.4-80.9 分,Grok 4 以 89.90 分登顶,DeepSeek V3、R1、文心 4.0 等 6 款旧模型同时退出,旧榜单结构被彻底打破。
2026-06-08
横评
9模型并列主榜77.5,代码执行满分材料约束却只剩50
今日Smoke轻量评测显示,9款主流模型主榜并列77.5分,代码执行全部拿到100分,材料约束却集体停留在50分,仅文心一言和Claude Sonnet 4.6掉队,暴露当前模型在严格材料遵循上的集体短板。
2026-06-05
横评
Smoke快测:文心一言4.5与Grok 4并列99.24,GPT-5.5执行分仅50
今日Smoke轻量评测显示文心一言4.5与Grok 4并列主榜99.24分,执行维度双双满分。GPT-5.5执行分骤降至50分,主榜仅59.99,垫底明显。其他9个模型执行均保持100分,差距仅来自材料约束。
2026-06-04
横评
三大模型并列 Smoke 榜首 执行满分但约束警示
今日 Smoke 轻量评测中,Claude Opus 4.7、Claude Sonnet 4.6 与 GPT-5.5 并列主榜第一,得分 87.76,代码执行均 100 分,但材料约束仅 72.8 并触发 warn, grounding 仍是最大瓶颈。
2026-06-03
GitHub Copilot新定价让用户“一天花光月额度”
GitHub Copilot近日宣布采用基于AI信用点的新计费系统,取代原有的固定月费模式。部分重度用户反馈,他们在一天之内就用完了整个月的信用点额度,引发社区热议。这一变化反映了AI服务提供商在成本压力下的定价策略调整,同时也让开发者重新评估AI辅助编程的价值。
2026-06-02
横评
GPT-5.5 材料约束71分登顶 Smoke榜 代码满分后半段差距拉大
今日Smoke轻量评测显示,GPT-5.5以86.95分位居第一,代码执行100分、材料约束71分。所有前七名模型代码执行均满分,排名完全由材料约束决定;Claude Opus 4.7等后四名执行仅50分,整体差距明显。
2026-06-02
横评
Smoke评测:Claude Sonnet 4.6 99.78分断层领先,GPT系列集体卡在74分
今日Smoke轻量评测显示,Claude Sonnet 4.6以主榜99.78分(执行100,约束99.5)继续领跑,DeepSeek V4 Pro与Gemini 3.1 Pro并列第二。GPT-5.5、GPT-o3、Grok 4等7个模型主榜分数停留在74分,文心一言执行仅50分垫底,整体格局未变
2026-06-01
GitHub Copilot计费改革引发开发者群嘲:'真是个笑话'
微软旗下GitHub Copilot宣布将于2026年6月实施基于token的新计费模式,取代原有的固定订阅制。此举在开发者社区引发强烈不满,被批评为'变相涨价'和'扼杀创新'。分析指出,这标志着AI编程助手黄金时代的终结,也暴露了平台方与用户之间日益加剧的利益冲突。
2026-05-31
无AI不编程?专家警告依赖AI可能反噬自身
AI工具让程序员写代码更快,但研究人员警告,这不等于更好的代码。许多开发者已经习惯依赖AI,甚至拒绝在没有AI的情况下工作。这种趋势可能导致编码能力退化、安全漏洞增加等长期风险。本文深入分析AI辅助编程的隐患,并探讨开发者应如何平衡效率与基本功。
2026-05-30
横评
文心一言4.5代码执行从100暴跌至50,主榜单日掉11分
文心一言4.5今日Smoke评测主榜从74分跌至62.96分,核心原因是代码执行维度从100分直接腰斩至50分,材料约束小涨4.5分。单日10题抽样下,这种波动究竟是随机题目方差,还是模型真实能力退化,值得拆解。
2026-05-30
横评
文心一言执行分暴跌50,Smoke轻测今日主榜大洗牌
今日Smoke轻量评测中,文心一言4.5执行分直接腰斩至50,主榜暴跌11分至62.96。GPT-o3单日主榜暴涨35.8分,Claude Opus 4.7以99.42分继续领跑,材料约束成为拉开差距的关键。
2026-05-30
Cognition创始人Scott Wu:AI编程助手不应成为人类替代品
Cognition公司推出的Devin被誉为首个且最成功的AI编程代理,但创始人Scott Wu明确表示,其设计初衷并非取代人类程序员。本文深入探讨Devin的技术边界、与人类协作的潜力,以及AI编程工具如何重新定义软件开发流程。Wu强调,AI应作为“超级编译器”增强人类创造力,而非淘汰工程师。行业
2026-05-30
1
2
3
4
»
相关专题
AI 评测基准对比
指令遵从与守约测试
OpenAI 专题
Anthropic 专题
AI 安全专题