赢政 AI 评测 — AI 模型评测、行业资讯与深度研究
赢政指数
完整排行榜 →
#1
Grok 4 83.7
▲2.7
·
#2
Claude Opus 4.7 81.9
▲1.9
·
#3
豆包 Pro 81.6
·
#4
Claude Sonnet 4.6 81.2
▼1.8
·
#5
DeepSeek V4 Pro 81.1
▲4.8
·
#6
Qwen3 Max 80.8
▲1.8
·
#7
GPT-5.5 79.4
▲2.4
·
#8
GPT-o3 78.5
·
#9
文心一言 4.5 74.2
▲7.1
·
#10
Gemini 3.1 Pro 52.8
▼24.9
·
#11
Gemini 2.5 Pro 49.3
▼29.7
·
▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1
·
#1
Grok 4 83.7
▲2.7
·
#2
Claude Opus 4.7 81.9
▲1.9
·
#3
豆包 Pro 81.6
·
#4
Claude Sonnet 4.6 81.2
▼1.8
·
#5
DeepSeek V4 Pro 81.1
▲4.8
·
#6
Qwen3 Max 80.8
▲1.8
·
#7
GPT-5.5 79.4
▲2.4
·
#8
GPT-o3 78.5
·
#9
文心一言 4.5 74.2
▲7.1
·
#10
Gemini 3.1 Pro 52.8
▼24.9
·
#11
Gemini 2.5 Pro 49.3
▼29.7
·
▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1
·
最新资讯
查看全部 →Cognition创始人Scott Wu:AI编程助手不应成为人类替代品
Cognition公司推出的Devin被誉为首个且最成功的AI编程代理,但创始人Scott Wu明确表示,其设计初衷并非取代人类程序员。本文深入探讨Devin的技术边界、与人类协作的潜力,以及AI编程工具如何重新定义软件开发流程。Wu强调,
OpenAI治理框架:规模化安全企业AI部署蓝图
OpenAI发布前沿治理框架(FGF),为企业提供结构化蓝图,以实现全球范围内安全合规的AI规模化部署。该框架重点解决系统性风险评估与缓解,标志着大语言模型从实验阶段迈向可持续商业级架构。本文深度解析框架核心内容,探讨其对企业的战略意义。
《未来真相》作者被问AI使用,场面尴尬
一本探讨AI如何扭曲现实认知的书籍,却因使用AI生成的虚假引文而陷入信任危机。WIRED记者采访作者时发现,他对AI的使用解释漏洞百出,甚至无法自圆其说。这不仅暴露了出版业技术应用的伦理盲区,更揭示了AI时代“真相”岌岌可危的现状。
继英伟达200亿收购案后,AI芯片创企Groq再融6.5亿美元
据Axios报道,AI芯片初创公司Groq正在寻求通过内部融资募集6.5亿美元,标志着其从硬件制造向AI推理服务的战略转向。这一举措紧随英伟达斥资200亿美元进行“非雇佣式收购”之后,凸显了AI算力市场从训练到推理的焦点转移。Groq计划利
当企业过度“AI中毒”,会发生什么?
Box创始人Aaron Levie将决策者在不了解工作内容的情况下用AI替代人类的现象称为“AI精神病”。ClickUp最近裁员22%引入AI代理,2026年科技行业裁员已接近2025年全年水平。当高管们沉迷于AI降本增效,却忽视实际工作细
Kiwibit AI鸟喂食器:后院里的智能小伙伴
想以一种有趣的方式亲近自然,同时像收集宝可梦一样在应用中记录各种鸟类?试试Kiwibit这款由AI驱动的智能鸟喂食器吧。它不仅能精准识别鸟类物种,还通过手机应用让你体验收集的乐趣,将观鸟变成一场数字冒险。
最后24小时!TechCrunch Disrupt 2026早鸟票省$410
TechCrunch Disrupt 2026早鸟优惠将于今晚11:59(太平洋时间)截止,最高可省410美元。这场汇聚全球超万名科技领袖的盛会将于10月举行,目前正是锁定低价门票的最后机会。本文深入分析科技会议门票策略背后的商业逻辑,并探
最后通牒!TechCrunch Disrupt 2026演讲申请今日截止
TechCrunch Disrupt 2026演讲嘉宾申请通道即将关闭,抓住最后机会登上全球科技舞台。本文深入解析大会亮点、往届影响力及参与者权益,助你把握与行业领袖同台对话的珍贵机遇。
梵蒂冈安插在Anthropic的内线:教皇与AI的隐秘博弈
教皇利奥十四世虽无力解除AI的武装,但他已让整个行业为之侧目。本文深入揭秘梵蒂冈如何通过一位内部人士渗透进顶级AI公司Anthropic,试图在人工智能的伦理狂潮中注入神学智慧——从宪法AI到天主教的自然法,一场关于控制权与灵魂的暗流正在硅
这家AI芯片初创公司获1.35亿美元融资,押注瓶颈是内存而非算力
韩国芯片初创公司XCENA近日完成1.35亿美元B轮融资,投资方包括多家顶级风投和半导体巨头。该公司认为,当前AI发展的最大瓶颈并非算力不足,而是内存瓶颈——传统架构下GPU与内存之间的数据搬运速度远跟不上计算单元的吞吐能力。XCENA押注
新工艺解锁全球锂资源,埃博拉防控获突破
MIT Technology Review本期《每日下载》聚焦两项重大科技进展:一种新型锂提取工艺有望大幅降低电动汽车关键材料的成本与碳排放,同时埃博拉病毒防控研究取得新突破。本文深度解析锂提取技术的革新意义、行业背景及潜在影响。
教皇通谕《伟大的仁爱》:个人应对AI时代的行动指南
教皇利奥十四世发布关于人工智能的新通谕《伟大的仁爱》(Magnifica Humanitas),其核心论断“技术永远不是中立的”引发科技界与政策制定者高度关注。通谕呼吁人们在AI深刻变革时代中,以勇气和团结行动,为个人参与技术伦理构建提供了
深度横评
查看全部 →DeepSeek V4 Pro Smoke测试主榜暴涨48.7,工程判断却暴跌28.4
DeepSeek V4 Pro今日Smoke评测主榜从39.26跃升至87.99,代码执行从20分直接拉满至100分,但工程判断从38.4暴跌至10分,诚信评级从fail转为warn。单日10题快测波动是否反映真实能力变化,值得关注。
Claude Sonnet 4.6主榜91.77断层领先,GPT-o3执行50分直接垫底
今日Smoke评测显示Claude Sonnet 4.6以91.77分登顶,代码执行满分、材料约束81.7分;GPT-o3执行仅50分垫底11名;DeepSeek V4 Pro诚信评级突降为fail,11模型中仅3个pass。
豆包 Pro 代码执行暴跌80分 主榜单日掉41.2
豆包 Pro 主榜从81.33暴跌至40.12,代码执行单维度从100直接归零至20,材料约束小涨6.2分。单日抽签波动还是真实能力退化,需要重点关注。
WDCD 守约排行
#1
Qwen3 Max
72.5
#2
Claude Sonnet 4.6
65
#3
DeepSeek V4 Pro
62.5
#4
Gemini 2.5 Pro
60
#5
GPT-5.5
60
#6
Claude Opus 4.7
57.5
#7
GPT-o3
57.5
查看完整守约排行 →
Research Lab
WDCD Run #135: Qwen3 Max Leads with Only 10% Instruction Decay as Field Average Hits 43.3%
WDCD Run #135 (2026-05-27) evaluated 11 large language models across three dialogue rounds, finding
3大模型翻译对决:第22周质量评测,gpt-o3 以 8.3 分领跑
本周共翻译 237 篇文章,覆盖 3 个AI模型。经抽样盲评,gpt-o3 综合得分最高(8.3/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
WDCD Run #125: Average Instruction Decay Hits 63.6%, Claude Opus 4.7 Leads with Only 30% Drop
WDCD Run #125 (2026-05-20) tested 11 large language models on multi-turn commitment integrity, with