赢政 AI 评测 — AI 模型评测、行业资讯与深度研究
赢政指数
完整排行榜 →
#1
Claude Sonnet 4.6 83
▼0.5
·
#2
豆包 Pro 81.3
▼1.3
·
#3
Grok 4 81
▲31.8
·
#4
Claude Opus 4.7 80
▼1.1
·
#5
Gemini 2.5 Pro 79
▲0.5
·
#6
Qwen3 Max 79
▲1.8
·
#7
GPT-o3 78.3
▲2.6
·
#8
Gemini 3.1 Pro 77.7
▼1.5
·
#9
GPT-5.5 77
▲3.8
·
#10
DeepSeek V4 Pro 76.4
▼1.3
·
#11
文心一言 4.5 67.1
▼11.1
·
▲ Qwen3 Max +68.5 · ▼ DeepSeek V3 -75.1
·
#1
Claude Sonnet 4.6 83
▼0.5
·
#2
豆包 Pro 81.3
▼1.3
·
#3
Grok 4 81
▲31.8
·
#4
Claude Opus 4.7 80
▼1.1
·
#5
Gemini 2.5 Pro 79
▲0.5
·
#6
Qwen3 Max 79
▲1.8
·
#7
GPT-o3 78.3
▲2.6
·
#8
Gemini 3.1 Pro 77.7
▼1.5
·
#9
GPT-5.5 77
▲3.8
·
#10
DeepSeek V4 Pro 76.4
▼1.3
·
#11
文心一言 4.5 67.1
▼11.1
·
▲ Qwen3 Max +68.5 · ▼ DeepSeek V3 -75.1
·
最新资讯
查看全部 →试戴Amazon Bee:AI便利与隐私焦虑的诡异结合
Amazon最新推出的AI可穿戴设备Bee,以其独特的设计和功能引发了广泛关注。作者在亲身体验后,感受到了前所未有的便利——随时随地的语音助手、实时翻译、环境感知等,但同时也被一种挥之不去的隐私担忧所困扰。就像蜜蜂在花丛中采蜜,Bee也在不
旧金山田德隆区:机器人接手非营利组织餐食制作
在旧金山最混乱的街区田德隆区,一家非营利组织因志愿者短缺转而采用机器人餐食制备技术。这套系统由创业公司打造,能自动完成切菜、烹饪和分装,每天可产出数千份餐食。尽管机器人无法完全取代人情味,但它们在缓解人力危机、确保食品卫生和效率方面展现了巨
Anthropic Claude Mythos模型安全隐患曝光 专家警示公开风险
Anthropic最新Claude Mythos模型被曝可利用超万软件漏洞,引发网络安全界强烈关注。专家指出该模型潜在危险性高,不宜公开使用。事件迅速发酵,行业内外就AI模型安全性展开激烈辩论,Anthropic面临监管与信任双重压力。文章
OpenAI正式提交S-1文件计划IPO,AI公司从非营利转向上市之路加速
OpenAI已正式向美国SEC提交S-1注册文件,标志着这家AI巨头从非营利组织向上市公司转型的重大一步。此举引发与Anthropic估值的对比讨论,凸显AI企业资本化进程的加速。文章分析其融资背景、行业影响及未来展望。
特朗普暂缓AI行政命令 Musk与Zuckerberg关键劝说引发政策争议
特朗普在Musk和Zuckerberg劝说下暂缓签署AI监管行政命令,担忧此举会削弱美国对华科技竞争力。David Sacks的干预成为焦点,行业内外对监管与创新平衡展开激烈讨论,政策走向仍存不确定性。
Hark获7亿美元Series A融资 估值达60亿美元
AI硬件初创公司Hark于2026年5月21日宣布完成7亿美元Series A融资,估值60亿美元,由Parkway Venture Capital领投,Nvidia、AMD Ventures等多方跟投。创始人Brett Adcock此前创
安德鲁·吴批白宫绿卡新政 将削弱美国AI人才竞争力
2026年5月22日,Andrew Ng在X平台发文批评白宫新绿卡政策,要求申请人从境外提交申请。他指出此举将伤害家庭、减少医生、教师和科学家数量,并损害美国在AI领域的竞争力。多位科技界人士随后跟进讨论。该政策可能加剧全球AI人才争夺,硅
GPT-o3代码执行暴跌42.5分,主榜单日崩18分
GPT-o3今日Smoke评测主榜从76.05跌至58.08,代码执行从90.00直接腰斩至47.50,工程判断也从50跌到10。单日抽题波动虽属正常,但这一量级的断崖式下跌已超出随机范围,值得重点追踪。
GPT-5.5 逆袭29.7分 GPT-o3 暴跌36.4分:2026 W21 Smoke 七日趋势
GPT-5.5 本周 Smoke 成绩从60.58飙升至90.3,涨幅29.7分领跑;GPT-o3 则从94.51 断崖下跌至58.08,降幅36.4分最惨。Gemini 2.5 Pro 波动61.1分暴露一致性问题,DeepSeek V4
GPT-o3主榜暴跌18分,豆包Pro一日暴涨35.8逆袭前五
今日Smoke轻量评测显示,GPT-o3主榜暴跌18分至58.08,执行分直接腰斩;豆包Pro、Gemini 3.1 Pro分别暴涨35.8和34.7分,快速挤入前五。GPT-5.5以90.3继续领跑,文心一言诚信评级降至warn。
法拉利联手IBM,用AI打造F1超级粉丝
一级方程式赛车的粉丝体验正在被AI重塑。法拉利车队携手IBM,利用人工智能技术分析海量比赛数据、生成个性化内容,甚至让粉丝在虚拟世界中与车手互动。TechCrunch独家探访这场科技与赛车文化的深度融合。
马斯克放弃地球太阳能:全力押注天然气与太空数据中心
埃隆·马斯克旗下xAI全力押注天然气发电,而SpaceX则痴迷于轨道数据中心。这与他曾经承诺的“太阳能电力经济”背道而驰。从AI算力饥渴到太空基础设施,马斯克的能源战略转向折射出清洁能源理想与现实商业逻辑之间的深刻矛盾。本文编译自TechC
深度横评
查看全部 →GPT-o3代码执行暴跌42.5分,主榜单日崩18分
GPT-o3今日Smoke评测主榜从76.05跌至58.08,代码执行从90.00直接腰斩至47.50,工程判断也从50跌到10。单日抽题波动虽属正常,但这一量级的断崖式下跌已超出随机范围,值得重点追踪。
文心一言4.5工程判断从50暴跌至10,主榜却逆涨14.5
文心一言4.5今日Smoke评测工程判断从50降至10、任务表达降20分,但材料约束暴涨24.7拉动主榜升至88.48,诚信从fail升至warn,单日抽签波动可能是主因。
GPT-5.5 逆袭29.7分 GPT-o3 暴跌36.4分:2026 W21 Smoke 七日趋势
GPT-5.5 本周 Smoke 成绩从60.58飙升至90.3,涨幅29.7分领跑;GPT-o3 则从94.51 断崖下跌至58.08,降幅36.4分最惨。Gemini 2.5 Pro 波动61.1分暴露一致性问题,DeepSeek V4
WDCD 守约排行
#1
Claude Opus 4.7
65
#2
Claude Sonnet 4.6
62.5
#3
豆包 Pro
60
#4
Gemini 2.5 Pro
57.5
#5
Qwen3 Max
57.5
#6
GPT-o3
55
#7
文心一言 4.5
52.5
查看完整守约排行 →
Research Lab
WDCD Run #125: Average Instruction Decay Hits 63.6%, Claude Opus 4.7 Leads with Only 30% Drop
WDCD Run #125 (2026-05-20) tested 11 large language models on multi-turn commitment integrity, with
3大模型翻译对决:第21周质量评测,gpt-o3 以 8.7 分领跑
本周共翻译 242 篇文章,覆盖 3 个AI模型。经抽样盲评,gpt-o3 综合得分最高(8.7/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
WDCD Run #120: Average Instruction Decay Hits 35.2% Across 11 Models, GPT-5.5 Leads at -13%
WDCD Run #120 (2026-05-17) measured multi-turn commitment across 11 frontier models, recording an av