赢政 AI 评测 — AI 模型评测、行业资讯与深度研究
赢政指数
完整排行榜 →
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +80.9 · ▼ DeepSeek V3 -75.1
·
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +80.9 · ▼ DeepSeek V3 -75.1
·
最新资讯
查看全部 →苹果WWDC AI演示:2.5亿美元和解后更显真实
在2026年WWDC主题演讲中,苹果展示了多项AI功能,从Siri升级到实时图像处理。这些演示因此前苹果就虚假广告支付2.5亿美元和解而备受关注,其真实性被格外放大。分析指出,苹果正从“画饼”转向务实,但用户仍存疑虑。
OpenAI冲刺IPO,奥特曼虹膜识别公司裁员
据TechCrunch报道,在OpenAI提交IPO申请的同时,其CEO Sam Altman联合创立的眼球扫描公司Tools for Humanity正陷入财务困境,计划进行裁员。该公司运营的Worldcoin项目采用虹膜扫描技术进行身份
苹果WWDC 2026:AI驱动Siri姗姗来迟,修复与性能成主角
在WWDC 2026主题演讲中,苹果将大量时间用于展示系统修复、性能改进和用户长期要求的功能,最后才推出升级版AI Siri。此举表明苹果希望用户将AI视为其整体软件改进的一部分,而非全部。文章分析苹果在AI领域的追赶策略,以及Siri升级
紧跟Anthropic,OpenAI秘密提交IPO申请
在竞争对手Anthropic提交IPO申请仅一周多后,OpenAI也于本周秘密向美国证券交易委员会(SEC)提交了上市申请。这一举动标志着两大AI领军企业正式进入资本市场的竞赛。分析人士认为,这不仅是两家公司融资策略的转折点,更可能重塑全球
OpenAI秘密递交IPO,紧随SpaceX与Anthropic
ChatGPT开发商OpenAI近日秘密提交了首次公开募股(IPO)文件,仅在其竞争对手Anthropic采取相同步骤一周后。此举标志着AI领域资本竞争加剧,OpenAI计划通过上市筹集数十亿美元,以支持其下一代AI模型研发及基础设施建设。
AI芯片股暴跌1.3万亿美元:就业数据引爆加息担忧,Nvidia领跌市场分歧加剧
就业数据超预期引发美联储加息担忧,Broadcom财报展望不及预期拖累半导体板块,AI与芯片股单日市值蒸发1.3万亿美元。市场对“泡沫破裂”与“获利了结”存在明显分歧,Nvidia等龙头股跌幅显著,投资者需关注后续通胀与政策信号。
OpenAI未来战略曝光:Sam Altman重申AGI造福人类,市场热议政府入股可能性
OpenAI首席执行官Sam Altman近日公布公司未来战略计划,强调人工智能技术需“造福所有人”。结合近期多起诉讼与模型迭代进展,此举引发业界对AGI发展路线的广泛讨论。市场人士猜测可能涉及政府资本入股,OpenAI的商业模式或将面临重
Nvidia AI基建全球布局加速:韩国巨头签下AI工厂大单,机器人合作深化
Nvidia近日与韩国NAVER、SK Telecom等企业签署AI工厂协议,同时Hyundai深化机器人合作,SK Hynix获得内存大单。Nvidia CEO Jensen Huang表示AI股票“非常便宜”,基础设施扩张成为全球焦点。
苹果WWDC 2026开幕:Siri全面拥抱Gemini模型,AI深度重塑iOS生态
苹果WWDC 2026于6月开幕,Siri全面采用Gemini模型重构,Photos新增AI编辑工具,Shortcuts支持智能工作流,CEO蒂姆·库克发表最后一场主题演讲。AI功能深度整合iOS生态,引发开发者与全球用户热议,标志苹果在生
苹果新Siri AI:个人化智能助手即将登场
在WWDC 2026上,苹果正式宣布对Siri进行重大革新:推出独立的Siri应用,并与Google Gemini深度合作,将生成式AI能力融入日常交互。从跨应用操作到个性化记忆,新Siri旨在成为真正的个人助手。本文编译自WIRED,带你
微软软件包再遭凭据窃取器入侵:73个包含自复制恶意代码
微软软件包仓库再次发现一批恶意软件包,共计73个。这些包在被AI代理打开时会自动运行自我复制的凭据窃取器,窃取用户登录凭证、API密钥等敏感信息。这是几周内微软软件包第二次遭此类攻击,凸显供应链安全在AI自动化时代面临的新威胁。
苹果相册AI新功能:智能重塑照片视角
苹果正在为照片应用测试一项全新的AI驱动“重构(Reframe)”功能,允许用户通过人工智能自动调整照片的构图和视角。该功能将利用空间计算和深度学习模型,智能识别主体并重新生成背景填充,实现类似专业摄影中的二次构图效果。这标志着苹果在AI影
深度横评
查看全部 →Smoke日报:GPT-5.5 92.58分登顶 材料约束19分差距决定胜负
今日Smoke轻量评测显示,GPT-5.5以92.58分(执行100、约束83.5)继续领跑,豆包Pro紧随其后92.04分。所有前九模型代码执行均满分,排名完全由材料约束拉开,最大差距达19.2分,行业焦点已从“会不会写代码”转向“敢不敢
11模型同答甩锅题:8个A>B>D>C,3个直接0分
11个模型面对同一道“项目延期甩锅”题,8个给出A>B>D>C并得60分,3个因A>B>C>D得0分。核心差异出现在D与C的顺序判断上,直接反映模型对责任归属的材料约束能力。
二叉树序列化实测:11 模型 7 满分 4 直接归零
11 模型同题实测二叉树序列化与反序列化,豆包、Qwen3、Claude 等 7 款拿下 100 分,Gemini 2.5/3.1、DeepSeek V4、GPT-5.5 四款因类封装或代码截断得 0 分。核心差距在于是否严格按函数签名输出
WDCD 守约排行
#1
Claude Opus 4.7
70
#2
GPT-5.5
70
#3
GPT-o3
70
#4
Claude Sonnet 4.6
67.5
#5
Gemini 2.5 Pro
67.5
#6
豆包 Pro
62.5
#7
Gemini 3.1 Pro
62.5
查看完整守约排行 →
Research Lab
3大模型翻译对决:第24周质量评测,passthrough 以 9 分领跑
本周共翻译 2425 篇文章,覆盖 3 个AI模型。经抽样盲评,passthrough 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
WDCD Run #146: Average Instruction Decay Hits 24.7% Across 11 Models, Claude Opus 4.7 and GPT-5.5 Tie at Top
WDCD Run #146 (2026-06-03) tested 11 frontier models on multi-turn commitment integrity, recording a
3大模型翻译对决:第23周质量评测,gpt-o3 以 9 分领跑
本周共翻译 270 篇文章,覆盖 3 个AI模型。经抽样盲评,gpt-o3 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。