赢政 AI 评测 — AI 模型评测、行业资讯与深度研究
赢政指数
完整排行榜 →
#1
Gemini 2.5 Pro 79
▲29.7
·
#2
Claude Opus 4.7 78.8
▼3.1
·
#3
豆包 Pro 78.8
▼2.8
·
#4
Grok 4 78.4
▼5.3
·
#5
GPT-5.5 78.2
▼1.2
·
#6
Claude Sonnet 4.6 78
▼3.2
·
#7
Qwen3 Max 77.7
▼3.1
·
#8
Gemini 3.1 Pro 77.1
▲24.3
·
#9
DeepSeek V4 Pro 76.9
▼4.2
·
#10
GPT-o3 75.9
▼2.6
·
#11
文心一言 4.5 61.7
▼12.5
·
▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1
·
#1
Gemini 2.5 Pro 79
▲29.7
·
#2
Claude Opus 4.7 78.8
▼3.1
·
#3
豆包 Pro 78.8
▼2.8
·
#4
Grok 4 78.4
▼5.3
·
#5
GPT-5.5 78.2
▼1.2
·
#6
Claude Sonnet 4.6 78
▼3.2
·
#7
Qwen3 Max 77.7
▼3.1
·
#8
Gemini 3.1 Pro 77.1
▲24.3
·
#9
DeepSeek V4 Pro 76.9
▼4.2
·
#10
GPT-o3 75.9
▼2.6
·
#11
文心一言 4.5 61.7
▼12.5
·
▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1
·
最新资讯
查看全部 →DuckDuckGo推“无AI”扩展,流量暴增下更易触及
在人工智能搜索引擎浪潮席卷全球之际,注重隐私的替代搜索引擎DuckDuckGo反其道而行,正式推出面向Chrome和Firefox的“无AI”网页扩展。该扩展旨在为用户提供无需AI干预的纯净搜索体验,而近期DuckDuckGo流量激增,也反
中国脑机接口新突破:世界首款侵入式芯片获批
中国已批准全球首款侵入式脑机接口芯片的人体试验,标志着这一领域迈入新纪元。去年10月,河南的董辉成为首批尝试者之一。本文深度解析该技术的突破意义、与Neuralink的竞争格局,以及面临的伦理挑战。
英特尔新AI芯片:更便宜、散热更优,超越英伟达AMD
英特尔宣布其下一代AI芯片“Crescent Island”将采用风冷设计并搭载LPDDR5内存,主打更低成本和更优散热性能,意图在AI训练与推理市场挑战英伟达和AMD的现有产品。本文编译自Ars Technica,深入解析该芯片的技术特点
中国批准全球首个侵入式脑机接口芯片,下一步是什么?
去年10月,河南男子董辉在自家院中尝试握笔写字。六年前一场车祸让他颈部以下瘫痪,但借助中国自主研发的侵入式脑机接口芯片NEO,他成功用意念控制手臂,写下自己的名字。这一里程碑背后是脑虎科技与清华大学的合作成果,也标志着中国在脑机接口领域迈出
OpenAI模型攻克80年未解数学难题
本文介绍了OpenAI最新AI模型如何解决一个困扰数学界80多年的经典问题——Collatz猜想。作者通过深入浅出的方式,比OpenAI官方更清晰地解读了模型的推理过程和方法论,探讨了AI在纯数学研究中的潜力和局限,并加入了行业背景与编者分
挪威大西洋航空超低价机票藏玄机:技术客服遭投诉
数十名乘客向美国联邦贸易委员会投诉挪威大西洋航空,称其过度依赖技术客服,导致退款困难,数千美元打水漂。这家以超低价著称的航司,正因忽视人工服务而引发信任危机。本文分析其商业模式背后的风险,并探讨航空业技术客服的局限性。
AI重塑游戏开发:从概念到发布的全面变革
谷歌云调查显示,90%的游戏开发者已将AI融入日常工作;仅2025年,Steam平台上就有7818款游戏主动披露使用AI技术,同比增长681%。人工智能不再只是游戏开发的边缘实验,而是正在重构从概念设计到最终发布的整个管线。这一趋势看似突然
外汇机器人评测:自动化交易的未来
自动化正逐渐改变金融市场运作方式,外汇交易尤为显著。随着技术进步,越来越多交易者寻求无需长时间盯盘的交易方案。本文基于最新外汇机器人评测,探讨自动化交易工具如何重塑市场规则,分析其优势、风险与未来趋势,帮助投资者在智能交易浪潮中做出明智选择
软银750亿欧元法国AI数据中心计划,欧洲基础设施扩张进入新阶段
软银集团宣布计划投资750亿欧元在法国建设欧洲最大规模AI数据中心,以支持全球人工智能基础设施需求。CEO孙正义强调法国在AI领域的雄心,此举正值全球数据中心建设热潮。项目将推动法国成为欧洲AI枢纽,同时引发对能源消耗和地缘技术竞争的关注。
阿里巴巴Qwen 3.7-Max发布:价格仅Claude六分之一,AI性价比优势凸显
阿里巴巴正式推出Qwen 3.7-Max模型,以仅为Claude六分之一的价格提供强大性能,支持长达35小时自主运行和千次工具调用。该产品发布凸显中国AI在成本效益上的显著优势,引发中外模型对比热议,中文社区讨论活跃,预示全球AI竞争进入新
OpenAI模型破解80年前Erdős几何猜想:125页AI证明获数学界认可
OpenAI最新模型自主完成了对Erdős提出的几何猜想的证明,生成长达125页的新证明文件,并获得专业数学家的验证。这一成果被视为AI在纯数学领域的重要里程碑,展示了其通用推理能力的显著提升,在社交媒体X上引发广泛讨论。事件凸显了AI从辅
NVIDIA RTX Spark芯片震撼发布:AI代理本地推理引领PC新纪元
NVIDIA近日推出首款专为AI代理设计的RTX Spark芯片,支持在本地PC上运行强大AI模型,无需依赖云端服务。微软、Adobe等巨头合作重构软件生态,黄仁勋强调AI将创造更多工程师岗位。该产品互动量极高,标志着AI计算从云端向边缘设
深度横评
查看全部 →Smoke评测:Claude Sonnet 4.6 99.78分断层领先,GPT系列集体卡在74分
今日Smoke轻量评测显示,Claude Sonnet 4.6以主榜99.78分(执行100,约束99.5)继续领跑,DeepSeek V4 Pro与Gemini 3.1 Pro并列第二。GPT-5.5、GPT-o3、Grok 4等7个模型
Gemini 3.1 Pro暴涨14.2分 WDCD五模型全升零下滑
本轮WDCD测试5模型全线上涨,Gemini 3.1 Pro+14.2分领跑,豆包Pro+11.7分紧随,无一下滑。Qwen3 Max仍居榜首,显示上下文约束保持能力正成新竞争焦点。
资源限制场景全员崩盘!WDCD测试11模型平均仅1.95分
资源限制成为WDCD五大场景中最难的维度,11模型平均仅1.95分。doubao-pro在业务规则拿下3.17分,却在资源限制跌至1.33分,差距达1.84分。gemini-3.1-pro和qwen3-max在安全合规并列3.5分,展现最强
WDCD 守约排行
#1
Qwen3 Max
70.8
#2
Claude Sonnet 4.6
66.7
#3
Gemini 3.1 Pro
66.7
#4
GPT-o3
65
#5
Claude Opus 4.7
64.2
#6
DeepSeek V4 Pro
64.2
#7
Gemini 2.5 Pro
64.2
查看完整守约排行 →
Research Lab
3大模型翻译对决:第23周质量评测,gpt-o3 以 9 分领跑
本周共翻译 270 篇文章,覆盖 3 个AI模型。经抽样盲评,gpt-o3 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
WDCD Run #140: Qwen3 Max Leads with 17% Instruction Decay as Average Hits 36.5%
WDCD Run #140 (2026-05-31) evaluated 11 frontier models on multi-turn commitment integrity, finding
WDCD Run #135: Qwen3 Max Leads with Only 10% Instruction Decay as Field Average Hits 43.3%
WDCD Run #135 (2026-05-27) evaluated 11 large language models across three dialogue rounds, finding