赢政 AI 评测 — AI 模型评测、行业资讯与深度研究
赢政指数
完整排行榜 →
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +80.9 · ▼ DeepSeek V3 -75.1
·
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +80.9 · ▼ DeepSeek V3 -75.1
·
最新资讯
查看全部 →错抓无辜者:美国最古老警方人脸识别工具失效
美国公民自由联盟(ACLU)起诉佛罗里达州两个警察局,指控在一起儿童绑架案中,警方将面部识别系统的错误匹配视为确凿证据,导致一名无辜男子被捕。这起事件暴露了美国最古老的面部识别工具之一的严重缺陷,也再次引发了对执法中AI技术可靠性的广泛质疑
华纳音乐收购AI归因初创公司Sureel AI
华纳音乐集团(WMG)近日宣布收购AI归因初创公司Sureel AI,旨在更精准地追踪其旗下艺术家的作品在AI生成内容或训练AI模型中的使用情况。随着生成式AI的爆发,音乐版权归属与补偿问题日益尖锐,这一收购标志着传统唱片公司正加速布局AI
SpaceX IPO背后的三大硬核科技:空间数据中心是王牌
SpaceX的IPO估值中,绝大部分价值实际上相当于对公司雄心勃勃的空间数据中心计划的一份看涨期权。这一计划依赖于三个突破性硬科技:完全可重复使用的星舰运输系统、全球覆盖的星链通信网络,以及在轨数据处理与存储能力。本文深度解析这三个“登月计
前Datadog老兵创立Niteshift,押注打破AI大厂锁定
由Datadog前资深员工创立的AI编码代理初创公司Niteshift,近日宣布完成700万美元种子轮融资,投资者包括多位科技界知名天使投资人。该公司核心策略是挑战当前大模型制造商对企业的锁定效应,提供更灵活、可定制的AI编程解决方案,帮助
Anthropic Fable护栏太严?安全研究人员集体吐槽
Anthropic最新发布的Fable模型在网络安全领域引发争议。多名安全研究人员指出,该模型内置的安全护栏(guardrails)过于严格,导致无法执行基本的渗透测试、漏洞分析等任务。他们批评Anthropic过度谨慎,以安全之名牺牲了实
类固醇奥运会:文化马戏团与安全幻象
在拉斯维加斯赌场停车场耗资5000万美元建成的竞技场中,一场被称为“类固醇奥运会”的奇特赛事引发热议。这不仅是科技与药物的狂欢,更是当代文化的一面镜子。本文探讨其背后的现象,以及一种名为Mythos的“更安全”替代品如何试图重塑兴奋剂使用的
Decart Oasis 3世界模型:实时数小时照片级驾驶模拟
Decart推出Oasis 3,一款实时世界模型,能生成照片级逼真的驾驶环境用于自动驾驶测试。该模型通过API提供,允许开发者构建自定义场景。尽管模拟时长可达数小时,但当前版本在极端光照和动态遮蔽物等复杂条件下仍存在保真度波动。这一进展标志
Jedify获2400万美元融资,为AI代理注入企业业务上下文
企业AI代理平台Jedify宣布完成2400万美元融资,由Norwest领投,S Capital VC、Cerca Partners、Oceans Ventures及战略投资者Snowflake Ventures参与。这笔资金将用于加速产品
全球首个风能水下数据中心在中国启用
据WIRED报道,中国于2026年6月10日正式启动了全球首个完全依靠风能供电的海底数据中心。该项目初始容量为24兆瓦,利用深层海水作为天然冷却系统,大幅降低PUE(电能使用效率)。这一创新标志着数据中心行业向绿色低碳迈出关键一步,也为未来
谷歌Gemini潜入世界杯:阿根廷队成AI试验场
2026年世界杯即将开幕,阿根廷国家足球队将成为谷歌Gemini AI的技术试验田和展示窗口。这项合作将AI深度融入赛场分析、战术优化和球迷互动,标志着体育赛事正式步入AI驱动时代。编者分析认为,这不仅是一次科技展示,更可能重塑未来竞技体育
Meta与信实集团签署印度首个AI数据中心协议
Meta与印度信实集团签署首个AI数据中心协议,建设一座168兆瓦的设施,用于支撑Meta全球AI计算需求,并具备未来扩展能力。此举标志着Meta在印度基础设施投资的重要里程碑,也反映出全球科技巨头对印度数字经济的信心。本文编译自TechC
无基金投近5亿美元,Sabertooth创始人如何押注Anthropic和SpaceX
Justin Ernest创立的Sabertooth VC不走寻常路:没有设立传统的风投基金,而是通过一个由高净值个人和家族办公室组成的“俘虏LP网络”,在短短时间内向Anthropic、Anduril、SpaceX等明星初创公司投资了近5
深度横评
查看全部 →WDCD守约测试剧震:5模型暴跌最高12.5分,Qwen3 Max逆袭
本轮WDCD测试中,GPT-5.5与Grok 4均暴跌12.5分,5模型合计下滑,唯Qwen3 Max上涨7.5分并闯入Top3,暴露当前主流模型在多轮约束下的脆弱性。
11模型WDCD横评:资源限制全员崩盘1分,业务规则4分差距最大
资源限制场景成为最大难点,最高仅2.5分、垫底1分;业务规则区分度最高,gemini-2.5-pro与claude-opus-4.7相差2分。claude-opus数据边界3.5分却资源限制仅1.5分,gpt-o3业务规则满分却资源限制1.
R3 诚信率暴跌至 24.5%,72 次崩溃揭秘 11 模型真面目
WDCD 三轮测试显示,R1 确认率 95%、R2 抵抗率 94%,但 R3 诚信率仅 24.5%,72/110 次完全崩溃。Claude Sonnet R3 得分最高 0.70,Grok 仅 0.10。资源限制与安全合规场景最易崩盘,暴露
WDCD 守约排行
#1
Claude Sonnet 4.6
67.5
#2
Gemini 2.5 Pro
67.5
#3
Qwen3 Max
67.5
#4
GPT-o3
65
#5
Claude Opus 4.7
62.5
#6
Gemini 3.1 Pro
60
#7
GPT-5.5
57.5
查看完整守约排行 →
Research Lab
WDCD Run #157: Average Instruction Decay Hits 47.7% Across 11 Models, Three-Way Tie at the Top
WDCD Run #157 (2026-06-10) recorded a 47.7% average commitment decay across 11 models, with Claude S
3大模型翻译对决:第24周质量评测,passthrough 以 9 分领跑
本周共翻译 2425 篇文章,覆盖 3 个AI模型。经抽样盲评,passthrough 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
WDCD Run #146: Average Instruction Decay Hits 24.7% Across 11 Models, Claude Opus 4.7 and GPT-5.5 Tie at Top
WDCD Run #146 (2026-06-03) tested 11 frontier models on multi-turn commitment integrity, recording a