赢政 AI 评测 — AI 模型评测、行业资讯与深度研究
赢政指数
完整排行榜 →
#1
Claude Opus 4.7 89.3
▼1.3
·
#2
DeepSeek V4 Pro 88.8
▼3.5
·
#3
Grok 4 85
▼4.9
·
#4
GPT-o3 83.4
▼7.1
·
#5
Claude Sonnet 4.6 83
▲1.2
·
#6
Gemini 3.1 Pro 82.5
▲5.3
·
#7
豆包 Pro 81.6
▼6.5
·
#8
Qwen3 Max 81
▼6.8
·
#9
Gemini 2.5 Pro 77.9
▼4.3
·
#10
文心一言 4.5 73.2
▼8.1
·
#11
GPT-5.5 72.9
▼15.4
·
▲ Gemini 3.1 Pro +8.8 · ▼ GPT-5.5 -30.2
·
#1
Claude Opus 4.7 89.3
▼1.3
·
#2
DeepSeek V4 Pro 88.8
▼3.5
·
#3
Grok 4 85
▼4.9
·
#4
GPT-o3 83.4
▼7.1
·
#5
Claude Sonnet 4.6 83
▲1.2
·
#6
Gemini 3.1 Pro 82.5
▲5.3
·
#7
豆包 Pro 81.6
▼6.5
·
#8
Qwen3 Max 81
▼6.8
·
#9
Gemini 2.5 Pro 77.9
▼4.3
·
#10
文心一言 4.5 73.2
▼8.1
·
#11
GPT-5.5 72.9
▼15.4
·
▲ Gemini 3.1 Pro +8.8 · ▼ GPT-5.5 -30.2
·
赢政指数 · 每周真实沙箱评测 11 个主流模型 · 零厂商赞助 · 评分可审计 方法论 →
最新资讯
查看全部 →
特朗普AI重设计政府网站,效果令人堪忧
特朗普政府启动的国家设计工作室计划用AI重塑所有.gov网站,但一年过去,不仅进度拖延,生成的界面更是充满诡异的图像、错乱的布局和侵犯版权的素材。专家批评这一举措缺乏用户调研与专业审美,沦为政治噱头。本文深度解析这一计划背后的技术困境与政策
Anthropic推出Claude Science:不靠新模型,用工作流征服科学家
Anthropic最新发布Claude Science,一个专为科学家打造的计算研究工作台。它并非以新模型取胜,而是通过整合数据库、管道和工具于单一环境,消除科研人员在多个平台间跳转的痛点。这一工具体现了AI辅助科研的新方向:用工作流优化替
圆桌讨论:长寿新前沿——‘重编程’你的身体
随着数十亿美元涌入逆转衰老的研究,科学家们正在探索如何让细胞回到更年轻的状态。但这些实验性治疗距离现实有多远?它们真的能奏效吗?MIT Technology Review 的圆桌讨论深入探讨了长寿领域的新焦点,科学编辑 Mary Beth
Anthropic发布Claude Sonnet 5:以更低成本赋能AI代理
Anthropic推出Claude Sonnet 5,强化代理能力并降低价格,定位为Opus、GPT-5.5和Gemini Pro的性价比替代方案。该模型在安全性上也有显著提升,旨在推动企业级AI代理的普及。
AI芯片新贵Etched估值50亿美元,斩获10亿订单叫板英伟达
英伟达在AI芯片领域的统治地位正面临新挑战:初创公司Etched宣布其推理专用芯片已获得10亿美元合同,公司估值飙升至50亿美元。这笔巨额订单表明,在AI推理这一快速增长的市场中,定制化硬件正成为巨头之外的有力选择。Etched声称其芯片在
亚马逊10亿美元FDE组织面世,紧跟OpenAI和Anthropic
亚马逊宣布成立新的10亿美元FDE组织(前沿部署工程),工程师将直接嵌入企业客户团队,为其部署专用AI代理。该计划强调快速迭代和客户自给自足能力,旨在帮助企业在不依赖外部专家的情况下自主维护和优化AI系统。此举紧随OpenAI和Anthro
播客平台Riverside跨界玩Newsletter,AI一键生成文字版
知名远程播客录制平台Riverside宣布进军新闻通讯(Newsletter)领域,推出全新AI功能,允许用户将播客录音自动转化为格式精美的Newsletter。该功能利用AI语音转文字、摘要生成和排版技术,旨在帮助内容创作者实现跨平台分发
X推MCP服务器:AI工具接入更便捷
X平台(原Twitter)正式推出托管的MCP服务器,旨在简化AI应用与平台API的对接流程。此举将降低开发者集成门槛,加速AI工具在社交数据领域的创新应用,同时可能引发数据访问与隐私的新一轮讨论。
特朗普向马斯克索要SpaceX股票,欲建儿童储蓄账户
据Ars Technica报道,特朗普曾要求马斯克捐赠SpaceX股票,用于设立美国儿童储蓄账户。消息人士透露,马斯克可能正在考虑向“特朗普账户”进行大额捐款。此举引发了对政治捐款与科技巨头利益交织的广泛讨论。本文编译并深度分析该事件的背景
AI进军农业:数据短板成最大障碍
人工智能正在为农业领域带来革命性变化,但行业领导者需警惕:在数据基础尚未铺就之前盲目投资AI,可能适得其反。研究显示,AI驱动的预测模型可显著提升作物产量预测精度、优化化肥使用、应对气候波动。然而,当前农业数据的碎片化、格式不统一、历史积累
AI“同事”只是工具?别被科技公司忽悠了
AI代理正被企业包装成“数字同事”,但专家指出,它们本质上是高级工具,无法取代真实协作。本文编译自MIT Technology Review的每日时事通讯,探讨AI“同事”背后的陷阱——它们可能降低人类创造力、引发伦理争议,并带来管理混乱。
Proton隐私AI聊天机器人Lumo 2.0升级发布
主打隐私保护的科技公司Proton宣布,其AI聊天机器人Lumo将于本周推出2.0版本重大更新。新版本为用户提供了更广泛的功能,包括增强的多语言对话、联网搜索、文件处理以及与Proton生态系统的深度集成。在主流AI助手普遍存在数据隐私争议
深度横评
查看全部 →Claude Sonnet 4.6 Smoke主榜暴跌15.3分,代码执行单日掉25分
今日Smoke评测中,Claude Sonnet 4.6主榜从97.84分跌至82.52分,降幅15.3分。其中代码执行从100.00直接跌到75.00,材料约束小降3.5分,而工程判断和任务表达反而分别升10.4分和16.7分。
Claude Opus 4.7 Smoke测试主榜暴跌16分,代码执行单日掉27.2
在赢政指数今日Smoke评测中,Claude Opus 4.7主榜从100.00分跌至84.01分,代码执行维度从100.00分暴跌至72.80分,降幅达27.2分。材料约束仅降2.3分,工程判断反而上升9.1分,诚信评级维持pass。
Gemini 3.1 Pro 98.47 分登顶,Claude 执行分暴跌 27.2 后仅剩 72.8
2026-06-30 Smoke 评测显示,Gemini 3.1 Pro 以 98.47 分(执行 100、约束 96.6)排名第一。Claude Opus 4.7 执行分暴跌 27.2 至 72.8,主榜跌 16 分;文心一言 4.5 主
WDCD 守约排行
测什么:AI 在多轮对话中是否守住你最初的指令
#1
Gemini 3.1 Pro
93.6
#2
Grok 4
92.9
#3
Claude Opus 4.7
89.3
#4
DeepSeek V4 Pro
89.3
#5
Qwen3 Max
88.6
#6
Gemini 2.5 Pro
87.9
#7
豆包 Pro
81.4
查看完整守约排行 →
Research Lab
4大模型翻译对决:第27周质量评测,claude-sonnet-4.6 以 9 分领跑
本周共翻译 376 篇文章,覆盖 4 个AI模型。经抽样盲评,claude-sonnet-4.6 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
WDCD Run #202: Average Instruction Decay Hits -73.2% Across 11 Models, Gemini 3.1 Pro Leads
WDCD Run #202 (2026-06-28) measured multi-turn commitment integrity across 11 frontier models, recor
WDCD Run #196: Average Instruction Decay Hits -39.9%, Qwen3 Max Leads Despite -90% Drop
WDCD Run #196 (2026-06-24) tested 11 leading models across three dialogue rounds, recording an avera