赢政 AI 评测 — AI 模型评测、行业资讯与深度研究
赢政指数
完整排行榜 →
#1
Gemini 2.5 Pro 79
▲29.7
·
#2
Claude Opus 4.7 78.8
▼3.1
·
#3
豆包 Pro 78.8
▼2.8
·
#4
Grok 4 78.4
▼5.3
·
#5
GPT-5.5 78.2
▼1.2
·
#6
Claude Sonnet 4.6 78
▼3.2
·
#7
Qwen3 Max 77.7
▼3.1
·
#8
Gemini 3.1 Pro 77.1
▲24.3
·
#9
DeepSeek V4 Pro 76.9
▼4.2
·
#10
GPT-o3 75.9
▼2.6
·
#11
文心一言 4.5 61.7
▼12.5
·
▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1
·
#1
Gemini 2.5 Pro 79
▲29.7
·
#2
Claude Opus 4.7 78.8
▼3.1
·
#3
豆包 Pro 78.8
▼2.8
·
#4
Grok 4 78.4
▼5.3
·
#5
GPT-5.5 78.2
▼1.2
·
#6
Claude Sonnet 4.6 78
▼3.2
·
#7
Qwen3 Max 77.7
▼3.1
·
#8
Gemini 3.1 Pro 77.1
▲24.3
·
#9
DeepSeek V4 Pro 76.9
▼4.2
·
#10
GPT-o3 75.9
▼2.6
·
#11
文心一言 4.5 61.7
▼12.5
·
▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1
·
最新资讯
查看全部 →AI生成诉讼潮与数据中心虚拟电厂
美国联邦法官正面临大量AI生成的诉讼文件,识别工作变得愈发困难。同时,为应对数据中心日益增长的电力需求,科技公司开始探索虚拟电厂方案,通过聚合灵活负载参与电力市场。本期《The Download》周刊聚焦这两大技术趋势,探讨其对社会和法律体
年费6.5万美元的“非学校”:Alpha School纽约分校揭秘
AI教育公司Alpha School在曼哈顿开设高端“学习中心”,年收费6.5万美元,却声称不是学校。内部文件显示其扩张策略以“开放日期优先于安全”为核心,引发对AI辅导机构监管漏洞的担忧。本文深度解析这一模式背后的商业逻辑与潜在风险。
贝佐斯押注5亿美元,追猎大脑核心算法
杰夫·贝佐斯通过其风投基金向Flourish公司注资5亿美元,这家估值25亿美元的初创企业试图通过显微镜下研究真实神经元来重塑人工智能。Flourish的使命是破解大脑的“核心算法”,这一探索可能彻底颠覆现有AI范式,引发科技界对生物智能与
法院如何应对AI生成诉讼的洪流
科罗拉多州联邦治安法官Maritza Braswell每天要审阅大量由无律师代表当事人提交的文件,其中不少出自AI之手。这些AI生成的诉讼文件质量参差不齐,有的充满法律术语的幻觉,有的逻辑混乱,给司法系统带来新的挑战。法院正尝试通过AI检测
量子计算公司的上市时刻:亏损也挡不住资本热情
量子计算初创公司Quantinuum虽然目前仍在亏损,但其即将进行的IPO却吸引了大量投资者的目光。这一现象折射出整个量子计算行业正在迎来公共市场的关键时刻——尽管技术商业化路途遥远、盈利模式尚不清晰,但资本已经迫不及待地押注未来。本文深入
AI代理成科技热议焦点:多模态与企业自动化间的兴奋与现实鸿沟
近期X平台上,AI代理(AI Agents)迅速成为科技讨论的最热话题。从多模态能力扩展到企业级自动化应用,业界充满期待,但现实中技术成熟度、部署挑战与实际效果之间仍存在明显差距。本文将客观分析这一趋势的背景、核心进展及其对产业的影响,帮助
Alphabet 筹集 850 亿美元加码 AI,Google 业务迎来资本新高潮
Alphabet 宣布以创纪录规模筹集 850 亿美元资金,专项投入 Google AI 业务发展。此举凸显资本对人工智能领域的持续高投入,预计将加速模型训练、基础设施建设及产品落地,同时加剧与微软、OpenAI 等竞争对手的角力。行业观察
xAI因Grok生成性化图像遭英国议员起诉 引发AI内容安全争议
英国议员近日起诉xAI公司,指控其AI模型Grok生成性化图像,引发关于人工智能伦理与内容安全的广泛讨论。该案件可能对AI行业监管产生深远影响,凸显技术发展与社会责任之间的平衡挑战。
台积电CEO看好AI芯片需求 半导体产业迎来强劲增长周期
台积电首席执行官表示,人工智能芯片需求持续强劲,未来几年增长前景乐观,此言论推动半导体相关股票上涨,成为过去24小时AI行业焦点。文章深入分析TSMC在AI领域的布局、对全球供应链的影响以及行业未来趋势。
AI泡沫担忧重现互联网泡沫:微软与OpenAI循环营收模式引市场争议
近期科技圈大V热议AI是否存在泡沫,指出微软与OpenAI之间的循环营收模式与dot-com时代高度相似,引发股市波动与行业广泛讨论。文章客观分析双方商业逻辑、潜在风险及对投资者的影响,强调需理性看待AI发展,避免盲目乐观或恐慌。
Cloudflare报告:AI代理流量首超人类,互联网未来或迎剧变
Cloudflare最新数据显示,AI代理生成的网络流量首次超过人类用户,远超此前预测。这一现象引发行业广泛讨论,Cloudflare CEO Matthew Prince等大V积极参与,探讨agentic AI的快速增长及其对互联网架构、
OpenAI与Anthropic联名致信,呼吁加强合成DNA追踪防生物武器
领先的AI实验室、企业高管和科学家联合向立法者致信,敦促改进对可能用于生物武器的合成DNA序列的追踪。这封信由OpenAI、Anthropic等机构签署,强调AI技术滥用风险日益严峻,需立即建立全球性监控机制,防止恶意利用合成生物学制造生物
深度横评
查看全部 →Smoke快测:文心一言4.5与Grok 4并列99.24,GPT-5.5执行分仅50
今日Smoke轻量评测显示文心一言4.5与Grok 4并列主榜99.24分,执行维度双双满分。GPT-5.5执行分骤降至50分,主榜仅59.99,垫底明显。其他9个模型执行均保持100分,差距仅来自材料约束。
Grok 4暴涨10.8分碾压,Qwen3 Max暴跌10.8 WDCD周期大洗牌
Run #141中Grok 4+10.8、GPT-5.5+9.2大幅上升,Qwen3 Max-10.8、DeepSeek V4 Pro-6.7显著下滑,Claude Opus 4.7重返并列第一,揭示prompt敏感度与模型更新对守约能力的
WDCD横评揭秘:资源限制成11模型最大死穴,平均仅1.7分
WDCD五场景测试显示,资源限制整体得分最低(冠军仅2.5分),区分度最高;doubao-pro业务规则满分却在资源限制垫底1分,claude-opus-4.7安全合规3.5分却资源限制仅1.5分,暴露严重偏科。
WDCD 守约排行
#1
Claude Opus 4.7
70
#2
GPT-5.5
70
#3
GPT-o3
70
#4
Claude Sonnet 4.6
67.5
#5
Gemini 2.5 Pro
67.5
#6
豆包 Pro
62.5
#7
Gemini 3.1 Pro
62.5
查看完整守约排行 →
Research Lab
WDCD Run #146: Average Instruction Decay Hits 24.7% Across 11 Models, Claude Opus 4.7 and GPT-5.5 Tie at Top
WDCD Run #146 (2026-06-03) tested 11 frontier models on multi-turn commitment integrity, recording a
3大模型翻译对决:第23周质量评测,gpt-o3 以 9 分领跑
本周共翻译 270 篇文章,覆盖 3 个AI模型。经抽样盲评,gpt-o3 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
WDCD Run #140: Qwen3 Max Leads with 17% Instruction Decay as Average Hits 36.5%
WDCD Run #140 (2026-05-31) evaluated 11 frontier models on multi-turn commitment integrity, finding