赢政 AI 评测 — AI 模型评测、行业资讯与深度研究

赢政指数 · 每周真实沙箱评测 11 个主流模型 · 零厂商赞助 · 评分可审计 方法论 →

最新资讯

查看全部 →
资讯 06-28 06:11 NF
Flex推出JetCool液冷服务器方案 针对高密度AI工作负载
Flex旗下JetCool于2026年6月27日前24小时内发布一站式液冷服务器解决方案。该方案针对高密度AI工作负载,提供数据中心冷却性能、可靠性和部署速度的提升,直接作用于企业AI硬件基础设施建设。
资讯 06-28 06:09 NF
SpaceX官宣Starmind轨道AI数据中心 2027年发射原型机
SpaceX于2026年6月24日确认Starmind项目,计划发射搭载处理器与太阳能阵列的AI卫星,在轨完成计算而非仅传输数据。Starship单次运载30至50颗卫星,原型机定于2027年初发射,年底启动量产。该系统针对地面数据中心土地
资讯 06-28 05:59 Winzheng Lab
WDCD Run #202: Average Instruction Decay Hits -73.2% Across 11 Models, Gemini 3.1 Pro Leads
WDCD Run #202 (2026-06-28) measured multi-turn commitment integrity across 11 frontier models, recording an average inst
评测 06-28 05:59
Claude 19.8分最大增幅 WDCD八模型全线上涨无一下降
本期WDCD测试中8个模型全部上涨、零下降,Claude Opus 4.7增幅达19.8分,Gemini 3.1 Pro以93.57分登顶,Grok 4紧随其后92.86分。
评测 06-28 05:59
WDCD横评:安全合规成最大短板,11模型最高仅3.57分
WDCD五场景测试显示安全合规全体得分最低,最高仅deepseek-v4-pro 3.57/4,claude-sonnet-4.6垫底2.57/4;gemini-3.1-pro在数据边界与资源限制双4分,grok-4在业务规则独得4分,do
评测 06-28 05:59
Grok 4零崩溃碾压GPT-o3 17%崩盘 WDCD三轮衰减暴露真实韧性
WDCD三轮测试显示,R1平均确认率0.95,R2抵抗率0.82,R3平均诚信率仅1.63/2。Grok 4在R3保持1.83/2且零崩溃,而Claude Sonnet 4.6与GPT-o3各崩6次(17.1%),多约束场景成为最大崩盘诱因
评测 06-28 05:58
Gemini 3.1 Pro 93.57分 WDCD守约第一 文心一言4.5仅75.71分垫底
Gemini 3.1 Pro 以 WDCD 93.57 分位居首位,文心一言 4.5 以 75.71 分垫底。头部三名 R3 得分均超 1.69,尾部两名 R3 仅 1.34-1.54,R3 崩溃率达 8.8%。
评测 06-28 03:35
Claude Sonnet 4.6 Smoke评测主榜暴跌25.9分 代码执行从100降至50
在赢政指数2026年6月Smoke评测中,Claude Sonnet 4.6主榜从96.45分跌至70.52分,代码执行维度从100.00直接腰斩至50.00。材料约束反而小幅上升3.5分,工程判断保持满分,诚信评级维持pass。
评测 06-28 03:35
Claude Opus 4.7代码执行从100暴跌至50 主榜单日掉25.7分
赢政指数今日Smoke评测中,Claude Opus 4.7代码执行从100.00分跌至50.00分,主榜从97.12分降至71.47分,单日暴跌25.7分。材料约束小幅回升,工程判断和任务表达保持高位,诚信评级仍为pass。
评测 06-28 03:35
赢政指数Smoke周报:文心一言4.5下滑37.2分,多模型波动超28
2026-W26 Smoke日测数据显示,文心一言4.5从98.74跌至61.52,趋势-37.2;Claude Sonnet 4.6、Claude Opus 4.7波动分别达28.4和28.5。豆包Pro持平,诚信评级改善模型仅两家。数据
评测 06-28 03:35
豆包Pro 98.61分登顶 Smoke评测,Claude执行-50分暴跌
2026-06-28 Smoke评测中,豆包Pro以执行100分、约束96.9分拿下主榜98.61分首位。Claude Opus 4.7与Sonnet 4.6执行从昨日100分骤降至50分,主榜分别下跌25.7分和25.9分。Gemini
苹果Vision Pro负责人跳槽OpenAI,硬件野心再升级
资讯 06-28 02:15 TC
苹果Vision Pro负责人跳槽OpenAI,硬件野心再升级
据报道,苹果负责Vision Pro头显的副总裁Paul Meade即将离职,加入OpenAI的硬件团队。这一人事变动引发行业广泛关注,标志着OpenAI在拓展硬件领域迈出重要一步,同时也让苹果的混合现实业务未来充满变数。本文深度分析此次跳