谁涨了,谁跌了
单次爆发不算数。我们更关心连续表现有没有变。
本周变化最大的是 Claude Sonnet 4.6(+5)和 GPT-4o(-18.7)。超过 1 个标准差的变化才会标记为统计显著。
看完整变化报告
最大涨幅
Claude Sonnet 4.6
+5
+5
最大跌幅
GPT-4o
-18.7
-18.7
事故报告
本周 2 起
价格变化
0 项更新
别只看总分,看你要拿它干什么
推荐第一
豆包 Pro
90.6 分
第二选择
DeepSeek V3
90.5 分
第三选择
Claude Sonnet 4.6
88 分
推荐第一
Claude Opus 4.6
48.8 分
第二选择
Grok 3
48.8 分
第三选择
Claude Sonnet 4.6
46 分
推荐第一
Grok 3
79.2 分
第二选择
DeepSeek R1
79 分
第三选择
DeepSeek V3
78.3 分
推荐第一
DeepSeek V3
91.1 分
第二选择
文心一言 4.0
90.9 分
第三选择
豆包 Pro
87 分
推荐第一
Claude Sonnet 4.6
54.3 分
第二选择
豆包 Pro
53.9 分
第三选择
Claude Opus 4.6
53.9 分
今天值得看的,不止热闹
我们只放会影响能力、价格、稳定性和选型判断的内容。
资讯
黑客散布Claude代码泄露,还捆绑恶意软件
黑客正在网络上传播Anthropic Claude AI模型的源代码泄露文件,并恶意附赠木马病毒,诱导下载者感染设备。同时,FBI警告其窃听工具遭黑客入侵构成国家安全威胁;攻击者窃取Cisco源代码,作为持续供应链攻击的一部分。此事件凸显AI安全与供应链漏洞的双重危机,专家呼吁加强代码防护与情报共享。(128字)
资讯
Anthropic私人市场风头正劲,SpaceX IPO或搅局
Rainmaker Securities总裁Glen Anderson表示,私人股份二级市场从未如此活跃,Anthropic成为最热门交易标的,OpenAI逐渐失势,而SpaceX即将IPO可能重塑整个格局。这一趋势反映出AI投资热潮转向更注重安全与稳定的公司,私人市场估值飙升,但SpaceX的公开上市或将分流资金,影响AI独角兽的流动性与定价。
资讯
苹果联邦学习黑科技:零数据访问下AI性能飙升3倍?隐私铁壁还是商业烟雾弹?
苹果4月4日发布AI/ML博客,推出新联邦学习技术,在不访问用户数据前提下显著提升设备端AI性能。福布斯与金融时报热议其隐私与性能双赢,但可扩展性和独立验证存疑。本文剖析技术深层机制、对国内AI企业的启示,并给出独立判断:这不仅是隐私突破,更是边缘AI范式重塑的关键一环。(98字)
资讯
Llama 4开源炸场!68%好评狂潮下32%痛点爆发:体积超200GB,Meta真推AI民主化还是藏新坑?
Meta AI于4月3日在Hugging Face发布Llama 4开源模型,68%社区好评聚焦免费部署与自定义优势,32%担忧模型体积过大(超200GB)。本文剖析体积隐忧深层成因:训练效率瓶颈与压缩缺失;评估闭源差距与部署成本;对中小企业及国内生态的借鉴。winzheng.com判断:短期利器,长期需警惕承诺可持续性,推动真正技术普惠。(98字)
资讯
4月4日黑客曝光Replika用户私密聊天:情感AI隐私崩盘,10万用户数据命悬一线?
4月4日,黑客公布Replika AI伴侣App部分用户聊天记录,公司承认未经授权访问事件。用户舆论分裂:支持者视情感价值为救赎,反对者忧隐私灾难。winzheng.com分析揭示深层技术隐患,呼吁AI情感应用转向隐私优先架构,对国内产品敲响警钟。(98字)
资讯
OpenAI董事会大洗牌:4月3日邮件泄露曝光,微软影响力暴增or AGI安全加固?
4月3日OpenAI内部邮件泄露,揭露董事会重组计划,Sam Altman确认加强独立监督。支持者赞AGI安全升级,反对者忧微软控制增强。winzheng.com分析:此举源于OpenAI使命漂移与商业压力,行业需警惕治理失衡对AI安全的冲击。(98字)
不是所有 AI 新闻都值得看。值得看的,是会改变你判断的那几条。 看全部资讯
为什么这个榜单值得看
不是因为我们声音大,而是因为方法公开、规则固定、结果可追溯。
代码真跑
不是看起来会写就算对。我们把代码扔进沙箱里跑。跑不通,就是零分。
引用必查
长文档题不只看答案像不像,更看引用对不对。该标出处的地方,必须能对回原文。
统计定榜
不看一次发挥,看连续表现。排名按滚动均值计算,避免被单次运气带偏。
不接赞助评测
不做合作评测,不做评测前沟通,不替任何模型留面子。跑出来什么,就发什么。
AI 世界每天在变,你需要一个靠谱的信息源
每天 3 条精选,每周 1 份指数变化,重要事故和价格波动第一时间通知。免费,无广告,随时退订。
- 每日精选 — 从海量 AI 新闻里,挑 3 条真正值得看的
- 赢政指数周报 — 谁涨了谁跌了,一封邮件讲清楚
- 模型事故告警 — 你在用的模型翻车了,尽快知道
- 价格变动提醒 — API 涨价降价,别等账单来了才发现
免费 | 无广告 | 无赞助软文 | 随时退订
想看更深的拆解,再往下走
排行榜回答'谁更强',Research Lab 负责回答'为什么会这样'。模型安全、边缘部署、性能拆解——不是转述别人的论文,是自己跑出来的结论。
进入 Research Lab