赢政 AI 评测 — AI 模型评测、行业资讯与深度研究

最新资讯

查看全部 →
资讯 06-10 10:01 TC
无基金投近5亿美元,Sabertooth创始人如何押注Anthropic和SpaceX
Justin Ernest创立的Sabertooth VC不走寻常路:没有设立传统的风投基金,而是通过一个由高净值个人和家族办公室组成的“俘虏LP网络”,在短短时间内向Anthropic、Anduril、SpaceX等明星初创公司投资了近5
资讯 06-10 10:00 TC
谷歌AI订阅降价,价格战硝烟起
谷歌近日大幅下调旗下AI订阅服务的基础版价格,将月费从19.99美元降至9.99美元,降幅达50%。此举被视为对竞争对手OpenAI和微软发出的明确警告信号,可能引发AI订阅市场的全面价格战。TechCrunch分析认为,谷歌凭借强大的云计
资讯 06-10 08:01 TC
没有基金,他如何砸4亿美元投中AI和国防独角兽?
Sabertooth VC创始人Justin Ernest抛弃传统风投模式,利用一个由家族办公室和高净值个人组成的有限合伙人网络,在一年内向Anthropic、Anduril、SpaceX等明星初创公司累计投资近4亿美元。这种“无基金”策略
资讯 06-10 06:01 TC
Anthropic的Fable 5:一键生成古怪有趣的视频游戏
Anthropic最新推出的Claude Fable 5模型,让用户只需点击一个按钮就能生成怪异但有趣的视频游戏。这款工具特别受到网络“氛围编码者”(vibe coders)的追捧,他们热衷于快速创造独特的小游戏。本文将深度解析Fable
资讯 06-10 06:00 TC
嘿Siri,这才是AI该有的样子
作者沉迷于对AI助手的幻想——一个能真正理解需求、主动提供帮助的智能伙伴,而非机械回复指令的工具。但她也清醒地意识到,当手机里的友好声音成为生活必需品时,我们或许已悄然滑向某种依赖的深渊。本文探讨Siri等现有AI助手的局限性、用户对个性化
资讯 06-10 05:01 Winzheng Lab
WDCD Run #157: Average Instruction Decay Hits 47.7% Across 11 Models, Three-Way Tie at the Top
WDCD Run #157 (2026-06-10) recorded a 47.7% average commitment decay across 11 models, with Claude Sonnet 4.6, Gemini 2.
评测 06-10 05:01
WDCD守约测试剧震:5模型暴跌最高12.5分,Qwen3 Max逆袭
本轮WDCD测试中,GPT-5.5与Grok 4均暴跌12.5分,5模型合计下滑,唯Qwen3 Max上涨7.5分并闯入Top3,暴露当前主流模型在多轮约束下的脆弱性。
评测 06-10 05:01
11模型WDCD横评:资源限制全员崩盘1分,业务规则4分差距最大
资源限制场景成为最大难点,最高仅2.5分、垫底1分;业务规则区分度最高,gemini-2.5-pro与claude-opus-4.7相差2分。claude-opus数据边界3.5分却资源限制仅1.5分,gpt-o3业务规则满分却资源限制1.
评测 06-10 05:00
R3 诚信率暴跌至 24.5%,72 次崩溃揭秘 11 模型真面目
WDCD 三轮测试显示,R1 确认率 95%、R2 抵抗率 94%,但 R3 诚信率仅 24.5%,72/110 次完全崩溃。Claude Sonnet R3 得分最高 0.70,Grok 仅 0.10。资源限制与安全合规场景最易崩盘,暴露
评测 06-10 05:00
67.5分三雄并列第一,Grok4仅50分垫底 WDCD守约榜
Claude Sonnet 4.6、Gemini 2.5 Pro与Qwen3 Max以67.5分并列第一,Grok 4与文心一言4.5以50分垫底。R3崩溃率高达65.5%,满分率仅13.6%,头部与尾部在压力测试下差距显著。
资讯 06-10 04:03 TC
WWDC 2026:Siri AI大升级,iOS 27与苹果智能全面登场
苹果在WWDC 2026上重点展示了其长期助手Siri的AI增强体验,与大多数其他公告一样,Siri获得了大量人工智能支持。此外,iOS 27、Apple Intelligence等新系统与平台同步亮相,标志着苹果在AI领域的全面发力。本文
资讯 06-10 04:02 TC
科技公司能否爱上更便宜的AI模型?
如果同等质量的AI任务可以由成本更低的模型完成,将彻底改变AI的经济格局。本文探讨科技公司是否愿意拥抱廉价AI模型,分析其对行业生态、商业模式及技术路线的影响。随着开源模型兴起和算力成本下降,过去追求“越大越好”的AI竞赛正迎来拐点。