赢政 AI 评测 — AI 模型评测、行业资讯与深度研究

赢政指数 · 每周真实沙箱评测 11 个主流模型 · 零厂商赞助 · 评分可审计 方法论 →

最新资讯

查看全部 →
资讯 06-14 04:24 X
Google上诉德国AI概览责任裁决,生成式AI平台法律风险凸显
德国法院裁定Google需为AI概览中的虚假声明承担责任,Google随即提起上诉。此案聚焦生成式AI内容的平台责任争议,涉及信息准确性与法律边界。案件凸显AI技术快速发展下监管滞后问题,可能影响全球科技企业内容审核策略与合规成本。业界关注
资讯 06-14 04:24 X
NVIDIA与SpaceX深化AI合作:太空探索迈入智能新纪元
SpaceX完成IPO后,NVIDIA公开祝贺并重申双方长达十年的AI与加速计算合作,强调太空技术与人工智能的深度融合。此举引发行业广泛关注,相关话题浏览量与互动量显著上升。文章将从合作背景、技术应用、市场影响等多维度进行剖析,探讨这一动态
资讯 06-14 04:23 X
AI Agent安全新焦点:Kaggle竞赛启动与DeepMind多智能体治理讨论
Kaggle近日启动AI Agent安全竞赛,吸引全球开发者参与。Google DeepMind同步探讨大规模多智能体交互的治理框架。行业关注点正从单一模型安全转向可靠持久Agent系统,凸显安全在AI演进中的核心地位。此次事件引发技术界对
资讯 06-14 04:23 X
Moonshot AI开源Kimi-K2.7-Code:推理效率提升30%,中文编码AI迎来新突破
Moonshot AI正式开源Kimi-K2.7-Code模型,该模型在推理阶段token消耗减少约30%,显著提升编码效率与智能水平。此举在中文AI社区引发热烈讨论,有望推动开源编码工具的进一步发展,为开发者提供更高效的智能辅助。
资讯 06-14 04:23 X
OpenAI收购Ona强化Codex平台,助力长期AI Agent生态构建
OpenAI正式宣布收购Ona公司,将其安全云执行与编排技术整合至Codex平台,支持客户控制的持久Agent环境。此举旨在推动AI Agent从短期任务向长期复杂工作流演进,标志着OpenAI在企业级AI应用领域的战略深化。收购后,Cod
资讯 06-14 04:23 X
OpenAI面临多州检察长联合调查,AI巨头合规压力升级
OpenAI正接受美国多个州检察长联合调查,焦点集中在业务运营与合规问题上。在与Anthropic等竞争对手激烈角逐的背景下,此次调查引发行业广泛关注。文章分析调查背景、潜在影响及AI企业面临的监管挑战,强调合规对行业可持续发展的重要性。
资讯 06-14 04:22 X
Anthropic发布Claude Fable 5:美国政府限制引发模型访问争议
Anthropic近日推出Claude Fable 5系列模型,却因美国政府命令限制外国用户访问Mythos 5和Fable 5,导致模型暂时下线。此举引发AI安全与开放性辩论,相关X帖文浏览量达4700万,业界关注安全警告可能带来的反噬效
亚马逊CEO疑提前预警Anthropic模型风险,致全球断供
资讯 06-14 04:15 TC
亚马逊CEO疑提前预警Anthropic模型风险,致全球断供
据TechCrunch独家报道,亚马逊CEO安迪·贾西(Andy Jassy)可能在私下向AI安全公司Anthropic提出了对两个先进模型的安全担忧,促使该公司于上周五紧急切断全球范围内对这两个模型的访问。这一事件发生在美国政府即将出台更
评测 06-14 03:35
Gemini 2.5 Pro代码执行暴跌45分 Smoke主榜一日跌19.3
Gemini 2.5 Pro在今日Smoke评测中主榜从89.79分跌至70.53分,代码执行从100.00分直接降至55.00分,材料约束则从77.30分升至89.50分。单日10题快测下,这一45分跌幅超出常规抽签波动范围,值得持续观察
评测 06-14 03:35
Grok 4代码执行暴跌19.1分,主榜下滑7.7,抽签还是退化
今日Smoke评测中Grok 4代码执行从100.00跌至80.90,主榜从89.56降至81.85。工程判断更从88.00腰斩至55.00,材料约束反而升6.2分。需判断是题目抽签波动还是真实能力退化。
评测 06-14 03:35
Claude Opus 4.7跌26.9分 GPT-5.5逆势升3.1分 Smoke三天趋势
2026-W24 Smoke三天数据显示,Claude Opus 4.7从96.83跌至69.91,GPT-5.5从92.19升至95.24,成为唯一上升模型。Claude Sonnet 4.6与Qwen3 Max波动超25分,诚信评级反复
评测 06-14 03:35
11模型代码执行集体暴跌,GPT-5.5 95.24分领跑Smoke轻量榜
2026-06-14 Smoke评测显示,GPT-5.5主榜95.24分(执行96、约束94.3)位居第一。豆包Pro、Qwen3 Max主榜均暴跌31.1分,主要源于代码执行分别下跌61.6分和78.3分。Gemini 3.1 Pro执行