赢政 AI 评测 — AI 模型评测、行业资讯与深度研究

最新资讯

查看全部 →
资讯 05-25 06:00 TC
AI安全实时博弈:连谷歌也在摸着石头过河
我们正处在AI安全过渡期——所有人都一样。无论巨头还是初创,都在实时应对前所未有的挑战。谷歌的安全举措暴露了系统性难题:传统安全框架失效,攻防博弈加速,监管滞后。本文深度解析AI安全现状,探讨行业如何从“被动应急”走向“主动防御”。
评测 05-25 03:10
文心一言4.5代码执行从95暴跌至50,主榜单日掉27.2分
文心一言4.5今日Smoke评测主榜暴跌27.2分,核心原因是代码执行维度从95直接腰斩至50,材料约束仅小降5.5分。单日10题抽签带来的波动是否掩盖了真实能力退化,值得持续追踪。
评测 05-25 03:10
DeepSeek V4 Pro 诚信评级 Fail 转 Pass,主榜单日暴涨 23 分
DeepSeek V4 Pro 在今日 Smoke 评测中诚信评级从 Fail 直接转为 Pass,主榜从 74.00 跃升至 97.08,材料约束单项上涨 23.5 分。单日 10 题快测下,这种幅度变化究竟是抽签运气还是真实能力回暖,需
评测 05-25 03:10
DeepSeek V4 Pro 97.08分登顶,文心一言执行分腰斩暴跌27.2
今日Smoke评测显示,DeepSeek V4 Pro以97.08分(执行100、约束93.5)登顶,GPT-o3单日主榜暴涨31.4分,而文心一言4.5主榜暴跌27.2分、执行分直接腰斩至50,诚信评级从warn转为pass。
资讯 05-24 20:00 WD
旧金山田德隆区:机器人接手非营利组织餐食制作
在旧金山最混乱的街区田德隆区,一家非营利组织因志愿者短缺转而采用机器人餐食制备技术。这套系统由创业公司打造,能自动完成切菜、烹饪和分装,每天可产出数千份餐食。尽管机器人无法完全取代人情味,但它们在缓解人力危机、确保食品卫生和效率方面展现了巨
资讯 05-24 14:03 X
Anthropic Claude Mythos模型安全隐患曝光 专家警示公开风险
Anthropic最新Claude Mythos模型被曝可利用超万软件漏洞,引发网络安全界强烈关注。专家指出该模型潜在危险性高,不宜公开使用。事件迅速发酵,行业内外就AI模型安全性展开激烈辩论,Anthropic面临监管与信任双重压力。文章
资讯 05-24 14:02 X
OpenAI正式提交S-1文件计划IPO,AI公司从非营利转向上市之路加速
OpenAI已正式向美国SEC提交S-1注册文件,标志着这家AI巨头从非营利组织向上市公司转型的重大一步。此举引发与Anthropic估值的对比讨论,凸显AI企业资本化进程的加速。文章分析其融资背景、行业影响及未来展望。
资讯 05-24 14:02 X
特朗普暂缓AI行政命令 Musk与Zuckerberg关键劝说引发政策争议
特朗普在Musk和Zuckerberg劝说下暂缓签署AI监管行政命令,担忧此举会削弱美国对华科技竞争力。David Sacks的干预成为焦点,行业内外对监管与创新平衡展开激烈讨论,政策走向仍存不确定性。
资讯 05-24 06:08 NF
Hark获7亿美元Series A融资 估值达60亿美元
AI硬件初创公司Hark于2026年5月21日宣布完成7亿美元Series A融资,估值60亿美元,由Parkway Venture Capital领投,Nvidia、AMD Ventures等多方跟投。创始人Brett Adcock此前创
资讯 05-24 06:07 NF
安德鲁·吴批白宫绿卡新政 将削弱美国AI人才竞争力
2026年5月22日,Andrew Ng在X平台发文批评白宫新绿卡政策,要求申请人从境外提交申请。他指出此举将伤害家庭、减少医生、教师和科学家数量,并损害美国在AI领域的竞争力。多位科技界人士随后跟进讨论。该政策可能加剧全球AI人才争夺,硅
评测 05-24 03:11
GPT-o3代码执行暴跌42.5分,主榜单日崩18分
GPT-o3今日Smoke评测主榜从76.05跌至58.08,代码执行从90.00直接腰斩至47.50,工程判断也从50跌到10。单日抽题波动虽属正常,但这一量级的断崖式下跌已超出随机范围,值得重点追踪。
评测 05-24 03:10
文心一言4.5工程判断从50暴跌至10,主榜却逆涨14.5
文心一言4.5今日Smoke评测工程判断从50降至10、任务表达降20分,但材料约束暴涨24.7拉动主榜升至88.48,诚信从fail升至warn,单日抽签波动可能是主因。