11个AI模型周测:GPT-4o材料约束暴跌10分,国产文心逆势上涨
赢政指数第13周评测显示,GPT-4o材料约束维度大跌10.3分,成为本周最大输家;文心一言4.0代码执行提升6.8分,是唯一在主榜核心维度上涨的模型。豆包Pro稳居榜首,GPT-4o跌至垫底。
赢政指数第13周评测显示,GPT-4o材料约束维度大跌10.3分,成为本周最大输家;文心一言4.0代码执行提升6.8分,是唯一在主榜核心维度上涨的模型。豆包Pro稳居榜首,GPT-4o跌至垫底。
文心一言4.0本周稳定性评分从52.1分暴跌至30.0分,跌幅达22.1分,创下近期最大降幅。通过分析丢分题目发现,模型在处理复杂推理和格式化输出时表现出明显的不一致性,暴露出潜在的系统性问题。
百度文心一言4.0 Turbo版正式上线,推理速度提升3倍,支持中文多模态输入输出。演示视频在中文圈刷屏,开发者实测性能媲美GPT-4。X平台相关话题阅读量破亿,得益于本土优化,该版本迅速引爆讨论,成为AI产品发布热点。