大语言模型 - AI资讯

MLCommons发布MLPerf Inference v6.0基准测试最新结果

MLCommons近日公布了行业标准MLPerf Inference v6.0基准测试套件的最新结果。此次更新包括五个数据中心测试的新增或升级，以及边缘系统的全新物体检测测试。主要亮点有基于GPT-OSS 120B的开源大语言模型基准、扩展的DeepSeek-R1推理测试、首创的顺序推荐基准DLRMv3、文本到视频生成基准，以及基于YOLOv11 Large的物体检测升级。这些变化确保基准测试紧跟AI部署的真实场景，提供全面性能评估。多节点系统提交量激增30%，最大系统达72节点288加速器，彰显行业对大规模推理的重视。24家组织参与，推动AI透明与创新。（128字）

MLCommons 为可辩护越狱基准测试奠基

随着大语言模型进入安全、合规关键环境，对抗性提示鲁棒性已成为运营必需。单轮越狱攻击持续暴露系统弱点。MLCommons 推出基于分类法的评估方法，建立可辩护、可复现的基准基础。该方法采用机制优先的单轮提示攻击分类法，确保确定性标注、一一映射和一致覆盖。通过严谨过程构建分类法，提供系统性攻击选择、可复现生成和机制分层评估。未来将扩展覆盖、多模态评估，并邀请社区参与，推动AI安全评估标准化。（128字）

训练 Llama 3.1 8B：MLCommons 基准详解

MLCommons 最新发布 Llama 3.1 8B 模型训练基准报告，由 LMSYS Org 贡献。该报告详细记录了使用标准硬件集群训练该 8B 参数模型的全过程，包括数据准备、训练时长、能耗和性能指标。结果显示，在 4090 张 H100 GPU 上，仅需 2.3 天即可完成预训练，FLOPs 利用率高达 52%。模型在下游任务中表现出色，MMLU 分数达 68.4%，凸显高效训练框架的重要性。该基准为开源社区提供宝贵参考，推动 AI 训练标准化。（128 字）

大语言模型 (共3篇)

MLCommons发布MLPerf Inference v6.0基准测试最新结果

MLCommons 为可辩护越狱基准测试奠基

训练 Llama 3.1 8B：MLCommons 基准详解