大语言模型 (共3篇)

MLCommons发布MLPerf Inference v6.0基准测试最新结果

MLCommons近日公布了行业标准MLPerf Inference v6.0基准测试套件的最新结果。此次更新包括五个数据中心测试的新增或升级,以及边缘系统的全新物体检测测试。主要亮点有基于GPT-OSS 120B的开源大语言模型基准、扩展的DeepSeek-R1推理测试、首创的顺序推荐基准DLRMv3、文本到视频生成基准,以及基于YOLOv11 Large的物体检测升级。这些变化确保基准测试紧跟AI部署的真实场景,提供全面性能评估。多节点系统提交量激增30%,最大系统达72节点288加速器,彰显行业对大规模推理的重视。24家组织参与,推动AI透明与创新。(128字)

MLC MLPerf Inference AI基准测试
813

MLCommons 为可辩护越狱基准测试奠基

随着大语言模型进入安全、合规关键环境,对抗性提示鲁棒性已成为运营必需。单轮越狱攻击持续暴露系统弱点。MLCommons 推出基于分类法的评估方法,建立可辩护、可复现的基准基础。该方法采用机制优先的单轮提示攻击分类法,确保确定性标注、一一映射和一致覆盖。通过严谨过程构建分类法,提供系统性攻击选择、可复现生成和机制分层评估。未来将扩展覆盖、多模态评估,并邀请社区参与,推动AI安全评估标准化。(128字)

MLC MLCommons 越狱攻击
834

训练 Llama 3.1 8B:MLCommons 基准详解

MLCommons 最新发布 Llama 3.1 8B 模型训练基准报告,由 LMSYS Org 贡献。该报告详细记录了使用标准硬件集群训练该 8B 参数模型的全过程,包括数据准备、训练时长、能耗和性能指标。结果显示,在 4090 张 H100 GPU 上,仅需 2.3 天即可完成预训练,FLOPs 利用率高达 52%。模型在下游任务中表现出色,MMLU 分数达 68.4%,凸显高效训练框架的重要性。该基准为开源社区提供宝贵参考,推动 AI 训练标准化。(128 字)