基准测试 - AI测评

MLPerf Inference v6.0 新增 GPT-OSS 120B 基准与 DeepSeek-R1 低延迟交互优化

MLPerf Inference v6.0 基准发布显著扩展了对开源大语言模型（LLM）的覆盖。随着行业转向更专业化开源模型，基准测试需适应部署策略与架构变化。本轮引入两大亮点：GPT-OSS 120B 新基准，基于117B参数MoE架构，擅长数学、科学推理与编码；DeepSeek-R1 交互场景，针对实时推理应用，首次标准化 speculative decoding。GPT-OSS 分离性能与准确数据集，准确模式覆盖 AIME 2024（82.92%）、GPQA-Diamond（74.95%）、LiveCodeBench v6（84.68%）；性能模式聚焦 PubMed 摘要生成。DeepSeek-R1 交互场景 TTFT ≤1.5s、TPOT ≤15ms，支持 EAGLE-style decoding。参考实现已在 GitHub 提供。（128字）

MLC

MLPerf Inference v6.0 Edge 套件升级至 YOLO11

MLPerf Inference 基准已成为评估 AI 基础设施性能的行业标准。本次 v6.0 Edge 套件将 RetinaNet 升级为 Ultralytics YOLO11，这款现代化的单阶段目标检测模型在 COCO 数据集上 mAP 达 53.4%，参数仅 2530 万，支持多种计算精度权衡。任务组选择了 YOLO11l 变体，并开发了合规的 COCO MLPerf 子集（80 类、1525 张图像、52 MB），确保基准合法分发。同时优化 LoadGen 集成，解决类别映射、坐标归一化和序列化问题，实现与 Ultralytics 参考一致的准确率。该升级反映 AI 目标检测领域的最新趋势，推动硬件优化。（128 字）

MLC

AI风险新标准：AILuminate全球保障计划重塑可靠性

人工智能行业正处于转折点，企业将AI从实验阶段推向金融、医疗和制造等关键业务时，可靠性验证成为核心障碍。MLCommons联盟（包括KPMG、Google、Microsoft和Qualcomm）推出AILuminate全球保障计划（AIL GAP），通过数据驱动机制桥接高层标准与实际技术性能差距。该计划围绕三大支柱：Build（Benchmarking-as-a-Service，集成基准测试服务）；Show（AILuminate风险标签，提供决策友好指标）；Scale（AILuminate全球框架，支持区域和行业定制）。这为风险合规专业人士提供可验证的AI可靠性标准，推动行业成熟。（128字）

MLC

MLCommons 为可辩护越狱基准测试奠基

随着大语言模型进入安全、合规关键环境，对抗性提示鲁棒性已成为运营必需。单轮越狱攻击持续暴露系统弱点。MLCommons 推出基于分类法的评估方法，建立可辩护、可复现的基准基础。该方法采用机制优先的单轮提示攻击分类法，确保确定性标注、一一映射和一致覆盖。通过严谨过程构建分类法，提供系统性攻击选择、可复现生成和机制分层评估。未来将扩展覆盖、多模态评估，并邀请社区参与，推动AI安全评估标准化。（128字）

MLC

技术标准：AI大规模采用的桥梁

人工智能正从消费级聊天工具转型为驱动企业服务的通用技术，却面临可靠性壁垒。企业需确信AI系统输出正确、安全且可靠，方能广泛部署。克服此挑战依赖评估标准，将ISO/IEC等传统标准与AI的非确定性桥接。MLCommons等组织将这些目标转化为可操作基准，如AILuminate，用于生成AI安全与产品可靠性测试。这确保AI在金融、医疗、制造等高风险场景中可靠运行。历史如NCAP安全测试，推动汽车行业变革。标准化评估将驱动AI进步，建立公众信任，解锁更高价值市场。（128字）

MLC

DLRMv3：MLPerf Inference生成式推荐基准

计算规模扩展遵循神经缩放定律，已显著减少自然语言处理和计算机视觉领域的手动特征工程需求，转而依赖大规模注意力Transformer模型从数据中自动学习丰富表示。类似趋势正变革深度学习推荐系统，传统依赖MLP、GNN和嵌入表架构，如今大型序列和生成模型已在在线内容推荐平台部署，大幅提升模型质量。MLPerf推出DLRMv3，作为首个序列推荐推理基准，基于HSTU架构，模型规模从50GB增至1TB（20倍），每候选计算从40M FLOP飙升至260 GFLOP（6500倍），紧跟生产级负载，助力基础设施发展。该基准聚焦排名阶段，支持长序列、注意力密集计算和大嵌入表，真实反映现代推荐工作负载。（128字）

MLC

MLPerf Tiny v1.3基准测试结果重磅发布

MLCommons近日公布MLPerf Tiny v1.3基准测试结果，聚焦边缘设备上的高效AI推理性能。LMSYS Org等多家机构提交成果，在Image Classification、Keyword Spotting、Anomaly Detection和Visual Wake Words等核心场景中展开角逐。Arm Cortex-M85+Ethos-U85 NPU以Image Classification Offline得分1895.1领跑，展现了微控制器级AI的突破。NXP、STMicroelectronics和Intel等厂商紧随其后。本轮测试引入新硬件支持和优化，提升了基准的现实性和挑战性，为嵌入式AI部署提供宝贵参考。（128字）

MLC

MedPerf 新增 WebUI 功能，提升隐私保护基准测试体验

MLCommons 旗下开源平台 MedPerf 近日推出 WebUI 支持，用户无需本地安装即可通过浏览器轻松运行隐私保护的机器学习基准测试。新功能集成了 SGLang 等后端，简化了模型评估流程，支持多种任务如图像分类和 NLP。WebUI 提供直观界面，实时显示 Elo Rating 等关键指标，帮助开发者快速比较模型性能。该更新标志着 MedPerf 向更易用方向迈进，助力联邦学习和隐私计算领域发展。（128字）

LMSYS

NVIDIA DGX Spark 深度评测：本地 AI 推理新标杆

NVIDIA DGX Spark 是一款紧凑型一体机，将超级计算级性能带入桌面工作站。通过 NVIDIA 早期访问计划，我们深入测试了这款设备。它搭载 GB10 Grace Blackwell Superchip，提供 128 GB 统一内存，支持 FP4 精度下高达 1 PFLOP 计算力。测试显示，在 SGLang 和 Ollama 框架下，DGX Spark 擅长运行小型模型（如 Llama 3.1 8B），批处理时吞吐量出色；大型模型（如 Llama 3.1 70B）适合原型开发。统一内存设计消除数据传输开销，投机解码可加速 2 倍。尽管内存带宽（273 GB/s）是瓶颈，但其外观精美、散热优秀，适合模型实验、边缘 AI 研究。两台联机可运行 4050 亿参数模型，是开发者理想平台。（128 字）

LMSYS

Mini-SGLang：轻量高效LLM推理引擎全解析

Mini-SGLang是SGLang项目的轻量版推理框架，仅用5k行Python代码，即实现了高性能LLM推理，支持Radix Attention、Chunked Prefill、Overlap Scheduling和Tensor Parallelism等先进特性。它兼容OpenAI API，支持Llama-3和Qwen-3模型，适合学习和研究原型开发。基准测试显示，在H200 GPU上，Mini-SGLang的离线吞吐量超越Nano-vLLM，在线服务延迟与SGLang相当。通过Overlap Scheduling有效隐藏CPU开销，利用FlashAttention-3和FlashInfer内核，确保顶尖性能。该框架提供交互Shell模式、NVTX注解和基准工具，便于调试和比较vLLM、TensorRT-LLM等系统。（128字）