第三方权威测评 - AI测评中心

新鲜基准，可靠分数：引入AI风险评估的持续提示管理

AI行业每隔几个月就会推出新一代前沿模型，这些模型的能力不断提升，同时也改变了监管机构、企业和公众需要评估的风险格局。然而，用于衡量这些风险的基准并不会自动更新。本文介绍了MLCommons的AILuminate基准及其Continuous Prompt Stewardship System，该系统通过持续刷新提示数据集，确保基准的长期有效性。系统采用基于心理测量学的指标驱动刷新、闭环数据集再平衡、社区驱动的贡献者模型、双路径审查以及可审计的来源记录等机制，解决基准陈旧和污染问题。AILuminate v1.0包含24,000个人类创作的提示，覆盖12个危害类别，并获得最高长寿分数75分。该系统不仅维护AILuminate的可靠性，还为整个AI基准领域提供宝贵经验，帮助应对基准生命周期挑战。

LMSYS

HiSparse：层次化内存系统加速稀疏注意力

HiSparse通过层次化内存系统解决稀疏注意力的内存瓶颈问题，显著提高了模型的并发吞吐量。其设计利用GPU和主机内存协同工作，能够在高并发情况下实现接近线性的吞吐量扩展。

MLC

MLCommons 发布 MLPerf Client v1.6：性能优化与用户体验升级

MLCommons 近日发布 MLPerf Client v1.6，这是评估个人电脑 AI 性能的最新基准测试套件。该版本针对笔记本电脑、台式机和工作站等设备，模拟真实生成式 AI 任务，如文本摘要、内容创作和代码分析，提供响应速度和吞吐量等标准化指标。新版更新了 Windows ML 和 llama.cpp 等核心运行时，支持 Apple 平台的 MLX with Metal 和 llama.cpp with Metal，提升性能与兼容性。同时，优化了图形界面启动速度、添加进度条，并允许禁用下载确认提示，提高重复测试效率。该基准由 AMD、Intel 等公司协作开发，开源免费，可通过 mlcommons.org/benchmarks/client 下载。（128字）

LMSYS

SGLang在NVIDIA GTC 2026的高光时刻

SGLang团队携多项活动亮相NVIDIA GTC 2026，包括主旨演讲展示、开源AI专题讨论、动手训练实验室，以及Happy Hour和200人规模的LinkedIn联办Meetup。短短三天，五场盛会，聚焦LLM生态核心，汇聚OpenAI、xAI、Meta等巨头代表。本文详尽回顾各环节亮点：从Jensen Huang主旨演讲中SGLang的生态认可，到RadixArk团队的性能调优演示，再到Miles RL框架的深度分享，以及LinkedIn工程师揭示的2-3倍H100吞吐量优化。展望未来，开源基础设施正加速融合生产生态，推动搜索、推荐与Agentic AI创新。（128字）

MLC

MLCommons发布MLPerf Inference v6.0基准测试最新结果

MLCommons近日公布了行业标准MLPerf Inference v6.0基准测试套件的最新结果。此次更新包括五个数据中心测试的新增或升级，以及边缘系统的全新物体检测测试。主要亮点有基于GPT-OSS 120B的开源大语言模型基准、扩展的DeepSeek-R1推理测试、首创的顺序推荐基准DLRMv3、文本到视频生成基准，以及基于YOLOv11 Large的物体检测升级。这些变化确保基准测试紧跟AI部署的真实场景，提供全面性能评估。多节点系统提交量激增30%，最大系统达72节点288加速器，彰显行业对大规模推理的重视。24家组织参与，推动AI透明与创新。（128字）

winzheng.com

GPT-4o代码执行暴跌23.7分：版本更新引发性能雪崩

GPT-4o代码执行(v5)版本本周评测得分从78.0暴跌至62.8，降幅达23.7分。多项核心维度出现断崖式下跌，特别是性价比和稳定性分别下降54.1和52.2分，显示模型在版本更新后出现严重性能退化。

LMSYS

SGLang 中的 Elastic EP：DeepSeek MoE 部署的部分故障容忍

为高效服务大规模 Mixture-of-Experts (MoE) 模型，宽 Expert Parallelism (EP) 策略已成为必需，但其可靠性瓶颈突出：单一硬件故障可能导致整个实例崩溃，重启需数分钟。为此，SGLang 集成 Elastic EP，通过解耦专家与 GPU 的刚性绑定、维护冗余专家，实现故障检测后秒级重分布专家权重，服务中断不超过10秒，较传统重启减少90%。性能测试显示，Elastic EP 与标准 DeepEP 相当，无静态性能损失。Mooncake EP 作为容错通信后端，提供高性能 RDMA 和快速故障检测。启用只需简单参数配置，提升 MoE 推理弹性。（128字）

MLC

MLPerf Inference v6.0 新增 GPT-OSS 120B 基准与 DeepSeek-R1 低延迟交互优化

MLPerf Inference v6.0 基准发布显著扩展了对开源大语言模型（LLM）的覆盖。随着行业转向更专业化开源模型，基准测试需适应部署策略与架构变化。本轮引入两大亮点：GPT-OSS 120B 新基准，基于117B参数MoE架构，擅长数学、科学推理与编码；DeepSeek-R1 交互场景，针对实时推理应用，首次标准化 speculative decoding。GPT-OSS 分离性能与准确数据集，准确模式覆盖 AIME 2024（82.92%）、GPQA-Diamond（74.95%）、LiveCodeBench v6（84.68%）；性能模式聚焦 PubMed 摘要生成。DeepSeek-R1 交互场景 TTFT ≤1.5s、TPOT ≤15ms，支持 EAGLE-style decoding。参考实现已在 GitHub 提供。（128字）

Winzheng Index

AI测评

新鲜基准，可靠分数：引入AI风险评估的持续提示管理

HiSparse：层次化内存系统加速稀疏注意力

MLCommons 发布 MLPerf Client v1.6：性能优化与用户体验升级

SGLang在NVIDIA GTC 2026的高光时刻

MLCommons发布MLPerf Inference v6.0基准测试最新结果

GPT-4o代码执行暴跌23.7分：版本更新引发性能雪崩

SGLang 中的 Elastic EP：DeepSeek MoE 部署的部分故障容忍

MLPerf Inference v6.0 新增 GPT-OSS 120B 基准与 DeepSeek-R1 低延迟交互优化

11个AI模型周测：GPT-4o材料约束暴跌10分，国产文心逆势上涨

豆包Pro稳定性暴跌19.8分，同题不同答成最大软肋

ROCm支持Miles：AMD GPU上的大规模RL后训练

Grok 3 稳定性暴跌 22.5 分：当 AI 遇到真实工程场景就露馅了