MLCommons 近日宣布,其开源隐私保护机器学习基准测试平台 MedPerf 正式新增 WebUI 功能。这一更新极大提升了平台的易用性,让开发者无需复杂环境配置,即可通过浏览器进行模型评估和基准测试。
MedPerf 简介
MedPerf 是 MLCommons 推出的首个隐私保护 ML 基准测试框架,专为联邦学习和差分隐私场景设计。它允许用户在不共享原始数据的情况下,评估模型在各种任务上的性能,如图像分类、NLP 等。通过 Leaderboard 系统,用户可以看到全球模型的排名和 Elo Rating。
WebUI 新功能亮点
- 浏览器即用:无需安装 Python 或 Docker,直接访问 Web 界面运行测试。
- 集成 SGLang:后端支持高效推理引擎,提升测试速度。
- 可视化仪表盘:实时显示测试进度、准确率、延迟等指标,并生成 Elo Rating 排名。
- 多任务支持:覆盖计算机视觉、自然语言处理等主流基准。
例如,用户上传模型后,WebUI 会自动匹配数据集,进行隐私保护评估,整个过程仅需几分钟。
使用指南
- 访问 MedPerf WebUI(链接见原文)。
- 选择基准任务和数据集。
- 上传或选择模型,启动测试。
- 查看结果并提交至 Leaderboard。
未来展望
MLCommons 计划进一步扩展 WebUI,支持更多隐私协议和自定义数据集。该更新由 LMSYS Org 贡献,推动了开源社区协作。开发者现可立即体验,提升隐私 ML 研发效率。