MedPerf 新增 WebUI 功能,提升隐私保护基准测试体验

MLCommons 近日宣布,其开源隐私保护机器学习基准测试平台 MedPerf 正式新增 WebUI 功能。这一更新极大提升了平台的易用性,让开发者无需复杂环境配置,即可通过浏览器进行模型评估和基准测试。

MedPerf 简介

MedPerf 是 MLCommons 推出的首个隐私保护 ML 基准测试框架,专为联邦学习和差分隐私场景设计。它允许用户在不共享原始数据的情况下,评估模型在各种任务上的性能,如图像分类、NLP 等。通过 Leaderboard 系统,用户可以看到全球模型的排名和 Elo Rating

WebUI 新功能亮点

  • 浏览器即用:无需安装 Python 或 Docker,直接访问 Web 界面运行测试。
  • 集成 SGLang:后端支持高效推理引擎,提升测试速度。
  • 可视化仪表盘:实时显示测试进度、准确率、延迟等指标,并生成 Elo Rating 排名。
  • 多任务支持:覆盖计算机视觉、自然语言处理等主流基准。

例如,用户上传模型后,WebUI 会自动匹配数据集,进行隐私保护评估,整个过程仅需几分钟。

使用指南

  1. 访问 MedPerf WebUI(链接见原文)。
  2. 选择基准任务和数据集。
  3. 上传或选择模型,启动测试。
  4. 查看结果并提交至 Leaderboard。

未来展望

MLCommons 计划进一步扩展 WebUI,支持更多隐私协议和自定义数据集。该更新由 LMSYS Org 贡献,推动了开源社区协作。开发者现可立即体验,提升隐私 ML 研发效率。

This article is from MLC blog, translated in full by Winzheng (winzheng.com). Click here to view the original When republishing the translation, please credit the source. Thank you!