Global AI Picks

Curated AI coverage from TechCrunch, MIT Technology Review, WIRED and other top global tech media. Please cite this site when republishing.

TechCrunch MIT Tech Review VentureBeat WIRED AI News

Fresh Benchmarks, Reliable Scores: Introducing Continuous Prompt Stewardship for AI Risk Evaluation

AI行业每隔几个月就会推出新一代前沿模型,这些模型的能力不断提升,同时也改变了监管机构、企业和公众需要评估的风险格局。然而,用于衡量这些风险的基准并不会自动更新。本文介绍了MLCommons的AILuminate基准及其Continuous Prompt Stewardship System,该系统通过持续刷新提示数据集,确保基准的长期有效性。系统采用基于心理测量学的指标驱动刷新、闭环数据集再平衡、社区驱动的贡献者模型、双路径审查以及可审计的来源记录等机制,解决基准陈旧和污染问题。AILuminate v1.0包含24,000个人类创作的提示,覆盖12个危害类别,并获得最高长寿分数75分。该系统不仅维护AILuminate的可靠性,还为整个AI基准领域提供宝贵经验,帮助应对基准生命周期挑战。

MLC AI基准 风险评估
466