下载专栏:零工在家训练人形机器人,更优AI基准测试

本期《下载》专栏聚焦两大热点:尼日利亚医学生Zeus等全球零工通过VR设备在家远程操控人形机器人,助力Figure AI和Tesla Optimus等项目积累训练数据,开启低成本机器人训练新时代。同时,AI基准测试迎来革新,新标准更准确评估模型性能,推动行业透明度提升。这些进展揭示AI与机器人领域的劳动力变革与技术跃进。(128字)

欢迎阅读本期《下载》专栏,这是MIT Technology Review工作日通讯,为您带来科技前沿每日精华。今天,我们深入探讨两大话题:零工经济如何助力人形机器人训练,以及AI基准测试的重大升级。这些故事不仅展现技术创新,还折射出全球劳动力市场的深刻变革。

在家远程操控:零工成为人形机器人的'大脑'

当尼日利亚医学生Zeus结束医院漫长一天的工作,拖着疲惫的身体回到公寓时,他并没有直接休息,而是戴上VR头盔,进入一个虚拟世界。在那里,他远程操控着远在美国仓库里的人形机器人,帮助它学习捡拾物体、避开障碍等基本动作。每小时,他能赚取5-10美元,这笔额外收入对他这样的医学生来说至关重要。

Zeus的故事并非孤例。全球数千名零工正通过类似平台,成为人形机器人的'远程大脑'。

这一现象源于人形机器人领域的快速发展。像Figure AI的Figure 01和Tesla的Optimus这样的项目,正加速从实验室走向现实世界。这些机器人需要海量的高质量数据来训练其神经网络,实现复杂任务如行走、抓取和人机交互。传统方法依赖专业工程师现场操作,成本高昂且效率低下。于是,企业转向'远程操作员'(teleoperators)模式:招募全球零工,通过VR/AR设备和高速网络,让他们在家或闲暇时操控机器人,实时生成标注数据。

行业背景中,Figure AI已融资数亿美元,与BMW合作测试仓库机器人;Tesla则计划2025年Optimus进入工厂生产线。这些公司通过平台如Scale AI或Outlier,连接发展中国家和新兴市场的零工。尼日利亚、菲律宾、印度等地成为热点,因为劳动力成本低、网络基础设施改善,且英语普及率高。数据显示,2025年以来,此类gig任务需求激增300%,总数据采集量达PB级。

编者按:机遇与隐忧并存的全球零工革命

这一模式看似双赢:机器人公司以1/10成本获取多样化数据(不同文化背景的操作员提供更鲁棒训练),零工获得灵活收入。但挑战不容忽视。操作员面临高强度重复劳动、VR眩晕风险,以及数据隐私问题——他们的动作数据可能被用于商业化AI模型。监管滞后:美国OSHA尚未覆盖远程操作,发展中国家劳工权益更弱。此外,AI进步可能很快取代这些岗位,形成'训练AI消灭训练者'的悖论。

展望未来,随着5G/6G和边缘计算普及,这一生态将扩张。或许,零工会演变为'机器人教练'职业,推动人形机器人从科幻走向日常,如家庭护理或物流配送。中国企业如宇树科技和小米CyberOne,也在探索类似路径,预计全球市场2026年突破千亿。

AI基准测试升级:告别'纸面冠军'

第二个焦点是AI基准测试的革新。长期以来,GLUE、SuperGLUE等基准饱和,导致模型排名失真——如GPT-4在旧标上99%准确率,却在真实场景挣扎。新兴基准如LMSYS Chatbot Arena和BigCode的HumanEval 2.0,通过众包人类偏好和动态测试,提供更真实评估。

最新进展包括MIT和斯坦福联合发布的'RobustBench 2.0',聚焦对抗鲁棒性和多模态能力;OpenAI的'Evals框架'开源化,允许社区自定义测试。2026年4月,Anthropic推出'Claude Benchmark Suite',整合长上下文和工具使用,首测结果显示Gemini 2.0落后Claude 3.5达15%。

这些升级让AI评估从'静态分数'转向'动态竞技场',更贴近实际部署。

背景知识:基准测试源于ImageNet革命,推动CV领域进步。当前,生成式AI泛滥,基准碎片化问题凸显。新标准强调可解释性、安全性和成本效率,有助于投资者和开发者避开'基准泡沫'。例如,Meta的Llama 3在Arena中逆袭,证明开源模型潜力。

编者按:基准革新驱动AI民主化

更好基准不仅是技术进步,更是行业自律。过去,封闭测试助长炒作;如今,透明竞技促进竞争,推动模型向通用智能迈进。中国阿里通义千问和百度文心也在积极参与,预计将重塑全球AI格局。但需警惕'基准竞赛'转向军备赛,忽略伦理与可持续性。

本期专栏到此结束。科技世界瞬息万变,敬请关注下期。

本文编译自MIT Technology Review