下载专栏：零工在家训练人形机器人，更优AI基准测试

2026年04月02日 396 约5分钟 MIT Technology Review 已核实

人形机器人零工经济 AI基准测试远程操作科技劳动力

欢迎阅读本期《下载》专栏，这是MIT Technology Review工作日通讯，为您带来科技前沿每日精华。今天，我们深入探讨两大话题：零工经济如何助力人形机器人训练，以及AI基准测试的重大升级。这些故事不仅展现技术创新，还折射出全球劳动力市场的深刻变革。

在家远程操控：零工成为人形机器人的'大脑'

当尼日利亚医学生Zeus结束医院漫长一天的工作，拖着疲惫的身体回到公寓时，他并没有直接休息，而是戴上VR头盔，进入一个虚拟世界。在那里，他远程操控着远在美国仓库里的人形机器人，帮助它学习捡拾物体、避开障碍等基本动作。每小时，他能赚取5-10美元，这笔额外收入对他这样的医学生来说至关重要。

Zeus的故事并非孤例。全球数千名零工正通过类似平台，成为人形机器人的'远程大脑'。

这一现象源于人形机器人领域的快速发展。像Figure AI的Figure 01和Tesla的Optimus这样的项目，正加速从实验室走向现实世界。这些机器人需要海量的高质量数据来训练其神经网络，实现复杂任务如行走、抓取和人机交互。传统方法依赖专业工程师现场操作，成本高昂且效率低下。于是，企业转向'远程操作员'(teleoperators)模式：招募全球零工，通过VR/AR设备和高速网络，让他们在家或闲暇时操控机器人，实时生成标注数据。

行业背景中，Figure AI已融资数亿美元，与BMW合作测试仓库机器人；Tesla则计划2025年Optimus进入工厂生产线。这些公司通过平台如Scale AI或Outlier，连接发展中国家和新兴市场的零工。尼日利亚、菲律宾、印度等地成为热点，因为劳动力成本低、网络基础设施改善，且英语普及率高。数据显示，2025年以来，此类gig任务需求激增300%，总数据采集量达PB级。

编者按：机遇与隐忧并存的全球零工革命

这一模式看似双赢：机器人公司以1/10成本获取多样化数据（不同文化背景的操作员提供更鲁棒训练），零工获得灵活收入。但挑战不容忽视。操作员面临高强度重复劳动、VR眩晕风险，以及数据隐私问题——他们的动作数据可能被用于商业化AI模型。监管滞后：美国OSHA尚未覆盖远程操作，发展中国家劳工权益更弱。此外，AI进步可能很快取代这些岗位，形成'训练AI消灭训练者'的悖论。

展望未来，随着5G/6G和边缘计算普及，这一生态将扩张。或许，零工会演变为'机器人教练'职业，推动人形机器人从科幻走向日常，如家庭护理或物流配送。中国企业如宇树科技和小米CyberOne，也在探索类似路径，预计全球市场2026年突破千亿。

AI基准测试升级：告别'纸面冠军'

第二个焦点是AI基准测试的革新。长期以来，GLUE、SuperGLUE等基准饱和，导致模型排名失真——如GPT-4在旧标上99%准确率，却在真实场景挣扎。新兴基准如LMSYS Chatbot Arena和BigCode的HumanEval 2.0，通过众包人类偏好和动态测试，提供更真实评估。

最新进展包括MIT和斯坦福联合发布的'RobustBench 2.0'，聚焦对抗鲁棒性和多模态能力；OpenAI的'Evals框架'开源化，允许社区自定义测试。2026年4月，Anthropic推出'Claude Benchmark Suite'，整合长上下文和工具使用，首测结果显示Gemini 2.0落后Claude 3.5达15%。

这些升级让AI评估从'静态分数'转向'动态竞技场'，更贴近实际部署。

背景知识：基准测试源于ImageNet革命，推动CV领域进步。当前，生成式AI泛滥，基准碎片化问题凸显。新标准强调可解释性、安全性和成本效率，有助于投资者和开发者避开'基准泡沫'。例如，Meta的Llama 3在Arena中逆袭，证明开源模型潜力。

编者按：基准革新驱动AI民主化

更好基准不仅是技术进步，更是行业自律。过去，封闭测试助长炒作；如今，透明竞技促进竞争，推动模型向通用智能迈进。中国阿里通义千问和百度文心也在积极参与，预计将重塑全球AI格局。但需警惕'基准竞赛'转向军备赛，忽略伦理与可持续性。

本期专栏到此结束。科技世界瞬息万变，敬请关注下期。

本文编译自MIT Technology Review

在家远程操控：零工成为人形机器人的'大脑'

编者按：机遇与隐忧并存的全球零工革命

AI基准测试升级：告别'纸面冠军'

编者按：基准革新驱动AI民主化

相关推荐