脏活累活：AI实验室付费给机器人数据采集公司XDOF

2026年06月18日 12 约4分钟 TechCrunch

机器人人工智能训练数据具身智能数据采集

大型语言模型（LLM）的爆发式增长，很大程度上得益于互联网上海量的文本与图像数据。然而，当我们将目光投向物理世界——机器人、自动驾驶、工业自动化等所谓“具身智能”（Embodied AI）领域时，情况截然不同。机器人要理解物理规律、完成抓取、行走、操作等任务，需要海量、精确且具有物理交互特性的训练数据。这些数据无法从互联网爬取，只能通过真实世界的反复试验收集——而这正是被业内称为“脏活累活”（dirty, unglamorous work）的过程。

数据难题：为什么机器人训练比LLM更“脏”

LLM的训练数据可以是文本、代码、图像，它们相对“干净”，且可以低成本规模化获取。但机器人数据不同：一台机器人手臂在工厂中抓取零件，每次抓取的角度、力度、成功率都需要记录下来，还需标记物体材质、光照、摩擦系数等物理参数。更棘手的是，机器人学习需要大量失败案例——比如机器人摔倒、撞墙、掉落物体——这些在传统数据集里几乎不存在。因此，收集高质量机器人训练数据往往需要人类操作员远程遥控机器人（teleoperation）或亲自演示，过程缓慢且枯燥。一位从业者形容：“就像拿着GoPro录制自己洗碗1000次，然后逐帧标注手部动作和碗的位置。”

“收集机器人训练数据是脏活累活。一些AI实验室已经开始付费给XDOF来做这件事。”——TechCrunch报道

XDOF正是应运而生的专业数据采集公司。据TechCrunch报道，XDOF开发了一套结合远程操作、仿真环境和真人演示的数据采集平台，专门为机器人公司提供干净的训练数据。其商业模式类似于为自动驾驶公司标注路况数据，但难度更高——因为机器人需要感知三维空间中的物理交互，而不仅仅是识别二维图像中的障碍物。目前，已有数家知名AI实验室与XDOF签订合同，将机器人数据采集外包，以便集中精力优化算法。

编者按：数据产业的新蓝海

回顾人工智能发展史，数据基础设施往往比算法本身更早成熟。ImageNet催生了深度学习革命，GPT系列通过文本海量数据实现涌现能力。如今，机器人领域正站在类似的十字路口：硬件成本逐渐下降（仿生机器人、协作机械臂越来越廉价），但数据瓶颈仍未突破。XDOF这类公司的出现，标志着行业开始正视“数据采集也是核心技术”这一事实。值得注意的是，美国包括丰田研究院、波士顿动力等巨头也在内部组建数据采集团队，而中国如智元机器人、傅利叶等企业同样在探索“数据工厂”模式。未来可能形成标准化机器人数据集（类似‘机器人版ImageNet’），带动整个产业从手工作坊走向工业化。

当然，外包数据采集也存在隐忧：安全性和版权风险。如果采集过程中包含商业机密或隐私信息（例如家庭环境中的机器人服务），如何脱敏？另外，数据标注标准不统一，不同公司采集的数据格式各异，造成重复投资。行业亟需建立开源数据标准和共享机制，就像自动驾驶领域的nuScenes、Waymo Open Dataset那样。

从“脏活”到“金矿”

TechCrunch的报道揭示了一个趋势：当物理AI进入爆发前夜，底层数据基础设施的配套将成为关键胜负手。XDOF或许只是其中的一个小角色，但它背后反映的产业逻辑值得深思：在AI领域，有时候最脏最累的工作，恰恰隐藏着最大的商业价值。正如当年为大型互联网公司做内容审核、数据标注的企业，最终诞生了全球最大的数据服务商。机器人训练数据采集，会不会成为下一个万亿级市场的入口？至少，已有资本开始下注。

本文编译自TechCrunch

数据难题：为什么机器人训练比LLM更“脏”

编者按：数据产业的新蓝海

从“脏活”到“金矿”

相关推荐