印度零工经济:训练全球机器人的新赛道?

一家由UC Berkeley和斯坦福大学研究者创立的初创公司Human Archive,正在印度雇佣零工工人佩戴摄像头帽子和传感器设备,收集现实世界中的物理动作数据。这些数据将成为AI和机器人公司训练其系统所需的关键资源,有望解决机器人从模拟到现实的迁移难题。

在人工智能和机器人领域,训练数据一直是稀缺资源。虽然合成数据可以低成本生成大量样本,但机器人在真实物理世界中的表现往往与模拟环境存在巨大差异。为此,一家名为Human Archive的初创公司提出了一种新颖的解决方案:利用印度庞大的零工经济,让普通人佩戴摄像头和传感器,收集真实世界的物理动作数据。

零工经济的新角色:数据采集者

Human Archive由UC Berkeley和斯坦福大学的研究者共同创立。他们开发了一套轻量级设备组合:一顶带有多个摄像头的帽子,以及固定在手腕、脚踝等关键关节的惯性测量单元(IMU)。这些设备能够记录穿戴者的身体动作、视线方向以及周围环境视频。公司雇佣印度零工工人(包括学生、自由职业者等)在日常活动中佩戴这些设备,例如走路、搬运物品、开门、使用工具等,从而采集海量的真实物理交互数据。

“我们不是让机器人直接学习人类的视频,而是记录下人类在物理世界中解决问题的方式——包括肌肉力量、关节角度、触觉反馈等微妙信息。这些数据对于机器人的泛化能力至关重要。”——Human Archive联合创始人(虚拟引用,基于原文精神)

数据采集的挑战与机遇

机器人公司长期以来面临两大瓶颈:一方面,真实世界数据采集成本高昂,需要大量人工标注和复杂设备;另一方面,模拟数据虽然便宜,但无法完全模拟现实世界的物理规则,导致机器人从模拟走向现实时表现不佳。Human Archive的模式试图降低真实数据获取的成本:每位印度零工工人每天可以获得10-20美元报酬,远低于美国数据佣工的费用,同时印度多样化的环境(拥挤街道、乡村小路、传统厨房等)能提供丰富的交互场景。

然而,这种模式也面临隐私和数据安全质疑。摄像头会录制周围场景,可能包含路人、商家标识等敏感信息。Human Archive表示,他们会对视频进行人脸模糊和背景脱敏处理,并在征得所有被录者同意后才使用数据。此外,印度法律对数据跨境的限制也是潜在风险。

编者按:数据驱动的机器人进化

Human Archive的尝试代表了AI行业对真实数据饥渴的缩影。过去十年,AI在视觉、语言等领域取得突破,很大程度上得益于互联网上已有的海量文本和图像。但在机器人领域,物理交互数据极度碎片化、高成本。利用零工经济的灵活性和低成本,或许能催生新的数据供给模式。当然,这种模式能否规模化、数据质量能否满足研究需求,仍需要时间验证。但可以预见,未来机器人公司可能会更依赖于类似“分布式人工数据采集”的商业模式。

本文编译自TechCrunch