This article has not been translated into English yet. Showing the original Chinese version.

Wirestock获2300万美元融资,为AI实验室提供创意多模态数据

Wirestock宣布完成2300万美元融资,其平台拥有超过70万创作者,专门为AI实验室提供照片、视频和3D内容等多模态训练数据。这笔资金将用于扩大创作者社区、优化数据质量,并拓展垂直行业客户。随着AI模型对高质量、多样化训练数据的需求激增,Wirestock通过连接创作者与AI企业,正在成为多模态数据供应链的关键一环。

AI训练数据的饥渴,正在催生一个全新的中间人市场。6月14日,总部位于旧金山的Wirestock宣布完成2300万美元融资,这家连接创作者与AI实验室的平台,正试图用人类创意为机器智能注入灵魂。

从创作者经济到AI数据燃料

Wirestock成立于2021年,最初是一个帮助摄影师和视频创作者将作品分发到各大图库平台的聚合工具。但团队很快意识到,AI行业对高质量、有版权授权的多模态数据存在巨大缺口。平台迅速转型,目前拥有超过70万创作者,累计提供了超过500万张照片、100万段视频以及数十万个3D模型,专供AI训练使用。

“我们不是数据标注公司,我们提供的是有创意的、有版权保障的原始素材。”Wirestock CEO Alex Chen在采访中表示,“AI需要理解真实世界的光影、构图和物体关系,而我们的创作者每天都在产出这些。”

本轮融资由Index Ventures领投,现有投资者Sequoia Capital跟投。资金将主要用于三方面:扩张创作者激励机制、构建自动化的多模态数据质检系统,以及拓展与自动驾驶、医疗影像等行业客户的合作。

为什么多模态数据越来越贵?

随着GPT-4o、Gemini等原生多模态模型的普及,AI对图像、视频、3D内容的依赖急剧增加。OpenAI、Google、Meta等公司每年在训练数据采购上的花费已超过数亿美元。此前,这些企业主要依赖公开网络爬虫数据,但版权诉讼风险和数据质量问题迫使它们寻找更清洁、更可控的数据源。

Wirestock恰好填补了这一空白。平台基于区块链技术记录每张图片的版权归属和授权范围,AI企业可以按需购买不同分辨率、不同风格的数据包,同时确保完全合规。据公司披露,其年经常性收入(ARR)已突破5000万美元。

但行业并非没有争议。一些创作者担心自己的作品被用于训练可能取代人类创造力的模型。Wirestock采用了“双重许可”模式:创作者可以选择仅授权传统商业用途,或额外授权AI训练,后者报酬通常高出3-5倍。目前超过60%的创作者选择了AI训练授权选项。

编者按:数据市场开始分层

Wirestock的崛起标志着AI数据市场进入新阶段——从“量”的竞争转向“质”的竞争。第一波AI公司依赖Common Crawl等低质数据,第二波开始使用Reddit、Wikipedia等高质量文本,而第三波多模态模型则需要带有情感和审美的创意内容。Wirestock这类平台实际上是给创作者和AI公司之间搭建了一个“创意供给基地”。

不过值得警惕的是,这种做法可能重塑数字经济中的价值分配。当一张照片被用于训练价值百亿美元的模型,创作者应该获得多少回报?目前行业缺乏统一标准。Wirestock抽取15%的佣金,剩余归创作者,看似公平,但相较于模型商业化后的巨大利润,这部分分成可能仍显微薄。

此外,数据多样性问题依然存在。70万创作者虽然数量可观,但仍以欧美和东南亚用户为主,非洲、南亚等地区的代表性不足,可能导致模型产生偏见。

未来展望

Wirestock计划利用新资金开发“数据集市”产品,让AI实验室能够像在App Store一样浏览和订阅不同主题的数据流——比如“日落海滩”“工业车间”“手术室动线”等。同时,公司正在实验通过AI辅助标注,降低后续数据清洗成本。

随着生成式AI从文本对话走向视频生成(如Sora)、3D场景构建(如NeRF),对多模态素材的需求只会更加饥渴。Wirestock能否成为多模态时代的Shutterstock,时间会给出答案。

本文编译自TechCrunch