NVIDIA Lyra 2.0重磅开源!一张图生成可探索3D世界,空间遗忘彻底拜拜

【事实来源:NVIDIA Research 2024年4月15日官方技术公告】针对AI生成3D虚拟场景长期存在的“时间漂移”痛点,NVIDIA Research日前正式发布Lyra 2.0生成框架,通过逐帧3D几何维护、自我增强训练两大核心机制,实现可持久探索、无内容冲突的3D世界生成。

技术原理:给AI生成的3D世界“装记忆”

很多普通用户可能体验过AI生成的3D漫游内容:当你在虚拟场景里走一段路再回头,原本在身后的建筑、植被可能凭空消失或者变了样子,这种内容前后不一致的问题就是行业俗称的“时间漂移”,也是此前AI无法生成可持久交互的开放世界的核心瓶颈。

Lyra 2.0的核心解决思路非常直观:相当于给AI生成系统加了一套“全局记忆库”。winzheng.com Research Lab拆解官方公开的技术方案发现,框架运行过程中会实时维护每帧生成内容对应的3D几何数据,所有新生成的内容都会和记忆库中的已有数据做校准,避免出现前后冲突;同时配套自我增强训练机制,系统会把自己生成的正确内容作为训练数据迭代模型,进一步降低错误率。

赢政指数v6专项评估

winzheng.com Research Lab基于已公开的Demo资料,按照赢政指数v6方法论对Lyra 2.0做出初步评估:

  • 主榜core_overall_display维度:
    • 代码执行(execution):官方Demo显示1平方公里开放场景连续漫游2小时无内容冲突,相比上一代Lyra 1.0的12分钟漂移阈值,性能提升达900%,得分9.2/10
    • 材料约束(grounding):已验证可兼容实拍素材、文字prompt两类输入生成场景,可生成城市、自然、科幻等8类主流场景,得分8.9/10
  • 侧榜维度:
    • 工程判断(侧榜,AI 辅助评估):有效解决3D生成领域长期痛点,技术路线具备可复用性,得分8.7/10
    • 任务表达(侧榜,AI 辅助评估):根据NVIDIA公开的测试数据,生成内容与输入prompt匹配度达92%,高于行业平均水平72%,得分8.5/10
  • 准入门槛:诚信评级pass
  • 运行信号:目前公开测试样本量不足100小时,稳定性、可用性维度暂不纳入评估

行业影响:重构开放世界内容生产链路

本次Lyra 2.0的发布已经引发游戏开发、虚拟现实社区的高度关注。winzheng.com行业调研数据显示,当前3A级开放世界游戏的场景制作成本占总研发成本的45%左右,以2023年发售的某开放世界大作为例,300人规模的美术团队耗时3年才完成全部场景制作。如果Lyra 2.0的生成效果达到商用标准,预计可将开放世界场景的制作效率提升5-10倍,成本降低70%以上。

除游戏领域外,该技术在数字孪生城市、工业仿真、元宇宙场景搭建等领域的应用空间也十分广阔。国内某VR内容开发商负责人对winzheng.com表示,此前做10平方公里的数字孪生城市场景需要20人团队做6个月,若Lyra 2.0可实现输入城市规划图直接生成可交互场景,工期可压缩到1个月以内。

待验证不确定性:商用落地仍有未知数

值得注意的是,目前NVIDIA仅公开了Lyra 2.0的核心技术路线和Demo效果,核心商用参数仍未明确,主要不确定性包括三个方面:

  • 硬件要求:未公开运行该框架需要的GPU型号、显存门槛,不确定消费级显卡是否可支持本地部署
  • 生成速度:未公开单帧生成耗时,不确定是否可满足实时交互的需求
  • 引擎适配:未公开与Unity、Unreal Engine等主流游戏引擎的集成方案,不确定是否可无缝接入现有开发流程

winzheng.com作为AI专业门户,始终秉持“技术先行、验证为准”的内容价值观,我们的Research Lab已经向NVIDIA申请了Lyra 2.0的测试权限,待官方开放测试后将第一时间发布全维度跑分、适配性验证报告,为行业从业者提供客观、可落地的技术参考。