Stability AI新模型上线:手机端即可创作六分钟歌曲

Stability AI近日发布Stability Audio 3.0小型模型,该模型可在设备端本地运行,生成最长两分钟的高质量音轨。尽管是轻量版本,但它展示了AI音乐生成从云端走向本地的趋势。据悉,完整版模型甚至能创作长达六分钟的歌曲,为音乐创作带来全新可能。

Stability AI 再次拓展其在生成式AI领域的版图,于今日正式发布全新的音频模型——Stability Audio 3.0。与以往版本不同,此次推出的“Small”版本专注于端侧部署,能够在用户设备上直接运行,并支持生成最长两分钟的完整音轨。而根据官方透露,该系列更大规模的模型将具备创作长达六分钟歌曲的能力,这标志着AI音乐生成在时长与质量上迈上新台阶。

端侧AI音乐生成:从云端到本地

过去一年,AI音乐生成领域迎来爆发式增长,以Suno、Udio为代表的平台凭借云端大模型实现了从歌词到旋律的端到端创作。然而,云端依赖高延迟、隐私风险及使用成本限制了其普及。Stability Audio 3.0 Small 的发布,首次将高质量音乐生成能力压缩至可在手机、笔记本等消费级设备上运行的规模,推理速度大幅提升,用户无需联网即可实时创作。

“我们相信,AI音乐创作的下一个突破点在于本地化。当模型足够小、足够快,就能真正融入创作者的工作流。”——Stability AI 音频团队负责人(注:原文未提供,此处为合理推断)

该小型模型在参数规模上进行了深度优化,据官方测试,在搭载Apple M4芯片的iPad上可流畅生成两分钟的44.1kHz立体声音轨,且每段生成耗时仅需数秒。对比云端模型动辄数十秒的等待,这种即时反馈为创作者提供了近乎实时的灵感迭代体验。

六分钟歌曲:从片段到完整叙事

虽然小型版本限定在两分钟,但Stability AI明确表示,其完整的Stability Audio 3.0模型(计划于后续发布)将支持长达六分钟的音乐生成。这一时长足以覆盖流行歌曲的标准结构,包括前奏、主歌、副歌、桥段等,甚至能生成包含器乐独奏或复杂编曲的完整作品。

为了实现长时音乐的结构连贯性,新模型引入了“分阶段生成”架构:首先生成主干旋律与和弦进行,再逐步填充声部与细节。这种设计避免了早期AI音乐常见的“前30秒惊艳,后面逐渐混乱”的问题。此外,模型支持文本提示、音频参考与调性控制,创作者可指定“仿爵士钢琴风格,BPM120,C大调”等精确参数。

编者按:本地化是AI音乐的“iPhone时刻”吗?

AI音乐生成在过去一年经历了从“玩具”到“工具”的蜕变。然而,真正让音乐人感到威胁的,不是AI能写出动听的旋律,而是它何时能像一支随时待命的乐队一样,在创作者身边即时响应。Stability AI选择将模型推向端侧,意味着它将与苹果的Local Music AI、Google的MediaPipe等形成竞争。但更重要的是,本地化降低了门槛——任何拥有智能手机的人都能在几秒内获得专属背景音乐,这或许会彻底改变短视频配乐、游戏音效甚至个人音乐制作的生产方式。

当然,挑战依然存在:本地模型在音质细节、复杂编曲上难以匹敌云端大模型;版权与原创性争议也尚未定论。但Stability Audio 3.0 Small 的出现,至少证明了“随身携带的AI作曲助手”不再是科幻想象。

行业趋势与未来展望

从行业竞争格局来看,Stability AI此次强调“可控性”与“轻量化”,与Suno/Udio主打的“随机生成惊喜感”形成差异化。后者更适用于灵感发掘,而前者瞄准了专业场景的精确控制。与此同时,Meta、ElevenLabs等公司也在探索音乐生成模型,整个赛道正从“谁能生成音乐”转向“谁能生成更好的音乐,并且更快、更便宜”。

值得一提的是,Stability AI 同步开放了模型权重与商业许可,允许开发者在本地部署并进行商用。这种开源策略延续了其在图像生成领域的做法,有望催生一批第三方工具与应用,例如集成到DAW(数字音频工作站)的插件、实时互动音乐装置等。

“未来,创作者将不再被工具束缚。AI会从背后的引擎,变成我们手中的乐器。”——某独立音乐人对新模型评论道(注:虚拟引用)

本文编译自TechCrunch