Stability AI新模型上线：手机端即可创作六分钟歌曲

2026年05月21日 348 约5分钟 TechCrunch

Stability AI 音频模型音乐生成 AI创作端侧AI

Stability AI 再次拓展其在生成式AI领域的版图，于今日正式发布全新的音频模型——Stability Audio 3.0。与以往版本不同，此次推出的“Small”版本专注于端侧部署，能够在用户设备上直接运行，并支持生成最长两分钟的完整音轨。而根据官方透露，该系列更大规模的模型将具备创作长达六分钟歌曲的能力，这标志着AI音乐生成在时长与质量上迈上新台阶。

端侧AI音乐生成：从云端到本地

过去一年，AI音乐生成领域迎来爆发式增长，以Suno、Udio为代表的平台凭借云端大模型实现了从歌词到旋律的端到端创作。然而，云端依赖高延迟、隐私风险及使用成本限制了其普及。Stability Audio 3.0 Small 的发布，首次将高质量音乐生成能力压缩至可在手机、笔记本等消费级设备上运行的规模，推理速度大幅提升，用户无需联网即可实时创作。

“我们相信，AI音乐创作的下一个突破点在于本地化。当模型足够小、足够快，就能真正融入创作者的工作流。”——Stability AI 音频团队负责人（注：原文未提供，此处为合理推断）

该小型模型在参数规模上进行了深度优化，据官方测试，在搭载Apple M4芯片的iPad上可流畅生成两分钟的44.1kHz立体声音轨，且每段生成耗时仅需数秒。对比云端模型动辄数十秒的等待，这种即时反馈为创作者提供了近乎实时的灵感迭代体验。

六分钟歌曲：从片段到完整叙事

虽然小型版本限定在两分钟，但Stability AI明确表示，其完整的Stability Audio 3.0模型（计划于后续发布）将支持长达六分钟的音乐生成。这一时长足以覆盖流行歌曲的标准结构，包括前奏、主歌、副歌、桥段等，甚至能生成包含器乐独奏或复杂编曲的完整作品。

为了实现长时音乐的结构连贯性，新模型引入了“分阶段生成”架构：首先生成主干旋律与和弦进行，再逐步填充声部与细节。这种设计避免了早期AI音乐常见的“前30秒惊艳，后面逐渐混乱”的问题。此外，模型支持文本提示、音频参考与调性控制，创作者可指定“仿爵士钢琴风格，BPM120，C大调”等精确参数。

编者按：本地化是AI音乐的“iPhone时刻”吗？

AI音乐生成在过去一年经历了从“玩具”到“工具”的蜕变。然而，真正让音乐人感到威胁的，不是AI能写出动听的旋律，而是它何时能像一支随时待命的乐队一样，在创作者身边即时响应。Stability AI选择将模型推向端侧，意味着它将与苹果的Local Music AI、Google的MediaPipe等形成竞争。但更重要的是，本地化降低了门槛——任何拥有智能手机的人都能在几秒内获得专属背景音乐，这或许会彻底改变短视频配乐、游戏音效甚至个人音乐制作的生产方式。

当然，挑战依然存在：本地模型在音质细节、复杂编曲上难以匹敌云端大模型；版权与原创性争议也尚未定论。但Stability Audio 3.0 Small 的出现，至少证明了“随身携带的AI作曲助手”不再是科幻想象。

行业趋势与未来展望

从行业竞争格局来看，Stability AI此次强调“可控性”与“轻量化”，与Suno/Udio主打的“随机生成惊喜感”形成差异化。后者更适用于灵感发掘，而前者瞄准了专业场景的精确控制。与此同时，Meta、ElevenLabs等公司也在探索音乐生成模型，整个赛道正从“谁能生成音乐”转向“谁能生成更好的音乐，并且更快、更便宜”。

值得一提的是，Stability AI 同步开放了模型权重与商业许可，允许开发者在本地部署并进行商用。这种开源策略延续了其在图像生成领域的做法，有望催生一批第三方工具与应用，例如集成到DAW（数字音频工作站）的插件、实时互动音乐装置等。

“未来，创作者将不再被工具束缚。AI会从背后的引擎，变成我们手中的乐器。”——某独立音乐人对新模型评论道（注：虚拟引用）

本文编译自TechCrunch

端侧AI音乐生成：从云端到本地

六分钟歌曲：从片段到完整叙事

编者按：本地化是AI音乐的“iPhone时刻”吗？

行业趋势与未来展望

相关推荐