谷歌Gemini应用新增音乐生成功能，支持文本图像视频输入

2026年02月19日 28 约4分钟 TechCrunch

谷歌Gemini AI音乐生成多模态AI 音乐AI 科技更新

谷歌近日宣布，为其旗舰AI应用Gemini新增音乐生成功能，这一更新让用户能够以文本、图像或视频作为输入参考，生成高质量的原创音乐片段。这一创新不仅扩展了Gemini的多模态能力，还将AI音乐创作推向更亲民、更直观的时代。

Gemini音乐生成功能的亮点

根据TechCrunch报道，用户只需在Gemini应用中输入简单文本提示，如“一段 upbeat 的电子舞曲，配以未来主义城市景观”，或上传一张日落海滩照片、一段跳舞视频，即可让AI瞬间生成对应的音乐轨道。生成的音乐支持多种风格，包括流行、古典、电子和民族音乐，且长度可达数分钟。用户还能通过迭代提示细调旋律、节奏或乐器，确保输出贴合个人创意。

Users will be able to use text, images, and videos as a reference to generate music.

这一功能基于谷歌内部的MusicLM和MusicFX模型进一步优化，结合Gemini 2.0的多模态架构，实现从视觉/文本到音频的无缝转换。不同于传统音乐生成工具仅依赖文本，Gemini的创新在于视觉输入的深度解析，例如从视频中提取动作节奏，或从图像中推断情绪氛围。

AI音乐生成领域的行业背景

AI音乐生成并非谷歌首创。早在2023年，Meta推出AudioCraft，Stability AI的Stable Audio紧随其后，而初创公司Suno和Udio则以用户友好界面迅速走红。这些工具已生成数亿首AI歌曲，甚至登上Spotify排行榜。然而，大多工具局限于文本提示，视觉输入仍属前沿。

谷歌的入局源于其在多模态AI的领先优势。Gemini系列自推出以来，已支持图像生成（Imagen 3）和视频理解，此次音乐扩展完善了其“全能AI”定位。同时，2025年以来，行业监管趋严，如欧盟AI法案对生成内容标注的要求，谷歌已内置水印机制，确保音乐输出可追溯。

数据显示，2025年全球AI音乐市场规模超50亿美元，预计2028年达200亿。谷歌此举瞄准消费级市场，挑战Suno等专有工具，并与YouTube Shorts、Google Photos深度整合，用户可一键为短视频配乐。

本文由 赢政天下 独家编译 - 转载请注明来源。

技术实现与用户体验升级

从技术角度，Gemini音乐生成采用扩散模型（Diffusion Models）和Transformer架构融合。首先，输入的多模态数据经CLIP-like编码器统一嵌入空间；然后，音乐解码器生成波形，支持高保真44.1kHz输出。测试显示，其生成速度仅需10-30秒，远超竞品。

用户界面简洁：在Gemini移动端或网页版，选择“音乐生成”模式，上传/描述输入，即见波形预览与播放按钮。高级用户可导出MIDI文件，进一步编辑。谷歌强调隐私，所有生成本地化处理，不上传云端训练。

编者按：AI音乐将如何重塑创意产业？

作为AI科技新闻编辑，我认为Gemini音乐功能不仅是技术炫技，更是创意民主化的里程碑。过去，音乐创作门槛高企，需要专业设备和技能；如今，任何人皆可“导演”一曲专属BGM。这将赋能独立音乐人、TikTok创作者和教育场景，但也引发版权担忧——AI训练数据多源于人类作品，如何平衡创新与权益？

展望未来，随着Gemini与其他谷歌生态（如Android Auto车载音乐生成）融合，AI或将成为“个人作曲家”。然而，行业需警惕“AI疲劳”：过度泛滥的同质音乐可能稀释人类原创价值。谷歌应加强伦理引导，推动可持续生态。

总体而言，此更新巩固谷歌在生成AI竞赛中的领先，值得开发者与用户密切关注。

本文编译自TechCrunch，作者Ivan Mehta，日期2026-02-19。

Gemini音乐生成功能的亮点

AI音乐生成领域的行业背景

技术实现与用户体验升级

编者按：AI音乐将如何重塑创意产业？

相关推荐