Stability AI发布新音频模型，能搞6分钟长的歌了

buildersonglab · 2026 年5 月 22 日 02:05

Stability AI，就是搞Stable Diffusion的那家公司，又整了个新的音频模型系列，叫Stability Audio 3.0。他们号称，最顶配的那个模型能生成超过6分钟的专业级音乐。

这次在Stable Audio 3.0名下放了四个新模型：小特效模型（4.59亿参数）、小模型（4.59亿参数）、中模型（14亿参数）和大模型（27亿参数）。两个小模型适合在设备上生成最长两分钟的音效和音乐。

中模型和大模型都能搞出6分20秒的完整曲子，而且能保持音乐结构和旋律调性。这比他们2024年发布的Stable Audio 2.0能生成的长度翻了一倍还多。

Stability AI这次把小特效、小、中这三个模型都开放了权重，谁都可以用和改。2024年他们放出的那个Stable Audio Open，最多只能生成47秒的音乐。跟之前的开源版本比，这次的新模型系列算是迈进了一大步。

大模型只能通过API和付费的自托管服务来用。另外，年收入超过一百万美元的公司得去搞个企业许可证。

现在好多公司，比如Google和ElevenLabs，都在搞音乐生成的模型和工具。不过，从Suno和Udio正在打的官司就能看出来，数据授权和跟音乐厂牌的合作，可能成了这些服务能不能长期活下去的关键。

去年，Stability AI跟华纳音乐和环球音乐都签了协议，一块开发模型和音乐创作工具。公司说他们这套最新的音频模型，就是用完全获得授权的数据训练出来的。

这家AI初创公司还在为专业音乐人开发一套新产品，但具体有啥功能没细说。前Universal Audio和Fender的首席数字官Ethan Kaplan加入了他们，负责领导专业音乐这块的业务。

不少AI公司都在招音乐行业的高管来给自己背书。今年早些时候，Suno就聘了前Merlin的CEO Jeremy Sirota当首席商务官。ElevenLabs也从独立音乐发行商Kobalt挖来了Derek Cournoyer，负责他们音乐业务的战略。

（后面是作者信息和一些声明，跟新闻内容关系不大，我就不转了）

fastluolog · 2026 年5 月 22 日 02:26

这东西也就那样，大厂玩剩下的。

web_gu_io · 2026 年5 月 22 日 02:44

小白问一下，这个模型的效果是不是比Suno要好？我不太确定，因为没看到实际的例子，光说长度有啥用。

overfit_wang · 2026 年5 月 22 日 03:20

又来这种帖子了，整天发布新模型新版本，实际用起来还不是一坨，生成的东西能听吗？也就骗骗投资人。

aigc_chuangzuo · 2026 年5 月 22 日 03:50

要生成长音乐的话，用他们的API，先注册账户获取密钥，然后按照文档调用/audio/generation端点，记得设置duration参数和prompt。

secpanpro · 2026 年5 月 22 日 04:48

“完全获得授权的数据训练出来的”这个具体是什么意思？是指他们买的曲库版权吗？还是跟厂牌合作后，厂牌提供了内部的未发行素材？训练集规模有多大？这个对生成质量影响很大吧，感觉帖子说得太模糊了。

linux_zhu_run · 2026 年5 月 22 日 06:10

上次用他们的2.0版本试过，生成了一个两分钟的电子乐loop，旋律倒是挺连贯的，但鼓点特别平，缺乏变化，整体听起来很“AI”，不知道这次3.0在音乐动态和情感上有没有改进。感觉长音频最难的不是长度，而是怎么让6分钟一直吸引人听下去不无聊。

net_cao_coder · 2026 年5 月 22 日 07:08

mark，等一个本地部署教程。

zencaox · 2026 年5 月 22 日 08:36

Ethan Kaplan这人我知道，之前在Universal Audio干过，搞硬件和软件生态的，Fender那边也是弄数字吉他课那些。Stability把他挖过来，看来是真想在专业音乐制作领域插一脚，不只是做点玩具级别的AI生成了。他们说要开发的新产品，我猜会不会是类似Ableton Live那种DAW的AI插件，或者跟主流音频工作站深度整合？

data_liu · 2026 年5 月 22 日 10:04

哈哈，最近怎么这么多AI音乐的新闻，我都看花眼了。话说生成个6分钟的歌，能用来当短视频BGM不？是不是得调很多参数才行，感觉好麻烦。

moxun_wu · 2026 年5 月 23 日 03:08

不能这么说，授权数据集这块Stability比同行确实下了血本

yinpinguai · 2026 年5 月 29 日 04:52

比Suno强一点点，但音乐性还差口气，工业感太重

xunlong98 · 2026 年6 月 2 日 08:28

6分钟长度够用了关键是动态变化做得行不行

zhonggui · 2026 年6 月 7 日 08:00

完全授权听着很美但训练集规模没公布心里没底

cheng_ying · 2026 年6 月 7 日 08:14

6分钟长歌能不能保持主题一致才是重点，loop谁都会拼

cuiyan8 · 2026 年6 月 7 日 08:52

2.0鼓点平这个吐槽我懂，3.0说改了节奏层，等实测