Stability AI发布新音频模型,能搞6分钟长的歌了

Stability AI,就是搞Stable Diffusion的那家公司,又整了个新的音频模型系列,叫Stability Audio 3.0。他们号称,最顶配的那个模型能生成超过6分钟的专业级音乐。

这次在Stable Audio 3.0名下放了四个新模型:小特效模型(4.59亿参数)、小模型(4.59亿参数)、中模型(14亿参数)和大模型(27亿参数)。两个小模型适合在设备上生成最长两分钟的音效和音乐。

中模型和大模型都能搞出6分20秒的完整曲子,而且能保持音乐结构和旋律调性。这比他们2024年发布的Stable Audio 2.0能生成的长度翻了一倍还多。

Stability AI这次把小特效、小、中这三个模型都开放了权重,谁都可以用和改。2024年他们放出的那个Stable Audio Open,最多只能生成47秒的音乐。跟之前的开源版本比,这次的新模型系列算是迈进了一大步。

大模型只能通过API和付费的自托管服务来用。另外,年收入超过一百万美元的公司得去搞个企业许可证。

现在好多公司,比如Google和ElevenLabs,都在搞音乐生成的模型和工具。不过,从Suno和Udio正在打的官司就能看出来,数据授权和跟音乐厂牌的合作,可能成了这些服务能不能长期活下去的关键。

去年,Stability AI跟华纳音乐和环球音乐都签了协议,一块开发模型和音乐创作工具。公司说他们这套最新的音频模型,就是用完全获得授权的数据训练出来的。

这家AI初创公司还在为专业音乐人开发一套新产品,但具体有啥功能没细说。前Universal Audio和Fender的首席数字官Ethan Kaplan加入了他们,负责领导专业音乐这块的业务。

不少AI公司都在招音乐行业的高管来给自己背书。今年早些时候,Suno就聘了前Merlin的CEO Jeremy Sirota当首席商务官。ElevenLabs也从独立音乐发行商Kobalt挖来了Derek Cournoyer,负责他们音乐业务的战略。

(后面是作者信息和一些声明,跟新闻内容关系不大,我就不转了)

这东西也就那样,大厂玩剩下的。

小白问一下,这个模型的效果是不是比Suno要好?我不太确定,因为没看到实际的例子,光说长度有啥用。

又来这种帖子了,整天发布新模型新版本,实际用起来还不是一坨,生成的东西能听吗?也就骗骗投资人。

要生成长音乐的话,用他们的API,先注册账户获取密钥,然后按照文档调用/audio/generation端点,记得设置duration参数和prompt。

“完全获得授权的数据训练出来的”这个具体是什么意思?是指他们买的曲库版权吗?还是跟厂牌合作后,厂牌提供了内部的未发行素材?训练集规模有多大?这个对生成质量影响很大吧,感觉帖子说得太模糊了。

上次用他们的2.0版本试过,生成了一个两分钟的电子乐loop,旋律倒是挺连贯的,但鼓点特别平,缺乏变化,整体听起来很“AI”,不知道这次3.0在音乐动态和情感上有没有改进。感觉长音频最难的不是长度,而是怎么让6分钟一直吸引人听下去不无聊。

mark,等一个本地部署教程。

Ethan Kaplan这人我知道,之前在Universal Audio干过,搞硬件和软件生态的,Fender那边也是弄数字吉他课那些。Stability把他挖过来,看来是真想在专业音乐制作领域插一脚,不只是做点玩具级别的AI生成了。他们说要开发的新产品,我猜会不会是类似Ableton Live那种DAW的AI插件,或者跟主流音频工作站深度整合?

哈哈,最近怎么这么多AI音乐的新闻,我都看花眼了。话说生成个6分钟的歌,能用来当短视频BGM不?是不是得调很多参数才行,感觉好麻烦。

不能这么说,授权数据集这块Stability比同行确实下了血本

比Suno强一点点,但音乐性还差口气,工业感太重

6分钟长度够用了 关键是动态变化做得行不行

完全授权听着很美 但训练集规模没公布心里没底

6分钟长歌能不能保持主题一致才是重点,loop谁都会拼

2.0鼓点平这个吐槽我懂,3.0说改了节奏层,等实测