一、天谱乐的基本情况
天谱乐是趣丸科技旗下唱鸭团队推出的全球首个多模态音乐生成大模型 。它集成了图片理解算法、旋律生成算法、视频理解算法、配器识别算法等多项先进技术,能够在长序列音乐语意建模和高质量音频空间建模方面实现技术突破,从而还原音乐音频在高维空间的连续信号表征 。用户仅需上传相册中的一张图片或一段不超过60秒的视频,即可生成与高度适配画面的带人声唱词的完整歌曲,其生成效果达到唱片发行级水准,并且还可以支持多种语言、多种曲风的生成 。
天谱乐大模型的功能多样。比如它具有音频生音乐的功能,用户点击几个音符或简单哼唱,就可以得到一首歌;在图片/视频生音乐方面表现出色,能生成与之高度匹配的BGM,并呈现30秒MV效果;提供个性化音乐创作体验,用户通过上传文本、图片或视频,可生成最长3.5分钟的歌曲或音乐;还拥有高契合度视频配乐功能,基于自研的画面情绪理解模型等领先技术,可以逐帧识别和理解视频画面的明暗、色彩、情绪的细微变化并生成高契合度的视频配乐;它能够理解音乐的和弦、旋律、歌词、演唱风格等复杂特征,且生成的人声效果非常接近真实人类的发音,无论是发音的清晰度还是语句的停顿,与真人无异;提供专家模式,对于专业人士,天谱乐提供了包括风格、和弦、BPM等专业选项,有更高的创作自由度;并且还提供音乐编辑功能,对生成的音乐进行编辑和调整以满足创作需求,如今已全面接入趣丸科技旗下唱鸭APP,面向所有用户开放 。
二、唱鸭团队介绍
唱鸭团队致力于打造音乐相关的产品,以独特的方式让用户与音乐进行互动。
唱鸭App是一款具有创新性的音乐应用,它抓住了弹唱这个切入点,为年轻人提供了新颖的音乐体验 。在唱鸭上,即使是不会任何乐器的用户,也可以通过不同颜色、不同位置的图标提示实现自弹自唱。与传统唱歌App不同的是,唱鸭只选取歌曲中的某一片段,用户通过选择乐器 + 清唱 + 鼓点 + 音效,就可以完成一个属于自己的原创曲目 。
唱鸭团队注重用户需求,不断优化产品功能并且积极探索新的发展方向。从最初的只拥有吉他和钢琴两种乐器,到现在已经拥有尤克里里、管弦乐、B - BOX、放克电钢等十几种流行乐器或伴奏音,还准备为用户提供更多创作工具,如利用一些歌曲中常见的和弦走向来进行歌曲创作,甚至考虑推出工具帮助用户实现与明星之间的和声等,以此来降低普通人参与到音乐创作中的门槛,将半创作性的能力赋予给普通人 [7]。
唱鸭App的用户群体主要为年轻人,其中超八成用户为00后。它在没有做大规模推广的情况下,就获得了年轻群体的喜爱,凭借独特的玩法和对年轻用户需求的把握,上线半年以来MAU(月活)都保持了月均超180%的增幅,平均用户使用时长为20分钟,在年轻人群中有着很高的接受度 。这种受众和影响力也为天谱乐的推广奠定了良好的用户基础。
三、多模态音乐生成大模型的特点
(一)多模态输入能力
-
文本输入 天谱乐能够理解用户输入的文字内容,用户输入创作想法相关的文字描述后,它可以准确地把握用户的创作意图,从而生成符合需求的音乐作品。例如输入“写一首关于孙悟空的歌,曲风比较激烈和战斗”,天谱乐就能生成一首摇滚风格且歌词带有齐天大圣、谁与争锋等贴合孙悟空战斗画面的歌曲。并且对于抽象和宽泛的文本描述,像是“创作一首空灵的歌曲,展现人类的渺小”,也能生成富有意境的音乐作品。同时,在文本生曲时还提供专家模式,有风格、和弦、BPM等专业选项,为专业人士提供更高的创作自由度 。
-
图片与视频输入 这是天谱乐的一项开创性功能,早于国外同类产品Suno三个月推出。它首创了能够根据图片或者视频生成音乐的功能。对于图片输入,模型能够识别图片中的各种元素、色彩、氛围等信息,基于这些信息生成与之相匹配的音乐。视频输入方面,基于自研的画面情绪理解模型等领先技术,它不仅可以根据视频画面的明暗、色彩、情绪的细微变化逐帧识别和理解,然后生成与视频高度适配的带人声唱词的完整歌曲。这种多模态输入的特点满足了不同用户对于音乐创作灵感来源的多样性需求,也大大拓展了音乐创作的边界 。
(二)对音乐特征的理解与生成能力
-
音乐复杂特征理解 天谱乐具有理解音乐中多种复杂特征的能力,如和弦、旋律、歌词、演唱风格等。这意味着它在生成音乐时会考虑到这些方面,使生成的音乐不仅在整体结构上合理,而且在细节上更符合音乐的专业要求和审美标准。
-
生成能力多样化 既能生成曲风丰富的纯音乐,也能够生成包含人声唱词的完整歌曲,歌曲最长可达到3.5分钟。再加上多种曲风的支持(包括中英文数十种曲风),可以满足不同用户对不同音乐类型的喜好和需求 。
(三)技术与性能的优势
-
多项先进算法集成 天谱乐集成了图片理解算法、旋律生成算法、视频理解算法、配器识别算法等多项先进技术。这些算法在各自的功能模块上发挥着关键作用,共同实现了从不同模态信息输入到音乐生成的复杂转换过程。例如图片理解算法能够分析图片的视觉信息,为音乐生成提供灵感依据,旋律生成算法确保生成的旋律符合音乐规律等。
-
技术突破实现高质量输出 可以在长序列音乐语意建模和高质量音频空间建模方面实现技术突破,从而还原音乐音频在高维空间的连续信号表征,这就使得生成的音乐在音质和音乐语义表达上达到较高的水准,生成效果能够达到唱片发行级水准,生成的人声效果也非常接近真实人类的发音,无论是发音的清晰度还是语句的停顿,都与真人无异 。
四、天谱乐的应用场景
(一)对于普通用户
-
个人创意表达与音乐创作体验 天谱乐为广大普通用户打开了音乐创作的大门,无论是否有音乐基础,都可以借助这个模型进行音乐创作。用户可以通过输入自己的想法(文本)、回忆(图片)或者生活片段(视频)生成属于自己的歌曲,表达个人情感和创意。例如在生活中的某个瞬间看到美丽的风景(可以拍摄为视频或者照片),通过天谱乐就能生成一首反映当时心境的音乐,实现独特的创意表达和个性化的音乐创作体验。并且由于其操作简单,降低了音乐创作的门槛,让更多的普通用户能够享受音乐创作的乐趣 。
-
唱鸭APP中的应用拓展 天谱乐全面接入趣丸科技旗下的唱鸭APP,这为唱鸭的用户带来了更丰富的功能。唱鸭原本就是一款吸引年轻人的音乐社交类应用,天谱乐的接入使得唱鸭用户能够在APP中利用其功能创作音乐,一方面用户可以在APP中分享自己创作的音乐作品,实现社交互动;另一方面,对于原本在唱鸭上只进行弹唱、演唱部分的用户,有了新的创作维度,可以从更多元的角度参与到音乐创作中来,提升用户对唱鸭APP的粘性和使用体验 。
(二)对于专业音乐人
-
提升创作效率 在音乐创作过程中,寻找灵感和制作小样等环节往往需要花费大量的时间。天谱乐可以根据专业音乐人输入的文本描述快速生成音乐作品,为他们在创作初期提供灵感来源或者快速制作出可供参考的小样。比如作曲家可以输入某段音乐的风格描述、情感表达等文字内容,快速获得一首相应风格的音乐小样,然后在这个基础上进行修改和完善,这种方式大大节省了创作时间,提升了创作效率 。
-
丰富创作手段 其多模态输入功能,尤其是图片和视频生成音乐的功能为专业音乐人提供了新的创作手段。例如在为影视创作配乐时,音乐人可以根据影片的片段、画面色彩、情绪氛围等元素,使用天谱乐根据视频生成音乐的功能,由此获得与画面贴合度较高的音乐灵感或者配乐初稿,再进行细致的音乐创作打磨,使得音乐与影视画面的结合更加紧密,也为音乐创作开拓了新的创作思路和方向 。
(三)在影视、广告、游戏等领域
-
定制化音乐制作 这些领域往往对音乐有特殊的定制化需求,需要音乐能够精确地配合画面内容、情节发展或者产品形象等。天谱乐可以利用其多模态输入功能和对画面情绪等的理解能力,快速为影视、广告、游戏等生成定制化的音乐。例如在游戏开发中,针对不同的游戏场景(如紧张的战斗场景、神秘的探索场景等),可以输入相应的游戏场景画面或者描述文字,以生成与之匹配的音乐,增强游戏的沉浸感;在影视制作中,可以根据影片的情节、画面色调等因素快速生成与之相适应的音乐,提升影片的整体质感;在广告制作中,为产品塑造特定的音乐氛围,提升产品形象和广告效果 [20][22]。
-
降低制作成本和提高制作速度 传统的音乐制作需要音乐人花费大量的时间从素材创作开始,到不断地调整以适配相应的项目内容。天谱乐能够快速生成符合要求的音乐,减少了人力投入和制作周期,从而达到降低制作成本的目的。同时,它的快速生成能力在面对紧张的项目时间表时,可以提高整个制作过程的速度,保证项目按时完成或是更快地推出产品上市,以适应市场竞争的周期和需求 。
五、天谱乐与其他音乐生成模型的比较
(一)与字节跳动豆包旗下海绵音乐对比
-
公司背景与模型定位方面
-
字节跳动是大型科技公司,海绵音乐作为其旗下的音乐生成模型,依托字节跳动强大的技术资源和平台影响力进行发展,覆盖的领域可能更广泛,且在整体的科技布局中有其特定的战略意义。而趣丸天谱乐是由趣丸科技推出,趣丸科技在音乐、音频领域有深入的耕耘,尤其旗下有TT语音等产品积累了大量用户,天谱乐更多地从垂直的音乐领域出发,专注于音乐创作相关功能的开发与优化。
-
-
功能特性差异
-
输入模态:天谱乐凭借多模态输入中图片和视频生成音乐的首创功能脱颖而出,这一功能为没有音乐基础的普通用户提供了直观的、可视化的音乐创作入口。而海绵音乐目前没有资料表明有类似的独特优势,可能更多的是在常规的文本、音频等输入方式下的音乐生成。
-
生成结果针对性:由于天谱乐在画面理解上的先进技术,如基于自研的画面情绪理解模型,生成的音乐在与视频画面的契合度方面表现优秀,特别适合短视频配乐等需要画面与音乐高度匹配的场景。对于海绵音乐,没有证据显示在这方面有特殊的针对性优化。
-
-
应用场景覆盖的区别
-
天谱乐已经在唱鸭APP上得到应用,并且在辅助短视频创作者创造背景音乐方面表现出色,同时由于其技术特点在影视、游戏等定制化音乐制作场景中有很好的应用前景。海绵音乐由于字节跳动的多元化业务布局,可能适用于字节跳动旗下多个平台的综合应用场景,但在垂直的音乐创作社交领域(如唱鸭APP这类)以及针对画面配乐的精准性上可能没有天谱乐那么专注。
-
(二)与昆仑万维旗下的天工SkyMusic对比
-
模型主体特性差异
-
多模态能力挖掘深度:天谱乐不仅具有基本的多模态音乐生成能力,而且在画面情绪理解(如视频画面的明暗、色彩、情绪的细微变化逐帧识别和理解)等方面技术领先,并且生成的音乐在曲风、歌词、演唱风格等多方面能实现精准匹配。天工SkyMusic虽然也是一个音乐生成大模型,但目前没有资料显示其在多模态与音乐生成结合的深度方面不输于天谱乐。
-
对用户分层的适用设计:天谱乐提供了专家模式,对于专业音乐人可提供风格、和弦、BPM等专业选项,提升专业创作自由度,同时针对普通用户又有较低的操作门槛,可以满足不同层次用户的需求。天工SkyMusic可能没有像天谱乐这样有明确的针对不同用户层次的功能区分设计。
-
-
商业化应用侧重不同
-
天谱乐因为其依托的趣丸科技在音乐、音频领域的长期积累,特别是在TT语音积累的大量用户基础,在商业化的道路上更加侧重于与自身业务相关的音乐创作社交场景,例如在唱鸭APP中的全面接入。而天工SkyMusic更多地作为昆仑万维旗下的新兴大模型厂商所推出的产品,可能在商业化上会侧重于整个市场的不同板块全面覆盖,与天谱乐相比在特定领域(如唱鸭APP所在的音乐创作社交圈)的应用黏性可能较弱。
-
(三)与国外同类产品Suno比较
-
创新性领先程度
-
天谱乐的图片和视频生成音乐功能比国外同类产品Suno早推出3个月,这体现了在创新性上的先发优势,能够更早地吸引用户和占领市场。而且在功能实现的质量上,比如根据视频画面生成音乐的质量(从画面情绪理解到音乐音乐的精准生成等方面)已经达到了较高的水平,可以和Suno这类国际产品竞争。
-
-
本地化及用户基础差异
-
天谱乐依托趣丸科技在国内的积累,例如其在国内的社交平台的用户导入(如TT语音积累的超2亿注册用户),在本地化服务、了解国内用户需求和习惯方面有先天优势。Suno主要从国际市场角度出发,可能在对国内的音乐创作市场喜好(如曲风流行趋势、歌词文化内涵等)的把握上不如天谱乐精准,并且在国内的市场推广没有天谱乐背后的趣丸科技那么强大的用户资源支撑。
-