ac米兰pp体育
AI都会写灵魂Rap了?Transformer跨界说唱,节奏、流畅度都不在话下
2024-08-02

  Rapper 要酝酿一整天的歌词,AI 大概几分钟就可以写出来。

  给您一段 Rap,您能看得出这是 AI 写的吗?

  认真品尝,还能发觉这段词中的美中不足之处,但这作词程度可以说是不错的。

  一样的第一句,能够疾速生成完整差别的段落:

  人类Rapper的双押,仍是更利害一点:

  只需要给定一句输入,AI 就可以生成整首歌词。由压韵、流利度、节拍层面,根本不逊于人类 Rapper。

  这项研讨来源于港科大、清华、复旦等机构,正在这篇论文中,研讨者提出了一个基于 Transformer 的 Rap 生成体系「DeepRapper」,该体系能够与此同时摹拟 Rap 的韵律和节拍。

  论文链接:

AI都会写灵魂Rap了?Transformer跨界说唱,节奏、流畅度都不在话下

  因为没有现成可以用的节拍对齐的 Rap 数据集,为了构建这个体系,研究者设计了一个数据发掘 pipeline,并收集了一个大规模的 Rap 数据集举行韵律建模。

  一开始,研究者先从网上抓取了很多包罗歌词和音频的说唱歌曲,并对每一首抓取的说唱歌曲开展一系列数据预处理步调。为了更好地建模,研究者以自回归的体式格局从右到左生成每一句 Rap,如许就能够很容易地识别出一个句子的最终一些单词 (即反向句子的第一个单词) 来压韵。

  别的,为了进一步进步 Rap 的压韵质量,研究者正在言语模子中加入了一些压韵表征,并正在推理过程中经过压韵束缚来进步生成的 Rap 中的 N-gram 韵律。

  研究者运用一个特别的符号 [ BEAT ] 来透露表现有节奏的节奏,并将其插入到相应的词之前的歌词中。根据这类方法,能够正在练习和生成层面根据歌词的按次来模仿节奏。

  受到预锻炼言语模子的乐成启示,研究者将预锻炼归入体系。为了得到大规模的预锻炼数据,研究者还使用了数据发掘 pipeline 收集了别的两个数据集:

  1)节奏对齐的非说唱歌曲,它能够比说唱数据集更大,由于非说唱歌曲比说唱歌曲更通用; 2)纯歌词,一样比非说唱歌曲数据集更大。

  正在预锻炼阶段,研究者基于以上两个数据集对 DeepRapper 模子进行了预锻炼,然后调剂模子正在说唱歌曲取调剂节拍上的性能,微调模子即适用于终究的说唱发生。客观评价和主观评价的实验后果皆证明了 DeepRapper 正在生成压韵和节拍的说唱歌词方面的上风。

 Rap 数据集

  从前适用于 rap 生成的作品(Potash 等人,2014 年;Liang 等人,2018 年;Nikolov 等人,2020 年)平常运用只有歌词的说唱数据集,而没有斟酌节奏节奏信息。为了正在 rap 生成中建模节奏,说唱数据集该当包罗具有对齐节奏节奏的歌词。然而,节奏对齐很难实现,由于它们的解释需求专业音乐家来辨认说唱歌曲中的重读音节。

  因而,为了办理这个题目,研究者设计了一个数据发掘 pipeline 来主动提取 beatlyric 对齐。

  数据发掘 pipeline

  下图 1 展现了数据发掘 pipeline 的团体框架,包括 5 个步调:数据抓取、人声(vocal)取伴奏别离、人声取歌词对齐、节奏检验和歌词取节奏对齐。

  发掘数据集

  基于上图数据发掘 pipeline,研究者得到了一个具有对齐节奏的说唱歌词(rap lyric)数据集,并命名为 D-RAP。该数据集知足了构建具有韵律和节奏的 rap 生成体系的请求。他们以 4:1 的比例将 D-RAP 数据集划分为锻炼和考证集。

  取一样平常歌曲相比,说唱气概的歌曲数目常常较少,因而研究者发掘了别的两个数据集,以利用雷同的发掘 pipeline 对 DeepRapper 模子举行预锻炼,它们分别是具有对齐节奏的非说唱歌曲数据集 D-SONG 和没有对齐节奏的纯歌词数据集 D-LYRIC。

  研究者正在下表 1 中对这三个数据集包罗的歌曲数目和歌词句子数目进行了统计。

  下图 2 展现了 D-RAP 数据集合具有对齐节奏的说唱歌曲示例。

  Rap 生成模子

  如下图 3 所示,研究者展现了 rap 生成模子的团体架构和韵律和节拍建模的细节。

  详细地,研究者运用 Transformer 构建了一个适用于 rap 生成的自回归言语模子,并引入了以下一些新的对齐:

  1)为了更好地建模韵律,该模子从左往右生成歌词句子,这是由于压韵字一般位于句子末端;

  2)如前所述,节拍关于 rap 结果至关重要,因此插入了一个特别的 token [BEAT]来举行显式节拍建模;

  3)取唯一词嵌入和位置嵌入的原始 Transformer 分歧,研究者加加了多个分外嵌入以更好地建模韵律和节拍。

  实验评价

  下表 2 展现了 DeepRapper 的客观取主观评价后果,并取两个 baseline 进行了对照。baseline 模子是一个尺度的自回归言语模子,取 DeepRapper 的模子设置不异,但没有本文提出的韵律模子(+PT 的意义是采用了预锻炼)。客观评价后果的维度包含 perplexity、韵律准确性和韵密度;主观评价维度包含主题、流通度、压韵质量和压韵多样性。

  为了突出 DeepRapper 正在建模 N-gram 韵律中的上风,研究者运用 Combo-N 来襟怀 DeepRapper 中每一个设计建模 N-gram 韵律的才能。后果如下表 4 所示:

  为了更好地器量节奏质量,研究者别离利用 DeepRapper 和具有节奏频次操纵的 DeepRapper 随机生成了约莫 5000 个样本。他们提出了一阶分布(First Order Distribution, FOD)和二阶分布(Second Order Distribution, SOD),并器量了生成样本取 DRAP 数据集之间分布的间隔。

  研究者将当前 [BEAT] 的隔断界说为当前 [BEAT] 取下个 [BEAT] 之间的歌词数目。是以,FOD 被界说为当前 [BEAT]隔断的分布,SOD 被界说为当前 [BEAT]取下个 [BEAT]之间隔断差的分布。隔断的数值区间为[0, 1],详细成果如下表 5 所示:

  下图 6 中,研究者展现了生成的 rap 歌曲示例,能够看得出 DeepRapper 的生成结果还不错。

Baidu
map