1.1.4 音乐生成

生成式人工智能在音乐生成领域的应用可以追溯到20世纪50年代,当时的学者们在算法合成领域开展了相关研究,并将算法用于生成音乐作品。事实上,1957年,Lejaren Hiller和Leonard Isaacson创作了弦乐四重奏——Illiac Suite,这是第一首完全由人工智能创作的音乐作品。自此,学者们一直在研究如何使用人工智能生成音乐。在最近几年的发展中,新的架构和框架已经得到广泛应用,例如,谷歌在2016年推出的WaveNet架构能够生成高质量的音频样本;谷歌开发的Magenta项目使用递归神经网络(Recurrent Neural Network,RNN)和其他机器学习技术来生成音乐及其他形式的艺术作品;OpenAI于2020年推出的能生成音乐的神经网络系统Jukebox,可以根据音乐和声乐风格、类型和参考艺术家等信息自定义输出。

这些框架和其他框架为开发用于音乐生成的“人工智能作曲助手”奠定了基础。由Sony CSL研究开发的Flow Machines就是一个示例,这个生成式人工智能系统经过大量音乐作品数据库训练后,可生成各种风格的新音乐。法国作曲家Benoît Carré用Flow Machines创作了一张名为“Hello World”的专辑(参见Hello World网站),这张专辑收录了Flow Machines与几位人类音乐家合作的乐曲。

图1.6所示的是一首完全由Music Transformer(Magenta项目中的一个模型)生成的曲目。

图1.6 Music Transformer生成的曲目

在音乐领域,生成式人工智能的另一卓越应用是语音合成。事实上,有许多人工智能工具可以用知名歌手的声音作为输入来生成音频。例如,你想听Kanye West演唱某首歌曲的效果,便可以用诸如FakeYou、Deep Fake Text to Speech、UberDuck等工具来实现这一梦想,如图1.7所示。

图1.7 使用UberDuck进行文本转语音合成

不得不说,合成效果的确令人震撼。你甚至可以选用各种卡通人物(例如小熊维尼等)的声音来合成歌曲。

接下来,我们介绍生成式人工智能在视频生成领域的应用。