Bootstrap

A Survey of AI Music Generation Tools and Models(2023.08)音乐生成工具和模型综述部分翻译

A Survey of AI Music Generation Tools and Models

综述 AI音乐生成工具和模型综述

一作:Yueyue Zhu 波士顿大学大都会学院计算机科学系

本篇论文是主要调研了目前的音乐生成工具模型,包含已有的研究项目和商业应用。

论文将音乐生成方法分为三类:

  1. 基于参数 parameter-based
  2. 基于文本 text-based
  3. 基于视觉 visual-based

2 音乐作品概念主要探讨有助于音乐作品结构和组织的基本概念。理解它们之间的相互作用对于开发人工智能生成的音乐工具至关重要。

3.1 描述了论文的数据收集方法

3.2 音乐生成工具的分类

3.2.1 非神经网络方法

3.2.2 基于神经网络的方法

4 基于参数的音乐生成工具

5 基于prompt的音乐生成工具

6 基于视觉的音乐生成工具

7 商用音乐生成工具

8 结论

在这项工作中,我们提供了一个全面的人工智能音乐生成工具调查,包括研究项目和商业化应用。为了进行我们的分析,我们将音乐生成方法分为三类:基于参数的、基于文本的和基于视觉的类别。我们的调查强调了这些工具的多样性可能性功能特点,它们适用于从普通听众到专业音乐家的广泛用户群体。我们观察到每个工具都有其自身的优势和局限性。因此,我们编制了一个全面的因素列表,这些因素应在工具选择过程中考虑。此外,我们的调查提供了对人工智能音乐生成背后机制和挑战的关键洞察。

1 引言

音乐是人类文化不可分割的一部分,几个世纪以来,它已经显著地发展,适应不同的文化、风格和技术。随着人工智能(AI)和机器学习的进步,模型生成音乐也经历了一个范式转变。人工智能音乐生成工具为音乐家和作曲家提供了新颖创造性的方式来创作音乐,这不仅促进了用户音乐意图的表达,也对他们的创造所有权和与AI技术合作的信心产生了重大影响。这些工具使用机器学习算法从大型音乐数据集中学习,旨在生成与人类创作的音乐无法区分的新音乐作品。

自2012年以来,深度神经网络(也称为深度学习)的出现在包括人工智能音乐生成在内的多个计算机科学领域引起了革命。一些深度学习模型可以生成短期的音符序列,但通过最近的神经网络架构(如MusicVAE[76]和TransformerVAE[46])以及生成模型(如去噪扩散概率模型Denoising Diffusion Probabilistic Models)的发展,创造更长的旋律成为可能。然而,这些模型生成的长的复调旋律不一定遵循一个中心主题,并且可能需要一个方向感。深度学习模型已被用于和声化,生成伴随给定旋律的和声,以及风格转换技术已被用于将一种确定风格的音乐转换成另一种风格。Briot, Jean-Pierre等人[9]讨论了直接将深度学习应用于音乐生成的局限性,包括缺乏创造力和控制以及在作曲过程中需要人类互动。数据驱动的AI模型有时倾向于产生现有模式的变体,而不是完全原创的作品[9]。这种限制源于它们对训练数据的依赖,这本质上限制了它们的创造性输出

在这项调查中,我们首先解释了音乐生成中常见的基本术语,这些术语也适用于人工智能生成的音乐。然后,我们将探索人工智能音乐生成工具和模型的当前状态,评估它们的功能并讨论它们的局限性。最后,通过分析最新的工具和技术,我们旨在提供对基于人工智能的音乐作曲潜力的全面理解,以及必须解决的挑战,以提高它们的性能。

在这项调查中,我们首先解释了音乐生成中常见的基本术语,这些术语也适用于人工智能生成的音乐。然后,我们将探索人工智能音乐生成工具和模型的当前状态,评估它们的功能并讨论它们的局限性。最后,通过分析最新的工具和技术,我们旨在提供对基于人工智能的音乐作曲潜力的全面理解,以及必须解决的挑战,以提高它们的性能。

这项调查旨在提供人工智能音乐生成工具和模型的概览包括它们的能力和局限性。我们首先向不熟悉音乐作曲的读者解释概念。然后,我们描述我们的方法。特别是,我们首先解释我们的数据收集方法。接着,我们列出了不使用神经网络生成音乐的传统方法。接下来,我们将检查当今可用的常见基于人工智能的音乐生成工具。这些工具是开源的,已被多个研究人员和开发人员用来创建人工智能生成的音乐。然而,我们审查的模型中只有一部分是开源的,在这种情况下,我们依赖官方演示或解释进行比较。这项工作的范围仅限于使用机器学习算法创建音乐的人工智能音乐生成工具和模型。我们不会涵盖人工智能在音乐中的更广泛应用,如音乐分类、推荐系统和音乐分析。

2 音乐作品概念Music Composition Concepts

在本节中,我们将探讨有助于音乐作品结构和组织的基本概念。理解它们之间的相互作用对于开发人工智能生成的音乐工具至关重要。

Tone音调是一种具有明确音高的声音,它的特征包括频率、振幅和音色。音调是音乐创作中的基本单位,能够用于构建旋律、和弦以及其他音乐结构。

**Pitch音高(调)**表示声音的感知频率,决定了它在高低频谱上的位置。音乐作品通常是在特定的音高上创作的,这确立了音调中心并决定了音符之间的关系。

Timbre音色通常被称为声音的音调色彩或音质,它是区分不同声音来源的特性,即使它们具有相同的音高和音量。

Harmony和声指的是不同音高或音调的同时组合,这种组合能为听者带来愉悦的听觉感受。

Chords和弦是指同时演奏的一组音符,它们构成了音乐中和声的基础。

Tempo节奏指的是音乐作品演奏的速度Tempo indicates the speed at which a musical composition is performed,通常以每分钟节拍数(BPM)来衡量。节奏可以显著影响一部作品的气氛和情感影响力,较快的节奏通常与兴奋或活力相关联,而较慢的节奏则与平静或悲伤相联系。人工智能生成的音乐工具可以策略性地调整节奏,以唤起听众的特定情感使生成的作品符合所需的情绪或感觉

Volume音量表示声音的响度,它与声音的振幅或强度密切相关。音量是一个标量,代表传输的声能大小,通常以分贝(dB)为单位进行测量。

Style风格涵盖了作曲家或表演者在创作中所采用的独特特征和技巧,从而塑造了他们音乐作品的独特身份。当风格应用于人工智能生成的音乐工具时,通过分析和学习现有音乐家创作的音乐,能够模仿不同作曲家或流派的风格,进而生成反映艺术家或历史时期独特艺术特质的新作品。

Chorus合唱指的是歌曲中反复出现的部分,通常包含令人难忘的旋律和歌词,传达出作品的核心主题。

Polyphonic music多声部音乐是指由多条独立的旋律线同时演奏或演唱的音乐。这些旋律线相互作用,创造出比单声部音乐更丰富、更复杂的和声、对位和质感,单声部音乐只包含一条旋律线。

MIDI(乐器数字接口) 是电子乐器、计算机和其他数字设备之间通信的标准协议。MIDI实现了不同设备和软件应用程序之间音乐信息的交换,如音符、速度和控制消息等。它使音乐家和制作人能够控制和同步不同的乐器和设备,并以精确和灵活的方式录制和编辑音乐表演。

key Velocity键速,也称为按键力度或击键速度,是指MIDI键盘或其他MIDI控制器上按键被按下的力度大小。这个值通常表示为0到127之间的一个数字,其中0表示按键完全没有被按下,而127表示按键以最大力度被按下。

未完…

8 结论

在这项调查中,我们描述了允许基于参数提示视频片段生成音乐的模型。我们的分析突出了每个工具的独特优势局限性,例如生成音乐的灵活性、复杂性和质量。例如,一些工具在开发MIDI文件方面提供了灵活性,但需要额外的软件合成器来处理音乐。其他工具(特别是基于提示的扩散模型)生成复杂的音乐,但在用不同乐器生成音乐方面需要更多的灵活性。目前仍面临的一个挑战是,如何创作出**具有良好音乐模式的更长片段的作品。A challenge remains the ability to generate longer pieces with a good musical pattern.**我们也承认,由于这个领域的快速发展,这篇综述并不全面。尽管如此,目前市面上的人工智能音乐创作工具展现了在革新音乐产业、提升创造力和拓宽音乐表达范围方面的巨大潜力。我们预期,更加精细的模型将出现,以克服现有的局限,并提供更加灵活、用户友好且高质量的AI音乐创作工具。


;