📄 The Moving Drone: Negotiating Agency Between the Voice and the Virtual
6/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 0.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5
✅ 6/10 | 前50% | arxiv
👥 作者与机构
Nithya Shikarpur: Massachusetts Institute of Technology (MIT) Victor Arul: Massachusetts Institute of Technology (MIT) Anna Huang: Massachusetts Institute of Technology (MIT)
💡 毒舌点评
- 论文的核心是一场艺术表演的记录,其价值主要在概念批判和实践层面。作为一篇投稿NIME的论文,它成功地将AI技术与具体音乐文化实践结合,提出了一个发人深省的立场。然而,若以严谨的技术论文标准衡量,其技术贡献薄弱,实验部分仅为一场独奏演出的描述,缺乏任何对比、量化评估或用户研究。
- “低质量”AI生成的讨论是全文最具批判性和启发性的部分,明确挑战了当前AI研究的主流范式。但这一论点几乎完全依赖艺术家的主观选择和陈述,缺少任何客观的声学分析或感知实验来佐证“低保真度”究竟带来了何种特定的美学效果或交互影响。
- 系统描述(Max/MSP循环器+GaMaDHaNi)在技术上并不复杂,且关键实现细节(如模型推理的具体延迟、资源消耗、实时性保证)未提及。表演者反思中关于认知适应的描述生动,但属于个人体验,难以构成普适性的设计原则。
- 表格1展示了四个拉格(raga)之间的音高移位关系,这是系统设计的一个具体且有趣的实例。然而,论文未解释这些特定拉格和移位量的选择依据,也未说明这种“跳跃”对音乐情感或即兴创作的可预见影响,使得这部分设计显得较为任意。
- 论文承认了局限性(如缺乏听众研究),这很好。但更深层的问题在于,其结论——“将AI置于文化音乐实践中”——对于NIME社区来说已是共识,本文更多是一次个案实践,而非提供了新的方法论或可推广的技术方案。
📌 核心摘要
本文报告了“The Moving Drone”这一艺术表演项目的设计与实践。项目旨在将印度斯坦音乐中传统上静态、服务于人声的持续音(tanpura),通过技术手段转变为一个具有渐进自主性的虚拟合作者。核心系统由四个Max/MSP循环器和一个名为GaMaDHaNi的条件化生成式AI模型构成。表演通过三个阶段展开:首先,循环器以反应方式记录人声,形成有机演化的持续音;其次,通过预设的音高移位实现“跳跃循环”,使持续音在旋律维度上更为主动;最后,利用GaMaDHaNi模型对循环音频进行重合成,在音色维度上赋予持续音自主性。该工作明确倡导有意识地使用低保真度、有噪的AI生成内容,以此批判当前AI音乐生成领域对高保真度和现实感的普遍追求,并将技术置于具体的文化音乐实践与协商关系中进行审视。
🔗 开源详情
- 代码:论文中未直接提供代码仓库链接。论文引用了一个用于GaMaDHaNi模型的arXiv论文(https://arxiv.org/abs/2404.10637),但并未提供本文所用系统(包括Max/MSP循环器设置)的开源代码地址。
- 模型权重:论文中未提及模型权重的下载链接。文中提到生成模型GaMaDHaNi,但未提供其模型权重的具体存放地址。
- 数据集:论文提及生成模型训练数据基于以下开源数据集:
- saraga: 论文引用的参考文献链接为 https://arxiv.org/abs/2107.05469。
- hindustani_rhythm (原文为time): 论文引用的参考文献链接为 https://arxiv.org/abs/1610.08990。
- hindustani_phrase (原文为phrase): 论文引用的参考文献链接为 https://arxiv.org/abs/1610.06522。 (论文中指出这些数据集共包含约 120 小时数据。)
- Demo:在线演示链接为:https://youtu.be/3dJOzoxGx_c
- 复现材料:论文中未提及训练配置、模型检查点、附录或其他具体的复现材料。仅说明训练数据约 120 小时。
- 论文中引用的开源项目:
- GaMaDHaNi: 论文引用的参考文献链接为 https://arxiv.org/abs/2404.10637。文中描述其为一个两阶段的层次化生成模型(包含音高生成器和谱图生成器)。
- Max/MSP: 用于实现循环器(looper)的音乐可视化编程语言。论文未提供其官方开源链接。 (注:论文中还提到了 Griffin-Lim 算法用于相位估算,但这是一个经典算法,未作为独立项目提供链接。)
作者与机构
Nithya Shikarpur: Massachusetts Institute of Technology (MIT) Victor Arul: Massachusetts Institute of Technology (MIT) Anna Huang: Massachusetts Institute of Technology (MIT)
毒舌点评
- 论文的核心是一场艺术表演的记录,其价值主要在概念批判和实践层面。作为一篇投稿NIME的论文,它成功地将AI技术与具体音乐文化实践结合,提出了一个发人深省的立场。然而,若以严谨的技术论文标准衡量,其技术贡献薄弱,实验部分仅为一场独奏演出的描述,缺乏任何对比、量化评估或用户研究。
- “低质量”AI生成的讨论是全文最具批判性和启发性的部分,明确挑战了当前AI研究的主流范式。但这一论点几乎完全依赖艺术家的主观选择和陈述,缺少任何客观的声学分析或感知实验来佐证“低保真度”究竟带来了何种特定的美学效果或交互影响。
- 系统描述(Max/MSP循环器+GaMaDHaNi)在技术上并不复杂,且关键实现细节(如模型推理的具体延迟、资源消耗、实时性保证)未提及。表演者反思中关于认知适应的描述生动,但属于个人体验,难以构成普适性的设计原则。
- 表格1展示了四个拉格(raga)之间的音高移位关系,这是系统设计的一个具体且有趣的实例。然而,论文未解释这些特定拉格和移位量的选择依据,也未说明这种“跳跃”对音乐情感或即兴创作的可预见影响,使得这部分设计显得较为任意。
- 论文承认了局限性(如缺乏听众研究),这很好。但更深层的问题在于,其结论——“将AI置于文化音乐实践中”——对于NIME社区来说已是共识,本文更多是一次个案实践,而非提供了新的方法论或可推广的技术方案。
核心摘要
本文报告了“The Moving Drone”这一艺术表演项目的设计与实践。项目旨在将印度斯坦音乐中传统上静态、服务于人声的持续音(tanpura),通过技术手段转变为一个具有渐进自主性的虚拟合作者。核心系统由四个Max/MSP循环器和一个名为GaMaDHaNi的条件化生成式AI模型构成。表演通过三个阶段展开:首先,循环器以反应方式记录人声,形成有机演化的持续音;其次,通过预设的音高移位实现“跳跃循环”,使持续音在旋律维度上更为主动;最后,利用GaMaDHaNi模型对循环音频进行重合成,在音色维度上赋予持续音自主性。该工作明确倡导有意识地使用低保真度、有噪的AI生成内容,以此批判当前AI音乐生成领域对高保真度和现实感的普遍追求,并将技术置于具体的文化音乐实践与协商关系中进行审视。
方法概述和架构
本工作的系统设计紧密围绕其概念核心——协商虚拟持续音的“能动性”(agency)展开。系统架构如图2所示,主要由以下组件和流程构成:
核心交互组件:
- 循环器(Loopers):系统包含四个独立的Max/MSP循环器。每个循环器拥有一个固定的三秒缓冲区,并具有可调的交叉淡入淡出参数以避免音频切换时的咔嗒声。表演者通过手动控制的录制按钮,循环地将实时即兴演唱录制到这四个循环器中,形成持续音的基础。
- 虚拟持续音(Virtual Drone):四个循环器共同构成一个动态的、可演化的虚拟持续音实体。其初始状态(动作1)播放主音(S)和属音(P),模拟传统tanpura。
- 人声(Voice):表演者即兴演唱的人声是系统的主要输入源,驱动整个反馈循环,并在协商中扮演主导角色。
自主性的两个维度与实现:
- 音高维度(Pitch Axis):自主性从反应式到积极式的转变在“跳跃循环”(动作2)中实现。系统不再仅仅是被动记录,而是主动对循环器中的音频进行预设的音高移位。表1详细列出了四个预设拉格(Bihag, Bhairavi, Basant, Kafi)及其对应的音高移位量(以A#为基准音)。这些移位创造了旋律上更主动、甚至强制性的运动。表演者需要使用特定音符作为“门户”(portals)在拉格之间跳跃,并依赖拉格特征乐句(raga-characteristic phrases)作为感知锚点来导航不断变化的音高空间。
- 音色维度(Timbre Axis):自主性在“AI重合成循环”(动作3)中通过GaMaDHaNi模型实现。该模型是一个层次化的歌唱生成模型(如图2所述)。工作流程为:Max/MSP中的循环音频被实时路由到一台独立的GPU笔记本电脑;然后,利用GaMaDHaNi的谱图生成器(spectrogram generator),该生成器以歌手ID(singer ID)为条件,将输入的音高/旋律想法(可能来自模型的音高生成器阶段,但论文未明确说明动作3中是否使用其音高生成器)合成为新的音色谱图;最后,利用Griffin-Lim算法将谱图转换回音频,再反馈回Max/MSP的循环器中。每个循环器被分配一个预设的歌手ID,从而产生不同的音色变化。
艺术性与技术选择的关联:
- 作者有意利用了GaMaDHaNi模型生成的“嘈杂和失真”的低保真度输出。论文指出,这种音质部分源于模型训练时使用的16kHz采样率,以及用于波形合成的Griffin-Lim算法的局限性。
- 在第三阶段选择的拉格Shree本身带有半音簇,进一步加剧了和声上的不协和与紧张感,与低保真度的生成音色共同营造出作者所追求的“混乱与张力”的美学效果。
整体交互与表演结构:
- 整个表演时长约13分钟,是一个独奏即兴过程。系统通过三个连续的动作(有机演化、跳跃、AI重合成)来结构化地展示持续音能动性的演进。
- 技术部署(图3)需要两台笔记本电脑(一台运行Max/MSP,一台运行AI模型)和4通道音频输出,以支持空间化的声学表现。
核心创新点
- 概念创新:协商性的AI能动性框架:本文明确提出了一个将AI音乐生成工具的自主性置于人类表演者协商关系中的框架。这超越了将AI视为单纯工具或模仿者的视角,探索了其作为具有渐进能动性(从反应式到积极式)的合作者的可能性。
- 批判性立场:倡导低保真度生成:在当前AI音乐研究普遍追求高保真度和现实感的背景下,本文有意识地选择并利用低保真度、有噪的生成内容,以此批判性地挑战主流评价标准,强调艺术意图、文化语境和情境化解释的重要性。
- 实践嵌入:基于特定文化音乐传统的AI应用:工作将生成式AI模型(GaMaDHaNi)深度嵌入到印度斯坦音乐这一具体的、具有深厚理论体系的文化实践中,而非进行泛化的音乐生成。这为跨文化艺术技术研究提供了有价值的个案。
实验结果
本文没有传统的定量实验,其“结果”主要通过艺术表演和实践反思来呈现:
- 表演成果:完成了题为“The Moving Drone”的现场表演(视频链接:https://youtu.be/3dJOzoxGx_c),展示了三个动作阶段中持续音能动性的演进。
- 设计验证与观察:
- 在“跳跃循环”阶段,通过预设的音高移位(如表1所示),实现了持续音在音高维度的主动变化。表演者观察到需要使用“门户”音符和特征乐句来导航这种变化。
- 在“AI重合成循环”阶段,GaMaDHaNi模型成功地将循环音频转换为不同的歌手音色,并产生了预期的低保真度、嘈杂和扭曲的音质。表演者指出,这种音质与所选的拉格Shree的半音簇共同增强了紧张感。
- 表演者反思:作者详细反思了表演过程中的认知适应(如重新建立对主音的感知、依赖拉格框架)和技术适应(如使用八度移位循环扩展音域),这些构成了对系统交互性的定性验证。
- 局限性验证:论文坦诚地指出,该工作是实践报告,缺乏系统的听众研究、可量化性能评估或与其他系统的客观比较。这本身就构成了对其研究方法的限定性结果。
细节详述
评分理由
- 创新性 (1.5/2):概念框架具有启发性,将AI能动性置于协商和文化实践语境中,并提出反主流的低保真度生成立场。但核心交互技术(循环、音高移位、现有模型应用)本身并非新颖。
- 技术严谨性 (1.0/1.5):系统描述清晰,但技术细节不足。未讨论GaMaDHaNi模型的实时推理延迟、计算资源需求、循环器同步机制等关键工程问题。对“低质量”来源的解释(16kHz采样率,Griffin-Lim)是陈述性的,缺乏深入分析或实验对比。
- 实验充分性 (0.5/1.5):实验部分仅为单场艺术表演的记录与主观反思。完全缺乏任何形式的对照实验、用户研究(听众或表演者)、可量化的音频特征分析或与其他持续音交互系统的对比。结论强烈依赖个案和主观陈述。
- 清晰度 (1.5/2):论文结构清晰,从概念到系统设计再到反思层层递进。图2和图3有效辅助了理解。但部分技术实现细节(如AI模型集成的具体数据流)描述可更精确。
- 影响力 (1.0/1.5):对NIME和AI音乐艺术实践社区有直接的启发意义,能引发关于AI角色、文化嵌入和评价标准的讨论。但对于更广泛的音乐技术或AI领域,其影响力主要限于概念批判,可��广的方法论或技术贡献有限。
- 开源 (0.0/1.0):未提供本文所用系统(Max/MSP补丁、表演流程)的代码或模型权重。仅引用了训练数据集的链接,但这对复现该表演无直接帮助。
- 可复现性 (0.5/1.0):尽管论文提供了表演视频、系统设计图和核心概念,但完全复现该艺术表演需要特定的Max/MSP配置、已训练的GaMaDHaNi模型、表演者的即兴演唱能力以及印度斯坦音乐的专门知识,这些均未充分提供,使得独立复现极为困难。
- 工程/实践价值 (0.5/0.5):为将生成式AI集成到实时音乐表演系统提供了一个具体的实践案例,展示了潜在的工作流程和美学可能性,对艺术家和实践者有参考价值。
局限与问题
- 实验方法论的根本性缺失:作为一篇声称探索“协商”的论文,其结论完全基于作者个人的表演实践和反思。没有收集任何外部听众的感知数据,也没有尝试邀请其他音乐家使用该系统,因此无法验证该系统是否真的能与其他人形成有效的“协商”,或是仅适用于作者自身的特定表演风格。
- 技术细节模糊影响评估:论文未提供关键技术参数。例如,GaMaDHaNi模型的推理延迟是多少?这如何影响循环的连续性和表演的实时性?16kHz采样率和Griffin-Lim算法具体引入了何种可听的伪影?这些细节的缺失使得对系统性能和技术选择的评价难以深入。
- 设计决策依据不足:第二阶段中四个拉格的选择及其音高移位量的设定缺乏充分论证。为什么是这四个拉格?移位量是基于音乐理论计算还是艺术直觉?这种设计在多大程度上限制了表演者的即兴可能性?
- “低质量”主张的孤立性:作者强调使用“低质量”生成是有意的批判性选择,但这是通过模型固有缺陷(采样率、算法)实现的,而非一个主动设计、可控的“质量”参数。这是否等同于一种可复制的创作方法,还是仅利用了现有模型的缺陷?
- 泛化性质疑:该系统与表演高度耦合,其价值主要存在于印度斯坦音乐的特定语境中。论文未讨论该框架(协商虚拟合作者)或技术组合在其他音乐传统或更通用音乐创作中的适用性。
作者与机构
Nithya Shikarpur: Massachusetts Institute of Technology (MIT) Victor Arul: Massachusetts Institute of Technology (MIT) Anna Huang: Massachusetts Institute of Technology (MIT)
🏗️ 方法概述和架构
本工作的系统设计紧密围绕其概念核心——协商虚拟持续音的“能动性”(agency)展开。系统架构如图2所示,主要由以下组件和流程构成:
核心交互组件:
- 循环器(Loopers):系统包含四个独立的Max/MSP循环器。每个循环器拥有一个固定的三秒缓冲区,并具有可调的交叉淡入淡出参数以避免音频切换时的咔嗒声。表演者通过手动控制的录制按钮,循环地将实时即兴演唱录制到这四个循环器中,形成持续音的基础。
- 虚拟持续音(Virtual Drone):四个循环器共同构成一个动态的、可演化的虚拟持续音实体。其初始状态(动作1)播放主音(S)和属音(P),模拟传统tanpura。
- 人声(Voice):表演者即兴演唱的人声是系统的主要输入源,驱动整个反馈循环,并在协商中扮演主导角色。
自主性的两个维度与实现:
- 音高维度(Pitch Axis):自主性从反应式到积极式的转变在“跳跃循环”(动作2)中实现。系统不再仅仅是被动记录,而是主动对循环器中的音频进行预设的音高移位。表1详细列出了四个预设拉格(Bihag, Bhairavi, Basant, Kafi)及其对应的音高移位量(以A#为基准音)。这些移位创造了旋律上更主动、甚至强制性的运动。表演者需要使用特定音符作为“门户”(portals)在拉格之间跳跃,并依赖拉格特征乐句(raga-characteristic phrases)作为感知锚点来导航不断变化的音高空间。
- 音色维度(Timbre Axis):自主性在“AI重合成循环”(动作3)中通过GaMaDHaNi模型实现。该模型是一个层次化的歌唱生成模型(如图2所述)。工作流程为:Max/MSP中的循环音频被实时路由到一台独立的GPU笔记本电脑;然后,利用GaMaDHaNi的谱图生成器(spectrogram generator),该生成器以歌手ID(singer ID)为条件,将输入的音高/旋律想法(可能来自模型的音高生成器阶段,但论文未明确说明动作3中是否使用其音高生成器)合成为新的音色谱图;最后,利用Griffin-Lim算法将谱图转换回音频,再反馈回Max/MSP的循环器中。每个循环器被分配一个预设的歌手ID,从而产生不同的音色变化。
艺术性与技术选择的关联:
- 作者有意利用了GaMaDHaNi模型生成的“嘈杂和失真”的低保真度输出。论文指出,这种音质部分源于模型训练时使用的16kHz采样率,以及用于波形合成的Griffin-Lim算法的局限性。
- 在第三阶段选择的拉格Shree本身带有半音簇,进一步加剧了和声上的不协和与紧张感,与低保真度的生成音色共同营造出作者所追求的“混乱与张力”的美学效果。
整体交互与表演结构:
- 整个表演时长约13分钟,是一个独奏即兴过程。系统通过三个连续的动作(有机演化、跳跃、AI重合成)来结构化地展示持续音能动性的演进。
- 技术部署(图3)需要两台笔记本电脑(一台运行Max/MSP,一台运行AI模型)和4通道音频输出,以支持空间化的声学表现。


💡 核心创新点
- 概念创新:协商性的AI能动性框架:本文明确提出了一个将AI音乐生成工具的自主性置于人类表演者协商关系中的框架。这超越了将AI视为单纯工具或模仿者的视角,探索了其作为具有渐进能动性(从反应式到积极式)的合作者的可能性。
- 批判性立场:倡导低保真度生成:在当前AI音乐研究普遍追求高保真度和现实感的背景下,本文有意识地选择并利用低保真度、有噪的生成内容,以此批判性地挑战主流评价标准,强调艺术意图、文化语境和情境化解释的重要性。
- 实践嵌入:基于特定文化音乐传统的AI应用:工作将生成式AI模型(GaMaDHaNi)深度嵌入到印度斯坦音乐这一具体的、具有深厚理论体系的文化实践中,而非进行泛化的音乐生成。这为跨文化艺术技术研究提供了有价值的个案。
📊 实验结果
本文没有传统的定量实验,其“结果”主要通过艺术表演和实践反思来呈现:
- 表演成果:完成了题为“The Moving Drone”的现场表演(视频链接:https://youtu.be/3dJOzoxGx_c),展示了三个动作阶段中持续音能动性的演进。
- 设计验证与观察:
- 在“跳跃循环”阶段,通过预设的音高移位(如表1所示),实现了持续音在音高维度的主动变化。表演者观察到需要使用“门户”音符和特征乐句来导航这种变化。
- 在“AI重合成循环”阶段,GaMaDHaNi模型成功地将循环音频转换为不同的歌手音色,并产生了预期的低保真度、嘈杂和扭曲的音质。表演者指出,这种音质与所选的拉格Shree的半音簇共同增强了紧张感。
- 表演者反思:作者详细反思了表演过程中的认知适应(如重新建立对主音的感知、依赖拉格框架)和技术适应(如使用八度移位循环扩展音域),这些构成了对系统交互性的定性验证。
- 局限性验证:论文坦诚地指出,该工作是实践报告,缺乏系统的听众研究、可量化性能评估或与其他系统的客观比较。这本身就构成了对其研究方法的限定性结果。

⚖️ 评分理由
- 创新性 (1.5/2):概念框架具有启发性,将AI能动性置于协商和文化实践语境中,并提出反主流的低保真度生成立场。但核心交互技术(循环、音高移位、现有模型应用)本身并非新颖。
- 技术严谨性 (1.0/1.5):系统描述清晰,但技术细节不足。未讨论GaMaDHaNi模型的实时推理延迟、计算资源需求、循环器同步机制等关键工程问题。对“低质量”来源的解释(16kHz采样率,Griffin-Lim)是陈述性的,缺乏深入分析或实验对比。
- 实验充分性 (0.5/1.5):实验部分仅为单场艺术表演的记录与主观反思。完全缺乏任何形式的对照实验、用户研究(听众或表演者)、可量化的音频特征分析或与其他持续音交互系统的对比。结论强烈依赖个案和主观陈述。
- 清晰度 (1.5/2):论文结构清晰,从概念到系统设计再到反思层层递进。图2和图3有效辅助了理解。但部分技术实现细节(如AI模型集成的具体数据流)描述可更精确。
- 影响力 (1.0/1.5):对NIME和AI音乐艺术实践社区有直接的启发意义,能引发关于AI角色、文化嵌入和评价标准的讨论。但对于更广泛的音乐技术或AI领域,其影响力主要限于概念批判,可��广的方法论或技术贡献有限。
- 开源 (0.0/1.0):未提供本文所用系统(Max/MSP补丁、表演流程)的代码或模型权重。仅引用了训练数据集的链接,但这对复现该表演无直接帮助。
- 可复现性 (0.5/1.0):尽管论文提供了表演视频、系统设计图和核心概念,但完全复现该艺术表演需要特定的Max/MSP配置、已训练的GaMaDHaNi模型、表演者的即兴演唱能力以及印度斯坦音乐的专门知识,这些均未充分提供,使得独立复现极为困难。
- 工程/实践价值 (0.5/0.5):为将生成式AI集成到实时音乐表演系统提供了一个具体的实践案例,展示了潜在的工作流程和美学可能性,对艺术家和实践者有参考价值。
🚨 局限与问题
- 实验方法论的根本性缺失:作为一篇声称探索“协商”的论文,其结论完全基于作者个人的表演实践和反思。没有收集任何外部听众的感知数据,也没有尝试邀请其他音乐家使用该系统,因此无法验证该系统是否真的能与其他人形成有效的“协商”,或是仅适用于作者自身的特定表演风格。
- 技术细节模糊影响评估:论文未提供关键技术参数。例如,GaMaDHaNi模型的推理延迟是多少?这如何影响循环的连续性和表演的实时性?16kHz采样率和Griffin-Lim算法具体引入了何种可听的伪影?这些细节的缺失使得对系统性能和技术选择的评价难以深入。
- 设计决策依据不足:第二阶段中四个拉格的选择及其音高移位量的设定缺乏充分论证。为什么是这四个拉格?移位量是基于音乐理论计算还是艺术直觉?这种设计在多大程度上限制了表演者的即兴可能性?
- “低质量”主张的孤立性:作者强调使用“低质量”生成是有意的批判性选择,但这是通过模型固有缺陷(采样率、算法)实现的,而非一个主动设计、可控的“质量”参数。这是否等同于一种可复制的创作方法,还是仅利用了现有模型的缺陷?
- 泛化性质疑:该系统与表演高度耦合,其价值主要存在于印度斯坦音乐的特定语境中。论文未讨论该框架(协商虚拟合作者)或技术组合在其他音乐传统或更通用音乐创作中的适用性。
作者与机构
Nithya Shikarpur: Massachusetts Institute of Technology (MIT) Victor Arul: Massachusetts Institute of Technology (MIT) Anna Huang: Massachusetts Institute of Technology (MIT)