📄 Text2Score: Generating Sheet Music From Textual Prompts
#大语言模型 #自回归模型 #音乐生成 #乐谱生成 #开源工具
✅ 7.0/10 | 前25% | #乐谱生成 | #大语言模型 | #自回归模型 #音乐生成 | arxiv
学术质量 6.8/8 | 影响力 0.6/2 | 可复现性 0.8/1 | 置信度 高
👥 作者与机构
- 第一作者:Keshav Bhandari
- 通讯作者:未说明
- 作者列表:Keshav Bhandari, Sungkyun Chang, Abhinaba Roy, Francesca Ronchini, Emmanouil Benetos, Dorien Herremans, Simon Colton
- 机构信息:论文正文未明确列出每位作者的具体机构。根据论文末尾的致谢,研究得到了UKRI和EPSRC(英国)、SUTD(新加坡科技设计大学)及新加坡教育部的资助。部分作者(如Emmanouil Benetos, Dorien Herremans)是音乐信息检索领域的知名学者,通常与Goldsmiths, University of London相关联,但严格基于提供的文本,具体机构信息未明确说明。
💡 毒舌点评
Text2Score的核心思想——用LLM做宏观规划、用专用模型做微观生成——在逻辑上很清晰,也确实解决了端到端模型缺乏推理能力的痛点。然而,这种“解耦”是一把双刃剑:它把音乐创意的“上限”交给了LLM的规划能力,而这个规划能力又受限于其见过的、有限的结构化计划模板。论文声称的“绕过文本-音乐对”更像是一种巧妙的工程规避,而非根本性的学术突破。更值得玩味的是,其精心设计的客观评估指标(可读性、可演奏性)在提升模型“技术分”的同时,也可能在鼓励生成安全、保守但缺乏惊喜的音乐。
📌 核心摘要
- 问题:文本驱动的符号音乐生成面临两大挑战:一是高质量、大规模的文本-音乐配对数据集稀缺,且自动标注管道存在噪声和幻觉;二是大多数现有模型专注于MIDI格式,专注于可读、可演奏的乐谱(如MusicXML/ABC)生成的工作很少,且端到端模型缺乏处理复杂音乐结构所需的推理能力。
- 方法核心:提出了Text2Score,一个两阶段框架。
- 规划阶段:使用大型语言模型(LLM)作为编排器,将自然语言提示解析为结构化的“小节级计划”。该计划是一个序列
𝒫={N, G, I_total, m_1, ..., m_N},其中每个小节向量m_i包含该小节的活跃乐器、音域、音符密度、速度、拍号、调号、和声音级集和力度等属性。 - 执行阶段:使用一个从头训练的、基于分层Transformer的生成模型。该模型包含一个冻结的ModernBERT计划编码器,通过交叉注意力将计划编码为潜在表示
H_plan;以及一个两层的分层解码器:一个块级(Patch-level)解码器(20层GPT-2)负责建模小节间关系并接收计划条件,一个字符级解码器(6层GPT-2)负责逐字符生成每个小节的交错ABC记谱字符串。 - 训练范式:其创新在于直接从符号XML数据中提取“计划”作为监督信号,训练数据为(从乐谱提取的计划,乐谱)对,从而绕开了对齐的文本-音乐对。训练采用两阶段策略:顺序预训练(使用连续计划)和结构性微调(动态选择5-10个结构关键小节组成的稀疏计划进行微调)。
- 规划阶段:使用大型语言模型(LLM)作为编排器,将自然语言提示解析为结构化的“小节级计划”。该计划是一个序列
- 新在哪里:核心创新在于“规划-执行”的解耦范式,以及利用符号音乐数据本身构建训练监督信号的新颖方法,有效规避了数据稀缺和噪声问题。此外,提出了专注于乐谱本身可读性与可演奏性的客观评估框架。
- 主要实验结果:在自建的238个评估提示集上,Text2Score在多个维度上显著优于基线。具体结果见下表(论文表2、表3)。
客观评估结果(关键指标,数据来自论文表2)
| 指标 | Text2Score | ComposerX | Midi-LLM | Infer-Align | MidiLM |
|---|---|---|---|---|---|
| 有效文件生成率 | 99.16% | 50.00% | 100.00% | 99.58% | 97.90% |
| 总可演奏性 | 98.57% | 90.29% | 90.31% | 95.65% | 93.93% |
| 总可读性 | 96.04% | 95.22% | 79.04% | 90.10% | 84.47% |
| 乐器匹配度 | 83.76% | 55.07% | 50.46% | 23.82% | 41.39% |
| CLAMP3相似度 | 0.1446 | 0.1266 | 0.0825 | 0.0207 | 0.0935 |
| 结构复杂度 | 3.07 | 2.34 | 2.40 | 2.30 | 2.09 |
主观评估结果(专家评分,5分制,数据来自论文表3)
| 维度 | Text2Score | ComposerX | Midi-LLM |
|---|---|---|---|
| 提示遵循度 | 3.48 | 2.94 | 1.67 |
| 可读性与排版 | 3.98 | 2.92 | 1.79 |
| 音乐性与表现力 | 3.52 | 2.92 | 1.69 |
| 专业作品真实性 | 3.13 | 2.44 | 1.44 |
| 专业作曲可用性 | 3.44 | 2.65 | 1.52 |
- 实际意义:为文本驱动的高质量乐谱生成提供了一条新路径。提出的客观评估框架(特别是可读性和可演奏性指标)对推动乐谱生成领域的研究有实用价值。开源的62万首ABC记谱数据集、代码和评估集,降低了该领域的研究门槛。
- 主要局限性:当LLM生成的推理计划与训练时见过的计划模式差异过大时,模型可能失败。当前的“计划”在表达精细音乐细节(如特定和声织体、声部进行)方面能力有限。框架依赖商业LLM(GPT-5.1)进行规划,其过程不可控且不可私有部署。
🔗 开源详情
- 代码:https://github.com/keshavbhandari/text2score/
- 模型权重:论文中未提及提供训练好的模型权重下载链接。
- 数据集:论文中明确开源了用于本研究的ABC记谱法数据集,严格限于非商业研究用途,获取地址为:https://github.com/keshavbhandari/text2score/
- Demo:在线演示地址为:https://keshavbhandari.github.io/portfolio/text2score
- 复现材料:论文中提供了详细的实现细节(如模型架构参数、训练配置等)和评估提示套件,但未明确提及提供检查点(Checkpoints)等具体复现文件。
- 论文中引用的开源项目:
- NotaGen: 论文中提及执行阶段的层级解码器架构扩展自该项目。
- ModernBERT: 论文中提及用作计划编码器。
- CLAMP3: 论文中提及用于评估语义对齐,替代了CLAP。
- Music21: 论文中提及用于乐谱分析,在键匹配评估中有所应用。
- PDMX Dataset: 论文中提及为数据集来源之一。
- SymphonyNet: 论文中提及为数据集来源之一。
- Wikifonia Dataset: 论文中提及为数据集来源之一。
- ASAP Dataset: 论文中提及为数据集来源之一。
- Goldsmiths Musical Sophistication Index (Gold-MSI): 论文中提及作为主观评估中参与者音乐经验自评量表。 *(注:上述部分项目名称在论文中有明确提及,但除主数据集外,论文正文中未为其他所有引用项目提供具体的URL链接。)
🏗️ 方法概述和架构
Text2Score是一个两阶段的框架,旨在将自然语言文本提示转化为结构化的、可演奏的乐谱(ABC记谱法)。其核心思想是将音乐生成任务分解为“宏观结构规划”和“微观音符生成”两个子任务,分别由LLM和专门的生成模型负责。
1. 整体流程概述 输入是一个自然语言文本提示(如“创作一首由大提琴独奏开始,逐渐发展为全奏的电影配乐”)。第一阶段,LLM编排器接收该提示,输出一个结构化的“小节级计划”。第二阶段,执行模型以该计划为条件,自回归地生成每个小节的交错ABC记谱字符串,最终拼接成完整的乐谱。论文中的图1清晰展示了这一完整流程,包括训练时的计划提取和推理时的计划生成。
2. 主要组件/模块详解
计划结构(The Structural Plan)
- 功能:作为两阶段之间的信息桥梁,以结构化、可解释的形式表示音乐的宏观骨架。
- 内部结构/实现:定义为一个序列
𝒫={N, G, I_total, m_1, m_2, ..., m_N}。N是总小节数,G是体裁(若有),I_total是总配器集。每个小节向量m_i是一个字典,包含八个属性:活跃乐器I_i、音域R_i(MIDI min/max)、音符密度D_i(低/中/高)、速度T_i、拍号TS_i、调号KS_i、和声音级集C_i和力度Dyn_i。这个计划在训练时直接从源XML数据中提取,在推理时由LLM生成。 - 输入输出:推理时输入为文本提示,输出为此结构化计划。训练时输入为XML乐谱,输出为从该乐谱提取的真实计划。
计划编码器(Plan Encoder)
- 功能:将序列化的结构计划编码为上下文相关的潜在表示,为生成模型提供条件信号。
- 内部结构/实现:使用冻结的ModernBERT-base模型。BERT擅长处理结构化文本序列,能够捕捉计划元素间的上下文关系。编码后得到每个小节的潜在表示
H_plan ∈ ℝ^{N×d},作为后续解码的“接地”信号。 - 输入输出:输入为计划
𝒫的序列化表示(将每个m_i转换为文本描述),输出为小节级特征向量H_plan。
分层解码器(Hierarchical Decoder)
- 功能:以
H_plan为条件,逐小节、逐字符地生成交错的ABC记谱法字符串。该架构扩展自NotaGen [23]。 - 内部结构/实现:采用两层自回归Transformer结构。
- 块级解码器(Patch-level Decoder):一个基于GPT-2的20层Transformer,负责建模小节(块)之间的时序关系。它通过交叉注意力机制接收来自计划编码器的输出
H_plan(作为K, V),其自身的查询Q来自当前生成状态。这确保了生成的宏观结构遵循计划的约束。输出为每个小节的隐藏状态h_patch, j。 - 字符级解码器(Character-level Decoder):一个更轻量的6层GPT-2 Transformer,以
h_patch, j为条件,逐字符(如音符名、时值、力度记号)自回归生成当前小节的交错ABC记谱字符串。其条件概率为P(c_{j,k} | c_{j,<k}, h_{patch, j})。
- 块级解码器(Patch-level Decoder):一个基于GPT-2的20层Transformer,负责建模小节(块)之间的时序关系。它通过交叉注意力机制接收来自计划编码器的输出
- 输入输出:输入为计划编码
H_plan和起始符号,输出为完整的ABC记谱法字符串。
- 功能:以
LLM编排器(LLM Orchestrator)
- 功能:在推理阶段,将自由形式的文本提示转化为严格的结构化计划。
- 内部结构/实现:论文中使用GPT-5.1,通过1-shot提示(提供一个文本-计划示例)和详细的格式指令,引导LLM输出符合预定义模式(Schema)的计划。这是一个零样本(zero-shot)设置,因为LLM本身未经过微调。
3. 组件间的数据流与交互
- 用户输入文本提示。
- LLM编排器解析提示,输出结构化计划
𝒫。 - 计划编码器(ModernBERT,冻结参数)将
𝒫序列化并编码为特征序列H_plan。 - 块级解码器以
H_plan为交叉注意力条件(K, V),自回归生成每个小节的上下文向量h_patch。 - 字符级解码器以每个小节的
h_patch为初始状态,自回归生成该小节的具体记谱字符序列。 - 所有小节的记谱字符串按顺序拼接,形成最终的乐谱输出。
4. 关键设计选择及动机
- 两阶段解耦:动机在于分离“需要推理能力的宏观规划”和“需要精确符号知识的微观生成”。论文指出,端到端模型缺乏中间逻辑推理,而纯LLM代理(如ComposerX)输出结构混乱。此范式旨在结合两者的优势。
- 使用BERT编码计划而非直接文本:动机是结构计划是高度规范化的文本,使用BERT能高效提取其语义,作为稳定的条件信号,比直接使用自由文本更可靠。
- 分层解码器:动机是音乐本身具有层次结构(乐段-小节-音符),分层模型能更好地建模这种结构。论文明确指出该设计扩展自NotaGen [23],以适应交错ABC记谱法的按小节组织的特性。
- 基于符号XML提取训练计划:这是方法的核心创新动机。论文指出,自动文本标注存在数据对齐[10]和LLM幻觉[6]问题。通过从“干净”的符号数据中提取计划作为监督信号,模型能学习到准确的“计划-乐谱”映射,从而“绕开有噪声或稀缺的文本-音乐对”。
5. 多阶段训练策略
- 顺序预训练:使用完整的、连续的计划-乐谱对,让模型学习基础的结构到符号的映射关系。
- 结构性微调:从每个乐曲中动态选择5-10个“结构关键小节”(基于一个启发式算法
ℋ,识别速度、调号、配器等属性发生显著变化的小节),组成稀疏、非连续的计划进行微调。论文明确指出,此策略的动机是“最小化我们内部训练计划与推理时LLM生成的计划之间的差距”,通过让模型接触稀疏的、非连续的计划,增强其对LLM生成计划可能更注重关键点这一特点的鲁棒性。
6. 架构图/流程图 论文图1是本框架的核心示意图。上半部分(Pre-training & Fine-tuning)展示了训练过程:从符号XML中提取连续的(预训练)或稀疏的结构关键小节(微调)作为计划,与对应的ABC记谱一起训练模型。下半部分(Inference)展示了推理过程:用户文本输入LLM编排器生成计划,该计划经ModernBERT编码后,通过交叉注意力输入块级和字符级解码器,最终输出交错的ABC记谱。图示清晰地表明了数据流向和两阶段的解耦关系。
💡 核心创新点
- 两阶段“规划-执行”框架:将文本到乐谱生成明确分解为LLM负责的结构规划和专用模型负责的符号执行。之前局限:端到端模型缺乏中间推理,纯LLM代理输出结构混乱、格式错误多。如何起作用:LLM利用其语言理解与推理能力处理复杂提示,规划出包含乐器、调号、和声等属性的小节级结构骨架;生成模型专注于在骨架内填充准确的音乐符号。收益:在提示遵循度、结构复杂性和可演奏性上显著优于两类基线,且生成有效文件率高。
- 绕过文本-音乐对的监督信号构建范式:提出直接从符号XML数据中提取结构化计划作为训练监督信号,训练数据对变为(从乐谱提取的计划,乐谱)。之前局限:依赖自动文本标注存在噪声、幻觉和稀缺性[34, 1, 10, 6]。如何起作用:利用更丰富、更干净的符号音乐数据,模型能稳定学习结构与音符的精确对应关系。收益:避免了自动标注错误,数据规模大幅扩大(62万首),并为训练提供了更可靠的监督信号。
- 面向乐谱质量的客观评估框架:提出了一套包括可演奏性(音域、音程跨度、单音正确性、节奏重叠)、可读性(节奏抖动、节奏复杂度、临时记号一致性、等音方向性)、乐器利用率、提示遵循度及结构复杂度的客观指标。之前局限:符号音乐生成评估常依赖音频渲染或有限的高级指标(如CLAP),对乐谱本身的可读性和实用性关注不足。如何起作用:直接对生成的符号表示(ABC记谱)进行规则化检查,量化其技术缺陷。收益:��供了更细粒度、更贴近乐谱使用场景的质量度量,并通过专家主观评测验证了其有效性。
- 大规模、高质量的ABC记谱数据集:开源了一个包含621,162首乐曲的ABC记谱数据集,来源多样(直接ABC、MIDI转换、公开数据集)。之前局限:符号音乐生成研究常受限于数据集规模和质量。如何起作用:为训练强大的符号生成模型提供了基础,并支持了可复现研究。收益:显著降低了该领域的研究门槛。
📊 实验结果
1. 主要基准与结果 论文在自建的238个评估提示集上,对比了四个基线模型。所有客观指标均在生成的有效文件上计算(论文表2)。
客观评估关键指标对比(数据完整来自论文表2)
| 模型 | 有效文件生成率 | 总可演奏性 | 总可读性 | 乐器匹配度 | CLAMP3相似度 | 结构复杂度 | API成本(生成所有提示) |
|---|---|---|---|---|---|---|---|
| Text2Score | 99.16% | 98.57% | 96.04% | 83.76% | 0.1446 | 3.07 | $2.00 |
| ComposerX | 50.00% | 90.29% | 95.22% | 55.07% | 0.1266 | 2.34 | $91.56 |
| Midi-LLM | 100.00% | 90.31% | 79.04% | 50.46% | 0.0825 | 2.40 | - |
| Infer-Align | 99.58% | 95.65% | 90.10% | 23.82% | 0.0207 | 2.30 | - |
| MidiLM | 97.90% | 93.93% | 84.47% | 41.39% | 0.0935 | 2.09 | - |
主观评估结果(专家评分,5分制,数据完整来自论文表3)
| 维度 | Text2Score (均值) | ComposerX (均值, p值) | Midi-LLM (均值, p值) |
|---|---|---|---|
| 提示遵循度 | 3.48 | 2.94 (0.019) | 1.67 (<0.001) |
| 可读性与排版 | 3.98 | 2.92 (<0.001) | 1.79 (<0.001) |
| 音乐性与表现力 | 3.52 | 2.92 (0.005) | 1.69 (<0.001) |
| 专业作品真实性 | 3.13 | 2.44 (0.005) | 1.44 (<0.001) |
| 专业作曲可用性 | 3.44 | 2.65 (<0.001) | 1.52 (<0.001) |
2. 与最强基线的差距 Text2Score在几乎所有关键指标上都显著优于最强基线。与最具竞争力的ComposerX(纯LLM代理)相比:
- 客观上:有效文件率(99.16% vs 50.00%)是巨大优势;乐器匹配度(83.76% vs 55.07%)领先近30个百分点;可演奏性(+8.28%)和结构复杂度(+0.73)显著领先;成本极低($2 vs $91.56)。
- 主观上:在所有五个维度上均取得统计显著(p<0.05)的优势,其中在“可读性”(+1.06分)和“可用性”(+0.79分)上优势尤为明显。论文还指出,ComposerX的比较是在其50%的有效输出上进行的,条件对其更为有利。
3. 关键消融实验 论文未提供显式的、包含额外模型变体的消融实验表格。但通过不同基线间的对比分析,可以推断各组件的作用:
- 两阶段架构的有效性:与端到端基线(Midi-LLM, Infer-Align, MidiLM)对比,证明了分解任务和引入规划阶段能极大提升可读性、可演奏性和提示遵循度。
- LLM规划器的必要性:与ComposerX对比,证明了专用生成模型在符号输出质量(可演奏性、有效文件率)上远胜纯LLM直接生成。
- 结构性微调的作用:论文在方法部分详细描述了该训练策略,但未提供有无此步骤的对比数据,属于缺失的消融实验。
4. 细分结果 论文在分析中提供了更多细节:
- 端到端模型(Midi-LLM, Infer-Align, MidiLM)在单音乐器(如长笛、小号)的单音正确性(Monophonic Correctness)上表现尤差(69.96%-89.43% vs Text2Score的98.16%)。
- ComposerX虽然在调号和拍号匹配上接近完美(100%),但乐器名称常出现幻觉,导致乐器匹配度低(55.07%),且因格式错误(如小节时值不匹配、声部声明缺失)导致一半输出无效。
- Text2Score在速度匹配(92.61%)上略逊于Midi-LLM(100%),但论文解释这是由于记谱格式转换差异(如八分音符75BPM转为四分音符150BPM),而非音乐理解错误。
- 在乐器利用率和结构复杂度方面,论文指出需要结合看待。ComposerX利用率高(Coverage 90.27%)可能反映其配器较单调(所有乐器持续演奏),而Text2Score在保持合理利用率(73.81%)的同时,结构复杂度最高(3.07),表明其生成了更多样化的音乐织体。
5. 图表说明 论文提供了图1(架构图)、表1(数据集分布)、表2(客观结果)、表3(主观结果)。所有关键数据已在上述表格中完整列出。
🔬 细节详述
- 训练数据:数据集为作者自建的ABC记谱数据集,包含621,162首乐曲。来源包括:ABC记谱法数据(316,118首)、从PDMX数据集(253,339首)转换、SymphonyNet当代MIDI(45,629首)转换、Wikifonia数据集(6,076首)转换、ASAP数据集(234首)转换。数据集分布详见论文表1。
- 损失函数:论文未明确说明。根据其自回归生成模型特性,推测使用标准的交叉熵损失(逐字符预测)。
- 训练策略:
- 预训练:使用AdamW优化器,学习率1e-4,训练30 epochs,在4张NVIDIA A100 GPU上进行,批大小为8,梯度累积2步(有效批大小16)。
- 结构性微调:使用相同优化器,学习率降至1e-5,训练25 epochs,批大小为8,梯度累积4步(有效批大小32)。基于验证集最小损失选择检查点。
- 关键超参数:
- 计划编码器:ModernBERT-base。
- 分层解码器:块级解码器为20层GPT-2;字符级解码器为6层GPT-2;隐藏维度768;最大块长度2048 token;块大小16。
- 训练硬件:4 NVIDIA A100 GPU。
- 推理细节:
- LLM编排器使用GPT-5.1,采用1-shot提示策略,提供单个示例和格式指令。
- 执行模型生成ABC记谱的具体解码策略(如温度、top-k)未说明。
- 正则化技巧:论文未明确说明。微调阶段降低学习率可视为一种稳定训练的技巧。
⚖️ 评分理由
创新性:2.0/3 论文提出了一个清晰、实用的两阶段框架,并巧妙地利用符号数据本身构建训练监督信号,这是一个有价值的工程创新和方法论创新。核心贡献在于解决了真实痛点(数据稀缺与噪声),并提出了新的评估范式。然而,核心组件(LLM、BERT、GPT-2解码器、分层架构)均为现有技术的组合,其“规划-执行”范式在概念上并非根本性突破。
技术严谨性:1.5/3 框架描述清晰,流程合理,关键设计(如计划定义、交叉注意力、分层解码、动态微调选择)均有明确动机和依据。主要不足是:1)对LLM生成计划可能失败的情况仅提及可通过“精心设计提示”或“人工介入”缓解,缺乏对计划验证或修正机制的讨论;2)计划中某些分类(如音符密度“低、中、高”)的划分依据和对生成的影响未深入分析;3)结构性微调的启发式方法(权重轮换)虽然描述详细,但未提供实验证明其优于其他简单方法(如仅按属性变化幅度排序)。
实验充分性:1.5/2 实验设计较为全面,对比了不同范式的基线,评估指标新颖且细致(尤其是可读性和可演奏性),并进行了大规模主观评测(24位专家)。主要不足是:1)缺乏关键消融实验,例如:有无结构性微调的对比、使用不同LLM(如开源模型)作为编排器的对比、有无计划编码器的对比。2)基线选择方面,MIDI模型通过MuseScore转换后评估,虽然作者认为这对基线有利,但转换本身可能引入系统偏差,且缺乏其他最新的文本到符号音乐(如直接生成MusicXML)的直接对比。3)对失败案例的分析不够深入,仅定性描述。
清晰度:0.8/1 论文写作流畅,结构清晰,图1有效辅助理解方法流程。符号定义明确,方法描述层次分明。主要扣分点在于部分实现细节未充分解释,如损失函数具体形式、字符级解码的采样策略、以及计划中“音符密度”等分类的具体计算逻辑,这可能影响完全复现。
影响力:0.6/1 该工作推动了符号音乐生成向更实用的乐谱表示(ABC)发展,并强调了乐谱质量的客观评估,对作曲辅助工具和音乐教育软件开发有参考价值。开源的大型数据集和评估集也有助于社区研究。然而,任务相对垂直(文本到乐谱),对更广泛的音频、语音或通用AI领域读者的直接影响有限。
可复现性:0.8/1 论文承诺并提供了开源代码、数据集、评估集和LLM提示的链接,这是重要优势。训练硬件、优化器、学习率、epoch数等关键超参数都有说明。主要不足是部分生成细节(如解码温度、top-k值)缺失,且模型权重未提供,开源仓库的具体完整度需查看实际代码。
总分:7.0/10
🚨 局限与问题
论文明确承认的局限:
- 如果LLM生成的推理计划与训练期间见过的计划模式差异过大,可能导致生成失败。
- 当前的“计划”在表达精细音乐细节(如特定和声织体、声部进行)方面能力有限。
- 计划中力度等表情记号的覆盖范围有限。
- 未来工作可考虑通过检索增强生成(RAG)引入更丰富的音乐知识库来增强规划。
审稿人发现的潜在问题:
- 错误累积与缺乏验证:两阶段设计引入了错误传播路径:LLM规划的任何偏差(如不合理的乐器组合、调性突变、不切实际的音域要求)都会被后续模型无条件执行,且难以纠正。论文未讨论如何对LLM的规划输出进行验证、过滤或修正机制。
- 计划结构的表达力瓶颈:将音乐强制分解为固定的小节级八个属性向量,可能无法充分捕捉音乐中流动的、非结构化的表现元素(如微妙的节奏rubato、力度渐变、连奏断奏法)。这可能导致生成音乐在“骨架”上合规,但缺乏“血肉”般的细节和表现力。
- 评估偏差与保守性倾向:客观指标高度依赖规则化检查(如音域、节奏网格对齐)。虽然与主观评分相关,但“可读性”高分可能意味着生成内容较为保守、简单,规避了复杂但合理的记谱(如现代音乐中的复杂节奏、极端音区)。论文虽讨论了ComposerX的高偶然一致性可能源于简单输出,但未深入探讨自身模型是否也有此倾向。
- 基线可比性质疑:将MIDI基线(Midi-LLM等)通过MuseScore转换为XML后评估,虽然作者称这对基线有利,但转换过程本身可能引入新的错误或信息损失(例如,MIDI中的细微表情信息在量化和转换中丢失),使得对比不完全公平。缺乏与其它直接输出乐谱(如MusicXML)的最新模型的对比。
- 对商业LLM的依赖与黑箱性:框架高度依赖商业LLM(GPT-5.1)的推理能力来完成核心规划步骤。其过程不可控、不可复现、无法私有部署,且成本虽低($2)但依赖外部服务。这限制了框架的完全自主性和可部署性。
- 结论的普适性:论文声称方法适用于“乐谱生成”,但其实验和评估高度集中在西方古典音乐和电影配乐等传统调性音乐上。对于非西方音乐、实验音乐或非传统记谱法音乐的适用性未加验证。