乐谱生成 | 语音/音乐/音频论文速递

📄 Text2Score: Generating Sheet Music From Textual Prompts #大语言模型 #自回归模型 #音乐生成 #乐谱生成 #开源工具 ✅ 7.0/10 | 前25% | #乐谱生成 | #大语言模型 | #自回归模型 #音乐生成 | arxiv 学术质量 6.8/8 | 影响力 0.6/2 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：Keshav Bhandari 通讯作者：未说明作者列表：Keshav Bhandari, Sungkyun Chang, Abhinaba Roy, Francesca Ronchini, Emmanouil Benetos, Dorien Herremans, Simon Colton 机构信息：论文正文未明确列出每位作者的具体机构。根据论文末尾的致谢，研究得到了UKRI和EPSRC（英国）、SUTD（新加坡科技设计大学）及新加坡教育部的资助。部分作者（如Emmanouil Benetos, Dorien Herremans）是音乐信息检索领域的知名学者，通常与Goldsmiths, University of London相关联，但严格基于提供的文本，具体机构信息未明确说明。 💡 毒舌点评 Text2Score的核心思想——用LLM做宏观规划、用专用模型做微观生成——在逻辑上很清晰，也确实解决了端到端模型缺乏推理能力的痛点。然而，这种“解耦”是一把双刃剑：它把音乐创意的“上限”交给了LLM的规划能力，而这个规划能力又受限于其见过的、有限的结构化计划模板。论文声称的“绕过文本-音乐对”更像是一种巧妙的工程规避，而非根本性的学术突破。更值得玩味的是，其精心设计的客观评估指标（可读性、可演奏性）在提升模型“技术分”的同时，也可能在鼓励生成安全、保守但缺乏惊喜的音乐。 📌 核心摘要问题：文本驱动的符号音乐生成面临两大挑战：一是高质量、大规模的文本-音乐配对数据集稀缺，且自动标注管道存在噪声和幻觉；二是大多数现有模型专注于MIDI格式，专注于可读、可演奏的乐谱（如MusicXML/ABC）生成的工作很少，且端到端模型缺乏处理复杂音乐结构所需的推理能力。方法核心：提出了Text2Score，一个两阶段框架。规划阶段：使用大型语言模型（LLM）作为编排器，将自然语言提示解析为结构化的“小节级计划”。该计划是一个序列 𝒫={N, G, I_total, m_1, ..., m_N}，其中每个小节向量 m_i 包含该小节的活跃乐器、音域、音符密度、速度、拍号、调号、和声音级集和力度等属性。执行阶段：使用一个从头训练的、基于分层Transformer的生成模型。该模型包含一个冻结的ModernBERT计划编码器，通过交叉注意力将计划编码为潜在表示 H_plan；以及一个两层的分层解码器：一个块级（Patch-level）解码器（20层GPT-2）负责建模小节间关系并接收计划条件，一个字符级解码器（6层GPT-2）负责逐字符生成每个小节的交错ABC记谱字符串。训练范式：其创新在于直接从符号XML数据中提取“计划”作为监督信号，训练数据为（从乐谱提取的计划，乐谱）对，从而绕开了对齐的文本-音乐对。训练采用两阶段策略：顺序预训练（使用连续计划）和结构性微调（动态选择5-10个结构关键小节组成的稀疏计划进行微调）。新在哪里：核心创新在于“规划-执行”的解耦范式，以及利用符号音乐数据本身构建训练监督信号的新颖方法，有效规避了数据稀缺和噪声问题。此外，提出了专注于乐谱本身可读性与可演奏性的客观评估框架。主要实验结果：在自建的238个评估提示集上，Text2Score在多个维度上显著优于基线。具体结果见下表（论文表2、表3）。客观评估结果（关键指标，数据来自论文表2） ...

语音/音乐/音频论文速递 2026-05-14 共分析 16 篇论文 ⚡ 今日概览 📥 抓取 16 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 2篇 ██ #音频分类 2篇 ██ #语音对话系统 1篇 █ #模型评估 1篇 █ #多智能体协同 1篇 █ #音频事件检测 1篇 █ #乐谱生成 1篇 █ #音频生成 1篇 █ 📊 论文评分排行榜（16 篇，按分数降序）排名论文评分分档主任务 🥇 EVA-Bench: A New End-to-end Framework for Evaluating Vo 8.0分前25% #语音对话系统 🥈 Senses Wide Shut: A Representation-Action Gap in Omnimo 8.0分前50% #模型评估 🥉 EVOCHAMBER: Test-Time Co-evolution of Multi-Agent Syste 8.0分前25% #多智能体协同 4. NAACA: Training-Free NeuroAuditory Attentive Cognitive 7.0分前25% #音频事件检测 5. Text2Score: Generating Sheet Music From Textual Prompts 7.0分前25% #乐谱生成 6. Seconds-Aligned PCA-DAC Latent Diffusion for Symbolic-t 7.0分前50% #音频生成 7. Bypassing Direct Reconstruction: Speech Detection from 7.0分前25% #语音活动检测 8. Decoupled Azimuth Elevation AoA Estimation Exploiting K 7.0分前25% #声源定位 9. WARDEN: Endangered Indigenous Language Transcription an 7.0分前25% #语音识别 10. Vividh-ASR: A Complexity-Tiered Benchmark and Optimizat 7.0分前50% #语音识别 11. Scaling few-shot spoken word classification with genera 7.0分前50% #音频分类 12. GeoBuildBench: A Benchmark for Interactive and Executab 7.0分前25% #几何推理 13. Keep What Audio Cannot Say: Context-Preserving Token Pr 7.0分前25% #音视频 14. PresentAgent-2: Towards Generalist Multimodal Presentat 6.5分前25% #生成模型 15. Does language matter for spoken word classification? A 6.0分前50% #音频分类 16. Leveraging Multimodal Self-Consistency Reasoning in Cod 6.0分前50% #动机访谈编码 📋 论文列表 🥇 EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents 🔥 8.0/10 | 前25% | #语音对话系统 | #基准测试 | #语音质量评估 #端到端 | arxiv ...