Text2Score: Generating Sheet Music From Textual Prompts

📄 Text2Score: Generating Sheet Music From Textual Prompts #大语言模型 #自回归模型 #音乐生成 #乐谱生成 #开源工具 ✅ 7.0/10 | 前25% | #乐谱生成 | #大语言模型 | #自回归模型 #音乐生成 | arxiv 学术质量 6.8/8 | 影响力 0.6/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Keshav Bhandari 通讯作者:未说明 作者列表:Keshav Bhandari, Sungkyun Chang, Abhinaba Roy, Francesca Ronchini, Emmanouil Benetos, Dorien Herremans, Simon Colton 机构信息:论文正文未明确列出每位作者的具体机构。根据论文末尾的致谢,研究得到了UKRI和EPSRC(英国)、SUTD(新加坡科技设计大学)及新加坡教育部的资助。部分作者(如Emmanouil Benetos, Dorien Herremans)是音乐信息检索领域的知名学者,通常与Goldsmiths, University of London相关联,但严格基于提供的文本,具体机构信息未明确说明。 💡 毒舌点评 Text2Score的核心思想——用LLM做宏观规划、用专用模型做微观生成——在逻辑上很清晰,也确实解决了端到端模型缺乏推理能力的痛点。然而,这种“解耦”是一把双刃剑:它把音乐创意的“上限”交给了LLM的规划能力,而这个规划能力又受限于其见过的、有限的结构化计划模板。论文声称的“绕过文本-音乐对”更像是一种巧妙的工程规避,而非根本性的学术突破。更值得玩味的是,其精心设计的客观评估指标(可读性、可演奏性)在提升模型“技术分”的同时,也可能在鼓励生成安全、保守但缺乏惊喜的音乐。 📌 核心摘要 问题:文本驱动的符号音乐生成面临两大挑战:一是高质量、大规模的文本-音乐配对数据集稀缺,且自动标注管道存在噪声和幻觉;二是大多数现有模型专注于MIDI格式,专注于可读、可演奏的乐谱(如MusicXML/ABC)生成的工作很少,且端到端模型缺乏处理复杂音乐结构所需的推理能力。 方法核心:提出了Text2Score,一个两阶段框架。 规划阶段:使用大型语言模型(LLM)作为编排器,将自然语言提示解析为结构化的“小节级计划”。该计划是一个序列 𝒫={N, G, I_total, m_1, ..., m_N},其中每个小节向量 m_i 包含该小节的活跃乐器、音域、音符密度、速度、拍号、调号、和声音级集和力度等属性。 执行阶段:使用一个从头训练的、基于分层Transformer的生成模型。该模型包含一个冻结的ModernBERT计划编码器,通过交叉注意力将计划编码为潜在表示 H_plan;以及一个两层的分层解码器:一个块级(Patch-level)解码器(20层GPT-2)负责建模小节间关系并接收计划条件,一个字符级解码器(6层GPT-2)负责逐字符生成每个小节的交错ABC记谱字符串。 训练范式:其创新在于直接从符号XML数据中提取“计划”作为监督信号,训练数据为(从乐谱提取的计划,乐谱)对,从而绕开了对齐的文本-音乐对。训练采用两阶段策略:顺序预训练(使用连续计划)和结构性微调(动态选择5-10个结构关键小节组成的稀疏计划进行微调)。 新在哪里:核心创新在于“规划-执行”的解耦范式,以及利用符号音乐数据本身构建训练监督信号的新颖方法,有效规避了数据稀缺和噪声问题。此外,提出了专注于乐谱本身可读性与可演奏性的客观评估框架。 主要实验结果:在自建的238个评估提示集上,Text2Score在多个维度上显著优于基线。具体结果见下表(论文表2、表3)。 客观评估结果(关键指标,数据来自论文表2) ...

2026-05-14 · 更新于 2026-05-19 · 3 min · 459 words

语音/音频论文速递 2026-05-14

语音/音频论文速递 2026-05-14 共分析 16 篇论文 ⚡ 今日概览 📥 抓取 16 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 2篇 ██ #音频分类 2篇 ██ #语音对话系统 1篇 █ #模型评估 1篇 █ #多智能体协同 1篇 █ #音频事件检测 1篇 █ #乐谱生成 1篇 █ #音频生成 1篇 █ 📊 论文评分排行榜(16 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 EVA-Bench: A New End-to-end Framework for Evaluating Vo 8.0分 前25% #语音对话系统 🥈 Senses Wide Shut: A Representation-Action Gap in Omnimo 8.0分 前50% #模型评估 🥉 EVOCHAMBER: Test-Time Co-evolution of Multi-Agent Syste 8.0分 前25% #多智能体协同 4. NAACA: Training-Free NeuroAuditory Attentive Cognitive 7.0分 前25% #音频事件检测 5. Text2Score: Generating Sheet Music From Textual Prompts 7.0分 前25% #乐谱生成 6. Seconds-Aligned PCA-DAC Latent Diffusion for Symbolic-t 7.0分 前50% #音频生成 7. Bypassing Direct Reconstruction: Speech Detection from 7.0分 前25% #语音活动检测 8. Decoupled Azimuth Elevation AoA Estimation Exploiting K 7.0分 前25% #声源定位 9. WARDEN: Endangered Indigenous Language Transcription an 7.0分 前25% #语音识别 10. Vividh-ASR: A Complexity-Tiered Benchmark and Optimizat 7.0分 前50% #语音识别 11. Scaling few-shot spoken word classification with genera 7.0分 前50% #音频分类 12. GeoBuildBench: A Benchmark for Interactive and Executab 7.0分 前25% #几何推理 13. Keep What Audio Cannot Say: Context-Preserving Token Pr 7.0分 前25% #音视频 14. PresentAgent-2: Towards Generalist Multimodal Presentat 6.5分 前25% #生成模型 15. Does language matter for spoken word classification? A 6.0分 前50% #音频分类 16. Leveraging Multimodal Self-Consistency Reasoning in Cod 6.0分 前50% #动机访谈编码 📋 论文列表 🥇 EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents 🔥 8.0/10 | 前25% | #语音对话系统 | #基准测试 | #语音质量评估 #端到端 | arxiv ...

2026-05-14 · 更新于 2026-05-19 · 11 min · 2240 words