Posts

Libretto: Giving LLM Agents a Sense of Musical Structure

📄 Libretto: Giving LLM Agents a Sense of Musical Structure #音乐生成 9.2/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 9.2/10 | 前50% | #音乐生成 | #音乐生成 | arxiv 👥 作者与机构作者：Yichen Xu 机构：University of California, Berkeley 💡 毒舌点评这篇论文聪明地避开了训练一个新音乐模型的深坑，转而给现有的LLM套上了一个精心设计的“音乐脚手架”。思路值得肯定，但“评估体系”和“人类验证”这两个点被作者自己也承认是弱点，审稿时会在这里被反复追问。更麻烦的是，整个大厦建立在Claude这个商业API上，这就像把论文的根基打在了别人家的地皮上，可复现性和通用性都要打个大大的问号。不过，槽式语法和统计指纹的概念确实清晰实用，算是给符号音乐生成提供了一个不错的工程化参考范式。对于NeurIPS级别的会议来说，技术新颖性和理论深度稍显不足，更像是一个扎实的系统工作。 📌 核心摘要本文提出了Libretto，一个面向LLM代理的符号音乐生成与修订框架。该框架的核心是解决两个问题：1) 如何为LLM提供一种可直接读写和编辑音乐结构的文本接口；2) 如何提供一种可解释的、基于音乐结构的评估标准，以指导代理进行迭代优化。为此，Libretto设计了三项关键组件：首先，一种基于网格槽（onset slots）的符号音乐语法，将绝对时序编码为离散槽位，使音符起止时间显式化，支持局部编辑；其次，一个从314首MIDI文件中统计提取的29维结构指纹空间，涵盖节奏、和声、旋律、织体、曲式和变奏，用于量化生成结果与真实音乐分布的偏离程度；最后，一个“生成-测量-修订”的代理循环，代理在生成后接收基于指纹偏差的音乐性反馈（如“降低和声不稳定性”），并可结合检索到的知识库概念与示例进行迭代优化。在补缺、全曲生成、渐进变形、教育生成四个任务上，该框架通过结构门控和抄袭风险检测，验证了检索机制和修订循环能有效提升生成结果的通过率和质量。 🔗 开源详情代码：https://github.com/Xyc-arch/Libretto 模型权重：论文中未提及数据集：论文中提及使用314个MIDI文件作为原始音乐语料库，策划自Lakh MIDI Dataset (LMD)。LMD的开源信息为：Raffel, C. (2016). lakh-midi-dataset. GitHub. https://github.com/craffel/lmd。论文未提供此策划子集的独立下载链接。 Demo：项目主页为 https://libretto.site/ ，包含生成结果示例。复现材料：论文在附录A中提供了多个语法示例，在附录B中详细定义了所有29个结构轴、百分位指纹、复制风险得分和校准门限的具体计算公式。论文中未提及提供额外的训练配置文件或检查点。论文中引用的开源项目： Lakh MIDI Dataset (LMD): https://github.com/craffel/lmd 🏗️ 方法概述和架构 Libretto 是一个完整的代理作曲系统，其架构围绕“表示-评估-循环”展开，旨在将符号音乐转化为LLM可操作的可测量对象。系统主要由以下五个相互关联的部分构成，数据流和交互关系如下： ...

LISE : Listenable Interpretable Speaker Embeddings

📄 LISE : Listenable Interpretable Speaker Embeddings #说话人验证 #说话人识别 #语音合成 6.8/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.1/1.5 | 复现 0.4/0.5 | 工程 0.3/1.5 ✅ 6.8/10 | 前50% | #说话人验证 | #说话人识别 | #语音合成 | arxiv 👥 作者与机构 Xiaoliang Wu：University of Southampton, United Kingdom; The Hong Kong Polytechnic University, Hong Kong SAR, China Chongxin Gan：The Hong Kong Polytechnic University, Hong Kong SAR, China Ke Liu：University of Edinburgh, United Kingdom Peter Bell：University of Edinburgh, United Kingdom Jennifer Williams：University of Southampton, United Kingdom 💡 毒舌点评这篇论文试图解决一个真实且重要的问题：让黑盒的说话人嵌入变得“可听”（Listenable），即人类可以通过听觉验证其组件的含义。这个想法很有价值，尤其是设计了严谨的感知实验来验证，这比多数只做自动指标的可解释性工作要扎实。然而，方法的创新性稍显不足，核心是现有非负矩阵分解（NMF）技术在特定约束下的应用。作者很诚实地讨论了局限，但部分讨论（如语言混淆）可能比实际影响更值得强调。总的来说，这是一篇工整、动机明确、实验设计用心的入门级可解释性论文，离顶级会议（如NeurIPS）对方法创新或理论深度的要求还有距离，但是一篇质量不错的领域会议（如Interspeech）论文。 ...

LK Jam: System Architecture and Implementation of a Real-Time Human-AI Interactive Music Generation System using Role-Aware GRU

📄 LK Jam: System Architecture and Implementation of a Real-Time Human-AI Interactive Music Generation System using Role-Aware GRU #音乐生成 7.0/10 ✅ 7.0/10 | 前50% | #音乐生成 | #音乐生成 | arxiv 👥 作者与机构论文标题: LK Jam: System Architecture and Implementation of a Real-Time Human-AI Interactive Music Generation System using Role-Aware GRU 作者: Yakun Liu, Z. Jin, Dong Liu, and Hai Luan 作者单位: Yakun Liu, Dong Liu, and Hai Luan 来自沈阳音乐学院。Z. Jin 为独立合作者。通讯作者: Dong Liu。 ...

MindAlign: Decoding Inner Speech from fMRI Signals via Multimodal Embedding Alignment under Limited Data

📄 MindAlign: Decoding Inner Speech from fMRI Signals via Multimodal Embedding Alignment under Limited Data #语音识别 #低资源 #数据增强 #多模态模型 #自监督学习 #参数高效微调 5.8/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0.1/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 📝 5.8/10 | 前50% | #语音识别 | #数据增强 | #低资源 #多模态模型 | arxiv 👥 作者与机构作者：Muxuan Liu, Ichiro Kobayashi, Satoshi Nishida。第一作者Muxuan Liu和第二作者Ichiro Kobayashi隶属于日本御茶水女子大学（Ochanomizu University）人文与科学研究生院；第三作者Satoshi Nishida隶属于日本国立信息通信技术研究所（NICT）先进ICT研究所信息与神经网络中心（CiNet）。 ...

MSU-Bench: Towards Speaker-Centric Understanding in Conversational Multi-Speaker Scenarios

📄 MSU-Bench: Towards Speaker-Centric Understanding in Conversational Multi-Speaker Scenarios 9/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 9/10 | 前10% | arxiv 👥 作者与机构论文作者包括Zhaokai Sun， Shuai Wang， Zhennan Lin， Chengyou Wang， Dehui Gao， Yuang Cao， Chunjiang He， Lei Pan， Zhaokai Zhou， Shuai Xie。主要机构为西北工业大学软件学院音频、语音与语言处理组（ASLP@NPU）、南京大学智能科学与技术学院、深圳湾区研究院以及理想汽车基础模型部门。 💡 毒舌点评这篇论文做了一件必要的脏活累活：为“多说话人对话理解”这个模糊的概念，建立了一个看起来还不错的评估标尺。它清晰地划分了任务层级，用2300个诊断性QA实例进行了实测，算是给社区提供了一个统一的“考试卷”。不过，作为“审稿人”必须指出，这本质上是一项评估工作，而非方法创新。所谓的“方法”主要是QA构建流程，核心是依赖Gemini生成和人工校验。实验部分详实，但结论略显平淡——无非是“闭源模型强于开源”，“时间定位和细粒度归因是难题”。最大的遗憾是数据集未完全公开，这极大削弱了其作为“Benchmark”的即时可用性和影响力。对于一篇旨在提出新基准的论文来说，这有点像发布了一个考试制度，但试卷却不让人复印。 📌 核心摘要本文针对现有大音频语言模型（LALMs）评估体系在多说话人对话场景下的缺失，提出了MSU-Bench，一个用于诊断“以说话人为中心的理解”能力的基准。MSU-Bench采用两层框架：Tier 1聚焦于说话人识别与属性感知（如说话人检索、属性识别），Tier 2专注于多说话人对话推理（如对话结构分析、情境推理）。该基准包含16个任务，共构建了2300个经过人工验证的多选题问答实例。通过对9个模型（6个开源，3个闭源Gemini）的评估，论文揭示：1）当前模型在复杂说话人定位（尤其是基于时间戳的定位）和多说话人推理方面存在明显短板；2）随着模型能力提升，其错误模式从“未知”（不敢答）转变为“错认说话人”（答错）；3）提供更丰富的上下文线索（如时间+文本的复合引用）能有效提升性能。 🔗 开源详情代码：https://github.com/ASLP-lab/MSU-Bench （论文中提及将提供评估脚本）。模型权重：未提及。论文评估了多个开源模型（Qwen2.5-Omni、Qwen3-Omni、AudioFlamingo-3、Kimi-Audio、StepAudio2、MiMoAudio）和闭源模型（Gemini系列），但未提供其权重下载链接。数据集：论文使用的数据源（如MagicHub中文/英文电话语料、AliMeeting、CHiME-6等）为公开语料，但MSU-Bench本身（含2300个QA实例）的完整数据集未提供公开下载链接，仅说明将在GitHub仓库发布。 Demo：未提及。复现材料：未提及训练配置或检查点。仅提到评估脚本将开源。论文中引用的开源项目：Volcano API（用于生成说话人分段和转录标注，论文中未提供该API的链接）。标签 #多说话人语音识别语音理解语音合成音频问答语音分类主任务标签：#语音识别 #语音合成主方法标签：#评估与统计补充标签：#多说话人 #对话系统 #多任务学习 #人机交互 #低资源 ...

Noise-Driven Instrument Based on Coherent Quantum and Stochastic Oscillator Models

📄 Noise-Driven Instrument Based on Coherent Quantum and Stochastic Oscillator Models 3.8/10 | 清晰论文结构清晰，写作流畅。但部分概念性论述（如量子类比的精确作用）稍显宽泛。/1 | 复现未提供。论文描述了仪器设计的关键参数（如线圈尺寸、导线规格、电阻值），但未提供完整的复现所需材料清单、详细电路图、白噪声信号的具体参数（如带宽、幅度分布）以及频谱分析的具体设置（如FFT长度、窗函数等）。/0.5 📝 3.8/10 | 后50% | arxiv 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及数据集：论文中未提及 Demo：论文中未提及复现材料：论文中未提及论文中引用的开源项目：未提及 📷 论文图片 ← 返回 2026-06-23 语音/音乐/音频论文速递

On the Effect of Segmentation Width and Cluster Size on Speech Resynthesis and Continuation in Generative Spoken Language Models

📄 On the Effect of Segmentation Width and Cluster Size on Speech Resynthesis and Continuation in Generative Spoken Language Models #语音合成 #语音生成 #自监督学习 #低资源 #数据增强 7.4/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.4/10 | 前25% | #语音合成 | #自监督学习 | #语音生成 #低资源 | arxiv 👥 作者与机构 Shunsuke Kando (东京大学) Wataru Nakata (庆应义塾大学) Shinnosuke Takamichi (东京大学) Yusuke Miyao (庆应义塾大学) ...

Online Predictive Coding for Dual-Mode Self-Supervised Speech Model

📄 Online Predictive Coding for Dual-Mode Self-Supervised Speech Model #语音识别 #自监督学习 #预训练 7.2/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.2/10 | 前50% | #语音识别 | #自监督学习 | #预训练 | arxiv 👥 作者与机构 Keita Goto\(^{1}\), Takashi Maekaku\(^{1}\), Jin Sakuma\(^{1}\), Jinchuan Tian\(^{2}\), Yusuke Shinohara\(^{1}\), Shinji Watanabe\(^{1}\) \(^{1}\) LY Corporation, Tokyo, Japan \(^{2}\) Carnegie Mellon University, PA, USA ...

OpenWER: Improving Cross-Lingual ASR Evaluation and Enabling Token-Based Accuracy Metrics

📄 OpenWER: Improving Cross-Lingual ASR Evaluation and Enabling Token-Based Accuracy Metrics #语音识别 #低资源 #开源工具 8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8/10 | 前50% | #语音识别 | #低资源 | #开源工具 | arxiv 👥 作者与机构论文作者是Korbinian Kuhn和Gottfried Zimmermann。机构为斯图加特传媒大学（Stuttgart Media University）和蒂宾根大学（University of Tübingen）。 💡 毒舌点评这篇论文本质上是一个做得不错的开源工具包发布，包装了一套工程化的评估流水线。它的价值在于“整合”与“实用”，而非“发现”或“突破”。将几个已有的后处理技巧（归一化、复合词处理）打包进一个统一的框架，并号称能降低WER，这更像是对现有最佳实践的梳理和标准化，而非开辟新路。最大的亮点——细粒度评估（标点、大小写）——虽然有用，但概念上并不新颖。性能上的巨大鸿沟（慢100多倍）是其学术转化应用的阿喀琉斯之踵。论文在论证“为什么数值更低的WER就更好”这一核心问题上显得乏力，缺乏与人类判断的直接挂钩，这使得其“改进”的说服力打折扣。总体而言，这是一篇合格的、对社区有工具性贡献的工作，但距离顶级会议所期待的深刻洞见或显著性能提升尚有距离。 📌 核心摘要本文提出了OpenWER，一个用于改进跨语言自动语音识别评估的开源工具。其核心贡献在于：1) 通过模块化设计支持灵活的文本预处理（分词、语言特定归一化）；2) 扩展了Levenshtein距离算法，以处理标点符号和复合词，从而减少非语义差异导致的WER波动；3) 基于token的对齐机制能够保留原始文本及嵌入的元数据（如词性、置信度），从而支持计算标点准确率、大小写准确率等互补指标。在Common Voice 17数据集上对52种语言的评估显示，OpenWER相比JiWER和Whisper默认归一化，平均WER分别降低了7.7%（14.5%相对）和3.8%（9.2%相对），绝对WER降低最高可达25%。论文强调此工具旨在提高跨语言评估的公平性和全面性。 ...

PHAST-Net: Attention-Guided, Physics-Informed Network for Unified Estimation of Ideal Time-Frequency Representations

📄 PHAST-Net: Attention-Guided, Physics-Informed Network for Unified Estimation of Ideal Time-Frequency Representations #音乐信息检索 9/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9/10 | 前10% | #音乐信息检索 | #音乐信息检索 | arxiv 👥 作者与机构作者：James M. Cozens, Simon J. Godsill 机构：剑桥大学工程系，概率系统、信息与推断小组（\(\psi^2\)）注：James M. Cozens为博士生（IEEE会员），Simon J. Godsill为教授（IEEE Fellow）。该工作已提交至IEEE期刊进行可能的发表，作者James M. Cozens受英国工程和自然科学研究委员会（EPSRC）博士培训伙伴计划资助。 💡 毒舌点评这篇论文是“理论家的深度学习”范式的典范。作者没有满足于简单地将CNN扔到时频图上，而是从经典的Cohen类分布理论出发，精心设计了CLAWT输入表示和物理约束的再投影损失。这种对领域知识的尊重在如今“炼丹”成风的氛围里显得尤为可贵。然而，其优雅的理论框架也带来了代价：复杂的数学描述和定制化的CLAWT构造，使得方法的理解和复现门槛极高。更令人困惑的是，作为一个声称“通用”的框架，所有实验都在精心构造的合成数据上进行，对真实世界复杂信号的验证仅限于几个视觉示例。这就像一位武林高手，招式精妙绝伦，内功深厚无比，但从未在真正的擂台上与各路高手（如真实的语音、音乐数据库）较量过。我们被其数学之美所折服，但对其实际效用的疑虑也油然而生。此外，论文声称提供了一个“有效无限”的合成数据集，却闭口不谈生成数据的任何具体参数和分布假设，这种“黑箱”数据生成方式在可复现性上留下了巨大黑洞。 📌 核心摘要本文提出了PHAST-Net，一个用于统一估计理想时频表示（ITFR）的注意力引导、物理信息神经网络框架。针对时频分析中交叉项抑制与分辨率提升的核心矛盾，PHAST-Net通过三个关键创新实现突破：1）提出了连续对数频率自适应小波变换（CLAWT），其参数直接控制Cohen类核在时频平面上的朝向和尺度，为网络提供了一组物理意义明确、覆盖全面的输入特征；2）设计了一种物理信息辅助的再投影损失函数，将网络预测的ITFR通过对应的Cohen类核重新投影，强制预测结果与输入变换族保持一致，并促进能量守恒；3）在对数频率坐标下构建统一框架，使得谐波结构在坐标轴上具有平移等变性，从而衍生出Harmonic PHAST-Net，能够同时抑制谐波并提取基频轨迹，进而支持高质量的基础节拍图和节拍图估计。此外，引入的Spline-PHAST-Net变体能够检测并参数化时频脊线，实现组件级别的提取和任意网格的重新渲染。在精心设计的合成基准测试中，PHAST-Net在Bhattacharyya系数、Jensen-Shannon散度和脊线能量比等指标上全面超越了SST、SET、RIFT等先进方法，尤其在低信噪比条件下优势显著。 ...