论文速递 | 语音/音乐/音频论文速递

Real-Time Language Model Jamming: A Case Study for Live Music Accompaniment Generation

📄 Real-Time Language Model Jamming: A Case Study for Live Music Accompaniment Generation #音乐信息检索 8.7/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.7/10 | 前25% | #音乐信息检索 | #音乐信息检索 | arxiv 👥 作者与机构 Bowen Zheng1,2,,‡, Andrew H. Yang3,2,,‡, Jiaqi Ruan4,2, Jia He4,2, Xinyue Li2, Yuan-Hsin Chen5,2,‡, Ziyu Wang6,2,†, Xiaosong Ma2,† Equal contribution. † Corresponding authors. ‡ \ddagger 1 MBZUAI, 2 单位未明确说明，但作者隶属于此机构, 3 University of Washington, 4 Carnegie Mellon University, 5 国立阳明交通大学, 6 HKUST(GZ) （注：论文中未提供所有作者的完整隶属机构信息，仅列出了部分。） 💡 毒舌点评这篇论文像是一份非常详细的系统工程报告，而不是一篇有突破性算法的顶会论文。核心贡献是定义了一个问题（帧同步流式推理）并为一个特定任务（音乐伴奏）构建了一个端到端系统。RTT建模和参数空间推导是扎实的工程分析，但音乐生成模型本身（0.12B参数的Transformer）是现有架构的简单应用，毫无新意。论文将“系统框架”本身作为主要贡献，在学术创新性上有所欠缺。实验在精心控制的环境下验证了系统的可行性，但泛化能力存疑——真实世界的网络和音乐场景要复杂得多。总体而言，这是一篇技术报告级别的工作，工程细节丰富，但学术贡献点薄弱，距离顶会标准有差距。 ...

SARA: A Dual-Stream VAE for High-Fidelity Speech Generation via Integrating Semantic and Acoustic Representations

📄 SARA: A Dual-Stream VAE for High-Fidelity Speech Generation via Integrating Semantic and Acoustic Representations #语音合成 #变分自编码器 #自监督学习 #语音识别 #多任务学习 #语音生成 #数据集 7.9/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 ✅ 7.9/10 | 前25% | #语音合成 | #变分自编码器 | #自监督学习 #语音识别 | arxiv 👥 作者与机构作者：Peijie Chen*, Wenhao Guan, Weijie Wu, Kadi Wang, Daiyu Huang, Zhuanling Zha, Junbo Li, Jun Fang, Qingyang Hong†, Lin Li 机构：1 厦门大学信息学院，中国；2 厦门大学电子科学与工程学院，中国；3 滴滴全球公司，北京，中国联系邮箱：peijiechen@stu.xmu.edu.cn ...

Sensitivity Analysis of Generative Spatial Audio Metrics: A Study on Responsiveness, Smoothness, and Symmetry

📄 Sensitivity Analysis of Generative Spatial Audio Metrics: A Study on Responsiveness, Smoothness, and Symmetry #空间音频 #音频生成 7.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7.2/10 | 前50% | #音频生成 | #空间音频 | arxiv 👥 作者与机构 Purnima Kamath (New York University, New York, USA) Adrian S Roman (New York University, New York, USA) Koichi Saito (Sony AI, New York, USA; Sony Group Corporation, Tokyo, Japan) Yuki Mitsufuji (Sony AI, New York, USA; Sony Group Corporation, Tokyo, Japan) Juan P Bello (New York University, New York, USA) ...

Snapping Matters: Context-Aware Onset Refinement for Automatic Music Transcription

📄 Snapping Matters: Context-Aware Onset Refinement for Automatic Music Transcription #音乐信息检索 7.1/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 0.5/1.5 ✅ 7.1/10 | 前25% | #音乐信息检索 | #音乐信息检索 | arxiv 👥 作者与机构论文作者信息及所属机构（如 Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU) 和 Fraunhofer Institute for Integrated Circuits IIS）在提供的论文摘要和正文中未详细列出，仅出现在致谢部分。审校时应基于论文内容判断，不自行补充作者列表。 💡 毒舌点评这篇论文精准地抓住了AMT标签生成流水线中一个被长期忽视但至关重要的环节——“snapping”。它把一个普遍存在的工程实践（贪婪地把对齐点拽到最近的激活峰上）提升为一个定义明确、可优化的组合问题。思路清晰，实验扎实，尤其是在各种粗糙初始对齐条件下验证了图匹配的鲁棒性，这很有实际价值。不过，论文的“高光时刻”其实有点像为一把螺丝刀做了把更精密的扳手——工具本身很棒，但可能只拧特定型号的螺丝。改进幅度在钢琴等清晰的场景下相对温和（约1%），只有在复杂管弦乐或大窗口下才显著。另外，作者自己也承认了多音高联合处理这个明显的短板，这恰恰可能是真正解决复杂声部的关键。总的来说，这是一篇扎实、有用的系统改进工作，离“范式转移”或“开创新赛道”还有距离。 📌 核心摘要本文研究自动音乐转录（AMT）中，从序列级对齐（如DTW）到精确音符起始时间标签生成的关键步骤——“snapping”（起始点精修）。现有贪婪方法在精修窗口重叠或初始对齐粗糙时易失败。论文将snapping形式化为针对每个音高的二分图匹配问题，通过全局优化选择最佳音符-音频帧匹配，以最大化起始点后验概率。在钢琴、室内乐及管弦乐等多数据集上的跨数据集评估表明，与贪婪方法相比，图匹配方法在起始点对齐精度和转录准确性上均有提升，尤其在窗口较大或初始对齐较差时优势更明显。论文还系统分析了求解器选择、窗口大小和初始对齐质量的影响。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及。数据集： MusicNet: 论文提及，未提供链接。 MAESTRO: 论文提及，未提供链接。 Saarland Music Data (SMD)：论文提及，未提供链接。 URMP：论文提及，未提供链接。 ChoraleBricks：论文提及，未提供链接。 PHENICX：论文提及，未提供链接。 Beethoven Symphony Excerpts Dataset (BSED)：论文描述为“内部评估数据集”，未提供公开链接。 Demo：项目主页：https://abhirupsaha8.github.io。复现材料：论文中未提及训练配置、检查点或附录等具体复现材料的链接或获取方式。论文中引用的开源项目： SciPy (用于二分图匹配)：https://docs.scipy.org/doc/scipy/reference/generated/scipy.sparse.csgraph.min_weight_full_bipartite_matching.html。 🏗️ 方法概述和架构本文提出了一种基于二分图匹配的snapping方法，作为连接序列级对齐与精确音符起始级对齐的精修步骤。其核心流程与架构可分解如下： ...

SpAArSIST: Sparsified AASIST for Efficient and Reliable Anti-Spoofing

📄 SpAArSIST: Sparsified AASIST for Efficient and Reliable Anti-Spoofing #模型压缩 7.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.7/10 | 前50% | #模型压缩 | #图神经网络 | arxiv 👥 作者与机构 Anton Firc, Vojtěch Staněk, Zbyněk Lička, Kamil Malinka, Martin Perešíni Security@FIT, Brno University of Technology, Czech Republic 💡 毒舌点评论文试图为AASIST这个热门的语音反欺骗后端进行“精简手术”，动机（减少冗余计算）和方向（简化评分与聚合）本身是合理的，也确实给出了在特定数据集上的效率提升和跨域性能改善。然而，其“部署导向”的宣称与“有限改进”之间的矛盾是这篇论文最大的问题。将20.7%的后端MACs削减作为核心贡献之一，但忽略了占总计算量绝大部分的SSL前端（XLS-R 300M），使得效率提升的实际意义大打折扣。改进主要局限于AASIST这一特定架构，且“新”组件（幅度评分、均值聚合）在学术上都算不上新颖，更多是对现有实现的观察与验证。作者提出的双轨复合评分（SS）是一个有趣的想法，但其权重分配和归一化方法缺乏理论依据，更像一个工程上的妥协方案，而非一个普适的评估框架。总体而言，这是一篇扎实但创新性有限、应用价值需打折扣的系统优化论文。 📌 核心摘要本文提出了SpAArSIST，一种针对基于自监督学习（SSL）的语音反欺骗系统中广泛使用的AASIST图池化后端的部署导向简化方案。作者观察到公共AASIST实现中存在冗余操作，因此进行了三项主要修改：1）引入分离的训练时和推理时节点保留率 (\(k_{\text{tr}}\), \(k_{\text{inf}}\)) 以控制稀疏度；2）用无参数的特征幅度范数替代学习得到的节点评分器；3）用显式的均值聚合替代（在高温极限下行为接近于均值的）堆栈节点注意力聚合。最佳配置（AST-03-01-Mag）在保持ASVspoof 5数据集性能具有竞争力的同时，将后端计算量（MACs）降低了20.7%，模型参数减少了4.1%，并在跨域的In-the-Wild数据集上显著提升了鲁棒性（EER从4.64%降至2.82%）。为支持部署决策，论文还提出了一种结合准确性、校准度和计算量的复合评分指标。 ...

Steering Where to Listen: Instruction-Based Activation Steering Redirects Temporal Attention in Large Audio-Language Models

📄 Steering Where to Listen: Instruction-Based Activation Steering Redirects Temporal Attention in Large Audio-Language Models 6.5/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.3/1.5 ✅ 6.5/10 | 前50% | arxiv 👥 作者与机构作者：Tsung-En Lin, Hung-Yi Lee 机构：National Taiwan University (NTU), NTU Artificial Intelligence Center of Research Excellence (NTU AI-CoRE) 💡 毒舌点评论文像一个在实验室里精心控制下才成立的“物理定律”，一旦放到充满噪声和重叠的真实世界音频丛林里，这个“定律”可能就立刻失灵了。作者展示了一个在理想条件下（清晰分割、无重叠、顺序播放）才能被清晰探测到的“注意力转移”现象，并兴奋地宣称这为理解LALM的内部时间表征打开了大门。但这种“开门”方式需要你预先知道门后面有什么（目标事件标签），并且门框的尺寸也得刚好匹配（需要知道或设定滑动窗口大小）。其工程实用价值，远不如其在模型可解释性上的理论价值来得扎实。 📌 核心摘要本文研究了大型音频语言模型（LALMs）在处理音频时的时间注意力分配机制。作者提出了一种新颖的“基于指令的向量引导”方法，该方法通过对比相同音频输入下，分别附加指向性指令（如“关注有意义部分”）和通用指令（如“关注全部”）所产生的模型内部激活差异，来构建一个推理时的干预向量。通过系统的注意力比例分析，论文发现该方法能显著且独特地改变模型对音频token的时间注意力分布（尤其在后期层），而标准提示工程或基于音频模态的引导则无此效果。基于此发现，作者设计了一个无训练的音频事件定位探针：通过计算应用引导向量前后，模型在不同时间窗口内的注意力变化比例，能够直接定位查询事件的时间位置。在由顺序拼接的单事件音频构成的受控基准上，该探针在Qwen2-Audio和Audio Flamingo 3模型上分别取得了60.87%和68.72%的重叠率，显著优于直接提示和随机基线。结果表明，LALMs内部编码了比其文本输出更丰富的时间信息，而基于指令的激活引导提供了一种无需训练即可探测并利用该信息的有效工具。 ...

The Dynamics of Human and AI-Generated Language: How Semantics Fluctuates across Different Timescales

📄 The Dynamics of Human and AI-Generated Language: How Semantics Fluctuates across Different Timescales #语音合成 #时间序列分析 8.1/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 🔥 8.1/10 | 前25% | #语音合成 | #时间序列分析 | arxiv 👥 作者与机构作者：Han-Jen Chang, Yasir Çatal, Angelika Wolman, Agustín Ibáñez, David Smith, I-Wen Su, Kai-Yuan Cheng, Georg Northoff。机构信息未在论文中明确列出，但从内容推断涉及渥太华大学等机构。 💡 毒舌点评这篇论文试图用动力系统理论的“时间尺度”概念来统一理解语言语义的动态，想法很宏大。其核心是提出一个“语义时间尺度分析管道”，把离散的词和句子变成连续的语义信号，然后用自相关窗（ACW-0）等工具去量化其时间结构。实验上用了三套数据（人录音、人文本TTS、LLM文本TTS）和四种精心设计的洗牌对照组，论证还算扎实。主要发现是“通用词汇对应长的时间尺度，具体词汇对应短的时间尺度”，并且这个关系在洗牌后就消失或反转，说明不是偶然。然而，这篇文章的“软肋”也很明显：首先，它号称比较“人类与AI语言”，但LLM-TTS条件本身是个“四不像”——文本是LLM生成的，但语音是TTS合成的，无法干净地剥离AI在文本生成和语音合成上的各自贡献，这个比较很牵强。其次，语义代理指标的选择存在争议：WordNet深度是一个静态的、层级化的词汇特异性指标，它忽略了语境，论文自己也承认“比较粗糙”；SBERT窗口参数（100秒）的选择主观性较强，论文虽做了敏感性分析（补图10），但缺乏更系统的论证。再者，样本量很小（17人），且叙事文本的普适性存疑。最后，整篇论文更像一个方法论的“先导研究”或“概念验证”，虽然框架有趣，但离真正揭示“人类与AI语言动态差异”的终极问题还差得远，结论的推广需要非常谨慎。 ...

The Hidden Cost of Pairwise Verification in Synthetic Speech Source Tracing

📄 The Hidden Cost of Pairwise Verification in Synthetic Speech Source Tracing #语音合成 7.5/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.5/10 | 前50% | #语音合成 | #语音合成 | arxiv 👥 作者与机构作者：Anton Firc, Zbyněk Liča, Vojtěch Staněk, Kamil Malinka 机构：Security@FIT, Brno University of Technology, Czech Republic 💡 毒舌点评这篇论文的工作比较扎实，但创新性有限。它本质上是将生物识别领域中成熟的全局锚定与成对验证方法在合成语音溯源这个特定任务上进行了系统性的再验证和比较。实验控制得很严格，这点值得肯定，但结论的普适性可能受限于特定的主干网络（XLS-R）和聚合头（MHFA）。作者声称成对验证“隐藏成本”在于嵌入空间的方向性塑造，这个解释有一定洞察力，但并未提供充分的理论分析或更广泛的损失函数（如对比损失、三元组损失）验证来夯实这一论点。此外，论文对“开放集”特性的探讨稍显不足，更多是在闭集协议下的验证性能对比。最终提出的实践准则（先用全局锚定）虽然实用，但更像一个基于经验观察的建议，而非一个有理论支撑的范式。 📌 核心摘要本研究系统比较了在开放集合成语音溯源任务中，全局锚定（以分类作为代理任务）与成对验证（源自生物识别的度量学习）两种训练目标的性能差异。在严格控制主干网络、训练数据与计算预算的条件下，实验表明全局锚定在MLAAD（域内）数据集上取得了更低的等错误率（EER 8.61%）和更好的低误报率下检测率，而多种成对验证变体（包括引入难负样本挖掘与XLS-R微调）的EER仍处于12-15%区间。通过嵌入空间分析（\(k_{99}\)指标）发现，成对验证导致更严重的维度坍缩（\(k_{99}\approx13\)），但强制对全局基线施加低维瓶颈（10/13维）后性能依然具有竞争力，表明性能差距并非源于维度本身，而是目标函数对嵌入方向的筛选。在跨域STOPA数据集上，所有方法性能急剧下降且差异变小。论文最终提出一个简单的实践准则：在合成语音溯源中应优先尝试全局锚定方法。 ...

Tight Boundary Prediction in Speaker Diarization Using Causal-Anticausal Consistency

📄 Tight Boundary Prediction in Speaker Diarization Using Causal-Anticausal Consistency #低资源 9.6/10 | 创新 1.8/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 9.6/10 | 前25% | #低资源 | #低资源 | arxiv 👥 作者与机构作者：Tianchi Ji, Rui Liu, Shixiong Zhang, Haizhou Li 机构：香港中文大学（深圳），中国；上海交通大学，中国；上海人工智能实验室，中国 💡 毒舌点评这篇工作瞄准了说话人分割中一个具体而实际的痛点——边界预测不准，并提出了一个思路巧妙的解决方案。核心想法（利用因果和反因果模型的一致性）具有一定的理论趣味性，实现起来也算工程上“优雅”。实验部分在多个标准数据集上做了验证，证明了其有效性，尤其是对边界敏感指标的提升，这是值得肯定的。开源了代码和模型权重，对于社区复现和后续研究是负责任的。然而，论文的“新意”更多在于技术组合的巧妙，而非根本性的理论突破。一致性约束的物理或信息论解释略显薄弱，更多是启发式的。消融实验虽然做了，但对一致性约束本身的作用机制（例如，它到底迫使模型学到了什么？）挖掘不够深。另外，将边界预测问题转化为一个在预测边界附近的“精细分类”问题，这个思路不新，本文的贡献在于如何更有效地“定位”这个附近区域。总的来说，这是一篇扎实、有用的工程改进型工作，但距离顶尖会议那种“灵光一现”的开创性还有距离，其影响力主要局限于说话人分割领域内的边界优化技术。 📌 核心摘要本文针对说话人分割任务中边界预测不精确的问题，提出了一种基于因果-反因果一致性的新方法。核心思想是，对于同一段语音，从过去到未来的“因果”模型和从未来到过去的“反因果”模型，在真正的说话��边界处应产生一致的决策（即预测该点为边界或非边界）。为此，作者设计了一个可微分的边界采样器，利用初始模型（如EEND-VC）的预测作为锚点，在其邻域内密集采样，然后通过一致性损失来优化整个分割模型。该方法将边界优化过程无缝集成到端到端的训练框架中。实验表明，在AliMeeting、AMI和DIHARD III三个数据集上，该方法在边界敏感的指标（B-CUBER, JER）上取得了显著提升，同时整体的分割错误率（DER）也得到保持或改善，验证了所提一致性约束的有效性。 🔗 开源详情代码：https://github.com/TianchiJi/CA-Consistency-Diarization 模型权重：https://huggingface.co/TianchiJi/ca-consistency-diarization-base 数据集：论文中使用了公开数据集AliMeeting, AMI, DIHARD III，但未提供额外数据集。 Demo：论文中未提及。复现材料：论文在“Implementation Details”和“Appendix”中提供了详细的训练配置、超参数设置及因果-反因果一致性训练的具体实现细节。提供了指向GitHub代码库和HuggingFace模型库的明确链接。论文中引用的开源项目： EEND-VC: https://github.com/espnet/espnet （作为基线模型） Pyannote-Audio: https://github.com/pyannote/pyannote-audio （用于数据预处理和评估） 🏗️ 方法概述和架构本文提出的方法旨在通过引入因果-反因果一致性约束来提升说话人分割模型的边界预测精度。整体架构包含一个基础的端到端说话人分割模型（例如EEND-VC），以及一个在该基础模型上构建的一致性训练模块。 ...

Towards Data-free and Training-free Compression for Speech Foundation Models Using Parameter Clustering

📄 Towards Data-free and Training-free Compression for Speech Foundation Models Using Parameter Clustering #模型压缩 #语音识别 #无监督学习 6.4/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.4/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.4/10 | 前50% | #语音识别 | #模型压缩 | #无监督学习 | arxiv 👥 作者与机构作者：Haoning Xu, Zhaoqing Li, Huimeng Wang, Youjun Chen, Chengxi Deng, Mengzhe Geng, Xunying Liu 机构：1 The Chinese University of Hong Kong, Hong Kong SAR, China; 2 National Research Council Canada, Canada 邮箱：hnxu@se.cuhk.edu.hk, xyliu@se.cuhk.edu.hk ...