论文速递 | 语音/音乐/音频论文速递

Interpreting and Steering a Text-to-Speech Language Model with Sparse Autoencoders

📄 Interpreting and Steering a Text-to-Speech Language Model with Sparse Autoencoders #语音合成 #自监督学习 7.7/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.7/10 | 前25% | #语音合成 | #自监督学习 | arxiv 👥 作者与机构作者: Nikita Koriagin, Georgii Aparin, Nikita Balagansky, Daniil Gavrilov 机构: T-Tech (Koriagin, Balagansky, Gavrilov)， AI Foundation and Algorithm Lab (Aparin) 💡 毒舌点评这篇工作方向不错，把可解释性工具搬到多模态TTS场景，但执行上有点“半成品”。最大的问题是“自己评自己”——用Gemini标，再用Gemini评，这分数的可信度得打个大折扣。实验只盯着一个0.5B的小模型，结论能不能推广到主流的大参数TTS系统里，完全是个问号。引导实验看起来数字亮眼，但全是自动指标，没几个人类评估，怎么知道生成的“笑声”是自然的还是机械的鬼畜？另外，方法虽然适配了新场景，但核心SAE和auto-interp都是前人的工作，谈不上有多大突破。总的来说，是个有用的探索，但离让人信服的结论还差得远。 ...

Lip Forcing: Few-Step Autoregressive Diffusion for Real-time Lip Synchronization

📄 Lip Forcing: Few-Step Autoregressive Diffusion for Real-time Lip Synchronization #自回归模型 #扩散模型 #流式处理 6.8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 6.8/10 | 前50% | #语音合成 | #自回归模型 | #扩散模型 #流式处理 | arxiv 👥 作者与机构论文标题: Lip Forcing: Few-Step Autoregressive Diffusion for Real-time Lip Synchronization arXiv ID: 2606.11180 作者: Paul Hyunbin Cho, Jinhyuk Jang, SeokYoung Lee, Joungbin Lee, Siyoon Jin, Heeseong Shin, Jung Yi, Yunjin Park, Chulmin Park, Seungryong Kim† 机构: 1KAIST AI, 2AIPARK ...

Lung-SRAD: Spectral-Aware Regularized Audio DASS with Dual-Axis Patch-Mix Contrastive Learning for Respiratory Sound Classification

📄 Lung-SRAD: Spectral-Aware Regularized Audio DASS with Dual-Axis Patch-Mix Contrastive Learning for Respiratory Sound Classification #对比学习 #数据增强 #正则化微调 6.8/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.4/1.5 | 复现 0.3/0.5 | 工程 0.4/1.5 ✅ 6.8/10 | 前50% | #对比学习 | #对比学习 | #数据增强 #正则化微调 | arxiv 👥 作者与机构作者: Hemansh Shridhar, Miika Toikkanen, June-Woo Kim† 机构: 1 RSC LAB, MODULABS, Republic of Korea; 2 Department of Electronic Engineering, Wonkwang University, Republic of Korea; 3 AI Convergence Research Institute, Wonkwang University, Republic of Korea ...

MA-DLE: Speech-based Automatic Depression Level Estimation via Memory Augmentation

📄 MA-DLE: Speech-based Automatic Depression Level Estimation via Memory Augmentation #语音情感识别 7.5/10 ✅ 7.5/10 | 前25% | #语音情感识别 | #语音情感识别 | arxiv 👥 作者与机构 Xuzhi Wang1, Xinran Wu1, Ziping Zhao1, Jianhua Tao2, Björn W. Schuller3,4, 1 Tianjin Normal University 2Tsinghua University 3Technical University of Munich 4Imperial College London 💡 毒舌点评一个标准的“缝合怪”工作：把外部记忆机制这个略显陈旧的概念，缝合到语音抑郁症检测这个具体任务上。动机（GRU遗忘早期特征）看似合理，但提供的视觉证据（图1）说服力有限，因为低相似度可能源于特征空间不匹配而非“遗忘”。核心的“相似性检索”本质上是构建了一个静态的、与查询相关的键值对检索库，其有效性（Top-K=5）在小数据集上容易过拟合，且检索的稳定性（如对噪声的鲁棒性）未被讨论。动态特征分支（帧差分+1D卷积）设计粗糙，声称捕捉“情绪波动”，但抑郁症的长期情绪低落模式是否能用相邻帧的差分来建模，值得怀疑。HAF模块用了四个Transformer块，对于这个数据规模的任务来说过于笨重，有堆砌模块之嫌。最令人不安的是，论文声称在E-DAIC上“超越大多数多模态方法”，但仔细对比表格，其RMSE（5.72）仅略优于部分多模态方法（如A+V的5.10, 5.35），在回归任务上这点差距可能不具统计显著性，且MAE（4.68）实际差于一些多模态方法。这种选择性比较有美化结果之嫌。总而言之，这是一篇工程上做了不少尝试，但科学洞察力薄弱、部分结论有过强之嫌的工作。 📌 核心摘要论文针对语音抑郁症水平估计中GRU等RNN模型易遗忘早期长程信息的问题，提出了一个记忆增强框架（MA-DLE）。该框架在ConvGRU提取时序特征的基础上，构建外部记忆库，通过两种策略进行增强：一是检索与GRU输出高相似度的帧特征作为语义补充；二是通过帧差分和轻量编码器建模动态特征以捕捉情绪变化。最终，利用层次注意力融合（HAF）模块整合GRU特征、相似性检索特征和动态特征。在DAIC-WOZ和E-DAIC两个基准数据集上，该方法在语音单模态方法中取得了最优的MAE和RMSE性能。消融实验验证了记忆库、相似性检索、动态特征、HAF模块及Smooth L1损失函数的有效性。然而，该方法在记忆检索的鲁棒性、动态特征建模深度、模型复杂度以及多模态场景下的潜力等方面存在局限。 🔗 开源详情代码：论文中未提供代码仓库链接。模型权重：论文中未提供模型权重下载链接。数据集：论文中使用了 DAIC-WOZ 和 E-DAIC 数据集。论文指出这两个数据集被广泛使用，但未提供具体的下载链接或官方仓库地址。 Demo：论文中未提及在线演示链接。复现材料：论文提供了详细的实验设置（V-C, V-D节），包括优化器、学习率、批次大小、网络架构细节（如8层GRU，隐藏层维度256）和超参数（如记忆模块的K=5，Smooth L1 Loss的β=1.0）。但未提供预训练模型、训练脚本或完整的代码仓库供复现。论文中引用的开源项目： PyTorch：论文提到其实现基于 PyTorch（V-C节）。官方链接：https://pytorch.org/ NetVLAD：论文提到使用 NetVLAD 作为音频编码器提取特征（IV-A, IV-B节）。官方论文及代码参考：https://arxiv.org/abs/1511.07232 🏗️ 方法概述和架构论文提出MA-DLE框架，旨在通过外部记忆增强来弥补GRU在建模语音长序列时对早期信息捕捉不足的缺陷。整体架构如图2所示，包含特征提取、双分支处理（ConvGRU分支与记忆库分支）和HAF融合三个主要部分。 ...

Massive Open-Vocabulary Keyword Spotting

📄 Massive Open-Vocabulary Keyword Spotting #语音识别 #关键词检测 #模型压缩 9.8/10 | 创新 1.6/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9.8/10 | 前50% | #语音识别 | #模型压缩 | #关键词检测 | arxiv 👥 作者与机构 Leonor Barreiros, Raul Monteiro, Afonso Mendes, Gonçalo M. Correia Priberam Labs, Lisboa, Portugal; Instituto Superior Técnico, Lisboa, Portugal; Instituto de Telecomunicações, Lisboa, Portugal 💡 毒舌点评这篇工作抓住了OV-KWS系统在实际生产中的一个真实痛点——处理大规模术语库的效率瓶颈。提出的三级压缩思路清晰，且通过实验证明了在效率上实现了数量级的提升（128倍内存，6倍速度），这是其最大的亮点。然而，论文的短板也很明显：1）核心方法（三级压缩）是多个成熟技术（稀疏层选择、MLP降维、CNN降采样）的组合，创新性有限；2）在最具挑战性、也是最能体现其价值的大规模内部数据集上，引导ASR的效果反而变差，这严重削弱了其实际应用价值的 claim；3）部分实验细节和对比不够严谨，例如基线因内存不足而需batch处理，引入了额外开销。总体而言，这是一个工程导向、解决实际问题的有效方案，但理论贡献和最终应用效果有待商榷。 ...

Overcoming State Inertia in Full-Duplex Spoken Language Models via Activation Steering

📄 Overcoming State Inertia in Full-Duplex Spoken Language Models via Activation Steering #基准测试 5.5/10 | 创新 0.8/2 | 严谨 1/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.7/1.5 📝 5.5/10 | 前50% | #基准测试 | #基准测试 | arxiv 👥 作者与机构作者：Cheng-Kuang Chang (共同一作), Kai-Wei Chang (共同一作), Alexander H. Liu, James Glass 机构：MIT CSAIL 💡 毒舌点评一篇切入点有趣的工作，将激活引导从纯文本LLM延伸到多模态全双工模型。核心观察“状态惰性”直观且有一定洞察力，ZBB基准的设计也精准地戳中了当前模型在精细时间粒度上的理解短板。然而，方法的核心——构建感知向量——过于依赖启发式定义的状态（生成/感知状态）和阈值选择，其“训练免费”的优势在实际部署中可能被对能量检测器的依赖所抵消。实验仅在三个模型上进行，且提升幅度因模型而异（Raon-SpeechChat的提升虽然百分比高，但绝对值过低），结论的普适性存疑。最遗憾的是，论文未开源任何代码、模型或数据集，极大地限制了其可验证性和影响力。整体而言，这是一篇概念清晰、实验尚可但缺乏深度验证和工程落地细节的早期探索性工作。 📌 核心摘要本文研究了全双工语音语言模型在处理用户打断时出现的内部状态转换延迟问题，作者将其命名为“状态惰性”。通过对模型隐藏表示的分析，发现其内部存在与用户输入流对齐的“感知状态”和与模型输出流对齐的“生成状态”，而打断发生时从生成状态到感知状态的转换存在滞后，导致模型丢失用户输入的早期关键信息。为量化此问题，提出了零缓冲基准，通过将关键语义词置于打断话语的最前端来测试模型的瞬时理解能力。最后，提出了一种无需微调的激活引导方法，通过注入“感知向量”来加速状态转换。在三个开源FD-SLM上的实验表明，该方法能有效提升模型在零缓冲基准上的表现。 🔗 开源详情代码：论文未提及提供任何代码仓库链接。虽然文中详细描述了激活引导、亲和力计算、数据集构建（附录A）的方法和参数，但未提供用于复现这些分析或实验的代码。模型权重：论文未提供所评估的三个全双工语音语言模型（PersonaPlex， Moshi， Raon-SpeechChat）的权重下载链接。仅说明它们是开源模型，但未指明具体版本或获取地址。数据集：论文未提及构建的数据集（轮次交互数据集、打断分析数据集、零缓冲基准数据集）是否开源或提供下载地址。附录A详细描述了创建方法。 Demo：论文未提及。复现材料：论文未提供完整的复现指南、训练脚本或检查点。论文中引用的开源项目（非论文自身贡献）： Dia2-2B (TTS模型): https://huggingface.co/nari-labs/Dia2-2B Parakeet-TDT-0.6B-v2 (ASR模型): https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2 Claude Opus 4.5 (用于数据生成的LLM): 论文中仅提及名称，未提供链接。激活��向相关参考文献: 引用了多篇先前工作，但未列出具体项目链接。 🏗️ 方法概述和架构论文的方法主要围绕问题诊断、基准构建和干预解决三个层面展开，其核心是利用模型的隐藏表示进行分析和操控。 ...

PianoKontext: Expressive Performance Rendering from Deadpan Context

📄 PianoKontext: Expressive Performance Rendering from Deadpan Context #音乐生成 #流匹配 #扩散模型 9.1/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 9.1/10 | 前50% | #音乐生成 | #流匹配 | #扩散模型 | arxiv 👥 作者与机构 Dmitrii Gavrilev （机构未在提供的原文中明确提及） 💡 毒舌点评这篇论文的出发点很巧，把“如何让钢琴弹得有感情”这个玄学问题，转化成了“如何把死气沉沉的MIDI合成音频变得好听”这个工程问题。思路清晰，像用DTW在潜在空间对齐数据这招，算是个实用的小trick。但是，作者你这实验做得也太“精打细算”了吧？就一个MAESTRO子集、一张RTX 4090卡，就想定义“表现力演奏”的未来？连个人类主观听感测试都舍不得做，就敢在结论里谈“音乐性”？这跟用泡面调料包评测米其林餐厅有啥区别。最后那个“缺乏理想 articulation”的自我批评倒是挺诚实，但光承认问题不解决，顶会审稿人可不会买账。 📌 核心摘要本文提出了PianoKontext，一个用于表现力钢琴演奏渲染（EPR）的潜在流匹配模型。其核心思想是将问题建模为以合成的死板音频为条件，在潜在空间中生成变长、富有表现力的钢琴音频。关键方法包括：1）利用动态时间规整（DTW）在预训练的Music2Latent模型的潜在空间中，对齐MIDI分数合成的死板音频与真实表现力音频，构建训练数据对；2）采用借鉴自FLUX Kontext的DiT架构，通过拼接条件序列和噪声化的目标序列，并使用2D旋转位置编码（RoPE）进行联合自注意力建模，以学习两者间的依赖关系。实验表明，与无监督基线CFG Bridge相比，PianoKontext在音频质量（FAD/KAD）和内容保真度（Pitch DTW、对齐精确率/召回率）上均有提升。 🔗 开源详情代码仓库：github.com/realfolkcode/pianokontext 提供代码，有助于复现方法。未提供模型权重或完整数据集。 🏗️ 方法概述和架构 PianoKontext的方法可分为数据准备和模型架构两大部分，整体流程如图1所示。 ...

Pretrained self-supervised speech models can recognize unseen consonants

📄 Pretrained self-supervised speech models can recognize unseen consonants #语音识别 #低资源 #自监督学习 #数据集 6.5/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.5/10 | 前50% | #语音识别 | #自监督学习 | #低资源 #数据集 | arxiv 👥 作者与机构作者：Chihiro Taguchi， Éric Le Ferrand， Hirosi Nakagawa， Hitomi Ono， Kanji Kato， Emily Prud’hommeaux， David Chiang。机构：University of Notre Dame, USA； University at Buffalo, USA； Tokyo University of Foreign Studies, Japan； Reitaku University, Japan； Independent researcher； Boston College, USA。 ...

Quality Adaptive Angular Margin Learning for Respiratory Sound Classification

📄 Quality Adaptive Angular Margin Learning for Respiratory Sound Classification #正则化微调 #音频质量评估 #数据增强 9.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9.5/10 | 前50% | #音频质量评估 | #数据增强 | #正则化微调 | arxiv 👥 作者与机构 Yoon Tae Kim: RSC LAB, MODULABS, Republic of Korea; dkimx3966@gmail.com Heejoon Koo: Department of Electronic Engineering, Wonkwang University, Republic of Korea; kaen2891@wku.ac.kr Miika Toikkanen: 1 RSC LAB, MODULABS, Republic of Korea; 2 Department of Electronic Engineering, Wonkwang University, Republic of Korea June-Woo Kim (通讯作者): 1 RSC LAB, MODULABS, Republic of Korea; 3 AI Convergence Research Institute, Wonkwang University, Republic of Korea 💡 毒舌点评这篇论文像是一个“精准的工程优化”而非“开创性的科学突破”。它确实解决了呼吸音分类中的两个真实痛点（质量差异与类别不平衡），并且代码开源，实验也做到了该做的程度。但正确的引用格式，例如添加链接或标记为纯文本引用。如果不需要链接，可保持原样，但建议明确。示例修复：[rocha2017alpha] 改为 "[rocha2017alpha]" 或 [rocha2017alpha](#)。核心创新——两个公式的参数（α， β， m_target）选择依据薄弱，更像是经验调参而非严谨推导。最大的卖点“最优OOD性能”也仅在一个额外数据集上验证，说服力有限。总的来说，这是一篇合格的、能发表的“增量改进”工作，但距离定义新范式的高影响力论文还有明显差距。它更像是在现有优秀框架（AST， CLAP）上做了一个“不错的插件”。 ...

RAIL: Rethinking Auditory Intelligence in Large Audio-Language Models with a CHC-Grounded Benchmark

📄 RAIL: Rethinking Auditory Intelligence in Large Audio-Language Models with a CHC-Grounded Benchmark #基准测试 #多模态模型 9.6/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 0.9/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 9.6/10 | 前10% | #音频问答 | #基准测试 | #多模态模型 | arxiv 👥 作者与机构论文作者来自多个机构，包括：墨尔本大学（The University of Melbourne）：Hongyu Jin, Siyi Wang, Yang Xiao, Jiaheng Dong, Kaiyuan Peng, Eun-Jung Holden, Ting Dang (通讯作者) 亚历山大·约安·库扎大学（Alexandru Ioan Cuza University of Iași）：Georgiana Juravle 武汉大学（Wuhan University）：Shihong Tan, Gongping Huang 香港大学（The University of Hong Kong）：Shanquan Chen 奥克兰大学（The University of Auckland）：Hong Jia 莫纳什大学（Monash University）：James Bailey 💡 毒舌点评这篇论文就像给音频AI做了一次全面的“认知体检”，而不是只看它会不会听写或分类。作者们很聪明地借用了心理学中成熟的CHC理论框架，把评估维度从简单的任务表现拆解成了感知、推理、记忆、效率、知识五大能力，这比市面上那些七拼八凑的基准要科学得多。26个模型的大规模“体检报告”确实揭示了当前LALM们的“偏科”问题：背课文（知识）还行，但真要听懂复杂场景、记住长对话、又快又好地思考，还差得远。特别是发现了推理和记忆强相关、效率跟模型大小没啥关系这些点，挺有意思。 ...