论文速递 | 语音/音乐/音频论文速递

COALA: Robust Contextualized Speech-augmented Language Modeling for ASR via Contrastive Regularizer and Biasing Score Estimation

📄 COALA: Robust Contextualized Speech-augmented Language Modeling for ASR via Contrastive Regularizer and Biasing Score Estimation 标签：#语音识别 #对比学习 #参数高效微调 #语音大模型 7.5/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 0.9/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 1.1/1.5 ✅ 7.5/10 | 前25% | 文档类型：方法研究 | 评分置信度：高 | #语音识别 | #对比学习 | #参数高效微调 #语音大模型 | arxiv 👥 作者与机构第一作者：Jhih-Rong Guo（国立台湾师范大学）通讯作者：未说明作者列表：Jhih-Rong Guo（国立台湾师范大学）、Bi-Cheng Yan（国立台湾师范大学）、Tien-Hong Lo（国立台湾师范大学）、Berlin Chen（国立台湾师范大学） 💡 毒舌点评论文针对语音增强语言模型（SLM）在多实体上下文偏置场景下的梯度冲突问题，提出了MPD-Loss和DPD-Loss两种损失函数，将偏置评分重构为点对点二分类问题，在大规模偏置列表下实现了高召回率和低B-WER。然而，“零偏置"场景下的基础ASR性能（B-WER 23.39/39.49）远逊于所有对比基线（如RNN-T+IB的12.96/28.09），论文仅承认差距而未深入分析原因；所有实验仅在相对规整的LibriSpeech上进行，缺乏噪声、口音等真实场景验证；未经BTI过滤直接输入偏置列表（N=500/1000）时B-WER（20.38/35.01）劣于无偏置条件，暗示方法高度依赖阈值筛选机制，评分器本身的区分能力不足以直接支撑上下文偏置。 ...

Diarization-Guided Qwen-ASR Adaptation for Multilingual Two-Speaker Conversational Speech

📄 Diarization-Guided Qwen-ASR Adaptation for Multilingual Two-Speaker Conversational Speech 标签：#语音识别 #语音大模型 #说话人日志 #多语言 #参数高效微调 5.7/10 | 创新 1/2 | 严谨 1.1/1.5 | 实验 0.8/1.5 | 清晰 0.8/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 📝 5.7/10 | 前50% | 文档类型：系统技术报告 | 评分置信度：高 | #语音识别 | #语音大模型 | #说话人日志 #多语言 | arxiv 👥 作者与机构第一作者：Hao Wu（上海期智研究院）共同第一作者：RongQi Han（上海期智研究院）通讯作者：Hao Wu（上海期智研究院）作者列表：Hao Wu（上海期智研究院）、RongQi Han（上海期智研究院）、Zhen Wang（上海期智研究院）、Wei Liang（幂镜智能（北京）技术有限公司）、Wei Xu（上海期智研究院） 💡 毒舌点评本文是典型的“挑战赛获胜方案技术报告”，展示了将成熟工具箱（3D-Speaker, FunASR, Wespeaker）与当前流行技术（LoRA, GRPO, 合成数据增强）进行工程集成的能力，并在MLC-SLM任务中取得了不错的成绩。然而，论文的“创新”本质上是现有技术的排列组合，缺乏方法论层面的深刻洞察。通篇更像是对一个成功工程项目的复盘记录，而非推动领域认知的研究工作。其价值在于提供了一份可操作的“配方”，但贡献的广度和深度有限，难以在顶级会议论文中脱颖而出。 ...

Diarization-Guided Qwen-ASR Adaptation for Multilingual Two-Speaker Conversational Speech

📄 Diarization-Guided Qwen-ASR Adaptation for Multilingual Two-Speaker Conversational Speech 标签：#语音识别 #说话人日志 #多语言 #参数高效微调 #强化学习 #语音大模型 #低资源 7/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 7/10 | 前50% | 文档类型：系统技术报告 | 评分置信度：高 | #语音识别 | #语音大模型 | #说话人日志 #多语言 | arxiv 👥 作者与机构第一作者：Hao Wu（上海期智研究院）、RongQi Han（上海期智研究院）（论文注明二者贡献均等）通讯作者：Hao Wu（论文中邮箱 wuhao@sqz.ac.cn 对应）作者列表：Hao Wu（上海期智研究院）、RongQi Han（上海期智研究院）、Zhen Wang（上海期智研究院）、Wei Liang（Megatronix (Beijing) Technology Co., Ltd）、Wei Xu（上海期智研究院） 💡 毒舌点评亮点在于对Qwen3-ASR-1.7B进行了系统、多阶段的适应（SFT+LoRA+GRPO），特别是利用TTS合成数据增强来提升低资源语言识别，工程实现完整，实验覆盖全面。短板在于创新性以工程组合为主，缺乏对单一组件（如GRPO用于ASR）的深入机理分析，且核心系统完全未开源，限制了其作为领域基准的贡献。 ...

Inverse-designed meta processing units for multi-task near-field photonic computing

📄 Inverse-designed meta processing units for multi-task near-field photonic computing 标签：#多任务学习 #音频理解 #Transformer #模型评估 6.9/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.5/1.5 | 开源 1/1.5 | 复现 0.2/0.5 | 工程 1.2/1.5 ✅ 6.9/10 | 前50% | 文档类型：系统技术报告 | 评分置信度：高 | #音频理解 | #多任务学习 | #Transformer #模型评估 | arxiv 👥 作者与机构第一作者：Chu Wu（清华大学电子工程系）通讯作者：Xing Lin（清华大学电子工程系）作者列表：Chu Wu（清华大学电子工程系）、Zeyu Cai（清华大学电子工程系）、Songtao Yang（清华大学电子工程系）、Ruoyu Shen（张江实验室）、Yinan Zhao（清华大学电子工程系）、Haiou Zhang（清华大学电子工程系）、Wei Chu（张江实验室）、Xing Lin（清华大学电子工程系） 💡 毒舌点评论文的核心价值在于将逆设计纳米光子器件从孤立应用组件提升为可复用的矩阵算子（MPU），并通过硬件在环训练展示了从器件到系统的完整闭环验证，工程集成度高。然而，作为“系统技术报告”，其系统级验证规模（双任务元音识别）过于简单，与文中反复强调的“大规模”、“多任务”潜力形成鲜明反差，严重削弱了其核心声明。对语音/音频领域的直接贡献几乎为零，更像是一篇面向通用光子计算架构的硬件系统设计论文，对于非光子计算领域的读者启发有限。 ...

Inverse-designed meta processing units for multi-task near-field photonic computing

📄 Inverse-designed meta processing units for multi-task near-field photonic computing 标签：#多任务学习 7.7/10 | 创新 1.3/2 | 严谨 1.4/1.5 | 实验 1/1.5 | 清晰 0.9/1 | 影响 0.5/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 ✅ 7.7/10 | 前25% | 文档类型：系统技术报告 | 评分置信度：高 | #多任务学习 | #多任务学习 | arxiv 👥 作者与机构第一作者：吴初（清华大学电子工程系）通讯作者：林星（清华大学电子工程系）作者列表：吴初（清华大学电子工程系）、蔡泽宇（清华大学电子工程系）、杨松涛（清华大学电子工程系）、沈若愚（张江实验室）、赵一男（清华大学电子工程系）、张海鸥（清华大学电子工程系）、魏楚（张江实验室）、林星（清华大学电子工程系） 💡 毒舌点评本文在工程完整性上堪称典范，从器件逆设计、库构建到系统级硬件闭环训练，展示了一条完整的光子计算系统技术链路，工程参考价值很高。然而，其核心实验验证的“元音分类”任务规模小且较为简单，与当前光子计算领域的前沿系统（如Taichi）相比，在任务复杂度、系统规模和性能标杆上均存在明显差距，导致其影响力受限。 📌 核心摘要本文旨在解决集成光子神经网络中，亚波长集成密度与计算可重构性之间的固有矛盾。作者提出了一种逆设计的元处理单元作为紧凑的无源复数矩阵算子，并构建了一种MPU-MZI混合架构，使被动算子和可重构MZI神经元能在单个计算单元级别动态分配。该方法的创新之处在于将逆设计光子器件从孤立应用转变为可复用的矩阵原语，并提出了任务感知的神经元级MPU替换策略。实验验证了其2x2单元库的有效重建精度为3.32比特，4x4级联矩阵保真度达92.7%。在硬件在环实验中，双任务元音分类的测试准确率分别为83.5%和80.9%。在大规模EMNIST模拟中，神经元级MPU替换策略在90%共享率下达到87.64%的平均准确率，比层级基线高7.26个百分点。该工作为构建高密度、硬件自适应的多任务光子神经网络提供了一种新路径。主要局限在于实验规模较小，未与当前最先进的大规模光子计算系统进行直接、全面的性能对比。 🔗 开源详情代码：https://github.com/THPCILab/MPU 模型权重：论文中未提及数据集：论文中使用了“dual-task vowel recognition”数据集和“EMNIST”数据集。其中，“dual-task vowel recognition”数据集的具体来源未在论文中说明；“EMNIST”为公开数据集，可通过其官方网站或代码库（如 torchvision）获取，但论文中未提供直接的下载链接。 Demo：论文中未提及复现材料：论文提供了实验结果、关键图表和详细的方法描述，所有代码和实验配置均包含在上述GitHub仓库中。详细的硬件训练流程、校准步骤和仿真框架在补充材料（Supplementary Information）中有具体描述。论文中引用的开源项目： Stanford SPINS framework: 用于逆设计的优化框架。GitHub链接：https://github.com/stanfordnqp/spins-b（根据通用项目地址推断，论文中未直接给出链接，但提到了框架名称）。补充信息：作者联系邮箱：lin-x@tsinghua.edu.cn (Xing Lin), wuc23@mails.tsinghua.edu.cn (Chu Wu) 等。芯片制造：通过 AMF 多项目晶圆（MPW）服务制造，由 CUMEC 封装。数据可用性声明：Data presented in this publication is available on GitHub with the following link: https://github.com/THPCILab/MPU. The codes used in the current study are available from the corresponding authors upon reasonable request. 🏗️ 方法概述和架构本文提出的方法是一个从器件设计到系统验证的完整技术框架。整体流程为：首先，通过电磁逆设计方法，为一系列目标2x2复数矩阵定制紧凑的浅刻蚀硅光子结构（MPU）；然后，将这些被动MPU与可调谐MZI结构结合，形成MPU-MZI混合架构；最后，通过硬件在环训练验证其多任务计算能力，并通过模拟评估其在大规模网络中的替换策略。 ...

It Takes Few to TANGO: A Quantized Distributed Model for Binaural Speech Enhancement

📄 It Takes Few to TANGO: A Quantized Distributed Model for Binaural Speech Enhancement 标签：#语音增强 #知识蒸馏 #模型压缩 #音频理解 #Transformer 6.5/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 6.5/10 | 前50% | 文档类型：系统技术报告 | 评分置信度：高 | #语音增强 | #知识蒸馏 | #模型压缩 #音频理解 | arxiv 👥 作者与机构第一作者：Zahra Benslimane (Univ. Lorraine, CNRS, Inria, LORIA, France) 通讯作者：Romain Serizel (Sorbonne Université, CNRS, LIP6, France) (论文中标注 † 为通讯作者) 作者列表：Zahra Benslimane (Univ. Lorraine, CNRS, Inria, LORIA, France), Pierre Chouteau (Univ. Lorraine, CNRS, Inria, LORIA, France), Martyna Poreba (Univ. Lorraine, CNRS, Inria, LORIA, France), Fabrice Auzanneau (Univ. Lorraine, CNRS, Inria, LORIA, France), Michal Szczepanski (Univ. Lorraine, CNRS, Inria, LORIA, France), Fabian Chersi (Univ. Lorraine, CNRS, Inria, LORIA, France), Romain Serizel (Sorbonne Université, CNRS, LIP6, France) 💡 毒舌点评论文的核心洞察——空间滤波能补偿量化带来的掩膜估计误差——确实有启发性，为混合系统的低功耗部署提供了新思路。然而，实验设置略显“保守”：所有评估均基于单一噪声方位角（仅右侧45°和90°），且目标声源固定在正前方。论文未测试更复杂或动态的声学场景（如混响、移动噪声源、多干扰源），这限制了结论的普适性。此外，与当前最先进的轻量级增强模型缺乏直接对比，使其在技术谱系中的位置不甚明了。 ...

It Takes Few to TANGO: A Quantized Distributed Model for Binaural Speech Enhancement

📄 It Takes Few to TANGO: A Quantized Distributed Model for Binaural Speech Enhancement 标签：#语音增强 #模型压缩 #多通道 6.3/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.1/0.5 | 工程 1.2/1.5 ✅ 6.3/10 | 前50% | 文档类型：系统技术报告 | 评分置信度：高 | #语音增强 | #模型压缩 | #多通道 | arxiv 👥 作者与机构第一作者：Zahra Benslimane（法国南锡大学，洛林大学）通讯作者：未说明作者列表：Zahra Benslimane（法国南锡大学，洛林大学）、Pierre Chouteau（法国南锡大学）、Martyna Poreba（法国南锡大学）、Fabrice Auzanneau（法国南锡大学）、Michal Szczepanski（法国南锡大学）、Fabian Chersi（法国南锡大学）、Romain Serizel（洛林大学） 💡 毒舌点评论文的核心价值在于揭示了混合神经-空间系统中空间滤波器对量化噪声的鲁棒性，并据此提出了一套务实、有效的系统级压缩流水线（架构简化 -> QAT -> ERB压缩 -> 分组LSTM），为助听器等边缘设备的语音增强部署提供了清晰的工程路线图。其硬伤在于：1) 所有压缩技术（量化、分组LSTM、ERB）均为现有成熟组件的组合，缺乏算法层面的突破；2) 所有实验均在模拟数据上完成，缺乏真实硬件部署验证（延迟、功耗）；3) 完全不开源代码、模型和训练数据，极大削弱了其学术影响力和可复用性。 ...

Multimodal Digital Biomarker for Asthma: Complementary Roles of Vocal, Clinical and Demographic Factors

📄 Multimodal Digital Biomarker for Asthma: Complementary Roles of Vocal, Clinical and Demographic Factors 标签：#Transformer #多模态模型 #医疗音频 #可解释性 #自监督学习 5.3/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 0.8/1 | 影响 0.6/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.6/1.5 📝 5.3/10 | 后50% | 文档类型：应用研究 | 评分置信度：高 | #多模态模型 | #Transformer | #医疗音频 #可解释性 | arxiv 👥 作者与机构第一作者：Vladimir Despotovic (Bioinformatics & AI, Department of Medical Informatics, Luxembourg Institute of Health) 通讯作者：Guy Fagherazzi (Deep Digital Phenotyping, Department of Precision Health, Luxembourg Institute of Health) 作者列表：Vladimir Despotovic (Bioinformatics & AI, Department of Medical Informatics, Luxembourg Institute of Health)、Milena Despotovic (Translational Medicine Operations Hub, Luxembourg Institute of Health)、Abir Elbeji (Multi-Omics Data Science, Department of Cancer Research, Luxembourg Institute of Health)、Petr V. Nazarov (Multi-Omics Data Science, Department of Cancer Research, Luxembourg Institute of Health)、Guy Fagherazzi (Deep Digital Phenotyping, Department of Precision Health, Luxembourg Institute of Health) 💡 毒舌点评论文的亮点在于其临床导向的问题定义和对可解释性的探索，特别是通过分析门控权重与症状严重度的相关性，为模型的决策逻辑提供了一层临床意义。然而，其核心短板在于整体创新性不足，更像是一个针对特定临床问题的有效工程应用，而非方法论突破。作者声称其贡献之一是引入MoE架构于临床多模态数据，但这在通用临床预测领域已有先例，论文未能与之充分区分。最关键的是，在强调“可扩展筛查”的同时，其核心代码、模型和数据均未开源，这严重削弱了其学术贡献的可复用性和实际影响力，使得整篇工作停留在了概念验证阶段。 ...

Multimodal Digital Biomarker for Asthma: Complementary Roles of Vocal, Clinical and Demographic Factors

📄 Multimodal Digital Biomarker for Asthma: Complementary Roles of Vocal, Clinical and Demographic Factors 标签：#语音属性识别 #多模态模型 #可解释性 #基准测试 #医疗音频 #自监督学习 5.8/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1/1.5 📝 5.8/10 | 前50% | 文档类型：方法研究 | 评分置信度：高 | #语音属性识别 | #模型融合 | #多模态模型 #可解释性 | arxiv 👥 作者与机构第一作者：Vladimir Despotovic (Luxembourg Institute of Health, Bioinformatics & AI, Department of Medical Informatics) 通讯作者：论文中未明确说明作者列表：Vladimir Despotovic (Luxembourg Institute of Health), Milena Despotovic (Luxembourg Institute of Health), Abir Elbeji (Luxembourg Institute of Health), Petr V. Nazarov (Luxembourg Institute of Health), Guy Fagherazzi (Luxembourg Institute of Health) 💡 毒舌点评这篇论文的亮点在于将成熟的多模态Mixture-of-Experts架构系统性地应用于语音生物标志物，并结合了两种互补的语音任务和丰富的临床数据，且对门控机制的解释性分析做得相对扎实。主要短板在于整个工作的创新性高度依赖于MoE框架的工程化应用而非方法本身，且核心贡献——数据集和模型完全未开源，严重限制了其影响力和可复现性，使其更像一份详尽的可行性报告而非突破性研究。此外，其声称的“首次”应用值得推敲，因为MoE在其他临床多模态数据中已有探索。 ...

Multimodal Unlearning Across Vision, Language, Video, and Audio: Survey of Methods, Datasets, and Benchmarks

📄 Multimodal Unlearning Across Vision, Language, Video, and Audio: Survey of Methods, Datasets, and Benchmarks 标签：#Transformer #多模态模型 #模型评估 #数据集 #基准测试 6.9/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.5/1.5 | 开源 1.5/1.5 | 复现 0.3/0.5 | 工程 0.6/1.5 ✅ 6.9/10 | 前50% | 文档类型：综述 | 评分置信度：高 | #多模态模型 | #Transformer | #模型评估 #数据集 | arxiv 👥 作者与机构第一作者：Nobin Sarwar（马里兰大学巴尔的摩县分校）通讯作者：未说明作者列表：Nobin Sarwar（马里兰大学巴尔的摩县分校）、Shubhashis Roy Dipta（马里兰大学巴尔的摩县分校）、Zheyuan Liu（圣母大学）、Vaidehi Patil（北卡罗来纳大学教堂山分校） 💡 毒舌点评这篇综述最大的亮点在于其“系统第一”的分类视角，试图为跨模态的遗忘学习建立一个从数据到推理的统一技术栈，这比传统的算法中心分类更具工程洞察力。然而，其最大的硬伤在于其宣称的“跨视觉、语言、视频、音频”四大模态覆盖名不副实。尽管框架摆在那里，但对音频和视频模态的方法、数据集、评估的深入剖析和案例分析严重不足，更像是一种为了满足“四大模态”标签而进行的例行列举，而非平衡的深度综述。这使得其宣称的价值大打折扣，尤其对音频/音乐领域的研究者而言，参考价值有限。 ...