Icassp-2026

WaveSP-Net: Learnable Wavelet-Domain Sparse Prompt Tuning for Speech Deepfake Detection

📄 WaveSP-Net: Learnable Wavelet-Domain Sparse Prompt Tuning for Speech Deepfake Detection #语音伪造检测 #时频分析 #预训练 #自监督学习 #参数高效微调 🔥 8.0/10 | 前25% | #语音伪造检测 | #时频分析 #预训练 | #时频分析 #预训练学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Xi Xuan（University of Eastern Finland）通讯作者：Xi Xuan（University of Eastern Finland，邮箱：xi.xuan@uef.fi）作者列表： Xi Xuan（University of Eastern Finland） Xuechen Liu（National Institute of Informatics） Wenxin Zhang（University of Chinese Academy of Sciences， University of Toronto） Yi-Cheng Lin（National Taiwan University） Xiaojian Lin（Tsinghua University） Tomi Kinnunen（University of Eastern Finland） 💡 毒舌点评亮点：论文巧妙地将经典的、可解释的小波变换（多分辨率分析）与前沿的参数高效微调（Prompt Tuning）相结合，不仅提升了检测性能，还通过消融实验有力地证明了可学习小波滤波器和稀疏化机制的关键作用，这种“老树开新花”的思路值得肯定。短板：尽管在DE24和SpoofCeleb两个基准上表现优异，但论文的实验验证相对局限，主要依赖于SSL模型XLSR和特定后端Mamba，未能探讨该小波提示框架在其他预训练模型（如HuBERT）或更轻量级端侧模型上的泛化能力与适用性，其“普适性”有待更广泛验证。 ...

WaveSpikeNet: A Wavelet-Spiking Fusion Architecture for Audio Classification on Edge Devices

📄 WaveSpikeNet: A Wavelet-Spiking Fusion Architecture for Audio Classification on Edge Devices #音频分类 #脉冲神经网络 #边缘计算 #生物启发计算 #时频分析 ✅ 7.5/10 | 前25% | #音频分类 | #脉冲神经网络 | #边缘计算 #生物启发计算学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Bin Liu（上海科技大学信息科学与技术学院，中国科学院自动化研究所多模态人工智能系统国家重点实验室）通讯作者：Wenjuan Li（中国科学院自动化研究所多模态人工智能系统国家重点实验室，邮箱：wenjuan.li@ia.ac.cn）作者列表：Bin Liu（上海科技大学信息科学与技术学院，中国科学院自动化研究所多模态人工智能系统国家重点实验室）、Wenjuan Li（中国科学院自动化研究所多模态人工智能系统国家重点实验室）、Bing Li（中国科学院自动化研究所多模态人工智能系统国家重点实验室）、Chunfeng Yuan（中国科学院自动化研究所多模态人工智能系统国家重点实验室）、Kun Shang（广东省无创脑机接口多模态重点实验室）、Shaobing Gao（四川大学计算机科学与技术学院）、Weiming Hu（上海科技大学信息科学与技术学院，中国科学院自动化研究所多模态人工智能系统国家重点实验室） 💡 毒舌点评这篇论文的亮点在于其高度原创的“生物启发式”架构设计，将小波变换、脉冲神经网络与双通路处理有机结合，为解决音频分类在边缘设备上的部署难题提供了新颖且有效的思路，参数效率指标（1.9M参数达95.91%准确率）极具吸引力。但其短板也很明显：一是实验仅在多个中小型数据集上验证，缺乏对更大规模、更复杂真实场景的测试，且所有模型均为“从头训练”，未能与当前主流的预训练范式进行公平对比，削弱了其结论的普适性；二是虽然声称面向边缘部署，但未提供在实际嵌入式设备（如STM32、RISC-V）上的功耗与延迟实测数据，效率分析仍停留在FLOPs和模拟器层面。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了公开基准数据集（US8K, ESC-50, SCV2, GTZAN, AudioSet），但论文未说明其具体获取方式。 Demo：未提及。复现材料：论文提供了详细的训练设置（数据预处理、增强、优化器、学习率策略、损失权重）、模型变体规格（参数量、尺寸）和硬件环境（4x RTX 2080 Ti），但这些信息分散在正文和表格中，未提供统一的配置文件或检查点。附录未提供额外细节。论文中引用的开源项目：未明确提及。总结：论文中未提及开源计划。尽管给出了较多训练细节，但由于核心代码和权重未公开，其可复现性较低。 📌 核心摘要要解决的问题：在IoT和边缘计算背景下，音频分类模型面临高性能（大参数）与低资源（有限算力/内存）之间的根本矛盾。现有模型要么参数冗余无法部署，要么压缩后精度下降显著。方法核心：提出WaveSpikeNet，一种受人类听觉系统启发的轻量级架构。其核心包括：(1) 可学习离散小波变换（LDWT）进行任务自适应的频率分解；(2) 模仿听觉皮层“腹侧-背侧”通路的双通路异构处理架构，分别使用传统的残差块处理低频稳态特征，使用简化的Leaky Integrate-and-Fire（LIF）脉冲神经网络处理高频瞬态特征；(3) 多级注意力融合模块进行有效整合。与已有方法相比新在哪里：首次成功地将可学习小波变换、脉冲神经网络和多级注意力机制融合用于音频分类。与传统的同质化（如全卷积）或均匀压缩方法不同，它通过生物启发的异构处理（低频CNN，高频SNN）来提升参数效率，而非简单地减少参数量。主要实验结果：在UrbanSound8K数据集上，Base模型（1.9M参数）达到95.91%准确率，超越参数量为其4倍多的ResNetSE（7.8M参数，95.07%），参数效率（准确率/参数量）显著提升。在ESC-50、GTZAN等数据集上也从头训练取得有竞争力的结果。在AudioSet上，以约35倍少于CNN14的参数量，取得了更高的mAP（0.234 vs 0.221）。消融实验验证了双通路设计、可学习小波和脉冲机制的有效性。实际意义：为在资源受限的边缘设备（如树莓派）上部署高性能音频分类模型提供了一种有前景的新架构，可能推动智能传感在智能家居、工业监测等领域的应用。主要局限性：(1) 缺乏在真实物理边缘设备上的功耗、延迟等硬件指标实测；(2) 所有实验均为从头训练，未能与当前主流的预训练-微调范式进行对比，其性能上限和泛化能力有待进一步验证；(3) 论文未提供代码、模型权重等开源材料，可复现性存疑。 🏗️ 模型架构 WaveSpikeNet的整体架构（如图2所示）是一个端到端的音频分类模型，输入为梅尔频谱图，输出为类别预测。其流程和组件如下： ...

WavLink: Compact Audio–Text Embeddings with a Global Whisper Token

📄 WavLink: Compact Audio–Text Embeddings with a Global Whisper Token #音频检索 #对比学习 #零样本 #预训练 #迁移学习 🔥 8.0/10 | 前25% | #音频检索 | #对比学习 | #零样本 #预训练学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度高 👥 作者与机构第一作者：Gokul Karthik Kumar (Technology Innovation Institute, Abu Dhabi, UAE) 通讯作者：未说明作者列表：Gokul Karthik Kumar (Technology Innovation Institute, Abu Dhabi, UAE)、Ludovick Lepauloux (Technology Innovation Institute, Abu Dhabi, UAE)、Hakim Hacid (Technology Innovation Institute, Abu Dhabi, UAE) 💡 毒舌点评这篇论文巧妙地将用于语音识别的Whisper模型“降维”用于音频文本嵌入，用一个全局token替代了1500个帧特征，在检索任务上取得了优于CLAP系列模型的效果，思路清晰且实用。然而，其在零样本分类（如ESC-50）上的性能落后于专用模型，表明为ASR预训练的特征在通用音频理解上仍有局限；同时，论文对“为何选择现代BERT并表现不佳”的讨论不够深入。 ...

What the student learns in knowledge distillation: A subspace view and evidence on Convolutional Recurrent Network

📄 What the student learns in knowledge distillation: A subspace view and evidence on Convolutional Recurrent Network #知识蒸馏 #语音增强 #模型压缩 #子空间学习 ✅ 6.5/10 | 前50% | #语音增强 | #知识蒸馏 | #模型压缩 #子空间学习学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Bo Jin（清华大学电子工程系）通讯作者：Dongmei Li（清华大学电子工程系）作者列表：Bo Jin（清华大学电子工程系），Timin Li（清华大学电子工程系），Guhan Chen（清华大学统计与数据科学系），Dongmei Li（清华大学电子工程系） 💡 毒舌点评论文的理论推导部分将卷积层线性化并建立统一的子空间损失形式，确实为理解知识蒸馏提供了一个优雅的数学视角，这是其核心亮点。但遗憾的是，所有实验都局限于DCCRN这一特定模型在语音增强任务上的表现，缺乏在其他经典架构（如ResNet、Transformer）或任务（如图像分类）上的跨域验证，大大削弱了其“统一视角”宣称的说服力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了公开的Interspeech 2021 DNS Challenge数据集和DNS2020片段，论文中未提供数据集下载链接，但指明了数据集名称。 Demo：未提及。复现材料：提供了较详细的实现细节（如数据集预处理、模型配置、优化器设置、训练轮数对应关系），但缺乏完整的脚本和配置文件。论文中引用的开源项目：引用了DCCRN模型的原始论文 [12]。 📌 核心摘要这篇论文旨在从统一的子空间视角解释知识蒸馏的工作原理。其核心方法是将卷积神经网络局部线性化，证明在该表示下，一大类知识蒸馏损失可统一为投影残差目标，进而等价于一个迹最大化问题，即学生的有限容量被引导去对齐教师模型的主能量子空间。与已有研究相比，该工作提出了一种更形式化、更统一的解释框架，并能够解释在语音增强实验中观察到的三个稳健现象：1) 多阶段蒸馏优于单阶段蒸馏；2) 多层特征蒸馏通常优于等层匹配蒸馏；3) 样本级别的教师-学生一致性会涌现。实验在DNS Challenge数据集上使用DCCRN模型进行，结果显示，相比无蒸馏基线，所测试的知识蒸馏方法均能提升学生模型性能（例如，1/16学生模型在CLSKD方法下STOI达到0.886，WB-PESQ达到2.732）。该论文的实际意义在于为知识蒸馏的机制提供了新的理论解释，并可指导蒸馏策略的设计。主要局限性是理论验证仅在单一架构（DCCRN）和单一任务（语音增强）上进行，普适性有待进一步检验。 ...

When Audio Matters: A Lightweight, Hierarchical Fusion Model for Speech and Non-Verbal Emotion Recognition

📄 When Audio Matters: A Lightweight, Hierarchical Fusion Model for Speech and Non-Verbal Emotion Recognition #语音情感识别 #多模态模型 #音频分类 #自监督学习 🔥 8.0/10 | 前25% | #语音情感识别 | #多模态模型 | #音频分类 #自监督学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Alkis Koudounas（Politecnico di Torino, Italy）通讯作者：未明确说明（论文中两位作者贡献均等，提供了各自邮箱）作者列表：Alkis Koudounas（Politecnico di Torino, Italy）、Moreno La Quatra（Kore University of Enna, Italy）、Elena Baralis（Politecnico di Torino, Italy） 💡 毒舌点评这篇论文的亮点在于它没有盲目追求“1+1>2”的粗暴融合，而是精准地指出了音频的“专家”角色——专门解决文本含糊不清的时刻，并通过优雅的残差注意力机制让音频“打辅助”而不是“抢C位”，这种问题驱动的设计思路值得肯定。但其短板也明显：一是主实验依赖的数据集（NonVerbalTTS）本身规模有限且相对小众，可能限制了结论的普适性冲击力；二是虽然论文给出了代码仓库链接，但并未明确承诺开源模型权重和完整训练流程，对于想直接使用其成果的读者来说，这一步的“最后一公里”有点模糊。 🔗 开源详情代码：论文中提供了代码仓库链接（github.com/koudounasalkis/HERON），表明与复现相关的代码或脚本是可访问的。模型权重：论文中未提及是否公开预训练或微调后的HERON模型权重。数据集：实验使用的主数据集NonVerbalTTS为公开数据集。论文未提及HERON是否生成或发布任何新的衍生数据。 Demo：论文中未提及提供在线演示。复现材料：论文详细说明了训练细节（学习率、优化器、批大小、调度器、早停）、硬件（RTX A6000）以及两种训练范式（冻结/全微调）的具体设置，为复现提供了充分的信息。论文中引用的开源项目：论文依赖并引用了以下开源模型/工具：RoBERTa [8], HuBERT [11], voc2vec [12], BERT [23], ModernBERT [24]。 📌 核心摘要问题：在多模态情感识别中，文本模态通常过于强大，导致音频（尤其是包含情感信息的非语言声音，如笑声、叹息）的贡献被掩盖或引入噪声，简单融合往往适得其反。方法核心：提出了HERON模型，其核心思想是音频的主要作用是消歧文本中中性或模糊的语义。架构分为两步：首先统一融合语音（HuBERT）和非语言声音（voc2vec）的音频表征；然后通过残差跨注意力机制，将统一的音频表征作为“增强信息”注入到文本（RoBERTa）表征中，确保文本的强语义始终被保留。新在何处：1）假设驱动：明确将音频定位为文本消歧的“专家”，而非全能选手；2）分层残差融合：创新的两阶段架构，先内模态融合音频，再以文本为中心进行跨模态残差融合，有效防止文本主导；3）轻量化：在冻结骨干的参数高效设置下（仅7.6M可训练参数），即可匹配全训练的单模态文本基线。主要实验结果：在NonVerbalTTS数据集上，HERON（全微调）的F1 Macro为0.39，相比最强基线（voc2vec-RoBERTa，0.36）有+3%的绝对提升，达到SOTA。关键消融实验（Table 2）表明，其提出的“拼接-残差”（concat-residual）融合策略在两种训练设置下均最优。细粒度分析显示，HERON在文本信息弱的“Neutral”和“Other”类别上相比RoBERTa分别有+17%和+56%的巨大提升。在MELD数据集（无针对性调优）上，HERON（全微调）也达到0.63的准确率，优于所有基线。模型准确率 F1 Macro RoBERTa (文本) 0.65 0.36 HuBERT (语音) 0.57 0.28 voc2vec (NVV) 0.54 0.29 HERON (冻结骨干) 0.71 0.39 HERON (全微调) 0.71 0.39 实际意义：为多模态情感识别，特别是涉及非语言声音的场景，提供了一个高效、可解释且泛化性良好的融合范式，对开发更细腻的人机交互、心理健康监测等应用有参考价值。主要局限性：1）依赖的NonVerbalTTS数据集规模有限（约4000条），可能影响模型泛化能力的充分评估；2）未与更多前沿的多模态融合方法（如基于对比学习或最优传输的方法）进行直接对比；3）论文未提供模型权重，复现依赖自行训练。 🏗️ 模型架构 HERON的整体架构（见图1）包含三个预训练骨干网络和一个分层融合模块，最后接分类头。 ...

When Children Talk and Machines Listen: Toward an Interpretable Speech-Based Screener for Dutch Developmental Language Disorder

📄 When Children Talk and Machines Listen: Toward an Interpretable Speech-Based Screener for Dutch Developmental Language Disorder #语音生物标志物 #特征选择 #领域适应 ✅ 7.0/10 | 前50% | #语音生物标志物 | #特征选择 | #领域适应学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度中 👥 作者与机构第一作者：Elio Stasica（Univ. Lorraine, CNRS, Inria, LORIA）通讯作者：未说明作者列表：Elio Stasica（Univ. Lorraine, CNRS, Inria, LORIA）、Charlotte Pouw（Institute for Logic, Language and Computation, University of Amsterdam; Royal Dutch Auris Group）、Louis Berard（Facoltà di Scienze Linguistiche, Università Cattolica del Sacro Cuore）、Willemijn Doedens（Royal Dutch Auris Group）、Vincent P. Martin（Univ. Lorraine, CNRS, Inria, LORIA） 💡 毒舌点评亮点在于它认真对待了“可解释性”这个临床应用的命门，并用特征选择方法努力让模型决策与人类专家知识对齐。但短板也很明显：所用的两个数据集（特别是Auris）规模很小且未公开，使得所有结论的稳健性和可复现性都打了个大问号，更像是一个有潜力的概念验证，而非一个能立即落地的解决方案。 ...

When Noise Lowers the Loss: Rethinking Likelihood-Based Evaluation in Music Large Language Models

📄 When Noise Lowers the Loss: Rethinking Likelihood-Based Evaluation in Music Large Language Models #音乐生成 #模型评估 #自回归模型 #音频大模型 #对抗样本 ✅ 7.0/10 | 前25% | #音乐生成 | #模型评估 | #自回归模型 #音频大模型学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Xiaosha Li (Georgia Institute of Technology) 通讯作者：未说明（根据惯例，最后一位作者Ziyu Wang可能为通讯作者，但论文中未明确标注）作者列表：Xiaosha Li (Georgia Institute of Technology), Chun Liu (ByteDance Inc.), Ziyu Wang (Courant Institute of Mathematical Sciences, New York University; Mohamed bin Zayed University of Artificial Intelligence (MBZUAI)) 💡 毒舌点评亮点在于发现了一个反直觉但可重复验证的现象（“噪声降低损失”），并据此提出了一个新颖的、基于损失曲线形状的评估视角，而非简单否定损失指标，这为音乐生成评估提供了具体的诊断工具和改进方向。短板在于，论文的核心论证主要基于“噪声注入”和“顺序打乱”两种人工扰动，其与真实音乐质量（如乐感、结构、情感表达）的关联性仍需更多元、更贴近实际场景的验证，且提出的“基于曲线形状”的评估框架目前更多是定性描述，缺乏可直接应用的定量标准。 ...

When Silence Matters: The Impact of Irrelevant Audio on Text Reasoning in Large Audio-Language Models

📄 When Silence Matters: The Impact of Irrelevant Audio on Text Reasoning in Large Audio-Language Models #模型评估 #鲁棒性 #音频大模型 #跨模态 #基准测试 ✅ 7.0/10 | 前50% | #模型评估 | #鲁棒性 | #音频大模型 #跨模态学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Chen-An Li（台湾大学，National Taiwan University, Taipei, Taiwan）通讯作者：Hung-yi Lee（台湾大学，National Taiwan University, Taipei, Taiwan）[注：根据学术惯例，论文末尾作者排序通常通讯作者靠后，且Hung-yi Lee为知名教授，推断其为通讯作者。] 作者列表：Chen-An Li（台湾大学）、Tzu-Han Lin（台湾大学）、Hung-yi Lee（台湾大学） 💡 毒舌点评这篇论文像一位严谨的“系统质检员”，它系统性地量化并证实了多模态模型在“心不在焉”（处理无关音频）时确实会“分心”，甚至发现“安静”本身也是一种干扰——这是一个反直觉且重要的发现。然而，它提供的“解决方案”（自我一致性）更像是一个以资源换性能的笨办法，未能指向更优雅、高效的模型架构层面改进，略显乏力。 🔗 开源详情代码：是。论文明确提供了代码仓库链接：https://github.com/lca0503/AudioInterference。模��权重：论文中未提及提供新训练的模型权重。实验使用的是已公开发布的模型（Qwen2.5-Omni， Phi-4-Multimodal， Voxtral， DeSTA2.5-Audio）。数据集：论文中未提及提供新数据集。实验使用的文本基准（GSM8K， ARC-Challenge， MMLU）和音频干扰源（FSD50K）均为公开数据集。 Demo：论文中未提及提供在线演示。复现材料：论文中未提供训练细节（因未训练模型）。提供了评估所用的代码和依赖的推理工具（vLLM， Transformers），但音频干扰文件（如特定振幅的高斯噪声、静音片段）的具体生成方式未详细说明，需复现者参照文中描述自行生成。论文中引用的开源项目：列出了vLLM [33] 和 Transformers [34] 作为推理工具。总结：论文提供了基本的代码复现支持，但未涉及模型训练，因此复现材料集中于评估部分。论文中未提及开源计划（因相关代码已开源）。 📌 核心摘要要解决什么问题：研究大型音频语言模型在执行纯文本推理任务时，其性能是否会受到输入中不相关音频（如静音、噪声、环境声）的干扰，即跨模态干扰的鲁棒性问题。方法核心是什么：通过系统性的控制变量实验，在三个标准文本推理基准（GSM8K， ARC-Challenge， MMLU）上，评估多个开源LALMs在不同干扰条件下的准确率和预测稳定性（提出“影响率”指标）。与已有方法相比新在哪里：不同于以往关注音频与文本冲突或对抗攻击的研究，本文聚焦于更普遍但未被充分研究的“无关音频干扰”场景。核心新发现包括：(1) 即使无语义信息的静音也会显著干扰模型输出；(2) 干扰严重程度与音频时长、振幅和解码温度正相关；(3) 模型大小和架构影响抗干扰能力。主要实验结果如何：无关音频普遍降低模型准确率（绝对下降幅度温和，但普遍存在）并显著提高“影响率”（预测改变的比例）。干扰随音频时长增加、噪声振幅增大而加剧。在30秒静音或噪声下，影响率可达0.15-0.25。解码温度升高会急剧放大干扰效应，模型输出变得不稳定。提示（Prompting）缓解效果有限且不稳定；自我一致性（Self-Consistency，生成8次取众数）能有效降低影响率（如从0.10以上降至0.05左右）并提升准确率，但计算成本增加。更大模型（如24B参数）通常比小模型更鲁棒，但无一模型完全免疫。干扰程度在不同任务上有差异，MMLU（多领域知识）比GSM8K（数学）受影响更大。 (关键数据见图2，图3，图4及表1，表2) 实际意义是什么：揭示了LALMs在真实部署场景中的一个关键脆弱性：即使音频流中仅包含静音或背景噪声，也可能损害文本推理性能。这对需要处理连续音频输入的实时多模态系统（如语音助手）的鲁棒性设计提出了警示。主要局限性是什么：(1) 研究仅发现问题，提出的缓解方法（自我一致性）效率不高；(2) 缺乏从模型架构或融合机制层面提出根本性解决方案；(3) 实验限于文本推理任务，未探索无关音频对其他多模态任务（如音频理解）的影响。 🏗️ 模型架构论文未提出新模型架构，而是评估现有多个模型。被评估的大型音频语言模型（LALMs）通常共享一个通用的多模态架构，如图1所示，主要包括三个组件： ...

When Voice Matters: A Controlled Study of Audio LLM Behavior in Clinical Decision-Making

📄 When Voice Matters: A Controlled Study of Audio LLM Behavior in Clinical Decision-Making #模型评估 #音频大模型 #语音合成 #基准测试 #鲁棒性 ✅ 7.0/10 | 前25% | #模型评估 | #基准测试 | #音频大模型 #语音合成学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zhi Rui Tam（台湾大学，计算机科学与信息工程系）通讯作者：Yun-Nung Chen（台湾大学，计算机科学与信息工程系；IEEE会员）作者列表：Zhi Rui Tam（台湾大学，计算机科学与信息工程系）、Yun-Nung Chen（台湾大学，计算机科学与信息工程系） 💡 毒舌点评亮点：研究设计堪称“控制变量”的典范，用合成语音这把精准的手术刀，切开了音频LLM“听音诊病”时隐藏的严重偏见，尤其是那触目惊心的35%模态偏差，为AI医疗的敲响了警钟。短板：论文在情绪识别部分因模型“五感不全”（识别率极低）而草草收场，未能深究情绪偏见，让这个本该最细腻的维度分析流于表面，如同用一把钝刀去解剖，关键发现后继乏力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。论文评估的DeSTA2.5, Qwen2.5-Omni, Gemini, GPT-4o-mini均为外部模型。数据集：论文公开了其创建的MedVoiceBias数据集的详细统计信息（年龄、性别、情绪各子集的WER、长度、数量）。但未明确说明数据集本身的获取方式（是否以及如何公开）。 Demo：未提及。复现材料：提供了数据集的详细统计表格，但未提供训练细节、配置、检查点。未说明合成语音的具体参数配置。论文中引用的开源项目：Common Voice [15], Expresso [16], Sesame-1B [17], Whisper [18], MOSANet+ [19]。总结：论文中未明确提及开源计划（如GitHub仓库）。数据集本身具备公开价值，但获取渠道未说明。 📌 核心摘要要解决的问题：研究音频大语言模型（Audio LLM）在临床决策（如手术推荐）中，是否会受到患者语音特征（如年龄、性别、情绪）的影响，从而产生基于声音而非医学证据的偏见，进而可能加剧医疗不平等。方法核心：构建了受控实验框架。利用高质量TTS模型，将相同的临床文本病例转换为36种不同声音特征（年龄、性别、情绪）的语音，作为音频LLM的输入。将音频输入下的手术推荐率与纯文本输入基线进行对比，以量化语音特征带来的偏见。同时，测试了直接回答和思维链两种提示策略。与已有方法相比新在哪里：这是首个系统评估音频LLM在临床决策中存在语音偏见的研究。创新在于：a) 聚焦于音频模态引入的新偏见向量，而非传统的文本偏见；b) 创建了专用的、受控的评估数据集MedVoiceBias；c) 揭示了文本与音频模态间存在巨大决策差异（最高达35%），以及年龄偏见在思维链提示下依然顽固存在。主要实验结果：模态偏见严重：66.7%的模型在音频输入下的手术推荐率与文本基线存在统计学显著差异。例如，GPT-4o-mini的推荐率从文本的26.5%暴跌至音频的5.3%；DeSTA2.5则从53.9%跃升至88.8%。年龄偏见持续：在6个模型中，4个在直接回答模式下表现出显著的年龄差异（如Qwen2.5-3B对青年和老年患者的推荐率差达11.8%）。思维链提示非但未能消除，反而使5/6的模型出现显著年龄差异，表明推理过程可能激活了关于年龄的有害启发式。性别偏见可缓解：思维链提示完全消除了所有模型的性别差异，与年龄偏见形成鲜明对比。情绪影响难测：由于大多数模型情绪识别准确率极低（<17%），未能可靠检测情绪对决策的影响。仅在少数识别能力强的模型中观察到微弱差异。模型文本基线音频（直接回答）变化幅度 gpt-4o-mini 26.5% 5.3% -21.2pp (↓80%) gemini-2.0-flash 0.0% 0.6% +0.6pp gemini-2.5-flash 27.6% 31.8% +4.2pp Qwen2.5-Omni-3B 97.6% 75.3% -22.3pp Qwen2.5-Omni-7B 11.2% 20.6% +9.4pp DeSTA2.5 53.9% 88.8% +34.9pp 模型青年老年差异 Qwen2.5-Omni-3B 85.3% 73.5% -11.8pp gemini-2.5-flash 25.3% 17.9% -7.4pp DeSTA2.5 87.6% 90.1% +2.5pp 实际意义：研究发出了强烈警告：音频LLM在当前状态下，因其对副语言特征的敏感性，尚不具备安全部署于临床决策的能力。这要求开发者必须设计偏见感知的架构，并在部署前进行严格评估，以确保决策基于医学证据而非患者的声音。主要局限性：a) 情绪偏见分析因模型识别能力不足而不可靠；b) 评估仅限于手术推荐这一种决策类型；c) 使用合成语音可能与真实患者语音存在差距；d) 未提供缓解偏见的具体模型架构或训练方案。 🏗️ 模型架构本文并非提出新模型，而是对现有音频LLM进行偏见评估。因此，其“架构”指代的是评估框架（如图1所示）。该框架流程如下： ...

Whisper-FEST: Single-Channel Far-Field Enhanced Speech-to-text without Parallel Data

📄 Whisper-FEST: Single-Channel Far-Field Enhanced Speech-to-text without Parallel Data #语音识别 #语音增强 #边缘计算 #多任务学习 ✅ 7.5/10 | 前50% | #语音识别 | #语音增强 | #边缘计算 #多任务学习学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：未说明（论文作者列表未明确标注第一作者，根据列表顺序推测为 M A Basha Shaik）通讯作者：未说明作者列表：M A Basha Shaik (Samsung Research Institute, Bangalore, India), Vijendra R. Apsingekar (Samsung Research America, Mountain View, USA), Vineeth Rao (RV College of Engineering, Bangalore, India), Manonmani V. Amarnath (RV College of Engineering, Bangalore, India), Rahil Khan (RV College of Engineering, Bangalore, India), Mohammed Iqbal (RV College of Engineering, Bangalore, India), Manonmani Srinivasan (RV College of Engineering, Bangalore, India) 💡 毒舌点评亮点：该工作直面“如何在不重训大模型的前提下，让Whisper这类近场专家处理远场信号”的工程难题，其“即插即用”的模块化前端设计理念非常务实，且在VOiCES干净远场条件下取得了惊人的64.7%相对WER下降，证明了Conformer瓶颈对声学降质建模的有效性。短板：论文中“计划开源”的承诺如同“画饼”，对至关重要的训练超参数细节（如学习率）语焉不详，让想复现的同行望而却步；此外，其方法本质上仍是“语音增强+ASR”的级联范式，未探索与Whisper更深度的端到端联合优化潜力。 ...