Icassp-2026

Single-Step Controllable Music Bandwidth extension with Flow Matching

📄 Single-Step Controllable Music Bandwidth extension with Flow Matching #音乐信息检索 #流匹配 #音频处理 #可控制 ✅ 7.0/10 | 前25% | #音乐信息检索 | #流匹配 | #音频处理 #可控制学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Carlos Hernandez-Olivan（Universal Music Group, Music & Advanced Machine Learning Lab, London, UK）通讯作者：未说明作者列表：Carlos Hernandez-Olivan（Universal Music Group, Music & Advanced Machine Learning Lab, London, UK）、Hendrik Vincent Koops（Universal Music Group, Music & Advanced Machine Learning Lab, London, UK）、Hao Hao Tan（Universal Music Group, Music & Advanced Machine Learning Lab, London, UK）、Elio Quinton（Universal Music Group, Music & Advanced Machine Learning Lab, London, UK） 💡 毒舌点评亮点：论文成功地将单步生成的流匹配框架应用于音乐带宽扩展，并创新性地提��了“动态频谱轮廓”（DSC）这一实用且物理意义明确的控制信号，解决了传统频谱特征在静音段失效的痛点，为专业音频工程师提供了精细调控带宽的可能。短板：模型核心（FLOWHIGH）并非原创，创新主要集中在控制特征和引导策略的嫁接上；实验验证虽充分，但所提方法在控制范围（如倍率>1时效果急剧下降）和场景适应性上的泛化能力存疑，离真正的“里程碑”还有距离。 ...

SingMOS-Pro: An Comprehensive Benchmark For Singing Quality Assessment

📄 SingMOS-Pro: An Comprehensive Benchmark For Singing Quality Assessment #歌唱语音合成 #基准测试 #数据集 #模型评估 #自监督学习 ✅ 7.5/10 | 前25% | #歌唱语音合成 | #基准测试 | #数据集 #模型评估学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yuxun Tang (中国人民大学) 通讯作者：Qin Jin (中国人民大学) 作者列表：Yuxun Tang (中国人民大学), Lan Liu (Sun Yat-sen University), Wenhao Feng (中国人民大学), Yiwen Zhao (Carnegie Mellon University), Jionghao Han (Carnegie Mellon University), Yifeng Yu (Georgia Institute of Technology), Jiatong Shi (Carnegie Mellon University), Qin Jin (中国人民大学) 💡 毒舌点评亮点：数据集构建工作堪称“基建狂魔”，从任务、语言、模型、标注维度上实现了对SQA领域前所未有的全面覆盖，为后续研究扫清了最大的障碍——数据。短板：在自动评估模型的创新上略显保守，主要是将语音领域的SSL模型和特征“搬”过来验证，缺乏针对歌唱特有属性（如音高、节奏、气息）的深度建模创新。 ...

SIREN: Spatially-Informed Reconstruction of Binaural Audio with Vision

📄 SIREN: Spatially-Informed Reconstruction of Binaural Audio with Vision #空间音频 #音视频 #Transformer ✅ 7.0/10 | 前25% | #空间音频 | #音视频 | #Transformer 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Mingyeong Song (Ewha Womans University, Seoul, Korea)，Seoyeon Ko (Ewha Womans University, Seoul, Korea) （论文标注两人贡献相等）通讯作者：未说明作者列表：Mingyeong Song (Ewha Womans University, Seoul, Korea), Seoyeon Ko (Ewha Womans University, Seoul, Korea), Junhyug Noh (Ewha Womans University, Seoul, Korea) 💡 毒舌点评 SIREN巧妙地将Transformer的注意力机制“一分为二”，用作左右声道的空间特征调制器，思路清晰且免去了手工设计掩模的麻烦，是本文最亮眼的工程巧思。然而，论文的论证主要停留在客观指标的“分数游戏”上，缺乏一个关键环节：听众到底能不能真的听出区别？没有主观MOS测试，很难断言那些STFT或相位距离的提升能带来感知上的空间感增强。此外，方法的“自信融合”听起来很美，但其核心假设（单声道一致性和相位一致性）在复杂动态场景下的鲁棒性未见深入讨论。 ...

SIRUP: A Diffusion-Based Virtual Upmixer of Steering Vectors for Highly-Directive Spatialization with First-Order Ambisonics

📄 SIRUP: A Diffusion-Based Virtual Upmixer of Steering Vectors for Highly-Directive Spatialization with First-Order Ambisonics #空间音频 #声源定位 #扩散模型 #波束成形 #麦克风阵列 ✅ 7.0/10 | 前25% | #声源定位 | #扩散模型 | #空间音频 #波束成形学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Emilio Picard（法国索邦大学，日本RIKEN高级智能项目中心）通讯作者：未说明作者列表：Emilio Picard（法国索邦大学，日本RIKEN高级智能项目中心）、Diego Di Carlo（日本RIKEN高级智能项目中心）、Aditya Arie Nugraha（日本RIKEN高级智能项目中心）、Mathieu Fontaine（法国巴黎电信学院LTCI实验室，日本RIKEN高级智能项目中心）、Kazuyoshi Yoshii（日本京都大学工程研究生院，日本RIKEN高级智能项目中心） 💡 毒舌点评亮点：将图像领域的潜在扩散模型“上采样”思路巧妙地移植到空间音频的波束成形向量超分辨率问题上，是一个非常具体且聪明的类比应用，实验结果也清晰展示了在狭窄波束和低旁瓣方面的显著提升。短板：整篇论文的验证完全依赖于模拟数据，对于真实世界中复杂的声场、阵列误差和未知噪声的鲁棒性只字未提，这极大地限制了其结论的说服力和实际应用价值的判断。 🔗 开源详情代码：论文明确提供了代码仓库链接 https://github.com/emilio-pcrd/sirup，并注明“upon acceptance”（接收后发布）。目前（基于论文阅读时间）可能尚未公开。模型权重：未提及。数据集：使用了公开的LibriSpeech数据集的部分音频（dev-clean文件夹）作为声源，但用于训练的房间脉冲响应和混合数据是论文作者自己模拟生成的，未提及是否会公开这些模拟数据或生成脚本。 Demo：未提及。复现材料：论文提供了详细的模型配置（参数量、训练超参数）、评估设置和损失函数描述，但训练硬件等关键信息缺失。引用的开源项目：主要依赖 pyroomacoustics 进行房间模拟，以及 bss_eval 工具包进行评估。 📌 核心摘要问题：现有的高空间分辨率音频系统（如高阶Ambisonics， HOA）需要昂贵的麦克风阵列。常见的一阶Ambisonics（FOA）系统空间分辨率低，导致声源定位不精确，波束成形效果差。传统上混方法（先估计声源参数再渲染）会误差传播。方法：本文提出SIRUP，一种基于潜在扩散模型的波束成形向量（SV）虚拟上混方法。其核心是直接学习将低阶FOA SV映射到高阶HOA SV的潜在空间。具体分为两步：首先，用变分自编码器（VAE）学习HOA SV的紧凑潜在表示；然后，训练一个以FOA SV为条件的扩散模型，在该潜在空间中生成高阶SV的嵌入。创新：与传统“估计-渲染”级联方法不同，SIRUP直接操作和超分辨率波束成形向量本身，避免了中间参数估计误差的传播。它利用扩散模型在数据分布上的强大生成能力，学习FOA与HOA SV之间的复杂非线性映射。结果：实验在模拟房间环境中进行。与FOA基线相比，SIRUP上混后的SV在声源定位（DOA误差）、空间滤波质量（-3dB波束宽度平均提升+10°，旁瓣抑制-9dB）和双声源语音分离（SIR，SAR等指标）上均取得显著改进，性能接近真实HOA系统。关键数据见表1与表2。意义：为低成本FOA设备提供了一种软件方式，使其能够虚拟达到接近昂贵HOA设备的空间分析和渲染性能，对空间音频应用、机器人听觉等有潜在价值。局限：所有实验基于模拟数据，缺乏真实世界复杂环境的验证；混响增大时，相对于HOA基线的优势减小；模型目前仅适用于单声源SV估计场景。 🏗️ 模型架构 SIRUP模型是一个条件潜在扩散模型，旨在将M通道的FOA SV（估计值或代数值）上混为M‘通道（M‘>M）的HOA SV。其整体流程分为训练和推理两个阶段，核心组件包括变分自编码器（VAE）和潜在扩散模型（LDM）。 ...

SLAP: Scalable Language-Audio Pretraining with Variable-Duration Audio and Multi-Objective Training

📄 SLAP: Scalable Language-Audio Pretraining with Variable-Duration Audio and Multi-Objective Training #音频检索 #音频分类 #多模态模型 #预训练 #对比学习 🔥 8.0/10 | 前25% | #音频检索 | #预训练 | #音频分类 #多模态模型学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.2 | 置信度高 👥 作者与机构第一作者：Xinhao Mei（Meta）通讯作者：未说明作者列表：Xinhao Mei（Meta）、Gael Le Lan（Meta）、Haohe Liu（Meta）、Zhaoheng Ni（Meta）、Varun Nagaraja（Meta）、Yang Liu（Meta）、Yangyang Shi（Meta）、Vikas Chandra（Meta） 💡 毒舌点评 SLAP在CLAP的“变长音频处理”和“单阶段多目标训练”两个痛点上给出了工程与学术结合得相当漂亮的方案，尤其序列打包技巧很实用。但宣称的“109M数据”优势建立在未公开的私有数据集上，这削弱了其结论的可复现性和说服力，让后续研究者难以直接验证或跟进其“规模至上”的逻辑。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开的预训练或微调模型权重。数据集：使用的预训练数据集（MovieGen Audio）未公开。评估所用数据集（AudioCaps, Clotho, ESC-50等）为公开基准。 Demo：未提及在线演示。复现材料：提供了详细的模型架构配置（如层数、维度）、超参数（学习率、batch size、掩码比例等）、训练策略（预热、EMA）和数据预处理步骤，这些信息有助于复现。但缺少代码和数据，完全复现难度很大。论文中引用的开源项目：引用了Flash Attention [17]用于高效计算，以及ModernBERT [15]、SpecAugment [22]等开源工作/工具。开源计划：论文中未提及开源计划。 📌 核心摘要要解决什么问题：当前对比语言-音频预训练（CLAP）模型存在三大局限：训练数据规模相对较小（通常百万级）、音频输入时长固定（通常≤10秒）且需要填充/截断、以及全局对比学习损失阻碍了密集细粒度音频特征的学习。方法核心是什么：提出SLAP框架，通过三点解决上述问题：(1) 将预训练规模扩展至1.09亿音频-文本对；(2) 重新设计Transformer音频编码器，支持最长30秒的变长音频输入，并采用混合注意力机制与序列打包技术高效处理；(3) 统一对比损失、自监督掩码建模损失和字幕生成损失到单阶段训练中。与已有方法相比新在哪里：相比先前工作，SLAP首次将音频-文本预训练推向亿级数据规模；其音频编码器从头训练，原生支持变长输入，避免了填充/截断；其统一的单阶段多目标训练管道简化了流程（不同于多阶段方法），旨在同时学习全局对齐和局部密集特征。主要实验结果如何：音频文本检索（Table 1）：在AudioCaps和Clotho数据集上，无论是零样本还是微调设置，SLAP均达到了SOTA性能。例如，在微调后，AudioCaps文本到音频检索的R@1达到47.5%，Clotho的音频到文本检索R@1达到36.8%。零样本音频分类（Table 2）：在ESC-50、CREMA-D和GTZAN数据集上，通过在WavCaps上微调后，SLAP取得了新的SOTA（如ESC-50上达到95.5%）。音频字幕（Table 3）：在AudioCaps和Clotho上，SLAP的CIDEr分数（75.1和43.7）优于M2D2-CLAP等采用多阶段训练的CLAP方法。消融研究（Table 5）：在AudioCaps零样本检索上，去除自监督损失（L_SSL）或字幕损失（L_CAP）均导致性能下降，证明了多目标训练的有效性；去除局部注意力也带来性能损失。实际意义是什么：证明了大规模、灵活（变长）、多目标预训练对学习强大通用音频表示的重要性。SLAP模型可作为强大的音频基础模型，服务于音频检索、分类、字幕等多种下游任务。主要局限性是什么：预训练使用的MovieGen Audio数据集未公开，这限制了方法的完全复现和对数据规模效应的独立验证；尽管支持变长音频，但报告的测试集音频长度仍在30秒内，更长时序的处理能力未验证；在音频标注（AudioSet）等任务上，并未显著超越最强的专用模型。 🏗️ 模型架构图1展示了SLAP的整体训练框架。模型主要由三部分组成：音频编码器、文本编码器/解码器和多目标训练管道。 ...

SLM-SS: Speech Language Model for Generative Speech Separation

📄 SLM-SS: Speech Language Model for Generative Speech Separation #语音分离 #语音大模型 #自回归模型 #语音增强 ✅ 7.5/10 | 前25% | #语音分离 | #自回归模型 | #语音大模型 #语音增强学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Tianhua Li（上海交通大学计算机科学与技术学院，教育部人工智能重点实验室，听觉认知与计算声学实验室）通讯作者：Chenda Li†（同上； VUI Labs）， Yanmin Qian†（同上； VUI Labs）作者列表：Tianhua Li（上海交通大学计算机科学与技术学院）， Chenda Li（上海交通大学计算机科学与技术学院， VUI Labs）， Wei Wang（上海交通大学计算机科学与技术学院）， Xin Zhou（上海交通大学计算机科学与技术学院）， Xihui Chen（上海交通大学计算机科学与技术学院）， Jianqing Gao（科大讯飞股份有限公司AI研究院）， Yanmin Qian（上海交通大学计算机科学与技术学院， VUI Labs） 💡 毒舌点评亮点在于将语音语言模型的生成范式用于语音分离，直指传统判别方法在“可懂度”上的软肋，并且用AR+NAR混合解码来平衡质量与效率，思路清晰且新颖。短板是模型规模仅为600M参数、仅在LibriMix单一数据集上验证，缺乏在更复杂真实场景（如强噪声、多说话人）和更大规模数据集上的锤炼，说服力打了折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用公开的LibriMix数据集。 Demo：提供在线演示页面链接：https://herobrinelth.github.io/slm-ss。复现材料：论文给出了模型参数规模（约600M）、学习率（5e-5）及调度策略（余弦退火+3epoch预热）、训练轮数（30）、AR解码的特殊策略（空白抑制， N-gram阻塞），但缺失优化器类型、Batch Size、具体硬件环境等关键细节。论文中引用的开源项目：WavLM， Encodec， Whisper。 📌 核心摘要要解决的问题：传统判别式语音分离方法在波形重建的信号指标上表现良好，但往往引入失真，导致分离后语音的可懂度下降，进而损害自动语音识别等下游任务的性能。方法核心：提出SLM-SS框架，将语音分离视为离散多码本序列生成问题。首先使用Encodec编码器将语音转换为离散码本序列，并利用SOT策略进行拼接；然后采用基于WavLM编码器和Whisper式解码器的自回归（AR）模型预测零阶码本；接着，使用一个非自回归（NAR）模型基于低阶码本顺序预测高阶码本；最后，通过码本切分与Encodec解码器重建出分离后的单人语音。新意：与先前的判别式方法（如BSRNN, Sepformer）和部分生成式方法不同，SLM-SS首次系统性地将语音语言模型（SLM）的建模能力引入语音分离任务，并创新性地结合了AR和NAR生成策略，以提升效率。主要实验结果：在LibriMix数据集上，SLM-SS在下游任务一致性指标上显著优于基线。其字错误率（WER）为7.24，远低于BSRNN（29.8）和Sepformer（28.7），接近地面真值（5.19）。其Levenshtein音素相似度（LPS）为0.954，也优于基线（BSRNN: 0.885, Sepformer: 0.890）。主观平均意见得分（MOS）SLM-SS为4.19，高于BSRNN（4.01）和Sepformer（3.98）。消融实验证明，随着使用码本数量从1增加到8，WER下降，LPS上升；AR解码温度为1.0时性能最佳。 fig1 ...

SLM-TTA: A Framework for Test-Time Adaptation of Generative Spoken Language Models

📄 SLM-TTA: A Framework for Test-Time Adaptation of Generative Spoken Language Models #语音识别 #语音翻译 #领域适应 #自适应学习 #语音大模型 ✅ 7.0/10 | 前50% | #语音识别 | #领域适应 | #语音翻译 #自适应学习学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Yuan-Kuei Wu (Yuan-Kuei Wu1,2)（台湾大学电信工程学研究所，Meta）通讯作者：未明确说明，但根据作者列表排序和贡献标注，Li Wan可能是主要指导者。作者列表： Yuan-Kuei Wu（台湾大学电信工程学研究所，Meta） Yang Liu（Meta） Yiteng Huang（Meta） Zhaojun Yang（Meta） Haibin Wu（Meta） Ruizhe Huang（Meta） Yi-Te(Ethan) Hsu（Meta） Shuyu Kong（Meta） Ming Sun（Meta） Florian Metze（Meta） Li Wan（Meta） 💡 毒舌点评亮点：论文首次系统性地解决了生成式语音大模型（SLM）在测试时自适应的难题，填补了这一领域的空白，其提出的无监督目标（熵最小化、伪标签）结合置信度过滤的框架设计精巧，且实验验证了其在多种任务和严苛噪声条件下的有效性。短板：方法的核心组件（熵最小化、伪标签、置信度过滤）均为现有技术的组合与调整，创新的深度有限；且所有实验仅在单一商用模型Phi-4-Multimodal上进行，其结论能否泛化到其他架构（如更大、更小的模型或其他训练范式）的SLM上存疑。 ...

Slot Filling as a Reasoning Task for Speechllms

📄 Slot Filling as a Reasoning Task for Speechllms #语音理解 #槽填充 #语音大模型 #思维链 #监督微调 ✅ 6.5/10 | 前25% | #槽填充 | #思维链 | #语音理解 #语音大模型学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Kadri Hacioglu（Uniphore）通讯作者：未说明作者列表：Kadri Hacioglu (Uniphore), Manjunath K. E. (Uniphore), Andreas Stolcke (Uniphore) 💡 毒舌点评论文亮点在于清晰地指出了推理优化型LLM（如DeepSeek R1蒸馏版）在直接应用于语音槽填充时“水土不服”的现象，并提出了通过混合训练来兼顾直接与推理模式的务实解决方案。然而，其主要短板在于实验局限于有限的几个开源模型和单一的脚本对话数据集，未能充分验证该方法在更多样化语音场景（如自然对话、噪声环境）下的普适性，且完全缺失代码和数据开源，削弱了结论的说服力和影响力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及是否公开微调后的模型权重。数据集：使用的DefinedAI客服对话数据集未提及是否公开及获取方式。构建的推理数据集也未开源。 Demo：未提及。复现材料：给出了部分训练细节（如LoRA设置、批量大小、学习率、硬件），但未提供完整的训练配置、数据预处理脚本、评估脚本或附录中的详细超参数表。论文中引用的开源项目：主要依赖了开源的预训练模型，如Whisper, Llama系列, Qwen系列, Phi系列等。 📌 核心摘要问题：传统语音槽填充任务通常被建模为单步预测，缺乏显式的推理过程，而新兴的推理型大语言模型（LLM）在此类任务上的适用性尚不明确。方法核心：提出将槽填充重构为多步推理任务，模仿人类标注流程（听写-识别-分配）。利用思维链（CoT）框架构建包含转录、提及识别和理由说明的推理数据集，并通过监督微调（SFT）训练语音大模型（SpeechLLM）。模型架构包含语音编码器（Whisper-base）、适配器和文本LLM，支持在“常规”（直接输出）和“推理”（先输出思考过程再输出答案）模式间切换。新意：与此前端到端直接生成槽填充结果的方法不同，本文首次系统性地探索了将显式CoT推理引入语音大模型用于槽填充的可行性，并对比了不同类型（基础、指令、推理、混合）和规模的基础LLM，还创新性地提出了同时保留两种操作模式的混合训练策略。主要实验结果：在约31K通客服电话数据集上，中等规模（8B参数）的基础或指令微调LLM 作为语音大模型骨干时，引入推理监督能提升性能（如Llama 3.1 8B Base的F1从0.6923提升至0.7736）。然而，专门为数学/代码等推理任务优化的模型（如DeepSeek R1蒸馏版）作为骨干时，尽管在推理模式下提升幅度最大（+22.72%），但绝对性能仍低于同规模其他模型。小规模（≤4B）的混合或推理LLM 在引入显式推理后，性能反而下降。最终，基于混合LLM（Qwen3 4B）并采用混合监督训练的语音大模型取得了最佳性能（F1达0.7988）。具体数据见表1和表2。实际意义：为提升语音理解任务的可解释性和性能提供了新思路，指出构建兼顾指令遵循与推理能力的“混合”基础模型对于下游语音任务可能更有效，对工业界构建实用型语音大模型有指导价值。主要局限性：实验数据来自单一来源（DefinedAI客服脚本），可能缺乏泛化性；对比的LLM型号和数量有限；未提供代码和数据集，复现困难；推理模式显著增加计算成本（4-5倍）和延迟。 🏗️ 模型架构论文提出的语音大模型（SpeechLLM）架构如图1 (pdf-image-page1-idx0) 所示，主要包含三个组件： ...

SmoothCLAP: Soft-Target Enhanced Contrastive Language-Audio Pretraining for Affective Computing

📄 SmoothCLAP: Soft-Target Enhanced Contrastive Language-Audio Pretraining for Affective Computing #语音情感识别 #对比学习 #预训练 #零样本 #跨语言 ✅ 6.5/10 | 前50% | #语音情感识别 | #对比学习 | #预训练 #零样本学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Xin Jing（CHI – Chair of Health Informatics, TUM University Hospital, Munich, Germany）通讯作者：未明确标注作者列表： Xin Jing（CHI – Chair of Health Informatics, TUM University Hospital, Munich, Germany） Jiadong Wang（CHI – Chair of Health Informatics, TUM University Hospital, Munich, Germany） Andreas Triantafyllopoulos（CHI – Chair of Health Informatics, TUM University Hospital, Munich, Germany） Maurice Gerczuk（CHI – Chair of Health Informatics, TUM University Hospital, Munich, Germany） Shahin Amiriparian（† Huawei, Netherlands, ⋆ CHI – Chair of Health Informatics, TUM University Hospital, Munich, Germany） Jun Luo（† Huawei, Netherlands） Björn Schuller（⋆ CHI – Chair of Health Informatics, TUM University Hospital, Munich, Germany; ‡ GLAM, Imperial College London, UK） 💡 毒舌点评论文的亮点在于精准地指出了标准对比学习在情感建模上的“非黑即白”硬伤，并用模态内相似性构建软目标加以缓解，这是一个优雅且有效的工程改良。然而，短板在于其“安全牌”打法：仅在英语数据上训练，却大谈跨语言迁移，说服力有限；且在部分关键数据集（如RAVDESS）上，相比基线提升微弱甚至下降，使得“显著优于”的结论有些底气不足。 ...

Snore Sound Classification Based on Physiological Features and Adaptive Loss Function

📄 Snore Sound Classification Based on Physiological Features and Adaptive Loss Function #音频分类 #时频分析 #信号处理 #生物声学 #鲁棒性 ✅ 6.5/10 | 前25% | #音频分类 | #时频分析 | #信号处理 #生物声学学术质量 5.5/7 | 选题价值 1.2/2 | 复现加成 0.1 | 置信度高 👥 作者与机构第一作者：Hongxi Wu（中国科学院声学研究所、中国科学院大学）通讯作者：Xueshuai Zhang（中国科学院声学研究所、中国科学院大学），Qingwei Zhao（中国科学院声学研究所、中国科学院大学）作者列表：Hongxi Wu（中国科学院声学研究所、中国科学院大学）、Xueshuai Zhang（中国科学院声学研究所、中国科学院大学）、Shaoxing Zhang（北京大学第三医院）、Qingwei Zhao（中国科学院声学研究所、中国科学院大学）、Yonghong Yan（中国科学院声学研究所、中国科学院大学） 💡 毒舌点评亮点：将鼾声病理生理机制（气道阻塞导致的高能爆发、不稳定频谱）巧妙地转化为具体的音频特征（STD、SIM）和损失函数权重设计，使模型具有明确的医学可解释性，而非黑箱。短板：整体贡献更像一个精心设计的工程流水线，而非具有广泛影响力的模型创新。在未公开核心数据集和代码的情况下，其声称的性能增益难以被社区独立验证和直接应用。 🔗 开源详情代码：论文中未提及代码链接或开源计划。模型权重：未提及。数据集：数据集来源于北京大学第三医院，但论文未提及是否公开或如何申请获取。 Demo：未提及。复现材料：论文提供了详细的训练配置（优化器、学习率调度、batch size、epoch数）、特征提取参数（FFT点数、滤波器数、帧长帧移）以及关键超参数（高能量帧比例20%、损失函数中的k和α），复现所需的核心技术细节较为充分。论文中引用的开源项目：未明确提及依赖的开源工具或模型。使用了华为M5平板进行数据采集，但这不是软件工具。 📌 核心摘要问题：传统多导睡眠图（PSG）侵入性强、成本高，阻碍了阻塞性睡眠呼吸暂停（OSA）的广泛筛查。基于鼾声的非接触分析受噪声、数据不平衡和特征可解释性差的困扰。方法核心：提出一个生理学启发的鼾声分类框架，包括：a) 高能量帧选择：选取能量最高的20%帧，以抑制边界噪声并聚焦于区分性最强的病理声学区域；b) 三个生理特征提取：从高能量帧中提取频带能量比（ER）、帧位置时间标准差（STD）和帧间频谱余弦相似度（SIM），分别对应频域能量分布、时间集中度和频谱稳定性；c) 自适应能量比损失函数：根据样本的ER值动态调整病理性鼾声类别的损失权重，以缓解类别不平衡并强调典型病理模式。创新点：与传统数据驱动特征相比，新方法的核心在于特征设计的生理可解释性以及损失函数的自适应性，两者均根植于病理鼾声与简单鼾声的声学差异。实验结果：在来自北京大学第三医院的115例患者数据集上进行验证。最佳配置（特征拼接 + 自适应损失，k=4, α=2）相比基线，AUC提升1.9%（0.819→0.838），准确率（ACC）提升2.3%（75.7%→78.0%），非加权平均召回率（UAR）提升3.3%（72.3%→75.6%），病理性鼾声的灵敏度（SEN）提升6.9%（58.5%→65.4%），同时特异性（SPE）保持可比水平。关键实验结果如下表所示：表2：不同生理特征对鼾声分类性能的影响 ...