鲁棒性 | 语音/音乐/音频论文速递

Localizing Speech Deepfakes Beyond Transitions via Segment-Aware Learning

📄 Localizing Speech Deepfakes Beyond Transitions via Segment-Aware Learning #音频深度伪造检测 #数据增强 #自监督学习 #语音安全 #鲁棒性 🔥 8.0/10 | 前25% | #音频深度伪造检测 | #数据增强 | #自监督学习 #语音安全学术质量 7.5/7 | 选题价值 0.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yuchen Mao 通讯作者：Yanmin Qian 作者列表：Yuchen Mao (Auditory Cognition and Computational Acoustics Lab, MoE Key Lab of Artificial Intelligence, AI Institute, School of Computer Science, Shanghai Jiao Tong University), Wen Huang (同Yuchen Mao的单位), Yanmin Qian (上海交通大学计算机科学学院听觉认知与��算声学实验室，教育部人工智能重点实验室，AI学院； VUI Labs) 💡 毒舌点评亮点：论文精准地指出了现有方法过度依赖“过渡区域伪影”的“捷径学习”短板，并提出了简洁有效的“段感知学习”框架，通过位置监督和跨段混合，强制模型理解伪造内容本身，显著提升了在最具挑战性的“中间段”的检测能力和跨数据集泛化性能。短板：尽管实验充分，但对模型容量（如Conformer块的具体参数）、训练硬件和时长的描述不够详尽，且未公开模型权重，这为学术界和工业界的复现与直接应用设置了一定门槛。 ...

Low-Frequency Harmonic Control for Speech Intelligibility in Open-Ear Headphones

📄 Low-Frequency Harmonic Control for Speech Intelligibility in Open-Ear Headphones #语音增强 #信号处理 #鲁棒性 #实时处理 ✅ 6.5/10 | 前50% | #语音增强 | #信号处理 | #鲁棒性 #实时处理学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Yuki Watanabe（NTT Inc., Tokyo, Japan）（基于作者列表顺序判断，论文未明确标注）通讯作者：未说明作者列表：Yuki Watanabe（NTT Inc., Tokyo, Japan）、Hironobu Chiba（NTT Inc., Tokyo, Japan）、Yutaka Kamamoto（NTT Inc., Tokyo, Japan）、Tatsuya Kako（NTT Inc., Tokyo, Japan） 💡 毒舌点评亮点：巧妙地利用了语音基频与谐波之间的能量关系，通过“抑制基频、增强谐波”这种反直觉的方式，在特定硬件限制（小扬声器低频弱）和环境掩蔽（低频噪声强）下找到了一个提升可懂度的“巧劲儿”，想法很有针对性。短板：实验部分过于“迷你”——仅用8位听众和6个语音样本就得出“显著提高”的结论，说服力不足，且完全没有与经典的语音增强算法（如谱减法、维纳滤波）进行对比，让人无法判断其在现有技术体系中的真实位置。 🔗 开源详情论文中未提及任何开源计划。具体来说：代码：未提供代码仓库链接或提及开源。模型权重：未提及（本方法无需模型权重）。数据集：未提及公开。所用6个评估样本来自内部数据集，未提供获取方式。 Demo：未提供在线演示。复现材料：未提供训练细节、配置、检查点或附录说明。仅提供了方法原理和实验条件的概述。论文中引用的开源项目：引用了MATLAB的Audio Toolbox中的pitch函数用于基频估计。 📌 核心摘要解决的问题：开放式耳机因采用小型扬声器单元导致低频输出不足，在嘈杂环境中（尤其是存在大量低频成分的环境噪声时），语音的低频部分容易被掩蔽，导致可懂度下降。方法核心：提出一种名为“低频谐波控制（LFHC）”的低复杂度后处理方法。核心是通过一个延迟为基频周期2.5倍（τ=τ₀/2.5）的FIR梳状滤波器来抑制语音的基频（F0），并同时增强其第二和第三谐波，然后将处理后的信号通过一个截止频率为5倍基频的低通滤波器，最后与原信号相加。创新之处：与传统强调基频的音高增强不同，本方法反其道而行之，专注于将能量从易被掩蔽的基频重新分配到不易被掩蔽且耳机仍能有效重现的第二、三谐波频带。该方法计算复杂度低，适合在开放式耳机的DSP芯片上实时运行。主要实验结果：在棕色噪声（69 dB SPL）环境下，使用类似MUSHRA的主观评估（但标准为可懂度）。当加权因子α=0.6时，处理后语音的可懂度得分（相对于未处理同音量语音）在6个测试语音样本中的3个上获得了显著提升，对另外3个无显著降低；当α=0.9时，过度处理导致2个样本的可懂度显著下降。散点图显示，处理前第二、三谐波能量相对基频较高的语音，处理收益较小（相关系数-0.93）。详细数据见下表：处理条件声压级 (dB SPL) 说明 OR (原始参考) 60 未经处理的原始语音 OR-3 57 未经处理，音量降低3 dB OR-6 54 未经处理，音量降低6 dB LFHC-3(0.6) 57 使用本文方法（α=0.6），音量与OR-3相同 LFHC-3(0.9) 57 使用本文方法（α=0.9），音量与OR-3相同图5（论文中图片4）展示了不同条件下语音可懂度得分的均值及95%置信区间。与未处理的OR-3相比，LFHC-3(0.6)对多数样本有正向提升或无影响，而LFHC-3(0.9)则对部分样本产生负面影响。 ...

LP-CFM: Perceptual Invariance-Aware Conditional Flow Matching for Speech Modeling

📄 LP-CFM: Perceptual Invariance-Aware Conditional Flow Matching for Speech Modeling #语音合成 #流匹配 #低资源 #鲁棒性 #数据增强 ✅ 7.0/10 | 前25% | #语音合成 | #流匹配 | #低资源 #鲁棒性学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Doyeop Kwak（韩国科学技术院，KAIST）通讯作者：未说明作者列表：Doyeop Kwak（韩国科学技术院），Youngjoon Jang（韩国科学技术院），Joon Son Chung（韩国科学技术院） 💡 毒舌点评亮点在于将“感知等价类”这一人类听觉特性形式化为流匹配中的线性投影目标，理论动机清晰且与低资源/少步场景的收益形成合理关联；但短板是实验“安全区”选择得过于小心，在单一的、高度控制的声码器任务上验证，未能展示该方法在更复杂的端到端TTS或语音转换等主流任务中的通用性和竞争力。 🔗 开源详情代码：论文中未提及代码链接或开源计划。模型权重：未提及。数据集：使用了公开的LJ Speech数据集。 Demo：未提及。复现材料：论文中给出了相对详细的训练超参数、数据划分、硬件信息和评估指标，但未提供预训练模型、完整配置文件或复现脚本。论文中引用的开源项目：引用了HiFi-GAN（作为对比基线或参考），以及HuggingFace Diffusers库中的UNet2D模型作为解码器骨干。 📌 核心摘要问题：传统的条件流匹配（CFM）将数据集中每个样本视为目标分布的唯一代表，忽略了人类听觉对幅度缩放和小时间偏移等感知不变性的容忍，导致模型需强制收敛到一个任意实例，可能造成数据与容量的浪费。核心方法：提出LP-CFM（线性投影条件流匹配），将建模目标从围绕单个数据点的各向同性高斯分布，改为沿感知等效变体（如不同响度或对齐的波形）构成的直线分布的细长高斯。同时引入向量校准采样（VCS）在推理时纠正预测向量，确保其与投影路径对齐。新意：相比标准OT-CFM，LP-CFM显式地将感知不变性编码到生成模型的目标分布中，使模型学习流向等效集中最近点的路径，而非固定点，从而理论上缩短和稳定了传输路径。主要实验结果：在神经声码器任务上，LP-CFM在所有评估指标（M-STFT, PESQ, MCD等）上均一致优于OT-CFM。优势在小模型（UNet-16上UTMOS提升0.14）、低数据（使用66%数据训练的LP-CFM在多数指标上优于使用100%数据的OT-CFM）和少步采样（3步时UTMOS优势最明显）场景下尤为显著。消融实验表明，LP-CFM应用于幅度谱贡献了主要性能提升，VCS起到了预期的安全保障作用。实际意义：为生成式语音建模提供了更符合人类感知的新视角，可能在资源受限的边缘设备部署、快速合成等实际应用中带来收益。局限性：验证场景相对单一且受控；方法的有效性依赖于能将不变性表达为线性方程，对于更复杂的变换或端到端模型中的隐变量是否普适未知。 🏗️ 模型架构论文未提供其模型架构的专属图片。其神经声码器架构基于一个简化的设计用于控制实验变量，流程如下： ...

Membership Inference Attack against Music Diffusion Models via Generative Manifold Perturbation

📄 Membership Inference Attack against Music Diffusion Models via Generative Manifold Perturbation #音频安全 #扩散模型 #对抗样本 #鲁棒性 ✅ 7.5/10 | 前25% | #音频安全 | #扩散模型 | #对抗样本 #鲁棒性学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Yuxuan Liu（未明确标注，按署名顺序为首位）通讯作者：未明确标注作者列表：Yuxuan Liu, Peihong Zhang, Rui Sang, Zhixin Li, Yizhou Tan, Yiqiang Cai, Shengchen Li（均来自Xi’an Jiaotong-Liverpool University, Suzhou, China） 💡 毒舌点评亮点：首次系统性地将成员推断攻击聚焦于音乐扩散模型，并聪明地将对抗鲁棒性差异转化为Membership Inference的信号，其提出的LSA-Probe在低误报率关键指标上取得了显著且一致的提升。短板：攻击方法依赖于多轮二分搜索和PGD优化，计算开销巨大，这使其在现实世界中作为大规模审计工具的可行性大打折扣；同时，攻击效果的绝对数值（例如DiffWave上最高的20% TPR@1%FPR）距离“可靠”的审计标准仍有相当差距。 🔗 开源详情代码：论文提供了项目Demo的GitHub仓库链接：https://github.com/kaslim/LSA-Probe。模型权重：论文中未提及是否公开DiffWave和MusicLDM的模型权重。数据集：论文使用了公开数据集MAESTRO v3和FMA-Large，但未说明其预处理脚本是否开源。 Demo：未提及在线演示。复现材料：论文提供了核心超参数（K, r, β, τ=P95等）、评估协议和部分实现细节。但未提供完整的训练细节、配置文件、检查点。论文中引用的开源项目：DiffWave [13], MusicLDM [1]。攻击基线中的SecMI [22]等可能也依赖开源实现。 📌 核心摘要问题：扩散模型在音乐生成中表现出色，但其训练数据可能涉及版权与隐私问题。如何有效判断一段特定的音乐片段是否被用于训练某个音乐扩散模型（成员推断攻击，MIA），成为审计生成式音乐模型合规性的关键挑战。传统基于损失信号的MIA方法在音频领域效果不佳。方法核心：本文提出Latent Stability Adversarial Probe（LSA-Probe），一种白盒攻击方法。其核心思想是：训练集中的“成员”样本位于模型生成流形的更稳定区域。该方法通过测量在反向扩散过程的中间潜状态中，使生成质量下降到一个固定感知阈值所需的最小归一化扰动预算（对抗成本）来评估这种稳定性。成员样本需要更大的扰动成本才能被降质。创新点：与已有工作相比，LSA-Probe放弃了单一的端点重建损失信号，转而探测沿生成轨迹的动态几何稳定性。它是首个针对音乐扩散模型（包括波形DDPM和潜扩散模型LDM）的系统性MIA研究，并建立了局部生成稳定性与成员身份之间的联系。主要结果：在DiffWave和MusicLDM两个模型，以及MAESTRO v3和FMA-Large两个数据集上的实验表明，在匹配计算量的前提下，LSA-Probe在低误报率（FPR=1%）下的真阳性率（TPR）比最佳基线方法高3-8个百分点。例如，在DiffWave/MAESTRO上，TPR@1%FPR从0.12提升至0.20。消融实验显示，中段扩散时间步、中等扰动预算以及感知度量（CDPAM/MR-STFT）的效果最优。实际意义：为音乐版权持有者和审计方提供了一种潜在的技术工具，用于检测AI音乐生成模型是否未经授权使用了其作品进行训练，有助于规范生成式AI的发展。主要局限性：攻击方法计算成本高（涉及多次PGD优化和反向传播）；其有效性阈值（如TPR@1%FPR）虽有提升，但绝对值仍不高，在需要极低误报率的严格审计场景下实用性受限；评估模型和数据集范围有限。 🏗️ 模型架构本文未提出新的生成模型架构，而是针对现有音乐扩散模型（DiffWave和MusicLDM）设计一种成员推断攻击方法。因此，架构描述主要围绕LSA-Probe攻击框架的流程。 LSA-Probe是一个双层循环优化过程（图1）： ...

MFF-RVRDI: Multimodal Fusion Framework for Robust Video Recording Device Identification

📄 MFF-RVRDI: Multimodal Fusion Framework for Robust Video Recording Device Identification #视频设备识别 #多模态融合 #注意力机制 #鲁棒性 ✅ 7.5/10 | 前25% | #视频设备识别 | #多模态融合 | #注意力机制 #鲁棒性学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Wei Li（杭州电子科技大学计算机科学与技术学院）通讯作者：Xingfa Shen（杭州电子科技大学计算机科学与技术学院，shenxf@hdu.edu.cn）作者列表：Wei Li（杭州电子科技大学计算机科学与技术学院）、Yu Cao（杭州电子科技大学计算机科学与技术学院）、Xingfa Shen（杭州电子科技大学计算机科学与技术学院） 💡 毒舌点评亮点：论文敏锐地抓住了“真实噪声下视频设备识别”这一实际痛点，并创新性地设计了SD-BCA模块来解决音视频对齐与融合的核心难题，实验数据也确实显示了其在低信噪比下的强大鲁棒性。短板：作为一篇顶会论文，在模型轻量化和效率上着墨不多，且完全缺少代码、模型和训练细节的公开，这对于一个强调“实用”和“部署”的框架来说，极大地削弱了其可验证性和后续影响力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了公开数据集QUFVD和Daxing。论文中未提及他们构建的噪声增强版本（QUFVD-NA， Daxing-NA）是否公开。 Demo：未提及。复现材料：论文提供了一些训练参数（优化器、初始学习率、权重衰减、批大小）和硬件信息（A100 GPU），但缺少模型架构的详细配置（如层数、维度）、完整的训练过程（如总epoch数、验证策略）、以及具体的评估脚本，因此复现信息不充分。论文中引用的开源项目：未提及依赖的特定开源模型或代码库，但使用了FFmpeg进行数据处理。 📌 核心摘要要解决什么问题：现有视频录制设备识别方法大多仅依赖视觉信息，在真实世界存在的压缩、降噪等处理导致信噪比（SNR）降低时，性能会显著下降。方法核心是什么：提出一个多模态融合框架MFF-RVRDI，同时利用视频和音频信息进行设备识别。其核心是一个名为“同步-可变形双向跨模态注意力”（SD-BCA）的模块，用于对齐音视频时间偏移并实现双向细粒度交互；以及一个“集成指纹增强模块”（IFEM），用于在压缩场景下增强设备特有残差。与已有方法相比新在哪里：新在多模态融合视角（引入音频作为补充）和专门设计的跨模态交互模块（SD-BCA）。相比以往仅优化视觉特征或进行简单拼接融合的方法，SD-BCA显式建模了模态间的时间对齐和空间选择性注意力。主要实验结果如何：在标准数据集（QUFVD， Daxing）上，MFF-RVRDI达到了99.9%的Top-1准确率。在模拟真实噪声的增强数据集（QUFVD-NA， Daxing-NA）上，MFF-RVRDI的准确率分别为88.6%和89.3%，比最强的单模态基线（图像仅）高出超过12个百分点，比之前的SOTA方法（如CNN+Fusion）高出超过24个百分点。消融实验证明，SD-BCA中的时间同步、可变形采样和双向注意力设计分别带来了性能提升，完整模块比单向基线提升12-15个百分点。实际意义是什么：为低质量、高噪声环境下的视频来源设备识别提供了一种更鲁棒的解决方案，提升了数字取证在现实复杂场景中的可靠性和实用性。主要局限性是什么：论文未讨论模型的计算复杂度和推理速度；实验在构建的噪声增强数据集上进行，其与真实世界复杂降质的匹配度有待验证；未提供开源代码和模型，可复现性不足。 🏗️ 模型架构 MFF-RVRDI是一个端到端的多模态深度学习框架，整体架构如图1所示，其流程分为三个主要阶段：数据预处理、双分支特征提取、跨模态融合与分类。 ...

Multi-Task Learning For Speech Quality Assessment Using ASR-Derived Entropy Features

📄 Multi-Task Learning For Speech Quality Assessment Using ASR-Derived Entropy Features #语音质量评估 #多任务学习 #预训练 #语音增强 #鲁棒性 ✅ 7.5/10 | 前25% | #语音质量评估 | #多任务学习 | #预训练 #语音增强学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Tri Dung Do（Viettel AI， Viettel Group； University of Engineering and Technology – Vietnam National University， Hanoi）通讯作者：Van Hai Do（Thuyloi University）作者列表：Tri Dung Do（Viettel AI， Viettel Group； University of Engineering and Technology – Vietnam National University， Hanoi）， Bao Thang Ta（Viettel AI， Viettel Group； Hanoi University of Science and Technology）， Van Hai Do（Viettel AI， Viettel Group； Thuyloi University） 💡 毒舌点评亮点在于将ASR模型输出的不确定性（熵）作为一个新颖且可量化信号，与语音质量评估任务进行关联，并通过多任务学习框架显式地利用这一信号，思路巧妙。短板是，尽管在NISQA数据集上取得了改进，但论文未与更多当前先进的无参考评估方法（如基于自监督模型或特定Transformer架构的方法）进行直接、充分的对比，说服力稍显不足；另外，对熵特征的物理意义及其与具体失真类型关系的分析深度有限。 ...

NeuroSIFT: A Biologically-Inspired Framework with Explicit Signal-Noise Separation for Robust Multimodal Emotion Recognition

📄 NeuroSIFT: A Biologically-Inspired Framework with Explicit Signal-Noise Separation for Robust Multimodal Emotion Recognition #多模态情感识别 #神经形态计算 #多任务学习 #鲁棒性 #跨模态 🔥 8.0/10 | 前25% | #多模态情感识别 | #神经形态计算 | #多任务学习 #鲁棒性学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Gang Xie（杭州电子科技大学计算机学院）通讯作者：Wanzeng Kong（杭州电子科技大学计算机学院）作者列表：Gang Xie（杭州电子科技大学计算机学院）、Jiajia Tang（杭州电子科技大学计算机学院）、Tianyang Qin（杭州电子科技大学计算机学院）、Yiwen Shen（杭州电子科技大学计算机学院）、Wanzeng Kong（杭州电子科技大学计算机学院） 💡 毒舌点评这篇论文最亮眼的地方是它“仿生”不玩虚的，直接模仿海马体神经回路的选择性抑制机制来做信号分离，并在两个主流数据集上取得了显著的性能提升（如CH-SIMSv2上F1值提升5.44%），证明了思路的有效性。但短板也很明显：一是生物启发到计算模型的映射稍显简单化（如将复杂的神经元交互简化为两个门控信号），理论解释有待深化；二是全文未开源任何代码或模型，对于一篇强调“框架”和“复现”的论文来说，这严重削弱了其影响力。 🔗 开源详情论文中未提及开源计划。具体来说：代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了公开的CH-SIMSv2和MUStARD数据集，但论文中未说明具体获取或预处理方式。 Demo：未提及。复现材料：论文提供了部分关键架构和损失函数公式，但缺少完整的超参数配置、训练日志和检查点。论文中引用的开源项目：未提及引用了哪些特定的开源代码库。 📌 核心摘要问题：现有多模态情感识别（MER）方法因无法显式分离真实世界中的复杂噪声（感知、结构、语义噪声）而性能下降，多依赖隐式的噪声适应策略。方法核心：提出NeuroSIFT框架，受海马体-前额叶回路中SST+、PV+和VIP+中间神经元的选择性抑制机制启发。框架包含三个核心组件：语义模拟噪声生成器（生成与输入语义对齐的噪声参考）、神经回路选择性抑制模块（利用噪声参考显式分解输入为情感信号和结构化噪声）、双流对抗训练框架（分别处理并利用分解后的信号与噪声流）。创新点：与已有方法相比，核心创新在于实现了显式的信号-噪声分离，而非隐式适应。具体创新包括：1) 基于批次负采样的语义噪声生成；2) 模仿生物神经抑制与去抑制的分离模块；3) 利用噪声流增强对抗鲁棒性的双流训练。主要实验结果：在CH-SIMSv2和MUStARD数据集上全面超越现有SOTA方法。具体如下表所示：数据集方法主要指标 CH-SIMSv2 NeuroSIFT (Ours) Acc-2: 89.13, F1-2: 89.14, Corr: 0.835 最佳基线 (Coupled Mamba) Acc-2: 83.40, F1-2: 83.50, Corr: 0.758 提升 +5.33% (Acc), +5.44% (F1) MUStARD NeuroSIFT (Ours) Acc: 77.68, F1: 77.51 最佳基线 (CAF-I) Acc: 75.50, F1: 75.20 提升 +1.95% (Acc), +2.12% (F1) 实际意义：为构建对真实世界噪声更鲁棒的多模态情感识别系统提供了一种新的生物启发设计范式，其“分离-再利用”的思路可能对其他多模态感知任务有借鉴意义。主要局限性：1) 生物机制到算法的映射是高度简化的，可能未能完全捕捉真实神经回路的复杂性；2) 论文承认双流设计引入了计算开销；3) 未开源代码与模型，限制了可复现性。 🏗️ 模型架构 NeuroSIFT的整体架构如图1所示，其处理流程是：输入多模态数据（文本、音频、视频） -> 语义模拟噪声生成 -> 神经回路选择性抑制进行显式分解 -> 双流并行处理与对抗训练 -> 输出情感分类。 ...

Noise-Robust AV-ASR Using Visual Features both in the Whisper Encoder and Decoder

📄 Noise-Robust AV-ASR Using Visual Features both in the Whisper Encoder and Decoder #语音识别 #预训练 #音视频 #鲁棒性 🔥 8.0/10 | 前25% | #语音识别 | #预训练 | #音视频 #鲁棒性学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zhengyang Li（Technische Universität Braunschweig, Institute for Communications Technology）通讯作者：未说明作者列表：Zhengyang Li（Technische Universität Braunschweig, Institute for Communications Technology），Thomas Graave（Technische Universität Braunschweig, Institute for Communications Technology），Björn Möller（Technische Universität Braunschweig, Institute for Communications Technology），Zehang Wu（Technische Universität Braunschweig, Institute for Communications Technology），Matthias Franz（Technische Universität Braunschweig, Institute for Communications Technology），Tim Fingscheidt（Technische Universität Braunschweig, Institute for Communications Technology） 💡 毒舌点评亮点：在LRS3基准的噪声测试（MUSAN babble, 0dB SNR）中，基于Whisper medium的“双用”方法相比强力的中间融合基线（Flamingo）取得了高达57%的相对错误率降低（4.07% vs. 9.53%），噪声鲁棒性提升非常显著且可复现。短板：方法的性能高度依赖于一个独立的、参数量庞大的预训练视觉编码器（AV-HuBERT large， 325M参数），这使得整个AV-ASR系统的总参数量远大于音频单模态Whisper，为实际部署（尤其是资源受限场景）带来了显著的计算开销。 ...

Noise-Robust Contrastive Learning with an MFCC-Conformer for Coronary Artery Disease Detection

📄 Noise-Robust Contrastive Learning with an MFCC-Conformer for Coronary Artery Disease Detection #音频分类 #对比学习 #Conformer #鲁棒性 #医疗AI ✅ 7.0/10 | 前50% | #音频分类 | #对比学习 | #Conformer #鲁棒性学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Milan Marocchi, Matthew Fynn（*表示贡献相等）通讯作者：未说明作者列表：Milan Marocchi（Curtin University），Matthew Fynn（Curtin University），Yue Rong（Curtin University）机构：Curtin University, Bentley 6102, WA, Australia（未说明具体学院或实验室） 💡 毒舌点评论文的亮点在于将相对复杂的Conformer架构成功应用于心音信号，并设计了一个实用的多通道噪声段拒绝流程，在真实噪声数据集上验证了其有效性。短板是，其噪声拒绝核心算法（能量阈值）的创新性较为有限，且消融实验部分缺失，使得我们难以精确评估各个组件（如对比学习、中心损失、噪声拒绝）的具体贡献。 🔗 开源详情代码：提供了完整的代码仓库链接：https://github.com/MilanMarocchi/noise-robust-cad-conformer。模型权重：论文中未提及是否公开预训练模型权重。数据集：数据集来自特定医院的采集，论文中未提及公开该数据集。 Demo：未提供在线演示。复现材料：论文提供了详细的超参数配置（表1）、训练策略、硬件环境、评估指标定义等，有利于复现。代码仓库的提供是最大的复现支持。论文中引用的开源项目：提到了使用的开源工具包括PyTorch、Optuna（用于超参优化）、AdamW优化器（参考文献[14]）。 📌 核心摘要要解决什么问题：在真实临床噪声环境下，提高基于心音图（PCG）信号的冠状动脉疾病（CAD）检测的鲁棒性和准确性。方法核心是什么：提出一个包含噪声感知预处理和深度学习分类的端到端流程。核心包括：(1) 一种基于能量的多通道噪声段拒绝算法，利用听诊器内置的心声麦克风（HM）和噪声参考麦克风（NM）识别并剔除受非平稳噪声污染严重的信号段；(2) 一个将梅尔频率倒谱系数（MFCC）作为输入的Conformer编码器，并结合监督混合对比学习（包含对比损失、分类损失和中心损失）进行训练。与已有方法相比新在哪里：首次将Conformer模型应用于心音分类任务；提出了一种联合利用HM和NM能量信息的噪声段拒绝方法；在同一个框架内集成了多通道MFCC特征提取、Conformer建模和混合对比学习，以应对真实世界噪声数据。主要实验结果如何：在297名受试者的数据集上，所提出的方法（带噪声拒绝）在受试者级别取得了78.4%的准确率和78.2%的平衡准确率（UAR），相比不进行噪声拒绝的基线模型，准确率和UAR分别提升了4.1%和4.3%。与之前基于Wav2Vec 2.0的方法相比，准确率和UAR分别提升了1.3%和3.9%。具体实验数据如下表所示（仅列受试者级别关键指标）：方法准确率 (Acc) 平衡准确率 (UAR) 真阳性率 (TPR) 真阴性率 (TNR) MCC 不带噪声拒绝的MFCC-Conformer 74.3±0.09% 73.9±0.10% 80.9±0.11% 66.9±0.30% 0.490±0.019 本文方法（带噪声拒绝的MFCC-Conformer） 78.4±0.29% 78.2±0.32% 81.9±0.49% 74.5±0.97% 0.570±0.058 Noisy Wav2Vec 2.0 [13] 77.1±1.50% 74.3±1.73% 86.5±1.30% 62.0±2.76% 0.510±0.035 实际意义是什么：为在真实世界噪声条件下（如嘈杂的医院环境）进行无创、低成本的CAD预筛查提供了更鲁棒的深度学习解决方案，有助于推动基于可穿戴设备的心脏病早期预警技术。主要局限性是什么：实验仅在一个来源的特定数据集上进行验证；噪声拒绝算法的阈值（2.5倍中值）是固定的，缺乏自适应性讨论；论文未提供充分的消融实验以区分各技术组件（噪声拒绝、Conformer、对比学习等）的独立贡献。 🏗️ 模型架构论文提出的模型是一个基于Conformer的编码器，用于处理从多通道PCG信号中提取的MFCC特征序列，以实现二分类（CAD vs. 正常）。 ...

Noise-to-Notes: Diffusion-Based Generation and Refinement for Automatic Drum Transcription

📄 Noise-to-Notes: Diffusion-Based Generation and Refinement for Automatic Drum Transcription #音乐信息检索 #扩散模型 #生成模型 #鲁棒性 🔥 8.0/10 | 前10% | #音乐信息检索 | #扩散模型 | #生成模型 #鲁棒性学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：未说明（论文未明确标注）通讯作者：未说明（论文未明确标注）作者列表：Michael Yeung（Sony Group Corporation, Tokyo, Japan）、Keisuke Toyama（Sony Group Corporation, Tokyo, Japan）、Toya Teramoto（Sony Group Corporation, Tokyo, Japan）、Shusuke Takahashi（Sony Group Corporation, Tokyo, Japan）、Tamaki Kojima（Sony Group Corporation, Tokyo, Japan） 💡 毒舌点评亮点：首次将扩散模型作为生成范式应用于自动鼓转录（ADT），不仅在多个基准测试上超越了所有判别模型，还展示了在音频部分缺失情况下的“修复”能力，这在ADT乃至更广的音乐转录领域都是新颖的。短板：论文的核心卖点是“生成模型超越判别模型”，但作为生成模型的代价是推理速度显著慢于同等性能的判别模型（例如，单步推理0.163s vs. 0.086s），这使得其在实时或低延迟应用场景中的实用性大打折扣。 ...