Icassp-2026

A Framework for Controlled Multi-Speaker Audio Synthesis for Robustness Evaluation of Speaker Diarisation Systems

📄 A Framework for Controlled Multi-Speaker Audio Synthesis for Robustness Evaluation of Speaker Diarisation Systems #说话人日志 #数据增强 #说话人分离 #基准测试 #鲁棒性 ✅ 7.5/10 | 前25% | #说话人日志 | #数据增强 | #说话人分离 #基准测试学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Shreyas Ramoji（谢菲尔德大学计算机学院，SpandH Group）通讯作者：未说明作者列表：Shreyas Ramoji（谢菲尔德大学计算机学院，SpandH Group）、Vivek Kumar Thoppe Ravindranath（谢菲尔德大学计算机学院，SpandH Group）、Thomas Hain（谢菲尔德大学计算机学院，SpandH Group） 💡 毒舌点评亮点：论文提供了一套模块化、可复现的合成框架，将现有的说话人日志数据集（如AMI， CALLHOME）的标注作为“蓝图”，系统地解耦了说话人、内容、声学环境的影响，并引入了sDER和NEC两个指标来量化系统在可控变化下的鲁棒性，方法论清晰严谨。短板：其核心局限在于“合成数据与真实对话的语义连续性鸿沟”这一根本性问题仍未解决，仅通过顺序采样LibriSpeech片段无法模拟真实对话中的话题承接与语境依赖，这使得合成数据在评估上的有效性存在天花板。 🔗 开源详情代码：论文明确提供了代码仓库链接：https://github.com/shreyas2206/MultiSpeakerDataSyn。模型权重：未提及。论文评估的是已有的公开模型（PyAnnote, NeMo, DiariZen），未提供其自身的模型权重。数据集：合成数据集未直接公开，但框架基于公开数据集（LibriSpeech作为语音源，以及AMI, CALLHOME等作为RTTM来源）构建，用户可通过运行框架自行生成。 Demo：未提供在线演示。复现材料：论文提供了完整的合成配置文件（通过代码仓库），并详细记录了实验使用的种子、采样策略等关键参数，复现性高。论文中引用的开源项目：依赖的开源工具/模型包括：数据集：LibriSpeech, RIRs Noises。说话人日志模型：PyAnnote 3.0, NeMo Sortformer, DiariZen (基于WavLM)。工具：Montreal Forced Aligner (MFA) (用于词对齐)。 📌 核心摘要解决的问题：说话人日志系统的鲁棒性评估缺乏能够严格控制变量、同时保留真实对话动态（如重叠、打断）的可控基准数据集。方法核心：提出一个模块化合成框架，以公开数据集（AMI等）的RTTM标注作为对话时间蓝图，使用LibriSpeech的干净语音片段作为说话人语音源，通过分层采样（说话人、话语、片段）生成合成音频，并可叠加混响与噪声。创新点：a) 以真实对话标注为蓝图合成音频，而非从零构建统计模型；b) 提出对称DER (sDER) 和归一化误差一致性 (NEC) 两个新指标，用于量化系统在不同合成条件下的性能一致性（鲁棒性）；c) 通过控制实验（改变说话人、内容、声学）系统分析了各因素对不同说话人日志系统的影响。主要实验结果：基准结果：在4个数据集上，合成音频与原始真实音频的DER存在差距，但系统间的相对排序大致保持。鲁棒性分析：内容（话语）随机化比说话人重新采样对系统（尤其是端到端系统）的性能一致性冲击更大；声学增强的影响具有领域依赖性（如对AMI影响小于CALLHOME）。数据集条件 (来自表3) PyAnnote DER NeMo DER DiariZen DER AMI-Test (1) 清洁基线 17.8 5.5 11.5 (2) 增强 (固定说话人/话语) 15.4 6.9 9.4 (3) 新说话人种子 (固定顺序话语) 17.6 6.4 10.9 (4) 话语随机化 (固定说话人) 16.6 17.3 13.4 Callhome (1) 清洁基线 18.8 9.9 9.6 (2) 增强 (固定说话人/话语) 22.1 11.6 11.6 (3) 新说话人种子 (固定顺序话语) 18.8 10.4 10.3 (4) 话语随机化 (固定说话人) 18.5 16.6 12.1 实际意义：为说话人日志社区提供了一个强大的基准测试和诊断工具，可以在没有昂贵人工标注和错误边界的情况下，标准化地评估系统在不同扰动下的稳定性。主要局限性：a) 合成数据缺乏语义连续性，无法完全模拟真实对话的语用动态；b) 框架依赖于LibriSpeech，其语音风格（朗读式）与真实对话有差异；c) 增强模型（混响、噪声）较为简单，无法完全覆盖所有真实声学场景（如特定电话信道）。 🏗️ 模型架构本文未提出一个新的神经网络模型，而是提出了一个模块化的多说话人音频合成与评估框架。其架构是流程性的，旨在生成用于评估现有说话人日志系统的可控数据。整体流程如下： ...

A Generalization Strategy for Speech Quality Prediction: From Domain-Specific to Unified Datasets

📄 A Generalization Strategy for Speech Quality Prediction: From Domain-Specific to Unified Datasets #语音质量评估 #领域适应 #轻量化模型 #语音增强 ✅ 6.5/10 | 前25% | #语音质量评估 | #领域适应 | #轻量化模型 #语音增强学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Imran E Kibria（俄亥俄州立大学计算机科学与工程系）通讯作者：Donald S. Williamson（俄亥俄州立大学计算机科学与工程系）作者列表：Imran E Kibria（俄亥俄州立大学计算机科学与工程系）、Ada Lamba（俄亥俄州立大学计算机科学与工程系）、Donald S. Williamson（俄亥俄州立大学计算机科学与工程系） 💡 毒舌点评论文抓住了多数据集训练MOS模型时“顾此失彼”的真实痛点，并用一个优雅的优化器（SAM）作为解决方案，思路直接且实验验证充分。然而，整个工作像是用新扳手拧旧螺丝——核心模型和问题都不是新的，且实验对比缺乏与当前更强基线（如基于SSL的SOTA模型）的直接较量，使得结论的冲击力打了折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：训练和测试数据集均为公开数据集，论文中列出了具体名称并说明可通过SHEET工具下载。 Demo：未提及。复现材料：提供了AttentiveMOS的原始论文引用以及本研究的关键超参数（η, ρ, batch size, epochs）。未提供详细的训练脚本或配置文件。论文中引用的开源项目： SHEET [16]：用于下载和处理MOS数据集的工具包。 AttentiveMOS [4]：本文实验所使用的基础模型。其他：论文中未提及开源计划。 📌 核心摘要要解决的问题：使用多个MOS（平均意见分）数据集统一训练语音质量评估模型时，由于数据集在录制条件、语言、畸变类型等方面存在巨大差异（即“域多样性”）以及“语料库效应”（相同质量系统因引入更优系统而得分下降），导致模型在未见的评测集上泛化性能严重下降。方法核心：提出使用Sharpness-Aware Minimization（SAM）优化器来训练统一数据集上的MOS预测网络。SAM通过同时最小化损失和损失曲面的锐度（即寻找平坦的最小值），促使模型学习更多样化、互补的特征，从而提高对分布外数据的泛化能力。与已有方法相比新在哪里：论文首次将SAM优化器系统地应用于解决多数据集MOS预测的泛化问题。与以往关注架构设计（如AlignNet）、损失函数改造（如Bias-aware loss）或使用大型预训练模型（如SSL）的方法不同，本文提出了一种无需修改模型架构或损失函数、只需更换优化器的轻量级泛化增强策略。主要实验结果：在7个训练集和12个测试集的广泛评估中：传统的Adam优化器在统一数据集上训练后，相比在单一最佳数据集上训练，在大多数测试集上性能下降显著（如表1所示）。使用SAM+Adam优化器，在12个测试集中的8个上，降低了MSE并提升了SRCC（如图1、图2所示）。 SAM显著缓解了从单一数据集到统一数据集训练的性能损失（即减小了∆MSE和∆SRCC，如图3所示），但在少数包含训练集中未出现语言（如德语、法语）的测试集上效果不佳。测试集 Adam (Unified) MSE SAM+Adam (Unified) MSE Adam (Unified) SRCC SAM+Adam (Unified) SRCC BVCC 1.047 （图1显示更低） 0.642 （图2显示更高） SOMOS 0.837 （图1显示更低） 0.305 （图2显示更高） SingMOS 0.273 （图1显示更低） 0.068 （图2显示更高）（其他测试集类似）注：表1提供了Adam优化器在单一最佳训练集和统一训练集下的具体数值。图1和图2则以柱状图形式对比了Adam与SAM+Adam在统一训练集设置下，各测试集的MSE和SRCC。实际意义：为构建更鲁棒、通用的语音质量评估系统提供了一种简单有效的优化策略，尤其适用于资源有限、需要快速部署轻量级模型且数据来源多样的场景。主要局限性：1) 验证使用的模型（AttentiveMOS）非常轻量级（仅86K参数），其结论能否推广到当前主流的、更强大的基于自监督学习（SSL）的大模型尚不明确。2) 实验未与近期针对MOS泛化提出的其他专用方法（如多数据集微调、对比回归等）进行直接性能对比。3) SAM需要额外的计算开销（每步更新需要两次前向/反向传播）。4) 对于训练集中完全缺失的语言或极端分布外数据，方法效果有限。 🏗️ 模型架构论文中作为验证工具的模型是AttentiveMOS（引用自[4]），其本身不是本文的贡献。架构是一个轻量级的纯注意力网络： ...

A Generative-First Neural Audio Autoencoder

📄 A Generative-First Neural Audio Autoencoder #音乐生成 #音频大模型 #生成模型 #流式处理 #多语言 🔥 8.5/10 | 前25% | #音乐生成 | #生成模型 | #音频大模型 #流式处理学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jonah Casebeer（Adobe Research）通讯作者：未说明作者列表：Jonah Casebeer（Adobe Research），Ge Zhu（Adobe Research），Zhepei Wang（Adobe Research），Nicholas J. Bryan（Adobe Research） 💡 毒舌点评亮点在于其“生成优先”的设计哲学非常务实，通过一系列巧妙的工程优化（如SnakeLite、下采样策略）实现了编码速度一个数量级的提升，这对大规模生成模型训练是关键杠杆。短板是论文作为ICASSP 2026投稿，其声称的SOTA对比基线（如CoDiCodec）虽然最新，但缺乏更广泛的跨领域音频编解码器（如面向语音的极低比特率模型）对比，其“统一模型”的普适性边界尚待更多下游任务验证。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开模型权重。数据集：使用25K小时经许可的音乐，但论文中未公开此数据集或提供获取方式。 Demo：未提及在线演示。复现材料：提供了非常详细的训练细节、模型超参数配置、架构描述和消融实验设置，但未提供预训练检查点或具体配置文件。论文中引用的开源项目：未在文中明确列出依赖的开源项目/模型。基线模型（DAC, EnCodec, SAO, CoDiCodec）本身是开源项目，但论文未说明是否基于其代码进行实验。总结：论文中未提及开源计划（代码、模型、数据均未提供）。 📌 核心摘要问题：现有的神经音频自编码器（如SoundStream, EnCodec, DAC）主要针对“重建优先”设计，存在潜变量率高、编码速度慢、需要针对不同音频格式（单声道、立体声、中侧声道）维护不同模型等问题，这阻碍了它们在需要大规模、快速编码的生成模型（如扩散模型、语言模型）中的高效应用。方法核心：提出“生成优先自编码器”（GenAE），这是一个单一的编码器-瓶颈-解码器架构。通过一系列架构优化（高效激活函数SnakeLite、早期下采样、可分离卷积、激进的时间下采样、梅尔谱融合、窗口化自注意力）和训练优化（多��式数据增强、辅助梅尔损失、互质多分辨率损失），在压缩率、重建质量和处理速度之间取得更佳平衡。创新点：1) 提出了一种统一的架构，支持连续（KL）和离散（VQ）潜变量，以及单声道、立体声、中侧声道等多种音频格式，无需单独变体；2) 通过架构修改，将时间下采样率从2048倍提升至3360倍，并实现了10倍更快的编码速度；3) 提出了一种后训练离散化步骤，允许在训练好的连续模型上添加RVQ瓶颈以支持离散潜变量，无需重训骨干网络。实验结果：GenAE（13.125 Hz）在SI-SDR、多分辨率STFT损失、梅尔谱L1距离等指标上，以仅60%的基线（SAO）潜变量率达到了更优的重建质量；编码速度比SAO快12倍，内存占用仅为SAO的1/3。一个60秒的单声道信号仅压缩为788个令牌。具体数值见下表。模型潜变量率 (Hz) 上下文长度 (秒) ↑ L/R 梅尔↓ M/S 梅尔↓ EnCodec-48 150 73 0.5485 0.6602 DAC 86 127 0.5144 0.5114 CoDiCodec-FSQ 11 993 0.9586 1.0553 GenAE-VQ (ours) 13.125 832 0.5956 0.5943 SAO 21.5 106 0.6863 0.7506 CoDiCodec 11 206 0.9252 1.0218 GenAE-KL (ours) 13.125 173 0.5384 0.5369 GenAE-KL (ours) 36.75 62 0.4005 0.4054 实际意义：显著降低了使用神经音频编解码器进行生成模型训练和推理的计算成本（时间和内存），使得在有限资源下处理长音频上下文成为可能，从而能够开发更强大、更高效的音频/音乐生成与理解应用。主要局限性：论文未提供代码、预训练模型或训练数据集，阻碍了立即复现；评估主要集中在44.1kHz音乐音频上，在其他音频类型（如语音、环境声）上的性能未充分验证；与CoDiCodec相比，在极高压缩率下（11Hz）的重建质量仍有差距。 🏗️ 模型架构 GenAE是一个编码器-瓶颈-解码器结构的自编码器，整体架构如下图所示。其输入为原始音频波形，输出为重构的波形。 ...

A Hybrid Convolution-Mamba Network with Tone-Octave Contrastive Learning for Stratified Semi-Supervised Singing Melody Extraction

📄 A Hybrid Convolution-Mamba Network with Tone-Octave Contrastive Learning for Stratified Semi-Supervised Singing Melody Extraction #音乐信息检索 #歌唱旋律提取 #对比学习 #状态空间模型 #半监督学习 ✅ 7.5/10 | 前25% | #歌唱旋律提取 | #对比学习 | #音乐信息检索 #状态空间模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：康杰东（Kangjie Dong，东华大学计算机科学与技术学院）通讯作者：于帅（Shuai Yu，大连理工大学信息与通信工程学院），李威（Wei Li，复旦大学计算机科学与技术学院）作者列表：康杰东（东华大学计算机科学与技术学院）， Shicheng Ding（美国塔博学院），于帅（大连理工大学信息与通信工程学院，通讯作者），李威（复旦大学计算机科学与技术学院，通讯作者） 💡 毒舌点评这篇论文最大的亮点是其极致的“小而美”：仅用0.53M参数就在三个标准数据集上全面超越了从1M到147M不等的强基线，证明了其设计的混合架构与音调八度对比学习在特征表示上的高效性。然而，其分层半监督策略设计略显繁琐，且歌唱旋律提取作为相对垂直的音乐信息检索任务，其普适影响力相较于语音识别等通用任务有所局限。 🔗 开源详情代码：论文明确提供了代码仓库链接：https://github.com/Fan2me/Melody。模型权重：论文中未提及是否公开预训练模型权重。数据集：论文使用了公开数据集MIR-1K、MedleyDB和FMA，但未提供如何获取这些数据集的具体说明（通常这些数据集需自行申请或下载）。 Demo：论文中未提及在线演示。复现材料：论文提供了较为详细的训练细节（数据、特征、增强、损失函数、优化器、学习率、批大小、硬件），足以支持复现。引用的开源项目：论文使用了PyTorch框架、mir_eval评估工具包，并依赖ffmpeg进行数据增强。 📌 核心摘要问题：现有的歌唱旋律提取（SME）方法在建模频谱图时，难以同时高效捕捉局部模式与长程时频依赖，并且缺乏对音高层次（音调、八度）这一音乐先验的显式建模。此外，大多数半监督方法将所有无标签数据同等对待，导致伪标签质量不高。方法核心：提出了一个统一框架，包含三个关键组件：1）HybridNet：结合双轴Mamba和卷积神经网络来联合建模时频依赖，并设计了一种“结构池化”方案，将频率轴显式编码为“八度×音调”的网格结构，嵌入了音调层次先验。2）音调八度对比学习损失（TOCL）：通过设计两个投影器分别将特征映射到音调和八度子空间，拉近相同音调或八度的嵌入，推远不匹配的对，并引入了基于时间邻近度的加权以强调有信息量的正负样本对。3）分层半监督学习策略（S-SSL）：根据预测置信度和原型相似度，将无标签帧划分为“容易”、“模糊”、��困难”三组，并分别为每组设计不同的训练目标，从而更有效地利用无标签数据。与已有方法相比新在哪里：相比CNN方法（如MF-TFA）能更好地建模长程依赖，相比Transformer方法（如TONet）复杂度更低，相比现有Mamba方法（如SpectMamba）引入了更强的结构先验（音调八度层次）和更精细的对比学习与半监督策略。该方法是首个将结构化音调先验、对比学习与分层半监督三者统一应用于SME的框架。主要实验结果：在ADC2004， MIREX05和MedleyDB三个数据集上，所提HybridNet模型在主要指标OA上均取得了最佳性能。例如，在ADC2004上OA达到87.76%，比最强基线MF-TFA（85.39%）高2.37%。消融实验证实了结构池化（OP， -3.33% OA）、对比学习（TOCL， -1.38% OA）和分层半监督（S-SSL， -1.32% OA）三个组件的贡献。可视化结果（如图3）显示其生成的特征热图更干净，能捕捉到八度相关的谐波结构，在颤音等复杂片段上预测更准。实际意义：提升了从复杂音乐信号中提取主唱旋律的准确度和模型效率（模型仅0.53M参数），有助于下游应用如哼唱检索、音乐推荐、翻唱识别等。其设计思路（结构先验嵌入、置信度分层利用无标签数据）对其他序列建模任务有借鉴意义。主要局限性：任务（歌唱旋律提取）本身属于音乐信息检索中的一个垂直领域，应用广度相对有限。分层半监督策略引入了多个超参数（如τc, τa, λe, λa, λh），调优和部署可能稍显复杂。 🏗️ 模型架构所提HybridNet整体采用类似U-Net的编码器-解码器架构，核心是混合块（Hybrid Block, HB）和结构池化。以下是详细流程： ...

A Learning-Based Automotive Sound Field Reproduction Method Using Plane-Wave Decomposition and Multi-Position Constraint

📄 A Learning-Based Automotive Sound Field Reproduction Method Using Plane-Wave Decomposition and Multi-Position Constraint #空间音频 #波束成形 #深度学习 #多通道 #汽车音频 ✅ 7.5/10 | 前25% | #空间音频 | #波束成形 #深度学习 | #波束成形 #深度学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yufan Qian（北京大学智能科学技术学院，通用人工智能国家重点实验室）通讯作者：Tianshu Qu（qutianshu@pku.edu.cn，北京大学智能科学技术学院，通用人工智能国家重点实验室）作者列表：Yufan Qian（北京大学智能科学技术学院，通用人工智能国家重点实验室）、Xihong Wu（北京大学智能科学技术学院，通用人工智能国家重点实验室）、Tianshu Qu（北京大学智能科学技术学院，通用人工智能国家重点实验室） 💡 毒舌点评亮点：论文巧妙地将“平面波分解”这一物理概念转化为一个可微的深度学习损失函数，用于约束声场的空间结构，并通过“多位置联合优化”策略显著扩展了有效的听音区域，实验结果扎实，图表（如图3、图6）直观有力。短板：方法依赖于特定且昂贵的球形麦克风阵列(SMA)来获取空间信息，限制了其实用性和普适性；论文虽然声称是“learning-based”，但核心优化过程（深度优化）更像是用神经网络作为参数化求解器，并未充分利用数据驱动的端到端学习优势。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：未提及公开。论文中使用的RIR数据是在特定汽车座舱内采集的，未说明是否共享。 Demo：未提及在线演示。复现材料：论文给出了方法的主要原理和实验设置描述，但缺少训练超参数（如学习率、优化器）、神经网络初始化细节、损失函数各项具体权重(λ_ϵ)等关键信息，完整复现存在困难。论文中引用的开源项目：未提及依赖的特定开源工具或模型。 📌 核心摘要问题：在汽车座舱内进行高质量的声场重放（SFR）非常困难，原因是复杂的声学反射、不规则的边界以及对扬声器布局的严格限制。传统方法（如波场合成、高阶Ambisonics）在理想条件下有效，但在车内环境中会产生音染和定位不准。核心方法：提出一种基于深度优化的方法，核心在于将基于平面波分解(PWD)的、具有物理意义的空间功率图(SPM)作为约束，并结合多位置控制策略进行联合优化。新意：与以往基于延迟求和波束成形(DSB)估计的伪谱不同，PWD提供了一个与测量阵列解耦的、物理上更精确的声场空间分布表示。多位置优化则将约束从单个点扩展到一个区域，以构建健壮的听音区。主要结果：在真实汽车座舱内的实验表明，该方法在客观指标和主观听测中均显著优于多种基线方法（如频域去卷积、凸优化、SPMnet）。例如，在扩展区域的平均性能上，所提方法的频谱偏差(SD)为1.93 dB，后感知混响量化(nPRQpost)为0.31 dB，均优于基线；基于PWD的SPM相关性(Corr.)平均达到0.77，远高于其他方法。实际意义：为在汽车等受限空间中实现高保真、高定位精度的沉浸式音频体验提供了有效的解决方案，推动了车载音响系统的发展。主要局限性：性能验证依赖于特定尺寸和布置的球形麦克风阵列；目前只针对单个座椅位置进行了测试，尚未扩展到多座椅的全车覆盖。 🏗️ 模型架构本文并非传统的神经网络架构，而是将神经网络作为优化器（深度优化）来求解控制滤波器。核心系统模型与数据流如下图所示： ...

A Lightweight Fourier-Based Network for Binaural Speech Enhancement with Spatial Cue Preservation

📄 A Lightweight Fourier-Based Network for Binaural Speech Enhancement with Spatial Cue Preservation #语音增强 #深度学习 #轻量级模型 #空间音频 #实时处理 🔥 8.5/10 | 前25% | #语音增强 | #深度学习 | #轻量级模型 #空间音频学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Xikun Lu（华东师范大学教育人工智能研究院）通讯作者：Jinqiu Sang（华东师范大学计算机科学与技术学院）作者列表：Xikun Lu（华东师范大学教育人工智能研究院）、Yujian Ma（华东师范大学教育人工智能研究院）、Xianquan Jiang（泊听科技（上海）有限公司）、Xuelong Wang（华东师范大学计算机科学与技术学院）、Jinqiu Sang（华东师范大学计算机科学与技术学院） 💡 毒舌点评这篇论文的核心亮点在于其精巧的“取舍”设计：通过一个轻量级（129K参数）的傅里叶域调制器（GAFM）和动态门控（DRG），在极低的计算开销下，实现了双耳线索（ILD、IPD）保存和可懂度（MBSTOI）上的显著优势，成功解决了该领域一个痛点。然而，这种优化的代价也显而易见：在感知质量（PESQ）上，它未能超越最强大的、但笨重得多的基线模型，这暗示其“保护线索优先”的策略可能在某些纯听感场景下是次优选择，且过小的模型容量也限制了其性能上限的绝对高度。 🔗 开源详情代码：提供了开源代码仓库链接：https://github.com/Luxikun669/GAF-Net。模型权重：论文中未提及公开模型权重。数据集：论文使用了公开的VCTK、HUTUBS、NOISEX-92数据集进行合成，但未提及是否公开合成后的双耳数据集。 Demo：论文中未提及在线演示。复现材料：论文详细说明了训练细节（优化器、学习率、批次、调度器、早停）、关键超参数（FFT大小、层数等）和损失函数权重，为复现提供了良好基础。论文中引用的开源项目：未明确列出依赖的特定开源工具或模型库，但代码可能基于PyTorch等框架。 📌 核心摘要本文针对双耳语音增强中高性能模型计算复杂度高、轻量级模型性能下降的矛盾，提出了一种全局自适应傅里叶网络（GAF-Net）。其核心在于三个创新模块：1）双特征编码与融合模块，结合STFT特征和Gammatone特征，增强声学表征的鲁棒性；2）全局自适应傅里叶调制器（GAFM），作为轻量级骨干网络，在傅里叶域高效建模长期依赖，同时通过保持通道独立性来保护空间线索；3）动态精炼门（DRG），通过动态加权混合原始和增强信号，抑制处理伪影。实验结果表明，GAF-Net以仅129K参数和2.79 GMACs的开销，在关键指标（MBSTOI, LILD, LIPD）上达到了SOTA水平，同时保持了有竞争力的PESQ分数。主要局限性在于，目前的评估主要限于消声环境，未来需在混响等更复杂场景中验证其鲁棒性。主要实验结果对比表（平均性能）方法 MBSTOI ↑ ∆PESQ ↑ LILD ↓ LIPD ↓ 参数量 GMACs BCCTN [15] 0.84 0.35 4.59 0.79 11.1 M 16.38 G LBCCN [16] 0.85 0.20 5.32 0.88 38.0 K 0.30 G GAF-Net 0.86 0.22 3.86 0.75 129.0 K 2.79 G 🏗️ 模型架构 GAF-Net采用编码器-骨干网络-解码器的结构，核心处理流程如下：图1：GAF-Net整体架构示意图（来源：论文图1）。 ...

A LLM-Driven Acoustic Semantic Enriched Framework for Underwater Acoustic Target Recognition

📄 A LLM-Driven Acoustic Semantic Enriched Framework for Underwater Acoustic Target Recognition #水声目标识别 #音频分类 #对比学习 #大语言模型 #跨模态 ✅ 7.0/10 | 前25% | #音频分类 | #对比学习 #大语言模型 | #水声目标识别 #对比学习学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度中 👥 作者与机构第一作者：Jingkai Cao（东华大学计算机科学与技术学院）通讯作者：Shuai Yu（大连理工大学信息与通信工程学院），Wei Li（复旦大学计算机科学与技术学院）作者列表：Jingkai Cao（东华大学计算机科学与技术学院），Shicheng Ding（Tabor Academy, Massachusetts, USA），Shuai Yu（大连理工大学信息与通信工程学院），Wei Li（复旦大学计算机科学与技术学院） 💡 毒舌点评亮点：该工作巧妙地利用LLM（Gemini 2.5）生成细粒度的声学语义描述，构建知识库，以此“丰富”简单的类别标签，从而更精准地对齐音频与文本特征，有效缓解了多模态学习中常见的信息不对称问题。短板：方法严重依赖于外部LLM生成的文本质量，且整个推理流程（特别是LKR模块）引入了额外的检索和融合计算开销。最致命的是，代码和模型均未开源，这极大限制了其在实际研究社区中的可验证性和影响力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及是否公开。数据集：使用的是公开数据集DeepShip [20]和ShipsEar [23]，但论文未提供获取方式链接。 Demo：未提供。复现材料：论文提供了非常详细的训练配置、损失函数权重、数据预处理步骤等文字描述，但未提供配置文件、检查点或附录中的额外细节。论文中引用的开源项目：主要依赖于预训练的 CLAP 模型 [13] 作为基础编码器。 📌 核心摘要问题：现有的水声目标识别（UATR）方法，无论是纯声学分类器还是早期的多模态方法，都存在“语义间隙”。后者通常仅使用粗糙的类别标签文本（如“这是一艘货船的声音”），无法充分描述音频信号中丰富的细节，导致文本引导能力不足，模型难以学到更具判别性的声学特征。方法核心：本文提出了一个LLM驱动的声学语义增强框架（ASE-CLAP）。核心在于引入LLM驱动的知识检索（LKR）模块，利用LLM为每类船舶生成多条详细的声学特性描述，并编码成“声学-语义知识库”。在推理时，为每个类别检索最相关的语义描述并融合，生成比原始标签更丰富的“语义原型”。随后，通过多层次对比学习（全局级+原型级），将音频嵌入与这些细化的文本表示进行对齐。创新性：与已有工作相比，新在：（1）首次将LLM生成的知识显式引入水声目标识别的文本表示中，实现了从“标签”到“知识增强原型”的升级；（2）设计了多层次对比学习机制，同时对齐全局类别信息和细粒度声学语义，增强了特征判别力。实验结果：在DeepShip和ShipsEar两个公开数据集上，ASE-CLAP均取得了最优性能。例如，在DeepShip数据集上，OA（总体准确率）达到84.5%，超越了最强的多模态基线（MF-UATR, 79.3%）5.2个百分点，也显著优于纯声学模型（MHT-Transformer, 78.8%��。消融实验表明，LKR模块和多层次对比学习均带来了性能提升。图2的可视化显示，本方法学得的嵌入空间聚类更紧凑、类间分离度更高。实际意义：该工作为提升UATR系统的识别精度提供了一种有效的多模态学习范式，证明了引入领域特定语义知识的价值，对水下声学感知、海洋监测等应用有积极意义。主要局限性：（1）对生成高质量语义描述的LLM存在强依赖；（2）LKR模块在推理时引入了额外的检索和融合计算复杂度；（3）论文未公开代码、模型和生成描述的具体提示词，可复现性受限。 🏗️ 模型架构本文提出的ASE-CLAP框架整体架构如图1所示。其完整流程和主要组件如下： ...

A Metric Learning Approach to Heart Murmur Detection from Phonocardiogram Recordings

📄 A Metric Learning Approach to Heart Murmur Detection from Phonocardiogram Recordings #音频分类 #对比学习 #数据增强 #生物声学 #监督学习 ✅ 7.7/10 | 前25% | #音频分类 | #对比学习 | #数据增强 #生物声学学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度高 👥 作者与机构第一作者：Florian Lübbe（Fraunhofer Institute for Software and Systems Engineering ISST；University of Hildesheim Department of Data Science）通讯作者：未说明作者列表：Florian Lübbe（Fraunhofer ISST & University of Hildesheim）、Ahmad Bdeir（University of Hildesheim Department of Data Science）、Niels Landwehr（University of Hildesheim Department of Data Science）、Pinar Bisgin（University of Hildesheim Department of Data Science & TU Dortmund University Department of Computer Science） 💡 毒舌点评亮点在于系统性地验证了度量学习范式在心音分析不同任务（二分类、多分类、多标签）上的有效性，且在噪声更小的BMD-HS数据集上取得了高达18%的性能飞跃，证明了方法的潜力。短板则是对“多标签”场景的处理相对简单，仅将其视为一种分类任务，未能更深入地利用疾病（如主动脉瓣狭窄与反流）之间可能存在的生理关联性来设计更精巧的损失函数或网络结构。 ...

A New Method and Dataset for Classroom Teaching Stage Segmentation

📄 A New Method and Dataset for Classroom Teaching Stage Segmentation #课堂阶段分割 #多模态融合 #教育技术 #数据集 ✅ 6.5/10 | 前25% | #课堂阶段分割 | #多模态融合 | #教育技术 #数据集学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Shihao Yang（东北师范大学信息科学学院）通讯作者：Shuhua Liu（东北师范大学信息科学学院，邮箱：liush129@nenu.edu.cn）作者列表：Shihao Yang（东北师范大学信息科学学院）、Nan Zhang（东北师范大学信息科学学院）、Yue Jiang（东北师范大学信息科学学院）、Ziyi Zhang（东北师范大学信息科学学院）、Shuhua Liu（东北师范大学信息科学学院） 💡 毒舌点评本文最大亮点是首次明确定义了“课堂教学阶段分割”这一任务并构建了首个大规模多模态数据集，为教育过程分析提供了重要的基准和基础设施。然而，其提出的“多模态聚类-分离损失”与“熵权动态加权”方法在技术原创性上略显保守，更多是已有技巧在特定任务上的组合应用，动态加权策略带来的性能提升（如表2中从63.17到66.85）虽显著但幅度有限。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：论文构建并介绍了TSS数据集，包含1,928节课和详细划分，但未提及数据集的具体公开或获取方式。 Demo：未提及。复现材料：提供了训练的主要超参数（学习率、batch size、epoch数、损失权重）和硬件配置，但部分细节（如优化器、数据预处理代码）未说明。论文中引用的开源项目：提到了使用的预训练模型（Bart, Longformer, TimeSformer, wav2vec2）和工具（讯飞语音转写API）。 📌 核心摘要这篇论文首次聚焦于“课堂教学阶段分割”任务，旨在将完整的教学过程自动划分为复习、导入、讲解、总结和布置作业等逻辑阶段，以支持师范生培训和教学评估。为此，作者构建了一个包含1928节课、涵盖文本、音频、视频三种模态的大规模数据集（TSS），这是该领域的首个专用数据集。方法上，提出了一种多模态融合框架，其核心创新在于设计了“聚类损失”和“分离损失”以增强阶段内语义一致性与阶段间区分度，并采用基于信息熵的动态加权策略来融合多模态信息，自适应抑制噪声模态。实验表明，该多模态方法在Pk、WD、MacroF1等指标上显著优于仅使用文本的基线及最新的大语言模型（如Longformer基线在多模态动态加权下MacroF1达到66.85）。该研究为智能教育提供了新的技术路径，但其方法的普适性及数据集在不同文化、学科背景下的泛化能力仍需进一步验证。 🏗️ 模型架构该模型是一个多模态序列标注（边界检测）框架，旨在对教学过程中的每个句子进行边界预测（0或1）。整体流程如下：多模态特征编码：输入对齐的句子级文本、视频片段和音频片段，分别通过预训练的文本编码器（Bart或Longformer）、视频编码器（TimeSformer）和音频编码器（wav2vec2），得到句子级别的特征向量 vi,t, vi,v, vi,a。关键设计是三模态在时间线上严格对齐，避免了繁琐的模态对齐操作。动态模态加权：为了融合不同模态的信息并自适应地调整重要性，提出基于熵的动态加权。对于每个模态m，先通过一个线性层和sigmoid函数得到其预测概率 pi,m。然后计算该模态的不确定性（熵值）Hi,m。模态权重 wi,m 与熵值成反比（公式1，2），即不确定性（噪声）越高的模态，其权重越低。最终的多模态融合概率 pi,f 是各模态概率的加权平均（公式3）。损失优化：模型不仅使用标准的边界检测损失（加权二元交叉熵损失 LBCE），还创新性地引入了两个针对阶段表示的损失函数（如图2(b)所示）：语义聚类损失 (Lcluster)：促使同一阶段内的所有句子特征向量向该阶段的质心靠拢，增强阶段内一致性。全局分离损失 (Lsep)：拉大不同阶段质心之间的距离，增强阶段间的区分度。三个损失以加权和的形式构成最终联合损失 Ltotal。输出：根据融合概率 pi,f 与阈值（0.5）比较，输出二值化的边界预测结果。 ...

A Noniterative Phase Retrieval Considering the Zeros of STFT Magnitude

📄 A Noniterative Phase Retrieval Considering the Zeros of STFT Magnitude #信号处理 #时频分析 #语音增强 ✅ 7.5/10 | 前25% | #信号处理 | #信号处理 | #时频分析 #语音增强学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Kazuki Nishino（东京大学情报理工学系研究科）通讯作者：Takaaki Nara（东京大学情报理工学系研究科，论文中标注*）作者列表：Kazuki Nishino（东京大学情报理工学系研究科）、Takaaki Nara（东京大学情报理工学系研究科） 💡 毒舌点评亮点：该工作并非简单套用现有框架，而是深入STFT幅值零点这一数学奇点，提出了“解析定位-减去奇异项-泰勒拟合”的两阶段精细化处理流程，理论上根除了PGHI在零点附近的数值不稳定问题，体现了扎实的信号处理功底。短板：理论优雅但实用性堪忧，高达31.82的实时因子（RTF）使其离实用部署相去甚远，且实验仅与一个十年前的基线（PGHI）对比，在如今深度学习大行其道的背景下，说服力略显不足。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了公开的MOCHA-TIMIT语料库，但论文未说明具体获取方式。 Demo：未提供在线演示。复现材料：给出了实验设置（硬件、软件库、STFT参数），但未提供核心算法的实现代码、超参数选择依据或详细配置。论文中引用的开源项目：引用了LTFAT (Large Time-Frequency Analysis Toolbox) 作为信号处理工具库。 📌 核心摘要要解决什么问题：如何从短时傅里叶变换（STFT）的幅度谱中高精度地恢复相位信息。现有非迭代方法PGHI在STFT幅度零点附近因数值奇异性会产生较大误差。方法核心是什么：基于高斯窗STFT与Bargmann变换的解析关系，提出一种两阶段方法。首先，利用复变函数的积分矩公式，从幅度谱中解析地确定零点位置；然后，将幅度谱的对数视为一个全纯函数与奇异项之和，在减去奇异项后，用泰勒展开对剩余的全纯函数进行最小二乘拟合，从而恢复相位。与已有方法相比新在哪里：与PGHI通过数值积分规避零点不同，本方法显式且精确地定位零点，并利用零点信息来“净化”相位恢复过程，从数值求解转向基于函数逼近的解析式求解，提升了在零点附近的计算精度。主要实验结果如何：在MOCHA-TIMIT语音数据集上的实验表明，所提方法在相位误差（可视化）和频谱收敛度（SCdB）上均优于PGHI。典型数据示例中，所提方法SCdB为-92.28 dB，PGHI为-78.04 dB，提升约14dB。在20个数据上的总体对比（Fig. 2）也显示所提方法普遍优于PGHI。但计算时间显著增加，总RTF为31.82，而PGHI仅为0.89。实际意义是什么：为音频信号处理（如语音增强、源分离）提供了一种更高精度的相位恢复工具，其理论框架有助于理解STFT零点在相位重建中的作用。主要局限性是什么：计算复杂度高，实时性差；实验仅与PGHI对比，缺乏与其他状态-of-the-art方法（包括迭代方法如GLA及其变体）的比较；方法有效性严重依赖于高斯窗，对其他窗函数的适用性未探讨。 🏗️ 模型架构本文并非提出神经网络模型，而是一种基于解析推导的信号处理算法。其整体流程可视为一个两阶段的相位重建流水线： ...