Direct Simultaneous Translation Activation for Large Audio-Language Models

📄 Direct Simultaneous Translation Activation for Large Audio-Language Models #语音翻译 #语音大模型 #数据增强 #流式处理 #多语言 ✅ 6.0/10 | 前25% | #语音翻译 | #数据增强 | #语音大模型 #流式处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Pei Zhang (Tongyi Lab, Alibaba Group;NLP2CT Lab, University of Macau) 通讯作者:Derek F. Wong (NLP2CT Lab, University of Macau,由论文中标注†判断) 作者列表:Pei Zhang (Tongyi Lab, Alibaba Group;NLP2CT Lab, University of Macau)、Yiming Wang (School of Computer Science, Shanghai Jiao Tong University)、Jialong Tang (Tongyi Lab, Alibaba Group)、Baosong Yang (Tongyi Lab, Alibaba Group)、Rui Wang (School of Computer Science, Shanghai Jiao Tong University)、Derek F. Wong (NLP2CT Lab, University of Macau)、Fei Huang (Tongyi Lab, Alibaba Group) 💡 毒舌点评 本文思路巧妙,旨在通过极少量(1%)精心设计的增强数据“激活”而非“重训”大模型的同传能力,实验上也观察到了低延迟场景下的显著收益。然而,方法的关键步骤——如何从截断语音“推测”出对应的正确翻译文本(即式4的终止条件)——依赖于预训练模型自身的概率分布,其通用性和边界情况处理论证不足,更像是一个工程技巧而非一个鲁棒的算法框架,且实验中同传评估基于固定时间chunk的假设可能与实际流式场景存在偏差。 ...

2026-04-29

Direct Transfer of Prosody in Speech-to-speech Translation using Disentangled Speech Tokens

📄 Direct Transfer of Prosody in Speech-to-speech Translation using Disentangled Speech Tokens #语音翻译 #自监督学习 #端到端 #多语言 ✅ 7.5/10 | 前25% | #语音翻译 | #端到端 | #自监督学习 #多语言 学术质量 5.5/7 | 选题价值 1.8/2 | 复现加成 0.2 | 置信度 中 👥 作者与机构 第一作者:Ismail Rasim Ulgen (Amazon Prime Video, USA; Center for Language and Speech Processing, Johns Hopkins University, USA) 通讯作者:未说明 作者列表:Ismail Rasim Ulgen (Amazon Prime Video, USA; Center for Language and Speech Processing, Johns Hopkins University, USA), Nancy Liu (Amazon Prime Video, USA), Najmeh Sadoughi (Amazon Prime Video, USA), Abhishek Yanamandra (Amazon Prime Video, USA), Abhinav Jain (Amazon Prime Video, USA), Zhu Liu (Amazon Prime Video, USA), Vimal Bhat (Amazon Prime Video, USA) 💡 毒舌点评 亮点:这篇论文直击语音翻译中“翻译腔”这一痛点,用“解耦-传递”的巧思,将困扰领域多年的“韵律平行数据缺失”问题绕了过去,思路清晰且效果显著。短板:研究略显“工程化”,虽然提出了巧妙的对齐机制,但过度依赖一个外部强大且未开源的解耦编解码器(FACodec),且实验仅验证了两个语言对,在更复杂语系或低资源场景下的鲁棒性存疑。 ...

2026-04-29

Directly Trained Spiking Neural Networks with Adaptive Phase Coding

📄 Directly Trained Spiking Neural Networks with Adaptive Phase Coding #音频分类 #时间编码 #脉冲神经网络 ✅ 7.0/10 | 前25% | #音频分类 | #时间编码 | #脉冲神经网络 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Huaxu He(广东智能科学技术研究院,河南大学) 通讯作者:Yang Liu(河南大学计算机与信息工程学院),Chio-In IEONG(广东智能科学技术研究院) 作者列表:Huaxu He(广东智能科学技术研究院,河南大学)、Zhixing Hou(广东智能科学技术研究院)、Mingkun Xu(广东智能科学技术研究院)、Yongsheng Huang(广东智能科学技术研究院)、Yang Liu(河南大学计算机与信息工程学院)、Chio-In IEONG(广东智能科学技术研究院) 💡 毒舌点评 亮点:论文提出的“自适应相位编码”机制概念清晰、实现简洁,且巧妙地通过“层间时间打乱”消融实验,为“网络是否真的在利用时间信息”这一核心假设提供了直接证据,这在SNN可解释性研究中很有价值。 短板:创新深度有限,本质上是给LIF神经元的输入电流项增加了时间维度的缩放因子;实验部分未能与近年来涌现的多种直接训练SNN方法(如SLTT、GLIF等)进行公平、全面的对比,削弱了其宣称的“改进”的说服力。 📌 核心摘要 本文旨在解决直接训练的脉冲神经网络(SNN)在利用脉冲时间信息方面的不足,现有方法大多退化为等效的速率编码,限制了SNN处理时序信息和实现低功耗的潜力。为此,论文提出了“自适应相位编码”(APC)机制,其核心是在标准LIF神经元模型中引入与时间步相关的可学习参数(β_t, λ_t),用于对不同时间步的输入电流和膜电位衰减进行加权。与预先定义固定规则的相位编码不同,APC使网络能在端到端训练中自主学习每个时间步的重要性,并且该参数被扩展至每个层的每个通道,以实现更精细的时序调制。实验结果表明,在静态数据集CIFAR-10/100上,APC能将脉冲发放率降低约20%,同时精度仅下降约0.85%;在时序数据集DVS-Gesture和SHD上,APC显著提升了分类精度,分别提高了1.73%和17.76%,其中SHD数据集的提升尤为显著。论文通过层间时间打乱消融实验证明,APC确实促使网络从依赖速率编码转向利用脉冲的时序结构。该工作的实际意义在于为直接训练的SNN提供了一种即插即用的时间编码增强模块,能提升其在时序任务上的性能。主要局限性在于,在静态数据集上精度略有下降,且实验验证的骨干网络和任务类型相对单一。 🏗️ 模型架构 本文并未提出一个新的整体网络架构,而是提出了一种对标准漏积放电(LIF)神经元模型的增强方法,该方法可以作为一种通用模块嵌入到现有的SNN架构中。 基础组件:LIF神经元模型 功能:模拟生物神经元的积分-发放过程。 结构:其动力学由三个公式描述(对应论文公式(1)-(3))。核心是膜电位H[t]的累积:它由上一时刻的膜电位V[t-1]衰减后,加上当前时刻的输入电流I[t]构成。当H[t]超过阈值Vth时,神经元发放脉冲S[t]=1,随后膜电位重置。 数据流:输入电流I[t]由上一层在t时刻的输出脉冲S[t]经过权重w变换得到。 核心创新:自适应相位编码(APC)机制 功能:在不改变LIF基本结构的前提下,为网络注入学习时序编码的能力。 结构与数据流:APC对LIF公式进行了一项关键修改(对应公式(7)): H[t] = λ_learn^t V[t-1] + β_learn^t I[t] 这里,λ_learn^t和β_learn^t是可学习参数,且下标t表示它们是时间步相关的。这意味着网络可以为每个时间步分配不同的权重:β_learn^t控制当前时刻输入电流I[t]的重要性(即该时间步脉冲的权重),λ_learn^t控制上一时刻膜电位记忆的衰减程度。 关键设计选择与动机: 解耦:论文首先指出标准LIF中(1-λ)与λ强相关,通过解耦(公式(5))使输入电流权重独立可调。 时间步依赖:进一步引入时间步索引t到参数中(公式(7)),灵感来自固定规则的相位编码,但将其变为可学习的,使网络能自适应地发现最优的时序编码策略。 通道维度扩展:为了更精细的控制,这些时间步相关的参数被扩展到每一层的每个通道(即每个特征图有自己的一套λ_learn^t和β_learn^t)。对于没有通道维度的1D输入,会先折叠为2D以适用。 收益:该机制使网络能够自主决定在哪个时间步赋予脉冲更大的“重要性”,从而摆脱对速率编码的依赖,主动利用时间信息。实验证明,这在时序数据上能大幅提升性能。 💡 核心创新点 自适应时间步权重学习:提出APC机制,将相位编码中固定的时间步脉冲权重(如2^{-t})替换为可学习参数β_learn^t。这是与以往编码方案的根本区别,将时间编码从“人工设计”转变为“端到端学习”。 细粒度的通道级时间调制:将可学习的时间步参数从神经元级扩展到网络层的每个通道。这允许网络在不同的特征通道上学习不同的时序编码策略,提供了远比神经元级参数更丰富的时序表示能力,是提升性能的关键(消融实验已证明)。 提出“层间时间打乱”分析方法:为验证SNN是否真正在利用时间信息,提出了一个有效的分析工具:在层与层之间打乱脉冲的时间顺序。如果网络依赖速率编码,打乱影响小;如果依赖时间编码,打乱性能会显著下降。这为评估直接训练SNN的内部表征提供了新视角。 🔬 细节详述 训练数据: 静态图像:CIFAR-10, CIFAR-100。未说明预处理和数据增强,可能沿用QKFormer设置。 时序事件:DVS-Gesture(手势识别), SHD(Heidelberg Spiking Dataset, 语音数字识别)。未说明具体预处理。 损失函数:未说明,可能使用标准的交叉熵损失,与QKFormer一致。 训练策略: 骨干网络:对于图像和DVS数据集,使用QKFormer架构(一种基于注意力机制的SNN)。对于SHD数据集,使用5层MLP。 时间步设置:静态图像:4步; DVS-Gesture:16步; SHD:250步。 优化器/学习率:未说明,应与QKFormer原始设置一致。 训练轮数/批次大小:未说明。 关键超参数: APC参数初始化:所有λ_learn^t和β_learn^t初始化为1。 参数约束:在训练时序数据集(DVS, SHD)时,将APC参数约束在[-1, 1]范围内以确保稳定。静态数据集上无此约束。 训练硬件:未提供。 推理细节:未提供。 正则化/稳定技巧:上述APC参数约束是保证稳定训练的关键技巧。 📊 实验结果 主要基准结果: 论文报告了APC相对于基线(标准LIF神经元)的性能变化。 ...

2026-04-29

DisContSE: Single-Step Diffusion Speech Enhancement based on Joint Discrete and Continuous Embeddings

📄 DisContSE: Single-Step Diffusion Speech Enhancement based on Joint Discrete and Continuous Embeddings #语音增强 #扩散模型 #音频大模型 #自回归模型 #预训练 🔥 8.5/10 | 前10% | #语音增强 | #扩散模型 | #音频大模型 #自回归模型 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yihui Fu(德国布伦瑞克工业大学通信技术研究所) 通讯作者:未说明 作者列表:Yihui Fu(德国布伦瑞克工业大学通信技术研究所)、Tim Fingscheidt(德国布伦瑞克工业大学通信技术研究所) 💡 毒舌点评 这篇论文的亮点在于它巧妙地将离散token的保真度与连续嵌入的phonetic精度结合起来,并且通过“量化误差掩码初始化”这一小巧思,成功地将扩散过程的反向步骤压缩到一步,实现了性能与效率的双赢。不过,论文通篇没有提及代码和模型开源的具体计划,对于想要立刻复现或应用其技术的同行来说,这无疑是一个不小的障碍。 📌 核心摘要 问题:现有基于离散音频编解码器的扩散语音增强方法虽然保真度好,但推理时需要多次迭代,计算复杂度高;且在恢复正确音素(phoneme)方面表现不佳,导致其侵入式指标分数较低。 方法核心:本文提出DisContSE,一个混合判别/生成模型。它联合处理离散的音频编解码器token和连续嵌入,分别通过离散增强模块和连续增强模块进行优化,并引入语义增强模块提升音素准确性。其关键创新是提出“量化误差掩码初始化”策略,使得在推理时仅需一步扩散过程即可生成结果。 与已有方法相比新在哪里:首次实现了基于音频编解码器的单步扩散语音增强;提出了联合离散与连续表征的统一框架,并明确设计了三个功能互补的增强模块;通过量化误差指导初始化,优化了单步推理的质量。 主要实验结果:在URGENT 2024挑战赛数据集上进行评估,DisContSE在PESQ、POLQA、UTMOS等关键指标和主观MOS测试中均排名第一,总体排名(2.36,越低越好)显著优于所有对比的基线扩散模型。消融实验证明了每个模块及单步策略的有效性。关键结果对比如下: 方法 类型 PESQ POLQA UTMOS ESTOI 总体排名 SGMSE+ [1] G30 2.75 2.98 2.74 0.78 6.27 CRP [15] G1 3.10 3.01 3.04 0.81 3.36 StoRM [17] D+G50 2.94 3.02 2.95 0.79 4.82 Universe++ [18] D+G8 3.09 3.23 3.04 0.80 4.18 DisContSE (prop.) D+G1 3.14 3.25 3.13 0.80 2.36 实际意义:该工作为语音增强领域提供了一种高效且高质量的解决方案,单步推理特性使其更适合部署在实时或资源受限的应用场景中。 主要局限性:论文未明确开源代码和模型权重,限制了即时复现;尽管提出了单步扩散,但模型本身结构相对复杂,结合了多个预训练模型(DAC, WavLM)和独立的增强模块,总参数量较大。 🏗️ 模型架构 DisContSE是一个由三个主要模块和一个共享的离散扩散解码器构成的混合架构。 ...

2026-04-29

Discrete Diffusion for Generative Modeling of Text-Aligned Speech Tokens

📄 Discrete Diffusion for Generative Modeling of Text-Aligned Speech Tokens #语音合成 #扩散模型 #自回归模型 #语音表示 ✅ 7.5/10 | 前25% | #语音合成 | #扩散模型 | #自回归模型 #语音表示 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Pin-Jui Ku(NVIDIA;Georgia Institute of Technology) 通讯作者:未说明 作者列表:Pin-Jui Ku(NVIDIA;Georgia Institute of Technology),He Huang(NVIDIA),Jean-Marie Lemercier(NVIDIA),Subham Sekhar Sahoo(NVIDIA;Cornell Tech),Zhehuai Chen(NVIDIA),Ante Jukić(NVIDIA) 💡 毒舌点评 亮点:论文将新兴的离散扩散模型系统性地应用于语音token重建,并提供了迄今最全面的实证分析,结论(如FSQ优于RVQ、Conf-TopK采样更佳)对后续相关工作有直接的工程指导价值。短板:论文主要贡献是“应用与分析”,而非提出基础理论或解决语音token化中的核心难题(如语义与声学信息的完美解耦),且未探讨其方法对下游语音大模型(如TTS、ASR)性能的影响,使其深度和影响力受限。 📌 核心摘要 要解决什么问题:现有的TASTE语音token化框架依赖自回归(AR)解码器来重建语音,这导致推理速度慢,且重建质量可能非最优。 方法核心是什么:提出用离散扩散模型(DDM)替代TASTE中的AR解码器。模型在推理时,通过迭代去噪(从全掩码到逐步揭示)来并行预测S3 token序列,再由vocoder生成波形。 与已有方法相比新在哪里:首次在TASTE框架中系统性地应用并分析DDM。与AR解码器相比,DDM解码具有并行性,且质量更高。同时,论文系统比较了向量量化方案(RVQ vs. FSQ),发现FSQ能显著提升性能。 主要实验结果如何:在LibriSpeech数据集上,DDM解码器相比AR基线实现了3.3倍的推理速度提升(测试集1.65秒 vs. 5.48秒)。使用RVQ量化时,DDM的WER比AR降低35%(测试集:5.10% vs. 7.60%),UT-MOS提升0.45(4.27 vs. 3.82)。使用FSQ量化后,性能进一步提升,AR模型的WER相对降低35%,UT-MOS提升0.14。DDM模型在10步推理时即可达到峰值性能,甚至单步推理也基本可用。关键实验结果对比如下表: 模型 量化方式 测试集 WER (%) ↓ UT-MOS ↑ AR基线 4L-RVQ test-clean 7.60 3.82 本文DDM 4L-RVQ test-clean 5.10 4.27 本文DDM 4L-FSQ test-clean 4.00 4.30 本文DDM 10步 test-clean 3.70 4.28 本文DDM 单步 test-clean 5.14 3.81 实际意义是什么:为语音token化中的高效、高质量解码提供了一个优于自回归范式的新方案,展示了离散扩散模型在条件生成任务中的潜力,并提供了工程实践上的具体指导(如采样器选择、步数设置)。 主要局限性是什么:模型性能严重依赖一个外部长度预测器来估计S3 token序列长度;论文未验证该改进的语音表示对下游语音大模型(如端到端TTS、ASR)的具体增益;其优势建立在强条件(文本+TASTE embedding)上,对于无条件或弱条件生成任务的普适性未探讨。 🏗️ 模型架构 本文模型架构建立在TASTE框架之上,包含两个主要部分:TASTE Tokenizer和解码器(AR或DDM)。整体流程如图1所示。 ...

2026-04-29

Discrete-Continuous Fusion With Adaptive Hierarchical Features For Audio Deepfake Detection

📄 Discrete-Continuous Fusion With Adaptive Hierarchical Features For Audio Deepfake Detection #音频深度伪造检测 #迁移学习 #自监督学习 #端到端 🔥 8.0/10 | 前10% | #音频深度伪造检测 | #迁移学习 #自监督学习 | #迁移学习 #自监督学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jianqiao Cui(清华大学自动化系) 通讯作者:未说明(论文中星号标注了Bingyao Yu为通讯作者,但需根据星号原文确认,此处依据“*Corresponding author”和“∗”对应Bingyao Yu) 作者列表:Jianqiao Cui(清华大学自动化系, 长三角研究院),Bingyao Yu(清华大学自动化系),Shun Qin(清华大学长三角研究院) 💡 毒舌点评 本文提出的“离散语义标签与连续声学特征融合”思路新颖,且实验证明HAT模块对跨数据集鲁棒性提升显著。然而,其核心性能高度依赖于第三方模型GLM-4-Voice生成的语义标签质量,且所有实验均基于英语数据集,对跨语言泛化和实时攻击的鲁棒性未做验证,实际部署还需考量计算开销。 📌 核心摘要 该论文旨在解决当前基于神经编解码器的语音合成技术生成的深度伪造音频难以被现有检测方法有效识别的问题。其核心方法是将预训练的Whisper模型用于音频深度伪造检测,并引入两个关键模块:1)混合音频标记(HAT),将来自GLM-4-Voice的离散语义标签与Whisper编码器的连续声学特征进行融合,以捕捉语义与声学之间的不一致;2)分层残差连接(HRC),通过自适应地选择和整合Whisper编码器不同层次的输出特征,来保留多层次的伪造线索。与已有的单模态声学特征方法或简单的特征加权和方法相比,该方法能更有效地利用语义信息并保留关键的层次特征。在ASVspoof2021 DF、LA和CodecFake验证集上的实验表明,其最佳模型(Wsp with HAT&HRC)取得了0.67%的平均等错误率(EER),相较于强基线模型(如XLS-R)的EER降低了高达46%。具体实验数据如下: 表1:关键消融实验结果(在CodecFake验证集上) 模型配置 EER (%) 准确率 (%) Whisper-small-prompt (Wsp) 0.88 99.10 Wsp with weighted sum 2.56 97.31 Wsp with HRC 0.65 99.34 表2:关键消融实验结果(在CodecFake验证集上) ...

2026-04-29

Disentangled Authenticity Representation for Partially Deepfake Audio Localization

📄 Disentangled Authenticity Representation for Partially Deepfake Audio Localization #音频深度伪造检测 #对比学习 #语音伪造检测 #音频安全 ✅ 6.5/10 | 前25% | #音频深度伪造检测 | #对比学习 | #语音伪造检测 #音频安全 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Siding Zeng(中国科学院自动化研究所多模态人工智能系统国家重点实验室、中国科学院大学人工智能学院) 通讯作者:论文中未明确标注通讯作者,依据学术惯例,可能为Siding Zeng或其他未列出作者。 作者列表:Siding Zeng(中国科学院自动化研究所多模态人工智能系统国家重点实验室、中国科学院大学人工智能学院)。论文中仅列出此一位作者,但机构信息显示有两个隶属单位。 💡 毒舌点评 论文的亮点在于其针对特定痛点(域偏移和边界模糊)设计了一套逻辑自洽、组件协同的解决方案,消融实验也扎实地证明了各模块的有效性。然而,其核心思想——将表示解耦为“目标”与“干扰”成分——在计算机视觉等领域已不新鲜,论文的创新更多体现在如何将这一通用思想“翻译”并适配到部分伪造音频定位这个具体任务上,属于扎实的工程优化而非理论或架构上的重大突破。 📌 核心摘要 问题:部分深度伪造音频(仅少数片段被篡改)的定位面临两大挑战:训练与测试数据间的域偏移,以及真实与伪造段之间细微的过渡边界。 方法核心:提出DisAR双分支框架,将每个音频帧的特征显式解耦为“真实性特征”(捕捉伪造痕迹)和“干扰因素特征”(编码说话人、内容、环境等信息)。通过门控融合模块重建原始特征以避免信息丢失,并利用局部时间对比损失增强对篡改边界的敏感性。 创新点:与已有方法相比,新在显式地将真实性信息与干扰因素分离,而非隐式地让模型自行学习;并通过融合重构和对比损失分别保障信息完整性和提升边界精度。 主要结果:在PartialSpoof数据集上,DisAR取得了95.75%的F1分数(EER 3.51%);在ADD2023 Track 2(跨域测试)上,F1分数达到76.74%(EER 19.05%),均优于报告的基线。关键消融实验证明,移除正交损失、融合模块或对比损失均会导致性能显著下降(例如,无正交损失时F1降至68.48%)。 主要对比实验结果(表1): 方法 PartialSpoof F1 (%) ADD2023 Track 2 F1 (%) AGO (ICASSP’24) 94.36 71.87 DisAR (本文) 95.75 76.74 跨域泛化结果(表3):PartialSpoof -> ADD2023设置下,DisAR的F1分数为57.81%,远高于基线SPF(37.15%)和RSDM(34.09%)。 实际意义:提升了深度伪造音频检测在真实复杂场景(不同设备、环境、语言)下的可靠性和可解释性(通过解耦的特征)。 ...

2026-04-29

Disentangling Physiology from Fidelity: Latent-Guided Diffusion Models for Cross-Modal Cardiac Synthesis

📄 Disentangling Physiology from Fidelity: Latent-Guided Diffusion Models for Cross-Modal Cardiac Synthesis #音频生成 #扩散模型 #状态空间模型 #数据增强 #跨模态 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #状态空间模型 #数据增强 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Chenyang Xu(西安电子科技大学 网络安全学院) 通讯作者:Hao Wang(西安电子科技大学 网络安全学院) 作者列表:Chenyang Xu(西安电子科技大学 网络安全学院)、Siming Li(西安电子科技大学 电信工程学院)、Wensai Xuan(西安电子科技大学 机电工程学院)、Hao Wang(西安电子科技大学 网络安全学院) 💡 毒舌点评 亮点:论文巧妙地将“内容”(生理状态)与“风格”(信号波形)解耦,其潜在空间t-SNE可视化(图4)首次提供了学习到的生理状态分离的直观证据,这是一个令人信服的贡献。短板:方法的有效性高度依赖于配对、同步且状态标注清晰的高质量数据(如Ephnogram),在真实世界更嘈杂、异构的临床数据中的泛化能力存疑,而论文未对此进行任何讨论或验证。 📌 核心摘要 要解决的问题:心电图(ECG)与心音图(PCG)的跨模态合成对于综合心血管评估至关重要,但面临长程依赖建模和保持临床保真度的挑战。 方法核心:提出Mamba-Diff-VAE两阶段框架。第一阶段,共享的Mamba-VAE编码器将输入信号编码到一个捕获核心生理内容的结构化共享潜在空间。第二阶段,条件Mamba扩散解码器在潜在代码和元数据(如生理状态)的引导下,生成高保真的目标波形。 与已有方法相比新在哪里:不同于直接端到端的条件扩散模型,该工作明确将“内容表示”与“波形生成”解耦。使用Mamba替代Transformer处理长序列,具有线性复杂度优势。并且首次实证了学习到的潜在空间能有意义地区分生理状态(如静息与运动后)。 主要实验结果:在Ephnogram数据集上,该方法在ECG-to-PCG和PCG-to-ECG双向合成任务上均取得SOTA。与最强基线SSSM-Diff相比,在ECG-to-PCG任务上MSE降低40%(0.149 vs 0.089),相关性提高13%(0.745 vs 0.847);在PCG-to-ECG任务上MSE降低35%(0.173 vs 0.112)。消融研究(表2)证实了VAE组件和共享编码器的关键作用。 实际意义:该框架可用于生成高质量的合成心脏信号进行数据增强,提升下游诊断模型性能;其结构化潜在空间为心脏生理状态建模和潜在生物标志物发现提供了新途径。 主要局限性:研究仅基于一个公开数据集(Ephnogram)和健康/运动状态,未在病理数据集上验证泛化性;潜在空间分析主要停留在t-SNE可视化层面;推理过程未针对临床实时性进行优化。 🏗️ 模型架构 论文提出的Mamba-Diff-VAE是一个两阶段生成框架,旨在实现ECG和PCG信号的双向合成。其整体架构如图1所示。 ...

2026-04-29

Dissecting Performance Degradation in Audio Source Separation under Sampling Frequency Mismatch

📄 Dissecting Performance Degradation in Audio Source Separation under Sampling Frequency Mismatch #音乐源分离 #信号处理 #鲁棒性 #数据增强 ✅ 7.5/10 | 前25% | #音乐源分离 | #信号处理 | #鲁棒性 #数据增强 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Kanami Imamura (东京大学,日本产业技术综合研究所(AIST)) 通讯作者:未说明 作者列表:Kanami Imamura (东京大学,AIST)、Tomohiko Nakamura (AIST)、Kohei Yatabe (东京农工大学)、Hiroshi Saruwatari (东京大学) 💡 毒舌点评 亮点:论文以一种非常“工程化”且易于复现的方式(仅在重采样核中添加高斯噪声)解决了DNN模型对采样率变化的敏感性问题,并验证了其在多个主流模型上的普适性,实用价值很高。短板:理论深度有限,对“为什么添加噪声就能恢复性能”的解释停留在“提供高频成分存在性”的层面,未能更深入地揭示DNN模型内部为何对这种统计特性(而非精确频谱内容)如此敏感。 📌 核心摘要 问题:基于DNN的音频源分离模型通常在单一采样频率下训练。当处理不同采样率的输入时,常用重采样到训练采样率的方法,但这会导致性能下降,尤其是当输入采样率低于训练采样率时。 方法:作者提出两个假设:(i) 上采样导致的高频成分缺失是性能下降的原因;(ii) 高频成分的存在性比其具体频谱内容更重要。为此,他们提出并对比了三种替代重采样方法:后重采样噪声添加(直接在信号上加噪)、噪声核重采样(在插值核上加噪)、可训练核重采样(用DNN参数化插值核)。 创新:与传统重采样方法相比,本工作系统性地分析了性能下降的原因,并提出了一种极其简单却有效的“噪声核重采样”方法。其核心创新在于发现并验证了为重采样信号补充与输入信号相关的高频成分(而非不相关的噪声) 即可有效缓解性能下降。 实验结果:在MUSDB18-HQ数据集上进行音乐源分离实验。基线模型BSRNN在8kHz输入(训练于44.1kHz)下,人声SDR从6.58dB降至3.47dB。使用噪声核重采样后,SDR恢复至6.05dB。在包括Conv-TasNet, BSRNN, Mel-RoFormer在内的多个模型上,噪声核重采样均能缓解常规重采样带来的性能下降(见表1)。可训练核重采样效果类似,而后重采样噪声添加则效果不佳甚至恶化。 实际意义:提供了一种简单、通用且有效的工程解决方案,只需在现有重采样步骤的核函数中添加微小噪声,即可提升DNN音频模型对采样率变化的鲁棒性,便于实际部署。 局限性:研究主要局限于音乐源分离任务,结论在语音增强等其他音频任务上的普适性有待验证。对于可训练核重采样,其训练增加了额外开销。论文未能从根本上提出一种与采样率无关的DNN架构。 🏗️ 模型架构 本文并未提出一个新的分离模型架构,而是专注于研究重采样这一预处理/后处理步骤对现有分离模型性能的影响。其核心架构是DNN音频源分离的通用流水线(如图1(a)所示): ...

2026-04-29

DISSR: Disentangling Speech Representation for Degradation-Prior Guided Cross-Domain Speech Restoration

📄 DISSR: Disentangling Speech Representation for Degradation-Prior Guided Cross-Domain Speech Restoration #语音增强 #扩散模型 #对比学习 #领域适应 #模型评估 ✅ 7.5/10 | 前25% | #语音增强 | #扩散模型 | #对比学习 #领域适应 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Ziqi Liang(蚂蚁集团,杭州) 通讯作者:Jian Wang(蚂蚁集团,杭州,bobblair.wj@antgroup.com) 作者列表:Ziqi Liang(蚂蚁集团),Zhijun Jia(蚂蚁集团),Chang Liu(中国科学技术大学,合肥),Minghui Yang(蚂蚁集团),Zhihong Lu(蚂蚁集团),Jian Wang(蚂蚁集团)。 注:作者贡献标注为† Equal Contribution,故Ziqi Liang与Zhijun Jia贡献相当。 💡 毒舌点评 亮点:论文直击现有语音修复模型跨说话人风格泛化能力差的痛点,并提出了一个新颖的假设——降质信息与说话人风格解耦,并据此设计了引导扩散模型的先验模块,思路清晰且具有启发性。短板:支撑“降质信息包含在说话人风格中”这一核心假设的实验(图3)略显间接,分类器收敛快慢并不能直接等同于“说话人风格”特征包含了全部且纯粹的“降质”信息,论证链不够坚实。 📌 核心摘要 解决的问题:现有语音修复方法多为针对单一失真的特定模型,泛化能力差,尤其是面对训练时未见过的说话人风格(跨域)时性能下降明显。 方法核心:提出DisSR模型,核心思想是将退化语音解纠缠为内容、说话人风格和降质表示。其中,降质表示被设计为说话人无关的先验信息,并用于条件引导一个基于扩散模型的恢复网络。同时,引入跨域对齐训练来最小化不同说话人分布间的差距。 创新点:1) 提出并实验验证了降质信息主要存在于说话人风格表示中的假设;2) 利用说话人无关的降质先验引导扩散模型进行通用语音修复;3) 设计了针对降质编码器的跨域对齐训练策略以提升模型泛化能力。 主要实验结果:在跨语言(英→中/日)跨说话人测试集上,DisSR在DNSMOS、PESQ-wb、MCD三项指标上均优于VoiceFixer、SelfRemaster和SGMSE+M基线模型(例如在LibriTTS→VCTK英文测试集上,PESQ-wb为3.02,相比最优基线SGMSE+M的2.74有显著提升)。在单任务修复(如带宽扩展、去噪)中,DisSR也展现出竞争力,总体感知质量(COVL)占优。消融实验表明,所提出的各组件(多层级降质先验、降质表示学习、跨域对齐损失)均对性能有贡献。 实际意义:为构建能处理多种失真且对新说话人鲁棒的通用语音修复系统提供了一种新思路,具有较强的实用价值。 主要局限性:核心假设的直接验证稍显薄弱;实验中假设“每条语音内降质相同,语音间变化”,这与真实世界复杂场景可能存在差距;未公开代码与模型,限制了可复现性。 🏗️ 模型架构 DisSR的整体架构如图2所示,主要分为两个协同工作的模块:说话人无关的降质解纠缠模块和跨域语音恢复模块。 ...

2026-04-29