Acoustic Teleportation Via Disentangled Neural Audio Codec Representations

📄 Acoustic Teleportation Via Disentangled Neural Audio Codec Representations #神经音频编解码器 #语音增强 #音频场景理解 #信号处理 #解纠缠学习 ✅ 7.0/10 | 前25% | #语音增强 | #神经音频编解码器 | #音频场景理解 #信号处理 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Philipp Grundhuber(Fraunhofer Institute for Integrated Circuits (IIS), Erlangen, Germany) 通讯作者:未说明 作者列表:Philipp Grundhuber†(Fraunhofer Institute for Integrated Circuits (IIS)), Mhd Modar Halimeh†,§(† Fraunhofer Institute for Integrated Circuits (IIS);§ 现任职于Starkey Hearing Technologies), Emanuël A. P. Habets⋆(International Audio Laboratories Erlangen) 💡 毒舌点评 本文在“声学传送”这个颇具未来感的细分赛道上,用扎实的工程改进(EnCodec架构 + 多任务训练)把基线方法(Omran et al.)远远甩在了后面,消融实验和可视化分析做得相当全面。然而,一个明显的短板是它处理“传送”的极限能力不足——当两个房间的混响时间差别大于0.8秒时,输出质量就明显下降,这基本锁死了它在真实复杂声学环境中大规模应用的天花板。 ...

2026-04-29

Modeling Strategies For Speech Enhancement in The Latent Space of a Neural Audio Codec

📄 Modeling Strategies For Speech Enhancement in The Latent Space of a Neural Audio Codec #语音增强 #神经音频编解码器 #自回归模型 #模型比较 #连续表示学习 🔥 8.0/10 | 前50% | #语音增强 | #神经音频编解码器 | #自回归模型 #模型比较 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Sofiene Kammoun (CentraleSupélec, IETR (UMR CNRS 6164), France) 通讯作者:未说明 作者列表:Sofiene Kammoun (CentraleSupélec, IETR (UMR CNRS 6164), France)、Xavier Alameda-Pineda (Inria at Univ. Grenoble Alpes, CNRS, LJK, France)、Simon Leglaive (CentraleSupélec, IETR (UMR CNRS 6164), France) 💡 毒舌点评 本文以“教科书式”的系统性,将NAC潜空间中的几种核心建模选项(连续/离散、自回归/非自回归)像排列组合一样做了个遍,实验扎实、结论清晰,为后续研究者提供了非常明确的“避坑指南”和设计起点。然而,其所有实验仅在单一数据集(Libri1Mix)和单一编解码器(DAC)上进行,得出的“连续优于离散”等结论的普适性存疑,且未能将性能与当前主流的判别式SE方法(如Conv-TasNet)拉开决定性差距,更像是对一个新兴技术路径的初步探索而非颠覆性突破。 ...

2026-04-29

Stream-Voice-Anon: Enhancing Utility of Real-Time Speaker Anonymization Via Neural Audio Codec and Language Models

📄 Stream-Voice-Anon: Enhancing Utility of Real-Time Speaker Anonymization Via Neural Audio Codec and Language Models #语音匿名化 #神经音频编解码器 #自回归模型 #实时处理 #知识蒸馏 ✅ 7.0/10 | 前25% | #语音匿名化 | #神经音频编解码器 | #自回归模型 #实时处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Nikita Kuzmin (南洋理工大学,新加坡科技研究局A*STAR信息通信研究院), Songting Liu (南洋理工大学) — 论文标注为“Equal contribution”。 通讯作者:未说明 作者列表:Nikita Kuzmin(南洋理工大学,新加坡科技研究局A*STAR信息通信研究院)、Songting Liu(南洋理工大学)、Kong Aik Lee(香港理工大学)、Eng Siong Chng(南洋理工大学) 💡 毒舌点评 这篇论文的最大亮点在于成功地将当前火热的流式神经音频编解码器(NAC)与因果语言模型架构,从语音转换(VC)“搬运”到了说话人匿名化(SA)领域,并通过一系列工程技巧(如动态延迟、混合嵌入、多样化提示池)实实在在地提升了匿名化语音的“好用程度”(WER和UAR)。然而,其短板也很明显:面对一个稍微“用功”一点的攻击者(半知情攻击者),隐私保护性能就会显著下降,这暗示了其匿名化核心机制可能过于依赖表面特征变换,而非深度的身份信息剥离。 📌 核心摘要 要解决的问题:在实时流式场景下,现有的说话人匿名化方法要么在语音可用性(如识别率、情感保留)上妥协严重,要么隐私保护不足,亟需一种能平衡低延迟、高隐私和高实用性的系统。 方法核心:本文提出了Stream-Voice-Anon系统。其核心是借鉴流式语音转换(StreamVoice)的架构,采用一个基于因果Transformer的内容编码器(结合向量量化和知识蒸馏)提取与说话人无关的内容码,以及一个两阶段自回归模型(Slow-AR + Fast-AR)来生成目标声学码。为了实现匿名化,在推理阶段采用了三种策略:从提示池中随机选取并混合多个提示的语音内容、混合平均说话人嵌入与随机采样的高斯嵌入、以及动态调整延迟帧数。 与已有方法相比新在哪里:1)架构迁移:首次将先进的、基于因果语言模型的流式VC架构系统性地适配用于SA任务;2)匿名化增强:在VC架构基础上,创新性地集成了伪说话人表示采样、说话人嵌入混合和多样化提示选择等隐私保护技术;3)动态延迟:引入动态延迟训练(延迟d在1-8间随机采样),使得模型能在推理时灵活调整延迟以适应不同需求,而无需重新训练。 主要实验结果:在VoicePrivacy 2024 Challenge协议下,与之前的流式SOTA系统DarkStream相比: 实用性大幅提升:字错误率(WER)相对降低高达46%;未加权平均召回率(UAR,情感识别)相对提升高达28%。 隐私保护持平或略有下降:在“懒惰知情攻击者”场景下,等错误率(EER)与DarkStream相当(约47%);但在“半知情攻击者”场景下,EER降低了约15%,表明隐私保护有所退化。 延迟更低:实现与DarkStream可比甚至更低的延迟(180ms vs. 200ms)。 关键结果见下表: 模型 类型 WER ↓ UAR ↑ EER ↑ (lazy-informed) EER ↑ (semi-informed) DarkStream [15] (Mel+CL) 在线, 200ms 8.75 (0.0%) 34.73 (0.0%) 47.26 (0.0%) 21.83 (0.0%) Stream-Voice-Anon (cremad-emo-4rnd) 在线, 180ms 6.59 (24.7%↓) 44.59 (28.4%↑) 46.53 (1.5%↓) 18.63 (14.6%↓) Stream-Voice-Anon (cross-ds-4rnd) 在线, 180ms 4.71 (46.2%↓) 39.94 (15.0%↑) 47.72 (0.9%↑) 18.98 (13.1%↓) 实际意义:该系统在保持实时性的前提下,显著提高了匿名化语音在自动语音识别(ASR)和情感识别(SER)任务上的可用性,使其更适合用于需要保留语义和情感信息的实时通信场景(如紧急呼叫、心理咨询、法律记录)。 主要局限性:1) 面对经过针对性训练的“半知情”攻击者,隐私保护能力下降;2) 系统依赖GPU加速,无法在CPU上实时运行;3) 离线模型与在线模型之间仍存在性能差距;4) 论文未开源代码和模型,限制了复现与应用。 🏗️ 模型架构 系统整体架构如图1所示,主要包含训练和推理两个流程。 ...

2026-04-29

Towards Evaluating Generative Audio: Insights from Neural Audio Codec Embedding Distances

📄 Towards Evaluating Generative Audio: Insights from Neural Audio Codec Embedding Distances #模型评估 #神经音频编解码器 #距离度量 ✅ 6.5/10 | 前50% | #模型评估 | #神经音频编解码器 | #距离度量 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Arijit Biswas (Dolby Germany GmbH, N¨urnberg, Germany) 通讯作者:未说明(论文中未明确标注) 作者列表:Arijit Biswas (Dolby Germany GmbH, N¨urnberg, Germany)、Lars Villemoes (Dolby Sweden AB, Stockholm, Sweden) 💡 毒舌点评 论文系统性地比较了FAD与MMD在评估音频质量时的表现,并令人信服地指出FAD在NAC嵌入空间更胜一筹,同时证明了“更好的编解码器带来更好的评估嵌入”这一直觉。然而,其实验严格限定在有参考信号的全带宽音频质量预测上,对于其直接服务的“生成音频评估”(通常无参考)场景,本文结论的迁移价值和实际指导意义需要打上一个问号。 📌 核心摘要 解决的问题:随着生成音频技术的发展,需要可靠的自动化评估方法来替代耗时的主观测试。论文聚焦于一个基础问题:在评估音频感知质量时,是使用Fréchet Audio Distance(FAD)还是Maximum Mean Discrepancy(MMD)更有效?以及,使用何种音频嵌入模型(如神经音频编解码器NAC或通用模型)能获得与人类判断更一致的评估结果? 方法核心:作者提出了一种增强型神经音频编解码器DACe,通过在训练中引入合成音调数据并平衡采样来改进对音调内容的处理。随后,系统性地比较了基于三种NAC嵌入(EnC, DAC, DACe)和多种通用音频嵌入(CLAP, OpenL3)计算的FAD和MMD距离,与MUSHRA主观评分在语音、音乐和混合内容上的相关性。 与已有方法相比新在哪里:主要新贡献在于:1) 提出了针对特定弱点(音调材料)改进的NAC变体DACe;2) 首次在NAC嵌入域系统比较了FAD和MMD作为质量评估指标的性能;3) 提供了实证证据,表明更高保真度的NAC(如DACe)产生的嵌入与人类感知相关性更强,验证了NAC作为质量评估特征提取器的潜力。 主要实验结果:实验结果表明,在NAC嵌入域,FAD与人类MUSHRA评分的相关性(Pearson Rp最高0.70,Spearman Rs最高0.82)一致优于MMD。同时,嵌入质量随编解码器保真度提升而提升:EnC (Rp 0.38) < DAC (Rp 0.67-0.68) < DACe (Rp 0.70)。然而,在通用嵌入域,FAD结合CLAP-M(Rp 0.85, Rs 0.88)和OpenL3-128M(Rp 0.84, Rs 0.84)达到了更高的相关性。关键数据如下表所示: 编码器 (维度, SR) 距离度量 所有条件 Rp/Rs 去除低通锚点 Rp/Rs NAC嵌入 EnC (128, 48k) MMD 0.41/0.70 0.31/0.65 EnC (128, 48k) FAD 0.38/0.66 0.32/0.63 DAC 8kbps (1024, 44.1k) MMD 0.62/0.76 0.54/0.69 DAC 8kbps (1024, 44.1k) FAD 0.67/0.80 0.61/0.74 DAC 16kbps (128, 44.1k) MMD 0.65/0.77 0.57/0.69 DAC 16kbps (128, 44.1k) FAD 0.68/0.81 0.65/0.75 DACe 24kbps (1024, 48k) MMD 0.65/0.77 0.60/0.71 DACe 24kbps (1024, 48k) FAD 0.70/0.82 0.69/0.77 通用嵌入 CLAP-M (512, 48k) MMD 0.76/0.80 0.67/0.74 CLAP-M (512, 48k) FAD 0.85/0.88 0.82/0.85 OpenL3-128M (512, 48k) FAD 0.84/0.84 0.86/0.86 实际意义:研究证明了高保真度的神经音频编解码器不仅能用于压缩,其学习的嵌入空间也能作为零样本音频质量评估的有效特征提取器,无需大规模标注数据。这为结合压缩与评估的统一模型提供了思路。 主要局限性:实验评估场景是“有参考信号的全带宽音频质量预测”,这与许多生成音频评估场景(无参考信号)不同。因此,研究结论能否直接推广到生成式任务(如TTS、音乐生成)的无参考评估中,需要进一步验证。此外,虽然NAC嵌入表现不错,但仍落后于专门用大规模数据训练的CLAP等模型。 🏗️ 模型架构 论文核心是评估而非提出一个全新的端到端架构,因此架构描述主要围绕神经音频编解码器(NAC) 和评估流程。 ...

2026-04-29