信号处理 | 语音/音频论文速递

Adaptive Diagonal Loading using Krylov Subspaces for Robust Beamforming

📄 Adaptive Diagonal Loading using Krylov Subspaces for Robust Beamforming #波束成形 #信号处理 #鲁棒性 #麦克风阵列 ✅ 7.5/10 | 前25% | #声源定位 | #波束成形 | #信号处理 #鲁棒性 | arxiv 学术质量 7.0/8 | 影响力 0.8/2 | 可复现性 0.5/1 | 置信度高 👥 作者与机构第一作者：Manan Mittal 通讯作者：未说明作者列表：Manan Mittal, Ryan M. Corey, John R. Buck, Andrew C. Singer 注：论文原文中未提供作者的具体机构信息，仅提供了arXiv ID和链接。 💡 毒舌点评这篇论文聚焦于一个明确的工程计算瓶颈，即如何在动态环境中为大型麦克风阵列实时计算自适应波束成形器所需的对角加载量。作者巧妙地将经典的数值线性代数工具（Lanczos算法）引入这一特定问题，通过构建小维度的Krylov子空间来近似极端特征值，从而将计算复杂度从O(M³)降至O(kM²)，并声称在性能上与精确分解完全一致。这是一个“好工具用在刀刃上”的典型工作，实用价值清晰。然而，其核心是利用已知算法解决一个已知瓶颈，而非提出新的理论框架；论文对关键参数（k值）的选择缺乏理论指导，且完全未提供代码，这在顶会论文中是明显的短板，极大地限制了其可复现性和即时影响力。 📌 核心摘要要解决什么问题：在动态声学环境中使用大型麦克风阵列时，由于目标/干扰源快速移动导致可用快拍数不足，估计的样本协方差矩阵（SCM）会病态或秩亏。这会导致传统自适应波束成形器的白噪声增益（WNG）崩溃并抵消目标信号。先前提出的自适应对角加载方法虽能通过卡塔霍夫不等式严格保证WNG，但其所需计算SCM极端特征值（λ_max, λ_min）的精确特征值分解（EVD）具有O(M³)的计算复杂度，对于大规模阵列不切实际。方法核心是什么：提出使用Lanczos算法构建一个维度k«M的Krylov子空间，并将高维SCM（M×M）投影到一个小的三对角矩阵（T_k, k×k）上。计算T_k的特征值（Ritz值），并以其作为原SCM极端特征值的高效近似。然后，将这些近似特征值代入基于卡塔霍夫不等式推导的公式，计算出满足预设WNG下限（W_min）所需的最小对角加载量μ，并应用于SCM以计算鲁棒的波束成形权重。与已有方法相比新在哪里：已有的精确EVD方法计算成本为O(M³)；而基于Gershgorin圆盘定理或迹的松弛边界方法计算简单，但会高估所需加载量，浪费波束成形器自由度。本文方法将计算复杂度降至O(kM²)（其中k≈4），同时理论上（由于Ritz值收敛性质）和实验上（与精确EVD对比）实现了与精确EVD完全相同的性能，即在不损失精度的前提下实现了计算效率的飞跃。主要实验结果如何：模拟实验：在15元均匀线阵、动态“出生-死亡”干扰场景下（L=37快拍，L<2.5M），Lanczos方法（k=4）在扫描方向图、均方误差、白噪声增益（始终>8.76dB）、输出信干噪比等指标上，与精确EVD方法几乎完全重合，性能媲美全知（Omniscient）基线。实测实验：在SwellEx-96水下声学数据集（28元阵列）上验证，Lanczos方法与精确EVD方法生成的方位-时间历程图同样清晰，在目标方向（43°）和离轴方向的输出功率、白噪声增益曲线保持一致，论文称“表现相当（marginally better）”。实际意义是什么：该方法显著降低了在实时系统中实现具有严格WNG性能保证的自适应波束成形所需的计算成本，使其更适合在资源受限的嵌入式平台或需要高帧率处理的大型阵列中部署。主要局限性是什么：论文未讨论Lanczos算法在复数Hermitian矩阵上的收敛速度保证及初始向量选择的影响；关键参数k的选取（如k=4）仅为经验选择，缺乏理论分析或系统的消融实验；未提供开源代码，降低了方法的可复现性和验证便利性。 🔗 开源详情代码：论文中未提及代码链接或开源计划。模型权重：不适用。数据集：论文中使用了 SwellEx-96 实验的 S59 事件数据集，数据来自 South Horizontal Line Array (HLA-S) 阵列。论文未提供直接下载链接，需通过官方渠道申请访问。 Demo：论文中未提及。复现材料：论文中未提及。论文中引用的开源项目：未提及。 🏗️ 方法概述和架构本文提出的框架是一个在线、逐帧处理的实时鲁棒自适应波束成形流水线。其核心目标是解决在快拍数不足（L < M）时，如何高效且精确地计算对角加载量μ，以保证波束成形器的白噪声增益（WNG）不低于预设下限W_min。整体流程为：1）基于当前帧的有限快拍估计样本协方差矩阵（SCM）R_hat；2）对R_hat进行对角加载得到矩阵Q = R_hat + μI，其中μ待定；3）利用Lanczos算法高效估算Q的极端特征值λ_max和λ_min；4）将λ_max和λ_min代入由卡塔霍夫不等式导出的解析公式，计算出所需的最小加载量μ；5）使用计算出的μ重新加载SCM得到Q_loaded = R_hat + μI；6）基于Q_loaded求解MPDR波束成形权重w。整个流程的关键在于，Lanczos算法替代了耗时的精确特征值分解（EVD），成为连接理论保证（WNG下限）与实时计算的核心桥梁。 ...

Poly-SVC: Polyphony-Aware Singing Voice Conversion with Harmonic Modeling

📄 Poly-SVC: Polyphony-Aware Singing Voice Conversion with Harmonic Modeling #歌唱语音转换 #流匹配 #音乐源分离 #零样本 #信号处理 #复音建模 📝 5.5/10 | 前50% | #歌唱语音转换 | #流匹配 | #音乐源分离 #零样本 | arxiv 学术质量 5.5 （综合学术质量：创新性+技术严谨性+实验充分性+清晰度的加权得分，范围0-8）/8 | 影响力 1.0 （影响力与重要性：领域推动价值、后续工作潜力、与读者相关性，范围0-2）/2 | 可复现性 0.3 （可复现性：开源完整度、训练细节、超参数充分度，范围0-1）/1 | 置信度中 👥 作者与机构第一作者：未说明（论文未明确指定第一作者）通讯作者：未说明作者列表：Chen Geng, Meng Chen（论文正文致谢或作者列表中提及，但未说明其具体单位或角色）比舌点评论文直面歌声转换在真实世界应用中的一个痛点：从混音中分离的人声常残余和声，导致传统F0提取器失效。提出的Poly-SVC系统采用CQT频谱图处理复音，并用一个基于MIDI监督的“随机采样器”来精炼音高表征，思路清晰且具有实用动机。然而，论文的核心贡献——“随机采样器”的具体实现（如“随机”裁剪的策略、概率、监督细节）以及关键编码器（CQT/MIDI）的网络结构描述严重模糊，更像一个针对特定数据集的“黑箱”工程适配，而非一个方法论上足够严谨的创新。实验仅依赖主观评估，缺乏客观指标，且声称的“state-of-the-art”性能提升主要体现在主观MOS上，缺乏更全面的证据支撑，说服力有限。核心摘要要解决什么问题：现有歌声转换（SVC）方法依赖干净单旋律人声和F0提取器，但真实场景中通过工具（如UVR）分离的人声常残余和声（harmony），导致传统F0提取失效，引发音高预测错误和音质下降。本文旨在解决这一理想化训练数据与复杂现实输入之间的差距。方法核心是什么：提出Poly-SVC系统。核心是采用基于恒定Q变换（CQT）的音高提取器，其频谱图特性可同时表示主旋律与残余和声。为抑制CQT中混入的音色等非音高信息，设计了一个“随机采样器”，利用少量MIDI标注数据进行监督学习。最终，通过基于条件流匹配（CFM）的扩散解码器，将提取的内容、音高、音色特征融合，生成保留和声结构的高质量目标歌声。与已有方法相比新在哪里：不同于以往SVC工作假设输入为干净单旋律歌声，本文首次系统性地建模并处理“残余和声”这一真实世界问题。方法上，摒弃了传统的F0基频估计，转向直接建模整个CQT频谱图以捕捉复音结构，并引入了用少量MIDI数据指导的随机采样器来增强音高表征。主要实验结果如何：在模拟的和声（Harmony）条件下，Poly-SVC的MOS（自然度）和SIM-MOS（音色相似度）均显著优于基线so-vits-svc、DDSP-SVC和SeedVC。例如，在和声条件下，Poly-SVC的MOS达到3.75±0.10，而最强基线SeedVC仅为3.35±0.12。消融实验表明，移除随机采样器（RS）或音色转换器（TS）均会导致性能下降。频谱图（Fig. 3）直观显示SeedVC丢失了和声结构并出现音高预测错误，而Poly-SVC更好地重建了主旋律与和声。 Approach Single-Melody MOS Single-Melody SIM-MOS Harmony MOS Harmony SIM-MOS Ground Truth 4.12 ± 0.11 - 3.92 ± 0.11 - so-vits-svc 3.57 ± 0.14 3.15 ± 0.13 1.64 ± 0.10 2.08 ± 0.09 DDSP-SVC 3.83 ± 0.13 3.33 ± 0.11 2.98 ± 0.11 2.82 ± 0.10 SeedVC 3.85 ± 0.13 3.74 ± 0.10 3.35 ± 0.12 3.40 ± 0.08 Poly-SVC (w/o TS) 3.96 ± 0.13 3.66 ± 0.11 3.71 ± 0.10 3.32 ± 0.08 Poly-SVC (w/o RS) 3.92 ± 0.13 3.71 ± 0.12 3.62 ± 0.13 3.36 ± 0.09 Poly-SVC 3.98 ± 0.12 3.78 ± 0.11 3.75 ± 0.10 3.42 ± 0.09 实际意义是什么：该工作提升了歌声转换技术在真实世界复杂音频输入（即无法获得完美分离的干净人声）下的鲁棒性和实用性，对音乐制作、虚拟歌手、翻唱等应用具有直接价值。主要局限性是什么：论文完全依赖主观评估（MOS/SIM-MOS），缺乏客观声学指标；“随机采样器”的核心机制（随机裁剪策略）和网络架构（Transformer细节）描述不清，可复现性存疑；方法使用UVR分离伴奏来模拟“残余和声”数据集，其与真实复杂混音场景的差距未被充分讨论；论文声称“state-of-the-art”，但其提升主要体现在主观评分上，且提升幅度（如MOS +0.4）需要更多上下文来评估其显著性。方法概述和架构 ...

Spatial Power Estimation via Riemannian Covariance Matching

📄 Spatial Power Estimation via Riemannian Covariance Matching #空间音频 #声源定位 #信号处理 #波束成形 #黎曼几何 ✅ 6.5/10 | 前25% | #声源定位 | #信号处理 | #空间音频 #波束成形 | arxiv 学术质量 7.0/8 | 影响力 0.5/2 | 可复现性 0.0/1 | 置信度高 👥 作者与机构第一作者：Or Cohen（以色列理工学院 Andrew and Erna Viterbi 电气与计算机工程系）通讯作者：Or Cohen（以色列理工学院 Andrew and Erna Viterbi 电气与计算机工程系）作者列表：Or Cohen（以色列理工学院 Andrew and Erna Viterbi 电气与计算机工程系）、Alon Amar（以色列理工学院 Andrew and Erna Viterbi 电气与计算机工程系）、Ronen Talmon（以色列理工学院 Andrew and Erna Viterbi 电气与计算机工程系） 💡 毒舌点评论文为欧氏和黎曼协方差匹配准则建立了清晰的渐近等价性与鲁棒性理论联系，这是一个扎实的理论贡献。提出的SERCOM算法在计算效率上具有明确优势。然而，实验对比局限于与SPICE、SAMV等同框架经典方法的比较，缺乏与近年来性能更优或范式不同的稀疏恢复、深度学习方法的对比，严重削弱了结论的时效性和对方法“先进性”的定位。此外，所有实验均为仿真，未提供真实数据验证，且未开源代码，可复现性为零。 ...

语音/音频论文速递 2026-05-13

语音/音频论文速递 2026-05-13 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #声源定位 2篇 ██ #音频编码 2篇 ██ #语音识别 2篇 ██ #多模态检索 1篇 █ #深度伪造检测 1篇 █ #音视频 1篇 █ #基准测试 1篇 █ #多模态推理 1篇 █ 📊 论文评分排行榜（21 篇，按分数降序）排名论文评分分档主任务 🥇 jina-embeddings-v5-omni: Text-Geometry-Preserving Multi 7.5分前25% #多模态检索 🥈 Adaptive Diagonal Loading using Krylov Subspaces for Ro 7.0分前25% #声源定位 🥉 Spatial Power Estimation via Riemannian Covariance Matc 7.0分前25% #声源定位 4. The Deepfakes We Missed: We Built Detectors for a Threa 7.0分前50% #深度伪造检测 5. OmniRefine: Alignment-Aware Cooperative Compression for 7.0分前25% #音视频 6. Exploring Token-Space Manipulation in Latent Audio Toke 6.7分前25% #音频编码 7. MMTB: Evaluating Terminal Agents on Multimedia-File Tas 6.7分前25% #基准测试 8. UniPath: Adaptive Coordination of Understanding and Gen 6.6分前25% #多模态推理 9. The SMC Blind Spot: A Failure Mode Analysis of State-of 6.5分前35% #节拍跟踪 10. Too Good to Be True: A Study on Modern Automatic Speech 6.2分前50% #语音增强 11. Towards Fine-Grained Multi-Dimensional Speech Understan 6.0分前25% #语音理解 12. A Semi-Supervised Framework for Speech Confidence Detec 6.0分前50% #语音自信度检测 13. AffectCodec: Emotion-Preserving Neural Speech Codec for 5.8分前25% #音频编码 14. STRUM: A Spectral Transcription and Rhythm Understandin 5.5分前25% #音乐转录 15. Chunkwise Aligners for Streaming Speech Recognition 5.5分前50% #语音识别 16. Poly-SVC: Polyphony-Aware Singing Voice Conversion with 5.5分前50% #歌唱语音转换 17. What makes a word hard to learn? Modeling L1 influence 5.5分前50% #词汇难度预测 18. Mind the Pause: Disfluency-Aware Objective Tuning for M 5.5分前25% #语音编辑 19. OmniNFT: Modality-wise Omni Diffusion Reinforcement for 5.5分前25% #音视频生成 20. Mechanistic Interpretability of ASR models using Sparse 5.0分前60% #语音识别 21. Boosting Omni-Modal Language Models: Staged Post-Traini 5.0分前50% #多模态模型评估 22 AuDirector: A Self-Reflective Closed-Loop Framework for N/A - - 📋 论文列表 🥇 jina-embeddings-v5-omni: Text-Geometry-Preserving Multimodal Embeddings via Frozen-Tower Composition ✅ 7.5/10 | 前25% | #多模态检索 | #迁移学习 | #多模态模型 #模型评估 | arxiv ...

Encoding and Decoding Temporal Signals with Spiking Bandpass Wavelets

📄 Encoding and Decoding Temporal Signals with Spiking Bandpass Wavelets #音频编码 #脉冲神经网络 #信号处理 #高效推理 ✅ 7.0/10 | 前25% | #音频编码 | #脉冲神经网络 | #信号处理 #高效推理 | arxiv 学术质量 7.0/8 | 影响力 0.6/2 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：Jens Egholm Pedersen（丹麦技术大学，电气与光子工程系）通讯作者：Jens Egholm Pedersen（丹麦技术大学）作者列表：Jens Egholm Pedersen（丹麦技术大学，电气与光子工程系）、Tony Lindeberg（瑞典KTH皇家理工学院，计算科学与技术系）、Peter Gerstoft（丹麦技术大学，电气与光子工程系） 💡 毒舌点评这篇论文在理论层面做出了扎实且有价值的贡献，成功地将LIF神经元模型这一工程实践，严谨地嵌入到尺度空间理论和小波帧的数学框架中，填补了神经形态计算与经典信号处理之间的理论鸿沟。这种概念性的创新值得高度肯定。然而，实验部分存在明显短板，未能充分兑现其核心承诺。论文声称其方法“直接映射到神经形态硬件”，却未提供任何在真实神经形态平台上的功耗、延迟或脉冲率测量数据；解码器严重依赖离线的最小二乘法，与“实时、流式”的目标相去甚远；且实验仅局限于信号重建任务，对编码表示在下游任务中的效用未做探索，使得实际影响力大打折扣。 📌 核心摘要本文旨在为基于脉冲的编码器建立一个严谨的信号处理理论框架。作者提出，可将常用的基于泄漏积分-发放（LIF）神经元的脉冲编码器重新解释为一种时间因果的尺度协变小波帧。核心方法是构造了两种新的脉冲小波家族：截断指数差（DoE）和时间因果极限核差（DoT）。与现有工作相比，新在：（1）首次为脉冲编码提供了正式的帧定义、重建保证和误差界；（2）将多尺度框架与事件驱动表示统一；（3）提出的波形可直接映射到神经形态硬件。实验结果显示，在MIT-BIH ECG和LibriSpeech音频数据集上，所提出的脉冲小波（尤其是DoT）的归一化均方根误差（nRMSE）与经典的非因果Morlet小波及连续小波变换（CWT）相当（例如，在LibriSpeech上脉冲DoT的nRMSE为0.073，与Morlet的0.064处于可比范围）。本文的实际意义在于为神经形态前端提供了具有可证明重建保证的编码理论基础。主要局限性在于解码过程依赖离线的最小二乘权重求解，且缺乏在神经形态硬件上的实测性能验证。 🔗 开源详情代码：https://github.com/jegp/swavelet 模型权重：论文中未提及数据集：论文中提及使用MIT-BIH (Moody and Mark, 2001)和LibriSpeech (Panayotov et al., 2015)数据集，但未提供具体下载链接。 Demo：论文中未提及复现材料：代码仓库 https://github.com/jegp/swavelet 应包含复现所需的主要材料。论文附录中提供了算法（Algorithm 1）和实验细节（Appendix J）。论文中引用的开源项目： PyWavelets：用于实现离散小波变换（Haar和Morlet）。链接：https://github.com/PyWavelets/pywt Jax：实验所用的机器学习加速器。链接：https://github.com/google/jax Neuromorphic Intermediate Representation (NIR)：文中提及的用于编译到神经形态硬件的表示，但未给出具体链接。 🏗️ 方法概述和架构本文提出了一个端到端的信号编码与解码框架，旨在将连续时间信号转换为稀疏的脉冲序列，并能够稳定地重建原信号。该框架将传统的模数转换问题重新构建为基于尺度空间理论的小波分解与重构问题。 ...

Low-Cost Detection of Degraded Voice Clones via Source-Output Acoustic Consistency

📄 Low-Cost Detection of Degraded Voice Clones via Source-Output Acoustic Consistency #语音伪造检测 #语音质量评估 #信号处理 #医疗音频 📝 5.3/10 | 前50% | #语音伪造检测 | #信号处理 | #语音质量评估 #医疗音频 | arxiv 学术质量 5.3/8 | 影响力 0.4/2 | 可复现性 0.3/1 | 置信度高 👥 作者与机构第一作者：Jana Shokr 通讯作者：论文中未明确说明通讯作者作者列表：Jana Shokr, Minos Papadopoulos, Jeremy Cooperstock, Pavo Orepic（论文中未提及任何作者机构信息） 💡 毒舌点评这篇论文精准地瞄准了临床AVATAR疗法中一个真实且关键的痛点：需要快速剔除明显劣质的合成语音以保护治疗沉浸感，并提出了一个逻辑自洽、物理可解释的检测框架。然而，其核心短板在于实验的“小作坊”规模（总共仅94个样本）和与时代脱节的评估方式——在学习型方法层出不穷的今天，仅用两个简单特征和阈值与“人类标签”对比，缺乏与任何现有语音质量评估或伪造检测模型的基准较量，说服力大打折扣。 📌 核心摘要本文针对临床语音治疗（如AVATAR疗法）中需要快速、自动检测明显劣质的声音克隆输出这一实际问题，提出了一种低成本的检测方法。核心方法是基于语音生成的源-滤波器模型，检验合成输出与输入声源在几个低维、可解释的声学特征上的一致性，具体使用了基频（f0）、谐波噪声比（HNR）和声道长度（VTL）。研究者在人类标注的、由两种不同声码器（WaveRNN和HiFi-GAN）生成的合成语音样本上，采用了一种非对称阈值分类方法进行评估。实验结果显示，在WaveRNN上，f0和HNR均达到85.2%的准确率；在HiFi-GAN上，HNR达到80.0%的准确率，f0为77.5%。分析表明，f0和HNR能捕获部分不同的失效模式，具有互补性。该研究的实际意义在于为高风险应用场景提供了一种快速、可解释的第一道过滤器，以提升系统的可靠性。主要局限性包括数据集规模较小、特征集有限，且未与更复杂的自动化质量预测模型进行直接对比。特征声码器负阈值正阈值准确率(%) 敏感性(%) 特异性(%) TP TN FP FN f0 WaveRNN -11.2 32.6 85.2 82.0 89.0 22 24 3 5 HNR WaveRNN -1.7 1.2 85.2 82.0 89.0 22 24 3 5 VTL WaveRNN -1.4 10.7 64.8 60.0 70.0 16 19 8 11 f0 HiFi-GAN -19.3 50.1 77.5 60.0 95.0 12 19 1 8 HNR HiFi-GAN -0.9 3.4 80.0 90.0 70.0 18 14 6 2 VTL HiFi-GAN -1.0 8.7 67.5 65.0 70.0 13 14 6 7 图1展示了f0, HNR, VTL三个特征在输入-输出空间中的分布。图中清晰显示，标记为“Good”的样本（蓝色）紧密围绕在恒等线（y=x）周围，而“Bad”样本（橙色）则更多地分布在优化后的阈值带之外，直观地证明了所选特征区分好坏样本的能力。 ...

ShipEcho -- An Interactive Tool for Global Mapping of Underwater Radiated Noise from Vessels

📄 ShipEcho – An Interactive Tool for Global Mapping of Underwater Radiated Noise from Vessels #水下声学 #声源定位 #信号处理 #开源工具 #地理信息系统 #环境管理 ✅ 6.0/10 | 前25% | #水下声学 | #系统集成 | #声源定位 #信号处理 | arxiv 学术质量 6.0/8 | 影响力 2.0/2 | 可复现性 0.5/1 | 置信度中 👥 作者与机构第一作者：Mark Shipton（海法大学 Charney 海洋科学学院）通讯作者：Roee Diamant（海法大学 Charney 海洋科学学院）作者列表：Mark Shipton（海法大学 Charney 海洋科学学院）、Valentino Denona（萨格勒布大学电气工程与计算学院）、Đula Nađ（萨格勒布大学电气工程与计算学院；CoE MARBLE）、Roee Diamant（海法大学 Charney 海洋科学学院） 💡 毒舌点评这篇论文的核心贡献是工程集成与交互设计，而非声学算法的创新。它将已知的源级（SL）模型、传播模型和开源环境数据，通过一个精心设计的Web-GIS框架整合成一个免费、可交互的工具，显著降低了水下辐射噪声（V-URN）管理应用的门槛。其价值在于可访问性、透明性（支持多模型比较）和管理工具集成（如MPA叠加和场景模拟）。然而，作为一篇发表的论文，其验证部分严重不足（单点、短期），且对核心组件（如传播模型参数、组合模型策略）的选择缺乏严谨的分析或消融研究，使得其“全球映射”的宣称更多是一种架构能力而非经过验证的精度保证。论文的“方法”章节实质上是系统设计文档，对于追求算法新颖性的顶会而言，贡献维度较为狭窄。 📌 核心摘要本文提出了ShipEcho，一个基于Web的地理信息系统（GIS）工具，旨在解决当前船舶水下辐射噪声（V-URN）映射中空间稀疏、数据昂贵、工作流复杂等问题。其核心方法是通过系统集成，将社区共享的船舶自动识别系统（AIS）数据、多种开源源级（SL）预测模型（RANDI 3.1, JOMOPANS-ECHO, LBDS, AQUO, SRV）以及基于环境数据（水深、声速剖面）的高斯射线追踪（GRT）传播模型整合进一个标准化、可交互的数据管道，用于生成近实时（SPL）和累积（SEL）噪声地图。相较于静态报告或封闭平台，ShipEcho的新颖性在于提供了一个免费、开放的探索环境，允许用户交互选择和比较不同SL模型的影响，并可叠加海洋保护区（MPA）边界进行评估。实验验证仅限于在Haifa港口一个点位、两天的数据对比：ShipEcho估算的63 Hz日累计声暴露级（SEL）与实测值吻合较好（差异<4 dB），但在125 Hz和20-2000 Hz频带存在系统性低估（差异在-8.26 dB至-2.14 dB之间），论文将此归因于模型仅估计AIS追踪船舶噪声，而实测包含完整声景。应用案例展示了在克罗地亚Jabuka盆地MPA中，模拟将周边20km内船舶限速11节可使MPA内每周平均SEL下降超过10 dB。该工具的价值在于为海洋空间规划和噪声缓解策略制定提供了一个透明、可重复的决策支持平台，但其精度和可靠性严重受限于AIS完整性、SL模型普适性及传播模型的简化假设。 ...

Single-Microphone Audio Point Source Discriminative Localization From Reverberation Late Tail Estimation

📄 Single-Microphone Audio Point Source Discriminative Localization From Reverberation Late Tail Estimation #声源定位 #说话人分离 #信号处理 #混响 #单麦克风 📝 5.0/10 | 前50% | #说话人分离 | #信号处理 | #声源定位 #混响 | arxiv 学术质量 5.0/8 | 影响力 1.0/2 | 可复现性 0.5/1 | 置信度高 👥 作者与机构第一作者：Matthew Maciejewski（论文中未说明所属机构）通讯作者：未说明作者列表：Matthew Maciejewski（论文中未说明所属机构） 💡 毒舌点评本文提出一个颇具巧思的信号处理框架，将成熟的WPE去混响滤波器“废物利用”，从“去噪工具”转变为“声源指纹提取器”，用于单麦克风声源区分。然而，其核心假设（准静态声源）在真实动态场景（如AMI数据集）下的崩溃是方法的阿喀琉斯之踵，导致性能急剧下降。尽管论文指出了与声纹方法的互补潜力，但未进行融合实验，使得这一“潜力”停留在推测层面，整体贡献在信号处理领域有一定新颖性，但实用价值受限。 📌 核心摘要要解决什么问题：在仅使用单个麦克风的条件下，判断两个音频片段是否来自同一空间点源位置（定位判别），并将其应用于说话人分离（Diarization）任务。方法核心是什么：利用加权预测误差（WPE）去混响算法估计的滤波器矩阵G作为声源位置的“特征指纹”。其核心洞察是，WPE旨在估计的房间混响晚期尾部（Late Tail）对房间整体声学特性敏感，但对声源和麦克风的具体相对位置“相对不变”（relatively invariant）。因此，两个不同位置的WPE滤波器在幅度上应存在一个缩放关系，在相位上应反映时延差。与已有方法相比新在哪里：不同于依赖麦克风阵列的时延估计（TDOA）或多麦克风信号相关性的传统方法，也区别于基于深度学习的声纹识别方法，本文首次提出利用单通道WPE滤波器的统计特性（通过估计其幅度比和相位差）来推断声源位置的同一性。这是一种基于信号处理的概率判别新范式。主要实验结果如何：在合成数据集Linear WHAMR!上，方法（WPE-Loc.+LDA）的说话人分离错误率（DER）为7.78%，接近使用xvector的基线（3.60%）。在真实会议场景LibriCSS上，DER为24.82%，与xvector基线（19.36%）的差距约为5.5%。但在更真实的AMI移动说话人数据集上，对完整30分钟录音进行处理时，性能显著下降（DER为60.57%）；通过将其切分为30秒片段独立处理后，DER降至33.44%，但仍不及xvector基线（23.55%）。关键实验结果表格如下：系统 Linear WHAMR! (nspk clust.) LibriCSS (nspk clust.) AMI (nspk clust.) AMI (30s chunks) WPE-Loc. mag. only 26.71 71.00 60.67 38.29 WPE-Loc. delay only 4.95 31.20 60.60 34.53 WPE-Loc. w/o LDA 7.48 25.90 60.64 33.55 WPE-Loc.+LDA 7.78 24.82 60.57 33.44 xvec.+PLDA 3.60 19.36 33.15 23.55 random baseline 50.89 88.74 74.10 60.31 实际意义是什么：为单麦克风设备（如手机、智能音箱）在无法使用阵列时实现基础的空间感知和声源分割提供了一种纯信号处理的解决方案。论文通过实验证明了其与基于深度学习的声纹识别方法（xvector）性能的低相关性，表明二者利用了互补的信息维度，为多线索融合提升鲁棒性提供了理论依据。主要局限性：方法严重依赖声源位置准静态的假设，在说话人移动场景下性能急剧下降；需要较长的分析窗口（约4秒）以获得稳定的WPE滤波器估计，限制了时间分辨率和实时性；在重叠语音情况下的性能未被充分评估和分析；与声纹方法的融合潜力未通过实验验证。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及。数据集： Linear WHAMR!：该数据集是从WHAMR!数据集派生而来。原始的WHAMR!数据集可从其官方来源获取：https://whamr.github.io/。Linear WHAMR!的具体使用方式在论文中有描述，但未提供独立的数据集下载链接。 LibriCSS：该数据集的官方仓库和下载信息请访问：https://github.com/jsalt-ic/LibriCSS。 AMI Meeting Corpus：该数据集可通过其官方网站获取：https://groups.inf.ed.ac.uk/ami/corpus/。 Demo：论文中未提及。复现材料：论文中未提及（论文未提供训练配置、检查点或附录等补充材料）。论文中引用的开源项目： Weighted Prediction Error (WPE)：作为论文的核心方法之一，WPE是一个成熟的去混响算法。其Python实现可在以下GitHub仓库中找到：https://github.com/fgnt/wpe。 WHAMR! 数据集：用于创建Linear WHAMR!数据集的源数据集，是一个用于语音分离的开源数据集，详情见https://whamr.github.io/。 xvector 系统：论文中用于基准测试的xvector说话人嵌入系统，是一个公开可用的ReNet-101系统（在VoxCeleb1, VoxCeleb2, 和CN-Celeb上训练）。论文中说明其为“公开可用”系统，但未提供具体的代码仓库链接。 🏗️ 方法概述和架构该论文提出了一种基于统计推断的框架，用于判断从同一房间单个麦克风录制的两段音频是否来自同一空间位置。其核心思想是将WPE去混响算法中的滤波器系数矩阵G视为一种隐式的、与声源位置相关的“特征”，并通过比较两组滤波器来计算它们源于同一位置的似然比。 ...

语音/音频论文速递 2026-05-12

语音/音频论文速递 2026-05-12 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 3篇 ███ #音乐生成 2篇 ██ #语音合成 2篇 ██ #语音增强 2篇 ██ #音频深度伪造检测 2篇 ██ #基准测试 2篇 ██ #语音质量评估 1篇 █ #音频编码 1篇 █ 📊 论文评分排行榜（39 篇，按分数降序）排名论文评分分档主任务 🥇 Polyphonia: Zero-Shot Timbre Transfer in Polyphonic Mus 7.5分前30% #音乐生成 🥈 PoDAR: Power-Disentangled Audio Representation for Gene 7.3分前25% #语音合成 🥉 Evaluating the Expressive Appropriateness of Speech in 7.2分前25% #语音质量评估 4. Reducing Linguistic Hallucination in LM-Based Speech En 7.2分前25% #语音增强 5. Encoding and Decoding Temporal Signals with Spiking Ban 7.0分前25% #音频编码 6. Mitigating Multimodal Inconsistency via Cognitive Dual- 7.0分前50% #意图识别 7. SF-Flow: Sound field magnitude estimation via flow matc 6.8分前25% #空间音频 8. Probing Cross-modal Information Hubs in Audio-Visual LL 6.5分前25% #模型分析 9. Towards Trustworthy Audio Deepfake Detection: A Systema 6.5分前25% #音频深度伪造检测 10. Unison: Harmonizing Motion, Speech, and Sound for Human 6.5分前30% #音视频生成 11. CORTEG: Foundation Models Enable Cross-Modality Represe 6.5分前25% #脑机接口 12. Omni-Persona: Systematic Benchmarking and Improving Omn 6.5分前25% #基准测试 13. DiffVQE: Hybrid Diffusion Voice Quality Enhancement Und 6.2分前30% #语音增强 14. A Cold Diffusion Approach for Percussive Dereverberatio 6.2分前35% #音频修复 15. APEX: Audio Prototype EXplanations for Classification T 6.2分前25% #音频分类 16. How Should LLMs Listen While Speaking? A Study of User- 6.0分前25% #语音对话系统 17. RADAR Challenge 2026: Robust Audio Deepfake Recognition 6.0分前50% #音频深度伪造检测 18. ShipEcho – An Interactive Tool for Global Mapping of U 6.0分前25% #水下声学 19. Rethinking Entropy Minimization in Test-Time Adaptation 6.0分前40% #语音识别 20. Separate First, Fuse Later: Mitigating Cross-Modal Inte 6.0分前50% #音视频问答 21. ChladniSonify: A Visual-Acoustic Mapping Method for Chl 6.0分前50% #音频生成 22. Omni-DeepSearch: A Benchmark for Audio-Driven Omni-Moda 6.0分前25% #基准测试 23. Online Segmented Beamforming via Dynamic Programming 6.0分前25% #声源定位 24. FLARE: Full-Modality Long-Video Audiovisual Retrieval B 6.0分前25% #音频检索 25. Speech-based Psychological Crisis Assessment using LLMs 5.8分前25% #语音情感识别 26. EAR: Enhancing Uni-Modal Representations for Weakly Sup 5.8分前25% #音频事件检测 27. Kinetic-Optimal Scheduling with Moment Correction for M 5.5分前50% #语音合成 28. Dolphin-CN-Dialect: Where Chinese Dialects Matter 5.5分前50% #语音识别 29. Latent Secret Spin: Keyed Orthogonal Rotations for Blin 5.5分前50% #音频水印 30. Bangla-WhisperDiar: Fine-Tuning Whisper and PyAnnote fo 5.5分前50% #语音识别 #说话人日志 31. Remix the Timbre: Diffusion-Based Style Transfer Across 5.5分前30% #音色迁移 32. Low-Cost Detection of Degraded Voice Clones via Source- 5.3分前50% #语音伪造检测 33. Single-Microphone Audio Point Source Discriminative Loc 5.0分前50% #说话人分离 34. Responsible Benchmarking of Fairness for Automatic Spee 5.0分前50% #语音识别 35. Sub-JEPA: Subspace Gaussian Regularization for Stable E 5.0分前50% #世界模型 36. AllocMV: Optimal Resource Allocation for Music Video Ge 4.8分前50% #音乐视频生成 37. Multi-layer attentive probing improves transfer of audi 4.0分中等偏上 #生物声学 #音频分类 38. Drum Synthesis from Expressive Drum Grids via Neural Au 4.0分前50% #音乐生成 39. Voice Biomarkers for Depression and Anxiety 1.0分后50% #语音生物标志物 📋 论文列表 🥇 Polyphonia: Zero-Shot Timbre Transfer in Polyphonic Music with Acoustic-Informed Attention Calibration ✅ 7.5/10 | 前30% | #音乐生成 | #扩散模型 | #注意力机制 #零样本 | arxiv ...

Asymmetric Phase Coding Audio Watermarking

📄 Asymmetric Phase Coding Audio Watermarking #音频水印 #音频安全 #信号处理 #鲁棒性 ✅ 7.0/10 | #音频水印 #音频安全 | arxiv 👥 作者与机构第一作者：Guang Yang (University of California, Los Angeles) 通讯作者：未说明作者列表：Guang Yang (University of California, Los Angeles), Amir Ghasemian (University of California, Los Angeles), Ninareh Mehrabi (Meta), Homa Hosseinmardi (University of California, Los Angeles) 💡 毒舌点评亮点：该工作成功地将公钥密码学（Ed25519签名）与信号处理（相位编码、QIM）结合，提出了一种无需训练、可解释且具有不可否认性的音频水印方案，填补了传统信号水印缺乏认证能力和神经网络水印需训练且易伪造的空白。短板：其核心方法“相位编码”并非全新，与已有相位编码水印（论文也承认了）的区分度主要体现在结合了公钥签名和更精细的鲁棒性设计上，且为获得鲁棒性牺牲了相当可观的主观音质（PESQ下降约0.5），在“不可感知”这一水印关键指标上存在明显妥协。 📌 核心摘要问题：深度伪造音频威胁语音认证，被动检测器易受生成模型演化和信道失真影响。现有音频水印方案要么缺乏密码学不可否认性（如经典方法），要么需要大量数据训练且验证长度短（如神经网络方法）。方法核心：提出非对称相位编码（APC）方案。它是一个免训练的密码学签名层，通过伪随机选择STFT相位频点（相位通道）和相邻对数幅度差量化（幅度-QIM通道）并行嵌入同一个经Ed25519签名、Reed-Solomon编码的1160比特负载（包含64字节签名）。提取时利用公钥重新生成频点并解码，任一通道验证通过即认证成功。与已有方法区别：相较于经典信号处理水印，APC通过集成公钥签名实现了密码学级别的非否认性。相较于神经网络水印（AudioSeal, WavMark），APC免训练、无模型依赖、行为确定性，并支持完整的非对称签名（64字节 vs 16-32位），但牺牲了部分音质和绝对鲁棒性。主要实验结果：在1000条LibriSpeech测试集上，经MP3/OGG 128kbps等8种攻击后，混合编码器的密码验证率保持在97.5%-98.3%（详见下表）。主观质量（PESQ）平均为3.02，低于神经网络基线约1.2-1.5点。白盒擦除攻击表明，验证率在相位随机化强度α≥0.5时才崩溃，此时PESQ已下降1.3点。攻击类型验证率 (%) PESQ 无处理 98.3 3.02 MP3 128kbps 97.5 3.02 OGG 128kbps 97.5 3.03 FLAC 98.0 3.02 重采样16kHz 97.7 3.02 8kHz低通 97.7 3.03 截断10% 98.3 2.28 截断20% 98.1 1.80 实际意义：为C2PA等媒体来源标准提供了信号层面的可审计实现，尤其适用于捕获时签名、后续可能经历有损压缩的场景。它可作为神经网络水印的补充层，为其添加密码学签名。主要局限性：1) 为鲁棒性妥协了音质（PESQ 3.02）。2) 目前仅在单一数据集（LibriSpeech）上评估，且未考虑更复杂的攻击链（如模拟空洞、完整平台转码）。3) 未与所有最强神经网络水印在完全相同的测试条件下进行端到端的签名负载对比。 🔗 开源详情代码：论文中明确表示将为用于论文的混合相位+幅度量化索引调制（QIM）编码器发布所有代码、密钥和元数据，但未提供具体的 GitHub 等代码仓库链接。模型权重：论文中未提及。该方法为“无训练”方法，不涉及模型权重发布。数据集：使用 LibriSpeech test-clean 数据集。论文未直接提供数据集链接，但该数据集为公开的常用语音数据集，常见获取地址为：https://huggingface.co/datasets/openslr/librispeech_asr 。 Demo：论文中未提及在线演示链接。复现材料：论文中明确表示发布的归档文件包含两个编码器（相位编码器和混合编码器）、负载管理器、八攻击基准测试驱动器、白盒擦除攻击、绘图脚本、精确的测试集文件路径列表（seed=42）、负载哈希、公钥、所有 STFT/QIM 参数、FFmpeg 调用命令、库版本以及每个样本的失败阶段标签，并以三个 JSON 信封形式发布。但未提供该归档文件的具体下载链接。论文中引用的开源项目： C2PA (Coalition for Content Provenance and Authenticity)：论文引用了其实施指南[3]，并将其作为 APC 方法的目标应用场景。C2PA 项目主页为：https://c2pa.org/，其 GitHub 仓库为：https://github.com/contentauth 。论文还引用了 WavMark [5]、AudioSeal [22]、SilentCipher [24] 等作为神经网络水印基线方法，但论文中未提供这些项目或代码的具体链接。 🏗️ 方法概述和架构该论文提出了一个名为非对称相位编码（Asymmetric Phase Coding， APC）的免训练音频水印框架。其核心是一个端到端的混合信号处理流水线，旨在将完整的公钥密码学签名不可感知地嵌入音频波形中，实现内容认证。 ...