信号处理 | 语音/音乐/音频论文速递

Low-Cost Detection of Degraded Voice Clones via Source-Output Acoustic Consistency

📄 Low-Cost Detection of Degraded Voice Clones via Source-Output Acoustic Consistency #语音伪造检测 #语音质量评估 #信号处理 #医疗音频 📝 5.3/10 | 前50% | #语音伪造检测 | #信号处理 | #语音质量评估 #医疗音频 | arxiv 学术质量 5.3/8 | 影响力 0.4/2 | 可复现性 0.3/1 | 置信度高 👥 作者与机构第一作者：Jana Shokr 通讯作者：论文中未明确说明通讯作者作者列表：Jana Shokr, Minos Papadopoulos, Jeremy Cooperstock, Pavo Orepic（论文中未提及任何作者机构信息） 💡 毒舌点评这篇论文精准地瞄准了临床AVATAR疗法中一个真实且关键的痛点：需要快速剔除明显劣质的合成语音以保护治疗沉浸感，并提出了一个逻辑自洽、物理可解释的检测框架。然而，其核心短板在于实验的“小作坊”规模（总共仅94个样本）和与时代脱节的评估方式——在学习型方法层出不穷的今天，仅用两个简单特征和阈值与“人类标签”对比，缺乏与任何现有语音质量评估或伪造检测模型的基准较量，说服力大打折扣。 📌 核心摘要本文针对临床语音治疗（如AVATAR疗法）中需要快速、自动检测明显劣质的声音克隆输出这一实际问题，提出了一种低成本的检测方法。核心方法是基于语音生成的源-滤波器模型，检验合成输出与输入声源在几个低维、可解释的声学特征上的一致性，具体使用了基频（f0）、谐波噪声比（HNR）和声道长度（VTL）。研究者在人类标注的、由两种不同声码器（WaveRNN和HiFi-GAN）生成的合成语音样本上，采用了一种非对称阈值分类方法进行评估。实验结果显示，在WaveRNN上，f0和HNR均达到85.2%的准确率；在HiFi-GAN上，HNR达到80.0%的准确率，f0为77.5%。分析表明，f0和HNR能捕获部分不同的失效模式，具有互补性。该研究的实际意义在于为高风险应用场景提供了一种快速、可解释的第一道过滤器，以提升系统的可靠性。主要局限性包括数据集规模较小、特征集有限，且未与更复杂的自动化质量预测模型进行直接对比。特征声码器负阈值正阈值准确率(%) 敏感性(%) 特异性(%) TP TN FP FN f0 WaveRNN -11.2 32.6 85.2 82.0 89.0 22 24 3 5 HNR WaveRNN -1.7 1.2 85.2 82.0 89.0 22 24 3 5 VTL WaveRNN -1.4 10.7 64.8 60.0 70.0 16 19 8 11 f0 HiFi-GAN -19.3 50.1 77.5 60.0 95.0 12 19 1 8 HNR HiFi-GAN -0.9 3.4 80.0 90.0 70.0 18 14 6 2 VTL HiFi-GAN -1.0 8.7 67.5 65.0 70.0 13 14 6 7 图1展示了f0, HNR, VTL三个特征在输入-输出空间中的分布。图中清晰显示，标记为“Good”的样本（蓝色）紧密围绕在恒等线（y=x）周围，而“Bad”样本（橙色）则更多地分布在优化后的阈值带之外，直观地证明了所选特征区分好坏样本的能力。 ...

ShipEcho -- An Interactive Tool for Global Mapping of Underwater Radiated Noise from Vessels

📄 ShipEcho – An Interactive Tool for Global Mapping of Underwater Radiated Noise from Vessels #水下声学 #声源定位 #信号处理 #开源工具 #地理信息系统 #环境管理 ✅ 6.0/10 | 前25% | #水下声学 | #系统集成 | #声源定位 #信号处理 | arxiv 学术质量 6.0/8 | 影响力 2.0/2 | 可复现性 0.5/1 | 置信度中 👥 作者与机构第一作者：Mark Shipton（海法大学 Charney 海洋科学学院）通讯作者：Roee Diamant（海法大学 Charney 海洋科学学院）作者列表：Mark Shipton（海法大学 Charney 海洋科学学院）、Valentino Denona（萨格勒布大学电气工程与计算学院）、Đula Nađ（萨格勒布大学电气工程与计算学院；CoE MARBLE）、Roee Diamant（海法大学 Charney 海洋科学学院） 💡 毒舌点评这篇论文的核心贡献是工程集成与交互设计，而非声学算法的创新。它将已知的源级（SL）模型、传播模型和开源环境数据，通过一个精心设计的Web-GIS框架整合成一个免费、可交互的工具，显著降低了水下辐射噪声（V-URN）管理应用的门槛。其价值在于可访问性、透明性（支持多模型比较）和管理工具集成（如MPA叠加和场景模拟）。然而，作为一篇发表的论文，其验证部分严重不足（单点、短期），且对核心组件（如传播模型参数、组合模型策略）的选择缺乏严谨的分析或消融研究，使得其“全球映射”的宣称更多是一种架构能力而非经过验证的精度保证。论文的“方法”章节实质上是系统设计文档，对于追求算法新颖性的顶会而言，贡献维度较为狭窄。 📌 核心摘要本文提出了ShipEcho，一个基于Web的地理信息系统（GIS）工具，旨在解决当前船舶水下辐射噪声（V-URN）映射中空间稀疏、数据昂贵、工作流复杂等问题。其核心方法是通过系统集成，将社区共享的船舶自动识别系统（AIS）数据、多种开源源级（SL）预测模型（RANDI 3.1, JOMOPANS-ECHO, LBDS, AQUO, SRV）以及基于环境数据（水深、声速剖面）的高斯射线追踪（GRT）传播模型整合进一个标准化、可交互的数据管道，用于生成近实时（SPL）和累积（SEL）噪声地图。相较于静态报告或封闭平台，ShipEcho的新颖性在于提供了一个免费、开放的探索环境，允许用户交互选择和比较不同SL模型的影响，并可叠加海洋保护区（MPA）边界进行评估。实验验证仅限于在Haifa港口一个点位、两天的数据对比：ShipEcho估算的63 Hz日累计声暴露级（SEL）与实测值吻合较好（差异<4 dB），但在125 Hz和20-2000 Hz频带存在系统性低估（差异在-8.26 dB至-2.14 dB之间），论文将此归因于模型仅估计AIS追踪船舶噪声，而实测包含完整声景。应用案例展示了在克罗地亚Jabuka盆地MPA中，模拟将周边20km内船舶限速11节可使MPA内每周平均SEL下降超过10 dB。该工具的价值在于为海洋空间规划和噪声缓解策略制定提供了一个透明、可重复的决策支持平台，但其精度和可靠性严重受限于AIS完整性、SL模型普适性及传播模型的简化假设。 ...

Single-Microphone Audio Point Source Discriminative Localization From Reverberation Late Tail Estimation

📄 Single-Microphone Audio Point Source Discriminative Localization From Reverberation Late Tail Estimation #声源定位 #说话人分离 #信号处理 #混响 #单麦克风 📝 5.0/10 | 前50% | #说话人分离 | #信号处理 | #声源定位 #混响 | arxiv 学术质量 5.0/8 | 影响力 1.0/2 | 可复现性 0.5/1 | 置信度高 👥 作者与机构第一作者：Matthew Maciejewski（论文中未说明所属机构）通讯作者：未说明作者列表：Matthew Maciejewski（论文中未说明所属机构） 💡 毒舌点评本文提出一个颇具巧思的信号处理框架，将成熟的WPE去混响滤波器“废物利用”，从“去噪工具”转变为“声源指纹提取器”，用于单麦克风声源区分。然而，其核心假设（准静态声源）在真实动态场景（如AMI数据集）下的崩溃是方法的阿喀琉斯之踵，导致性能急剧下降。尽管论文指出了与声纹方法的互补潜力，但未进行融合实验，使得这一“潜力”停留在推测层面，整体贡献在信号处理领域有一定新颖性，但实用价值受限。 📌 核心摘要要解决什么问题：在仅使用单个麦克风的条件下，判断两个音频片段是否来自同一空间点源位置（定位判别），并将其应用于说话人分离（Diarization）任务。方法核心是什么：利用加权预测误差（WPE）去混响算法估计的滤波器矩阵G作为声源位置的“特征指纹”。其核心洞察是，WPE旨在估计的房间混响晚期尾部（Late Tail）对房间整体声学特性敏感，但对声源和麦克风的具体相对位置“相对不变”（relatively invariant）。因此，两个不同位置的WPE滤波器在幅度上应存在一个缩放关系，在相位上应反映时延差。与已有方法相比新在哪里：不同于依赖麦克风阵列的时延估计（TDOA）或多麦克风信号相关性的传统方法，也区别于基于深度学习的声纹识别方法，本文首次提出利用单通道WPE滤波器的统计特性（通过估计其幅度比和相位差）来推断声源位置的同一性。这是一种基于信号处理的概率判别新范式。主要实验结果如何：在合成数据集Linear WHAMR!上，方法（WPE-Loc.+LDA）的说话人分离错误率（DER）为7.78%，接近使用xvector的基线（3.60%）。在真实会议场景LibriCSS上，DER为24.82%，与xvector基线（19.36%）的差距约为5.5%。但在更真实的AMI移动说话人数据集上，对完整30分钟录音进行处理时，性能显著下降（DER为60.57%）；通过将其切分为30秒片段独立处理后，DER降至33.44%，但仍不及xvector基线（23.55%）。关键实验结果表格如下：系统 Linear WHAMR! (nspk clust.) LibriCSS (nspk clust.) AMI (nspk clust.) AMI (30s chunks) WPE-Loc. mag. only 26.71 71.00 60.67 38.29 WPE-Loc. delay only 4.95 31.20 60.60 34.53 WPE-Loc. w/o LDA 7.48 25.90 60.64 33.55 WPE-Loc.+LDA 7.78 24.82 60.57 33.44 xvec.+PLDA 3.60 19.36 33.15 23.55 random baseline 50.89 88.74 74.10 60.31 实际意义是什么：为单麦克风设备（如手机、智能音箱）在无法使用阵列时实现基础的空间感知和声源分割提供了一种纯信号处理的解决方案。论文通过实验证明了其与基于深度学习的声纹识别方法（xvector）性能的低相关性，表明二者利用了互补的信息维度，为多线索融合提升鲁棒性提供了理论依据。主要局限性：方法严重依赖声源位置准静态的假设，在说话人移动场景下性能急剧下降；需要较长的分析窗口（约4秒）以获得稳定的WPE滤波器估计，限制了时间分辨率和实时性；在重叠语音情况下的性能未被充分评估和分析；与声纹方法的融合潜力未通过实验验证。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及。数据集： Linear WHAMR!：该数据集是从WHAMR!数据集派生而来。原始的WHAMR!数据集可从其官方来源获取：https://whamr.github.io/。Linear WHAMR!的具体使用方式在论文中有描述，但未提供独立的数据集下载链接。 LibriCSS：该数据集的官方仓库和下载信息请访问：https://github.com/jsalt-ic/LibriCSS。 AMI Meeting Corpus：该数据集可通过其官方网站获取：https://groups.inf.ed.ac.uk/ami/corpus/。 Demo：论文中未提及。复现材料：论文中未提及（论文未提供训练配置、检查点或附录等补充材料）。论文中引用的开源项目： Weighted Prediction Error (WPE)：作为论文的核心方法之一，WPE是一个成熟的去混响算法。其Python实现可在以下GitHub仓库中找到：https://github.com/fgnt/wpe。 WHAMR! 数据集：用于创建Linear WHAMR!数据集的源数据集，是一个用于语音分离的开源数据集，详情见https://whamr.github.io/。 xvector 系统：论文中用于基准测试的xvector说话人嵌入系统，是一个公开可用的ReNet-101系统（在VoxCeleb1, VoxCeleb2, 和CN-Celeb上训练）。论文中说明其为“公开可用”系统，但未提供具体的代码仓库链接。 🏗️ 方法概述和架构该论文提出了一种基于统计推断的框架，用于判断从同一房间单个麦克风录制的两段音频是否来自同一空间位置。其核心思想是将WPE去混响算法中的滤波器系数矩阵G视为一种隐式的、与声源位置相关的“特征”，并通过比较两组滤波器来计算它们源于同一位置的似然比。 ...

语音/音乐/音频论文速递 2026-05-12

语音/音乐/音频论文速递 2026-05-12 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 3篇 ███ #音乐生成 2篇 ██ #语音合成 2篇 ██ #语音增强 2篇 ██ #音频深度伪造检测 2篇 ██ #基准测试 2篇 ██ #语音质量评估 1篇 █ #音频编码 1篇 █ 📊 论文评分排行榜（39 篇，按分数降序）排名论文评分分档主任务 🥇 Polyphonia: Zero-Shot Timbre Transfer in Polyphonic Mus 7.5分前30% #音乐生成 🥈 PoDAR: Power-Disentangled Audio Representation for Gene 7.3分前25% #语音合成 🥉 Evaluating the Expressive Appropriateness of Speech in 7.2分前25% #语音质量评估 4. Reducing Linguistic Hallucination in LM-Based Speech En 7.2分前25% #语音增强 5. Encoding and Decoding Temporal Signals with Spiking Ban 7.0分前25% #音频编码 6. Mitigating Multimodal Inconsistency via Cognitive Dual- 7.0分前50% #意图识别 7. SF-Flow: Sound field magnitude estimation via flow matc 6.8分前25% #空间音频 8. Probing Cross-modal Information Hubs in Audio-Visual LL 6.5分前25% #模型分析 9. Towards Trustworthy Audio Deepfake Detection: A Systema 6.5分前25% #音频深度伪造检测 10. Unison: Harmonizing Motion, Speech, and Sound for Human 6.5分前30% #音视频生成 11. CORTEG: Foundation Models Enable Cross-Modality Represe 6.5分前25% #脑机接口 12. Omni-Persona: Systematic Benchmarking and Improving Omn 6.5分前25% #基准测试 13. DiffVQE: Hybrid Diffusion Voice Quality Enhancement Und 6.2分前30% #语音增强 14. A Cold Diffusion Approach for Percussive Dereverberatio 6.2分前35% #音频修复 15. APEX: Audio Prototype EXplanations for Classification T 6.2分前25% #音频分类 16. How Should LLMs Listen While Speaking? A Study of User- 6.0分前25% #语音对话系统 17. RADAR Challenge 2026: Robust Audio Deepfake Recognition 6.0分前50% #音频深度伪造检测 18. ShipEcho – An Interactive Tool for Global Mapping of U 6.0分前25% #水下声学 19. Rethinking Entropy Minimization in Test-Time Adaptation 6.0分前40% #语音识别 20. Separate First, Fuse Later: Mitigating Cross-Modal Inte 6.0分前50% #音视频问答 21. ChladniSonify: A Visual-Acoustic Mapping Method for Chl 6.0分前50% #音频生成 22. Omni-DeepSearch: A Benchmark for Audio-Driven Omni-Moda 6.0分前25% #基准测试 23. Online Segmented Beamforming via Dynamic Programming 6.0分前25% #声源定位 24. FLARE: Full-Modality Long-Video Audiovisual Retrieval B 6.0分前25% #音频检索 25. Speech-based Psychological Crisis Assessment using LLMs 5.8分前25% #语音情感识别 26. EAR: Enhancing Uni-Modal Representations for Weakly Sup 5.8分前25% #音频事件检测 27. Kinetic-Optimal Scheduling with Moment Correction for M 5.5分前50% #语音合成 28. Dolphin-CN-Dialect: Where Chinese Dialects Matter 5.5分前50% #语音识别 29. Latent Secret Spin: Keyed Orthogonal Rotations for Blin 5.5分前50% #音频水印 30. Bangla-WhisperDiar: Fine-Tuning Whisper and PyAnnote fo 5.5分前50% #语音识别 #说话人日志 31. Remix the Timbre: Diffusion-Based Style Transfer Across 5.5分前30% #音色迁移 32. Low-Cost Detection of Degraded Voice Clones via Source- 5.3分前50% #语音伪造检测 33. Single-Microphone Audio Point Source Discriminative Loc 5.0分前50% #说话人分离 34. Responsible Benchmarking of Fairness for Automatic Spee 5.0分前50% #语音识别 35. Sub-JEPA: Subspace Gaussian Regularization for Stable E 5.0分前50% #世界模型 36. AllocMV: Optimal Resource Allocation for Music Video Ge 4.8分前50% #音乐视频生成 37. Multi-layer attentive probing improves transfer of audi 4.0分中等偏上 #生物声学 #音频分类 38. Drum Synthesis from Expressive Drum Grids via Neural Au 4.0分前50% #音乐生成 39. Voice Biomarkers for Depression and Anxiety 1.0分后50% #语音生物标志物 📋 论文列表 🥇 Polyphonia: Zero-Shot Timbre Transfer in Polyphonic Music with Acoustic-Informed Attention Calibration ✅ 7.5/10 | 前30% | #音乐生成 | #扩散模型 | #注意力机制 #零样本 | arxiv ...

Asymmetric Phase Coding Audio Watermarking

📄 Asymmetric Phase Coding Audio Watermarking #音频水印 #音频安全 #信号处理 #鲁棒性 ✅ 7.0/10 | #音频水印 #音频安全 | arxiv 👥 作者与机构第一作者：Guang Yang (University of California, Los Angeles) 通讯作者：未说明作者列表：Guang Yang (University of California, Los Angeles), Amir Ghasemian (University of California, Los Angeles), Ninareh Mehrabi (Meta), Homa Hosseinmardi (University of California, Los Angeles) 💡 毒舌点评亮点：该工作成功地将公钥密码学（Ed25519签名）与信号处理（相位编码、QIM）结合，提出了一种无需训练、可解释且具有不可否认性的音频水印方案，填补了传统信号水印缺乏认证能力和神经网络水印需训练且易伪造的空白。短板：其核心方法“相位编码”并非全新，与已有相位编码水印（论文也承认了）的区分度主要体现在结合了公钥签名和更精细的鲁棒性设计上，且为获得鲁棒性牺牲了相当可观的主观音质（PESQ下降约0.5），在“不可感知”这一水印关键指标上存在明显妥协。 📌 核心摘要问题：深度伪造音频威胁语音认证，被动检测器易受生成模型演化和信道失真影响。现有音频水印方案要么缺乏密码学不可否认性（如经典方法），要么需要大量数据训练且验证长度短（如神经网络方法）。方法核心：提出非对称相位编码（APC）方案。它是一个免训练的密码学签名层，通过伪随机选择STFT相位频点（相位通道）和相邻对数幅度差量化（幅度-QIM通道）并行嵌入同一个经Ed25519签名、Reed-Solomon编码的1160比特负载（包含64字节签名）。提取时利用公钥重新生成频点并解码，任一通道验证通过即认证成功。与已有方法区别：相较于经典信号处理水印，APC通过集成公钥签名实现了密码学级别的非否认性。相较于神经网络水印（AudioSeal, WavMark），APC免训练、无模型依赖、行为确定性，并支持完整的非对称签名（64字节 vs 16-32位），但牺牲了部分音质和绝对鲁棒性。主要实验结果：在1000条LibriSpeech测试集上，经MP3/OGG 128kbps等8种攻击后，混合编码器的密码验证率保持在97.5%-98.3%（详见下表）。主观质量（PESQ）平均为3.02，低于神经网络基线约1.2-1.5点。白盒擦除攻击表明，验证率在相位随机化强度α≥0.5时才崩溃，此时PESQ已下降1.3点。攻击类型验证率 (%) PESQ 无处理 98.3 3.02 MP3 128kbps 97.5 3.02 OGG 128kbps 97.5 3.03 FLAC 98.0 3.02 重采样16kHz 97.7 3.02 8kHz低通 97.7 3.03 截断10% 98.3 2.28 截断20% 98.1 1.80 实际意义：为C2PA等媒体来源标准提供了信号层面的可审计实现，尤其适用于捕获时签名、后续可能经历有损压缩的场景。它可作为神经网络水印的补充层，为其添加密码学签名。主要局限性：1) 为鲁棒性妥协了音质（PESQ 3.02）。2) 目前仅在单一数据集（LibriSpeech）上评估，且未考虑更复杂的攻击链（如模拟空洞、完整平台转码）。3) 未与所有最强神经网络水印在完全相同的测试条件下进行端到端的签名负载对比。 🔗 开源详情代码：论文中明确表示将为用于论文的混合相位+幅度量化索引调制（QIM）编码器发布所有代码、密钥和元数据，但未提供具体的 GitHub 等代码仓库链接。模型权重：论文中未提及。该方法为“无训练”方法，不涉及模型权重发布。数据集：使用 LibriSpeech test-clean 数据集。论文未直接提供数据集链接，但该数据集为公开的常用语音数据集，常见获取地址为：https://huggingface.co/datasets/openslr/librispeech_asr 。 Demo：论文中未提及在线演示链接。复现材料：论文中明确表示发布的归档文件包含两个编码器（相位编码器和混合编码器）、负载管理器、八攻击基准测试驱动器、白盒擦除攻击、绘图脚本、精确的测试集文件路径列表（seed=42）、负载哈希、公钥、所有 STFT/QIM 参数、FFmpeg 调用命令、库版本以及每个样本的失败阶段标签，并以三个 JSON 信封形式发布。但未提供该归档文件的具体下载链接。论文中引用的开源项目： C2PA (Coalition for Content Provenance and Authenticity)：论文引用了其实施指南[3]，并将其作为 APC 方法的目标应用场景。C2PA 项目主页为：https://c2pa.org/，其 GitHub 仓库为：https://github.com/contentauth 。论文还引用了 WavMark [5]、AudioSeal [22]、SilentCipher [24] 等作为神经网络水印基线方法，但论文中未提供这些项目或代码的具体链接。 🏗️ 方法概述和架构该论文提出了一个名为非对称相位编码（Asymmetric Phase Coding， APC）的免训练音频水印框架。其核心是一个端到端的混合信号处理流水线，旨在将完整的公钥密码学签名不可感知地嵌入音频波形中，实现内容认证。 ...

语音/音乐/音频论文速递 2026-05-11

语音/音乐/音频论文速递 2026-05-11 共分析 12 篇论文 ⚡ 今日概览 📥 抓取 12 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #基准测试 1篇 █ #跨模态 1篇 █ #语音匿名化 1篇 █ #音频水印 1篇 █ #语音对话系统 1篇 █ #说话人识别 1篇 █ #脑机接口 1篇 █ #生物声学 1篇 █ 📊 论文评分排行榜（12 篇，按分数降序）排名论文评分分档主任务 🥇 Do Joint Audio-Video Generation Models Understand Physi 7.5分前50%(Accept级) #基准测试 🥈 Anisotropic Modality Align 7.5分前25%(Strong Accept级) #跨模态 🥉 Evaluating voice anonymisation using similarity rank di 7.0分前50%(Accept级) #语音匿名化 4. Asymmetric Phase Coding Audio Watermarking 7.0分前50%(Accept级) #音频水印 5. MIST: Multimodal Interactive Speech-based Tool-calling 7.0分前50%(Accept级) #语音对话系统 6. TARNet: A Temporal-Aware Multi-Scale Architecture for C 7.0分前25%(Strong Accept级) #说话人识别 7. Zero-Shot Imagined Speech Decoding via Imagined-to-List 6.5分前25%(Strong Accept级) #脑机接口 8. BeeVe: Unsupervised Acoustic State Discovery in Honey B 6.5分前50%(Accept级) #生物声学 9. A Decomposed Retrieval-Edit-Rerank Framework for Chord 6.5分前50%(Accept级) #音乐生成 10. Adaptive Regularization for Sparsity Control in Bregman 6.5分后50%(Reject级) #说话人验证 11. Sparse Autoencoders as Plug-and-Play Firewalls for Adve 6.5分前50%(Accept级) #对抗样本 12. Dependence on Early and Late Reverberation of Single-Ch 6.0分后50%(Reject级) #说话人距离估计 📋 论文列表 🥇 Do Joint Audio-Video Generation Models Understand Physics? ✅ 7.5/10 | 前50%(Accept级) | #基准测试 | #模型评估 | #音视频 #跨模态 | arxiv ...

LiVeAction: a Lightweight, Versatile, and Asymmetric Neural Codec Design for Real-time Operation

📄 LiVeAction: a Lightweight, Versatile, and Asymmetric Neural Codec Design for Real-time Operation #多模态压缩 #神经网络编解码器 #实时处理 #边缘计算 #信号处理 🔥 8.5/10 | 前25% | #多模态压缩 | #神经网络编解码器 | #实时处理 #边缘计算 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Dan Jacobellis (University of Texas at Austin) 通讯作者：Neeraja J. Yadwadkar (University of Texas at Austin) 作者列表：Dan Jacobellis (University of Texas at Austin), Neeraja J. Yadwadkar (University of Texas at Austin) 💡 毒舌点评这篇论文最漂亮的地方是它毫不含糊地实现了承诺：把编解码器塞进低功耗设备里跑，而且还能处理从音频到3D医学图像的“花式”数据。但尴尬的是，它的“通用性”主要体现在对网格化信号的处理上，对于真正的非结构化数据（如点云、图信号）的通用性并未在论文中得到验证，有点“避重就轻”的嫌疑。此外，简化率惩罚依赖于潜变量分布为指数族的假设，在复杂分布下可能次优。 ...

语音/音乐/音频论文速递 2026-05-08

语音/音乐/音频论文速递 2026-05-08 共分析 23 篇论文 ⚡ 今日概览 📥 抓取 23 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #多模态压缩 1篇 █ #语音增强 1篇 █ #音频事件检测 1篇 █ #语音大模型 1篇 █ #语音克隆 1篇 █ #语音情感识别 1篇 █ #语音生成 1篇 █ #数据集 1篇 █ 📊 论文评分排行榜（23 篇，按分数降序）排名论文评分分档主任务 🥇 LiVeAction: a Lightweight, Versatile, and Asymmetric Ne 8.5分前25% #多模态压缩 🥈 Predictive-Generative Drift Decomposition for Speech En 8.5分前25% #语音增强 🥉 MultiLinguahah : A New Unsupervised Multilingual Acoust 8.5分前25% #音频事件检测 4. Minimizing Modality Gap from the Input Side: Your Speec 8.0分前25% #语音大模型 5. X-Voice: Enabling Everyone to Speak 30 Languages via Ze 8.0分前25% #语音克隆 6. Modality-Aware Contrastive and Uncertainty-Regularized 8.0分前25% #语音情感识别 7. WavCube: Unifying Speech Representation for Understandi 7.5分前25% #语音生成 8. PianoCoRe: Combined and Refined Piano MIDI Dataset 7.5分前25% #数据集 9. Do Melody and Rhythm Coevolve? 7.5分前25% #音乐认知 10. Automated Clinical Report Generation for Remote Cogniti 7.5分扎实工作，位于前列 #临床报告生成 11. Linear Semantic Segmentation for Low-Resource Spoken Di 7.5分前25% #语义分割 12. Edge-specific signal propagation on mature chromophore- 7.5分前25% #蛋白质工程 13. Cross-Modal Navigation with Multi-Agent Reinforcement L 7.5分前25% #具身导航 14. Pro-KLShampoo: Projected KL-Shampoo with Whitening Reco 7.5分前25% #大语言模型 15. Optimal Transport Audio Distance with Learned Riemannia 7.0分前10% #音频质量评估 16. PairAlign: A Framework for Sequence Tokenization via Se 7.0分前25% #音频编码 17. Topological Signatures of Grokking 7.0分前25% #模型可解释性 18. Task-Aware Answer Preservation under Audio Compression 6.5分前25% #音频问答 19. NDF+: Joint Neural Directional Filtering and Diffuse So 6.5分前30% #空间音频 20. Quantum Kernels for Audio Deepfake Detection Using Spec 6.5分前50% #音频深度伪造检测 21. More Than Can Be Said: A Benchmark and Framework for Pr 6.5分前25% #基准测试 22. PersonaKit (PK): A Plug-and-Play Platform for User Test 6.0分前50% #全双工对话系统评估 23. Preliminary Insights in Chronos Frequency Data Understa 6.0分前25% #模型评估 📋 论文列表 🥇 LiVeAction: a Lightweight, Versatile, and Asymmetric Neural Codec Design for Real-time Operation 🔥 8.5/10 | 前25% | #多模态压缩 | #神经网络编解码器 | #实时处理 #边缘计算 | arxiv ...

Adaptive Diagonal Loading for Norm Constrained Beamforming

📄 Adaptive Diagonal Loading for Norm Constrained Beamforming #波束成形 #信号处理 #麦克风阵列 #鲁棒性 #自适应信号处理 ✅ 7.0/10 | 前25% | #波束成形 | #信号处理 | #麦克风阵列 #鲁棒性 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Manan Mittal（机构未说明）通讯作者：未说明作者列表：Manan Mittal（机构未说明）、Ryan M. Corey（机构未说明）、John R. Buck（机构未说明）、Andrew C. Singer（机构未说明） 💡 毒舌点评亮点在于将经典的对角加载问题提升到了具有严格数学保证的层面，通过Kantorovich不等式为白噪声增益（WNG）提供了确定性的理论边界，工程实用性很强；但计算复杂度从O(M)到O(M³)的谱系虽然覆盖全面，却可能让实时系统在精度和算力间纠结，且仿真场景（15元ULA，1kHz窄带）与论文宣称的“大型麦克风阵列”和“高动态声学环境”相比仍显单薄。 📌 核心摘要这篇论文旨在解决自适应波束形成在快变干扰和样本不足（snapshot-deficient）场景下，因空间相关矩阵（SCM）病态导致的目标信号自消除问题。其核心方法是提出一种自适应对角加载技术，通过Kantorovich不等式建立白噪声增益（WNG）与SCM条件数之间的严格数学映射，从而将对加载水平μ的选取转化为对矩阵条件数的显式约束。与传统固定或启发式加载方法不同，该方法能保证WNG始终不低于预设阈值，并从理论上推导出所需的最小加载量。论文提出了三种计算复杂度可选（O(M), O(M²), O(M³)）的特征值边界估计方法（Trace、Gershgorin、Exact EVD）来实现这一约束。实验在15元均匀线阵的快变“出生-死亡”干扰场景下进行，结果显示，Exact EVD和Gershgorin模式在输出SINR上接近“全知”基准（约比Cox方法高数dB），且所有提出方法均将WNG稳定约束在8.76 dB以上。该方法的意义在于为鲁棒波束形成提供了一个具有可证明性能保证的自适应调节框架。其局限性在于计算开销（尤其是EVD模式）以及仿真验证的场景规模和复杂性有待进一步扩展。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及数据集：论文中未提及（模拟中使用的数据为论文作者自行生成，未提供公开链接或数据集名称） Demo：论文中未提及复现材料：论文中未提及（文中详细描述了仿真设置，包括阵列参数、场景配置、窗长等，但未提供具体的代码、配置文件或检查点）论文中引用的开源项目：未提及 🏗️ 模型架构本文并非提出一个神经网络模型，而是提出一种用于改进传统自适应波束形成器（MPDR/GSC）信号处理流程的自适应参数调节算法。其核心数据流与处理流程如下： ...

Hearing the Ocean: Bio-inspired Gammatone-CNN framework for Robust Underwater Acoustic Target Classification

📄 Hearing the Ocean: Bio-inspired Gammatone-CNN framework for Robust Underwater Acoustic Target Classification #音频分类 #信号处理 #时频分析 #实时处理 #水下声学 ✅ 7.5/10 | 前25% | #音频分类 | #信号处理 | #时频分析 #实时处理 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Rajeshwar Tripathi (Central Research Laboratory, Bharat Electronics Limited, Ghaziabad, India) 通讯作者：未说明作者列表：Rajeshwar Tripathi (Central Research Laboratory, Bharat Electronics Limited, Ghaziabad, India)、Sandeep Kumar (Central Research Laboratory, Bharat Electronics Limited, Ghaziabad, India)、Monika Aggarwal (Centre for Applied Research in Electronics (CARE), IIT Delhi, India)、Neel Kanth Kundu (Centre for Applied Research in Electronics (CARE), IIT Delhi, India) 💡 毒舌点评亮点：论文清晰地论证并验证了“信号表示质量是决定性能上限的关键”这一观点，其生物启发的Gammatone前端在保持极低计算开销（0.77ms延迟）的前提下，显著优于传统线性和多分辨率特征，为资源受限的边缘声纳部署提供了切实可行的方案。短板：创新性更多体现在技术整合与领域迁移，而非Gammatone滤波器本身的原理突破；虽然在VTUAD数据集上表现优异，但验证仅限于单一公开数据集，其泛化能力至更复杂的真实海洋环境仍需更多证据。 ...