信号处理 | 语音/音乐/音频论文速递

Physics-Based iOCT Sonification for Real-time Interaction Awareness in Subretinal Injection

📄 Physics-Based iOCT Sonification for Real-time Interaction Awareness in Subretinal Injection #医疗音频 #信号处理 #实时处理 #音频事件检测 #跨模态 ✅ 6.5/10 | 前40% | #医疗音频 | #信号处理 | #实时处理 #音频事件检测 | arxiv 学术质量 5.4/8 | 影响力 0.6/1 | 可复现性 0.5/1 | 置信度高 👥 作者与机构第一作者：Luis D. Reyes Vargas (Technical University of Munich, Computer Aided Medical Procedures) 通讯作者：Luis D. Reyes Vargas (邮箱 luis.reyes@tum.de 明确标识为通讯作者) 作者列表：Luis D. Reyes Vargas (Technical University of Munich, Computer Aided Medical Procedures)，Veronica Ruozzi (未说明机构)，Andrea K. M. Ross (Rotterdam Eye Hospital)，Shervin Dehghani (Technical University of Munich, TUM Klinikum Rechts der Isar)，Michael Sommersperger (Technical University of Munich, Computer Aided Medical Procedures)，Koorosh Faridpooya (未说明机构)，Mohammad Ali Nasseri (Technical University of Dresden, Centre for Tactile Internet with Human-in-the-Loop)，Merle Fairhurst (Technical University of Dresden, Chair for Social Affective Touch)，Nassir Navab (Technical University of Munich, Computer Aided Medical Procedures; Munich Center for Machine Learning)，Sasan Matinfar (Technical University of Munich, Computer Aided Medical Procedures) 💡 毒舌点评这篇论文精准地抓住了视网膜下注射手术中一个真实且关键的痛点：iOCT数据的视觉认知过载。其提出的解决方案——将实时分割的解剖结构映射到一个物理声音模型——在工程逻辑上清晰且具有临床洞察力。用户研究的结果也确实表明，这种听觉反馈在传递“水泡形成”这类动态事件上显著优于简单参数映射。然而，这篇论文的创新性上限被其“系统集成”的本质所限制：核心的声音生成模型（质量-弹簧-阻尼器）和驱动它所需的分割技术均非新创。论文更像是一次精心设计的、面向特定场景的“管道集成”和应用验证，其贡献在于证明了这种集成方式在临床任务上的有效性，而非在音频合成、物理建模或分割算法本身上提出新原理。实验完全基于模拟环境和有限的专家反馈，与真实的、高风险的手术室应用之间，仍隔着一道名为“临床验证”的深水区。 ...

Transmit Beamforming for High-Rate Underwater Acoustic Communications

📄 Transmit Beamforming for High-Rate Underwater Acoustic Communications #水声通信 #波束成形 #信号处理 #多通道 #接收均衡 📝 5.3/10 | 前50%-75% | #水声通信 | #波束成形 | #信号处理 #多通道 | arxiv 学术质量 4.1/8 | 影响力 0.7/1 | 可复现性 0.5/1 | 置信度中 👥 作者与机构第一作者：Diego A. Cuji (Stony Brook University, Stony Brook, NY USA) 通讯作者：未明确说明作者列表：Diego A. Cuji (Stony Brook University)、Andrew C. Singer (Stony Brook University)、Milica Stojanovic (Northeastern University, Boston, MA USA) 💡 毒舌点评本文针对水声通信中发射波束成形对完整、实时信道状态信息（CSI）依赖性强的工程痛点，提出了一种基于主路径到达角的简化策略，并在两个公开实验数据集上验证了其基本可行性。其核心价值在于提供了一种在长反馈延迟条件下实现可靠下行通信的工程折衷方案。然而，从顶会标准审视，其核心创新（基于几何角度的空间滤波）在信号处理领域并非新思想，且论文最大短板在于完全缺乏与现有主流方法（如时间反转镜）在相同条件下的直接量化对比，使得“优越性”或“有效性”的论证严重不足，结论显得空洞，更像一篇工程实验报告而非严谨的学术研究。 📌 核心摘要本文研究了水下声学通信中的发射波束成形问题。主要挑战在于，传统高精度波束成形（如时间反转镜）需要准确且及时的完整信道冲激响应，而这在实际水声环境中难以获取。论文提出了一种基于角度的波束成形方法，其核心思想是：在存在一个相对稳定的主传播路径（如直达波或底部反射波）的场景下，发射机无需获取完整的信道信息，只需将波束主瓣指向该主路径的到达角。接收机则负责完成时间同步、多普勒补偿和自适应均衡。论文利用SPACE和MACE两个公开的水声实验数据集进行了验证。结果显示，在单用户场景下，该方法在三种不同海况/运动条件下的数据检测均方误差（MSE）分别为-14 dB至-13 dB（SPACE）和-16 dB至-10 dB（MACE），且误码率为零。此外，论文展示了一个双用户异步传输场景，通过波束指向和零陷放置，实现了两个用户可靠通信（MSE约-16 dB和-18 dB，零误码）。该方法的实际意义在于，它降低了对反馈信道实时性和精度的要求，使得在长反馈延迟条件下进行可靠的高速下行水声通信成为可能。主要局限性在于，该方法的性能高度依赖于存在一个稳定主导路径的假设，而在强散射或多径能量相当的环境中可能失效；同时，论文未与现有主流方法（如时间反转镜）在相同实验条件下进行直接性能对比，因此无法评估其相对优劣。 ...

语音/音乐/音频论文速递 2026-05-15

语音/音乐/音频论文速递 2026-05-15 共分析 20 篇论文 ⚡ 今日概览 📥 抓取 20 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 2篇 ██ #音频分类 2篇 ██ #语音生物标志物 2篇 ██ #说话人验证 2篇 ██ #基准测试 1篇 █ #语音翻译 1篇 █ #音频生成 1篇 █ #基础模型 1篇 █ 📊 论文评分排行榜（20 篇，按分数降序）排名论文评分分档主任务 🥇 FutureSim: Replaying World Events to Evaluate Adaptive 7.6分前25% #基准测试 🥈 Refining Pseudo-Audio Prompts with Speech-Text Alignmen 7.5分前50% #语音识别 🥉 AudioMosaic: Contrastive Masked Audio Representation Le 7.3分前50% #音频分类 4. A Benchmark for Early-stage Parkinson’s Disease Detecti 7.2分前30% #语音生物标志物 5. SpeakerLLM: A Speaker-Specialized Audio-LLM for Speaker 7.0分前25% #说话人验证 6. Streaming Speech-to-Text Translation with a SpeechLLM 6.8分前25% #语音翻译 7. Break-the-Beat! Controllable MIDI-to-Drum Audio Synthes 6.8分前50% #音频生成 8. Mini-JEPA Foundation Model Fleet Enables Agentic Hydrol 6.8分前50% #基础模型 9. Persian MusicGen: A Large-Scale Dataset and Culturally- 6.7分前50% #音乐生成 10. Physics-Based iOCT Sonification for Real-time Interacti 6.5分前40% #医疗音频 11. From Text to Voice: A Reproducible and Verifiable Frame 6.3分前50% #模型评估 12. IsoNet: Spatially-aware audio-visual target speech extr 6.0分前50% #语音提取 13. FSD50K-Solo: Automated Curation of Single-Source Sound 5.5分前50% #数据清洗 14. UMo: Unified Sparse Motion Modeling for Real-Time Co-Sp 5.5分前25% #语音合成 15. Masked Autoencoders with Limited Data: Does It Work? A 5.5分前50% #音频分类 16. Text-Dependent Speaker Verification (TdSV) Challenge 20 5.5分前40% #说话人验证 17. PROCESS-2: A Benchmark Speech Corpus for Early Cognitiv 5.4分前50% #语音生物标志物 18. Transmit Beamforming for High-Rate Underwater Acoustic 5.3分前50% #水声通信 19. A Calculus-Based Framework for Determining Vocabulary S 3.9分后50% #语音识别 20. MediaClaw: Multimodal Intelligent-Agent Platform Techni 3.3分后50% #多模态模型 📋 论文列表 🥇 FutureSim: Replaying World Events to Evaluate Adaptive Agents ✅ 7.6/10 | 前25% | #基准测试 | #大语言模型 | #自适应代理 #测试时适应 | arxiv ...

Decoupled Azimuth Elevation AoA Estimation Exploiting Kronecker Separable Steering Matrices

📄 Decoupled Azimuth Elevation AoA Estimation Exploiting Kronecker Separable Steering Matrices #声源定位 #信号处理 #麦克风阵列 #到达角估计 ✅ 7.0/10 | 前25% | #声源定位 | #信号处理 | #麦克风阵列 #到达角估计 | arxiv 学术质量 6.5/8 | 影响力 1.0/2 | 可复现性 0.0/1 | 置信度高 👥 作者与机构第一作者：Faizan A. Khattak（利兹大学计算机科学学院）通讯作者：未明确标注（论文未在作者信息中指定通讯作者）作者列表：Faizan A. Khattak（利兹大学计算机科学学院）、Ian K. Proudler（斯特拉斯克莱德大学电子电气工程系）、Stephan Weiss（斯特拉斯克莱德大学电子电气工程系）、Fazal-E Asim（巴西联邦大学Ceará分校电信工程系） 💡 毒舌点评本文提出了一种利用导向矢量的Kronecker可分离结构对二维到达角估计进行维度解耦的框架，推导严谨，为一类特定阵列结构提供了清晰的计算路径。然而，其“state-of-the-art”的声称因基线选择的局限性而大打折扣，实验对比缺乏与近年（2020年后）其他高效二维估计方法的直接较量，且未提供任何可复现材料，这在一定程度上削弱了其说服力。 📌 核心摘要要解决什么问题：如何在均匀矩形阵列（URA）及其结构化非均匀变体（NURA）中，高效且准确地进行二维到达角（AoA，包括方位角和仰角）估计。传统二维MUSIC等算法计算复杂度高，而现有的一些快速算法（如RD-MUSIC）在精度上有所损失。方法核心是什么：提出了一种子空间解耦框架。核心思想是，当阵列导向矢量可以表示为方位和仰角导向矢量的Kronecker乘积时，其对应的导向矩阵可以表示为Khatri-Rao乘积。论文推导出如何从阵列协方差矩阵的信号子空间出发，通过一系列矩阵重塑（unvec）、行/列提取、水平拼接和SVD操作，分别恢复出方位和仰角方向的独立信号子空间。与已有方法相比新在哪里：新在“解耦”思想及其低复杂度的矩阵实现。与直接进行二维谱搜索的MUSIC或基于子阵的ESPRIT不同，本方法在预处理阶段将二维问题分解为两个独立的一维问题，使得经典的一维算法（如root-MUSIC， ESPRIT）可以独立应用于每个维度，最后再进行角度配对。这避免了昂贵的二维谱搜索或复杂的张量运算。主要实验结果如何：仿真表明，对于URA，在低信噪比和有限快拍数下，所提的De-RMUSIC和De-ESPRIT算法在RMSE性能上优于对比的RD-MUSIC和ESPRIT-MIMO，且对于大阵列优势更明显（见图2、图3）。计算时间上，De-ESPRIT略慢于ESPRIT-MIMO，但远快于RD-MUSIC（见图4）。对于NURA，所提De-MUSIC在保持与2D-MUSIC相当精度的同时，计算复杂度显著降低（见图5、图6），其优化版本De-MUSIC-Opt通过单变量非线性优化进一步提升了效率。实际意义是什么：为大规模MIMO、三维定位等应用场景中广泛使用的矩形平面阵列提供了一种计算效率更高、在特定条件下精度更优的AoA估计方案，尤其适用于对功耗或计算实时性要求较高的系统。主要局限性是什么：方法所能估计的源数量存在理论上限（min{M, N}-1），少于传统二维方法（MN-1）。实验对比的基线方法选择有限，未能与近年提出的其他高效二维估计方法进行比较。论文未提供任何代码或可复现材料。此外，所有结论均基于理想化的仿真模型，未考虑实际阵列中的非理想因素。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及。数据集：论文中未提及。 Demo：论文中未提及。复现材料：论文未提供代码，但提供了详细的仿真参数（如URA/NURA尺寸、源角度、信噪比范围、快拍数L、RMSE定义）和性能指标，可基于此在MATLAB中复现仿真结果。论文中引用的开源项目：未提及具体的第三方开源项目链接，主要引用学术文献中的算法（如MUSIC [16]， root-MUSIC [11]， ESPRIT [15]， RD-MUSIC [19]， ESPRIT-MIMO [10]， gold-MUSIC [14]等）。 🏗️ 方法概述和架构图1展示了论文所研究的阵列几何结构：(a) 结构化非均匀矩形阵列（NURA）和 (b) 结构化非均匀平行四边形阵列（NUPgA）。图中蓝点表示传感器位置。其核心结构特点是，水平方向上各行传感器的间距模式是相同且与行索引无关的，垂直方向上各列传感器的间距模式也是相同且与列索引无关的。这种结构保证了完整的阵列导向矢量可以分解为水平（方位）和垂直（仰角）导向矢量的Kronecker积，即公式(1)：𝐚(μh,μv) = 𝐚h(μh) ⊗ 𝐚v(μv)。这为后续的维度解耦提供了数学基础。 ...

语音/音乐/音频论文速递 2026-05-14

语音/音乐/音频论文速递 2026-05-14 共分析 16 篇论文 ⚡ 今日概览 📥 抓取 16 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 2篇 ██ #音频分类 2篇 ██ #语音对话系统 1篇 █ #模型评估 1篇 █ #多智能体协同 1篇 █ #音频事件检测 1篇 █ #乐谱生成 1篇 █ #音频生成 1篇 █ 📊 论文评分排行榜（16 篇，按分数降序）排名论文评分分档主任务 🥇 EVA-Bench: A New End-to-end Framework for Evaluating Vo 8.0分前25% #语音对话系统 🥈 Senses Wide Shut: A Representation-Action Gap in Omnimo 8.0分前50% #模型评估 🥉 EVOCHAMBER: Test-Time Co-evolution of Multi-Agent Syste 8.0分前25% #多智能体协同 4. NAACA: Training-Free NeuroAuditory Attentive Cognitive 7.0分前25% #音频事件检测 5. Text2Score: Generating Sheet Music From Textual Prompts 7.0分前25% #乐谱生成 6. Seconds-Aligned PCA-DAC Latent Diffusion for Symbolic-t 7.0分前50% #音频生成 7. Bypassing Direct Reconstruction: Speech Detection from 7.0分前25% #语音活动检测 8. Decoupled Azimuth Elevation AoA Estimation Exploiting K 7.0分前25% #声源定位 9. WARDEN: Endangered Indigenous Language Transcription an 7.0分前25% #语音识别 10. Vividh-ASR: A Complexity-Tiered Benchmark and Optimizat 7.0分前50% #语音识别 11. Scaling few-shot spoken word classification with genera 7.0分前50% #音频分类 12. GeoBuildBench: A Benchmark for Interactive and Executab 7.0分前25% #几何推理 13. Keep What Audio Cannot Say: Context-Preserving Token Pr 7.0分前25% #音视频 14. PresentAgent-2: Towards Generalist Multimodal Presentat 6.5分前25% #生成模型 15. Does language matter for spoken word classification? A 6.0分前50% #音频分类 16. Leveraging Multimodal Self-Consistency Reasoning in Cod 6.0分前50% #动机访谈编码 📋 论文列表 🥇 EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents 🔥 8.0/10 | 前25% | #语音对话系统 | #基准测试 | #语音质量评估 #端到端 | arxiv ...

Adaptive Diagonal Loading using Krylov Subspaces for Robust Beamforming

📄 Adaptive Diagonal Loading using Krylov Subspaces for Robust Beamforming #波束成形 #信号处理 #鲁棒性 #麦克风阵列 ✅ 7.5/10 | 前25% | #声源定位 | #波束成形 | #信号处理 #鲁棒性 | arxiv 学术质量 7.0/8 | 影响力 0.8/2 | 可复现性 0.5/1 | 置信度高 👥 作者与机构第一作者：Manan Mittal 通讯作者：未说明作者列表：Manan Mittal, Ryan M. Corey, John R. Buck, Andrew C. Singer 注：论文原文中未提供作者的具体机构信息，仅提供了arXiv ID和链接。 💡 毒舌点评这篇论文聚焦于一个明确的工程计算瓶颈，即如何在动态环境中为大型麦克风阵列实时计算自适应波束成形器所需的对角加载量。作者巧妙地将经典的数值线性代数工具（Lanczos算法）引入这一特定问题，通过构建小维度的Krylov子空间来近似极端特征值，从而将计算复杂度从O(M³)降至O(kM²)，并声称在性能上与精确分解完全一致。这是一个“好工具用在刀刃上”的典型工作，实用价值清晰。然而，其核心是利用已知算法解决一个已知瓶颈，而非提出新的理论框架；论文对关键参数（k值）的选择缺乏理论指导，且完全未提供代码，这在顶会论文中是明显的短板，极大地限制了其可复现性和即时影响力。 📌 核心摘要要解决什么问题：在动态声学环境中使用大型麦克风阵列时，由于目标/干扰源快速移动导致可用快拍数不足，估计的样本协方差矩阵（SCM）会病态或秩亏。这会导致传统自适应波束成形器的白噪声增益（WNG）崩溃并抵消目标信号。先前提出的自适应对角加载方法虽能通过卡塔霍夫不等式严格保证WNG，但其所需计算SCM极端特征值（λ_max, λ_min）的精确特征值分解（EVD）具有O(M³)的计算复杂度，对于大规模阵列不切实际。方法核心是什么：提出使用Lanczos算法构建一个维度k«M的Krylov子空间，并将高维SCM（M×M）投影到一个小的三对角矩阵（T_k, k×k）上。计算T_k的特征值（Ritz值），并以其作为原SCM极端特征值的高效近似。然后，将这些近似特征值代入基于卡塔霍夫不等式推导的公式，计算出满足预设WNG下限（W_min）所需的最小对角加载量μ，并应用于SCM以计算鲁棒的波束成形权重。与已有方法相比新在哪里：已有的精确EVD方法计算成本为O(M³)；而基于Gershgorin圆盘定理或迹的松弛边界方法计算简单，但会高估所需加载量，浪费波束成形器自由度。本文方法将计算复杂度降至O(kM²)（其中k≈4），同时理论上（由于Ritz值收敛性质）和实验上（与精确EVD对比）实现了与精确EVD完全相同的性能，即在不损失精度的前提下实现了计算效率的飞跃。主要实验结果如何：模拟实验：在15元均匀线阵、动态“出生-死亡”干扰场景下（L=37快拍，L<2.5M），Lanczos方法（k=4）在扫描方向图、均方误差、白噪声增益（始终>8.76dB）、输出信干噪比等指标上，与精确EVD方法几乎完全重合，性能媲美全知（Omniscient）基线。实测实验：在SwellEx-96水下声学数据集（28元阵列）上验证，Lanczos方法与精确EVD方法生成的方位-时间历程图同样清晰，在目标方向（43°）和离轴方向的输出功率、白噪声增益曲线保持一致，论文称“表现相当（marginally better）”。实际意义是什么：该方法显著降低了在实时系统中实现具有严格WNG性能保证的自适应波束成形所需的计算成本，使其更适合在资源受限的嵌入式平台或需要高帧率处理的大型阵列中部署。主要局限性是什么：论文未讨论Lanczos算法在复数Hermitian矩阵上的收敛速度保证及初始向量选择的影响；关键参数k的选取（如k=4）仅为经验选择，缺乏理论分析或系统的消融实验；未提供开源代码，降低了方法的可复现性和验证便利性。 🔗 开源详情代码：论文中未提及代码链接或开源计划。模型权重：不适用。数据集：论文中使用了 SwellEx-96 实验的 S59 事件数据集，数据来自 South Horizontal Line Array (HLA-S) 阵列。论文未提供直接下载链接，需通过官方渠道申请访问。 Demo：论文中未提及。复现材料：论文中未提及。论文中引用的开源项目：未提及。 🏗️ 方法概述和架构本文提出的框架是一个在线、逐帧处理的实时鲁棒自适应波束成形流水线。其核心目标是解决在快拍数不足（L < M）时，如何高效且精确地计算对角加载量μ，以保证波束成形器的白噪声增益（WNG）不低于预设下限W_min。整体流程为：1）基于当前帧的有限快拍估计样本协方差矩阵（SCM）R_hat；2）对R_hat进行对角加载得到矩阵Q = R_hat + μI，其中μ待定；3）利用Lanczos算法高效估算Q的极端特征值λ_max和λ_min；4）将λ_max和λ_min代入由卡塔霍夫不等式导出的解析公式，计算出所需的最小加载量μ；5）使用计算出的μ重新加载SCM得到Q_loaded = R_hat + μI；6）基于Q_loaded求解MPDR波束成形权重w。整个流程的关键在于，Lanczos算法替代了耗时的精确特征值分解（EVD），成为连接理论保证（WNG下限）与实时计算的核心桥梁。 ...

Poly-SVC: Polyphony-Aware Singing Voice Conversion with Harmonic Modeling

📄 Poly-SVC: Polyphony-Aware Singing Voice Conversion with Harmonic Modeling #歌唱语音转换 #流匹配 #音乐源分离 #零样本 #信号处理 #复音建模 📝 5.5/10 | 前50% | #歌唱语音转换 | #流匹配 | #音乐源分离 #零样本 | arxiv 学术质量 5.5 （综合学术质量：创新性+技术严谨性+实验充分性+清晰度的加权得分，范围0-8）/8 | 影响力 1.0 （影响力与重要性：领域推动价值、后续工作潜力、与读者相关性，范围0-2）/2 | 可复现性 0.3 （可复现性：开源完整度、训练细节、超参数充分度，范围0-1）/1 | 置信度中 👥 作者与机构第一作者：未说明（论文未明确指定第一作者）通讯作者：未说明作者列表：Chen Geng, Meng Chen（论文正文致谢或作者列表中提及，但未说明其具体单位或角色）比舌点评论文直面歌声转换在真实世界应用中的一个痛点：从混音中分离的人声常残余和声，导致传统F0提取器失效。提出的Poly-SVC系统采用CQT频谱图处理复音，并用一个基于MIDI监督的“随机采样器”来精炼音高表征，思路清晰且具有实用动机。然而，论文的核心贡献——“随机采样器”的具体实现（如“随机”裁剪的策略、概率、监督细节）以及关键编码器（CQT/MIDI）的网络结构描述严重模糊，更像一个针对特定数据集的“黑箱”工程适配，而非一个方法论上足够严谨的创新。实验仅依赖主观评估，缺乏客观指标，且声称的“state-of-the-art”性能提升主要体现在主观MOS上，缺乏更全面的证据支撑，说服力有限。核心摘要要解决什么问题：现有歌声转换（SVC）方法依赖干净单旋律人声和F0提取器，但真实场景中通过工具（如UVR）分离的人声常残余和声（harmony），导致传统F0提取失效，引发音高预测错误和音质下降。本文旨在解决这一理想化训练数据与复杂现实输入之间的差距。方法核心是什么：提出Poly-SVC系统。核心是采用基于恒定Q变换（CQT）的音高提取器，其频谱图特性可同时表示主旋律与残余和声。为抑制CQT中混入的音色等非音高信息，设计了一个“随机采样器”，利用少量MIDI标注数据进行监督学习。最终，通过基于条件流匹配（CFM）的扩散解码器，将提取的内容、音高、音色特征融合，生成保留和声结构的高质量目标歌声。与已有方法相比新在哪里：不同于以往SVC工作假设输入为干净单旋律歌声，本文首次系统性地建模并处理“残余和声”这一真实世界问题。方法上，摒弃了传统的F0基频估计，转向直接建模整个CQT频谱图以捕捉复音结构，并引入了用少量MIDI数据指导的随机采样器来增强音高表征。主要实验结果如何：在模拟的和声（Harmony）条件下，Poly-SVC的MOS（自然度）和SIM-MOS（音色相似度）均显著优于基线so-vits-svc、DDSP-SVC和SeedVC。例如，在和声条件下，Poly-SVC的MOS达到3.75±0.10，而最强基线SeedVC仅为3.35±0.12。消融实验表明，移除随机采样器（RS）或音色转换器（TS）均会导致性能下降。频谱图（Fig. 3）直观显示SeedVC丢失了和声结构并出现音高预测错误，而Poly-SVC更好地重建了主旋律与和声。 Approach Single-Melody MOS Single-Melody SIM-MOS Harmony MOS Harmony SIM-MOS Ground Truth 4.12 ± 0.11 - 3.92 ± 0.11 - so-vits-svc 3.57 ± 0.14 3.15 ± 0.13 1.64 ± 0.10 2.08 ± 0.09 DDSP-SVC 3.83 ± 0.13 3.33 ± 0.11 2.98 ± 0.11 2.82 ± 0.10 SeedVC 3.85 ± 0.13 3.74 ± 0.10 3.35 ± 0.12 3.40 ± 0.08 Poly-SVC (w/o TS) 3.96 ± 0.13 3.66 ± 0.11 3.71 ± 0.10 3.32 ± 0.08 Poly-SVC (w/o RS) 3.92 ± 0.13 3.71 ± 0.12 3.62 ± 0.13 3.36 ± 0.09 Poly-SVC 3.98 ± 0.12 3.78 ± 0.11 3.75 ± 0.10 3.42 ± 0.09 实际意义是什么：该工作提升了歌声转换技术在真实世界复杂音频输入（即无法获得完美分离的干净人声）下的鲁棒性和实用性，对音乐制作、虚拟歌手、翻唱等应用具有直接价值。主要局限性是什么：论文完全依赖主观评估（MOS/SIM-MOS），缺乏客观声学指标；“随机采样器”的核心机制（随机裁剪策略）和网络架构（Transformer细节）描述不清，可复现性存疑；方法使用UVR分离伴奏来模拟“残余和声”数据集，其与真实复杂混音场景的差距未被充分讨论；论文声称“state-of-the-art”，但其提升主要体现在主观评分上，且提升幅度（如MOS +0.4）需要更多上下文来评估其显著性。方法概述和架构 ...

Spatial Power Estimation via Riemannian Covariance Matching

📄 Spatial Power Estimation via Riemannian Covariance Matching #空间音频 #声源定位 #信号处理 #波束成形 #黎曼几何 ✅ 6.5/10 | 前25% | #声源定位 | #信号处理 | #空间音频 #波束成形 | arxiv 学术质量 7.0/8 | 影响力 0.5/2 | 可复现性 0.0/1 | 置信度高 👥 作者与机构第一作者：Or Cohen（以色列理工学院 Andrew and Erna Viterbi 电气与计算机工程系）通讯作者：Or Cohen（以色列理工学院 Andrew and Erna Viterbi 电气与计算机工程系）作者列表：Or Cohen（以色列理工学院 Andrew and Erna Viterbi 电气与计算机工程系）、Alon Amar（以色列理工学院 Andrew and Erna Viterbi 电气与计算机工程系）、Ronen Talmon（以色列理工学院 Andrew and Erna Viterbi 电气与计算机工程系） 💡 毒舌点评论文为欧氏和黎曼协方差匹配准则建立了清晰的渐近等价性与鲁棒性理论联系，这是一个扎实的理论贡献。提出的SERCOM算法在计算效率上具有明确优势。然而，实验对比局限于与SPICE、SAMV等同框架经典方法的比较，缺乏与近年来性能更优或范式不同的稀疏恢复、深度学习方法的对比，严重削弱了结论的时效性和对方法“先进性”的定位。此外，所有实验均为仿真，未提供真实数据验证，且未开源代码，可复现性为零。 ...

语音/音乐/音频论文速递 2026-05-13

语音/音乐/音频论文速递 2026-05-13 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #声源定位 2篇 ██ #音频编码 2篇 ██ #语音识别 2篇 ██ #多模态检索 1篇 █ #深度伪造检测 1篇 █ #音视频 1篇 █ #基准测试 1篇 █ #多模态推理 1篇 █ 📊 论文评分排行榜（21 篇，按分数降序）排名论文评分分档主任务 🥇 jina-embeddings-v5-omni: Text-Geometry-Preserving Multi 7.5分前25% #多模态检索 🥈 Adaptive Diagonal Loading using Krylov Subspaces for Ro 7.0分前25% #声源定位 🥉 Spatial Power Estimation via Riemannian Covariance Matc 7.0分前25% #声源定位 4. The Deepfakes We Missed: We Built Detectors for a Threa 7.0分前50% #深度伪造检测 5. OmniRefine: Alignment-Aware Cooperative Compression for 7.0分前25% #音视频 6. Exploring Token-Space Manipulation in Latent Audio Toke 6.7分前25% #音频编码 7. MMTB: Evaluating Terminal Agents on Multimedia-File Tas 6.7分前25% #基准测试 8. UniPath: Adaptive Coordination of Understanding and Gen 6.6分前25% #多模态推理 9. The SMC Blind Spot: A Failure Mode Analysis of State-of 6.5分前35% #节拍跟踪 10. Too Good to Be True: A Study on Modern Automatic Speech 6.2分前50% #语音增强 11. Towards Fine-Grained Multi-Dimensional Speech Understan 6.0分前25% #语音理解 12. A Semi-Supervised Framework for Speech Confidence Detec 6.0分前50% #语音自信度检测 13. AffectCodec: Emotion-Preserving Neural Speech Codec for 5.8分前25% #音频编码 14. STRUM: A Spectral Transcription and Rhythm Understandin 5.5分前25% #音乐转录 15. Chunkwise Aligners for Streaming Speech Recognition 5.5分前50% #语音识别 16. Poly-SVC: Polyphony-Aware Singing Voice Conversion with 5.5分前50% #歌唱语音转换 17. What makes a word hard to learn? Modeling L1 influence 5.5分前50% #词汇难度预测 18. Mind the Pause: Disfluency-Aware Objective Tuning for M 5.5分前25% #语音编辑 19. OmniNFT: Modality-wise Omni Diffusion Reinforcement for 5.5分前25% #音视频生成 20. Mechanistic Interpretability of ASR models using Sparse 5.0分前60% #语音识别 21. Boosting Omni-Modal Language Models: Staged Post-Traini 5.0分前50% #多模态模型评估 22 AuDirector: A Self-Reflective Closed-Loop Framework for N/A - - 📋 论文列表 🥇 jina-embeddings-v5-omni: Text-Geometry-Preserving Multimodal Embeddings via Frozen-Tower Composition ✅ 7.5/10 | 前25% | #多模态检索 | #迁移学习 | #多模态模型 #模型评估 | arxiv ...

Encoding and Decoding Temporal Signals with Spiking Bandpass Wavelets

📄 Encoding and Decoding Temporal Signals with Spiking Bandpass Wavelets #音频编码 #脉冲神经网络 #信号处理 #高效推理 ✅ 7.0/10 | 前25% | #音频编码 | #脉冲神经网络 | #信号处理 #高效推理 | arxiv 学术质量 7.0/8 | 影响力 0.6/2 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：Jens Egholm Pedersen（丹麦技术大学，电气与光子工程系）通讯作者：Jens Egholm Pedersen（丹麦技术大学）作者列表：Jens Egholm Pedersen（丹麦技术大学，电气与光子工程系）、Tony Lindeberg（瑞典KTH皇家理工学院，计算科学与技术系）、Peter Gerstoft（丹麦技术大学，电气与光子工程系） 💡 毒舌点评这篇论文在理论层面做出了扎实且有价值的贡献，成功地将LIF神经元模型这一工程实践，严谨地嵌入到尺度空间理论和小波帧的数学框架中，填补了神经形态计算与经典信号处理之间的理论鸿沟。这种概念性的创新值得高度肯定。然而，实验部分存在明显短板，未能充分兑现其核心承诺。论文声称其方法“直接映射到神经形态硬件”，却未提供任何在真实神经形态平台上的功耗、延迟或脉冲率测量数据；解码器严重依赖离线的最小二乘法，与“实时、流式”的目标相去甚远；且实验仅局限于信号重建任务，对编码表示在下游任务中的效用未做探索，使得实际影响力大打折扣。 📌 核心摘要本文旨在为基于脉冲的编码器建立一个严谨的信号处理理论框架。作者提出，可将常用的基于泄漏积分-发放（LIF）神经元的脉冲编码器重新解释为一种时间因果的尺度协变小波帧。核心方法是构造了两种新的脉冲小波家族：截断指数差（DoE）和时间因果极限核差（DoT）。与现有工作相比，新在：（1）首次为脉冲编码提供了正式的帧定义、重建保证和误差界；（2）将多尺度框架与事件驱动表示统一；（3）提出的波形可直接映射到神经形态硬件。实验结果显示，在MIT-BIH ECG和LibriSpeech音频数据集上，所提出的脉冲小波（尤其是DoT）的归一化均方根误差（nRMSE）与经典的非因果Morlet小波及连续小波变换（CWT）相当（例如，在LibriSpeech上脉冲DoT的nRMSE为0.073，与Morlet的0.064处于可比范围）。本文的实际意义在于为神经形态前端提供了具有可证明重建保证的编码理论基础。主要局限性在于解码过程依赖离线的最小二乘权重求解，且缺乏在神经形态硬件上的实测性能验证。 🔗 开源详情代码：https://github.com/jegp/swavelet 模型权重：论文中未提及数据集：论文中提及使用MIT-BIH (Moody and Mark, 2001)和LibriSpeech (Panayotov et al., 2015)数据集，但未提供具体下载链接。 Demo：论文中未提及复现材料：代码仓库 https://github.com/jegp/swavelet 应包含复现所需的主要材料。论文附录中提供了算法（Algorithm 1）和实验细节（Appendix J）。论文中引用的开源项目： PyWavelets：用于实现离散小波变换（Haar和Morlet）。链接：https://github.com/PyWavelets/pywt Jax：实验所用的机器学习加速器。链接：https://github.com/google/jax Neuromorphic Intermediate Representation (NIR)：文中提及的用于编译到神经形态硬件的表示，但未给出具体链接。 🏗️ 方法概述和架构本文提出了一个端到端的信号编码与解码框架，旨在将连续时间信号转换为稀疏的脉冲序列，并能够稳定地重建原信号。该框架将传统的模数转换问题重新构建为基于尺度空间理论的小波分解与重构问题。 ...