ICLR 2026 - 声源定位 论文列表

ICLR 2026 - 声源定位 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Physics-Informed Audio-Geometry-Grid Representation Learning 8.0分 前25% 📋 论文详情 🥇 Physics-Informed Audio-Geometry-Grid Representation Learning for Universal Sound Source Localization 🔥 8.0/10 | 前25% | #声源定位 | #物理信息 | #麦克风阵列 #空间音频 👥 作者与机构 第一作者:Min-Sang Baek(Hanyang University, Department of Electronic Engineering) 通讯作者:Joon-Hyuk Chang(Hanyang University, Department of Electronic Engineering) 作者列表:Min-Sang Baek(Hanyang University, Department of Electronic Engineering)、Gyeong-Su Kim(Hanyang University, Department of Electronic Engineering)、Donghyun Kim(Hanyang University, Department of Electronic Engineering)、Joon-Hyuk Chang(Hanyang University, Department of Electronic Engineering) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-06-12 · 1 min · 113 words

OWL : Geometry-Aware Spatial Reasoning for Audio Large Language Models

📄 OWL : Geometry-Aware Spatial Reasoning for Audio Large Language Models #音频大模型 #空间音频 #声源定位 #多任务学习 #数据集 🔥 8.0/10 | 前25% | #空间音频 | #音频大模型 | #声源定位 #多任务学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:未说明(论文标注Subrata Biswas和Mohammad Nur Hossain Khan为共同第一作者) 通讯作者:未说明 作者列表:Subrata Biswas(Worcester Polytechnic Institute电气与计算机工程系)、Mohammad Nur Hossain Khan(Worcester Polytechnic Institute电气与计算机工程系)、Bashima Islam(Worcester Polytechnic Institute电气与计算机工程系) 💡 毒舌点评 这篇论文为音频大模型装上了“空间几何眼睛”,通过“模拟训练-纯音频推理”的巧思和详实的课程学习,确实把空间定位和推理精度提升了一个台阶;但美中不足的是,其所有辉煌战绩(包括新建的百万级数据集)均建立在精心构建的合成世界里,在真实嘈杂、反射复杂的声学环境中,这套“几何内功”的实战效果还有待“出关”检验。 🔗 开源详情 代码:论文明确提供代码仓库链接:https://github.com/BASHLab/OWL。表明将在该仓库发布代码。 模型权重:未明确提及是否公开预训练模型权重,但根据“our dataset and code are available”的表述,模型权重可能包含在开源计划内。 数据集:论文明确表示将发布BiDepth数据集(“we construct and release BiDepth”),包含约110万QA对。 Demo:未提及在线演示。 复现材料:附录提供了完整的训练超参数(表10,表11)、特征提取公式(B.1)、模型架构细节(B.2, B.3)和数据集生成细节(A节),复现指引非常充分。 论文中引用的开源项目:依赖SoundSpaces v2.0和Matterport3D进行模拟;音频编码器初始化自AudioMAE;语言模型使用LLaMA-2-7B;投影模块参考Q-Former;微调使用LoRA。 📌 核心摘要 要解决什么问题:现有的音频大语言模型(ALLMs)在空间推理方面能力薄弱,主要依赖粗糙的双耳线索和单步推理,导致在声源方向(DoA)和距离估计上精度不足,且推理过程缺乏可解释性。 方法核心是什么:提出OWL框架,其核心是创新的几何感知音频编码器SAGE。SAGE在训练时利用全景深度图和模拟房间脉冲响应(RIR)作为监督信号,让编码器学会将声学特征与3D空间几何结构对齐,但在推理时只需音频输入。OWL进一步将SAGE与空间接地的链式思维(CoT) 推理相结合,支持从感知到多步推理的课程学习。 与已有方法相比新在哪里:首次将显式的几何监督(通过RIR预测任务)引入音频编码器训练;构建了首个大规模(约110万QA对)耦合双耳音频、RIR和深度图的数据集BiDepth用于几何感知训练;引入了针对音频空间推理的多阶段课程学习和CoT监督机制,使模型能生成可解释的推理路径。 主要实验结果如何:在BiDepth和SpatialSoundQA两个基准上,OWL显著超越了现有方法。SAGE相比SOTA(Spatial-AST),在BiDepth数据集上平均角度误差(MAE)降低25.52%,距离错误率(DER)降低31.34%。OWL相比BAT,在BiDepth上的空间推理二分类准确率(BA)提升24.9%(77.89% vs. 69.46%),在SpatialSoundQA上的推理平均准确率达79.06%(BAT为76.89%)。OWL在真实世界音频场景分类和声源定位任务上也展现出良好的泛化能力。 实际意义是什么:该工作推动了音频大模型从“听到什么”向“声音在哪里、如何关联”的空间理解迈进,为构建更接近人类听觉感知的智能系统(如机器人、智能家居助手、助听设备)提供了关键技术组件和评估基准。 主要局限性是什么:训练和评估严重依赖合成数据(BiDepth),而真实世界声学环境更为复杂多变,模型的鲁棒性有待验证;目前的推理任务限于单轮问答,尚未扩展到多轮对话式空间推理;几何监督依赖于预先生成的深度图和RIR,限制了其在完全未知环境中的应用。 🏗️ 模型架构 OWL是一个完整的空间音频问答系统,其架构(如图4所示)由三个主要部分串联而成,旨在将原始双耳波形转化为带有空间推理的文本输出。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 326 words

Physics-Informed Audio-Geometry-Grid Representation Learning for Universal Sound Source Localization

📄 Physics-Informed Audio-Geometry-Grid Representation Learning for Universal Sound Source Localization #声源定位 #物理信息 #麦克风阵列 #空间音频 🔥 8.0/10 | 前25% | #声源定位 | #物理信息 | #麦克风阵列 #空间音频 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.7 | 置信度 高 👥 作者与机构 第一作者:Min-Sang Baek(Hanyang University, Department of Electronic Engineering) 通讯作者:Joon-Hyuk Chang(Hanyang University, Department of Electronic Engineering) 作者列表:Min-Sang Baek(Hanyang University, Department of Electronic Engineering)、Gyeong-Su Kim(Hanyang University, Department of Electronic Engineering)、Donghyun Kim(Hanyang University, Department of Electronic Engineering)、Joon-Hyuk Chang(Hanyang University, Department of Electronic Engineering) 💡 毒舌点评 亮点:论文系统性地将“物理规律”(如TDOA仅依赖麦克风相对位置)转化为可学习的网络模块(如rMPE和LNuDFT),这种“物理信息引导”的思路比纯粹的黑盒数据驱动更优雅,也显著提升了对未见阵列的泛化能力。短板:提出的框架在极端密集网格(如D>4096)下,于真实数据集上的性能收益不明显甚至略有下降,这暗示了模型在处理微小扰动时的稳定性或表示空间的极限可能仍有探索空间。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 275 words

Towards Improving Speaker Distance Estimation through Generative Impulse Response Augmentation

📄 Towards Improving Speaker Distance Estimation through Generative Impulse Response Augmentation #声源定位 #数据增强 #生成模型 #空间音频 🔥 8.5/10 | 前25% | #声源定位 | #数据增强 | #生成模型 #空间音频 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 中 👥 作者与机构 第一作者:Anton Ratnarajah(论文中未提及机构) 通讯作者:未说明 作者列表:Anton Ratnarajah(未说明)、Mehmet Ergezer(未说明)、Arun Nair(未说明)、Mrudula Athi(未说明) 💡 毒舌点评 亮点在于将生成式RIR合成与严格的质量过滤流程工程化,成功地将距离估计的MAE降低了一个数量级(约60%),证明了在有限真实数据下,高质量的合成数据可以极大提升下游任务性能。短板在于其核心的距离估计模型本身是现成的(论文[2]),创新边界止于如何更有效地“喂”数据给现有模型,且对小于1米的近场估计能力明显不足,显示了生成模型在极端条件下的局限性。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及。 数据集:论文中未提及数据集的具体获取链接或开源协议。文中提及了GWA、Treble、C4DM和VCTK等数据集名称。 Demo:论文中未提及。 复现材料:论文中未提及具体的训练配置、检查点或附录材料链接。 论文中引用的开源项目: FastRIR(快速漫射房间脉冲响应生成器):论文中提及为开源项目,但未提供具体链接。其常见代码仓库地址为:https://github.com/RoyChao19477/Fast-RIR。 MESH2IR:论文中提及并引用了相关文献[4, 3],但未提供具体链接。其常见代码仓库地址为:https://github.com/sp-uhh/mesh2ir。 注:以上两个开源项目的链接基于其广泛认知的代码仓库,论文原文仅在引用部分提及名称与参考文献编号。 补充信息 [核心摘要/论文自我声明的局限性] 补充:论文在误差分析部分明确指出,模型在距离大于1米时保持一致的性能,误差通常在0.5米左右。这是一个重要的性能基线,已有分析未具体提及。 [模型架构/创新点] 补充:在修改FastRIR架构时,论文明确采用了MESH2IR [4, 3] 中提出的RIR表示方案,其目的是确保在不同源-接收距离下RIR的能量分布保持一致。这是实现“位置专用条件生成”的关键技术细节之一,已有分析仅提及名称但未强调其目的。 [论文自我声明的局限性] 补充:论文对近距离(<1米)误差增大的原因进行了更具体的归因分析:1)生成模型在该近距离范围内的训练示例有限;2)非常近距离的声学现象具有独特性,若无专门训练数据则难以建模。这比已有分析中仅指出“样本不足”更为具体。 📌 核心摘要 解决的问题:在房间声学和说话人距离估计(SDE)任务中,真实测量的房间脉冲响应(RIR)数据稀疏且昂贵,限制了SDE模型的性能,尤其是在中远距离。 方法核心:采用一个修改的生成式RIR模型(基于FastRIR),该模型仅以说话人和听者的位置为条件进行训练,以生成大量合成RIR数据。随后,设计了一个严格的质量过滤流程(基于T60、DRR等声学指标),筛选出与真实数据分布一致的高质量合成RIR,用于微调现有的SDE模型。 创新之处:与简单使用现成RIR生成器相比,本文创新在于:a) 专注于位置条件的生成模型改造;b) 建立了明确的、基于声学物理指标的质量过滤标准;c) 针对GWA和Treble两种不同模拟特性的数据集分别进行微调,以提升领域适应性。 主要实验结果:使用约26万条过滤后的合成RIR进行微调后,SDE模型的平均绝对误差(MAE)显著降低。对于GWA测试房间,MAE从基线的1.66m降至0.6m;对于Treble测试房间,从2.18m降至0.69m。消融实验表明,针对特定数据集微调的专用模型能进一步获得5%-10%的MAE提升。具体结果见下表及图2。 数据集 基线模型 MAE (m) 本文模型 MAE (m) GWA Rooms (11-20) 1.66 0.6 Treble Rooms (1-10) 2.18 0.69 图2展示了模型在所有测试房间(顶行)、Treble房间(中行)和GWA房间(底行)上的性能。左列是真实距离分布,中列是预测距离分布,右列是预测与真实距离的散点图。结果显示预测值与真实值高度相关,尤其在GWA房间上表现更佳(MAE 0.6m, 相关系数更高)。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 226 words

语音/音乐/音频论文速递 2026-05-04

语音/音乐/音频论文速递 2026-05-04 共分析 14 篇论文 ⚡ 今日概览 📥 抓取 14 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音频生成 2篇 ██ #说话人验证 1篇 █ #声源定位 1篇 █ #音频深度伪造检测 1篇 █ #模型评估 1篇 █ #多模态模型 1篇 █ #主动噪声控制 1篇 █ #音乐理解 1篇 █ 📊 论文评分排行榜(14 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 LASE: Language-Adversarial Speaker Encoding for Indic C 8.5分 前25% #说话人验证 🥈 Towards Improving Speaker Distance Estimation through G 8.5分 前25% #声源定位 🥉 Alethia: A Foundational Encoder for Voice Deepfakes 8.0分 前25% #音频深度伪造检测 4. Beyond Decodability: Reconstructing Language Model Repr 7.5分 前25% #模型评估 5. Fast Text-to-Audio Generation with One-Step Sampling vi 7.5分 前25% #音频生成 6. MMAudio-LABEL: Audio Event Labeling via Audio Generatio 7.5分 前25% #音频生成 7. Group Cognition Learning: Making Everything Better Thro 7.5分 前25% #多模态模型 8. Transformer-based End-to-End Control Filter Generation 7.0分 前25% #主动噪声控制 9. GaMMA: Towards Joint Global-Temporal Music Understandin 7.0分 前25% #音乐理解 10. RoboKA: KAN Informed Multimodal Learning for RoboCall S 7.0分 前25% #语音伪造检测 11. From Birdsong to Rumbles: Classifying Elephant Calls wi 6.5分 前50% #音频分类 12. Timing is Everything: Temporal Scaffolding of Semantic 6.5分 前50% #音频事件检测 13. CustomDancer: Customized Dance Recommendation by Text-D 6.5分 前50% #音频检索 #音乐理解 14. MMAudioReverbs: Video-Guided Acoustic Modeling for Dere 6.0分 前50% #语音增强 📋 论文列表 🥇 LASE: Language-Adversarial Speaker Encoding for Indic Cross-Script Identity Preservation 🔥 8.5/10 | 前25% | #说话人验证 | #领域适应 | #多语言 #开源工具 | arxiv ...

2026-05-04 · 更新于 2026-06-12 · 9 min · 1720 words

OWL : Geometry-Aware Spatial Reasoning for Audio Large Language Models

📄 OWL : Geometry-Aware Spatial Reasoning for Audio Large Language Models #空间音频 #声源定位 #音频大模型 #链式思维 #数据集 ✅ 7.0/10 | 前25% | #空间音频 | #音频大模型 | #声源定位 #链式思维 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Subrata Biswas(Worcester Polytechnic Institute 电气与计算机工程系) 通讯作者:未说明 作者列表:Subrata Biswas(Worcester Polytechnic Institute 电气与计算机工程系)、Mohammad Nur Hossain Khan(Worcester Polytechnic Institute 电气与计算机工程系)、Bashima Islam(Worcester Polytechnic Institute 电气与计算机工程系) 💡 毒舌点评 这篇论文在音频大语言模型的空间推理能力上迈出了重要一步,其核心亮点在于巧妙地将环境几何信息作为辅助监督注入到音频编码器中,从而在推理时无需几何输入就能获得几何感知的表征,这是一个既实用又优雅的设计。然而,整个系统的基石——BiDepth数据集完全依赖于合成数据,尽管论文通过在真实世界数据集上的零样本测试部分缓解了这一担忧,但模拟环境与复杂真实声场之间的鸿沟仍是其走向大规模应用的首要挑战。 🔗 开源详情 代码:提供代码仓库链接:https://github.com/BASHLab/OWL。 模型权重:论文中未提及公开已训练好的模型权重。 数据集:论文宣布将发布BiDepth数据集,但当前提供的文本中未说明具体发布平台和获取方式。 Demo:论文中未提及在线演示。 复现材料:论文在附录中详细提供了SAGE和OWL的训练超参数、硬件配置、优化器设置等复现所需的关键信息。明确指出使用了LLaMA-2-7B和AudioMAE作为初始化。 引用的开源项目:论文中明确使用了SoundSpaces v2.0、Matterport3D、AudioSet、LLaMA-2-7B、AudioMAE、Q-Former等开源工具或模型。 📌 核心摘要 问题:现有的音频大语言模型在空间推理上能力不足,主要依赖粗糙的二元线索(左/右)和单步推理,缺乏对声学环境几何结构(如房间布局、混响)的显式建模,导致方向和距离估计精度低,且推理过程不可解释。 方法核心:提出OWL模型,它由一个几何感知的音频编码器SAGE和一个集成了空间感知链式思维(CoT) 的大语言模型组成。SAGE在训练时利用全景深度图和模拟房间冲激响应(RIR)来学习声学-几何对齐特征,但推理时仅需音频。OWL则通过从感知QA到多步推理的课程学习,支持细粒度的12扇区方向(DoA)估计和可解释的推理。 新意:与之前的工作(如BAT)相比,OWL的创新在于:a) SAGE编码器首次引入几何感知监督,将音频特征与3D空间结构对齐;b) 空间感知CoT,使中间推理步骤锚定于声源位置,提供可解释的推理路径;c) 构建并发布了首个大规模、包含{双耳音频、RIR、深度图、QA}四元组的BiDepth数据集(约110万个QA对)。 主要结果:在BiDepth和SpatialSoundQA两个基准上,SAGE将平均DoA误差降低了11°,OWL在空间推理QA准确率上比BAT最高提升了25%。具体地,在BiDepth上,OWL w CoT在单源/双源事件检测mAP为33.37/17.26,12扇区DoA准确率为46.17,空间推理(Type III)二分类准确率(BA)为77.89,CoT推理(Type IV)BA为76.53,全面超越包括Gemini在内的基线。 实际意义:为构建能理解三维声学场景、进行细粒度空间推理的AI听觉智能体奠定了基础,对机器人导航、智能家居、人机交互等应用有潜在价值。 主要局限性:核心训练数据集BiDepth是合成的,虽然通过了部分真实世界数据的零样本验证,但其在极端混响、复杂遮挡等真实场景下的泛化能力仍需进一步验证。推理任务目前限于单轮QA。 🏗️ 模型架构 OWL系统包含两个核心模块:SAGE编码器和OWL语言模型管道。 ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 406 words

Physics-Informed Audio-Geometry-Grid Representation Learning for Universal Sound Source Localization

📄 Physics-Informed Audio-Geometry-Grid Representation Learning for Universal Sound Source Localization #声源定位 #物理信息 #麦克风阵列 #鲁棒性 🔥 8.0/10 | 前25% | #声源定位 | #物理信息 | #麦克风阵列 #鲁棒性 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Min-Sang Baek (韩国汉阳大学 电子工程系) 通讯作者:Joon-Hyuk Chang* (韩国汉阳大学 电子工程系) 作者列表:Min-Sang Baek (韩国汉阳大学 电子工程系), Gyeong-Su Kim (韩国汉阳大学 电子工程系), Donghyun Kim (韩国汉阳大学 电子工程系), Joon-Hyuk Chang* (韩国汉阳大学 电子工程系) 💡 毒舌点评 亮点:将表示学习与物理信息先验(如频率非均匀采样、相对位置编码)巧妙结合,提出的LNuDFT和rMPE组件有扎实的理论支撑且在实验中效果显著。 短板:框架引入了额外的Gridnet,尽管声称计算开销可控,但在实时性要求极高的边缘设备部署场景下,其推理延迟与资源消耗是否可接受,论文未做深入讨论与分析。 🔗 开源详情 代码:论文明确提供了源代码仓库链接:https://github.com/BaekMS/Audio-Geometry-Grid_Representation-Learning。 模型权重:论文未提及是否公开预训练模型权重。 数据集:论文使用了公开数据集(LOCATA用于评估, LibriSpeech/TIMIT/MS-SNSD/ESC-50用于训练和部分评估)。合成数据集的生成方法已在算法3和附录A.10中详细描述,可依此复现。 Demo:未提及。 复现材料:非常充分。论文正文和附录提供了所有关键实现细节,包括:LNuDFT和rMPE的精确公式与初始化;AuGeonet和Gridnet的详细架构图(图4, 图5);多阶段几何学习和深度监督课程学习的超参数表(表6);合��数据生成算法(算法3);损失函数、评估指标和推理算法的完整描述。 论文中引用的开源项目:论文提到了以下开源工具/代码:gpuRIR(用于RIR模拟), py-webrtcvad(用于生成语音活动检测标签), 以及基线方法Neural-SRP和GI-DOAEnet的公开代码仓库。 📌 核心摘要 本文针对现有深度神经网络声源定位(SSL)方法受限于固定麦克风阵列几何形状和预定义方向网格的问题,提出了一个通用框架——音频-几何-网格表示学习(AGG-RL)。该方法核心是通过一个双网络结构,联合学习源自音频信号和阵列几何的音频-几何表征(AGRs),以及编码候选方向的网格表征(GRs),两者通过内积相似性生成概率性空间谱,从而实现对任意网格和几何结构的泛化。与已有方法相比,其新意在于:1)首次将SSL任务解耦为互补的表示学习;2)引入可学习非均匀离散傅里叶变换(LNuDFT),自适应地将频率bin密集分配在富含相位信息的区域;3)提出相对麦克风位置编码(rMPE),直接编码符合TDOA物理特性的相对坐标。在合成数据集(Dynamic-S/U)和真实数据集(NAO机器人、Eigenmike)上的实验表明,所提方法在未见过的阵列几何(如Eigenmike)和通道数(如Dynamic-U)上均取得了最优性能。例如,在未见过的Eigenmike数据集上,所提方法的平均绝对误差(MAE)为11.24°,显著优于次优基线GI-DOAEnet的77.09°。该研究的意义在于为构建跨多种场景的通用空间声学场景理解系统提供了有效方案。其主要局限性在于,尽管设计了高效组件,但整体框架的计算开销相比一些轻量级基线有所增加,且未在动态声源场景下进行验证。 ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 277 words

A New Location Estimator for Mixed LOS &amp; NLOS scenarios

📄 A New Location Estimator for Mixed LOS & NLOS scenarios #无线定位 #声源定位 #信号处理 #3D音频 #鲁棒性 ✅ 7.5/10 | 前25% | #声源定位 | #信号处理 | #无线定位 #3D音频 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Gaurav Duggal (Virginia Tech, Bradley Department of Electrical and Computer Engineering, Wireless@VT) 通讯作者:未明确指定,从作者列表和致谢信息看,所有作者贡献相当。 作者列表: Gaurav Duggal (Virginia Tech, Wireless@VT) R. Michael Buehrer (Virginia Tech, Wireless@VT) Harpreet S. Dhillon (Virginia Tech, Wireless@VT) Jeffrey H. Reed (Virginia Tech, Wireless@VT) 💡 毒舌点评 这篇论文的亮点在于其数学上的“优雅”:它没有回避NLOS场景的复杂性,而是用一个统一的衍射路径模型将其无缝涵盖,并通过“虚拟锚点”这一巧妙的数学构造,将非线性的3D问题降维成可高效求解的2D子问题,展现了扎实的理论功底和算法设计能力。短板则相当明显——所有结论都停留在精心设计的计算机仿真里,未给出任何在真实建筑、真实信号传播环境下的验证;其模型假设(如仅考虑单次边缘衍射)在复杂室内外环境中是否成立,需要打上一个大大的问号。 ...

2026-04-30 · 更新于 2026-06-12 · 2 min · 319 words

Hankel and Toeplitz Rank-1 Decomposition of Arbitrary Matrices with Applications to Signal Direction-of-Arrival Estimation

📄 Hankel and Toeplitz Rank-1 Decomposition of Arbitrary Matrices with Applications to Signal Direction-of-Arrival Estimation #声源定位 #信号处理 #阵列信号处理 #鲁棒估计 #少样本 ✅ 7.5/10 | 前50% | #声源定位 | #信号处理 | #阵列信号处理 #鲁棒估计 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Georgios I. Orfanidis (佛罗里达大西洋大学 连接自主与AI中心、电气工程与计算机科学系) 通讯作者:未说明(三位作者提供了邮箱,但未明确指定通讯作者) 作者列表: Georgios I. Orfanidis (佛罗里达大西洋大学 连接自主与AI中心、电气工程与计算机科学系) Dimitris A. Pados (佛罗里达大西洋大学 连接自主与AI中心、电气工程与计算机科学系) George Sklivanitis (佛罗里达大西洋大学 连接自主与AI中心、电气工程与计算机科学系) Elizabeth Serena Bentley (美国空军研究实验室 AFRL/RI) 💡 毒舌点评 这篇论文的亮点在于理论推导非常扎实,对秩-1 Hankel逼近问题给出了在L2和L1范数下的最优解形式,并严格证明了其在对应噪声模型下的最大似然最优性,实验部分也覆盖了从仿真到真实UAV数据的完整链条。然而,其短板也同样明显:核心应用场景——单信源、有限快拍的DoA估计——相对具体且传统,算法依赖网格搜索,计算复杂度随精度要求快速上升,且全文未提供任何开源代码或数据,这对于一个依赖精确参数调谐(网格步长、Weiszfeld迭代次数)的方法来说,显著降低了其可复现性和实用价值。 ...

2026-04-30 · 更新于 2026-06-12 · 2 min · 255 words

语音/音乐/音频论文速递 2026-04-30

语音/音乐/音频论文速递 2026-04-30 共分析 25 篇论文 ⚡ 今日概览 📥 抓取 25 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 4篇 ████ #音频深度伪造检测 2篇 ██ #声源定位 2篇 ██ #音视频 1篇 █ #语音克隆 1篇 █ #说话人验证 1篇 █ #语音匿名化 1篇 █ #语音情感识别 1篇 █ 📊 论文评分排行榜(25 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 PSP: An Interpretable Per-Dimension Accent Benchmark fo 9.0分 前25% #语音合成 🥈 Hallo-Live: Real-Time Streaming Joint Audio-Video Avata 8.5分 前25% #音视频 🥉 One Voice, Many Tongues: Cross-Lingual Voice Cloning fo 8.0分 前25% #语音克隆 4. Similarity Choice and Negative Scaling in Supervised Co 8.0分 前25% #音频深度伪造检测 5. Praxy Voice: Voice-Prompt Recovery + BUPS for Commercia 8.0分 前25% #语音合成 6. Dual-LoRA: Parameter-Efficient Adversarial Disentanglem 7.5分 前25% #说话人验证 7. SPG-Codec: Exploring the Role and Boundaries of Semanti 7.5分 前25% #语音合成 8. DiffAnon: Diffusion-based Prosody Control for Voice Ano 7.5分 前25% #语音匿名化 9. Diffusion Reconstruction towards Generalizable Audio De 7.5分 前25% #音频深度伪造检测 10. EmoTransCap: Dataset and Pipeline for Emotion Transitio 7.5分 前25% #语音情感识别 11. Hankel and Toeplitz Rank-1 Decomposition of Arbitrary M 7.5分 前50% #声源定位 12. A New Location Estimator for Mixed LOS & NLOS scena 7.5分 前25% #声源定位 13. Multimodal LLMs are not all you need for Pediatric Spee 7.5分 前25% #语音分类 14. StarDrinks: An English and Korean Test Set for SLU Eval 7.5分 前25% #数据集 15. Tatemae: Detecting Alignment Faking via Tool Selection 7.5分 前25% #大语言模型 16. Step-Audio-R1.5 Technical Report 7.5分 前25% #语音对话系统 17. Preferences of a Voice-First Nation: Large-Scale Pairwi 7.5分 前25% #语音合成 18. The False Resonance: A Critical Examination of Emotion 7.0分 前25% #语音情感识别 #模型评估 19. A Toolkit for Detecting Spurious Correlations in Speech 7.0分 前50% #模型评估 20. Multiple Additive Neural Networks for Structured and Un 7.0分 前50% #表格数据预测 21. Random Cloud: Finding Minimal Neural Architectures With 7.0分 前50% #模型架构搜索 22. Recurrence-Based Nonlinear Vocal Dynamics as Digital Bi 6.5分 前50% #语音生物标志物 23. Full band denoising of room impulse response in the wav 6.5分 前50% #音频信号处理 24. Text-Utilization for Encoder-dominated Speech Recogniti 6.5分 前50% #语音识别 25. Fitting Large Nonlinear Mixed Effects Models Using Vari 6.5分 前50% #统计计算 📋 论文列表 🥇 PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech 🔥 9.0/10 | 前25% | #语音合成 | #模型评估 | #自监督学习 #多语言 | arxiv ...

2026-04-30 · 更新于 2026-06-12 · 16 min · 3385 words