ICLR 2026 语音/音频论文详细分析

ICLR 2026 语音/音频论文详细分析 共分析 133 篇 ICLR 2026 论文 🎯 任务分类 点击任务标签查看该方向所有论文: 语音合成(10篇) 音频生成(9篇) 语音识别(9篇) 基准测试(9篇) 音乐生成(9篇) 语音对话系统(8篇) 音频分类(6篇) 音频问答(6篇) 语音情感识别(5篇) 多模态模型(5篇) 音视频(4篇) 音频检索(4篇) 语音分离(3篇) 模型评估(2篇) 语音翻译(2篇) 音乐信息检索(2篇) 生成模型(2篇) 音乐理解(2篇) 视频生成(2篇) 跨模态生成(1篇) 脑编码(1篇) 模型可解释性(1篇) 音视频深度伪造检测(1篇) 图像生成(1篇) 数据集(1篇) 语音增强 #对抗样本(1篇) 语音大模型(1篇) 音频编辑(1篇) 音视频事件检测(1篇) 生态计算(1篇) 视频描述生成(1篇) 视频摘要(1篇) 语音问答(1篇) 基准测试 #数据集(1篇) 音频安全(1篇) 神经网络架构(1篇) 语音转换 #语音匿名化(1篇) 声源定位(1篇) 序列解耦(1篇) 空间音频(1篇) 音频分离(1篇) 机器人操作(1篇) 动作生成(1篇) 音频场景理解(1篇) 跨模态检索(1篇) 语音增强(1篇) 多模态推理(1篇) 语音合成评估(1篇) 语音生成(1篇) 生物声学(1篇) 模型比较(1篇) 音视频联合推理(1篇) 语音识别 #语音合成(1篇) ⚡ 今日概览 📥 133 篇 → 🔬 深度分析完成 ...

2026-05-01 · 更新于 2026-05-19 · 72 min · 15177 words

A Fast Robust Adaptive filter using Improved Data-Reuse Method

📄 A Fast Robust Adaptive filter using Improved Data-Reuse Method #声学回声消除 #自适应滤波 #信号处理 #鲁棒性 #EIV模型 ✅ 6.2/10 | 前50% | #声学回声消除 | #自适应滤波 | #信号处理 #鲁棒性 | arxiv 学术质量 5.3/8 | 影响力 0.5/1 | 可复现性 0.4/1 | 置信度 高 👥 作者与机构 第一作者:Yi Peng(西南交通大学,磁悬浮技术与磁悬浮车辆教育部重点实验室) 通讯作者:Haiquan Zhao(西南交通大学,磁悬浮技术与磁悬浮车辆教育部重点实验室) 作者列表:Yi Peng, Haiquan Zhao, Jinhui Hu(西南交通大学,磁悬浮技术与磁悬浮车辆教育部重点实验室) 💡 毒舌点评 这篇论文的核心工作是将若干已知技术(TLS框架、灵活的成本函数、数据重用、在线 censoring)进行“搭积木”式的组合,以应对EIV模型下的复杂噪声环境。其宣称的“改进数据重用”(IDR)和“实值域在线 censoring”阈值是两个具体的工程改进点。然而,RTGA成本函数本身并非一个深刻的新理论,而是一个参数可调的“框架”,其灵活性带来的代价是超参数激增(a, b, c, L_reused, P_ce),且缺乏自动调参机制,这在实际应用中是致命伤。所谓的“快速收敛”也主要依赖于数据重用,而对比实验中并未充分剥离IDR本身的贡献,使得性能提升的归因不够清晰。整体工作显得扎实但创新深度有限。 📌 核心摘要 问题:现有自适应滤波算法在处理误差变量(EIV)模型(输入和输出均含噪声)时,往往只对特定类型噪声(如脉冲噪声)鲁棒,当噪声环境变为广义高斯噪声时性能下降;同时,为提升收敛速度而采用的传统数据重用方法会限制算法性能上限并增加计算复杂度。 方法核心:提出RTGA-IDROC算法。核心是构建一个灵活的“鲁棒总广义自适应”(RTGA)成本函数,通过参数a, b调节其形式,以统一多种现有鲁棒成本函数(如M-估计、log、MTGC)。为加速收敛,提出了“改进数据重用”(IDR)方法,通过从历史数据中均匀分段选择低相关数据点进行复用。为控制因数据重用增加的计算复杂度,引入了“在线 censoring”(OC)策略,并首次推导了适用于实值域算法的阈值公式。 创新:与之前方法相比,该工作的创新在于:1) 提出了一种基于低相关历史数据点选择的IDR策略,旨在突破传统数据重用的性能上限;2) 为实值域自适应滤波器提出了新的OC阈值计算公式;3) 通过参数化的RTGA函数统一了多种EIV模型下的鲁棒算法。 主要结果:在系统辨识和声学回声消除(AEC)场景下,通过多个仿真实验验证了算法的优越性。例如,在Case 1(高斯噪声)下,使用-25dB NMSD为基准,RTGA-IDROC (30%) 达到收敛仅需1310次迭代,而其他TLS基线算法需超过2000次迭代。在多种复杂噪声环境(脉冲、拉普拉斯、均匀、二值混合噪声)下,其NMSD性能均显著优于对比算法(如GDTLS, MTC, MTGC等)。 实际意义:该算法为实际应用(如AEC)中需要在复杂多变噪声环境下同时实现快速收敛、低计算复杂度和强鲁棒性的自适应滤波需求,提供了一种潜在的解决方案。 主要局限性:算法涉及a, b, c, L_reused等多个关键超参数,其最优选择高度依赖于具体的噪声环境和应用场景,调参难度大,论文未提供自适应调整机制。此外,IDR方法在系统突变时(如图5b)需限制历史数据长度,其有效性可能受限。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中未提及 Demo:论文中未提及 复现材料:论文中未提及 论文中引用的开源项目:未提及 🏗️ 方法概述和架构 本文提出RTGA-IDROC算法,是一个完整的自适应滤波框架,旨在同时解决EIV模型下的输入噪声偏差、多变输出噪声的鲁棒性以及收敛速度与计算复杂度的权衡问题。其整体流程为:在每个迭代步i,算法首先根据历史数据执行L_reused次IDR更新(利用多个低相关历史数据点),然后基于当前数据(d̃(i), ̃x(i))计算梯度,最后结合OC策略决定是否进行最终的权值更新。 ...

2026-05-19 · 更新于 2026-05-19 · 2 min · 401 words

Flexible Multi-Channel Target Speaker Extraction Using Geometry-Conditioned Spatially Selective Non-linear Filters

📄 Flexible Multi-Channel Target Speaker Extraction Using Geometry-Conditioned Spatially Selective Non-linear Filters #说话人提取 #麦克风阵列 #多通道 #空间滤波 #条件生成 #信号处理 ✅ 6.3/10 | 中等偏上 | #说话人提取 | #麦克风阵列 | #多通道 #空间滤波 | arxiv 学术质量 5.4/8 | 影响力 0.4/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Jiatong Li(论文中未说明其所属机构) 通讯作者:未说明 作者列表:Jiatong Li(未说明)、Wiebke Middelberg(未说明)、Simon Doclo(未说明) 💡 毒舌点评 论文核心贡献明确,即通过FiLM条件化和新颖的DOA-MPE特征,解决了SSF对训练阵列几何的强依赖问题,实现了跨几何的泛化。实验设计(随机阵列训练、多种失配测试、DOA误差灵敏度分析)有效地支持了其主张。主要短板在于:实验完全限于仿真环境与固定的4麦克风设置,缺乏与近期处理变阵列的非自适应或几何编码基线(如某些神经波束形成器)的直接对比,使得“更好泛化”的结论不够全面,且匹配几何下的性能差距也揭示了泛化与专用性能之间的权衡。 📌 核心摘要 问题:基于目标方向(DOA)的空间选择性非线性滤波器(SSF)性能严重依赖于训练时所用的特定麦克风阵列几何形状,在失配阵列上性能急剧下降。 方法核心:提出几何条件化SSF(GC-SSF),在SSF中引入一个条件化分支。该分支使用一种新的特征“DOA-麦克风位置编码”(DOA-MPE),联合编码麦克风位置和目标DOA,并通过特征线性调制(FiLM)层将几何信息注入SSF的中间特征图,使滤波器能自适应不同阵列。 新意:首次将几何条件化思想应用于基于DOA的说话人提取任务。与元学习微调或几何无关的系统相比,GC-SSF在保持端到端训练和利用DOA线索的同时,实现了显式的几何适应。 主要实验结果:在圆形、均匀线阵和随机阵列上的实验表明: 训练在固定圆形阵列上的基线SSF(SSF-Circ)在匹配阵列上性能最佳(PESQ 2.95),但在失配阵列(如ULA)上PESQ降至1.16,远低于未处理的1.39。 训练在随机阵列上的基线SSF(SSF-Random)性能较差且不同阵列间表现相对平坦(PESQ在1.93-2.04之间)。 提出的GC-SSF(使用DOA-MPE和POI2,在随机阵列上训练)在所有阵列上均显著优于SSF-Random(PESQ约2.41-2.53),在失配阵列上性能远超SSF-Circ,但在匹配圆形阵列上的性能(2.53)仍略低于专用的SSF-Circ(2.95),揭示了泛化与峰值性能之间的权衡。 DOA误差敏感性分析显示,GC-SSF在保持高空间选择性(性能随DOA误差增大而下降的趋势与SSF-Circ相似)的同时,比SSF-Random更鲁棒,表明其有效利用了DOA信息。 实际意义:使基于DOA的目标说话人提取系统能够灵活部署于不同麦克风阵列,无需针对特定几何重新训练,增强了实用性和适应性。 主要局限性:论文明确承认的局限是仅支持固定数量的麦克风。实验完全在模拟数据上进行,未探讨麦克风数量变化、更复杂噪声场景或与近期端到端波束形成等其他几何适应方法的对比,也未讨论计算开销。 🔗 开源详情 代码:论文中未提及代码链接(未说明)。 模型权重:论文中未提及(未说明)。 数据集: 论文中使用 Wall Street Journal (WSJ0) 语料库进行实验。获取方式需通过 LDC (Linguistic Data Consortium),论文中未提供直接下载链接。其引用来源为:[5] D. B. Paul and J. M. Baker, “The design for the Wall Street Journal-based CSR corpus,” in Proc. ICSLP, 1992。 仿真实验使用 Pyroomacoustics 库生成。其GitHub仓库链接为:https://github.com/ReverberantRoom/pyroomacoustics 。论文中引用来源为:[18] R. Scheibler, E. Bezzam, and M. Vetterli, “Pyroomacoustics: A Python package for audio room simulation and array processing algorithms,” in Proc. ICASSP, 2018。 Demo:论文中未提及。 复现材料:论文中未提及预训练模型、检查点或专门的复现指南。论文详细描述了网络结构、超参数设置和训练策略,理论上可用于复现。 论文中引用的开源项目: Pyroomacoustics: https://github.com/ReverberantRoom/pyroomacoustics (用于生成仿真实验数据集) FiLM (Feature-wise Linear Modulation): 论文引用为[15] E. Perez, F. Strub, H. de Vries, V. Dumoulin, and A. Courville, “FiLM: Visual Reasoning with a General Conditioning Layer,” in Proc. AAAI, 2018. 这是一个通用的条件化技术,并非一个可直接获取的独立软件仓库。 🏗️ 方法概述和架构 该系统是一个端到端的深度学习系统,旨在从多通道含噪语音信号中,根据给定的目标说话人方向(DOA)提取目标语音。核心流程是:多通道信号输入 -> 通过基线SSF编码器提取中间特征 -> 几何条件化分支并行处理阵列几何与DOA信息 -> 通过FiLM层调制SSF的中间特征 -> 解码生成应用于参考麦克风的复掩膜 -> 输出增强的目标语音。关键创新在于条件化分支能够根据动态的阵列几何和DOA信息,自适应地调整SSF内部的空间特征表示。 ...

2026-05-19 · 更新于 2026-05-19 · 3 min · 547 words

Fractional-Order Subband p-Norm Adaptive Filter via Transformation Nearest Kronecker Product Decomposition for Active Noise Control

📄 Fractional-Order Subband p-Norm Adaptive Filter via Transformation Nearest Kronecker Product Decomposition for Active Noise Control #自适应滤波 #有源噪声控制 #信号处理 #鲁棒性 #分数阶微积分 #Kronecker分解 📝 5/10 | 前50% | #自适应滤波 | #信号处理 | #有源噪声控制 #鲁棒性 | arxiv 学术质量 4/8 | 影响力 0.5/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Jianhong Ye(未说明具体机构,仅显示“J. Ye”及邮箱yjh_zcl@163.com) 通讯作者:Haiquan Zhao(西南交通大学电气工程学院,磁悬浮技术与磁浮车辆教育部重点实验室) 作者列表:Jianhong Ye(未说明具体机构)、Haiquan Zhao*(西南交通大学电气工程学院)、Shaohui Lv(西南交通大学电气工程学院)、Yang Zhou(西南交通大学电气工程学院) 💡 毒舌点评 本文将NKP分解、分数阶SGD和子带p范数三个现有技术进行组合,并创新性地提出TNKP策略以调和NKP算法的快收敛与传统算法的低稳态误差矛盾,在多种非高斯/α稳定噪声及真实ANC场景下展现了优于基线算法的性能。然而,论文在理论推导的深度和严谨性上存在根本性短板:1) 分数阶链式法则(式36)的应用(式38)极其粗糙,直接将向量函数的β阶导数等同于对每个分量分别求导再取实部(式41),缺乏严格数学依据;2) β参数的理论范围推导(式51)完全基于确保一个特定期望项E{|e|^{2(p-β)}}有限的简化假设,忽略了算法收敛所需的更严格条件(如梯度期望均值收敛、方差有界),该推导过于启发式;3) TNKP策略的切换阈值ρ完全依赖于事后统计(取后5000点平均值),是一种工程化的后处理手段,而非具备在线自适应能力的真正算法创新,其有效性高度依赖于对系统稳态性能的先验了解。因此,论文的“新”更多停留在工程模块的拼接层面,理论贡献有限。 📌 核心摘要 要解决什么问题:传统的归一化子带p范数(NSPN)算法在处理(1)非高斯输入、(2)特征指数0<α≤1的α稳定噪声以及(3)稀疏系统辨识时性能会显著下降或失效。 方法核心是什么:提出一种基于最近Kronecker乘积(NKP)分解和分数阶随机梯度下降(FoSGD)的归一化子带p范数自适应滤波算法,即NKP-FoNSPN。该算法将长冲激响应分解为Kronecker乘积形式的低秩子分量,并利用分数阶梯度提升鲁棒性。此外,提出一种变换NKP(TNKP)分解策略,结合NKP的快速收敛和传统非NKP算法的低稳态失调。 与已有方法相比新在哪里:首次将NKP分解应用于子带自适应滤波框架;提出了结合NKP和FoSGD的新颖算法;设计了新型TNKP分解策略以降低稳态误差;为有源噪声控制(ANC)场景开发了相应的filtered-x变体(NKP-FxFoNSPN, TNKP-FxFoNSPN)。 主要实验结果如何:在多种噪声(粉红噪声、直升机噪声、枪声、打桩机噪声)下的单通道和多通道ANC仿真及实测实验中,TNKP-FxFoNSPN算法在收敛速度和稳态噪声降低(ANR)方面均优于FxLMS、FxFoNLMP、FxGMCC、FxAPLEHS等基线算法。在系统辨识中,TNKP-FoNSPN在α=0.75的α稳定噪声下取得了与小步长FoNSPN相当的最低稳态NMSD,同时保持了NKP-FoNSPN的快速收敛(论文图10)。 实际意义是什么:为存在强脉冲噪声、非高斯输入以及长冲激响应的ANC场景(如牵引变电站噪声控制)提供了一种潜在更鲁棒、收敛更快的自适应滤波解决方案。 主要局限性是什么:1)分数阶导数链式法则的应用(式38, 41)缺乏严谨的数学推导和理论依据;2)β参数的理论稳定范围(式51)推导基于粗糙假设,不够严格;3)TNKP策略中的切换阈值ρ选择完全依赖经验(取后5000点平均值),缺乏在线自适应指导,且AEC场景下失效(图15);4)NKP技术要求待辨识系统为低秩结构,对高秩系统性能下降严重(论文图13);5)算法性能对初始值ι敏感(图6b)。 🔗 开源详情 代码:论文中未提及代码链接。论文详细描述了所提算法(如 NKP-FoNSPN, TNKP-FoNSPN 等)的伪代码(见论文中 Table 4 和 Table 5)和推导过程,但未提供 GitHub 或其他代码托管平台的仓库链接。 模型权重:论文中未提及。本文为理论方法和算法设计论文,未涉及发布预训练模型或权重文件。 数据集:论文中未提及具体数据集名称或下载链接。仿真实验中使用的噪声(如粉色噪声、直升机噪声、枪声、打桩机噪声、牵引变电站噪声)被用作噪声源,但未指明其来源数据集或提供获取链接。 Demo:论文中未提及在线演示或交互式 Demo。 复现材料:论文中未提供训练脚本、配置文件、检查点文件等具体的复现材料包。论文提供了算法仿真的关键参数设置(如滤波器长度 D=500, 子带数 N=4 等)和详细的伪代码,可作为复现的依据。 论文中引用的开源项目:未提及。论文引用的参考文献主要为学术文献,未列出第三方开源软件库或工具的项目名称与链接。论文中提到的算法(如 FxLMS, FxGMCC, FoNLMP 等)为标准或已发表算法,未指明其具体开源实现。 🏗️ 方法概述和架构 本文提出的核心方法是NKP-FoNSPN算法及其在ANC中的应用变体。该算法是一个端到端的自适应滤波框架,其整体流程为:输入信号→分析滤波器组分解为子带信号→基于NKP分解的分数阶p范数误差准则更新子滤波器→合成总滤波器输出。 ...

2026-05-19 · 更新于 2026-05-19 · 2 min · 277 words

Robust Soft-Constrained Spatially Selective Active Noise Control for Hearables Under Secondary Path Variations

📄 Robust Soft-Constrained Spatially Selective Active Noise Control for Hearables Under Secondary Path Variations #音频增强 #主动噪声控制 #麦克风阵列 #鲁棒性 #信号处理 📝 5.7/10 | 前25% | #音频增强 | #信号处理 | #主动噪声控制 #麦克风阵列 | arxiv 学术质量 4.8/8 | 影响力 0.5/1 | 可复现性 0.4/1 | 置信度 高 👥 作者与机构 第一作者:Tong Xiao(Carl von Ossietzky Universit¨at Oldenburg, Department of Medical Physics and Acoustics; Jade-Hochschule, Institut f¨ur H¨ortechnik und Audiologie) 通讯作者:Simon Doclo(Carl von Ossietzky Universit¨at Oldenburg, Department of Medical Physics and Acoustics) 作者列表:Tong Xiao(同上)、Reinhild Roden(Jade-Hochschule, Institut f¨ur H¨ortechnik und Audiologie)、Matthias Blau(Jade-Hochschule, Institut f¨ur H¨ortechnik und Audiologie)、Simon Doclo(同上) 💡 毒舌点评 本文针对助听器空间选择性主动噪声控制(SSANC)中的次级路径变化问题,提出了一个基于“最小化平均代价”的鲁棒优化框架。动机非常实际,工程实现路径清晰,并通过实时实验验证了仿真结果,这在音频处理领域是值得肯定的。然而,核心方法(公式16)在理论上并无新意,本质上是将经典鲁棒优化中的“平均化”策略应用于特定公式(公式12),创新性有限。实验设计的主要缺陷在于,评估仅限于与理想“匹配”上限和不鲁棒“失配”情况的对比,完全未与其他已知的鲁棒控制方法(如H∞优化或在线自适应估计)进行比较,这严重削弱了对其方法优越性的论证。此外,论文声称该框架提供“实用的设计策略”,但其离线、固定的特性以及对预设路径变化集的依赖,在高度动态的现实场景中的适用性存疑。 ...

2026-05-19 · 更新于 2026-05-19 · 2 min · 364 words

Physics-Based iOCT Sonification for Real-time Interaction Awareness in Subretinal Injection

📄 Physics-Based iOCT Sonification for Real-time Interaction Awareness in Subretinal Injection #医疗音频 #信号处理 #实时处理 #音频事件检测 #跨模态 ✅ 6.5/10 | 前40% | #医疗音频 | #信号处理 | #实时处理 #音频事件检测 | arxiv 学术质量 5.4/8 | 影响力 0.6/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Luis D. Reyes Vargas (Technical University of Munich, Computer Aided Medical Procedures) 通讯作者:Luis D. Reyes Vargas (邮箱 luis.reyes@tum.de 明确标识为通讯作者) 作者列表:Luis D. Reyes Vargas (Technical University of Munich, Computer Aided Medical Procedures),Veronica Ruozzi (未说明机构),Andrea K. M. Ross (Rotterdam Eye Hospital),Shervin Dehghani (Technical University of Munich, TUM Klinikum Rechts der Isar),Michael Sommersperger (Technical University of Munich, Computer Aided Medical Procedures),Koorosh Faridpooya (未说明机构),Mohammad Ali Nasseri (Technical University of Dresden, Centre for Tactile Internet with Human-in-the-Loop),Merle Fairhurst (Technical University of Dresden, Chair for Social Affective Touch),Nassir Navab (Technical University of Munich, Computer Aided Medical Procedures; Munich Center for Machine Learning),Sasan Matinfar (Technical University of Munich, Computer Aided Medical Procedures) 💡 毒舌点评 这篇论文精准地抓住了视网膜下注射手术中一个真实且关键的痛点:iOCT数据的视觉认知过载。其提出的解决方案——将实时分割的解剖结构映射到一个物理声音模型——在工程逻辑上清晰且具有临床洞察力。用户研究的结果也确实表明,这种听觉反馈在传递“水泡形成”这类动态事件上显著优于简单参数映射。然而,这篇论文的创新性上限被其“系统集成”的本质所限制:核心的声音生成模型(质量-弹簧-阻尼器)和驱动它所需的分割技术均非新创。论文更像是一次精心设计的、面向特定场景的“管道集成”和应用验证,其贡献在于证明了这种集成方式在临床任务上的有效性,而非在音频合成、物理建模或分割算法本身上提出新原理。实验完全基于模拟环境和有限的专家反馈,与真实的、高风险的手术室应用之间,仍隔着一道名为“临床验证”的深水区。 ...

2026-05-15 · 更新于 2026-05-19 · 2 min · 407 words

Transmit Beamforming for High-Rate Underwater Acoustic Communications

📄 Transmit Beamforming for High-Rate Underwater Acoustic Communications #水声通信 #波束成形 #信号处理 #多通道 #接收均衡 📝 5.3/10 | 前50%-75% | #水声通信 | #波束成形 | #信号处理 #多通道 | arxiv 学术质量 4.1/8 | 影响力 0.7/1 | 可复现性 0.5/1 | 置信度 中 👥 作者与机构 第一作者:Diego A. Cuji (Stony Brook University, Stony Brook, NY USA) 通讯作者:未明确说明 作者列表:Diego A. Cuji (Stony Brook University)、Andrew C. Singer (Stony Brook University)、Milica Stojanovic (Northeastern University, Boston, MA USA) 💡 毒舌点评 本文针对水声通信中发射波束成形对完整、实时信道状态信息(CSI)依赖性强的工程痛点,提出了一种基于主路径到达角的简化策略,并在两个公开实验数据集上验证了其基本可行性。其核心价值在于提供了一种在长反馈延迟条件下实现可靠下行通信的工程折衷方案。然而,从顶会标准审视,其核心创新(基于几何角度的空间滤波)在信号处理领域并非新思想,且论文最大短板在于完全缺乏与现有主流方法(如时间反转镜)在相同条件下的直接量化对比,使得“优越性”或“有效性”的论证严重不足,结论显得空洞,更像一篇工程实验报告而非严谨的学术研究。 📌 核心摘要 本文研究了水下声学通信中的发射波束成形问题。主要挑战在于,传统高精度波束成形(如时间反转镜)需要准确且及时的完整信道冲激响应,而这在实际水声环境中难以获取。论文提出了一种基于角度的波束成形方法,其核心思想是:在存在一个相对稳定的主传播路径(如直达波或底部反射波)的场景下,发射机无需获取完整的信道信息,只需将波束主瓣指向该主路径的到达角。接收机则负责完成时间同步、多普勒补偿和自适应均衡。论文利用SPACE和MACE两个公开的水声实验数据集进行了验证。结果显示,在单用户场景下,该方法在三种不同海况/运动条件下的数据检测均方误差(MSE)分别为-14 dB至-13 dB(SPACE)和-16 dB至-10 dB(MACE),且误码率为零。此外,论文展示了一个双用户异步传输场景,通过波束指向和零陷放置,实现了两个用户可靠通信(MSE约-16 dB和-18 dB,零误码)。该方法的实际意义在于,它降低了对反馈信道实时性和精度的要求,使得在长反馈延迟条件下进行可靠的高速下行水声通信成为可能。主要局限性在于,该方法的性能高度依赖于存在一个稳定主导路径的假设,而在强散射或多径能量相当的环境中可能失效;同时,论文未与现有主流方法(如时间反转镜)在相同实验条件下进行直接性能对比,因此无法评估其相对优劣。 ...

2026-05-15 · 更新于 2026-05-19 · 2 min · 352 words

语音/音频论文速递 2026-05-15

语音/音频论文速递 2026-05-15 共分析 20 篇论文 ⚡ 今日概览 📥 抓取 20 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 2篇 ██ #音频分类 2篇 ██ #语音生物标志物 2篇 ██ #说话人验证 2篇 ██ #基准测试 1篇 █ #语音翻译 1篇 █ #音频生成 1篇 █ #基础模型 1篇 █ 📊 论文评分排行榜(20 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 FutureSim: Replaying World Events to Evaluate Adaptive 7.6分 前25% #基准测试 🥈 Refining Pseudo-Audio Prompts with Speech-Text Alignmen 7.5分 前50% #语音识别 🥉 AudioMosaic: Contrastive Masked Audio Representation Le 7.3分 前50% #音频分类 4. A Benchmark for Early-stage Parkinson’s Disease Detecti 7.2分 前30% #语音生物标志物 5. SpeakerLLM: A Speaker-Specialized Audio-LLM for Speaker 7.0分 前25% #说话人验证 6. Streaming Speech-to-Text Translation with a SpeechLLM 6.8分 前25% #语音翻译 7. Break-the-Beat! Controllable MIDI-to-Drum Audio Synthes 6.8分 前50% #音频生成 8. Mini-JEPA Foundation Model Fleet Enables Agentic Hydrol 6.8分 前50% #基础模型 9. Persian MusicGen: A Large-Scale Dataset and Culturally- 6.7分 前50% #音乐生成 10. Physics-Based iOCT Sonification for Real-time Interacti 6.5分 前40% #医疗音频 11. From Text to Voice: A Reproducible and Verifiable Frame 6.3分 前50% #模型评估 12. IsoNet: Spatially-aware audio-visual target speech extr 6.0分 前50% #语音提取 13. FSD50K-Solo: Automated Curation of Single-Source Sound 5.5分 前50% #数据清洗 14. UMo: Unified Sparse Motion Modeling for Real-Time Co-Sp 5.5分 前25% #语音合成 15. Masked Autoencoders with Limited Data: Does It Work? A 5.5分 前50% #音频分类 16. Text-Dependent Speaker Verification (TdSV) Challenge 20 5.5分 前40% #说话人验证 17. PROCESS-2: A Benchmark Speech Corpus for Early Cognitiv 5.4分 前50% #语音生物标志物 18. Transmit Beamforming for High-Rate Underwater Acoustic 5.3分 前50% #水声通信 19. A Calculus-Based Framework for Determining Vocabulary S 3.9分 后50% #语音识别 20. MediaClaw: Multimodal Intelligent-Agent Platform Techni 3.3分 后50% #多模态模型 📋 论文列表 🥇 FutureSim: Replaying World Events to Evaluate Adaptive Agents ✅ 7.6/10 | 前25% | #基准测试 | #大语言模型 | #自适应代理 #测试时适应 | arxiv ...

2026-05-15 · 更新于 2026-05-19 · 15 min · 3187 words

Decoupled Azimuth Elevation AoA Estimation Exploiting Kronecker Separable Steering Matrices

📄 Decoupled Azimuth Elevation AoA Estimation Exploiting Kronecker Separable Steering Matrices #声源定位 #信号处理 #麦克风阵列 #到达角估计 ✅ 7.0/10 | 前25% | #声源定位 | #信号处理 | #麦克风阵列 #到达角估计 | arxiv 学术质量 6.5/8 | 影响力 1.0/2 | 可复现性 0.0/1 | 置信度 高 👥 作者与机构 第一作者:Faizan A. Khattak(利兹大学计算机科学学院) 通讯作者:未明确标注(论文未在作者信息中指定通讯作者) 作者列表:Faizan A. Khattak(利兹大学计算机科学学院)、Ian K. Proudler(斯特拉斯克莱德大学电子电气工程系)、Stephan Weiss(斯特拉斯克莱德大学电子电气工程系)、Fazal-E Asim(巴西联邦大学Ceará分校电信工程系) 💡 毒舌点评 本文提出了一种利用导向矢量的Kronecker可分离结构对二维到达角估计进行维度解耦的框架,推导严谨,为一类特定阵列结构提供了清晰的计算路径。然而,其“state-of-the-art”的声称因基线选择的局限性而大打折扣,实验对比缺乏与近年(2020年后)其他高效二维估计方法的直接较量,且未提供任何可复现材料,这在一定程度上削弱了其说服力。 📌 核心摘要 要解决什么问题:如何在均匀矩形阵列(URA)及其结构化非均匀变体(NURA)中,高效且准确地进行二维到达角(AoA,包括方位角和仰角)估计。传统二维MUSIC等算法计算复杂度高,而现有的一些快速算法(如RD-MUSIC)在精度上有所损失。 方法核心是什么:提出了一种子空间解耦框架。核心思想是,当阵列导向矢量可以表示为方位和仰角导向矢量的Kronecker乘积时,其对应的导向矩阵可以表示为Khatri-Rao乘积。论文推导出如何从阵列协方差矩阵的信号子空间出发,通过一系列矩阵重塑(unvec)、行/列提取、水平拼接和SVD操作,分别恢复出方位和仰角方向的独立信号子空间。 与已有方法相比新在哪里:新在“解耦”思想及其低复杂度的矩阵实现。与直接进行二维谱搜索的MUSIC或基于子阵的ESPRIT不同,本方法在预处理阶段将二维问题分解为两个独立的一维问题,使得经典的一维算法(如root-MUSIC, ESPRIT)可以独立应用于每个维度,最后再进行角度配对。这避免了昂贵的二维谱搜索或复杂的张量运算。 主要实验结果如何:仿真表明,对于URA,在低信噪比和有限快拍数下,所提的De-RMUSIC和De-ESPRIT算法在RMSE性能上优于对比的RD-MUSIC和ESPRIT-MIMO,且对于大阵列优势更明显(见图2、图3)。计算时间上,De-ESPRIT略慢于ESPRIT-MIMO,但远快于RD-MUSIC(见图4)。对于NURA,所提De-MUSIC在保持与2D-MUSIC相当精度的同时,计算复杂度显著降低(见图5、图6),其优化版本De-MUSIC-Opt通过单变量非线性优化进一步提升了效率。 实际意义是什么:为大规模MIMO、三维定位等应用场景中广泛使用的矩形平面阵列提供了一种计算效率更高、在特定条件下精度更优的AoA估计方案,尤其适用于对功耗或计算实时性要求较高的系统。 主要局限性是什么:方法所能估计的源数量存在理论上限(min{M, N}-1),少于传统二维方法(MN-1)。实验对比的基线方法选择有限,未能与近年提出的其他高效二维估计方法进行比较。论文未提供任何代码或可复现材料。此外,所有结论均基于理想化的仿真模型,未考虑实际阵列中的非理想因素。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及。 数据集:论文中未提及。 Demo:论文中未提及。 复现材料:论文未提供代码,但提供了详细的仿真参数(如URA/NURA尺寸、源角度、信噪比范围、快拍数L、RMSE定义)和性能指标,可基于此在MATLAB中复现仿真结果。 论文中引用的开源项目:未提及具体的第三方开源项目链接,主要引用学术文献中的算法(如MUSIC [16], root-MUSIC [11], ESPRIT [15], RD-MUSIC [19], ESPRIT-MIMO [10], gold-MUSIC [14]等)。 🏗️ 方法概述和架构 图1展示了论文所研究的阵列几何结构:(a) 结构化非均匀矩形阵列(NURA)和 (b) 结构化非均匀平行四边形阵列(NUPgA)。图中蓝点表示传感器位置。其核心结构特点是,水平方向上各行传感器的间距模式是相同且与行索引无关的,垂直方向上各列传感器的间距模式也是相同且与列索引无关的。这种结构保证了完整的阵列导向矢量可以分解为水平(方位)和垂直(仰角)导向矢量的Kronecker积,即公式(1):𝐚(μh,μv) = 𝐚h(μh) ⊗ 𝐚v(μv)。这为后续的维度解耦提供了数学基础。 ...

2026-05-14 · 更新于 2026-05-19 · 2 min · 331 words

语音/音频论文速递 2026-05-14

语音/音频论文速递 2026-05-14 共分析 16 篇论文 ⚡ 今日概览 📥 抓取 16 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 2篇 ██ #音频分类 2篇 ██ #语音对话系统 1篇 █ #模型评估 1篇 █ #多智能体协同 1篇 █ #音频事件检测 1篇 █ #乐谱生成 1篇 █ #音频生成 1篇 █ 📊 论文评分排行榜(16 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 EVA-Bench: A New End-to-end Framework for Evaluating Vo 8.0分 前25% #语音对话系统 🥈 Senses Wide Shut: A Representation-Action Gap in Omnimo 8.0分 前50% #模型评估 🥉 EVOCHAMBER: Test-Time Co-evolution of Multi-Agent Syste 8.0分 前25% #多智能体协同 4. NAACA: Training-Free NeuroAuditory Attentive Cognitive 7.0分 前25% #音频事件检测 5. Text2Score: Generating Sheet Music From Textual Prompts 7.0分 前25% #乐谱生成 6. Seconds-Aligned PCA-DAC Latent Diffusion for Symbolic-t 7.0分 前50% #音频生成 7. Bypassing Direct Reconstruction: Speech Detection from 7.0分 前25% #语音活动检测 8. Decoupled Azimuth Elevation AoA Estimation Exploiting K 7.0分 前25% #声源定位 9. WARDEN: Endangered Indigenous Language Transcription an 7.0分 前25% #语音识别 10. Vividh-ASR: A Complexity-Tiered Benchmark and Optimizat 7.0分 前50% #语音识别 11. Scaling few-shot spoken word classification with genera 7.0分 前50% #音频分类 12. GeoBuildBench: A Benchmark for Interactive and Executab 7.0分 前25% #几何推理 13. Keep What Audio Cannot Say: Context-Preserving Token Pr 7.0分 前25% #音视频 14. PresentAgent-2: Towards Generalist Multimodal Presentat 6.5分 前25% #生成模型 15. Does language matter for spoken word classification? A 6.0分 前50% #音频分类 16. Leveraging Multimodal Self-Consistency Reasoning in Cod 6.0分 前50% #动机访谈编码 📋 论文列表 🥇 EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents 🔥 8.0/10 | 前25% | #语音对话系统 | #基准测试 | #语音质量评估 #端到端 | arxiv ...

2026-05-14 · 更新于 2026-05-19 · 11 min · 2240 words