ICASSP 2026 语音/音频论文详细分析

ICASSP 2026 语音/音频论文详细分析 共分析 898 篇 ICASSP 2026 论文 🎯 任务分类 点击任务标签查看该方向所有论文: 语音识别(102篇) 语音增强(75篇) 语音合成(63篇) 语音情感识别(49篇) 音频分类(39篇) 音频生成(39篇) 音乐生成(31篇) 空间音频(31篇) 音频深度伪造检测(29篇) 音乐信息检索(26篇) 语音分离(25篇) 语音生物标志物(24篇) 音频事件检测(21篇) 模型评估(16篇) 声源定位(15篇) 音频问答(15篇) 生物声学(12篇) 音频安全(11篇) 音频检索(11篇) 音乐理解(11篇) 语音对话系统(10篇) 语音匿名化(10篇) 说话人验证(10篇) 说话人分离(9篇) 语音转换(9篇) 语音质量评估(8篇) 语音翻译(8篇) 语音伪造检测(8篇) 多模态模型(6篇) 音视频(6篇) 语音编码(5篇) 基准测试(5篇) 语音评估(5篇) 语音活动检测(5篇) 歌唱语音合成(5篇) 语音克隆(4篇) 语音问答(3篇) 情感分析(3篇) 音频场景理解(3篇) 音频增强(3篇) 语音识别 #语音翻译(3篇) 数据集(3篇) 音乐检索(3篇) 语音大模型(3篇) 歌唱语音转换(3篇) 视觉语音识别(2篇) 多模态情感识别(2篇) 信号处理(2篇) 语音理解(2篇) 领域适应(2篇) 听觉注意力解码(2篇) 多模态情感分析(2篇) 情感识别(2篇) 跨模态(2篇) 音频压缩(2篇) 音乐源分离(2篇) 关键词检测(2篇) 说话人日志(2篇) 跨模态检索(2篇) 水下声学目标识别(2篇) 视频生成(2篇) 听觉注意解码(1篇) 视频高光检测(1篇) 多音高估计 #音符跟踪(1篇) 歌唱语音转录(1篇) 异常声音检测(1篇) 脑机接口(1篇) 脑信号编码(1篇) 实体消歧(1篇) 音频检索 #音频分类(1篇) 目标说话人提取(1篇) 语音转换 #语音增强(1篇) 音频超分辨率(1篇) 基频估计(1篇) 语音发现(1篇) 语音表示学习(1篇) 数据集对齐(1篇) 预训练(1篇) 医疗AI(1篇) 语音解码(1篇) 说话人合成(1篇) 说话人脸生成(1篇) 说话人检测(1篇) 多模态对话意图识别(1篇) 视频理解(1篇) 音乐推荐(1篇) 视频设备识别(1篇) 说话人识别(1篇) 房间脉冲响应去噪(1篇) 音频质量评估(1篇) 主动降噪(1篇) 舞蹈生成(1篇) 歌唱旋律提取(1篇) 声场估计(1篇) 语音编码器(1篇) 音频编辑(1篇) 零样本关键词检测(1篇) 音频分离(1篇) 音频无损编码(1篇) 语音增强 #对抗防御(1篇) 音视频实例分割(1篇) 视频到音频生成(1篇) 语音摘要(1篇) 音频水印(1篇) 说话人日志 #语音分离(1篇) 联邦学习(1篇) 音乐混合(1篇) 视频片段检索(1篇) 神经解码(1篇) 视频检索(1篇) 语音驱动动作生成(1篇) 视频问答(1篇) 音频分类 #零样本学习(1篇) 主题建模(1篇) 说话人生成(1篇) 对抗样本(1篇) 音频描述(1篇) 主动噪声控制(1篇) 音乐分离(1篇) 音乐源提取(1篇) 音乐转录(1篇) 房间脉冲响应(1篇) 语音识别 #语音合成(1篇) 音频场景分类(1篇) 多通道(1篇) 音频效果估计(1篇) 音频信号处理(1篇) 回声消除(1篇) 语音生成(1篇) 实时处理(1篇) 音频大模型(1篇) 声学建模(1篇) 迁移学习(1篇) 课堂阶段分割(1篇) 噪声控制(1篇) 音频字幕生成(1篇) 轻度认知障碍检测(1篇) 音乐分类(1篇) 槽填充(1篇) 多模态学习(1篇) ⚡ 今日概览 📥 898 篇 → 🔬 深度分析完成 ...

2026-05-01 · 更新于 2026-05-19 · 430 min · 91382 words

A New Location Estimator for Mixed LOS & NLOS scenarios

📄 A New Location Estimator for Mixed LOS & NLOS scenarios #无线定位 #声源定位 #信号处理 #3D音频 #鲁棒性 ✅ 7.5/10 | 前25% | #声源定位 | #信号处理 | #无线定位 #3D音频 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Gaurav Duggal (Virginia Tech, Bradley Department of Electrical and Computer Engineering, Wireless@VT) 通讯作者:未明确指定,从作者列表和致谢信息看,所有作者贡献相当。 作者列表: Gaurav Duggal (Virginia Tech, Wireless@VT) R. Michael Buehrer (Virginia Tech, Wireless@VT) Harpreet S. Dhillon (Virginia Tech, Wireless@VT) Jeffrey H. Reed (Virginia Tech, Wireless@VT) 💡 毒舌点评 这篇论文的亮点在于其数学上的“优雅”:它没有回避NLOS场景的复杂性,而是用一个统一的衍射路径模型将其无缝涵盖,并通过“虚拟锚点”这一巧妙的数学构造,将非线性的3D问题降维成可高效求解的2D子问题,展现了扎实的理论功底和算法设计能力。短板则相当明显——所有结论都停留在精心设计的计算机仿真里,未给出任何在真实建筑、真实信号传播环境下的验证;其模型假设(如仅考虑单次边缘衍射)在复杂室内外环境中是否成立,需要打上一个大大的问号。 ...

2026-04-30 · 更新于 2026-05-19 · 2 min · 319 words

语音/音频论文速递 2026-04-30

语音/音频论文速递 2026-04-30 共分析 25 篇论文 ⚡ 今日概览 📥 抓取 25 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 4篇 ████ #音频深度伪造检测 2篇 ██ #声源定位 2篇 ██ #音视频 1篇 █ #语音克隆 1篇 █ #说话人验证 1篇 █ #语音匿名化 1篇 █ #语音情感识别 1篇 █ 📊 论文评分排行榜(25 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 PSP: An Interpretable Per-Dimension Accent Benchmark fo 9.0分 前25% #语音合成 🥈 Hallo-Live: Real-Time Streaming Joint Audio-Video Avata 8.5分 前25% #音视频 🥉 One Voice, Many Tongues: Cross-Lingual Voice Cloning fo 8.0分 前25% #语音克隆 4. Similarity Choice and Negative Scaling in Supervised Co 8.0分 前25% #音频深度伪造检测 5. Praxy Voice: Voice-Prompt Recovery + BUPS for Commercia 8.0分 前25% #语音合成 6. Dual-LoRA: Parameter-Efficient Adversarial Disentanglem 7.5分 前25% #说话人验证 7. SPG-Codec: Exploring the Role and Boundaries of Semanti 7.5分 前25% #语音合成 8. DiffAnon: Diffusion-based Prosody Control for Voice Ano 7.5分 前25% #语音匿名化 9. Diffusion Reconstruction towards Generalizable Audio De 7.5分 前25% #音频深度伪造检测 10. EmoTransCap: Dataset and Pipeline for Emotion Transitio 7.5分 前25% #语音情感识别 11. Hankel and Toeplitz Rank-1 Decomposition of Arbitrary M 7.5分 前50% #声源定位 12. A New Location Estimator for Mixed LOS & NLOS scena 7.5分 前25% #声源定位 13. Multimodal LLMs are not all you need for Pediatric Spee 7.5分 前25% #语音分类 14. StarDrinks: An English and Korean Test Set for SLU Eval 7.5分 前25% #数据集 15. Tatemae: Detecting Alignment Faking via Tool Selection 7.5分 前25% #大语言模型 16. Step-Audio-R1.5 Technical Report 7.5分 前25% #语音对话系统 17. Preferences of a Voice-First Nation: Large-Scale Pairwi 7.5分 前25% #语音合成 18. The False Resonance: A Critical Examination of Emotion 7.0分 前25% #语音情感识别 #模型评估 19. A Toolkit for Detecting Spurious Correlations in Speech 7.0分 前50% #模型评估 20. Multiple Additive Neural Networks for Structured and Un 7.0分 前50% #表格数据预测 21. Random Cloud: Finding Minimal Neural Architectures With 7.0分 前50% #模型架构搜索 22. Recurrence-Based Nonlinear Vocal Dynamics as Digital Bi 6.5分 前50% #语音生物标志物 23. Full band denoising of room impulse response in the wav 6.5分 前50% #音频信号处理 24. Text-Utilization for Encoder-dominated Speech Recogniti 6.5分 前50% #语音识别 25. Fitting Large Nonlinear Mixed Effects Models Using Vari 6.5分 前50% #统计计算 📋 论文列表 🥇 PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech 🔥 9.0/10 | 前25% | #语音合成 | #模型评估 | #自监督学习 #多语言 | arxiv ...

2026-04-30 · 更新于 2026-05-19 · 16 min · 3385 words

3D Mesh Grid Room Impulse Responses Measured with A Linear Microphone Array And Suppression of Frame Reflections

📄 3D Mesh Grid Room Impulse Responses Measured with A Linear Microphone Array And Suppression of Frame Reflections #空间音频 #3D音频 #麦克风阵列 #信号处理 #数据集 🔥 8.3/10 | 前25% | #空间音频 | #麦克风阵列 | #3D音频 #信号处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Yoichi Haneda(The University of Electro-Communications, Tokyo, Japan) 通讯作者:未说明 作者列表:Yoichi Haneda(The University of Electro-Communications)、Yi Ren(The University of Electro-Communications) 💡 毒舌点评 亮点在于其“授人以渔”的思路:不仅提供了一个罕见的、高分辨率的3D实测RIR数据集,还详细阐述了为获取该数据集而开发的、用于抑制测量系统自身干扰的专用信号处理方法,这为后续类似测量工作提供了实用参考。短板在于测量系统本身引入了需要额外处理的人工反射,且该方法的有效性在空间边缘区域有所下降,限制了数据集的完整利用率。 🔗 开源详情 代码:论文提供了频率-波数域掩蔽处理的参考实现链接(https://github.com/xefonon/RIRPINN),以及用于测量的playrec工具的安装说明链接。 模型权重:未提及。 数据集:是,已公开。数据集可通过项目主页(https://yh-audio.github.io/meshgrid-ir.html)获取,并永久存档于Zenodo(https://doi.org/10.5281/zenodo.17051811)。 Demo:未提及在线演示。 复现材料:论文详细给出了测量系统参数、数据处理步骤、降采样配置等关键信息,足以支撑复现其数据处理流程。对于数据集的使用,提供了格式说明。 论文中引用的开源项目:playrec(用于音频测量)、RIRPINN(用于PINN插值实验验证)。 📌 核心摘要 本文旨在构建一个大规模、高空间分辨率的3D房间脉冲响应(RIR)数据库,以支持RIR插值、外推及基于物理信息神经网络(PINN)等机器学习方法的研究。为解决使用线性麦克风阵列进行自动化三维扫描时,支撑导轨和框架会产生不可忽略的早期反射干扰这一核心问题,作者提出了一种基于频率-波数域的二进制掩蔽方法。该方法通过二维傅里叶变换将信号变换到频域-波数域,识别并抑制主要沿特定方向(如x轴或z轴)传播的框架反射分量。实验表明,该方法有效抑制了位于直达声之后的框架反射。利用该系统,作者在一个8.4m×6.14m×2.66m的房间内,针对4个扬声器位置,以2cm的网格间距测量了共计4×63,648个RIRs(16kHz采样率)。所有数据已公开。PINN插值实验证实了该数据集用于驱动数据驱动声场重建模型的有效性。主要局限性包括:处理后边缘麦克风的反射抑制效果不佳需被剔除;测量环境受限于特定房间及扫描体积。 ...

2026-04-29 · 更新于 2026-05-19 · 1 min · 202 words

Microphone-Less Measurement of Three-Dimensional Radiating Impulse Response of Sound Source using Spherical Harmonic-Domain Acousto-Optic Tomography

📄 Microphone-Less Measurement of Three-Dimensional Radiating Impulse Response of Sound Source using Spherical Harmonic-Domain Acousto-Optic Tomography #声源定位 #信号处理 #3D音频 #麦克风阵列 ✅ 7.0/10 | 前25% | #声源定位 | #信号处理 | #3D音频 #麦克风阵列 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 -1.0 | 置信度 高 👥 作者与机构 第一作者:Yuzuki Saito(早稻田大学) 通讯作者:未说明 作者列表:Yuzuki Saito(早稻田大学)、Kenji Ishikawa(NTT, Inc.)、Risako Tanigawa(早稻田大学 & NTT, Inc.)、Yasuhiro Oikawa(早稻田大学) 💡 毒舌点评 这篇论文巧妙地利用高速光学成像“绕过”了麦克风阵列的物理限制,首次实现了声源三维脉冲响应的无接触全空间测量,概念上堪称“声学CT”。其主要短板在于,这种基于物理模型的重建方法计算复杂度高,且受限于球谐展开的阶数,在高频和低频两端的重建精度明显下降,表明该方法目前更像一个精确但笨重的“原型”,距离便捷实用的工程工具还有距离。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:不适用。未提及公开任何模型权重。 数据集:未提及。 Demo:未提及。 复现材料:论文提供了详细的实验条件参数表(表1、表2)和方法描述,但缺乏算法实现的关键细节(如tsVD的具体截断策略、矩阵构建的优化代码),复现难度极高。 论文中引用的开源项目:论文引用了多篇光学和声学测量的参考文献,但未明确指出依赖于特定的开源软件库或工具。 📌 核心摘要 本文旨在解决传统麦克风阵列测量声源三维脉冲响应(IR)时存在的空间分辨率受限和干扰声场等问题。论文提出了一种基于球谐域声光层析成像(SH-AOT)的新方法。其核心是利用并行相移干涉术(PPSI)从多个方向测量声源辐射的延时脉冲(TSP)信号,获得多个二维线积分IR(LIR),然后利用基于亥姆霍兹方程的物理模型,通过求解球谐系数,从这些线积分数据中重建出三维的点状IR。与已有的仅能获取二维LIR的PPSI方法相比,本工作的创新点在于实现了三维重建;与麦克风阵列相比,其优势是非接触、高空间分辨率且不干扰声场。实验使用扬声器作为声源,将PPSI测量结果与16通道线性麦克风阵列的扫描测量结果进行对比。结果显示,两种方法得到的声辐射模式一致(见图2),单点波形和频谱在主要频段吻合较好(见图3),并成功可视化了三维IR的辐射球面波(见图4)。该工作的实际意义是为声源三维特性分析提供了一种全新的高分辨率测量手段。其主要局限性是高频重建不完美(受球谐阶数M=5限制)和低频测量困难(受光学方法原理限制),且计算复杂度高。 🏗️ 模型架构 本文的核心不是传统的数据驱动神经网络,而是一个基于物理模型的信号处理与重建框架。其流程可以视为一个多阶段的“计算成像”流水线。 ...

2026-04-29 · 更新于 2026-05-19 · 1 min · 161 words

PSTalker: Realistic 3D Talking Head Synthesis via a Semantic-Aware Audio-Driven Point-Based Shape

📄 PSTalker: Realistic 3D Talking Head Synthesis via a Semantic-Aware Audio-Driven Point-Based Shape #语音合成 #音视频 #3D音频 #生成模型 #实时处理 ✅ 7.5/10 | 前25% | #说话人合成 | #3D音频 | #语音合成 #音视频 学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Zhongyuan Zhao(北京大学电子与计算机工程学院,鹏城实验室) 通讯作者:Kanglin Liu(鹏城实验室) 作者列表:Zhongyuan Zhao(北京大学电子与计算机工程学院,鹏城实验室)、Qing Li(鹏城实验室)、Kanglin Liu(鹏城实验室) 💡 毒舌点评 论文巧妙地将语义先验融入点基形状表示,有效解决了头颈接合处的“断裂”伪影,这是当前3DGS方法的一个显著痛点,体现了其工程洞察力。然而,其对非刚性形变(如头发细节)的建模能力、以及在多人种、复杂表情下的泛化能力验证略显不足,且“高保真”渲染的细节处理(如动态光照、微表情)仍有提升空间。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:论文中提及使用的数据来源于之前的公开工作(ER-NeRF, TalkingGaussian, GaussianTalker),但并未明确声明自己收集的数据集是否开源或如何获取。 Demo:未提及在线演示。 复现材料:论文提供了一些训练细节,如两阶段训练、损失函数组成、使用HuBERT提取特征、以及大致的优化器类型(SparseAdam, AdamW)和推理硬件(RTX 3090),但缺少学习率、批次大小、训练轮次等关键超参数。 引用的开源项目:论文依赖并引用��多个开源工作,包括FLAME模型、3D Gaussian Splatting、HuBERT(用于音频特征提取)等。 总结:论文中未提及开源计划。 📌 核心摘要 问题:现有的音频驱动3D说话头生成方法(基于NeRF或3DGS)存在唇同步不准确、在头部转动时头颈接合处产生伪影、以及合成结果缺乏参数化可控性三大挑战。 核心方法:提出PSTalker框架,包含两大核心:语义感知点基形状模型——在FLAME网格上基于语义标签采样点,并沿法线方向偏移,以统一建模面部与非面部(如头发、躯干)结构;刚柔耦合合成模型——将音频驱动的灵活面部变形与基于线性混合蒙皮的头部刚体运动显式耦合,增强运动稳定性。 创新性:1)提出SAPS模型,首次用统一的点基表示解决了头颈几何连贯性问题;2)设计RFC模型,将高自由度的音频到运动映射锚定在稳定的几何先验上,提升了唇同步精度和运动自然性;3)继承了FLAME的参数化控制能力,实现了对合成结果的姿态编辑。 主要实验结果:在四个说话人数据集上进行自驱动和跨驱动测试。在跨驱动设置下,本文方法(Sync-C: 6.9982, Sync-D: 7.9911)显著优于最强基线TalkingGaussian(Sync-C: 6.4075, Sync-D: 8.4689)。消融实验表明,移除SAPS或RFC均导致唇同步指标(Sync-C)和运动自然度指标(AUE)明显下降。 实际意义:为生成可控、逼真、无伪影的3D说话头像提供了高效方案,可应用于虚拟社交、数字人直播、影视配音等场景。 主要局限性:方法依赖于针对特定说话人的短视频进行训练,限制了其对高度发散音频模式(如歌唱)的泛化能力;论文未提供代码和模型,开源信息不足。 🏗️ 模型架构 PSTalker是一个两阶段的框架,旨在从音频和参考视频生成逼真的、可控制的3D说话头像。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 307 words

Sounds that Shape: Audio-Driven 3D Mesh Generation with Attribute-Decoupled Score Distillation Sampling

📄 Sounds that Shape: Audio-Driven 3D Mesh Generation with Attribute-Decoupled Score Distillation Sampling #音频生成 #3D音频 #扩散模型 #知识蒸馏 #跨模态 ✅ 7.0/10 | 前25% | #音频生成 | #扩散模型 | #3D音频 #知识蒸馏 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Bumsoo Kim(Chung-Ang University, Republic of Korea) 通讯作者:Sanghyun Seo†(Chung-Ang University, Republic of Korea) 作者列表:Bumsoo Kim(Chung-Ang University, Republic of Korea), Sanghyun Seo(Chung-Ang University, Republic of Korea) 💡 毒舌点评 亮点在于巧妙地绕过了构建昂贵的音频-3D数据集的难题,直接利用现有强大的音频-图像扩散模型知识,通过“属性解耦引导”这一符合3D Gaussian Splatting特性的设计,将文本和音频的各自优势“分配”到几何和纹理上,实现了1+1>2的效果。短板则是其验证强度略显不足,仅用80个样本的微型数据集就得出“SOTA”结论,且未展示对非环境音、非语义音等复杂音频的处理能力,让人对其在真实世界中的鲁棒性和泛化性打个问号。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 288 words