HRTF | 语音/音频论文速递

ICASSP 2026 语音/音频论文详细分析共分析 898 篇 ICASSP 2026 论文 🎯 任务分类点击任务标签查看该方向所有论文：语音识别（102篇）语音增强（75篇）语音合成（63篇）语音情感识别（49篇）音频分类（39篇）音频生成（39篇）音乐生成（31篇）空间音频（31篇）音频深度伪造检测（29篇）音乐信息检索（26篇）语音分离（25篇）语音生物标志物（24篇）音频事件检测（21篇）模型评估（16篇）声源定位（15篇）音频问答（15篇）生物声学（12篇）音频安全（11篇）音频检索（11篇）音乐理解（11篇）语音对话系统（10篇）语音匿名化（10篇）说话人验证（10篇）说话人分离（9篇）语音转换（9篇）语音质量评估（8篇）语音翻译（8篇）语音伪造检测（8篇）多模态模型（6篇）音视频（6篇）语音编码（5篇）基准测试（5篇）语音评估（5篇）语音活动检测（5篇）歌唱语音合成（5篇）语音克隆（4篇）语音问答（3篇）情感分析（3篇）音频场景理解（3篇）音频增强（3篇）语音识别 #语音翻译（3篇）数据集（3篇）音乐检索（3篇）语音大模型（3篇）歌唱语音转换（3篇）视觉语音识别（2篇）多模态情感识别（2篇）信号处理（2篇）语音理解（2篇）领域适应（2篇）听觉注意力解码（2篇）多模态情感分析（2篇）情感识别（2篇）跨模态（2篇）音频压缩（2篇）音乐源分离（2篇）关键词检测（2篇）说话人日志（2篇）跨模态检索（2篇）水下声学目标识别（2篇）视频生成（2篇）听觉注意解码（1篇）视频高光检测（1篇）多音高估计 #音符跟踪（1篇）歌唱语音转录（1篇）异常声音检测（1篇）脑机接口（1篇）脑信号编码（1篇）实体消歧（1篇）音频检索 #音频分类（1篇）目标说话人提取（1篇）语音转换 #语音增强（1篇）音频超分辨率（1篇）基频估计（1篇）语音发现（1篇）语音表示学习（1篇）数据集对齐（1篇）预训练（1篇）医疗AI（1篇）语音解码（1篇）说话人合成（1篇）说话人脸生成（1篇）说话人检测（1篇）多模态对话意图识别（1篇）视频理解（1篇）音乐推荐（1篇）视频设备识别（1篇）说话人识别（1篇）房间脉冲响应去噪（1篇）音频质量评估（1篇）主动降噪（1篇）舞蹈生成（1篇）歌唱旋律提取（1篇）声场估计（1篇）语音编码器（1篇）音频编辑（1篇）零样本关键词检测（1篇）音频分离（1篇）音频无损编码（1篇）语音增强 #对抗防御（1篇）音视频实例分割（1篇）视频到音频生成（1篇）语音摘要（1篇）音频水印（1篇）说话人日志 #语音分离（1篇）联邦学习（1篇）音乐混合（1篇）视频片段检索（1篇）神经解码（1篇）视频检索（1篇）语音驱动动作生成（1篇）视频问答（1篇）音频分类 #零样本学习（1篇）主题建模（1篇）说话人生成（1篇）对抗样本（1篇）音频描述（1篇）主动噪声控制（1篇）音乐分离（1篇）音乐源提取（1篇）音乐转录（1篇）房间脉冲响应（1篇）语音识别 #语音合成（1篇）音频场景分类（1篇）多通道（1篇）音频效果估计（1篇）音频信号处理（1篇）回声消除（1篇）语音生成（1篇）实时处理（1篇）音频大模型（1篇）声学建模（1篇）迁移学习（1篇）课堂阶段分割（1篇）噪声控制（1篇）音频字幕生成（1篇）轻度认知障碍检测（1篇）音乐分类（1篇）槽填充（1篇）多模态学习（1篇） ⚡ 今日概览 📥 898 篇 → 🔬 深度分析完成 ...

📄 Individualize the HRTF Neural Field Using Anthropometric Parameters Weighted by Direction-Attention #空间音频 #个性化建模 #HRTF #条件神经场 ✅ 7.0/10 | 前25% | #空间音频 | #条件神经场 | #个性化建模 #HRTF 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yuhang Xiao（武汉大学计算机学院，国家多媒体软件工程研究中心）通讯作者：Xiaochen Wang（武汉大学计算机学院，国家多媒体软件工程研究中心）作者列表：Yuhang Xiao（武汉大学计算机学院，国家多媒体软件工程研究中心）、Xiaochen Wang（武汉大学计算机学院，国家多媒体软件工程研究中心）、Chenhao Hu（小米公司）、XueYang Lv（小米公司）、Miaomiao Li（武汉大学计算机学院，国家多媒体软件工程研究中心）、Yulin Wu（江汉大学人工智能学院）、Jiajun Yuan（武汉大学计算机学院，国家多媒体软件工程研究中心） 💡 毒舌点评该论文的亮点在于其系统性：从方向依赖性的物理直觉出发，设计了“方向注意力编码器”并系统比较了多种条件神经场的映射方式（FiLM、HyperNet、Cat），实验设计环环相扣，说服力较强。然而，其短板同样明显：作为一个强调“可复现”和“实际应用”的工作，却在论文中完全缺失了代码、模型、关键训练细节的公开计划，这与其推动“新范式”的雄心形成了鲜明对比，实用性大打折扣。 🔗 开源详情代码：论文中未提及代码仓库链接或开源计划。模型权重：论文中未提及公开任何预训练模型权重。数据集：使用了公开的HUTUBS和CIPIC数据库，但论文未说明其获取方式或是否进行了特定预处理。 Demo：论文中未提及提供在线演示。复现材料：论文未提供详细的训练日志、配置文件、检查点或附录补充实验细节。关键超参数（如各阶段的学习率、优化器、训练轮数、网络隐藏维度等）均未给出。论文中引用的开源项目：引用的骨干网络算法来自文献[28]（NiIRF），但论文未说明是否基于其开源实现或如何集成。其他引用（如数据集[34,35]）为标准资源。 📌 核心摘要要解决什么问题：解决传统HRTF（头部相关传递函数）个性化方法（测量、声学仿真）成本高、难部署的问题，以及现有机器学习方法在HRTF高维数据建模上精度与规模的权衡难题。方法核心是什么：提出一个条件神经场（NeRF）框架。核心是设计一个方向注意力编码器，根据声源方向（方位角、仰角）为不同的人体测量参数分配不同的注意力权重，然后将其编码为个人特征；再通过一个特征线性调制（FiLM）网络，将个人特征逐层注入到作为骨干网络的HRTF NeRF中，从而调制生成个性化的HRTF频谱。与已有方法相比新在哪里：1) 范式迁移：首次将条件神经场技术从HRTF的空间插值任务系统性地拓展到个性化HRTF生成任务。2) 方向感知编码：引入了方向注意力机制，考虑了人体测量参数对不同方向HRTF影响的差异性。3) 系统化比较与优化：对条件神经场中的编码（硬/软权重、超网络）和映射（FiLM、HyperNet、拼接）方式进行了全面的消融实验对比，确定了最优组合。主要实验结果如何：在HUTUBS和CIPIC两个数据库上，所提最佳组合（硬权重+FiLM+冻结骨干两阶段训练）取得了优于对比方法的客观性能（以对数谱失真LSD衡量）。关键结果对比如下：数据库最佳方法 (Proposed) 最佳基线方法 LSD (Proposed) LSD (最佳基线) HUTUBS 硬权重+FiLM LightGBM-Transformer 4.611 dB 4.690 dB CIPIC 硬权重+FiLM SHT-VGG 5.066 dB 5.310 dB 论文未提供主观听感实验结果。实际意义是什么：为个性化空间音频渲染提供了一种新的、潜在更高效准确的建模思路。该框架仅需少量人体测量参数即可生成未知个体的HRTF，若能实现开源部署，将有助于降低高品质个性化空间音频应用的门槛。主要局限性是什么：1) 评估局限：仅使用客观指标LSD进行评估，缺乏主观听感测试（如定位准确度、音质偏好），无法全面验证方法的实际听觉效果。2) 复现性缺失：论文未提供代码、模型权重及关键训练细节，严重阻碍了学术界的验证与应用。3) 创新深度：核心编码器和调制器的结构相对简单，更侧重于将现有技术进行有效组合与应用验证。 🏗️ 模型架构论文的整体架构如图1所示，主要由三大部分组成：编码器（Encoder）、调制器（Modulator）和骨干网络（Backbone）。 ...