语音/音频论文速递 2026-04-21

语音/音频论文速递 2026-04-21 共分析 34 篇论文 ⚡ 今日概览 📥 抓取 34 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 模型评估 13篇 █████████████ 基准测试 9篇 █████████ 音频大模型 8篇 ████████ 数据集 7篇 ███████ 多语言 7篇 ███████ 多模态模型 5篇 █████ 强化学习 5篇 █████ 语音对话系统 4篇 ████ 📊 论文评分排行榜(34 篇,按分数降序) 排名 论文 评分 🥇 FreezeEmpath: Efficient Training for Empathetic Spoken 10.0分 🥈 Audio-DeepThinker: Progressive Reasoning-Aware Reinforc 9.5分 🥉 VoxSafeBench: Not Just What Is Said, but Who, How, and 9.5分 4 Benign Fine-Tuning Breaks Safety Alignment in Audio LLM 9.0分 5 Prosody as Supervision: Bridging the Non-Verbal–Verbal 9.0分 6 Anonymization, Not Elimination: Utility-Preserved Speec 8.5分 7 MimicLM: Zero-Shot Voice Imitation through Autoregressi 8.5分 8 ArtifactNet: Detecting AI-Generated Music via Forensic 8.5分 9 Audio-Cogito: Towards Deep Audio Reasoning in Large Aud 8.5分 10 LLM-Codec: Neural Audio Codec Meets Language Model Obje 8.5分 11 NIM4-ASR: Towards Efficient, Robust, and Customizable R 8.5分 12 Video-Robin: Autoregressive Diffusion Planning for Inte 8.0分 13 A state-space representation of the boundary integral e 8.0分 14 AVRT: Audio-Visual Reasoning Transfer through Single-Mo 8.0分 15 MoVE: Translating Laughter and Tears via Mixture of Voc 8.0分 16 SELF-EMO: Emotional Self-Evolution from Recognition to 8.0分 17 BhashaSutra: A Task-Centric Unified Survey of Indian NL 8.0分 18 MINT-Bench: A Comprehensive Multilingual Benchmark for 8.0分 19 ICLAD: In-Context Learning with Comparison-Guidance for 7.5分 20 Still Between Us? Evaluating and Improving Voice Assist 7.5分 21 Where Do Self-Supervised Speech Models Become Unfair? 7.5分 22 Neural Encoding Detection is Not All You Need for Synth 7.5分 23 Omni-Embed-Audio: Leveraging Multimodal LLMs for Robust 7.5分 24 Latent Fourier Transform 7.5分 25 Hard to Be Heard: Phoneme-Level ASR Analysis of Phonolo 7.5分 26 VIBE: Voice-Induced open-ended Bias Evaluation for Larg 7.5分 27 Aligning Language Models for Lyric-to-Melody Generation 7.5分 28 ClariCodec: Optimising Neural Speech Codes for 200bps C 7.0分 29 From Reactive to Proactive: Assessing the Proactivity o 7.0分 30 A novel LSTM music generator based on the fractional ti 6.5分 31 Incremental learning for audio classification with Hebb 6.5分 32 Coexisting Tempo Traditions in Beethoven’s Piano and Ce 6.0分 33 FLiP: Towards understanding and interpreting multimodal 5.5分 34 HCFD: A Benchmark for Audio Deepfake Detection in Healt 5.0分 📋 论文列表 🥇 FreezeEmpath: Efficient Training for Empathetic Spoken Chatbots with Frozen LLMs 🔥 10.0分 | #语音对话系统 #多模态模型 #迁移学习 #语音情感识别 | arxiv ...

2026-04-21 · 更新于 2026-05-20 · 13 min · 2659 words

Generalizable Audio-Visual Navigation via Binaural Difference Attention and Action Transition Prediction

📄 Generalizable Audio-Visual Navigation via Binaural Difference Attention and Action Transition Prediction #音视频 #声源定位 #强化学习 #多任务学习 #零样本 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Jia Li(新疆大学,计算机科学与技术学院,联合研究实验室 for Embodied Intelligence) 通讯作者:Yinfeng Yu(新疆大学,计算机科学与技术学院,联合研究实验室 for Embodied Intelligence;邮箱:yuyinfeng@xju.edu.cn) 其他作者:根据署名顺序,论文仅列出了两位作者,Jia Li和Yinfeng Yu。他们共同隶属于以下机构: 新疆大学,联合研究实验室 for Embodied Intelligence 新疆大学,丝绸之路多语种认知计算联合国际研究实验室 新疆大学,计算机科学与技术学院,乌鲁木齐 830017,中国 💡 毒舌点评 亮点:这论文把“听声辨位”这件事整明白了!BDA模块不搞虚的,直接让左右耳特征“打架”(算差值),逼着模型关注声音从哪边来,而不是这是什么声音,这对没见过的声音特别管用。ATP任务像给导航策略上了个“行为矫正器”,让动作更连贯,减少在陌生环境里原地转圈的傻行为。 槽点:方法组合拳虽然有效,但每个拳法(BDA, ATP)本身都不算开宗立派,更像是给现有强力基线(AV-WaN)打了个高效的“补丁”。另外,论文里那些“ Hear Sharper, Act Smarter”的口号,比技术细节更让人印象深刻。 🔗 开源详情 代码:论文在作者信息下方明确提供了GitHub链接(https://github.com/...,具体地址需查看arXiv源文件或点击HTML版本中的链接)。表明代码已开源。 模型权重:论文中未明确提及是否公开预训练模型权重。 数据集:实验使用的是公开的SoundSpaces仿真平台、Replica和Matterport3D数据集,非本文自建。 在线Demo:论文中未提及。 依赖的开源项目:论文依赖SoundSpaces仿真环境、以及可能基于PyTorch等深度学习框架。引用的基线方法(如AV-NaV, AV-WaN)的代码可能也是其依赖。 📌 核心摘要 本文旨在解决音频-视觉导航(AVN)智能体在未见环境和未闻声音类别下泛化能力差的核心问题。作者指出,现有方法性能下降主要源于两个因素:一是音频表征混淆了语义与空间信息,导致对未闻声��定位不准;二是强化学习策略过拟合于训练环境的动态和布局。为此,本文提出了一个名为BDATP的即插即用框架。在感知层面,设计了双耳差分注意力模块,通过显式建模和利用左右声道特征的差异,强化模型对空间方位线索的提取,降低对声音语义的依赖。在策略层面,引入了动作转移预测辅助任务,通过预测轨迹中下一步的动作来增加策略学习的时序一致性约束,鼓励模型学习跨环境的通用导航规律。在Replica和Matterport3D数据集上的大量实验表明,将BDATP集成到AV-NaV和AV-WaN等主流基线中,能带来一致且显著的性能提升,尤其在最具挑战性的未闻声音设置下,成功率最高可提升超过21个百分点,证明了其优越的泛化能力和鲁棒性。 🏗️ 模型架构 BDATP框架整体是一个端到端的强化学习系统,以深度图像和双耳声谱图为输入,输出导航动作。其核心流程和组件如下: 输入与编码: 视觉输入:智能体的第一人称深度图像,通过一个独立的CNN编码器(三个卷积层+线性层+ReLU)编码为512维的视觉特征 f_v。 音频输入:双耳声谱图(左右声道)。首先沿声道维度分离为左、右两个单声道声谱图。然后,通过一个权重共享的CNN编码器(结构与视觉编码器相同)分别编码,得到中间特征图 f_al 和 f_ar。 双耳差分注意力模块: ...

2026-04-20 · 更新于 2026-05-20 · 3 min · 526 words

语音/音频论文速递 2026-04-20

语音/音频论文速递 2026-04-20 共分析 24 篇论文 ⚡ 今日概览 📥 抓取 24 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 基准测试 6篇 ██████ 多模态模型 5篇 █████ 语音对话系统 4篇 ████ 大语言模型 4篇 ████ 多语言 4篇 ████ 数据集 4篇 ████ 跨模态 3篇 ███ 模型评估 3篇 ███ 📊 论文评分排行榜(24 篇,按分数降序) 排名 论文 评分 🥇 Qwen3.5-Omni Technical Report 9.5分 🥈 Beyond Monologue: Interactive Talking-Listening Avatar 9.0分 🥉 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 8.5分 4 Generalizable Audio-Visual Navigation via Binaural Diff 8.5分 5 Hierarchical Codec Diffusion for Video-to-Speech Genera 8.5分 6 VoxMind: An End-to-End Agentic Spoken Dialogue System 8.5分 7 ArtifactNet: Detecting AI-Generated Music via Forensic 8.0分 8 Full-Duplex-Bench-v3: Benchmarking Tool Use for Full-Du 8.0分 9 ActorMind: Emulating Human Actor Reasoning for Speech R 8.0分 10 Elucidating the SNR-t Bias of Diffusion Probabilistic M 8.0分 11 HARNESS: Lightweight Distilled Arabic Speech Foundation 7.5分 12 NaijaS2ST: A Multi-Accent Benchmark for Speech-to-Speec 7.5分 13 NVBench: A Benchmark for Speech Synthesis with Non-Verb 7.5分 14 AST: Adaptive, Seamless, and Training-Free Precise Spee 7.5分 15 Temporal Contrastive Decoding: A Training-Free Method f 7.5分 16 Joint-Centric Dual Contrastive Alignment with Structure 7.5分 17 Discrete Token Modeling for Multi-Stem Music Source Sep 7.0分 18 Spatial-Aware Conditioned Fusion for Audio-Visual Navig 7.0分 19 BlasBench: An Open Benchmark for Irish Speech Recogniti 7.0分 20 TinyMU: A Compact Audio-Language Model for Music Unders 6.5分 21 Interactive ASR: Towards Human-Like Interaction and Sem 6.5分 22 PS-TTS: Phonetic Synchronization in Text-to-Speech for 6.0分 23 MUSCAT: MUltilingual, SCientific ConversATion Benchmark 6.0分 24 The Acoustic Camouflage Phenomenon: Re-evaluating Speec 2.5分 📋 论文列表 🥇 Qwen3.5-Omni Technical Report 🔥 9.5分 | #语音对话系统, #音频大模型, #多模态模型, #预训练, | arxiv ...

2026-04-20 · 更新于 2026-05-20 · 10 min · 2068 words