语音/音频论文速递 2026-04-20

语音/音频论文速递 2026-04-20 共分析 24 篇论文 ⚡ 今日概览 📥 抓取 24 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 基准测试 6篇 ██████ 多模态模型 5篇 █████ 语音对话系统 4篇 ████ 大语言模型 4篇 ████ 多语言 4篇 ████ 数据集 4篇 ████ 跨模态 3篇 ███ 模型评估 3篇 ███ 📊 论文评分排行榜(24 篇,按分数降序) 排名 论文 评分 🥇 Qwen3.5-Omni Technical Report 9.5分 🥈 Beyond Monologue: Interactive Talking-Listening Avatar 9.0分 🥉 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 8.5分 4 Generalizable Audio-Visual Navigation via Binaural Diff 8.5分 5 Hierarchical Codec Diffusion for Video-to-Speech Genera 8.5分 6 VoxMind: An End-to-End Agentic Spoken Dialogue System 8.5分 7 ArtifactNet: Detecting AI-Generated Music via Forensic 8.0分 8 Full-Duplex-Bench-v3: Benchmarking Tool Use for Full-Du 8.0分 9 ActorMind: Emulating Human Actor Reasoning for Speech R 8.0分 10 Elucidating the SNR-t Bias of Diffusion Probabilistic M 8.0分 11 HARNESS: Lightweight Distilled Arabic Speech Foundation 7.5分 12 NaijaS2ST: A Multi-Accent Benchmark for Speech-to-Speec 7.5分 13 NVBench: A Benchmark for Speech Synthesis with Non-Verb 7.5分 14 AST: Adaptive, Seamless, and Training-Free Precise Spee 7.5分 15 Temporal Contrastive Decoding: A Training-Free Method f 7.5分 16 Joint-Centric Dual Contrastive Alignment with Structure 7.5分 17 Discrete Token Modeling for Multi-Stem Music Source Sep 7.0分 18 Spatial-Aware Conditioned Fusion for Audio-Visual Navig 7.0分 19 BlasBench: An Open Benchmark for Irish Speech Recogniti 7.0分 20 TinyMU: A Compact Audio-Language Model for Music Unders 6.5分 21 Interactive ASR: Towards Human-Like Interaction and Sem 6.5分 22 PS-TTS: Phonetic Synchronization in Text-to-Speech for 6.0分 23 MUSCAT: MUltilingual, SCientific ConversATion Benchmark 6.0分 24 The Acoustic Camouflage Phenomenon: Re-evaluating Speec 2.5分 📋 论文列表 🥇 Qwen3.5-Omni Technical Report 🔥 9.5分 | #语音对话系统, #音频大模型, #多模态模型, #预训练, | arxiv ...

2026-04-20

Sky-Ear: An Unmanned Aerial Vehicle-Enabled Victim Sound Detection and Localization System

📄 Sky-Ear: An Unmanned Aerial Vehicle-Enabled Victim Sound Detection and Localization System #音频事件检测 #声源定位 #麦克风阵列 #自监督学习 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Yi Hong(香港科技大学(广州),智慧城市与可持续发展研究所,系统枢纽) 通讯作者:从论文中无法明确判断通讯作者。作者列表按顺序排列,Kevin Hung可能为资深作者。 其他作者: Mingyang Wang(香港科技大学(广州),智慧城市与可持续发展研究所,系统枢纽) Yalin Liu(香港科技大学,电子与计算机工程系) Yaru Fu(香港科技大学(广州),智慧城市与可持续发展研究所,系统枢纽) Kevin Hung(香港科技大学(广州),智慧城市与可持续发展研究所,系统枢纽) 💡 毒舌点评 亮点:论文提出的“两阶段”处理思路(哨兵+响应者)很务实,直击了无人机载系统能耗与性能的核心矛盾,用轻量级MAE做“警卫”,只在必要时唤醒“专家”进行精确定位,逻辑闭环设计得不错。 槽点:实验部分略显“理想国”,在高度受控的仿真环境下验证,缺乏真实复杂环境(如多风、多干扰源)下的鲁棒性测试,且对比的“SOTA方法”基本是自己系统的消融,说服力打了折扣。 📌 核心摘要 本文针对无人机搜救任务中视觉系统受遮蔽、能耗高的问题,提出了一个名为“Sky-Ear”的音频驱动受害者检测与定位系统。核心方法是设计了一个基于环形麦克风阵列的两阶段处理框架:在“哨兵阶段”,系统利用单通道音频和掩码自编码器(MAE)对梅尔频谱图进行重构,通过计算重构误差来检测异常声音(如呼救),此阶段功耗低,用于持续监听;一旦检测到异常,即触发“响应者阶段”,利用所有麦克风通道进行基于到达时间差(TDoA)的精确方向估计。为进一步提高定位精度,系统还设计了连续定位机制,通过优化无人机沿轨迹多次观测得到的方向向量,交叉计算出受害者的位置。实验表明,在模拟的沙漠和森林场景中,该系统能有效检测受害者声音,并通过多次观测显著降低定位误差。其主要贡献在于将自监督学习(MAE)与经典阵列信号处理相结合,实现了一种在计算和能耗约束下可靠的声学感知方案。 🏗️ 模型架构 “Sky-Ear”系统是一个端到端的处理流程,其整体架构可分为三个核心模块:哨兵阶段、响应者阶段和连续定位模块。 输入:M通道的连续音频流,由无人机搭载的环形麦克风阵列(中心1个,周围均匀分布M-1个)采集。 哨兵阶段(Sentinel Stage): 功能:低功耗、持续性的异常声音检测。 输入:仅使用中心麦克风(通道0)的单通道音频片段 a0[Δt]。 核心模型:掩码自编码器(MAE)。 流程: a. 梅尔谱图转换:将音频片段转换为二维梅尔频谱图 X ∈ R^(F×T)。 b. 分块与掩码:将频谱图分割为 N 个大小为 P×P 的图像块。随机掩码掉其中比例为 ρ 的块(用零向量替代),得到掩码后的块序列 Ẍ。 c. 编码器:一个标准的Transformer编码器。输入是未被掩码的块序列,每个块被展平并通过线性投影和位置编码后,送入Transformer。输出是编码后的特征序列 Z_enc。 d. 解码器:一个轻量级的Transformer解码器。输入是编码特征 Z_enc(对应未掩码块)和可学习的掩码标记 t_mask(对应被掩码块)的拼接序列。解码器输出每个块(包括掩码块)的预测特征。 e. 重构与异常判断:解码器的输出经线性层映射回原始像素空间,重构出完整的梅尔频谱图 X̃。计算原始频谱图 X 与重构图 X̃ 之间重建误差最大的前K%块(Top-K策略)的均方误差,作为异常分数 D_re。若 D_re 超过预设阈值 D_th,则判定检测到异常,触发响应者阶段。 响应者阶段(Responder Stage): 功能:被哨兵阶段触发后,进行高精度的单次方向估计。 输入:从环形缓冲区中提取的、包含异常声音的M通道音频序列 A_b[t_trig]。 核心方法:基于广义互相关-相位变换(GCC-PHAT)的TDoA估计与最小二乘法求解。 流程: a. TDoA估计:对于每个外围麦克风 m,计算其与中心麦克风 0 之间的TDoA。通过计算两者音频的互相关谱,在时延域寻找峰值对应的 TDoA_m。 b. DoA求解:根据已知的麦克风几何坐标 r_m 和估计的TDoA值(转换为距离差 V_m = TDoA_m * v_s),构建一个超定线性方程组 G * DoA = V。通过最小二乘法求解得到最优的到达方向单位向量 DoA*。 连续定位模块(Continuous Localization): 功能:整合多次观测结果,优化受害者位置估计。 输入:K次观测中每次观测时无人机的已知3D坐标 p_k 和由响应者阶段计算出的方向向量 DoA_k*。 核心方法:加权最小二乘交叉点优化。 流程:将每次观测视为一条从无人机位置 p_k 出发、方向为 DoA_k* 的射线。理论上,所有射线应相交于受害者位置 s。通过构建一个优化问题,最小化所有射线到估计点 s* 的加权距离平方和,从而解出最优的受害者3D坐标 s*。权重 w_k 由该次观测的TDoA互相关峰值强度决定,信号质量越高的观测权重越大。 输出:受害者的声音事件警报及其3D空间坐标。 💡 核心创新点 两阶段(哨兵-响应者)音频处理框架: ...

2026-04-19

语音/音频论文速递 2026-04-19

语音/音频论文速递 2026-04-19 共分析 42 篇论文 ⚡ 今日概览 📥 抓取 42 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音频理解 12篇 ████████████ #基准测试 10篇 ██████████ #音频大模型 9篇 █████████ #多模态模型 7篇 ███████ #信号处理 6篇 ██████ #强化学习 6篇 ██████ #自监督学习 6篇 ██████ #大语言模型 5篇 █████ 📊 论文评分排行榜(42 篇,按分数降序) 排名 论文 评分 🥇 ControlFoley: Unified and Controllable Video-to-Audio G 9.2分 🥈 ClariCodec: Optimising Neural Speech Codes for 200bps C 9.0分 🥉 X-VC: Zero-shot Streaming Voice Conversion in Codec Spa 9.0分 4 Why Your Tokenizer Fails in Information Fusion: A Timin 9.0分 5 Hijacking Large Audio-Language Models via Context-Agnos 8.8分 6 UniPASE: A Generative Model for Universal Speech Enhanc 8.5分 7 VoxSafeBench: Not Just What Is Said, but Who, How, and 8.5分 8 Who is Speaking or Who is Depressed? A Controlled Study 8.5分 9 ProSDD: Learning Prosodic Representations for Speech De 8.5分 10 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 8.5分 11 Four Decades of Digital Waveguides 8.5分 12 Audio-Cogito: Towards Deep Audio Reasoning in Large Aud 8.5分 13 An Ultra-Low Latency, End-to-End Streaming Speech Synth 8.5分 14 Listen, Pause, and Reason: Toward Perception-Grounded H 8.5分 15 Geo2Sound: A Scalable Geo-Aligned Framework for Soundsc 8.5分 16 SpotSound: Enhancing Large Audio-Language Models with F 8.5分 17 Beyond Transcription: Unified Audio Schema for Percepti 8.5分 18 CoSyncDiT: Cognitive Synchronous Diffusion Transformer 8.5分 19 Diffusion Language Models for Speech Recognition 8.5分 20 WavAlign: Enhancing Intelligence and Expressiveness in 8.5分 21 AVID: A Benchmark for Omni-Modal Audio-Visual Inconsist 8.5分 22 SpeakerRPL v2: Robust Open-set Speaker Identification t 8.3分 23 Towards Fine-grained Temporal Perception: Post-Training 8.3分 24 Room compensation for loudspeaker reproduction using a 8.2分 25 StreamMark: A Deep Learning-Based Semi-Fragile Audio Wa 8.2分 26 From Reactive to Proactive: Assessing the Proactivity o 8.2分 27 Elastic Net Regularization and Gabor Dictionary for Cla 8.2分 28 Sky-Ear: An Unmanned Aerial Vehicle-Enabled Victim Soun 8.0分 29 Contextual Biasing for ASR in Speech LLM with Common Wo 8.0分 30 A Manual Bar-by-Bar Tempo Measurement Protocol for Poly 7.8分 31 Classical Machine Learning Baselines for Deepfake Audio 7.8分 32 Adaptive Test-Time Scaling for Zero-Shot Respiratory Au 7.8分 33 Dual-Axis Generative Reward Model Toward Semantic and T 7.8分 34 Tora3: Trajectory-Guided Audio-Video Generation with Ph 7.8分 35 Few-Shot and Pseudo-Label Guided Speech Quality Evaluat 7.5分 36 VoxEffects: A Speech-Oriented Audio Effects Dataset and 7.5分 37 TokenSE: a Mamba-based discrete token speech enhancemen 7.5分 38 Audio Source Separation in Reverberant Environments usi 7.5分 39 On the Distillation Loss Functions of Speech VAE for Un 7.5分 40 Listening Deepfake Detection: A New Perspective Beyond 7.5分 41 Comparison of window shapes and lengths in short-time f 6.5分 42 Transformer Based Machine Fault Detection From Audio In 6.5分 📋 论文列表 🥇 ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling 🔥 9.2分 | #音频生成 #多模态模型 #扩散模型 #基准测试 | arxiv ...

2026-04-19

语音/音频论文速递 2026-04-18

语音/音频论文速递 2026-04-18 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #基准测试 11篇 ███████████ #音频理解 10篇 ██████████ #数据集 7篇 ███████ #音频大模型 7篇 ███████ #大语言模型 6篇 ██████ #信号处理 6篇 ██████ #音频生成 5篇 █████ #音频分类 5篇 █████ 🏆 高分论文 TOP 10 排名 论文 评分 🥇 StreamMark: A Deep Learning-Based Semi-Fragile Audio Wa 9.2分 🥈 A Manual Bar-by-Bar Tempo Measurement Protocol for Poly 8.5分 🥉 ClariCodec: Optimising Neural Speech Codes for 200bps C 8.5分 4 UniPASE: A Generative Model for Universal Speech Enhanc 8.5分 5 Who is Speaking or Who is Depressed? A Controlled Study 8.5分 6 SpeakerRPL v2: Robust Open-set Speaker Identification t 8.5分 7 ProSDD: Learning Prosodic Representations for Speech De 8.5分 8 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 8.5分 9 X-VC: Zero-shot Streaming Voice Conversion in Codec Spa 8.5分 10 An Ultra-Low Latency, End-to-End Streaming Speech Synth 8.5分 📄 StreamMark: A Deep Learning-Based Semi-Fragile Audio Watermarking for Proactive Deepfake Detection #音频安全 #音频深度伪造检测 #语音伪造检测 #基准测试 ...

2026-04-18