BiEAR: A Human Auditory-Inspired Adaptive Binaural Front-end for Multi-Speaker Localisation and Distance Estimation

📄 BiEAR: A Human Auditory-Inspired Adaptive Binaural Front-end for Multi-Speaker Localisation and Distance Estimation #声源定位 #多任务学习 #语音增强 8.5/10 | 创新 8/2 | 严谨 7/1.5 | 实验 8/1.5 | 清晰 8/1 | 影响 7/1.5 | 开源 2/1.5 | 复现 8/0.5 | 工程 7/1.5 🔥 8.5/10 | 前25% | #声源定位 | #多任务学习 | #语音增强 | arxiv 👥 作者与机构 作者:Hanyu Meng, Eliathamby Ambikairajah, Vidhyasaharan Sethu, Qiquan Zhang, Haizhou Li 机构:1 The University of New South Wales, Sydney, Australia; 2 Tongyi Speech Lab, Alibaba Group, Hangzhou, China; 3 School of Artificial Intelligence, The Chinese University of Hong Kong, Shenzhen, China ...

2026-06-08 · 更新于 2026-06-12 · 4 min · 741 words

语音/音乐/音频论文速递 2026-06-08

语音/音乐/音频论文速递 2026-06-08 共分析 38 篇论文 ⚡ 今日概览 📥 抓取 38 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 7篇 ███████ #语音识别 6篇 ██████ #音频生成 3篇 ███ #数据增强 3篇 ███ #多模态模型 3篇 ███ #语音情感识别 2篇 ██ #音乐生成 2篇 ██ #音乐信息检索 1篇 █ 📊 论文评分排行榜(38 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Audio-Oscar: A Multi-Agent System for Complex Audio Sce 9.9分 前10% #音频生成 🥈 Assessing True Generalisability of Audio-Visual Speech 9.5分 前10% #语音识别 🥉 VoxCPM2 Technical Report 9.5分 前50% #语音合成 4. Beyond Semantic Dominance: Cognitive Affective Reasonin 9.2分 前10% #语音合成 5. Hearing the Unspoken: Language Model Priors for Acousti 9.2分 前25% #语音识别 6. dots.tts Technical Report 9.0分 前25% #语音合成 7. How Far Can Chord-Symbol Time-Series Adaptation Carry G 8.8分 前50% #音乐信息检索 8. Where Rectified Flows Leak: Characterising Membership S 8.7分 前25% #音频生成 9. BiEAR: A Human Auditory-Inspired Adaptive Binaural Fron 8.5分 前25% #声源定位 10. Mitigating Proxy-to-Wild Domain Gap in Deepfake Speech 8.4分 前25% #数据增强 11. Multilingual Multi-Speaker Unit Vocoders: A Systematic 8.4分 前25% #语音合成 12. Geometric Second-Order Feature Correlation Learning for 7.9分 前50% #语音情感识别 13. Whisper Hallucination Detection and Mitigation via Hidd 7.9分 前50% #语音识别 14. Acoustic Cue Alignment in Audio Language Models for Spe 7.8分 前50% #语音情感识别 15. Towards Unified Song Generation and Singing Voice Conve 7.7分 前25% #语音合成 16. Phonetic Error Analysis of Raw Waveform Acoustic Models 7.6分 前50% #语音识别 17. SEAM: Shortcut-Aware Real-Time Detection of Scripted vs 7.5分 前25% #语音增强 18. DirectAudioEdit: Inversion-Free Text-Guided Audio Editi 7.5分 前25% #扩散模型 19. MMAE: A Massive Multitask Audio Editing Benchmark 7.5分 前50% #语音编辑 20. Leveraging Soft Distributions of SSL-Derived Discrete S 7.4分 前50% #语音识别 21. MyGardenBird: A Machine-Learning-Ready Bird Sound Datas 7.2分 前50% #音频事件检测 22. FIGMA: Towards FIne-Grained Music retrievAl 7.2分 前50% #对比学习 23. KIT's Submission to Cross-Lingual Voice Cloning in 7.2分 前50% #语音合成 24. Contrastive Training with LLM-generated Near-Misses for 7.1分 前50% #语音识别 25. A Large-Scale Per-Speaker Analysis of Re-identification 7.1分 前50% #语音匿名化 26. SVHighlights: Towards Extremely Long Sport Video Highli 7.0分 前50% #多模态模型 27. TargetSEC: Plug-and-Play In-the-Wild Speech Emotion Con 6.8分 前50% #语音转换 28. Making the Most of Limited Data: Score-Aware Training f 6.7分 前50% #音乐生成 29. IRAF: Interference-Resilient Adaptive Fusion for Noise- 6.5分 前50% #语音对话系统 30. Towards Event-Robust Acoustic Scene Classification 6.5分 前50% #数据增强 31. FSC-Net: Integrating Fast Fourier Convolutions and Prog 6.4分 前50% #音频质量评估 32. Watch, Remember, Reason: Human-View Video Understanding 6.4分 前50% #多模态模型 33. Hierarchical Semantic-Constrained Heterogeneous Graph f 6.2分 前50% #多模态模型 34. Audio Imitator: Controlling Timbre and Tempo in Video2A 6.0分 前50% #音频生成 35. HybridCodec: Fast Dual-Stream, Semantically Enhanced Ne 5.7分 前50% #语音合成 36. SpectCount: Spectrotemporal Counting via Synthetic Sign 5.5分 前50% #数据增强 37. Entropy as a Structural Prior: How a Log-Barrier on DiT 4.2分 后50% #音乐生成 38. VISA: A Visual Information Strengthened Audio-Reasoning 3.9分 前50% #音频问答 📋 论文列表 🥇 Audio-Oscar: A Multi-Agent System for Complex Audio Scene Generation, Orchestration, and Refinement 9.9/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

2026-06-08 · 更新于 2026-06-12 · 23 min · 4800 words

Localizing broadband noise sources using the Loève spectrum and a 2.5D approach

📄 Localizing broadband noise sources using the Loève spectrum and a 2.5D approach #声源定位 6.9/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 6.9/10 | 前50% | #声源定位 | #声源定位 | arxiv 👥 作者与机构 Christian H. Kasess (Acoustics Research Institute, Austrian Academy of Sciences, Vienna, Austria) Wolfgang Kreuzer (未提供具体机构) Holger Waubke (未提供具体机构) 💡 毒舌点评 这篇论文工作扎实,理论推导细致,将2.5D BEM框架从单频源成功扩展到了宽带随机源,使用Loève谱处理非平稳过程是个合理的选择。然而,其“概念验证”的定位过于保守,实验设计几乎全部基于理想化的自由场模拟,缺乏对真实环境(如地面反射、散射体、实际噪声源特性)的任何考量。所谓“定位”能力仅通过理论谱与估计谱的相关性来展示,而非通过重建源位置来评估,这回避了最具挑战性的逆问题部分。作者强调的计算复杂度问题虽然真实,但在仅有理论公式和有限数值实验的论文中提出,更像一个有待解决的“未来工作”,而非对当前方法瓶颈的深刻剖析。整体看,这是一篇领域内小修小补、为特定应用场景(铁路噪声)铺路的预备性工作,离解决实际的宽带移动源定位问题还有相当距离。 ...

2026-06-03 · 更新于 2026-06-12 · 2 min · 324 words

语音/音乐/音频论文速递 2026-06-03

语音/音乐/音频论文速递 2026-06-03 共分析 40 篇论文 ⚡ 今日概览 📥 抓取 40 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 7篇 ███████ #语音识别 7篇 ███████ #音乐生成 3篇 ███ #音频生成 2篇 ██ #语音增强 2篇 ██ #多模态模型 2篇 ██ #语音情感识别 2篇 ██ #语音翻译 2篇 ██ 📊 论文评分排行榜(40 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 AnyAudio-Judge: A Dynamic Rubric-Based Benchmark and Ev 10.0分 前10% #语音合成 🥈 Cosmos 3: Omnimodal World Models for Physical AI 10.0分 前10% #音频生成 🥉 WavTTS: Towards High-Quality Zero-Shot TTS via Direct R 9.2分 前25% #语音合成 4. CoughSense: Five-Class Respiratory Disease Classificati 9.1分 前25% #数据增强 5. SoulX-Transcriber: A Robust End-to-End Framework for Mu 8.8分 前50% #语音识别 6. SVHalluc: Benchmarking Speech-Vision Hallucination in A 8.7分 前25% #语音识别 7. Benchmarking Speech-to-Speech Translation Models 8.7分 前25% #语音合成 8. The DeepSpeak-Agentic Dataset 8.7分 前50% #语音合成 9. EntangleCodec: A Unified Discrete Audio Tokenizer via S 8.6分 前10% #语音合成 10. SketchSong: Hierarchical Song Generation with Sketch Pl 8.6分 前25% #音乐生成 11. SegTune: Structured and Fine-Grained Control for Song G 8.5分 前25% #音乐生成 12. Exploiting Noise Inseparability for Weakly-Supervised D 8.5分 前50% #语音增强 13. A Comparison of Generative and Discriminative Methods f 8.3分 前25% #语音增强 14. FSA-GRPO: Teaching Auditory LLMs to Use Few-shot Demons 8.1分 前50% #语音识别 15. Tonal parsimony in chord-sequence analysis: combining m 8.1分 前25% #音乐信息检索 16. Efficient ASR Training with Conversations that Never Ha 8.0分 前50% #语音识别 17. LiveBand: Live Accompaniment Generation in the Audio Do 8.0分 前25% #音乐生成 18. Sandboxed Coding Agents are Competitive Omni-modal Task 7.9分 前25% #强化学习 19. OmniHalluc-L: Counterfactual Benchmarking and Modality- 7.8分 前25% #多模态模型 20. BaltiVoice: A Speech Corpus and Fine-tuned Whisper ASR 7.8分 前25% #语音识别 21. Speech Emotion Recognition using Attention-based LSTM-N 7.5分 前50% #语音情感识别 22. SpeakerCard-1M: An Evidence-Grounded Speaker Card Corpu 7.4分 前25% #说话人验证 23. C2GA: A Class-Controllable Generative Augmentation Fram 7.3分 前50% #音频分类 24. AlignAtt4LLM: Fast AlignAtt for Decoder-Only LLMs at IW 7.3分 前50% #语音翻译 25. Before Fusion, Ask What to Keep: Contextual Calibration 7.2分 前50% #语音情感识别 26. Diffusion-Based Heart Sound Generation: Evaluation with 7.1分 前50% #语音合成 27. SiamCTC: Learning Speech Representations through Monoto 7.0分 前50% #语音识别 28. Foley-Omni: A Unified Multimodal Generation Model from 7.0分 前25% #音频生成 29. Inference-Time Scaling for Joint Audio-Video Generation 6.9分 前50% #语音合成 30. Breaking the Pair: Evaluating Dyadic Interaction via Sp 6.9分 前50% - 31. Localizing broadband noise sources using the Loève spec 6.9分 前50% #声源定位 32. A Pocket Offline Model for Simultaneous Speech Translat 6.8分 前50% #语音翻译 33. Stable Hybrid Cross-Attention Fusion for Audio-Visual E 6.7分 后50% #自监督学习 34. A Training-Efficient Transformer-Based Anti-Spoofing Ne 6.7分 后50% #Transformer 35. MoDAl: Self-Supervised Neural Modality Discovery via De 6.6分 前25% #自监督学习 36. Audio Spotforming via Post-Filtering Using Cross-Array 6.6分 前50% #维纳滤波 37. Logit Distillation on Manifolds: Mapping by Learning 6.5分 前50% #语音识别 38. Domain-Agnostic Incremental Learning for Sound Classifi 6.1分 前50% - 39. Wavelet as Tokenizer: Preliminary Results on a Shared W 5.4分 后50% #多模态模型 40. In-the-Loop Training of Deep Feedback Cancellation for 5.3分 前50% #自适应滤波 📋 论文列表 🥇 AnyAudio-Judge: A Dynamic Rubric-Based Benchmark and Evaluator for Audio Instruction Following 10.0/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

2026-06-03 · 更新于 2026-06-12 · 26 min · 5337 words

Subspace Track-before-Detect for Passive Multi-Target Tracking with Unknown Emitted Signals

📄 Subspace Track-before-Detect for Passive Multi-Target Tracking with Unknown Emitted Signals #声源定位 #粒子滤波 📝 5.5/10 | 后50% | #声源定位 | #粒子滤波 | arxiv 学术质量 3.8/7 | 影响力 1/2 | 可复现性 0.7/2 | 置信度 高 👥 作者与机构 论文作者为 Nobutaka Ito 和 Yoshiaki Bando,来自日本产业技术综合研究所(National Institute of Advanced Industrial Science and Technology, AIST)。 💡 毒舌点评 论文提出了一个概念上合理的框架来解决被动多目标跟踪中未知信号带来的模型失配问题。然而,其验证严重依赖高度理想化的仿真环境(消声室、已知目标活动模式、预设轨迹),这使得方法在现实复杂场景中的有效性成疑。与“最先进的被动跟踪方法”的对比完全缺失,基线过于简单,无法说明该方法在更广泛文献中的定位。所谓的“创新”很大程度上是将已有的复Bingham分布应用到一个特定的归一化数据模型上,但对其参数选择和性能影响的分析却缺失了。对于一篇旨在解决实际问题的论文,其评估部分显得单薄且避重就轻。 📌 核心摘要 本文针对被动多目标跟踪中,因目标发射信号未知而导致的传统跟踪前检测(TBD)方法模型失配问题,提出了一种基于子空间的TBD框架。该方法将归一化后的多通道传感器数据投影到由假设目标状态导向矢量张成的子空间中,并使用复Bingham分布建模该投影能量,从而在粒子滤波框架中直接计算观测似然,无需显式估计未知的发射信号系数。论文在消声室声学仿真场景(40麦克风阵列,2个目标,SNR低至-10dB)下进行了验证,实验假设目标活动模式已知。结果表明,该方法在位置RMSE上显著优于一个将目标贡献建模为确定性信号的简单TBD基线。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集:论文中未提及外部数据集或其链接。实验所用数据为论文作者自行模拟生成。 Demo:论文中未提及。 复现材料:论文中未提及可下载的训练配置、检查点或复现材料。论文在实验部分详细描述了参数设置、实现细节(如粒子数、运动模型等),但未提供用于复现的代码包。 论文中引用的开源项目:论文中提及了实验中使用的标准Python库(NumPy, SciPy, FilterPy),但未提供特定于本研究的开源项目链接。 🏗️ 方法概述和架构 本文提出的子空间TBD方法(Subspace TBD)旨在解决被动多目标跟踪中未知发射信号导致的观测模型失配问题。其核心思想是:归一化后的多通道观测数据,其分布应靠近由假设目标导向矢量张成的低维信号子空间。该方法在粒子滤波(PF)框架内实现,主要包含状态模型、子空间观测模型和PF算法三个部分。 状态模型: 目标表示:采用固定数量(N)的目标槽位来表示目标。每个槽位在时刻t可以是“活动”(a_{nt}=1)或“非活动”(a_{nt}=0)。目标的运动状态为x_{nt} = [p_{nt}^T, v_{nt}^T]^T,包含二维位置和速度。多目标状态为所有槽位状态的拼接x_t。 活动模式:在本文的实验中,a_t(活动向量)被视为已知的给定条件,并非由滤波器估计。这是实验评估的一个重要限定。 状态转移:对于活动目标,其运动遵循一个线性高斯运动模型(近似匀速模型)。新目标的初始化遵循出生密度。状态转移概率在给定活动模式下分解为各槽位独立的条件概率之积。 子空间观测模型: ...

2026-05-26 · 更新于 2026-06-12 · 2 min · 281 words

语音/音乐/音频论文速递 2026-05-26

语音/音乐/音频论文速递 2026-05-26 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 5篇 █████ #语音识别 3篇 ███ #音乐转录 2篇 ██ #语音情感识别 2篇 ██ #多模态模型 1篇 █ #语音编码 1篇 █ #交叉验证 1篇 █ #语音编辑 1篇 █ 📊 论文评分排行榜(27 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Music Transcription with (Almost) No Supervision 10.0分 前50% #音乐转录 🥈 Toward Native Multimodal Modeling: A Roadmap 10.0分 前25% #多模态模型 🥉 Ultra-Low-Bitrate Mel-Spectrogram-based Neural Speech C 9.9分 前25% #语音编码 4. Proactive for Uncertainty: Cause-Aware Error Diagnosis 9.6分 前25% #语音识别 5. WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Re 9.4分 前25% #语音合成 6. Decoding Stimulus Reconstruction-Based Auditory Attenti 8.9分 前50% #交叉验证 7. Exploration of Perceptual Speech Features for Clinical 8.9分 前50% #语音情感识别 8. Continual Speaker Identity Unlearning with Minimal Inte 8.6分 前25% #语音合成 9. SpongeBob: Sync-Aware Harmonious Audio-Visual Generativ 8.6分 前25% #语音编辑 10. FC-TTS: Style and Timbre Control in Zero-Shot Text-to-S 8.4分 前50% #语音合成 11. CosyEdit2: Speech-Editing-Oriented Reinforcement Learni 8.0分 前50% #语音合成 12. cSTMM: A Unified Complex Spherical Student’s \(t\) Mixtur 7.9分 前50% #语音分离 13. Time Segmented Beamforming via Dynamic Programming: The 7.7分 前25% #实时处理 14. Multilingual Phonological Feature Recognition with Self 7.7分 前25% #语音识别 15. Rubato: Transcribing Piano Music with Timestamps 7.5分 前25% #音乐转录 16. A Multimodal Framework for Dementia Detection via Lingu 7.0分 前50% #语音情感识别 17. AVBench: Human-Aligned and Automated Evaluation Benchma 7.0分 前50% #音频生成 18. Test-Time Self-Adaptive Conditioning for Stable Audio-D 7.0分 前50% - 19. The Symmetric Location Problem: a Song of Efficiency an 6.5分 前25% - 20. Hidden in Plain Tokens: Simply Robust, Gradient-Free Wa 6.2分 前25% #音频水印 21. Rethinking Continual Learning for Speech and Audio: A R 6.0分 前50% #语音识别 22. Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for 5.5分 前50% #语音增强 23. Subspace Track-before-Detect for Passive Multi-Target T 5.5分 后50% #声源定位 24. Toward Natural Emotional Text-To-Speech System with Fin 5.0分 前50% #语音合成 25. Zero-Shot Parkinson’s Disease Detection from Speech: Co 5.0分 前50% #大语言模型 26. Score-Agnostic Structure Analysis in Large-Scale Perfor 4.1分 前50% #音乐信息检索 27. StrTransformer: Source-Wise Structured Transformers for 3.3分 后50% - 📋 论文列表 🥇 Music Transcription with (Almost) No Supervision 🔥 10.0/10 | 前50% | #音乐转录 | #循环一致性 | #半监督学习 #领域自适应 | arxiv ...

2026-05-26 · 更新于 2026-06-12 · 13 min · 2671 words

Self-Calibration DOA Estimation for Movable Antenna Systems with Antenna Position Errors

📄 Self-Calibration DOA Estimation for Movable Antenna Systems with Antenna Position Errors #信号处理 #声源定位 📝 4/10 | 后50% | #声源定位 | #信号处理 | arxiv 学术质量 3.5/7 | 影响力 0.2/2 | 可复现性 0.3/2 | 置信度 0.5 👥 作者与机构 作者: Chengzhi Ye, Ruoyu Zhang, Wen Wu, Byonghyo Shim 机构: 南京理工大学(近场射频传感IC与微系统教育部重点实验室),首尔国立大学 论文状态: arXiv 预印本 (eess.SP) 💡 毒舌点评 理论深度感人:论文核心推导(公式11-23)本身没问题,但全文止步于“我推出来了”,对算法为何收敛(单调下降性)、关键参数\(\varepsilon\)如何选取、数值稳定性影响等关键问题闭口不谈。一个号称“自校准”的方法,对自己算法的鲁棒性分析却如此欠奉,让人怀疑其在实践中的可靠性。 实验对比像在“虐菜”:对比基线弱得令人困惑——一个完全不考虑误差的MUSIC,一个只用校准阵元的MUSIC。这相当于拿一个针对特定问题精心设计的算法,去对比两个完全无视该问题的“傻瓜”算法。然后宣称“我赢了”,这“优越性”的含金量大打折扣。为什么不跟其他考虑阵列误差的校准方法对比? 关键假设一笔带过:模型要求\(K \geq 2\)个源,且源的DOA不能共线(保证\(\hat{\bm{\varTheta}}^T\)列满秩)。这个约束在实际场景(如只有单个强反射点或多个源角度相近)下可能不成立。论文对此避而不谈,直接展示“成功”的仿真案例,缺乏对方法适用边界的严肃讨论。 “分析”并不thorough:作者在引言中声称提供了“thorough analysis”,但所谓的复杂度分析(公式24)在近似后已丢失主要项,且未结合实际参数(如\(M=12\))给出具体运算量评估。这种分析对于评估算法在实际边缘设备上的部署可行性帮助有限。 📌 核心摘要 本文针对可移动天线(MA)系统中因天线移动引入的未知位置误差(APE)导致波达方向(DOA)估计性能下降的问题,提出了一种基于交替优化(AO)的自校准算法。算法利用信号导向矢量与噪声子空间的正交性,构建联合估计DOA和APE的优化问题(P1)。通过交替迭代两个阶段求解:第一阶段固定APE,使用MUSIC算法进行DOA估计(问题P2);第二阶段固定DOA,将APE估计转化为一个关于误差导向矢量的线性约束二次最小化问题(问题P3)。针对该问题核心矩阵\(\bm{Q}\)的秩亏性(秩为\(M-K\)),引入小扰动\(\varepsilon\)使其可逆,并应用拉格朗日乘子法得到了误差导向矢量的闭式最优解。进一步,利用估计的相位信息,通过最小二乘法获得了APE的解析解(公式23)。仿真结果表明,在设定的APE模型下,所提算法在DOA估计的均方根误差(RMSE)和成功率方面优于使用全部阵元或仅校准阵元的传统MUSIC算法。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及。 数据集:论文中未提及(基于仿真实验)。 Demo:论文中未提及。 复现材料:论文中未提及。 论文中引用的开源项目:未提及。 🏗️ 方法概述和架构 该方法是一个迭代式自校准框架,旨在联合估计MA系统的真实位置(从而补偿位置误差)和信源的DOA。其核心架构围绕一个主优化问题(P1)展开,通过交替优化策略将其分解为两个可迭代求解的子问题。 ...

2026-05-25 · 更新于 2026-06-12 · 2 min · 331 words

语音/音乐/音频论文速递 2026-05-25

语音/音乐/音频论文速递 2026-05-25 共分析 19 篇论文 ⚡ 今日概览 📥 抓取 19 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音质量评估 3篇 ███ #语音识别 3篇 ███ #信号处理 3篇 ███ #音频分类 1篇 █ #语音编码 1篇 █ #音频深度伪造检测 1篇 █ #统一音频模型 1篇 █ #医疗音频 1篇 █ 📊 论文评分排行榜(19 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Frame-Aligned Fusion of Canary and WavLM for Non-Intrus 10.0分 前10% #语音质量评估 🥈 Evaluating the Temporal Detection Capability of Integra 10.0分 前10% #音频分类 🥉 UniSRM: A Unified Speech Reward Model for Reasoning-Bas 10.0分 前10% #语音质量评估 4. AffectCodec: Emotion-Preserving Neural Speech Codec wit 10.0分 前10% #语音编码 5. MixFake: Benchmarking and Enhancing Audio Deepfake Dete 10.0分 前10% #音频深度伪造检测 6. A study on weakly-supervised training approaches for ph 9.7分 前10% #语音识别 7. Broad learning system with robust adaptive kernel 8.7分 前25% #信号处理 8. Articulatory strategy as a source of variation in acous 8.5分 前25% #语音识别 9. StepAudio 2.5 Technical Report 8.3分 前25% #统一音频模型 10. Comprehensive Dataset and Signal Processing Framework f 8.0分 前25% #医疗音频 11. Word-Level Modeling with Alignment-Aware Acoustic Fusio 7.7分 前25% #语音质量评估 12. Convex Low-resource Accent-Robust Language Detection in 7.5分 前25% #语音识别 13. Diffusion Domain Expansion: Learning to Coordinate Pre- 7.4分 前50% #扩散模型 14. EvalVerse: Pipeline-Aware and Expert-Calibrated Benchma 7.1分 前50% #音视频 15. Copula-Induced Correntropy for Robust Conjugate Gradien 7.0分 前50% #信号处理 16. Cost-Effective Model Evaluation with Meta-Learning 5.4分 后50% #迁移学习 17. Natural Yet Challenging to Detect: Robust In-the-Wild T 5.2分 后50% #语音合成 18. Self-Calibration DOA Estimation for Movable Antenna Sys 4.0分 后50% #声源定位 19. 6G Communication Networks Enabling Embodied Agents: Arc 2.7分 后50% #信号处理 📋 论文列表 🥇 Frame-Aligned Fusion of Canary and WavLM for Non-Intrusive Intelligibility Prediction of Hearing-Aid-Processed Speech 🔥 10.0/10 | 前10% | #语音质量评估 | #模型融合 | #多模态模型 #预训练 | arxiv ...

2026-05-25 · 更新于 2026-06-12 · 9 min · 1773 words

A conceptual framework for learning to listen by reward: Curiosity-driven search for novel sources

📄 A conceptual framework for learning to listen by reward: Curiosity-driven search for novel sources #声源定位 #音频事件检测 #强化学习 #模拟环境 #生物声学 📝 4.0/10 | 后50% | #声源定位 | #强化学习 | #音频事件检测 #模拟环境 | arxiv 学术质量 3.3/7 | 影响力 0.6/2 | 可复现性 0.1/2 | 置信度 中 👥 作者与机构 第一作者:Andreas Triantafyllopoulos(慕尼黑工业大学健康信息学系,慕尼黑机器学习中心) 通讯作者:未明确说明(论文未提供明确的通讯作者标识) 作者列表:Andreas Triantafyllopoulos(慕尼黑工业大学健康信息学系,慕尼黑机器学习中心)、Jakub Šťastný(未说明具体机构)、Alexios Terpinas(未说明具体机构)、Tianyi Liu(未说明具体机构)、Yuanqi Wang(未说明具体机构)、Björn W. Schuller(慕尼黑工业大学健康信息学系,慕尼黑机器学习中心,慕尼黑数据科学研究所;伦敦帝国理工学院语言、音频和音乐组) 💡 毒舌点评 本文提出一个将强化学习(RL)系统性引入音频“聆听”任务的概念框架,其核心动机——通过好奇心驱动的探索学习——具有启发性。然而,其作为一篇定位为“概念框架”的论文,实验验证却仅限于一个极为简化的单声源导航场景,且未提供任何开源代码、预训练模型或数据集,这严重削弱了其作为一篇顶会论文所应有的严谨性和可复现性,使其更接近于一篇技术报告而非完整的学术贡献。 📌 核心摘要 要解决什么问题:论文旨在解决强化学习(RL)在音频领域应用匮乏的问题,提出一个概念框架,指导智能体如何仅通过听觉奖励来学习探索和定位环境中的声源。 方法核心是什么:核心是构建一个好奇心驱动的音频探索框架。智能体在一个模拟环境中移动,通过麦克风阵列接收声音,目标是找到新的、未访问过的声源(novel sources)。智能体每成功接近一个新声源就获得正奖励,否则获得负奖励或零奖励,以此激励其探索。 与已有方法相比新在哪里:与以往将音频作为辅助模态(如音视频导航)或仅优化下游任务指标的工作不同,本文提出一个专注于纯音频输入的、端到端的RL概念框架。它不预设“好/坏”声源,采用模块化的、基于新奇性的目标,并明确讨论了音频RL特有的环境模拟、奖励设计等挑战。 主要实验结果如何:论文提供了一个概念验证实验。在一个10x10x5m的模拟鞋盒房间内,智能体需定位一个静止声源。实验比较了随机策略、无记忆CNN(CNN6)和有记忆的CNN-Transformer模型。结果显示,CNN-Transformer在“准确率”(选择最优行动的比例,74%)、“可达性”(成功到达目标的比例,52%)和“平均总奖励”(0.89)上均优于CNN6(68%,36%,0.08)和随机策略(41%,8%,-0.89)。 Q-network Accuracy Reachability Reward Random 41% 8% -.89 CNN6 68% 36% .08 CNN-Transformer 74% 52% .89 实际意义是什么:该工作为将RL应用于音频分析领域(如机器人听觉、环境感知)提供了一个初步的理论蓝图和实践思路,可能对推动音频领域的自主智能体研究有启发价值。 主要局限性是什么:实验场景过于简单(单个静止声源),与框架描述的多源、移动源探索目标相去甚远;缺乏与相关音频RL工作的直接对比;未提供开源代码和详细实现,可复现性差;框架的泛化能力和在实际复杂声学环境中的有效性未得到验证。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中未提及数据集链接。论文在Related Work部分引用了Soundspaces数据集,但仅作为背景介绍,未提供其开源获取链接。 Demo:论文中未提及 复现材料:论文中未提及训练配置、检查点等复现材料的下载链接。论文在第四节详细描述了实验设置(如环境尺寸、模型架构CNN6和CNN-Transformer、训练超参数等),可作为复现指导,但未提供额外的附录或配置文件。 论文中引用的开源项目: Soundspaces数据集:https://github.com/facebookresearch/sound-spaces (论文在引用 [undefm] 时提及) Habitat模拟器:https://github.com/facebookresearch/habitat-lab (论文在引用 [undefn] 时提及) pyroomacoustics:https://github.com/LCAV/pyroomacoustics (论文在引用 [undefac] 时提及) gpuRIR:论文中仅提及名称,未提供链接。 Unity引擎:论文中仅提及名称,未提供链接。 ViZDoom:论文中仅提及名称,未提供链接。 音频神经辐射场(audio neural radiance fields):论文中仅提及概念和相关文献 [undefaf, undefag],未提供具体开源项目链接。 🏗️ 方法概述和架构 本文提出的“通过奖励学习聆听”是一个概念框架,旨在指导如何构建能够在环境中通过听觉奖励进行探索和学习的强化学习(RL)智能体。其核心流程是:智能体在模拟环境中移动 → 通过麦克风接收声音信号作为状态 → 基于听觉状态选择行动(移动方向) → 环境根据行动结果(是否找到新声源)给予奖励 → 智能体通过RL算法(如深度Q学习)更新策略。 ...

2026-05-21 · 更新于 2026-06-12 · 2 min · 358 words

A conceptual framework for learning to listen by reward: Curiosity-driven search for novel sources

📄 A conceptual framework for learning to listen by reward: Curiosity-driven search for novel sources #声源定位 #强化学习 #音频场景理解 📝 5/10 | 前50% | #声源定位 | #强化学习 | #音频场景理解 | arxiv 学术质量 4.2/8 | 影响力 0.5/1 | 可复现性 0.3/1 | 置信度 高 👥 作者与机构 第一作者:Andreas Triantafyllopoulos(Technical University of Munich, Chair of Health Informatics; MCML – Munich Center for Machine Learning) 通讯作者:论文中未明确标注通讯作者,但第一作者邮箱为 andreas.triantafyllopoulos@tum.de。 作者列表: Andreas Triantafyllopoulos(Technical University of Munich, Chair of Health Informatics; MCML – Munich Center for Machine Learning) Jakub Šťastný(CHI – Chair of Health Informatics, Technical University of Munich; MCML – Munich Center for Machine Learning) Alexios Terpinas(CHI – Chair of Health Informatics, Technical University of Munich; MCML – Munich Center for Machine Learning) Tianyi Liu(CHI – Chair of Health Informatics, Technical University of Munich; MCML – Munich Center for Machine Learning) Yuanqi Wang(CHI – Chair of Health Informatics, Technical University of Munich; MCML – Munich Center for Machine Learning) Björn W. Schuller(CHI – Chair of Health Informatics, Technical University of Munich; MCML – Munich Center for Machine Learning; MDSI – Munich Data Science Institute; GLAM – Group on Language, Audio, & Music, Imperial College, London, UK) 💡 毒舌点评 本文提出了一个清晰且符合直觉的“通过奖励倾听”的RL概念框架,为将强化学习引入音频领域提供了一个系统的思路和理论讨论。然而,作为一篇定位为“概念框架”的论文,其核心缺陷在于,支撑这一宏大愿景的“概念验证”实验过于初级和简化(单个静态声源、极小的网格世界),与论文引言中提及的“通用音频基础模型”的远景之间存在巨大鸿沟。论文未能充分证明该框架在面对更复杂、更真实的音频挑战时的有效性和扩展潜力,使其更像一篇“路线图”或研究呼吁,而非一个完整的技术贡献。 ...

2026-05-20 · 更新于 2026-06-12 · 3 min · 449 words