RT-Tango: Real-Time Distributed Binaural Speech Enhancement for Low-Power Hearing Aid Devices

📄 RT-Tango: Real-Time Distributed Binaural Speech Enhancement for Low-Power Hearing Aid Devices #语音增强 #模型压缩 #助听器 5.5/10 | 创新 0.6/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 0.8/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 📝 5.5/10 | 前50% | #语音增强 | #模型压缩 | #助听器 | arxiv 👥 作者与机构 第一作者:Zahra Benslimane(Université Paris-Saclay, CEA, List) 通讯作者:未说明,疑似第一作者(zahra-hafida.benslimane@cea.fr) 作者列表:Zahra Benslimane(Université Paris-Saclay, CEA, List)、Pierre Chouteau(Université Paris-Saclay, CEA, List,原文脚注1同属该机构)、Martyna Poreba(Université Paris-Saclay, CEA, List)、Fabrice Auzanneau(Université Paris-Saclay, CEA, List)、Michal Szczepanski(Université Paris-Saclay, CEA, List)、Fabian Chersi(Université Paris-Saclay, CEA, List)、Romain Serizel(Université de Lorraine, CNRS, Inria, LORIA) 💡 毒舌点评 RT-Tango在极低计算预算下,通过一套组合拳将分布式双耳增强打进了8 ms延迟的世界,工程上的"压榨"做得相当扎实。但论文的实验视野极其狭窄,蜷缩在一个小型模拟数据集和一组特定的声学配置上,且完全回避了与任何主流单/双通道增强SOTA的直接对标。“高效"的旗帜固然亮眼,但缺乏真实硬件验证和开源承诺,让"实用性强"的口号听起来更像是一个美好的愿望。 ...

2026-07-03 · 更新于 2026-07-03 · 2 min · 417 words

语音/音乐/音频论文速递 2026-07-03

语音/音乐/音频论文速递 2026-07-03 共分析 31 篇论文 ⚡ 今日概览 📥 抓取 31 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音频分类 4篇 ████ #声源定位 4篇 ████ #语音识别 4篇 ████ #语音交互 3篇 ███ #语音合成 3篇 ███ #音视频理解 2篇 ██ #语音增强 2篇 ██ #音乐理解 1篇 █ 📊 论文评分排行榜(31 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Unlocking Speech-Text Compositional Powers: Instruction 8.5分 前25% #语音交互 🥈 Decomposer: Learning to Decompile Symbolic Music to Pro 8.4分 前25% #音乐理解 🥉 A global predicted-fMRI drive signal from TRIBE does no 7.7分 前25% #音视频理解 4. Cross Domain Few-Shot Class-Incremental Audio Classific 7.4分 前50% #音频分类 5. Self-Supervised Test-Time Tuning for Packet Loss Concea 7.4分 前50% #音频修复 6. Reasoning LLM Improves Speaker Recognition in Long-form 7.2分 前50% #音视频理解 7. SelectTSL: Prompt-Guided Selective Target Sound Localiz 7.1分 前50% #声源定位 8. Enhancing Acoustic-to-Articulatory Inversion with Multi 7.0分 前50% #语音交互 9. TurnNat: Automatic Evaluation of Turn-Taking Naturalnes 7.0分 前50% #语音交互 10. Audio-Based Understanding of Audiobook Narration Appeal 6.9分 前50% #语音属性识别 11. H-SAGE: Holistic Speaker-Aware Guided Experts for MoE-b 6.9分 前50% #语音识别 12. An Efficient vLLM-Based Inference Pipeline for Unified 6.8分 前50% #语音合成 13. Few-Shot Open-Set Audio Classification Using Attention 6.8分 前50% #音频分类 14. Beyond Words: Towards Effective Modeling of Non-Verbal 6.4分 前50% #语音识别 15. LMPAN: A Lightweight Multi-Path Alignment Network for J 6.2分 前50% #语音增强 16. NAVER LABS Europe Submission to the Instruction-followi 6.2分 前50% #语音翻译 17. Pmeta-TLA: Backdoor Attacks for Speech Classification M 6.0分 前50% #语音唤醒 18. Neural Audio Codec with Adjustable Token Temporal Resol 5.8分 前50% - 19. SPARCLE: SPeaker-aware Aligned Representations via Cont 5.8分 前50% #语音合成 20. Speaker head orientation estimation with a single micro 5.8分 前50% #声源定位 21. Towards a Phonology-Informed Evaluation of Multilingual 5.7分 前50% #语音质量评估 22. Rethinking Speech-LLM Integration for ASR: Effective Jo 5.6分 前50% #语音识别 23. RT-Tango: Real-Time Distributed Binaural Speech Enhance 5.5分 前50% #语音增强 24. Quantifying the Uncertainty of Blindly Estimated Room E 5.2分 后50% #音频检索 25. CNN Models for Microphone Array Covariance Matrix Upsam 5.0分 后50% #声源定位 26. A Multi-Branch Hierarchy-Aware Framework for Heterogene 4.9分 后50% #音频分类 27. From Monolingual to Multilingual: Evaluating Mamba for 4.8分 后50% #语音识别 28. DRL-CLBA: A Clean Label Backdoor Attack for Speech Clas 4.7分 后50% #音频分类 29. Spatial Speech Perception Systems: A Survey of Sound So 4.1分 后50% #声源定位 30. UT-AISTimprt submission for ICME 2026 Grand Challenge o 4.1分 后50% #音乐生成 31. Using embeddings to predict spoken word duration and pi 4.0分 后50% #语音合成 📋 论文列表 🥇 Unlocking Speech-Text Compositional Powers: Instruction-Following Speech Language Models without Instruction Tuning 8.5/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1.1/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5 ...

2026-07-03 · 更新于 2026-07-03 · 25 min · 5320 words

A Large-Scale Database and Predictive Model of Listener-Rated Ease of Speech Understanding in Commercial Hearing Aids

📄 A Large-Scale Database and Predictive Model of Listener-Rated Ease of Speech Understanding in Commercial Hearing Aids #助听器 #语音增强 8.1/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 8.1/10 | 前25% | #语音质量评估 | #助听器 | #语音增强 | arxiv 👥 作者与机构 Andrew Sabin, Steve Taddei, Abram Bailey。作者来自独立听力实验室HearAdvisor(具体所属机构未在论文中明确说明)。 💡 毒舌点评 这篇论文解决了一个真实且重要的问题:为商业助听器的消费者提供基于真实听感的客观评价指标。其核心贡献在于构建了一个大规模的、基于真实用户在线主观评分的助听器语音理解易用性数据集,并训练了一个预测模型,该模型在特定条件下达到了人类评分的可靠性上限。然而,这份“顶会级别”的工作存在几个显著的“硬伤”:首先,模型和数据集均未开源,这使得其“大规模数据集”的价值大打折扣,也严重阻碍了学术界的复现与比较;其次,实验仅基于单一的N3听力损失类型,模型对其他听力损失用户的泛化能力完全未知,这是一个重大的局限性,而非简单的“待验证”;最后,在线收集数据的环境控制不足(播放设备、校准粗糙),虽然作者期望其能平均化,但这引入了不可忽视的系统性偏差风险。总体而言,这是一篇扎实的工程导向工作,为特定应用提供了有价值的解决方案,但在方法的普适性、科学严谨性以及开放性上,距离顶级学术会议的标准还有距离。 📌 核心摘要 本文介绍了HearAdvisor平台为商业助听器构建的大规模听者主观评分数据集及对应的预测模型。数据集包含通过在线盲听测试收集的151,608条原始评分(经筛选后为104,298条),涵盖了83款商业助听器产品在72个现实声学场景下的录音。为预测这些“语音理解易用性”评分,作者提出一种方法:将助听器处理后的音频与纯净参考语音分别输入冻结的Whisper-Small编码器,取其内部表征的差值,再通过一个轻量级MLP头映射为预测分数。在留出设备上,该模型在响亮场景(\(r=0.89\))和安静场景(\(r=0.79\))的预测相关性均显著优于基线HASPIv2(\(r=0.75\)和\(r=0.58\)),且在响亮场景下达到了听者评分的分半信度上限。模型对增益和信噪比的受控变化也表现出合理的敏感性。该工作为评估真实商业助听器的语音理解体验提供了一种基于用户感知的新方法。 🔗 开源详情 代码:论文中未提供代码链接或代码仓库。 模型权重:论文中未提及模型权重链接。 数据集:论文中未提供独立的、可下载的数据集存储库链接。数据集的收集和托管于HearAdvisor.com 平台(论文第2.2节:“the Blind Listening Challenge… embedded on each product and comparison page.”)。论文未提供用于离线访问或原始数据下载的公开数据集URL。 Demo:论文中未提及独立的开源演示链接。相关数据和指标的展示与使用通过其官方网站 HearAdvisor.com 进行(论文摘要及第1节提及)。 复现材料:论文详细描述了模型架构(第3.1节,Whisper-small编码器 + MLP头)、训练配置(第3.2节,AdamW优化器,学习率等)和实验设置(第4节),但未提供用于直接复现的预训练权重、配置文件或详细代码。 论文中引用的开源项目: Whisper (OpenAI):论文使用的ASR基础模型。论文中引用了其原文(Radford et al., 2023),其官方代码仓库为:https://github.com/openai/whisper。 ARTE (Ambisonic Recordings of Typical Environments) 数据库:论文中用于创建声学场景的公开录音数据库。论文引用了其原始论文(Weisser et al., 2019),该数据库可通过其官方项目页面获取:https://www.indiana.edu/~artelab/。 🏗️ 方法概述和架构 本文提出的方法是一个端到端的、基于预训练语音表征的监督学习框架,旨在从助听器输出的声学信号中预测听者对“语音理解易用性”的主观评分。其核心流程和组件如下: ...

2026-06-26 · 更新于 2026-07-03 · 2 min · 266 words

语音/音乐/音频论文速递 2026-06-26

语音/音乐/音频论文速递 2026-06-26 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 3篇 ███ #语音质量评估 2篇 ██ #语音合成 2篇 ██ #扩散模型 1篇 █ 歌唱评估 1篇 █ 音频编解码 1篇 █ 音频事件检测 1篇 █ 音频分离 1篇 █ 📊 论文评分排行榜(21 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 DNSMOS-C: Improving End-to-end Speech Quality Models vi 9.3分 前50% #语音质量评估 🥈 UnityShots: Memory-Driven Multi-Shot Audio-Video Genera 8.9分 前25% #扩散模型 🥉 Listening Like a Judge: A Music-Aware Framework for Aut 8.8分 前25% 歌唱评估 4. Elastic Time: Dynamic Frame Rate Bottlenecks for Neural 8.3分 前50% 音频编解码 5. Soroll-IA: A Weakly Labeled Audio Dataset for Real-Worl 8.3分 前25% 音频事件检测 6. A Large-Scale Database and Predictive Model of Listener 8.1分 前25% #语音质量评估 7. SamaVaani: Auditing and Debiasing Multilingual Clinical 7.8分 前25% #语音识别 8. CodecSep: Prompt-Driven Universal Sound Separation on N 7.7分 前25% 音频分离 9. VoiceTTA: Enhancing Zero-Shot Text-to-Speech via Reinfo 7.6分 前50% #语音合成 10. What We are Missing in Multimodal LLM Evaluation? 7.0分 前50% - 11. RedVox: Safety and Fairness Gaps in Speech Models Acros 6.8分 前50% #基准测试 12. WQ-Fusion: Dynamic Gated Attention for Cross-Domain Aud 6.7分 前50% #音频分类 13. Thinking While Speaking: Inference-Time Knowledge Trans 6.7分 后50% #知识蒸馏 14. When Does Quality-Aware Multimodal Fusion Matter? A Lea 6.6分 前50% #语音情感识别 15. voxmap-studio: An open-source speaker diarization annot 6.5分 前50% #说话人日志 16. FBK's Long-form SpeechLLMs for IWSLT 2026 Instructi 6.5分 前50% #语音识别 17. wav2tok 2.0: Scalable Audio Tokenization Maintaining Ex 6.4分 前50% #语音检索 18. Generative AI and Copyright Infringement: A Legal-Techn 6.0分 前50% #音乐生成 19. Closing the Quality Gap in Low-Resource Text-to-Speech: 6.0分 后50% #语音合成 20. Neural Speaker Diarization via Multilingual Training: E 5.5分 前50% #语音分离 21. Low Resource Multimodal Translation of Nepali Spoken Wo 5.3分 后50% #语音识别 22 Phonetic and semantic analyses of spoken corpora of Bei N/A - - 📋 论文列表 🥇 DNSMOS-C: Improving End-to-end Speech Quality Models via Contrastive Learning 9.3/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

2026-06-26 · 更新于 2026-07-03 · 12 min · 2421 words

HIDVAS: A Hearing Instrument Dataset in Various Acoustical Scenarios for Algorithm Evaluation and Training

📄 HIDVAS: A Hearing Instrument Dataset in Various Acoustical Scenarios for Algorithm Evaluation and Training #语音增强 #助听器 #数据集 9/10 | 创新 1/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9/10 | 前25% | #语音增强 | #助听器 | #数据集 | arxiv 👥 作者与机构 作者: Arnout Roebben (共同一作), Giuliano Bernardi (共同一作), Jan Wouters, Toon van Waterschoot, Marc Moonen 机构: KU Leuven (Department of Electrical Engineering, ESAT-STADIUS; Department of Neurosciences, ExpORL) 单位邮箱: {arnout.roebben, giuliano.bernardi, jan.wouters, toon.vanwaterschoot, marc.moonen}@kuleuven.be ...

2026-06-15 · 更新于 2026-07-03 · 2 min · 289 words

语音/音乐/音频论文速递 2026-06-15

语音/音乐/音频论文速递 2026-06-15 共分析 26 篇论文 ⚡ 今日概览 📥 抓取 26 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 4篇 ████ #语音合成 4篇 ████ #说话人识别 3篇 ███ #数据增强 2篇 ██ #音频问答 2篇 ██ #语音增强 1篇 █ #音乐信息检索 1篇 █ #强化学习 1篇 █ 📊 论文评分排行榜(26 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Listening with Attention: Entropy-Guided Explainability 9.6分 前25% #语音识别 🥈 MaskedFOP: Polyglot Speaker Identification under Missin 9.2分 前25% #说话人识别 🥉 HIDVAS: A Hearing Instrument Dataset in Various Acousti 9.0分 前25% #语音增强 4. BayLing-Duplex: Native Full-Duplex Speech Dialogue with 9.0分 前10% #语音合成 5. Moonlight in Latent Space: Chirality and Structural Cor 8.7分 前50% #音乐信息检索 6. Who Spoke When in Multi-Conversation: Target Speaker Ta 8.6分 前50% #说话人识别 7. Learning to Hear Hesitation: Continual Learning for Dis 8.3分 前25% #语音识别 8. The Holistic Storage of Verb+Up Phrases in Text-based a 8.2分 前50% #语音识别 9. OmniVideo-100K: A Dataset for Audio-Visual Reasoning th 8.2分 前50% #数据增强 10. Orchestra-o1: Omnimodal Agent Orchestration 8.1分 前50% #强化学习 11. Unsupervised Approaches for Global Prosodic Embedding E 7.8分 前25% #语音合成 12. Instantaneous Pitch Estimation via Wave-U-Net-Based Fun 7.7分 前25% #数据增强 13. A Deep Zero-Inflated Model of North Atlantic Right Whal 7.6分 前50% #概率图模型 14. FAConformer: Frequency-Aware Convolutional Transformer 7.5分 前25% #Transformer 15. From Self-Supervised Speech Models to Mixture-of-Expert 7.5分 前50% #自监督学习 16. The Perceived Fragility of Explanations in Audio Models 7.5分 前25% - 17. A Multi-Domain Feature Fusion Framework for Generalizab 7.4分 前50% #多模态模型 18. AudioDER: A Deduplication-Enhanced Reasoning Dataset fo 7.3分 前50% #音频问答 19. Beyond task performance: Decoding bioacoustic embedding 7.1分 前50% - 20. Explainable and Trustworthy Speech Emotion Recognition 7.0分 前50% #语音情感识别 21. FoleyGenEx: Unified Video-to-Audio Generation with Mult 7.0分 前50% #语音合成 22. Spatio-Temporal Audio Language Modeling for Dynamic Sou 6.9分 前25% #音频问答 23. Mask, Sample, Revise: A Revisable CTMC Inference Stack 6.8分 前25% #语音合成 24. MoDiCoL: A Modular Diagnostic Continual Learning Datase 6.5分 前50% #语音识别 25. Multimodal Speaker Identification in Classroom Environm 6.0分 前50% #说话人识别 26. Efficiency-Performance Trade-offs in Neural Speaker Dia 5.1分 后50% #说话人日志 📋 论文列表 🥇 Listening with Attention: Entropy-Guided Explainability for Transformer-Based Audio Models 9.6/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ...

2026-06-15 · 更新于 2026-07-03 · 15 min · 3122 words

Feasibility of Time-Domain DNN-Based Speech Enhancement on Embedded FPGA for Hearing Aid

📄 Feasibility of Time-Domain DNN-Based Speech Enhancement on Embedded FPGA for Hearing Aid #语音增强 #助听器 7.2/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.4/1.5 | 复现 0.4/0.5 | 工程 0.9/1.5 ✅ 7.2/10 | 前50% | #语音增强 | #助听器 | arxiv 👥 作者与机构 Feyisayo Olalere, Umut Altin, Kiki van der Heijden, Marcel van Gerven 机构:Radboud University, Donders Institute for Brain, Cognition, and Behaviour, The Netherlands;Columbia University, USA. ...

2026-06-04 · 更新于 2026-07-03 · 3 min · 445 words

语音/音乐/音频论文速递 2026-06-04

语音/音乐/音频论文速递 2026-06-04 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 3篇 ███ #音频分类 2篇 ██ #音频生成 2篇 ██ #语音增强 2篇 ██ #多模态模型 1篇 █ #语音编码 1篇 █ #空间音频 1篇 █ #音乐生成 1篇 █ 📊 论文评分排行榜(22 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Multilingual Long-Form Speech Instruction Following: KI 10.0分 前10% #语音识别 🥈 Drift-Augmented Scoring: Text-Derived Noise Robustness 10.0分 前25% #音频分类 🥉 DetectZoo: A Unified Toolkit for AI-Generated Content D 9.3分 前25% #多模态模型 4. CleanCodec: Efficient and Robust Speech Tokenization vi 8.8分 前25% #语音编码 5. Read What You Hear: Reference-Free Hypotheses Evaluatio 8.6分 前25% #语音识别 6. UAT: Unified Audio-Text Diffusion for Audio Generation, 8.5分 前25% #音频生成 7. Flow-HOA: Generative Joint Optimization for Ambisonics 7.9分 前25% #空间音频 8. Test-Time Compute Scaling for ASR with Depth-Conditione 7.8分 前25% #语音识别 9. Channel-Oriented Design for EEG-to-Music Reconstruction 7.7分 前25% #音乐生成 10. Entity Binding Failures in Speech LLM Reasoning: Diagno 7.5分 前25% #语音问答 11. Video2LoRA: Parametric Video Internalization for Vision 7.5分 前50% #参数高效微调 12. Feasibility of Time-Domain DNN-Based Speech Enhancement 7.2分 前50% #语音增强 13. Differentiable Articulatory Copy-Synthesis of Biphonic 7.1分 前50% #音频生成 14. The Differentiable Auditory Loop (DAL): An ML Framework 7.1分 前50% #语音增强 15. Masked Wavelet Scattering Transform Neural Field for So 6.7分 前50% #音频质量评估 16. SHB-AE: Spherical harmonic beamforming based Ambisonics 6.7分 前50% #音频编码 17. SURF: Separation via Unsupervised Remixing Flow 6.4分 前25% #无监督学习 18. Gauss Circle Lattices with Geometric Convolutions for S 6.0分 前50% - 19. Plan First, Judge Later, Run Better: A DMAIC-Inspired A 5.8分 前50% #工业应用 20. Representation Matters in Randomized Smoothing for Audi 5.7分 前50% #音频分类 21. Neural Radiated-Noise Fields for Unmanned Underwater Ve 5.1分 前50% - 22. A Second-Order Cepstral Signature of Contact-Vibration 4.8分 后50% #信号处理基础 📋 论文列表 🥇 Multilingual Long-Form Speech Instruction Following: KIT's Submission to IWSLT 2026 10.0/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-04 · 更新于 2026-07-03 · 14 min · 2920 words

Beamforming Using Virtual Microphones for Hearing Aid Applications

📄 Beamforming Using Virtual Microphones for Hearing Aid Applications #语音增强 #波束成形 #麦克风阵列 #助听器 #低复杂度 ✅ 7.5/10 | 前50% | #语音增强 | #波束成形 | #麦克风阵列 #助听器 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Mojtaba Farmani(Eriksholm Research Centre, Snekkersten, Denmark; Department of Electronic Systems, Aalborg University, Aalborg, Denmark) 通讯作者:未说明 作者列表:Mojtaba Farmani(Eriksholm Research Centre & Aalborg University)、Svend Feldt(Eriksholm Research Centre)、Jesper Jensen(Eriksholm Research Centre) 💡 毒舌点评 论文的核心亮点在于将虚拟麦克风的生成从复杂的相位-幅度分离插值(如GAI)或依赖几何信息的建模,简化为一个基于WDO假设的幂函数模型(式4),理论推导优雅且计算成本极低,非常适合助听器芯片。短板在于,作为一篇声称“ superior performance ”的论文,其对比基线(GAI和扩展GAI)略显保守,未与近年来性能更强的基于神经网络的虚拟麦克风方法进行直接对比,削弱了“SOTA”宣称的说服力。 ...

2026-04-29 · 更新于 2026-07-03 · 1 min · 210 words