助听器 | 语音/音乐/音频论文速递

Addressing Limited Data in Auditory Attention Decoding with Diffusion Generative Models

📄 Addressing Limited Data in Auditory Attention Decoding with Diffusion Generative Models 标签：#语音分离 #扩散模型 #助听器 #音频理解 #Transformer 5.1/10 | 创新 0.8/2 | 严谨 1.1/1.5 | 实验 0.5/1.5 | 清晰 0.9/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 📝 5.1/10 | 后50% | 文档类型：应用研究 | 评分置信度：高 | #语音分离 | #扩散模型 | #助听器 #音频理解 | arxiv 👥 作者与机构第一作者：David Rannaleet（隆德大学自动控制系），Victor Gunnarsson（隆德大学自动控制系）通讯作者：Martin A. Skoglund（Eriksholm研究中心，林雪平大学电气工程系），Emina Alickovic（Eriksholm研究中心，林雪平大学电气工程系）作者列表：David Rannaleet（隆德大学自动控制系），Victor Gunnarsson（隆德大学自动控制系），Bo Bernhardsson（隆德大学自动控制系），Martin A. Skoglund（Eriksholm研究中心，林雪平大学电气工程系），Emina Alickovic（Eriksholm研究中心，林雪平大学电气工程系） 💡 毒舌点评一个动机明确、设计合理但实验评估极其薄弱的概念验证。将成熟技术组合应用于新问题，本身无可厚非，但仅凭不到1%的微弱提升、单一数据集验证以及与“噪声添加”这一孱弱基线的对比，就想在顶会中宣称“显著改善性能”，证据链完全不够看。更像是一份扎实的硕士论文工作，而非一项成熟的会议贡献。 ...

语音/音乐/音频论文速递 2026-07-22

语音/音乐/音频论文速递 2026-07-22 共分析 20 篇论文 ⚡ 今日概览 📥 抓取 20 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 5篇 █████ #语音合成 3篇 ███ #音频分类 2篇 ██ #基准测试 1篇 █ #语音交互 1篇 █ #语音分离 1篇 █ #语音增强 1篇 █ #语音情感识别 1篇 █ 📊 论文评分排行榜（20 篇，按分数降序）排名论文总分分档文档类型主任务 🥇 Content is What Remains: Invariant Speech Tokenization 9.2分前10% 方法研究 #语音编码 🥈 Fusion Embedding: A Unified Embedding Space for Text, I 8.6分前25% 系统技术报告 #音频检索 🥉 End-to-End Markov State Sequence Learning for Auditory 8.3分前25% 方法研究 #语音交互 4. Staged Depth-Pruning Distillation of a Flow-Matching Te 7.9分前25% 系统技术报告 #语音合成 5. Constrained CTC Decoding for Efficient Diacritic Restor 7.7分前25% 方法研究 #语音识别 6. Fretiq: Browser-Native Electric Guitar String Classific 7.5分前25% 系统技术报告 #音频分类 7. MeetingToM: Evaluating Multimodal LLMs on Theory-of-Min 7.2分前50% 数据集与基准 #基准测试 8. Transcription Policy as a Latent Variable: Activating C 7.1分前50% 方法研究 #语音识别 9. Benchmarking Human and Automatic Speech Recognition of 7.0分前50% 系统技术报告 #语音识别 10. A Situational Speech Synthesizer for Yoruba: System Des 6.7分前50% 系统技术报告 #语音合成 11. From a Multilingual Streaming ASR Backbone to Kenyan-La 6.5分前50% 系统技术报告 #语音识别 12. Towards Array-Invariant Speech Enhancement via Geometry 6.3分前50% 方法研究 #语音增强 13. Comparing Spectrogram Front-Ends for Abnormal Heart-Sou 5.7分前50% 方法研究 #音频分类 14. EmoEUS: Uncertainty Supervision for Multimodal Emotion 5.6分前50% 方法研究 #语音情感识别 15. Summary of DCASE 2026 Task 5: Audio-Dependent Question 5.4分后50% 数据集与基准 #音频理解 16. Towards a reproducible cross-venue method for quantifyi 5.4分后50% 方法研究 #音频质量评估 17. CS-ETS: Chaos-Inspired Samba-Based EMG-To-Speech Synthe 5.3分后50% 方法研究 #语音合成 18. Addressing Limited Data in Auditory Attention Decoding 5.1分后50% 应用研究 #语音分离 19. What the Waveform Knows: Transparent-first Speech and A 4.8分后50% 系统技术报告 #语音识别 20. Teleportation Game: Quantum Teleportation in Multi-Agen 4.4分后50% 系统技术报告 #音乐生成 📋 论文列表 🥇 Content is What Remains: Invariant Speech Tokenization from Parallel Utterances 9.2/10 | 创新 1.5/2 | 严谨 1.5/1.5 | 实验 1.3/1.5 | 清晰 0.9/1 | 影响 1.2/1.5 | 开源 1.2/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 ...

Listen first: Output-based multi-microphone speech enhancement

📄 Listen first: Output-based multi-microphone speech enhancement 标签：#语音增强 #多通道 #助听器 #音频理解 #Transformer 6.4/10 | 创新 1.3/2 | 严谨 1.4/1.5 | 实验 1/1.5 | 清晰 0.9/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 ✅ 6.4/10 | 前50% | 文档类型：方法研究 | 评分置信度：高 | #语音增强 | #多通道 | #助听器 #音频理解 | arxiv 👥 作者与机构第一作者：Panos Apostolidis（未说明）通讯作者：未说明作者列表：Panos Apostolidis（未说明）、Svend Feldt（未说明）、Zheng-Hua Tan（未说明）、Jan Østergaard（未说明）、Jesper Jensen（未说明） 💡 毒舌点评本文提出了一个概念上颇具吸引力的“输出驱动”范式，并通过精心设计的实验证明了其在低信噪比和RTF失配条件下相对于传统输入驱动MVDR基线的优势。然而，论文的核心贡献更像一个新颖的“想法验证”而非一个完整的系统。首先，其非因果处理假设（需整个语音段）严重限制了在实时助听器中的实际应用。其次，评估机制完全依赖一个经过训练的固定神经VAD模型，其本身在极端条件下的可靠性成了系统性能的“阿喀琉斯之踵”。最后，缺乏与当前主流端到端深度学习语音增强系统的对比，使得其性能优势在当下的研究环境中显得孤立且边界不清。论文的工程细节描述足以复现其实验，但未开源代码的做法降低了其直接影响力。 📌 核心摘要本文旨在解决传统输入驱动（基于VAD）的助听器语音增强算法在低信噪比（SNR）等恶劣条件下性能下降的问题。作者提出了一种新颖的“输出驱动”处理范式，该范式通过评估系统输出信号的质量来配置处理系统，而非依赖从嘈杂输入中提取的特征。核心方法是使用一个包含多个候选MPDR波束成形器的系统，通过计算每个候选输出信号的“瞥见比例”（Glimpse Proportion, GP）来估计语音可懂度，并选择GP值最高的波束成形器。与传统方法相比，新范式的新颖之处在于将系统配置决策建立在输出质量评估上，从而规避了输入特征估计的可靠性问题。实验在模拟的助听器场景中进行，使用Librispeech语音、ESC-50点噪声源和各向同性噪声。结果显示，在输入SNR为-5 dB时，输出驱动系统的SNR改善（ΔSNR）比输入驱动MVDR基线高约3-4 dB，ESTOI和PESQ也显著提升，尤其在低SNR和RTF失配条件下优势明显。该工作的实际意义在于为助听器等低功耗、高需求场景提供了一种更鲁棒的语音增强思路。主要局限性包括：实验为非因果处理、RTF字典构建依赖先验信息、缺乏与端到端深度学习系统的对比。 ...

语音/音乐/音频论文速递 2026-07-15

语音/音乐/音频论文速递 2026-07-15 共分析 25 篇论文 ⚡ 今日概览 📥 抓取 25 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音乐理解 3篇 ███ #声源定位 2篇 ██ #语音伪造检测 2篇 ██ #语音合成 2篇 ██ #语音增强 2篇 ██ #语音识别 2篇 ██ #说话人日志 2篇 ██ #音频事件检测 2篇 ██ 📊 论文评分排行榜（25 篇，按分数降序）排名论文总分分档文档类型主任务 🥇 ChartGenEval: Corruption-Tested Multi-Dimensional Feedb 8.8分前25% 方法研究 #音乐生成 🥈 Contrasting statistical patterns in melodic and molecul 8.7分前25% 方法研究 #音乐理解 🥉 Open-Source Intelligence and Music Information Retrieva 7.9分前25% 应用研究 #音乐理解 4. HSEmotion Team at the 11th ABAW Challenge: Multi-Task L 7.9分前25% 系统技术报告 #音视频 5. Low-Latency Neural Models for Real-Time Music Enhanceme 7.7分前25% 系统技术报告 #音乐源分离 6. Do We Really Need Multimodal Emotion Language Models La 7.4分前50% 方法研究 #语音情感识别 7. ZipL-Dialog: Memory-Efficient Long-Form Spoken Dialog S 7.3分前50% 系统技术报告 #语音合成 8. The Sound of Absence: Audio-Language Embedding Models S 7.1分前50% 系统技术报告 #音频检索 9. Real-time Generation of Listener Nodding via Prediction 6.9分前50% 方法研究 #语音交互 10. Spatial-Frequency Cued Generative Fixed-Filter Active N 6.9分前50% 方法研究 #声源定位 11. UD-ASD: A Unified Diffusion Model for Anomalous Sound D 6.6分前50% 方法研究 #音频事件检测 12. Investigating the Integration of Spatial Information in 6.6分前50% 方法研究 #说话人日志 13. Segregate, Refine, Integrate: Decomposing Multimodal Fu 6.5分前50% 方法研究 #音频事件检测 14. AutoSIFT: Automatic Style Sifting for Controllable Spee 6.5分前50% 方法研究 #语音合成 15. Listen first: Output-based multi-microphone speech enha 6.4分前50% 方法研究 #语音增强 16. Neural Morphing: Sequence-Optimized Token-Level Morphin 6.4分前50% 系统技术报告 #音频编码 17. Hybrid Continual Learning for Low-Resource Australian A 6.3分前50% 方法研究 #语音识别 18. Explainable-by-Design Audio Deepfake Detection via Wien 6.1分前50% 方法研究 #语音伪造检测 19. Traceback Translators Against Forgetting in Continual F 6.0分前50% 方法研究 #语音伪造检测 20. Automated Synthesis of Facial Mechanisms for Conversati 5.9分前50% 系统技术报告 #音频理解 21. PolarBM: Complex-valued Boltzmann Machine for Modeling 5.8分前50% 方法研究 #语音增强 22. Audio-Native Speech Recognition with a Frozen Discrete- 5.7分前50% 方法研究 #语音识别 23. What is a Musical Scale? Regularity and Convention in t 5.6分前50% 理论研究 #音乐理解 24. DOA Estimation from One-Bit Magnitude-Only Measurements 5.1分后50% 方法研究 #声源定位 25. Audio Diarization: A New Paradigm for Exploring Audio R 4.5分后50% 方法研究 #说话人日志 📋 论文列表 🥇 ChartGenEval: Corruption-Tested Multi-Dimensional Feedback for Rhythm-Game Chart Generation 8.8/10 | 创新 1.7/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 0.8/1 | 影响 0.6/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

RT-Tango: Real-Time Distributed Binaural Speech Enhancement for Low-Power Hearing Aid Devices

📄 RT-Tango: Real-Time Distributed Binaural Speech Enhancement for Low-Power Hearing Aid Devices #语音增强 #模型压缩 #助听器 5.5/10 | 创新 0.6/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 0.8/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 📝 5.5/10 | 前50% | #语音增强 | #模型压缩 | #助听器 | arxiv 👥 作者与机构第一作者：Zahra Benslimane（Université Paris-Saclay, CEA, List）通讯作者：未说明，疑似第一作者（zahra-hafida.benslimane@cea.fr）作者列表：Zahra Benslimane（Université Paris-Saclay, CEA, List）、Pierre Chouteau（Université Paris-Saclay, CEA, List，原文脚注1同属该机构）、Martyna Poreba（Université Paris-Saclay, CEA, List）、Fabrice Auzanneau（Université Paris-Saclay, CEA, List）、Michal Szczepanski（Université Paris-Saclay, CEA, List）、Fabian Chersi（Université Paris-Saclay, CEA, List）、Romain Serizel（Université de Lorraine, CNRS, Inria, LORIA） 💡 毒舌点评 RT-Tango在极低计算预算下，通过一套组合拳将分布式双耳增强打进了8 ms延迟的世界，工程上的"压榨"做得相当扎实。但论文的实验视野极其狭窄，蜷缩在一个小型模拟数据集和一组特定的声学配置上，且完全回避了与任何主流单/双通道增强SOTA的直接对标。“高效"的旗帜固然亮眼，但缺乏真实硬件验证和开源承诺，让"实用性强"的口号听起来更像是一个美好的愿望。 ...

语音/音乐/音频论文速递 2026-07-03

语音/音乐/音频论文速递 2026-07-03 共分析 31 篇论文 ⚡ 今日概览 📥 抓取 31 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音频分类 4篇 ████ #声源定位 4篇 ████ #语音识别 4篇 ████ #语音交互 3篇 ███ #语音合成 3篇 ███ #音视频理解 2篇 ██ #语音增强 2篇 ██ #音乐理解 1篇 █ 📊 论文评分排行榜（31 篇，按分数降序）排名论文总分分档主任务 🥇 Unlocking Speech-Text Compositional Powers: Instruction 8.5分前25% #语音交互 🥈 Decomposer: Learning to Decompile Symbolic Music to Pro 8.4分前25% #音乐理解 🥉 A global predicted-fMRI drive signal from TRIBE does no 7.7分前25% #音视频理解 4. Cross Domain Few-Shot Class-Incremental Audio Classific 7.4分前50% #音频分类 5. Self-Supervised Test-Time Tuning for Packet Loss Concea 7.4分前50% #音频修复 6. Reasoning LLM Improves Speaker Recognition in Long-form 7.2分前50% #音视频理解 7. SelectTSL: Prompt-Guided Selective Target Sound Localiz 7.1分前50% #声源定位 8. Enhancing Acoustic-to-Articulatory Inversion with Multi 7.0分前50% #语音交互 9. TurnNat: Automatic Evaluation of Turn-Taking Naturalnes 7.0分前50% #语音交互 10. Audio-Based Understanding of Audiobook Narration Appeal 6.9分前50% #语音属性识别 11. H-SAGE: Holistic Speaker-Aware Guided Experts for MoE-b 6.9分前50% #语音识别 12. An Efficient vLLM-Based Inference Pipeline for Unified 6.8分前50% #语音合成 13. Few-Shot Open-Set Audio Classification Using Attention 6.8分前50% #音频分类 14. Beyond Words: Towards Effective Modeling of Non-Verbal 6.4分前50% #语音识别 15. LMPAN: A Lightweight Multi-Path Alignment Network for J 6.2分前50% #语音增强 16. NAVER LABS Europe Submission to the Instruction-followi 6.2分前50% #语音翻译 17. Pmeta-TLA: Backdoor Attacks for Speech Classification M 6.0分前50% #语音唤醒 18. Neural Audio Codec with Adjustable Token Temporal Resol 5.8分前50% - 19. SPARCLE: SPeaker-aware Aligned Representations via Cont 5.8分前50% #语音合成 20. Speaker head orientation estimation with a single micro 5.8分前50% #声源定位 21. Towards a Phonology-Informed Evaluation of Multilingual 5.7分前50% #语音质量评估 22. Rethinking Speech-LLM Integration for ASR: Effective Jo 5.6分前50% #语音识别 23. RT-Tango: Real-Time Distributed Binaural Speech Enhance 5.5分前50% #语音增强 24. Quantifying the Uncertainty of Blindly Estimated Room E 5.2分后50% #音频检索 25. CNN Models for Microphone Array Covariance Matrix Upsam 5.0分后50% #声源定位 26. A Multi-Branch Hierarchy-Aware Framework for Heterogene 4.9分后50% #音频分类 27. From Monolingual to Multilingual: Evaluating Mamba for 4.8分后50% #语音识别 28. DRL-CLBA: A Clean Label Backdoor Attack for Speech Clas 4.7分后50% #音频分类 29. Spatial Speech Perception Systems: A Survey of Sound So 4.1分后50% #声源定位 30. UT-AISTimprt submission for ICME 2026 Grand Challenge o 4.1分后50% #音乐生成 31. Using embeddings to predict spoken word duration and pi 4.0分后50% #语音合成 📋 论文列表 🥇 Unlocking Speech-Text Compositional Powers: Instruction-Following Speech Language Models without Instruction Tuning 8.5/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1.1/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5 ...

A Large-Scale Database and Predictive Model of Listener-Rated Ease of Speech Understanding in Commercial Hearing Aids

📄 A Large-Scale Database and Predictive Model of Listener-Rated Ease of Speech Understanding in Commercial Hearing Aids #助听器 #语音增强 8.1/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 8.1/10 | 前25% | #语音质量评估 | #助听器 | #语音增强 | arxiv 👥 作者与机构 Andrew Sabin, Steve Taddei, Abram Bailey。作者来自独立听力实验室HearAdvisor（具体所属机构未在论文中明确说明）。 💡 毒舌点评这篇论文解决了一个真实且重要的问题：为商业助听器的消费者提供基于真实听感的客观评价指标。其核心贡献在于构建了一个大规模的、基于真实用户在线主观评分的助听器语音理解易用性数据集，并训练了一个预测模型，该模型在特定条件下达到了人类评分的可靠性上限。然而，这份“顶会级别”的工作存在几个显著的“硬伤”：首先，模型和数据集均未开源，这使得其“大规模数据集”的价值大打折扣，也严重阻碍了学术界的复现与比较；其次，实验仅基于单一的N3听力损失类型，模型对其他听力损失用户的泛化能力完全未知，这是一个重大的局限性，而非简单的“待验证”；最后，在线收集数据的环境控制不足（播放设备、校准粗糙），虽然作者期望其能平均化，但这引入了不可忽视的系统性偏差风险。总体而言，这是一篇扎实的工程导向工作，为特定应用提供了有价值的解决方案，但在方法的普适性、科学严谨性以及开放性上，距离顶级学术会议的标准还有距离。 📌 核心摘要本文介绍了HearAdvisor平台为商业助听器构建的大规模听者主观评分数据集及对应的预测模型。数据集包含通过在线盲听测试收集的151,608条原始评分（经筛选后为104,298条），涵盖了83款商业助听器产品在72个现实声学场景下的录音。为预测这些“语音理解易用性”评分，作者提出一种方法：将助听器处理后的音频与纯净参考语音分别输入冻结的Whisper-Small编码器，取其内部表征的差值，再通过一个轻量级MLP头映射为预测分数。在留出设备上，该模型在响亮场景（\(r=0.89\)）和安静场景（\(r=0.79\)）的预测相关性均显著优于基线HASPIv2（\(r=0.75\)和\(r=0.58\)），且在响亮场景下达到了听者评分的分半信度上限。模型对增益和信噪比的受控变化也表现出合理的敏感性。该工作为评估真实商业助听器的语音理解体验提供了一种基于用户感知的新方法。 🔗 开源详情代码：论文中未提供代码链接或代码仓库。模型权重：论文中未提及模型权重链接。数据集：论文中未提供独立的、可下载的数据集存储库链接。数据集的收集和托管于HearAdvisor.com 平台（论文第2.2节：“the Blind Listening Challenge… embedded on each product and comparison page.”）。论文未提供用于离线访问或原始数据下载的公开数据集URL。 Demo：论文中未提及独立的开源演示链接。相关数据和指标的展示与使用通过其官方网站 HearAdvisor.com 进行（论文摘要及第1节提及）。复现材料：论文详细描述了模型架构（第3.1节，Whisper-small编码器 + MLP头）、训练配置（第3.2节，AdamW优化器，学习率等）和实验设置（第4节），但未提供用于直接复现的预训练权重、配置文件或详细代码。论文中引用的开源项目： Whisper (OpenAI)：论文使用的ASR基础模型。论文中引用了其原文（Radford et al., 2023），其官方代码仓库为：https://github.com/openai/whisper。 ARTE (Ambisonic Recordings of Typical Environments) 数据库：论文中用于创建声学场景的公开录音数据库。论文引用了其原始论文（Weisser et al., 2019），该数据库可通过其官方项目页面获取：https://www.indiana.edu/~artelab/。 🏗️ 方法概述和架构本文提出的方法是一个端到端的、基于预训练语音表征的监督学习框架，旨在从助听器输出的声学信号中预测听者对“语音理解易用性”的主观评分。其核心流程和组件如下： ...

语音/音乐/音频论文速递 2026-06-26

语音/音乐/音频论文速递 2026-06-26 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 3篇 ███ #语音质量评估 2篇 ██ #语音合成 2篇 ██ #扩散模型 1篇 █ 歌唱评估 1篇 █ 音频编解码 1篇 █ 音频事件检测 1篇 █ 音频分离 1篇 █ 📊 论文评分排行榜（21 篇，按分数降序）排名论文总分分档主任务 🥇 DNSMOS-C: Improving End-to-end Speech Quality Models vi 9.3分前50% #语音质量评估 🥈 UnityShots: Memory-Driven Multi-Shot Audio-Video Genera 8.9分前25% #扩散模型 🥉 Listening Like a Judge: A Music-Aware Framework for Aut 8.8分前25% 歌唱评估 4. Elastic Time: Dynamic Frame Rate Bottlenecks for Neural 8.3分前50% 音频编解码 5. Soroll-IA: A Weakly Labeled Audio Dataset for Real-Worl 8.3分前25% 音频事件检测 6. A Large-Scale Database and Predictive Model of Listener 8.1分前25% #语音质量评估 7. SamaVaani: Auditing and Debiasing Multilingual Clinical 7.8分前25% #语音识别 8. CodecSep: Prompt-Driven Universal Sound Separation on N 7.7分前25% 音频分离 9. VoiceTTA: Enhancing Zero-Shot Text-to-Speech via Reinfo 7.6分前50% #语音合成 10. What We are Missing in Multimodal LLM Evaluation? 7.0分前50% - 11. RedVox: Safety and Fairness Gaps in Speech Models Acros 6.8分前50% #基准测试 12. WQ-Fusion: Dynamic Gated Attention for Cross-Domain Aud 6.7分前50% #音频分类 13. Thinking While Speaking: Inference-Time Knowledge Trans 6.7分后50% #知识蒸馏 14. When Does Quality-Aware Multimodal Fusion Matter? A Lea 6.6分前50% #语音情感识别 15. voxmap-studio: An open-source speaker diarization annot 6.5分前50% #说话人日志 16. FBK's Long-form SpeechLLMs for IWSLT 2026 Instructi 6.5分前50% #语音识别 17. wav2tok 2.0: Scalable Audio Tokenization Maintaining Ex 6.4分前50% #语音检索 18. Generative AI and Copyright Infringement: A Legal-Techn 6.0分前50% #音乐生成 19. Closing the Quality Gap in Low-Resource Text-to-Speech: 6.0分后50% #语音合成 20. Neural Speaker Diarization via Multilingual Training: E 5.5分前50% #语音分离 21. Low Resource Multimodal Translation of Nepali Spoken Wo 5.3分后50% #语音识别 22 Phonetic and semantic analyses of spoken corpora of Bei N/A - - 📋 论文列表 🥇 DNSMOS-C: Improving End-to-end Speech Quality Models via Contrastive Learning 9.3/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

HIDVAS: A Hearing Instrument Dataset in Various Acoustical Scenarios for Algorithm Evaluation and Training

📄 HIDVAS: A Hearing Instrument Dataset in Various Acoustical Scenarios for Algorithm Evaluation and Training #语音增强 #助听器 #数据集 9/10 | 创新 1/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9/10 | 前25% | #语音增强 | #助听器 | #数据集 | arxiv 👥 作者与机构作者: Arnout Roebben (共同一作), Giuliano Bernardi (共同一作), Jan Wouters, Toon van Waterschoot, Marc Moonen 机构: KU Leuven (Department of Electrical Engineering, ESAT-STADIUS; Department of Neurosciences, ExpORL) 单位邮箱: {arnout.roebben, giuliano.bernardi, jan.wouters, toon.vanwaterschoot, marc.moonen}@kuleuven.be ...

语音/音乐/音频论文速递 2026-06-15

语音/音乐/音频论文速递 2026-06-15 共分析 26 篇论文 ⚡ 今日概览 📥 抓取 26 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 4篇 ████ #语音合成 4篇 ████ #说话人识别 3篇 ███ #数据增强 2篇 ██ #音频问答 2篇 ██ #语音增强 1篇 █ #音乐信息检索 1篇 █ #强化学习 1篇 █ 📊 论文评分排行榜（26 篇，按分数降序）排名论文总分分档主任务 🥇 Listening with Attention: Entropy-Guided Explainability 9.6分前25% #语音识别 🥈 MaskedFOP: Polyglot Speaker Identification under Missin 9.2分前25% #说话人识别 🥉 HIDVAS: A Hearing Instrument Dataset in Various Acousti 9.0分前25% #语音增强 4. BayLing-Duplex: Native Full-Duplex Speech Dialogue with 9.0分前10% #语音合成 5. Moonlight in Latent Space: Chirality and Structural Cor 8.7分前50% #音乐信息检索 6. Who Spoke When in Multi-Conversation: Target Speaker Ta 8.6分前50% #说话人识别 7. Learning to Hear Hesitation: Continual Learning for Dis 8.3分前25% #语音识别 8. The Holistic Storage of Verb+Up Phrases in Text-based a 8.2分前50% #语音识别 9. OmniVideo-100K: A Dataset for Audio-Visual Reasoning th 8.2分前50% #数据增强 10. Orchestra-o1: Omnimodal Agent Orchestration 8.1分前50% #强化学习 11. Unsupervised Approaches for Global Prosodic Embedding E 7.8分前25% #语音合成 12. Instantaneous Pitch Estimation via Wave-U-Net-Based Fun 7.7分前25% #数据增强 13. A Deep Zero-Inflated Model of North Atlantic Right Whal 7.6分前50% #概率图模型 14. FAConformer: Frequency-Aware Convolutional Transformer 7.5分前25% #Transformer 15. From Self-Supervised Speech Models to Mixture-of-Expert 7.5分前50% #自监督学习 16. The Perceived Fragility of Explanations in Audio Models 7.5分前25% - 17. A Multi-Domain Feature Fusion Framework for Generalizab 7.4分前50% #多模态模型 18. AudioDER: A Deduplication-Enhanced Reasoning Dataset fo 7.3分前50% #音频问答 19. Beyond task performance: Decoding bioacoustic embedding 7.1分前50% - 20. Explainable and Trustworthy Speech Emotion Recognition 7.0分前50% #语音情感识别 21. FoleyGenEx: Unified Video-to-Audio Generation with Mult 7.0分前50% #语音合成 22. Spatio-Temporal Audio Language Modeling for Dynamic Sou 6.9分前25% #音频问答 23. Mask, Sample, Revise: A Revisable CTMC Inference Stack 6.8分前25% #语音合成 24. MoDiCoL: A Modular Diagnostic Continual Learning Datase 6.5分前50% #语音识别 25. Multimodal Speaker Identification in Classroom Environm 6.0分前50% #说话人识别 26. Efficiency-Performance Trade-offs in Neural Speaker Dia 5.1分后50% #说话人日志 📋 论文列表 🥇 Listening with Attention: Entropy-Guided Explainability for Transformer-Based Audio Models 9.6/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ...