Whisper

Whisper Hallucination Detection and Mitigation via Hidden Representation Steering and Sparse AutoEncoders

📄 Whisper Hallucination Detection and Mitigation via Hidden Representation Steering and Sparse AutoEncoders #语音识别 #Whisper 7.9/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 0.8/1 | 影响 0.7/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.9/10 | 前50% | #语音识别 | #Whisper | arxiv 👥 作者与机构论文作者：Aparin, Popov, Sadekova, Yermekova (全名：Georgii Aparin, Vadim Popov, Tasnima Sadekova, Assel Yermekova)。机构：1 AI Foundation and Algorithm Lab；2 National University of Science and Technology MISIS；3 National Research University Higher School of Economics。 ...

语音/音乐/音频论文速递 2026-06-08

语音/音乐/音频论文速递 2026-06-08 共分析 38 篇论文 ⚡ 今日概览 📥 抓取 38 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 7篇 ███████ #语音识别 6篇 ██████ #音频生成 3篇 ███ #数据增强 3篇 ███ #多模态模型 3篇 ███ #语音情感识别 2篇 ██ #音乐生成 2篇 ██ #音乐信息检索 1篇 █ 📊 论文评分排行榜（38 篇，按分数降序）排名论文总分分档主任务 🥇 Audio-Oscar: A Multi-Agent System for Complex Audio Sce 9.9分前10% #音频生成 🥈 Assessing True Generalisability of Audio-Visual Speech 9.5分前10% #语音识别 🥉 VoxCPM2 Technical Report 9.5分前50% #语音合成 4. Beyond Semantic Dominance: Cognitive Affective Reasonin 9.2分前10% #语音合成 5. Hearing the Unspoken: Language Model Priors for Acousti 9.2分前25% #语音识别 6. dots.tts Technical Report 9.0分前25% #语音合成 7. How Far Can Chord-Symbol Time-Series Adaptation Carry G 8.8分前50% #音乐信息检索 8. Where Rectified Flows Leak: Characterising Membership S 8.7分前25% #音频生成 9. BiEAR: A Human Auditory-Inspired Adaptive Binaural Fron 8.5分前25% #声源定位 10. Mitigating Proxy-to-Wild Domain Gap in Deepfake Speech 8.4分前25% #数据增强 11. Multilingual Multi-Speaker Unit Vocoders: A Systematic 8.4分前25% #语音合成 12. Geometric Second-Order Feature Correlation Learning for 7.9分前50% #语音情感识别 13. Whisper Hallucination Detection and Mitigation via Hidd 7.9分前50% #语音识别 14. Acoustic Cue Alignment in Audio Language Models for Spe 7.8分前50% #语音情感识别 15. Towards Unified Song Generation and Singing Voice Conve 7.7分前25% #语音合成 16. Phonetic Error Analysis of Raw Waveform Acoustic Models 7.6分前50% #语音识别 17. SEAM: Shortcut-Aware Real-Time Detection of Scripted vs 7.5分前25% #语音增强 18. DirectAudioEdit: Inversion-Free Text-Guided Audio Editi 7.5分前25% #扩散模型 19. MMAE: A Massive Multitask Audio Editing Benchmark 7.5分前50% #语音编辑 20. Leveraging Soft Distributions of SSL-Derived Discrete S 7.4分前50% #语音识别 21. MyGardenBird: A Machine-Learning-Ready Bird Sound Datas 7.2分前50% #音频事件检测 22. FIGMA: Towards FIne-Grained Music retrievAl 7.2分前50% #对比学习 23. KIT's Submission to Cross-Lingual Voice Cloning in 7.2分前50% #语音合成 24. Contrastive Training with LLM-generated Near-Misses for 7.1分前50% #语音识别 25. A Large-Scale Per-Speaker Analysis of Re-identification 7.1分前50% #语音匿名化 26. SVHighlights: Towards Extremely Long Sport Video Highli 7.0分前50% #多模态模型 27. TargetSEC: Plug-and-Play In-the-Wild Speech Emotion Con 6.8分前50% #语音转换 28. Making the Most of Limited Data: Score-Aware Training f 6.7分前50% #音乐生成 29. IRAF: Interference-Resilient Adaptive Fusion for Noise- 6.5分前50% #语音对话系统 30. Towards Event-Robust Acoustic Scene Classification 6.5分前50% #数据增强 31. FSC-Net: Integrating Fast Fourier Convolutions and Prog 6.4分前50% #音频质量评估 32. Watch, Remember, Reason: Human-View Video Understanding 6.4分前50% #多模态模型 33. Hierarchical Semantic-Constrained Heterogeneous Graph f 6.2分前50% #多模态模型 34. Audio Imitator: Controlling Timbre and Tempo in Video2A 6.0分前50% #音频生成 35. HybridCodec: Fast Dual-Stream, Semantically Enhanced Ne 5.7分前50% #语音合成 36. SpectCount: Spectrotemporal Counting via Synthetic Sign 5.5分前50% #数据增强 37. Entropy as a Structural Prior: How a Log-Barrier on DiT 4.2分后50% #音乐生成 38. VISA: A Visual Information Strengthened Audio-Reasoning 3.9分前50% #音频问答 📋 论文列表 🥇 Audio-Oscar: A Multi-Agent System for Complex Audio Scene Generation, Orchestration, and Refinement 9.9/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

A Semi-Supervised Framework for Speech Confidence Detection using Whisper

📄 A Semi-Supervised Framework for Speech Confidence Detection using Whisper #语音自信度检测 #半监督学习 #伪标签 #迁移学习 #Whisper #数据增强 #低资源 #语音大模型 ✅ 6.5/10 | 未提及 | #语音自信度检测 | #半监督学习 | #伪标签 #迁移学习 | arxiv 学术质量 6.0/8 | 影响力 0.6/2 | 可复现性 0.7/1 | 置信度高 👥 作者与机构第一作者：Adam Wynn 通讯作者：未说明作者列表：Adam Wynn（未说明具体学术机构，但论文脚注提及由IEEE Publication Technology Group制作，地址在Piscataway, NJ），Jingyun Wang（未说明） 💡 毒舌点评这篇论文为“感知自信度检测”这一小众且缺乏基准的任务构建了一个完整、实验扎实的半监督框架。其核心思路——结合Whisper的语义能力与可解释声学特征（eGeMAPS + 辅助模型）进行晚期融合，并通过“不确定性感知”伪标签扩充数据——在解决数据稀缺问题上逻辑自洽且有效。然而，其创新性更多体现在系统集成和工程优化，而非方法论的根本突破。文中多个关键超参数（如伪标签阈值τ、融合权重λ、损失权重18.0）的选择依据仅提及“经验消融”或“经验性确定”，缺乏充分的实验展示或理论推导，使得部分设计略显“黑箱”。尽管实验结果支持了其框架的有效性，但单一、未公开的小规模数据集评估限制了结论的泛化说服力。 📌 核心摘要要解决什么问题：自动检测语音中的感知说话人自信度对于自适应计算和情感交互至关重要，但面临标注数据稀缺（任务主观且无公开基准）和现有方法局限（纯声学特征泛化差，纯自监督模型可能忽略细粒度韵律线索）的挑战。方法核心是什么：提出一个五阶段半监督混合框架：(A) 构建并标注小型数据集；(B) 提取Whisper语义嵌入和94维声学特征向量（eGeMAPS + 辅助不流畅/压力模型概率）；(C) 训练辅助的不流畅性和压力检测模型；(D) 用仅基于声学特征向量训练的MLP对无标签数据生成伪标签，并通过高置信度阈值(τ=0.8)过滤；(E) 训练一个双流晚期融合的混合模型，融合Whisper流和特征向量流的输出，并使用源增强损失函数在真值+伪标签数据上训练。与已有方法相比新在哪里：首次为感知自信度检测提出专用半监督框架。核心创新点在于：(1) 架构创新：明确提出并实现了将Whisper深度语义表示与可解释声学特征（含辅助任务线索）进行晚期融合，以显式引入韵律纠正信号；(2) 策略创新：引入“不确定性感知”伪标签策略，强调通过严格的置信度过滤来保证伪标签质量，而非单纯追求数量。 ...

语音/音乐/音频论文速递 2026-05-13

语音/音乐/音频论文速递 2026-05-13 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #声源定位 2篇 ██ #音频编码 2篇 ██ #语音识别 2篇 ██ #多模态检索 1篇 █ #深度伪造检测 1篇 █ #音视频 1篇 █ #基准测试 1篇 █ #多模态推理 1篇 █ 📊 论文评分排行榜（21 篇，按分数降序）排名论文评分分档主任务 🥇 jina-embeddings-v5-omni: Text-Geometry-Preserving Multi 7.5分前25% #多模态检索 🥈 Adaptive Diagonal Loading using Krylov Subspaces for Ro 7.0分前25% #声源定位 🥉 Spatial Power Estimation via Riemannian Covariance Matc 7.0分前25% #声源定位 4. The Deepfakes We Missed: We Built Detectors for a Threa 7.0分前50% #深度伪造检测 5. OmniRefine: Alignment-Aware Cooperative Compression for 7.0分前25% #音视频 6. Exploring Token-Space Manipulation in Latent Audio Toke 6.7分前25% #音频编码 7. MMTB: Evaluating Terminal Agents on Multimedia-File Tas 6.7分前25% #基准测试 8. UniPath: Adaptive Coordination of Understanding and Gen 6.6分前25% #多模态推理 9. The SMC Blind Spot: A Failure Mode Analysis of State-of 6.5分前35% #节拍跟踪 10. Too Good to Be True: A Study on Modern Automatic Speech 6.2分前50% #语音增强 11. Towards Fine-Grained Multi-Dimensional Speech Understan 6.0分前25% #语音理解 12. A Semi-Supervised Framework for Speech Confidence Detec 6.0分前50% #语音自信度检测 13. AffectCodec: Emotion-Preserving Neural Speech Codec for 5.8分前25% #音频编码 14. STRUM: A Spectral Transcription and Rhythm Understandin 5.5分前25% #音乐转录 15. Chunkwise Aligners for Streaming Speech Recognition 5.5分前50% #语音识别 16. Poly-SVC: Polyphony-Aware Singing Voice Conversion with 5.5分前50% #歌唱语音转换 17. What makes a word hard to learn? Modeling L1 influence 5.5分前50% #词汇难度预测 18. Mind the Pause: Disfluency-Aware Objective Tuning for M 5.5分前25% #语音编辑 19. OmniNFT: Modality-wise Omni Diffusion Reinforcement for 5.5分前25% #音视频生成 20. Mechanistic Interpretability of ASR models using Sparse 5.0分前60% #语音识别 21. Boosting Omni-Modal Language Models: Staged Post-Traini 5.0分前50% #多模态模型评估 22 AuDirector: A Self-Reflective Closed-Loop Framework for N/A - - 📋 论文列表 🥇 jina-embeddings-v5-omni: Text-Geometry-Preserving Multimodal Embeddings via Frozen-Tower Composition ✅ 7.5/10 | 前25% | #多模态检索 | #迁移学习 | #多模态模型 #模型评估 | arxiv ...

BEST-RQ-based Self-Supervised Learning for Whisper Domain Adaptation

📄 BEST-RQ-based Self-Supervised Learning for Whisper Domain Adaptation #语音识别 #自监督学习 #领域适应 #Whisper #低资源 ✅ 7.5/10 | 前25% | #语音识别 | #自监督学习 | #领域适应 #Whisper 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Raphaël Bagat（根据署名顺序判断，论文中未明确标注）通讯作者：未说明作者列表：Raphaël Bagat（Université de Lorraine, CNRS, Inria, LORIA）、Irina Illina（Université de Lorraine, CNRS, Inria, LORIA）、Emmanuel Vincent（Université de Lorraine, CNRS, Inria, LORIA） 💡 毒舌点评亮点：在“如何有效利用海量无标注数据适配Whisper这类已收敛的预训练模型”这一关键问题上，提出了一个巧妙且工程友好的解决方案——BEARD框架，通过中间层自监督损失与双层蒸馏的结合，成功在低资源航空通信领域实现了显著的性能提升，且消融实验非常扎实。短板：方法的有效性高度依赖于对“最佳中间层ℓ”和损失权重λ的选择，论文主要呈现了经验性结果，缺乏对这一选择背后原理的深入分析。此外，虽然声称是“第一个”将SSL用于Whisper适配的工作，但与更强的外部语言模型基线（XLS-R+LM）相比，绝对WER优势并不算巨大。 🔗 开源详情代码：论文明确提供了代码仓库链接：https://gitlab.inria.fr/rbagat/beard。模型权重：论文中未提及是否公开了经过BEARD适配后的模型权重。数据集：实验使用ATCO2数据集，论文提供了ELRA目录信息（ISLRN: 589-403-577-685-7, ELRA ID: ELRA-S0484），需通过该平台获取。 Demo：论文中未提及提供在线演示。复现材料：论文提供了极其充分的复现细节，包括：完整的训练超参数（学习率、批大小、掩码概率、码本大小、损失权重等）、硬件环境（8x V100 GPU）、训练时长（7小时/轮）、解码策略（贪心搜索）、评估协议（4折交叉验证，明确的训练/验证/测试集划分）以及统计检验方法（SCTK）。论文中引用的开源项目：论文引用了SCTK工具用于统计检验，并在代码部分可能依赖于Whisper和BEST-RQ的开源实现（未明确列出，但可从上下文推断）。 📌 核心摘要问题：预训练的多语言ASR模型（如Whisper）在特定低资源领域（如航空交通控制ATC）性能下降，而可用标注数据极少。方法核心：提出BEARD框架，利用大规模无标注领域数据，通过结合BEST-RQ自监督学习目标和对冻结教师编码器的知识蒸馏，来适配Whisper的编码器。其关键在于将自监督损失应用于编码器的中间层输出，并通过蒸馏损失保持编码器与原始解码器的兼容性。创新点：首次将自监督学习目标应用于Whisper的领域适配；创新性地使用中间层输出进行自监督学习，以保护与解码器的对齐；通过结合两个不同层（中间层和输出层）的蒸馏损失来确保适配后的编码器能力。主要实验结果：在ATCO2航空语音数据集上，使用~5000小时无标注数据进行BEARD适配，再仅用2小时有标注数据微调，最佳配置（ℓ=6, λ=0.5）获得了17.17%的词错误率（WER）。相比仅使用标注数据微调的基线（19.54% WER），实现了12%的相对改进，并在所有信噪比（SNR）条件下均优于基线。消融实验证明，同时使用两个蒸馏损失（Lℓ_d和Ln_d）是取得最佳性能的关键。适应方法微调参数量用于微调的ATCO2数据量 WER (%) Whisper-small, 无微调 0 0 分钟 63.32 Whisper-small, 仅微调 244M 2小时24分钟 19.54 Whisper-small, BEARD (5381h) + 微调 (ℓ=6, λ=0.5) 244M 2小时24分钟 17.17 XLS-R (微调 ATC) + LM [20] 300M 0 分钟 19.80* 注：带号的结果来自文献[20]，其微调数据与本论文的ATCO2数据集不同。* 5. 实际意义：证明了一种高效（单次无标注数据前向+反向传播）的范式，即利用无标注数据对大型预训练ASR模型进行领域自适应，为解决垂直领域ASR落地中的数据瓶颈提供了有效方案。 6. 主要局限性：方法对中间层位置ℓ和蒸馏权重λ的选择依赖经验调参，缺乏理论或启发式指导；实验在单一数据集（ATCO2）和单一模型规模（Whisper-small）上进行，泛化性有待更多验证；计算开销虽低于伪标签生成，但仍需数千小时GPU时间。 ...

Leveraging Whisper Embeddings For Audio-Based Lyrics Matching

📄 Leveraging Whisper Embeddings For Audio-Based Lyrics Matching #音频检索 #音乐信息检索 #对比学习 #Whisper #多语言 ✅ 7.0/10 | 前50% | #音乐信息检索 | #对比学习 | #音频检索 #Whisper 学术质量 5.0/7 | 选题价值 1.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Eleonora Mancini（博洛尼亚大学，DISI）通讯作者：未说明作者列表：Eleonora Mancini（博洛尼亚大学，DISI）、Joan Serrà（Sony AI）、Paolo Torroni（博洛尼亚大学，DISI）、Yuki Mitsufuji（Sony AI， Sony Group Corporation） 💡 毒舌点评亮点在于将“可复现性”作为核心卖点并切实执行，在音乐信息检索领域提供了第一个透明的歌词匹配端到端管线，这对建立公平的学术比较至关重要。短板则是其核心技术创新略显不足，本质上是将现有的优秀组件（Whisper、Transformer、对比学习）进行有效组装，缺少对歌词语义表征学习本身更深入的建模或理论分析。 🔗 开源详情代码：提供。论文明确给出了代码仓库链接：https://github.com/helemanc/audio-based-lyrics-matching。模型权重：论文中提到了“models’ checkpoints”，但未明确说明是否公开下载。未提供。数据集：论文使用了三个公开数据集（DVI， SHS， LYC），并说明了数据收集和处理方式。未提供自己的新数据集。 Demo：论文中未提及在线演示。复现材料：提供了充分的训练细节（优化器、学习率、调度、批量大小、早停条件等）、超参数设置和评估协议，可复现性高。论文中引用的开源项目： Whisper [1]（预训练ASR模型） Sentence-BERT (SBERT) [18]（用于基线）可能引用的其他基线实现（如CLEWS [6]， ByteCover [7,8]）。 📌 核心摘要解决的问题：现有的基于音频的歌词匹配方法面临可复现性差、基线不一致、依赖文本转录或复杂流程等问题，阻碍了公平比较和领域发展。方法核心：提出WEALY（Whisper Embeddings for Audio-based LYrics matching），一个端到端的、可复现的管线。其核心是直接从原始音频中提取Whisper解码器的隐状态（歌词感知嵌入），然后通过一个轻量级Transformer编码器和广义均值（GeM）池化，将其映射为紧凑的向量表示，并使用对比学习（NT-Xent损失）在音乐版本识别（MVI）任务上训练。与已有方法相比新在哪里：主要创新不在于提出全新的模型架构，而在于：a) 完全摒弃了文本转录步骤，直接从音频特征中学习歌词表征；b) 提供了从代码到模型检查点的完全透明、可复现的实现；c) 在多个数据集上建立了标准化的歌词匹配基线；d) 通过消融研究系统分析了损失函数、池化策略、多语言能力等关键设计选择。主要实验结果：WEALY在三个数据集（DVI, SHS, LYC）上均显著优于基于转录文本（TF-IDF, ASR-SBERT）和简单平均嵌入的基线。例如，在SHS数据集上，WEALY的MAP为0.640，而最强的文本基线ASR-SBERT-Cosine仅为0.508。消融研究表明，NT-Xent损失优于三元组损失和CLEWS损失；GeM池化优于简单平均；保留Whisper的多语言能力比强制英语解码性能更高（0.640 vs 0.578）。初步的多模态融合实验（WEALY+CLEWS）在SHS上达到了0.912 MAP，超越了单一模态的最佳性能。实际意义：为音乐信息检索、版权检测、音乐发现等应用提供了一个可靠、开源的歌词匹配工具和研究基准，推动了该领域的可复现研究。主要局限性：a) 核心方法组合创新性有限；b) 作为代理任务的MVI与纯粹的歌词匹配任务可能存在差距；c) 尽管多模态融合效果好，但歌词匹配本身的性能仍低于纯音频内容模型（如CLEWS的0.876 MAP）。 🏗️ 模型架构 WEALY采用一个两阶段的管线架构，如图1所示： ...