Speech Encoder Fusion for LLM-based Automatic Speech Recognition

📄 Speech Encoder Fusion for LLM-based Automatic Speech Recognition #语音识别 #多模态模型 #低资源 #参数高效微调 7.2/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7.2/10 | 后50% | #语音识别 | #参数高效微调 | #多模态模型 #低资源 | arxiv 👥 作者与机构 Jakob Poncelet, Hugo Van hamme KU Leuven, Department Electrical Engineering ESAT-PSI, Leuven, Belgium 💡 毒舌点评 本文的核心想法——融合多个语音编码器以提升LLM-ASR性能——直觉上合理,但技术执行和实验论证深度不足。所谓“创新”的融合架构(如Sigmoid门控)本质上是简单的加权平均或注意力机制的标准应用,缺乏针对语音-LLM交互的专门设计。实验结论在多语言和说话人分离任务上显得有些仓促,部分关键结论(如“Temporal Transformer捕捉互补信息最佳”)仅凭有限的表格数据支撑,缺乏更细致的分析。论文自述的“计算开销有限”优势在文中未提供任何实际运行时对比数据,显得空洞。整体而言,这是一项增量式的工作,将现有融合技术打包应用到语音LLM中,其技术贡献和系统性分析未达到顶会论文的典型水准。 📌 核心摘要 本文探讨了在基于大语言模型(LLM)的自动语音识别(ASR)系统中,融合多个预训练语音编码器的可能性。作者旨在利用不同编码器(如多语言的Whisper与单语言的专用模型NeLF、Wav2Vec2)的互补性来提升性能。研究提出了五种融合策略:特征拼接、Sigmoid门控、多头门控、位置Transformer和时间Transformer。实验在荷兰语、英语的单语和多语ASR任务,以及结合说话人编码器(ECAPA2)的说话人分离ASR任务中进行。结果表明,在大多数设置下,精心设计的融合方法(特别是Transformer类)优于简单的特征拼接,且计算开销增加有限。此外,将预训练ASR解码器的初步预测作为LLM的额外输入,可进一步显著提升性能,甚至在某些情况下使语音LLM接近或超越专用ASR模型。 ...

2026-06-10 · 更新于 2026-06-15 · 3 min · 521 words

Speech Meets ELF: Audio Conditional Continuous-Target Diffusion for Speech Recognition and Translation

📄 Speech Meets ELF: Audio Conditional Continuous-Target Diffusion for Speech Recognition and Translation #语音识别 #语音翻译 #扩散模型 #流匹配 8.3/10 | 创新 1.7/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.3/10 | 前25% | #语音识别 | #语音翻译 | #扩散模型 #流匹配 | arxiv 👥 作者与机构 论文作者包括 Xuanchen Li(共同第一作者), Tianrui Wang(共同第一作者), Yuheng Lu, Zikang Huang, Yu Jiang, Chenghan Lin, Chenrui Cui, Ziyang Ma, Xingyu Ma, Chunyu Qiang, Guochen Yu, Xie Chen, Longbiao Wang, Jianwu Dang(通讯作者)。机构在作者列表中未明确标注,但根据通讯作者信息及论文常见模式,推测主要来自小米和相关合作机构。 ...

2026-06-10 · 更新于 2026-06-15 · 3 min · 430 words

SSL-GMMVC: Interpretable Voice Conversion via Locally Linear GMM Transforms in Self-Supervised Representation Space

📄 SSL-GMMVC: Interpretable Voice Conversion via Locally Linear GMM Transforms in Self-Supervised Representation Space #语音转换 #高斯混合模型 #自监督学习 #低资源 6.8/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.6/1.5 | 复现 0.5/0.5 | 工程 0.4/1.5 ✅ 6.8/10 | 前50% | #语音转换 | #高斯混合模型 | #自监督学习 #低资源 | arxiv 👥 作者与机构 作者:Tomoya Tanabu, Hiroshi Nishijima, Daisuke Saito, Nobuaki Minematsu 机构:The University of Tokyo, Japan (东京大学) 邮箱:{tanabu,hiroshi,dsk_saito,mine}@gavo.t.u-tokyo.ac.jp ...

2026-06-10 · 更新于 2026-06-15 · 5 min · 972 words

Time-frequency localization of bird calls in dense soundscapes

📄 Time-frequency localization of bird calls in dense soundscapes #迁移学习 #信号处理基础 8.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.5/10 | 前25% | #信号处理基础 | #迁移学习 | arxiv 👥 作者与机构 Simen Hexeberg1,2, Fanghui Tong3, Hari Vishnu1, and Mandar Chitre1,2 Acoustic Research Laboratory, National University of Singapore Tropical Marine Science Institute, National University of Singapore 未在作者列表中明确机构 💡 毒舌点评 这篇论文像一个勤恳的工程师,而不是一个富有想象力的科学家。它将一个成熟的计算机视觉模型(YOLO)直接“移植”到一个音频任务上,并为此提供了一个不错的标注工具。主要贡献是“证明了可行性”和“提出了一个可能有用的评估指标(IoMin)”。然而,创新性显得薄弱,技术深度有限,实验分析可以更深入。论文读起来更像是一个应用报告,而非一篇能推动领域理论或方法前进的顶会论文。它解决了“如何做”,但对于“为什么这样做特别好”或“如何做得根本性更好”的回答不够有力。 ...

2026-06-10 · 更新于 2026-06-15 · 2 min · 327 words

Towards Deep Contextual Reasoning from Broad Descriptions for ASR with Speech-LLM via Metadata-Driven Reasoning Chains

📄 Towards Deep Contextual Reasoning from Broad Descriptions for ASR with Speech-LLM via Metadata-Driven Reasoning Chains #语音识别 #参数高效微调 #多任务学习 #数据增强 6.2/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.3/1.5 | 复现 0.4/0.5 | 工程 0.5/1.5 ✅ 6.2/10 | 前50% | #语音识别 | #参数高效微调 | #多任务学习 #数据增强 | arxiv 👥 作者与机构 Jakob Poncelet, Hugo Van hamme,来自比利时鲁汶大学电气工程系ESAT-PSI。 💡 毒舌点评 这篇论文的核心想法——让语音大模型通过“推理”来利用宽泛的元数据进行纠错——听起来很美好,但更像是把传统的“关键词偏置”包装成了“深度推理”。其“推理”链的生成完全依赖于一个离线的文本LLM,训练时模型只是在模仿这个固定链条的输出,这与模型自身进行多步逻辑推断的“深度”相去甚远。实验上,评估集(M³AV)与训练数据来源高度重合(同为YouTube学术视频),这让人怀疑其改进是否仅仅是过拟合到了特定领域和说话风格。更关键的是,论文声称解决“音频与上下文冲突”,但并未提供任何实验或分析来展示模型在这种情况下会如何决策,这使得其核心论证之一成了空中楼阁。总的来说,工作扎实但缺乏真正的突破性,将“链式思维监督”等同于“学会推理”是一个需要更严格论证的强假设。 📌 核心摘要 本文针对自动语音识别(ASR)在罕见词和领域特定术语上表现不佳的问题,提出了一种利用广泛上下文描述(如视频标题、描述)进行“深度上下文推理”的方法。核心思路是构建一个两阶段流程:首先,通过流水线将音频、其错误转录文本、上下文元数据以及文本LLM生成的“推理链”配对,构建一个“推理增强”的语音数据集(约400小时)。其次,训练语音LLM(如Qwen2-Audio-7B)以链式思维(CoT)格式输出:先生成初始转录,然后基于上下文进行推理,最后输出修正后的转录。实验在M³AV、SlideSpeech和SlideAVSR等测试集上进行,表明该方法在稀有词和命名实体识别上相比多种基线(如无微调、仅ASR微调、带上下文直接微调)均有提升。然而,论文的“推理”主要依赖预生成的监督信号,模型是否真正进行了多步推理存疑。评估数据集与训练数据同源,泛化能力有待验证。论文开源了构建的数据集,但未提供代码或模型权重。 ...

2026-06-10 · 更新于 2026-06-15 · 2 min · 252 words

Towards Robust Arabic Speech Emotion Recognition with Deep Learning

📄 Towards Robust Arabic Speech Emotion Recognition with Deep Learning #自监督学习 #数据增强 #低资源 6.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 0/1 | 影响 0.7/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 6.4/10 | 前50% | #语音情感识别 | #自监督学习 | #数据增强 #低资源 | arxiv 👥 作者与机构 Youcef S. Gheffari, Samiya Silarbi ADASCA Laboratory – Advanced Data Science and Cognitive Applications, Université des Sciences et de la Technologie d’Oran Mohamed Boudiaf (USTO-MB), Oran, Algeria ...

2026-06-10 · 更新于 2026-06-15 · 2 min · 361 words

TRADE: Transducer-Augmented Decoder for Speech LLM

📄 TRADE: Transducer-Augmented Decoder for Speech LLM #语音识别 #大语言模型 7.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.1/1.5 | 复现 0.2/0.5 | 工程 1/1.5 ✅ 7.4/10 | 前25% | #语音识别 | #大语言模型 | arxiv 👥 作者与机构 作者:Yun Tang, Shanil Puri, Shinji Watanabe, Subhabrata Mukherjee 机构:Hippocratic AI, Carnegie Mellon University 💡 毒舌点评 这篇论文试图解决一个关键痛点:给已经很强的语音大模型(Speech LLM)加上实时听写的能力。作者的思路很直接,既然LLM自己没法“听音辨位”,那就外挂一个天生就有时间感的“耳朵”(转录器/Transducer)。这种“LLM负责想,转录器负责听和对齐”的混合架构(TRADE)想法确实巧妙,尤其是在共享编码器和隐藏状态上的设计,体现了工程上的巧思。然而,论文最大的槽点在于“闭源”——代码、模型、数据统统不给。在当下这个强调复现和开源的时代,这简直是在审稿人雷区蹦迪。文章报告的性能看起来不错,但缺乏可验证的实现细节(比如“Decoder-to-Joint Adaptor”具体是什么网络?),让整个工作的可信度打了个折扣。创新性有,但更多是系统工程上的整合创新;理论深度一般;实验还算全面,但局限性部分提到的“英语限制”和“计算需求”在顶级会议上几乎是标配批评,缺乏更犀利的自我剖析。 📌 核心摘要 本文提出TRADE,一种将转录器(Transducer)与多模态大语言模型(LLM)紧密耦合的架构,旨在解决语音LLM缺乏帧同步对齐、难以进行流式推理和端点检测的问题。TRADE通过共享音频编码器,并将LLM的隐藏状态直接用作转录器的预测网络,实现了声学对齐与语言推理的紧密耦合。其关键设计包括:1) 从LLM词表派生的紧凑转录器词表,实现零成本分数融合;2) 分块同步训练与梯度阻断,消除训练-推理不匹配;3) 局部解码器音频注意力(LDAA),用因果滑动窗口限制LLM对音频注意力的内存占用。单一检查点支持离线、流式及长语音解码。在Open ASR Leaderboard上,离线WER为6.71%,流式(960ms块)WER为8.40%;长语音无需外部分割即在TED-LIUM和Earnings-22上分别取得3.64%和10.88%的WER。此外,转录器输出的标点可与声学VAD融合,提升端点检测F1值0.03。 ...

2026-06-10 · 更新于 2026-06-15 · 2 min · 327 words

ViP-VL: Vietnamese Self-supervised Speech Pretraining Model with Vector-Quantization Learning

📄 ViP-VL: Vietnamese Self-supervised Speech Pretraining Model with Vector-Quantization Learning #自监督学习 #低资源 #语音识别 #语音情感识别 #说话人验证 9.7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9.7/10 | 前25% | #语音识别 | #自监督学习 | #低资源 #语音情感识别 | arxiv 👥 作者与机构 作者:Khanh Le, Kiet Anh Ha, Bao Duy Le, Dung Thai, Linh Khoa Tran, D Doan 机构:VinUniversity, Vietnam; UNEY, Switzerland ...

2026-06-10 · 更新于 2026-06-15 · 2 min · 414 words

What Do Deepfake Speech Detectors Actually Hear?

📄 What Do Deepfake Speech Detectors Actually Hear? 7.6/10 ✅ 7.6/10 | 前25% | arxiv 🔗 开源详情 代码:https://github.com/Security-FIT/IG_for_SSL_detectors 模型权重:论文中未提及具体的模型权重链接(论文仅提及使用了预训练的WavLM Base+模型,但未提供其权重存储库的直接链接)。 数据集:ASVspoof 5 (论文中提及,但未提供具体获取链接;这是一个公开的学术基准数据集,可通过其官方渠道获取)。 Demo:论文中未提及。 复现材料:论文提供了详细的训练配置(优化器、学习率、数据增强策略等),并在其GitHub仓库中包含了实施细节。未单独提供检查点链接。 论文中引用的开源项目: WavLM (Base+):论文中提及的预训练模型。论文中未提供权重链接。 Captum:用于实现集成梯度方法的库。链接:https://captum.ai/ AASIST:论文中分析的一种检测器架构。论文引用 [jung22aasist] 和 [borodin24_asvspoof]。 Context-Aware MHFA (CA-MHFA):论文中分析的一种检测器架构。论文引用 [BUT198050] 和 [rohdin24_asvspoof]。 Sensitive Layer Selection (SLS):论文中分析的一种检测器架构。论文引用 [sls]。 RawBoost:一种数据增强方法 (LnL-ISD)。论文中提及但未提供链接。 Wav2Vec 2.0:提及的预训练模型。论文中未提供权重链接。 ASVspoof 5:提及的评估数据集。论文中未提供具体获取链接。 YourTTS:提及的语音合成模型 (论文中提及为攻击A28)。论文中未提供链接。 📷 论文图片 ← 返回 2026-06-10 语音/音乐/音频论文速递

2026-06-10 · 更新于 2026-06-15 · 1 min · 58 words

语音/音乐/音频论文速递 2026-06-10

语音/音乐/音频论文速递 2026-06-10 共分析 45 篇论文 ⚡ 今日概览 📥 抓取 45 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 13篇 █████████████ #数据增强 3篇 ███ #自监督学习 2篇 ██ #语音合成 2篇 ██ #多模态模型 1篇 █ #语音对话系统 1篇 █ #语音生成 1篇 █ #参数高效微调 1篇 █ 📊 论文评分排行榜(45 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 ViP-VL: Vietnamese Self-supervised Speech Pretraining M 9.7分 前25% #语音识别 🥈 Spatial-Omni: Spatial Audio Understanding Integration i 9.4分 前25% #多模态模型 🥉 Multi-Faceted Interactivity Alignment in Full-Duplex Sp 9.3分 前25% #语音对话系统 4. OmniCap-IF: Benchmarking and Improving Instruction Foll 9.1分 前25% #语音生成 5. RAT: Reference-Augmented Training for ASV Anti-Spoofing 8.8分 前25% #数据增强 6. Recovering the Zipfian Distribution in Unsupervised Ter 8.7分 前50% #自监督学习 7. LLM can Read Spectrogram: Encoder-free Speech-Language 8.6分 前25% #语音识别 8. ParaBridge: Bridging Paralinguistic Perception and Dial 8.6分 前25% #参数高效微调 9. Time-frequency localization of bird calls in dense soun 8.5分 前25% #信号处理基础 10. Ethical and Technical Limits of Deepfake Speech Dataset 8.4分 前25% - 11. Speech Meets ELF: Audio Conditional Continuous-Target D 8.3分 前25% #语音识别 12. DeRA-MOS: Optimizing Text-to-Music Evaluation via Decou 8.2分 前25% #音乐评估 13. Anchoring the Unknown: Open-Set Model Attribution via P 8.0分 前25% #多语言 14. ANCHOR: Autoregressive Non-intrusive Chunk-Ordered Refi 8.0分 前25% #语音质量评估 15. ContextCodec: Content-Focused Context Guidance for Ultr 7.9分 前25% #语音编码 16. GlobeAudio: A Multilingual Multicultural Benchmark for 7.9分 前25% #语音识别 17. Dual-Branch Gated Fusion for Open-Set Audio Deepfake So 7.8分 前25% #音频深度伪造检测 18. Data Journalist Agent: Transforming Data into Verifiabl 7.7分 前25% - 19. GC-LoRA: Gated Convolutional LoRA for Parameter-Efficie 7.6分 前25% #语音识别 20. What Do Deepfake Speech Detectors Actually Hear? 7.6分 前25% - 21. KFC-KWS: Keyframe Fusion with CTC for User-Defined Keyw 7.6分 前25% #关键词检测 22. Entropy-Aware Domain-Routed Mixture-of-Experts Speech-L 7.5分 前25% #语音识别 23. Linguistically Augmented Audio Speech Data (LinguAS) 7.5分 后50% #语音伪造检测 24. AudioProcessBench: Benchmark for Identifying Process Er 7.5分 前50% - 25. Cross-Modal Knowledge Distillation without Paired Data: 7.5分 前50% #语音识别 26. AuRA: Internalizing Audio Understanding into LLMs as Lo 7.5分 前25% #语音问答 27. TRADE: Transducer-Augmented Decoder for Speech LLM 7.4分 前25% #语音识别 28. Inside the Latent Flow: Causal Deciphering of Attention 7.3分 前50% #语音分离 29. Optimality of FSQ Tokens for Continuous Diffusion for C 7.3分 前50% #语音合成 30. Speech Encoder Fusion for LLM-based Automatic Speech Re 7.2分 后50% #语音识别 31. Enhancing Multilingual LLM-based ASR with Mixture of Ex 7.0分 前50% - 32. Phoneme-First Prediction for LLM-Based Speech Recogniti 6.9分 前50% #语音识别 33. Profy: Interpretable Visualization of Expertise-Depende 6.9分 前50% #音乐信息检索 34. Optimizing 2D Input Representations and Sub-phase Fusio 6.8分 前50% #数据增强 35. SSL-GMMVC: Interpretable Voice Conversion via Locally L 6.8分 前50% #语音转换 36. Deploying Speech-Driven 3D Facial Animation in Unreal E 6.6分 前50% #语音合成 37. RespiraMFM: A Multimodal Foundation Model with Contrast 6.5分 前50% #对比学习 38. From Senses to Decisions: The Information Flow of Audit 6.5分 前50% #语音识别 39. Speaker Group Encoding in Self-supervised Speech Recogn 6.5分 前50% #语音识别 40. Towards Robust Arabic Speech Emotion Recognition with D 6.4分 前50% #语音情感识别 41. Multilingual Word-Level Forced Alignment with Self-Supe 6.3分 前50% #自监督学习 42. Overview of ESDD2: Environment-Aware Speech and Sound D 6.3分 前50% #数据增强 43. Towards Deep Contextual Reasoning from Broad Descriptio 6.2分 前50% #语音识别 44. A Lightweight Dual-Factor Acoustic Authentication Syste 6.0分 前50% #说话人验证 45. Automated Pronunciation Evaluation for Korean Toddler S 6.0分 前50% #说话人日志 📋 论文列表 🥇 ViP-VL: Vietnamese Self-supervised Speech Pretraining Model with Vector-Quantization Learning 9.7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-10 · 更新于 2026-06-15 · 26 min · 5465 words