语音/音乐/音频论文速递 2026-05-30

语音/音乐/音频论文速递 2026-05-30 共分析 6 篇论文 ⚡ 今日概览 📥 抓取 6 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 2篇 ██ #语音情感识别 1篇 █ #强化学习 1篇 █ #Transformer 1篇 █ 📊 论文评分排行榜(6 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 A Multi-Probe Audit of Clinical-Interview Depression De 9.6分 前10% #语音情感识别 🥈 EchoDistill:Alignment Noisy-to-Clean Self-Distillation 9.1分 前50% #强化学习 🥉 MIRAGE: Adaptive Multimodal Gating for Whole-Brain fMRI 8.2分 前50% #Transformer 4. Direct Preference Optimization for English-Mandarin Cod 7.2分 前50% #语音识别 5. Raon-Speech Technical Report 6.5分 前25% #语音识别 6. PiAnnotate: A Web Annotation Tool for Piano Fingering, 6.0分 前50% - 📋 论文列表 🥇 A Multi-Probe Audit of Clinical-Interview Depression Detection Benchmarks 🔥 9.6/10 | 前10% | #语音情感识别 | #迁移学习 | #音频信号处理 #预训练语言模型 | arxiv ...

2026-05-30 · 更新于 2026-06-12 · 3 min · 583 words

ChildVox: A Speech, Audio, and Large Audio-Language Model Benchmark in Understanding and Characterizing Sound across Childhood

📄 ChildVox: A Speech, Audio, and Large Audio-Language Model Benchmark in Understanding and Characterizing Sound across Childhood #自监督学习 #参数高效微调 #语音识别 #音频分类 #说话人日志 #数据集 🔥 8/10 | 前25% | #语音识别 | #自监督学习 | #参数高效微调 #音频分类 | arxiv 学术质量 5.3/7 | 影响力 1.8/2 | 可复现性 0.9/2 | 置信度 中 👥 作者与机构 作者:Tiantian Feng, Anfeng Xu, Xuan Shi, Aditya Kommineni, Shakhrul Iman Siam, Megan Micheletti, Zhonghao Shi, Helen Tager-Flusberg, Mi Zhang, Lynn K. Perry, Catherine Lord, Daniel Messinger, Shrikanth Narayanan 机构:南加州大学,俄亥俄州立大学,加州大学洛杉矶分校,哈佛大学,波士顿大学,迈阿密大学 ...

2026-05-29 · 更新于 2026-06-12 · 2 min · 264 words

MusTBENCH: Benchmarking and Advancing Temporal Grounding in Music LLMs

📄 MusTBENCH: Benchmarking and Advancing Temporal Grounding in Music LLMs #音乐生成 #音频问答 #强化学习 #多模态模型 #参数高效微调 ✅ 7.5/10 | 前50% | #音乐生成 | #强化学习 | #音频问答 #多模态模型 | arxiv 学术质量 4.9/7 | 影响力 1.8/2 | 可复现性 0.8/2 | 置信度 中 👥 作者与机构 作者:Daeyoung Kwon, Qiyu Wu, Shinobu Kuriya, Junghyun Koo, Shuyang Cui, Zhi Zhong, Wei-Hsiang Liao, Hiromi Wakaki, Yuki Mitsufuji 机构:首尔大学,索尼集团,索尼AI 💡 毒舌点评 这篇工作像一位认真但略显保守的工程师:它发现了一个重要的问题(音乐LLM缺乏时序定位能力),并搭建了一套完整、系统但不够性感的解决方案(构建基准+提出四阶段训练流程)。优点是踏实、全面,消融实验做得像实验报告一样工整。缺点是缺乏令人眼前一亮的“啊哈”时刻:MusTBench的构建严重依赖自动化的、可能存在噪声的管道(用模型预测边界和情绪),这让人对其“专家验证”的成色打个折扣;提出的MusT训练流程本质上是现有技术(LoRA、时间戳描述、SFT、GRPO)在音乐时序任务上的有序组合,创新性有限。最令人不满的是,对于一篇强调“时序定位”重要性的论文,竟然完全没有提供模型计算开销(训练/推理时间、显存)的数据,这在实际应用中是关键考量。此外,强化学习部分使用的奖励函数设计(指数衰减、软F1)参数(如15秒尺度、σ=15)的选择缺乏理论或充分消融支撑,显得有些“拍脑袋”。总的来说,这是一篇扎实的系统性工作,但未能将问题的重要性与解决方案的独创性匹配起来。 📌 核心摘要 本文针对当前大型音频语言模型(LALMs)在音乐理解中缺乏精确时序定位能力的问题,做出了三项贡献:1)识别并明确了“音乐时序定位”这一关键能力缺失;2)提出了MusTBench,一个由音乐专家验证的、包含五个时序定位问答任务的基准;3)提出了MusT,一个包含编码器适应、LLM适应、监督微调和强化学习优化的四阶段训练流程,有效提升了模型的时序定位性能。 🔗 开源详情 代码:论文在摘要结尾提及“Code and benchmark data will be available soon”,但未提供任何具体的代码仓库链接(如GitHub)。 模型权重:论文未提及任何已发布的模型权重下载链接或HuggingFace/ModelScope页面。 数据集:论文详细描述了“MusTBench”基准的构建过程,但正文中仅指出其数据“will be available soon”,未提供具体的下载链接、托管平台或开源协议。 Demo:论文中未提及。 复现材料:论文在附录(§A.4和§A.5.2)提供了详细的训练配置和超参数表格(Table 11),包括各阶段的学习率、批大小、训练数据量、LoRA设置等。此外,附录包含具体的实现细节(如动态采样、损失函数、奖励函数公式)。但这些材料无法替代缺失的代码和数据集。 论文中引用的开源项目: MERT (音频编码器):论文引用 Li et al. (2024),未提供直接项目链接。 LoRA (高效微调):论文引用 Hu et al. (2022),未提供直接项目链接。 Qwen2.5 Omni (基础模型):论文引用 Xu et al. (2025),未提供直接项目链接。 其他工具与数据集:论文提及使用了 librosa, madmom, Essentia (音频分析库)以及 Slakh2100, MTG-Jamendo, OpenMIC-2018, MusicCaps (数据集),但均未提供具体版本或获取链接。 🏗️ 方法概述和架构 本文提出的MusT模型是基于Qwen2.5 Omni架构的扩展。其核心设计是引入了一个新的“时序感知音乐编码器”(MusT encoder)与原有的Qwen音频编码器构成双编码器系统,并通过一个四阶段训练流程来系统性地增强模型的时序定位能力。架构与流程如下: ...

2026-05-29 · 更新于 2026-06-12 · 3 min · 447 words

语音/音乐/音频论文速递 2026-05-29

语音/音乐/音频论文速递 2026-05-29 共分析 20 篇论文 ⚡ 今日概览 📥 抓取 20 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 5篇 █████ #语音识别 5篇 █████ #音频生成 2篇 ██ #基准测试 1篇 █ #多模态模型 1篇 █ #音频分类 1篇 █ #音频深度伪造检测 1篇 █ #语音情感识别 1篇 █ 📊 论文评分排行榜(20 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 DirectorBench: Diagnosing Long-Form Video Generation wi 9.8分 前25% #基准测试 🥈 Benchmarking Single-Factor Physical Video-to-Audio Gene 9.0分 前25% #音频生成 🥉 Audio Jailbreaks in Large Audio-Language Models: Taxono 8.9分 前25% #多模态模型 4. HoliTok:A Coutinuous Holistic Tokenization with Robust 8.6分 前25% #语音合成 5. Dial HEALTHDIAL for Advice: A Multilingual and Multi-Pa 8.6分 前25% #语音合成 6. Mitigating Stethoscope-Induced Shortcuts in Respiratory 8.5分 前25% #音频分类 7. Audio Deepfake Detection with Half-Truth Localisation U 8.4分 前50% #音频深度伪造检测 8. ChildVox: A Speech, Audio, and Large Audio-Language Mod 8.0分 前25% #语音识别 9. State-Anchored Complete-View Distillation for Robust Co 8.0分 前50% #语音情感识别 10. VideoFDB: Evaluating Full-Duplex Vision-Speech Capabili 7.9分 前25% #语音合成 11. Native Audio-Visual Alignment for Generation 7.8分 前50% #音频生成 12. OmniInteract: Benchmarking Real-World Streaming Interac 7.8分 前50% #语音识别 13. MusTBENCH: Benchmarking and Advancing Temporal Groundin 7.5分 前50% #音乐生成 14. Archon: A Unified Multimodal Model for Holistic Digital 7.5分 前50% #语音合成 15. MELD: Mel-Spectrogram-Based Speech Language Modeling wi 7.3分 前50% #语音合成 16. The WER Trap: Shattering the Illusion of Unified Tokens 7.0分 前50% #语音识别 17. Decoding Strategies for Diffusion-Based ASR: A Systemat 6.8分 前50% #语音识别 18. COMET: Concept Space Dissection of the Modality Gap in 6.5分 前50% #音频检索 19. AgentHijack: Benchmarking Computer Use Agent Robustness 5.6分 前50% - 20. Data-Efficient On-Policy Distillation for Automatic Spe 5.1分 前50% #语音识别 📋 论文列表 🥇 DirectorBench: Diagnosing Long-Form Video Generation with Personalized Multi-Agent Evaluation 🔥 9.8/10 | 前25% | #音视频 | #多智能体评估 | #视频生成 #多模态生成评估 | arxiv ...

2026-05-29 · 更新于 2026-06-12 · 10 min · 2103 words

Bandwidth-Efficient and Privacy-Preserving Edge-Cloud Many-to-Many Speech Translation

📄 Bandwidth-Efficient and Privacy-Preserving Edge-Cloud Many-to-Many Speech Translation #语音翻译 #多语言 #大语言模型 #课程学习 #参数高效微调 🔥 8.1/10 | 前25% | #语音翻译 | #课程学习 | #多语言 #大语言模型 | arxiv 学术质量 5.1/7 | 影响力 1.5/2 | 可复现性 1.5/2 | 置信度 高 👥 作者与机构 作者:Yexing Du, Kaiyuan Liu, Youcheng Pan, Bo Yang, Ming Liu, Bing Qin, Yang Xiang 机构:哈尔滨工业大学(深圳),鹏城实验室 💡 毒舌点评 这篇论文试图在一个“不可能三角”——隐私、带宽、性能——上找到一个实用的平衡点,其工程野心和目标是值得肯定的。ESRT框架通过将推理拆分,将重量级的LLM留在云端,仅在边缘传输压缩的特征,这是一个直观且有效的工程解决方案。论文在FLEURS数据集上展示了强大的实验结果,尤其是ESRT-4B模型以较小的参数量超越了之前许多更大的模型,证明了其训练策略的有效性。开源代码和模型也值得鼓励。 然而,其核心创新点——边缘-云分割和特征压缩——在概念上并非开创性的,更偏向于系统优化和工程实现。论文声称的“隐私保护”主要基于信息压缩导致的重建困难(见图10),这是一种弱化的安全假设,而非经过严格密码学或对抗攻击验证的保障。对于顶会论文而言,这种论证略显单薄。实验虽然全面,但缺少在真实、动态的网络环境和多样化的边缘硬件上进行端到端延迟和功耗测试,这使得“边缘计算”的宣称有些理想化。整体而言,这是一篇扎实的系统论文,但理论深度和安全验证的严谨性有待加强。 📌 核心摘要 本文提出了ESRT(Edge-cloud Speech Recognition and Translation),一个隐私保护且带宽高效的边缘-云协同多方语音转文本翻译(S2TT)框架。该框架采用分割推理架构:在边缘设备部署轻量级的Whisper语音编码器和基于Q-Former的语音适配器,仅将高度压缩的声学特征(40或80个token)传输至云端,由云端大型语言模型(LLM,基于MiLMMT/Gemma-3)完成翻译解码。为支持45种语言的多方翻译并克服英语中心偏见,论文引入了改进的多任务加权课程学习策略(分三阶段,动态整合ASR、SMT、SRT任务)。在FLEURS数据集上的实验表明,ESRT-4B和ESRT-12B在45×44个翻译方向上达到了当时的最先进(SOTA)性能,显著优于多种基线模型,并证明了框架在隐私(防止声纹泄露)和带宽(高达15.6倍压缩)方面的有效性。 🔗 开源详情 代码:https://github.com/yxduir/esrt 模型权重:论文中承诺开源模型,并指向同一GitHub仓库(https://github.com/yxduir/esrt),但未单独列出HuggingFace或ModelScope等托管平台的权重下载链接。 数据集: FLEURS: https://huggingface.co/datasets/google/fleurs CommonVoice 24: https://datacollective.mozillafoundation.org/datasets?q=common+voice CoVoST-2: https://github.com/facebookresearch/covost Demo:论文中未提及。 复现材料:论文中提供了详细的训练配置(表I, II, III, V),并声称开源训练和推理框架。完整的训练脚本、依赖环境及详细文档可能包含在代码仓库中,但未提供独立的复现指南链接。 论文中引用的开源项目: Whisper: 来自OpenAI,论文中未提供GitHub链接。 NLLB-200: 作为对比基线,论文中未提供项目链接。 LLaMAX3: 作为对比基线,论文中未提供项目链接。 SeamlessM4T-V2: 作为对比基线,论文中未提供项目链接。 MiLMMT: 作为基础LLM,源自Gemma-3,论文中未提供MiLMMT的具体代码链接。 Gemma-3: 作为基础模型,论文中未提供其具体链接。 LoRA: 作为微调方法,论文中未提供具体实现仓库链接。 Q-Former: 作为语音适配器的核心组件,论文中未提供其原始实现仓库链接。 🏗️ 方法概述和架构 ESRT的核心是边缘-云协同的分割推理架构(如图3所示),旨在平衡性能、隐私和带宽。 ...

2026-05-28 · 更新于 2026-06-12 · 2 min · 257 words

Diffusion Large Language Models for Visual Speech Recognition

📄 Diffusion Large Language Models for Visual Speech Recognition #参数高效微调 #数据增强 ✅ 7.0/10 | 前25% | #语音识别 | #参数高效微调 | #数据增强 | arxiv 学术质量 7.0/7 | 影响力 7.0/2 | 可复现性 1.0/2 | 置信度 高 👥 作者与机构 作者:Jeong Hun Yeo, Chae Won Kim, Hyeongseop Rha, Yong Man Ro†(†通讯作者) 机构:韩国科学技术院(KAIST)集成视觉语言实验室(Integrated Vision Language Lab) 💡 毒舌点评 本文是一篇“站在巨人肩膀上”的应用型工作。其核心想法——将扩散大语言模型(DLLM)引入视觉语音识别(VSR)以解决自回归解码的局限——是直接且合理的。实验结果(19.5% WER)也确实刷新了LRS3-only设置下的SOTA,证明了该范式在此任务上的有效性。然而,审稿人必须指出:1) 创新性深度有限,主要贡献是将现有DLLM解码策略(置信度解掩码)和训练技巧(两阶段训练)应用到VSR领域,而非提出全新的模型架构或理论;2) 实验的严谨性和全面性存在明显短板,消融实验严重不足,跨数据集验证薄弱;3) 部分关键实现细节(如阈值、训练超参数)缺失,影响了可复现性。总体而言,这是一篇扎实的系统工程工作,但在作为一篇NeurIPS/ICML/ICLR级别的论文时,其理论创新和实验的完备性还有提升空间。 📌 核心摘要 本文针对视觉语音识别(VSR)中自回归解码器因固定从左到右生成顺序而无法有效处理视觉模糊性的局限,提出了首个基于扩散大语言模型(DLLM)的VSR框架(DLLM-VSR)。该方法将转录过程建模为在固定长度画布上的迭代掩码去噪,允许灵活顺序解码。核心设计包括:1) 基于置信度的解掩码策略,优先解码并固定高置信度token,将其作为双向上下文来指导模糊位置的预测;2) 为适配VSR而设计的两阶段掩码去噪训练策略,第一阶段专注于文本内容对齐,第二阶段学习长度建模(填充padding token);3) 一种长度引导的候选解码方法,利用视频时长预测多个可能的转录长度假设,并行解码后通过联合重排序选择最佳结果。在LRS3数据集上,DLLM-VSR仅使用其标注数据训练便达到了19.5%的词错误率(WER),建立了新的最优性能。 🔗 开源详情 代码:https://bit.ly/DLLM-VSR (已提供,可访问) 模型权重:论文中未提及是否开源预训练的DLLM-VSR模型权重。 数据集:论文中提及使用LRS3和LRS2数据集,但未提供下载地址或开源协议链接(LRS3/LRS2通常需要申请)。 Demo:论文中未提及。 复现材料:论文提供了代码,但未明确说明是否包含完整的训练配置、脚本、环境说明以及两阶段训练的具体参数设置。 论文中引用的开源项目: Dream (基于Qwen2.5): https://github.com/ArtificialAnalysis/Dream LLaDA: https://github.com/ArtificialAnalysis/LLaDA LaViDa: https://github.com/ArtificialAnalysis/LaViDa Dimple: https://github.com/ArtificialAnalysis/Dimple DreamOn: https://github.com/ArtificialAnalysis/DreamOn DAEDAL: https://github.com/ArtificialAnalysis/DAEDAL Block Diffusion: https://github.com/ArtificialAnalysis/Block-Diffusion wav2vec 2.0: https://github.com/facebookresearch/wav2vec Whisper: https://github.com/openai/whisper Qwen2.5: https://github.com/QwenLM/Qwen2.5 🏗️ 方法概述和架构 本文提出的DLLM-VSR框架(如图2所示)旨在将扩散大语言模型的灵活解码能力应用于视觉语音识别任务。其整体架构包含一个冻结的视觉编码器、一个长度适配器、两个投影层以及一个基于LoRA适配的DLLM解码器。核心创新在于解码方式和训练策略的重新设计。 ...

2026-05-28 · 更新于 2026-06-12 · 2 min · 256 words

OmniRetriever: Any-to-Any Audio-Video-Text Retrieval via Fusion-as-Teacher Distillation

📄 OmniRetriever: Any-to-Any Audio-Video-Text Retrieval via Fusion-as-Teacher Distillation #音频检索 #对比学习 #知识蒸馏 #参数高效微调 🔥 9.2/10 | 前25% | #音频检索 | #对比学习 | #知识蒸馏 #参数高效微调 | arxiv 学术质量 6.1/7 | 影响力 1.5/2 | 可复现性 1.6/2 | 置信度 高 👥 作者与机构 作者: Yunze Liu, Chi-Hao Wu, Enmin Zhou, Junxiao Shen 机构: Memories.ai Research 💡 毒舌点评 优点:论文精准地指出了一个实际存在但被忽视的问题——统一AVT编码器的联合嵌入\(z_{TVA}\)在训练中未被监督。提出的“融合即教师蒸馏”方法简洁、直观且有效,尤其是\(\mathcal{L}_D\)损失贡献巨大。构建的OmniRetriever-Bench基准填补了评估多模态查询方向的关键空白,对社区有明确贡献。实验设计周密,包括了跨骨干验证、损失权重敏感性分析等,增强了结论的说服力。 缺点:论文在视频-文本任务上并未达到顶尖水平,其主要优势局限于音频相关的检索方向。方法的核心创新在于损失函数的设计,架构上是基于现有骨干(WAVE-7B)的适配器微调,新颖性更多体现在训练范式而非网络结构。提出的新基准测试(OmniRetriever-Bench)仅提供标识符和字幕,未公开媒体文件,限制了其广泛使用和独立验证。部分技术细节,如模态轮换硬负例的具体实现逻辑,描述可进一步清晰化。此外,虽然方法通用,但对语音/音乐领域的直接贡献(如理解语音内容、音乐情感)有限,其影响力更偏向于通用的多模态表示学习。 📌 核心摘要 本文针对现有统一音频-视频-文本(AVT)编码器训练中联合嵌入\(z_{TVA}\)未被监督的关键缺陷,提出了“融合即教师蒸馏”(Fusion-as-Teacher Distillation)训练范式。该方法利用模型自身前向传播产生的、经停止梯度处理的联合嵌入\(z_{TVA}\)作为教师信号,通过InfoNCE损失() \mathcal{L}_D \()指导单模态嵌入(\(z_T, z_V, z_A\))的学习。同时,引入Tuple-InfoNCE损失() \mathcal{L}_T \()配合模态轮换的硬负例,直接监督联合嵌入\(z_{TVA}\),防止其退化。该方法在开源WAVE-7B骨干上实例化为OmniRetriever-7B模型。在六个零样本检索基准测试中,OmniRetriever-7B在Clotho和SoundDescs音频-文本检索任务上显著超越闭源Gemini Embedding 2(R@1提升13.3-18.0),并接近专门音频-文本检索模型(CLAP家族)水平。论文同时发布了首个覆盖全部12个音频-视频-文本检索方向的评估基准OmniRetriever-Bench,并在该基准上取得了SOTA结果。 🔗 开源详情 代码:论文摘要和结论声明将发布代码,但未提供具体链接。 模型权重:论文摘要和结论声明将发布模型权重,但未提供具体链接(如HuggingFace, ModelScope)。 数据集: 训练数据集:论文提及训练数据由以下公开数据集采样构成,且不重新分发训练子集: InternVid (链接) InternVid-FLT (链接) Panda-70M (项目页面) PVD (链接) 另有一小部分内部收集数据。 评估基准:论文发布OmniRetriever-Bench,包含3,782个经人工校对的三元组。发布时将提供评估流程、字幕文本、源视频标识符和片段区间,但不重新分发底层媒体文件。 复现材料:论文在附录中提供了极其详尽的复现信息,包括但不限于: 附录A & B:骨干架构、LoRA配置、所有训练超参数。 附录C:端到端推理延迟。 附录D:损失权重敏感性分析。 附录E:训练语料描述与统计。 附录F & H:OmniRetriever-Bench构建方法、许可证与统计。 附录G:后处理压缩分析。 附录I:外部基准完整结果。 附录J:OmniRetriever-Bench方向消融分析。 附录L:Omni-Embed-Nemotron-3B跨骨干验证。 附录M:字幕改写鲁棒性分析。 附录N:\(\mathcal{L}_T\)种子稳定性分析。 论文中引用的关键开源项目:CLIP, ImageBind, LanguageBind, WAVE, Omni-Embed-Nemotron, SigLIP/SigLIP-2, Whisper, BEATs, CLAP (多种), InternVideo2, LoRA, DeepSpeed。 🏗️ 方法概述和架构 OmniRetriever的核心是一个统一的AVT嵌入器\(f_\theta\),它能够分别处理文本(T)、视频(V)、音频(A)单模态输入,生成对应嵌入\(z_T, z_V, z_A\),并能同时处理三元组输入,生成联合嵌入\(z_{TVA}\)。其训练目标由三个损失函数构成: ...

2026-05-28 · 更新于 2026-06-12 · 2 min · 296 words

SMILE-Next: Teaching Large Language Models to Detect, Classify, and Reason about Laughter

📄 SMILE-Next: Teaching Large Language Models to Detect, Classify, and Reason about Laughter #多模态模型 #参数高效微调 #语音情感识别 #指令微调 #大语言模型 🔥 8.7/10 | 前25% | #语音情感识别 | #参数高效微调 | #多模态模型 #指令微调 | arxiv 学术质量 6.1/7 | 影响力 1.5/2 | 可复现性 1.1/2 | 置信度 高 👥 作者与机构 Lee Jung-Mok, Kim Sung-Bin, Joohyun Chang, Lee Hyun, Tae-Hyun Oh (通讯作者)。机构:1) 韩国高等科学技术院(KAIST)电气工程学院;2) 浦项科技大学(POSTECH)电气工程系;3) 韩国高等科学技术院(KAIST)计算学院。 💡 毒舌点评 这篇工作就像给大语言模型装上了一个“笑声解码器”。作者很聪明地避开了处理原始音视频的泥潭,转而将所有多模态信号“翻译”成文本,让LLM用它最擅长的阅读理解来分析笑声。SMILE-Next数据集和MoLE框架都是扎实的工程贡献。然而,审稿人看到“文本化”这招会觉得有点似曾相识(论文自己也承认受Hyun et al., 2024启发),创新深度有限。更关键的是,把笑声这种极度依赖语境和微妙非语言线索的行为完全文本化,可能丢失了大量信息,而论文对此的验证不足。此外,数据集Fleiss’ Kappa仅为0.42(中等一致性),这就像用一把刻度不准的尺子去量东西,最后模型的“优越性”打了多少折扣?7.5分,算是对扎实工作的肯定,但离顶会突破性工作还有距离。 📌 核心摘要 本文针对笑声这一复杂社交信号的理解提出了综合性框架。研究者首先构建了SMILE-Next数据集,包含笑声检测、类型分类(愉快、礼貌、讽刺)和推理三项任务,数据来源于多种真实对话场景,并提供了将视觉、声学、关系等多模态信息转换后的文本化表示及问答标注。基于此,他们提出两个核心组件:1) 笑声特定自指令:利用GPT-4合成多样化指令数据以增强泛化能力;2) 混合笑声专家框架:一种基于LoRA的参数高效微调方法,通过动态路由器为不同任务分配专门的专家模块。实验表明,结合自指令和MoLE的纯文本LLM方案在各项指标上均优于直接处理原始音视频的多模态LLM(如Qwen2.5-Omni)和视觉LLM(如Video-LLaVA)。消融研究证实了多模态文本化表示、自指令和MoLE的有效性。论文贡献了首个综合性多任务笑声理解数据集,并证明了将多模态信号文本化后输入LLM是一种有效的笑声分析范式。 🔗 开源详情 代码:论文中未提及提供代码仓库。 模型权重:论文中未提及提供预训练模型下载链接。 数据集:论文中提及了SMILE-Next数据集,并提供了项目主页(https://mok0102.github.io/smile-next/),但未明确说明数据集是否公开发布及具体的下载协议。 Demo:论文中未提及在线演示。 复现材料:论文在附录和正文中提供了较多实现细节(如LoRA配置\(r=8, \alpha=16\),训练使用DeepSpeed ZeRO-3,批次大小,学习率等),但缺少完整的训练代码和预处理脚本,完全复现仍存在障碍。 论文中引用的开源项目:主要包括WhisperX, DeepSpeed, LoRA, Self-Instruction框架,以及Vicuna, LLaMA, Qwen系列等模型和MiniCPM-o, Video-LLaVA等基线模型。具体链接已在论文中给出或为众所周知的项目。 🏗️ 方法概述和架构 本文提出一个用于笑声理解的统一LLM框架,其核心思想是将多模态信号文本化后,利用LLM的推理能力进行处理。该框架主要包含两个关键组件:笑声特定自指令和混合笑声专家框架。 ...

2026-05-28 · 更新于 2026-06-12 · 2 min · 359 words

When Helpful Context Leaks: Privacy Risks in Domain-Adapted ASR

📄 When Helpful Context Leaks: Privacy Risks in Domain-Adapted ASR #语音识别 #数据增强 #参数高效微调 #大语言模型 🔥 10/10 | 前50% | #语音识别 | #参数高效微调 | #数据增强 #大语言模型 | arxiv 学术质量 6.9/7 | 影响力 1.8/2 | 可复现性 2/2 | 置信度 高 👥 作者与机构 作者:Maike Züfle, Jan Niehues 机构:卡尔斯鲁厄理工学院(Karlsruhe Institute of Technology, Germany) 💡 毒舌点评 这篇论文指出了一个实际且有趣的“盲点”:当你为了让ASR模型听懂行话而给它提供上下文或微调时,它可能会因为“听岔了”而泄露这些行话本身。这就像你告诉助理“Nexus是我们秘密项目的代号”,结果他在听到有人说了声“Texas”时,却大喊“Nexus!”一样。作者很聪明地将这个现象定义为一种非对抗性的、源于正常使用机制的隐私风险,并用一个设计精巧的控制实验进行了量化。不过,论文的“解决方案”部分——在提示中同时加入正确词和错误词——在实践中显得有些天真,更像是一个诊断工具而非真正的防御。整体上,这是一篇发现问题的警醒之作,技术深度适中,但实验设计的完备性和开源贡献值得肯定。 📌 核心摘要 本文研究了语音大语言模型(SpeechLLMs)在领域自适应过程中引入的一个未被充分认识的隐私风险:上下文诱导的转录泄露。当用户通过提示词注入上下文或对模型进行领域微调以提升专业术语识别能力时,如果说话者发出一个与上下文或训练数据中某个私有术语语音相似的词,模型可能会错误地转录为该私有术语,从而无意中泄露信息。作者构建了一个包含679个语音相似词对的控制评估数据集,并在两个前沿SpeechLLM(Qwen2.5-Omni-7B, Phi-4-multimodal-instruct)上评估了提示注入和微调两种自适应机制的影响。实验表明,两种机制都会导致可测量的泄露率,且结合使用时泄露效应会加剧。论文还探讨了一种在提示中同时提供正确词与泄露词的缓解策略,并分析了准确性-泄露率权衡,最终发现仅进行微调而不注入提示上下文能在保持高准确率的同时实现近乎零泄露,但在实际应用中难以实现。 🔗 开源详情 代码:https://github.com/maikezuefle/asr-context-induced-leakage 模型权重: Qwen2.5-Omni-7B:https://huggingface.co/Qwen/Qwen2.5-Omni-7B Phi-4-multimodal-instruct:https://huggingface.co/microsoft/Phi-4-multimodal-instruct 数据集:论文中构建的评估数据集(包含679个音素相似词对、生成的上下文句子、合成音频)通过上述代码仓库发布,链接为:https://github.com/maikezuefle/asr-context-induced-leakage Demo:论文中未提及 复现材料:论文在附录A和B中提供了详细的数据准备过程(如使用spaCy和CMU词典的音素相似词对提取、使用Gemma-3-12B生成上下文和填充句子的提示)、Kokoro-82M TTS合成配置(使用美国英语声音列表)、以及两个模型的微调超参数配置(LoRA设置、优化器参数等),这些信息结合代码足以支持复现主要实验。 论文中引用的开源项目: spaCy (用于命名实体识别): en_core_web_trf 模型。论文未提供独立链接,但spaCy是一个广泛使用的开源项目,主页为 https://spacy.io/。 CMU Pronouncing Dictionary (用于查找音素相似词): 论文提供了访问地址:http://www.speech.cs.cmu.edu/cgi-bin/cmudict Kokoro-82M TTS (用于语音合成): https://huggingface.co/hexgrad/Kokoro-82M LlamaFactory (用于微调Qwen模型): 论文引用了该框架,其开源项目主页为 https://github.com/hiyouga/LLaMA-Factory HF Transformers + Accelerate (用于微调Phi-4模型): 论文提及使用了Hugging Face的Transformers库和Accelerate库,其官方项目为 https://github.com/huggingface/transformers 和 https://github.com/huggingface/accelerate。 🏗️ 方法概述和架构 本文方法的核心是构建一个可控的评估框架,以量化“上下文诱导的转录泄露”现象。整个方法流程可分为三个主要阶段:评估数据集构建、模型自适应设置和泄露度量与缓解评估。 ...

2026-05-28 · 更新于 2026-06-12 · 2 min · 225 words

Why We Need Speech to Evaluate Speech Translation

📄 Why We Need Speech to Evaluate Speech Translation #语音翻译 #多模态模型 #参数高效微调 #数据增强 🔥 8.3/10 | 前50% | #语音翻译 | #参数高效微调 | #多模态模型 #数据增强 | arxiv 学术质量 5.2/7 | 影响力 1.5/2 | 可复现性 1.6/2 | 置信度 高 👥 作者与机构 Maike Züfle (1), Danni Liu (1), Vilém Zouhar (2), Jan Niehues (1) 1 Karlsruhe Institute of Technology (KIT), 2 ETH Zurich 💡 毒舌点评 这篇论文像一位严谨的诊断医生,成功地揭示了一个重要但被忽视的病症:当前的语音翻译评估指标(无论是文本还是语音输入)对性别一致性和韵律等语音特有现象几乎完全失明。其诊断过程(系统性的元评估、新模型训练、深入的探测实验)无可挑剔,结论有理有据。然而,它最大的缺点在于“只诊断,不治病”。论文明确指出了三个病根(编码器信息丢失、模型忽略语音源、训练数据不足),却未能提出任何有效的解决方案或有潜力的治疗方向。这使得文章的贡献止步于“揭示问题”,而非“解决问题”。对于期望看到方法创新或突破性结果的审稿人来说,这无疑会拉低评价。不过,这种扎实的“问题定位”工作为后续研究铺平了道路,价值不容否认。 📌 核心摘要 本文针对语音翻译(ST)评估中存在的盲点展开研究。核心发现是:现有的文本和语音质量估计(QE)指标,包括直接使用语音输入的BLASER和SpeechQE,均无法评估语音翻译中至关重要的性别一致性和韵律现象,其表现接近随机猜测。为探究原因,作者训练了SpeechCOMET模型家族(基于SONAR和Whisper编码器)并评估了SpeechLLM作为评估器。两者在标准QE任务(IWSLT数据集上的相关性评分)上表现良好,甚至超越了文本基线COMETKiwi,但在语音特有现象评估上同样失败。通过探测实验,论文揭示了三个根本原因:1)SONAR等编码器抑制了声学特征;Whisper和SpeechLLM的编码器保留声学特征但模型未使用;2)QE模型在训练中倾向于忽略语音源信号;3)标准QE训练数据中缺乏相关示例。论文开源了所有模型和代码,并呼吁开发专门的语音特定数据集和真正依赖语音的模型。 🔗 开源详情 代码:https://github.com/MaikeZuefle/speechCOMET 模型权重:论文中未提及模型权重的直接下载链接,需根据代码和超参数自行训练。 数据集:使用了 IWSLT 2026 Metrics Shared Train Dev, MuST-SHE, ContraProST, WMT Human All 数据集,均为第三方公开数据集,论文未提供直接获取链接。 Demo:论文中未提及在线演示链接。 复现材料:论文在附录中提供了详尽的训练超参数(表4,表5)、模型架构细节(第3.1、3.2节)、数据处理方法(附录A.3)和消融实验结果(附录B),这些信息均包含在论文正文及附录中,可复现性高。 论文中引用的开源项目: COMET/COMETKiwi: 用于质量估计的基线模型。链接:https://github.com/unilm/comet SONAR: 用于语音编码的多语言模型。链接:https://github.com/facebookresearch/SONAR Whisper: 用于语音编码和语音识别的模型。链接:https://github.com/openai/whisper Qwen2.5 Omni: 论文中作为SpeechLLM进行评估的多模态大模型。链接:https://github.com/QwenLM/Qwen2.5-Omni (根据论文作者和名称推断) LlamaFactory: 用于微调大语言模型的框架(用于SpeechLLM的微调)。链接:https://github.com/hiyouga/LLaMA-Factory spaCy: 用于语言特征探测的NLP工具。链接:https://github.com/explosion/spaCy Kokoro TTS & MMS TTS: 用于合成训练数据的文本转语音系统。链接:https://github.com/hexgrad/kokoro (Kokoro), https://github.com/facebookresearch/fairseq/tree/main/examples/mms (MMS TTS) 🏗️ 方法概述和架构 本文方法主要分为三部分:1)对现有指标的元评估,2)训练新的语音感知QE模型SpeechCOMET,3)评估SpeechLLM作为QE模型。 ...

2026-05-28 · 更新于 2026-06-12 · 4 min · 684 words