dots.tts Technical Report

📄 dots.tts Technical Report #语音合成 #流匹配 #自回归模型 #多语言 #低资源 #数据增强 #模型压缩 9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 🔥 9/10 | 前25% | #语音合成 | #数据增强 | #流匹配 #自回归模型 | arxiv 👥 作者与机构 作者:Shi Lian, Changtao Li, Bohan Li, Hankun Wang, Da Zheng, Junfeng Tian, Yufeng Ma, Colin Zhang, Kai Yu。 机构:dots团队,小红书公司(Xiaohongshu Inc.),上海交通大学X-LANCE实验室。 ...

2026-06-08 · 更新于 2026-06-12 · 1 min · 188 words

语音/音乐/音频论文速递 2026-06-08

语音/音乐/音频论文速递 2026-06-08 共分析 38 篇论文 ⚡ 今日概览 📥 抓取 38 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 7篇 ███████ #语音识别 6篇 ██████ #音频生成 3篇 ███ #数据增强 3篇 ███ #多模态模型 3篇 ███ #语音情感识别 2篇 ██ #音乐生成 2篇 ██ #音乐信息检索 1篇 █ 📊 论文评分排行榜(38 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Audio-Oscar: A Multi-Agent System for Complex Audio Sce 9.9分 前10% #音频生成 🥈 Assessing True Generalisability of Audio-Visual Speech 9.5分 前10% #语音识别 🥉 VoxCPM2 Technical Report 9.5分 前50% #语音合成 4. Beyond Semantic Dominance: Cognitive Affective Reasonin 9.2分 前10% #语音合成 5. Hearing the Unspoken: Language Model Priors for Acousti 9.2分 前25% #语音识别 6. dots.tts Technical Report 9.0分 前25% #语音合成 7. How Far Can Chord-Symbol Time-Series Adaptation Carry G 8.8分 前50% #音乐信息检索 8. Where Rectified Flows Leak: Characterising Membership S 8.7分 前25% #音频生成 9. BiEAR: A Human Auditory-Inspired Adaptive Binaural Fron 8.5分 前25% #声源定位 10. Mitigating Proxy-to-Wild Domain Gap in Deepfake Speech 8.4分 前25% #数据增强 11. Multilingual Multi-Speaker Unit Vocoders: A Systematic 8.4分 前25% #语音合成 12. Geometric Second-Order Feature Correlation Learning for 7.9分 前50% #语音情感识别 13. Whisper Hallucination Detection and Mitigation via Hidd 7.9分 前50% #语音识别 14. Acoustic Cue Alignment in Audio Language Models for Spe 7.8分 前50% #语音情感识别 15. Towards Unified Song Generation and Singing Voice Conve 7.7分 前25% #语音合成 16. Phonetic Error Analysis of Raw Waveform Acoustic Models 7.6分 前50% #语音识别 17. SEAM: Shortcut-Aware Real-Time Detection of Scripted vs 7.5分 前25% #语音增强 18. DirectAudioEdit: Inversion-Free Text-Guided Audio Editi 7.5分 前25% #扩散模型 19. MMAE: A Massive Multitask Audio Editing Benchmark 7.5分 前50% #语音编辑 20. Leveraging Soft Distributions of SSL-Derived Discrete S 7.4分 前50% #语音识别 21. MyGardenBird: A Machine-Learning-Ready Bird Sound Datas 7.2分 前50% #音频事件检测 22. FIGMA: Towards FIne-Grained Music retrievAl 7.2分 前50% #对比学习 23. KIT's Submission to Cross-Lingual Voice Cloning in 7.2分 前50% #语音合成 24. Contrastive Training with LLM-generated Near-Misses for 7.1分 前50% #语音识别 25. A Large-Scale Per-Speaker Analysis of Re-identification 7.1分 前50% #语音匿名化 26. SVHighlights: Towards Extremely Long Sport Video Highli 7.0分 前50% #多模态模型 27. TargetSEC: Plug-and-Play In-the-Wild Speech Emotion Con 6.8分 前50% #语音转换 28. Making the Most of Limited Data: Score-Aware Training f 6.7分 前50% #音乐生成 29. IRAF: Interference-Resilient Adaptive Fusion for Noise- 6.5分 前50% #语音对话系统 30. Towards Event-Robust Acoustic Scene Classification 6.5分 前50% #数据增强 31. FSC-Net: Integrating Fast Fourier Convolutions and Prog 6.4分 前50% #音频质量评估 32. Watch, Remember, Reason: Human-View Video Understanding 6.4分 前50% #多模态模型 33. Hierarchical Semantic-Constrained Heterogeneous Graph f 6.2分 前50% #多模态模型 34. Audio Imitator: Controlling Timbre and Tempo in Video2A 6.0分 前50% #音频生成 35. HybridCodec: Fast Dual-Stream, Semantically Enhanced Ne 5.7分 前50% #语音合成 36. SpectCount: Spectrotemporal Counting via Synthetic Sign 5.5分 前50% #数据增强 37. Entropy as a Structural Prior: How a Log-Barrier on DiT 4.2分 后50% #音乐生成 38. VISA: A Visual Information Strengthened Audio-Reasoning 3.9分 前50% #音频问答 📋 论文列表 🥇 Audio-Oscar: A Multi-Agent System for Complex Audio Scene Generation, Orchestration, and Refinement 9.9/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

2026-06-08 · 更新于 2026-06-12 · 23 min · 4800 words

Age-Aware Adapter Tuning for Children's Speech Recognition

📄 Age-Aware Adapter Tuning for Children's Speech Recognition #语音识别 #参数高效微调 #自监督学习 #低资源 8.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8.4/10 | 前25% | #语音识别 | #参数高效微调 | #自监督学习 #低资源 | arxiv 👥 作者与机构 论文中未明确列出作者及机构信息。 💡 毒舌点评 增量改进,包装先行:论文标题中的“Age-Aware”听起来很前沿,但核心贡献是为不同年龄组训练多个小适配器并进行路由。这本质上是“为不同子群体微调不同模块”的工程实践,学术创新有限。最大的卖点——性能提升,从12.6%到12.3%的WER(0.3%的绝对改进)在语音识别领域属于微弱改善,说服力不足。 实验设计存在疑问:12+组的WER极低(4.5%-5.1%),但论文自己也承认该组“仅包含单次发音样本”,与其他组的句子级识别任务完全不同。将不同难度、不同格式的任务混合计算宏WER,并以此论证方法在“所有年龄组”的改进,有混淆视听之嫌。方法在最具挑战的3-4岁组的改进(从8.5%到8.3%)同样微不足道。 “接近”的阈值在哪?:论文反复强调预测年龄路由性能“接近”真实年龄路由。但具体到数字,Top-1预测路由的宏WER(17.9%)比真实路由(17.6%)差0.3%,整体WER差0.1%。这种差距是否可接受取决于实际部署成本,但论文未讨论路由器可能带来的额外延迟和错误传播风险。 FiLM作为对比组显得疲软:FiLM适配器的性能甚至不如简单的“堆叠适配器”(stacked adapter),这要么说明FiLM实现存在问题,要么说明在当前设定下这种动态调制机制对儿童语音的年龄差异过于复杂或无效。论文用它作为主要对比,削弱了“年龄专用适配器更优”这一结论的力度。 局限性轻描淡写:作者在结论中承认“不同年龄组的录音和任务构成可能影响分组结果”,但这恰恰是实验设计的核心漏洞,却被一笔带过。没有消融实验验证年龄组划分的合理性,也没有探索其他划分方式。 📌 核心摘要 本文研究了在参数高效适配框架下,年龄信息如何改进儿童语音识别(ASR)。研究在预训练的NVIDIA Parakeet-tdt-0.6B-v2模型上进行,首先训练一个适用于所有儿童语音的共享适配器作为基线。随后,提出了两种年龄感知适配策略:1)年龄专用适配器,为每个年龄组训练独立的残差适配器,通过预测的年龄路由器进行选择;2)统一FiLM适配器,使用一个受年龄条件调制的共享适配器。在On Top of Pasketti儿童ASR挑战赛的Word Track数据集(包含3-12岁及以上儿童语音)上的实验表明,使用真实年龄进行路由的年龄专用适配器在所有年龄组上均优于共享适配器基线,将整体WER从12.6%降至12.3%,宏WER从18.4%降至17.6%。使用预测年龄路由的性能接近真实年龄路由(整体WER 12.3%,宏WER 17.8%)。统一FiLM适配器的效果弱于年龄专用适配器。研究结论表明,年龄专用残差适配是改善儿童ASR鲁棒性的有前景且实用的方向。 ...

2026-06-05 · 更新于 2026-06-12 · 2 min · 408 words

An Ultra-Low-Bitrate Neural Speech Codec with Plain-to-Pseudo Synergistic Vector Quantization

📄 An Ultra-Low-Bitrate Neural Speech Codec with Plain-to-Pseudo Synergistic Vector Quantization #语音合成 #低资源 7.7/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7.7/10 | 前25% | #语音合成 | #低资源 | arxiv 👥 作者与机构 Xiao-Hang Yang, Fei Liu, Rui-Chen Jiang, Jian-Qing Gao, Zhen-Hua Ling, Ji Wu 机构:中国科学技术大学 (1), 科大讯飞 (2), 清华大学 (3) 💡 毒舌点评 这篇论文解决的是一个真实且重要的问题:如何在比特率压到极限(0.5 kbps)时还能保持语音质量。P2PSVQ的思路——用预测来模拟量化——确实巧妙,相当于“脑补”出了额外的细节,且不花带宽。这比单纯堆大模型(如BigCodec)要优雅。然而,论文的软肋在于“验证”部分。主观测试样本量小,难以服众;对比FSQ方法(SQCodec)时,对方官方代码不支持0.5 kbps,这成了一个无法验证的“借口”。更关键的是,伪VQ的引入让模型复杂度(参数量)翻了三倍多,虽然FLOPs增长不多,但推理时的内存占用和延迟可能是个隐患,论文却对此轻描淡写。消融实验揭示了一个尴尬事实:伪VQ加多了,基本token信息变少,预测反而变难,质量会掉。这使得核心设计(伪VQ数量)的选择更像是在走钢丝。总体而言,一个不错的idea,但支撑它的实验和分析还不够扎实,像是匆忙毕业的作品。 ...

2026-06-05 · 更新于 2026-06-12 · 2 min · 302 words

Automatic Labelling of Speech Translation Errors

📄 Automatic Labelling of Speech Translation Errors #语音识别 #多模态模型 #模型评估 #低资源 6.1/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.1/10 | 前50% | #语音识别 | #多模态模型 | #模型评估 #低资源 | arxiv 👥 作者与机构 Dominik Macháček (Charles University, University of Edinburgh), Maike Züfle (Karlsruhe Institute of Technology), Ondrej Klejch (University of Edinburgh) 💡 毒舌点评 这篇工作像一个精心准备的“开胃菜”:它正确地识别了ST评估领域一个鲜有人触碰的细分方向(错误跨度标注),并为此设计了一套完整的“菜单”(标注协议、数据集、基准系统)。然而,这终究不是一场盛宴。其核心贡献在于定义问题和提供初步基线,而非给出强有力的解决方案。数据集规模极小(仅约30分钟音频),且仅来自两个文档,这严重限制了结论的普适性。所谓的“自动化系统”评估,本质上只是对XCOMET和Qwen两个现有模型进行了非常浅层的“试用”,缺乏针对性的优化或深入的架构分析。最令人失望的是,论文虽然指出了语音处理的重要性,但并未真正提出或评估一个端到端的、为STEL任务设计的新模型。它更像是一份“可行性报告”或“任务说明书”,离解决所提出的问题还有很长的路要走。其最大的价值在于为后续研究铺平了道路并设立了基础基准,但就其自身而言,贡献的深度和广度有限。 ...

2026-06-05 · 更新于 2026-06-12 · 2 min · 366 words

Beyond Generative Decoding: Discriminative Hidden-State Readout from a Native Omni-Modal LLM for Multimodal Sentiment Analysis

📄 Beyond Generative Decoding: Discriminative Hidden-State Readout from a Native Omni-Modal LLM for Multimodal Sentiment Analysis #多模态模型 #参数高效微调 #低资源 5.3/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 📝 5.3/10 | 前50% | #多模态模型 | #参数高效微调 | #低资源 | arxiv 👥 作者与机构 作者:Bin Wen, Tien-Ping Tan。 机构:School of Computer Sciences, Universiti Sains Malaysia, Penang, Malaysia。 ...

2026-06-05 · 更新于 2026-06-12 · 3 min · 634 words

CoSTA: Cognitive-State-Conditioned TTS Data Augmentation Using ASR Transcripts for Alzheimer's Disease Detection

📄 CoSTA: Cognitive-State-Conditioned TTS Data Augmentation Using ASR Transcripts for Alzheimer's Disease Detection #语音合成 #语音识别 #自监督学习 #低资源 #数据增强 6.5/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 0.9/1 | 影响 0.7/1.5 | 开源 0.3/1.5 | 复现 0.4/0.5 | 工程 0.7/1.5 ✅ 6.5/10 | 前50% | #语音合成 | #自监督学习 | #语音识别 #低资源 | arxiv 👥 作者与机构 作者:Yin-Long Liu, Yuanchao Li, Yiming Wang, Yue Li, Rui Feng, Jiaxin Chen, Shaobo Liu, Liu He, Yuang Chen, Jiahong Yuan, Zhen-Hua Ling 机构:中国科学技术大学,爱丁堡大学 ...

2026-06-05 · 更新于 2026-06-12 · 1 min · 160 words

Exploring LLMs for South Asian Music Understanding and Generation

📄 Exploring LLMs for South Asian Music Understanding and Generation #音乐理解 #音乐生成 #低资源 #大语言模型 7.7/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1.1/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.7/10 | 前50% | #音乐生成 | #音乐理解 | #低资源 #大语言模型 | arxiv 👥 作者与机构 Faria Binte Kader, Mohtasim Hadi Rafi, Shah Wasif Sazzad, Santu Karmaker University of Central Florida, Auburn University ...

2026-06-05 · 更新于 2026-06-12 · 1 min · 187 words

FiLM-Based Speaker Conditioning of a SpeechLLM for Pathological Speech Recognition

📄 FiLM-Based Speaker Conditioning of a SpeechLLM for Pathological Speech Recognition #语音识别 #参数高效微调 #低资源 #语音问答 8.0/10 | 创新 6/2 | 严谨 7/1.5 | 实验 6/1.5 | 清晰 8/1 | 影响 5/1.5 | 开源 7/1.5 | 复现 7/0.5 | 工程 6/1.5 🔥 8.0/10 | 前50% | #语音识别 | #参数高效微调 | #低资源 #语音问答 | arxiv 👥 作者与机构 Fernando López, Santosh Kesiraju, Jordi Luque Telefónica Innovación Digital Spain, Universidad Autónoma de Madrid Spain, Brno University of Technology Czech Republic ...

2026-06-05 · 更新于 2026-06-12 · 3 min · 514 words

Multi-task Learning is Not Enough: Representational Entanglement in Dual-output Second Language Speech Recognition

📄 Multi-task Learning is Not Enough: Representational Entanglement in Dual-output Second Language Speech Recognition #语音识别 #多任务学习 #低资源 6.9/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.1/1.5 | 复现 0.4/0.5 | 工程 0.7/1.5 ✅ 6.9/10 | 前50% | #语音识别 | #Conformer | #多任务学习 #低资源 | arxiv 👥 作者与机构 Seung Hwan Cho, Young-Min Kim 💡 毒舌点评 论文提出了一个有趣且重要的观察:在双输出L2 ASR中,MTL对表面和意义转录的影响是不对称的,且这种不对称性在语言间有差异。这确实挑战了“MTL总是有益”的简单假设。然而,研究的“解决方案”部分(即“缓解编码器纠缠”)完全停留在动机层面,缺乏任何实际的方法提出或验证。这使得论文更像是一个现象观察和机理分析的工作,其贡献和完整度略显不足。此外,实验仅在两种语言上进行,且数据集来源特定(教育场景),其结论的普适性有待商榷。分析深度(CKA)不错,但仅凭相似度指标断言因果关系有些牵强。 📌 核心摘要 本文研究了在双输出(DO)第二语言(L2)自动语音识别(ASR)中,联合多任务学习(MTL)对表面转录(实际发音)和意义转录(规范形式)的非对称影响。实验对比了单任务(SO)和双任务(DO)模型在韩语和英语L2语音数据上的性能。结果发现,MTL在提升意义转录性能的同时,会降低表面转录性能,且英语中的性能下降远大于韩语。通过中心核对齐(CKA)分析,研究将这种现象归因于编码器层面的表征纠缠:韩语编码器能为两个任务学习可区分的表征,而英语编码器学习到高度相似的表征。进一步的跨任务解码器分析揭示,英语的意义解码器通过构建一个全新的、绕过纠缠编码器的独特表征来实现性能提升,而表面解码器则受制于编码器,无法摆脱其纠缠的表征。这表明仅依赖解码器自适应无法完全补偿编码器层面的任务纠缠,为设计能缓解编码器表征纠缠的MTL框架提供了动机。 🔗 开源详情 代码:论文中未提及任何代码库或代码链接。 模型权重:论文中未提及任何预训练或训练后的模型权重。 数据集:论文使用了来自AI-Hub的两个数据集:“Educational Korean Audio Data Recorded by Native (L1) Chinese and Japanese Speakers”和“Educational English Audio Data Recorded by L1 Korean Speakers”。论文中注明了数据来源(www.aihub.or.kr),但未提供具体获取链接或开源协议信息。 Demo:未提及。 复现材料:论文未提供检查点、完整配置文件或详细数据预处理脚本。但论文在“Baselines and Implementation Details”部分详细描述了模型架构(Conformer编码器+Transformer解码器,混合CTC-注意力)、训练设置(AdamW优化器,权重衰减0.01,学习率 \(10^{-4}\),Whisper微调为 \(10^{-5}\),50个epoch,批大小8,SpecAugment增强)和解码策略(Beam Search,beam size 5),硬件环境为单张NVIDIA RTX 3090 GPU。 论文中引用的开源项目: Whisper (Radford et al., 2022):作为基线模型之一被引用。官方仓库:https://github.com/openai/whisper。 Conformer (Gulati et al., 2020):论文方法中使用的核心编码器架构。这是一个公开的架构,但未指向特定代码库。 SpecAugment (Park et al., 2019):作为数据增强方法被引用。 Centered Kernel Alignment (CKA) (Kornblith et al., 2019):作为分析工具被使用。 🏗️ 方法概述和架构 论文的核心方法是对比单任务(SO)和双任务(DO)模型在双输出L2 ASR任务上的表现,并利用CKA分析两者在编码器和解码器层面的表征差异。具体架构和训练细节如下: ...

2026-06-05 · 更新于 2026-06-12 · 2 min · 256 words