语音合成 | 语音/音乐/音频论文速递

Chatterbox-Flash: Prior-Calibrated Block Diffusion for Streaming Zero-Shot TTS

📄 Chatterbox-Flash: Prior-Calibrated Block Diffusion for Streaming Zero-Shot TTS #流式处理 #扩散模型 #Transformer #语音合成 🔥 10/10 | 前25% | #语音合成 | #Transformer | #流式处理 #扩散模型 | arxiv 学术质量 7/7 | 影响力 2/2 | 可复现性 2/2 | 置信度高 👥 作者与机构 Deokjin Seo: Resemble AI（与Gangin Park贡献均等） Gangin Park: 首尔国立大学（与Deokjin Seo贡献均等） Kihyun Nam: KAIST 论文标注了Deokjin Seo和Gangin Park的贡献均等（† footnote 1）。 💡 毒舌点评这篇工作切入点很聪明，直击了块扩散方法在离散语音token上“水土不服”的痛点——静音token这类高频但低信息的“钉子户”严重干扰并行生成。提出的先验校准评分（PMI）和早期解码调度（ED）是实用的推理时补丁，无需改模型架构就能用，这点工程上很讨巧。但细看实验，几个关键点被包装得有点“圆滑”：1）在“标准”基准（LibriSpeech-PC, Seed-TTS）上，PMI相比更简单的TS调度（即OmniVoice的方法）在质量上几乎没有提升，其核心价值变成了为ED提供“可靠信号”——这更像是一个特性，而非一个强创新。2）在EmergentTTS-Eval上的10.6%相对WER提升是亮点，但这个基准是否足够主流和公允？论文未提供与OmniVoice等强基线在此基准的对比数据，使得提升幅度难以被客观衡量。3）宣称的“首个结合块扩散和原生流式推理的零样本TTS”定位准确，但与强大的AR流式系统（如Qwen3-TTS）相比，在TTFP上只是“具有竞争力”，而质量（如SIM-o）常落后于OmniVoice等NAR系统。说白了，这是一篇“工程上很不错，但科学上新瓶装旧酒”的论文，主要贡献是把已知技术组合并调优到了一个可用的状态，缺乏对块扩散在语音领域失败模式的更根本性解决方案。 📌 核心摘要论文标题: Chatterbox-Flash: Prior-Calibrated Block Diffusion for Streaming Zero-Shot TTS 论文ID: arXiv 2605.30748 核心问题: 如何在不牺牲质量的前提下，实现支持流式推理的高速零样本文本到语音（TTS）合成。现有自回归（AR）模型延迟高，而非自回归（NAR）模型不支持原生流式。直接将块扩散（Block Diffusion）解码应用于离散语音token会导致质量下降，原因是语音codec的token分布高度长尾（如静音token占比极大），干扰了并行位置选择。核心方法: 模型架构: 通过微调一个预训练的自回归T3解码器（来自Chatterbox-TTS），将其转换为块扩散解码器。采用混合注意力掩码：对条件上下文\(\mathbf{c}\)为因果注意力，在每个语音块内为双向注意力，块间为因果注意力，从而保留流式能力。训练使用token-shift去噪损失和互补掩码策略。推理时技术（无需架构改动）: 先验校准评分（Prior-Calibrated Scoring）: 使用点互信息（PMI）分数 \(s_i^{(k)} = \log p_i^{(k)}(\hat{x}_i^{(k)}) - \log \bar{p}(\hat{x}_i^{(k)})\) 来排序和选择要解掩的位置。其中 \(\bar{p}\) 是通过一次无条件前向传播计算的无条件块先验概率。此举旨在抑制长尾高频token（如静音）的偏差。早期解码调度（Early-Decoding Schedule）: 基于校准后的PMI分数，自适应地提前终止每个块的去噪迭代步骤。具体通过设置阈值 \(\theta_k\)，并在不同步数 \(k\) 用动态分位数 \(q_k\) 控制。主要结果: 质量: 在标准零样本TTS基准（LibriSpeech-PC, Seed-TTS）上，Chatterbox-Flash的质量（SIM-o, WER, UTMOS）匹配或超越了部分AR和NAR基线（如与Chatterbox相比有提升）。在更具挑战性的EmergentTTS-Eval上，PMI带来了约10.6%的相对WER提升。效率: 实现了显著更低的实时因子（RTF，相比强AR基线Qwen3-TTS降低约2.7倍至3.8倍）和具有竞争力的时间首包（TTFP）。支持原生流式推理，这是许多NAR基线（如OmniVoice）不具备的。技术验证: 先验校准评分为早期解码提供了可靠的置信度信号，允许在约20%的步骤节省下几乎不损失质量（WER）。PMI的主要优势在质量饱和的基准上不直接体现，而在于提供可靠的置信度信号。关键贡献: 首个结合块扩散和原生流式推理的零样本TTS模型。提出先验校准评分，一种简单有效的推理时校正方法，用于抑制长尾token偏差。提出早期解码调度，自适应降低计算量。在质量和流式效率上取得了优异的平衡。局限性与未来工作: 在训练中未对数据源进行消融；当块大小（D）过大（\(\geq128\)）时模型会崩溃；在质量饱和的基准上，先验校准评分与直接使用置信度的基线方法差异不大，其优势主要体现在为早期解码提供信号和在难样本上。 🔗 开源详情代码：https://github.com/resemble-ai/chatterbox-flash （论文中明确提供）模型权重：论文中未提及模型权重的具体下载链接。论文说明模型从预训练的 Chatterbox-TTS 检查点初始化。数据集：论文中列出了详细的训练数据集组成（公开和私有），见表6。公开数据集名称包括：MLS-English, Emilia (en, part 1), Loquacious, GLOBE, LibriTTS-R, HiFi-TTS, EARS, Expresso。评估使用的基准测试为 LibriSpeech-PC test-clean 和 Seed-TTS test-en。未提供数据集的具体下载链接或开源协议。 Demo：论文中未提及在线演示链接。复现材料：论文在附录（Appendix E）中提供了详细的实现细节，包括：推理引擎基于 FlashInfer。自定义注意力掩码实现（附录A）。训练超参数（学习率、批大小、精度等，见3.2节）。推理配置参数（块大小 D、去噪步数 K、调度参数 \(\tau\)、引导比例 w、采样温度 T 等，见3.2节）。使用 CUDA Graph 进行推理加速。论文中引用的开源项目： Chatterbox-TTS：https://github.com/resemble-ai/chatterbox （基础模型，论文中明确提供） FlashInfer：https://github.com/flashinfer-ai/flashinfer （用于推理注意力内核和键值缓存管理，论文中明确提供） MagiAttention：https://github.com/SandAI-org/MagiAttention （用于高吞吐量的长序列注意力，论文中明确提供） 🏗️ 方法概述和架构 Chatterbox-Flash是一个两阶段的零样本TTS系统，其核心创新在于将第一阶段的自回归解码器改造为支持流式生成的块扩散解码器。 ...

ImmersiveTTS: Environment-Aware Text-to-Speech with Multimodal Diffusion Transformer and Domain-Specific Representation Alignment

📄 ImmersiveTTS: Environment-Aware Text-to-Speech with Multimodal Diffusion Transformer and Domain-Specific Representation Alignment #语音合成 #多模态模型 #扩散模型 #自监督学习 #数据增强 🔥 9.3/10 | 前25% | #语音合成 | #自监督学习 | #多模态模型 #扩散模型 | arxiv 学术质量 6.8/7 | 影响力 1.5/2 | 可复现性 1/2 | 置信度高 👥 作者与机构 Jun-Hak Yun, Seung-Bin Kim, Seong-Whan Lee。Korea University, Seoul, Korea. 💡 毒舌点评论文提出了一个解决环境感知TTS任务的完整框架，技术路线清晰，实验设计也较为扎实。MM-DiT架构在音频领域的适配和领域特定REPA的引入是其核心亮点。然而，这篇工作给人的感觉像是为一个相对小众、定义明确的任务（从文本生成带环境声的语音）“量身定制”了一套复杂的系统，其普适性和根本性贡献可能存疑。训练数据完全依赖合成混合是一个硬伤，虽然作者在局限性中承认，但其对模型实际泛化能力的影响可能比想象中更严重。此外，与精心设计的流水线（CosyVoice2 + TangoFlux）在部分指标上的差距表明，统一模型在当前阶段并未显示出全面的优越性，其“统一建模”带来的核心价值（交互一致性）缺乏更有力的量化证明。工作完成度高，但创新性的天花板似乎受限于任务本身。 📌 核心摘要针对现有环境感知TTS方法在建模语音与环境音频跨模态交互方面的不足，本文提出了ImmersiveTTS。该框架基于多模态扩散Transformer（MM-DiT），采用双流设计：一条流处理文本条件化的环境上下文（由Flan-T5和CLAP提供细粒度与全局特征），另一条流处理与转录对齐的语音特征。两流通过联合注意力机制显式交互。为稳定训练并增强语义一致性，提出了领域特定表示对齐（REPA）目标，使用WavLM（语音专家）和ATST-Frame（音频专家）作为双教师模型，引导中间特征学习。实验证明，ImmersiveTTS在主观和客观指标上优于VoiceLDM和VoiceDiT等基线，且仅需25步采样，实现了效率与质量的平衡。消融研究验证了双流设计和REPA策略的有效性。 🔗 开源详情代码：论文未提供明确的代码仓库链接（如GitHub）。摘要中提供了项目主页链接：https://jjunak-yun.github.io/ImmersiveTTS。模型权重：未提及模型权重的下载链接（如HuggingFace或ModelScope）。数据集：使用了LibriTTS（train-clean-360子集）和WavCaps数据集，但未提供具体的下载链接或开源协议。 Demo：项目主页链接 https://jjunak-yun.github.io/ImmersiveTTS 可能包含在线演示或音频样本，论文未单独列出其他Demo地址。复现材料：论文提供了详细的实现细节（架构参数、损失函数、训练超参数），但未提供具体的配置文件、检查点或复现脚本的下载链接。论文中引用的开源项目： Flux 架构：https://github.com/black-forest-labs/flux WavLM (WavLM-base-sv)：https://huggingface.co/microsoft/wavlm-base-sv Flan-T5-Large：https://huggingface.co/google/flan-t5-large CLAP (clap-htsat-unfused)：https://huggingface.co/laion/clap-htsat-unfused AudioLDM2 VAE：https://huggingface.co/cvssp/audioldm2 HiFi-GAN：未提供链接。 WavLM-Large：https://huggingface.co/microsoft/wavlm-large ATST-Frame-Base：https://github.com/Audio-WestlakeU/audiossl USAD-Base：https://huggingface.co/MIT-SLS/USAD-Base 🏗️ 方法概述和架构 ImmersiveTTS的架构核心是一个为环境感知TTS任务定制的多模态扩散Transformer（MM-DiT），其基础是Flow Matching生成模型。整体流程如图1所示。 ...

MindVoice: Reconstructing Intelligible Speech from Non-invasive Neural Signals with Pretrained Priors

📄 MindVoice: Reconstructing Intelligible Speech from Non-invasive Neural Signals with Pretrained Priors #语音合成 #语音识别 #自监督学习 #多任务学习 #数据集 🔥 8.5/10 | 前25% | #语音合成 | #多任务学习 | #语音识别 #自监督学习 | arxiv 学术质量 5.7/7 | 影响力 1.6/2 | 可复现性 1.2/2 | 置信度高 👥 作者与机构作者：Guangyin Bao, Taiping Zeng, Jianfeng Feng, Xiangyang Xue 机构：复旦大学、中国科学技术大学等（原文未明确列出所有机构） 💡 毒舌点评这篇论文在非侵入式神经语音重建这个“硬骨头”问题上迈出了扎实的一步，将重建目标从模糊的声学相似提升到“可理解”的语义层面，思路巧妙。然而，其核心优势（生成先验）同时也是阿喀琉斯之踵——“生成幻觉”如同悬顶之剑，论文虽承认但量化不足，让人怀疑在真实、未知语音下的可靠性。频谱相似度不及基线，暴露了其“重语义、轻细节”的本质，这或许是条正确的路，但文章对此的辩护稍显无力。消融实验中声学流的“微弱”贡献令人尴尬，作者试图解释，但证据链不够强。整体而言，这是一篇“想法好于实现精度”的工作，为领域提供了有价值的范式转移方向，但距离鲁棒、可靠的应用还有明显差距。 📌 核心摘要针对从非侵入式神经信号（EEG/MEG）重建连续可理解语音这一挑战性任务，本文提出了MindVoice框架。核心思想是承认单一神经信号不足以精确重建复杂语音，转而利用多种预训练生成模型（ASR、语音编解码器、TTS）的先验知识来弥补信息缺口。MindVoice采用双流架构：语义流将神经信号与预训练语音VQ-VAE的离散语义码本对齐，并利用冻结ASR模型的语言建模能力补全文本；声学流对齐预训练语音编解码器的声学嵌入以捕获音色等细节。最终，将重建的文本与预测的声学嵌入作为提示，输入预训练TTS模型生成最终语音。在Brennan EEG和Gwilliams MEG两个公开数据集上的实验表明，MindVoice在语义准确性（ASR-BERTScore-F1）、音色相似度（WavLM）和整体感知质量（MOS）上显著优于现有基线（Vanilla, FESDE），但在频谱相似度（mel-MSE）上不占优，揭示了低级频谱误差与感知质量间的不匹配。论文还提供了丰富的可视化分析和消融实验，展示了模型的可解释性与重建偏好。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及模型权重链接数据集： Brennan EEG Dataset：自然语言理解EEG数据集 (Brennan and Hale, 2019)。链接：https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/7YPUMT Gwilliams MEG-MASC Dataset：大规模自然语言理解MEG数据集 (Gwilliams et al., 2023)。链接：https://github.com/lprouat/MASC Demo：论文中未提及Demo链接复现材料：附录A.4提供了详细的模型架构参数和训练超参数。论文中引用的开源项目： Whisper：ASR模型 (Radford et al., 2023)。链接：https://github.com/openai/whisper FishSpeech-s1-mini：文本到语音（TTS）模型 (Liao et al., 2024)。链接：https://github.com/fishaudio/fish-speech Qwen3-ASR：自动语音识别模型 (Shi et al., 2026)。链接：https://github.com/QwenLM/Qwen-Audio BigVGAN-v2：声码器 (Lee et al., 2023a)。链接：https://github.com/kan-bayashi/BigVGAN FESDE：语音重建基线方法 (Lee et al., 2024)。链接：https://github.com/leesuhungsam/fesde WhisperX：语音对齐工具。链接：https://github.com/m-bain/whisperX MNE：神经信号数据分析库。链接：https://github.com/mne-tools/mne-python spaCy：自然语言处理库。链接：https://github.com/explosion/spaCy BERTScore：文本相似度评估工具。链接：https://github.com/Tiiiger/bert_score SpeechMOS / UTMOS：自动语音质量评估模型。链接：https://github.com/sarulab-speech/UTMOS22 🏗️ 方法概述和架构 MindVoice的总体框架（图2）是一个模块化的三阶段管线，旨在将非侵入式神经信号（EEG/MEG）解码为可理解的语音波形。其核心设计理念是“解耦重建与先验注入”：首先将复杂的端到端重建任务分解为互补的语义内容恢复与声学属性估计两个子任务，然后分别利用对应的预训练生成模型作为强大先验来弥补神经信号的信息缺失。 ...

OpenSTBench: Beyond Semantic Evaluation for Speech Translation

📄 OpenSTBench: Beyond Semantic Evaluation for Speech Translation #语音翻译 #语音合成 #多语言 ✅ 6.0/10 | 前50% | #语音翻译 | #语音合成 | #多语言 | arxiv 学术质量 0.6/7 | 影响力 0.6/2 | 可复现性 0.1/2 | 置信度高 👥 作者与机构论文标题：OpenSTBench: Beyond Semantic Evaluation for Speech Translation arXiv ID: 2605.30792 作者：Yanjie An (贡献相等), Yuxiang Zhao (贡献相等, 通讯作者), Yichi Zhang, Qixi Zheng, Yujie Tu, Keqi Deng, Kai Yu, Xie Chen (通讯作者) 机构：上海交通大学，MoE智能计算与语言处理重点实验室，江苏省语言计算重点实验室，X-LANCE实验室，计算机科学学院，中国上海。上海创新研究院，中国上海。微软，美国。中国科学院大学，中国北京。 💡 毒舌点评这篇论文像是给一堆散装的语音翻译评估工具做了一次“大扫除”和“标准化收纳”。它指出了当前评估体系“各管一摊”的痛点，并提供了一个能同时测量翻译质量、语音质量、时间质量的“多功能仪表盘”。想法很实际，对社区也有用，避免了大家用不同尺子量同一把椅子。但问题在于，这个“仪表盘”本身并没有发明新的测量技术（比如新的语音质量评估指标），更像是现有工具的集成和协议规范化。其实验部分虽然跑了不少系统，但结论“不同维度排名不同”略显老生常谈，缺乏更深层的洞察。更关键的是，其核心价值高度依赖社区采纳度，如果大家还是习惯用BLEU打天下，这框架可能就沦为又一个备选项。此外，对语音侧自动指标可靠性的验证不足，让这个“统一”框架的基石有点摇晃。总的来说，是一篇扎实但缺乏惊喜的系统性工作，适合作为工具论文发表，但离顶会追求的“突破”尚有距离。 ...

SwanVoice: Expressive Long-Form Zero-Shot Speech Synthesis for Both Monologue and Dialogue

📄 SwanVoice: Expressive Long-Form Zero-Shot Speech Synthesis for Both Monologue and Dialogue #语音合成 #语音转换 #数据增强 #变分自编码器 #扩散模型 #强化学习 #课程学习 🔥 8.9/10 | 前50% | #语音合成 | #变分自编码器 | #语音转换 #数据增强 | arxiv 学术质量 6.3/7 | 影响力 1.5/2 | 可复现性 1.1/2 | 置信度高 👥 作者与机构作者：Ruiqi Li (1), Yu Zhang (1), Changhao Pan (1,2), Ke Lei (1,2), Xiang Yin (1), Cheng Yang (1) 单位：1 ByteDance, 2 Zhejiang University 通讯作者及贡献：1为共同贡献，2为通讯作者（根据原文格式推断）。 💡 毒舌点评这篇论文工整地完成了一个大型工业级语音合成系统应做的所有事：堆砌了看似合理的数据处理流程、模型架构和训练策略，最后在自建的Benchmark上宣称自己最好。其核心工作（SwanVoice模型本身）在架构上（VAE+Flow-matching DiT）并非独创，更多是工程上的整合与优化。最大的“贡献”似乎是那个数据处理管道（SwanData-Speech），但这更像是一个内部产品开发文档，而非可复用、可验证的学术方法。论文通篇都在强调“表现力”得分最高，但关键的“内容准确性”却是短板，这在一个语音合成系统中是相当尴尬的权衡。更值得玩味的是，评估所用的核心模型（如SpeechJudge）未开源，这使得其“表现力”领先的结论大打折扣。整篇论文更像是一份技术报告，而非一篇能推动领域进步的学术论文。 ...

UniAudio-Token: Empowering Semantic Speech Tokenizers with General Audio Perception

📄 UniAudio-Token: Empowering Semantic Speech Tokenizers with General Audio Perception #语音合成 #语音识别 #多模态模型 #低资源 🔥 10/10 | 前25% | #语音合成 | #语音识别 | #多模态模型 #低资源 | arxiv 学术质量 6.5/7 | 影响力 1.8/2 | 可复现性 1.7/2 | 置信度高 👥 作者与机构作者：Yuhan Song¹, Linhao Zhang², Aiwei Liu², Chuhan Wu², Sijun Zhang², Wei Jia², Yuan Liu², Houfeng Wang¹, Xiao Zhou² (通讯作者) 机构：¹北京大学计算机科学学院，多媒体信息处理国家重点实验室；²腾讯微信事业群基础模型技术中心 💡 毒舌点评这篇论文切中了当前Audio-LLM领域一个真实且重要的痛点：语义语音分词器为了对齐文本，把音频里丰富的声学细节给“弄瞎”了，导致处理音乐、环境音时抓瞎。提出的SAP监督和SAE门控机制在思路上确实巧妙且直觉上合理，实验数据也显示出全面的性能提升。然而，其“通用”的宣称可能有些过于乐观——训练和评估仍重度依赖英语和中文资源，非语音音频的重建质量也承认远不如专用编解码器。此外，其数据创建流程完全依赖Qwen3系列大模型，这本身就引入了新的偏差和可复现性门槛。总的来说，这是一篇扎实的、解决了具体问题的增量工作，但距离真正的“通用音频接口”还有明显距离，尤其在多语言覆盖和高保真非语音重建方面。 📌 核心摘要本文针对现有语义语音分词器在通用音频感知上的“声学失明”（acoustic blindness）问题，提出了UniAudio-Token框架。该框架旨在不牺牲语音生成能力的前提下，为语义分词器赋予通用音频感知能力。其核心创新包括两点：（1）语义-声学原语（Semantic-Acoustic Primitives, SAP）：一种结构化监督协议，将音频分解为语言内容、声音属性和听觉场景原语进行监督，以解耦内容与风格。（2）语义-声学平衡（Semantic-Acoustic Equilibrium, SAE）：一种内容感知的门控机制，能够自适应地从浅层注入细粒度声学细节到深层语义流中，以缓解声学失明，同时不破坏语义表征。大量实验证明，UniAudio-Token学到了全面的通用表征，同时保持了高保真度的语音生成。当集成到下游LLM中，其在理解和生成任务上均超越了所有单码本基线分词器。 🔗 开源详情代码：https://github.com/Tencent/Universal_Audio_Tokenizer （包含训练和推理脚本）模型权重：论文明确在摘要和引言中声明，将随代码仓库发布模型检查点（checkpoints），但未提供独立的HuggingFace或ModelScope链接。数据集：训练使用了多个公开数据集，论文附录C.1（表7）提供了完整列表和时长。具体数据集获取方式通常如下： LibriSpeech: https://www.openslr.org/12 Multilingual LibriSpeech: https://github.com/facebookresearch/libri-light GigaSpeech: https://github.com/SpeechColab/GigaSpeech Yodas: https://github.com/facebookresearch/yodas Hi-Fi TTS: 论文引用Bakhturina et al.，链接可能为 https://github.com/keithito/tacotron-2-data 或相关发布。 VCTK: https://datashare.ed.ac.uk/handle/10283/2651 LibriTTS: https://www.openslr.org/60 AISHELL-1: https://www.openslr.org/33 WenetSpeech: https://github.com/wenet-e2e/WenetSpeech Common Voice: https://commonvoice.mozilla.org/ Emilia: https://github.com/EMI-PMC/emilia-dataset AudioSet: https://research.google.com/audioset/ Demo：论文中未提及在线演示链接。复现材料：提供了完整的训练细节，包括数据集组成（附录C.1，表7）、超参数配置（附录C.2，表8）。SAP数据标注样例见附录A（图5-7）。论文中引用的其他开源项目： WavTokenizer: https://github.com/jishengpeng/WavTokenizer CosyVoice: https://github.com/FunAudioLLM/CosyVoice GLM-4-Voice: https://github.com/THUDM/GLM-4-Voice StableToken: 论文中未提供明确链接。 Whisper: https://github.com/openai/whisper (使用whisper-large-v3) Qwen3系列模型：论文用于生成SAP数据和评估，但未提供具体下载链接。 Qwen2.5: 用于下游Audio-LLM实验，未提供链接。 MOSNet: https://github.com/dongchao-py/MOSNet CAM++: https://github.com/alibaba/damo-academy ERes2Net: 论文中提及但未提供链接。 🏗️ 方法概述和架构 UniAudio-Token 的核心目标是解决语义语音分词器的“声学失明”问题，即它们为了对齐语言内容而主动抑制声学细节，导致其在非语音任务上表现不佳。该方法通过两个核心组件协同工作：SAP（解决监督冲突）和SAE（解决架构瓶颈），最终输出一个能统一表征语音和通用音频的离散码本。 ...

UNISON: A Unified Sound Generation and Editing Framework via Deep LLM Fusion

📄 UNISON: A Unified Sound Generation and Editing Framework via Deep LLM Fusion #语音合成 #语音转换 #音频生成 🔥 8.2/10 | 前25% | #语音合成 | #语音转换 | #音频生成 | arxiv 学术质量 5.9/7 | 影响力 1.7/2 | 可复现性 0.6/2 | 置信度高 👥 作者与机构 Zhaoqing Li, Haoning Xu (香港中文大学); Jingran Su (香港理工大学); Yaofang Liu (香港城市大学); Zhefan Rao, Haoxuan Che (香港科技大学); Huimeng Wang, Jiajun Deng, Tianzi Wang, Xunying Liu (香港中文大学); Zengrui Jin (清华大学); Rui Liu (华为香港研究中心)。论文同时列出了六所机构作为合作单位。 ...

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

📄 Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs #语音识别 #语音合成 #多模态模型 #数据增强 #低资源 #参数高效微调 #多语言 ✅ 7.2/10 | 前50% | #语音识别 | #数据增强 | #语音合成 #多模态模型 | arxiv 学术质量 7.5/7 | 影响力 7.0/2 | 可复现性 0.3/2 | 置信度中 👥 作者与机构论文作者为 Nguyen Quang Trung, Cheng Yi Lewis Sun, Minh Duc He, Yingxu Shuo, Ai Ti Aw。机构包括 Institute for Infocomm Research (I2R), A*STAR, Singapore 和 Nanyang Technological University, Singapore。 ...

Raon-Speech Technical Report

📄 Raon-Speech Technical Report #语音合成 #语音识别 #知识蒸馏 #多模态模型 #数据增强 ✅ 6.5/10 | 前25% | #语音识别 | #知识蒸馏 | #语音合成 #多模态模型 | arxiv 学术质量 3.5/7 | 影响力 1.5/2 | 可复现性 1.5/2 | 置信度高 👥 作者与机构核心贡献者来自KRAFTON。论文作者列表按角色划分，核心贡献者包括：建模（Ethan Ewer等）、数据（Beomsoo Kim等）、评估（Haechan Kim等）、服务与工程（Hyeonghwan Kim等）、基础设施（Jiyun Kim等）。项目负责人为Kangwook Lee和Jaewoong Cho。致谢部分还提到了多位提供支持的个人。 💡 毒舌点评这是一份扎实但缺乏惊喜的工业级技术报告。模型在韩语上的性能提升确实显著，但论文在论证“最强整体表现”时，巧妙地选择了对自家有利的8个基线模型，并在多轮对话（FDB v2.0）上露出了短板。所谓“开源一切”的承诺，在正文中连代码仓库和模型权重的具体链接都找不到，实在不够诚恳。全双工模型设计了不少“状态建模”技巧，却没有任何消融实验来证明其有效性，这让贡献打了折扣。整体来看，它更像一份详尽的模型发布说明书，而非一篇经得起严格推敲的学术论文，顶会门槛确实还没到。 📌 核心摘要本文介绍了Raon-Speech，一个针对英语和韩语优化的9B参数语音语言模型，以及其全双工对话扩展Raon-SpeechChat。Raon-Speech通过三阶段训练（对齐、端到端预训练+知识蒸馏、偏好优化后训练）将预训练LLM转化为兼具语音理解和生成能力的模型，并在42个基准测试中展示了其在语音相关任务上的优越性能，尤其是在韩语任务上。Raon-SpeechChat引入了因果编码器、交错的文本-语音序列和交互状态建模（SIL, BOW, BC），以支持实时对话。该模型在FDB v1.0的转接行为上表现出色，但在更复杂的多轮对话场景（FDB v2.0）中并非最优。论文声称开源了模型、代码和演示，但未提供具体链接。 🔗 开源详情代码：论文中未提及具体的代码仓库链接（如GitHub地址）。模型权重：论文中未提及具体的模型权重下载链接（如HuggingFace/ModelScope页面）。数据集： KVoiceBench: https://huggingface.co/datasets/KRAFTON/KVoiceBench KOpenAudioBench: https://huggingface.co/datasets/KRAFTON/KOpenAudioBench KMMAU: https://huggingface.co/datasets/KRAFTON/KMMAU Demo：论文中未提及在线交互式演示的具体链接。复现材料：论文未提供独立的复现材料包。论文详细说明了模型架构（附录B、C）、训练流程与超参数（表2、第3节）、数据处理流程（第4节、附录D），这些信息构成了复现所需的核心材料，但部分细节仍需参考附录。论文中引用的开源项目：骨干LLM: Qwen3-VL-8B-Instruct 语音编码器（理解对齐）: AuT模型语音编解码器: Mimi 说话人编码器: speechbrain/spkrec-ecapa-voxceleb 因果语音编码器（全双工）: Voxtral-Mini-4B-Realtime-2602 RCP初始化: Qwen3-Omni-30B-A3B-Instruct TTS: Qwen3-TTS ASR: Whisper, 内部基于Zipformer的ASR模型偏好优化方法: SimPO 全双工基准测试: Full-Duplex-Bench (FDB) v1.0, v1.5, v2.0 全双工对话模型基线: Moshi, Freeze-Omni, PersonaPlex, OmniFlatten 🏗️ 方法概述和架构 Raon-Speech的核心是将预训练LLM（Qwen3-VL-8B-Instruct）作为骨干，通过添加模块扩展其语音能力。架构分为理解与生成两侧。理解侧：输入语音经由一个预训练的非因果语音编码器（AuT）提取特征（12.5Hz），再通过一个随机初始化的2层MLP输入适配器投影至LLM嵌入空间。适配器后使用缩放为0.02的RMSNorm以稳定对齐。处理后的语音嵌入与文本嵌入拼接后送入LLM。生成侧：使用Mimi编解码器（保留前16个残差码本）。生成过程是自回归的：上一帧的编解码器嵌入经输出适配器映射至LLM输入空间，LLM的隐藏状态被一个4层解码器-仅Transformer语音生成专家（SGE）用于预测语义token（第一层码本）。随后，一个15层的残差码本预测器（RCP，初始化自Qwen3-Omni-30B-A3B-Instruct）自回归地预测剩余15层的声学token。最终所有层的token反量化、求和得到编解码器嵌入，输入编解码器解码器合成语音，并反馈至输出适配器用于下一帧生成。说话人控制：通过一个预训练的说话人编码器（speechbrain/spkrec-ecapa-voxceleb）从目标语音中提取2-8秒的片段，其嵌入被插入LLM输入序列以条件化生成语音的说话人身份。 ...

语音/音乐/音频论文速递 2026-05-30

语音/音乐/音频论文速递 2026-05-30 共分析 6 篇论文 ⚡ 今日概览 📥 抓取 6 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 2篇 ██ #语音情感识别 1篇 █ #强化学习 1篇 █ #Transformer 1篇 █ 📊 论文评分排行榜（6 篇，按分数降序）排名论文评分分档主任务 🥇 A Multi-Probe Audit of Clinical-Interview Depression De 9.6分前10% #语音情感识别 🥈 EchoDistill:Alignment Noisy-to-Clean Self-Distillation 9.1分前50% #强化学习 🥉 MIRAGE: Adaptive Multimodal Gating for Whole-Brain fMRI 8.2分前50% #Transformer 4. Direct Preference Optimization for English-Mandarin Cod 7.2分前50% #语音识别 5. Raon-Speech Technical Report 6.5分前25% #语音识别 6. PiAnnotate: A Web Annotation Tool for Piano Fingering, 6.0分前50% - 📋 论文列表 🥇 A Multi-Probe Audit of Clinical-Interview Depression Detection Benchmarks 🔥 9.6/10 | 前10% | #语音情感识别 | #迁移学习 | #音频信号处理 #预训练语言模型 | arxiv ...