数据增强 | 语音/音乐/音频论文速递

Echo: A Joint-Embedding Predictive Architecture for Speaker Diarization and Speech Recognition in a Shared Latent Space

📄 Echo: A Joint-Embedding Predictive Architecture for Speaker Diarization and Speech Recognition in a Shared Latent Space #语音识别 #语音分离 #说话人验证 #自监督学习 #数据增强 7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.3/1.5 | 复现 0.4/0.5 | 工程 1/1.5 ✅ 7/10 | 前50% | #语音识别 | #自监督学习 | #语音分离 #说话人验证 | arxiv 👥 作者与机构作者：Louis Mouchon 机构：Independent Research（独立研究） 💡 毒舌点评这篇论文就像一份极其详尽、充满工程细节的“施工日志”，而不是一篇旨在解决核心科学问题的顶级会议论文。作者用七个阶段的篇幅，耐心地记录了一个25M参数的“瑞士军刀”音频编码器是如何被一步步组装起来的，中间还详细记录了几次把锤子敲到手上的经历（对抗训练崩溃、多锚点过约束等）。永久JEPA锚定机制和VQ特征解耦确实是实用的工程技巧，值得记下。但问题在于，这把“瑞士军刀”目前最锋利的刀刃（语音识别）基本是钝的（CER 70%），而用来切硬木（真实会议音频）的场景却几乎没有测试，只在实验室的软胶垫（合成数据）上挥舞了几下。更尴尬的是，当其他“专用工具”（如EEND-EDA）在同样任务上精度高出一个数量级时，作者却摆摆手说“我们不是一个赛道的，不能直接比”。所以，这是一份优秀的内部技术报告，但若要登上NeurIPS/ICML的舞台，仅凭“我们证明了这几个东西可以塞进一个盒子里”这个点，说服力还远远不够。它更像是一篇给同行看的“避坑指南”和“设计蓝图”，期待下一代人用更大、更好的材料（更大的骨干网络）把它建成真正的房子。 📌 核心摘要本文提出Echo，一个概念验证系统，旨在证明一个基于JEPA自监督预训练的单一ViT音频编码器，能够通过增量特化，在同一个共享潜在空间中同时支持说话人分割、语音分离和语音内容编码。核心设计包括七个顺序训练阶段，关键技术创新是“永久JEPA锚定机制”（每个更新编码器的阶段保留冻结副本作为正则化）和使用VQ瓶颈进行说话人/内容特征解耦。系统在合成VoxCeleb2混合数据上取得了15.00%的盲DER和97.80%的PIT分离准确率。论文的主要价值在于详细记录了多任务共享编码器的架构探索过程、成功的设计决策（如锚定、VQ解耦、空目标路由）和失败的教训（如对抗训练、多锚点），并明确了当前的主要局限性：所有结果基于合成数据，且端到端ASR性能因VQ量化瓶颈而失败（CER ~70%）。 ...

UniVocal: Unified Speech-Singing Code-Switching Synthesis

📄 UniVocal: Unified Speech-Singing Code-Switching Synthesis #语音合成 #语音生成 #音频生成 #音乐生成 #自监督学习 #课程学习 #数据增强 8.9/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 0/1.5 🔥 8.9/10 | 前25% | #语音合成 | #自监督学习 | #语音生成 #音频生成 | arxiv 👥 作者与机构作者: Yufei Shi, Qian Chen, Wen Wang, Xiangang Li, Zhen-Hua Ling, Yang Ai 机构: Tongyi Fun Team, Alibaba Group; Independent Researcher ...

ImmersiveTTS: Environment-Aware Text-to-Speech with Multimodal Diffusion Transformer and Domain-Specific Representation Alignment

📄 ImmersiveTTS: Environment-Aware Text-to-Speech with Multimodal Diffusion Transformer and Domain-Specific Representation Alignment #语音合成 #多模态模型 #扩散模型 #自监督学习 #数据增强 🔥 9.3/10 | 前25% | #语音合成 | #自监督学习 | #多模态模型 #扩散模型 | arxiv 学术质量 6.8/7 | 影响力 1.5/2 | 可复现性 1/2 | 置信度高 👥 作者与机构 Jun-Hak Yun, Seung-Bin Kim, Seong-Whan Lee。Korea University, Seoul, Korea. 💡 毒舌点评论文提出了一个解决环境感知TTS任务的完整框架，技术路线清晰，实验设计也较为扎实。MM-DiT架构在音频领域的适配和领域特定REPA的引入是其核心亮点。然而，这篇工作给人的感觉像是为一个相对小众、定义明确的任务（从文本生成带环境声的语音）“量身定制”了一套复杂的系统，其普适性和根本性贡献可能存疑。训练数据完全依赖合成混合是一个硬伤，虽然作者在局限性中承认，但其对模型实际泛化能力的影响可能比想象中更严重。此外，与精心设计的流水线（CosyVoice2 + TangoFlux）在部分指标上的差距表明，统一模型在当前阶段并未显示出全面的优越性，其“统一建模”带来的核心价值（交互一致性）缺乏更有力的量化证明。工作完成度高，但创新性的天花板似乎受限于任务本身。 📌 核心摘要针对现有环境感知TTS方法在建模语音与环境音频跨模态交互方面的不足，本文提出了ImmersiveTTS。该框架基于多模态扩散Transformer（MM-DiT），采用双流设计：一条流处理文本条件化的环境上下文（由Flan-T5和CLAP提供细粒度与全局特征），另一条流处理与转录对齐的语音特征。两流通过联合注意力机制显式交互。为稳定训练并增强语义一致性，提出了领域特定表示对齐（REPA）目标，使用WavLM（语音专家）和ATST-Frame（音频专家）作为双教师模型，引导中间特征学习。实验证明，ImmersiveTTS在主观和客观指标上优于VoiceLDM和VoiceDiT等基线，且仅需25步采样，实现了效率与质量的平衡。消融研究验证了双流设计和REPA策略的有效性。 🔗 开源详情代码：论文未提供明确的代码仓库链接（如GitHub）。摘要中提供了项目主页链接：https://jjunak-yun.github.io/ImmersiveTTS。模型权重：未提及模型权重的下载链接（如HuggingFace或ModelScope）。数据集：使用了LibriTTS（train-clean-360子集）和WavCaps数据集，但未提供具体的下载链接或开源协议。 Demo：项目主页链接 https://jjunak-yun.github.io/ImmersiveTTS 可能包含在线演示或音频样本，论文未单独列出其他Demo地址。复现材料：论文提供了详细的实现细节（架构参数、损失函数、训练超参数），但未提供具体的配置文件、检查点或复现脚本的下载链接。论文中引用的开源项目： Flux 架构：https://github.com/black-forest-labs/flux WavLM (WavLM-base-sv)：https://huggingface.co/microsoft/wavlm-base-sv Flan-T5-Large：https://huggingface.co/google/flan-t5-large CLAP (clap-htsat-unfused)：https://huggingface.co/laion/clap-htsat-unfused AudioLDM2 VAE：https://huggingface.co/cvssp/audioldm2 HiFi-GAN：未提供链接。 WavLM-Large：https://huggingface.co/microsoft/wavlm-large ATST-Frame-Base：https://github.com/Audio-WestlakeU/audiossl USAD-Base：https://huggingface.co/MIT-SLS/USAD-Base 🏗️ 方法概述和架构 ImmersiveTTS的架构核心是一个为环境感知TTS任务定制的多模态扩散Transformer（MM-DiT），其基础是Flow Matching生成模型。整体流程如图1所示。 ...

Improving acoustic drone detection generalization through pretraining and data augmentation

📄 Improving acoustic drone detection generalization through pretraining and data augmentation #音频事件检测 #数据增强 #预训练 #迁移学习 #鲁棒性 ✅ 7.7/10 | 前50% | #音频事件检测 | #数据增强 | #预训练 #迁移学习 | arxiv 学术质量 5.6/7 | 影响力 1.2/2 | 可复现性 0.9/2 | 置信度高 👥 作者与机构 Paul M. Reuter, Mattes Ohlenbusch, Christian Rollwage Fraunhofer Institute for Digital Media Technology, Division Hearing, Speech and Audio Technology, Oldenburg, Germany 💡 毒舌点评这是一篇典型的“工程优化”论文，扎实但缺乏惊喜。它像一篇高质量的系统性技术报告，把已有的音频预训练和数据增强“积木”（AudioSet, SpecAugment等）拼搭起来解决无人机检测的泛化问题。优点是实验做得非常扎实，消融研究清晰，评估协议（TPR@固定FPR）贴近实用。但缺点同样明显：方法上毫无新意，所有组件都是现有工具的直接应用；创新性声明较弱，更偏向于验证已有技术在特定场景的有效性。此外，论文在自我批判和深度分析上有所欠缺，比如对增强概率选择的依据、不同增强间交互效应、以及与当前最强音频预训练模型（如AST, BEATs）的差距都避而不谈。总体而言，这是一篇合格的应用研究，但距离顶会要求的“新颖性”和“洞察深度”还有差距。 📌 核心摘要本文研究如何提升声学无人机检测系统在未见设备、环境和无人机类型（域外数据）上的泛化能力。作者提出一个紧凑的DNN检测器（SE-ResNet），并通过两种互补策略进行增强：（1）在大规模AudioSet数据集上进行预训练以获取通用声学表征；（2）应用一个由音调偏移、噪声混合、麦克风传递函数模拟和频谱图掩蔽组成的在线数据增强链。在多个内部及公共数据集上的实验表明，预训练是提升性能的主要因素，在所有基准测试上显著优于从头训练。完整的数据增强链则能进一步提升模型在声学不匹配的域外数据上的性能。论文强调了在低误报率（FPR）下报告真正例率（TPR）的评估方式，并分析了检测性能随距离的变化。 🔗 开源详情代码：未提及。模型权重：未提及。数据集：内部数据集（IDMT-Train, IDMT-Test）未公开。公开数据集：IDMT Berne 2022, AuDroK (含多个子集), IDMT-TRAFFIC, ESC-50, DroneNoiseDatabase。论文引用了相关文献（如[undefu], [undefr]等），但未提供直接下载链接。商业数据集：SoundSnap（用于训练负类）。复现材料：未提供具体的检查点文件或附录链接。论文详细描述了训练方法、评估协议和实验配置，提供了较好的复现基础。 🏗️ 方法概述和架构本研究的核心架构与方法流程如下： ...

Mental Damage: Caption Poisoning Attacks on Retrieval-Augmented Text-to-Music Generation

📄 Mental Damage: Caption Poisoning Attacks on Retrieval-Augmented Text-to-Music Generation #音乐生成 #多模态模型 #数据增强 #自监督学习 📝 5.6/10 | 前50% | #音乐生成 | #数据增强 | #多模态模型 #自监督学习 | arxiv 学术质量 3.3/7 | 影响力 1/2 | 可复现性 1.3/2 👥 作者与机构 Yizhu Wen, Shuhao Zhang, Nan Zhang, Long Cheng, Hanqing Guo 其中 Yizhu Wen 和 Shuhao Zhang 贡献相同（贡献者排序已标明）。 💡 毒舌点评这篇论文提出了一个重要但略显初步的攻击向量。其核心思想——利用高级语义锚点和低级声学载荷的“分层注入”来同时实现检索隐蔽性和生成引导——思路清晰且具有启发性。然而，作为一篇旨在投递顶级会议的工作，其“新颖性”的成色不足。将PoisonedRAG等文本/图像领域的攻击范式迁移到音乐RAG，本身并非重大技术突破。更关键的是，论文的“技术深度”明显欠缺：公式(2)提出的优化目标，其核心函数 \(\mathcal{R}(\cdot)\) 和 \(\mathcal{S}(\cdot)\) 如何定义、如何优化，在文中仅被笼统地描述为依赖LLM生成，这使得整个“方法”部分更像是一个工程化的prompt设计流程，而非一个严谨的算法框架。实验部分，仅在一个高度特定的“CLAP + MusicGen”组合上进行验证，结论的普适性大打折扣。评估仅依赖CLAP相似度这一单一自动指标，缺乏人类感知评估（如用户研究）来验证攻击是否真的能造成“心理伤害（Mental Damage）”或“功能偏离”，这使得其影响力和危害性声明显得空泛。总体而言，这是一篇合格的探索性工作，提出的问题值得研究，但若想跻身顶会，需要在方法严谨性、实验广度与深度、以及对“危害”的实证评估上进行大幅加强。 📌 核心摘要本文研究了检索增强文本到音乐生成（RAG-TTM）系统面临的一种新型完整性攻击：标题污染攻击。攻击者通过向知识库注入少量精心构造的音乐标题，可在不修改用户提示、检索器或生成器的情况下，操纵系统检索到恶意标题，并偏置提示增强过程，最终使生成的音乐偏离用户原始意图，转向攻击者选定的目标类别。论文提出的“双层标题污染攻击”策略包含三个组件：1）锚点保留，以维持检索可行性；2）高级功能对立目标生成，以控制语义冲突；3）低级语义载荷注入，以增强生成引导强度。在基于MusicCaps、CLAP检索器和MusicGen的实验管道中，攻击使生成音乐与目标类别的CLAP相似度提升近一倍（从约0.21-0.28升至0.41-0.48），同时与用户查询的相似度保持稳定（约0.30），证实了攻击的有效性和隐蔽性。该工作揭示了RAG系统在创意AI领域面临的实际安全风险。 🔗 开源详情代码：论文中未提供攻击生成流程本身的代码仓库链接。但论文明确使用了Meta的开源库AudioCraft来运行MusicGen模型，并给出了其GitHub仓库链接：https://github.com/facebookresearch/audiocraft。模型权重：论文中未提及该研究独有的模型权重链接。论文使用的MusicGen (musicgen-small) 模型权重可通过上述AudioCraft项目获取。数据集：使用了 MusicCaps 数据集。论文中未提供该数据集的直接下载链接，但因其是公开数据集，通常可通过官方渠道（如Google Research项目页或HuggingFace Datasets）获取。 Demo：提供了在线演示链接：https://yizhu-wen.github.io/Mental-Damage/。复现材料：论文附录（Appendix A）提供了详细的攻击示例（图3）和用于生成攻击载荷数据的数据生成提示模板（图4），这些材料对于复现攻击流程至关重要。论文中引用的开源项目： MusicGen (通过AudioCraft)：Meta的文本到音乐生成模型。链接：https://github.com/facebookresearch/audiocraft。 CLAP：一个连接文本和音频的对比学习模型，用作检索器。论文未提供其具体仓库链接。 Sonnet 4.6：论文中提到用于生成目标类别和推理的LLM（具体模型版本），未提供链接。 🏗️ 方法概述和架构本文的攻击针对一个典型的检索增强文本到音乐生成管道。该管道由三个核心部分组成：1）知识库，存储音乐标题-音频对；2）检索器，使用CLAP等模型将用户查询和知识库标题嵌入到共享表示空间，通过余弦相似度检索最相关的标题；3）生成器，如MusicGen，基于检索到的标题（可能经过LLM重写或直接拼接）生成音乐。 ...

SwanVoice: Expressive Long-Form Zero-Shot Speech Synthesis for Both Monologue and Dialogue

📄 SwanVoice: Expressive Long-Form Zero-Shot Speech Synthesis for Both Monologue and Dialogue #语音合成 #语音转换 #数据增强 #变分自编码器 #扩散模型 #强化学习 #课程学习 🔥 8.9/10 | 前50% | #语音合成 | #变分自编码器 | #语音转换 #数据增强 | arxiv 学术质量 6.3/7 | 影响力 1.5/2 | 可复现性 1.1/2 | 置信度高 👥 作者与机构作者：Ruiqi Li (1), Yu Zhang (1), Changhao Pan (1,2), Ke Lei (1,2), Xiang Yin (1), Cheng Yang (1) 单位：1 ByteDance, 2 Zhejiang University 通讯作者及贡献：1为共同贡献，2为通讯作者（根据原文格式推断）。 💡 毒舌点评这篇论文工整地完成了一个大型工业级语音合成系统应做的所有事：堆砌了看似合理的数据处理流程、模型架构和训练策略，最后在自建的Benchmark上宣称自己最好。其核心工作（SwanVoice模型本身）在架构上（VAE+Flow-matching DiT）并非独创，更多是工程上的整合与优化。最大的“贡献”似乎是那个数据处理管道（SwanData-Speech），但这更像是一个内部产品开发文档，而非可复用、可验证的学术方法。论文通篇都在强调“表现力”得分最高，但关键的“内容准确性”却是短板，这在一个语音合成系统中是相当尴尬的权衡。更值得玩味的是，评估所用的核心模型（如SpeechJudge）未开源，这使得其“表现力”领先的结论大打折扣。整篇论文更像是一份技术报告，而非一篇能推动领域进步的学术论文。 ...

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

📄 Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs #语音识别 #语音合成 #多模态模型 #数据增强 #低资源 #参数高效微调 #多语言 ✅ 7.2/10 | 前50% | #语音识别 | #数据增强 | #语音合成 #多模态模型 | arxiv 学术质量 7.5/7 | 影响力 7.0/2 | 可复现性 0.3/2 | 置信度中 👥 作者与机构论文作者为 Nguyen Quang Trung, Cheng Yi Lewis Sun, Minh Duc He, Yingxu Shuo, Ai Ti Aw。机构包括 Institute for Infocomm Research (I2R), A*STAR, Singapore 和 Nanyang Technological University, Singapore。 ...

EchoDistill:Alignment Noisy-to-Clean Self-Distillation for Robust Audio LLMs

📄 EchoDistill:Alignment Noisy-to-Clean Self-Distillation for Robust Audio LLMs #强化学习 #多模态模型 #数据增强 🔥 9.1/10 | 前50% | #强化学习 | #强化学习 | #多模态模型 #数据增强 | arxiv 学术质量 6.1/7 | 影响力 1.7/2 | 可复现性 1.3/2 | 置信度高 👥 作者与机构论文共有11位作者，隶属于7个机构。其中，Liang Lin, Chunxi Luo, Kaiwen Luo为共同第一作者（*Equal contribution.）。Kun Wang和Junhao Dong为通讯作者（\(\uparrow\)Corresponding author）。主要机构包括：南洋理工大学（NTU）、上海大学（SHU）、中国科学院信息工程研究所（ICT, CAS）、杭州电子科技大学（HDU）、北京邮电大学（BUPT）、中国科学技术大学（USTC）、网络与信息安全国家重点实验室（SKL-NST, BUPT）。论文作者机构信息在“已有分析结果”中未提及。 💡 毒舌点评这论文的“自蒸馏”包装得挺花哨，但核心思想就是拿干净数据的老师傅带带嘈杂数据里的学生，思路不新，但做成了一个相对完整的框架。最大亮点是那个“音频证据稀疏性”的分析，确实点出了问题的关键——模型容易被噪音带跑偏，而不是真正“听懂”了音频。实验做得比较扎实，跨了多个模型和领域，GSR指标提升看起来不错。但仔细一看，实验只在MMAU和MMAR这两个特定数据集上做，泛化性存疑。而且，需要配对噪声/干净音频的训练数据，这在真实世界里可不好搞，局限性不小。代码倒是给了，算是个加分项。总的来说，是一篇工科味道很浓、解决具体工程问题的工作，理论上没什么突破，但实验上花了不少功夫。 📌 核心摘要音频大语言模型（ALLMs）在真实世界的复杂噪声下非常脆弱，容易产生语义漂移和幻觉。现有方法主要依赖波形级增强或表示抑制，未能从训练层面根本提升模型鲁棒性。本文提出EchoDistill，一种基于对齐的“噪声-清洁”自蒸馏框架。该框架利用一个冻结的、以清洁音频为输入的教师模型，为以噪声音频为输入的学生模型提供语义参考。训练时，学生模型在噪声音频下采样生成候选响应，通过群组相对策略优化（GRPO）结合教师-学生的token级一致性作为奖励，来优化学生的生成轨迹，使其更符合清洁音频的语义证据。此外，引入音频感知的奖励塑造机制，以区分那些仅仅正确和真正基于音频证据的响应。在多个ALLM（Qwen2.5-Omni, MiniCPM-o-2.6, Step-Audio2）和多个音频领域（音乐、声音、语音）上的实验表明，EchoDistill能显著提升以GSR为导向的生成鲁棒性，且不增加额外的推断成本。 🔗 开源详情代码：论文提供了匿名代码仓库链接：https://anonymous.4open.science/r/echodistill-10DE。模型权重：论文中未提及提供预训练模型（教师/学生）或最终训练好的模型权重的下载地址。数据集：论文使用了MMAR和noisy MMAU数据集。训练/验证数据格式有示例（表6），但未提供这些数据集的直接下载链接。 Demo：论文中未提及在线演示（Demo）。复现材料：论文在附录C详细说明了评估协议、三个指标（Acc, Noisy, GSR）的计算公式和实例化方式，以及一个训练数据格式的示例表格（表6）。但未提供训练超参数配置（如学习率、优化器、训练轮数等）或用于初始化的预训练检查点的下载链接。引用的开源项目：论文提到了基础模型（Qwen2.5-Omni, MiniCPM-o-2.6, Step-Audio2）和对比方法（DFL, SEEN）的名称，但未给出这些项目对应的官方代码仓库地址。 🏗️ 方法概述和架构 EchoDistill是一个完整的训练框架，旨在提升音频大语言模型在噪声输入下的语义生成鲁棒性。其核心思想是利用训练时可获取的配对噪声/清洁音频数据，通过“噪声-清洁”自蒸馏，引导模型学习从噪声输入中生成更符合清洁音频语义证据的响应。 ...

Raon-Speech Technical Report

📄 Raon-Speech Technical Report #语音合成 #语音识别 #知识蒸馏 #多模态模型 #数据增强 ✅ 6.5/10 | 前25% | #语音识别 | #知识蒸馏 | #语音合成 #多模态模型 | arxiv 学术质量 3.5/7 | 影响力 1.5/2 | 可复现性 1.5/2 | 置信度高 👥 作者与机构核心贡献者来自KRAFTON。论文作者列表按角色划分，核心贡献者包括：建模（Ethan Ewer等）、数据（Beomsoo Kim等）、评估（Haechan Kim等）、服务与工程（Hyeonghwan Kim等）、基础设施（Jiyun Kim等）。项目负责人为Kangwook Lee和Jaewoong Cho。致谢部分还提到了多位提供支持的个人。 💡 毒舌点评这是一份扎实但缺乏惊喜的工业级技术报告。模型在韩语上的性能提升确实显著，但论文在论证“最强整体表现”时，巧妙地选择了对自家有利的8个基线模型，并在多轮对话（FDB v2.0）上露出了短板。所谓“开源一切”的承诺，在正文中连代码仓库和模型权重的具体链接都找不到，实在不够诚恳。全双工模型设计了不少“状态建模”技巧，却没有任何消融实验来证明其有效性，这让贡献打了折扣。整体来看，它更像一份详尽的模型发布说明书，而非一篇经得起严格推敲的学术论文，顶会门槛确实还没到。 📌 核心摘要本文介绍了Raon-Speech，一个针对英语和韩语优化的9B参数语音语言模型，以及其全双工对话扩展Raon-SpeechChat。Raon-Speech通过三阶段训练（对齐、端到端预训练+知识蒸馏、偏好优化后训练）将预训练LLM转化为兼具语音理解和生成能力的模型，并在42个基准测试中展示了其在语音相关任务上的优越性能，尤其是在韩语任务上。Raon-SpeechChat引入了因果编码器、交错的文本-语音序列和交互状态建模（SIL, BOW, BC），以支持实时对话。该模型在FDB v1.0的转接行为上表现出色，但在更复杂的多轮对话场景（FDB v2.0）中并非最优。论文声称开源了模型、代码和演示，但未提供具体链接。 🔗 开源详情代码：论文中未提及具体的代码仓库链接（如GitHub地址）。模型权重：论文中未提及具体的模型权重下载链接（如HuggingFace/ModelScope页面）。数据集： KVoiceBench: https://huggingface.co/datasets/KRAFTON/KVoiceBench KOpenAudioBench: https://huggingface.co/datasets/KRAFTON/KOpenAudioBench KMMAU: https://huggingface.co/datasets/KRAFTON/KMMAU Demo：论文中未提及在线交互式演示的具体链接。复现材料：论文未提供独立的复现材料包。论文详细说明了模型架构（附录B、C）、训练流程与超参数（表2、第3节）、数据处理流程（第4节、附录D），这些信息构成了复现所需的核心材料，但部分细节仍需参考附录。论文中引用的开源项目：骨干LLM: Qwen3-VL-8B-Instruct 语音编码器（理解对齐）: AuT模型语音编解码器: Mimi 说话人编码器: speechbrain/spkrec-ecapa-voxceleb 因果语音编码器（全双工）: Voxtral-Mini-4B-Realtime-2602 RCP初始化: Qwen3-Omni-30B-A3B-Instruct TTS: Qwen3-TTS ASR: Whisper, 内部基于Zipformer的ASR模型偏好优化方法: SimPO 全双工基准测试: Full-Duplex-Bench (FDB) v1.0, v1.5, v2.0 全双工对话模型基线: Moshi, Freeze-Omni, PersonaPlex, OmniFlatten 🏗️ 方法概述和架构 Raon-Speech的核心是将预训练LLM（Qwen3-VL-8B-Instruct）作为骨干，通过添加模块扩展其语音能力。架构分为理解与生成两侧。理解侧：输入语音经由一个预训练的非因果语音编码器（AuT）提取特征（12.5Hz），再通过一个随机初始化的2层MLP输入适配器投影至LLM嵌入空间。适配器后使用缩放为0.02的RMSNorm以稳定对齐。处理后的语音嵌入与文本嵌入拼接后送入LLM。生成侧：使用Mimi编解码器（保留前16个残差码本）。生成过程是自回归的：上一帧的编解码器嵌入经输出适配器映射至LLM输入空间，LLM的隐藏状态被一个4层解码器-仅Transformer语音生成专家（SGE）用于预测语义token（第一层码本）。随后，一个15层的残差码本预测器（RCP，初始化自Qwen3-Omni-30B-A3B-Instruct）自回归地预测剩余15层的声学token。最终所有层的token反量化、求和得到编解码器嵌入，输入编解码器解码器合成语音，并反馈至输出适配器用于下一帧生成。说话人控制：通过一个预训练的说话人编码器（speechbrain/spkrec-ecapa-voxceleb）从目标语音中提取2-8秒的片段，其嵌入被插入LLM输入序列以条件化生成语音的说话人身份。 ...

语音/音乐/音频论文速递 2026-05-30

语音/音乐/音频论文速递 2026-05-30 共分析 6 篇论文 ⚡ 今日概览 📥 抓取 6 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 2篇 ██ #语音情感识别 1篇 █ #强化学习 1篇 █ #Transformer 1篇 █ 📊 论文评分排行榜（6 篇，按分数降序）排名论文评分分档主任务 🥇 A Multi-Probe Audit of Clinical-Interview Depression De 9.6分前10% #语音情感识别 🥈 EchoDistill:Alignment Noisy-to-Clean Self-Distillation 9.1分前50% #强化学习 🥉 MIRAGE: Adaptive Multimodal Gating for Whole-Brain fMRI 8.2分前50% #Transformer 4. Direct Preference Optimization for English-Mandarin Cod 7.2分前50% #语音识别 5. Raon-Speech Technical Report 6.5分前25% #语音识别 6. PiAnnotate: A Web Annotation Tool for Piano Fingering, 6.0分前50% - 📋 论文列表 🥇 A Multi-Probe Audit of Clinical-Interview Depression Detection Benchmarks 🔥 9.6/10 | 前10% | #语音情感识别 | #迁移学习 | #音频信号处理 #预训练语言模型 | arxiv ...