Diffusion Large Language Models for Visual Speech Recognition

📄 Diffusion Large Language Models for Visual Speech Recognition #参数高效微调 #数据增强 ✅ 7.0/10 | 前25% | #语音识别 | #参数高效微调 | #数据增强 | arxiv 学术质量 7.0/7 | 影响力 7.0/2 | 可复现性 1.0/2 | 置信度 高 👥 作者与机构 作者:Jeong Hun Yeo, Chae Won Kim, Hyeongseop Rha, Yong Man Ro†(†通讯作者) 机构:韩国科学技术院(KAIST)集成视觉语言实验室(Integrated Vision Language Lab) 💡 毒舌点评 本文是一篇“站在巨人肩膀上”的应用型工作。其核心想法——将扩散大语言模型(DLLM)引入视觉语音识别(VSR)以解决自回归解码的局限——是直接且合理的。实验结果(19.5% WER)也确实刷新了LRS3-only设置下的SOTA,证明了该范式在此任务上的有效性。然而,审稿人必须指出:1) 创新性深度有限,主要贡献是将现有DLLM解码策略(置信度解掩码)和训练技巧(两阶段训练)应用到VSR领域,而非提出全新的模型架构或理论;2) 实验的严谨性和全面性存在明显短板,消融实验严重不足,跨数据集验证薄弱;3) 部分关键实现细节(如阈值、训练超参数)缺失,影响了可复现性。总体而言,这是一篇扎实的系统工程工作,但在作为一篇NeurIPS/ICML/ICLR级别的论文时,其理论创新和实验的完备性还有提升空间。 📌 核心摘要 本文针对视觉语音识别(VSR)中自回归解码器因固定从左到右生成顺序而无法有效处理视觉模糊性的局限,提出了首个基于扩散大语言模型(DLLM)的VSR框架(DLLM-VSR)。该方法将转录过程建模为在固定长度画布上的迭代掩码去噪,允许灵活顺序解码。核心设计包括:1) 基于置信度的解掩码策略,优先解码并固定高置信度token,将其作为双向上下文来指导模糊位置的预测;2) 为适配VSR而设计的两阶段掩码去噪训练策略,第一阶段专注于文本内容对齐,第二阶段学习长度建模(填充padding token);3) 一种长度引导的候选解码方法,利用视频时长预测多个可能的转录长度假设,并行解码后通过联合重排序选择最佳结果。在LRS3数据集上,DLLM-VSR仅使用其标注数据训练便达到了19.5%的词错误率(WER),建立了新的最优性能。 🔗 开源详情 代码:https://bit.ly/DLLM-VSR (已提供,可访问) 模型权重:论文中未提及是否开源预训练的DLLM-VSR模型权重。 数据集:论文中提及使用LRS3和LRS2数据集,但未提供下载地址或开源协议链接(LRS3/LRS2通常需要申请)。 Demo:论文中未提及。 复现材料:论文提供了代码,但未明确说明是否包含完整的训练配置、脚本、环境说明以及两阶段训练的具体参数设置。 论文中引用的开源项目: Dream (基于Qwen2.5): https://github.com/ArtificialAnalysis/Dream LLaDA: https://github.com/ArtificialAnalysis/LLaDA LaViDa: https://github.com/ArtificialAnalysis/LaViDa Dimple: https://github.com/ArtificialAnalysis/Dimple DreamOn: https://github.com/ArtificialAnalysis/DreamOn DAEDAL: https://github.com/ArtificialAnalysis/DAEDAL Block Diffusion: https://github.com/ArtificialAnalysis/Block-Diffusion wav2vec 2.0: https://github.com/facebookresearch/wav2vec Whisper: https://github.com/openai/whisper Qwen2.5: https://github.com/QwenLM/Qwen2.5 🏗️ 方法概述和架构 本文提出的DLLM-VSR框架(如图2所示)旨在将扩散大语言模型的灵活解码能力应用于视觉语音识别任务。其整体架构包含一个冻结的视觉编码器、一个长度适配器、两个投影层以及一个基于LoRA适配的DLLM解码器。核心创新在于解码方式和训练策略的重新设计。 ...

2026-05-28 · 更新于 2026-06-15 · 2 min · 256 words

Unified Synthesis of Compositional Speech and Sound from Free-Form Text Prompts

📄 Unified Synthesis of Compositional Speech and Sound from Free-Form Text Prompts #语音合成 #多任务学习 #自回归模型 #生成模型 #对比学习 #多模态模型 #数据增强 🔥 8/10 | 前25% | #语音合成 | #多任务学习 | #自回归模型 #生成模型 | arxiv 学术质量 6/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 第一作者:Yuyue Wang(中国人民大学) 通讯作者:Xihua Wang(中国人民大学) 机构:中国人民大学 💡 毒舌点评 一篇动机明确、架构清晰的工作,定义了‘自由文本到统一音频生成’这一有潜力的任务,并提出了一个不错的解决方案。然而,如同许多初次尝试定义新任务的工作,其‘统一’的光环在实验部分略显褪色。基线选择过于保守,仅与较早的VoiceLDM和流水线方法对比,对近期涌现的AudioBox、Fugatto等强力竞争对手视而不见,这让其‘优越性’的宣称打了折扣。实验部分更像是精心设计的‘能力展示’而非公平‘竞技场’,尤其是主观评估样本量仅50个,说服力有限。论文的‘未来工作’比‘当前工作’更有吸引力。整体是一篇扎实但不够大胆的论文,创新有余,验证不足。 📌 核心摘要 本文针对“自由文本提示生成统一音频”这一新任务,提出了PlanAudio框架。该任务旨在直接从自然语言提示合成包含语音、音效及其复合交互的统一音频流。PlanAudio是一个基于自回归LLM的统一模型,其核心创新是引入“语义潜在思维链”机制,在连续语义空间进行隐式规划,以桥接高语义理解与低层声学生成。模型采用单一Transformer骨干,直接处理文本,无需外部文本编码器或重写模块。作者还构建了专用的复合音频评估基准PlanAudio-Bench。实验表明,PlanAudio在复合场景下优于基线方法,并在单独音效和语音任务上保持竞争力。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重的公开链接。 数据集:论文中提及基于以下公开数据集构建训练数据,并合成了新的基准数据集。具体获取方式如下: AudioSet: 论文用于合成复合音频数据,未提供数据集本身的直接链接。 AudioCaps: 论文用于声音生成评估,未提供链接。 WavCaps: 论文用于声音生成,未提供链接。 LibriTTS: 论文用于语音生成评估,未提供链接。 PlanAudio-Bench:论文中提出的新基准测试集,论文中未提及公开获取链接。 Demo:论文中未提及。 复现材料:论文中未提及训练配置、检查点等复现材料的公开链接。 论文中引用的开源项目: Qwen2.5-1.5B: 作为模型初始化的基础LLM。 链接: https://huggingface.co/Qwen/Qwen2.5-1.5B AudioCraft tokenizer: 用于将音频离散化为分层标记。 链接: https://github.com/facebookresearch/audiocraft AF3Encoder (Audio Flamingo 3 Encoder): 用于提取语义表示。 论文中未提供具体链接。 Whisper: 用于生成转录。 论文中未提供具体链接。 Gemini-2.5 Pro: 用于数据标注和文本改写。 论文中未将其列为开源项目。 🏗️ 方法概述和架构 PlanAudio是一个端到端的自回归LLM框架,旨在直接从自由形式文本提示生成包含语音和音效的统一音频波形。其核心架构(如图2所示)基于单一Transformer骨干(初始化自Qwen2.5-1.5B),将文本、潜在规划特征和离散音频token组织成一个统一序列进行处理。 ...

2026-05-28 · 更新于 2026-06-15 · 3 min · 506 words

When Helpful Context Leaks: Privacy Risks in Domain-Adapted ASR

📄 When Helpful Context Leaks: Privacy Risks in Domain-Adapted ASR #语音识别 #数据增强 #参数高效微调 #大语言模型 🔥 10/10 | 前50% | #语音识别 | #参数高效微调 | #数据增强 #大语言模型 | arxiv 学术质量 6.9/7 | 影响力 1.8/2 | 可复现性 2/2 | 置信度 高 👥 作者与机构 作者:Maike Züfle, Jan Niehues 机构:卡尔斯鲁厄理工学院(Karlsruhe Institute of Technology, Germany) 💡 毒舌点评 这篇论文指出了一个实际且有趣的“盲点”:当你为了让ASR模型听懂行话而给它提供上下文或微调时,它可能会因为“听岔了”而泄露这些行话本身。这就像你告诉助理“Nexus是我们秘密项目的代号”,结果他在听到有人说了声“Texas”时,却大喊“Nexus!”一样。作者很聪明地将这个现象定义为一种非对抗性的、源于正常使用机制的隐私风险,并用一个设计精巧的控制实验进行了量化。不过,论文的“解决方案”部分——在提示中同时加入正确词和错误词——在实践中显得有些天真,更像是一个诊断工具而非真正的防御。整体上,这是一篇发现问题的警醒之作,技术深度适中,但实验设计的完备性和开源贡献值得肯定。 📌 核心摘要 本文研究了语音大语言模型(SpeechLLMs)在领域自适应过程中引入的一个未被充分认识的隐私风险:上下文诱导的转录泄露。当用户通过提示词注入上下文或对模型进行领域微调以提升专业术语识别能力时,如果说话者发出一个与上下文或训练数据中某个私有术语语音相似的词,模型可能会错误地转录为该私有术语,从而无意中泄露信息。作者构建了一个包含679个语音相似词对的控制评估数据集,并在两个前沿SpeechLLM(Qwen2.5-Omni-7B, Phi-4-multimodal-instruct)上评估了提示注入和微调两种自适应机制的影响。实验表明,两种机制都会导致可测量的泄露率,且结合使用时泄露效应会加剧。论文还探讨了一种在提示中同时提供正确词与泄露词的缓解策略,并分析了准确性-泄露率权衡,最终发现仅进行微调而不注入提示上下文能在保持高准确率的同时实现近乎零泄露,但在实际应用中难以实现。 🔗 开源详情 代码:https://github.com/maikezuefle/asr-context-induced-leakage 模型权重: Qwen2.5-Omni-7B:https://huggingface.co/Qwen/Qwen2.5-Omni-7B Phi-4-multimodal-instruct:https://huggingface.co/microsoft/Phi-4-multimodal-instruct 数据集:论文中构建的评估数据集(包含679个音素相似词对、生成的上下文句子、合成音频)通过上述代码仓库发布,链接为:https://github.com/maikezuefle/asr-context-induced-leakage Demo:论文中未提及 复现材料:论文在附录A和B中提供了详细的数据准备过程(如使用spaCy和CMU词典的音素相似词对提取、使用Gemma-3-12B生成上下文和填充句子的提示)、Kokoro-82M TTS合成配置(使用美国英语声音列表)、以及两个模型的微调超参数配置(LoRA设置、优化器参数等),这些信息结合代码足以支持复现主要实验。 论文中引用的开源项目: spaCy (用于命名实体识别): en_core_web_trf 模型。论文未提供独立链接,但spaCy是一个广泛使用的开源项目,主页为 https://spacy.io/。 CMU Pronouncing Dictionary (用于查找音素相似词): 论文提供了访问地址:http://www.speech.cs.cmu.edu/cgi-bin/cmudict Kokoro-82M TTS (用于语音合成): https://huggingface.co/hexgrad/Kokoro-82M LlamaFactory (用于微调Qwen模型): 论文引用了该框架,其开源项目主页为 https://github.com/hiyouga/LLaMA-Factory HF Transformers + Accelerate (用于微调Phi-4模型): 论文提及使用了Hugging Face的Transformers库和Accelerate库,其官方项目为 https://github.com/huggingface/transformers 和 https://github.com/huggingface/accelerate。 🏗️ 方法概述和架构 本文方法的核心是构建一个可控的评估框架,以量化“上下文诱导的转录泄露”现象。整个方法流程可分为三个主要阶段:评估数据集构建、模型自适应设置和泄露度量与缓解评估。 ...

2026-05-28 · 更新于 2026-06-15 · 2 min · 225 words

Why We Need Speech to Evaluate Speech Translation

📄 Why We Need Speech to Evaluate Speech Translation #语音翻译 #多模态模型 #参数高效微调 #数据增强 🔥 8.3/10 | 前50% | #语音翻译 | #参数高效微调 | #多模态模型 #数据增强 | arxiv 学术质量 5.2/7 | 影响力 1.5/2 | 可复现性 1.6/2 | 置信度 高 👥 作者与机构 Maike Züfle (1), Danni Liu (1), Vilém Zouhar (2), Jan Niehues (1) 1 Karlsruhe Institute of Technology (KIT), 2 ETH Zurich 💡 毒舌点评 这篇论文像一位严谨的诊断医生,成功地揭示了一个重要但被忽视的病症:当前的语音翻译评估指标(无论是文本还是语音输入)对性别一致性和韵律等语音特有现象几乎完全失明。其诊断过程(系统性的元评估、新模型训练、深入的探测实验)无可挑剔,结论有理有据。然而,它最大的缺点在于“只诊断,不治病”。论文明确指出了三个病根(编码器信息丢失、模型忽略语音源、训练数据不足),却未能提出任何有效的解决方案或有潜力的治疗方向。这使得文章的贡献止步于“揭示问题”,而非“解决问题”。对于期望看到方法创新或突破性结果的审稿人来说,这无疑会拉低评价。不过,这种扎实的“问题定位”工作为后续研究铺平了道路,价值不容否认。 📌 核心摘要 本文针对语音翻译(ST)评估中存在的盲点展开研究。核心发现是:现有的文本和语音质量估计(QE)指标,包括直接使用语音输入的BLASER和SpeechQE,均无法评估语音翻译中至关重要的性别一致性和韵律现象,其表现接近随机猜测。为探究原因,作者训练了SpeechCOMET模型家族(基于SONAR和Whisper编码器)并评估了SpeechLLM作为评估器。两者在标准QE任务(IWSLT数据集上的相关性评分)上表现良好,甚至超越了文本基线COMETKiwi,但在语音特有现象评估上同样失败。通过探测实验,论文揭示了三个根本原因:1)SONAR等编码器抑制了声学特征;Whisper和SpeechLLM的编码器保留声学特征但模型未使用;2)QE模型在训练中倾向于忽略语音源信号;3)标准QE训练数据中缺乏相关示例。论文开源了所有模型和代码,并呼吁开发专门的语音特定数据集和真正依赖语音的模型。 🔗 开源详情 代码:https://github.com/MaikeZuefle/speechCOMET 模型权重:论文中未提及模型权重的直接下载链接,需根据代码和超参数自行训练。 数据集:使用了 IWSLT 2026 Metrics Shared Train Dev, MuST-SHE, ContraProST, WMT Human All 数据集,均为第三方公开数据集,论文未提供直接获取链接。 Demo:论文中未提及在线演示链接。 复现材料:论文在附录中提供了详尽的训练超参数(表4,表5)、模型架构细节(第3.1、3.2节)、数据处理方法(附录A.3)和消融实验结果(附录B),这些信息均包含在论文正文及附录中,可复现性高。 论文中引用的开源项目: COMET/COMETKiwi: 用于质量估计的基线模型。链接:https://github.com/unilm/comet SONAR: 用于语音编码的多语言模型。链接:https://github.com/facebookresearch/SONAR Whisper: 用于语音编码和语音识别的模型。链接:https://github.com/openai/whisper Qwen2.5 Omni: 论文中作为SpeechLLM进行评估的多模态大模型。链接:https://github.com/QwenLM/Qwen2.5-Omni (根据论文作者和名称推断) LlamaFactory: 用于微调大语言模型的框架(用于SpeechLLM的微调)。链接:https://github.com/hiyouga/LLaMA-Factory spaCy: 用于语言特征探测的NLP工具。链接:https://github.com/explosion/spaCy Kokoro TTS & MMS TTS: 用于合成训练数据的文本转语音系统。链接:https://github.com/hexgrad/kokoro (Kokoro), https://github.com/facebookresearch/fairseq/tree/main/examples/mms (MMS TTS) 🏗️ 方法概述和架构 本文方法主要分为三部分:1)对现有指标的元评估,2)训练新的语音感知QE模型SpeechCOMET,3)评估SpeechLLM作为QE模型。 ...

2026-05-28 · 更新于 2026-06-15 · 4 min · 684 words

CosyEdit2: Speech-Editing-Oriented Reinforcement Learning Unlocks Better Zero-Shot TTS

📄 CosyEdit2: Speech-Editing-Oriented Reinforcement Learning Unlocks Better Zero-Shot TTS #语音编辑 #强化学习 #多模态模型 #自回归模型 #语音识别 #数据增强 ✅ 7.2/10 | 前25% | #语音编辑 | #强化学习 | #多模态模型 #自回归模型 | arxiv 学术质量 7.2/7 | 影响力 7.5/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 Junyang Chen (陈俊阳), Yuhang Jia (贾宇航), Hui Wang (王辉), Jiaming Zhou (周佳明), Yongchang Gan (甘永昌), Yong Qin (覃勇)。 机构:南开大学计算机科学学院(1),南开大学人工智能学院(2)。通讯作者:chenjunyang@mail.nankai.edu.cn, qinyong@nankai.edu.cn。第一作者与通讯作者标注。 💡 毒舌点评 摘要写得像广告文案,充满了“substantially”、“deeper”、“unlocks”这类形容词。方法部分看似复杂,但核心就是给GRPO换了一套更适合编辑任务的奖励函数。实验结果在多个benchmark上看起来都不错,但仔细一想,和SOTA的差距有时只有零点几个百分点,而且很多baseline其实并不强。最有趣的是,这篇论文发现一个编辑模型居然能提升其基础TTS模型的性能,这到底是编辑任务的特殊性,还是仅仅因为用更多数据(虽然是构造的)和RL微调了一遍LLM?此外,声称“首个编辑导向的奖励组合”需要打上问号,因为相关工作ECPA已经用了GRPO,奖励设计思路有重叠。代码、模型权重均未开源,复现门槛极高。 📌 核心摘要 本文提出了CosyEdit2,一个基于两阶段后训练框架的语音编辑模型。第一阶段使用监督微调(SFT)在配对编辑数据上初始化模型能力。第二阶段引入编辑导向的组相对策略优化(GRPO),核心创新在于使用无需目标语音的构造数据(将任意TTS语料转换为编辑提示)和针对编辑任务设计的多奖励信号(内容正确性、声学保持、说话人一致性)对语言模型进行强化学习。实验表明,该模型在语音编辑任务上达到了与强基线可比或更优的性能,尤其在声学一致性方面表现突出,并且其获得的强化学习优化能力能够意外地提升基础模型的零样本TTS性能,揭示了两个任务间的相互促进关系。 🔗 开源详情 代码:论文未提供CosyEdit2的代码仓库链接。演示页面 https://cjy1018.github.io/CosyEdit2 主要用于展示音频样本,未提及包含代码。 模型权重: CosyEdit2模型:论文中未提供CosyEdit2(包括各阶段微调后的LLM、Flow、BigVGAN)的权重下载链接。 CosyVoice2模型:作为基础模型,其链接为 https://huggingface.co/FunAudioLLM/CosyVoice2-0.5B。 数据集: GigaEdit-S:阶段一训练数据,源自GigaSpeech-S,未提供独立下载链接。 LibriTTS / LibriTTS-R / YODAS2:用于训练BigVGAN的混合数据集。论文引用了LibriTTS,但提供的Hugging Face链接 https://huggingface.co/datasets/keithito/lj_speech 实际是LJ Speech,并非LibriTTS,此处表述有误。YODAS2和Ming-Freeform-Audio-Edit等评估集均未提供链接。 VoiceBank-DEMAND-16k:用于声码器重建实验,链接为 https://huggingface.co/datasets/JacobLinCool/VoiceBank-DEMAND-16k。 SEED-TTS-EVAL:评估基准,链接为 https://github.com/bytedance/Seed-TTS-Eval。 Demo:提供了音频样本演示页面 https://cjy1018.github.io/CosyEdit2。 复现材料: 训练细节与模型配置:附录B-D详细描述了架构、超参数和训练流程,是复现的关键信息。 评估脚本与指标:提及使用了评估脚本和指标(WER, SS, DNSMOS, MCD),但未提供具体评估代码。 论文中引用的开源项目:包括CosyVoice2、Qwen2.5、WhisperX、BigVGAN(提供链接 https://huggingface.co/nvidia/bigvgan_v2_22khz_80band_256x)、nlpaug、RoBERTa、pymcd等。 🏗️ 方法概述和架构 CosyEdit2构建于CosyVoice2的语音-语言建模骨干之上,将其零样本提示式接口重构为语音编辑任务。其架构包含五个核心模块:文本分词器、语音分词器、自回归文本-语音语言模型(LLM)、条件流匹配模型(Flow)和BigVGAN声码器。 ...

2026-05-27 · 更新于 2026-06-15 · 2 min · 425 words

MERIT: Learning Disentangled Music Representations for Audio Similarity

📄 MERIT: Learning Disentangled Music Representations for Audio Similarity #音频检索 #对比学习 #数据增强 #自监督学习 🔥 9/10 | 前25% | #音频检索 | #对比学习 | #数据增强 #自监督学习 | arxiv 学术质量 5.7/7 | 影响力 1.5/2 | 可复现性 1.8/2 | 置信度 高 👥 作者与机构 Abhinaba Roy, Junyi Liang, Dorien Herremans. 新加坡科技设计大学 (Singapore University of Technology and Design), 香港中文大学(深圳) (The Chinese University of Hong Kong, Shenzhen)。 💡 毒舌点评 这篇论文提出了一个解决音乐表示学习中因子纠缠问题的清晰框架。其核心思想(利用生成模型构建因子控制数据)新颖且技术上是可行的,实验结果也令人信服,特别是零样本探测部分。然而,它并非没有明显的弱点。论文对自身核心创新点(生成数据管道)的质量控制和潜在偏差分析不足,这本应是审稿人最关注的一点。对“音色”这一关键概念的定义过于粗糙,用乐器类别标签来近似,这严重限制了其声称的“解耦”在更细粒度上的意义。此外,相关工作部分未能充分定位其与更广泛解耦表示学习领域的联系,使其贡献显得有些孤立。整体而言,这是一篇扎实但有明确短板的工作,距离顶会完美论文尚有差距。 📌 核心摘要 MERIT 是一个用于学习音乐表示的解耦框架,旨在将旋律、节奏和音色这三个核心维度分离为独立的、可查询的相似性空间。它在冻结的预训练 MERT 模型之上,训练三个独立的轻量级投影头。关键挑战在于获取单因子变化的训练数据,论文通过一种新颖的数据构造策略解决了这一问题:利用 JASCO 条件生成模型构造旋律和节奏的正样本,利用源分离数据构造音色的正样本。在内部因子控制测试集上,每个投影头在其目标因子上达到接近 100% 的三元组准确率,并对其他因子表现出低敏感性。在三个独立的真实世界数据集(MUSDB18-HQ, Ballroom, Covers80)的零样本探测中,相应的专用投影头表现最佳或接近最佳,证明了因子特异性在合成分布之外也能有效泛化。 ...

2026-05-27 · 更新于 2026-06-15 · 2 min · 410 words

PilotTTS: A Disciplined Modular Recipe for Competitive Speech Synthesis

📄 PilotTTS: A Disciplined Modular Recipe for Competitive Speech Synthesis #语音合成 #语音生成 #自回归模型 #生成对抗网络 #数据增强 #低资源 #多任务学习 #语音克隆 🔥 9.2/10 | 前25% | #语音合成 | #生成对抗网络 | #语音生成 #自回归模型 | arxiv 学术质量 5.7/7 | 影响力 1.8/2 | 可复现性 1.7/2 | 置信度 高 👥 作者与机构 作者:Bowen Li, Shaotong Guo, Zhen Wang, Yang Xiang, Mingli Jin, Yihang Lin, Jiahui Zhao, Weibo Xiong, Dongrui Li, Keming Chen, Yunze Gao, Yuze Zhou, Zeyang Lin, Yue Liu 机构:高德(Amap, Alibaba Group);香港中文大学(深圳) ...

2026-05-27 · 更新于 2026-06-15 · 3 min · 480 words

Rethinking Continual Learning for Speech and Audio: A Representation-Centric Taxonomy and Open Problems

📄 Rethinking Continual Learning for Speech and Audio: A Representation-Centric Taxonomy and Open Problems #持续学习 #自监督学习 #语音识别 #语音增强 #音频事件检测 #声纹识别 #多模态模型 #参数高效微调 #正则化微调 #数据增强 ✅ 7.5/10 | 前50% | #语音识别 | #自监督学习 | #持续学习 #语音增强 | arxiv 学术质量 4.8/7 | 影响力 1.5/2 | 可复现性 1.2/2 | 置信度 中 👥 作者与机构 论文作者为:Yang Xiao, Siyi Wang, Eun-Jung Holden, Ting Dang。 未在论文中明确提及作者所属的具体机构。 💡 毒舌点评 这篇文章就像一篇精心整理的“会议纪要”,而不是一篇能发在顶会的“研究提案”。它准确地指出了“房间里的大象”——现代语音基础模型下CL问题的表征纠缠本质,并为此绘制了一张详尽的“地图”(分类法)。然而,地图画得再好,也只是静态的。审稿人最想看到的是你如何沿着地图勘探、挖掘宝藏(验证你的分类和观点),但作者只是把工具(现有方法)摆出来,说“这些工具在这些地方用起来会遇到困难”。全文充满了“应该”和“未来方向”,却缺少了“我做了什么”和“我证明了什么”。将LALM的训练流程强行塞入CL框架进行解读,立意巧妙,但更像是一个有趣的观察而非深刻的贡献,且论述缺乏形式化的支撑。总而言之,这是一篇合格的、有用的“问题导向型”综述,但其理论贡献的深度(分类法的形式化定义与验证)和实验上的空洞,使其离顶会标准尚有距离。 📌 核心摘要 本文针对语音基础模型时代持续学习(CL)面临的挑战,提出了一种以表征演化为中心的新视角和分类法。作者指出,现代语音基础模型学习的是高度纠缠的连续共享表征,因此CL的核心挑战在于保持和演化这种表征的几何结构,而非传统的任务知识保留。文章据此将语音CL场景划分为几何保持、几何扩展、几何对齐和几何特化四类,并进一步分析了现有缓解策略(回放、正则化、架构隔离)在应对纠缠表征时的局限性。同时,文章将大型语言音频模型(LALMs)的多阶段后训练流程解读为一种隐式的多模态持续学习管线,并映射到上述分类中。最后,文章提出了隐私敏感的持续预训练和缺失模态适应等开放问题。本文为语音CL研究提供了新的问题框架和方向,但作为一篇综述和理论探讨文章,缺乏实验验证,其提出的分类法的深度和实用性有待进一步检验。 🔗 开源详情 代码:论文中明确提到一个GitHub列表用于获取所有参考文献(https://github.com/yangxiao1202/RethinkingCL-speech)。该列表很可能包含了文中引用的相关项目(如wav2vec 2.0, HuBERT, Whisper等)的代码链接。 模型权重:论文未提及作者开发的新模型权重。引用的第三方基础模型的官方权重链接,推测包含在上述GitHub列表中。 数据集:论文未提及本研究使用或提供的具体数据集。文中提及“大规模、异构的音频语料库”和“静态数据集”作为训练基础,但未指明具体名称。 Demo:未提及。 复现材料:作为一篇理论综述文章,未提供具体的训练配置、模型检查点或详细的附录材料。 论文中引用的开源项目: wav2vec 2.0:官方链接通常为 https://github.com/facebookresearch/wav2vec2。 HuBERT:官方链接通常为 https://github.com/facebookresearch/hubert。 Whisper:官方链接通常为 https://github.com/openai/whisper。 LALMs:这是一个泛指类别,非单一项目。 LoRA:论文引用自 https://arxiv.org/abs/2106.09685,通常伴随代码实现。 EWC 和 LwF:为经典方法,有多种开源实现,论文中未指定特定版本。 总结说明:本篇论文的核心开源信息集中于作者维护的GitHub列表。论文本身未提供用于复现新方法的代码、模型或数据。 🏗️ 方法概述和架构 本文的核心方法是提出一个理论分析框架和新的分类体系,而非具体的算法或模型。其方法论架构可分为两个相互关联的部分: ...

2026-05-27 · 更新于 2026-06-15 · 1 min · 197 words

CosyEdit2: Speech-Editing-Oriented Reinforcement Learning Unlocks Better Zero-Shot TTS

📄 CosyEdit2: Speech-Editing-Oriented Reinforcement Learning Unlocks Better Zero-Shot TTS #语音合成 #强化学习 #语音编辑 #零样本 #自回归模型 #数据增强 🔥 8/10 | 前50% | #语音合成 | #强化学习 | #语音编辑 #零样本 | arxiv 学术质量 5.6/7 | 影响力 1.6/2 | 可复现性 0.8/2 | 置信度 高 👥 作者与机构 论文作者为Junyang Chen, Yuhang Jia, Hui Wang, Jiaming Zhou, Yongchang Gan, Yong Qin。机构为南开大学计算机科学学院和人工智能学院。 💡 毒舌点评 这篇论文的工作量扎实,实验全面,还“意外”挖到了一个金矿——编辑训练竟能反哺TTS,这发现本身就有价值。但问题在于:1. 架构上基本是前作的“拼装车”(CosyEdit/CosyVoice2),核心创新集中在训练策略上,作为顶会工作,架构层面的新意略显不足。2. 对于“为什么编辑能提升TTS”这个最有趣的问题,解释停留在“现象观察+合理推测”层面,缺乏如注意力分析或探针实验等机制层面的深入挖掘,让人不够过瘾。3. GRPO仅用3000条数据训练,奖励函数里一堆超参数(k_w, α, k_m, δ, γ, λ等)的设定依据是“人耳听辨”,这既让人怀疑是否过拟合了这个小数据集,也降低了方法的可复现性和理论美感。总的来说,是一篇扎实的工程性工作,但理论深度和解释力上差点意思。 📌 核心摘要 针对监督微调(SFT)在语音编辑中存在的配对数据缺陷和优化目标粗粒度问题,本文提出CosyEdit2模型。该模型采用两阶段后训练框架:第一阶段通过SFT进行能力初始化;第二阶段提出编辑导向的组相对策略优化(GRPO),在无需人工构建目标语音的“无目标语音”数据上进行训练,奖励函数综合考虑了内容正确性、声学保留和说话人一致性。大量实验表明,CosyEdit2不仅在多项语音编辑基准上取得领先性能,还意外地显著提升了骨干模型的零样本语音合成能力,并且这种提升能跨语言迁移,揭示了语音编辑与合成任务在底层能力上的深刻联系。 🔗 开源详情 代码:论文中未提及代码仓库或开源计划。 模型权重:论文中未提及预训练模型或微调检查点的公开下载链接。 数据集: 训练数据: GigaEdit-S:论文中使用的250小时编辑数据集,未提供独立公开链接。 LibriTTS / LibriTTS-R:公开数据集。获取链接:https://www.openslr.org/60 , https://www.openslr.org/108 。 YODAS2:用于引入野外声学条件的YouTube语音数据集,未提供独立链接。 GigaSpeech-XL:用于构造GRPO提示的TTS语料。获取链接:https://github.com/speechcolab/gigaspeech 。 评估数据集: Ming-Freeform-Audio-Edit:语音编辑评估基准,未提供独立链接。 RealEdit:来自VoiceCraft的评估基准,未提供独立链接。 CV3-EVAL:来自CosyVoice3的评估套件,未提供独立链接。 SEED-TTS-EVAL:公开TTS评估基准。获取链接:https://github.com/bytedance/seed-tts-eval 。 VoiceBank-DEMAND:用于声码器重建实验。获取链接:https://datashare.ed.ac.uk/handle/10283/2791 。 Demo:音频样本主页:https://cjy1018.github.io/CosyEdit2 。 复现材料:论文附录详细提供了两阶段训练的超参数、优化设置、硬件信息(两块H800 GPU)和奖励函数设计细节,但未提供完整的训练脚本、配置文件或预训练检查点。 🏗️ 方法概述和架构 CosyEdit2的整体架构与训练流程如图1所示。 ...

2026-05-26 · 更新于 2026-06-15 · 2 min · 364 words

Music Transcription with (Almost) No Supervision

📄 Music Transcription with (Almost) No Supervision #音乐转录 #数据增强 🔥 10/10 | 前50% | #音乐转录 | #数据增强 | arxiv 学术质量 6.8/7 | 影响力 1.7/2 | 可复现性 2/2 | 置信度 高 👥 作者与机构 论文作者为 Saebyeol Shin, Chao Wan, Zhenzhen Liu, Justin Lovelace, Daniel C. Lin, Kilian Q. Weinberger, John Thickstun。 所属机构为 Cornell University,位于美国纽约州伊萨卡市。 通讯邮箱为 ss4333@cornell.edu。 💡 毒舌点评 这篇论文的“故事”讲得非常吸引人:音乐转录数据稀缺,但未配对的音频和乐谱数据唾手可得。作者提出的框架直指核心痛点,实验设计系统且有说服力,尤其是“锚点”的概念和对数据模态贡献的消融分析,让结论落到了实处。方法本身并非革命性创新,但巧妙地将 CycleGAN 的思想应用于跨模态的连续潜空间,并在音乐转录这一具体且重要的任务上取得了扎实的、有数据支撑的增益。代码和复现细节的详尽程度堪称典范。主要不足在于,论文对框架在更复杂、更多变的真实音乐场景(如动态范围、风格混杂、录音质量差)下的表现讨论不足,且对“为什么音频比乐谱贡献更大”的深层原因(声学多样性 vs. 结构信息)停留在假设层面。总体而言,这是一篇扎实、清晰、有实用价值的工作,适合作为解决数据稀缺问题的一个重要 baseline。 📌 核心摘要 本文研究如何利用海量未配对的音频和乐谱数据来训练音乐转录模型。论文采用了一个基于循环一致性的半监督框架,在连续潜空间(由预训练的乐谱VAE提供)中建立从CQT频谱图到乐谱表示的双向映射。研究发现:(1) 极少量的配对数据(低至1.6小时)作为“锚点”可以解决学习中的全局音高偏移等歧义,使大量未配对数据得以有效利用;(2) 在相同数据量预算下,未配对的音频比未配对的乐谱提供更强的学习信号;(3) 在训练中加入目标乐器(如吉他)的无标签音频,无需任何配对标签即可显著提升该乐器的转录性能(+10 Frame F1),并超越完全监督的跨域基线。实验在MAESTRO(钢琴)、GuitarSet(吉他)和MusicNet-EM(多乐器)数据集上验证了这些发现,表明利用未配对数据是缓解音乐转录中配对数据稀缺问题的实用途径。 🔗 开源详情 代码:提供,链接为 https://github.com/SaebyeolShin/almost_unsupervised_amt 模型权重:论文中未提及提供预训练模型权重。 数据集: MAESTRO v2.0.0:获取链接 https://github.com/craffel/maestro-dataset GuitarSet:获取链接 https://github.com/jayg996/BCH-Convert-Tool-for-NSynth-and-GuitarSet MusicNet-EM:作为YourMT3项目的一部分提供,获取链接 https://github.com/danmou/MT3/tree/main/yourmt3 Gardner Museum 音频:来自 Isabella Stewart Gardner Museum 的公开录音。论文中未提供直接下载链接,但详细说明了其筛选和去重处理方法(附录A)。 Demo:论文中未提及。 复现材料: 论文在附录B中详细说明了Score VAE、生成器、判别器的具体架构。 论文在附录C和表7中提供了完整的训练超参数和细节(优化器、学习率调度、批次大小、损失权重、硬件配置等)。 明确指出了训练硬件(单张 NVIDIA A6000 GPU)和训练时长(单乐器约4天,多乐器约6天)。 论文在附录A中详细说明了所有数据集的预处理、分块和划分方式。 论文中引用的开源项目: CycleGAN:核心框架灵感来源。引用链接 https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix LSGAN:使用的对抗损失函数,引用为文献[23]。 MAESTRO:如上。 GuitarSet:如上。 MusicNet:作为MusicNet-EM的基础数据集被引用。获取链接 https://thomaskail.github.io/ YourMT3:提供了MusicNet-EM数据集版本。获取链接 https://github.com/danmou/MT3/tree/main/yourmt3 MT3:作为相关工作引用的多乐器转录模型。获取链接 https://github.com/danmou/MT3 Onsets and Frames:论文中引用的早期钢琴转录模型。论文中未提供其代码链接。 🏗️ 方法概述和架构 本文提出一个名为“Cycle Consistent Transcription”的半监督跨模态翻译框架,其核心目标是学习从连续音频表示(CQT频谱图)到离散符号乐谱表示(通过VAE映射到连续潜空间)的映射,并利用循环一致性约束从大量未配对数据中学习。框架主要包含以下组件和流程: ...

2026-05-26 · 更新于 2026-06-15 · 3 min · 491 words