数据增强 | 语音/音乐/音频论文速递

Archon: A Unified Multimodal Model for Holistic Digital Human Generation

📄 Archon: A Unified Multimodal Model for Holistic Digital Human Generation #多模态模型 #扩散模型 #无监督学习 #生成对抗网络 #数据增强 #语音识别 ✅ 7.5/10 | 前50% | #语音合成 | #生成对抗网络 | #多模态模型 #扩散模型 | arxiv 学术质量 5.5/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度中 👥 作者与机构论文作者: Chong Bao, Shichen Liu, Lijun Yu, David Futschik, Stylianos Moschoglou, Shefali Srivastava, Ziqian Bai, Feitong Tan, Guofeng Zhang, Zhaopeng Cui, Sean Fanello, Yinda Zhang 发表场合/期刊: arXiv: 2605.30311 研究领域: 计算机视觉、多模态学习、数字人生成 💡 毒舌点评这篇论文的野心足以撑爆一个顶会，试图用一个模型吞下数字人的所有模态——文本、语音、动画、视频。架构图和“模态思维”的概念确实画了一张好饼，让人眼前一亮。然而，现实很骨感。最硬的伤在可复现性：核心组件依赖闭源的PaLM2和未公开的海量私有数据集，这对于绝大多数研究者而言意味着“看得到，摸不着”。其次，实验评估严重偏科，号称支持72个任务，但主要定量评估只集中在语音驱动视频生成这一两个任务上，其他几十个任务的能力更像是“口头支票”。那个听起来高大上的“模态思维”策略，本质上是一种推理时的链式分解，却缺乏理论解释其为何有效，更像是一种工程上的trick。总体而言，这是一篇方向正确、架构有想法的系统论文，但其科学贡献被工程壁垒和不充分的验证所削弱，难以被认定为一个扎实的里程碑工作。 ...

Audio Jailbreaks in Large Audio-Language Models: Taxonomy, Attack-Defense Analysis, and Cost-Aware Evaluation

📄 Audio Jailbreaks in Large Audio-Language Models: Taxonomy, Attack-Defense Analysis, and Cost-Aware Evaluation #多模态模型 #数据增强 🔥 8.9/10 | 前25% | #多模态模型 | #数据增强 | arxiv 学术质量 5.7/7 | 影响力 1.7/2 | 可复现性 1.5/2 | 置信度高 👥 作者与机构 Bo-Han Feng, Yu-Hsuan Li Liang, Chien-Feng Liu, You-Hsuan Chang, Yun-Nung Chen. 台湾大学（National Taiwan University）。注：论文中明确标注了共同第一作者（*）。 💡 毒舌点评这篇论文的出发点是好的，试图为混乱的LALM越狱攻击研究建立秩序，像给一群瞎摸大象的盲人递上了一份详细的解剖图谱。分类学部分做得扎实，将语义、声学、信号、嵌入层攻击，以及护盾、训练无关、训练相关防御梳理得井井有条，这是其主要贡献。然而，作为一篇声称提供“统一评估”的论文，其实验部分却显得颇为“保守”甚至“取巧”。评估仅覆盖10个开源模型、仅使用黑盒API访问、仅测试两种防御（一个输入护盾和一个提示），这距离真正全面的“实证研究”还有不小差距。更关键的是，所谓的“成本感知评估”虽然提出了延迟指标，但其分析深度有限，例如对TTS成本、多次查询的累积财务开销、以及防御部署的实际算力成本都未做量化，使得“成本”这一核心论点显得有些浮于表面。论文更像是一个精心设计的、有限范围内的“示范性评估”，而非一个普适的基准。结论中“未来方向”部分写得比实验本身更能激发兴趣，这暗示了当前工作的探索性多于结论性。 📌 核心摘要本文旨在解决大型音频语言模型（LALMs）越狱攻击研究领域缺乏统一评估框架和标准的问题，特别是忽略了攻击的实际可行性与成本。作者提出了一套涵盖攻击（语义、声学、信号、嵌入层）、防御（基于护盾模型、免训练、基于训练）和基准（跨模态、音频原生、交互式）的统一分类体系（Taxonomy）。通过在十个开源LALMs上进行受控实验，系统评估了代表性攻击（如语义改写、最佳-N搜索）和防御（护盾模型、防御提示）的有效性、良性拒绝率（BRR）和延迟开销。实验结果表明，声学最佳-N（Acoustic BoN）攻击揭示了最强的音频空间漏洞，但需要极高的延迟；叙事框架（Narrative Framing）是有效的低延迟语义威胁。防御方法普遍存在稳健性与可用性（良性拒绝率）之间的权衡：护盾模型精确但对声学搜索脆弱，防御提示更稳健但导致更高的良性拒绝率。论文强调LALM安全评估应是一个多目标问题，需要综合考量攻击成功率（ASR）、良性拒绝率、延迟、成本和隐蔽性。 🔗 开源详情代码：论文中未提供具体的代码仓库链接。但附录C.5承诺将在论文发表后发布评估代码、攻击配置文件、声学/信号特征向量生成脚本、延迟测量脚本、评判员提示和聚合结果文件。模型权重：论文评估了10个开源大型音频语言模型，具体权重链接如下： Audio Flamingo 3: https://huggingface.co/GoelVaibhav/audio-flamingo-3-hf DeSTA2.5-Audio: https://github.com/desta-team/DeSTA2.5-audio Fun-Audio-Chat-8B: https://huggingface.co/InclusionAI/Fun-Audio-Chat-8B midashenglm-7b-1021-bf16: https://huggingface.co/MiMo-midashenglm/midashenglm-7b-1021-bf16 MOSS-Audio-4B-Instruct: https://huggingface.co/OpenMOSS/MOSS-Audio-4B-Instruct MOSS-Audio-8B-Instruct: https://huggingface.co/OpenMOSS/MOSS-Audio-8B-Instruct Phi-4-multimodal-instruct: https://huggingface.co/microsoft/Phi-4-multimodal-instruct Qwen3-Omni-30B-A3B-Instruct: https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct Voxtral-Mini-3B-2507: https://huggingface.co/mistralai/Voxtral-Mini-3B-2507 Voxtral-Small-24B-2507: https://huggingface.co/mistralai/Voxtral-Small-24B-2507 数据集： JailbreakBench (JBB-Behaviors)： https://huggingface.co/datasets/JailbreakBench/JBB-Behaviors (MIT 许可证) Demo：论文中未提及。复现材料：论文中承诺发布支持复现的评估代码和配置文件（附录C.5），但未说明具体时间。论文中引用的开源项目： Qwen3-TTS： https://huggingface.co/Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign (用于语音合成) VoiceShield (voiceSHIELD-small)： https://huggingface.co/Emvo-ai/voiceSHIELD-small (用作输入防御) gpt-oss-safeguard-20b： https://huggingface.co/openai/gpt-oss-safeguard-20b (用作 LLM 评判员) whisper-large-v3： https://huggingface.co/openai/whisper-large-v3 (用于可懂度测试) JailbreakBench： https://huggingface.co/datasets/JailbreakBench/JBB-Behaviors (基准数据集) AdvBench：论文中提及，为被转换为语音的基础文本安全基准。 Llama-Guard：论文中提及，为文本/视觉领域外部防御模型。 ShieldVLM：论文中提及，为文本/视觉领域外部防御模型。 🏗️ 方法概述和架构本文的方法核心是构建一个统一的分类框架（Taxonomy）并在此框架下进行受控的实证评估。 ...

Dial HEALTHDIAL for Advice: A Multilingual and Multi-Parallel Spoken Dialogue Dataset for Knowledge-Grounded Information Seeking

📄 Dial HEALTHDIAL for Advice: A Multilingual and Multi-Parallel Spoken Dialogue Dataset for Knowledge-Grounded Information Seeking #数据集 #数据增强 #多语言 #低资源 #语音合成 #语音识别 🔥 8.6/10 | 前25% | #语音合成 | #数据增强 | #数据集 #多语言 | arxiv 学术质量 5.3/7 | 影响力 1.3/2 | 可复现性 2/2 | 置信度高 👥 作者与机构 Songbo Hu1, Yinhong Liu1, Ej Zhou1*, Evgeniia Razumovskaia1, Xiaobin Wang2, Alexander Fraser3, Ivan Vulić1†, Anna Korhonen1† 1语言技术实验室，剑桥大学，英国 2独立研究者 3计算、信息与技术学院，慕尼黑工业大学，德国 *共同第一作者，†共同通讯作者 💡 毒舌点评这篇论文做了一件“正确但保守”的事：为多语言对话系统构建了一个大规模、高质量的基准数据集。其方法论清晰，开源彻底，是社区需要的基础设施。然而，主要问题在于其“合成”本质和“管道式”评估框架。用LLM生成对话再由人录音，虽然解决了隐私和成本问题，但得到的终究是“假设性”的健康咨询，与真实世界复杂、混乱的患者交互相去甚远。更关键的是，所有基准测试都基于传统的ASR->检索->LLM->TTS管道，这固然是当前的技术现实，但使得数据集的核心价值——支持原生语音对话模型研究——大打折扣。论文在揭示跨语言性能差异上做得不错，但这更多是现有模型（如Whisper, GPT）多语言能力不均衡的反映，而非数据集本身的独特发现。总体而言，这是一篇扎实的资源论文，但未能在方法论或系统评估上带来突破性视角，更像是一份详尽的“使用说明书”。 ...

Mitigating Stethoscope-Induced Shortcuts in Respiratory Sound Classification under Federated Domain Generalization with Causality-Inspired Interventions

📄 Mitigating Stethoscope-Induced Shortcuts in Respiratory Sound Classification under Federated Domain Generalization with Causality-Inspired Interventions #联邦学习 #数据增强 #多模态模型 #音频分类 🔥 8.5/10 | 前25% | #音频分类 | #联邦学习 | #数据增强 #多模态模型 | arxiv 学术质量 5.5/7 | 影响力 1.5/2 | 可复现性 1.5/2 | 置信度中 👥 作者与机构未提及论文作者和机构信息。 💡 毒舌点评这篇论文试图解决一个实际且重要的问题——呼吸声分类模型在跨听诊器设备时的性能下降，并提出了一个包含因果干预、反事实文本增强和梯度对齐的联邦学习框架（BTS-CAFE）。其核心动机（打破设备风格与病理内容的虚假关联）是合理的。然而，评审感觉论文在几个关键方面存在不足：1) “首次提出”的声明过于绝对，对相关工作的综述和定位不够严谨；2) 实验设置虽模拟了联邦场景，但“单客户端”的评估与实际大规模联邦应用存在差距；3) 作者声称的“最佳”性能有时仅比次优方法高零点几，统计显著性存疑；4) 讨论部分对局限性的挖掘流于表面，未深入探讨方法在更复杂异质场景下的潜在失效模式。总体而言，这是一份扎实的工作，但在深度和说服力上仍有提升空间。 📌 核心摘要本文针对呼吸声分类（RSC）模型因听诊器设备异质性导致的分布偏移问题，提出了一个联邦域泛化（FedDG）框架BTS-CAFE。其核心观察是，听诊器特有的设备风格（S）与疾病相关内容（C）在表征中高度纠缠，传统的确定性风格移除方法会损害病理信息。为此，BTS-CAFE集成了三个关键组件：1）因果启发式的生成式设备风格干预网络（GIN），通过可控的增益、随机分组卷积和频率掩码进行内容保持的风格扰动，近似于因果干预 do(S)；2）反事实文本增强，中和文本元数据中可能携带的设备捷径；3）基于单样本全模型梯度的对齐正则化，鼓励跨客户端的设备不变决策边界。基于CLAP多模态预训练模型，该方法在ICBHI和SPRSound数据集的“留一设备外”（LODO）联邦验证设置下，相比传统数据增强和联邦学习基线，在域外（OOD）性能上取得了一致的提升。 🔗 开源详情代码：论文中未提及具体代码仓库链接。文中明确声明“Code will be released upon publication”。模型权重：未提及。数据集： ICBHI：论文引用了原始数据集 [24]，但未提供获取链接。通常可通过PhysioNet获取。 SPRSound：论文引用了数据集 [30]，未提供获取链接。 Demo：未提及。复现材料：提供了关键训练配置（学习率、轮次、硬件）、评估协议（LODO, Score指标）和超参数。但未提供模型权重或完整代码包。论文中引用的开源项目： CLAP：提供了HuggingFace链接 https://huggingface.co/laion/clap。 AST, BTS, FedAvg, FedSR, FedIIR, PromptFL, FedCAug, CutMix, Mixup, RepAugment, SpecAugment：仅提供了文献引用，未提供代码仓库链接。 🏗️ 方法概述和架构 BTS-CAFE框架构建在BTS多模态音频-语言预训练模型之上，旨在解决联邦学习（FL）场景下，由客户端（每个客户端使用单一听诊器设备）异质性引起的域偏移问题。其核心思想是，通过因果启发式的干预和正则化，使全局模型学习与设备风格S无关、只依赖疾病内容C的表征，从而泛化至未见设备d⋆。整个框架包含以下三个核心组件，它们在本地训练循环中协同作用： ...

Dasheng AudioGen: A Unified Model for Generating Coherent Audio Scenes from Text

📄 Dasheng AudioGen: A Unified Model for Generating Coherent Audio Scenes from Text #音频生成 #语音合成 #音乐生成 #多模态模型 #扩散模型 #流匹配 #模型评估 #数据增强 🔥 8.6/10 | 前25% | #音频生成 | #数据增强 | #语音合成 #音乐生成 | arxiv 学术质量 6.6/7 | 影响力 1.6/2 | 可复现性 0.4/2 👥 作者与机构作者: Jiahao Mei (1, 2), Heinrich Dinkel (2), Yadong Niu (2), Xingwei Sun (2), Gang Li (2), Yifan Liao (2), Jiahao Zhou (2), Junbo Zhang (2), Jian Luan (2), Mengyue Wu (1) 机构: 1: X-LANCE Lab, Shanghai Jiao Tong University, Shanghai, China 2: MiLM Plus, Xiaomi Inc., Beijing, China ...

Diffusion Large Language Models for Visual Speech Recognition

📄 Diffusion Large Language Models for Visual Speech Recognition #参数高效微调 #数据增强 ✅ 7.0/10 | 前25% | #语音识别 | #参数高效微调 | #数据增强 | arxiv 学术质量 7.0/7 | 影响力 7.0/2 | 可复现性 1.0/2 | 置信度高 👥 作者与机构作者：Jeong Hun Yeo, Chae Won Kim, Hyeongseop Rha, Yong Man Ro†（†通讯作者）机构：韩国科学技术院（KAIST）集成视觉语言实验室（Integrated Vision Language Lab） 💡 毒舌点评本文是一篇“站在巨人肩膀上”的应用型工作。其核心想法——将扩散大语言模型（DLLM）引入视觉语音识别（VSR）以解决自回归解码的局限——是直接且合理的。实验结果（19.5% WER）也确实刷新了LRS3-only设置下的SOTA，证明了该范式在此任务上的有效性。然而，审稿人必须指出：1) 创新性深度有限，主要贡献是将现有DLLM解码策略（置信度解掩码）和训练技巧（两阶段训练）应用到VSR领域，而非提出全新的模型架构或理论；2) 实验的严谨性和全面性存在明显短板，消融实验严重不足，跨数据集验证薄弱；3) 部分关键实现细节（如阈值、训练超参数）缺失，影响了可复现性。总体而言，这是一篇扎实的系统工程工作，但在作为一篇NeurIPS/ICML/ICLR级别的论文时，其理论创新和实验的完备性还有提升空间。 📌 核心摘要本文针对视觉语音识别（VSR）中自回归解码器因固定从左到右生成顺序而无法有效处理视觉模糊性的局限，提出了首个基于扩散大语言模型（DLLM）的VSR框架（DLLM-VSR）。该方法将转录过程建模为在固定长度画布上的迭代掩码去噪，允许灵活顺序解码。核心设计包括：1) 基于置信度的解掩码策略，优先解码并固定高置信度token，将其作为双向上下文来指导模糊位置的预测；2) 为适配VSR而设计的两阶段掩码去噪训练策略，第一阶段专注于文本内容对齐，第二阶段学习长度建模（填充padding token）；3) 一种长度引导的候选解码方法，利用视频时长预测多个可能的转录长度假设，并行解码后通过联合重排序选择最佳结果。在LRS3数据集上，DLLM-VSR仅使用其标注数据训练便达到了19.5%的词错误率（WER），建立了新的最优性能。 🔗 开源详情代码：https://bit.ly/DLLM-VSR （已提供，可访问）模型权重：论文中未提及是否开源预训练的DLLM-VSR模型权重。数据集：论文中提及使用LRS3和LRS2数据集，但未提供下载地址或开源协议链接（LRS3/LRS2通常需要申请）。 Demo：论文中未提及。复现材料：论文提供了代码，但未明确说明是否包含完整的训练配置、脚本、环境说明以及两阶段训练的具体参数设置。论文中引用的开源项目： Dream (基于Qwen2.5): https://github.com/ArtificialAnalysis/Dream LLaDA: https://github.com/ArtificialAnalysis/LLaDA LaViDa: https://github.com/ArtificialAnalysis/LaViDa Dimple: https://github.com/ArtificialAnalysis/Dimple DreamOn: https://github.com/ArtificialAnalysis/DreamOn DAEDAL: https://github.com/ArtificialAnalysis/DAEDAL Block Diffusion: https://github.com/ArtificialAnalysis/Block-Diffusion wav2vec 2.0: https://github.com/facebookresearch/wav2vec Whisper: https://github.com/openai/whisper Qwen2.5: https://github.com/QwenLM/Qwen2.5 🏗️ 方法概述和架构本文提出的DLLM-VSR框架（如图2所示）旨在将扩散大语言模型的灵活解码能力应用于视觉语音识别任务。其整体架构包含一个冻结的视觉编码器、一个长度适配器、两个投影层以及一个基于LoRA适配的DLLM解码器。核心创新在于解码方式和训练策略的重新设计。 ...

Unified Synthesis of Compositional Speech and Sound from Free-Form Text Prompts

📄 Unified Synthesis of Compositional Speech and Sound from Free-Form Text Prompts #语音合成 #多任务学习 #自回归模型 #生成模型 #对比学习 #多模态模型 #数据增强 🔥 8/10 | 前25% | #语音合成 | #多任务学习 | #自回归模型 #生成模型 | arxiv 学术质量 6/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度高 👥 作者与机构第一作者：Yuyue Wang（中国人民大学）通讯作者：Xihua Wang（中国人民大学）机构：中国人民大学 💡 毒舌点评一篇动机明确、架构清晰的工作，定义了‘自由文本到统一音频生成’这一有潜力的任务，并提出了一个不错的解决方案。然而，如同许多初次尝试定义新任务的工作，其‘统一’的光环在实验部分略显褪色。基线选择过于保守，仅与较早的VoiceLDM和流水线方法对比，对近期涌现的AudioBox、Fugatto等强力竞争对手视而不见，这让其‘优越性’的宣称打了折扣。实验部分更像是精心设计的‘能力展示’而非公平‘竞技场’，尤其是主观评估样本量仅50个，说服力有限。论文的‘未来工作’比‘当前工作’更有吸引力。整体是一篇扎实但不够大胆的论文，创新有余，验证不足。 📌 核心摘要本文针对“自由文本提示生成统一音频”这一新任务，提出了PlanAudio框架。该任务旨在直接从自然语言提示合成包含语音、音效及其复合交互的统一音频流。PlanAudio是一个基于自回归LLM的统一模型，其核心创新是引入“语义潜在思维链”机制，在连续语义空间进行隐式规划，以桥接高语义理解与低层声学生成。模型采用单一Transformer骨干，直接处理文本，无需外部文本编码器或重写模块。作者还构建了专用的复合音频评估基准PlanAudio-Bench。实验表明，PlanAudio在复合场景下优于基线方法，并在单独音效和语音任务上保持竞争力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重的公开链接。数据集：论文中提及基于以下公开数据集构建训练数据，并合成了新的基准数据集。具体获取方式如下： AudioSet: 论文用于合成复合音频数据，未提供数据集本身的直接链接。 AudioCaps: 论文用于声音生成评估，未提供链接。 WavCaps: 论文用于声音生成，未提供链接。 LibriTTS: 论文用于语音生成评估，未提供链接。 PlanAudio-Bench：论文中提出的新基准测试集，论文中未提及公开获取链接。 Demo：论文中未提及。复现材料：论文中未提及训练配置、检查点等复现材料的公开链接。论文中引用的开源项目： Qwen2.5-1.5B: 作为模型初始化的基础LLM。链接: https://huggingface.co/Qwen/Qwen2.5-1.5B AudioCraft tokenizer: 用于将音频离散化为分层标记。链接: https://github.com/facebookresearch/audiocraft AF3Encoder (Audio Flamingo 3 Encoder): 用于提取语义表示。论文中未提供具体链接。 Whisper: 用于生成转录。论文中未提供具体链接。 Gemini-2.5 Pro: 用于数据标注和文本改写。论文中未将其列为开源项目。 🏗️ 方法概述和架构 PlanAudio是一个端到端的自回归LLM框架，旨在直接从自由形式文本提示生成包含语音和音效的统一音频波形。其核心架构（如图2所示）基于单一Transformer骨干（初始化自Qwen2.5-1.5B），将文本、潜在规划特征和离散音频token组织成一个统一序列进行处理。 ...

When Helpful Context Leaks: Privacy Risks in Domain-Adapted ASR

📄 When Helpful Context Leaks: Privacy Risks in Domain-Adapted ASR #语音识别 #数据增强 #参数高效微调 #大语言模型 🔥 10/10 | 前50% | #语音识别 | #参数高效微调 | #数据增强 #大语言模型 | arxiv 学术质量 6.9/7 | 影响力 1.8/2 | 可复现性 2/2 | 置信度高 👥 作者与机构作者：Maike Züfle， Jan Niehues 机构：卡尔斯鲁厄理工学院（Karlsruhe Institute of Technology, Germany） 💡 毒舌点评这篇论文指出了一个实际且有趣的“盲点”：当你为了让ASR模型听懂行话而给它提供上下文或微调时，它可能会因为“听岔了”而泄露这些行话本身。这就像你告诉助理“Nexus是我们秘密项目的代号”，结果他在听到有人说了声“Texas”时，却大喊“Nexus！”一样。作者很聪明地将这个现象定义为一种非对抗性的、源于正常使用机制的隐私风险，并用一个设计精巧的控制实验进行了量化。不过，论文的“解决方案”部分——在提示中同时加入正确词和错误词——在实践中显得有些天真，更像是一个诊断工具而非真正的防御。整体上，这是一篇发现问题的警醒之作，技术深度适中，但实验设计的完备性和开源贡献值得肯定。 📌 核心摘要本文研究了语音大语言模型（SpeechLLMs）在领域自适应过程中引入的一个未被充分认识的隐私风险：上下文诱导的转录泄露。当用户通过提示词注入上下文或对模型进行领域微调以提升专业术语识别能力时，如果说话者发出一个与上下文或训练数据中某个私有术语语音相似的词，模型可能会错误地转录为该私有术语，从而无意中泄露信息。作者构建了一个包含679个语音相似词对的控制评估数据集，并在两个前沿SpeechLLM（Qwen2.5-Omni-7B， Phi-4-multimodal-instruct）上评估了提示注入和微调两种自适应机制的影响。实验表明，两种机制都会导致可测量的泄露率，且结合使用时泄露效应会加剧。论文还探讨了一种在提示中同时提供正确词与泄露词的缓解策略，并分析了准确性-泄露率权衡，最终发现仅进行微调而不注入提示上下文能在保持高准确率的同时实现近乎零泄露，但在实际应用中难以实现。 🔗 开源详情代码：https://github.com/maikezuefle/asr-context-induced-leakage 模型权重： Qwen2.5-Omni-7B：https://huggingface.co/Qwen/Qwen2.5-Omni-7B Phi-4-multimodal-instruct：https://huggingface.co/microsoft/Phi-4-multimodal-instruct 数据集：论文中构建的评估数据集（包含679个音素相似词对、生成的上下文句子、合成音频）通过上述代码仓库发布，链接为：https://github.com/maikezuefle/asr-context-induced-leakage Demo：论文中未提及复现材料：论文在附录A和B中提供了详细的数据准备过程（如使用spaCy和CMU词典的音素相似词对提取、使用Gemma-3-12B生成上下文和填充句子的提示）、Kokoro-82M TTS合成配置（使用美国英语声音列表）、以及两个模型的微调超参数配置（LoRA设置、优化器参数等），这些信息结合代码足以支持复现主要实验。论文中引用的开源项目： spaCy (用于命名实体识别): en_core_web_trf 模型。论文未提供独立链接，但spaCy是一个广泛使用的开源项目，主页为 https://spacy.io/。 CMU Pronouncing Dictionary (用于查找音素相似词): 论文提供了访问地址：http://www.speech.cs.cmu.edu/cgi-bin/cmudict Kokoro-82M TTS (用于语音合成): https://huggingface.co/hexgrad/Kokoro-82M LlamaFactory (用于微调Qwen模型): 论文引用了该框架，其开源项目主页为 https://github.com/hiyouga/LLaMA-Factory HF Transformers + Accelerate (用于微调Phi-4模型): 论文提及使用了Hugging Face的Transformers库和Accelerate库，其官方项目为 https://github.com/huggingface/transformers 和 https://github.com/huggingface/accelerate。 🏗️ 方法概述和架构本文方法的核心是构建一个可控的评估框架，以量化“上下文诱导的转录泄露”现象。整个方法流程可分为三个主要阶段：评估数据集构建、模型自适应设置和泄露度量与缓解评估。 ...

Why We Need Speech to Evaluate Speech Translation

📄 Why We Need Speech to Evaluate Speech Translation #语音翻译 #多模态模型 #参数高效微调 #数据增强 🔥 8.3/10 | 前50% | #语音翻译 | #参数高效微调 | #多模态模型 #数据增强 | arxiv 学术质量 5.2/7 | 影响力 1.5/2 | 可复现性 1.6/2 | 置信度高 👥 作者与机构 Maike Züfle (1), Danni Liu (1), Vilém Zouhar (2), Jan Niehues (1) 1 Karlsruhe Institute of Technology (KIT), 2 ETH Zurich 💡 毒舌点评这篇论文像一位严谨的诊断医生，成功地揭示了一个重要但被忽视的病症：当前的语音翻译评估指标（无论是文本还是语音输入）对性别一致性和韵律等语音特有现象几乎完全失明。其诊断过程（系统性的元评估、新模型训练、深入的探测实验）无可挑剔，结论有理有据。然而，它最大的缺点在于“只诊断，不治病”。论文明确指出了三个病根（编码器信息丢失、模型忽略语音源、训练数据不足），却未能提出任何有效的解决方案或有潜力的治疗方向。这使得文章的贡献止步于“揭示问题”，而非“解决问题”。对于期望看到方法创新或突破性结果的审稿人来说，这无疑会拉低评价。不过，这种扎实的“问题定位”工作为后续研究铺平了道路，价值不容否认。 📌 核心摘要本文针对语音翻译（ST）评估中存在的盲点展开研究。核心发现是：现有的文本和语音质量估计（QE）指标，包括直接使用语音输入的BLASER和SpeechQE，均无法评估语音翻译中至关重要的性别一致性和韵律现象，其表现接近随机猜测。为探究原因，作者训练了SpeechCOMET模型家族（基于SONAR和Whisper编码器）并评估了SpeechLLM作为评估器。两者在标准QE任务（IWSLT数据集上的相关性评分）上表现良好，甚至超越了文本基线COMETKiwi，但在语音特有现象评估上同样失败。通过探测实验，论文揭示了三个根本原因：1）SONAR等编码器抑制了声学特征；Whisper和SpeechLLM的编码器保留声学特征但模型未使用；2）QE模型在训练中倾向于忽略语音源信号；3）标准QE训练数据中缺乏相关示例。论文开源了所有模型和代码，并呼吁开发专门的语音特定数据集和真正依赖语音的模型。 🔗 开源详情代码：https://github.com/MaikeZuefle/speechCOMET 模型权重：论文中未提及模型权重的直接下载链接，需根据代码和超参数自行训练。数据集：使用了 IWSLT 2026 Metrics Shared Train Dev， MuST-SHE， ContraProST， WMT Human All 数据集，均为第三方公开数据集，论文未提供直接获取链接。 Demo：论文中未提及在线演示链接。复现材料：论文在附录中提供了详尽的训练超参数（表4，表5）、模型架构细节（第3.1、3.2节）、数据处理方法（附录A.3）和消融实验结果（附录B），这些信息均包含在论文正文及附录中，可复现性高。论文中引用的开源项目： COMET/COMETKiwi: 用于质量估计的基线模型。链接：https://github.com/unilm/comet SONAR: 用于语音编码的多语言模型。链接：https://github.com/facebookresearch/SONAR Whisper: 用于语音编码和语音识别的模型。链接：https://github.com/openai/whisper Qwen2.5 Omni: 论文中作为SpeechLLM进行评估的多模态大模型。链接：https://github.com/QwenLM/Qwen2.5-Omni (根据论文作者和名称推断) LlamaFactory: 用于微调大语言模型的框架（用于SpeechLLM的微调）。链接：https://github.com/hiyouga/LLaMA-Factory spaCy: 用于语言特征探测的NLP工具。链接：https://github.com/explosion/spaCy Kokoro TTS & MMS TTS: 用于合成训练数据的文本转语音系统。链接：https://github.com/hexgrad/kokoro (Kokoro)， https://github.com/facebookresearch/fairseq/tree/main/examples/mms (MMS TTS) 🏗️ 方法概述和架构本文方法主要分为三部分：1）对现有指标的元评估，2）训练新的语音感知QE模型SpeechCOMET，3）评估SpeechLLM作为QE模型。 ...

CosyEdit2: Speech-Editing-Oriented Reinforcement Learning Unlocks Better Zero-Shot TTS

📄 CosyEdit2: Speech-Editing-Oriented Reinforcement Learning Unlocks Better Zero-Shot TTS #语音编辑 #强化学习 #多模态模型 #自回归模型 #语音识别 #数据增强 ✅ 7.2/10 | 前25% | #语音编辑 | #强化学习 | #多模态模型 #自回归模型 | arxiv 学术质量 7.2/7 | 影响力 7.5/2 | 可复现性 0.5/2 | 置信度高 👥 作者与机构 Junyang Chen (陈俊阳), Yuhang Jia (贾宇航), Hui Wang (王辉), Jiaming Zhou (周佳明), Yongchang Gan (甘永昌), Yong Qin (覃勇)。机构：南开大学计算机科学学院（1），南开大学人工智能学院（2）。通讯作者：chenjunyang@mail.nankai.edu.cn, qinyong@nankai.edu.cn。第一作者与通讯作者标注。 💡 毒舌点评摘要写得像广告文案，充满了“substantially”、“deeper”、“unlocks”这类形容词。方法部分看似复杂，但核心就是给GRPO换了一套更适合编辑任务的奖励函数。实验结果在多个benchmark上看起来都不错，但仔细一想，和SOTA的差距有时只有零点几个百分点，而且很多baseline其实并不强。最有趣的是，这篇论文发现一个编辑模型居然能提升其基础TTS模型的性能，这到底是编辑任务的特殊性，还是仅仅因为用更多数据（虽然是构造的）和RL微调了一遍LLM？此外，声称“首个编辑导向的奖励组合”需要打上问号，因为相关工作ECPA已经用了GRPO，奖励设计思路有重叠。代码、模型权重均未开源，复现门槛极高。 📌 核心摘要本文提出了CosyEdit2，一个基于两阶段后训练框架的语音编辑模型。第一阶段使用监督微调（SFT）在配对编辑数据上初始化模型能力。第二阶段引入编辑导向的组相对策略优化（GRPO），核心创新在于使用无需目标语音的构造数据（将任意TTS语料转换为编辑提示）和针对编辑任务设计的多奖励信号（内容正确性、声学保持、说话人一致性）对语言模型进行强化学习。实验表明，该模型在语音编辑任务上达到了与强基线可比或更优的性能，尤其在声学一致性方面表现突出，并且其获得的强化学习优化能力能够意外地提升基础模型的零样本TTS性能，揭示了两个任务间的相互促进关系。 🔗 开源详情代码：论文未提供CosyEdit2的代码仓库链接。演示页面 https://cjy1018.github.io/CosyEdit2 主要用于展示音频样本，未提及包含代码。模型权重： CosyEdit2模型：论文中未提供CosyEdit2（包括各阶段微调后的LLM、Flow、BigVGAN）的权重下载链接。 CosyVoice2模型：作为基础模型，其链接为 https://huggingface.co/FunAudioLLM/CosyVoice2-0.5B。数据集： GigaEdit-S：阶段一训练数据，源自GigaSpeech-S，未提供独立下载链接。 LibriTTS / LibriTTS-R / YODAS2：用于训练BigVGAN的混合数据集。论文引用了LibriTTS，但提供的Hugging Face链接 https://huggingface.co/datasets/keithito/lj_speech 实际是LJ Speech，并非LibriTTS，此处表述有误。YODAS2和Ming-Freeform-Audio-Edit等评估集均未提供链接。 VoiceBank-DEMAND-16k：用于声码器重建实验，链接为 https://huggingface.co/datasets/JacobLinCool/VoiceBank-DEMAND-16k。 SEED-TTS-EVAL：评估基准，链接为 https://github.com/bytedance/Seed-TTS-Eval。 Demo：提供了音频样本演示页面 https://cjy1018.github.io/CosyEdit2。复现材料：训练细节与模型配置：附录B-D详细描述了架构、超参数和训练流程，是复现的关键信息。评估脚本与指标：提及使用了评估脚本和指标（WER, SS, DNSMOS, MCD），但未提供具体评估代码。论文中引用的开源项目：包括CosyVoice2、Qwen2.5、WhisperX、BigVGAN（提供链接 https://huggingface.co/nvidia/bigvgan_v2_22khz_80band_256x）、nlpaug、RoBERTa、pymcd等。 🏗️ 方法概述和架构 CosyEdit2构建于CosyVoice2的语音-语言建模骨干之上，将其零样本提示式接口重构为语音编辑任务。其架构包含五个核心模块：文本分词器、语音分词器、自回归文本-语音语言模型（LLM）、条件流匹配模型（Flow）和BigVGAN声码器。 ...