零样本 | 语音/音乐/音频论文速递

AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization

📄 AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization #语音情感识别 #多模态模型 #偏好优化 #基准测试 #零样本 🔥 8.0/10 | 前25% | #语音情感识别 | #偏好优化 | #多模态模型 #基准测试学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Ashutosh Chaubey（南加州大学创新技术研究所）通讯作者：Mohammad Soleymani（南加州大学创新技术研究所）作者列表：Ashutosh Chaubey（南加州大学创新技术研究所）、Jiacheng Pang（南加州大学创新技术研究所）、Maksim Siniukov（南加州大学创新技术研究所）、Mohammad Soleymani（南加州大学创新技术研究所） 💡 毒舌点评本文提出的 EmoReAlM 基准测试系统性地揭示了现有多模态模型在情感推理上“瞎扯淡”的两种主要模式（虚假关联与幻觉），其 AVEm-DPO 优化方法针对性地解决了问题，并在零样本设定下取得了显著提升，是一项扎实且完整的工作。短板在于，其优化方法和基准测试的构建高度依赖 GPT-4o 等大模型，虽然进行了人工验证，但这使得整个工作在一定程度上建立在“模型评价模型”的基础上，其上限可能受制于标注模型自身的理解能力，且引入了难以完全消除的偏差。 📌 核心摘要要解决的问题：现有多模态大语言模型在进行音频视觉情感推理时，存在两大核心缺陷：一是将情绪错误地归因于无关的音视频线索（推理错误），二是为了合理化情绪而“编造”出不存在的音视频线索（感知错误/幻觉）。后者主要由语言模型的文本先验偏差导致。方法核心：论文提出了一个两阶段方案。首先，构建了名为 EmoReAlM 的专用基准测试（包含4000个人工验证的多选题），用于系统评估模型在关联、一致性及幻觉等方面的表现。其次，提出了 AVEm-DPO 技术，这是一种直接偏好优化方法，通过构建两种偏好对来对齐模型响应：a) 基于提示的多模态输入偏好（Prompt-based Modality Preference），确保模型关注正确的模态；b) 基于情感的响应偏好（Emotion-based Response Preference），区分正确、无关和幻觉的响应。此外，引入了文本先验去偏（Text Prior Debiasing）正则化项，抑制模型仅凭文本线索生成响应。与已有方法相比新在哪里：评估：超越了现有情感推理或幻觉基准，提供了一个标准化、无需外部LLM评估的、专注于音视觉情感理解中特定错误的测试集。优化：在应用 DPO 到多模态领域时，创新性地结合了“基于提示的模态偏好”和“文本先验去偏”，比通用的 Naive-DPO 和 Vista-DPO 更具针对性。主要实验结果：在零样本设定下，AVEm-DPO 显著提升了两个基线模型（Our base, EmotionLLaMA⋆）的性能。在提出的 EmoReAlM 基准上，相对性能提升达 6-19%。在现有情感识别数据集（DFEW, RAVDESS, MER2023）和推理数据集（EMER）上也取得了最优或极具竞争力的结果。关键结果对比如下表所示：模型 EmoReAlM (平均准确率) DFEW (UAR) RAVDESS (UAR) MER2023 (F1) EMER (Clue) Our base (基线) 65.1% 56.78% 53.59% 89.19% 5.63 + AVEm-DPO 83.3% 58.54% 58.66% 92.18% 6.37 EmotionLLaMA⋆ (基线) 63.8% 54.89% 52.59% 90.01% 5.78 + AVEm-DPO 80.1% 57.06% 56.21% 91.68% 6.02 Qwen 2.5 Omni (SOTA对比) 70.0% 46.94% 32.88% 79.72% 5.85 实际意义：该工作为构建可靠、可解释的社会AI代理提供了更精确的评估工具（EmoReAlM）和更有效的训练方法（AVEm-DPO），有助于减少多模态模型在情感理解中的不准确性，提升人机交互的可靠性。主要局限性：1) EmoReAlM 基准测试源于 DFEW 数据集，可能继承其文化偏见；2) 模型在识别“厌恶”等复杂/模糊情绪时表现仍不佳；3) 论文承认在缓解虚假音频线索关联方面仍有改进空间。 🏗️ 模型架构本文的核心贡献并非提出一个全新的端到端模型架构，而是提出了一种训练方法（AVEm-DPO）来提升现有音频视觉多模态大语言模型（MLLMs）的性能。其作用的对象是两个参考基线模型：“Our base”和“EmotionLLaMA⋆”。因此，架构描述将围绕AVEm-DPO如何作用于基础模型展开。 ...

FlexiVoice: Enabling Flexible Style Control in Zero-Shot TTS with Natural Language Instructions

📄 FlexiVoice: Enabling Flexible Style Control in Zero-Shot TTS with Natural Language Instructions #语音合成 #强化学习 #零样本 #多语言 🔥 8.0/10 | 前25% | #语音合成 | #强化学习 | #零样本 #多语言学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Dekun Chen (The Chinese University of Hong Kong, Shenzhen; Shenzhen Loop Area Institute) 通讯作者：未明确说明（论文中未明确指出通讯作者）作者列表：Dekun Chen (香港中文大学（深圳）/深圳湾实验室), Xueyao Zhang (香港中文大学（深圳）), Yuancheng Wang (香港中文大学（深圳）), Kenan Dai (Huawei Technologies Co., Ltd.), Li Ma (Huawei Technologies Co., Ltd.), Zhizheng Wu (香港中文大学（深圳）/澳门城市大学/Amphion Technology Co., Ltd.) 💡 毒舌点评这篇论文的核心亮点在于其系统性地将“风格、音色、内容”的解耦问题，转化为一个可分阶段优化的强化学习课程（PPT），技术路径设计精巧且实验证据扎实。不过，其最终效果高度依赖奖励模型的质量，而论文中使用的7B开源奖励模型与闭源前沿模型仍存在代差，这在一定程度上限制了其在最复杂指令上的表现上限，也为未来工作留下了明确的改进方向。 ...

Learning multimodal dictionary decompositions with group-sparse autoencoders

📄 Learning multimodal dictionary decompositions with group-sparse autoencoders #多模态模型 #自监督学习 #跨模态检索 #零样本 #模型评估 ✅ 7.5/10 | 前25% | #跨模态检索 | #自监督学习 | #多模态模型 #零样本学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Chiraag Kaushik（Georgia Institute of Technology, School of Electrical and Computer Engineering）通讯作者：未说明（论文中未明确标注通讯作者）作者列表：Chiraag Kaushik（Georgia Institute of Technology）、Davis Barch（Dolby Laboratories）、Andrea Fanelli（Dolby Laboratories） 💡 毒舌点评这篇论文理论与实践结合得不错，Theorem 1为“分裂字典”问题提供了理论保证，而提出的组稀疏+掩码方案在CLIP/CLAP上也确实有效提升了多模态概念的数量和语义性。但最大的短板是实验上缺乏代码开源，对于一篇方法论论文来说，这大大削弱了其即时影响力和社区复现验证的价值，使得“方法有效性”部分打了折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开训练好的SAE/GSAE/MGSAE模型权重。数据集：使用了公开数据集（CC3M, JamendoMaxCaps, MusicBench等），论文中未说明是否提供额外的处理脚本。 Demo：未提及在线演示。复现材料：论文在附录A.2中提供了较为详细的实验设置，包括数据集、超参数范围选择方法、训练步数等，有助于复现。论文中引用的开源项目：引用了dictionary_learning工具库（Marks et al., 2024）作为TopK SAE的实现基础。 📌 核心摘要这篇论文旨在解决稀疏自编码器（SAE）应用于多模态对齐嵌入（如CLIP）时产生的“分裂字典”问题，即学习到的稀疏特征大多只对单一模态激活，损害了跨模态对齐。核心方法包括：理论上证明了在对齐嵌入空间上，存在比分裂字典对齐性更好的非分裂字典；提出组稀疏自编码器（GSAE）和掩码组稀疏自编码器（MGSAE），通过组稀疏损失（鼓励配对样本的稀疏码具有相同支撑集）和跨模态随机掩码来引导学习多模态字典。与标准SAE相比，该方法显著增加了跨模态激活的神经元数量，减少了“死神经元”，并提升了跨模态零样本任务的性能。例如，在CLIP图像/文本任务上，MGSAE在CIFAR-10上的零样本分类准确率达到84.2%，比标准TopK SAE高出18.5个百分点；在CLAP音频/文本任务上，MGSAE在NSynth乐器分类上达到35.4%，远超SAE的26.5%。该工作的实际意义在于为多模态模型的可解释性分析和可控生成提供了更好的分解工具，其主要局限是依赖配对的多模态数据进行训练，且未提供开源代码。 ...

SpeechOp: Inference-Time Task Composition for Generative Speech Processing

📄 SpeechOp: Inference-Time Task Composition for Generative Speech Processing #语音增强 #语音分离 #扩散模型 #多任务学习 #零样本 ✅ 7.5/10 | 前25% | #语音增强 | #扩散模型 | #语音分离 #多任务学习学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Justin Lovelace（Cornell University）通讯作者：未明确说明（论文作者来自Cornell University和Adobe Research，从贡献描述看，Adobe Research团队的Rithesh Kumar, Jiaqi Su, Ke Chen, Zeyu Jin可能承担更多指导角色，但论文未明确标注通讯作者）作者列表： Justin Lovelace（Cornell University） Rithesh Kumar（Adobe Research） Jiaqi Su（Adobe Research） Ke Chen（Adobe Research） Kilian Q Weinberger（Cornell University） Zeyu Jin（Adobe Research） 💡 毒舌点评本文巧妙地将“资源过剩”的TTS模型改造为“资源匮乏”S2S任务的处理器，其提出的TC-CFG推理组合策略从原理上解释了如何优雅地融合不同生成任务的信号，避免了简单的分数平均带来的先验冲突。然而，论文的核心扩散架构（DiT+VAE）和多任务训练范式本身并无颠覆性创新，其真正亮点在于系统整合与工程设计，且在代码和模型开源方面显得较为吝啬，限制了社区的快速跟进与验证。 ...

SupCLAP: Controlling Optimization Trajectory Drift in Audio-Text Contrastive Learning with Support Vector Regularization

📄 SupCLAP: Controlling Optimization Trajectory Drift in Audio-Text Contrastive Learning with Support Vector Regularization #对比学习 #音频检索 #多语言 #零样本 #预训练 ✅ 7.0/10 | 前25% | #音频检索 | #对比学习 | #多语言 #零样本学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jiehui Luo（中央音乐学院），Yuguo Yin（北京大学）（论文注明贡献相等）通讯作者：Yuguo Yin（北京大学）作者列表： Jiehui Luo（中央音乐学院） Yuguo Yin（北京大学） Yuxin Xie（北京大学） Jinghan Ru（北京大学） Xianwei Zhuang（北京大学） Minghua He（北京大学） Aofan Liu（北京大学） Zihan Xiong（电子科技大学） Dongchao Yang（香港中文大学） 💡 毒舌点评这篇论文的亮点在于将对比学习中的“力分解”具象化，并精准指出垂直分量是“双刃剑”，由此设计的SVR正则化方法理论自洽且实验增益稳定。短板则是其创新核心（一个可学习的正则化项）相对朴素，且论文未开源代码，使得这篇发表在顶会上的工作在社区传播和快速迭代上打了折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及公开的预训练或微调后的模型权重。数据集：使用了公开的AudioCaps和Clotho数据集。多语言翻译版本的数据集未提及是否公开。 Demo：未提及。复现材料：论文提供了较为详细的实现细节（如编码器选择、优化器、学习率、批次大小、温度等），并在附录中补充了部分消融实验和统计显著性分析。论文中引用的开源项目：CED-Base（音频编码器）， SONAR-TE（文本编码器）， Deepseek V3（用于翻译和回译分析）。 📌 核心摘要本文针对音频-文本对比学习（CLAP）中标准InfoNCE损失存在的优化轨迹漂移问题展开研究。作者发现，来自负样本的推力可分解为与拉力方向平行和垂直的分量；其垂直分量虽包含丰富信息，但其不受控的特性会导致优化路径发生侧向偏移，影响训练稳定性和最终对齐质量。 ...

Tell me Habibi, is it Real or Fake?

📄 Tell me Habibi, is it Real or Fake? #音视频深度伪造检测 #数据集 #多语言 #零样本 🔥 8.5/10 | 前25% | #音视频深度伪造检测 | #数据集 | #多语言 #零样本学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Kartik Kuckreja (MBZUAI) 通讯作者：未明确标注，但通讯邮箱主要为 kartik.kuckreja@mbzuai.ac.ae 和 parul@monash.edu 作者列表：Kartik Kuckreja (MBZUAI)、Parul Gupta (Monash University)、Injy Hamed (MBZUAI)、Thamar Solorio (MBZUAI)、Muhammad Haris Khan (MBZUAI)、Abhinav Dhall (Monash University) 💡 毒舌点评亮点：该论文精准地击中了当前深度伪造检测领域的一个重大盲点——对多语言，尤其是像阿拉伯语这样广泛使用“代码切换”的语言场景的忽视，并为此构建了迄今规模最大、最复杂的专用数据集，为社区提供了极具价值的“练兵场”。短板：论文的重点在于“提出问题”和“提供工具”，而在于“解决问题”（即提出更先进的检测模型）方面着墨较少，其提出的检测方法仅为现有模型的基准测试。数据集生成依赖于GPT-4.1-mini等模型，其指令跟随的局限性可能导致部分“语义+翻译”模式的伪造文本语义变化不足，作者也承认了这一点。 🔗 开源详情代码：论文中未提及具体的代码仓库链接，但声明“Data-generation code and evaluation scripts will be made public”。模型权重：论文中未提及公开生成管道所用的TTS和唇形同步模型的具体权重链接，这些模型均为第三方已发表模型。数据集：论文明确声明“The dataset is public.”，并提供了访问需要签署的EULA协议图示。 Demo：未提及。复现材料：论文提供了生成管道的详细描述、文本篡改的提示示例（附录A.6）、数据分布图表、以及评估协议。但超参数、具体配置文件等未在文中给出。论文中引用的开源项目：XTTS-v2, OpenVoice-v2, Fairseq, Diff2Lip, LatentSync, Whisper, YOLO-v5, wav2vec2, Jais-3B, Qwen-2.5-7B等。 📌 核心摘要这篇论文旨在解决深度伪造检测研究中对多语言，特别是阿拉伯语-英语“代码切换”（在同一次话语中混合使用两种语言）场景严重忽视的问题。为解决此问题，论文提出了一个全新的核心贡献：构建并开源了首个大规模的阿拉伯语-英语音视频深度伪造数据集 ArEnAV。该数据集包含约38.7万个视频（超过765小时），通过一个创新的生成管道创建，该管道整合了多个文本转语音（TTS）和唇形同步模型，并利用GPT-4.1-mini进行8种不同规则的文本篡改，以模拟真实世界的代码切换和方言变体。与现有的多语言数据集（如PolyGlotFake）相比，ArEnAV首次专注于并显式生成“句内代码切换”的伪造内容。实验表明，当前最先进的深度伪造检测模型在ArEnAV上的性能出现断崖式下跌（例如，BA-TFD+模型的AP@0.5从AV-1M上的44.42%降至3.74%），甚至人类参与者的检测准确率也仅为60%，这证明了该数据集的挑战性和新场景的真实性。该工作的实际意义在于为开发更鲁棒、适用于全球多语言环境的深度伪造检测系统提供了必需的基准资源。主要局限性包括：数据生成管线依赖现有ASR和LLM，可能导致转录噪声和语义变化不足；数据集目前仅覆盖阿拉伯语和英语两种语言。 ...

VibeVoice: Expressive Podcast Generation with Next-Token Diffusion

📄 VibeVoice: Expressive Podcast Generation with Next-Token Diffusion #语音合成 #扩散模型 #零样本 #多说话人 #播客生成 🔥 8.5/10 | 前10% | #语音合成 | #扩散模型 | #零样本 #多说话人学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zhiliang Peng (Microsoft Research) 通讯作者：Furu Wei (Microsoft Research) 作者列表：Zhiliang Peng (Microsoft Research), Jianwei Yu (Microsoft Research), Wenhui Wang (Microsoft Research), Yaoyao Chang (Microsoft Research), Yutao Sun (Microsoft Research), Li Dong (Microsoft Research), Yi Zhu (Microsoft Research), Weijiang Xu (Microsoft Research), Hangbo Bao (Microsoft Research), Zehua Wang (Microsoft Research), Shaohan Huang (Microsoft Research), Yan Xia (Microsoft Research), Furu Wei (Microsoft Research) 💡 毒舌点评这篇论文成功地将播客生成从“能用”推向了“好用”的阶段，特别是其超低帧率（7.5Hz）的连续声学分词器在保持高保真度（UTMOS 4.18）的同时极大压缩了序列长度，是处理长序列的关键创新，解决了90分钟超长对话生成的核心瓶颈。然而，该方法对数据质量（需自建复杂标注管道）和训练复杂性（课程学习、大规模计算）的依赖，使其复现门槛较高，且论文并未公开其内部播客数据集。 ...

AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer

📄 AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer #音频生成 #流匹配 #多模态模型 #音视频 #零样本 ✅ 7.5/10 | 前25% | #音频生成 | #流匹配 | #多模态模型 #音视频学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Pengjun Fang（The Hong Kong University of Science and Technology）通讯作者：Harry Yang（The Hong Kong University of Science and Technology，标注有邮箱B）作者列表：Pengjun Fang（香港科技大学）、Yingqing He（香港科技大学）、Yazhou Xing（香港科技大学）、Qifeng Chen（香港科技大学，标注有邮箱B）、Ser-Nam Lim（University of Central Florida，标注有邮箱B）、Harry Yang（香港科技大学，标注有邮箱B） 💡 毒舌点评亮点：巧妙地利用“参考音频”作为控制信号，绕过了文本描述的语义模糊和粒度不足问题，实现了真正细粒度（如不同狗叫）和创意性（如音色迁移）的音效生成，两阶段训练策略的设计也颇具巧思。短板：核心生成模型（多模态Transformer+Flow Matching）是已有框架的整合，原创性集中在“控制方式”和“训练技巧”上；论文坦诚的指出，在处理复杂多声源场景时仍显力不从心，这限制了其在真实世界复杂声景中的即刻应用。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：未提及公开专用数据集。所使用的VGGSound、AudioCaps、WavCaps均为已有公开数据集。 Demo：未提及。复现材料：提供了极其详细的训练细节（附录A）、网络架构细节（附录B）以及方法描述，为复现奠定了坚实基础。引用的开源项目：论文引用了多个开源工具或模型，包括：CLIP、Synchformer、BigVGAN（声码器）、ImageBind（用于数据筛选）、AdamW优化器、EMA技术等。开源计划：论文中未提及开源计划。 📌 核心摘要要解决什么问题：现有视频到音频（V2A）生成方法主要依赖文本提示，存在两大瓶颈：训练数据中的语义粒度模糊（如将不同的狗叫统称为“狗叫”）和文本难以描述微声学特征（如“金属碰撞声”无法区分锤击和链条声），导致无法进行精细的声音合成控制。方法核心是什么：提出AC-Foley，一个参考音频引导的V2A生成框架。它直接利用一段参考音频的声学特征（而非语义）作为条件，结合视频和文本信息，通过多模态Transformer和条件流匹配模型，生成与视频同步且具有目标音色特征的声音。与已有方法相比新在哪里：a) 控制维度升级：从文本/视频语义控制升级为直接的声学特征控制，实现细粒度合成和音色迁移。b) 训练策略创新：采用两阶段训练（重叠与非重叠条件学习），使模型既能从对齐样本中学习声学特征，又能泛化到非对齐的时序上下文中，避免简单复制。c) 零样本生成能力：通过参考音频条件，能生成训练集中未见过的声音类别（如带消音器的枪声）。主要实验结果如何：在VGGSound测试集上，AC-Foley在音频条件控制设置下，所有指标均优于基线（如MMAudio+CLAP）。例如，其FDPaSST为56.00（优于基线70.80），MCD为11.37（优于基线14.63）。在无音频条件的纯V2A任务中，AC-Foley（w/o audio）也达到或接近SOTA水平（FDPaSST 64.90）。在音色迁移任务（Greatest Hits数据集）上，即使未在此数据集训练，AC-Foley的MCD（3.39）也显著优于CondFoley（4.18）。人工评估显示，在声学保真度上，83.5%的参与者认为AC-Foley生成的音频更接近真实音频。实际意义是什么：为影视、游戏、动画等内容创作者提供了强大的音效设计工具，能够根据示例音频快速生成、修改或替换音轨中的声音元素，极大提升了创作灵活性和效率。主要局限性是什么：当输入视频和参考音频包含多个重叠声源（如对话、环境声、动作声混合）时，模型难以将特定声音元素与对应的视觉事件精确对齐。参考音频与视频内容节奏差异过大时，生成质量会下降。 🏗️ 模型架构整体架构是一个基于条件流匹配（Conditional Flow Matching）的多模态Transformer模型，旨在生成与视频同步、受参考音频和文本条件控制的梅尔谱图，最终通过声码器转换为波形。 ...

DiffSDA: Unsupervised Diffusion Sequential Disentanglement Across Modalities

📄 DiffSDA: Unsupervised Diffusion Sequential Disentanglement Across Modalities #无监督学习 #扩散模型 #表征学习 #零样本 #音频 🔥 8.0/10 | 前25% | #无监督学习 | #扩散模型 | #表征学习 #零样本学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Hedi Zisling（Ben-Gurion University）与Ilan Naiman并列第一作者通讯作者：Omri Azencot（Ben-Gurion University）作者列表：Hedi Zisling（Ben-Gurion University）、Ilan Naiman（Ben-Gurion University）、Nimrod Berman（Ben-Gurion University）、Supasorn Suwajanakorn（VISTEC）、Omri Azencot（Ben-Gurion University） 💡 毒舌点评亮点：首次将扩散模型正式、系统地引入序列解耦任务，提出了一个简洁（单一损失项）且强大的概率框架，并在包括高分辨率真实视频在内的多个模态上验证了其SOTA性能，特别是“零样本跨数据集解耦”展示了其强大的泛化能力。短板：生成过程目前是逐帧进行的，论文自述这可能限制视频的时空连贯性，未来需与视频扩散模型结合；此外，多因子解耦探索仍属初步，距离实用化的精细控制还有距离。 🔗 开源详情代码：论文明确提供了GitHub代码仓库链接：https://github.com/azencot-group/DiffSDA。模型权重：论文中未提及是否公开预训练模型权重。数据集：论文中使用的数据集（MUG， TaiChi-HD， VoxCeleb， CelebV-HQ， TIMIT， LibriSpeech， PhysioNet， ETTh1， Air Quality）均为公开学术数据集，并提供了获取方式的引用。 Demo：论文中未提供在线演示链接。复现材料：提供了极为详尽的复现材料，包括所有数据集的预处理步骤、训练的完整超参数配置表（Tab.6-8，如学习率、批次大小、模型维度、序列长度、GPU型号等）、网络架构细节、评估指标定义以及消融实验设置。论文中引用的开源项目：EDM（采样框架）、LDM（潜在扩散模型，使用预训练VQ-VAE）、U-Net、LSTM等标准架构；评估时使用了VGG-FACE（面部识别）、HRNet（姿态估计）等预训练模型。 📌 核心摘要问题：现有无监督序列解耦方法主要依赖VAE/GAN，需要复杂的多损失优化，在真实世界数据上效果有限，且缺乏统一的评估协议。扩散模型虽强大，但尚无理论框架用于序列解耦。核心方法：提出DiffSDA，一个基于扩散过程的模态无关序列解耦框架。其核心是联合建模静态（时间不变）和动态（时间变化）隐因子，并引入一个条件于这些因子的扩散过程来生成数据序列。与已有方法的对比创新：(1) 提供了首个针对序列解耦的扩散模型概率建模（Eq.1-2）；(2) 与先前工作不同，建模了静态与动态因子的相互依赖性（Dependent Prior），提升了表达力；(3) 整个模型仅需一个基于分数匹配的统一损失项（Eq.5），极大简化了优化。主要实验结果：在多个真实世界数据集上全面超越SOTA（SPYL， DBSE）。视频任务中，在VoxCeleb条件交换的动态保留度（AKD）上从10.96降至2.793；音频任务中，在TIMIT上的解耦差距（Dis. Gap）从31.11%提升至42.29%；时序预测任务（ETTh1 MAE）从11.2降至9.89。首次实现了跨数据集的零样本视频解耦交换（如图2，4）。图1展示了DiffSDA的三大组件：序列语义编码器（上方，提取静态s0和动态d1:V 0因子）、随机编码器（下方，添加噪声得x1:V t）和随机解码器（右侧，条件于隐因子进行去噪得˜x1:V 0）。 ...

Gogo: Group-wise granularity-ordered codec for stable and efficient speech generation

📄 Gogo: Group-wise granularity-ordered codec for stable and efficient speech generation #语音合成 #流匹配 #自回归模型 #零样本 #语音大模型 🔥 8.5/10 | 前25% | #语音合成 | #流匹配 | #自回归模型 #零样本学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Weidong Chen (香港中文大学电子工程系) 通讯作者：Xixin Wu (香港中文大学电子工程系) 作者列表：Weidong Chen (香港中文大学电子工程系), Helen M. Meng (香港中文大学电子工程系), Xixin Wu (香港中文大学电子工程系) 💡 毒舌点评论文的亮点在于巧妙地将“组级量化”与“粒度排序”结合，从根源上解决了语音编解码器既要“高层抽象利于建模”又要“低层细节保证音质”的矛盾，设计思路清晰且优雅。但短板在于其框架组件繁多（编解码器、两阶段生成模型、额外训练的分配器），训练流程复杂，且token分配器的优化与主模型分离，可能并非全局最优，工程实现的门槛不低。 🔗 开源详情代码：论文中未提及官方代码仓库链接。模型权重：未提及公开预训练模型权重。数据集：训练使用Emilia（英文子集），评估使用LibriTTS和Seed-TTS，均为已有公开数据集。论文未提及提供新的数据集。 Demo：提供了在线演示链接：https://happycolor.github.io/gogo。复现材料：附录（A-M）提供了极其详细的实现细节、训练配置、评估设置、消融实验说明和可视化，复现信息非常充分。论文中引用的开源项目：Vocos (声码器), LLaMA-3.2-1B-Instruct (SLM基础模型), PyTorch等常见框架。对比实验中引用了EnCodec, DAC, SpeechTokenizer, Mimi, SNAC, WavTokenizer等众多开源编码器模型。 📌 核心摘要本文旨在解决当前语音语言模型中核心的语音编解码器面临的双重挑战：传统帧级量化难以捕获高层语义信息，以及固定比特率分配忽略了语音信号信息分布的不均匀性。为此，作者提出了Gogo编解码器，它创新性地将连续帧分组，并为每组生成从粗到细、粒度有序的令牌，粗令牌编码高层抽象，细令牌逐步恢复声学细节。基于此，设计了GogoSpeech两阶段语音生成模型：第一阶段以极低令牌率生成高层语音骨架，第二阶段再丰富细节。此外，引入了一个基于GRPO训练的令牌分配器，根据语音片段的复杂度自适应分配细粒度令牌的预算，以提升效率。实验表明，在47 Hz的令牌率下，Gogo在多项重建指标（如UT-MOS 4.19, DNS-MOS 3.99）上优于其他SOTA编解码器。在零样本语音合成任务中，GogoSpeech取得了最佳的说话人相似度（SIM 0.667）和综合质量评分（SMOS 4.381, CMOS +1.832），并证明了令牌分配器能在几乎不损质量的前提下将平均令牌率从47 Hz降至36 Hz。这项工作为高效、稳定的语音生成提供了新的范式。其局限性在于依赖固定的分组策略，且令牌分配器的训练与主生成模型解耦，可能存在优化不足。 ...