零样本 | 语音/音频论文速递

Tell me Habibi, is it Real or Fake?

📄 Tell me Habibi, is it Real or Fake? #音视频深度伪造检测 #数据集 #多语言 #零样本 🔥 8.5/10 | 前25% | #音视频深度伪造检测 | #数据集 | #多语言 #零样本学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Kartik Kuckreja (MBZUAI) 通讯作者：未明确标注，但通讯邮箱主要为 kartik.kuckreja@mbzuai.ac.ae 和 parul@monash.edu 作者列表：Kartik Kuckreja (MBZUAI)、Parul Gupta (Monash University)、Injy Hamed (MBZUAI)、Thamar Solorio (MBZUAI)、Muhammad Haris Khan (MBZUAI)、Abhinav Dhall (Monash University) 💡 毒舌点评亮点：该论文精准地击中了当前深度伪造检测领域的一个重大盲点——对多语言，尤其是像阿拉伯语这样广泛使用“代码切换”的语言场景的忽视，并为此构建了迄今规模最大、最复杂的专用数据集，为社区提供了极具价值的“练兵场”。短板：论文的重点在于“提出问题”和“提供工具”，而在于“解决问题”（即提出更先进的检测模型）方面着墨较少，其提出的检测方法仅为现有模型的基准测试。数据集生成依赖于GPT-4.1-mini等模型，其指令跟随的局限性可能导致部分“语义+翻译”模式的伪造文本语义变化不足，作者也承认了这一点。 🔗 开源详情代码：论文中未提及具体的代码仓库链接，但声明“Data-generation code and evaluation scripts will be made public”。模型权重：论文中未提及公开生成管道所用的TTS和唇形同步模型的具体权重链接，这些模型均为第三方已发表模型。数据集：论文明确声明“The dataset is public.”，并提供了访问需要签署的EULA协议图示。 Demo：未提及。复现材料：论文提供了生成管道的详细描述、文本篡改的提示示例（附录A.6）、数据分布图表、以及评估协议。但超参数、具体配置文件等未在文中给出。论文中引用的开源项目：XTTS-v2, OpenVoice-v2, Fairseq, Diff2Lip, LatentSync, Whisper, YOLO-v5, wav2vec2, Jais-3B, Qwen-2.5-7B等。 📌 核心摘要这篇论文旨在解决深度伪造检测研究中对多语言，特别是阿拉伯语-英语“代码切换”（在同一次话语中混合使用两种语言）场景严重忽视的问题。为解决此问题，论文提出了一个全新的核心贡献：构建并开源了首个大规模的阿拉伯语-英语音视频深度伪造数据集 ArEnAV。该数据集包含约38.7万个视频（超过765小时），通过一个创新的生成管道创建，该管道整合了多个文本转语音（TTS）和唇形同步模型，并利用GPT-4.1-mini进行8种不同规则的文本篡改，以模拟真实世界的代码切换和方言变体。与现有的多语言数据集（如PolyGlotFake）相比，ArEnAV首次专注于并显式生成“句内代码切换”的伪造内容。实验表明，当前最先进的深度伪造检测模型在ArEnAV上的性能出现断崖式下跌（例如，BA-TFD+模型的AP@0.5从AV-1M上的44.42%降至3.74%），甚至人类参与者的检测准确率也仅为60%，这证明了该数据集的挑战性和新场景的真实性。该工作的实际意义在于为开发更鲁棒、适用于全球多语言环境的深度伪造检测系统提供了必需的基准资源。主要局限性包括：数据生成管线依赖现有ASR和LLM，可能导致转录噪声和语义变化不足；数据集目前仅覆盖阿拉伯语和英语两种语言。 ...

VibeVoice: Expressive Podcast Generation with Next-Token Diffusion

📄 VibeVoice: Expressive Podcast Generation with Next-Token Diffusion #语音合成 #扩散模型 #零样本 #多说话人 #播客生成 🔥 8.5/10 | 前10% | #语音合成 | #扩散模型 | #零样本 #多说话人学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zhiliang Peng (Microsoft Research) 通讯作者：Furu Wei (Microsoft Research) 作者列表：Zhiliang Peng (Microsoft Research), Jianwei Yu (Microsoft Research), Wenhui Wang (Microsoft Research), Yaoyao Chang (Microsoft Research), Yutao Sun (Microsoft Research), Li Dong (Microsoft Research), Yi Zhu (Microsoft Research), Weijiang Xu (Microsoft Research), Hangbo Bao (Microsoft Research), Zehua Wang (Microsoft Research), Shaohan Huang (Microsoft Research), Yan Xia (Microsoft Research), Furu Wei (Microsoft Research) 💡 毒舌点评这篇论文成功地将播客生成从“能用”推向了“好用”的阶段，特别是其超低帧率（7.5Hz）的连续声学分词器在保持高保真度（UTMOS 4.18）的同时极大压缩了序列长度，是处理长序列的关键创新，解决了90分钟超长对话生成的核心瓶颈。然而，该方法对数据质量（需自建复杂标注管道）和训练复杂性（课程学习、大规模计算）的依赖，使其复现门槛较高，且论文并未公开其内部播客数据集。 ...

AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer

📄 AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer #音频生成 #流匹配 #多模态模型 #音视频 #零样本 ✅ 7.5/10 | 前25% | #音频生成 | #流匹配 | #多模态模型 #音视频学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Pengjun Fang（The Hong Kong University of Science and Technology）通讯作者：Harry Yang（The Hong Kong University of Science and Technology，标注有邮箱B）作者列表：Pengjun Fang（香港科技大学）、Yingqing He（香港科技大学）、Yazhou Xing（香港科技大学）、Qifeng Chen（香港科技大学，标注有邮箱B）、Ser-Nam Lim（University of Central Florida，标注有邮箱B）、Harry Yang（香港科技大学，标注有邮箱B） 💡 毒舌点评亮点：巧妙地利用“参考音频”作为控制信号，绕过了文本描述的语义模糊和粒度不足问题，实现了真正细粒度（如不同狗叫）和创意性（如音色迁移）的音效生成，两阶段训练策略的设计也颇具巧思。短板：核心生成模型（多模态Transformer+Flow Matching）是已有框架的整合，原创性集中在“控制方式”和“训练技巧”上；论文坦诚的指出，在处理复杂多声源场景时仍显力不从心，这限制了其在真实世界复杂声景中的即刻应用。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：未提及公开专用数据集。所使用的VGGSound、AudioCaps、WavCaps均为已有公开数据集。 Demo：未提及。复现材料：提供了极其详细的训练细节（附录A）、网络架构细节（附录B）以及方法描述，为复现奠定了坚实基础。引用的开源项目：论文引用了多个开源工具或模型，包括：CLIP、Synchformer、BigVGAN（声码器）、ImageBind（用于数据筛选）、AdamW优化器、EMA技术等。开源计划：论文中未提及开源计划。 📌 核心摘要要解决什么问题：现有视频到音频（V2A）生成方法主要依赖文本提示，存在两大瓶颈：训练数据中的语义粒度模糊（如将不同的狗叫统称为“狗叫”）和文本难以描述微声学特征（如“金属碰撞声”无法区分锤击和链条声），导致无法进行精细的声音合成控制。方法核心是什么：提出AC-Foley，一个参考音频引导的V2A生成框架。它直接利用一段参考音频的声学特征（而非语义）作为条件，结合视频和文本信息，通过多模态Transformer和条件流匹配模型，生成与视频同步且具有目标音色特征的声音。与已有方法相比新在哪里：a) 控制维度升级：从文本/视频语义控制升级为直接的声学特征控制，实现细粒度合成和音色迁移。b) 训练策略创新：采用两阶段训练（重叠与非重叠条件学习），使模型既能从对齐样本中学习声学特征，又能泛化到非对齐的时序上下文中，避免简单复制。c) 零样本生成能力：通过参考音频条件，能生成训练集中未见过的声音类别（如带消音器的枪声）。主要实验结果如何：在VGGSound测试集上，AC-Foley在音频条件控制设置下，所有指标均优于基线（如MMAudio+CLAP）。例如，其FDPaSST为56.00（优于基线70.80），MCD为11.37（优于基线14.63）。在无音频条件的纯V2A任务中，AC-Foley（w/o audio）也达到或接近SOTA水平（FDPaSST 64.90）。在音色迁移任务（Greatest Hits数据集）上，即使未在此数据集训练，AC-Foley的MCD（3.39）也显著优于CondFoley（4.18）。人工评估显示，在声学保真度上，83.5%的参与者认为AC-Foley生成的音频更接近真实音频。实际意义是什么：为影视、游戏、动画等内容创作者提供了强大的音效设计工具，能够根据示例音频快速生成、修改或替换音轨中的声音元素，极大提升了创作灵活性和效率。主要局限性是什么：当输入视频和参考音频包含多个重叠声源（如对话、环境声、动作声混合）时，模型难以将特定声音元素与对应的视觉事件精确对齐。参考音频与视频内容节奏差异过大时，生成质量会下降。 🏗️ 模型架构整体架构是一个基于条件流匹配（Conditional Flow Matching）的多模态Transformer模型，旨在生成与视频同步、受参考音频和文本条件控制的梅尔谱图，最终通过声码器转换为波形。 ...

DiffSDA: Unsupervised Diffusion Sequential Disentanglement Across Modalities

📄 DiffSDA: Unsupervised Diffusion Sequential Disentanglement Across Modalities #无监督学习 #扩散模型 #表征学习 #零样本 #音频 🔥 8.0/10 | 前25% | #无监督学习 | #扩散模型 | #表征学习 #零样本学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Hedi Zisling（Ben-Gurion University）与Ilan Naiman并列第一作者通讯作者：Omri Azencot（Ben-Gurion University）作者列表：Hedi Zisling（Ben-Gurion University）、Ilan Naiman（Ben-Gurion University）、Nimrod Berman（Ben-Gurion University）、Supasorn Suwajanakorn（VISTEC）、Omri Azencot（Ben-Gurion University） 💡 毒舌点评亮点：首次将扩散模型正式、系统地引入序列解耦任务，提出了一个简洁（单一损失项）且强大的概率框架，并在包括高分辨率真实视频在内的多个模态上验证了其SOTA性能，特别是“零样本跨数据集解耦”展示了其强大的泛化能力。短板：生成过程目前是逐帧进行的，论文自述这可能限制视频的时空连贯性，未来需与视频扩散模型结合；此外，多因子解耦探索仍属初步，距离实用化的精细控制还有距离。 🔗 开源详情代码：论文明确提供了GitHub代码仓库链接：https://github.com/azencot-group/DiffSDA。模型权重：论文中未提及是否公开预训练模型权重。数据集：论文中使用的数据集（MUG， TaiChi-HD， VoxCeleb， CelebV-HQ， TIMIT， LibriSpeech， PhysioNet， ETTh1， Air Quality）均为公开学术数据集，并提供了获取方式的引用。 Demo：论文中未提供在线演示链接。复现材料：提供了极为详尽的复现材料，包括所有数据集的预处理步骤、训练的完整超参数配置表（Tab.6-8，如学习率、批次大小、模型维度、序列长度、GPU型号等）、网络架构细节、评估指标定义以及消融实验设置。论文中引用的开源项目：EDM（采样框架）、LDM（潜在扩散模型，使用预训练VQ-VAE）、U-Net、LSTM等标准架构；评估时使用了VGG-FACE（面部识别）、HRNet（姿态估计）等预训练模型。 📌 核心摘要问题：现有无监督序列解耦方法主要依赖VAE/GAN，需要复杂的多损失优化，在真实世界数据上效果有限，且缺乏统一的评估协议。扩散模型虽强大，但尚无理论框架用于序列解耦。核心方法：提出DiffSDA，一个基于扩散过程的模态无关序列解耦框架。其核心是联合建模静态（时间不变）和动态（时间变化）隐因子，并引入一个条件于这些因子的扩散过程来生成数据序列。与已有方法的对比创新：(1) 提供了首个针对序列解耦的扩散模型概率建模（Eq.1-2）；(2) 与先前工作不同，建模了静态与动态因子的相互依赖性（Dependent Prior），提升了表达力；(3) 整个模型仅需一个基于分数匹配的统一损失项（Eq.5），极大简化了优化。主要实验结果：在多个真实世界数据集上全面超越SOTA（SPYL， DBSE）。视频任务中，在VoxCeleb条件交换的动态保留度（AKD）上从10.96降至2.793；音频任务中，在TIMIT上的解耦差距（Dis. Gap）从31.11%提升至42.29%；时序预测任务（ETTh1 MAE）从11.2降至9.89。首次实现了跨数据集的零样本视频解耦交换（如图2，4）。图1展示了DiffSDA的三大组件：序列语义编码器（上方，提取静态s0和动态d1:V 0因子）、随机编码器（下方，添加噪声得x1:V t）和随机解码器（右侧，条件于隐因子进行去噪得˜x1:V 0）。 ...

Gogo: Group-wise granularity-ordered codec for stable and efficient speech generation

📄 Gogo: Group-wise granularity-ordered codec for stable and efficient speech generation #语音合成 #流匹配 #自回归模型 #零样本 #语音大模型 🔥 8.5/10 | 前25% | #语音合成 | #流匹配 | #自回归模型 #零样本学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Weidong Chen (香港中文大学电子工程系) 通讯作者：Xixin Wu (香港中文大学电子工程系) 作者列表：Weidong Chen (香港中文大学电子工程系), Helen M. Meng (香港中文大学电子工程系), Xixin Wu (香港中文大学电子工程系) 💡 毒舌点评论文的亮点在于巧妙地将“组级量化”与“粒度排序”结合，从根源上解决了语音编解码器既要“高层抽象利于建模”又要“低层细节保证音质”的矛盾，设计思路清晰且优雅。但短板在于其框架组件繁多（编解码器、两阶段生成模型、额外训练的分配器），训练流程复杂，且token分配器的优化与主模型分离，可能并非全局最优，工程实现的门槛不低。 🔗 开源详情代码：论文中未提及官方代码仓库链接。模型权重：未提及公开预训练模型权重。数据集：训练使用Emilia（英文子集），评估使用LibriTTS和Seed-TTS，均为已有公开数据集。论文未提及提供新的数据集。 Demo：提供了在线演示链接：https://happycolor.github.io/gogo。复现材料：附录（A-M）提供了极其详细的实现细节、训练配置、评估设置、消融实验说明和可视化，复现信息非常充分。论文中引用的开源项目：Vocos (声码器), LLaMA-3.2-1B-Instruct (SLM基础模型), PyTorch等常见框架。对比实验中引用了EnCodec, DAC, SpeechTokenizer, Mimi, SNAC, WavTokenizer等众多开源编码器模型。 📌 核心摘要本文旨在解决当前语音语言模型中核心的语音编解码器面临的双重挑战：传统帧级量化难以捕获高层语义信息，以及固定比特率分配忽略了语音信号信息分布的不均匀性。为此，作者提出了Gogo编解码器，它创新性地将连续帧分组，并为每组生成从粗到细、粒度有序的令牌，粗令牌编码高层抽象，细令牌逐步恢复声学细节。基于此，设计了GogoSpeech两阶段语音生成模型：第一阶段以极低令牌率生成高层语音骨架，第二阶段再丰富细节。此外，引入了一个基于GRPO训练的令牌分配器，根据语音片段的复杂度自适应分配细粒度令牌的预算，以提升效率。实验表明，在47 Hz的令牌率下，Gogo在多项重建指标（如UT-MOS 4.19, DNS-MOS 3.99）上优于其他SOTA编解码器。在零样本语音合成任务中，GogoSpeech取得了最佳的说话人相似度（SIM 0.667）和综合质量评分（SMOS 4.381, CMOS +1.832），并证明了令牌分配器能在几乎不损质量的前提下将平均令牌率从47 Hz降至36 Hz。这项工作为高效、稳定的语音生成提供了新的范式。其局限性在于依赖固定的分组策略，且令牌分配器的训练与主生成模型解耦，可能存在优化不足。 ...

Hierarchical Semantic-Acoustic Modeling via Semi-Discrete Residual Representations for Expressive End-to-End Speech Synthesis

📄 Hierarchical Semantic-Acoustic Modeling via Semi-Discrete Residual Representations for Expressive End-to-End Speech Synthesis #语音合成 #自回归模型 #零样本 #扩散模型 #端到端 🔥 8.5/10 | 前25% | #语音合成 | #自回归模型 | #零样本 #扩散模型学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.6 | 置信度高 👥 作者与机构第一作者：Yixuan Zhou（清华大学深圳国际研究生院）通讯作者：Zhiyong Wu（清华大学深圳国际研究生院）作者列表：Yixuan Zhou（清华大学深圳国际研究生院）、Guoyang Zeng（ModelBest Inc.）、Xin Liu（ModelBest Inc.）、Xiang Li（清华大学深圳国际研究生院）、Renjie Yu（清华大学深圳国际研究生院）、Ziyang Wang（ModelBest Inc.）、Runchuan Ye（清华大学深圳国际研究生院）、Weiyue Sun（ModelBest Inc.）、Jiancheng Gui（ModelBest Inc.）、Kehan Li（清华大学深圳国际研究生院）、Zhiyong Wu（清华大学深圳国际研究生院，通讯作者）、Zhiyuan Liu（清华大学计算机科学与技术系） 💡 毒舌点评论文巧妙地利用有限标量量化（FSQ）作为“强制分心”的瓶颈，逼着语言模型先管好内容和语调的大局，再把声学细节的脏活累活交给另一个模块，这种设计既有理论优雅性又有工程实用性；不过，尽管在客观指标和克隆相似度上表现亮眼，论文在主观自然度（N-MOS）上并未全面碾压IndexTTS2等强敌，暗示着“稳定”与“极致自然”之间可能还存在细微的权衡，尤其是在中文的韵律控制上可能还有提升空间。 🔗 开源详情代码：论文明确表示“We will release code and models to support future research”，但未提供具体的代码仓库链接。附录中给出了推断代码的占位符 codes.zip。模型权重：承诺发布，但未说明具体平台或链接。数据集：使用了公开的Emilia数据集（9.5万小时），并提及了内部大规模双语数据集（超过100万小时，未公开）。 Demo：提供了在线演示页面链接：https://voxcpm.github.io/VoxCPM-demopage/。复现材料：提供了非常充分的复现材料，包括：详细的模型架构参数表（附录表5）、训练阶段的学习率调度与批处理大小（附录表6）、所有消融实验的设置、硬件配置（GPU型号与数量）、以及多处关于训练技巧的说明（如WSD策略的重要性）。附录F部分包含了大量实验的细节和结果表格。论文中引用的开源项目：主要引用了作为基线的其他TTS系统（如CosyVoice, F5-TTS等），以及预训练的语言模型MiniCPM-4。在实现上，使用了Megatron框架。 📌 核心摘要要解决的问题：端到端语音合成中表达力（连续表示）与稳定性（离散表示）之间的根本性矛盾。离散化会损失细节，而连续建模则因任务纠缠（语义规划与声学渲染混杂）容易导致长序列上的误差累积和不稳定。方法核心：提出一个统一的端到端框架，通过“层次化语义-声学建模”和“半离crete残差表示”来解决上述矛盾。核心是在文本语义语言模型（TSLM）和残差声学语言模型（RALM）之间插入一个可微分的有限标量量化（FSQ）瓶颈。该瓶颈自然诱导了任务分离：TSLM专注于生成稳定的语义-韵律“骨架”，RALM负责恢复被量化的细粒度声学细节。两者生成的条件信号共同指导一个基于扩散的局部Transformer解码器（LocDiT）生成最终语音。与已有方法相比新在哪里：新在统一框架：将显式的层次化设计（语义 vs. 声学）与残差学习结合在一个可端到端训练的统一框架内，避免了传统多阶段流水线的割裂和对外部预训练分词器的依赖。新在瓶颈机制：不同于将量化作为预测目标，本工作将FSQ作为正则化瓶颈和归纳偏置，强制信息流进行分层，从而在保持可微性的同时实现了隐式的任务解耦。新在训练范式：整个层次化模型（包括量化瓶颈）仅使用简单的扩散目标进行端到端训练，简化了流程并实现了协同优化。主要实验结果：主实验：在超过100万小时的双语数据上训练的0.5B参数模型VoxCPM，在开源模型中取得了最先进（SOTA）的零样本TTS性能。在SEED-TTS-EVAL基准上，英文WER为1.85%，中文CER为0.93%，说话人相似度（SIM）分别为72.9%（EN）和77.2%（ZH），优于CosyVoice2, IndexTTS2等模型。关键对比数据：模型参数量训练数据英文WER↓ 英文SIM↑ 中文CER↓ 中文SIM↑ CosyVoice2 0.5B 170K hrs 3.09 65.9 1.38 75.7 IndexTTS 2 1.5B 55K hrs 2.23 70.6 1.03 76.5 VoxCPM 0.5B 1.8M hrs 1.85 72.9 0.93 77.2 消融实验：证实了FSQ瓶颈和残差声学模型（RALM）是性能关键。移除FSQ导致中文硬例句CER从18.19%飙升至24.92%；移除RALM（退化为单一连续模型）导致性能显著下降。FSQ维度选择也至关重要，256维是较优平衡点。可视化分析：t-SNE可视化显示TSLM-FSQ输出形成与文本内容相关的语义结构，而RALM残差输出则聚类为说话人相关的声学特征，验证了隐式解耦。实际意义：提供了一种新的、统一的端到端语音合成架构范式，证明了通过精心设计的瓶颈结构可以在连续空间中实现稳定且富有表达力的生成，无需外部离散编码器。这对于推动开源、高质量、可定制的语音合成技术具有重要意义。主要局限性：论文中已提及和暗示的局限包括：在极致语音自然度（N-MOS）上并非所有场景都绝对领先（如中文部分测试落后于IndexTTS2）；实时流式合成能力虽被提及（因果VAE、低延迟），但实验未深入展示其在长序列对话等复杂流式场景下的稳定性与表现；模型依赖大规模高质量数据（超过100万小时）以达最佳性能，其在低资源场景下的有效性未充分验证。 🏗️ 模型架构 VoxCPM是一个端到端的、自回归的层次化语音生成模型，其核心在于层次化的条件生成与半离散残差表示学习。整体架构如下图所示： ...

Beyond Acoustic Sparsity and Linguistic Bias: A Prompt-Free Paradigm for Mispronunciation Detection and Diagnosis

📄 Beyond Acoustic Sparsity and Linguistic Bias: A Prompt-Free Paradigm for Mispronunciation Detection and Diagnosis #发音错误检测 #自监督学习 #知识蒸馏 #数据增强 #零样本 🔥 8.5/10 | 前25% | #发音错误检测 | #自监督学习 #知识蒸馏 | #自监督学习 #知识蒸馏 | arxiv 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Haopeng Geng (The University of Tokyo, Graduate School of Engineering) 通讯作者：未说明（论文未明确指定通讯作者）作者列表：Haopeng Geng (The University of Tokyo, Graduate School of Engineering), Longfei Yang (The University of Tokyo, Graduate School of Engineering), Xi Chen (The University of Tokyo, Graduate School of Engineering), Haitong Sun (The University of Tokyo, Graduate School of Engineering), Daisuke Saito (The University of Tokyo, Graduate School of Engineering), Nobuaki Minematsu (The University of Tokyo, Graduate School of Engineering) 💡 毒舌点评论文精准地将当前MDD方法的不足归纳为“声学陷阱”和“语言学陷阱”，并给出了一个逻辑自洽且有效的解决方案CROTTC-IF，最终在多个数据集上取得了SOTA或极具竞争力的性能，展现了扎实的工程能力和清晰的学术思考。然而，论文对“声学权重λ”在真实场景中的最佳取值（如非实验环境、自发语音）缺乏讨论，且最终框架对λ的敏感性也暗示了“解耦”的理想与“融合”的现实之间仍存在张力。 ...

The False Resonance: A Critical Examination of Emotion Embedding Similarity for Speech Generation Evaluation

📄 The False Resonance: A Critical Examination of Emotion Embedding Similarity for Speech Generation Evaluation #语音情感识别 #模型评估 #自监督学习 #鲁棒性 #零样本 ✅ 7.0/10 | 前25% | #语音情感识别 #模型评估 | #自监督学习 #基准测试 | #语音情感识别 #模型评估 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Yun-Shao Tsai (r14942093@ntu.edu.tw，从邮箱格式推断为台湾大学学生) 通讯作者：Hung-yi Lee (hungyilee@ntu.edu.tw，台湾大学) 作者列表： Yun-Shao Tsai (台湾大学通讯工程研究所) Yi-Cheng Lin (台湾大学电子工程学研究所) Huang-Cheng Chou (Gilbert AI Lab) Tzu-Wen Hsu (南加州大学Ming Hsieh电气与计算机工程系) Yun-Man Hsu (台湾大学人工智能中心) Chun Wei Chen (Gilbert AI Lab) Shrikanth Narayanan (南加州大学Ming Hsieh电气与计算机工程系) Hung-yi Lee (台湾大学) 💡 毒舌点评这篇论文用一系列精心设计的对照实验，给当前语音生成评估中广泛使用的“情感相似度”指标（尤其是基于emotion2vec）泼了一盆冷水，堪称一次精准的“排雷”行动。其亮点在于实验的系统性和严谨性，通过控制变量（如说话人、语言内容）揭示了指标的脆弱性。但短板也同样明显：论文止步于“证伪”，并未提出任何改进方案或替代指标，对于��需解决方案的实践者来说，诊断出了问题却未开药方。 ...

Affect-Jigsaw: Integrating Core and Peripheral Emotions for Harmonious Fine-Grained Multimodal Emotion Recognition

📄 Affect-Jigsaw: Integrating Core and Peripheral Emotions for Harmonious Fine-Grained Multimodal Emotion Recognition #语音情感识别 #多模态模型 #零样本 🔥 8.0/10 | 前25% | #语音情感识别 | #多模态模型 | #零样本学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Shihao Gao (湖南大学计算机科学与电子工程学院) 通讯作者：Jing Han (剑桥大学计算机科学与技术系) 作者列表：Shihao Gao (湖南大学计算机科学与电子工程学院), Zixing Zhang (湖南大学计算机科学与电子工程学院；湖南大学深圳研究院), Zhiqiang Gao (湖南大学计算机科学与电子工程学院), Hongyu Chen (湖南大学计算机科学与电子工程学院), Jing Han* (剑桥大学计算机科学与技术系) 💡 毒舌点评这篇论文的核心亮点在于其“任务分解”思想：没有一头扎进复杂的细粒度预测，而是聪明地将其拆解为“定锚（核心情感）”和“扩展（周边情感）”两个更易管理的子任务，这种化繁为简的思路是解决开放词汇预测难题的有力尝试。然而，其主要短板在于对“自评整合机制（SCIM）”这一关键创新点的技术细节披露不足，仅停留在“修剪、去歧、补全”的功能描述和流程示意图层面，未提供具体的提示词设计、模型交互流程或鲁棒性分析，这让一个看似精巧的模块在技术复现上留下了较大的模糊空间。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开模型权重。数据集：实验使用了MER2025 Challenge发布的基准数据集（MER-SEMI, MER-Caption+, MER-FG Test Set），但论文未说明这些数据集的公开获取方式。推测可能需通过Challenge官方渠道获取。 Demo：未提及在线演示。复现材料：论文给出了基础模型（Qwen2.5-Omni-7B）、微调方法（LoRA，rank=8，α=32）、优化器（AdamW）、学习率（1e-4）、训练轮数（2 epochs）等关键训练细节。但未提供完整的训练脚本、配置文件、评估代码或SCIM的详细提示词设计。论文中引用的开源项目：基于Qwen2.5-Omni [24]模型，使用了LoRA [25]进行高效微调。总体开源情况：论文中未提及完整的开源计划。 📌 核心摘要问题：论文针对细粒度多模态情感识别（MER-FG）这一新兴任务，指出其面临标注数据稀缺、噪声多，以及现有方法要么依赖有限细粒度数据，要么零样本预测不精准，且均未有效利用传统离散情感识别积累的丰富资源的困境。方法核心：提出Affect-Jigsaw框架，其核心是将MER-FG任务分解为两个子任务：（1）预测一个最显著的核心情感（来自6种基本情绪）；（2）预测一组与之共存的、开放词汇的周边情感。该框架整合了三个来源的信息：在离散标签数据上微调的核心情感预测器、在细粒度数据上微调的周边情感预测器、以及基础大模型的零样本预测能力。最终，设计了一个自评整合机制（SCIM），利用大模型的推理能力，对核心情感与周边情感的候选集进行修剪、去歧和补全，输出和谐一致的最终标签。创新之处：与已有方法相比，其主要新意在于：（1）首次提出核心/周边情感的任务分解范式，有效桥接了传统离散情感与新兴细粒度情感任务；（2）设计了SCIM，将静态的标签集合并转化为动态、上下文感知的推理过程；（3）协同利用了离散数据（保证核心准确性）、细粒度数据（捕捉细微差别）和零样本知识（拓宽覆盖范围）。实验结果：在MER2025 Challenge官方测试集上，Affect-Jigsaw取得了最优性能。具体结果如下表所示，其平均分（Avg）相比最强的基线“Clues-based Framework”提升了6.93个百分点。方法模态 S1 (↑) S2 (↑) Avg (↑) AffectGPT [10] A,V,T 57.36 36.35 46.86 Clues-based Framework [15] A,V,T 61.87 42.26 52.06 Affect-Jigsaw (ours) A,V,T 68.58 49.39 58.99 实际意义：该工作为MER-FG提供了一个新的思路框架，即通过任务分解和数据协同来克服小样本、高噪声的挑战，推动情感识别向更丰富、更贴近真实人类情感状态的方向发展。主要局限性：论文指出，当多模态线索（如面部表情与语音内容）冲突时，框架过度依赖基于零样本推理的SCIM，可能导致预测偏差（如案例3所示）。此外，SCIM的具体实现细节未公开，限制了方法的透明度和可复现性。 🏗️ 模型架构论文中的图1（![Affect-Jigsaw框架概述图](https://nanless.github.io/audio-paper-digest-images/icassp-2026/2026-04-29/11460645-0.jpg)）展示了Affect-Jigsaw的整体架构。该框架主要由两个并行分支和一个整合机制组成： ...

ARCHI-TTS: A Flow-Matching-Based Text-to-Speech Model with Self-Supervised Semantic Aligner and Accelerated Inference

📄 ARCHI-TTS: A Flow-Matching-Based Text-to-Speech Model with Self-Supervised Semantic Aligner and Accelerated Inference #语音合成 #流匹配 #自监督学习 #零样本 #多语言 🔥 8.0/10 | 前25% | #语音合成 | #流匹配 | #自监督学习 #零样本学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Chunyat Wu（香港中文大学）通讯作者：未说明（论文中未明确标注通讯作者）作者列表：Chunyat Wu, Jiajun Deng, Zhengxi Liu, Zheqi Dai, Haolin He, Qiuqiang Kong（所有作者均来自香港中文大学，香港，中国） 💡 毒舌点评亮点：这篇论文最大的“工程巧思”在于发现了非自回归流式解码器中，条件编码器的输出在不同去噪步之间可以安全地重复使用，从而在几乎不损失质量的前提下将推理速度提升了数倍（RTF从0.31降至0.09），这个发现极具实用价值。短板：虽然“语义对齐器”被设计为核心，但论文对其内部学习到的对齐质量缺乏直接、可视化的分析（例如对齐矩阵图），其对合成语音“时序稳定性”的贡献更多是间接推断，说服力可以更强。 🔗 开源详情代码：论文明确指出“code are publicly available”，并提供了项目主页链接 https://archimickey.github.io/architts ，但论文PDF中未给出具体的GitHub等代码仓库链接。模型权重：论文中未提及是否公开模型权重。数据集：使用的是公开数据集（Emilia, LibriHeavy, LibriTTS）。 Demo：项目主页上应包含音频样本（Audio samples）。复现材料：提供了详细的模型架构描述、超参数设置（如层数、学习率、批次大小、损失函数权重）、训练硬件和时长等关键信息，有利于复现。论文中引用的开源项目：主要依赖和参考了Emilia数据集、ConvNeXt V2（用于文本编码）、Stable Audio的VAE架构、以及用于提取说话人嵌入的CAM++模型。总结：论文有明确的开源计划和部分复现信息，但开源信息（特别是代码链接和模型权重）在提供的PDF中不完整。 📌 核心摘要问题：当前基于扩散/流匹配的非自回归TTS系统面临两大挑战：1）文本与语音之间复杂、灵活的对齐关系难以有效建模；2）迭代去噪过程带来高昂的计算开销，推理速度慢。方法：本文提出ARCHI-TTS，一种非自回归架构。核心方法包括：a) 语义对齐器：通过一个Transformer编码器，将文本特征与长度等于目标语音帧数的、可学习的“掩码嵌入”序列进行交互，从而端到端地学习出对齐的语义表征，无需显式时长标注。b) 高效推理策略：在条件流匹配的解码器中，将负责编码文本、说话人、参考音频等条件的“条件编码器”部分的输出，在多个去噪步骤间共享（重用），避免了每一步都重新计算，从而大幅提升推理效率。创新：与E2-TTS、F5-TTS等通过填充字符来实现隐式对齐的方法不同，ARCHI-TTS显式设计了一个对齐模块。与需要额外蒸馏训练（如DMDSpeech）的加速方法不同，本文的加速策略是训练无关的，直接来自对模型架构特性的洞察。主要实验结果：在LibriSpeech-PC test-clean上，WER为1.98%，SSIM为0.70，RTF为0.21（单卡3090）。在SeedTTS test-en上，WER为1.47%，SSIM为0.68。在SeedTTS test-zh上，WER为1.42%，SSIM为0.70。使用75%共享比例时，在NFE=32下，WER仍保持1.98%，RTF降至0.09。 MOS主观评测中，其自然度和说话人相似度与F5-TTS和CosyVoice2处于竞争水平。模型参数量训练数据 WER(%)↓ SSIM↑ RTF↓ 测试集 F5-TTS 336M 100K Multi. 2.42 0.66 0.31 LibriSpeech-PC test-clean ARCHI-TTS 289M 100K Multi. 1.98 0.70 0.21 LibriSpeech-PC test-clean F5-TTS - - 1.83 0.67 - SeedTTS test-en ARCHI-TTS - - 1.47 0.68 - SeedTTS test-en DiTAR - - 1.02 0.75 - SeedTTS test-zh ARCHI-TTS - - 1.42 0.70 - SeedTTS test-zh (图1：ARCHI-TTS整体架构概览图，展示了语义对齐器、条件编码器、速度解码器及数据流。) ...