Fake Speech Wild: Detecting Deepfake Speech on Social Media Platform

📄 Fake Speech Wild: Detecting Deepfake Speech on Social Media Platform #语音伪造检测 #自监督学习 #数据增强 #鲁棒性 #基准测试 ✅ 7.0/10 | 前25% | #语音伪造检测 | #自监督学习 | #数据增强 #鲁棒性 学术质量 7.0/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yuankun Xie(Communication University of China, Beijing, China) 通讯作者:Ruibo Fu(Institute of Automation, Chinese Academy of Sciences, Beijing, China),Long Ye(Communication University of China, Beijing, China) 作者列表:Yuankun Xie(中国传媒大学),Ruibo Fu(中国科学院自动化研究所),Xiaopeng Wang(北京理工大学),Zhiyong Wang(中国科学院自动化研究所),Ya Li(北京邮电大学),Yingming Gao(北京邮电大学),Zhengqi Wen(北京国家信息科学与技术研究中心,清华大学),Haonan Cheng(中国传媒大学),Long Ye(中国传媒大学) 💡 毒舌点评 这篇论文最大的亮点是做了一件“脏活累活”——构建了一个贴近真实世界、多平台、多账户的中文深度伪造语音数据集(FSW),并用它系统性地戳穿了现有检测模型在“温室”数据集上虚假的高性能泡沫,为社区提供了更严格的评估标准。短板在于,它本质上是“评估”和“诊断”工作,虽然实用,但并未提出一种具有突破性的新型检测模型架构,更像是为后续工作铺设了一条更真实的跑道。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 418 words

FlowSE-GRPO: Training Flow Matching Speech Enhancement via Online Reinforcement Learning

📄 FlowSE-GRPO: Training Flow Matching Speech Enhancement via Online Reinforcement Learning #语音增强 #强化学习 #流匹配 #迁移学习 #基准测试 ✅ 7.5/10 | 前25% | #语音增强 | #强化学习 | #流匹配 #迁移学习 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:未说明(论文作者列表按顺序给出,但未明确标注第一作者) 通讯作者:未说明(论文中未提供邮箱或通讯作者标识) 作者列表:Haoxu Wang, Biao Tian, Yiheng Jiang, Zexu Pan, Shengkui Zhao, Bin Ma, Daren Chen, Xiangang Li(均隶属于 Tongyi Lab, Alibaba Group, China) 💡 毒舌点评 亮点:作为将在线强化学习(GRPO)成功应用于流匹配语音增强的开创性工作,其提出的多指标奖励优化策略巧妙地缓解了“奖励黑客”问题,且仅需少量微调步数(5k步)即获得显著提升。短板:尽管技术细节详尽,但论文对代码和模型开源的完全沉默,大大削弱了其结果的可验证性和社区快速跟进的可能性;同时,多指标权重需精细调优也暴露了当前策略的脆弱性。 🔗 开源详情 根据论文内容,总结开源情况如下: 代码:论文中未提及任何代码仓库链接或开源计划。 模型权重:未提及是否公开预训练或后训练的模型权重。 数据集:使用了多个公开数据集(DNS2020, LibriTTS, WHAM!等),但论文未提供整合后的训练集获取方式。 Demo:未提及在线演示。 复现材料:论文提供了非常详细的训练配置、模型结构、超参数设置(如DiT维度、层数、LoRA参数、学习率、窗口训练设置等)以及消融实验设置,这些信息对复现至关重要。 论文中引用的开源项目:明确提到了使用预训练的HiFi-GAN声码器(来自CosyVoice2)和DiT架构。 📌 核心摘要 本文旨在解决将在线强化学习(RL)有效应用于生成式语音增强(SE)模型后训练的难题。其方法核心是首次将组相对策略优化(GRPO)成功集成到基于流匹配(Flow Matching)的语音增强框架中,通过将确定性常微分方程(ODE)采样转换为随机微分方程(SDE)采样来引入RL所需的随机性,并设计了针对连续语音信号的损失函数。与以往使用离线方法(如DPO)或仅应用于离散Token的方法相比,本文创新性地实现了在线、无需修改原始架构的GRPO训练。主要实验结果表明,在DNS2020测试集上,与基线模型相比,所提多指标优化模型在无回声测试集上将整体质量(OVRL)从3.373提升至3.549(+0.176),说话人相似度从88.88%提升至90.43%,并显著减少了奖励黑客现象。该研究的实际意义在于为生成式音频模型的后训练提供了高效、实用的在线RL对齐方案。主要局限性在于多指标权重需人工调整,且论文未提供开源代码。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 338 words

FoleyBench: A Benchmark for Video-to-Audio Models

📄 FoleyBench: A Benchmark for Video-to-Audio Models #音频生成 #基准测试 #音视频 #多模态模型 ✅ 7.5/10 | 前25% | #音频生成 | #基准测试 | #音视频 #多模态模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Satvik Dixit(Carnegie Mellon University) 通讯作者:未说明 作者列表:Satvik Dixit (Carnegie Mellon University), Koichi Saito (Sony AI), Zhi Zhong (Sony AI), Yuki Mitsufuji (Sony AI, Sony Group Corporation), Chris Donahue (Carnegie Mellon University) 💡 毒舌点评 论文精准地指出了现有V2A评估基准(如VGGSound)在Foley场景下的核心缺陷(74%样本音画对应差),并针对性地提出了首个专用基准,分析深入且实用。然而,其数据集构建管道严重依赖商业模型(Gemini 2.5 Pro)进行质量过滤,这不仅增加了复现成本,也使得“可扩展自动化”的宣称打了一定折扣。 🔗 开源详情 代码:论文中未提及公开的代码仓库链接(如用于数据集构建的管道代码)。 模型权重:未提及。本文是基准论文,不提出自有模型。 数据集:论文提供了数据集样本网站(https://gclef-cmu.org/foleybench),并描述了数据来源和构建方法,但未明确说明完整数据集是否公开下载及具体获取方式。 Demo:未提及。 复现材料:论文详细描述了数据集构建的多阶段管道、使用的工具(YAMNet, Gemini 2.5 Pro)和过滤参数,为复现其数据集创建过程提供了清晰指南。评测指标使用了公开的AV-benchmark工具包。 论文中引用的开源项目:YAMNet, AV-benchmark toolkit, PANNs, LAION-CLAP, ImageBind等。 📌 核心摘要 要解决什么问题:现有的视频到音频(V2A)生成模型评估基准(如VGGSound)与Foley(音效)等实际下游应用严重脱节。分析发现,VGGSound中74%的视频音画对应关系差,且内容被语音和音乐主导,无法有效评估专为视觉事件生成同步音效的模型。 方法核心是什么:提出FoleyBench,首个大规模、专门针对Foley场景的V2A评估基准。它包含5000个经过自动筛选的高质量(视频、真实音频、文本描述)三元组。其核心是一个自动化的多阶段数据集构建管道:收集网络视频 -> 场景检测与裁剪 -> 通过YAMNet过滤语音/音乐 -> 使用Gemini 2.5 Pro筛选确保音画因果关系。 与已有方法相比新在哪里:(1)定义并专注于Foley场景(非语音、非音乐、音源可见且同步),填补了专用基准的空白;(2)设计了包含AudioSet和UCS标签、声源复杂度、声音包络类型等丰富元数据的标注体系,支持细粒度分析;(3)提供了包含650个30秒长视频的子集FoleyBench-Long,以评估长音频生成能力。 主要实验结果如何: 基准对比:与VGGSound相比,FoleyBench的Foley类别覆盖更广(Shannon熵5.35 vs 4.73),且评估结果相关性在音频保真度指标上较弱,说明其能提供不同的评估视角。 模型评估:在对11个SotA V2A模型的评估中,MMAudio在多数指标上表现最佳,Seeing & Hearing在语义对齐(IB)上最优,V-AURA在时序同步(DS)上次优。主要发现包括:模型在生成离散事件音时,同步变好但质量变差;在处理背景音和多源声音时性能显著下降;文本条件能提供关键的语义先验。 长视频评估:在FoleyBench-Long上,所有模型性能普遍下降,MMAudio仍保持同步优势,但音频质量大幅下滑;而专为长视频设计的LOVA在音频质量上表现相对较好。 关键数据表格: 方法 VGGSound IB↑ FoleyBench IB↑ FoleyBench DS↓ FoleyBench FAD↓ FoleyBench IS↑ V-AURA 0.276 0.237 0.716 27.2 6.44 Seeing&Hearing 0.339 0.371 1.08 25.0 4.80 MMAudio^T 0.332 0.306 0.447 8.76 11.2 实际意义是什么:为V2A研究社区,特别是Foley合成方向,提供了一个更可靠、更贴近应用的评估标准,有助于更准确地衡量模型进展,并指明未来改进方向(如提升离散事件音保真度、处理多源/背景音、长时生成)。 主要局限性是什么:(1)数据集构建核心环节依赖商业黑箱模型(Gemini),可复现性和透明度受限;(2)虽然分析了失败模式,但并未提出解决这些核心挑战(如多源声音混合、长时一致性)的新模型或算法。 🏗️ 模型架构 本文并未提出一个新的V2A生成模型,而是提出了一个用于评估现有模型的基准测试框架。因此,其核心“架构”是数据集构建管道与评估体系。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 297 words

From Human Speech to Ocean Signals: Transferring Speech Large Models for Underwater Acoustic Target Recognition

📄 From Human Speech to Ocean Signals: Transferring Speech Large Models for Underwater Acoustic Target Recognition #水下声学目标识别 #迁移学习 #语音大模型 #跨域泛化 #基准测试 ✅ 7.0/10 | 前25% | #水下声学目标识别 | #迁移学习 | #语音大模型 #跨域泛化 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Mengcheng Huang(哈尔滨工程大学计算机科学与技术学院) 通讯作者:Chen Xu*(哈尔滨工程大学计算机科学与技术学院,邮箱:chen.xu@hrbeu.edu.cn) 作者列表:Mengcheng Huang(哈尔滨工程大学计算机科学与技术学院)、Xue Zhou(哈尔滨工程大学计算机科学与技术学院)、Chen Xu*(哈尔滨工程大学计算机科学与技术学院)、Dapeng Man(哈尔滨工程大学计算机科学与技术学院) 💡 毒舌点评 亮点:这篇论文做了一件很聪明的事——把在大规模人类语音上训练好的“耳朵”(SenseVoice)直接拿去听海洋,结果发现这个“耳朵”不仅能听懂人话,还能精准识别不同船只,甚至在陌生海域也能工作得很好(跨域96.67%),证明了SOTA语音模型作为通用声学编码器的巨大潜力。短板:然而,整个框架就是“预训练模型+平均池化+线性层”的简单拼接,缺乏针对水声特性(如多径传播、海洋噪声)的深入适配和机制解释;更关键的是,论文声称进行了消融实验来验证设计选择,却“因篇幅限制”只字未提,这让其最优性能的结论打了折扣,也影响了工作的透明度和严谨性。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及是否公开SenseVoice微调后的权重。 数据集:使用了公开数据集DeepShip和ShipsEar,但论文中未提供获取链接。 Demo:未提及。 复现材料:给出了部分训练超参数(优化器、学习率、批大小),但未提供完整的训练配置、脚本、预训练模型下载方式或详细说明。 论文中引用的开源项目:主要引用了SenseVoice模型[17],但未明确说明其获取途径。 📌 核心摘要 这篇论文针对水下声学目标识别(UATR)中数据稀缺和环境复杂的两大挑战,探索能否将大规模语音模型(SLM)的知识迁移过来。方法核心是提出UATR-SLM框架:复用语音特征提取流程,将训练好的语音大模型(具体使用SenseVoiceSmall)作为通用声学编码器,并替换其解码器为轻量级分类头(平均池化+线性层)进行微调。与传统方法从头训练或仅使用有限数据增强不同,该工作的创新在于首次系统性地利用SOTA语音基础模型来“跨界”解决水声问题。在DeepShip和ShipsEar两个基准测试中,UATR-SLM的F1分数分别达到99.32%和99.09%,超越了所有对比的ResNet等基线方法;在变长信号测试中表现出强鲁棒性(1秒音频准确率95.87%);在零样本跨域评估中,从DeepShip迁移到ShipsEar,准确率高达96.67%,而ResNet基线仅53%-70%。这证明了SLM编码的声学表征具有强大的域不变性和可迁移性。其实际意义在于为资源受限的水声应用开辟了新范式,可能大幅降低对大量标注水声数据的依赖。主要局限在于框架设计简单直接,未深入探讨迁移成功的内部机理,且关键实验细节(如消融研究)缺失。 🏗️ 模型架构 UATR-SLM框架整体架构如图1所示,流程清晰,分为三个核心组件: ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 285 words

Game-Time: Evaluating Temporal Dynamics in Spoken Language Models

📄 Game-Time: Evaluating Temporal Dynamics in Spoken Language Models #基准测试 #模型评估 #语音大模型 #全双工通信 ✅ 7.5/10 | 前25% | #语音对话系统 | #基准测试 | #模型评估 #语音大模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Kai-Wei Chang1(麻省理工学院),En-Pei Hu2(台湾大学) (*表示共同第一作者) 通讯作者:未说明 (论文中未明确标注通讯作者) 作者列表:Kai-Wei Chang (麻省理工学院), En-Pei Hu (台湾大学), Chun-Yi Kuan (台湾大学), Wenze Ren (台湾大学), Wei-Chih Chen (台湾大学), Guan-Ting Lin (台湾大学), Yu Tsao (中央研究院), Shao-Hua Sun (台湾大学), Hung-yi Lee (台湾大学), James Glass (麻省理工学院) 💡 毒舌点评 亮点:选题精准地击中了当前语音对话模型“懂内容,不懂时间”的痛点,并创新性地将儿童语言学习中的“游戏化”概念引入评测框架设计,思路新颖且系统。短板:实验规模(模型数量与评测样本)相对有限,且高度依赖外部工具(如Whisper转录、Gemini作为Judge)进行评估,使得评测流程的自主性与结果的绝对可靠性存在一定折扣。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 245 words

Hashing-Baseline: Rethinking Hashing in the Age of Pretrained Models

📄 Hashing-Baseline: Rethinking Hashing in the Age of Pretrained Models #音频检索 #图像检索 #预训练 #基准测试 #模型评估 🔥 8.0/10 | 前25% | #音频检索 #音频分类 | #预训练 | #音频检索 #图像检索 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文作者列表顺序为并列贡献) 通讯作者:未说明 作者列表:Ilyass Moummad(INRIA, LIRMM, Université de Montpellier, France),Kawtar Zaher(INRIA, LIRMM, Université de Montpellier, France;Institut National de l’Audiovisuel, France),Lukas Rauch(University of Kassel, Germany),Alexis Joly(INRIA, LIRMM, Université de Montpellier, France) 💡 毒舌点评 亮点在于论文极其简洁地证明了“大力出奇迹”的道理:利用强大的预训练模型(如DINOv2、CLAP)的冻结嵌入,搭配几个无需训练的经典降维与二值化“零件”(PCA、随机正交投影),就能在图像和音频检索任务上达到与昂贵训练的深度哈希方法相竞争的性能,这为实际应用提供了一个极其简单且强大的基线。短板在于方法本身的创新性有限,本质上是现有技术的拼接,且虽然提出了音频哈希基准,但在更大规模、更贴近真实场景的跨域检索任务上的验证仍然不足。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 268 words

ICASSP 2026 - 基准测试 论文列表

ICASSP 2026 - 基准测试 共 5 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 StyleBench: Evaluating Speech Language Models on Conversatio 8.5分 前25% 🥈 LongSpeech: A Scalable Benchmark for Transcription, Translat 7.8分 前25% 🥉 Savgbench: Benchmarking Spatially Aligned Audio-Video Genera 7.5分 前50% 4. Streamingbench: Assessing the Gap for MLLMs to Achieve Strea 7.5分 前25% 5. Can Large Audio Language Models Understand Audio Well? Speec 7.0分 前25% 📋 论文详情 🥇 StyleBench: Evaluating Speech Language Models on Conversational Speaking Style Control 🔥 8.5/10 | 前25% | #基准测试 | #模型评估 | #语音大模型 #语音情感识别 ...

2026-04-29 · 更新于 2026-05-20 · 4 min · 748 words

Leveraging prediction entropy for Automatic prompt weighting in Zero-Shot Audio-Language Classification

📄 Leveraging prediction entropy for Automatic prompt weighting in Zero-Shot Audio-Language Classification #音频分类 #零样本 #多模态模型 #基准测试 #模型评估 ✅ 7.5/10 | 前25% | #音频分类 | #零样本 | #多模态模型 #基准测试 学术质量 6.2/7 | 选题价值 1.3/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Karim El Khoury† (ICTEAM, UCLouvain, Belgium), Maxime Zanella† (ICTEAM, UCLouvain, Belgium; ILIA, UMons, Belgium), Tiffanie Godelaine† (ICTEAM, UCLouvain, Belgium) (论文注明†表示贡献均等) 通讯作者:未说明 作者列表:Karim El Khoury (ICTEAM, UCLouvain, Belgium), Maxime Zanella (ICTEAM, UCLouvain, Belgium; ILIA, UMons, Belgium), Tiffanie Godelaine (ICTEAM, UCLouvain, Belgium), Christophe De Vleeschouwer (ICTEAM, UCLouvain, Belgium), Benoît Macq (ICTEAM, UCLouvain, Belgium) 💡 毒舌点评 本文提出的“熵最小化”加权策略,是一个将视觉领域思路巧妙迁移到音频-语言模型提示集成的优雅解决方案,其轻量级(可忽略的计算开销)和无需标注数据的特性使其具备即插即用的实用价值。然而,整篇论文的创新和验证都高度绑定在一个较为陈旧的模型(CLAP-2022)上,缺乏在新近、更强大的音频-语言模型(如Audio-MAE, Pengi)上的验证,这极大地限制了其贡献的通用性和时效性。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 290 words

LongSpeech: A Scalable Benchmark for Transcription, Translation and Understanding in Long Speech

📄 LongSpeech: A Scalable Benchmark for Transcription, Translation and Understanding in Long Speech #基准测试 #数据集 #语音识别 #语音翻译 #多语言 ✅ 7.8/10 | 前25% | #基准测试 | #数据集 | #语音识别 #语音翻译 学术质量 5.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Fei Yang(上海交通大学;阿里巴巴国际数字商务) 通讯作者:Chenyang Lyu(阿里巴巴国际数字商务) 作者列表: Fei Yang(上海交通大学;阿里巴巴国际数字商务) Xuanfan Ni(阿里巴巴国际数字商务) Renyi Yang(代尔夫特理工大学;阿里巴巴国际数字商务) Jiahui Geng(林雪平大学) Qing Li(格罗宁根大学) Chenyang Lyu(阿里巴巴国际数字商务) Yichao Du(阿里巴巴国际数字商务) Longyue Wang(阿里巴巴国际数字商务) Weihua Luo(阿里巴巴国际数字商务) Kaifu Zhang(阿里巴巴国际数字商务) 💡 毒舌点评 亮点:论文直面语音模型从“短句能手”到“长卷大师”转型过程中的评测荒漠,构建了一个任务全面、数据量级宏大(10万+段,每段约10分钟)的“压力测试场”,其“内容分离”和“时序定位”等任务设计尤其刁钻,能有效暴露模型在长上下文推理上的短板。短板:作为基准,其自身的“创新”更多是工程整合与任务设计,论文对实验结果的剖析深度略显不足(例如,为何某些模型在特定任务上崩溃?),且完全依赖GPT-4作为某些任务的评估器,引入了“用更贵的模型评估便宜的模型”的黑箱与成本问题。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文评估了多个现有模型,但未提及公开自己训练的模型权重。 数据集:论文明确表示“The benchmark will be made publicly available to the research community.”,即数据集计划开源,但未给出具体的下载链接或平台(如Hugging Face)。 Demo:论文中未提及。 复现材料:论文提供了数据构建的方法论和流程描述,这是重要的复现材料。但未提供数据预处理脚本、评估脚本或具体的超参数配置。 引用的开源项目:论文引用了被评估的音频语言模型的代码库或技术报告,如Whisper [1], Qwen2-Audio [5], Kimi-Audio [6], AudioFlamingo3 [9], Voxtral [10], DashengLM [11]。也引用了评估工具如GPT-4-Turbo [14]和指标库如ROUGE [13]。 📌 核心摘要 解决问题:现有语音基准测试(如LibriSpeech)主要针对短音频,无法有效评估模型处理真实世界长时音频(如会议、讲座)的能力,特别是在需要跨片段理解、推理和跟踪复杂信息时。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 250 words

Measuring Prosody Diversity in Zero-Shot TTS: A New Metric, Benchmark, and Exploration

📄 Measuring Prosody Diversity in Zero-Shot TTS: A New Metric, Benchmark, and Exploration #语音合成 #模型评估 #基准测试 #自监督学习 🔥 8.0/10 | 前25% | #语音合成 | #模型评估 | #基准测试 #自监督学习 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yifan Yang(上海交通大学 X-LANCE实验室,蚂蚁关键人工智能实验室,江苏语言计算重点实验室) 通讯作者:Xie Chen(上海交通大学 X-LANCE实验室,上海创新研究院) 作者列表:Yifan Yang(上海交通大学 X-LANCE实验室,蚂蚁关键人工智能实验室,江苏语言计算重点实验室),Bing Han(上海交通大学 X-LANCE实验室,蚂蚁关键人工智能实验室,江苏语言计算重点实验室),Hui Wang(南开大学),Long Zhou(腾讯混元),Wei Wang(上海交通大学 X-LANCE实验室,蚂蚁关键人工智能实验室,江苏语言计算重点实验室),Mingyu Cui(腾讯混元),Xu Tan(腾讯混元),Xie Chen(上海交通大学 X-LANCE实验室,上海创新研究院) *注:原文作者姓名“Mingyu Cui”在页脚签名中显示为“Mingyu Cui”,但参考文献中显示为“Mingyu Cui”。此处按页脚信息记录。 💡 毒舌点评 这篇论文最大的价值在于为“韵律多样性”这个有点玄学的概念建立了一套扎实的客观评估体系(DS-WED指标+ProsodyEval数据集),让社区有了统一的比较标尺,而不仅仅是依赖主观听感或片面的F0/MCD指标。但必须指出,其构建的“黄金标准”ProsodyEval数据集仅覆盖了7个模型和英语语音,其泛化到更多语言、更嘈杂或更具表现力场景的有效性尚未验证,这是其作为通用基准的主要短板。 🔗 开源详情 代码:是,提供了代码仓库链接:https://github.com/yfyeung/DS-WED。 模型权重:论文未提及公开其训练的任何模型权重(如DS-WED评估流水线中使用的k-means聚类模型)。所评测的各TTS系统为第三方开源模型,论文中提供了其官方链接。 数据集:是,提供了ProsodyEval评测数据集的访问链接:https://prosodyeval.github.io。 Demo:未提及在线演示。 复现材料:论文提供了详细的评测设置(如DS-WED使用的SSL层、聚类数)、基准测试所用的语音来源(LibriSpeech test-clean, Seed-TTS test-en),以及消融实验的具体配置。 论文中引用的开源项目:Silero-VAD (用于语音活动检测)、HuBERT、WavLM (用于语音表示)、以及所评测的TTS系统(XTTS-v2, CosyVoice, MaskGCT, E2 TTS, F5-TTS, ZipVoice)。 📌 核心摘要 问题:零样本语音合成(TTS)中韵律多样性(即同一文本不同合成结果间的语调、节奏等差异)对自然表现力至关重要,但缺乏与人类感知高度相关、且能全面捕捉韵律信息的客观评估指标。 方法核心:提出ProsodyEval人类标注数据集和DS-WED(离散语音加权编辑距离)指标。DS-WED首先使用自监督模型(如HuBERT)对语音进行离散化得到语义token序列,然后通过计算两段语音token序列间的加权编辑距离来量化韵律差异。 创新点:1) DS-WED相比传统声学指标(如log F0 RMSE、MCD)与人类评分相关性显著更高;2) 提供了首个系统性的零样本TTS韵律多样性基准测试;3) 发现了生成范式(AR vs NAR)、持续时间控制、强化学习(DPO)等因素对韵律多样性的关键影响。 实验结果:在ProsodyEval数据集上,DS-WED与人类平均意见分(PMOS)的平均皮尔逊相关系数达0.77,远高于MCD(0.66)和log F0 RMSE(0.30)。基准测试显示,自回归(AR)模型在韵律多样性上普遍优于基于流匹配的非自回归(NAR)模型,但MaskGCT(掩码生成模型)表现突出。此外,DPO对齐会降低韵律多样性(例如CosyVoice 2下降18.8%)。具体数据见下表: 表1:不同指标与人工评分PMOS的相关性对比(平均皮尔逊系数及其95%置信区间) ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 293 words