BridgeCode: A Dual Speech Representation Paradigm for Autoregressive Zero-Shot Text-to-Speech Synthesis

📄 BridgeCode: A Dual Speech Representation Paradigm for Autoregressive Zero-Shot Text-to-Speech Synthesis #语音合成 #自回归模型 #零样本 #模型评估 🔥 8.0/10 | 前25% | #语音合成 | #自回归模型 | #零样本 #模型评估 学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Jingyuan Xing(华南理工大学)、Mingru Yang(华南理工大学) (论文注明两者共同第一作者) 通讯作者:Xiaofen Xing(华南理工大学)、Xiangmin Xu(佛山大学) (论文标注†) 作者列表:Jingyuan Xing(华南理工大学)、Mingru Yang(华南理工大学)、Zhipeng Li(华南理工大学)、Xiaofen Xing(华南理工大学)、Xiangmin Xu(佛山大学,华南理工大学) 💡 毒舌点评 亮点在于其提出的“双表示”范式巧妙地将离散token的生成效率与连续特征的高质量重建相结合,有效缓解了自回归TTS中经典的“速度-质量”矛盾,并在实验中取得了目前最低的token生成率。短板是所有实验仅在英语LibriTTS一个数据集上进行,虽然方法具有通用性,但缺乏多语言或跨领域(如情感、唱歌)的验证,其真实泛化能力尚待证明。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及公开模型权重。 数据集:实验使用公开的LibriTTS数据集,但未提供经过处理的特定数据或脚本。 Demo:提供了在线语音合成演示页面链接:https://test1562.github.io/demo/. 复现材料:给出了部分训练细节(如优化器、学习率、batch size、训练步数、硬件),但未提供完整的训练配置文件、模型架构详细参数或检查点。 论文中引用的开源项目:wav2vec 2.0 Base(特征编码器)、HiFi-GAN(vocoder)。 📌 核心摘要 要解决什么问题:针对基于自回归(AR)的零样本文本到语音合成(TTS)中存在的两个关键问题:(i) 生成速率与合成质量之间固有的权衡矛盾;(ii) 直接沿用文本模型训练范式导致的语音监督信号失配。 方法核心是什么:提出BridgeTTS框架,其核心是BridgeCode双语音表示范式。该范式包含稀疏的离散token和稠密的连续特征两种表示,并设计了SparseBridge和DenseBridge两个对称的桥接模块进行双向转换。AR模型在生成时只需预测低帧率的稀疏token,再通过DenseBridge恢复出高信息量的连续特征用于高质量合成。同时,训练中引入特征损失(Feature Loss)与token损失联合优化,提供更细粒度的监督。 与已有方法相比新在哪里:不同于以往AR-TTS要么降低token率牺牲质量,要么增加token信息量牺牲效率的单一思路,BridgeCode首次提出利用“稀疏token生成+连续特征重建”的混合范式,在提升效率的同时保证质量。此外,通过联合token级和特征级的损失函数,解决了AR模型训练中的监督信号失配问题。 主要实验结果如何:在LibriTTS数据集上,BridgeTTS取得了最低的Token Rate(10Hz),相较于基线CosyVoice(25Hz)和GPT-Talker(50Hz)大幅降低。同时,其词错误率(WER)在测试集上为4.9%,显著低于VALL-E(18.5%)、UniAudio(12.9%)和GPT-Talker(16.4%),仅略高于CosyVoice(8.0%)。在语音质量(QMOS)和说话人相似度(SMOS)上,BridgeTTS与最优的CosyVoice表现相当或略低,但均优于大多数基线。消融实验证明,DenseBridge和特征损失对性能有关键贡献。合成速度(RTF)相比基线AR模型提升了约63%(0.37x)。 模型 Token Rate (↓) WER (↓) SMOS (↑) QMOS (↑) UTMOS (↑) LibriTTS Development Set GT / 2.3% 4.41 ± 0.11 4.41 ± 0.13 4.258 CosyVoice 25Hz 6.8% 4.13 ± 0.12 4.36 ± 0.12 4.253 BridgeTTS (Ours) 10Hz 3.4% 4.07 ± 0.11 4.15 ± 0.09 4.050 LibriTTS Test Set VALL-E 50Hz 18.5% 3.64 ± 0.12 3.49 ± 0.11 2.728 CosyVoice 25Hz 8.0% 4.12 ± 0.08 4.29 ± 0.11 4.148 BridgeTTS (Ours) 10Hz 4.9% 4.01 ± 0.12 4.11 ± 0.13 3.894 模型 Token Rate (↓) WER (↓) SMOS (↑) QMOS (↑) UTMOS (↑) BridgeTTS 10Hz 4.9% 4.01 ± 0.12 4.11 ± 0.13 3.894 -w/o DenseBridge 10Hz 13.8% 3.74 ± 0.11 3.74 ± 0.12 3.443 -w/o Lfeatures 10Hz 7.1% 3.92 ± 0.13 3.96 ± 0.12 3.471 系统 RTF (↓) Token Rate (↓) WER (↓) SMOS (↑) QMOS (↑) UTMOS (↑) Baseline AR 1× 50Hz 9.8% - - - BridgeTTS 0.37× 10Hz 4.9% +0.12 +0.09 +0.43 实际意义是什么:该方法为构建更高效、高质量的零样本TTS系统提供了新思路。通过降低自回归生成的计算需求,有助于在资源受限的设备或需要实时响应的场景中部署先进的语音合成技术。 主要局限性是什么:目前所有实验仅在英文LibriTTS数据集上进行,对于多语言、跨领域的泛化能力未做探讨。此外,虽然对比了多种基线,但未与最新(如2025-2026)的一些代表性工作进行直接比较。 🏗️ 模型架构 BridgeTTS的整体架构分为两大部分:BridgeCode表示学习框架和BridgeTTS自回归生成框架。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 344 words

Conditional Diffusion Models for Mental Health-Preserving Voice Conversion

📄 Conditional Diffusion Models for Mental Health-Preserving Voice Conversion #语音转换 #扩散模型 #语音匿名化 #语音生物标志物 #零样本 🔥 8.0/10 | 前25% | #语音转换 | #扩散模型 | #语音匿名化 #语音生物标志物 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Siddharth Kalyanasundaram(科罗拉多大学博尔德分校认知科学与计算机科学研究所) 通讯作者:未说明(从邮箱格式和惯例推断,Theodora Chaspari可能为通讯作者,但论文未明确标注) 作者列表:Siddharth Kalyanasundaram(科罗拉多大学博尔德分校认知科学与计算机科学研究所)、Theodora Chaspari(科罗拉多大学博尔德分校认知科学与计算机科学研究所) 💡 毒舌点评 这篇论文巧妙地将扩散模型用于一个“政治正确”但技术挑战十足的场景——在给抑郁症语音“变声”脱敏的同时,还要保住其病情线索,想法和落点都值得称赞。但遗憾的是,模型的训练“粮草”太少(仅28小时语音),导致其在通用语音质量(自然度、可懂度)上略逊于“吃得多”的基线,显得“巧妇难为无米之炊”。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:使用了E-DAIC-WOZ数据集,这是一个公开但需要申请获取的数据集(论文未提供获取方式)。 Demo:提供在线演示链接:https://sidks.github.io/icassp26_vcdemo/。 复现材料:给出了模型规模(23M/67M)、优化器(AdamW)、学习率(5e-5)、训练轮数(446)、批大小(32)、训练硬件(单A100)和时长(72小时)等关键信息。 论文中引用的开源项目/工具:引用了XLS-R (Wav2Vec 2.0)、VQ-VAE、YAAPT、OpenSMILE(eGeMAPS特征)、Whisper、StyleEncoder、Vevo-Voice、QuickVC等相关模型或工具,但未指明本文是否直接依赖这些项目的开源代码。 整体开源情况:论文中未提及完整的开源计划。 📌 核心摘要 解决的问题:语音是心理健康(如抑郁症)的重要生物标志物,但包含说话人身份等敏感信息,阻碍了数据共享与研究复现。需要在匿名化语音的同时,保留对心理健康研究至关重要的副语言信息。 方法核心:提出一种基于条件扩散模型(DM)的语音转换(VC)框架。首先,将语音解耦为内容(w2v)、音高(f0)、说话人身份(s)和抑郁(d)四个嵌入表示。然后,以目标说话人嵌入(s’)和抑郁嵌入(d)作为条件,指导扩散模型的反向去噪过程,生成既改变身份又保留抑郁线索的新语音。 与已有方法的新意:首次将扩散模型应用于明确保留抑郁线索的语音转换任务。现有VC方法(如基于VAE、GAN的模型)在匿名化时会严重退化副语言信息(如情绪、抑郁线索),而本文通过将抑郁嵌入作为扩散过程的显式条件,实现了对关键生物标志物的保护。 主要实验结果:在未见说话人的零样本设置下,所提模型(DM-23M, DM-67M)与SOTA基线(Vevo-Voice, QuickVC)在语音可懂度(WER/CER)和说话人相似度(SECS)上表现相当。核心优势在于抑郁信息保留:所提模型转换后语音的抑郁严重程度(PHQ-8)预测平均绝对误差(MAE)显著低于基线(DM-23M:5.025 vs. Vevo-Voice:5.478, QuickVC:5.804),且预测分数分布与原始语音更接近(KL散度约0.06 vs. 24+)。 模型 WER ↓ CER ↓ SECS ↑ PHQ-8 MAE ↓ nMOS ↑ sMOS ↑ 原始语音 0.046 0.025 0.872 4.522 4.17 3.85 Vevo-Voice 0.078 0.043 0.850 5.478 4.14 3.74 QuickVC 0.059 0.046 0.731 5.804 4.04 3.59 DM-23M (本文) 0.082 0.047 0.804 5.025 3.97 3.71 DM-67M (本文) 0.068 0.041 0.829 5.055 4.03 3.78 实际意义:为心理健康研究提供了一种潜在的隐私保护工具,可以在保护参与者隐私的前提下,促进脱敏语音数据的共享与分析,有助于推动该领域的研究复现和跨机构合作。 主要局限性:训练数据规模较小(仅28小时),限制了模型生成语音的自然度和可懂度;仅针对抑郁症进行评估,未验证对其他副语言信息(如情绪、认知状态)的保留能力;隐私-效用权衡(EER指标)显示匿名化程度还有提升空间。 🏗️ 模型架构 论文提出的模型架构遵循“源-滤波器”分解框架,并采用扩散模型进行条件生成。整体流程如图1所示。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 246 words

Cross-Lingual F5-TTS: Towards Language-Agnostic Voice Cloning and Speech Synthesis

📄 Cross-Lingual F5-TTS: Towards Language-Agnostic Voice Cloning and Speech Synthesis #语音克隆 #语音合成 #流匹配 #多语言 #零样本 ✅ 7.5/10 | 前25% | #语音克隆 | #流匹配 | #语音合成 #多语言 学术质量 7.0/7 | 选题价值 8.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Qingyu Liu(上海交通大学 X-LANCE Lab / 约翰斯·霍普金斯大学) 通讯作者:Xie Chen(上海交通大学 X-LANCE Lab / 上海创新研究院)†(论文中明确标注为通讯作者) 作者列表:Qingyu Liu(上海交通大学、约翰斯·霍普金斯大学)、Yushen Chen(上海交通大学、上海创新研究院)、Zhikang Niu(上海交通大学、上海创新研究院)、Chunhui Wang(吉利)、Yunting Yang(吉利)、Bowen Zhang(吉利)、Jian Zhao(吉利)、Pengcheng Zhu(吉利)、Kai Yu(上海交通大学)、Xie Chen(上海交通大学、上海创新研究院) 💡 毒舌点评 亮点:论文精准地找到了flow-matching TTS在跨语言场景下的痛点——对音频提示转录文本的依赖,并通过引入多粒度说话率预测器给出了一个工程上优雅的解决方案。短板:说话率预测器本身只在中文和英文数据上训练,却要声称对德、法、印地、韩等“未见语言”有效,这一结论的支撑略显单薄;此外,去除转录文本后“细粒度说话人特征(如口音、情感)”的迁移能力下降,在论文中被轻描淡写为“未来工作”,但这恰恰是克隆质量的要害。 🔗 开源详情 代码:提供了Demo链接(https://huggingface.co/spaces/chenxie95/Cross-Lingual_F5-TTS_Space)和个人主页示例(https://qingyuliu0521.github.io/Cross_lingual-F5-TTS/)。论文指出Cross-Lingual F5-TTS的代码可通过这些链接访问,暗示已开源。 模型权重:基础模型F5-TTS-Base已开源。本文提出的Cross-Lingual F5-TTS模型和说话率预测器的具体权重下载地址论文中未明确提供。 数据集:使用了公开数据集Emilia、LibriSpeech、FLEURS。未提供本文特有的测试集(跨语言测试集)的独立下载。 Demo:提供了交互式HuggingFace Spaces Demo。 复现材料:提供了详尽的训练配置(模型架构、优化器、学习率、batch size、训练步数)、推理设置(NFE、CFG等)和预处理方法描述,为复现提供了坚实基础。 依赖的开源项目:MMS (forced alignment), Vocos (vocoder), Whisper-large-V3 (WER评估), Paraformer-zh (中文WER评估), WavLM (说话人相似度评估), UTMOS (自然度评估)。 📌 核心摘要 问题:现有的基于流匹配的文本转语音(TTS)模型在进行跨语言语音克隆时,严重依赖于对音频提示(参考音频)的转录文本,这在目标语言未知或转录不可用时无法实现。 方法核心:提出Cross-Lingual F5-TTS框架。训练时,利用MMS强制对齐工具预处理数据,获取词边界,将音频提示部分及其对应文本完全丢弃,仅用提示音频指导合成剩余被掩码的音频。推理时,为解决缺失文本导致的时长预测难题,训练了音素、音节、词三种粒度的说话率预测器,直接从音频提示的声学特征估算其说话速度,进而结合目标文本的单元数量计算合成时长。 创新点:相比原F5-TTS及同类模型,本文首次在flow-matching TTS框架内实现了无需音频提示转录的跨语言克隆;引入了基于Gaussian Cross-Entropy损失的多粒度说话率预测器作为时长建模的替代方案。 实验结果:在语内测试(LibriSpeech-PC test-clean, SeedTTS test-en/zh)上,该方法在WER和UTMOS等指标上匹配甚至优于原F5-TTS基线(如CL-F5+M1在LibriSpeech-PC test-clean上WER为2.079%,低于基线的2.205%)。在跨语言测试(473个样本,德、法、印地、韩语音提示合成中英文)上,成功实现了克隆,其中M1/M2模型表现良好(如合成英文WER为2.496%),而M3(词级)显著变差(WER达16.494%)。说话率预测器在MRE上表现最佳为M2在中文测试的13.771%。 实际意义:使高质量语音克隆摆脱了对参考音频转录的强依赖,极大扩展了应用场景,尤其是在处理无法转录的罕见语言或实时克隆场景。 局限性:1)说话率预测器在中英文以外语言上的有效性未直接验证,其泛化性存疑。2)去除文本信息后,对说话人细微特征(如口音、情感)的迁移能力下降,论文未提出解决方案。3)跨语言测试集的语言覆盖范围和样本量有限。 🏗️ 模型架构 (图1. Cross-Lingual F5-TTS 训练框架。MMS强制对齐为训练数据生成词边界,左侧片段作为无转录的音频提示,右侧片段的梅尔谱被掩码用于预测) ...

2026-04-29 · 更新于 2026-05-20 · 3 min · 428 words

DAIEN-TTS: Disentangled Audio Infilling for Environment-Aware Text-to-Speech Synthesis

📄 DAIEN-TTS: Disentangled Audio Infilling for Environment-Aware Text-to-Speech Synthesis #语音合成 #流匹配 #零样本 🔥 8.0/10 | 前25% | #语音合成 | #流匹配 | #零样本 学术质量 7.5/7 | 选题价值 6.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Ye-Xin Lu(中国科学技术大学 国家语音与语言信息处理工程研究中心) 通讯作者:Yang Ai(中国科学技术大学 国家语音与语言信息处理工程研究中心) 作者列表:Ye-Xin Lu(中国科学技术大学 国家语音与语言信息处理工程研究中心)、Yu Gu(未说明)、Kun Wei(未说明)、Hui-Peng Du(中国科学技术大学 国家语音与语言信息处理工程研究中心)、Yang Ai(中国科学技术大学 国家语音与语言信息处理工程研究中心)、Zhen-Hua Ling(中国科学技术大学 国家语音与语言信息处理工程研究中心) 💡 毒舌点评 亮点在于将语音-环境分离与流匹配音频填充相结合,首次在零样本框架下实现了对时间变化背景环境的独立控制,思路清晰且实验验证充分。短板是高度依赖预训练的语音-环境分离(SES)模块的性能,且推理时要求提供“纯”环境提示音频的假设在真实场景中可能较难满足,限制了其通用性。 🔗 开源详情 代码:论文中未提供明确的代码仓库链接。仅提供了一个用于试听音频样本的示例页面。 模型权重:未提及是否公开模型权重。 数据集:训练使用了公开的LibriTTS和DNS-Challenge数据集。评估集使用了公开的SeedTTS test-en集并添加了SoundBible的环境音频。 Demo:提供了在线演示页面:https://yxlu-0102.github.io/DAIEN-TTS。 复现材料:论文提供了一定的训练细节(数据集、步骤、硬件、批大小、模型部分参数),但缺少完整的训练脚本、优化器配置、声码器训练细节等,信息不算充分。 论文中引用的开源项目:论文基于F5-TTS框架,并引用了Whisper-large-v3用于WER评估,WavLM-large用于说话人嵌入提取。 📌 核心摘要 问题:现有的零样本语音合成(TTS)系统难以在合成语音时,独立且可控地改变背景声学环境(如从安静房间切换到嘈杂街道),特别是对于时间变化的环境。 方法核心:本文提出DAIEN-TTS,一个基于解纠缠音频填充的环境感知零样本TTS框架。其核心是引入一个预训练的语音-环境分离(SES)模块,将带环境音的语音分解为干净语音和环境音频的梅尔谱。在训练时,对两者分别进行随机掩码,以干净语音谱、环境谱(部分掩码)和文本为条件,通过流匹配模型填充被掩码的完整环境语音梅尔谱。推理时,可使用任意说话人提示和任意环境提示进行合成。 创新点:a) 首次提出一个能独立控制音色和时间变化背景环境的零样本TTS框架。b) 设计了基于交叉注意力的环境条件注入方案,并在推理时采用双无分类器指导(DCFG)和信噪比(SNR)自适应策略来增强可控性。c) 实验表明该方法在自然度、说话人相似度和环境保真度上均表现良好。 主要实验结果:在SeedTTS测试集上,当使用静音环境提示时,DAIEN-TTS的词错率(WER)为1.93%,说话人相似度(SIM-o)为0.60,自然度(MOS)达3.84。当使用背景环境提示合成环境语音时,WER为2.83%,SIM-o为0.55,MOS为3.78,环境相似度(ESMOS)为3.65,均接近或达到人类录音水平。关键结果如下表所示(摘自论文Table 1): 模型 WER(%) ↓ SIM-o ↑ MOS ↑ SSMOS ↑ ESMOS ↑ 场景:静音环境提示 Human (上界) 2.14 0.73 3.91 3.72 - F5-TTS (Clean Spk. Prompt) 2.30 0.58 3.80 3.60 - F5-TTS (Env. Spk. Prompt) 2.87 0.49 3.09 2.92 - DAIEN-TTS 1.93 0.60 3.84 3.64 - 场景:背景环境提示 Human + Environment (上界) 2.80 0.70 3.86 3.81 3.72 DAIEN-TTS 2.83 0.55 3.78 3.73 3.65 实际意义:该技术为有声读物、虚拟现实、游戏等需要生成特定背景环境语音的场景提供了新的解决方案,增强了合成语音的表现力和沉浸感。 主要局限性:a) 框架性能严重依赖预训练SES模块的分离质量,若分离不佳会直接影响合成效果。b) 训练和评估均基于预设的“干净语音-环境音频”配对数据,对于现实世界中无法获得纯净环境音的复杂场景,其适用性有待验证。c) 推理时要求提供纯环境音频提示,这在实际应用中可能不便获取。 🏗️ 模型架构 DAIEN-TTS的整体架构如图1所示,包含训练(左)和推理(右)两个流程。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 408 words

Detecting and Attributing Synthetic Spanish Speech: The HISPASpoof Dataset

📄 Detecting and Attributing Synthetic Spanish Speech: The HISPASpoof Dataset #语音伪造检测 #数据集 #多语言 #零样本 ✅ 7.5/10 | 前25% | #语音伪造检测 | #数据集 | #多语言 #零样本 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Maria Risques(普渡大学电气与计算机工程学院,视频与图像处理实验室 VIPER) 通讯作者:Edward J. Delp(普渡大学电气与计算机工程学院,视频与图像处理实验室 VIPER) 作者列表:Maria Risques(普渡大学 VIPER 实验室)、Kratika Bhagtani(普渡大学 VIPER 实验室)、Amit Kumar Singh Yadav(普渡大学 VIPER 实验室)、Edward J. Delp(普渡大学 VIPER 实验室) 💡 毒舌点评 亮点:论文精准地切入了一个关键且被忽视的研究空白——西班牙语语音伪造检测,通过构建首个大规模、多口音的合成/真实语音数据集 HISPASpoof,为后续研究提供了不可或缺的基石,填补了领域的重大缺口。短板:论文的核心贡献是“数据集+评估”,并未提出新的检测或归因模型或算法,其学术创新主要体现在数据工程和实验验证层面,而非方法论的突破。 🔗 开源详情 代码:提供了评估代码的GitLab仓库链接:https://gitlab.com/viper-purdue/s3d-spanish-syn-speech-det.git。论文中也提及了使用的具体方法代码库来源[47]。 模型权重:论文中未提及是否公开预训练或微调后的模型权重。 数据集:HISPASpoof数据集已公开,采用CC BY-SA 4.0许可,可通过上述GitLab仓库链接获取。 Demo:论文中未提及提供在线演示。 复现材料:提供了数据集的详细分布说明(表I)和实验设置描述(如数据划分),但未提供具体的训练超参数(学习率、优化器、batch size等)、硬件信息和详细的配置文件。 论文中引用的开源项目:使用了多个开源的TTS系统生成数据(XTTS-v1/v2, YourTTS, FishSpeech, F5-Spanish),并评估了多个开源检测器实现(LFCC-GMM, MFCC-ResNet, Spec-ResNet, PaSST, Wav2Vec2-AASIST)。 总体开源情况:论文在数据集和评估代码开源方面做得较好,但完整复现所需的训练细节和模型权重未提供。 📌 核心摘要 问题:当前先进的语音合成(TTS)和语音克隆技术可生成高度逼真的合成语音,带来严重的欺诈和滥用风险。尽管针对英语和中文已有成熟的检测器和数据集,但作为全球6亿人使用的语言,西班牙语在语音取证领域却严重缺乏研究和评估基准。 方法核心:本文提出了 HISPASpoof 数据集,这是首个大规模西班牙语合成语音检测与归因数据集。数据集包含来自6个公开语料库(涵盖6种西班牙语口音)的真实语音,以及由6种前沿的零样本TTS系统生成的合成语音。论文利用该数据集,系统评估了5种代表性的检测方法在跨语言(英语→西班牙语)和特定语言(西班牙语)训练下的性能。 新意:这是首个专门针对西班牙语的、大规模、多口音、多合成器的语音伪造检测与归因数据集。与以往多语言数据集(如ODSS)相比,HISPASpoof在西班牙语音频数量(超过50万条)、口音多样性(6种)和合成系统多样性(6种)上均有显著提升。 主要实验结果: 检测性能:实验证明,在英语数据集(ASVspoof2019)上训练的检测器直接应用于西班牙语时性能急剧下降(EER普遍高于30%,最差达49.57%)。在HISPASpoof上训练后,检测性能大幅提升。具体关键结果见下表: 训练集 测试集 LFCC+GMM EER(%) MFCC-ResNet EER(%) Spec-ResNet EER(%) PaSST EER(%) Wav2Vec2-AASIST EER(%) ASVspoof2019 (英语) UHIS (西班牙语) 42.71 41.72 43.23 32.14 19.92 HISPASpoof (西班牙语) UHIS (西班牙语) 1.57 5.17 0.72 4.10 10.27 HISPASpoof (西班牙语) UODSSSpa (跨数据集) 0.85 48.72 17.09 17.95 43.59 归因性能:在归因(识别合成器)任务中,闭集设置下各方法均接近完美(PaSST准确率100%)。开放集(需识别未见过的合成器)更具挑战性,PaSST表现最佳(准确率78.32%),Spec-ResNet次之(69.73%)。 实际意义:HISPASpoof 为西班牙语语音安全研究提供了关键的评测基准,揭示了现有英语检测器在西班牙语上的失效,并验证了使用领域内数据训练的有效性,推动了语音取证研究的包容性发展。 主要局限性:论文的核心是提出数据集并进行基线评估,没有提出新的检测或归因算法。开源计划中未提及模型权重的公开。 🏗️ 模型架构 本文未提出新的检测或归因模型架构。其核心工作是构建数据集并评估五种已有的代表性方法,这些方法可分为三类: ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 325 words

Diffusion Timbre Transfer via Mutual Information Guided Inpainting

📄 Diffusion Timbre Transfer via Mutual Information Guided Inpainting #音乐生成 #音频生成 #扩散模型 #零样本 ✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #音频生成 #零样本 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Ching Ho Lee(Queen Mary University of London) 通讯作者:未说明 作者列表:Ching Ho Lee(Queen Mary University of London)、Javier Nistal(Sony Computer Science Laboratories, Paris, France)、Stefan Lattner(Sony Computer Science Laboratories, Paris, France)、Marco Pasini(Queen Mary University of London;Sony Computer Science Laboratories, Paris, France)、George Fazekas(Queen Mary University of London) 💡 毒舌点评 亮点:该方法巧妙地将“免训练”和“推理时控制”结合,通过互信息分析“外科手术式”地定位音色通道,再用扩散模型的采样特性来“手术”,在保持旋律节奏和改变音色之间找到了一个精巧的平衡点。短板:这种基于统计的通道解缠在实际复杂音频上可能不够完美(论文中k值仍需调优),且极度依赖底层编码器M2L2和扩散模型DaR的特定性质,方法的普适性和鲁棒性有待更广泛验证。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 284 words

Direct Preference Optimization For Speech Autoregressive Diffusion Models

📄 Direct Preference Optimization For Speech Autoregressive Diffusion Models #语音合成 #扩散模型 #偏好优化 #零样本 ✅ 7.5/10 | 前25% | #语音合成 | #扩散模型 | #偏好优化 #零样本 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 中 👥 作者与机构 第一作者:Zhijun Liu(香港中文大学(深圳)SDS, SRIBD, SAI;字节跳动Seed) 通讯作者:Shuai Wang(南京大学智能科学与技术学院) 作者列表: Zhijun Liu(香港中文大学(深圳)SDS, SRIBD, SAI;字节跳动Seed) Dongya Jia(字节跳动Seed) Xiaoqiang Wang(字节跳动Seed) Chenpeng Du(字节跳动Seed) Shuai Wang(南京大学智能科学与技术学院;深圳湾区研究院) Zhuo Chen(字节跳动Seed) Haizhou Li(香港中文大学(深圳)SDS, SRIBD, SAI;深圳湾区研究院) 💡 毒舌点评 亮点在于首次成功将DPO“移植”到语音自回归扩散模型上,用实验证明了其能显著提升表达力(F0方差翻倍)和鲁棒性(CER降25%),开辟了ARDM后训练的新路径。短板则在于对训练过程中“winning/losing样本扩散损失双升”这一反常现象缺乏理论解释,且开源信息仅限音频示例,核心代码与模型未公开,影响了工作的可复现性和影响力。 🔗 开源详情 代码:论文中未提及代码链接。补充材料页面(https://zjlww.github.io/ardm-dpo/)可能包含音频示例,但未说明是否提供代码。 模型权重:未提及公开模型权重。 数据集:未提及公开偏好数据集。使用了公开的LibriTTS和DidiSpeech-2作为基础数据,但筛选后的偏好对未公开。 Demo:未提供在线演示链接。补充材料页面可能包含音频样本,但不是交互式Demo。 复现材料:论文提供了详细的训练超参数(学习率、优化器、批次大小等)和硬件信息(32张A100),复现基础模型训练可能可行。但ARDM-DPO训练所必需的、经过精心筛选的偏好数据集未公开,是复现的主要障碍。 论文中引用的开源项目:DiTAR模型(基于ARTransformer)、Whisper-large-v3(用于WER)、Paraformer-zh(用于CER)、WavLM-TDCNN(用于说话人相似度计算)、Seed-TTS-Eval2(评估工具包)。 📌 核心摘要 问题:当前基于自回归扩散模型(ARDM)的零样本TTS虽性能领先,但生成的语音常与人类偏好不对齐,例如在给定情感提示时仍可能产出单调的语音,缺乏表达力且在处理长难句时鲁棒性不足。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 347 words

Dual Data Scaling for Robust Two-Stage User-Defined Keyword Spotting

📄 Dual Data Scaling for Robust Two-Stage User-Defined Keyword Spotting #语音活动检测 #多任务学习 #对比学习 #零样本 ✅ 7.5/10 | 前25% | #语音活动检测 | #多任务学习 | #对比学习 #零样本 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zhiqi Ai(上海大学) 通讯作者:Yongjin Zhou(上海大学)、Shugong Xu(西安交通大学利物浦大学) 作者列表:Zhiqi Ai(上海大学),Han Cheng(上海大学),Yuxin Wang(上海大学),Shiyi Mu(上海大学),Yongjin Zhou(上海大学),Shugong Xu(西安交通大学利物浦大学) 💡 毒舌点评 亮点:提出了一种清晰的两阶段(检测+验证)框架,并创新性地将“双数据扩展”策略应用于两阶段模型的不同部分(声学模型和匹配器),在LibriPhrase-Hard子集上取得了显著优于现有方法的性能。短板:论文第二阶段中“轻量级注册模块”(nn.Embedding)与“跨模态对齐”的具体实现和有效性论证略显简略,且训练策略、超参数等关键复现信息缺失,降低了其作为完整工作发表的说服力。 🔗 开源详情 代码:提供了代码仓库链接:https://github.com/aizhiqi-work/DMA-KWS。 模型权重:论文中未提及公开模型权重。 数据集:所使用的LibriSpeech、GigaSpeech、LibriPhrase、Hey-Snips均为公开或可构建的基准数据集,论文中未提供新数据集。 Demo:未提及在线演示。 复现材料:提供了模型参数量、网络结构描述,但缺乏详细的学习率、优化器、批次大小、训练轮次、数据预处理脚本等复现所必需的信息。 论文中引用的开源项目:引用并可能基于WeNet工具包[5]进行第一阶段训练。音频编码器基于Conformer架构[22]。 📌 核心摘要 要解决的问题:在用户自定义关键词检测任务中,现有基于零样本或微调的方法在区分易混淆词和处理边界不精确、误报率高的问题上存在不足。 方法核心:提出DS-KWS,一个两阶段框架。第一阶段:使用基于CTC的声学模型和流式音素搜索模块定位候选片段。第二阶段:使用基于查询文本(QbyT)的音素匹配器在音素级和话语级进行验证。 新在哪里(创新):1) 提出“双数据扩展”策略:将第一阶段声学模型的训练数据从460小时扩展到1460小时,并将第二阶段匹配器的训练锚点类别从约78k扩展到155k,以分别增强模型的鲁棒性和区分力。2) 设计了轻量级的音素匹配器架构,采用简单的nn.Embedding进行文本注册,降低了复杂度。 主要实验结果:在LibriPhrase-Hard数据集上,DS-KWS-M2取得6.13% EER和97.85% AUC,显著优于对比方法。在Hey-Snips数据集上,实现零样本性能,召回率达99.80%(在1次/小时误报率下)。关键实验数据见表1、表2、表3和表4。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 405 words

Emilia-NV: A Non-Verbal Speech Dataset with Word-Level Annotation for Human-Like Speech Modeling

📄 Emilia-NV: A Non-Verbal Speech Dataset with Word-Level Annotation for Human-Like Speech Modeling #语音识别 #语音合成 #数据集 #零样本 ✅ 7.5/10 | 前25% | #语音识别 | #数据集 | #语音合成 #零样本 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Huan Liao(The Chinese University of Hong Kong, Shenzhen)(论文注明与Qinke Ni同等贡献) 通讯作者:未明确说明(论文中未明确指出通讯作者) 作者列表:Huan Liao(The Chinese University of Hong Kong, Shenzhen),Qinke Ni(The Chinese University of Hong Kong, Shenzhen),Yuancheng Wang(The Chinese University of Hong Kong, Shenzhen),Yiheng Lu(The Chinese University of Hong Kong, Shenzhen),Haoyue Zhan(Guangzhou Quwan Network Technology),Pengyuan Xie(Guangzhou Quwan Network Technology),Qiang Zhang(Guangzhou Quwan Network Technology),Zhizheng Wu(The Chinese University of Hong Kong, Shenzhen) 💡 毒舌点评 亮点在于系统性地填补了普通话副语言词级标注数据的空白,并提出了一个可扩展的标注流水线,为“类人”语音建模提供了急需的燃料。短板在于TTS部分的创新更多是“应用验证”而非“方法突破”,且文中对模型训练的关键细节(如超参数)披露不足,让想复现的同行感到些许乏力。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 391 words

Emo-TTA: Improving Test-Time Adaptation of Audio-Language Models for Speech Emotion Recognition

📄 Emo-TTA: Improving Test-Time Adaptation of Audio-Language Models for Speech Emotion Recognition #语音情感识别 #音频大模型 #领域适应 #零样本 ✅ 7.0/10 | 前25% | #语音情感识别 | #领域适应 | #音频大模型 #零样本 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jiacheng Shi(College of William & Mary) 通讯作者:未说明 作者列表:Jiacheng Shi(College of William & Mary)、Hongfei Du(College of William & Mary)、Y. Alicia Hong(George Mason University)、Ye Gao(College of William & Mary) 💡 毒舌点评 亮点在于其“测试时适配”思路非常务实,无需访问源数据或更新模型权重,仅靠维护一个轻量的统计量就能持续改善模型在陌生口音或录音环境下的表现,这在工业部署中极具吸引力。短板是其底层假设(特征服从高斯分布且共享协方差)可能过于简化,对于情感这种高度复杂且非线性的概念,长期来看,这种静态分布模型可能无法捕捉更细微的适应需求。 ...

2026-04-29 · 更新于 2026-05-20 · 3 min · 486 words