跨语言 | 语音/音乐/音频论文速递

MambaVoiceCloning: Efficient and Expressive Text-to-Speech via State-Space Modeling and Diffusion Control

📄 MambaVoiceCloning: Efficient and Expressive Text-to-Speech via State-Space Modeling and Diffusion Control #语音合成 #状态空间模型 #流式处理 #跨语言 ✅ 6.5/10 | 前50% | #语音合成 | #状态空间模型 | #流式处理 #跨语言学术质量 5.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Sahil Kumar (PhD Program in Mathematics, Yeshiva University, New York, NY 10033, USA) 通讯作者：Youshan Zhang* (School of Artificial Intelligence, Chuzhou University, Anhui, 239000, China) 作者列表：Sahil Kumar（叶史瓦大学数学博士项目）、Namrataben Patel（叶史瓦大学数学博士项目）、Honggang Wang（叶史瓦大学计算机科学与工程系）、Youshan Zhang（滁州学院人工智能学院） 💡 毒舌点评亮点在于其设计的彻底性：为了证明SSM可以完全取代注意力，论文把TTS条件路径里的注意力模块剥得干干净净，只剩下一个训练时用的对齐器，这种“手术式”的架构验证值得肯定。短板则是性能提升实在像“技术微调”多过“范式突破”，在严格控制的条件下，MOS的些许涨跌更像是统计噪声的边缘胜利，让人怀疑其实际部署中的感知差异。 ...

Accent Conversion: A Problem-Driven Survey of Sociolinguistic and Technical Constraints

📄 Accent Conversion: A Problem-Driven Survey of Sociolinguistic and Technical Constraints #语音转换 #语音合成 #综述 #跨语言 ✅ 7.5/10 | 前50% | #语音转换 | #综述 | #语音合成 #跨语言 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Yurii Halychanskyi（伊利诺伊大学厄巴纳-香槟分校，西贝尔计算与数据科学学院，国家超级计算应用中心）通讯作者：Yurii Halychanskyi（同上）作者列表：Yurii Halychanskyi（伊利诺伊大学厄巴纳-香槟分校，西贝尔计算与数据科学学院，国家超级计算应用中心）、Jianfeng Steven Guo（伊利诺伊大学厄巴纳-香槟分校，西贝尔计算与数据科学学院，国家超级计算应用中心）、Volodymyr Kindratenko（伊利诺伊大学厄巴纳-香槟分校，西贝尔计算与数据科学学院，国家超级计算应用中心，东亚语言文化系） 💡 毒舌点评亮点：成功地将口音转换这一技术问题，嵌入到社会语言学约束（偏见、公平）和技术瓶颈（对齐、解耦、低资源）的双重框架中进行系统性梳理，视角比传统工程综述更深刻。短板：本质上是对现有工作的“重新包装”和“排序”，缺乏算法层面的新见解或对某一具体问题的深度技术突破，对于寻求具体模型设计灵感的读者帮助有限。 🔗 开源详情代码：论文中未提及代码链接。该论文是一篇综述文章，未提出新的算法或开源代码仓库。模型权重：论文中未提及。数据集：论文在第7节“Datasets”和表1中总结并引用了多个常用于口音转换研究的英语语音数据集。这些数据集为第三方公开数据集，论文本身未提供新的数据集或直接下载链接。具体引用的数据集及其获取途径（根据论文引用推断）如下： VCTK: https://datashare.ed.ac.uk/handle/10283/3443 (论文引用 [VCTK]) Common Voice: https://commonvoice.mozilla.org/ (论文引用 [CommonVoice]) Speech Accent Archive (SAA): https://accent.gmu.edu/ (论文引用中对应为 [47]，指向A.C. Cohn的论文) CMU Arctic: http://www.festvox.org/cmu_arctic/ (论文引用 [CMU-Arctic]) L2-Arctic: https://btsync.csl.illinois.edu/BTSync/publicpage/publicprojects/L2-ARCTIC.html (论文引用 [L2-Arctic]) AccentDB: https://github.com/rahuly1/AccentDB (论文引用 [AccentDB]) UME-ERJ: 论文中提及但未给出明确链接，通常需通过原论文获取。 LibriLight, LibriSpeech, LibriTTS, LibriTTS-R, LJSpeech: 这些是常用于语音合成与识别的通用数据集，并非为口音转换专门设计，但论文指出AC研究常借用它们。获取链接如 LibriSpeech 等，但论文本身未给出。 Demo：论文中未提及。复现材料：论文中未提及。该论文为综述，未提供自身的实验细节、训练配置或检查点。论文中引用的开源项目：论文主要引用了数据集和方法（如DTW、PSOLA等），并未明确引用除数据集外的其他独立开源项目或工具。因此，此部分标记为“未提及”。补充信息 [核心摘要/细节详述] 补充：论文第5节明确阐述了口音转换（AC）与其他语音处理任务的具体关系，指出： ...

Dual-LoRA: Parameter-Efficient Adversarial Disentanglement for Cross-Lingual Speaker Verification

📄 Dual-LoRA: Parameter-Efficient Adversarial Disentanglement for Cross-Lingual Speaker Verification #说话人验证 #跨语言 #领域适应 #低秩适配 #参数高效微调 ✅ 7.0/10 | 前25% | #说话人验证 | #领域适应 | #跨语言 #低秩适配 | arxiv 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Qituan Shangguan（南京大学智能科学与技术学院，苏州）通讯作者：Shuai Wang（南京大学智能科学与技术学院）作者列表： Qituan Shangguan（南京大学智能科学与技术学院，苏州） Junhao Du（未说明） Kunyang Peng（上海交通大学X-LANCE实验室，计算机科学学院，上海；教育部人工智能重点实验室） Feng Xue（中国语言计算江苏重点实验室；AISpeech Co., Ltd.，苏州） Hui Zhang（中国语言计算江苏重点实验室） Xinsheng Wang（Soul AI Lab） Kai Yu（上海交通大学X-LANCE实验室，计算机科学学院；教育部人工智能重点实验室） Shuai Wang（南京大学智能科学与技术学院，苏州） 💡 毒舌点评亮点：针对跨语言说话人验证中“语言锚定对抗者”的设计思路非常清晰巧妙，通过共享判别器确保对抗梯度真正作用于语言特征，而非“误伤”说话人特征，这解决了传统对抗训练的一个核心痛点。短板：方法的通用性虽然在多个骨干网络上得到验证，但最终提交系统使用了未公开的大规模内部多语言语料进行预训练，这削弱了结论的完全可复现性，也让读者难以判断性能提升究竟多大程度上来自方法本身，多大程度上来自更优越的初始化数据。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重的具体下载链接。数据集：论文中使用了以下数据集，但未提供具体下载链接： TidyVoice Challenge dataset (TidyVoiceX)：用于官方挑战赛评测。 VoxBlink (VB) 和 VoxCeleb (VC)：用于部分实验的初始化和消融研究。 Demo：论文中未提及。复现材料：论文中提供了详细的复现配置信息，包括：训练框架：PyTorch。损失函数：Sub-center ArcMargin loss。数据增强：MUSAN 和 RIR。优化器：SGD（用于ResNet）和 AdamW（用于w2v-BERT2）。训练策略：三阶段课程训练（Curriculum Training），具体参数设置（λ₁， λ₂）在论文第2.4节有详细说明。 LoRA配置：对于不同骨干网络（如ResNet， w2v-BERT2），给出了具体的LoRA秩（r_spk， r_lang）设置。但是，论文中未提及具体的检查点、训练脚本或附录等文件的下载链接。论文中引用的开源项目： WavLM [chen2022wavlm]：自监督预训练语音模型。论文中未提供具体链接。 w2v-BERT / w2v-BERT 2.0 [chung2021w2v, barrault2023seamlessm4t]：自监督预训练语音模型。论文中未提供具体链接。 VoxCeleb [nagrani2017voxceleb]：大规模说话人识别数据集。论文中未提供具体链接。 MUSAN [snyder2015musan]：噪声数据集，用于数据增强。论文中未提供具体链接。 RIR [ko2017study]：房间脉冲响应数据集，用于数据增强。论文中未提供具体链接。 Sub-center ArcMargin loss [deng2020sub]：一种改进的度量学习损失函数。论文中未提供具体链接。 BOSARIS [brummer2013bosaris]：用于评分归一化的工具。论文中未提供具体链接。 LoRA [hu2022lora]：低秩适应方法。论文中未提供具体链接。 📌 核心摘要问题：跨语言说话人验证面临严重的“语言-说话人纠缠”问题，模型容易将语言特征误判为说话人特征，导致在最具挑战的场景（同一说话人说不同语言 vs. 不同说话人说相同语言）性能急剧下降。方法核心：提出Dual-LoRA框架。在冻结的预训练骨干网络（如w2v-BERT， ResNet）中注入两个并行的、参数独立的低秩适配器（LoRA）分支：语言分支和说话人分支。关键创新是“语言锚定对抗机制”，共享一个判别器同时用于语言分类（锚定）和对抗训练（对抗），使对抗梯度能精准针对语言特征。新意：相比传统盲式对抗解纠缠（DANN），该方法为对抗训练提供了一个“语言锚”，防止对说话人特征的无意抑制；相比全参数微调或单一LoRA，采用双分支结构实现了更解耦的适应。主要结果：在TidyVoice挑战开发集上，最佳系统达到0.91% EER；在最困难的SS-DL vs. DS-SL场景，EER从基线的5.19%大幅降低至1.62%。探针实验证明其能更彻底地移除语言信息（LID准确率降至49.02%），同时保持更优的说话人验证性能。在官方测试集上，融合系统取得第3名。配置/方法骨干网络预训练数据开发集 EER (%) 官方基线 SamResNet34 VB+VC 3.07 Sub-center ArcMargin SamResNet34 VB+VC 2.05 LoRA (No Adv) SamResNet34 VB+VC 1.66 LoRA (No Adv) SamResNet34 VB 1.57 LoRA (No Adv) SamResNet100 VB 1.25 Dual-LoRA (Ours) SamResNet100 VB 0.98 Dual-LoRA (Ours) w2v-BERT2 VB+VC 0.91 图1展示了Dual-LoRA的双通路架构：冻结的主干网络被注入了全局的、非对称的两套LoRA模块。语言分支（通路1）提取e_lang用于训练共享判别器D，建立语言边界；说话人分支（通路2）提取e_spk，其经过GRL（梯度反转层）后输入D进行对抗训练，从而迫使e_spk去除语言信息。 ...

Dual-LoRA: Parameter-Efficient Adversarial Disentanglement for Cross-Lingual Speaker Verification

📄 Dual-LoRA: Parameter-Efficient Adversarial Disentanglement for Cross-Lingual Speaker Verification #说话人验证 #跨语言 #对抗训练 #参数高效微调 #预训练 ✅ 7.5/10 | 前25% | #说话人验证 | #对抗训练 | #跨语言 #参数高效微调 | arxiv 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Qituan Shangguan (南京大学智能科学与技术学院，苏州) 通讯作者：未明确标注。论文中给出了多位作者的邮箱，但未明确指出通讯作者。通常通讯作者会标注“*”，但本文未提供此信息。作者列表： Qituan Shangguan (南京大学智能科学与技术学院) Junhao Du (未说明具体单位，邮箱指向Gmail) Kunyang Peng (思必驰公司，苏州) Feng Xue (思必驰公司，苏州) Hui Zhang (思必驰公司，苏州) Xinsheng Wang (Soul AI Lab，中国) Kai Yu (上海交通大学X-LANCE实验室，计算机科学学院) Shuai Wang (南京大学，苏州) 💡 毒舌点评亮点：该工作直击跨语言说话人验证中“语言-说话人纠缠”这一核心痛点，提出的“语言锚定对抗”机制构思巧妙，通过共享判别器并显式引入语言分支，有效防止了对抗训练对说话人判别信息的误伤，实验上在最难的交叉场景（SS-DL vs DS-SL）取得了显著提升。短板：论文的核心方法（Dual-LoRA）和关键创新（语言锚定对抗）设计清晰，但在“参数高效”方面仅通过冻结主干和低秩适配体现，并未深入探讨在极端资源受限场景下的效率优势；此外，论文完全未提及代码、模型或训练细节的开源计划，极大地限制了其可复现性和社区影响力。 ...

QE-XVC: Zero-Shot Cross-Lingual Voice Conversion via Query-Enhancement and Conditional Flow Matching

📄 QE-XVC: Zero-Shot Cross-Lingual Voice Conversion via Query-Enhancement and Conditional Flow Matching #语音转换 #跨语言 #零样本 #流匹配 #自监督学习 ✅ 7.5/10 | 前25% | #语音转换 | #流匹配 | #跨语言 #零样本学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Han-Jie Guo (中国科学技术大学，语音及语言信息处理国家工程研究中心) 通讯作者：Zhen-Hua Ling (中国科学技术大学，语音及语言信息处理国家工程研究中心) 作者列表：Han-Jie Guo (中国科学技术大学，语音及语言信息处理国家工程研究中心)、Hui-Peng Du (中国科学技术大学，语音及语言信息处理国家工程研究中心)、Shi-Ming Wang (中国科学技术大学，语音及语言信息处理国家工程研究中心)、Xiao-Hang Jiang (中国科学技术大学，语音及语言信息处理国家工程研究中心)、Ying-Ying Gao (中国移动九天人工智能研究院)、Shi-Lei Zhang (中国移动九天人工智能研究院)、Zhen-Hua Ling (中国科学技术大学，语音及语言信息处理国家工程研究中心) 💡 毒舌点评亮点：论文针对跨语言对齐难这一核心痛点，设计了“全局说话人嵌入”和“扰动内容表示”两阶段查询来增强和对齐帧级说话人表征，思路清晰且有效。短板：实验部分虽然全面，但对说话人相似度（SMOS/SECS）未达最优的原因分析过于表面，且缺乏对生成语音在不同语速、情感等更复杂条件下的鲁棒性讨论，研究深度稍显不足。 🔗 开源详情代码：论文中未提及完整的模型代码仓库链接。但提到了声码器（HiFi-GAN）使用了官方开源代码。模型��重：未提及公开模型权重。数据集：实验使用了公开的LibriTTS和MLS数据集，但论文未提供处理后的数据或下载脚本。 Demo：提供了一个在线语音样本展示页面：https://hjguo01.github.io/QE-XVC/。复现材料：给出了部分关键实现细节（如优化器、学习率、推理步数），但未提供完整的训练配置文件、环境依赖列表或预训练模型链接。引用的开源项目：XLSR-53（预训练SSL模型）、CAM++（说话人验证模型）、HiFi-GAN（声码器）、Whisper（用于计算CER）。 📌 核心摘要问题：现有的零样本跨语言语音转换（XVC）方法面临发音错误、说话人建模不足以及跨语言对齐困难等挑战。方法核心：提出QE-XVC框架，包含三大组件：利用预训练SSL模型（XLSR-53）提取共享多语言表征；设计查询增强模块，通过两阶段注意力机制（先用说话人嵌入作查询，再用扰动内容作查询）结合小波卷积来精炼帧级说话人表征；采用条件流匹配（CFM）模型，以内容表征和说话人表征为条件，非自回归地生成转换后的梅尔频谱图。创新：与已有方法相比，新在：a) 提出两阶段查询增强机制，在跨语言场景下稳定对齐；b) 构建统一的多语言连续表征空间，避免量化损失；c) 采用高效的CFM模型进行生成，速度优于扩散模型。主要实验结果：在英语到西班牙语的跨语言任务上，QE-XVC相比最佳基线（vec2wav 2.0）在CER上显著降低（2.18% vs 4.86%），在F0-PCC上提升（0.753 vs 0.692），表明发音准确性和韵律保持更好。主观评估（NMOS和SMOS）也表现优异。推理效率（RTF=0.051）远高于扩散基线。实际意义：该方法为构建低资源语言语音数据集、影视配音等应用提供了更高质量、更高效的零样本跨语言语音转换解决方案。主要局限性：说话人相似度（SECS和SMOS）略低于使用离散token的vec2wav 2.0，论文对此分析不足；未探讨在更复杂声学环境或非平稳语音下的性能。 🏗️ 模型架构 QE-XVC的整体架构如图1所示，主要分为三个模块： ...

SmoothCLAP: Soft-Target Enhanced Contrastive Language-Audio Pretraining for Affective Computing

📄 SmoothCLAP: Soft-Target Enhanced Contrastive Language-Audio Pretraining for Affective Computing #语音情感识别 #对比学习 #预训练 #零样本 #跨语言 ✅ 6.5/10 | 前50% | #语音情感识别 | #对比学习 | #预训练 #零样本学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Xin Jing（CHI – Chair of Health Informatics, TUM University Hospital, Munich, Germany）通讯作者：未明确标注作者列表： Xin Jing（CHI – Chair of Health Informatics, TUM University Hospital, Munich, Germany） Jiadong Wang（CHI – Chair of Health Informatics, TUM University Hospital, Munich, Germany） Andreas Triantafyllopoulos（CHI – Chair of Health Informatics, TUM University Hospital, Munich, Germany） Maurice Gerczuk（CHI – Chair of Health Informatics, TUM University Hospital, Munich, Germany） Shahin Amiriparian（† Huawei, Netherlands, ⋆ CHI – Chair of Health Informatics, TUM University Hospital, Munich, Germany） Jun Luo（† Huawei, Netherlands） Björn Schuller（⋆ CHI – Chair of Health Informatics, TUM University Hospital, Munich, Germany; ‡ GLAM, Imperial College London, UK） 💡 毒舌点评论文的亮点在于精准地指出了标准对比学习在情感建模上的“非黑即白”硬伤，并用模态内相似性构建软目标加以缓解，这是一个优雅且有效的工程改良。然而，短板在于其“安全牌”打法：仅在英语数据上训练，却大谈跨语言迁移，说服力有限；且在部分关键数据集（如RAVDESS）上，相比基线提升微弱甚至下降，使得“显著优于”的结论有些底气不足。 ...