多语言 | 语音/音乐/音频论文速递

CTC-DRO: Robust Optimization for Reducing Language Disparities in Speech Recognition

📄 CTC-DRO: Robust Optimization for Reducing Language Disparities in Speech Recognition #语音识别 #多语言 #分布鲁棒优化 #基准测试 #开源工具 🔥 8.0/10 | 前25% | #语音识别 | #分布鲁棒优化 | #多语言 #基准测试学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Martijn Bartelds（斯坦福大学计算机科学系），Ananjan Nandi（斯坦福大学计算机科学系）（论文注明两位作者贡献均等）通讯作者：Dan Jurafsky（斯坦福大学计算机科学系）作者列表： Martijn Bartelds（斯坦福大学计算机科学系） Ananjan Nandi（斯坦福大学计算机科学系） Moussa Koulako Bala Doumbouya（斯坦福大学计算机科学系） Dan Jurafsky（斯坦福大学计算机科学系） Tatsunori Hashimoto（斯坦福大学计算机科学系） Karen Livescu（丰田芝加哥理工学院） 💡 毒舌点评本文精准地诊断了Group DRO在CTC训练中失效的病因——损失值因序列长度和语言特性变得“不可比”，并开出了对症的“药方”（CTC-DRO），在多个语言集上实现了最差语言性能的显著提升，是一次理论动机清晰、工程实现扎实、效果立竿见影的应用创新。然而，CTC-DRO的疗效目前主要验证于6个语言一组的设定，当语言组规模扩大到几十甚至上百时，其权重的平滑机制和“最差语言”的定义是否依然有效，可能需要更严苛的检验；此外，该方法本质上是“优化权衡”，提升最差性能的同时，部分设置下最优语言的性能有轻微波动（尽管统计不显著），这在追求绝对平均或帕累托最优的场景下需谨慎考量。 🔗 开源详情代码：论文提供了公开的代码仓库链接：https://github.com/Bartelds/ctc-dro。模型权重：论文提到“newly trained models are publicly available”，并指向了上述GitHub仓库。数据集：实验使用公开基准ML-SUPERB 2.0，论文详细描述了如何从原始数据中构建实验语言集（附录D），数据本身需从原始来源获取。 Demo：论文中未提及在线演示。复现材料：论文提供了极详细的复现信息，包括：算法伪代码（Algorithm 1）。详尽的实验设置：模型架构（XLS-R, MMS）、训练超参数（学习率、batch duration、梯度累积、epoch数、ηq、α）、评估指标。数据集划分的具体语言列表（表4）和统计信息（表5, 表6）。附录中包含更多开发集结果、消融实验细节、训练时间分析等。论文中引用的开源项目：论文基于XLS-R和MMS预训练模型，使用ML-SUPERB 2.0基准，并提及了ESPnet工具包（用于讨论，非核心依赖）。 📌 核心摘要问题：现代深度学习模型常在特定子群体上表现不佳。在多语言自动语音识别（ASR）中，不同语言的性能差异显著。分布鲁棒优化（Group DRO）旨在最小化最差组损失，但在ASR中因广泛使用的CTC损失受输入长度及语言声学特性影响，导致各组损失不可比，使Group DRO失效甚至恶化性能。方法：提出CTC-DRO算法。核心改进有二：一是采用“长度匹配批处理”，确保每个语言组的损失是在大致相同的音频总时长下计算，缓解CTC损失随长度缩放的问题；二是引入“平滑最大化目标”，通过修改组权重更新规则，防止权重过度集中于损失持续偏高的组，从而使权重分布更均衡稳定。创新：与直接应用Group DRO相比，CTC-DRO首次系统性地解决了CTC损失在多语言场景下的不可比性问题。其平滑更新目标可通过拉格朗日乘数法证明，仍能保证权重与损失成正比，但调整更平滑。实验结果：在ML-SUPERB 2.0基准的五个语言集上进行评估。CTC-DRO在平衡与不平衡数据设置下均优于基线模型和标准Group DRO。关键结果如下：最差语言字符错误率（CER）相对基线最高降低47.1%。平均CER相对基线最高降低32.9%。标准Group DRO在超过一半的设置中反而提升了最差语言CER和平均CER。关键结果表格（平衡数据设置）：设置模型 ηq α 最差语言CER (↓) 平均CER (↓) 1 MMS 基线 - - 60.8% 23.4% 1 MMS Group DRO 10⁻⁴ - 86.6% 30.5% 1 MMS CTC-DRO 10⁻⁴ 1.0 56.8% 22.9% 2 XLS-R 基线 - - 68.8% 19.0% 2 XLS-R Group DRO 10⁻⁴ - 58.8% 21.6% 2 XLS-R CTC-DRO 10⁻⁴ 0.5 45.0% 15.8% 消融实验显示，移除平滑目标或长度匹配批处理都会导致性能大幅下降。意义：CTC-DRO以极小的计算开销，有效提升了多语言ASR的公平性，对促进数字包容性有积极作用。其思想可推广至其他损失不可比的群组鲁棒优化场景（如医疗AI）。局限：性能差距虽被缩小但未完全消除；算法性能依赖于预定义的语言组划分；在极端不平衡数据下效果需进一步验证。 🏗️ 模型架构论文提出的CTC-DRO并非一个新的神经网络模型架构，而是一种用于优化现有基于CTC的ASR模型的训练算法。其核心是修改了Group DRO的优化流程。 ...

MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks

📄 MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks #基准测试 #多模态模型 #多语言 #模型评估 #语音翻译 🔥 8.0/10 | 前25% | #基准测试 | #多模态模型 | #多语言 #模型评估学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Sara Papi（Fondazione Bruno Kessler (FBK)）通讯作者：未明确说明作者列表：Sara Papi (FBK), Maike Züfle (Karlsruhe Institute of Technology (KIT)), Marco Gaido (FBK), Beatrice Savoldi (FBK), Danni Liu (KIT), Ioannis Douros (Translated), Luisa Bentivogli (FBK), Jan Niehues (KIT) 💡 毒舌点评亮点是设计了一个非常全面、平行且高质量的跨语言多模态指令跟随基准，填补了现有评估体系的关键空白；短板在于受限于计算成本，评估的开源模型参数规模普遍偏小（≤20B），且未包含任何闭源前沿商业模型的系统性对比（仅测试了Gemini 2.5 Flash），削弱了对当前技术天花板的揭示能力。 ...

Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion

📄 Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion #多模态模型 #语音翻译 #大语言模型 #多语言 #数据增强 🔥 8.0/10 | 前25% | #语音翻译 | #多模态模型 | #大语言模型 #多语言学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yexing Du（哈尔滨工业大学、鹏城实验室）通讯作者：Youcheng Pan（鹏城实验室）， Yang Xiang（鹏城实验室）， Ming Liu（哈尔滨工业大学、鹏城实验室）（论文中明确标注{panych,xiangy}@pcl.ac.cn, mliu@ir.hit.edu.cn）作者列表：Yexing Du（哈尔滨工业大学，鹏城实验室）， Youcheng Pan（鹏城实验室）， Zekun Wang（哈尔滨工业大学）， Zheng Chu（哈尔滨工业大学）， Yichong Huang（哈尔滨工业大学）， Kaiyuan Liu（哈尔滨工业大学，鹏城实验室）， Bo Yang（鹏城实验室）， Yang Xiang（鹏城实验室）， Ming Liu（哈尔滨工业大学，鹏城实验室）， Bing Qin（哈尔滨工业大学，鹏城实验室） 💡 毒舌点评本文巧妙地将语音合成（TTS）和多模态大语言模型（MLLM）结合，提出了“语音引导机器翻译（SMT）”框架，并创新性地引入自监督进化机制来缓解数据稀缺问题，最终在多个基准上取得显著成绩。不过，其自监督进化机制中用于筛选“正负样本”的核心标准（COMET分数差异）略显简单粗暴，且迭代过程可能陷入局部最优，对“语音韵律信息如何具体帮助翻译”的深层机理剖析仍显不足。 ...

Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences

📄 Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences #语音识别 #多模态模型 #数据集 #多语言 #大语言模型 🔥 8.5/10 | 前25% | #语音识别 | #多模态模型 | #数据集 #多语言学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Dmitrii Korzh (1 AXXX, Moscow, Russia; 2 MTUCI, Moscow, Russia) 通讯作者：未说明作者列表： Dmitrii Korzh (AXXX, MTUCI) Dmitrii Tarasov (FusionBrain Lab, AXXX; HSE University) Artyom Iudin (AXXX, MTUCI) Elvir Karimov (AXXX, MTUCI; Applied AI Institute) Matvey Skripkin (FusionBrain Lab, AXXX; Applied AI Institute) Nikita Kuzmin (AXXX, MTUCI; Applied AI Institute) Andrey Kuznetsov (FusionBrain Lab, AXXX; Innopolis University) Oleg Y. Rogov (AXXX, MTUCI; Applied AI Institute) Ivan Oseledets (AXXX, MTUCI; Applied AI Institute; Moscow State University) 💡 毒舌点评这篇论文的最大亮点在于“基建狂魔”式的工作——用超过63万个人工/合成音频样本，硬生生为一个垂直领域（语音转LaTeX）打造了首个大规模开源数据集和完整的方法论基准，其数据构建的严谨性和开源精神值得称赞。但短板也很明显：号称“端到端”的SALMONN模型（图1b）其实只是在现有音频LLM上微调，且其对复杂数学语句（Table 3）的预测仍显示模型对深层语义理解有限，多数时候只是在做更精准的“符号匹配”。 ...

SumRA: Parameter Efficient Fine-tuning with Singular Value Decomposition and Summed Orthogonal Basis

📄 SumRA: Parameter Efficient Fine-tuning with Singular Value Decomposition and Summed Orthogonal Basis #语音识别 #参数高效微调 #多语言 #低资源 ✅ 7.5/10 | 前25% | #语音识别 | #参数高效微调 | #多语言 #低资源学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Chin Yuen Kwok（南洋理工大学数字信任中心 & 计算与数据科学学院）通讯作者：Yongsen Zheng（南洋理工大学数字信任中心 & 计算与数据科学学院）作者列表：Chin Yuen Kwok（南洋理工大学数字信任中心 & 计算与数据科学学院）、Yongsen Zheng（南洋理工大学数字信任中心 & 计算与数据科学学院）、Jia Qi Yip（南洋理工大学计算与数据科学学院）、Kwok-Yan Lam（南洋理工大学数字信任中心 & 计算与数据科学学院）、Eng Siong Chng（南洋理工大学数字信任中心 & 计算与数据科学学院） 💡 毒舌点评本文巧妙地将SVD的数学结构与LoRA的参数效率需求结合，通过“求和奇异向量”这一简洁操作，在冻结A矩阵的同时显著提升了多语言ASR的微调效果，证明了好的初始化比训练时的参数自由度有时更重要。然而，论文的实验完全集中在语音领域，对方法在更广泛NLP任务（如摘要中提到的GLUE）上的失效缺乏深入剖析，且未开源任何代码或模型，使得其“参数高效”在可复现性和实际部署上打了折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了公开的Common Voice数据集，但未提供具体的划分脚本或处理后的数据。 Demo：未提及。复现材料：给出了模型配置（Whisper small/large-v2）、训练轮数、batch size、优化器、学习率调度器名称、LoRA插入位置、α设置等关键训练细节。提供了方法的数学公式和算法描述。论文中引用的开源项目：引用了Whisper（Radford et al., 2023）、SpeechBrain（用于学习率调度器）以及Common Voice数据集。总结：论文中未提及开源计划。 📌 核心摘要问题：现有的参数高效微调方法（如LoRA-FA、PiSSA）在冻结部分矩阵以节省存储和内存时，其初始化策略（如仅使用前几个主奇异向量）限制了模型对预训练知识空间的整体适应能力，尤其在需要全局知识迁移的多语言ASR任务中。方法核心：提出SumRA，一种改进的LoRA矩阵A的初始化策略。其核心是将通过SVD分解预训练权重W₀得到的所有奇异向量（按Σ^(1/2)V⊤的形式）进行求和压缩，分配到矩阵A的每一行中，从而使A的每行能同时影响多个知识概念子集。同时，论文提出了“交错求和”和“贪心求和”策略来均匀分配重要奇异向量，避免干扰。与已有方法相比的新颖性：相比于PiSSA仅使用顶部r个主奇异向量初始化A，SumRA通过求和方式利用了全部奇异向量（从主到次），从而让A矩阵能在更广的知识子空间上进行操作。这可以看作是在单次训练前就高效地“集成”了多个不同初始化方向的LoRA（如图5所示）。主要实验结果：在Common Voice数据集上使用5种新语言（每种仅10小时数据）对Whisper模型进行适配的实验中： SumRA在WER（词错误率）上显著优于LoRA、PiSSA和CorDA等基线。例如，在Whisper-large-v2上，SumRA将WER从LoRA的14.42%降至12.41%（相对改进约14%），同时参数量减半（17.6M vs 34.3M）。消融实验（表3）表明，提出的“交错求和”与“贪心求和”策略性能接近且均优于简单的“块求和”。实际意义：在需要为大量语言或个性化用户部署微调模型的场景中，SumRA通过共享冻结的A矩阵、仅存储每个任务的B矩阵，能显著降低总存储成本（如图4所示），同时保持甚至提升性能，为大规模、可扩展的语音模型适配提供了更优的解决方案。主要局限性：方法对全局属性的适应（如口音、说话风格）有效，但对局部适应（如添加少量领域术语）帮助有限。在NLP的GLUE基准测试等任务上初步实验未见明显提升，表明其优势可能局限于需要广泛表示空间调整的任务。 🏗️ 模型架构本文的SumRA本身不是一个独立的模型架构，而是对现有LoRA（低秩适应）模块初始化方式的改进，用于适配大型预训练语音模型（如Whisper）的线性层。整体流程如下： ...

SupCLAP: Controlling Optimization Trajectory Drift in Audio-Text Contrastive Learning with Support Vector Regularization

📄 SupCLAP: Controlling Optimization Trajectory Drift in Audio-Text Contrastive Learning with Support Vector Regularization #对比学习 #音频检索 #多语言 #预训练 ✅ 7.5/10 | 前25% | #音频检索 | #对比学习 | #多语言 #预训练学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Jiehui Luo（中央音乐学院，2∗）通讯作者：Yuguo Yin（北京大学，1†）作者列表： Jiehui Luo（中央音乐学院） Yuguo Yin（北京大学） Yuxin Xie（北京大学） Jinghan Ru（北京大学） Xianwei Zhuang（北京大学） Minghua He（北京大学） Aofan Liu（北京大学） Zihan Xiong（电子科技大学） Dongchao Yang（香港中文大学） 💡 毒舌点评本文的亮点在于从优化动力学的角度（力分解）为对比学习中的“轨迹漂移”现象提供了新颖的理论解释，并据此设计出简洁有效的SVR正则化方法，理论自洽且实验证据扎实。短板在于其验证主要依赖于相对较小规模的数据集（AudioCaps， Clotho），且未与更多、更强的近期基线（如一些大规模的CLIP式音频-文本模型）进行对比，其实效性和普适性在更大规模场景下有待进一步证明。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及公开预训练模型权重。数据集：使用了公开的AudioCaps和Clotho数据集，并自行构建了多语言翻译版本。多语言测试集的质量在附录E.9中进行了评估。 Demo：论文中未提及在线演示。复现材料：论文在正文和附录中提供了较为详尽的训练设置（超参数、优化器、硬件）、模型架构细节（编码器型号、MLP结构）以及评估方法，为复现提供了基础。引用的开源项目：论文依赖的编码器模型为CED（Dinkel et al., 2024）和SONAR-TE（Duquenne et al., 2023），均为公开可用模型。总结：论文中未提及开源计划。 📌 核心摘要本文针对音频-文本对比语言-音频预训练（CLAP）中优化轨迹漂移的问题，该问题源于负样本推力中不受控的垂直分量，导致训练不稳定和收敛缓慢。方法核心是提出支持向量正则化（SVR），通过在原损失函数中添加一个辅助损失项，利用构造的文本“支持向量”来选择性地抑制推力的垂直分量，从而稳定优化轨迹。与已有方法（如InfoNCE、SigLIP）相比，本文新在：(1) 首次从梯度力分解视角明确剖析了轨迹漂移问题；(2) 设计了SVR方法进行针对性干预，且无需额外数据和推理开销；(3) 提出了无监督的语义半径建模策略（StaticSVR 和 DynamicSVR）来控制干预强度。主要实验结果：在AudioCaps和Clotho数据集上，bi-DynamicSVR 方法在单语和多语言文本-音频检索任务上均显著超越InfoNCE和SigLIP基线。例如，在AudioCaps的T2A R@1指标上，InfoNCE为41.87，而bi-DynamicSVR达到44.16（提升约2.3%）；在零样本ESC-50分类上，InfoNCE为89.6，bi-DynamicSVR为92.1（提升2.5%）。实际意义在于，该方法以极低的额外计算成本（训练开销可忽略），提升了对比学习的训练效率和最终对齐质量，可直接应用于各种基于对比学习的音频-文本模型训练流程中。主要局限性包括：(1) 实验数据集规模相对较小；(2) 与更先进的、可能已包含复杂技巧的基线对比不完全；(3) DynamicSVR的性能依赖于预测半径的准确性，在极端噪声环境下可能不稳定（论文附录E.7对其鲁棒性有一定分析）。 🏗️ 模型架构 SupCLAP的架构并未提出全新的编码器模型，而是在标准的对称对比学习框架（由音频编码器和文本编码器组成）之上，修改了训练目标函数。 ...

Tell me Habibi, is it Real or Fake?

📄 Tell me Habibi, is it Real or Fake? #音频深度伪造检测 #数据集 #多语言 #语音克隆 #音视频 🔥 8.0/10 | 前25% | #音频深度伪造检测 | #数据集 | #多语言 #语音克隆学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Kartik Kuckreja (MBZUAI) 通讯作者：未说明作者列表：Kartik Kuckreja (MBZUAI), Parul Gupta (Monash University), Injy Hamed (MBZUAI), Thamar Solorio (MBZUAI), Muhammad Haris Khan (MBZUAI), Abhinav Dhall (Monash University) 💡 毒舌点评这篇论文精准地抓住了现有深度伪造检测数据集在多语言（尤其是阿拉伯语-英语语码转换）场景下的巨大空白，并提供了一个规模空前的数据集（387k视频），填补了这一重要缺口。然而，其数据生成管道高度依赖多个前沿但复杂的TTS/唇同步模型组合以及GPT-4的文本编辑，虽然保证了多样性，但也使得“伪造”样本的生成过程本身成为一个“黑盒”集成，其质量的上限和下限都极大程度地受限于这些商业/开源模型的能力，而非论文提出的统一框架。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及。数据集：论文明确表示将公开数据集，并提供了获取所需的EULA表单（图7）。访问需通过机构IRB批准和签署EULA。 Demo：未提及在线演示。复现材料：论文提供了数据生成管道的详细描述、关键工具（Whisper-v2, GPT-4.1-mini, XTTS-v2, OpenVoice-v2, Fairseq, Diff2Lip, LatentSync）以及评估脚本的开源承诺。附录中提供了详细的文本操作提示（图6）、数据分布、扰动列表和身份重叠分析等复现相关信息。论文中引用的开源项目：Whisper, wav2vec 2.0, XTTS-v2, OpenVoice-v2, Fairseq, Diff2Lip, LatentSync, XLSR-Mamba, Jais-3B, Qwen2.5等。 📌 核心摘要问题：现有的深度伪造检测研究主要针对单语内容，忽略了全球普遍存在的多语言，特别是阿拉伯语-英语语码转换（CSW）场景下的检测挑战。方法核心：提出了ArEnAV，首个大规模阿拉伯-英语音视频深度伪造数据集，并设计了一个三阶段数据生成流程：利用GPT-4.1-mini进行受控的文本（语码转换）操纵，使用4种TTS和2种唇同步模型组合生成伪造的音频和视频。创新点：数据集首次系统性地包含了句内语码转换、方言变体和纯阿拉伯语内容；生成流程专门针对阿拉伯语-英语混合内容设计；提供了多维度的基准测试，包括与现有单语/多语言数据集的对比、SOTA模型评估及用户研究。主要实验结果：数据集对比：ArEnAV是目前最大的多语言音视频深度伪造数据集（387k视频，765小时），远超PolyGlotFake（15k）和Illusion（1.37M但非重点CSW）。伪造片段更长，检测更难。检测性能：现有SOTA模型（如BA-TFD+）在ArEnAV上性能大幅下降。在测试集上，BA-TFD+（AV-1M预训练）的AP@0.5仅为3.74，而微调后AUC可达79.97%。跨数据集泛化：在DFDC, FF++, CelebDF上表现良好的模型（如Face-X-Ray, LipForensics），在ArEnAV上AUC接近随机猜测（~50%）。用户研究：人类参与者的检测准确率仅为60.00%，定位精度（AP@0.5）仅0.79，证明该任务极具挑战性。85%的失败案例发生在语码转换中的英语单词部分。实际意义：为构建更具鲁棒性、能应对真实世界多语言语码转换场景的深度伪造检测模型提供了关键资源和基准，推动了该领域向全球化、多样化方向发展。主要局限性：生成管道复杂，依赖外部模型（Whisper, GPT-4, TTS，唇同步模型），其质量和特性直接影响数据集质量；“含义+翻译”模式下，LLM有时未能充分改变语义；数据集目前仅限于阿拉伯语和英语。 🏗️ 模型架构本文的主要贡献是数据集而非一个新的检测模型架构。论文的核心是ArEnAV数据生成管道，其架构如图1所示：整个流程分为三个主要阶段： ...

TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

📄 TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems #语音合成 #模型评估 #基准测试 #多语言 #鲁棒性 ✅ 7.0/10 | 前25% | #模型评估 | #基准测试 | #语音合成 #多语言学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Christoph Minixhofer（爱丁堡大学语音技术研究中心）通讯作者：未说明作者列表：Christoph Minixhofer（爱丁堡大学语音技术研究中心）、Ondrej Klejch（爱丁堡大学语音技术研究中心）、Peter Bell（爱丁堡大学语音技术研究中心） 💡 毒舌点评亮点：论文构建了迄今最全面的TTS系统公开评测框架，涵盖20个系统、4个测试域、14种语言，并发布了超过1万条主观评分数据，这本身就是一项耗时耗力的重要基础设施贡献。短板：TTSDS2指标本身创新有限，本质是多个特征分布的Wasserstein距离集成，且计算开销大（每分需约10分钟CPU时间），其最大优势——“跨域一致性”更像是一个精心设计和调优的工程成果，而非理论突破。 🔗 开源详情代码：提供了流水线代码仓库链接：github.com/ttsds/pipeline。模型权重：TTSDS2本身是一个评估算法，不涉及模型权重。论文中评估的20个TTS系统中，大部分开源代码和权重（见表6附录A）。数据集：a) 主观评测数据集：hf.co/datasets/ttsds/listening_test；b) 自动化生成的评测数据集：可通过上述流水线重建，噪声参考集在 hf.co/datasets/ttsds/noise-reference。 Demo：提供了多语言基准排行榜网站 ttsdsbenchmark.com，可查看各系统分数。论文未提及交互式Demo。复现材料：论文提供了详细的算法伪代码（算法1）、因子特征选择表（表1）、附录中的听测问卷细节（附录B）、以及所有实验数据的详细表格（附录C-H）。论文中引用的开源项目：Whisper（语音识别与转录）、FastText（语言识别）、Pyannote（说话人分割）、Demucs（音乐分离）、VERSA（评估工具包）、以及所有被评测的20个TTS系统。 📌 核心摘要解决的问题：现有TTS评估方法（主观MOS耗时费力且不可比，客观指标在域外泛化差且与主观分相关性弱）已无法满足评估高质量、接近真人水平的现代TTS系统的需求。方法核心：提出TTSDS2，一个分布式的、因子化的客观评估指标。它从Generic、Speaker、Prosody、Intelligibility四个感知维度，提取多种特征，并计算合成语音特征分布与真实语音分布、噪声分布之间的2-Wasserstein距离，归一化后得到分数。与已有方法相比新在哪里：a) 是首个在4个差异巨大的域（干净朗读、嘈杂、野外、儿童语音）和14种语言上，都能与主观评分（MOS/CMOS/SMOS）保持 Spearman 相关系数 ρ > 0.5 的单一指标。b) 发布了一个持续更新、可自动化复现的多语言TTS评测基准和流程。c) 收集并发布了大规模、跨系统的主观评测数据集（11,282条有效评分）。主要实验结果： TTSDS2在所有4个域、3类主观评分（共12个评测点）上的平均Spearman相关系数为0.67，是唯一一个在所有评测点上ρ > 0.5的指标（表3）。相比之下，其他15个指标中表现最好的Speaker Similarity类指标（RawNet3）平均相关系数为0.6，但存在域失效；MOS预测网络（SQUIM）平均为0.57。对20个开源TTS系统的排名中，TTSDS2与MOS和CMOS在Top 4和Bottom 3系统上达成一致（图2）。实际意义：为TTS社区提供了一个可靠、稳健、可自动化的跨语言、跨域评估标尺和持续更新的基准排行榜，有助于更公平、更高效地比较和推进TTS技术，尤其对评估那些声称达到“人机难辨”水平的系统至关重要。主要局限性：a) 计算成本高（CPU-bound）。b) 仍无法完全替代主观评测（最高相关系数约0.8）。c) 无法检测TTS系统可能存在的语义错误（如转录不忠实），需辅以WER等指标。d) 评估粒度为句子级别，不支持长文本。 🏗️ 模型架构 TTSDS2并非一个生成模型，而是一个评估指标框架。其核心架构如下： ...

VowelPrompt: Hearing Speech Emotions from Text via Vowel-level Prosodic Augmentation

📄 VowelPrompt: Hearing Speech Emotions from Text via Vowel-level Prosodic Augmentation #语音情感识别 #大语言模型 #数据增强 #多语言 #强化学习 ✅ 7.5/10 | 前25% | #语音情感识别 | #数据增强 | #大语言模型 #多语言学术质量 7.0/7 | 选题价值 0.3/2 | 复现加成 0.2 | 置信度高 👥 作者与机构第一作者：Yancheng Wang（Arizona State University， Meta Superintelligence Labs）通讯作者：未说明作者列表：Yancheng Wang（Arizona State University, Meta Superintelligence Labs）， Osama Hanna（Meta Superintelligence Labs）， Ruiming Xie（Meta Superintelligence Labs）， Xianfeng Rui（Meta Superintelligence Labs）， Maohao Shen（Massachusetts Institute of Technology, Meta Superintelligence Labs）， Xuedong Zhang（Meta Superintelligence Labs）， Christian Fuegen（Meta Superintelligence Labs）， Jilong Wu（Meta Superintelligence Labs）， Debjyoti Paul（Meta Superintelligence Labs）， Arthur Guo（Meta Superintelligence Labs）， Zhihong Lei（Meta Superintelligence Labs）， Ozlem Kalinli（Meta Superintelligence Labs）， Qing He（Meta Superintelligence Labs）， Yingzhen Yang（Arizona State University） 💡 毒舌点评亮点是提出了一个新颖且可解释的语音情感识别框架，将语言学知识（元音是韵律的主要载体）与大语言模型的推理能力相结合，实验全面覆盖零样本、微调、跨域和多语言场景。短板是系统依赖外部强制对齐工具（如MFA）的准确性和可用性，这增加了实际部署的复杂度，且论文未讨论在噪声或说话人识别失败时的鲁棒性。 ...

语音/音乐/音频论文速递 2026-05-02

语音/音乐/音频论文速递 2026-05-02 共分析 4 篇论文 ⚡ 今日概览 📥 抓取 4 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音对话系统 1篇 █ #语音合成 1篇 █ #基准测试 1篇 █ #语音识别 1篇 █ 📊 论文评分排行榜（4 篇，按分数降序）排名论文评分分档主任务 🥇 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal 8.5分前25% #语音对话系统 🥈 JaiTTS: A Thai Voice Cloning Model 8.0分前25% #语音合成 🥉 InteractWeb-Bench: Can Multimodal Agent Escape Blind Ex 7.5分前25% #基准测试 4. AppTek Call-Center Dialogues: A Multi-Accent Long-Form 6.5分前50% #语音识别 📋 论文列表 🥇 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction 🔥 8.5/10 | 前25% | #语音对话系统 | #端到端 | #多模态模型 #流式处理 | arxiv ...