多语言 | 语音/音频论文速递

ARCHI-TTS: A Flow-Matching-Based Text-to-Speech Model with Self-Supervised Semantic Aligner and Accelerated Inference

📄 ARCHI-TTS: A Flow-Matching-Based Text-to-Speech Model with Self-Supervised Semantic Aligner and Accelerated Inference #语音合成 #流匹配 #自监督学习 #零样本 #多语言 🔥 8.0/10 | 前25% | #语音合成 | #流匹配 | #自监督学习 #零样本学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Chunyat Wu（香港中文大学）通讯作者：未说明（论文中未明确标注通讯作者）作者列表：Chunyat Wu, Jiajun Deng, Zhengxi Liu, Zheqi Dai, Haolin He, Qiuqiang Kong（所有作者均来自香港中文大学，香港，中国） 💡 毒舌点评亮点：这篇论文最大的“工程巧思”在于发现了非自回归流式解码器中，条件编码器的输出在不同去噪步之间可以安全地重复使用，从而在几乎不损失质量的前提下将推理速度提升了数倍（RTF从0.31降至0.09），这个发现极具实用价值。短板：虽然“语义对齐器”被设计为核心，但论文对其内部学习到的对齐质量缺乏直接、可视化的分析（例如对齐矩阵图），其对合成语音“时序稳定性”的贡献更多是间接推断，说服力可以更强。 🔗 开源详情代码：论文明确指出“code are publicly available”，并提供了项目主页链接 https://archimickey.github.io/architts ，但论文PDF中未给出具体的GitHub等代码仓库链接。模型权重：论文中未提及是否公开模型权重。数据集：使用的是公开数据集（Emilia, LibriHeavy, LibriTTS）。 Demo：项目主页上应包含音频样本（Audio samples）。复现材料：提供了详细的模型架构描述、超参数设置（如层数、学习率、批次大小、损失函数权重）、训练硬件和时长等关键信息，有利于复现。论文中引用的开源项目：主要依赖和参考了Emilia数据集、ConvNeXt V2（用于文本编码）、Stable Audio的VAE架构、以及用于提取说话人嵌入的CAM++模型。总结：论文有明确的开源计划和部分复现信息，但开源信息（特别是代码链接和模型权重）在提供的PDF中不完整。 📌 核心摘要问题：当前基于扩散/流匹配的非自回归TTS系统面临两大挑战：1）文本与语音之间复杂、灵活的对齐关系难以有效建模；2）迭代去噪过程带来高昂的计算开销，推理速度慢。方法：本文提出ARCHI-TTS，一种非自回归架构。核心方法包括：a) 语义对齐器：通过一个Transformer编码器，将文本特征与长度等于目标语音帧数的、可学习的“掩码嵌入”序列进行交互，从而端到端地学习出对齐的语义表征，无需显式时长标注。b) 高效推理策略：在条件流匹配的解码器中，将负责编码文本、说话人、参考音频等条件的“条件编码器”部分的输出，在多个去噪步骤间共享（重用），避免了每一步都重新计算，从而大幅提升推理效率。创新：与E2-TTS、F5-TTS等通过填充字符来实现隐式对齐的方法不同，ARCHI-TTS显式设计了一个对齐模块。与需要额外蒸馏训练（如DMDSpeech）的加速方法不同，本文的加速策略是训练无关的，直接来自对模型架构特性的洞察。主要实验结果：在LibriSpeech-PC test-clean上，WER为1.98%，SSIM为0.70，RTF为0.21（单卡3090）。在SeedTTS test-en上，WER为1.47%，SSIM为0.68。在SeedTTS test-zh上，WER为1.42%，SSIM为0.70。使用75%共享比例时，在NFE=32下，WER仍保持1.98%，RTF降至0.09。 MOS主观评测中，其自然度和说话人相似度与F5-TTS和CosyVoice2处于竞争水平。模型参数量训练数据 WER(%)↓ SSIM↑ RTF↓ 测试集 F5-TTS 336M 100K Multi. 2.42 0.66 0.31 LibriSpeech-PC test-clean ARCHI-TTS 289M 100K Multi. 1.98 0.70 0.21 LibriSpeech-PC test-clean F5-TTS - - 1.83 0.67 - SeedTTS test-en ARCHI-TTS - - 1.47 0.68 - SeedTTS test-en DiTAR - - 1.02 0.75 - SeedTTS test-zh ARCHI-TTS - - 1.42 0.70 - SeedTTS test-zh (图1：ARCHI-TTS整体架构概览图，展示了语义对齐器、条件编码器、速度解码器及数据流。) ...

B-GRPO: Unsupervised Speech Emotion Recognition Based on Batched-Group Relative Policy Optimization

📄 B-GRPO: Unsupervised Speech Emotion Recognition Based on Batched-Group Relative Policy Optimization #语音情感识别 #强化学习 #自监督学习 #多语言 ✅ 6.5/10 | 前50% | #语音情感识别 | #强化学习 | #自监督学习 #多语言学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Yingying Gao（中国移动研究院；北京大学多媒体信息处理国家重点实验室）通讯作者：未说明作者列表：Yingying Gao（中国移动研究院；北京大学多媒体信息处理国家重点实验室）、Shilei Zhang（中国移动研究院；北京大学多媒体信息处理国家重点实验室）、Runyan Yang（中国移动研究院；北京大学多媒体信息处理国家重点实验室）、Zihao Cui（中国移动研究院；北京大学多媒体信息处理国家重点实验室）、Junlan Feng（中国移动研究院；北京大学多媒体信息处理国家重点实验室） 💡 毒舌点评这篇论文巧妙地将强化学习中的“组相对优势”思想从生成任务迁移到了分类任务的样本选择上，为无监督语音情感识别提供了一个新颖且有一定效果的框架。然而，其核心的“自奖励”函数高度依赖模型自身的置信度，缺乏外部验证，容易陷入“自信地犯错”的循环；此外，论文声称“无监督”，但实际需要一半的标注数据进行预训练，这削弱了其在“零标注”场景下的说服力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了公开数据集（IEMOCAP， CASIA， CAFE， MELD， M3ED），但论文未说明具体获取方式或预处理脚本。 Demo：未提供。复现材料：部分复现细节已给出（模型结构、学习率、批量大小、训练轮数），但关键奖励函数参数、优化器、数据划分细节、训练硬件等信息缺失。论文中引用的开源项目：引用了Emobox[17]工具包（用于实验实现）和多个预训练模型：SenseVoice[18]、Emotion2vec[10]、Whisper[19]。开源计划：论文中未提及开源计划。 📌 核心摘要本文针对无监督语音情感识别中数据稀疏和标注偏差问题，提出了一种基于批量组相对策略优化（B-GRPO）的强化学习方法。方法核心是将训练过程视为长期决策，将是否使用一个样本作为动作，将一个批次内的样本作为一组，通过计算组内相对优势来优化策略。与标准GRPO不同，B-GRPO无需为同一个输入生成多个候选输出。论文提出了自奖励函数（基于模型预测的最大似然概率）和教师奖励函数（引入外部模型验证）来评估样本质量，以替代依赖真实标签的可验证奖励。实验在五个多语言数据集上表明，B-GRPO相比无RL的基线方法平均提升了19.8%的宏F1分数，相比DINO等自监督方法也平均提升了10.3%。研究发现，自奖励函数在整体表现上优于教师奖励函数。该方法的实际意义在于提供了一种利用大量未标注数据提升情感识别性能的有效途径。主要局限性在于奖励函数的设计较为启发式，且模型的初始训练仍需依赖部分标注数据。 🏗️ 模型架构 B-GRPO是一个用于训练语音情感识别（SER）分类器的强化学习框架。其整体架构可概括为： ...

Bayesian Low-Rank Factorization for Robust Model Adaptation

📄 Bayesian Low-Rank Factorization for Robust Model Adaptation #语音识别 #领域适应 #多语言 #低资源 #码切换 🔥 8.0/10 | 前25% | #语音识别 | #领域适应 | #多语言 #低资源学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Enes Yavuz Ugan（Karlsruhe Institute of Technology, Interactive Systems Lab）通讯作者：未说明作者列表：Enes Yavuz Ugan（Karlsruhe Institute of Technology, Interactive Systems Lab）、Ngoc-Quan Pham（Carnegie Mellon University, InterACT）、Alexander Waibel（Karlsruhe Institute of Technology, Interactive Systems Lab & Carnegie Mellon University, InterACT） 💡 毒舌点评本文核心思路清晰，将贝叶斯先验引入LoRA适配器，以稀疏化更新来对抗微调导致的灾难性遗忘，在语音基础模型领域具有新颖性。然而，论文主要聚焦于单一基座模型（Whisper）和特定任务（码切换），且缺乏对计算效率和不同先验选择的深入探讨，这限制了其结论的普适性和工程价值的论证。 ...

BBPE16: UTF-16-Based Byte-Level Byte-Pair Encoding for Improved Multilingual Speech Recognition

📄 BBPE16: UTF-16-Based Byte-Level Byte-Pair Encoding for Improved Multilingual Speech Recognition #语音识别 #词元化 #多语言 #工业应用 ✅ 7.0/10 | 前50% | #语音识别 | #词元化 | #多语言 #工业应用学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Hyunsik Kim（三星研究院）（注：论文中说明与Haeri Kim贡献相等，但列表顺序前者在先）通讯作者：未说明作者列表：Hyunsik Kim（三星研究院）、Haeri Kim（三星研究院）、Munhak Lee（三星研究院）、Kyungmin Lee（三星研究院） 💡 毒舌点评这篇论文用一个“老编码翻新”的巧思，精准戳中了UTF-8在多语言ASR中对CJK语言“不友好”的痛点，带来的token效率提升是实打实的。但其创新天花板也肉眼可见，更像是一次工程优化而非学术突破，而且“仅此一篇”的封闭性也让其价值打了折扣。 🔗 开源详情代码：论文中未提及代码链接或开源仓库。模型权重：未提及。数据集：论文使用了公开数据集（LibriSpeech， KsponSpeech， AISHELL-1， WSJ， Zeroth-Korean， Common Voice），但未提供处理后的版本或特定划分。 Demo：未提供在线演示。复现材料：论文提供了模型架构的详细描述（如层数、维度）和分词器流程，但缺失具体的训练超参数（优化器、学习率、batch size）、硬件环境以及持续学习的实验设置细节。论文中引用的开源项目：引用了ESPnet [22] 作为训练框架。 📌 核心摘要问题：当前主流的基于UTF-8的字节级BPE（BBPE）分词器在处理中文、日文、韩文（CJK）等非拉丁文字时，会因为变长编码（每个字符1-4字节）导致生成的token序列过长，增加了计算负载和内存使用，不利于高效的多语言语音识别（ASR）。 ...

Benchmarking Humans And Machines On Complex Multilingual Speech Understanding Tasks

📄 Benchmarking Humans And Machines On Complex Multilingual Speech Understanding Tasks #音频问答 #语音大模型 #多语言 #模型评估 ✅ 7.5/10 | 前25% | #音频问答 | #语音大模型 | #多语言 #模型评估学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Sai Samrat Kankanala（印度科学研究院，电气工程系，LEAP Lab）通讯作者：未说明作者列表：Sai Samrat Kankanala（印度科学研究院，电气工程系，LEAP Lab）、Ram Chandra（印度科学研究院，电气工程系，LEAP Lab）、Sriram Ganapathy（印度科学研究院，电气工程系，LEAP Lab） 💡 毒舌点评本文设计了一个精巧的跨人机实验范式，首次系统量化了多语言母语者在混合语音中选择性注意力的“母语优势”现象，同时揭示了顶尖语音大模型在并行信息提取上展现出的“超人类”能力，这一对比本身极具洞察力。然而，论文在得出“模型是并行处理”这一关键结论时，更多是基于性能表现的推测，缺乏对模型内部工作机制的探查，使得这一深刻论断略显武断。 🔗 开源详情论文中未提及任何开源计划。代码：未提及代码仓库链接。模型权重：未提及（评估使用的模型为现有闭源模型及一个开源模型AF-3，但未提供本研究特有的权重）。数据集：未提及公开。论文明确说明是为本研究录制的数据。 Demo：未提供在线演示。复现材料：未给出详细的训练细节、配置、检查点或附录说明。论文中引用的开源项目：引用了Audio-Flamingo模型，并提到了其开源性质。 📌 核心摘要问题：如何系统地量化人类在多语言环境（特别是母语与第二语言）中处理混合通道（鸡尾酒会）语音的听觉注意力能力，并与当前先进的语音大模型（Speech LLMs）进行基准比较。方法核心：构建一个包含印度英语、印地语和卡纳达语的长篇故事朗读语料库（单声道和两/三路混合声道），设计基于内容的问答题，招募人类受试者并测试多个语音大模型（Audio-Flamingo, Gemini, GPT-4o系列），对比其在单声道和混合声道条件下的准确率。新在哪里：1）创建了首个针对印度多语言环境的长上下文语音问答基准；2）首次在受控实验中量化了人类在混合语音中选择性注意力的“L1（母语）优势”差距；3）通过大规模对比，揭示了人类与AI在听觉注意力机制上的根本差异：人类依赖流畅的、针对L1优化的选择性注意，而大型AI模型则依赖更强大的并行信息提取能力。主要实验结果：人类在母语中的表现显著优于第二语言（例如，印地语单声道：95.0% vs 英语：81.3%；混合声道注意力侧：60.4% vs 45.0%）。所有模型在单声道下表现良好（>88%），但在混合声道性能下降。关键发现是，在混合语音的非注意侧（干扰语音），模型（如Gemini-Pro）的准确率远高于人类（例如，英语两路混合：79.5% vs 人类72.5%），显示出模型“同时听”多路的能力，但这也导致其根据指令选择性关注目标说话人的能力（即注意力差距）远小于人类。实际意义：为评估语音交互系统在复杂、多语言真实场景中的理解能力提供了新基准；揭示了人机信息处理机制的差异，为开发更具“人性化”注意力的AI提供参考；也指出了当前开源模型在多语言复杂场景下的不足。主要局限性：1）评估任务限于问答准确率，未分析模型如何实现“超人类”的并行处理；2）数据集完全自建且未公开，可复现性差；3）模型评估是黑盒的，无法区分性能差异是源于语音编码、注意力机制还是语言理解能力。 🏗️ 模型架构本文不是提出新模型，而是评估现有的语音大模型。因此，架构分析部分主要说明评估框架。论文提出的评估框架（图1）包含三个阶段： ...

CALM: Joint Contextual Acoustic-Linguistic Modeling for Personalization of Multi-Speaker ASR

📄 CALM: Joint Contextual Acoustic-Linguistic Modeling for Personalization of Multi-Speaker ASR #语音识别 #端到端 #多任务学习 #多语言 #跨模态 ✅ 7.5/10 | 前25% | #语音识别 | #端到端 | #多任务学习 #多语言学术质量 7.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Muhammad Shakeel（Honda Research Institute Japan Co., Ltd.）通讯作者：未说明作者列表：Muhammad Shakeel（Honda Research Institute Japan Co., Ltd.）， Yosuke Fukumoto（Honda Research Institute Japan Co., Ltd.）， Chikara Maeda（Honda Research Institute Japan Co., Ltd.）， Chyi-Jiunn Lin（Carnegie Mellon University）， Shinji Watanabe（Carnegie Mellon University） 💡 毒舌点评这篇论文的“胶水”艺术令人印象深刻，将成熟的语音编码器、说话人验证模型和动态词汇扩展技术流畅地整合进一个端到端框架，解决了多说话人ASR中一个长期存在但被割裂对待的问题，实验数据也足够扎实。然而，其主要战场仍是LibriSpeech这类“干净的混合”，在AMI这种真实、嘈杂且充满填充词的会议场景中性能出现明显波动，这暗示了该框架在面对真实世界的混乱时可能过于依赖精心构造的条件。 ...

Cross-Cultural Bias in Mel-Scale Representations: Evidence and Alternatives from Speech and Music

📄 Cross-Cultural Bias in Mel-Scale Representations: Evidence and Alternatives from Speech and Music #语音识别 #音乐信息检索 #时频分析 #多语言 #基准测试 ✅ 7.0/10 | 前25% | #语音识别 | #时频分析 | #音乐信息检索 #多语言学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Shivam Chauhan（Presight AI, Abu Dhabi, United Arab Emirates）通讯作者：未说明作者列表：Shivam Chauhan（Presight AI, Abu Dhabi, UAE）、Ajay Pundhir（Presight AI, Abu Dhabi, UAE） 💡 毒舌点评本文精准地“捅破了一层窗户纸”：大家都用Mel尺度，但可能没人深究过它对全球一半音乐和语言“不友好”这个系统性风险。其最大的价值在于用扎实的实验量化了这种偏差，并指出了ERB等低成本替代方案的可行性，这对工业界有直接指导意义。短板在于，研究仍停留在“诊断”和“推荐替代品”阶段，对于如何设计一个真正“文化自适应”或“文化公平”的端到端学习框架，未提出更根本性的方法论创新。 🔗 开源详情代码：论文明确提及发布代码仓库：https://github.com/shivam-MBZUAI/cross-cultural-mel-bias 模型权重：论文未提及发布预训练模型权重。数据集：FairAudioBench基准测试包含策划好的数据集划分，论文中说明其“available at”上述GitHub仓库链接。 Demo：未提及在线演示。复现材料：论文提供了前端配置的详细描述（滤波器数量、窗口大小等），后端架构（CRNN），训练超参数（优化器、学习率、批大小、轮数），以及使用这些信息应能进行复现。引用的开源项目：论文引用了CommonVoice、GTZAN、FMA、CompMusic、TAU Urban Acoustic Scenes等多个公开数据集，以及LEAF、SincNet等方法的代码实现作为基准。 📌 核心摘要解决的问题：现代音频系统普遍采用源于西方心理声学研究的Mel频谱尺度作为前端特征，这可能对非西方语言（特别是声调语言）和音乐（如阿拉伯微分音、印度Shruti）产生系统性的性能偏差，构成一种“技术性偏差”。方法核心：通过控制变量实验，系统比较了7种音频前端（包括标准Mel、可学习滤波器组LEAF/SincNet，以及心理声学变体ERB/Bark/CQT）在语音识别（11语言）、音乐分析（6传统）和声学场景分类（10欧洲城市）三个任务上的表现，并引入了公平性度量（WGS， ∆， ρ）。新在何处：首次跨领域、跨文化地系统量化了Mel尺度带来的公平性差距，并揭示了其机制（在关键频率范围200-500Hz分辨率严重不足）。同时，证明了替代前端能显著减少这些差距。主要结果：Mel尺度在声调与非声调语言的WER差距达12.5%，西方与非西方音乐F1差距达15.7%。替代方案如LEAF可将语音差距减少34%，CQT将音乐差距减少52%，ERB以仅1%的额外计算开销实现31%的差距缩减。下图（论文图1）直观展示了不同前端在减少差距上的效果对比。图1：不同前端在语音和音乐任务上性能差距对比实际意义：论文指出，生产系统可以立即采用ERB滤波器组来大幅提升跨文化公平性，成本极低。同时，发布了FairAudioBench基准，为社区评估此类偏差提供了标准化工具。主要局限性：非洲等地的声调语言、非欧洲的原生音乐传统在评估中代表性不足；未探讨交叉性偏差（如方言与口音的叠加影响）；结论更多是“替代比优化好”，而非“如何优化出一个最公平的”。 🏗️ 模型架构论文并未提出一个新的端到端音频模型架构，而是系统地对比了多种音频前端（Front-end）对后端模型性能的影响。所有实验使用相同的后端架构以隔离前端贡献。 ...

Cross-Lingual Alzheimer’s Disease Detection with Multimodal LLMs via Speech Cue-Augmented Prompting and Instruction Tuning

📄 Cross-Lingual Alzheimer’s Disease Detection with Multimodal LLMs via Speech Cue-Augmented Prompting and Instruction Tuning #语音生物标志物 #语音大模型 #多语言 #零样本学习 #指令微调 ✅ 6.5/10 | 前25% | #语音生物标志物 | #语音大模型 | #多语言 #零样本学习学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Yin-Long Liu（中国科学技术大学国家语音及语言信息处理工程研究中心、语言科学交叉研究中心）通讯作者：Jiahong Yuan（中国科学技术大学国家语音及语言信息处理工程研究中心、语言科学交叉研究中心）作者列表： Yin-Long Liu（中国科学技术大学国家语音及语言信息处理工程研究中心、语言科学交叉研究中心） Yuanchao Li（爱丁堡大学语音技术研究中心） Yuang Chen（中国科学技术大学语言科学交叉研究中心） Liu He（中国科学技术大学语言科学交叉研究中心） Rui Feng（中国科学技术大学国家语音及语言信息处理工程研究中心、语言科学交叉研究中心） Jiaxin Chen（中国科学技术大学国家语音及语言信息处理工程研究中心、语言科学交叉研究中心） Jiahong Yuan（中国科学技术大学国家语音及语言信息处理工程研究中心、语言科学交叉研究中心） 💡 毒舌点评亮点：论文首次系统性地探索了多模态大语言模型在跨语言AD检测中的应用，并提出了“语音线索增强提示”（SCAP）这一巧妙方法，将领域专家知识转化为结构化提示，在零样本设置下取得了与监督模型可比甚至更优的效果，展现了大模型的潜力。短板：SCAP的核心（特征提取与离散化）仍依赖传统的信号处理和手工规则（如填充停顿率的定义、ASR模型的微调），本质上是将“硬编码”的领域知识注入大模型，而非让模型自主学习发现新的跨语言生物标志物，这在一定程度上限制了方法的创新深度和向新语言/任务迁移的彻底性。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及公开的模型权重链接。数据集：ADReSS和PROCESS为公开挑战赛数据集，iFLYTEK为私有数据集。论文未提供数据获取方式。 Demo：未提及。复现材料：论文详细说明了LoRA超参数、训练配置和数据划分比例，但未提供完整的配置文件或检查点。论文中引用的开源项目：依赖了Qwen系列MLLM、Whisper ASR模型、Praat等工具，但未明确列出所有依赖。 📌 核心摘要要解决什么问题：传统监督学习的AD语音检测模型跨语言、跨数据集泛化能力差，且依赖大量标注数据。本文旨在探索利用多模态大语言模型（MLLM）的零样本和少样本能力，实现鲁棒的跨语言AD检测。方法核心是什么：提出了一种语音线索增强提示（SCAP）方法。该方法首先自动提取与AD相关的四类语音线索（语音时序特征、填充停顿率、ASR错误分布、声学特征），然后利用训练集数据分布将其离散化为“低/中/高”的自然语言描述，并将其预置到提示词中，以增强MLLM对说话者认知状态的理解。在此基础上，结合指令微调（通过LoRA）进一步优化模型。与已有方法相比新在哪里：范式创新：首次系统评估MLLM（MiDashengLM, Qwen2-Audio, Qwen2.5-Omni）在跨语言AD检测上的零样本性能。提示工程创新：设计并比较了四种提示策略，发现结合上下文和思维链的“Contextual-CoT”提示最有效。核心创新是提出SCAP，将专家知识编码为提示。轻量适配：通过LoRA进行指令微调，在保持大部分参数冻结的情况下，显著提升性能和泛化性。主要实验结果如何：零样本：SCAP显著提升了所有MLLM在所有数据集上的性能。其中，Qwen2.5-Omni + SCAP + Contextual-CoT 在ADReSS、PROCESS、iFLYTEK三个数据集上的准确率分别达到 66.67%、62.50%、71.62%，超越了部分监督基线（如eGeMAPS+Naive Bayes）。指令微调：在单个数据集（如ADReSS）上微调后，模型在域内（ID）和跨域（OOD）测试集上均表现优异。例如，Qwen2.5-Omni + SCAP在ADReSS上微调后，在ADReSS（ID）、PROCESS、iFLYTEK（OOD）上的准确率分别为 83.33%、67.50%、72.97%，全面超越最强监督基线（Whisper+MLP）。关键数据表格：论文提供了详细的零样本（表3）和指令微调（表4）结果对比表格，展示了不同模型、不同提示策略、有无SCAP、不同训练源数据集下的性能。实际意义是什么：证明了经过精心设计的提示和轻量微调，通用MLLM可以被转化为强大、鲁棒且语言无关的AD检测工具，为资源有限或跨语言医疗AI应用提供了新思路。主要局限性是什么：SCAP方法依赖预先定义的特征和手动设计的阈值进行离散化，这本质上是将传统特征工程与大模型结合，而非纯粹的端到端学习。此外，评估使用的数据集规模相对较小，且部分为私有数据，可能影响结论的普遍性。 🏗️ 模型架构论文采用的架构是典型的“音频编码器 + 适配器 + 大语言模型”多模态框架，如图1所示。 ...

Cross-Lingual F5-TTS: Towards Language-Agnostic Voice Cloning and Speech Synthesis

📄 Cross-Lingual F5-TTS: Towards Language-Agnostic Voice Cloning and Speech Synthesis #语音克隆 #语音合成 #流匹配 #多语言 #零样本 ✅ 7.5/10 | 前25% | #语音克隆 | #流匹配 | #语音合成 #多语言学术质量 7.0/7 | 选题价值 8.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Qingyu Liu（上海交通大学 X-LANCE Lab / 约翰斯·霍普金斯大学）通讯作者：Xie Chen（上海交通大学 X-LANCE Lab / 上海创新研究院）†（论文中明确标注为通讯作者）作者列表：Qingyu Liu（上海交通大学、约翰斯·霍普金斯大学）、Yushen Chen（上海交通大学、上海创新研究院）、Zhikang Niu（上海交通大学、上海创新研究院）、Chunhui Wang（吉利）、Yunting Yang（吉利）、Bowen Zhang（吉利）、Jian Zhao（吉利）、Pengcheng Zhu（吉利）、Kai Yu（上海交通大学）、Xie Chen（上海交通大学、上海创新研究院） 💡 毒舌点评亮点：论文精准地找到了flow-matching TTS在跨语言场景下的痛点——对音频提示转录文本的依赖，并通过引入多粒度说话率预测器给出了一个工程上优雅的解决方案。短板：说话率预测器本身只在中文和英文数据上训练，却要声称对德、法、印地、韩等“未见语言”有效，这一结论的支撑略显单薄；此外，去除转录文本后“细粒度说话人特征（如口音、情感）”的迁移能力下降，在论文中被轻描淡写为“未来工作”，但这恰恰是克隆质量的要害。 🔗 开源详情代码：提供了Demo链接（https://huggingface.co/spaces/chenxie95/Cross-Lingual_F5-TTS_Space）和个人主页示例（https://qingyuliu0521.github.io/Cross_lingual-F5-TTS/）。论文指出Cross-Lingual F5-TTS的代码可通过这些链接访问，暗示已开源。模型权重：基础模型F5-TTS-Base已开源。本文提出的Cross-Lingual F5-TTS模型和说话率预测器的具体权重下载地址论文中未明确提供。数据集：使用了公开数据集Emilia、LibriSpeech、FLEURS。未提供本文特有的测试集（跨语言测试集）的独立下载。 Demo：提供了交互式HuggingFace Spaces Demo。复现材料：提供了详尽的训练配置（模型架构、优化器、学习率、batch size、训练步数）、推理设置（NFE、CFG等）和预处理方法描述，为复现提供了坚实基础。依赖的开源项目：MMS (forced alignment), Vocos (vocoder), Whisper-large-V3 (WER评估), Paraformer-zh (中文WER评估), WavLM (说话人相似度评估), UTMOS (自然度评估)。 📌 核心摘要问题：现有的基于流匹配的文本转语音（TTS）模型在进行跨语言语音克隆时，严重依赖于对音频提示（参考音频）的转录文本，这在目标语言未知或转录不可用时无法实现。方法核心：提出Cross-Lingual F5-TTS框架。训练时，利用MMS强制对齐工具预处理数据，获取词边界，将音频提示部分及其对应文本完全丢弃，仅用提示音频指导合成剩余被掩码的音频。推理时，为解决缺失文本导致的时长预测难题，训练了音素、音节、词三种粒度的说话率预测器，直接从音频提示的声学特征估算其说话速度，进而结合目标文本的单元数量计算合成时长。创新点：相比原F5-TTS及同类模型，本文首次在flow-matching TTS框架内实现了无需音频提示转录的跨语言克隆；引入了基于Gaussian Cross-Entropy损失的多粒度说话率预测器作为时长建模的替代方案。实验结果：在语内测试（LibriSpeech-PC test-clean, SeedTTS test-en/zh）上，该方法在WER和UTMOS等指标上匹配甚至优于原F5-TTS基线（如CL-F5+M1在LibriSpeech-PC test-clean上WER为2.079%，低于基线的2.205%）。在跨语言测试（473个样本，德、法、印地、韩语音提示合成中英文）上，成功实现了克隆，其中M1/M2模型表现良好（如合成英文WER为2.496%），而M3（词级）显著变差（WER达16.494%）。说话率预测器在MRE上表现最佳为M2在中文测试的13.771%。实际意义：使高质量语音克隆摆脱了对参考音频转录的强依赖，极大扩展了应用场景，尤其是在处理无法转录的罕见语言或实时克隆场景。局限性：1）说话率预测器在中英文以外语言上的有效性未直接验证，其泛化性存疑。2）去除文本信息后，对说话人细微特征（如口音、情感）的迁移能力下降，论文未提出解决方案。3）跨语言测试集的语言覆盖范围和样本量有限。 🏗️ 模型架构 (图1. Cross-Lingual F5-TTS 训练框架。MMS强制对齐为训练数据生成词边界，左侧片段作为无转录的音频提示，右侧片段的梅尔谱被掩码用于预测) ...

Cross-Lingual Interleaving for Speech Language Models

📄 Cross-Lingual Interleaving for Speech Language Models #语音大模型 #预训练 #多语言 #数据集 #基准测试 ✅ 7.5/10 | 前25% | #语音大模型 | #预训练 #多语言 | #预训练 #多语言学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Adel Moumen（Department of Engineering, University of Cambridge, UK）通讯作者：未说明作者列表：Adel Moumen（Department of Engineering, University of Cambridge, UK）、Guangzhi Sun（Department of Engineering, University of Cambridge, UK）、Philip C. Woodland（Department of Engineering, University of Cambridge, UK） 💡 毒舌点评亮点在于思路简洁直接：将单语序列训练推广到多语言交错序列，在不引入文本的前提下激发了SLM的跨语言潜力，实验设计也严格控制了训练语料总量这一关键变量。但短板同样明显：其核心验证仅依赖于由GPT-4合成的英法对齐数据集，且故事场景相对简单，这让人怀疑该方法在真实世界复杂声学环境和多样语义下的泛化能力是否被高估。 ...