Icassp-2026

Controllable Embedding Transformation for Mood-Guided Music Retrieval

📄 Controllable Embedding Transformation for Mood-Guided Music Retrieval #音乐检索 #音乐理解 #对比学习 #嵌入变换 ✅ 7.5/10 | 前25% | #音乐检索 | #对比学习 | #音乐理解 #嵌入变换学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Julia Wilkins（SiriusXM-Pandora, USA；New York University, New York, USA）通讯作者：未说明（论文中未明确标注通讯作者）作者列表： Julia Wilkins（SiriusXM-Pandora, USA；New York University, New York, USA） Jaehun Kim（SiriusXM-Pandora, USA） Matthew E. P. Davies（SiriusXM-Pandora, USA） Juan Pablo Bello（New York University, New York, USA） Matthew C. McCallum（SiriusXM-Pandora, USA） 💡 毒舌点评论文精准地抓住了音乐推荐系统从“千人千面”到“一键微调”的体验升级需求，并设计了一个工程上可行的嵌入变换框架，其“相似但不同情绪”的检索范式非常直观且实用。然而，整个方法高度依赖于高质量的MULE预训练嵌入和标签，在嵌入空间本身质量不高的情况下效果必然大打折扣，且“情绪”这一高度主观的属性用四个离散标签来定义和变换，其颗粒度和泛化能力值得怀疑。 ...

Cooperative Multi-Agent Reinforcement Learning for Adaptive Aggregation in Semi-Supervised Federated Learning with non-IID Data

📄 Cooperative Multi-Agent Reinforcement Learning for Adaptive Aggregation in Semi-Supervised Federated Learning with non-IID Data #联邦学习 #强化学习 #音频分类 #对抗样本 #鲁棒性 ✅ 7.0/10 | 前50% | #联邦学习 | #强化学习 | #音频分类 #对抗样本学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Rene Glitza（波鸿鲁尔大学通信声学研究所）通讯作者：论文中未明确指出，未说明作者列表：Rene Glitza（波鸿鲁尔大学通信声学研究所）、Luca Becker（波鸿鲁尔大学通信声学研究所）、Rainer Martin（波鸿鲁尔大学通信声学研究所） 💡 毒舌点评本文巧妙地将TD3算法应用于联邦学习的服务器与客户端双层决策，构建了一个能同时“抵御坏人”和“发展个性”的自适应系统，实验设计考虑了三种非独立同分布场景和对抗设置，相当全面。但实验仅局限于一个450k参数的小型音频Transformer预训练任务，就宣称“适用于真实世界部署”略显仓促，且未与同样使用强化学习的FedAA、FedDRL进行充分直接的性能对比，说服力打了折扣。 🔗 开源详情代码：论文中提及代码仓库链接为 github.com/NexuFed/pFedMARL。模型权重：未提及公开模型权重。数据集：实验使用DCASE Task 2数据集，但论文未说明是否公开处理后的数据集或如何获取，仅提及了原始数据集来源。 Demo：未提供在线演示。复现材料：论文提供了部分训练细节（网络结构、超参数、数据集描述），但缺少完整的配置文件、训练脚本、环境依赖列表和检查点。论文中引用的开源项目：论文引用了Twin Delayed DDPG (TD3)算法[12]、优先级经验回放[19]、Audio Spectrogram Transformer (AST)[17, 18]等，表明实现可能依赖这些概念或现有库。 📌 核心摘要本文旨在解决联邦学习在非独立同分布数据下全局模型性能下降及模型偏差问题，以及对抗性客户端威胁模型鲁棒性的挑战。核心方法是提出pFedMARL，一个多智能体强化学习框架，使用Twin Delayed DDPG（TD3）算法。该框架包含一个服务器端代理，动态调整客户端聚合权重以优化全局模型鲁棒性；以及客户端代理，平衡全局与局部更新以实现个性化模型，且无需预训练代理。与传统方法（如FedAvg）相比，其新在将联邦学习过程建模为多智能体协同决策问题，实现了聚合策略的动态自适应。与Ditto相比，其新在通过强化学习自动学习个性化平衡参数，并额外增强了对抗鲁棒性。主要实验结��（见下表）表明，在三种非独立同分布数据场景下，pFedMARL在本地数据和全局数据上的MSE和F1-score指标上均优于或媲美FedAvg和Ditto，并能有效抑制对抗性客户端的影响。其实际意义在于为隐私敏感、数据异构的真实世界（如IoT设备协同训练）提供了一个灵活、可扩展的联邦学习解决方案。主要局限性在于验证局限于单一的半监督音频预训练任务，且缺乏对更多标准联邦学习基准（如计算机视觉数据集）的验证。 ...

CosyAccent: Duration-Controllable Accent Normalization using Source-Synthesis Training Data

📄 CosyAccent: Duration-Controllable Accent Normalization using Source-Synthesis Training Data #语音转换 #流匹配 #语音合成 #数据增强 #非自回归 ✅ 7.8/10 | 前25% | #语音转换 | #流匹配 | #语音合成 #数据增强学术质量 7.8/7 | 选题价值 7.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Qibing Bai（香港中文大学（深圳）数据科学学院、腾讯天籁音频实验室）通讯作者：Shuai Wang（南京大学智能科学与技术学院，标注†）作者列表：Qibing Bai（香港中文大学（深圳）数据科学学院、腾讯天籁音频实验室）、Shuhao Shi（香港中文大学（深圳）数据科学学院）、Shuai Wang（南京大学智能科学与技术学院）、Yukai Ju（腾讯天籁音频实验室）、Yannan Wang（腾讯天籁音频实验室）、Haizhou Li（香港中文大学（深圳）数据科学学院、深圳市大数据研究院、香港中文大学（深圳）高等金融研究院） 💡 毒舌点评亮点在于“源合成”数据策略的构思巧妙——通过合成非母语语音来使用纯净母语语音作为目标，从根本上规避了TTS伪影污染，这一思路颇具启发性。短板则是其宣称的“无需真实L2数据”在泛化到真实、多样且含噪声的L2语音时可能面临挑战，且模型在说话人相似度上略逊于基线。 🔗 开源详情代码：提供了GitHub代码仓库链接：https://github.com/P1ping/CosyAccent。模型权重：论文中未明确提及是否公开预训练模型权重。数据集：论文中描述了使用LibriTTS-R和L2-ARCTIC构建合成数据集的方法，但未明确说明是否公开最终的合成数据集。 Demo：提供了在线演示链接：https://p1ping.github.io/CosyAccent-Demo。复现材料：论文详细描述了模型架构、数据构建流水线、关键训练技术（CTC损失、位置缩放、CFG）。但未提供训练的具体超参数（如学习率、Batch size）、训练硬件信息和检查点。论文中引用的开源项目： CosyVoice2 [19]：用于合成L2语音的提示式TTS模型。 Whisper [27]：用作冻结的语音编码器前端。 Resemblyzer：用于提取说话人嵌入。 HiFTNet [34]：用作声码器。其他基准模型代码：FramAN [13], TokAN [18]。论文中未提及开源计划的其他方面：如合成数据集权重。 📌 核心摘要这篇论文针对口音归一化（AN）中训练数据稀缺和时长建模生硬两大挑战，提出了一种新的解决方案。核心方法包括：1）提出“源合成”训练数据构建策略，使用强大的提示式TTS（CosyVoice2）从大规模母语语料中合成非母语语音，从而在完全不使用真实L2数据的情况下，构建以高质量母语语音为目标的平行训练对。2）提出了CosyAccent模型，一个基于流匹配的非自回归（NAR）系统，它通过隐式韵律建模保证自然度，并引入“位置缩放”技术实现对输出总时长的显式控制。实验结果显示，尽管未使用真实L2数据训练，CosyAccent在内容保持（WER降至12.96% vs. 基线16.21%）和自然度（主观NAT评分64.62）上显著优于使用真实数据的基线模型。该工作证明了合成数据策略的有效性，为减少对稀缺口音数据的依赖提供了新途径。其主要局限性在于合成数据可能缺乏真实L2语音的声学复杂性和副语言特征。 ...

Coupling Acoustic Geometry and Visual Semantics for Robust Depth Estimation

📄 Coupling Acoustic Geometry and Visual Semantics for Robust Depth Estimation #空间音频 #多模态模型 #时频分析 #鲁棒性 ✅ 7.5/10 | 前25% | #空间音频 | #多模态模型 | #时频分析 #鲁棒性学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构基于论文内容提取如下：第一作者：Anjie Wang（北京大学电子与计算机工程学院，鹏城实验室）通讯作者：Zhijun Fang（复旦大学可信具身AI研究所，东华大学信息与智能科学学院）(论文中注明“Corresponding author: Zhijun Fang (zjfang@fudan.edu.cn)”) 作者列表： Anjie Wang（北京大学电子与计算机工程学院，鹏城实验室） Mingxuan Chen（上海工程技术大学电子与电气工程学院） Xiaoyan Jiang（上海工程技术大学电子与电气工程学院） Yongbin Gao（上海工程技术大学电子与电气工程学院） Zhijun Fang（复旦大学可信具身AI研究所，东华大学信息与智能科学学院） Siwei Ma（北京大学计算机科学学院） 💡 毒舌点评亮点在于其融合策略的精巧设计，通过语义查询注入（SQI）和条件解码器（SGCD）明确地解决了声学稀疏几何与密集视觉语义间的对齐难题，并用不确定性门控（DUGF）实现了自适应的模态平衡，这在思想上比简单的拼接或注意力融合更进了一步。然而，所有实验均基于合成声学数据（Echo simulation），且数据集均为室内场景，其结论在真实世界复杂声学环境（如室外、多声源干扰）中的泛化能力未经验证，这是其最大的短板。 🔗 开源详情根据论文内容：代码：论文中未提及代码链接或开源计划。模型权重：未提及公开模型权重。数据集：使用的是公开数据集Replica和Matterport3D。但声学数据（回声频谱图）是基于这些数据集场景模拟生成的，具体的模拟脚本或数据未提及公开。 Demo：未提供在线演示。复现材料：论文提供了一定的训练细节（优化器、学习率、轮数、批量大小、损失函数权重λ）和网络超参数，但缺乏预训练骨干网络的具体配置、数据模拟的详细参数、以及完整的训练/评估脚本。论文中引用的开源项目：引用了多个开源方法作为基线（如VisualEchoes [1], BI2D [2]），但未明确说明其代码是否被用于实现或复现。 📌 核心摘要要解决什么问题：单目深度估计在低纹理、反射、光照差和遮挡等场景下性能下降严重；而主动声学（如回声）能提供几何互补线索，但存在数据稀疏、与图像不对齐的问题。现有音视觉融合方法未能充分解决这种模态间的异质性。方法核心是什么：提出了EchoFormer框架，��核心是三个组件：（1）语义查询注入（SQI）：将DINOv2提取的全局图像语义作为查询，通过交叉注意力引导对回声特征的关注；（2）语义-几何条件解码器（SGCD）：使用图像特征和语义查询通过FiLM调制来条件化地解码多尺度回声特征；（3）动态不确定性感知门控融合（DUGF）：一个轻量级卷积头预测像素级置信度权重，自适应地融合视觉和回声特征。与已有方法相比新在哪里：与先前简单的拼接或浅层融合（如VisualEchoes， BI2D）不同，EchoFormer显式地将高层语义信息作为桥梁来耦合稀疏的声学几何特征和密集的视觉语义特征。DUGF模块引入了像素级的不确定性感知，使模型能在纹理丰富区域更信赖视觉，在黑暗或反光区域更信赖声学，这比全局加权融合更精细。主要实验结果如何：在Replica和Matterport3D两个室内基准上，EchoFormer（Mono+Echo）全面超越了现有回声单模态、单目单模态及融合方法。在Replica上，RMSE从最强基线[15]的0.246降至0.186，δ<1.25从0.865提升至0.919。在Matterport3D上，RMSE从0.845降至0.812。消融实验证实SGCD和DUGF均带来持续性能提升。实际意义是什么：为机器人导航、增强现实、三维重建等应用在视觉受限的恶劣环境中提供了更鲁棒的深度感知解决方案，推动了多模态感知在复杂真实场景中的落地。主要局限性是什么：实验完全基于模拟生成的回声数据，缺乏真实世界采集的音视觉配对数据的验证；仅评估了室内场景；声学模型单一（仅模拟了单回声源），未考虑更复杂的声学环境。 EchoFormer的整体架构如图1所示，其输入为128x128的RGB图像和对应的回声频谱图，输出为密集深度图。架构主要包含以下组件和数据流： ...

CoVA: Text-Guided Composed Video Retrieval for Audio-Visual Content

📄 CoVA: Text-Guided Composed Video Retrieval for Audio-Visual Content #跨模态检索 #音视频 #多模态模型 #对比学习 #数据集 #基准测试 ✅ 6.5/10 | 前25% | #跨模态检索 | #多模态模型 | #音视频 #对比学习学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Gyuwon Han (Chung-Ang University) 通讯作者：Chanho Eom (Chung-Ang University) 作者列表：Gyuwon Han (Chung-Ang University)、Young Kyun Jang (Google DeepMind)、Chanho Eom (Chung-Ang University) 💡 毒舌点评论文最大的亮点是提出了一个非常实际且被忽视的问题——用户可能因为音频不同而对视觉相似的视频有不同需求，并为此构建了首个音视频组合变化的检索基准，填补了领域空白。短板在于其提出的AVT融合模块本质上是为多模态特征学习一个加权平均，技术复杂度较低，核心模型架构创新有限。 🔗 开源详情代码：论文中提供了代码仓库链接：https://github.com/perceptualai-lab/CoVA/ 模型权重：论文中未明确提及是否公开预训练或微调后的模型权重。数据集：论文中构建了AV-Comp基准数据集，并提供了在线演示页面，但未明确说明数据集的公开下载方式。数据集地址：https://perceptualai-lab.github.io/CoVA/ Demo：提供了在线演示：https://perceptualai-lab.github.io/CoVA/ 复现材料：论文提供了实验设置、关键超参数（学习率、批大小、轮数）和训练硬件信息。未提供训练日志、配置文件或检查点。论文中引用的开源项目： CLIP（视觉和文本编码器） AST（音频编码器） Qwen2.5-VL-32B-Instruct（用于生成视频描述） Gemini（用于生成修改文本） AudioCaps 2.0（提供人工标注的音频描述） 📌 核心摘要要解决什么问题：现有的组合视频检索（CoVR）方法仅考虑视觉内容的修改，忽略了音频对用户检索意图的关键影响，导致视觉相似但音频不同的视频被错误地视为语义等价。方法核心是什么：提出了CoVA任务和AV-Comp数据集。方法上，提出了AVT Compositional Fusion模块，该模块通过一个简单的MLP为来自参考视频、修改文本（拆分为对象、动作、属性、音频四个方面）的每个特征分量预测一个权重，然后进行加权融合，以动态适应查询语义。与已有方法相比新在哪里：首次将音频模态的变化作为组合检索的核心考量因素。构建了首个支持音视频对齐变化查询的数据集AV-Comp。提出的AVT模块相比简单的平均融合，能更有效地利用多模态信息。主要实验结果如何：在AV-Comp测试集上，CoVA（使用CLIP-L编码器）达到了35.9% R@1，显著优于LanguageBind（27.17%）和ImageBind（20.2%）。消融实验证明移除任何文本组件（对象、动作、属性、音频）都会导致性能下降，证实了四个组件的必要性。主要结果对比如下表：方法 R@1↑ R@5↑ R@10↑ MnR↓ ImageBind 20.2 50.5 65.4 14.6 LanguageBind 27.17 61.44 77.12 8.7 CoVA (Ours) 35.9 73.7 86.4 6.2 实际意义是什么：为音视频内容的精细检索提供了新的范式和评估基准，推动多模态检索模型更全面地理解人类的多感官意图。主要局限性是什么：AVT模块设计相对简单，其性能提升部分依赖于更换了更强的文本编码器（CLIP-L）。数据集构建过程依赖于现成的视觉/音频描述生成模型（Qwen2.5-VL, Gemini），可能引入偏差。方法的可扩展性和在更复杂场景下的鲁棒性有待验证。 🏗️ 模型架构 CoVA框架整体分为三个模块：特征提取、门控融合Transformer（GFT）和AVT组合融合。其完整流程如下： ...

Cross-Architecture Knowledge Distillation of WavLM for Lightweight Speaker Verification

📄 Cross-Architecture Knowledge Distillation of WavLM for Lightweight Speaker Verification #说话人验证 #知识蒸馏 #自监督学习 #模型压缩 #语音表示学习 🔥 8.0/10 | 前25% | #说话人验证 | #知识蒸馏 | #自监督学习 #模型压缩学术质量 6.5/7 | 选题价值 7.0/2 | 复现加成 8.0 | 置信度高 👥 作者与机构第一作者：Jungwoo Heo (University of Seoul, Republic of Korea) 通讯作者：Ha-Jin Yu (University of Seoul, Republic of Korea) 作者列表：Jungwoo Heo (University of Seoul, Republic of Korea)、Hyun-seo Shin (University of Seoul, Republic of Korea)、Chan-yeong Lim (University of Seoul, Republic of Korea)、Kyowon Koo (University of Seoul, Republic of Korea)、Seung-bin Kim (University of Seoul, Republic of Korea)、Jisoo Son (University of Seoul, Republic of Korea)、Kyung Wha Kim (Supreme Prosecutors’ Office Republic of Korea)、Ha-Jin Yu (University of Seoul, Republic of Korea) 💡 毒舌点评这篇论文精准地切中了当前自监督语音模型“大而不能用”的痛点，其提出的任务引导学习（TGL）和代理对齐蒸馏（PAD）组合拳，确实为异构架构间的知识传递提供了系统化的解决方案，在VoxCeleb和VoxSRC等标准基准上取得了令人印象深刻的性能提升。然而，实验部分主要围绕其自身方法的变体展开，与当前最前沿的、同样专注于轻量化或高效说话人验证的最新方法（如2025年的SEED, LAP等）的横向对比深度稍显不足，使得其“最佳”地位的论证链条不够完整。 ...

Cross-Cultural Bias in Mel-Scale Representations: Evidence and Alternatives from Speech and Music

📄 Cross-Cultural Bias in Mel-Scale Representations: Evidence and Alternatives from Speech and Music #语音识别 #音乐信息检索 #时频分析 #多语言 #基准测试 ✅ 7.0/10 | 前25% | #语音识别 | #时频分析 | #音乐信息检索 #多语言学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Shivam Chauhan（Presight AI, Abu Dhabi, United Arab Emirates）通讯作者：未说明作者列表：Shivam Chauhan（Presight AI, Abu Dhabi, UAE）、Ajay Pundhir（Presight AI, Abu Dhabi, UAE） 💡 毒舌点评本文精准地“捅破了一层窗户纸”：大家都用Mel尺度，但可能没人深究过它对全球一半音乐和语言“不友好”这个系统性风险。其最大的价值在于用扎实的实验量化了这种偏差，并指出了ERB等低成本替代方案的可行性，这对工业界有直接指导意义。短板在于，研究仍停留在“诊断”和“推荐替代品”阶段，对于如何设计一个真正“文化自适应”或“文化公平”的端到端学习框架，未提出更根本性的方法论创新。 🔗 开源详情代码：论文明确提及发布代码仓库：https://github.com/shivam-MBZUAI/cross-cultural-mel-bias 模型权重：论文未提及发布预训练模型权重。数据集：FairAudioBench基准测试包含策划好的数据集划分，论文中说明其“available at”上述GitHub仓库链接。 Demo：未提及在线演示。复现材料：论文提供了前端配置的详细描述（滤波器数量、窗口大小等），后端架构（CRNN），训练超参数（优化器、学习率、批大小、轮数），以及使用这些信息应能进行复现。引用的开源项目：论文引用了CommonVoice、GTZAN、FMA、CompMusic、TAU Urban Acoustic Scenes等多个公开数据集，以及LEAF、SincNet等方法的代码实现作为基准。 📌 核心摘要解决的问题：现代音频系统普遍采用源于西方心理声学研究的Mel频谱尺度作为前端特征，这可能对非西方语言（特别是声调语言）和音乐（如阿拉伯微分音、印度Shruti）产生系统性的性能偏差，构成一种“技术性偏差”。方法核心：通过控制变量实验，系统比较了7种音频前端（包括标准Mel、可学习滤波器组LEAF/SincNet，以及心理声学变体ERB/Bark/CQT）在语音识别（11语言）、音乐分析（6传统）和声学场景分类（10欧洲城市）三个任务上的表现，并引入了公平性度量（WGS， ∆， ρ）。新在何处：首次跨领域、跨文化地系统量化了Mel尺度带来的公平性差距，并揭示了其机制（在关键频率范围200-500Hz分辨率严重不足）。同时，证明了替代前端能显著减少这些差距。主要结果：Mel尺度在声调与非声调语言的WER差距达12.5%，西方与非西方音乐F1差距达15.7%。替代方案如LEAF可将语音差距减少34%，CQT将音乐差距减少52%，ERB以仅1%的额外计算开销实现31%的差距缩减。下图（论文图1）直观展示了不同前端在减少差距上的效果对比。图1：不同前端在语音和音乐任务上性能差距对比实际意义：论文指出，生产系统可以立即采用ERB滤波器组来大幅提升跨文化公平性，成本极低。同时，发布了FairAudioBench基准，为社区评估此类偏差提供了标准化工具。主要局限性：非洲等地的声调语言、非欧洲的原生音乐传统在评估中代表性不足；未探讨交叉性偏差（如方言与口音的叠加影响）；结论更多是“替代比优化好”，而非“如何优化出一个最公平的”。 🏗️ 模型架构论文并未提出一个新的端到端音频模型架构，而是系统地对比了多种音频前端（Front-end）对后端模型性能的影响。所有实验使用相同的后端架构以隔离前端贡献。 ...

Cross-Domain Contrastive Learning with Dynamic Threshold Calibration for Source Speaker Tracing

📄 Cross-Domain Contrastive Learning with Dynamic Threshold Calibration for Source Speaker Tracing #说话人验证 #对比学习 #音频安全 #跨领域 #领域适应 🔥 8.0/10 | 前25% | #说话人验证 | #对比学习 | #音频安全 #跨领域学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yitian Ding（国际关系学院，北京，中国）通讯作者：Yansen Zhou（国际关系学院，北京，中国）论文中标注为通讯作者作者列表：Yitian Ding（国际关系学院）、Shengchen Li（西交利物浦大学，苏州，中国）、Yansen Zhou（国际关系学院） 💡 毒舌点评论文的亮点在于将“跨域对齐”、“类内紧致”与“置信度校准”三个目标巧妙地融为一个统一的训练框架（ACC Loss），并配合评估时的动态阈值校准（Centered AS-Norm），形成了一套完整的解决方案，其设计思路和消融实验都做得相当清晰。但略显遗憾的是，论文声称方法“即插即用、数据高效”，却未能开源代码或提供可直接运行的完整复现材料，这限制了学术界对其进行快速验证和在此基础上改进的可能性。 🔗 开源详情代码：论文中未提及代码链接。文中提到“代码在PyTorch中实现”，但未提供公开仓库地址。模型权重：未提及是否公开模型权重。数据集：使用了公开数据集LibriSpeech和VoxCeleb，以及SSTC 2024挑战赛数据集。论文中未说明SSTC 2024数据集的获取方式。 Demo：未提及在线演示。复现材料：提供了部分关键实现细节（如特征提取、网络结构、损失函数、训练超参数、硬件环境），但不足以完全独立复现，缺少完整的代码和配置文件。引用的开源项目：论文引用了MFA-Conformer[21]、LibriSpeech[23]、VoxCeleb[24,25]、MUSAN[26]、RIR数据[27]等相关开源工作。 📌 核心摘要本文针对语音转换（VC）对自动说话人验证（ASV）构成的安全威胁，研究了“源说话人追踪（SST）”任务，即从转换后的语音中识别原始说话人。其核心问题是转换语音与原始语音之间存在领域偏移，且转换语音内部的说话人特征呈现多峰结构，导致特征分布不稳定和固定阈值失效。为此，论文提出了一种“跨域对比学习与动态阈值校准”的统一范式。在训练阶段，提出联合优化ACC损失函数，它结合了对齐损失（InfoNCE，用于跨域对齐）、紧致性损失（IS-CDR，用于减少类内方差）和置信度损失（质量回归，用于质量感知校准）。在评估阶段，采用Centered AS-Norm（全局中心化+自适应归一化）进行分布感知的动态评分校准。在SSTC 2024评测基准上，所提系统在16个测试集上的平均等错误率（EER）为16.509%，超越了挑战赛冠军系统（16.788%），并将官方基线（20.613%）降低了4.104个百分点。消融实验证明，所提出的训练损失和评估后处理机制对性能提升均有显著贡献。该方法的主要贡献在于提供了一个完整的训练-评估闭环，以增强SST任务的跨域泛化能力和分数可校准性。其局限性在于评估场景局限于单一基准，且未公开代码和模型。 ...

Cross-Lingual Alzheimer’s Disease Detection with Multimodal LLMs via Speech Cue-Augmented Prompting and Instruction Tuning

📄 Cross-Lingual Alzheimer’s Disease Detection with Multimodal LLMs via Speech Cue-Augmented Prompting and Instruction Tuning #语音生物标志物 #语音大模型 #多语言 #零样本学习 #指令微调 ✅ 6.5/10 | 前25% | #语音生物标志物 | #语音大模型 | #多语言 #零样本学习学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Yin-Long Liu（中国科学技术大学国家语音及语言信息处理工程研究中心、语言科学交叉研究中心）通讯作者：Jiahong Yuan（中国科学技术大学国家语音及语言信息处理工程研究中心、语言科学交叉研究中心）作者列表： Yin-Long Liu（中国科学技术大学国家语音及语言信息处理工程研究中心、语言科学交叉研究中心） Yuanchao Li（爱丁堡大学语音技术研究中心） Yuang Chen（中国科学技术大学语言科学交叉研究中心） Liu He（中国科学技术大学语言科学交叉研究中心） Rui Feng（中国科学技术大学国家语音及语言信息处理工程研究中心、语言科学交叉研究中心） Jiaxin Chen（中国科学技术大学国家语音及语言信息处理工程研究中心、语言科学交叉研究中心） Jiahong Yuan（中国科学技术大学国家语音及语言信息处理工程研究中心、语言科学交叉研究中心） 💡 毒舌点评亮点：论文首次系统性地探索了多模态大语言模型在跨语言AD检测中的应用，并提出了“语音线索增强提示”（SCAP）这一巧妙方法，将领域专家知识转化为结构化提示，在零样本设置下取得了与监督模型可比甚至更优的效果，展现了大模型的潜力。短板：SCAP的核心（特征提取与离散化）仍依赖传统的信号处理和手工规则（如填充停顿率的定义、ASR模型的微调），本质上是将“硬编码”的领域知识注入大模型，而非让模型自主学习发现新的跨语言生物标志物，这在一定程度上限制了方法的创新深度和向新语言/任务迁移的彻底性。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及公开的模型权重链接。数据集：ADReSS和PROCESS为公开挑战赛数据集，iFLYTEK为私有数据集。论文未提供数据获取方式。 Demo：未提及。复现材料：论文详细说明了LoRA超参数、训练配置和数据划分比例，但未提供完整的配置文件或检查点。论文中引用的开源项目：依赖了Qwen系列MLLM、Whisper ASR模型、Praat等工具，但未明确列出所有依赖。 📌 核心摘要要解决什么问题：传统监督学习的AD语音检测模型跨语言、跨数据集泛化能力差，且依赖大量标注数据。本文旨在探索利用多模态大语言模型（MLLM）的零样本和少样本能力，实现鲁棒的跨语言AD检测。方法核心是什么：提出了一种语音线索增强提示（SCAP）方法。该方法首先自动提取与AD相关的四类语音线索（语音时序特征、填充停顿率、ASR错误分布、声学特征），然后利用训练集数据分布将其离散化为“低/中/高”的自然语言描述，并将其预置到提示词中，以增强MLLM对说话者认知状态的理解。在此基础上，结合指令微调（通过LoRA）进一步优化模型。与已有方法相比新在哪里：范式创新：首次系统评估MLLM（MiDashengLM, Qwen2-Audio, Qwen2.5-Omni）在跨语言AD检测上的零样本性能。提示工程创新：设计并比较了四种提示策略，发现结合上下文和思维链的“Contextual-CoT”提示最有效。核心创新是提出SCAP，将专家知识编码为提示。轻量适配：通过LoRA进行指令微调，在保持大部分参数冻结的情况下，显著提升性能和泛化性。主要实验结果如何：零样本：SCAP显著提升了所有MLLM在所有数据集上的性能。其中，Qwen2.5-Omni + SCAP + Contextual-CoT 在ADReSS、PROCESS、iFLYTEK三个数据集上的准确率分别达到 66.67%、62.50%、71.62%，超越了部分监督基线（如eGeMAPS+Naive Bayes）。指令微调：在单个数据集（如ADReSS）上微调后，模型在域内（ID）和跨域（OOD）测试集上均表现优异。例如，Qwen2.5-Omni + SCAP在ADReSS上微调后，在ADReSS（ID）、PROCESS、iFLYTEK（OOD）上的准确率分别为 83.33%、67.50%、72.97%，全面超越最强监督基线（Whisper+MLP）。关键数据表格：论文提供了详细的零样本（表3）和指令微调（表4）结果对比表格，展示了不同模型、不同提示策略、有无SCAP、不同训练源数据集下的性能。实际意义是什么：证明了经过精心设计的提示和轻量微调，通用MLLM可以被转化为强大、鲁棒且语言无关的AD检测工具，为资源有限或跨语言医疗AI应用提供了新思路。主要局限性是什么：SCAP方法依赖预先定义的特征和手动设计的阈值进行离散化，这本质上是将传统特征工程与大模型结合，而非纯粹的端到端学习。此外，评估使用的数据集规模相对较小，且部分为私有数据，可能影响结论的普遍性。 🏗️ 模型架构论文采用的架构是典型的“音频编码器 + 适配器 + 大语言模型”多模态框架，如图1所示。 ...

Cross-Lingual F5-TTS: Towards Language-Agnostic Voice Cloning and Speech Synthesis

📄 Cross-Lingual F5-TTS: Towards Language-Agnostic Voice Cloning and Speech Synthesis #语音克隆 #语音合成 #流匹配 #多语言 #零样本 ✅ 7.5/10 | 前25% | #语音克隆 | #流匹配 | #语音合成 #多语言学术质量 7.0/7 | 选题价值 8.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Qingyu Liu（上海交通大学 X-LANCE Lab / 约翰斯·霍普金斯大学）通讯作者：Xie Chen（上海交通大学 X-LANCE Lab / 上海创新研究院）†（论文中明确标注为通讯作者）作者列表：Qingyu Liu（上海交通大学、约翰斯·霍普金斯大学）、Yushen Chen（上海交通大学、上海创新研究院）、Zhikang Niu（上海交通大学、上海创新研究院）、Chunhui Wang（吉利）、Yunting Yang（吉利）、Bowen Zhang（吉利）、Jian Zhao（吉利）、Pengcheng Zhu（吉利）、Kai Yu（上海交通大学）、Xie Chen（上海交通大学、上海创新研究院） 💡 毒舌点评亮点：论文精准地找到了flow-matching TTS在跨语言场景下的痛点——对音频提示转录文本的依赖，并通过引入多粒度说话率预测器给出了一个工程上优雅的解决方案。短板：说话率预测器本身只在中文和英文数据上训练，却要声称对德、法、印地、韩等“未见语言”有效，这一结论的支撑略显单薄；此外，去除转录文本后“细粒度说话人特征（如口音、情感）”的迁移能力下降，在论文中被轻描淡写为“未来工作”，但这恰恰是克隆质量的要害。 🔗 开源详情代码：提供了Demo链接（https://huggingface.co/spaces/chenxie95/Cross-Lingual_F5-TTS_Space）和个人主页示例（https://qingyuliu0521.github.io/Cross_lingual-F5-TTS/）。论文指出Cross-Lingual F5-TTS的代码可通过这些链接访问，暗示已开源。模型权重：基础模型F5-TTS-Base已开源。本文提出的Cross-Lingual F5-TTS模型和说话率预测器的具体权重下载地址论文中未明确提供。数据集：使用了公开数据集Emilia、LibriSpeech、FLEURS。未提供本文特有的测试集（跨语言测试集）的独立下载。 Demo：提供了交互式HuggingFace Spaces Demo。复现材料：提供了详尽的训练配置（模型架构、优化器、学习率、batch size、训练步数）、推理设置（NFE、CFG等）和预处理方法描述，为复现提供了坚实基础。依赖的开源项目：MMS (forced alignment), Vocos (vocoder), Whisper-large-V3 (WER评估), Paraformer-zh (中文WER评估), WavLM (说话人相似度评估), UTMOS (自然度评估)。 📌 核心摘要问题：现有的基于流匹配的文本转语音（TTS）模型在进行跨语言语音克隆时，严重依赖于对音频提示（参考音频）的转录文本，这在目标语言未知或转录不可用时无法实现。方法核心：提出Cross-Lingual F5-TTS框架。训练时，利用MMS强制对齐工具预处理数据，获取词边界，将音频提示部分及其对应文本完全丢弃，仅用提示音频指导合成剩余被掩码的音频。推理时，为解决缺失文本导致的时长预测难题，训练了音素、音节、词三种粒度的说话率预测器，直接从音频提示的声学特征估算其说话速度，进而结合目标文本的单元数量计算合成时长。创新点：相比原F5-TTS及同类模型，本文首次在flow-matching TTS框架内实现了无需音频提示转录的跨语言克隆；引入了基于Gaussian Cross-Entropy损失的多粒度说话率预测器作为时长建模的替代方案。实验结果：在语内测试（LibriSpeech-PC test-clean, SeedTTS test-en/zh）上，该方法在WER和UTMOS等指标上匹配甚至优于原F5-TTS基线（如CL-F5+M1在LibriSpeech-PC test-clean上WER为2.079%，低于基线的2.205%）。在跨语言测试（473个样本，德、法、印地、韩语音提示合成中英文）上，成功实现了克隆，其中M1/M2模型表现良好（如合成英文WER为2.496%），而M3（词级）显著变差（WER达16.494%）。说话率预测器在MRE上表现最佳为M2在中文测试的13.771%。实际意义：使高质量语音克隆摆脱了对参考音频转录的强依赖，极大扩展了应用场景，尤其是在处理无法转录的罕见语言或实时克隆场景。局限性：1）说话率预测器在中英文以外语言上的有效性未直接验证，其泛化性存疑。2）去除文本信息后，对说话人细微特征（如口音、情感）的迁移能力下降，论文未提出解决方案。3）跨语言测试集的语言覆盖范围和样本量有限。 🏗️ 模型架构 (图1. Cross-Lingual F5-TTS 训练框架。MMS强制对齐为训练数据生成词边界，左侧片段作为无转录的音频提示，右侧片段的梅尔谱被掩码用于预测) ...