少样本 | 语音/音乐/音频论文速递

Separate this, and all of these Things Around It: Music Source Separation Via Hyperellipsoidal Queries

📄 Separate this, and all of these Things Around It: Music Source Separation Via Hyperellipsoidal Queries #音乐分离 #音频检索 #零样本 #少样本 #信号处理 ✅ 7.0/10 | 前25% | #音乐分离 | #音频检索 | #零样本 #少样本学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Karn N. Watcharasupat（佐治亚理工学院音乐信息学组）通讯作者：未说明作者列表：Karn N. Watcharasupat（佐治亚理工学院音乐信息学组）、Alexander Lerch（佐治亚理工学院音乐信息学组） 💡 毒舌点评亮点：论文将“用几何形状圈定目标”这一优雅直觉成功转化为音乐源分离的模型输入，让“我想分离‘这个声音以及它周围所有类似的玩意儿’”这样的模糊创意需求变得可计算，思路非常漂亮且具扩展性。短板：然而，论文的“灵活性”很大程度上停留在理论设计层面，其训练仍完全依赖于监督学习下的固定茎干数据集，这使得实际能分离的“任意目标”依然受限于训练数据的分布，用户界面上的“自由绘制超椭球”体验可能远不如想象中流畅。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开模型权重。数据集：使用了公开的MoisesDB数据集，但论文未说明如何获取其特定处理后的版本。 Demo：未提及在线演示。复现材料：未提供训练细节（如优化器、学习率）、模型配置文件或检查点。arXiv补充材料仅包含部分数学推导和更多实验结果图。论文中引用的开源项目：引用了MoisesDB数据集、BSSEval工具包、PaSST模型等作为基线或组件来源。 📌 核心摘要要解决什么问题：传统音乐源分离（MSS）系统通常只能提取预设的固定类别（如人声、鼓、贝斯、其他），限制了其在创意音乐制作中的灵活性。论文旨在构建一个能根据用户查询，提取任意单一或复合目标声音的分离系统。方法核心是什么：提出“基于超椭球体查询的区域查询”范式。用户通过在预训练音频嵌入空间（如PaSST）中指定一个超椭球体的中心（代表目标）和形状（代表目标的“范围”或“相似度容差”），来描述要提取的声音。模型（在作者前作Banquet基础上扩展）通过FiLM条件模块接收该查询，并从混合音频中分离出所有嵌入落在该超椭球体内的声源。与已有方法相比新在哪里：从“点查询”升级为“区域查询”。之前的查询式分离方法（如Banquet）只能通过一个点（单个示例的嵌入）来指定目标，无法控制查询的宽泛程度。本工作引入超椭球体，允许用户直观地控制目标的“位置”和“扩散范围”，支持从非常具体到宽泛的连续查询，是首个系统化实现音乐源分离中区域查询的工作。主要实验结果如何：在MoisesDB数据集上进行评估。单源查询：通过遍历不同尺度因子α，发现模型性能对查询宽度敏感。采用最佳α后，本方法在长尾乐器（如管风琴、合成器、铜管、簧片）上的性能（中位SNR）显著优于前作Banquet，解决了其输出坍塌问题（如图4所示）。在MUSDB18-HQ上，对人声、贝斯、鼓的中位SNR分别为8.5 dB、6.8 dB、3.0 dB。多源查询：系统性能随目标源占混合源比例的增加而提升（如图5、6所示）。整体检索指标为：平均精度（AP）0.83，加权mAP 0.86，准确率0.76，F1值0.81（见表1）。检索评估：论文创新性地提出一种基于最小二乘投影的近似检索评估方法，将分离输出视为检索结果，并计算准确率、召回率、mAP等指标。实际意义是什么：为专业音乐人、混音师和普通用户提供了一种更灵活、更接近自然语言描述的音频分离工具。例如，用户可以分离“所有钢琴独奏片段”或“贝斯和鼓的节奏部分”，而不仅仅是固定的茎干，极大扩展了MSS在创意工作流中的应用潜力。主要局限性是什么：训练依赖监督数据：模型的灵活性受限于训练数据中提供的声音类别和组合。对于训练集中从未共同出现过的声音组合，超椭球查询的泛化能力未经验证。查询设计依赖嵌入空间：查询的有效性高度依赖于PaSST嵌入空间的质量，其PCA降维可能损失了部分区分信息。开源缺失：未提供代码和预训练模型，难以验证和复现。 🏗️ 模型架构论文描述的整体系统架构是一个经典的基于时频掩膜的音源分离网络，但在其瓶颈层引入了基于查询的条件适应机制。 ...

Stress Prediction from Temporal Emotion Trajectories in Clinical Patient-Physician Conversations

📄 Stress Prediction from Temporal Emotion Trajectories in Clinical Patient-Physician Conversations #语音情感识别 #多任务学习 #迁移学习 #少样本 ✅ 7.0/10 | 前25% | #语音情感识别 | #多任务学习 | #迁移学习 #少样本学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Tobias Pertlwieser（Friedrich-Alexander-Universität Erlangen-Nürnberg, Pattern Recognition Lab）通讯作者：Tobias Pertlwieser†（同第一作者）作者列表： Tobias Pertlwieser†, Hiuching Hung (Friedrich-Alexander-Universität Erlangen-Nürnberg) Tomás Arias-Vergara (Friedrich-Alexander-Universität Erlangen-Nürnberg) Paula Andrea Pérez-Toro (Friedrich-Alexander-Universität Erlangen-Nürnberg) Carolin Müller, Meike Schmitt, Hanna Huebner, Philipp Kreis, Irem Karaman, Miriam Saatze, Annika Krückel, Chloé Goossens, Katharina Seitz, Jonathan Singer (Department of Gynecology and Obstetrics, University Hospital Erlangen; Comprehensive Cancer Center Erlangen–EMN) Armine Garibyan, Peter Uhrig (Department of English and American Studies, Friedrich-Alexander-Universität Erlangen-Nürnberg) Peter A. Fasching, Manuel Hörner (Department of Gynecology and Obstetrics, University Hospital Erlangen; Comprehensive Cancer Center Erlangen–EMN; Pattern Recognition Lab) Andreas Maier (Pattern Recognition Lab, Friedrich-Alexander-Universität Erlangen-Nürnberg) 💡 毒舌点评亮点：提出将“情绪轨迹”作为压力预测的中间表征，比直接使用原始声学特征或简单的统计量更具物理可解释性，并通过注意力机制巧妙定位了对话中的“压力时刻”。短板：核心数据集只有30名患者，这个样本量在深度学习时代显得过于脆弱，其结论的可靠性和模型的泛化能力亟需更大规模数据的验证，目前更像是一个针对特定小群体的可行性展示。 ...

Synthetic Data Domain Adaptation for ASR via LLM-Based Text and Phonetic Respelling Augmentation

📄 Synthetic Data Domain Adaptation for ASR via LLM-Based Text and Phonetic Respelling Augmentation #语音识别 #领域适应 #数据增强 #大语言模型 #少样本 🔥 8.0/10 | 前25% | #语音识别 | #领域适应 | #数据增强 #大语言模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Natsuo Yamashita（Hitachi, Ltd.）通讯作者：未说明作者列表：Natsuo Yamashita（Hitachi, Ltd.）， Koichi Nagatsuka（Hitachi, Ltd.）， Hiroaki Kokubo（Hitachi, Ltd.）， Kota Dohi（Hitachi, Ltd.）， Tuan Vu Ho（Hitachi, Ltd.） 💡 毒舌点评亮点：该框架设计得非常系统和实用，特别是“先海量生成再精细过滤”的文本增强思路，以及巧妙地将发音变异性建模从声学后处理提前到文本输入阶段（PRA），直击合成数据训练的痛点。短板：论文所有实验（包括PRA的验证）均基于合成生成的训练数据和相对干净的测试集，缺乏在真实世界复杂声学环境（如强噪声、混响）下的验证，其宣称的“提升现实世界鲁棒性”尚需更严苛条件的检验。 🔗 开源详情代码：论文提供项目页面链接 (https://natsuooo.github.io/llm-asr-augmentation/)，声称将发布提示、过滤代码。论文中未直接提供代码仓库链接。模型权重：论文未提及公开其微调后的ASR模型权重。数据集：论文使用了四个公开数据集（ATCOSIM, ATCO2, Court, MedSyn），并给出了链接或引用。其生成的合成数据未提及是否公开。 Demo：论文未提及提供在线演示。复现材料：论文给出了非常详细的实验设置，包括生成模型、超参数、训练策略、硬件等，复现指引性强。音频样本在项目页面提供。论文中引用的开源项目： Whisper (ASR模型), Kokoro-TTS (TTS引擎), GPT-2 (困惑度计算), Qwen3-Embedding-8B (句向量), MUSS (选择算法)。总体开源情况：论文承诺开源部分核心工具（提示、代码、音频），但不包含核心产物（微调模型），属于“部分开源”。 📌 核心摘要这篇论文旨在解决端到端ASR模型在领域特定数据上性能下降的问题，因为收集目标领域的文本和语音资源成本高昂。论文提出一个完全基于合成数据的领域自适应框架，核心包括两个创新组件：（1）一个基于大语言模型（LLM）的多阶段文本增强管道，通过多语言提示、多LLM生成和基于三重目标（词汇类型-标记比TTR、困惑度、领域术语覆盖）的过滤策略，生成兼具领域相关性和多样性的文本；（2）一种新颖的语音拼写增强（PRA）方法，使用LLM生成反映真实发音变异（如同化、省略、替换）的正字法伪拼写，并将其作为TTS输入，从而在文本层面注入自然的发音多样性。与传统在声学特征上操作的SpecAugment不同，PRA能生成更接近真实世界发音变异性的合成语音。实验在ATCOSIM、ATCO2（空管）、Court（法庭）和MedSyn（医疗）四个领域数据集上进行。主要结果显示，仅用其提出的文本增强管道（P1-1）微调Whisper-large-v3-turbo，相比基线DAS（B1）在所有数据集上均显著降低了词错误率（WER）、领域词错误率（B-WER）和非领域词错误率（U-WER）。例如在Court数据集上，WER从20.0降至17.8，B-WER从72.8大幅降至36.8。在此基础上结合PRA（P2），能进一步获得最佳或相当的性能，如在ATCO2上将WER从47.1降至41.1。该工作的实际意义在于提供了一套可扩展、低成本的ASR领域自适应方案，无需真实领域数据即可提升模型在特定垂直领域的性能。主要局限性是其评估主要依赖于合成测试数据（MedSyn）或相对干净的真实数据（ATC、Court），缺乏对复杂真实声学环境的广泛测试。 ...

Variational Low-Rank Adaptation for Personalized Impaired Speech Recognition

📄 Variational Low-Rank Adaptation for Personalized Impaired Speech Recognition #语音识别 #领域适应 #多语言 #少样本 #低资源 ✅ 7.5/10 | 前50% | #语音识别 | #领域适应 | #多语言 #少样本学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Niclas Pokel（苏黎世大学/苏黎世联邦理工学院神经信息学研究所；慕尼黑工业大学计算机、信息与技术学院）通讯作者：未明确说明（论文中未单独列出通讯作者信息）作者列表：Niclas Pokel（苏黎世大学/苏黎世联邦理工学院神经信息学研究所；慕尼黑工业大学计算机、信息与技术学院），Pehuén Moure（苏黎世大学/苏黎世联邦理工学院神经信息学研究所），Roman Boehringer（苏黎世大学/苏黎世联邦理工学院神经信息学研究所），Shih-Chii Liu（苏黎世大学/苏黎世联邦理工学院神经信息学研究所），Yingqiang Gao（苏黎世大学计算语言学系） 💡 毒舌点评论文在解决一个具有社会意义的实际问题（受损语音识别）上方法扎实、实验设计相对全面，特别是在低资源设置下的性能提升和定性错误模式分析颇具亮点；但其核心方法——贝叶斯LoRA——并非全新思想，且新发布的数据集（BF-Sprache）仅包含单个说话人，这极大地限制了结论的泛化性和说服力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开经过VI LoRA微调的模型权重。数据集：已公开：德语BF-Sprache数据集。论文未说明具体获取方式，但提供了作者联系邮箱。UA-Speech和Common Voice为已有公开数据集。 Demo：未提及。复现材料：提供了核心方法框架描述、部分超参数（LoRA秩r=32， KL权重10%）、损失函数公式、以及数据集构成描述，但缺少完整的训练脚本、环境配置和详细超参数列表。论文中引用的开源项目：主要依赖 Whisper (OpenAI) 作为骨干模型。此外，引用了 Common Voice 数据集。 📌 核心摘要问题：患有先天性疾病（如脑瘫）或获得性脑损伤（如中风）导致的语音障碍，使得现有先进的ASR模型（如Whisper）识别性能严重下降。这主要是由于相关语音数据稀缺、声学变异性高，且数据收集与标注困难。方法核心：提出一种基于贝叶斯低秩适应（Variational Low-Rank Adaptation, VI LoRA）的个性化微调框架。该方法在标准LoRA的基础上引入变分推断，为低秩适配矩阵学习概率分布（高斯分布），并通过最小化负ELBO进行训练，以正则化微调过程并捕获不确定性。此外，论文提出一种数据驱动的先验估计方法，利用预训练权重标准差的双峰分布来为不同层设置合适的先验方差。与已有方法相比新在哪里：贝叶斯LoRA框架：不同于标准LoRA（确定性）或仅用于后验分析的贝叶斯LoRA，本方法将变分推断作为动态训练正则化器，旨在提升在低数据、高变异场景下的鲁棒性。数据驱动先验：通过对预训练权重标准差的分析，发现其呈双峰分布（如图1），据此为不同层设置不同的先验方差，比统一的先验更合理。应用与验证：将该方法应用于受损语音识别这一挑战性任务，并在新的德语数据集BF-Sprache和英文UA-Speech上进行跨语言验证。主要实验结果：在德语BF-Sprache数据集上，VI LoRA（双峰先验）在非规范语音上取得了最低的CER（20.09%）和WER（42.86%），同时在规范语音（Common Voice）上保持了最佳的性能（CER 2.15%，WER 6.05%），显著优于标准LoRA、MoRA和全参数微调（见表1）。在低资源设置下（训练数据减少至25%），VI LoRA的优势更为明显（见表3）。定性分析显示，全参数微调模型容易产生基于语法的“幻觉”转录，而VI LoRA的转录更贴近语音本身的音素（见表4）。实际意义：为沟通障碍人群提供了一种更精准、数据高效的语音识别个性化路径，有助于推动包容性语音技术的发展，特别是在低资源语言环境。主要局限性：方法依赖于对变分分布的简化假设（如均值场近似、矩阵元素独立），可能无法完全捕获参数间的复杂依赖。新发布的BF-Sprache数据集仅包含单个说话人，数据规模小，限制了方法泛化能力的评估。论文未提供完整的训练代码和模型权重，影响可复现性。 🏗️ 模型架构论文提出的方法是一个针对ASR模型微调的适配框架，而非一个独立的端到端ASR模型。 ...

Opening the Design Space: Two Years of Performance with Intelligent Musical Instruments

📄 Opening the Design Space: Two Years of Performance with Intelligent Musical Instruments #音乐生成 #自回归模型 #少样本 #开源工具 #实时处理 ✅ 6.5/10 | 前50% | #音乐生成 | #自回归模型 | #少样本 #开源工具 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Charles Patrick Martin（澳大利亚国立大学）通讯作者：Charles Patrick Martin（charles.martin@anu.edu.au，澳大利亚国立大学）作者列表：Charles Patrick Martin（澳大利亚国立大学，堪培拉，ACT，澳大利亚） 💡 毒舌点评本文最大亮点在于其“平民化”立场和扎实的艺术实践：它用15美元的硬件和艺术家自己收集的数据，证明了生成式AI可以脱离巨型实验室，成为乐手手中可玩、可折腾的“电子乐器模块”。然而，短板也同样明显：它本质上是一篇以“艺术创作”为名的系统设计报告，其核心模型（MDRNN）和硬件（树莓派）都是现成的技术，论文的创新更侧重于“如何组合与应用”而非技术突破，且所有“实验结果”都是主观的音乐表演描述，缺乏客观的性能评估与对比，学术硬度稍显不足。 🔗 开源详情代码：提供。论文明确给出了GitHub源代码仓库链接：https://github.com/cpmpercussion/impsy。模型权重：未提供。论文未提及公开训练好的模型权重文件。用户需使用自己收集的数据自行训练。数据集：未公开。论文强调数据是艺术家自收集的，并称将日志文件用于训练新模型，但未提供公开下载这些原始数据或预处理数据集的渠道。 Demo：提供。论文提供了在线视频示例，链接为：https://doi.org/10.5281/zenodo.19550146。复现材料：部分提供。提供了软件安装说明、预装系统镜像（https://github.com/cpmpercussion/impsy-pi）、以及配置接口说明。但缺乏详细的训练超参数、模型具体配置文件、数据处理脚本等深度复现细节。论文中引用的开源项目： Keras-MDN-Layer：用于实现混合密度网络层的Keras库。 TensorFlow Lite：用于模型优化和加速推理。 Poetry 或 pip：用于Python依赖管理。预构建的 Raspberry Pi OS 镜像。整体评估：项目本身是开源的，且提供了便捷的部署方式（系统镜像），友好度高。但由于核心的“小型数据”AI模型未开放，其作为“可移植设计组件”的复现价值受限。论文中未提及进一步的开源计划。 📌 核心摘要本文旨在解决生成式AI工具在音乐领域“艺术家不友好”、难以集成到现有硬件乐器与现场实践中的问题。作者提出了一个基于树莓派和MIDI通信的低成本、便携式生成式AI乐器平台（IMPSY），并采用“第一人称艺术研究”方法，通过设计、使用五款原型乐器（如Intelligent Volca, Intelligent MicroFreak等）在两年间的15场演出中进行探索。与已有方法相比，其新在于：1）强调“小型数据”与艺术家自主训练模型，而非依赖工业级大数据；2）平台设计高度依赖灵活的MIDI映射而非频繁重训练模型；3）探索了极快速的“呼叫-响应”式人机控制交替作为新的协同创作策略。主要实验结果是定性的艺术体验描述：如AI能同时控制多个合成器参数产生“非人类”音色变化（图5、7），快速控制权切换带来有趣的协作感，以及廉价硬件降低了准入门槛（表1显示最便宜的Zero 2 W启动需114秒）。实际意义是为音乐科技社区提供了一个可负担的、可扩展的AI乐器原型设计与实验工具包，推动以艺术家为中心的可持续AI音乐实践。主要局限性包括：研究基于作者单人视角，缺乏更广泛的用户研究；模型训练与迭代的长期影响未系统探讨；所有评估基于主观艺术判断，缺乏客观性能指标。 ...

ICLAD: In-Context Learning with Comparison-Guidance for Audio Deepfake Detection

📄 ICLAD: In-Context Learning with Comparison-Guidance for Audio Deepfake Detection #音频深度伪造检测 #少样本 #检索增强 #音频大模型 #可解释性 ✅ 评分：7.5/10 | arxiv 👥 作者与机构第一作者（推断）：Benjamin Chou（普渡大学，Purdue University）通讯作者（推断）：Yi Zhu（Reality Defender Inc.），Surya Koppisetti（Reality Defender Inc.）其他作者：无机构详情： Benjamin Chou：普渡大学（Purdue University），论文注释表明工作在Reality Defender Inc.实习期间完成。 Yi Zhu：Reality Defender Inc.（美国/加拿大，邮箱后缀为@inrs.ca，INRS为加拿大魁北克大学研究所）。 Surya Koppisetti：Reality Defender Inc.。 💡 毒舌点评亮点：把大模型（ALM）的“思考”能力用在了音频安全这个“脏活累活”上，还搞出了个“左右互搏”（PCR）的套路让模型自己挑刺、去伪存真，思路相当清奇，结果在真实世界数据上效果拔群。槽点：最好的“厨师”（Phase-1证据生成）用的是谷歌的“秘制酱料”（Gemini），自己家“厨房”（开源ALM）的灶台还没完全搭好（AF3指令遵循差），让想完全复刻这道菜的人有点抓瞎。而且，这“秘制酱料”在处理“罐头食品”（脚本语音）时，味道反而不对了。 🔗 开源详情代码：论文提到“GitHub”链接，但未在正文中给出具体URL。未明确说明是否开源。模型权重：专用检测器：使用的Wav2Vec2-AASIST是公开的预训练模型。 ALM：主要实验使用专有的Gemini-2.5 Flash API。评估了开源的Audio Flamingo 3 (AF3) 模型权重。 ICLAD本身：未提及发布任何ICLAD特有的模型权重。其“模型”本质上是提示策略和流程。数据集：使用的均为公开学术数据集（ASVspoof 2019/2021, MLAAD, ITW, SpoofCeleb, DFEval 2024），并提供了详细的分割和许可证信息。预训练权重：Phase-1证据库依赖Gemini生成，非可下载的预训练权重。在线Demo：未提及。引用的开源项目：faiss（用于k-NN）， lm-format-enforcer, xgrammar（用于尝试约束AF3输出）。 📌 核心摘要本文针对音频深度伪造检测模型在真实场景（in-the-wild）中泛化能力差的核心问题，提出了一种名为ICLAD的全新范式。该框架利用音频语言模型（ALM）的上下文学习能力，实现了无需训练的快速适应。其核心是创新的成对比较推理策略：在离线阶段，引导ALM为每个样本同时生成“真实”和“伪造”的证据，再结合真实标签进行证据调和，生成高质量、去幻觉的文本解释库；在线推理时，通过检索最相似的样本及其证据作为上下文，并结合一个动态路由机制，将分布内样本交给专用检测器处理，将分布外（真实场景）样本交给ALM进行推理。实验表明，ICLAD在三个真实场景数据集上显著超越了SOTA专用检测器（宏F1最高提升近2倍），并能提供可解释的文本理由。然而，该方法在脚本语音数据集上性能有所下降，且其最佳性能依赖于专有模型Gemini。 ...

MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation

📄 MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation #语音翻译 #混合专家模型 #音频大模型 #少样本 🔥 评分：8.0/10 | arxiv 👥 作者与机构第一作者：Szu-Chi Chen (台湾大学，国立台湾大学) 通讯作者：Hung-yi Lee (台湾大学，国立台湾大学；根据贡献和常见通讯作者习惯推断) 其他作者： I-Ning Tsai (台湾大学，国立台湾大学) Yi-Cheng Lin (台湾大学，国立台湾大学) Sung-Feng Huang (NVIDIA，英伟达台湾) 💡 毒舌点评亮点：精准抓住了S2ST“翻译了语义，却丢失了灵魂（笑声/哭泣）”这个长期痛点，并用一套从数据到模型的组合拳（合成数据管道+MoE架构+两阶段训练）系统性地解决了它，效果拔群，NV保留率从14%飙升到76%。槽点：数据合成依赖于现有的情感TTS和过滤器，可能引入合成偏差；目前只聚焦于五种特定情感/声音，离建模人类全部复杂细腻的情感光谱还有距离。 🔗 开源详情代码：论文未明确提及代码是否开源。模型权重：论文未明确提及预训练或微调后的模型权重是否公开。数据集：承诺开源。将发布一个1000小时的合成表达性S2ST语料库（En-Zh），包含五种情感/非语言声音类别。在线Demo：承诺提供。访问地址：https://47zzz.github.io/MoVE/。预训练权重：基于Kimi-Audio-7B-Instruct，但该基础模型的权重是否由作者提供未知。引用的开源项目：使用了Whisper（编码器和ASR评估）、IndexTTS2（合成引擎）、Librosa（音频处理）、多个情感语音数据集（CREMA-D, MSP-IMPROV, IEMOCAP, JVNV）。 📌 核心摘要这篇论文旨在解决语音到语音翻译（S2ST）系统普遍缺失非语言声音（如笑声、哭泣）和情感韵律的问题，这严重限制了跨语言交流的自然度和语用准确性。作者提出了三大贡献：1) 一个可扩展的表达性数据合成管道，能自动生成高质量、带情感标注的S2ST训练对，克服了数据稀缺瓶颈；2) MoVE（混合声音专家）架构，基于预训练音频大模型（Kimi-Audio），通过并行多个情感特化的LoRA适配器和一个动态软加权路由器，实现了对混合情感状态的精细建模，避免了特征干扰；3) 揭示了惊人的数据效率，仅需30分钟的精选数据微调，就能激活预训练模型的强大潜力，达到接近全量数据95%的情感保真度。实验表明，MoVE在英中翻译任务上，在语义准确性和非语言声音保留率（76%）上均大幅超越现有SOTA系统，并获得了最高的人工评价自然度和情感相似度分数。 🏗️ 模型架构 MoVE架构建立在预训练的音频大模型Kimi-Audio之上，其核心流程如下：输入：源语言语音波形。编码与离散化：语音首先通过一个Whisper编码器（经过在表达性数据集上微调）提取高级语义和声学特征。同时，语音通过音频分词器（Audio Tokenizer）被离散化为一系列语音token。 LLM处理（核心创新）：离散token序列输入到冻结参数的Kimi-Audio LLM主干中。在LLM的每个Transformer层中，注入了五个并行的LoRA专家适配器，分别专精于“高兴”、“悲伤”、“愤怒”、“大笑”、“哭泣”五种声音流形。每个专家独立作用于注意力层和前馈网络的投影矩阵（Wq, Wk, Wv, Wo, Wgate）。一个动态软加权路由器（一个带Softmax的轻量线性层）根据当前token的隐藏状态x，为五个专家的输出计算混合权重g_i(x)。最终层的输出是基础模型权重与所有专家加权输出的和：h(x) = W0*x + Σ g_i(x) * (B_i * A_i * x)。这实现了token级别的、连续的情感混合。解码与生成： LLM输出的离散语音token序列被送入音频解解码器（Audio Detokenizer）。该解码器经过在表达性数据（特别是非语言声音）上的微调，能更好地将token重建为包含丰富情感和非语言声音的目标语言语音波形。输出：保留了源语音情感和非语言声音的目标语言语音。关键设计选择理由： ...

Few-Shot and Pseudo-Label Guided Speech Quality Evaluation with Large Language Models

📄 Few-Shot and Pseudo-Label Guided Speech Quality Evaluation with Large Language Models #音频理解 #大语言模型 #少样本 #低资源 ✅ 评分：7.5/10 | arxiv 👥 作者与机构第一作者：Ryandhimas E. Zezario（推断为台湾中央研究院资讯科学研究所，根据论文[23]引用及常见合作模式）通讯作者：Hsin-Min Wang（台湾中央研究院资讯科学研究所），Yu Tsao（台湾中央研究院资讯科学研究所）其他作者：Dyah A. M. G. Wisnu（印度尼西亚玛琅国立大学电气工程系），Szu-Wei Fu（台湾中央研究院资讯科学研究所），Sabato Marco Siniscalchi（意大利卡塔尼亚大学电子工程系）（注：论文HTML全文未明确列出所有作者的具体机构，以上信息根据论文引用格式、常见合作网络及作者邮箱域名推断得出。） 💡 毒舌点评亮点在于巧妙地将大语言模型（LLM）定位为“元评估器”，通过整合轻量级声学特征和现有模型的伪标签（DNSMOS， VQScore），而非直接处理原始音频，规避了LLM在音频理解上的短板，思路颇具巧思。槽点则是实验数据集过于单一（仅VoiceBank-DEMAND），且在“全样本评估”中少样本版本性能反而下降，暴露出其方法对示例选择的高度敏感性，结论的普适性有待商榷，有“为了用LLM而用LLM”之嫌。 🔗 开源详情代码：论文提到代码将在GitHub上发布（“Report GitHub Issue ×”提示了代码仓库的存在），但HTML全文未提供具体链接。论文中未给出可访问的GitHub地址。模型权重：GatherMOS本身不涉及训练新模型权重。它依赖的DNSMOS和VQScore的预训练权重分别在各自的GitHub仓库公开。所使用的LLM（GPT-5）为闭源API。数据集：评估使用公开的VoiceBank-DEMAND数据集。少样本示例来自另一个公开数据集CHiME-7 UDASE任务。预训练权重：不适用。在线 Demo：论文中未提及。论文中引用的开源项目：明确提到了使用DNSMOS和VQScore的官方GitHub检查点。 📌 核心摘要本文旨在解决非侵入式语音质量评估在标注数据有限场景下的性能瓶颈。作者提出了GatherMOS框架，其核心是将大语言模型（如GPT-5）作为一个元评估器，通过精心设计的文本提示，融合多类异构信号：包括手工声学描述符（如RMS、ZCR、MFCC统计量）和来自轻量级模型DNSMOS与VQScore的伪标签。该框架支持零样本和少样本两种推理模式。实验表明，在VoiceBank-DEMAND数据集上，零样本GatherMOS已优于基线方法，而精心匹配的少样本引导能带来显著提升（在子集上SRCC达0.8473）。然而，当少样本示例与测试集分布不匹配时，性能会下降，揭示了其泛化性挑战。该研究证明了利用LLM聚合弱信号以进行可靠质量预测的可行性，为低资源场景下的语音质量评估提供了新思路。 🏗️ 模型架构 GatherMOS并非一个从头训练的模型，而是一个推理框架，其核心是利用预训练LLM的上下文学习能力。整体架构和流程如下：输入：一段原始语音波形 x。特征与伪标签提取（并行进行）：手工声学描述符提取器：从 x 中提取一系列低级特征，包括：时域能量：RMS（均方根）。频域/噪声相关：ZCR（过零率）。信号完整性：是否削波（Clipping）、时长（Duration）。频谱包络：13维MFCC的帧平均值。频谱分布：梅尔频谱图的每-bin均值和方差、全局最大/最小值。伪标签生成器（冻结）： DNSMOS：输入语音，输出一个1到5之间的连续分数 s_DNS，代表感知质量。 VQScore：输入语音，输出一个0到1之间的分数 s_VQ，代表语音质量。输入序列化与提示构建：将所有提取的描述符 {d_i}、伪标签 s_DNS 和 s_VQ，以及针对LLM的指令（例如：“您是语音质量评估专家…请估计分数…”），共同组织成一个结构化的文本提示（Prompt）。对于少样本版本，还会在提示中加入K个“支持样本”（few-shot examples），每个样本包含其特征、伪标签和对应的真实MOS分数。 LLM推理：将构建好的文本提示输入给大型语言模型（论文中为GPT-5）。LLM根据其内置的推理能力，对提示中的所有信息进行综合分析、权衡和“推理”。输出：LLM生成两部分文本输出：主输出：预测的连续MOS分数 ŝ。辅助输出：解释性属性 a，如噪声水平、是否削波、混响程度以及一段解释性文字，说明其预测依据。关键设计选择理由： ...

SpeakerRPL v2: Robust Open-set Speaker Identification through Enhanced Few-shot Foundation Tuning and Model Fusion

📄 SpeakerRPL v2: Robust Open-set Speaker Identification through Enhanced Few-shot Foundation Tuning and Model Fusion #说话人识别 #少样本 #数据增强 #迁移学习 🔥 评分：8.3/10 | arxiv 👥 作者与机构论文作者：Zhiyong Chen, Shuhang Wu, Yingjie Duan, Xinkang Xu, Xinhui Hu 机构信息：论文全文未明确标注作者所属机构。根据作者姓名、研究内容及开源仓库（GitHub）信息推断，作者可能来自**小米（Xiaomi）**或相关研究机构。论文中提及的“Xiaomi LLM Core Team”可能为相关团队，但未在作者单位中直接列出。第一作者/通讯作者：无法从提供的文本中明确判断第一作者和通讯作者。论文中注明“Zhiyong Chen and Shuhang Wu contributed equally.”（贡献均等）。 💡 毒舌点评亮点：这篇论文将“对数归一化”（LogitNorm）和“对抗性互惠点学习”（SpeakerRPL）这两个强大的开集学习技术进行了“联姻”，并巧妙地加入了“自适应锚点”来动态建模未知说话人，理论上有板有眼。更实在的是，它承认了少样本微调的不稳定性，并用一套基于特征分布均匀性的模型选择与融合策略来“稳住局面”，最终在Vox1-O*测试集上将EER暴降93%，效果惊人。槽点：方法听起来像是在已有技术上做“排列组合”加“工程优化”（模型融合与选择），原创性的理论突破有限。此外，模型选择策略依赖于特征相似矩阵的特征值方差，这个指标的普适性和调参敏感性在论文中论证得不够充分，更像是一个为特定实验“量身定做”的后处理技巧。 🔗 开源详情代码：已开源。GitHub地址：https://github.com/zhiyongchenGREAT/Few-shot-Robust-Speaker-TTS/tree/v2.1。基于PyTorch框架。模型权重：论文中未明确说明是否公开发布微调后的适配器权重或完整的SpeakerRPL V2模型。预训练基础模型ELec2NetV2应是公开可用的。数据集：实验所用数据集（VoxCeleb2, 3D-Speaker, ESD, LibriTTS, AiShell）均为公开学术数据集。新构建的Vox1-O*测试集划分可能随代码开源。预训练权重：使用ELec2NetV2预训练说话人基础模型作为底座。在线Demo：论文中未提及在线演示。依赖的开源项目：GPT-SoVITSv2（用于语音合成）。 📌 核心摘要本文旨在解决开放集说话人识别中的鲁棒性问题，即系统在仅有少量目标说话人注册样本的情况下，需同时准确识别已知说话人并可靠拒识未知说话人。作者在先前SpeakerRPL V1框架基础上提出了三项关键改进：1）设计了一个增强的损失函数，将互惠点学习（RPL）与对数归一化（LogitNorm）相结合，并引入自适应锚点学习，以约束目标说话人表征并提升对未知分布的建模能力；2）提出了一种模型融合策略，通过聚合多个随机初始化训练得到的适配器模型的分数，来稳定少样本微调过程，减少结果随机性；3）设计了一个基于特征分布均匀性（通过中心点和互惠点相似矩阵的特征值方差衡量）的自动模型选择策略，以筛选出最适合融合的候选模型。在VoxCeleb、3D-Speaker和ESD等多个数据集上的实验表明，该方法在各项开集识别指标上均优于基线。特别是在新构建的Vox1-O*测试集上，等错误率（EER）从1.28%降至0.09%，相对降低约93%，验证了方法的有效性和鲁棒性。其局限性在于模型选择策略增加了流程复杂性，且对中文等方言场景的验证尚可进一步扩展。 🏗️ 模型架构模型整体基于“预训练基础模型 + 轻量级适配器微调”的范式。 ...