Mitigating Intra-Speaker Variability in Diarization with Style-Controllable Speech Augmentation

📄 Mitigating Intra-Speaker Variability in Diarization with Style-Controllable Speech Augmentation #说话人日志 #数据增强 #语音合成 #流匹配 ✅ 7.0/10 | 前25% | #说话人日志 | #数据增强 | #语音合成 #流匹配 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Miseul Kim(延世大学电气与电子工程系) 通讯作者:未说明(论文未明确标注通讯作者) 作者列表:Miseul Kim(延世大学电气与电子工程系)、Soo Jin Park(高通技术有限公司)、Kyungguen Byun(高通技术有限公司)、Hyeon-Kyeong Shin(高通技术有限公司)、Sunkuk Moon(高通技术有限公司)、Shuhua Zhang(高通技术有限公司)、Erik Visser(高通技术有限公司) 💡 毒舌点评 亮点:论文巧妙地将“用TTS生成多样风格语音”这一生成任务,嫁接到“解决聚类分裂问题”这一理解任务上,思路清晰且具有实用价值,可视化结果(图4)直观地展示了增强样本如何弥合聚类鸿沟。短板:创新更多是系统层面的巧妙组合而非底层模型突破,且实验设置(对AMI数据集进行人为截断以凸显问题)虽然有效,但也侧面说明该方法在未经“处理”的长对话自然数据上的普适性有待进一步验证,与端到端SOTA的缺席对比是重大遗憾。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开模型权重。 数据集:评估数据集(Concatenated emotional corpus, Truncated AMI corpus)是作者基于公开数据集(ESD, AMI)构建的,论文未说明是否公开构建脚本或处理后的数据。训练数据LibriTTS-R是公开的。 Demo:未提及在线演示。 复现材料:论文提供了部分实现细节(如训练步数、学习率、特征维度),但缺少完整的配置文件、训练日志、预训练检查点或更详尽的超参数列表。 论文中引用的开源项目:GST[11], Vevo[12], ECAPA-TDNN[4], BigVGAN[14], 谱聚类工具[15], dscore评分工具[1]。 开源计划:论文中未提及开源计划。 📌 核心摘要 解决什么问题:说话人日志系统常因同一说话人因情绪、健康状况等产生的内在语音风格差异(说话人内变异性),而将同一人的语音片段错误聚类为不同说话人(分裂错误)。 ...

2026-04-29

Mitigating Language Prior-Induced Hallucinations via Bi-Level Contrastive Decoding

📄 Mitigating Language Prior-Induced Hallucinations via Bi-Level Contrastive Decoding #多模态模型 #音频问答 #对比学习 #模型评估 ✅ 7.5/10 | 前25% | #多模态模型 | #对比学习 | #音频问答 #模型评估 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Tianze Xia†, Hongcheng Liu† (上海交通大学) 通讯作者:Yu Wang* (上海交通大学) 作者列表:Tianze Xia†(上海交通大学), Hongcheng Liu†(上海交通大学), Lina Yang(上海交通大学), Yu Wang*(上海交通大学) 💡 毒舌点评 这篇论文的亮点在于清晰地识别出语言先验在“输入层”和“层间”的两个不同作用机制,并设计了一个优雅、即插即用的统一解码公式来同时抑制它们,在多个视觉和音频基准上取得了稳健提升。短板在于其核心论证“动态层选择”策略的理论基础和普适性略显薄弱(为何选择最大差异度层作为先验代表?),且缺少对失败案例的深入分析,使得方法更像一个“work well”的工程方案而非深刻揭示机制。 🔗 开源详情 代码:论文中未提及代码链���。 模型权重:未提及。 数据集:使用了公开基准(POPE, MSCOCO 2014, MMAU, MMAR),但论文未提及BCD方法本身是否附带新的数据集。 Demo:未提及。 复现材料:论文详细给出了BCD的算法流程(公式1-3)和关键超参数(k, n, α, β),但未提供完整的配置文件或训练/评估日志。 论文中引用的开源项目:实验基于以下开源模型:LLaVA-1.5-7B, Qwen2.5-VL-7B, Qwen2-Audio-7B-Instruct, MU-LLaMA-7B。 论文中未提及开源计划。 📌 核心摘要 要解决什么问题:多模态大语言模型(MLLM)在生成时严重依赖语言先验(文本提示和模型内部的统计规律),导致输出与视觉/音频证据不符的幻觉现象。 方法核心是什么:提出双层对比解码(BCD),一种无需训练的即插即用解码策略。它在每个解码步骤同时进行两项修正:a) 输入层修正:对比完整多模态输入和纯文本输入的输出分布,以强化多模态证据的引导;b) 层间修正:对比模型最终层输出和通过动态策略选择的中间层输出,以抑制信息在层间传播中累积的语言先验。 与已有方法相比新在哪里:现有对比解码方法(如VCD, SID)通常只关注单一来源的先验(如图像扰动或内部状态),而BCD首次将输入层和层间这两个关键阶段的先验抑制统一到一个框架内,并通过动态层选择策略自适应地定位内部先验的最强表征层。 主要实验结果如何:BCD在多个主流模型(LLaVA-1.5, Qwen2.5-VL, Qwen2-Audio, MU-LLaMA)和基准上均提升了性能。具体地,在POPE(视觉幻觉)基准上,LLaVA-1.5模型的平均准确率从83.01%提升至87.32%;在MMAR(音频理解)基准上,Qwen2-Audio模型的平均准确率从30.00%提升至36.90%。消融实验证实了两个修正组件的互补性。 模型 基准 设置 基线 Greedy (Acc./F1) BCD (Acc./F1) LLaVA-1.5 POPE Rand. 87.17 / 85.64 90.57 / 90.33 LLaVA-1.5 POPE Pop. 82.76 / 83.36 87.83 / 87.87 LLaVA-1.5 POPE Adv. 79.11 / 80.92 83.57 / 84.28 Qwen2.5-VL POPE Adv. 84.20 / 81.63 86.27 / 84.67 实际意义是什么:提供了一种实用、有效、无需额外训练的解码改进方案,可直接应用于现有MLLM,增强其输出的可靠性和可信度,对部署在医疗、安防等关键领域的多模态AI系统具有重要价值。 主要局限性是什么:a) 方法引入了额外的推理计算开销(需要运行前向传播以获取L_text和L_inter);b) 动态层选择策略的有效性可能依赖于模型结构,其普适性有待更多验证;c) 超参数α和β需要针对不同任务/模态进行调整,缺乏自动化的选择机制。 🏗️ 模型架构 本文提出的BCD并非一个新的多模态模型架构,而是一种应用于现有MLLM(如LLaVA, Qwen-VL/Audio)的解码策略。其核心架构是统一的对比解码框架,流程如下: ...

2026-04-29

Mix2Morph: Learning Sound Morphing from Noisy Mixes

📄 Mix2Morph: Learning Sound Morphing from Noisy Mixes #音频生成 #扩散模型 #数据增强 #模型评估 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #数据增强 #模型评估 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Annie Chu(美国西北大学,Adobe Research) 通讯作者:未说明(论文中列出了第一作者邮箱,但未明确标注通讯作者) 作者列表:Annie Chu(美国西北大学、Adobe Research),Hugo Flores-García(未说明具体单位,根据上下文推测为Northwestern University),Oriol Nieto(Adobe Research),Justin Salamon(Adobe Research),Bryan Pardo(Northwestern University),Prem Seetharaman(Adobe Research) 💡 毒舌点评 亮点:论文巧妙利用扩散模型自身的训练机制,将“坏”的加法混合数据“废物利用”为有效的变形训练信号,这一“变废为宝”的策略极具巧思和实用价值。实验设计堪称范本,消融实验清晰论证了每个设计选择的作用,基线选择全面且具有针对性。 短板:核心依赖的“代理混合数据”本质上仍是两种声音的加权叠加,可能无法完全覆盖真实变形中复杂的音色与结构交互,长期来看可能限制模型的上限。此外,论文未提供任何代码或模型,对于声音设计社区而言,“可试用的Demo”远不如“可修改的工具”来得实在。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及公开模型权重。 数据集:未提及公开其使用的代理混合数据集或基础训练数据。 Demo:提供了在线演示页面:https://anniejchu.github.io/mix2morph/ ,可用于试听生成结果。 复现材料:论文提供了一些关键训练配置(如时间步范围、增强模式),但缺乏超参数细节、计算资源要求和完整的训练日志,不足以支撑独立复现。 论文中引用的开源项目:未在提供文本中发现明确引用。 总体开源计划:论文中未提及明确的开源计划。 📌 核心摘要 问题:声音变形,特别是旨在保留主声音结构并融入副声音质感的“声音注入”,需要生成感知连贯的中间产物。现有方法要么受限于声音类型(传统DSP),要么在中间态产生不连贯的混合声或坍塌为单一声源(现有深度学习方法),且普遍缺乏高质量的变形训练数据。 方法核心:提出Mix2Morph,一个微调后的文本到音频扩散模型。其核心是一种无需变形数据集的微调策略:构建多种“代理混合”数据(如RMS对齐、频谱插值混合),并将这些低质量混合信号专门分配到扩散过程的高时间步进行训练。高时间步训练鼓励模型学习高层结构融合,同时依赖预训练的低时间步能力来修复细节和抑制混合伪影。 新意:首次提出并系统性地验证了利用带噪声的代理混合数据进行变形模型训练的范式。与直接使用混合数据或需要真实变形数据集的方法不同,该方法通过精心设计数据增强和分配训练时间步,在无需真实变形对的情况下实现了有效的变形学习。 主要结果:在50个声音概念对(双向共100个提示)上进行评估。消融实验(表1)表明,将训练时间步限制在[0.5, 1]并采用多样化增强模式(RMS、频谱、两者结合)能取得最佳平衡。与基线对比(表1下部分及图2),Mix2Morph在对应性、中间性、方向性等客观指标上均优于简单混合、LGrS、MorphFader和SoundMorpher。主观听音测试(N=25)显示,Mix2Morph获得了最高的平均意见分(MOS=3.52)和最高的变形率(77%),显著优于其他方法。 意义:为没有大规模变形标注数据的声音设计任务,提供了一种可扩展的、基于微调的训练范式,推动了可控、概念驱动的声音设计工具的发展。 局限性:代理混合数据可能无法完全模拟真实变形的复杂关系;模型生成质量仍依赖底层TTA模型的能力;当前方法仅支持文本条件,缺乏更直观的音频到音频控制。 🏗️ 模型架构 Mix2Morph是一个基于文本到音频(TTA)潜在扩散模型的微调模型,其基础架构类似于AudioLDM2或Stable Audio。 ...

2026-04-29

MixGAN-based Non-blind Bandwidth Extension for Audio Codec

📄 MixGAN-based Non-blind Bandwidth Extension for Audio Codec #音频增强 #生成对抗网络 #音频编解码器 #非盲 #实时处理 🔥 8.0/10 | 前25% | #音频增强 | #生成对抗网络 | #音频编解码器 #非盲 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Hao Guo(华为中央媒体技术研究院,清华大学深圳国际研究生院) 通讯作者:Wenbo Ding(清华大学深圳国际研究生院,邮箱:ding.wenbo@sz.tsinghua.edu.cn) 作者列表:Hao Guo(华为中央媒体技术研究院,清华大学深圳国际研究生院)、BingYin Xia(华为中央媒体技术研究院)、Xiao-Ping Zhang(清华大学深圳国际研究生院)、Wenbo Ding(清华大学深圳国际研究生院) 💡 毒舌点评 本文首次将非盲AI带宽扩展(BWE)方案系统性地落地到音频编解码器框架中,并通过MixGAN创新性地解决了GAN训练在频谱扩展任务上易崩溃的难题,工程导向明确且效果显著。然而,论文对核心侧信息模型(side model)的“AI-based”部分描述过于简略(仅提到5个ConvM和1个MLP),且训练数据集描述模糊(“130小时以中文歌曲为主”),这给工作通用性的评估和完整复现埋下了隐患。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:未提及公开数据集或获取方式。 Demo:未提及。 复现材料:论文提供了详细的模型结构、训练策略(三阶段)、关键超参数(学习率、Batch size等)和训练硬件信息,但缺乏最终的训练细节和配置文件。 论文中引用的开源项目:论文引用了以下开源项目作为对比或依赖: HiFi-GAN+ 的复现代码:https://github.com/brentspell/hifi-gan-bwe NU-Wave2 的官方实现:https://github.com/maum-ai/nuwave2 总体开源情况:论文本身未提及任何开源计划,但对复现有一定的指导意义。 📌 核心摘要 问题:现有的AI带宽扩展(BWE)方法很少考虑集成到实际音频编解码器时面临的约束,如比特流兼容性、处理延迟和解码失真。 方法:本文提出了首个面向音频编解码器的非盲AI-BWE框架。该框架在编码端提取少量比特的侧信息(包括频带包络和侧特征),在解码端以低延迟帧处理方式(2048样本,43ms)利用该信息引导从低频重建高频。核心创新是提出了MixGAN框架(通过线性插值混合真实与生成帧来训练判别器)和三阶段训练策略(单帧预热、单帧对抗、重叠优化)。 创新点:1) 首个解决编解码器实际约束的非盲AI-BWE方案;2) MixGAN稳定了对抗训练,提升了重建保真度;3) 模型对量化失真具有固有鲁棒性。 实验:在8kHz->24kHz的BWE任务上,与多种AI方法(HiFi-GAN+, NU-Wave2)和标准方法(EVS)对比。在语音和音频测试集上,所提方法(Non-blind BWE)取得了最佳的MUSHRA主观评分(语音84.44,音频84.28)和最低的LSD客观指标(语音0.846,音频0.663)。同时,其浮点运算量(FLOPs)和实时因子(RTF)远低于其他AI基线,计算效率高。 方案 语音 MUSHRA↑ 语音 LSD↓ 音频 MUSHRA↑ 音频 LSD↓ 解码LF (基准) 55.25 1.418 46.75 3.055 HiFi-GAN+ 54.84 1.561 40.63 1.686 NU-Wave2 59.72 1.664 48.44 2.161 EVS (规则) 77.44 0.980 76.72 1.051 Blind BWE 74.66 1.077 74.56 0.840 Non-blind BWE (Vanilla) 69.52 0.915 66.32 0.725 Non-blind BWE (Proposed) 84.44 0.846 84.28 0.663 (图4显示,在复杂频谱结构的交响乐片段中,所提方法(e)能准确恢复谐波细节,而HiFi-GAN+(a)和NU-Wave2(b)表现较差。) ...

2026-04-29

Mixture of Experts for Recognizing Depression from Interview and Reading Tasks

📄 Mixture of Experts for Recognizing Depression from Interview and Reading Tasks #语音生物标志物 #混合专家模型 #多模态模型 #端到端 ✅ 6.0/10 | 前50% | #语音生物标志物 | #混合专家模型 | #多模态模型 #端到端 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Loukas Ilias(雅典国立技术大学电气与计算机工程学院 DSS实验室) 通讯作者:未说明 作者列表:Loukas Ilias(雅典国立技术大学电气与计算机工程学院 DSS实验室),Dimitris Askounis(雅典国立技术大学电气与计算机工程学院 DSS实验室) 💡 毒舌点评 亮点:这篇论文的最大亮点在于它“不满足于现状”,没有沿用只分析自发语音或简单拼接特征的常规思路,而是系统性地探索了将朗读与自发语音通过复杂的张量分解融合,并引入MoE进行“因材施教”,这种技术组合的探索精神值得肯定。 短板:然而,所有华丽的架构都建立在仅110个样本的“地基”上,导致核心结果表(表1)中各项指标的标准差(±6%~±13%)甚至比一些方法的性能提升幅度还大,这使得“我们更好”的结论显得底气不足,其声称的SOTA地位在更大数据集上能否复现要打个大大的问号。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及公开模型权重。 数据集:使用公开的 Androids语料库。 Demo:未提供在线演示。 复现材料:提供了基本的超参数设置(学习率、batch size、优化器、专家数量等)和硬件信息,但缺乏实现细节。 论文中引用的开源项目:librosa(用于音频处理),AlexNet(用于特征提取)。 📌 核心摘要 问题:现有抑郁症语音识别方法存在三个局限:通常只分析自发语音而忽略朗读语音;依赖难以获取或易出错的转录文本;以及未采用能根据输入内容自适应调整计算方式的模型(如MoE)。 方法:本文提出一个端到端的深度神经网络框架。它将朗读语音和自发语音(面试)分别转换为包含log-Mel频谱图及其一阶、二阶差分的三通道图像。这些图像通过两个共享权重的预训练AlexNet提取特征,得到768维向量。随后,使用基于块张量分解的BLOCK多模态融合方法将两个特征向量融合。最后,融合特征被送入混合专家层进行分类。论文对比了三种MoE变体:稀疏门控MoE、基于CP分解的CPµMoE和基于张量环分解的TRµMoE。 新意:这是首次在抑郁症识别任务中,(1)联合建模朗读与自发语音;(2)采用基于张量分解的多模态融合;(3)将输入条件计算(MoE)集成到单一端到端网络中。与之前简单使用AlexNet或拼接特征的方法相比,本文强调了更精细的特征融合与动态的专家路由。 结果:在Androids语料库(110样本)上的实验表明,本文提出的最佳模型TRµMoE达到了87.00%的准确率和86.66%的F1分数。消融实验证实了融合两种语音、使用BLOCK融合以及引入MoE层的必要性。例如,去掉MoE层后准确率下降3.31%,仅使用自发语音时准确率仅为81.73%。 意义:该工作验证了结合不同语音任务(朗读+自发)并利用更高级的融合与动态计算模型,能为抑郁症等心理健康问题的语音生物标志物检测提供更全面、更有效的建模途径。 局限:主要局限是数据集规模极小(仅110人),导致所有实验结果的标准差巨大,模型的稳定性和泛化能力未经验证。此外,研究仅基于意大利语单语种数据,缺乏跨语言验证。 🏗️ 模型架构 论文提出了一种用于抑郁症识别的多模态端到端深度神经网络架构,整体流程如下: ...

2026-04-29

Mixture To Beamformed Mixture: Leveraging Beamformed Mixture As Weak-Supervision for Speech Enhancement and Noise-Robust ASR

📄 Mixture To Beamformed Mixture: Leveraging Beamformed Mixture As Weak-Supervision for Speech Enhancement and Noise-Robust ASR #语音增强 #语音识别 #波束成形 #多通道 🔥 8.0/10 | 前25% | #语音增强 | #波束成形 | #语音识别 #多通道 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Zhong-Qiu Wang(南方科技大学计算机科学与工程系) 通讯作者:Zhong-Qiu Wang,Ruizhe Pang(南方科技大学计算机科学与工程系) 作者列表:Zhong-Qiu Wang(南方科技大学计算机科学与工程系),Ruizhe Pang(南方科技大学计算机科学与工程系) 💡 毒舌点评 亮点:论文巧妙地利用“波束成形后的混合信号”这一易于获取、但信噪比更高的信号作为弱监督标签,优雅地绕开了真实数据“无干净标签”的核心痛点,思路非常清晰且具有工程实用性。短板:方法依赖于一个基于模拟数据预训练的模型来推导波束成形器,形成了一个“模型生成监督信号再训练模型”的循环,其理论上的收敛性和在极端失配情况下的鲁棒性缺乏深入探讨;同时,多阶段训练流程(预训练波束成形器、M2BM训练)增加了整体复杂度。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用公开的CHiME-4数据集,未提及是否提供额外数据。 Demo:未提及。 复现材料:未提及详细的训练配置(学习率、优化器、训练轮数、GPU型号等)、检查点或附录说明。论文仅提供了模型架构的部分超参数(D,B,I,J等)。 论文中引用的开源项目:引用了多个相关工作,但未明确说明其代码是否开源以及本文是否依赖其代码。 📌 核心摘要 要解决的问题:在多通道语音增强和鲁棒ASR中,使用模拟数据训练的模型在真实场景中泛化能力有限,而真实数据又缺少干净的语音标签进行监督学习。 方法核心:提出“混合信号到波束成形混合信号(M2BM)”的训练范式。利用传统波束成形算法(如MVDR)对真实多通道混合信号进行处理,得到一个目标说话人信噪比更高的“波束成形混合信号”(Y_BF)。将这个信号作为弱监督目标,训练深度神经网络(DNN)从原始混合信号中估计出目标语音和噪声,使两者的组合能逼近原始混合信号和波束成形后的混合信号。 与已有方法相比新在哪里:扩展了之前的M2M(混合到混合)方法。M2M仅利用参考麦克风的混合信号作为约束,而M2BM进一步引入了波束成形后的混合信号作为更强的、指向性更明确的监督信号。通过结合在模拟数据上的监督学习和在真实数据上的M2BM学习,提出了SuperM2BM半监督框架。 主要实验结果:在CHiME-4真实测试集上,6通道输入的SuperM2BM系统取得了1.25%的WER,相比纯监督学习的41.76%和SuperM2M的2.42%有显著提升,并优于此前最优系统MultiIRIS(1.33%)。DNSMOS OVRL分数也达到或超过了波束成形本身的结果(见表1)。 实际意义:该方法允许开发者仅在目标领域采集无标签的多通道真实数据,结合现有的波束成形算法,即可有效提升模型在真实场景下的性能,降低了对高质量标注数据的依赖,具有很强的实用价值。 主要局限性:训练流程相对复杂,需要先预训练一个单通道增强模型来估计空间参数以计算波束成形器;性能的上限在一定程度上受限于所使用的传统波束成形算法的质量;对于单通道输入情况,M2BM的提升幅度相对较小。 🏗️ 模型架构 本文的核心模型架构是一个DNN增强网络(采用TF-GridNet),其训练框架SuperM2BM如图1所示。 ...

2026-04-29

Mixture-of-Experts Based Soft-Label Learning for Multi-Label Speech Emotion Recognition

📄 Mixture-of-Experts Based Soft-Label Learning for Multi-Label Speech Emotion Recognition #语音情感识别 #预训练 #模型评估 ✅ 7.5/10 | 前25% | #语音情感识别 | #预训练 | #模型评估 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yandi Zheng(天津师范大学计算机与信息工程学院) 通讯作者:Ziping Zhao(天津师范大学计算机与信息工程学院) 作者列表:Yandi Zheng(天津师范大学计算机与信息工程学院),Xinzhou Xu(南京邮电大学物联网学院,格拉茨理工大学信号处理与语音通信实验室)†,Ziping Zhao(天津师范大学计算机与信息工程学院),Björn Schuller(慕尼黑工业大学健康信息学系,伦敦帝国理工学院GLAM小组) 💡 毒舌点评 论文针对多标签语音情感识别这一具体痛点,提出了一个结合预训练模型与Mixture-of-Experts (MoE)架构的软标签学习方案,设计思路清晰,消融实验对各组件作用进行了验证。然而,论文的核心创新——将MoE应用于建模情感相关性——相对直接,且在缺乏代码和详细复现说明的情况下,其宣称的“SOTA”性能说服力会打折扣。 🔗 开源详情 代码:论文中未提及代码链接。数据处理脚本链接为 https://github.com/Moscar0601/process_audio。 模型权重:未提及是否公开训练好的模型权重。 数据集:所使用的MSP-IMPROV和IEMOCAP均为公开数据集,但论文未说明获取方式或是否对原始数据进行了额外处理。 Demo:未提供在线演示。 复现材料:提供了部分关键超参数和设置(如随机种子、批大小、优化器、关键维度),但缺少训练总时长、学习率调度、完整的实验代码、检查点等关键复现信息。 论文中引用的开源项目:主要依赖预训练的“wav2vec2-L-robust-12”模型,其来源在论文中已注明。 📌 核心摘要 这篇论文旨在解决多标签语音情感识别(SER)中现有方法(如多数投票法)会丢失情感共现相关性信息的问题。作者提出了一种基于Mixture-of-Experts(MoE)的软标签学习方法,该方法首先使用预训练的wav2vec 2.0和一个注意力池化层提取话语级语音表示,然后通过一个包含多个专家网络的MoE模块,并由一个门控机制动态分配各专家的权重,最终通过sigmoid函数和二元交叉熵(BCE)损失预测每个情感类别的存在概率。与现有使用硬标签或简单软标签的方法相比,本工作的创新在于利用MoE架构自适应地从多种情感类别组合中学习判别性信息。实验在MSP-IMPROV和IEMOCAP两个基准数据集上进行,结果显示,所提方法在宏观F1(maF1)、微观F1(miF1)和加权F1(weF1)指标上均优于现有的AR(全包容规则)和TSC(温度缩放校准)等方法。例如,在MSP-IMPROV数据集上,所提方法的maF1为0.481,优于次优的AR(CBCE)的0.461;在IEMOCAP数据集上,其maF1为0.421,优于次优的TSC(BCE)的0.401。该工作的实际意义在于为情感表达中普遍存在的歧义和主观性提供了更灵活的建模方式。主要局限性包括:未提供代码和模型权重以供复现;实验仅限于两个标准数据集,对方法在更复杂或真实场景下的泛化能力验证不足;模型性能可能对预训练骨干网络和专家数量等超参数较为敏感。 🏗️ 模型架构 论文提出的模型架构(如图1所示)主要包含两个模块:表示提取模块和混合专家(MoE)模块。 表示提取模块:输入为音频信号,首先使用预训练的“wav2vec2-L-robust-12”模型的前12层Transformer(冻结CNN层,可调Transformer层)提取帧级特征序列 X = [x₁, x₂, …, xₜ] ∈ ℝ^{D×T}。随后,一个注意力池化(AP)层将变长的帧级表示聚合为固定长度的话语级表示向量 r ∈ ℝ^{D×1}。其注意力权重计算公式为 αₜ = exp(w^T tanh(Wxₜ)) / Σₜ exp(w^T tanh(Wxₜ)),其中 W 和 w 是可学习参数。聚合后得到 r = Σₜ αₜxₜ。最后,通过一个包含线性层、批归一化、ReLU和dropout的多层感知机(MLP1)将 r 映射为最终表示 m = MLP₁(r) ∈ ℝ^{D×1}。 门控机制:表示 m 被输入到一个门控网络中,通过线性变换和softmax函数生成N维权重向量 β = softmax(W_g^T m + b_g) ∈ ℝ^{N×1},其中 N 是专家数量。该向量 β 决定了每个专家网络的输出在最终预测中的贡献比例。 混合专家(MoE)模块:该模块包含 N 个独立的专家网络,每个专家 i 包含一个由 L 个“线性层-批归一化-ReLU-dropout”块组成的MLP2^(i)(·),以及一个输出K维向量的全连接层(K为情感类别总数)。每个专家 i 处理输入 m 后生成一个情感向量 eᵢ ∈ ℝ^{K×1}。所有专家的输出组成矩阵 E = [e₁, e₂, …, e_N] ∈ ℝ^{K×N}。 最终预测与损失:模型的最终预测为 ŷ = sigmoid(Eβ) ∈ ℝ^{K×1},这是一个K维向量,其每个元素表示对应情感类别存在的概率。训练使用二元交叉熵(BCE)损失函数,将多标签SER视为K个独立的二分类任务。软标签 y 是根据所有标注者的标注计算得出的各类别比例(公式5),并在训练前以阈值1/K二值化为多热向量以减少噪声。 💡 核心创新点 针对多标签SER的软标签学习框架:现有大多数SER工作通过多数规则(MR)或最高票规则(PR)将多标注者结果简化为单一硬标签,丢失了情感共现信息。本方法直接学习从多个标注中得出的软标签分布,更充分地利用了标注数据。 引入Mixture-of-Experts (MoE) 建模情感相关性:之前基于软标签的方法(如AR, TSC)虽处理软标签,但未显式建模不同情感类别间的复杂关系。本方法引入MoE架构,每个专家可以专注于学习特定情感组合的判别性特征,门控机制则根据输入语音自适应地加权组合各专家的判断,从而更好地捕捉情感间的相关性。 将注意力池化与MoE结合用于语音表示:相比简单的均值池化,注意力池化能学习对识别任务更关键的帧级特征进行加权聚合。论文通过消融实验证明,结合注意力池化和MoE能带来比单独使用任一组件或使用均值池化更好的性能。 🔬 细节详述 训练数据: 数据集1:MSP-IMPROV。包含8438个话语,由12名演员录制。每个话语至少有5名标注者,标注了10种情感类别(从5种主要情感和6种次要情感中移除“other”后得到)。采用6折会话无关交叉验证。 数据集2:IEMOCAP。包含10039个话语。每个话语至少有3名标注者,标注了9种情感类别(从10种中移除“other”后得到)。采用5折会话无关交叉验证。 预处理:音频重采样至16kHz。所有话语被分割为7秒的样本(末尾零填充),以统一输入维度(T=349, D=1024)。 数据增强:论文中未提及使用任何数据增强技术。 损失函数:使用标准的二元交叉熵(BCE)损失(公式6),针对每个情感类别独立计算,然后求和。在计算损失前,根据软标签生成的多热向量使用了阈值1/K进行二值化。 训练策略: 优化器:Adam。 学习率:从{1e-5, 5e-5, 1e-4, 5e-4, 1e-3, 5e-3}中选择最佳值。 批大小:32。 训练轮数:论文未明确给出总训练轮数,但提到在交叉验证中记录10个epoch内的最佳maF1作为最终结果。 调度策略:论文中未提及学习率调度策略。 关键超参数: 骨干网络:“wav2vec2-L-robust-12”,仅使用前12层Transformer。 注意力池化隐藏维度(Da):256(默认),消融实验中测试了128, 256, 512。 专家数量(N):在MSP-IMPROV和IEMOCAP数据集上分别设置为10和9(等于各自情感类别总数K)。消融实验测试了K-3和K+3的情况。 专家网络MLP层数(L):2(默认),消融实验测试了1和3的情况。 Dropout率:0.3(用于专家网络MLP)。 随机种子:固定为28。 训练硬件:NVIDIA RTX A6000 GPU。论文中未提及训练时长。 推理细节:推理时,输入语音经过模型直接输出一个K维概率向量 ŷ。论文未提及使用任何特殊的解码策略(如温度、beam search)。 正则化或稳定训练技巧:在专家网络和MLP1中使用了dropout层(率0.3)。使用了批归一化(Batch Normalization)。 📊 实验结果 论文在MSP-IMPROV和IEMOCAP两个数据集上,与多种先进的基线方法进行了对比。主要评估指标为宏观F1(maF1)、微观F1(miF1)和加权F1(weF1)。 ...

2026-04-29

Mixture-of-Experts Framework for Field-of-View Enhanced Signal-Dependent Binauralization of Moving Talkers

📄 Mixture-of-Experts Framework for Field-of-View Enhanced Signal-Dependent Binauralization of Moving Talkers #空间音频 #波束成形 #信号处理 #移动声源跟踪 ✅ 6.5/10 | 前50% | #空间音频 | #波束成形 #信号处理 | #波束成形 #信号处理 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Manan Mittal(Stony Brook University, Meta Reality Labs Research) 通讯作者:未说明 作者列表:Manan Mittal(Stony Brook University, Meta Reality Labs Research)、Thomas Deppisch(Chalmers University of Technology, Meta Reality Labs Research)、Joseph Forrer(Meta Reality Labs Research)、Chris Le Sueur(Meta Reality Labs Research)、Zamir Ben-Hur(Meta Reality Labs Research)、David Lou Alon(Meta Reality Labs Research)、Daniel D.E. Wong(Meta Reality Labs Research) 💡 毒舌点评 这篇论文巧妙地将混合专家模型应用于双耳渲染,实现了无需显式声源定位的动态跟踪与增强,思路颇具启发性。然而,其在真实世界的实验规模较小、对比基线相对传统,且全文未提供任何开源代码或复现细节,大大削弱了其作为方法论贡献的可验证性和可复用性。 ...

2026-04-29

Mixtures of Lightweight Articulatory Experts for Multilingual Asr

📄 Mixtures of Lightweight Articulatory Experts for Multilingual Asr #语音识别 #混合专家模型 #多语言 #低资源 #多任务学习 ✅ 7.0/10 | 前25% | #语音识别 | #混合专家模型 | #多语言 #低资源 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:未说明(论文中Masato Mimura与Jaeyoung Lee并列,但通常作者列表顺序有意义,未明确标注) 通讯作者:未说明 作者列表:Masato Mimura (NTT, Inc., Japan), Jaeyoung Lee (NTT, Inc., Japan), Ryo Magoshi (School of Informatics, Kyoto University, Japan), Tatsuya Kawahara (School of Informatics, Kyoto University, Japan) 💡 毒舌点评 这篇论文巧妙地将MoE架构的“稀疏激活”与语言学中稳定的发音特征结合,用“小专家”解决“大模型”的低效问题,在多种语言上取得了稳定提升,证明了语言学归纳偏置的价值。然而,论文在工程细节上显得“吝啬”,未公开代码与模型,且仅在CommonVoice数据集上验证,缺乏与Whisper等大规模模型的直接对比,使其结论在更广场景下的普适性存疑。 ...

2026-04-29

MMAudioSep: Taming Video-to-Audio Generative Model Towards Video/Text-Queried Sound Separation

📄 MMAudioSep: Taming Video-to-Audio Generative Model Towards Video/Text-Queried Sound Separation #语音分离 #流匹配 #多模态模型 #预训练 #迁移学习 🔥 8.0/10 | 前25% | #语音分离 | #流匹配 | #多模态模型 #预训练 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Akira Takahashi(Sony Group Corporation, Japan) 通讯作者:未说明 作者列表:Akira Takahashi(Sony Group Corporation, Japan)、Shusuke Takahashi(Sony Group Corporation, Japan)、Yuki Mitsufuji(Sony Group Corporation, Japan & Sony AI, USA) 💡 毒舌点评 亮点在于极具创意地“废物利用”,让一个“造声音”的生成模型去干“分声音”的分离活儿,还干得不错,这种跨任务的知识迁移思路本身就很值钱。短板则在于,用生成模型的评价体系(FAD, CLAP)来评判分离任务的好坏,如同用“饭菜香气”来评价厨师刀工是否精准,方法论的适配性有待更深入的讨论;另外,模型在分离后“不忘本”的生成能力验证也略显粗糙。 🔗 开源详情 代码:论文中提供了代码仓库链接:https://github.com/sony/mmaudiosep。 模型权重:论文中未明确提及是否公开预训练的MMAudioSep模型��重或其依赖的预训练MMAudio权重。 数据集:论文中使用的训练数据集(VGGSound, AudioCaps等)是公开的。评估数据集(VGGSound-Clean, MUSIC)引用自AudioSep项目,部分可通过其GitHub获取。 Demo:论文中未提及在线演示链接。 复现材料:论文提供了架构图、关键超参数(如ODE步数、引导强度)和训练策略的大致描述,但缺少如学习率、batch size、具体训练步数等关键复现细节。复现强依赖于预训练的MMAudio模型。 论文中引用的开源项目:主要依赖于MMAudio(预训练模型)、CLIP、Synchformer、BiGVGAN(声码器)、AudioSep(评估数据集)、以及用于评估的av-benchmark工具。 📌 核心摘要 问题:传统声音分离模型通常基于判别式方法,而近期基于生成模型的声音分离也开始出现,但与同样使用生成模型的视频到音频(V2A)任务发展相互独立。本文旨在探索能否利用强大的预训练生成模型知识来提升分离任务。 ...

2026-04-29