Posts

MC-MRX: Reference- and Midi-Guided Music Source Extraction with Contrastive Learning

📄 MC-MRX: Reference- and Midi-Guided Music Source Extraction with Contrastive Learning #音乐源提取 #对比学习 #多任务学习 #音频引导 ✅ 7.0/10 | 前25% | #音乐源提取 | #对比学习 | #多任务学习 #音频引导学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Xueyan Chen（University of Science and Technology Beijing, China）通讯作者：Xinyuan Qian（University of Science and Technology Beijing, China）作者列表：Xueyan Chen（University of Science and Technology Beijing, China）、Zexu Pan（Tongyi Lab, Alibaba Group, Singapore）、Ziyang Jiang（University of Science and Technology Beijing, China）、Jiadong Wang（Technical University of Munich, Germany）、Kainan Chen（Eigenspace GmbH, Germany）、Xinyuan Qian（University of Science and Technology Beijing, China） 💡 毒舌点评这篇论文的亮点在于将MIDI时序音高锚点和参考音频这两种异构的多模态先验，通过一个精心设计的框架（MC-MRX）融合进音乐源提取任务，实验结果显著，为该领域引入“结构化提示”提供了有力论证。然而，其“自产自销”的短板也很明显：作为核心输入之一的MIDI依赖于外部的MT3模型，论文并未深入探讨该模型性能的波动对最终结果的影响，同时全文没有任何开源信息的披露，对于一篇声称推动SOTA的工作而言，这无疑削弱了其可验证性和社区影响力。 ...

MCF: Text LLMS for Multimodal Emotional Causality

📄 MCF: Text LLMS for Multimodal Emotional Causality #情感分析 #多模态模型 #大语言模型 #数据集 🔥 8.0/10 | 前25% | #情感分析 | #多模态模型 | #大语言模型 #数据集学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yulong Li（西安交通大学-利物浦大学；穆罕默德·本·扎耶德人工智能大学）通讯作者：Yichen Li（华中科技大学）；Chong Li（西安交通大学-利物浦大学）；Jionglong Su（西安交通大学-利物浦大学）作者列表： Yulong Li（西安交通大学-利物浦大学；穆罕默德·本·扎耶德人工智能大学） Yuxuan Zhang（西安交通大学-利物浦大学） Rui Chen（西安交通大学-利物浦大学） Man Lei（西安交通大学-利物浦大学） Yibo Yuan（西安交通大学-利物浦大学） Xiwei Liu（穆罕默德·本·扎耶德人工智能大学） Runyi Lin（西安交通大学-利物浦大学） Tianrui Li（西安交通大学-利物浦大学） Mingze Jiang（西安交通大学-利物浦大学） Anyi Liu（西安交通大学-利物浦大学） Yichen Li（华中科技大学） Chong Li（西安交通大学-利物浦大学） Jionglong Su（西安交通大学-利物浦大学） 💡 毒舌点评亮点在于其核心思想颇具巧思：与其让笨重的多模态模型学会复杂推理，不如让擅长推理的文本LLM通过一个精巧的“翻译框架”（MCF）来“看懂”和“听懂”视频音频，最终效果甚至超越了原生多模态巨头。短板则在于该框架极度依赖其专门发布的GENESIS数据集和特定组件（如DFER-CLIP, SenseVoice），在完全不同的文化背景、视频风格或对话场景下是否依然有效，是个巨大的问号，论文并未提供跨域泛化的证据。 ...

MCI-OTFusion: A Multimodal Model for MCI Detection and Cognitive Score Prediction

📄 MCI-OTFusion: A Multimodal Model for MCI Detection and Cognitive Score Prediction #轻度认知障碍检测 #最优传输 #双向交叉注意力 #多模态融合 #跨模态 ✅ 6.5/10 | 前50% | #轻度认知障碍检测 | #多模态融合 | #最优传输 #双向交叉注意力学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Yuqin Lin（福州大学计算机与数据科学学院）通讯作者：Jianwu Dang（中国科学院深圳先进技术研究院）作者列表：Yuqin Lin（福州大学计算机与数据科学学院）、Jinsong Zhang（福州大学计算机与数据科学学院）、Xiao Wei（中国科学院深圳先进技术研究院、天津大学智能与计算学院认知计算与应用天津市重点实验室）、Kai Li（中国科学院深圳先进技术研究院）、Bin Wen（天津大学智能与计算学院认知计算与应用天津市重点实验室）、Mingyang Gu（中国科学院深圳先进技术研究院、天津大学智能与计算学院认知计算与应用天津市重点实验室）、Jianwu Dang（中国科学院深圳先进技术研究院） 💡 毒舌点评这篇论文的亮点在于其方法设计的“物理意义”——用OT来捕捉语音和文本在分布层面的全局对齐，而非仅停留在浅层特征拼接，这在方法论上是一个清晰且合理的改进。然而，其短板同样明显：整个研究都建立在TAUKADIAL这一个较小的、特定挑战赛的数据集上，这极大地限制了其结论的泛化说服力，让人怀疑该模型是否在真实世界、更多样化的人群和语音条件下依然有效。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：实验使用了公开的TAUKADIAL数据集，论文中给出了获取引用。 Demo：未提供在线演示。复现材料：论文给出了部分训练细节（如优化器、学习率、早停参数、折数），但缺少关键信息如批大小、OT的Sinkhorn迭代次数与熵系数、BiCA的MLP结构、完整的超参数列表、硬件环境和训练时长。论文中引用的开源项目：引用了开源项目Whisper和BERT作为特征提取器。论文中未提及开源计划。 📌 核心摘要这篇论文针对轻度认知障碍(MCI)的早期、非侵入性筛查需求，提出了一种名为MCI-OTFusion的多模态融合框架。该框架的核心是利用最优传输(OT)算法对语音嵌入和文本嵌入的全局分布进行对齐，以克服传统交叉注意力(CA)方法仅关注局部对应关系的局限性；随后使用双向交叉注意力(BiCA)机制进一步捕获对齐后特征间的局部和长程依赖关系。与简单的特征拼接或标准CA基线相比，该方法在MCI分类（UAR达到70.00%，相对基线提升显著）和MMSE分数预测（R²达到0.40，绝对提升0.05）上均取得了更优的性能。此外，论文引入了跨任务聚合策略，模拟临床评估中综合多个语言任务的做法，提升了预测的稳定性。该工作证明了结合全局分布对齐与局部交互建模的多模态语音-文本分析在早期认知筛查中的潜力。其主要局限性在于实验仅在一个规模有限的数据集上进行，缺乏跨数据集、跨语言的验证，且未提供开源代码。关键实验结果： ...

Meanflow-Accelerated Multimodal Video-to-Audio Synthesis Via One-Step Generation

📄 Meanflow-Accelerated Multimodal Video-to-Audio Synthesis Via One-Step Generation #音频生成 #流匹配 #音视频 #实时处理 ✅ 7.5/10 | 前25% | #音频生成 | #流匹配 | #音视频 #实时处理学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Xiaoran Yang（武汉大学电子信息学院）通讯作者：Gongping Huang（武汉大学电子信息学院）作者列表：Xiaoran Yang（武汉大学电子信息学院）、Jianxuan Yang（小米MiLM Plus，武汉）、Xinyue Guo（小米MiLM Plus，武汉）、Haoyu Wang（西南财经大学计算机与人工智能学院）、Ningning Pan（西南财经大学计算机与人工智能学院）、Gongping Huang（武汉大学电子信息学院） 💡 毒舌点评这篇论文的核心亮点是将MeanFlow的一步生成能力成功“移植”到多模态VTA合成任务上，实现了推理速度的数量级提升，这在实际应用中极具吸引力。然而，其短板也相当明显：核心创新组件（MeanFlow和CFG-scaled）均非作者首次提出，论文更偏向于一项有价值的工程集成与任务适配，且消融实验仅探讨了CFG强度和训练配对比例，对于MeanFlow框架如何具体适配多模态条件融合的机制剖析不够深入。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：训练和评估所用数据集（VGGSound， Kling-Audio-Eval， AudioCaps， WavCaps）均为公开数据集，但论文未说明是否提供其处理后的版本。 Demo：未提及。复现材料：论文提供了详细的训练配置（优化器、学习率、batch size、训练步数）、超参数设置（模型层数、采样率、时间步采样分布）、硬件环境（8x H800 GPU）和评估指标说明，为复现提供了较好的基础。引用的开源项目/模型：CLIP、Synchformer、VAE（具体模型未说明）、MMAudio、MeanFlow、CFG-Zero。总结：论文中未提及开源计划。 📌 核心摘要要解决什么问题：现有的基于流匹配的视频到音频（VTA）合成方法依赖多步迭代采样，导致推理速度慢，难以满足实时应用需求。同时，一步生成场景下应用分类器引导（CFG）容易因缺乏迭代修正而产生过冲和失真。方法核心是什么：提出MeanFlow加速的多模态联合训练框架（MF-MJT）。核心是在多模态联合训练的骨干网络（基于MMAudio）上，采用MeanFlow公式建模平均速度场，从而支持原生一步生成。为稳定CFG，引入标量缩放机制（CFG-scaled），动态调整无条件预测的权重。 ...

MeanFlowSE: One-Step Generative Speech Enhancement via Conditional Mean Flow

📄 MeanFlowSE: One-Step Generative Speech Enhancement via Conditional Mean Flow #语音增强 #流匹配 #实时处理 #生成模型 ✅ 7.5/10 | 前10% | #语音增强 | #流匹配 | #实时处理 #生成模型学术质量 6.5/7 | 选题价值 1.6/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Duojia Li（厦门大学电子科学与工程学院）通讯作者：Qingyang Hong（厦门大学信息学院）、Lin Li（厦门大学电子科学与工程学院）作者列表：Duojia Li（厦门大学电子科学与工程学院）、Shenghui Lu（厦门大学信息学院）、Hongchen Pan（厦门大学电子科学与工程学院）、Zongyi Zhan（厦门大学电子科学与工程学院）、Qingyang Hong（厦门大学信息学院）、Lin Li（厦门大学电子科学与工程学院） 💡 毒舌点评亮点：论文巧妙地将近期提出的“平均速度场”理论（Mean Flow）适配到条件语音增强任务中，通过设计新颖的训练目标，实现了生成模型在语音增强上首次真正意义上的单步高质量推理，将RTF从0.23（FlowSE）降至0.11，效率提升显著且未牺牲性能。短板：论文的消融实验略显单薄，未能深入探讨“平均速度场”与“瞬时速度场”在语音信号上的具体误差累积差异；同时，其性能高度依赖于所选择的线性-高斯条件路径，对更复杂或非高斯噪声场景下的泛化能力未做讨论，这可能是其实际部署的一个潜在限制。 🔗 开源详情代码：提供了GitHub仓库链接 https://github.com/liduojia1/MeanFlowSE。模型权重：论文中提到“the proposed method is open-sourced”，但未明确说明是否公开了预训练模型权重。通常开源仓库会包含，但此处应表述为“论文中未明确提及模型权重是否公开”。数据集：使用公开的VoiceBank-DEMAND数据集，但未说明如何获取或提供脚本，应为“未提及”。 Demo：未提及在线演示。复现材料：论文提供了相当详细的训练细节（网络架构、优化器、学习率、训练技巧、硬件环境），这构成了良好的复现基础。但缺少具体的代码实现和检查点。引用的开源项目：依赖了NCSN++架构（来自[23, 24]）和自注意力机制（来自[25]）。 📌 核心摘要解决的问题：传统的基于流匹配或扩散模型的生成式语音增强方法需要多步迭代求解ODE，导致推理速度慢、计算成本高，难以满足实时应用需求。方法核心：提出MeanFlowSE，一个学习平均速度场而非瞬时速度场的条件生成模型。通过利用MeanFlow恒等式和雅可比-向量积构造局部训练目标，直接监督有限时间区间内的位移。在推理时，仅需单步反向位移即可从噪声估计生成增强语音，无需迭代ODE求解器。创新之处：首次将Mean Flow理论应用于条件语音增强任务，将其从无条件生成扩展到有条件的条件生成框架。设计的训练目标在对角线（r=t）处自然退化为标准条件流匹配目标，保持了理论一致性。该方法无需知识蒸馏或外部教师模型。实验结果：在VoiceBank-DEMAND基准测试中，单步MeanFlowSE取得了最优的PESQ (3.207)、ESTOI (0.881)、SI-SDR (19.975 dB) 和DNSMOS BAK (4.073)，同时实现了最低的实时因子（RTF=0.11），远优于需要5-200步的多步基线模型。实际意义：为实时、高保真的生成式语音增强提供了一个高效框架。单步推理特性使其在资源受限的边缘设备（如助听器、通信终端）上具有巨大应用潜力。主要局限：当前模型依赖于预设的线性-高斯条件路径，其对复杂噪声或非高斯分布的适应性未被验证。一阶导数近似可能限制了模型对高度非线性轨迹的学习能力。 🏗️ 模型架构 MeanFlowSE 的核心是一个用于估计平均速度场 u_θ(x, r, t, y) 的神经网络。 ...

MeanSE: Efficient Generative Speech Enhancement with Mean Flows

📄 MeanSE: Efficient Generative Speech Enhancement with Mean Flows #语音增强 #流匹配 #生成模型 #实时处理 ✅ 6.5/10 | 前25% | #语音增强 | #流匹配 | #生成模型 #实时处理学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Jiahe Wang（上海交通大学计算机科学与学院听觉认知与计算声学实验室，教育部人工智能重点实验室）通讯作者：Chenda Li，Yanmin Qian（标注为†，根据论文署名规则推断）作者列表：Jiahe Wang¹， Hongyu Wang¹， Wei Wang¹， Lei Yang³， Chenda Li¹,⁴†， Wangyou Zhang²,⁴， Lufen Tan³， Yanmin Qian¹,⁴† 上海交通大学计算机科学与学院听觉认知与计算声学实验室，教育部人工智能重点实验室上海交通大学人工智能学院三星电子中国研究院-北京 VUI Labs 💡 毒舌点评本文的亮点在于将生成模型领域的“平均流”概念巧妙地“移植”到语音增强，并通过精心设计的训练策略（时间区间课程学习、流场混合）解决了训练不稳定问题，最终在极低计算量下实现了稳定的性能提升。但短板在于，其核心贡献是已有方法的应用与适配，理论上的突破性有限；此外，论文在展示1-NFE优势时，与基线的对比在域内任务上虽显著但差距未形成量级碾压，且最佳性能仍需2-5 NFE才能达到，其“效率”的边界有待更严苛场景（如极低延迟、边缘设备）的验证。 ...

MeanVC: Lightweight and Streaming Zero-Shot Voice Conversion via Mean Flows

📄 MeanVC: Lightweight and Streaming Zero-Shot Voice Conversion via Mean Flows #语音转换 #零样本 #流匹配 #自回归模型 #流式处理 ✅ 7.5/10 | 前25% | #语音转换 | #流匹配 | #零样本 #自回归模型学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Guobin Ma（西北工业大学计算机学院， Audio, Speech and Language Processing Group (ASLP@NPU)）通讯作者：Lei Xie（西北工业大学计算机学院， ASLP@NPU）、Pengcheng Zhu（吉利汽车研究院(宁波)有限公司）作者列表： Guobin Ma（西北工业大学计算机学院， ASLP@NPU） Jixun Yao（西北工业大学计算机学院， ASLP@NPU） Ziqian Ning（西北工业大学计算机学院， ASLP@NPU） Yuepeng Jiang（西北工业大学计算机学院， ASLP@NPU） Lingxin Xiong（吉利汽车研究院(宁波)有限公司） Lei Xie（西北工业大学计算机学院， ASLP@NPU） Pengcheng Zhu（吉利汽车研究院(宁波)有限公司） 💡 毒舌点评亮点：用仅14M参数的轻量模型，在流式推理中实现了远超100M级模型的零样本转换质量与效率（RTF低至0.136），是“小模型办大事”的典范。短板：系统依赖固定的预训练ASR和说话人编码器模块，这些模块的性能上限决定了最终效果，核心创新更像是对现有组件的巧妙“集成”与“调参”。 ...

MeanVoiceFlow: One-Step Nonparallel Voice Conversion with Mean Flows

📄 MeanVoiceFlow: One-Step Nonparallel Voice Conversion with Mean Flows #语音转换 #流匹配 #非并行训练 #零样本 ✅ 7.0/10 | 前25% | #语音转换 | #流匹配 | #非并行训练 #零样本学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Takuhiro Kaneko（NTT, Inc., Japan）通讯作者：未说明作者列表：Takuhiro Kaneko（NTT, Inc., Japan）、Hirokazu Kameoka（NTT, Inc., Japan）、Kou Tanaka（NTT, Inc., Japan）、Yuto Kondo（NTT, Inc., Japan） 💡 毒舌点评该工作巧妙地将“均值流”这一前沿生成建模思想移植到语音转换任务，并针对性地设计了零输入约束和条件扩散输入训练来解决训练稳定性与一致性问题，思路清晰且实验扎实。但美中不足的是，其提出的“一步”模型在最终性能上并未对先前通过复杂蒸馏训练的“一步”模型形成代差优势，且完全未开源代码，让“可复现”的承诺大打折扣。 🔗 开源详情代码：论文中未提及代码仓库链接。仅提供了音频样本链接：https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/meanvoiceflow/。模型权重：未提及公开任何预训练模型权重。数据集：使用了公开数据集VCTK和LibriTTS，但未提供处理后的数据或特定子集划分。 Demo：未提供在线交互式演示，仅有音频样本文件。复现材料：论文提供了相当详细的实验设置、网络架构、超参数和训练策略，具备较高的可复现性潜力，但缺少官方代码实现。依赖的开源项目：论文中引用并可能依赖了以下开源工具/模型：HiFi-GAN（声码器）、说话人编码器（基于Jia et al. 2018）、瓶颈特征提取器（基于Liu et al. 2021）、UTMOS/DNSMOS/DNSMOS Pro（评测指标）、WavLM（提取说话人嵌入）、Whisper（计算CER）。 📌 核心摘要要解决的问题：基于扩散和流匹配的语音转换模型虽然质量高，但由于需要迭代推理，转换速度慢，限制了其实时应用。方法核心：提出MeanVoiceFlow，一个基于“均值流”的一步非并行语音转换模型。其核心是用“平均速度”替代传统流匹配中的“瞬时速度”，使得路径积分可以在单步内直接计算，无需数值近似。主要创新：1）提出零输入约束，通过基于SSIM的结构性损失和对高质量样本设置margin的策略，稳定平均速度的训练，避免输出模糊。2）提出条件扩散输入训练，在训练时也使用混合了噪声的源语音作为输入，消除了训练和推理时的输入分布不匹配问题。主要实验结果：在VCTK数据集的零样本语音转换任务上，MeanVoiceFlow（一步推理）的客观指标（如pMOSs=3.90, SECS=0.883）和主观评测（nMOS=3.87, sMOS=2.92）均显著优于其他一步基线模型（如VoiceGrad-FM-1），并与多步模型（如VoiceGrad-FM-30）和通过蒸馏训练的FastVoiceGrad+性能相当。关键实验数据见下表。模型 NFE↓ nMOS↑ sMOS↑ pMOSs↑ pMOSn↑ pMOSv↑ CER↓ SECS↑ VoiceGrad-FM-1 1 3.14±0.11 2.60±0.13 3.81 3.69 4.01 1.1 0.885 FastVoiceGrad† 1 3.73±0.09* 2.93±0.11 3.96 3.77 4.04 1.3 0.888 FastVoiceGrad+† 1 3.81±0.10 2.99±0.13 3.99 3.79 4.03 1.2 0.888 MeanVoiceFlow 1 3.87±0.09 2.92±0.13 3.98 3.78 4.10 1.2 0.886 VoiceGrad-FM-30 30 3.79±0.10 2.92±0.12 3.88 3.79 4.05 1.1 0.885 († 表示需要预训练教师和判别器) 实际意义：证明了无需知识蒸馏或对抗训练等复杂流程，也能从头训练出高质量的一步语音转换模型，降低了训练门槛，简化了部署流程。主要局限性：一步推理模型的语音自然度和说话人相似度与多步模型相比仍存在微小差距；论文未讨论模型对基频等精细声学特征的转换能力；未提供开源代码和模型，限制了社区的验证与应用。 🏗️ 模型架构 MeanVoiceFlow的架构核心是一个条件生成模型，其骨干网络（uθ）沿用了基线工作FastVoiceGrad中的U-Net结构（12层卷积，512隐藏通道，2次下采样，使用GLU和权重归一化）。 ...

Measuring Prosody Diversity in Zero-Shot TTS: A New Metric, Benchmark, and Exploration

📄 Measuring Prosody Diversity in Zero-Shot TTS: A New Metric, Benchmark, and Exploration #语音合成 #模型评估 #基准测试 #自监督学习 🔥 8.0/10 | 前25% | #语音合成 | #模型评估 | #基准测试 #自监督学习学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yifan Yang（上海交通大学 X-LANCE实验室，蚂蚁关键人工智能实验室，江苏语言计算重点实验室）通讯作者：Xie Chen（上海交通大学 X-LANCE实验室，上海创新研究院）作者列表：Yifan Yang（上海交通大学 X-LANCE实验室，蚂蚁关键人工智能实验室，江苏语言计算重点实验室），Bing Han（上海交通大学 X-LANCE实验室，蚂蚁关键人工智能实验室，江苏语言计算重点实验室），Hui Wang（南开大学），Long Zhou（腾讯混元），Wei Wang（上海交通大学 X-LANCE实验室，蚂蚁关键人工智能实验室，江苏语言计算重点实验室），Mingyu Cui（腾讯混元），Xu Tan（腾讯混元），Xie Chen（上海交通大学 X-LANCE实验室，上海创新研究院） *注：原文作者姓名“Mingyu Cui”在页脚签名中显示为“Mingyu Cui”，但参考文献中显示为“Mingyu Cui”。此处按页脚信息记录。 💡 毒舌点评这篇论文最大的价值在于为“韵律多样性”这个有点玄学的概念建立了一套扎实的客观评估体系（DS-WED指标+ProsodyEval数据集），让社区有了统一的比较标尺，而不仅仅是依赖主观听感或片面的F0/MCD指标。但必须指出，其构建的“黄金标准”ProsodyEval数据集仅覆盖了7个模型和英语语音，其泛化到更多语言、更嘈杂或更具表现力场景的有效性尚未验证，这是其作为通用基准的主要短板。 🔗 开源详情代码：是，提供了代码仓库链接：https://github.com/yfyeung/DS-WED。模型权重：论文未提及公开其训练的任何模型权重（如DS-WED评估流水线中使用的k-means聚类模型）。所评测的各TTS系统为第三方开源模型，论文中提供了其官方链接。数据集：是，提供了ProsodyEval评测数据集的访问链接：https://prosodyeval.github.io。 Demo：未提及在线演示。复现材料：论文提供了详细的评测设置（如DS-WED使用的SSL层、聚类数）、基准测试所用的语音来源（LibriSpeech test-clean, Seed-TTS test-en），以及消融实验的具体配置。论文中引用的开源项目：Silero-VAD (用于语音活动检测)、HuBERT、WavLM (用于语音表示)、以及所评测的TTS系统（XTTS-v2, CosyVoice, MaskGCT, E2 TTS, F5-TTS, ZipVoice）。 📌 核心摘要问题：零样本语音合成（TTS）中韵律多样性（即同一文本不同合成结果间的语调、节奏等差异）对自然表现力至关重要，但缺乏与人类感知高度相关、且能全面捕捉韵律信息的客观评估指标。方法核心：提出ProsodyEval人类标注数据集和DS-WED（离散语音加权编辑距离）指标。DS-WED首先使用自监督模型（如HuBERT）对语音进行离散化得到语义token序列，然后通过计算两段语音token序列间的加权编辑距离来量化韵律差异。创新点：1) DS-WED相比传统声学指标（如log F0 RMSE、MCD）与人类评分相关性显著更高；2) 提供了首个系统性的零样本TTS韵律多样性基准测试；3) 发现了生成范式（AR vs NAR）、持续时间控制、强化学习（DPO）等因素对韵律多样性的关键影响。实验结果：在ProsodyEval数据集上，DS-WED与人类平均意见分（PMOS）的平均皮尔逊相关系数达0.77，远高于MCD(0.66)和log F0 RMSE(0.30)。基准测试显示，自回归（AR）模型在韵律多样性上普遍优于基于流匹配的非自回归（NAR）模型，但MaskGCT（掩码生成模型）表现突出。此外，DPO对齐会降低韵律多样性（例如CosyVoice 2下降18.8%）。具体数据见下表：表1：不同指标与人工评分PMOS的相关性对比（平均皮尔逊系数及其95%置信区间） ...

MECap-R1: Emotion-Aware Policy with Reinforcement Learning for Multimodal Emotion Captioning

📄 MECap-R1: Emotion-Aware Policy with Reinforcement Learning for Multimodal Emotion Captioning #语音情感识别 #强化学习 #多模态模型 #生成模型 ✅ 7.5/10 | 前25% | #语音情感识别 | #强化学习 | #多模态模型 #生成模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Haoqin Sun（南开大学计算机科学学院TMCC；阿里巴巴国际数字商务）通讯作者：Yong Qin（南开大学计算机科学学院TMCC）、Haoqin Sun（从邮箱判断，同属上述两机构）作者列表：Haoqin Sun¹,²， Chenyang Lyu²,， Xiangyu Kong³， Shiwan Zhao¹， Jiaming Zhou¹， Hui Wang¹， Aobo Kong¹， Jinghua Zhao¹， Longyue Wang²， Weihua Luo²， Kaifu Zhang²， Yong Qin¹, ¹南开大学计算机科学学院TMCC ²阿里巴巴国际数字商务 ³埃克塞特大学 💡 毒舌点评亮点：该工作巧妙地将DeepSeek-R1中GRPO的思想迁移到情感描述任务，并创新性地设计了“情感锚点空间”来计算奖励，这比简单的规则匹配或BLEU分数更能捕捉情感语义的对齐度，实验也验证了其有效性。短板：所有实验仅在一个中文数据集（EmotionTalk）上进行，且情感锚点的构建严重依赖预定义的离散情绪类别和对应词汇表，这可能限制了模型在更开放、更细微的情感描述上的泛化能力，通用性存疑。 ...