Icassp-2026

MeanFlowSE: One-Step Generative Speech Enhancement via Conditional Mean Flow

📄 MeanFlowSE: One-Step Generative Speech Enhancement via Conditional Mean Flow #语音增强 #流匹配 #实时处理 #生成模型 ✅ 7.5/10 | 前10% | #语音增强 | #流匹配 | #实时处理 #生成模型学术质量 6.5/7 | 选题价值 1.6/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Duojia Li（厦门大学电子科学与工程学院）通讯作者：Qingyang Hong（厦门大学信息学院）、Lin Li（厦门大学电子科学与工程学院）作者列表：Duojia Li（厦门大学电子科学与工程学院）、Shenghui Lu（厦门大学信息学院）、Hongchen Pan（厦门大学电子科学与工程学院）、Zongyi Zhan（厦门大学电子科学与工程学院）、Qingyang Hong（厦门大学信息学院）、Lin Li（厦门大学电子科学与工程学院） 💡 毒舌点评亮点：论文巧妙地将近期提出的“平均速度场”理论（Mean Flow）适配到条件语音增强任务中，通过设计新颖的训练目标，实现了生成模型在语音增强上首次真正意义上的单步高质量推理，将RTF从0.23（FlowSE）降至0.11，效率提升显著且未牺牲性能。短板：论文的消融实验略显单薄，未能深入探讨“平均速度场”与“瞬时速度场”在语音信号上的具体误差累积差异；同时，其性能高度依赖于所选择的线性-高斯条件路径，对更复杂或非高斯噪声场景下的泛化能力未做讨论，这可能是其实际部署的一个潜在限制。 🔗 开源详情代码：提供了GitHub仓库链接 https://github.com/liduojia1/MeanFlowSE。模型权重：论文中提到“the proposed method is open-sourced”，但未明确说明是否公开了预训练模型权重。通常开源仓库会包含，但此处应表述为“论文中未明确提及模型权重是否公开”。数据集：使用公开的VoiceBank-DEMAND数据集，但未说明如何获取或提供脚本，应为“未提及”。 Demo：未提及在线演示。复现材料：论文提供了相当详细的训练细节（网络架构、优化器、学习率、训练技巧、硬件环境），这构成了良好的复现基础。但缺少具体的代码实现和检查点。引用的开源项目：依赖了NCSN++架构（来自[23, 24]）和自注意力机制（来自[25]）。 📌 核心摘要解决的问题：传统的基于流匹配或扩散模型的生成式语音增强方法需要多步迭代求解ODE，导致推理速度慢、计算成本高，难以满足实时应用需求。方法核心：提出MeanFlowSE，一个学习平均速度场而非瞬时速度场的条件生成模型。通过利用MeanFlow恒等式和雅可比-向量积构造局部训练目标，直接监督有限时间区间内的位移。在推理时，仅需单步反向位移即可从噪声估计生成增强语音，无需迭代ODE求解器。创新之处：首次将Mean Flow理论应用于条件语音增强任务，将其从无条件生成扩展到有条件的条件生成框架。设计的训练目标在对角线（r=t）处自然退化为标准条件流匹配目标，保持了理论一致性。该方法无需知识蒸馏或外部教师模型。实验结果：在VoiceBank-DEMAND基准测试中，单步MeanFlowSE取得了最优的PESQ (3.207)、ESTOI (0.881)、SI-SDR (19.975 dB) 和DNSMOS BAK (4.073)，同时实现了最低的实时因子（RTF=0.11），远优于需要5-200步的多步基线模型。实际意义：为实时、高保真的生成式语音增强提供了一个高效框架。单步推理特性使其在资源受限的边缘设备（如助听器、通信终端）上具有巨大应用潜力。主要局限：当前模型依赖于预设的线性-高斯条件路径，其对复杂噪声或非高斯分布的适应性未被验证。一阶导数近似可能限制了模型对高度非线性轨迹的学习能力。 🏗️ 模型架构 MeanFlowSE 的核心是一个用于估计平均速度场 u_θ(x, r, t, y) 的神经网络。 ...

MeanSE: Efficient Generative Speech Enhancement with Mean Flows

📄 MeanSE: Efficient Generative Speech Enhancement with Mean Flows #语音增强 #流匹配 #生成模型 #实时处理 ✅ 6.5/10 | 前25% | #语音增强 | #流匹配 | #生成模型 #实时处理学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Jiahe Wang（上海交通大学计算机科学与学院听觉认知与计算声学实验室，教育部人工智能重点实验室）通讯作者：Chenda Li，Yanmin Qian（标注为†，根据论文署名规则推断）作者列表：Jiahe Wang¹， Hongyu Wang¹， Wei Wang¹， Lei Yang³， Chenda Li¹,⁴†， Wangyou Zhang²,⁴， Lufen Tan³， Yanmin Qian¹,⁴† 上海交通大学计算机科学与学院听觉认知与计算声学实验室，教育部人工智能重点实验室上海交通大学人工智能学院三星电子中国研究院-北京 VUI Labs 💡 毒舌点评本文的亮点在于将生成模型领域的“平均流”概念巧妙地“移植”到语音增强，并通过精心设计的训练策略（时间区间课程学习、流场混合）解决了训练不稳定问题，最终在极低计算量下实现了稳定的性能提升。但短板在于，其核心贡献是已有方法的应用与适配，理论上的突破性有限；此外，论文在展示1-NFE优势时，与基线的对比在域内任务上虽显著但差距未形成量级碾压，且最佳性能仍需2-5 NFE才能达到，其“效率”的边界有待更严苛场景（如极低延迟、边缘设备）的验证。 ...

MeanVC: Lightweight and Streaming Zero-Shot Voice Conversion via Mean Flows

📄 MeanVC: Lightweight and Streaming Zero-Shot Voice Conversion via Mean Flows #语音转换 #零样本 #流匹配 #自回归模型 #流式处理 ✅ 7.5/10 | 前25% | #语音转换 | #流匹配 | #零样本 #自回归模型学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Guobin Ma（西北工业大学计算机学院， Audio, Speech and Language Processing Group (ASLP@NPU)）通讯作者：Lei Xie（西北工业大学计算机学院， ASLP@NPU）、Pengcheng Zhu（吉利汽车研究院(宁波)有限公司）作者列表： Guobin Ma（西北工业大学计算机学院， ASLP@NPU） Jixun Yao（西北工业大学计算机学院， ASLP@NPU） Ziqian Ning（西北工业大学计算机学院， ASLP@NPU） Yuepeng Jiang（西北工业大学计算机学院， ASLP@NPU） Lingxin Xiong（吉利汽车研究院(宁波)有限公司） Lei Xie（西北工业大学计算机学院， ASLP@NPU） Pengcheng Zhu（吉利汽车研究院(宁波)有限公司） 💡 毒舌点评亮点：用仅14M参数的轻量模型，在流式推理中实现了远超100M级模型的零样本转换质量与效率（RTF低至0.136），是“小模型办大事”的典范。短板：系统依赖固定的预训练ASR和说话人编码器模块，这些模块的性能上限决定了最终效果，核心创新更像是对现有组件的巧妙“集成”与“调参”。 ...

MeanVoiceFlow: One-Step Nonparallel Voice Conversion with Mean Flows

📄 MeanVoiceFlow: One-Step Nonparallel Voice Conversion with Mean Flows #语音转换 #流匹配 #非并行训练 #零样本 ✅ 7.0/10 | 前25% | #语音转换 | #流匹配 | #非并行训练 #零样本学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Takuhiro Kaneko（NTT, Inc., Japan）通讯作者：未说明作者列表：Takuhiro Kaneko（NTT, Inc., Japan）、Hirokazu Kameoka（NTT, Inc., Japan）、Kou Tanaka（NTT, Inc., Japan）、Yuto Kondo（NTT, Inc., Japan） 💡 毒舌点评该工作巧妙地将“均值流”这一前沿生成建模思想移植到语音转换任务，并针对性地设计了零输入约束和条件扩散输入训练来解决训练稳定性与一致性问题，思路清晰且实验扎实。但美中不足的是，其提出的“一步”模型在最终性能上并未对先前通过复杂蒸馏训练的“一步”模型形成代差优势，且完全未开源代码，让“可复现”的承诺大打折扣。 🔗 开源详情代码：论文中未提及代码仓库链接。仅提供了音频样本链接：https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/meanvoiceflow/。模型权重：未提及公开任何预训练模型权重。数据集：使用了公开数据集VCTK和LibriTTS，但未提供处理后的数据或特定子集划分。 Demo：未提供在线交互式演示，仅有音频样本文件。复现材料：论文提供了相当详细的实验设置、网络架构、超参数和训练策略，具备较高的可复现性潜力，但缺少官方代码实现。依赖的开源项目：论文中引用并可能依赖了以下开源工具/模型：HiFi-GAN（声码器）、说话人编码器（基于Jia et al. 2018）、瓶颈特征提取器（基于Liu et al. 2021）、UTMOS/DNSMOS/DNSMOS Pro（评测指标）、WavLM（提取说话人嵌入）、Whisper（计算CER）。 📌 核心摘要要解决的问题：基于扩散和流匹配的语音转换模型虽然质量高，但由于需要迭代推理，转换速度慢，限制了其实时应用。方法核心：提出MeanVoiceFlow，一个基于“均值流”的一步非并行语音转换模型。其核心是用“平均速度”替代传统流匹配中的“瞬时速度”，使得路径积分可以在单步内直接计算，无需数值近似。主要创新：1）提出零输入约束，通过基于SSIM的结构性损失和对高质量样本设置margin的策略，稳定平均速度的训练，避免输出模糊。2）提出条件扩散输入训练，在训练时也使用混合了噪声的源语音作为输入，消除了训练和推理时的输入分布不匹配问题。主要实验结果：在VCTK数据集的零样本语音转换任务上，MeanVoiceFlow（一步推理）的客观指标（如pMOSs=3.90, SECS=0.883）和主观评测（nMOS=3.87, sMOS=2.92）均显著优于其他一步基线模型（如VoiceGrad-FM-1），并与多步模型（如VoiceGrad-FM-30）和通过蒸馏训练的FastVoiceGrad+性能相当。关键实验数据见下表。模型 NFE↓ nMOS↑ sMOS↑ pMOSs↑ pMOSn↑ pMOSv↑ CER↓ SECS↑ VoiceGrad-FM-1 1 3.14±0.11 2.60±0.13 3.81 3.69 4.01 1.1 0.885 FastVoiceGrad† 1 3.73±0.09* 2.93±0.11 3.96 3.77 4.04 1.3 0.888 FastVoiceGrad+† 1 3.81±0.10 2.99±0.13 3.99 3.79 4.03 1.2 0.888 MeanVoiceFlow 1 3.87±0.09 2.92±0.13 3.98 3.78 4.10 1.2 0.886 VoiceGrad-FM-30 30 3.79±0.10 2.92±0.12 3.88 3.79 4.05 1.1 0.885 († 表示需要预训练教师和判别器) 实际意义：证明了无需知识蒸馏或对抗训练等复杂流程，也能从头训练出高质量的一步语音转换模型，降低了训练门槛，简化了部署流程。主要局限性：一步推理模型的语音自然度和说话人相似度与多步模型相比仍存在微小差距；论文未讨论模型对基频等精细声学特征的转换能力；未提供开源代码和模型，限制了社区的验证与应用。 🏗️ 模型架构 MeanVoiceFlow的架构核心是一个条件生成模型，其骨干网络（uθ）沿用了基线工作FastVoiceGrad中的U-Net结构（12层卷积，512隐藏通道，2次下采样，使用GLU和权重归一化）。 ...

Measuring Prosody Diversity in Zero-Shot TTS: A New Metric, Benchmark, and Exploration

📄 Measuring Prosody Diversity in Zero-Shot TTS: A New Metric, Benchmark, and Exploration #语音合成 #模型评估 #基准测试 #自监督学习 🔥 8.0/10 | 前25% | #语音合成 | #模型评估 | #基准测试 #自监督学习学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yifan Yang（上海交通大学 X-LANCE实验室，蚂蚁关键人工智能实验室，江苏语言计算重点实验室）通讯作者：Xie Chen（上海交通大学 X-LANCE实验室，上海创新研究院）作者列表：Yifan Yang（上海交通大学 X-LANCE实验室，蚂蚁关键人工智能实验室，江苏语言计算重点实验室），Bing Han（上海交通大学 X-LANCE实验室，蚂蚁关键人工智能实验室，江苏语言计算重点实验室），Hui Wang（南开大学），Long Zhou（腾讯混元），Wei Wang（上海交通大学 X-LANCE实验室，蚂蚁关键人工智能实验室，江苏语言计算重点实验室），Mingyu Cui（腾讯混元），Xu Tan（腾讯混元），Xie Chen（上海交通大学 X-LANCE实验室，上海创新研究院） *注：原文作者姓名“Mingyu Cui”在页脚签名中显示为“Mingyu Cui”，但参考文献中显示为“Mingyu Cui”。此处按页脚信息记录。 💡 毒舌点评这篇论文最大的价值在于为“韵律多样性”这个有点玄学的概念建立了一套扎实的客观评估体系（DS-WED指标+ProsodyEval数据集），让社区有了统一的比较标尺，而不仅仅是依赖主观听感或片面的F0/MCD指标。但必须指出，其构建的“黄金标准”ProsodyEval数据集仅覆盖了7个模型和英语语音，其泛化到更多语言、更嘈杂或更具表现力场景的有效性尚未验证，这是其作为通用基准的主要短板。 🔗 开源详情代码：是，提供了代码仓库链接：https://github.com/yfyeung/DS-WED。模型权重：论文未提及公开其训练的任何模型权重（如DS-WED评估流水线中使用的k-means聚类模型）。所评测的各TTS系统为第三方开源模型，论文中提供了其官方链接。数据集：是，提供了ProsodyEval评测数据集的访问链接：https://prosodyeval.github.io。 Demo：未提及在线演示。复现材料：论文提供了详细的评测设置（如DS-WED使用的SSL层、聚类数）、基准测试所用的语音来源（LibriSpeech test-clean, Seed-TTS test-en），以及消融实验的具体配置。论文中引用的开源项目：Silero-VAD (用于语音活动检测)、HuBERT、WavLM (用于语音表示)、以及所评测的TTS系统（XTTS-v2, CosyVoice, MaskGCT, E2 TTS, F5-TTS, ZipVoice）。 📌 核心摘要问题：零样本语音合成（TTS）中韵律多样性（即同一文本不同合成结果间的语调、节奏等差异）对自然表现力至关重要，但缺乏与人类感知高度相关、且能全面捕捉韵律信息的客观评估指标。方法核心：提出ProsodyEval人类标注数据集和DS-WED（离散语音加权编辑距离）指标。DS-WED首先使用自监督模型（如HuBERT）对语音进行离散化得到语义token序列，然后通过计算两段语音token序列间的加权编辑距离来量化韵律差异。创新点：1) DS-WED相比传统声学指标（如log F0 RMSE、MCD）与人类评分相关性显著更高；2) 提供了首个系统性的零样本TTS韵律多样性基准测试；3) 发现了生成范式（AR vs NAR）、持续时间控制、强化学习（DPO）等因素对韵律多样性的关键影响。实验结果：在ProsodyEval数据集上，DS-WED与人类平均意见分（PMOS）的平均皮尔逊相关系数达0.77，远高于MCD(0.66)和log F0 RMSE(0.30)。基准测试显示，自回归（AR）模型在韵律多样性上普遍优于基于流匹配的非自回归（NAR）模型，但MaskGCT（掩码生成模型）表现突出。此外，DPO对齐会降低韵律多样性（例如CosyVoice 2下降18.8%）。具体数据见下表：表1：不同指标与人工评分PMOS的相关性对比（平均皮尔逊系数及其95%置信区间） ...

MECap-R1: Emotion-Aware Policy with Reinforcement Learning for Multimodal Emotion Captioning

📄 MECap-R1: Emotion-Aware Policy with Reinforcement Learning for Multimodal Emotion Captioning #语音情感识别 #强化学习 #多模态模型 #生成模型 ✅ 7.5/10 | 前25% | #语音情感识别 | #强化学习 | #多模态模型 #生成模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Haoqin Sun（南开大学计算机科学学院TMCC；阿里巴巴国际数字商务）通讯作者：Yong Qin（南开大学计算机科学学院TMCC）、Haoqin Sun（从邮箱判断，同属上述两机构）作者列表：Haoqin Sun¹,²， Chenyang Lyu²,， Xiangyu Kong³， Shiwan Zhao¹， Jiaming Zhou¹， Hui Wang¹， Aobo Kong¹， Jinghua Zhao¹， Longyue Wang²， Weihua Luo²， Kaifu Zhang²， Yong Qin¹, ¹南开大学计算机科学学院TMCC ²阿里巴巴国际数字商务 ³埃克塞特大学 💡 毒舌点评亮点：该工作巧妙地将DeepSeek-R1中GRPO的思想迁移到情感描述任务，并创新性地设计了“情感锚点空间”来计算奖励，这比简单的规则匹配或BLEU分数更能捕捉情感语义的对齐度，实验也验证了其有效性。短板：所有实验仅在一个中文数据集（EmotionTalk）上进行，且情感锚点的构建严重依赖预定义的离散情绪类别和对应词汇表，这可能限制了模型在更开放、更细微的情感描述上的泛化能力，通用性存疑。 ...

Medical ASR Enhancement by Domain-Specific Reinforcement Fine-Tuning

📄 Medical ASR Enhancement by Domain-Specific Reinforcement Fine-Tuning #语音识别 #强化学习 #领域适应 #大语言模型 ✅ 6.5/10 | 前25% | #语音识别 | #强化学习 | #领域适应 #大语言模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Congjie Wang（香港大学电子工程系；实习于CAIR）通讯作者：Jinlin Wu（中国科学院香港 Innovation Institute of Science and Technology (CAIR)；中国科学院自动化研究所 (MAIS)）作者列表：Congjie Wang（香港大学电子工程系，CAIR实习生）、Xiaofan Ye（Neuromedical Centre, HKU-Shenzhen Hospital）、Jinlin Wu（CAIR, MAIS）、Dong Yi（CAIR）、Zhen Lei（CAIR, MAIS）、Wai S. Poon（Neuromedical Centre, HKU-Shenzhen Hospital）、Hongbin Liu（CAIR） 💡 毒舌点评这篇论文的亮点在于其奖励函数的设计巧妙地将通用语音识别指标与领域知识（UMLS验证的MWER）相结合，并通过DPO进行优化，逻辑闭环。然而，其框架在训练时严重依赖GPT-4o进行术语提取和UMLS进行验证，这不仅带来了额外的计算成本，也限制了在无外部API环境下的部署，成为其实用化的一个显著短板。 🔗 开源详情代码：论文中未提及任何代码仓库链接或开源计划。模型权重：未提及公开任何训练好的模型权重。数据集：使用了公开数据集MultiMed、Ankit和Macabdul，并给出了Hugging Face的链接。 Demo：未提供在线演示。复现材料：给出了模型骨架（Whisper-small）、关键训练超参数（β, lr, batch size）、以及GPT-4o的提示模板。但完整的训练配置、脚本、中间结果检查点等均未提供。引用的开源项目：依赖Whisper模型、GPT-4o（API）、UMLS知识库。 📌 核心摘要这篇论文旨在解决医疗自动语音识别（ASR）中，通用模型因平等对待所有词元而导致的对罕见但关键医疗术语（如药名、解剖术语）识别不足的问题。核心方法是提出一个“医学感知强化微调（RFT）”框架：首先，基于Whisper模型为每条语音生成多个转写假设；其次，利用GPT-4o从假设中提取候选医疗术语，并通过UMLS知识库进行验证和归一化；然后，设计一个复合奖励函数，结合通用词错误率（WER）、经UMLS验证的医疗词错误率（MWER）以及长度正则化项；最后，通过直接偏好优化（DPO）迭代微调模型，使其倾向于生成高奖励（即医疗术语识别更准确）的转写。与已有方法（如SFT或仅用WER的RFT）相比，新在显式地将领域知识融入优化目标。主要实验结果显示，在MultiMed数据集上，该方法相比SFT基线，MWER降低了7.4%（从0.0934降至0.0865），并且在两个外部测试集（Ankit和Macabdul）上也取得了持续的MWER和WER提升，证明了其泛化能力。该工作的实际意义在于提高了医疗语音转录的准确性和安全性。其主要局限性在于依赖于GPT-4o和UMLS等外部工具，增加了系统的复杂性和部署成本，且论文未提供开源代码或模型。 ...

MELA-TTS: Joint Transformer-Diffusion Model with Representation Alignment for Speech Synthesis

📄 MELA-TTS: Joint Transformer-Diffusion Model with Representation Alignment for Speech Synthesis #语音合成 #扩散模型 #自回归模型 #端到端 #零样本 ✅ 7.0/10 | 前25% | #语音合成 | #扩散模型 | #自回归模型 #端到端学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Keyu An（Alibaba group）通讯作者：Zhiyu Zhang（National Mobile Communications Research Laboratory, Southeast University）作者列表：Keyu An⋆（Alibaba group）、Zhiyu Zhang⋆†（Alibaba group, National Mobile Communications Research Laboratory, Southeast University）、Changfeng Gao⋆（Alibaba group）、Yabin Li⋆（Alibaba group）、Zhendong Peng⋆（Alibaba group）、Haoxu Wang⋆（Alibaba group）、Zhihao Du⋆（Alibaba group）、Han Zhao⋆（Alibaba group）、Zhifu Gao⋆（Alibaba group）、Xiangang Li⋆（Alibaba group）注：⋆表示Alibaba group，†表示National Mobile Communications Research Laboratory, Southeast University。第一作者和通讯作者基于论文标题下方作者列表顺序及贡献说明（“The first two authors contribute equally to this work.”）判断。 💡 毒舌点评亮点在于用“表示对齐”模块巧妙地借用了预训练ASR编码器的语义知识来指导自回归模型生成更连贯的语义表示，确实显著加速了收敛并提升了内容一致性（WER大幅下降）。但其声称的“端到端”仍依赖预训练的说话人编码器和ASR编码器进行对齐，且声音克隆的说话人相似度（SS）在英文测试集上反而弱于其主要对比基线CosyVoice，暴露了该架构在全局声学上下文利用上的短板。 ...

Melos: Sentence-To-Section Training with Multi-Task Learning for LLM-Driven Song Generation

📄 Melos: Sentence-To-Section Training with Multi-Task Learning for LLM-Driven Song Generation #音乐生成 #多任务学习 #自回归模型 #歌唱语音合成 ✅ 6.5/10 | 前50% | #音乐生成 | #多任务学习 | #自回归模型 #歌唱语音合成学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Dapeng Wu（清华大学深圳国际研究生院）通讯作者：Zhiyong Wu（清华大学深圳国际研究生院）作者列表：Dapeng Wu†（清华大学深圳国际研究生院），Jinhong Lu†（Wonderai, Beijing, China），Bin Su（Wonderai, Beijing, China），Shun Lei（清华大学深圳国际研究生院），Xiong Cai（Wonderai, Beijing, China），Zhiyong Wu*（清华大学深圳国际研究生院） †：共同第一作者；*：通讯作者。 💡 毒舌点评亮点：论文提出的“句子到段落”两阶段训练策略非常务实，有效缓解了长序列建模和数据稀缺问题，让一个0.5B的模型在0.5M数据上就能生成结构相对完整的歌曲，证明了该分治思路的有效性。短板：在音乐性（MUS）、记忆性（MEM）等主观评价维度上明显落后于Suno、Mureka等工业系统，且未开源代码和模型，其“高质量”结论难以被社区直接复现和验证，削弱了论文的说服力和实用价值。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：训练数据集为专有数据集，未提及公开。 Demo：提供了音频样本演示页面（https://thuhcsi.github.io/Melos/）。复现材料：论文给出了部分训练细节（如优化器、学习率、batch size、硬件），但缺乏完整的代码、配置、数据预处理脚本和模型检查点，复现难度大。论文中引用的开源项目： MuCodec：音频编解码器（引用[12]）。 CAM++：说话人编码器（引用[13]）。 Qwen2：作为骨干LLM（引用[14]）。 WavLM：用于评估SECS指标（引用[16]）。 FireRedASR：用于评估PER指标（引用[17]）。 CLAP：用于评估文本-音频对齐（引用[18]）。 Audiobox Aesthetics & SongEval：用于美学评估（引用[19], [20]）。 All-in-One：用于歌曲段落切分（脚注1）。总体开源情况：论文中未提及开源计划。 📌 核心摘要问题：当前基于大语言模型（LLM）的端到端歌曲生成面临长音频序列建模难、训练数据有限以及歌词与歌声对齐挑战等问题。方法核心：提出Melos框架，采用两阶段训练策略：首先在句子级别训练模型掌握基本的演唱能力；然后在段落（如主歌、副歌）级别训练以增强整体音乐性。同时，引入多任务学习，将歌词和声带（人声）信息作为辅助训练目标（放在序列末尾），以增强音色可控性和歌词准确性，且不增加推理开销。与已有方法相比新在哪里：不同于直接在段落级别训练（如YuE），本文的渐进式学习范式使模型先易后难。不同于生成思维链（CoT）会增加推理成本，本文将辅助信息作为后置的监督信号，实现了“训练时多任务，推理时单目标”。主要实验结果：在0.5M歌曲（约3万小时）上训练。在客观评估中，模型在音色相似性（SECS）和文本控制（CLAP）上表现优异（SECS 0.584, CLAP 0.270），但在FAD和PER上不及最佳基线。主观评估（MOS）显示，其整体质量（OQ 3.54）和歌词准确性（LA 4.21）与LeVo、Mureka等系统相当。消融实验证实了两阶段训练和辅助任务的有效性。实际意义：为资源受限场景下的高质量歌曲生成提供了一种高效、可扩展的训练范式，证明了通过精细的训练策略可以在小数据集上获得有竞争力的生成效果。主要局限性：1）未开源，限制了其影响力和可复现性；2）在音乐性、制作复杂度等核心主观指标上仍与领先的工业系统有差距；3）性能高度依赖音乐分离和说话人编码器的质量。 🏗️ 模型架构 Melos采用基于LLM的自回归生成范式，整体架构如图1所示。 ...

Membership Inference Attack against Music Diffusion Models via Generative Manifold Perturbation

📄 Membership Inference Attack against Music Diffusion Models via Generative Manifold Perturbation #音频安全 #扩散模型 #对抗样本 #鲁棒性 ✅ 7.5/10 | 前25% | #音频安全 | #扩散模型 | #对抗样本 #鲁棒性学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Yuxuan Liu（未明确标注，按署名顺序为首位）通讯作者：未明确标注作者列表：Yuxuan Liu, Peihong Zhang, Rui Sang, Zhixin Li, Yizhou Tan, Yiqiang Cai, Shengchen Li（均来自Xi’an Jiaotong-Liverpool University, Suzhou, China） 💡 毒舌点评亮点：首次系统性地将成员推断攻击聚焦于音乐扩散模型，并聪明地将对抗鲁棒性差异转化为Membership Inference的信号，其提出的LSA-Probe在低误报率关键指标上取得了显著且一致的提升。短板：攻击方法依赖于多轮二分搜索和PGD优化，计算开销巨大，这使其在现实世界中作为大规模审计工具的可行性大打折扣；同时，攻击效果的绝对数值（例如DiffWave上最高的20% TPR@1%FPR）距离“可靠”的审计标准仍有相当差距。 🔗 开源详情代码：论文提供了项目Demo的GitHub仓库链接：https://github.com/kaslim/LSA-Probe。模型权重：论文中未提及是否公开DiffWave和MusicLDM的模型权重。数据集：论文使用了公开数据集MAESTRO v3和FMA-Large，但未说明其预处理脚本是否开源。 Demo：未提及在线演示。复现材料：论文提供了核心超参数（K, r, β, τ=P95等）、评估协议和部分实现细节。但未提供完整的训练细节、配置文件、检查点。论文中引用的开源项目：DiffWave [13], MusicLDM [1]。攻击基线中的SecMI [22]等可能也依赖开源实现。 📌 核心摘要问题：扩散模型在音乐生成中表现出色，但其训练数据可能涉及版权与隐私问题。如何有效判断一段特定的音乐片段是否被用于训练某个音乐扩散模型（成员推断攻击，MIA），成为审计生成式音乐模型合规性的关键挑战。传统基于损失信号的MIA方法在音频领域效果不佳。方法核心：本文提出Latent Stability Adversarial Probe（LSA-Probe），一种白盒攻击方法。其核心思想是：训练集中的“成员”样本位于模型生成流形的更稳定区域。该方法通过测量在反向扩散过程的中间潜状态中，使生成质量下降到一个固定感知阈值所需的最小归一化扰动预算（对抗成本）来评估这种稳定性。成员样本需要更大的扰动成本才能被降质。创新点：与已有工作相比，LSA-Probe放弃了单一的端点重建损失信号，转而探测沿生成轨迹的动态几何稳定性。它是首个针对音乐扩散模型（包括波形DDPM和潜扩散模型LDM）的系统性MIA研究，并建立了局部生成稳定性与成员身份之间的联系。主要结果：在DiffWave和MusicLDM两个模型，以及MAESTRO v3和FMA-Large两个数据集上的实验表明，在匹配计算量的前提下，LSA-Probe在低误报率（FPR=1%）下的真阳性率（TPR）比最佳基线方法高3-8个百分点。例如，在DiffWave/MAESTRO上，TPR@1%FPR从0.12提升至0.20。消融实验显示，中段扩散时间步、中等扰动预算以及感知度量（CDPAM/MR-STFT）的效果最优。实际意义：为音乐版权持有者和审计方提供了一种潜在的技术工具，用于检测AI音乐生成模型是否未经授权使用了其作品进行训练，有助于规范生成式AI的发展。主要局限性：攻击方法计算成本高（涉及多次PGD优化和反向传播）；其有效性阈值（如TPR@1%FPR）虽有提升，但绝对值仍不高，在需要极低误报率的严格审计场景下实用性受限；评估模型和数据集范围有限。 🏗️ 模型架构本文未提出新的生成模型架构，而是针对现有音乐扩散模型（DiffWave和MusicLDM）设计一种成员推断攻击方法。因此，架构描述主要围绕LSA-Probe攻击框架的流程。 LSA-Probe是一个双层循环优化过程（图1）： ...