流匹配 | 语音/音频论文速递

Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis

📄 Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis #音频分类 #音频生成 #多模态模型 #流匹配 #大语言模型 🔥 8.5/10 | 前25% | #音频分类 | #多模态模型 | #音频生成 #流匹配学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Pengfei Zhang (香港科技大学（广州）) 通讯作者：Li Liu (香港科技大学（广州），邮箱：avrillliu@hkust-gz.edu.cn) 作者列表：Pengfei Zhang（香港科技大学（广州）），Tianxin Xie（未说明），Minghao Yang（未说明），Li Liu（香港科技大学（广州）） 💡 毒舌点评这篇论文最大的亮点是系统设计的“闭环”思想——用LLM规划器（Thinker）主动识别诊断弱点并指导生成器合成针对性数据，这比简单的过采样或数据增强要高明得多，且在数据集稀缺的医疗场景下思路很对路。短板则在于，虽然名为“Agent”，但其中的LLM规划器更多扮演了静态调度器的角色，论文对其“自主性”（如在线从诊断反馈中学习并调整策略）的展示和验证不足，削弱了Agent这一概念的冲击力；另外，多模态融合中，文本临床叙事的加入虽然带来了提升，但其具体贡献的“可解释性”与医生直觉的关联可以挖掘得更深。 🔗 开源详情代码：提供。论文中给出了GitHub仓库链接：https://github.com/zpforlove/Resp-Agent 模型权重：提供。论文中给出了HuggingFace模型权重链接：https://huggingface.co/AustinZhang/resp-agent-models 数据集：提供。论文中给出了HuggingFace数据集链接：https://huggingface.co/datasets/AustinZhang/resp-agent-dataset Demo：论文中未提及在线演示。复现材料：提供了训练和推理脚本、配置文件、完整的超参数设置（附录C）、训练细节和检查点，复现信息非常充分。论文中引用的开源项目：依赖的开源工具/模型包括：DeepSeek系列模型（V3.2-Exp, R1-Distill-Qwen-7B）、Qwen3-0.6B-Base、BEATs、Longformer、Vocos声码器、Conformer、AST、Whisper等。 📌 核心摘要这篇论文旨在解决深度学习在呼吸音听诊分析中面临的两个根本挑战：单模态表示的信息损失和标注数据的稀缺与不均衡。为此，论文提出了Resp-Agent，一个由中央规划器（Thinker-A2CA）编排的多智能体闭环系统。核心方法包括：1）一个可控生成器（Resp-MLLM），通过模态注入将大语言模型改造为多模态生成器，并结合流匹配解码器合成指定病理内容和声学风格的呼吸音；2）一个融合诊断器，通过模态编织将临床文本与音频嵌入在输入层融合，并利用稀疏全局注意力（音频锚点）捕捉瞬态声学事件。作为基础，论文构建了大规模多模态基准数据集Resp-229k（22.9万条记录）。主要实验结果表明，Resp-Agent在ICBHI数据集上以72.7的Score刷新了官方榜单记录，在Resp-229k跨域测试集上，其生成器配合规划器可将诊断器的宏F1分数从基线的0.212大幅提升至0.598。该工作为数据稀缺的医疗音频分析提供了整合生成与诊断的新范式，但其Agent的自主适应能力及系统在真实临床环境中的部署复杂度是其主要局限。模型/设置数据集指标数值备注 ICBHI 官方排行榜 (表2) 最佳先前方法 (Dong et al.) ICBHI Score (%) 67.55 SOTA Resp-Agent [Ours] ICBHI Score (%) 72.70 (+5.15) Resp-229k 跨域测试集 (表3, 表8) 音频基线 (Conformer) Test-CD Accuracy / Macro-F1 0.720 / 0.1935 仅音频，原始不平衡 Resp-Agent (无合成) Test-CD Accuracy / Macro-F1 0.849 / 0.212 多模态诊断器 Resp-Agent (Thinker-A2CA 合成) Test-CD Accuracy / Macro-F1 0.887 / 0.598 生成数据平衡后主要创新在于：1）首次提出并实现了针对呼吸音分析的“分析-生成”闭环Agent系统；2）创建了Resp-229k大规模、带临床文本的呼吸音基准，填补了数据空白；3）设计了融合文本与音频的模态编织诊断器，通过音频锚点机制提升了对瞬态病理性声音的捕捉能力。 ...

Scaling Speech Tokenizers with Diffusion Autoencoders

📄 Scaling Speech Tokenizers with Diffusion Autoencoders #语音分词 #扩散模型 #流匹配 #语音大模型 #语音识别 ✅ 7.5/10 | 前25% | #语音分词 | #扩散模型 | #流匹配 #语音大模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yuancheng Wang（Meta超级智能实验室、香港中文大学（深圳））通讯作者：未明确说明（论文中提供了第一作者的邮箱地址 yuanchengwang@link.cuhk.edu.cn）作者列表：Yuancheng Wang（Meta超级智能实验室、香港中文大学（深圳））、Zhenyu Tang（Meta超级智能实验室）、Yun Wang（Meta超级智能实验室）、Arthur Hinsvark（Meta超级智能实验室）、Yingru Liu（Meta超级智能实验室）、Yinghao Li（Meta超级智能实验室）、Kainan Peng（Meta超级智能实验室）、Junyi Ao（Meta超级智能实验室、香港中文大学（深圳））、Mingbo Ma（Meta超级智能实验室）、Mike Seltzer（Meta超级智能实验室）、Qing He（Meta超级智能实验室）、Xubo Liu（Meta超级智能实验室） 💡 毒舌点评亮点：论文提出的SiTok在极低比特率（0.2 kbps）和极低帧率（12.5 Hz）下实现了领先的语音重建质量和下游任务性能，为语音大模型提供了高效的离散化接口，技术路径清晰且实验全面。短板：模型规模巨大（1.6B参数）且依赖未公开的200万小时内部数据进行训练，这对于大多数研究团队而言复现门槛极高，其性能是否完全来自架构创新还是数据规模红利需要进一步厘清。 🔗 开源详情代码：论文附录D提供了详细的伪代码，且承诺将在论文正式发表后发布完整的推理代码和预训练模型检查点至公共、仅限研究使用的数据集。但未提供当前可用的代码仓库链接。模型权重：未提及当前是否提供公开的预训练权重。承诺未来发布。数据集：训练数据为200万小时内部数据，未公开，无法获取。 Demo：提供了在线演示网站链接：https://sitok-demo.github.io/。复现材料：提供了非常详细的模型架构（附录A）、伪代码（附录D.1， D.2）、训练超参数（附录D.3）和消融研究配置，复现信息（除数据和硬件外）较充分。论文中引用的开源项目：主要引用了Llama系列模型架构、RoPE位置编码、Vocos声码器、AdamW优化器��通用组件。未提及依赖其他特定的开源语音分词或扩散模型工具。 📌 核心摘要问题：现有语音分词器在平衡语义理解（需要压缩）与声学保真（需要细节）方面存在根本矛盾，尤其在极低比特率/帧率设置下，传统基于向量量化和回归损失的优化方式存在结构性瓶颈。方法核心：提出SiTok，一种基于扩散自编码器的语音分词器。其核心是端到端地联合优化离散量化与生成式重建，并引入一个基于CTC损失的辅助解码器对量化后的离散潜空间进行语义正则化，以学习同时具备高保真度和丰富语义的离散表示。创新点：a) 采用流匹配（扩散模型的一种）作为解码目标，替代传统回归损失或GAN，更有效地从激进压缩的离散码中恢复语音；b) 端到端联合训练量化器与扩散解码器，避免了两阶段训练导致的次优离散码；c) 直接对离散潜变量施加CTC语言监督，确保令牌的语义一致性；d) 探索了快捷微调等高效解码策略，将扩散推理步数大幅减少至2-4步。主要实验结果：SiTok在0.2 kbps和12.5 Hz的极端压缩设置下，重建WER为3.34（使用Classifier-Free Guidance），说话人相似度（SIM）达0.682（使用解码器微调），在语音重建和多项理解任务（ASR、情感识别、说话人验证、关键词检测）上均显著优于所有对比的强基线模型（见下表关键数据）。消融研究验证了扩散损失、语义正则化、模型缩放等关键设计的有效性。模型比特率(kbps) WER (↓) SIM (↑) UTMOS (↑) LLM ASR (↓) Ground Truth - 2.14 0.730 3.53 - Mimi (Baseline) 0.825 4.51 0.527 3.09 23.1 StableCodec (Baseline) 0.40 11.1 0.410 3.87 28.0 SiTok (CN=1, 基础) 0.20 4.06 0.641 3.44 4.95 SiTok (CN=1, +解码器微调) 0.20 3.79 0.682 3.48 - SiTok (CN=1, +Token CFG) 0.20 3.34 0.635 3.60 - 实际意义：为构建统一的、高效的语音大模型（同时处理理解和生成）提供了关键的离散化接口。其极低的令牌速率能显著缩短序列长度，提升语言模型的推理效率。主要局限性：a) 性能仍低于连续特征表示；b) 扩散解码器本身对流式生成不友好；c) 训练依赖大规模内部数据集，可获取性未说明。 🏗️ 模型架构 SiTok是一个基于扩散自编码器的语音分词系统，整体流程为：梅尔频谱图 -> 下采样 -> 编码器 -> 向量量化 -> 离散令牌 -> 扩散解码器 -> 重建梅尔频谱图。 ...

Stable Video Infinity: Infinite-Length Video Generation with Error Recycling

📄 Stable Video Infinity: Infinite-Length Video Generation with Error Recycling #视频生成 #流匹配 #数据增强 #多模态模型 🔥 8.8/10 | 前10% | #视频生成 | #数据增强 | #流匹配 #多模态模型学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Wuyang Li（EPFL VITA实验室）通讯作者：Alexandre Alahi（EPFL VITA实验室）作者列表：Wuyang Li（EPFL VITA实验室）、Wentao Pan（EPFL VITA实验室）、Po-Chien Luan（EPFL VITA实验室）、Yang Gao（EPFL VITA实验室）、Alexandre Alahi（EPFL VITA实验室） 💡 毒舌点评亮点：论文将长视频生成的“误差累积”问题从现象层面（如何缓解）深刻剖析到根源层面（训练与推理的假设鸿沟），并巧妙地将模型的“弱点”（自身错误）转化为训练的“资源”（监督信号），这种“以毒攻毒”的闭环反馈思想极具启发性和理论美感。短板：论文的方法高度依赖于自回归的片段式生成范式，尽管声称“无限”，但其生成质量的长期稳定性（如分钟级甚至小时级）仍需更严苛的验证；此外，误差银行的记忆管理策略（如仅用L2距离替换）可能过于简单，或难以捕捉复杂多样的错误模式。 🔗 开源详情代码：论文中未提及代码链接，但承��将公开“full codebase”。模型权重：论文中提到将公开模型，但未提供具体链接或平台。数据集：论文构建了新的基准数据集（一致、创造性、条件生成），并承诺将开源所有“benchmark datasets”。 Demo：未提及在线演示。复现材料：提供了非常详细的训练超参数（Tab. 12）、数据集描述、架构修改说明和消融实验设置，复现指南较为充分。论文中引用的开源项目：依赖的基础模型为Wan 2.1，以及Kong et al. (2025)的音频交叉注意力、Wang et al. (2025b)的骨架注入方法。 📌 核心摘要问题：现有长视频生成方法受限于误差累积（漂移），生成长度通常在10秒到1分钟左右。根本原因在于训练时假设历史轨迹无误差（误差自由假设），但自回归推理时却依赖自身含有误差的输出，造成训练-测试的假设鸿沟。核心方法：提出Stable Video Infinity (SVI)，其核心是误差回收微调（ERFT）。该方法打破误差自由假设，主动将模型自身生成的错误（误差）注入到干净输入中，训练模型预测一个指向干净目标的“误差回收速度”，从而让模型学会识别和纠正自身错误。创新与差异：不同于以往通过修改噪声调度器、锚定参考帧或改进采样策略来缓解误差，SVI通过误差回收机制主动纠正误差本身。具体包括：(i) 在流匹配的起始、中间、终点注入三类误差来模拟累积退化；(ii) 通过单步双向积分高效计算误差；(iii) 设计误差重放缓存池，根据时间步动态存取和采样误差。主要结果：在三个基准（一致性、创造性、条件生成）上均达到SOTA。在250秒超长一致性视频生成中，SVI-Shot的主体一致性达到97.89%，仅比短设置下降0.63%，而基线方法下降显著（如FramePack降13.71%）。在创造性视频生成中，SVI-Film能根据文本流生成平滑的场景切换，而基线方法失败。具体实验结果见下表：模型场景主体一致性背景一致性美学质量图像质量一致视频生成 (50秒) Wan 2.1 单一 92.45% 56.40% 65.70% 12.68% FramePack 单一 94.72% 63.57% 66.72% 7.75% SVI-Shot (Ours) 单一 98.19% 63.84% 71.88% 17.61% 超长一致视频生成 (250秒) Wan 2.1 单一 87.27% 56.19% 65.37% 14.29% FramePack 单一 86.64% 55.66% 57.61% 0.00% SVI-Shot (Ours) 单一 97.89% 65.75% 71.54% 21.43% 实际意义：首次实现了从“秒”到“无限”的非循环超长视频生成，突破了现有长度限制，为端到端长片创作、互动叙事和世界模型模拟开辟了新可能。主要局限：当测试时图像风格与训练分布不符时，模型可能误将风格差异当作“错误”进行“纠正”，导致相邻片段颜色偏移；目前模型基于并行生成，尚未实现实时流式输出；在复杂多镜头创意生成中，长期身份一致性仍有挑战。 🏗️ 模型架构 SVI的核心架构是基于视频扩散Transformer (DiT)，并通过误差回收微调（ERFT）进行增强，其主要流程如下： ...

TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization

📄 TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization #音频生成 #流匹配 #扩散模型 #模型评估 #开源工具 🔥 8.5/10 | 前25% | #音频生成 | #流匹配 | #扩散模型 #模型评估学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Chia-Yu Hung（南洋理工大学）通讯作者：未说明（论文未明确指定通讯作者）作者列表：Chia-Yu Hung（南洋理工大学）, Navonil Majumder（南洋理工大学）, Zhifeng Kong（NVIDIA）, Ambuj Mehrish（威尼斯卡福斯卡里大学）, Amir Ali Bagherzadeh（Lambda Labs）, Chuan Li（Lambda Labs）, Rafael Valle（NVIDIA）, Bryan Catanzaro（NVIDIA）, Soujanya Poria（南洋理工大学） 💡 毒舌点评亮点：在音频生成这个“缺乏裁判”（无标准答案和可靠奖励模型）的赛道上，CRPO方法巧妙地利用CLAP打分实现了“自我训练、自我提升”的闭环，效果显著且思路优雅。短板：其声称的“超快”优势，很大程度上依赖于50步推理和44.1kHz采样率的设定，与一些专为极低延迟设计的模型（如ConsistencyTTA）的定位不同，其“最快”的宣称存在语境限定。 ...

Unified Multi-Modal Interactive and Reactive 3D Motion Generation via Rectified Flow

📄 Unified Multi-Modal Interactive and Reactive 3D Motion Generation via Rectified Flow #3D动作生成 #流匹配 #检索增强生成 #对比学习 #多模态模型 🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #3D动作生成 #检索增强生成学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Prerit Gupta†, Shourya Verma† （†表示同等贡献）通讯作者：未说明作者列表：Prerit Gupta（普渡大学计算机科学系）、Shourya Verma（普渡大学计算机科学系）、Ananth Grama（普渡大学计算机科学系）、Aniket Bera（普渡大学计算机科学系） 💡 毒舌点评这篇论文最大的亮点在于其“统一”的野心——用一个框架搞定交互式和反应式两种截然不同的双人生成任务，还通过LLM分解和RAG引入了相当精细的语义引导，技术整合度很高。但短板也很明显：它本质上是一个生成框架，其成功高度依赖于底层检索库的质量和多样性，一旦遇到描述模糊或罕见的舞蹈风格，RAG模块可能从“助手”变成“累赘”，论文中也承认了这一点。 🔗 开源详情代码：论文附录B承诺“Full code for this project along with the trained checkpoints for all tasks will be made open source and publicly available upon paper acceptance.”。当前未提供具体链接。模型权重：如上所述，承诺将提供训练好的检查点。数据集：论文中使用的三个数据集（InterHuman-AS, DD100, MDD）是现有公开或半公开数据集，论文未提及将发布新数据集。MDD是作者团队之前发布。 Demo：论文未提及在线演示。复现材料：论文提供了非常详细的实现细节（附录D）、模型参数（附录D.5）、损失函数公式（第3.5节）、训练配置（第4节实现细节）以及大量的消融实验结果（附录E、F），为复现提供了充分指导。引用的开源项目/模型：CLIP (Radford et al., 2021), Jukebox (Dhariwal et al., 2020), SMPL (Loper et al., 2015)。总结：论文对未来开源有明确计划和承诺，并提供了丰富的复现信息，但当前代码和权重尚未公开。 📌 核心摘要问题：生成由文本、音乐等多种模态条件驱动的协调、逼真的双人3D动作是一个难题。现有方法要么只处理交互式，要么只处理反应式任务，且通常只支持单一模态，缺乏统一框架。方法：论文提出了DualFlow，一个基于Rectified Flow的统一框架。其核心是设计了级联的“DualFlow块”，通过掩码机制灵活切换以处理交互式（双分支对称）和反应式（演员分支掩码）任务。引入了为双人动作设计的RAG模块，使用LLM将文本分解为空间关系、身体动作和节奏三个维度进行检索。创新点：(1) 首个统一交互与反应双人生成的单一框架；(2) 针对双人动作的LLM分解RAG模块；(3) 结合了对比学习的Rectified Flow目标和同步损失。实验结果：在MDD、InterHuman-AS和DD100数据集上的广泛评估表明，DualFlow在多数指标上达到SOTA。例如，在MDD数据集的交互任务中，DualFlow(Both)的FID为0.415（优于InterGen(Both)的0.426），R-Precision@3为0.513（优于InterGen(Both)的0.302）。推理速度方面，仅需20步即可完成，比需要50步的50-DDIM基线快约2.5倍。意义：为VR/AR伴侣、社交机器人和游戏AI等需要生成协调多人行为的应用提供了一个更通用、更高效的基础框架。局限性：性能依赖于检索库质量；在反应式设置中可能出现轻微的身体穿透；长序列生成可能有时序漂移。 🏗️ 模型架构图1展示了DualFlow如何统一处理交互式和反应式生成，并利用文本（经LLM分解）、音乐和检索样本作为条件输入。 ...

JaiTTS: A Thai Voice Cloning Model

📄 JaiTTS: A Thai Voice Cloning Model #语音合成 #语音克隆 #自回归模型 #流匹配 #低资源 ✅ 7.5/10 | 前25% | #语音合成 | #自回归模型 | #语音克隆 #流匹配 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Jullajak Karnjanaekarin (Jasmine Technology Solution) 通讯作者：未明确说明（论文提供了共同邮箱 jts.ai.team@gmail.com）作者列表： Jullajak Karnjanaekarin (Jasmine Technology Solution) Pontakorn Trakuekul (Jasmine Technology Solution) Narongkorn Panitsrisit (Jasmine Technology Solution) Sumana Sumanakul (Jasmine Technology Solution) Vichayuth Nitayasomboon (Jasmine Technology Solution) Nithid Guntasin (Sirindhorn International Institute of Technology) Thanavin Denkavin (Sirindhorn International Institute of Technology) Attapol T. Rutherford (Jasmine Technology Solution, Chulalongkorn University Department of Linguistics) 💡 毒舌点评 JaiTTS在泰语这一垂直赛道上确实“秀了一把肌肉”，性能数据（如CER低于人类基准）和人类盲测胜率都相当漂亮，证明了其在目标语言上的强大实力。然而，论文对模型“黑箱”的保护可谓严密，除了引用VoxCPM作为骨架，核心训练细节（如参数规模、优化器设置）几乎全部隐去，且没有任何开源复现的迹象，这使得其卓越的性能更像一个无法验证的“展示柜”，而非可供学术共同体推进的“开放工具”。 ...

UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions

📄 UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions #音频生成 #流匹配 #扩散模型 #统一音频模型 #语音合成 🔥 8.5/10 | 前25% | #音频生成 | #流匹配 | #扩散模型 #统一音频模型 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Chunyu Qiang（天津大学，快手科技）通讯作者：Longbiao Wang（天津大学）， Jianwu Dang（天津大学）作者列表：Chunyu Qiang（天津大学，快手科技）、Xiaopeng Wang（快手科技）、Kang Yin（快手科技）、Yuzhe Liang（快手科技）、Yuxin Guo（快手科技，中国科学院自动化研究所）、Teng Ma（快手科技）、Ziyu Zhang（快手科技）、Tianrui Wang（天津大学）、Cheng Gong（天津大学）、Yushen Chen（快手科技）、Ruibo Fu（中国科学院自动化研究所）、Chen Zhang（快手科技）、Longbiao Wang（天津大学）、Jianwu Dang（天津大学） 💡 毒舌点评亮点：论文真正实现了语音、音乐、音效的“三合一”生成，且通过精巧的“动态token注入”和“课程学习”让这个庞然大物不仅能跑，还在语音和音乐的主流评测中刷出了新SOTA，证明了“团结就是力量”。短板：在音效生成这个“混沌领域”，这个统一模型还是打不过那些专精于此的专门模型（如GenAU-L），并且论文未开源代码和模型，让其优秀的实验结论暂时停留在了“可看不可摸”的阶段。 ...

Adaptive Deterministic Flow Matching for Target Speaker Extraction

📄 Adaptive Deterministic Flow Matching for Target Speaker Extraction #目标说话人提取 #流匹配 #语音增强 #生成模型 #自适应推理 🔥 8.0/10 | 前25% | #目标说话人提取 | #流匹配 | #语音增强 #生成模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Tsun-An Hsieh（伊利诺伊大学厄巴纳-香槟分校，西贝尔计算机与数据科学学院）通讯作者：Minje Kim（伊利诺伊大学厄巴纳-香槟分校，西贝尔计算机与数据科学学院）作者列表：Tsun-An Hsieh（伊利诺伊大学厄巴纳-香槟分校，西贝尔计算机与数据科学学院）、Minje Kim（伊利诺伊大学厄巴纳-香槟分校，西贝尔计算机与数据科学学院） 💡 毒舌点评亮点：将流匹配的“时间”轴与语音混合的物理过程（混合比例τ）直接对齐，并在此基础上实现“按需分配”计算资源的自适应推理，这种思路比简单地追求固定步数的流匹配要精巧得多，实验中仅一步就能追平甚至超越需要多步的强基线，效率提升令人印象深刻。短板：方法高度依赖于混合信号的线性叠加模型（x=τs₁+(1-τ)b），对混响、非线性失真等更复杂的声学场景（论文中也提到需要更多步）的鲁棒性未充分验证，这限制了其作为通用TSE解决方案的广度。此外，MR预测模块的精度直接影响最终性能，但在实际未知场景中预测一个干净的τ本身就颇具挑战。 🔗 开源详情代码：提供。论文明确指出代码仓库位于 https://minjekim.com/research-projects/AD-FlowTSE#icassp2026。模型权重：未提及。数据集：使用公开数据集Libri2Mix，论文未提供直接下载链接，但该数据集可公开获取。 Demo：提供在线演示，网址包含在上述链接中。复现材料：提供了详细的训练配置（批大小、学习率、优化器、调度策略、硬件等）和模型架构描述。代码仓库可能包含更详细的配置。论文中引用的开源项目：ECAPA-TDNN（用于MR预测器骨干网络）、UDiT（向量场估计器架构）。论文中未提及开源计划，但根据链接，代码已开源。 📌 核心摘要问题：现有基于扩散或流匹配的生成式目标说话人提取方法，通常采用固定数量的反向步骤和固定步长进行推理，这未能根据输入混合信号的质量（即目标语音与背景的混合比例）自适应地分配计算资源，导致效率低下。方法：提出AD-FlowTSE，一种自适应确定性流匹配TSE方法。其核心是将流匹配中的时间变量重新定义为背景信号b与目标语音s₁之间的混合比例τ。模型学习的是从背景分布到目标语音分布的传输向量场。在推理时，首先通过一个MR预测器估计输入的混合比例τ̂，然后将该估计值作为起点，仅在[τ̂, 1]的残差区间上进行自适应步长的反向积分，从而生成目标语音。与已有方法的新颖之处：区别于先前方法在混合信号（或高斯噪声）与干净语音之间定义流动路径，本文在背景与目标之间定义流动路径，并将路径位置与物理混合比例直接绑定。这使得模型能够根据输入质量动态调整推理步数或步长，实现了“MR感知”的初始化和高效推理。主要实验结果：在Libri2Mix数据集（Noisy和Clean子集）上，AD-FlowTSE在PESQ、ESTOI、SI-SDR等侵入式指标上优于所有对比的生成式基线。尤其显著的是，说话人相似度（SIM）指标在Noisy集上达到0.87（使用估计τ），远高于FlowTSE的0.83和SoloSpeech的0.85。消融实验表明，使用估计的τ̂性能接近使用真实τ的上界，而固定τ=1或τ=0则性能显著下降。图2显示，仅需1-5个推理步数（NFE）即可达到峰值性能，更多步数反而因过校正导致性能下降。实际意义：该方法为高效、高质量的TSE提供了一条新途径，尤其适用于对延迟和计算资源敏感的应用场景（如助听器、实时通信）。它展示了将生成模型的理论框架与任务的物理先验深度结合的重要性。主要局限性：该方法的有效性建立在语音混合是线性叠加的假设上，对存在混响、滤波等非线性效应的场景可能需要更复杂的建模。MR预测器的精度是系统性能的瓶颈，其在极端噪声或未见说话人场景下的鲁棒性有待检验。实验仅在Libri2Mix这一特定数据集上进行，缺乏在真实世界复杂场景中的验证。 🏗️ 模型架构 AD-FlowTSE由两个独立训练的模块组成：MR-Informed向量场估计器 (vθ) 和 MR预测器 (gϕ)。整体流程如图1所示。 ...

AnyAccomp: Generalizable Accompaniment Generation Via Quantized Melodic Bottleneck

📄 AnyAccomp: Generalizable Accompaniment Generation Via Quantized Melodic Bottleneck #音乐生成 #流匹配 #量化 #歌唱语音合成 #鲁棒性 🔥 8.0/10 | 前25% | #音乐生成 | #流匹配 #量化 | #流匹配 #量化学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Junan Zhang（香港中文大学深圳分校），Yunjia Zhang（香港中文大学深圳分校），两人贡献相等（Equal Contribution）。通讯作者：Zhizheng Wu（香港中文大学深圳分校；澳门城市大学；深圳湾区实验室；Amphion Technology Co., Ltd.）作者列表： Junan Zhang（香港中文大学深圳分校） Yunjia Zhang（香港中文大学深圳分校） Xueyao Zhang（香港中文大学深圳分校） Zhizheng Wu（香港中文大学深圳分校；澳门城市大学；深圳湾区实验室；Amphion Technology Co., Ltd.） 💡 毒舌点评亮点：该工作精准地抓住了歌唱伴奏生成模型“过拟合于分离伪影”这一关键痛点，并设计了“量化音高瓶颈”这一优雅的解决方案，通过剥离音色和瑕疵信息，显著提升了模型在干净人声和纯乐器上的泛化能力，思路清晰且效果立竿见影。短板：目前的评估主要依赖于AI美学评分（audiobox-aesthetics）和FAD等指标，虽然全面，但对于“伴奏质量”和“音乐性”的衡量，可能仍需更贴近人类感知的细粒度评测；此外，瓶颈表示选择固定的音高特征图，对于非主调音乐或复杂编曲的泛化能力尚待验证。 🔗 开源详情代码：提供，链接为 https://anyaccomp.github.io/。模型权重：论文中未明确提及是否公开预训练模型权重，仅在“Demo audio and code”部分提及。数据集：论文中使用的训练数据（基于SingNet流程）未公开，但引用了公开的MUSDB18和MoisesDB作为评估数据集。 Demo：提供在线演示网站：https://anyaccomp.github.io/。复现材料：提供了详细的模型架构参数、训练配置、损失函数设计等，复现材料较充分。引用的开源项目：Amphion, Vevo, MERT, pretty-midi, 以及数据集M4Singer, SingNet, YuE, MUSDB18, MoisesDB。 📌 核心摘要问题：现有的歌唱伴奏生成（SAG）模型在训练时使用了带有分离伪影的歌声，导致模型过拟合这些伪影，当输入为干净、真实的歌声时性能严重下降，存在严重的“训练-测试不匹配”问题。方法核心：提出ANYACCOMP框架，分为两阶段。第一阶段使用VQ-VAE将输入的音高特征图（Chromagram）量化为离散的、音色不变的旋律码本表示。第二阶段使用基于Flow Matching的Transformer，以这些离散码本为条件，生成伴奏的梅尔频谱，最后用声码器合成音频。创新点：与已有方法直接使用梅尔频谱或SSL特征不同，ANYACCOMP通过量化的音高瓶颈，主动解耦了旋律内容与源相关的音色及分离伪影，从而提供了鲁棒的生成条件。实验结果：在领域内数据集（YuE，分离歌声）上，ANYACCOMP表现与基线（FastSAG， FM-Mel）持平或略优（见Table 1）。在关键的泛化测试集上（MUSDB18干净歌声、MoisesDB乐器独奏），基线方法的APA（条件一致性）得分接近0，表明生成失败；而ANYACCOMP的APA分别达到0.710和0.203，且FAD和美学分数也远优于基线，证明了其强大的泛化能力。实际意义：该工作使得伴奏生成模型能够泛化到干净录音甚至纯乐器输入，首次实现了为纯乐器音轨自动生成伴奏，拓宽了AI音乐协作工具的应用范围。主要局限：瓶颈表示完全基于音高特征，可能对打击乐或非调性音乐效果有限；部分评估指标（如PC，内容复杂度）的解读需注意；未公开训练数据集本身。 🏗️ 模型架构 ANYACCOMP是一个两阶段的条件生成框架，整体架构如图1所示。 ...

ARCHI-TTS: A Flow-Matching-Based Text-to-Speech Model with Self-Supervised Semantic Aligner and Accelerated Inference

📄 ARCHI-TTS: A Flow-Matching-Based Text-to-Speech Model with Self-Supervised Semantic Aligner and Accelerated Inference #语音合成 #流匹配 #自监督学习 #零样本 #多语言 🔥 8.0/10 | 前25% | #语音合成 | #流匹配 | #自监督学习 #零样本学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Chunyat Wu（香港中文大学）通讯作者：未说明（论文中未明确标注通讯作者）作者列表：Chunyat Wu, Jiajun Deng, Zhengxi Liu, Zheqi Dai, Haolin He, Qiuqiang Kong（所有作者均来自香港中文大学，香港，中国） 💡 毒舌点评亮点：这篇论文最大的“工程巧思”在于发现了非自回归流式解码器中，条件编码器的输出在不同去噪步之间可以安全地重复使用，从而在几乎不损失质量的前提下将推理速度提升了数倍（RTF从0.31降至0.09），这个发现极具实用价值。短板：虽然“语义对齐器”被设计为核心，但论文对其内部学习到的对齐质量缺乏直接、可视化的分析（例如对齐矩阵图），其对合成语音“时序稳定性”的贡献更多是间接推断，说服力可以更强。 🔗 开源详情代码：论文明确指出“code are publicly available”，并提供了项目主页链接 https://archimickey.github.io/architts ，但论文PDF中未给出具体的GitHub等代码仓库链接。模型权重：论文中未提及是否公开模型权重。数据集：使用的是公开数据集（Emilia, LibriHeavy, LibriTTS）。 Demo：项目主页上应包含音频样本（Audio samples）。复现材料：提供了详细的模型架构描述、超参数设置（如层数、学习率、批次大小、损失函数权重）、训练硬件和时长等关键信息，有利于复现。论文中引用的开源项目：主要依赖和参考了Emilia数据集、ConvNeXt V2（用于文本编码）、Stable Audio的VAE架构、以及用于提取说话人嵌入的CAM++模型。总结：论文有明确的开源计划和部分复现信息，但开源信息（特别是代码链接和模型权重）在提供的PDF中不完整。 📌 核心摘要问题：当前基于扩散/流匹配的非自回归TTS系统面临两大挑战：1）文本与语音之间复杂、灵活的对齐关系难以有效建模；2）迭代去噪过程带来高昂的计算开销，推理速度慢。方法：本文提出ARCHI-TTS，一种非自回归架构。核心方法包括：a) 语义对齐器：通过一个Transformer编码器，将文本特征与长度等于目标语音帧数的、可学习的“掩码嵌入”序列进行交互，从而端到端地学习出对齐的语义表征，无需显式时长标注。b) 高效推理策略：在条件流匹配的解码器中，将负责编码文本、说话人、参考音频等条件的“条件编码器”部分的输出，在多个去噪步骤间共享（重用），避免了每一步都重新计算，从而大幅提升推理效率。创新：与E2-TTS、F5-TTS等通过填充字符来实现隐式对齐的方法不同，ARCHI-TTS显式设计了一个对齐模块。与需要额外蒸馏训练（如DMDSpeech）的加速方法不同，本文的加速策略是训练无关的，直接来自对模型架构特性的洞察。主要实验结果：在LibriSpeech-PC test-clean上，WER为1.98%，SSIM为0.70，RTF为0.21（单卡3090）。在SeedTTS test-en上，WER为1.47%，SSIM为0.68。在SeedTTS test-zh上，WER为1.42%，SSIM为0.70。使用75%共享比例时，在NFE=32下，WER仍保持1.98%，RTF降至0.09。 MOS主观评测中，其自然度和说话人相似度与F5-TTS和CosyVoice2处于竞争水平。模型参数量训练数据 WER(%)↓ SSIM↑ RTF↓ 测试集 F5-TTS 336M 100K Multi. 2.42 0.66 0.31 LibriSpeech-PC test-clean ARCHI-TTS 289M 100K Multi. 1.98 0.70 0.21 LibriSpeech-PC test-clean F5-TTS - - 1.83 0.67 - SeedTTS test-en ARCHI-TTS - - 1.47 0.68 - SeedTTS test-en DiTAR - - 1.02 0.75 - SeedTTS test-zh ARCHI-TTS - - 1.42 0.70 - SeedTTS test-zh (图1：ARCHI-TTS整体架构概览图，展示了语义对齐器、条件编码器、速度解码器及数据流。) ...