Icassp-2026

VM-UNSSOR: Unsupervised Neural Speech Separation Enhanced by Higher-SNR Virtual Microphone Arrays

📄 VM-UNSSOR: Unsupervised Neural Speech Separation Enhanced by Higher-SNR Virtual Microphone Arrays #语音分离 #麦克风阵列 #无监督学习 ✅ 7.5/10 | 前25% | #语音分离 | #麦克风阵列 | #无监督学习学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Shulin He（南方科技大学计算机科学与工程系）通讯作者：Zhong-Qiu Wang（南方科技大学计算机科学与工程系）作者列表：Shulin He（南方科技大学计算机科学与工程系），Zhong-Qiu Wang（南方科技大学计算机科学与工程系） 💡 毒舌点评亮点：方法巧妙地将传统盲源分离器（IVA/SC）的输出“废物利用”，包装成提供额外监督信号的“虚拟麦克风”，用极低的计算代价显著缓解了小阵列无监督训练崩溃的问题，工程思维值得学习。短板：实验仅在模拟数据（SMS-WSJ）上进行，在真实复杂声场（如强混响、非平稳噪声）下的鲁棒性未经验证，且虚拟麦克风的质量完全依赖于前端分离器的性能，形成了一个潜在的瓶颈。 🔗 开源详情代码：论文中未提及代码链接。文中提到的开源项目仅为依赖项：torchiva (https://github.com/fakufaku/torchiva) 和 pb_bss 中的CACGMM示例。模型权重：未提及。数据集：使用公开的SMS-WSJ数据集[29]。 Demo：未提及。复现材料：提供了非常详细的实验配置，包括数据集划分、STFT参数、损失函数权重（α, β, ξ）以及训练流程（沿用UNSSOR配方），但未提供训练脚本、配置文件或检查点。论文中引用的开源项目：torchiva（用于IVA），CACGMM实现（用于空间聚类）。开源计划：论文中未提及开源计划。 📌 核心摘要问题：无监督语音分离（USS）依赖混合一致性（MC）损失进行训练，但当训练所用的物理麦克风数量减少（特别是降至确定性配置时），MC约束变弱，导致分离性能急剧下降甚至训练失败。方法核心：提出VM-UNSSOR，利用线性空间分离器（如IVA或空间聚类）对原始多通道混合信号进行处理，生成一组高信噪比（SNR）的“虚拟麦克风”信号。这些虚拟信号作为原始混合信号的线性投影，满足相同的声学混合模型。将物理和虚拟麦克风信号一起输入神经网络分离器，并基于所有麦克风（物理+虚拟）计算加权的MC损失，从而增强训练约束。创新之处：与基础UNSSOR相比，VM-UNSSOR通过引入虚拟麦克风，人为增加了用于计算MC损失的“通道”数量，将确定或欠定的训练条件转变为伪过确定条件。这不仅提供了更强的训练约束，其高SNR特性还可能充当伪教师信号，帮助解决频率置换问题。主要实验结果：在SMS-WSJ数据集的6麦克风2说话人设置下，VM-UNSSOR达到17.1 dB SI-SDR，比UNSSOR基线（14.7 dB）提升2.4 dB，也优于参考的扩散模型方法ArrayDPS（16.2 dB）。在更具挑战性的2麦克风2说话人（确定性）设置中，UNSSOR训练失败（-2.7 dB SI-SDR），而VM-UNSSOR能达到10.7 dB SI-SDR。系统设置 SI-SDR (dB) UNSSOR 6麦，2说话人 14.7 VM-UNSSOR 6麦，2说话人 17.1 UNSSOR 2麦，2说话人 -2.7 VM-UNSSOR 2麦，2说话人 10.7 实际意义：该方法无需标注数据或额外硬件麦克风，可显著提升现实场景中（麦克风数量有限）的无监督语音分离性能，适用于智能设备、助听器等需要快速在目标环境自适应部署的场景。主要局限性：1）性能上限受限于所使用的线性分离器（IVA/SC）的质量；2）所有实验基于模拟数据（SMS-WSJ），缺乏真实场景验证；3）虚拟麦克风引入了额外的计算开销。 🏗️ 模型架构 VM-UNSSOR的系统架构（如图1所示）主要包含三个核心组件：虚拟麦克风生成器、神经网络分离器和基于混合一致性（MC）的训练框架。 ...

VMSP: Video-to-Music Generation with Two-Stage Alignment and Synthesis

📄 VMSP: Video-to-Music Generation with Two-Stage Alignment and Synthesis #音乐生成 #扩散模型 #多模态模型 #跨模态 ✅ 7.0/10 | 前25% | #音乐生成 | #扩散模型 | #多模态模型 #跨模态学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Xin Gu（中国传媒大学信息与通信工程学院）通讯作者：Wei Jiang*（中国传媒大学信息与通信工程学院）作者列表：Xin Gu（中国传媒大学信息与通信工程学院）、Wei Jiang*（中国传媒大学信息与通信工程学院）、Yujian Jiang（中国传媒大学信息与通信工程学院）、Zhibin Su（中国传媒大学信息与通信工程学院）、Ming Yan（中国传媒大学信息与通信工程学院） 💡 毒舌点评论文的亮点在于其清晰的“先对齐中间表示，再生成”的两阶段框架设计，这有效缓解了端到端模型常忽略音乐结构的问题，逻辑自洽。但短板也明显：它严重依赖特定的、可能闭源的MLLM（Qwen2.5-VL, Qwen2-Audio）来生成感知描述，这增加了复现成本和不可控性，且论文未开源任何资源，让后续研究者“只能看，不能练”。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开的模型权重。数据集：使用了公开数据集MVED， MuVi-Sync， V2M-bench，但论文未说明其自身的数据预处理脚本或额外数据是否公开。 Demo：未提供在线演示。复现材料：给出了部分训练细节（优化器、学习率调度、训练轮数、硬件）和模型架构参数（Transformer层数、维度），但关键组件的完整训练配置（如VAE-GAN）、MLLM的详细使用方式（Prompt、是否微调）、以及评估脚本未提供。论文中引用的开源项目：引用并依赖了MetaClip、CLAP、Qwen2.5-VL、Qwen2-Audio等模型/工具。开源计划：论文中未提及开源计划。 📌 核心摘要问题：现有的视频生成音乐（V2M）方法大多直接将视频特征映射到声学标记或波形，跳过了对音乐中间表示（如语义、结构）的建模，导致生成的音乐结构连贯性差、和声不丰富。方法核心：提出VMSP，一个基于分层条件映射的两阶段生成框架。第一阶段（跨模态映射）通过Transformer学习视频与音乐语义特征的段级对齐，并利用多模态大语言模型（MLLM）确保视频与音乐在感知层面的一致性。第二阶段（音乐生成）使用扩散Transformer（DiT），将上述对齐后的语义特征和感知信息作为分层条件，指导音乐波形的生成。与已有方法的新颖性：相比于直接映射或依赖文本中间描述的方法，VMSP显式地建模了音乐的“中间表示”（语义和感知），并设计了分层条件注入机制（全局感知条件+局部语义条件），旨在同时保证全局氛围一致和局部时间对齐。主要实验结果：在MVED和MuVi-Sync数据集上训练，在V2M-bench数据集上评估。定量对比显示VMSP在KL、FAD、Density和Coverage指标上均优于CMT、Video2Music、M2UGen和VidMuse等基线模型。消融实验表明两阶段框架和双重条件（语义+感知）缺一不可。用户研究也显示VMSP在音频质量、音乐性、对齐度和感知和谐度上具有优势。模型/方法 KL↓ FAD↓ Density↑ Coverage↑ GT 0.000 0.000 1.167 1.000 CMT[7] 1.220 8.637 0.080 0.070 Video2Music[9] 1.782 18.722 0.103 0.023 M2UGen[18] 0.997 5.104 0.608 0.433 VidMuse[6] 0.734 2.459 1.250 0.730 VMSP 0.607 2.580 1.280 0.870 表1: 客观定量对比结果（来自论文） ...

Vocalnet-M2: Advancing Low-Latency Spoken Language Modeling via Integrated Multi-Codebook Tokenization and Multi-Token Prediction

📄 Vocalnet-M2: Advancing Low-Latency Spoken Language Modeling via Integrated Multi-Codebook Tokenization and Multi-Token Prediction #语音对话系统 #多令牌预测 #多码本分词 #语音大模型 ✅ 7.5/10 | 前25% | #语音对话系统 | #多令牌预测 | #多码本分词 #语音大模型学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yuhao Wang (上海交通大学，蚂蚁集团) 通讯作者：Yu Wang (上海交通大学) 作者列表：Yuhao Wang (上海交通大学，蚂蚁集团)、Ziyang Cheng (上海交通大学)、Heyang Liu (上海交通大学，蚂蚁集团)、Ronghua Wu (蚂蚁集团)、Qunshan Gu (蚂蚁集团)、Yanfeng Wang (上海交通大学)、Yu Wang (上海交通大学) 💡 毒舌点评论文直击当前语音大模型在实时交互中的“阿喀琉斯之踵”——延迟，并通过多码本直出和MTP策略给出了有效缓解方案，工程实用性值得肯定。然而，多码本学习的“高门槛”特性意味着它严重依赖高质量、大规规模的训练数据，这可能成为其在资源受限场景下落地的“新瓶颈”。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：提到了使用Emilia、VoiceAssistant、Ultrachat等数据集以及自己合成的v1/v2数据，但未说明是否公开或如何获取合成部分。 Demo：未提及。复现材料：提供了部分训练细节（如数据来源、模型初始化、三阶段训练策略），但关键超参数（如学习率、batch size、优化器、训练步数）和硬件信息缺失，不足以支撑完整复现。论文中引用的开源项目：引用了Whisper、Qwen3-8B、CosyVoice2、Emilia等开源模型/数据集。 📌 核心摘要本文旨在解决当前端到端语音语言模型因自回归生成和依赖流匹配模型导致的响应延迟过高问题。方法核心是提出VocalNet-M2，一个采用“思考者-说话者”架构的低延迟模态对齐SLM。其创新在于：1）集成多码本分词器，直接生成包含丰富声学信息的8码本语音令牌，从而省去了高延迟的流匹配声学重建模型；2）设计了针对多码本生成的多令牌预测策略，在单次推理步骤中预测多个未来令牌，进一步提升效率并改善性能。主要实验结果表明，VocalNet-M2在保持与主流SLM竞争性的文本与语音质量（如AlpacaEval 7.29， WER 6.07）的同时，将首音频块延迟从基线系统的约725毫秒大幅降低至约349毫秒，实现了约2倍的推理加速。该工作的实际意义在于为构建低延迟、高响应的实时语音交互系统提供了有价值的架构设计和对比分析。主要局限性在于，学习多码本语音令牌比单码本令牌更困难，对训练数据的质量和数量要求更高。 ...

Voting-Based Pitch Estimation with Temporal and Frequential Alignment and Correlation Aware Selection

📄 Voting-Based Pitch Estimation with Temporal and Frequential Alignment and Correlation Aware Selection #语音识别 #信号处理 #集成学习 #鲁棒性 #时频分析 🔥 8.0/10 | 前25% | #语音识别 | #信号处理 | #集成学习 #鲁棒性学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Junya Koguchi（CyberAgent, Inc.）通讯作者：Junya Koguchi（CyberAgent, Inc.）作者列表：Junya Koguchi（CyberAgent, Inc.）、Tomoki Koriyama（CyberAgent, Inc.） 💡 毒舌点评亮点：将经验性的投票法“黑箱”拆解，从统计学和决策理论角度给出了严谨的方差缩减和多数决正确率证明，理论功底扎实，让工程经验有了数学支撑。短板：提出的“对齐”方案本质上引入了新的依赖（对参考方法的依赖），且在极端噪声下，其精心对齐的多个“弱鸡”集成，终究打不过经过大量数据训练的单个DNN“拳击手”，暴露了传统方法集成路线的根本天花板。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：评估使用了多个公开数据集（Bagshaw, Keele, CMU ARCTIC, PTDB-TUG, MOCHA-TIMIT, MIR-1K, MDB-stem-synth, NOISEX92, QUT-NOISE），但论文未提供其统一获取方式或预处理脚本。 Demo：未提及。复现材料：未给出训练细节、配置文件、检查点或附录。论文中引用的开源项目包括pYIN, DIO, REAPER, Harvest, SWIPE’, Praat, CREPE, FCNF0++, WORLD, UTMOSv2等作为基线或工具。 📌 核心摘要要解决的问题：基频估计中，单个估计器（无论是传统方法还是DNN方法）各有局限，鲁棒性不足。经验性的投票集成法有效但缺乏理论分析，且存在因不同方法分析时间点不同导致的时间对齐偏差，以及计算开销与估计误差相关性影响集成效果的问题。方法核心：提出一个系统框架来改进投票法。核心包括：a) 理论分析：从误差方差缩减和Condorcet陪审团定理角度解释投票法的有效性；b) 预对齐改进：在投票前，通过最大化原始音高准确率（RPA）进行时间轴对齐，并通过计算中位数偏差进行频率轴对齐，纠正不同估计器的系统性偏差；c) 贪心选择算法：设计一种基于估计误差符号相关性的贪心算法，从候选估计器池中选择一个紧凑且误差低相关的子集进行投票，以平衡精度与计算量。与已有方法相比新在哪里：首次为投票法提供系统的理论基础；首次提出在投票前对多个估计器的输出进行时间和频率上的预对齐，解决了实际应用中的一个关键痛点；提出基于误差相关性的方法选择策略，超越了以往随机或经验性的组合方式。主要实验结果：在包含语音、歌声和乐器的多样化数据集上进行实验。在干净条件下，所提带对齐的投票法在均方根频率误差（Δ¢）、原始音高准确率（RPA50）和浊音/清音检测召回率（V/UV Recall）上均优于所有单个SOTA估计器（如表1所示，RPA50达到76.78，V/UV Recall达到94.21）。在噪声条件下（如表2、3），投票法的V/UV检测召回率保持相对稳健，但在极低信噪比（SNR=0dB）下，其频率轨迹精度（RPA50）不如CREPE、FCNF0++等单个DNN方法。方法选择实验证明，基于相关性准则选出的3-5个估计器组合，能接近使用所有估计器的性能（如表4）。实际意义：为语音合成、歌唱分析等需要高精度基频轨迹和稳健V/UV标记的应用提供了一种更可靠、可解释的后处理集成方案。对齐和选择方法具有通用性，可应用于其他需要聚合多个弱预测器输出的场景。主要局限性：a) 预对齐步骤引入了额外的计算开销，并且其性能依赖于参考方法的选择，论文未深入探讨参考方法的最优选取策略；b) 在极端噪声环境下，集成方法的表现仍逊于经过专门训练的单个DNN模型；c) 贪心选择算法依赖于标注数据来计算误差相关性，限制了其在完全无监督场景下的应用。 🏗️ 模型架构本文提出的并非一个端到端的神经网络模型，而是一个信号处理与决策的集成算法流程。其整体架构如下图所示： ...

VoxMorph: Scalable Zero-Shot Voice Identity Morphing via Disentangled Embeddings

📄 VoxMorph: Scalable Zero-Shot Voice Identity Morphing via Disentangled Embeddings #语音克隆 #零样本 #语音合成 #流匹配 #音频安全 🔥 9.0/10 | 前10% | #语音克隆 | #流匹配 | #零样本 #语音合成学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Bharath Krishnamurthy (北德克萨斯大学) 通讯作者：Ajita Rattani (北德克萨斯大学) 作者列表：Bharath Krishnamurthy (北德克萨斯大学)， Ajita Rattani (北德克萨斯大学) 💡 毒舌点评这篇论文堪称生物识别安全领域的一声警钟，它用优雅的技术（解纠缠表示学习）和极低的成本（5秒音频），制造出了一个足以让现有语音验证系统头疼不已的“合成身份”。其亮点在于将看似复杂的攻击变得异常简单高效；短板则是，这种“降维打击”式的技术突破，也立刻暴露了当前ASV系统在应对此类高级、细粒度伪造时的脆弱性，给防御方带来了前所未有的压力。 🔗 开源详情代码：论文中提供了代码仓库链接：Vcbsl/VoxMorph。模型权重：论文中未明确提及是否公开预训练模型权重，但鉴于其代码开源，权重很可能包含在内或后续会提供。数据集：公开。论文明确声明“we release the first publicly available dataset of 10, 000 high-fidelity voice morphs”，并提供了项目页面链接。 Demo：论文中未提及在线演示。复现材料：论文提供了充分的复现信息，包括：数据集（LibriSpeech）、评估指标（FAD, KLD, WER, MMPMR/FMMPMR）及其计算方式、使用的基线模型（ViM, Vevo, MorphFader）、硬件环境（RTX 5000 Ada GPU）以及详细的消融实验设置。引用的开源项目：论文引用并依赖了多个开源项目/模型，包括：GE2E（说话人验证）、CAM++（说话人验证）、自回归语言模型（如LLaMA）、条件流匹配模型（如COSYVOICE）、HiFTNet（声码器）、ECAPA-TDNN、HuBERT、Wav2Vec2（用于编码器消融）、Resemblyzer（用于评估）、Wav2Vec2-Base-960h（用于WER计算）。 📌 核心摘要解决的问题：现有的语音身份变形（VIM）攻击方法存在严重缺陷：计算成本高、不可扩展（需要为每对说话人微调）、依赖声学相似的说话人对，且生成语音质量低。这些限制了其作为实际威胁的可行性。方法核心：提出VoxMorph，一个零样本框架。其核心是将声音解纠缠为韵律嵌入（说话风格）和音色嵌入（核心身份）。对两个说话人的这两种嵌入分别使用球面线性插值进行混合，然后将融合的嵌入输入一个三阶段合成管线：自回归语言模型生成声学令牌（由融合韵律引导），条件流匹配网络生成梅尔频谱图（由融合音色引导），最后神经声码器生成波形。与已有方法相比新在哪里：a) 零样本与可扩展性：仅需5秒音频，无需微调即可生成变形语音。b) 解纠缠表示：将风格与身份分离，可独立精细控制，避免了传统单一嵌入混合产生的声学伪影。c) 先进合成架构：利用自回归模型和流匹配模型的强大生成能力，确保了高保真度。d) 首个大规模数据集：发布包含10,000个样本的数据集用于防御研究。主要实验结果：在严格安全阈值（0.01% FAR）下，VoxMorph-v2实现了67.8%的完全匹配变形成功率（FMMPMR），比之前最优方法（ViM的2.61%）高出数十倍。音频质量（FAD）比基线提升2.6倍，可理解性错误（WER）降低73%。详细对比见下表：方法 FAD↓ (vs Real) WER↓ KLD↓ MMPMR (%) @ 0.01% FMMPMR (%) @ 0.01% MorphFader [16] 8.96 1.84 0.4332 0.0 0.0 Vevo [3] 9.14 0.54 0.1899 82.40 9.00 ViM [14] 7.52 1.06 0.3501 2.61 0.00 VoxMorph-v1 5.03 0.33 0.1404 78.60 60.60 VoxMorph-v2 4.90 0.19 0.1385 99.80 67.80 实际意义：证明了语音变形攻击已从理论走向实用，对自动说话人验证（ASV）系统构成切实、可扩展的安全威胁。同时，通过开源代码、模型和大规模数据集，为社区研究和开发下一代变形攻击检测（MAD）对策提供了关键工具和基准。主要局限性：a) 攻击属性：该技术本身是一种攻击手段，存在滥用风险。b) 评估局限：评估主要在LibriSpeech数据集上进行，且攻击的是特定ASV系统（Resemblyzer），对真实世界、多场景、多模态ASV系统的威胁程度有待进一步验证。c) 多说话人变形：当前方法聚焦于两两变形，未来可扩展至更多说话人融合。 🏗️ 模型架构 VoxMorph是一个端到端的零样本语音身份变形框架，其整体架构如图1所示，包含提取、插值、合成三个核心阶段。 ...

VoXtream: Full-Stream Text-To-Speech With Extremely Low Latency

📄 VoXtream: Full-Stream Text-To-Speech With Extremely Low Latency #语音合成 #自回归模型 #流式处理 #零样本 🔥 8.5/10 | 前25% | #语音合成 | #自回归模型 | #流式处理 #零样本学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Nikita Torgashov（KTH皇家理工学院，语音、音乐与听觉系）通讯作者：未说明作者列表：Nikita Torgashov（KTH皇家理工学院，语音、音乐与听觉系）、Gustav Eje Henter（KTH皇家理工学院，语音、音乐与听觉系）、Gabriel Skantze（KTH皇家理工学院，语音、音乐与听觉系） 💡 毒舌点评亮点：这篇论文最精妙的地方在于，它通过将文本编码器（Phoneme Transformer）设计为增量式，并限制了前瞻长度，巧妙地实现了“收到一个词就开口说”的极低延迟，同时利用单调对齐和分层预测保证了合成质量的连贯性。短板：尽管模型效率很高，但训练数据规模（9k小时）在当下这个“数据为王”的大模型时代只能算中等，这可能限制了其在超大规模、多语言或更复杂说话风格下的泛化能力上限，论文也承认了数据规模是未来工作之一。 🔗 开源详情代码：提供代码仓库链接：https://herimor.github.io/voxtream 模型权重：论文中未明确提及是否公开训练好的VoXtream模型权重。仅提到引用了开源的CSM模型和ReDimNet。数据集：使用了Emilia和HiFiTTS-2数据集，这两个都是公开数据集。但论文中未提供其预处理后的具体获取方式。 Demo：提供在线演示链接：https://herimor.github.io/voxtream 复现材料：论文给出了模型架构的详细描述、主要的训练超参数（学习率、batch size、优化器、epoch数）、硬件环境（A100 GPU）。但未提供完整的训练脚本、配置文件或检查点。引用的开源项目：g2p（音素转换）、Mimi编解码器、Montreal Forced Aligner (MFA)、CSM模型、ReDimNet说话人编码器、Llama架构。总体开源情况：论文提供了核心的推理代码和演示，但训练所需的完整复现材料（如预处理数据、详细训练配置、预训练模型权重）并未完全公开。 📌 核心摘要问题：当前流式文本转语音（TTS）系统存在较高的初始延迟（从输入文本到发出第一个音素的时间），或需要复杂的多阶段流水线，影响了实时交互体验。方法核心：提出VoXtream，一个完全自回归的零样本流式TTS模型。其核心是一个三层Transformer架构：(1) 增量音素Transformer（PT）逐步编码输入文本并允许有限前瞻；(2) 时间Transformer（TT）基于音素和过去音频预测语义令牌和时长令牌；(3) 深度Transformer（DT）基于前两者生成声学令牌。关键设计是基于“停留/切换”标志的单调音素对齐预测。创新点：与先前工作相比，VoXtream首次实现了从接收到第一个词就开始生成语音的增量处理模式，无需等待整个句子或固定数量的未来词。它将文本编码、时序预测和声学生成解耦到三个专用模块中，平衡了延迟与质量。实验结果：在公开流式TTS模型中达到了最低的首次分组延迟（FPL）：102ms（使用torch.compile加速后）。在9k小时数据上训练，其质量（WER, SPK-SIM, UTMOS）可与甚至超越许多使用更大规模数据训练的非流式和流式基线模型。在主观MUSHRA评测中，其流式版本的自然度与部分非流式模型相当。在长文本流式场景下，其自然度显著优于CosyVoice2。实际意义：为需要极低延迟响应的实时语音应用（如语音助手、同步翻译、对话AI）提供了一个高效且高质量的解决方案，推动了流式语音合成技术的实用化。主要局限性：训练数据规模（9k小时）中等；在零样本说话人相似度上，仍低于使用更大规模数据和非自回归解码器（如流匹配）的顶级模型（如CosyVoice2）；长文本流式合成的稳定性有待进一步验证。 🏗️ 模型架构 VoXtream的架构（见图1）旨在实现从文本流到音频流的端到端、低延迟转换。它由三个核心Transformer模块组成，数据流如下： ...

VT-Heads: Voice Cloning and Talking Head Generation from Text Based on V-DiT

📄 VT-Heads: Voice Cloning and Talking Head Generation from Text Based on V-DiT #语音克隆 #视频生成 #多模态模型 #扩散模型 ✅ 6.5/10 | 前50% | #视频生成 | #扩散模型 | #语音克隆 #多模态模型学术质量 5.5/7 | 选题价值 0.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Yali Cai（国防科技大学计算机学院）通讯作者：Peng Qiao, Dongsheng Li（国防科技大学计算机学院，并行与分布式计算国家重点实验室）作者列表：Yali Cai, Peng Qiao, Dongsheng Li（国防科技大学计算机学院，并行与分布式计算国家重点实验室） 💡 毒舌点评亮点：论文将语音克隆、多模态融合和视频扩散模型（V-DiT）整合成一个端到端框架，并创新性地为T2S模块引入帧级时间锚点以改善音视频同步，整体技术路线清晰。短板：T2S模块中“动态节奏控制”的具体机制（公式f(S, Θ)）描述过于模糊，核心创新点之一缺乏技术细节支撑；实验部分的对比方法（如表3）更新不够及时，且部分指标（如多样性Diver）在所有方法中几乎无差异，难以证明其优越性。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了公开数据集HDTF[16]和40个YouTube视频。未说明YouTube视频的具体来源或获取方式。 Demo：未提及。复现材料：给出了部分训练超参数（优化器、学习率、EMA衰减率、T2S模块的batch size和epoch数）和数据集信息。未提供模型架构图的详细尺寸、损失函数、完整的数据预处理流程等。论文中引用的开源项目：引用了FastSpeech 2 [13]、FREEVC [22]、VITS2 [23]等作为对比或基础。论文中未提及明确的开源计划。 📌 核心摘要这篇论文旨在解决文本驱动会说话头部生成（THG）中存在的唇部同步不准确和面部表情多样性有限的问题。方法核心是提出一个多模态融合框架VT-Heads，它包含三个关键部分：1）一个带有帧级时间锚点和动态节奏控制的T2S模块，用于生成与视频帧节奏同步的语音；2）一个基于注意力的多模态融合模块，用于细粒度融合文本和语音特征；3）一个以条件V-DiT为骨干的扩散模型，将视频生成建模为时序迭代去噪过程。与现有两阶段方法（先T2S再驱动视频）不同，VT-Heads通过多模态融合增强了文本语义与视觉生成的关联。实验表明，在HDTF数据集和YouTube视频上，VT-Heads在图像质量（FID↓10.12）、唇形同步（Sync↑5.99/6.21）等指标上优于部分基线。其实际意义在于为文本驱动的数字人内容生成提供了一种更同步、更自然的方案。主要局限性在于T2S模块的技术细节不够透明，且与最新SOTA方法的对比有待加强。 ...

WAV2LEV: Predicting Levenshtein Edit Operation Sequences For Fine-Grained Estimation of Automatic Speech Recognition Error

📄 WAV2LEV: Predicting Levenshtein Edit Operation Sequences For Fine-Grained Estimation of Automatic Speech Recognition Error #语音识别 #模型评估 #数据增强 #数据集 #语音大模型 ✅ 7.5/10 | 前25% | #语音识别 | #数据增强 | #模型评估 #数据集学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Harvey Donnelly（多伦多大学计算机科学系 & 爱丁堡大学信息学院）通讯作者：Harvey Donnelly（对应作者标识为†）作者列表：Harvey Donnelly（多伦多大学计算机科学系 & 爱丁堡大学信息学院）、Ken Shi（多伦多大学计算机科学系）、Gerald Penn（多伦多大学计算机科学系） 💡 毒舌点评亮点在于其构建Mini-CNoiSY数据集的方法颇具匠心——通过YouTube文件名搜索来获取近乎纯净的自然背景噪声，并人工合成带噪语音以确保标签质量，这为ASR错误评估领域提供了一个可靠且多样化的测试台。短板是其核心模型WAV2LEV本质上是一个基于强大预训练模型（Whisper）的特定任务适配头，创新更多体现在任务范式的转变（从预测标量WER到预测操作序列）而非模型架构本身，导致性能相较于直接预测WER的“WHISP-MLP”基线并无优势。 🔗 开源详情代码：论文提供了代码仓库链接：https://github.com/HarveyRDonnelly/WAV2LEV 模型权重：论文中未提及是否公开预训练的WAV2LEV模型权重。数据集：论文提供了Mini-CNoiSY数据集的获取链接：https://github.com/HarveyRDonnelly/MiniCNoiSY Demo：论文中未提及在线演示。复现材料：论文中提供了详细的模型架构、训练超参数（优化器、学习率、损失函数等）、基线模型设置等复现信息。论文中引用的开源项目： Whisper large-v3 [6] AdamW优化器 [7] HuBERT large [14] (用于Fe-WER基线) XLM-RoBERTa large [15] (用于Fe-WER基线) YODAS2语料库 [10] (音频来源) Pyannote.audio [13] (用于语音活动检测) 用于噪声合成的相关挑战赛工具/数据 [11, 12] 📌 核心摘要要解决什么问题：在缺乏真实文本（ground-truth）的情况下，评估自动语音识别（ASR）生成文本的质量。现有方法主要直接预测整个片段的词错误率（WER），但忽略了token级别的错误细节。方法核心是什么：提出WAV2LEV模型，其核心思想是预测将ASR假设文本转化为真实文本所需的Levenshtein编辑操作序列（匹配、替换、删除、插入），从而能从中计算出WER并获得细粒度的错误定位。与已有方法相比新在哪里：范式创新：将WER估计任务从“回归一个标量”转变为“序列到序列预测”（预测编辑操作序列）。数据集贡献：构建了Mini-CNoiSY噪声语音语料库，通过可控的人工加噪确保了ground-truth标签的可靠性，并涵盖了多样的噪声类型。主要实验结果如何：WAV2LEV在Mini-CNoiSY测试集上进行WER估计的RMSE为0.1488，皮尔逊相关系数（PCC）为89.71%，性能与重新实现的直接WER估计器WHISP-MLP（RMSE 0.1376， PCC 91.01%）接近，且显著优于文献中复现的Fe-WER模型（RMSE 0.2333， PCC 82.20%）。对于预测编辑序列本身，其token错误率（TER）为0.2972。分析表明，模型对真实文本长度的预测比对编辑序列长度的预测更准确，暗示其能较好地理解对齐关系。实际意义是什么：能够为ASR转录提供更细粒度的置信度信息，有助于在语音理解（SLU）等下游任务中抑制错误传播，或用于更精确地筛选高质量ASR结果。主要局限性是什么：引入更复杂的序列预测目标并未在WER估计准确性上超越相对简单的直接预测方法（WHISP-MLP），其核心优势（细粒度诊断）目前主要通过新提出的TER指标评估，缺乏与既有工作的直接对比。TER指标本身的局限性也被作者指出。 🏗️ 模型架构 WAV2LEV的模型架构是一个基于Whisper大模型的序列到序列系统，其流程如下： ...

Wave-Trainer-Fit: Neural Vocoder With Trainable Prior And Fixed-Point Iteration Towards High-Quality Speech Generation From SSL Features

📄 Wave-Trainer-Fit: Neural Vocoder With Trainable Prior And Fixed-Point Iteration Towards High-Quality Speech Generation From SSL Features #语音合成 #生成模型 #自监督学习 #扩散模型 #鲁棒性 ✅ 7.0/10 | 前25% | #语音合成 | #生成模型 | #自监督学习 #扩散模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Hien Ohnaka（Nara Institute of Science and Technology）通讯作者：未说明作者列表： Hien Ohnaka（Nara Institute of Science and Technology） Yuma Shirahata（LY Corporation, Tokyo, Japan） Masaya Kawamura（LY Corporation, Tokyo, Japan） 💡 毒舌点评亮点：该工作敏锐地抓住了将基于梅尔谱设计的声码器（WaveFit）迁移到SSL特征时遇到的两个核心痛点（初始噪声和增益调整），并提出了优雅的解决方案。在说话人相似度指标（S-MOS）上取得了显著且一致的提升，尤其是使用Whisper特征时，这证明了方法的有效性。短板：方法在自然度（N-MOS）上的表现并不稳定，甚至在使用某些SSL特征时被基线反超，这暗示了“可训练先验”可能引入了新的不稳定性或对超参数过于敏感，论文对此的讨论和验证尚不充分。 ...

Wavenext 2: Convnext-Based Fast Neural Vocoders with Residual Denoising and Sub-Modeling for Gan And Diffusion Models

📄 Wavenext 2: Convnext-Based Fast Neural Vocoders with Residual Denoising and Sub-Modeling for Gan And Diffusion Models #语音合成 #卷积神经网络 #扩散模型 #对抗生成网络 🔥 9.0/10 | 前25% | #语音合成 | #卷积神经网络 | #扩散模型 #对抗生成网络学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Wangzixi Zhou（奈良先端科学技术大学院大学 & 日本信息通信研究机构）通讯作者：未说明作者列表：Wangzixi Zhou（奈良先端科学技术大学院大学 & 日本信息通信研究机构）、Takuma Okamoto（日本信息通信研究机构）、Yamato Ohtani（日本信息通信研究机构）、Sakriani Sakti（奈良先端科学技术大学院大学）、Hisashi Kawai（日本信息通信研究机构） 💡 毒舌点评该论文的最大亮点在于其“统一框架”的野心和务实的工程优化，用一个基于ConvNeXt的模块巧妙兼容了GAN与扩散两条技术路线，特别是将扩散模型声码器的训练时间压缩到32小时，对资源敏感场景极具吸引力。然而，其创新更多是架构整合与效率优化，而非底层原理突破，且随着迭代次数增加，模型大小线性膨胀（从15M到75M）的短板在资源严格受限的边缘设备上可能会抵消其部分速度优势。 🔗 开源详情代码：论文中提供了演示页面链接 (https://37integer.github.io/WAVENEXT-2)，但未提及WaveNeXt 2代码仓库链接。论文中引用了多个开源项目作为基线实现。模型权重：未提及是否公开预训练模型权重。数据集：使用的是公开的LibriTTS-R数据集。 Demo：提供在线演示页面。复现材料：提供了部分复现信息，包括训练硬件（A100 40GB）、训练时长、关键超参数（如梅尔谱维度、跳步大小、噪声调度等），但未提供完整的训练脚本、配置文件或检查点。论文中引用的开源项目：ParallelWaveGAN（用于HiFi-GAN实现）、wavefit-pytorch、FastDiff官方实现、Vocos官方实现、BDDM（用于噪声调度预测）。 📌 核心摘要要解决什么问题：现有神经声码器大多局限于GAN或扩散模型中的一种，难以统一；且原始的ConvNeXt声码器（如WaveNeXt）在多说话人场景下性能有限。方法核心是什么：提出WaveNeXt 2，一个统一的ConvNeXt生成器框架，其核心是残差去噪子模型设计。生成器预测的是每一步的噪声分量，而非直接预测波形，从而使同一架构可适配GAN（采用固定点��代）和扩散模型（采用分阶段子模型训练）两种训练范式。与已有方法相比新在哪里：首次将ConvNeXt架构同时应用于GAN和扩散声码器；通过子模型训练策略改进了原始WaveNeXt在多说话人上的不足；简化了WaveFit的训练流程（移除了不必要的初始噪声和增益调整）。主要实验结果如何：在多说话人数据集LibriTTS-R上进行验证，结果如下表所示。GAN-WaveNeXt 2在推理速度上显著优于WaveFit和HiFi-GAN，同时保持质量相当；Diff-WaveNeXt 2在训练效率（仅需32小时）和CPU推理速度上远超FastDiff，并取得竞争性的质量。模型 RTF (CPU) ↓ UTMOS ↑ NISQA ↑ 训练时间 (GPU) GAN-WaveNeXt 2 (4 iter) 0.20 4.04 ± 0.09 4.01 ± 0.20 410 小时 WaveFit (5 iter) 5.36 4.04 ± 0.09 4.02 ± 0.19 410 小时 HiFi-GAN V1 0.80 4.05 ± 0.11 3.99 ± 0.22 270 小时 Diff-WaveNeXt 2 0.16 3.87 ± 0.05 3.81 ± 0.19 32 小时 FastDiff w/ sub-modeling 0.80 3.78 ± 0.06 3.67 ± 0.20 96 小时实际意义是什么：为声码器选择提供了灵活方案：GAN-WaveNeXt 2适用于对合成质量要求极高的场景，而Diff-WaveNeXt 2则以其极快的训练速度和优秀的CPU推理能力，非常适合资源受限或需要快速迭代的应用。主要局限性是什么：采用子模型策略后，模型总体参数量随子模型数量线性增长（如Diff-WaveNeXt 2达57.68M），增加了存储和部分计算负担。论文中未明确讨论其在流式处理中的应用。 🏗️ 模型架构 WaveNeXt 2 的整体架构旨在成为一个兼容GAN与扩散模型的统一生成器。 ...