DepthTalk: Few-Shot Talking Head Generation with Depth-Aware 3D Gaussian Field Motion

📄 DepthTalk: Few-Shot Talking Head Generation with Depth-Aware 3D Gaussian Field Motion #说话人生成 #3D高斯溅射 #少样本学习 #音视频 ✅ 7.0/10 | 前25% | #说话人生成 | #3D高斯溅射 | #少样本学习 #音视频 学术质量 5.8/7 | 选题价值 1.2/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Shucheng Ji(澳门理工大学应用科学学院) 通讯作者:Xiaochen Yuan(澳门理工大学应用科学学院) 作者列表:Shucheng Ji(澳门理工大学应用科学学院)、Junqing Huang(澳门理工大学应用科学学院)、Yang Lian(澳门理工大学应用科学学院)、Xiaochen Yuan(澳门理工大学应用科学学院) 💡 毒舌点评 亮点在于其“深度梯度损失”设计很巧妙,通过监督深度图的梯度而非绝对值来防止尺度不一致导致的深度崩塌,这是一个对实际工程问题有深刻洞察的解决方案。短板是其整体框架建立在强大的预训练深度先验模型(Sapiens)之上,这在一定程度上限制了方法的通用性和在无此类先验场景下的可用性,且论文未提供代码,复现门槛较高。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开模型权重。 数据集:使用了HDTF和公开数据集,但未说明这些数据集是否在本工作专属发布或如何获取。 Demo:未提及在线演示。 复现材料:提供了训练时长(预训练2小时)、优化器、学习率、损失权重等关键超参数,但缺乏batch size、数据预处理细节等,复现信息不够充分。 论文中引用的开源项目:引用了InsTaG([2])、SyncTalk([10])、GeneFace([14])、MimicTalk([15])等开源工作作为基线或技术参考。 总体:论文中未提及开源计划。 📌 核心摘要 问题:基于3D高斯溅射(3DGS)的说话人生成模型在优化时存在深度歧义,导致在渲染新视角(尤其是大角度偏转)时产生模糊、暗区等视觉伪影。现有方法仅在训练阶段引入深度监督,缺乏重建时的深度感知机制。 方法核心:提出DepthTalk框架。其核心是深度感知高斯运动网络(DAGM),采用双管道架构:一个“深度感知管道”整合深度先验、表情和音频特征预测深度相关的高斯场变换;另一个“几何感知管道”专注于利用表情和音频预测面部运动变换。两者通过自适应运动融合(MF) 模块结合。此外,提出了深度梯度损失(DGL),通过Sobel算子计算并比较渲染深度图与先验深度图的梯度幅度来施加监督,避免因绝对尺度差异造成的深度崩塌。 新意:将深度感知直接嵌入到高斯场的重建(变换预测)过程中,而非仅用于训练正则化;解耦了深度对齐与面部运动建模;提出基于梯度的深度损失函数。 实验:在仅5秒视频的少样本设定下进行实验。定量结果:DepthTalk在图像质量指标(PSNR: 29.8974, LPIPS: 0.0530, SSIM: 0.9226)上优于所有对比方法(包括InsTaG),唇部运动精度(LMD: 3.0836)也达到最佳。消融研究表明,DAGM、MF和DGL三个组件共同作用才能达到最佳性能。定性结果(图3)显示,DepthTalk在生成新视角面部时,光照更真实,伪影更少。 意义:在数据受限(少样本)场景下,实现了更高质量、更几何一致的说话人头部视频合成,对数字人、虚拟现实等应用有潜在价值。 局限性:依赖外部预训练的深度先验模型(Sapiens);实验数据集(HDTF等)的规模和多样性有限;推理速度(32.66 FPS)虽实时但略低于InsTaG。 🏗️ 模型架构 论文的整体架构如图2所示。输入是音频特征、上半脸表情控制信号和头部姿态(相机位姿)。核心流程如下: ...

2026-04-29 · 更新于 2026-05-21 · 2 min · 238 words

Detecting and Attributing Synthetic Spanish Speech: The HISPASpoof Dataset

📄 Detecting and Attributing Synthetic Spanish Speech: The HISPASpoof Dataset #语音伪造检测 #数据集 #多语言 #零样本 ✅ 7.5/10 | 前25% | #语音伪造检测 | #数据集 | #多语言 #零样本 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Maria Risques(普渡大学电气与计算机工程学院,视频与图像处理实验室 VIPER) 通讯作者:Edward J. Delp(普渡大学电气与计算机工程学院,视频与图像处理实验室 VIPER) 作者列表:Maria Risques(普渡大学 VIPER 实验室)、Kratika Bhagtani(普渡大学 VIPER 实验室)、Amit Kumar Singh Yadav(普渡大学 VIPER 实验室)、Edward J. Delp(普渡大学 VIPER 实验室) 💡 毒舌点评 亮点:论文精准地切入了一个关键且被忽视的研究空白——西班牙语语音伪造检测,通过构建首个大规模、多口音的合成/真实语音数据集 HISPASpoof,为后续研究提供了不可或缺的基石,填补了领域的重大缺口。短板:论文的核心贡献是“数据集+评估”,并未提出新的检测或归因模型或算法,其学术创新主要体现在数据工程和实验验证层面,而非方法论的突破。 🔗 开源详情 代码:提供了评估代码的GitLab仓库链接:https://gitlab.com/viper-purdue/s3d-spanish-syn-speech-det.git。论文中也提及了使用的具体方法代码库来源[47]。 模型权重:论文中未提及是否公开预训练或微调后的模型权重。 数据集:HISPASpoof数据集已公开,采用CC BY-SA 4.0许可,可通过上述GitLab仓库链接获取。 Demo:论文中未提及提供在线演示。 复现材料:提供了数据集的详细分布说明(表I)和实验设置描述(如数据划分),但未提供具体的训练超参数(学习率、优化器、batch size等)、硬件信息和详细的配置文件。 论文中引用的开源项目:使用了多个开源的TTS系统生成数据(XTTS-v1/v2, YourTTS, FishSpeech, F5-Spanish),并评估了多个开源检测器实现(LFCC-GMM, MFCC-ResNet, Spec-ResNet, PaSST, Wav2Vec2-AASIST)。 总体开源情况:论文在数据集和评估代码开源方面做得较好,但完整复现所需的训练细节和模型权重未提供。 📌 核心摘要 问题:当前先进的语音合成(TTS)和语音克隆技术可生成高度逼真的合成语音,带来严重的欺诈和滥用风险。尽管针对英语和中文已有成熟的检测器和数据集,但作为全球6亿人使用的语言,西班牙语在语音取证领域却严重缺乏研究和评估基准。 方法核心:本文提出了 HISPASpoof 数据集,这是首个大规模西班牙语合成语音检测与归因数据集。数据集包含来自6个公开语料库(涵盖6种西班牙语口音)的真实语音,以及由6种前沿的零样本TTS系统生成的合成语音。论文利用该数据集,系统评估了5种代表性的检测方法在跨语言(英语→西班牙语)和特定语言(西班牙语)训练下的性能。 新意:这是首个专门针对西班牙语的、大规模、多口音、多合成器的语音伪造检测与归因数据集。与以往多语言数据集(如ODSS)相比,HISPASpoof在西班牙语音频数量(超过50万条)、口音多样性(6种)和合成系统多样性(6种)上均有显著提升。 主要实验结果: 检测性能:实验证明,在英语数据集(ASVspoof2019)上训练的检测器直接应用于西班牙语时性能急剧下降(EER普遍高于30%,最差达49.57%)。在HISPASpoof上训练后,检测性能大幅提升。具体关键结果见下表: 训练集 测试集 LFCC+GMM EER(%) MFCC-ResNet EER(%) Spec-ResNet EER(%) PaSST EER(%) Wav2Vec2-AASIST EER(%) ASVspoof2019 (英语) UHIS (西班牙语) 42.71 41.72 43.23 32.14 19.92 HISPASpoof (西班牙语) UHIS (西班牙语) 1.57 5.17 0.72 4.10 10.27 HISPASpoof (西班牙语) UODSSSpa (跨数据集) 0.85 48.72 17.09 17.95 43.59 归因性能:在归因(识别合成器)任务中,闭集设置下各方法均接近完美(PaSST准确率100%)。开放集(需识别未见过的合成器)更具挑战性,PaSST表现最佳(准确率78.32%),Spec-ResNet次之(69.73%)。 实际意义:HISPASpoof 为西班牙语语音安全研究提供了关键的评测基准,揭示了现有英语检测器在西班牙语上的失效,并验证了使用领域内数据训练的有效性,推动了语音取证研究的包容性发展。 主要局限性:论文的核心是提出数据集并进行基线评估,没有提出新的检测或归因算法。开源计划中未提及模型权重的公开。 🏗️ 模型架构 本文未提出新的检测或归因模型架构。其核心工作是构建数据集并评估五种已有的代表性方法,这些方法可分为三类: ...

2026-04-29 · 更新于 2026-05-21 · 2 min · 325 words

DGSDNet: Dual-Graph Spectral Diffusion Network for Incomplete Multimodal Emotion Recognition in Conversations

📄 DGSDNet: Dual-Graph Spectral Diffusion Network for Incomplete Multimodal Emotion Recognition in Conversations #语音情感识别 #扩散模型 #图神经网络 #多模态模型 #缺失模态补全 🔥 8.0/10 | 前25% | #语音情感识别 | #扩散模型 | #图神经网络 #多模态模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Mingjian Yang(电子科技大学,智能协同计算实验室) 通讯作者:Wen Yin(电子科技大学,智能协同计算实验室) 作者列表:Mingjian Yang(电子科技大学,智能协同计算实验室)、Yong Wang(电子科技大学,智能协同计算实验室)、Peng Liu(电子科技大学,智能协同计算实验室)、Wen Yin†(电子科技大学,智能协同计算实验室) 💡 毒舌点评 亮点: 精准抓住了现有方法在“保持对话图谱结构”与“对齐特征分布”之间的核心矛盾,并通过将扩散过程严格约束在谱空间(特征值扩散)来优雅地同时解决这两个问题,设计思路清晰且有理论依据。 短板: 门控谱分类(GSC)模块中的熵加权机制更像是一种启发式的不确定性融合,对于“说话人连续性”和“情感方差”等关键对话动态的显式建模略显不足,可能限制了其在更复杂交互场景下的性能天花板。 🔗 开源详情 代码: 论文提供了开源代码仓库链接:https://github.com/Yyyy-aizhien/DGSDNet。 模型权重: 论文中未提及是否公开预训练模型权重。 数据集: 论文使用的IEMOCAP和CMU-MOSI为公开数据集,但论文中未提供获取或预处理脚本的具体说明。 Demo: 论文中未提及提供在线演示。 复现材料: 论文提供了基础实现细节(优化器、学习率、Dropout率等),但缺少训练步数、批量大小、特征提取模型版本、具体GPU环境等关键复现信息。 论文中引用的开源项目: 论文中未明确列出所依赖的特定开源工具或模型库(如特征提取器)。 📌 核心摘要 要解决的问题: 现实对话场景中,模态(文本、音频、视觉)缺失导致多模态情感识别性能严重下降。现有基于图或扩散的方法存在“语义不连续”(破坏图结构或改变特征分布)和“静态融合”(固定权重无法适应动态变化)两大挑战。 方法核心: 提出DGSDNet框架,包含双谱扩散(DSD)模块和门控谱分类(GSC)模块。DSD将对话图谱(说话人图和时序图)分解为拓扑不变的特征向量和可扩散的特征值,并在特征值空间施加扩散过程以恢复缺失模态,从而同时保持图结构并生成分布对齐的特征。GSC模块基于节点特征的熵进行自适应门控,动态融合双图谱信息。 与已有方法相比新在哪里: 区别于直接在特征空间或邻接矩阵上扩散的方法,本工作首次将扩散过程严格限制在图谱的谱空间(对角特征值矩阵)上进行,理论上避免了扩散过程破坏图的局部拓扑。同时,提出了基于重建不确定性的动态门控融合机制,替代了传统的静态加权。 主要实验结果: 在IEMOCAP和CMU-MOSI两个基准数据集上,当模态缺失率从0.0到0.7变化时,DGSDNet的平均加权F1分数(WAF1)分别达到77.60% 和 79.7%,超过了所有对比的SOTA方法(如GCNet, SDR-GNN, DiCMoR)。消融实验证实了说话人图、时序图、双谱扩散和门控分类模块的有效性,移除DSD模块性能下降最显著。 实际意义: 提升了多模态对话系统在传感器故障、隐私限制等真实复杂环境下的情感理解鲁棒性,对智能客服、人机交互、心理健康监测等应用有潜在价值。 主要局限性: 1) 未处理异步多模态序列和更开放域的对话场景。2) 门控融合模块对对话动态的建模相对简单。3) 仅在两种标准数据集上验证,泛化性有待进一步考察。 🏗️ 模型架构 DGSDNet的架构(如图2所示)分为三个主要阶段: ...

2026-04-29 · 更新于 2026-05-21 · 3 min · 438 words

Diff-vs: Efficient Audio-Aware Diffusion U-Net for Vocals Separation

📄 Diff-vs: Efficient Audio-Aware Diffusion U-Net for Vocals Separation #语音分离 #扩散模型 #U-Net #数据增强 #音频生成 ✅ 7.5/10 | 前25% | #语音分离 | #扩散模型 | #U-Net #数据增强 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yun-Ning (Amy) Hung (Moises, USA) 通讯作者:未说明 作者列表:Yun-Ning (Amy) Hung (Moises, USA), Richard Vogl (Moises, USA), Filip Korzeniowski (Moises, USA), Igor Pereira (Moises, USA) 💡 毒舌点评 亮点:论文巧妙地将针对图像生成优化的EDM框架“移植”到音频分离,并通过带分离和双路径RoFormer等音乐领域知识进行“魔改”,成功将扩散模型的推理步数压至个位数,在生成式方法中实现了SOTA性能。短板:虽然在自家构建的生成式对比阵营中鹤立鸡群,但一旦面对经过大规模数据洗礼的判别式“怪兽”(如BS-RoFormer),在客观指标上依然力有不逮,生成式范式在音乐分离上的“逆天改命”之路仍需努力。 🔗 开源详情 代码:论文中提及代码仓库链接为 https://github.com/NVlabs/edm/tree/main(此为EDM框架的开源实现,非本文专用代码)。同时提供了本文模型的具体实现链接:https://github.com/amymoises/diffvs.github.io(注:此链接指向项目主页,具体代码需查看)。因此,论文中提及了代码链接。 模型权重:论文提供了音频示例链接 https://amymoises.github.io/diffvs.github.io/,暗示可能提供了预训练模型或演示。根据上下文,提及了模型权重。 数据集:使用了公开数据集MUSDB18-HQ和MoisesDB。论文中提及了数据集及其获取方式(公开基准)。 Demo:提供了音频样本演示链接 https://amymoises.github.io/diffvs.github.io/,是。 复现材料:论文详细说明了训练超参数(学习率、优化器、步数、batch size等)、模型架构细节(通道数、层数、模块配置)、数据增强方法、STFT参数、推理参数(σ范围,ρ,步数)以及训练硬件(单卡H200,时长约1周)。复现信息较为充分。 论文中引用的开源项目:EDM框架 (https://github.com/NVlabs/edm)。 整体开源情况:论文提供了项目主页、模型代码实现链接(指向GitHub)以及演示音频,模型和数据均为公开可用。训练细节描述详尽,具备较高的可复现性。 📌 核心摘要 问题:当前基于生成式扩散模型的音乐源分离方法,在标准客观指标(如SDR)上通常落后于判别式方法,且推理步数多、模型庞大,限制了其实用性。 方法:本文提出Diff-VS,一个基于Elucidated Diffusion Model (EDM)框架的高效音频感知扩散U-Net模型,专门用于人声分离。模型输入为经过特殊归一化的复数频谱图,并采用带分离和双路径RoFormer块改进的U-Net架构。 创新:首次将EDM框架应用于人声分离,实现了少于10步的高效推理;提出针对音乐信号特性的架构改进(如用双路径RoFormer替换像素自注意力);实验证明生成式方法能达到与判别式方法竞争力的客观指标和更优的感知质量。 实验结果:在MUSDB18-HQ数据集上,仅需7步推理的Diff-VS达到了10.12 dB的cSDR,超越了所有已对比的生成式模型(最高为SGMSE的8.63 dB),并接近SCNet-L (10.86 dB) 等顶尖判别式模型。在基于MERT嵌入的感知质量评估中,Diff-VS (MSE=0.083) 优于SCNet-L (0.096) 和SGMSE (0.089)。 实际意义:该工作证明了经过精心设计的生成式模型,可以在保持分离质量(特别是感知质量)的同时,大幅提升推理效率,为生成式方法在音频分离领域的实际应用提供了可能。 主要局限性:在使用更多数据(MoisesDB)训练的最强判别式模型(如BS-RoFormer-12L)面前,客观性能仍有明显差距;模型目前仅针对人声分离,未验证其在多乐器分离任务上的能力;缺乏对生成多样性的讨论和评估。 🏗️ 模型架构 Diff-VS的整体架构基于EDM框架下的改进型DDPM++ U-Net。 ...

2026-04-29 · 更新于 2026-05-21 · 2 min · 380 words

Diffemotalk: Audio-Driven Facial Animation with Fine-Grained Emotion Control via Diffusion Models

📄 Diffemotalk: Audio-Driven Facial Animation with Fine-Grained Emotion Control via Diffusion Models #语音情感识别 #扩散模型 #对比学习 #跨模态 ✅ 7.5/10 | 前25% | #语音情感识别 | #扩散模型 | #对比学习 #跨模态 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Kexin Gao (中国海洋大学计算机科学与技术学院) 通讯作者:Xinjie Wang (中国海洋大学计算机科学与技术学院, 邮箱:wangxinjie@ouc.edu.cn) 作者列表:Kexin Gao (中国海洋大学计算机科学与技术学院), Yuyu Zhu (中国海洋大学计算机科学与技术学院), Jian Liu (中国海洋大学计算机科学与技术学院), Xinjie Wang* (中国海洋大学计算机科学与技术学院), Xiaogang Jin (浙江大学CAD&CG国家重点实验室), Jie Nie (中国海洋大学计算机科学与技术学院) 💡 毒舌点评 亮点:在情感表征上,摒弃了传统的离散标签,转而使用连续的VA值和文本描述进行层次化对比学习,这一设计巧妙地缓解了细粒度情感标注数据稀缺的问题。短板:尽管号称“细粒度情感控制”,但实验主要基于离散情绪类别的MEAD/RAVDESS数据集,对情感粒度的提升主要体现在强度和类间区分上,对更微妙、混合情感的生成能力验证不足,跨数据集的泛化能力也仅在一个小型数据集上得到初步验证。 🔗 开源详情 代码:论文中未提及代码链接或开源计划。 模型权重:未提及。 数据集:使用了公开数据集MEAD、RAVDESS和TA-MEAD。论文中未说明其提取的AU和FLAME数据是否公开。 Demo:未提及。 复现材料:论文提供了部分训练超参数(学习率、批大小、训练轮数、损失权重、GPU型号等),但未提供完整的训练脚本、配置文件或预训练检查点。 引用的开源项目/模型:HuBERT(用于特征提取)、CLIP(用于文本编码)、FLAME(面部模型)、SpeechEmotionAVLearning(用于提取VA值)。 📌 核心摘要 要解决的问题:现有音频驱动的3D说话头部生成技术虽然在唇形同步方面表现良好,但在生成生动、可控且情感细腻的面部动画方面存在瓶颈,具体表现为情感解耦粒度粗糙、生成稳定性差以及难以建模细微的情感差异。 方法核心:提出DiffEmoTalk框架,其核心是三个专门编码器:唇动编码器、韵律编码器和情感感知语音编码器(EASE),用于从语音中解耦不同粒度的特征。EASE通过层次化多级对比学习(HMLC),利用连续的效价-唤醒值(VA)和文本描述进行优化。解耦后的特征通过一个“情感引导的多特征AU预测器”融合,并以面部动作单元(AU)作为中间监督,最终输入一个基于Transformer的扩散模型解码器生成FLAME参数动画。 创新点:与已有方法相比,新在:(1) 提出EASE模块,通过对比学习从语音中提取更丰富、更具区分度的情感表征;(2) 引入AU作为中间监督和桥接模态的桥梁,改善了跨模态融合的稳定性与可解释性;(3) 将扩散模型与细粒度情感解耦相结合,实现了在情感准确性与生成多样性之间的更好平衡。 主要实验结果:在MEAD和RAVDESS数据集上,DiffEmoTalk在情感准确度(MEE)和情感强度误差(EIE)上取得了最佳成绩(例如,在MEAD上,MEE为0.00936,低于MEDTalk的0.01215)。唇音同步(MLE)略逊于MEDTalk(0.00695 vs 0.00657),但优于EmoTalk和DiffPoseTalk。在用户研究中,其在情感准确性和生动性评分上也领先。关键消融实验证明了三编码器解耦、AU监督和EASE模块的必要性。 实际意义:该工作推动了更具表现力和可控性的数字人生成技术,在虚拟助手、数字人交互、远程协作和内容创作等领域有应用潜力。 主要局限性:情感控制目前高度依赖语音内容,未能整合文本、视觉等上下文线索来处理“相同话语不同情感”的情况。此外,模型在跨数据集泛化能力上的验证较为有限。 🏗️ 模型架构 DiffEmoTalk的整体框架(见图1)是一个多阶段的生成系统,目标是将输入语音转换为3D面部动画(FLAME参数)。其架构可分为三个主要阶段:特征解耦与提取、AU预测与融合、以及扩散模型生成。 ...

2026-04-29 · 更新于 2026-05-21 · 2 min · 317 words

Differentiable Grouped Feedback Delay Networks for Learning Direction and Position-Dependent Late Reverberation

📄 Differentiable Grouped Feedback Delay Networks for Learning Direction and Position-Dependent Late Reverberation #空间音频 #可微分渲染 #深度学习 #信号处理 #实时处理 ✅ 7.5/10 | 前25% | #空间音频 | #可微分渲染 | #深度学习 #信号处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Orchisama Das(Kings College London, Dept. of Engineering, United Kingdom) 通讯作者:未说明(论文未明确指定) 作者列表: Orchisama Das(Kings College London, Dept. of Engineering, United Kingdom) Sebastian J. Schlecht(Friedrich-Alexander Universit¨at Erlangen-N¨urnberg, Multimedia Comms. and Signal Process., Germany) Gloria Dal Santo(Aalto University, Acoustics Lab, Dept. of Info. and Comms. Engineering., Finland) Zoran Cvetkovi´c(Kings College London, Dept. of Engineering, United Kingdom) 💡 毒舌点评 亮点在于巧妙地将传统可变声场渲染模型(FDN)与神经网络结合,在保持结构先验的同时实现了端到端学习和高效的多位置渲染,计算复杂度优势明显。短板则是其精度略逊于最强基线(NAF),且在房间过渡区域误差有可见增加,表明其建模复杂空间动态的能力仍有提升空间。 ...

2026-04-29 · 更新于 2026-05-21 · 2 min · 340 words

Differentiable Pulsetable Synthesis for Wind Instrument Modeling

📄 Differentiable Pulsetable Synthesis for Wind Instrument Modeling #音乐生成 #信号处理 #可微分DSP #轻量模型 #风琴乐器 ✅ 7.5/10 | 前25% | #音乐生成 | #可微分DSP | #信号处理 #轻量模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Simon Schwär(International Audio Laboratories Erlangen, Germany) 通讯作者:未说明 作者列表:Simon Schwär(International Audio Laboratories Erlangen, Germany)、Christian Dittmar(Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany)、Stefan Balke(International Audio Laboratories Erlangen, Germany)、Meinard Müller(International Audio Laboratories Erlangen, Germany) 💡 毒舌点评 亮点:论文巧妙地将与风琴乐器物理发声机制高度吻合的脉冲表(Pulsetable)合成方法引入可微分框架,不仅免去了繁琐的手工脉冲提取,还通过仅60k参数的轻量模型和几分钟录音实现了高效训练,物理可解释性强。 短板:实验主要依赖客观的谐波幅度差异指标,缺少正式的主观听感评估(如MOS测试),说服力略显不足;模型的泛化能力(如对复杂演奏技巧的建模)和更广泛乐器类型的适用性尚未得到充分验证。 ...

2026-04-29 · 更新于 2026-05-21 · 2 min · 297 words

Diffusion Timbre Transfer via Mutual Information Guided Inpainting

📄 Diffusion Timbre Transfer via Mutual Information Guided Inpainting #音乐生成 #音频生成 #扩散模型 #零样本 ✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #音频生成 #零样本 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Ching Ho Lee(Queen Mary University of London) 通讯作者:未说明 作者列表:Ching Ho Lee(Queen Mary University of London)、Javier Nistal(Sony Computer Science Laboratories, Paris, France)、Stefan Lattner(Sony Computer Science Laboratories, Paris, France)、Marco Pasini(Queen Mary University of London;Sony Computer Science Laboratories, Paris, France)、George Fazekas(Queen Mary University of London) 💡 毒舌点评 亮点:该方法巧妙地将“免训练”和“推理时控制”结合,通过互信息分析“外科手术式”地定位音色通道,再用扩散模型的采样特性来“手术”,在保持旋律节奏和改变音色之间找到了一个精巧的平衡点。短板:这种基于统计的通道解缠在实际复杂音频上可能不够完美(论文中k值仍需调优),且极度依赖底层编码器M2L2和扩散模型DaR的特定性质,方法的普适性和鲁棒性有待更广泛验证。 ...

2026-04-29 · 更新于 2026-05-21 · 2 min · 284 words

Direct Preference Optimization For Speech Autoregressive Diffusion Models

📄 Direct Preference Optimization For Speech Autoregressive Diffusion Models #语音合成 #扩散模型 #偏好优化 #零样本 ✅ 7.5/10 | 前25% | #语音合成 | #扩散模型 | #偏好优化 #零样本 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 中 👥 作者与机构 第一作者:Zhijun Liu(香港中文大学(深圳)SDS, SRIBD, SAI;字节跳动Seed) 通讯作者:Shuai Wang(南京大学智能科学与技术学院) 作者列表: Zhijun Liu(香港中文大学(深圳)SDS, SRIBD, SAI;字节跳动Seed) Dongya Jia(字节跳动Seed) Xiaoqiang Wang(字节跳动Seed) Chenpeng Du(字节跳动Seed) Shuai Wang(南京大学智能科学与技术学院;深圳湾区研究院) Zhuo Chen(字节跳动Seed) Haizhou Li(香港中文大学(深圳)SDS, SRIBD, SAI;深圳湾区研究院) 💡 毒舌点评 亮点在于首次成功将DPO“移植”到语音自回归扩散模型上,用实验证明了其能显著提升表达力(F0方差翻倍)和鲁棒性(CER降25%),开辟了ARDM后训练的新路径。短板则在于对训练过程中“winning/losing样本扩散损失双升”这一反常现象缺乏理论解释,且开源信息仅限音频示例,核心代码与模型未公开,影响了工作的可复现性和影响力。 🔗 开源详情 代码:论文中未提及代码链接。补充材料页面(https://zjlww.github.io/ardm-dpo/)可能包含音频示例,但未说明是否提供代码。 模型权重:未提及公开模型权重。 数据集:未提及公开偏好数据集。使用了公开的LibriTTS和DidiSpeech-2作为基础数据,但筛选后的偏好对未公开。 Demo:未提供在线演示链接。补充材料页面可能包含音频样本,但不是交互式Demo。 复现材料:论文提供了详细的训练超参数(学习率、优化器、批次大小等)和硬件信息(32张A100),复现基础模型训练可能可行。但ARDM-DPO训练所必需的、经过精心筛选的偏好数据集未公开,是复现的主要障碍。 论文中引用的开源项目:DiTAR模型(基于ARTransformer)、Whisper-large-v3(用于WER)、Paraformer-zh(用于CER)、WavLM-TDCNN(用于说话人相似度计算)、Seed-TTS-Eval2(评估工具包)。 📌 核心摘要 问题:当前基于自回归扩散模型(ARDM)的零样本TTS虽性能领先,但生成的语音常与人类偏好不对齐,例如在给定情感提示时仍可能产出单调的语音,缺乏表达力且在处理长难句时鲁棒性不足。 ...

2026-04-29 · 更新于 2026-05-21 · 2 min · 347 words

Direct Simultaneous Translation Activation for Large Audio-Language Models

📄 Direct Simultaneous Translation Activation for Large Audio-Language Models #语音翻译 #语音大模型 #数据增强 #流式处理 #多语言 ✅ 6.0/10 | 前25% | #语音翻译 | #数据增强 | #语音大模型 #流式处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Pei Zhang (Tongyi Lab, Alibaba Group;NLP2CT Lab, University of Macau) 通讯作者:Derek F. Wong (NLP2CT Lab, University of Macau,由论文中标注†判断) 作者列表:Pei Zhang (Tongyi Lab, Alibaba Group;NLP2CT Lab, University of Macau)、Yiming Wang (School of Computer Science, Shanghai Jiao Tong University)、Jialong Tang (Tongyi Lab, Alibaba Group)、Baosong Yang (Tongyi Lab, Alibaba Group)、Rui Wang (School of Computer Science, Shanghai Jiao Tong University)、Derek F. Wong (NLP2CT Lab, University of Macau)、Fei Huang (Tongyi Lab, Alibaba Group) 💡 毒舌点评 本文思路巧妙,旨在通过极少量(1%)精心设计的增强数据“激活”而非“重训”大模型的同传能力,实验上也观察到了低延迟场景下的显著收益。然而,方法的关键步骤——如何从截断语音“推测”出对应的正确翻译文本(即式4的终止条件)——依赖于预训练模型自身的概率分布,其通用性和边界情况处理论证不足,更像是一个工程技巧而非一个鲁棒的算法框架,且实验中同传评估基于固定时间chunk的假设可能与实际流式场景存在偏差。 ...

2026-04-29 · 更新于 2026-05-21 · 3 min · 465 words