Decorrelation-Enhanced Multiband Subband Adaptive Filtering for RIR Tracking in Sound Field Control

📄 Decorrelation-Enhanced Multiband Subband Adaptive Filtering for RIR Tracking in Sound Field Control #空间音频 #自适应滤波 #信号处理 #麦克风阵列 ✅ 7.0/10 | 前50% | #空间音频 | #自适应滤波 | #信号处理 #麦克风阵列 学术质量 6.0/7 | 选题价值 6.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Junqing Zhang (CIAIC and Shaanxi Provincial Key Laboratory of Artificial Intelligence, Northwestern Polytechnical University) 通讯作者:未说明 (论文未明确标注,作者列表末尾为Jacob Benesty†) 作者列表:Junqing Zhang⋆ (CIAIC and Shaanxi Provincial Key Laboratory of Artificial Intelligence, Northwestern Polytechnical University)、Jingli Xie⋆ (同上)、Dongyuan Shi⋆ (同上)、Wen Zhang⋆ (同上)、Jingdong Chen⋆ (同上)、Jacob Benesty† (INRS-EMT, University of Quebec) 💡 毒舌点评 亮点:论文将子带自适应滤波系统性地引入到声场控制的RIR跟踪环节,并结合了相位调制去相关,理论框架完整,仿真结果明确展示了相比传统时域NLMS的显著优势(~10 dB改善)。短板:应用场景(个人声区控制中的RIR跟踪)相对传统且细分,且作为一篇提出新算法的应用型论文,未提供任何开源代码或详细复现实验的设置,极大地限制了其影响力和可验证性。 ...

2026-04-29 · 更新于 2026-06-26 · 2 min · 299 words

Deep Dubbing: End-to-End Auto-Audiobook System with Text-to-Timbre and Context-Aware Instruct-TTS

📄 Deep Dubbing: End-to-End Auto-Audiobook System with Text-to-Timbre and Context-Aware Instruct-TTS #语音合成 #流匹配 #端到端 #有声书生成 ✅ 7.5/10 | 前25% | #语音合成 | #流匹配 | #端到端 #有声书生成 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Ziqi Dai(北京建筑大学智能科学与技术学院,腾讯音乐娱乐Lyra实验室)† 通讯作者:Weifeng Zhao(腾讯音乐娱乐Lyra实验室)⋆, Ruohua Zhou(北京建筑大学智能科学与技术学院)⋆ 作者列表: Ziqi Dai†(北京建筑大学智能科学与技术学院,腾讯音乐娱乐Lyra实验室) Yiting Chen†(腾讯音乐娱乐Lyra实验室) Jiacheng Xu(腾讯音乐娱乐Lyra实验室) Liufei Xie(腾讯音乐娱乐Lyra实验室) Yuchen Wang(腾讯音乐娱乐Lyra实验室) Zhenchuan Yang(腾讯音乐娱乐Lyra实验室) Bingsong Bai(北京邮电大学) Yangsheng Gao(腾讯音乐娱乐Lyra实验室) Wenjiang Zhou(腾讯音乐娱乐Lyra实验室) Weifeng Zhao⋆(腾讯音乐娱乐Lyra实验室) Ruohua Zhou⋆(北京建筑大学智能科学与技术学院) 💡 毒舌点评 亮点:该工作将“为角色从文本生成声音”和“根据上下文生成情感语音”这两个有声书制作的关键环节进行了系统性建模,并提出了Text-to-Timbre (TTT) 这一新颖任务及其流匹配解决方案。短板:其“端到端”的声明略显模糊,因为核心的上下文理解与指令生成依赖于一个外部的大语言模型,这限制了系统真正的自动化程度和独立性。 ...

2026-04-29 · 更新于 2026-06-26 · 2 min · 265 words

Deep Learning-Based Joint Optimization of Adaptive Feedback Cancellation and Residual Feedback Suppression for Hearing Aids

📄 Deep Learning-Based Joint Optimization of Adaptive Feedback Cancellation and Residual Feedback Suppression for Hearing Aids #语音增强 #信号处理 #深度学习 #实时处理 🔥 8.0/10 | 前25% | #语音增强 | #深度学习 | #信号处理 #实时处理 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Xiaofan Zhan (1,2) 通讯作者:Chengshi Zheng (1,2) 作者列表: Xiaofan Zhan (中国科学院声学研究所噪声与音频研究实验室;中国科学院大学) Brian C. J. Moore (剑桥大学心理学系剑桥听力组) Xiaodong Li (中国科学院声学研究所噪声与音频研究实验室;中国科学院大学) Chengshi Zheng (中国科学院声学研究所噪声与音频研究实验室;中国科学院大学) 💡 毒舌点评 亮点是它成功地将信号处理领域的经典思路(先线性对消,再非线性抑制)与深度学习巧妙结合,设计了两阶段框架和针对性的三步训练法,在实验上也确实做到了“1+1>2”的效果。短板在于,论文对闭环训练中两个网络如何具体协调、误差如何反向传播等“脏活累活”的细节描述略显含糊,只给出了宏观步骤,让想复现的人可能卡在调参的细节里;另外,只用了客观指标,缺乏真实的听感测试或临床数据支持,说服力打了点折扣。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用了公开的LibriSpeech和DNS Challenge数据集进行训练,测试集来自另一篇文献的公开测量数据。论文未提供自有数据集的下载链接。 Demo:未提及。 复现材料:论文提供了极其详细的训练细节、模型结构、超参数配置(见第3、4节),足以作为复现指南。 论文中引用的开源项目:引用了LibriSpeech数据集、DNS Challenge数据集,以及[21](FSB网络)和[23](重叠相加方法)的工作,但这些是作为方法或数据来源引用,而非本论文依赖的开源工具包。 开源计划:论文中未提及开源计划。 📌 核心摘要 解决的问题:助听器中固有的声反馈问题(麦克风重拾放大的声音导致啸叫和失真),严重限制了可用增益,尤其在现代小型、开放式设计中更为突出。现有基于深度学习的方法(DeepAFS和DeepAFC)各有局限:前者计算复杂且高增益效果有限,后者在反馈路径快速变化时性能下降。 方法核心:提出JointDFC,一个两阶段深度学习框架。第一阶段使用LFCNet(集成预测误差方法的深度自适应反馈取消网络)进行线性反馈对消;第二阶段使用RFSNet(带全局因果时频注意力机制的全子带递归网络)抑制残余反馈和噪声。设计了“单独预训练 -> 数据生成 -> 端到端微调”的三步训练策略以解决闭环系统训练难题。 与已有方法相比新在哪里:这是首次将深度学习框架用于整合反馈取消与残余反馈抑制的联合优化,融合了DeepAFC(侧重建模反馈路径)和DeepAFS(侧重直接信号分离)的优势。网络设计上引入了全局时频注意力以精准定位残余反馈,训练策略上专门设计了适配闭环系统的三步法。 主要实验结果:在模拟用户内(Set A)和用户间(Set B)反馈路径变化的测试集上,JointDFC在多种高增益(5-11dB)条件下全面优于两个基线(DeepPEM-AFC, DeepAFS)。例如,在Set A的11dB增益条件下,JointDFC的WB-PESQ为4.12,eSTOI为98.01%,SI-SDR为16.14 dB,显著高于DeepPEM-AFC(PESQ 3.11, eSTOI 90.87%, SI-SDR -1.85 dB)和DeepAFS(PESQ 3.53, eSTOI 93.86%, SI-SDR 11.39 dB)。消融实验表明,移除全局注意力或联合训练均会导致性能下降。 方法 参数量(M) 计算量(G/s) WB-PESQ (5/7/9/11dB) eSTOI(%) (5/7/9/11dB) SI-SDR(dB) (5/7/9/11dB) Set A DeepPEM-AFC 0.240 0.060 4.32/4.23/3.71/3.11 99.24/98.84/93.64/90.87 19.03/17.79/9.80/-1.85 DeepAFS 0.302 0.319 4.28/4.18/3.90/3.53 98.45/97.90/96.11/93.86 17.62/16.22/14.13/11.39 JointDFC (ours) 0.396 0.227 4.30/4.26/4.21/4.12 98.87/98.68/98.40/98.01 18.71/17.95/17.16/16.14 w/o Global cTFA 0.391 0.224 4.23/4.19/4.13/4.02 98.47/98.27/97.90/97.32 17.74/17.07/16.27/14.98 w/o joint training 0.396 0.227 4.17/4.13/4.09/4.09 97.80/97.72/97.58/97.51 13.98/13.28/13.03/13.10 Set B DeepPEM-AFC 0.240 0.060 4.15/4.04/3.85/3.54 98.62/98.36/97.50/96.00 16.01/14.78/11.53/6.71 DeepAFS 0.302 0.319 4.23/4.13/3.93/3.63 98.36/97.81/96.42/93.97 17.33/15.88/13.83/10.86 JointDFC (ours) 0.396 0.227 4.21/4.16/4.11/4.07 98.59/98.39/98.11/97.92 16.91/15.99/15.25/14.66 w/o Global cTFA 0.391 0.224 4.13/4.07/4.02/3.95 98.13/97.90/97.59/97.12 16.19/15.22/14.47/13.18 w/o joint training 0.396 0.227 4.12/4.07/4.01/3.95 97.68/97.50/97.21/96.92 13.96/13.16/12.28/11.67 实际意义:该方法有望显著提升助听器在复杂动态环境下的稳定工作增益,改善中重度听力损失用户的听力补偿效果,同时保持了适合实时助听器芯片部署的计算复杂度(0.227 G MACs/s)。 主要局限性:研究主要基于客观指标(PESQ, eSTOI, SI-SDR)评估,未提供主观听感测试或真实用户佩戴实验数据;模型在反馈路径剧变时的瞬态性能有待进一步探究;实际硬件部署的功耗、内存占用等未讨论。 🏗️ 模型架构 本文提出的JointDFC系统是一个两阶段的深度学习框架,整体流程如图1(b)所示。 ...

2026-04-29 · 更新于 2026-06-26 · 2 min · 366 words

Deep Spatial Clue Informed Ambisonic Encoding for Irregular Microphone Arrays

📄 Deep Spatial Clue Informed Ambisonic Encoding for Irregular Microphone Arrays #空间音频 #麦克风阵列 #RNN #UNet ✅ 7.0/10 | 前25% | #空间音频 | #麦克风阵列 | #RNN #UNet 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Chaoqun Zhuang (三星中国研究院-北京) 通讯作者:未说明 作者列表:Chaoqun Zhuang (三星中国研究院-北京),Xue Wen (三星中国研究院-北京),Lin Ma (三星中国研究院-北京),Lizhong Wang (三星中国研究院-北京),Liang Wen (三星中国研究院-北京),Jaehyun Kim (三星电子移动体验业务部),Gangyoul Kim (三星电子移动体验业务部) 💡 毒舌点评 亮点:论文提出了一个清晰且合理的范式转变——将Ambisonic编码从传统的时频域混合转移到学习到的潜在特征空间,并通过实验证明了其在性能和效率上的优势。短板:目前的实验验证局限在一阶水平面Ambisonics上,且未能提供任何开源代码、模型或数据,极大地削弱了其在学术社区和工业界的可复现性与直接影响力,使其看起来更像一篇“闭源的工业报告”。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及。 数据集:论文中描述了数据生成流程(基于真实DIR测量和Pyroomacoustics模拟),但未提及公开数据集。 Demo:未提及。 复现材料:提供了详细的网络架构描述、训练超参数(学习率、优化器、批量大小、训练轮数)、STFT设置等,但未提供完整的配置文件或检查点。 论文中引用的开源项目:依赖并提及了Pyroomacoustics用于房间混响模��。 总体而言,论文中未提及开源计划。 📌 核心摘要 问题:针对手机等设备上不规则麦克风阵列进行Ambisonic编码时,由于空间混叠和声场覆盖有限,传统方法和现有深度学习方法存在性能瓶颈。 方法:提出了一种端到端的“深度空间线索引导的Ambisonic编码器”。其核心是设计了“空间感知潜在变换(SALT)”模块,该模块首先通过双路径(空间线索编码器和频谱编码器)从输入信号中提取特征并融合,然后在一个学习到的潜在特征空间中,预测一个信号依赖的混合矩阵来完成到Ambisonic域的映射,最后解码回STFT域。 创新:与已有方法相比,新在:1)首次引入了潜在空间变换范式,摆脱了在固定STFT分辨率上操作的限制;2)显式融合了IPD/ILD等空间线索,为模型提供物理一致性指导。 实验结果:在基于真实智能手机麦克风阵列DIR测量数据构建的多源混响场景数据集上,该方法(特别是RNN(Full)变体)在空间相似性(Mdir)、频谱误差(Meq)和SI-SDR指标上全面优于最小二乘法(LS)和基线神经网络方法(UNet Base, RNN Base),同时参数量更少。关键数据见下表: 模型 单声源 Mdir(↑) / Meq(↓) / SI-SDR(↑) 多声源 Mdir(↑) / Meq(↓) / SI-SDR(↑) 多声源+混响 Mdir(↑) / Meq(↓) / SI-SDR(↑) 可训练参数 (M) FLOPS (G) LS 0.866 / 3.905 / 3.967 0.876 / 3.727 / 5.939 0.752 / 5.368 / 0.471 N/A N/A UNet(Base) 0.967 / 2.379 / 10.206 0.947 / 2.637 / 7.742 0.782 / 10.932 / 2.192 1.93M 27.678 UNet(Full) 0.742 / 2.295 / 23.075 0.938 / 1.648 / 19.521 0.795 / 8.982 / 2.557 2.15M 14.089 RNN(Base) 0.902 / 20.230 / 6.280 0.914 / 24.983 / 7.573 0.716 / 11.697 / 0.755 0.65M 36.273 RNN(Full) 0.927 / 1.709 / 31.570 0.938 / 1.467 / 21.492 0.821 / 9.260 / 2.676 0.74M 13.060 图1展示了整体框架:输入多通道麦克风信号,分别经过“空间线索编码器”(处理IPD/ILD)和“频谱编码器”(处理STFT),提取特征后融合,由SALT模块估计潜在混合矩阵并完成变换,最后通过解码器输出Ambisonic信号。 5. 实际意义:为移动设备等受尺寸和功耗限制的平台实现高质量空间音频捕获提供了可行的、高效的解决方案。 6. 主要局限性:当前实验仅验证了使用三个麦克风的二阶一阶Ambisonics(W, X, Y),未涉及更高阶或完整三维编码;此外,未提供开源实现。 ...

2026-04-29 · 更新于 2026-06-26 · 3 min · 478 words

Deepaq: A Perceptual Audio Quality Metric Based on Foundational Models and Weakly Supervised Learning

📄 Deepaq: A Perceptual Audio Quality Metric Based on Foundational Models and Weakly Supervised Learning #音频质量评估 #弱监督学习 #度量学习 #音频大模型 #LoRA微调 ✅ 7.5/10 | 前25% | #音频质量评估 | #弱监督学习 | #度量学习 #音频大模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Guanxin Jiang (International Audio Laboratories Erlangen†, Germany) 通讯作者:Andreas Brendel* (Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany) 作者列表:Guanxin Jiang (International Audio Laboratories Erlangen†, Germany)、Andreas Brendel* (Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany)、Pablo M. Delgado (Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany)、Jürgen Herre (International Audio Laboratories Erlangen†, Germany; Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany) (†注:International Audio Laboratories Erlangen是Friedrich-Alexander University Erlangen-Nürnberg (FAU)与Fraunhofer IIS的联合机构) 💡 毒舌点评 亮点:成功地将大规模音乐基础模型MERT“跨界”应用到质量评估任务,并证明了其在泛化到音源分离等未见过失真上的强大潜力,结果表明确实比ViSQOL、PEAQ等传统指标更接近人类感知。 短板:整个训练完全依赖非公开的内部音乐数据集,复现难度极高;虽然使用了弱监督标签,但核心标签仍来自ViSQOL,本质上是在“蒸馏”一个已有指标的判断,其能否真正超越“老师”在未见场景的极限存疑。 ...

2026-04-29 · 更新于 2026-06-26 · 2 min · 400 words

Denoising Of Stochastic Ray Tracing Room Impulse Responses

📄 Denoising Of Stochastic Ray Tracing Room Impulse Responses #空间音频 #信号处理 #数据集 #开源工具 #少样本 ✅ 7.5/10 | 前25% | #空间音频 | #信号处理 | #数据集 #开源工具 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Ricardo Falcón-Pérez(Aalto University, Finland; Tampere University, Finland) 通讯作者:未说明 作者列表:Ricardo Falcón-Pérez(Aalto University, Tampere University), Carl Schissler(Meta - Reality Labs Research), Andrew Francl(Meta - Reality Labs Research), Ishwarya Ananthabhotla(Meta - Reality Labs Research), Gregor Mueckl(Meta - Reality Labs Research) 💡 毒舌点评 亮点:论文最聪明的一点是避开了直接去噪复杂的RIR波形,转而利用射线追踪仿真过程本身产生的“副产品”——内部状态特征(如能量衰减曲线、路径统计直方图)作为输入,这为神经网络提供了宝贵的“仿真收敛度”先验信息,是解决该特定问题的有效设计。短板:作为一篇音频领域的论文,在提出了新的去噪方法后,却完全缺少了基于人类听音的主观评估实验(如MUSHRA或AB测试),无法直接证明其声称的“更准确”在感知上是否成立,这对于一项以提升听觉体验为目标的工作来说,说服链存在关键缺失。 ...

2026-04-29 · 更新于 2026-06-26 · 2 min · 360 words

DepthTalk: Few-Shot Talking Head Generation with Depth-Aware 3D Gaussian Field Motion

📄 DepthTalk: Few-Shot Talking Head Generation with Depth-Aware 3D Gaussian Field Motion #说话人生成 #3D高斯溅射 #少样本学习 #音视频 ✅ 7.0/10 | 前25% | #说话人生成 | #3D高斯溅射 | #少样本学习 #音视频 学术质量 5.8/7 | 选题价值 1.2/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Shucheng Ji(澳门理工大学应用科学学院) 通讯作者:Xiaochen Yuan(澳门理工大学应用科学学院) 作者列表:Shucheng Ji(澳门理工大学应用科学学院)、Junqing Huang(澳门理工大学应用科学学院)、Yang Lian(澳门理工大学应用科学学院)、Xiaochen Yuan(澳门理工大学应用科学学院) 💡 毒舌点评 亮点在于其“深度梯度损失”设计很巧妙,通过监督深度图的梯度而非绝对值来防止尺度不一致导致的深度崩塌,这是一个对实际工程问题有深刻洞察的解决方案。短板是其整体框架建立在强大的预训练深度先验模型(Sapiens)之上,这在一定程度上限制了方法的通用性和在无此类先验场景下的可用性,且论文未提供代码,复现门槛较高。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开模型权重。 数据集:使用了HDTF和公开数据集,但未说明这些数据集是否在本工作专属发布或如何获取。 Demo:未提及在线演示。 复现材料:提供了训练时长(预训练2小时)、优化器、学习率、损失权重等关键超参数,但缺乏batch size、数据预处理细节等,复现信息不够充分。 论文中引用的开源项目:引用了InsTaG([2])、SyncTalk([10])、GeneFace([14])、MimicTalk([15])等开源工作作为基线或技术参考。 总体:论文中未提及开源计划。 📌 核心摘要 问题:基于3D高斯溅射(3DGS)的说话人生成模型在优化时存在深度歧义,导致在渲染新视角(尤其是大角度偏转)时产生模糊、暗区等视觉伪影。现有方法仅在训练阶段引入深度监督,缺乏重建时的深度感知机制。 方法核心:提出DepthTalk框架。其核心是深度感知高斯运动网络(DAGM),采用双管道架构:一个“深度感知管道”整合深度先验、表情和音频特征预测深度相关的高斯场变换;另一个“几何感知管道”专注于利用表情和音频预测面部运动变换。两者通过自适应运动融合(MF) 模块结合。此外,提出了深度梯度损失(DGL),通过Sobel算子计算并比较渲染深度图与先验深度图的梯度幅度来施加监督,避免因绝对尺度差异造成的深度崩塌。 新意:将深度感知直接嵌入到高斯场的重建(变换预测)过程中,而非仅用于训练正则化;解耦了深度对齐与面部运动建模;提出基于梯度的深度损失函数。 实验:在仅5秒视频的少样本设定下进行实验。定量结果:DepthTalk在图像质量指标(PSNR: 29.8974, LPIPS: 0.0530, SSIM: 0.9226)上优于所有对比方法(包括InsTaG),唇部运动精度(LMD: 3.0836)也达到最佳。消融研究表明,DAGM、MF和DGL三个组件共同作用才能达到最佳性能。定性结果(图3)显示,DepthTalk在生成新视角面部时,光照更真实,伪影更少。 意义:在数据受限(少样本)场景下,实现了更高质量、更几何一致的说话人头部视频合成,对数字人、虚拟现实等应用有潜在价值。 局限性:依赖外部预训练的深度先验模型(Sapiens);实验数据集(HDTF等)的规模和多样性有限;推理速度(32.66 FPS)虽实时但略低于InsTaG。 🏗️ 模型架构 论文的整体架构如图2所示。输入是音频特征、上半脸表情控制信号和头部姿态(相机位姿)。核心流程如下: ...

2026-04-29 · 更新于 2026-06-26 · 2 min · 238 words

Detecting and Attributing Synthetic Spanish Speech: The HISPASpoof Dataset

📄 Detecting and Attributing Synthetic Spanish Speech: The HISPASpoof Dataset #语音伪造检测 #数据集 #多语言 #零样本 ✅ 7.5/10 | 前25% | #语音伪造检测 | #数据集 | #多语言 #零样本 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Maria Risques(普渡大学电气与计算机工程学院,视频与图像处理实验室 VIPER) 通讯作者:Edward J. Delp(普渡大学电气与计算机工程学院,视频与图像处理实验室 VIPER) 作者列表:Maria Risques(普渡大学 VIPER 实验室)、Kratika Bhagtani(普渡大学 VIPER 实验室)、Amit Kumar Singh Yadav(普渡大学 VIPER 实验室)、Edward J. Delp(普渡大学 VIPER 实验室) 💡 毒舌点评 亮点:论文精准地切入了一个关键且被忽视的研究空白——西班牙语语音伪造检测,通过构建首个大规模、多口音的合成/真实语音数据集 HISPASpoof,为后续研究提供了不可或缺的基石,填补了领域的重大缺口。短板:论文的核心贡献是“数据集+评估”,并未提出新的检测或归因模型或算法,其学术创新主要体现在数据工程和实验验证层面,而非方法论的突破。 🔗 开源详情 代码:提供了评估代码的GitLab仓库链接:https://gitlab.com/viper-purdue/s3d-spanish-syn-speech-det.git。论文中也提及了使用的具体方法代码库来源[47]。 模型权重:论文中未提及是否公开预训练或微调后的模型权重。 数据集:HISPASpoof数据集已公开,采用CC BY-SA 4.0许可,可通过上述GitLab仓库链接获取。 Demo:论文中未提及提供在线演示。 复现材料:提供了数据集的详细分布说明(表I)和实验设置描述(如数据划分),但未提供具体的训练超参数(学习率、优化器、batch size等)、硬件信息和详细的配置文件。 论文中引用的开源项目:使用了多个开源的TTS系统生成数据(XTTS-v1/v2, YourTTS, FishSpeech, F5-Spanish),并评估了多个开源检测器实现(LFCC-GMM, MFCC-ResNet, Spec-ResNet, PaSST, Wav2Vec2-AASIST)。 总体开源情况:论文在数据集和评估代码开源方面做得较好,但完整复现所需的训练细节和模型权重未提供。 📌 核心摘要 问题:当前先进的语音合成(TTS)和语音克隆技术可生成高度逼真的合成语音,带来严重的欺诈和滥用风险。尽管针对英语和中文已有成熟的检测器和数据集,但作为全球6亿人使用的语言,西班牙语在语音取证领域却严重缺乏研究和评估基准。 方法核心:本文提出了 HISPASpoof 数据集,这是首个大规模西班牙语合成语音检测与归因数据集。数据集包含来自6个公开语料库(涵盖6种西班牙语口音)的真实语音,以及由6种前沿的零样本TTS系统生成的合成语音。论文利用该数据集,系统评估了5种代表性的检测方法在跨语言(英语→西班牙语)和特定语言(西班牙语)训练下的性能。 新意:这是首个专门针对西班牙语的、大规模、多口音、多合成器的语音伪造检测与归因数据集。与以往多语言数据集(如ODSS)相比,HISPASpoof在西班牙语音频数量(超过50万条)、口音多样性(6种)和合成系统多样性(6种)上均有显著提升。 主要实验结果: 检测性能:实验证明,在英语数据集(ASVspoof2019)上训练的检测器直接应用于西班牙语时性能急剧下降(EER普遍高于30%,最差达49.57%)。在HISPASpoof上训练后,检测性能大幅提升。具体关键结果见下表: 训练集 测试集 LFCC+GMM EER(%) MFCC-ResNet EER(%) Spec-ResNet EER(%) PaSST EER(%) Wav2Vec2-AASIST EER(%) ASVspoof2019 (英语) UHIS (西班牙语) 42.71 41.72 43.23 32.14 19.92 HISPASpoof (西班牙语) UHIS (西班牙语) 1.57 5.17 0.72 4.10 10.27 HISPASpoof (西班牙语) UODSSSpa (跨数据集) 0.85 48.72 17.09 17.95 43.59 归因性能:在归因(识别合成器)任务中,闭集设置下各方法均接近完美(PaSST准确率100%)。开放集(需识别未见过的合成器)更具挑战性,PaSST表现最佳(准确率78.32%),Spec-ResNet次之(69.73%)。 实际意义:HISPASpoof 为西班牙语语音安全研究提供了关键的评测基准,揭示了现有英语检测器在西班牙语上的失效,并验证了使用领域内数据训练的有效性,推动了语音取证研究的包容性发展。 主要局限性:论文的核心是提出数据集并进行基线评估,没有提出新的检测或归因算法。开源计划中未提及模型权重的公开。 🏗️ 模型架构 本文未提出新的检测或归因模型架构。其核心工作是构建数据集并评估五种已有的代表性方法,这些方法可分为三类: ...

2026-04-29 · 更新于 2026-06-26 · 2 min · 325 words

DGSDNet: Dual-Graph Spectral Diffusion Network for Incomplete Multimodal Emotion Recognition in Conversations

📄 DGSDNet: Dual-Graph Spectral Diffusion Network for Incomplete Multimodal Emotion Recognition in Conversations #语音情感识别 #扩散模型 #图神经网络 #多模态模型 #缺失模态补全 🔥 8.0/10 | 前25% | #语音情感识别 | #扩散模型 | #图神经网络 #多模态模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Mingjian Yang(电子科技大学,智能协同计算实验室) 通讯作者:Wen Yin(电子科技大学,智能协同计算实验室) 作者列表:Mingjian Yang(电子科技大学,智能协同计算实验室)、Yong Wang(电子科技大学,智能协同计算实验室)、Peng Liu(电子科技大学,智能协同计算实验室)、Wen Yin†(电子科技大学,智能协同计算实验室) 💡 毒舌点评 亮点: 精准抓住了现有方法在“保持对话图谱结构”与“对齐特征分布”之间的核心矛盾,并通过将扩散过程严格约束在谱空间(特征值扩散)来优雅地同时解决这两个问题,设计思路清晰且有理论依据。 短板: 门控谱分类(GSC)模块中的熵加权机制更像是一种启发式的不确定性融合,对于“说话人连续性”和“情感方差”等关键对话动态的显式建模略显不足,可能限制了其在更复杂交互场景下的性能天花板。 🔗 开源详情 代码: 论文提供了开源代码仓库链接:https://github.com/Yyyy-aizhien/DGSDNet。 模型权重: 论文中未提及是否公开预训练模型权重。 数据集: 论文使用的IEMOCAP和CMU-MOSI为公开数据集,但论文中未提供获取或预处理脚本的具体说明。 Demo: 论文中未提及提供在线演示。 复现材料: 论文提供了基础实现细节(优化器、学习率、Dropout率等),但缺少训练步数、批量大小、特征提取模型版本、具体GPU环境等关键复现信息。 论文中引用的开源项目: 论文中未明确列出所依赖的特定开源工具或模型库(如特征提取器)。 📌 核心摘要 要解决的问题: 现实对话场景中,模态(文本、音频、视觉)缺失导致多模态情感识别性能严重下降。现有基于图或扩散的方法存在“语义不连续”(破坏图结构或改变特征分布)和“静态融合”(固定权重无法适应动态变化)两大挑战。 方法核心: 提出DGSDNet框架,包含双谱扩散(DSD)模块和门控谱分类(GSC)模块。DSD将对话图谱(说话人图和时序图)分解为拓扑不变的特征向量和可扩散的特征值,并在特征值空间施加扩散过程以恢复缺失模态,从而同时保持图结构并生成分布对齐的特征。GSC模块基于节点特征的熵进行自适应门控,动态融合双图谱信息。 与已有方法相比新在哪里: 区别于直接在特征空间或邻接矩阵上扩散的方法,本工作首次将扩散过程严格限制在图谱的谱空间(对角特征值矩阵)上进行,理论上避免了扩散过程破坏图的局部拓扑。同时,提出了基于重建不确定性的动态门控融合机制,替代了传统的静态加权。 主要实验结果: 在IEMOCAP和CMU-MOSI两个基准数据集上,当模态缺失率从0.0到0.7变化时,DGSDNet的平均加权F1分数(WAF1)分别达到77.60% 和 79.7%,超过了所有对比的SOTA方法(如GCNet, SDR-GNN, DiCMoR)。消融实验证实了说话人图、时序图、双谱扩散和门控分类模块的有效性,移除DSD模块性能下降最显著。 实际意义: 提升了多模态对话系统在传感器故障、隐私限制等真实复杂环境下的情感理解鲁棒性,对智能客服、人机交互、心理健康监测等应用有潜在价值。 主要局限性: 1) 未处理异步多模态序列和更开放域的对话场景。2) 门控融合模块对对话动态的建模相对简单。3) 仅在两种标准数据集上验证,泛化性有待进一步考察。 🏗️ 模型架构 DGSDNet的架构(如图2所示)分为三个主要阶段: ...

2026-04-29 · 更新于 2026-06-26 · 3 min · 438 words

Diff-vs: Efficient Audio-Aware Diffusion U-Net for Vocals Separation

📄 Diff-vs: Efficient Audio-Aware Diffusion U-Net for Vocals Separation #语音分离 #扩散模型 #U-Net #数据增强 #音频生成 ✅ 7.5/10 | 前25% | #语音分离 | #扩散模型 | #U-Net #数据增强 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yun-Ning (Amy) Hung (Moises, USA) 通讯作者:未说明 作者列表:Yun-Ning (Amy) Hung (Moises, USA), Richard Vogl (Moises, USA), Filip Korzeniowski (Moises, USA), Igor Pereira (Moises, USA) 💡 毒舌点评 亮点:论文巧妙地将针对图像生成优化的EDM框架“移植”到音频分离,并通过带分离和双路径RoFormer等音乐领域知识进行“魔改”,成功将扩散模型的推理步数压至个位数,在生成式方法中实现了SOTA性能。短板:虽然在自家构建的生成式对比阵营中鹤立鸡群,但一旦面对经过大规模数据洗礼的判别式“怪兽”(如BS-RoFormer),在客观指标上依然力有不逮,生成式范式在音乐分离上的“逆天改命”之路仍需努力。 🔗 开源详情 代码:论文中提及代码仓库链接为 https://github.com/NVlabs/edm/tree/main(此为EDM框架的开源实现,非本文专用代码)。同时提供了本文模型的具体实现链接:https://github.com/amymoises/diffvs.github.io(注:此链接指向项目主页,具体代码需查看)。因此,论文中提及了代码链接。 模型权重:论文提供了音频示例链接 https://amymoises.github.io/diffvs.github.io/,暗示可能提供了预训练模型或演示。根据上下文,提及了模型权重。 数据集:使用了公开数据集MUSDB18-HQ和MoisesDB。论文中提及了数据集及其获取方式(公开基准)。 Demo:提供了音频样本演示链接 https://amymoises.github.io/diffvs.github.io/,是。 复现材料:论文详细说明了训练超参数(学习率、优化器、步数、batch size等)、模型架构细节(通道数、层数、模块配置)、数据增强方法、STFT参数、推理参数(σ范围,ρ,步数)以及训练硬件(单卡H200,时长约1周)。复现信息较为充分。 论文中引用的开源项目:EDM框架 (https://github.com/NVlabs/edm)。 整体开源情况:论文提供了项目主页、模型代码实现链接(指向GitHub)以及演示音频,模型和数据均为公开可用。训练细节描述详尽,具备较高的可复现性。 📌 核心摘要 问题:当前基于生成式扩散模型的音乐源分离方法,在标准客观指标(如SDR)上通常落后于判别式方法,且推理步数多、模型庞大,限制了其实用性。 方法:本文提出Diff-VS,一个基于Elucidated Diffusion Model (EDM)框架的高效音频感知扩散U-Net模型,专门用于人声分离。模型输入为经过特殊归一化的复数频谱图,并采用带分离和双路径RoFormer块改进的U-Net架构。 创新:首次将EDM框架应用于人声分离,实现了少于10步的高效推理;提出针对音乐信号特性的架构改进(如用双路径RoFormer替换像素自注意力);实验证明生成式方法能达到与判别式方法竞争力的客观指标和更优的感知质量。 实验结果:在MUSDB18-HQ数据集上,仅需7步推理的Diff-VS达到了10.12 dB的cSDR,超越了所有已对比的生成式模型(最高为SGMSE的8.63 dB),并接近SCNet-L (10.86 dB) 等顶尖判别式模型。在基于MERT嵌入的感知质量评估中,Diff-VS (MSE=0.083) 优于SCNet-L (0.096) 和SGMSE (0.089)。 实际意义:该工作证明了经过精心设计的生成式模型,可以在保持分离质量(特别是感知质量)的同时,大幅提升推理效率,为生成式方法在音频分离领域的实际应用提供了可能。 主要局限性:在使用更多数据(MoisesDB)训练的最强判别式模型(如BS-RoFormer-12L)面前,客观性能仍有明显差距;模型目前仅针对人声分离,未验证其在多乐器分离任务上的能力;缺乏对生成多样性的讨论和评估。 🏗️ 模型架构 Diff-VS的整体架构基于EDM框架下的改进型DDPM++ U-Net。 ...

2026-04-29 · 更新于 2026-06-26 · 2 min · 380 words