Face-Voice Association with Inductive Bias for Maximum Class Separation

📄 Face-Voice Association with Inductive Bias for Maximum Class Separation #说话人验证 #跨模态 #归纳偏置 #对比学习 #基准测试 ✅ 7.0/10 | 前25% | #说话人验证 | #归纳偏置 | #跨模态 #对比学习 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文作者列表未按顺序标注第一作者,但根据惯例,Marta Moscati排在首位) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表:Marta Moscati¹, Oleksandr Kats¹, Mubashir Noman², Muhammad Zaigham Zaheer², Yufang Hou³, Markus Schedl¹’⁴, Shah Nawaz¹ ¹ Johannes Kepler University Linz, Austria ² MBZUAI, UAE ³ IT:U Interdisciplinary Transformation University Austria ⁴ Linz Institute of Technology, Austria 💡 毒舌点评 亮点:论文巧妙地将一个原本用于单模态分类任务的“最大类分离归纳偏置”技术迁移并适配到了多模态的人脸-语音关联领域,且通过扎实的消融实验证明了它与正交约束损失结合后的“1+1>2”效果,思路新颖且有效。 短板:归纳偏置矩阵的构造(公式1)需要预先知道总说话人数量(Ns),这可能导致其在动态或开放世界的说话人识别场景中应用受限,论文未探讨这一关键限制的缓解方案。 ...

2026-04-29

Fake Speech Wild: Detecting Deepfake Speech on Social Media Platform

📄 Fake Speech Wild: Detecting Deepfake Speech on Social Media Platform #语音伪造检测 #自监督学习 #数据增强 #鲁棒性 #基准测试 ✅ 7.0/10 | 前25% | #语音伪造检测 | #自监督学习 | #数据增强 #鲁棒性 学术质量 7.0/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yuankun Xie(Communication University of China, Beijing, China) 通讯作者:Ruibo Fu(Institute of Automation, Chinese Academy of Sciences, Beijing, China),Long Ye(Communication University of China, Beijing, China) 作者列表:Yuankun Xie(中国传媒大学),Ruibo Fu(中国科学院自动化研究所),Xiaopeng Wang(北京理工大学),Zhiyong Wang(中国科学院自动化研究所),Ya Li(北京邮电大学),Yingming Gao(北京邮电大学),Zhengqi Wen(北京国家信息科学与技术研究中心,清华大学),Haonan Cheng(中国传媒大学),Long Ye(中国传媒大学) 💡 毒舌点评 这篇论文最大的亮点是做了一件“脏活累活”——构建了一个贴近真实世界、多平台、多账户的中文深度伪造语音数据集(FSW),并用它系统性地戳穿了现有检测模型在“温室”数据集上虚假的高性能泡沫,为社区提供了更严格的评估标准。短板在于,它本质上是“评估”和“诊断”工作,虽然实用,但并未提出一种具有突破性的新型检测模型架构,更像是为后续工作铺设了一条更真实的跑道。 ...

2026-04-29

Fast-ULCNet: A Fast and Ultra Low Complexity Network for Single-Channel Speech Enhancement

📄 Fast-ULCNet: A Fast and Ultra Low Complexity Network for Single-Channel Speech Enhancement #语音增强 #循环神经网络 #低资源 #实时处理 ✅ 7.5/10 | 前25% | #语音增强 | #循环神经网络 | #低资源 #实时处理 学术质量 7.5/7 | 选题价值 7.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Nicolás Arrieta Larraza (Bang & Olufsen, Allé 1 7600 Struer, Denmark) 通讯作者:未说明 作者列表:Nicolás Arrieta Larraza (Bang & Olufsen), Niels de Koeijer (Bang & Olufsen) 💡 毒舌点评 亮点: 论文敏锐地发现了FastGRNN在长序列推理时的“状态漂移”这一实用陷阱,并受传感器互补滤波启发提出了一个优雅、轻量且可训练的修复方案(Comfi-FastGRNN),体现了从工程实践中发现问题并解决问题的能力。短板: 创新主要是将一个已有的轻量RNN架构(FastGRNN)替换到另一个轻量模型(ULCNet)中,本质是模块替换,在短音频(10秒)标准评测集上并未带来性能提升甚至略有损失,其核心贡献更偏向于“工程优化”而非“算法突破”。 📌 核心摘要 问题:单通道语音增强算法需要在资源受限的嵌入式设备上运行,要求极低的计算复杂度和延迟。 方法核心:本文提出Fast-ULCNet,将现有低复杂度模型ULCNet中的GRU层替换为更轻量的FastGRNN层,以进一步降低计算开销和延迟。 新发现与创新:研究发现FastGRNN在推理长音频信号(>60秒)时性能会因内部状态漂移而下降。为此,提出了Comfi-FastGRNN,通过一个可训练的互补滤波器模块来抑制状态漂移。 主要实验结果:在DNS Challenge 2020数据集上,Fast-ULCNet在10秒测试集上与原始ULCNet性能相当;在90秒长测试集上,未经改进的FastGRNN性能显著下降,而Comfi-FastGRNN版本则恢复了稳定性,与ULCNet持平。模型参数量减少超过一半(从0.685M降至0.338M),在Raspberry Pi 3 B+上的平均实时因子(RTF)降低约34%(从0.976降至0.657)。 实际意义:该工作使得高性能语音增强模型更容易部署到智能耳机、助听器等低功耗实时设备上。 主要局限性:长序列评估仅通过拼接自身构造,可能不完全反映真实世界的持续流式处理场景;在短序列标准基准上,Fast-ULCNet的PESQ和SI-SDR指标略低于原始ULCNet。 🏗️ 模型架构 Fast-ULCNet的架构基于ULCNet,主要分为两个阶段: ...

2026-04-29

FastAV: Efficient Token Pruning for Audio-Visual Large Language Model Inference

📄 FastAV: Efficient Token Pruning for Audio-Visual Large Language Model Inference #音频问答 #大语言模型的压缩与加速 #音视频 #多模态模型 ✅ 7.0/10 | 前25% | #音频问答 | #大语言模型的压缩与加速 | #音视频 #多模态模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Chaeyoung Jung(韩国科学技术院,Korea Advanced Institute of Science and Technology, South Korea) 通讯作者:未说明 作者列表:Chaeyoung Jung(韩国科学技术院)、Youngjoon Jang(韩国科学技术院)、Seungwoo Lee(韩国科学技术院)、Joon Son Chung(韩国科学技术院) 💡 毒舌点评 亮点:本文敏锐地发现了现有token剪枝研究在音视频大语言模型领域的空白,并首次提出了系统性的解决方案,其两阶段剪枝策略(全局剪枝+精细剪枝)在实验上取得了显著且一致的效率提升(>40% FLOPs降低),且不损害甚至能提升性能,这对于推动此类昂贵模型的实际部署具有明确的工程价��。 短板:技术路线本质上是对视觉token剪枝方法的“移植”和“拼接”(全局剪枝基于视觉工作常见的注意力回溯,精细剪枝基于LLM剪枝中常见的最后token分析),在剪枝机制本身上创新有限。此外,实验对比集中在自身设定的不同剪枝策略上,缺乏与更多元、更强的基线方法(如其他可能适用于多模态的剪枝或加速技术)的横向比较。 📌 核心摘要 要解决的问题:音视频大语言模型在处理包含音频、视频、文本的多模态输入时,token数量巨大,导致推理时内存消耗和计算成本剧增,限制了其实际应用。 方法核心:提出FastAV,一个两阶段的推理时token剪枝框架。第一阶段在中间层进行“全局剪枝”,利用注意力回溯机制分析token重要性,移除位置靠后、影响力较弱的大部分token(如2/3);第二阶段在后续层进行“精细剪枝”,基于最后一个查询token的注意力权重,逐层迭代移除最不重要的20% token。 与已有方法相比新在哪里:这是首个专门为音视频大语言模型设计的token剪枝框架。不同于直接应用在纯文本LLM或视觉-语言模型上的方法,FastAV综合考虑了音视频模态的特点,并通过注意力回溯揭示了此类模型在中间层后注意力集中于早期token的“锚定”模式,从而设计了针对性的剪枝策略。 主要实验结果:在VideoLLaMA2和video-SALMONN2两个模型上,FastAV将理论FLOPs降低了40%以上(见表1),同时推理速度提升约30%,内存占用降低。在AVQA, MUSIC-AVQA, AVHBench三个基准测试上,性能保持持平甚至有所提升(例如在AVHBench的AV匹配任务上,VideoLLaMA2的准确率从57.8%提升至69.0%)。消融实验表明,基于注意力回溯的全局剪枝策略优于随机剪枝和基于原始注意力权重的策略(表2),精细剪枝的剪枝比例P=20%为最优(表4)。 实际意义:使音视频大语言模型能够更高效地处理长视频、复杂音频等多模态长上下文输入,降低了部署的硬件门槛和延迟,有助于推动其在实时交互、边缘设备等场景的应用。 主要局限性:剪枝策略的有效性依赖于“注意力在中间层后集中于早期token”这一观察,该模式是否在所有音视频大语言模型和任务中普遍存在尚不明确。此外,论文未探讨该剪枝框架对模型训练或微调阶段的影响,也未提供理论保证证明性能不会在更极端的压缩下下降。 🏗️ 模型架构 FastAV本身并非一个独立的音视频大语言模型,而是一个应用于现有模型(如VideoLLaMA2、video-SALMONN2)推理阶段的加速框架。其整体流程如图3所示。 图3:FastAV框架概览。输入序列包含视频(X_vis)、音频(X_aud)和文本(X_lang)token。整体推理过程(a)在中间层(L/2)进行全局剪枝,在后续层进行精细剪枝。剪枝机制(b)展示了全局剪枝依据注意力回溯,精细剪枝依据最后查询token的注意力分析。 ...

2026-04-29

FastEnhancer: Speed-Optimized Streaming Neural Speech Enhancement

📄 FastEnhancer: Speed-Optimized Streaming Neural Speech Enhancement #语音增强 #神经网络 #流式处理 #实时处理 🔥 8.5/10 | 前25% | #语音增强 | #神经网络 | #流式处理 #实时处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Sunghwan Ahn(首尔大学电气与计算机工程系,INMC) 通讯作者:未说明(论文中提供了多位作者的邮箱,但未明确指定通讯作者) 作者列表:Sunghwan Ahn(首尔大学电气与计算机工程系,INMC)、Jinmo Han(首尔大学电气与计算机工程系,INMC)、Beom Jun Woo(首尔大学电气与计算机工程系,INMC)、Nam Soo Kim(首尔大学电气与计算机工程系,INMC) 💡 毒舌点评 亮点在于它像一位精明的工程师,将“简单即高效”的哲学贯穿始终,用看似基础的编码器-解码器和精心挑选的RNNFormer模块,在单CPU线程上跑出了碾压一众复杂架构的推理速度,证明了花哨不等于高效。短板则是其架构的核心创新(RNNFormer的特定组合)更像是一个面向工程目标的“最优配置”而非颠覆性理论突破,且论文并未深入探讨模型在极端非平稳噪声或严重混响下的性能边界。 📌 核心摘要 这篇论文针对流式语音增强任务中,现有深度学习模型虽然参数量和MACs减少,但因架构复杂导致在通用硬件(如单CPU线程)上实际推理延迟高的问题,提出了FastEnhancer模型。其方法核心是采用一个简单的编码器-解码器结构,并引入了一种新型的RNNFormer模块,该模块在时间轴使用高效的GRU,在频率轴使用多头自注意力机制(MHSA),以兼顾低延迟流式处理与全局频率关系建模。与先前研究相比,新方法摒弃了复杂的子带分解和分组DPRNN设计,转而追求架构的简洁性和针对速度的优化(如仅使用时间轴卷积核大小为1的卷积、可融合的批归一化层)。主要实验结果在VCTK-Demand数据集上显示,FastEnhancer在多个尺寸配置下均达到了SOTA的语音质量和可懂度指标(例如,FastEnhancer-B在PESQ上达到3.13,STOI达到94.5%),同时实现了所有对比模型中最低的实时因子(RTF),其中FastEnhancer-T在Xeon CPU上的RTF仅为0.012。该工作的实际意义在于为实时、资源受限的设备(如助听器、智能家居)提供了一个高性能且超低延迟的语音增强解决方案。主要局限性是论文的实验主要集中在客观指标和特定硬件上的RTF,未报告主观听感测试或在更多样化的真实噪声场景下的泛化性能,且对模型处理极端复杂声学条件的能力探讨不足。 实验结果表格1:在VCTK-Demand数据集上的性能对比 模型 参数量 (K) MACs RTF (Xeon) RTF (M1) DNSMOS (P.808) SISDR PESQ STOI ESTOI WER GTCRN 24 40M 0.060 0.042 3.43 18.8 2.87 0.940 0.848 3.6 LiSenNet (可流式) 37 56M 0.034 0.028 3.42 18.5 2.98 0.941 0.851 3.4 FSPEN 79 64M 0.046 0.038 3.40 18.4 3.00 0.942 0.850 3.6 BSRNN 334 245M 0.059 0.062 3.44 18.9 3.06 0.942 0.855 3.4 FastEnhancer-T 22 55M 0.012 0.013 3.42 18.6 2.99 0.940 0.850 3.6 FastEnhancer-B 92 262M 0.022 0.026 3.47 19.0 3.13 0.945 0.861 3.2 FastEnhancer-S 195 664M 0.034 0.048 3.49 19.2 3.19 0.947 0.866 3.2 FastEnhancer-M 492 2.9G 0.101 0.173 3.48 19.4 3.24 0.950 0.873 2.8 FastEnhancer-L 1105 11G 0.313 0.632 3.53 19.6 3.26 0.952 0.877 3.1 实验结果表格2:消融研究 ...

2026-04-29

FD-ARL: Feature Disentanglement with Adversarial-Reconstruction Learning for Cross-Subject Auditory Attention Decoding

📄 FD-ARL: Feature Disentanglement with Adversarial-Reconstruction Learning for Cross-Subject Auditory Attention Decoding #听觉注意力解码 #领域适应 #Transformer #脑电信号 ✅ 7.5/10 | 前10% | #听觉注意力解码 | #领域适应 | #Transformer #脑电信号 学术质量 8.0/7 | 选题价值 8.5/2 | 复现加成 8.0 | 置信度 高 👥 作者与机构 第一作者:Yuan Liao(香港中文大学(深圳)人工智能学院,数据科学学院,深圳研究院) 通讯作者:Siqi Cai(哈尔滨工业大学(深圳)智能科学与工程学院) 作者列表:Yuan Liao(香港中文大学(深圳)人工智能学院,数据科学学院,深圳研究院)、Haoqi Hu(香港中文大学(深圳)人工智能学院,数据科学学院,深圳研究院)、Siqi Cai(哈尔滨工业大学(深圳)智能科学与工程学院)、Haizhou Li(香港中文大学(深圳)人工智能学院,数据科学学院,深圳研究院) 💡 毒舌点评 亮点:论文精准地抓住了跨被试脑电解码的核心痛点——“个体差异”与“任务相关性”的纠缠,并提出了一个逻辑自洽的“解耦”框架(特征拆分+对抗抹除身份+重建保留信息),实验上也取得了扎实的性能提升。短板:重建损失的具体作用机制(是防止信息丢失还是隐式正则化)讨论不足,且仅验证了跨被试泛化,未涉及跨范式(如噪声环境、听觉刺激参数变化)的泛化,限制了其结论的普遍性。 📌 核心摘要 问题:基于脑电图(EEG)的听觉注意力解码(AAD)模型在跨被试场景下泛化性能差,主要原因是个体间脑电信号差异大,且现有方法难以提取与任务相关且与个体无关的鲁棒特征。 方法核心:提出FD-ARL框架。首先用并行时空Transformer编码器提取EEG特征。然后,将特征解耦为任务相关码(ztask)和特定于被试的码(zsubj)。最后,通过对抗训练(利用梯度反转层)迫使ztask对被试身份不变,同时通过重建损失确保解耦过程保留关键信息。 创新点:这是首次将双分支Transformer与对抗-重建解耦方案相结合用于EEG-AAD。与传统领域对抗网络(DANN)不同,它不是将整个特征强制对齐,而是显式地分离出应保持不变的任务特征和应被忽略的个体特征。 主要实验结果:在KUL和DTU两个公开数据集上,采用严格的留一被试交叉验证(LOSO-CV)。FD-ARL在所有条件下均达到了最佳性能。例如,在KUL数据集2秒窗口下,准确率达74.6%,比此前最优的DARNet(71.9%)高出2.7个百分点。消融实验证明了每个模块(对抗、重建、时空分支)的贡献。 实际意义:该工作为解决BCI和神经辅助设备中的跨用户泛化问题提供了有效方案,推动了听觉注意力解码技术向实用化迈进。 主要局限性:研究仅聚焦于跨被试泛化,未探讨模型在更复杂声学环境(如高噪声、不同空间布局)下的鲁棒性;重建损失的具体作用机制可以进一步剖析;实验仅限于特定数据集的二分类(左/右)任务,结论的普适性有待更广泛验证。 🏗️ 模型架构 FD-ARL的整体架构(图1)分为两个阶段:并行时空特征编码和特征解耦与学习。 并行时空编码器: 输入:原始EEG信号 X ∈ R^{B×C×T},其中B是批量大小,C是通道数(64),T是时间点数。 时空特征嵌入: 时间分支:使用多尺度卷积层将输入转换为P个时间块,得到时间嵌入 E_T ∈ R^{B×P×D}。 空间分支:使用独立的轻量级卷积网络为每个通道生成一个独特的令牌嵌入,得到空间嵌入 E_S ∈ R^{B×C×D}。 上下文编码与融合:为嵌入添加可学习的位置编码。然后,分别通过两个独立的Transformer编码器处理,得到上下文表示 F_T 和 F_S。通过全局平均池化将时间表示汇总为向量 f_t,通过注意力加权求和将空间表示汇总为向量 f_s。将两者拼接并通过非线性投影,得到最终的融合特征表示 f'_{fused} ∈ R^{B×2D}。 特征解耦模块: 解耦:将融合特征向量直接拆分为两半,得到任务相关码 z_{task} ∈ R^{B×D} 和被试特异码 z_{subject} ∈ R^{B×D}。 联合优化框架:通过三个损失函数约束这两个码: 任务分类损失 (L_task):使用任务分类器 C_y 基于 z_{task} 进行分类,确保其判别性。 对抗不变性损失 (L_domain):使用领域分类器 C_d 基于经过梯度反转层(GRL) 的 z_{task} 预测被试标签。GRL反转梯度,迫使 z_{task} 变得对被试身份不可区分。 重建保真度损失 (L_recon):使用解码器从完整的 f'_{fused} 重建原始EEG信号 X,使用MSE损失,确保解耦过程不丢失关键信息。 最终损失为加权和:L_total = L_task + λL_domain + βL_recon,其中λ动态增加,β固定为0.5。 ...

2026-04-29

FDCNet: Frequency Domain Channel Attention and Convolution for Lipreading

📄 FDCNet: Frequency Domain Channel Attention and Convolution for Lipreading #视觉语音识别 #频域处理 #注意力机制 #数据增强 🔥 8.5/10 | 前25% | #视觉语音识别 | #频域处理 | #注意力机制 #数据增强 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Qianxi Yan(浙江大学) 通讯作者:Qifei Zhang(浙江大学) 作者列表: Qianxi Yan(浙江大学) Qifei Zhang*(浙江大学,通讯作者) Lei Zhang(中国科学院大学) Linkun Yu(日本早稻田大学生产系统研究生院) Lei Sheng(宁波市知识产权保护中心) 💡 毒舌点评 论文的亮点在于视角新颖,首次系统性地将频域协同处理(频域增强与频谱引导的注意力)引入唇读前端,为处理唇部动作的混合频率信号提供了合理的理论框架。短板是创新点SGCA和FADC的具体交互机制在图中未清晰展示,且92.2%到92.5%的提升虽达成SOTA,但幅度有限,难以断言是质变而非量变。 📌 核心摘要 问题:传统唇读前端方法主要在空间域提取特征,难以有效处理唇部动作这种混合了低频宏观轮廓和高频细节的复杂信号,导致关键信息提取不足。 方法:提出一个频域协同网络(FDCNet)。其核心是两个模块:(1)频域自适应卷积(FADC),在频域通过动态加权的多尺度卷积核对不同频率成分进行差异化增强;(2)频谱引导的通道注意力(SGCA),利用完整的傅里叶幅度谱作为全局描述符,来筛选具有判别力的特征通道。 创新:首次在唇读前端中构建了“频域增强+频谱引导通道滤波”的统一处理管道。SGCA克服了传统全局平均池化(GAP)丢失高频信息的局限,FADC实现了内容自适应的频率调制。 实验:在LRW基准数据集上,FDCNet达到了92.5% 的准确率,超越了之前最优方法TCSAM-ResNet-18+DC-TCN(92.2%)。消融实验证实了SGCA(+0.32%)和FADC(+0.11%)各自的有效性。与多种注意力机制的对比表明SGCA的优越性。 表1:与SOTA方法对比 网络架构 准确率 (%) 3D-CNN [10] 61.1 ResNet-18 [1] 83.0 ResNet-34+BiGRU [16] 83.4 ResNet-50+TCN [2] 84.8 ResNet-18+MS-TCN [3] 85.3 ResNet-18+TSM+BiGRU [19] 86.2 EfficientNet+TCN+Transformer [17] 89.5 ResNet-18+DC-TCN [4] 92.1 TCSAM-ResNet-18+DC-TCN [18] 92.2 FDCNet (Ours) 92.5 表2:消融实验结果 ...

2026-04-29

FED-PISA: Federated Voice Cloning Via Personalized Identity-Style Adaptation

📄 FED-PISA: Federated Voice Cloning Via Personalized Identity-Style Adaptation #联邦学习 #语音克隆 #语音合成 #低秩适配 #个性化学习 🔥 8.0/10 | 前25% | #语音克隆 | #联邦学习 | #语音合成 #低秩适配 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Qi Wang(鹏城实验室;中国科学院计算技术研究所;中国科学院大学) 通讯作者:未说明 作者列表:Qi Wang(鹏城实验室,中国科学院计算技术研究所,中国科学院大学)、Shituo Ma(中国科学院信息工程研究所,中国科学院大学)、Guoxin Yu(鹏城实验室)、Hanyang Peng(鹏城实验室)、Yue Yu(鹏城实验室) 💡 毒舌点评 亮点: 论文框架设计巧妙,通过解耦“身份(ID-LoRA)”和“风格(Style-LoRA)”,并借鉴协同过滤思想进行个性化聚合,优雅地解决了联邦学习中“隐私保护-通信效率-个性化”三者间的矛盾,是一个完整且实用的系统方案。 短板: 实验部分缺少对最新、最强的端到端语音大模型(如GPT-SoVITS的最新版本或CosyVoice 2的直接微调基线)的深入对比,使得其“显著优于零样本方法”的结论在当前技术背景下略显单薄,也未能充分展示其在更复杂(如跨语言)场景下的泛化能力。 📌 核心摘要 问题: 现有联邦语音克隆(TTS)方法面临两大挑战:高昂的通信开销和对说话人风格异质性的抑制,导致个性化不足。 方法核心: 提出FED-PISA框架。其核心是解耦的LoRA机制:为每个客户端维护一个私有的、冻结的ID-LoRA(捕捉音色),以及一个可全局通信的、轻量的Style-LoRA(捕捉风格)。服务器端采用受协同过滤启发的个性化聚合策略,为每个客户端从风格相似的对等方学习,生成定制化的风格模型。 创新点: 与传统联邦TTS相比,新在:1)首次在联邦语音克隆中实现身份与风格的解耦设计,通过LoRA分离;2)引入个性化聚合算法(基于风格相似度的注意力加权),主动利用而非抑制风格异质性;3)在强大的预训练骨干(GPT-SOVITS-V4)上应用PEFT,显著提升框架的性能上限。 主要实验结果: 在四个公开数据集(ESD, EmoV-DB, RAVDESS, CREMA-D)上进行50轮联邦训练。关键结果见下表。FED-PISA在风格表达性(SE: 0.704)、说话人相似度(SS: 0.645)、自然度(nMOS: 4.08)和正确率(WER: 2.70%)上均优于所有基线,同时通信开销(45.8 GiB)远低于其他联邦方法。 方法 骨干 SE ↑ WER (%) ↓ SS ↑ nMOS ↑ 通信开销 (GiB) ↓ 零样本 (COSYVOICE2) - 0.659 7.20 0.619 3.84 - 本地微调 (LoRA) GPT-SOVITS-V4 0.626 3.35 0.529 3.36 - FedSpeech FASTSPEECH2 0.416 6.82 0.556 3.77 145.28 Fed Dy. Trans. TRANSFORMER-TTS 0.463 8.75 0.602 3.72 456.35 FED-PISA (Ours) GPT-SOVITS-V4 0.704 2.70 0.645 4.08 45.8 实际意义: 为在隐私保护前提下,实现高效、高保真的个性化语音合成提供了一个可行的联邦学习解决方案,有助于推动语音合成技术在边缘设备和隐私敏感场景(如个人设备)中的应用。 主要局限性: 1)框架假设客户端拥有可用于初始化ID-LoRA的中性语料,在纯语音交互或冷启动场景下可能受限;2)个性化聚合的计算开销随客户端数量增长,论文未讨论其可扩展性;3)未在真实的、资源异构的边缘设备集群上评估部署性能。 🏗️ 模型架构 FED-PISA是一个基于联邦学习的语音克隆框架,其整体架构分为客户端和服务器两部分,核心思想是身份-风格解耦。 ...

2026-04-29

Feedback-Driven Retrieval-Augmented Audio Generation with Large Audio Language Models

📄 Feedback-Driven Retrieval-Augmented Audio Generation with Large Audio Language Models #音频生成 #检索增强 #大型音频模型 #扩散模型 ✅ 6.5/10 | 前25% | #音频生成 | #检索增强 | #大型音频模型 #扩散模型 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Junqi Zhao(University of Surrey, CVSSP;Tencent AI Lab, Beijing) 通讯作者:Wenwu Wang(University of Surrey, CVSSP) 作者列表: Junqi Zhao(University of Surrey, CVSSP;Tencent AI Lab, Beijing) Chenxing Li(Tencent AI Lab, Beijing) Jinzheng Zhao(University of Surrey, CVSSP;Tencent AI Lab, Beijing) Rilin Chen(Tencent AI Lab, Beijing) Dong Yu(Tencent AI Lab, Seattle) Mark D. Plumbley(University of Surrey, CVSSP) Wenwu Wang(University of Surrey, CVSSP) (通讯作者) 💡 毒舌点评 亮点在于其“反馈驱动”的框架设计很巧妙,让一个大型音频模型(LALM)去检查另一个生成模型(TTA)的作业,找出了“漏写的声音”,然后去资料库(检索数据库)里找参考答案补上,实现了一种通用且低成本的性能增强。短板是这套流程的“下限”严重依赖那个外部资料库(音频数据库)的全面性和质量,论文中并未充分探讨当数据库里没有合适参考或LALM“找错题”时的容错机制,且评估指标虽然全面,但未能揭示在极端复杂音频场景下的具体失效模式。 ...

2026-04-29

Few-Shot Recognition of Audio Deepfake Generators using Graph-Based Prototype Adaptation

📄 Few-Shot Recognition of Audio Deepfake Generators using Graph-Based Prototype Adaptation #音频深度伪造检测 #少样本学习 #图神经网络 #音频取证 ✅ 7.5/10 | 前25% | #音频深度伪造检测 | #图神经网络 | #少样本学习 #音频取证 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yupeng Tan (广西大学计算机、电子信息学院,广西人工智能学院) 通讯作者:Wei Xie (广西大学计算机、电子信息学院,广西人工智能学院) 作者列表:Yupeng Tan (广西大学计算机、电子信息学院,广西人工智能学院),Wei Xie (广西大学计算机、电子信息学院,广西人工智能学院) 💡 毒舌点评 本文巧妙地将图神经网络与转导学习范式结合,用于解决少样本音频深度伪造生成器识别中因数据稀缺导致的原型估计偏差问题,技术路线完整且实验结果显著优于基线。然而,其核心思想——利用无标签数据(查询集)的结构信息来优化有标签数据的原型表示——在少样本学习领域并非首创(如标签传播等),创新深度有限,且论文未提供任何开源代码或模型权重,对后续研究的可复现性构成障碍。 📌 核心摘要 问题:在音频取证中,识别深伪造音频的具体生成器类型至关重要,但新兴生成器的有标签样本极少,传统少样本方法因数据稀疏导致原型估计偏差大、特征区分度低。 方法:提出基于图的原型适应框架。在每个少样本任务中,将支持集和查询集样本构建成一个联合图(基于样本间距离的稀疏连接),通过图适应模块进行信息传播和特征精炼,再估计更可靠的原型进行分类。 创新:1)采用转导学习范式,联合利用有标签和支持样本构建任务特定图;2)设计图适应模块,通过图卷积网络精炼特征并校准原型,缓解原型偏差;3)在元测试阶段引入对比损失进行自适应。 实验:在ASVspoof2019 LA和MLAAD数据集上的5-way设置中,GPA方法在所有shot数下均取得最优准确率,例如在ASV2019LA上5-shot相比最强基线提升3.17%,10-shot提升6.12%,20-shot提升8.28%。消融实验验证了各组件的必要性。 意义:为应对新出现的音频深伪造威胁提供了一种有效的少样本识别方案,增强了音频取证系统对未知生成器的适应能力。 局限性:方法依赖预训练的CLAP编码器和特定的图构建策略,计算复杂度随样本数增加;实验仅在两个数据集上进行,对更多样化生成器和真实场景的泛化能力有待验证。 🏗️ 模型架构 模型架构图如图2所示。 整体流程:对于一个N-way K-shot任务,输入是包含N×K个有标签样本的支持集S和N×M个无标签样本的查询集Q。所有音频样本首先通过预训练的CLAP音频编码器转换为d维嵌入向量。这些嵌入(支持集和查询集)被组织成一个联合图,其中节点是单个样本,边表示样本间的相似性。该图输入到图适应模块中进行处理。经过GAM精炼后,从属于各类的支持节点嵌入中计算出类原型(各类嵌入的均值)。最后,每个查询节点根据其与各类原型的欧氏距离进行分类。 主要组件: 预训练CLAP编码器:作为特征提取器,将原始音频转换为语义嵌入空间中的向量。 联合图构建模块:为每个任务动态构建图。节点对应所有样本(支持+查询)。边的建立遵循四条规则:同类支持节点间连接;每个支持节点连接其在查询集中的top-k最近邻;查询节点间连接top-k最近邻;所有节点添加自环。边权重为节点间欧氏距离的倒数。这种稀疏连接策略(复杂度O(kn))保留了关键结构,同时降低了计算量。 图适应模块:核心组件,由两层图卷积网络和一个残差连接构成。其作用是通过图上的消息传递,融合来自支持集和查询集的结构信息,精炼每个节点的嵌入表示,从而生成更鲁棒、更具区分性的特征,用于后续原型估计。处理后,对支持节点还会施加一个轻量级线性分类器进行显式监督(focal loss)。 原型估计与分类:从精炼后的支持节点嵌入中,为每个类别计算一个原型(均值向量)。查询节点通过计算到这些原型的距离进行分类。 数据流与交互:CLAP输出的原始嵌入 -> 构建联合图邻接矩阵 -> GAM通过两层GCN在图上传播信息并更新节点嵌入 -> 从精炼后的支持节点嵌入计算原型 -> 查询节点与原型距离计算分类概率。整个框架采用元学习训练范式。 ...

2026-04-29