音频取证 | 语音/音乐/音频论文速递

📄 Few-Shot Recognition of Audio Deepfake Generators using Graph-Based Prototype Adaptation #音频深度伪造检测 #少样本学习 #图神经网络 #音频取证 ✅ 7.5/10 | 前25% | #音频深度伪造检测 | #图神经网络 | #少样本学习 #音频取证学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yupeng Tan (广西大学计算机、电子信息学院，广西人工智能学院) 通讯作者：Wei Xie (广西大学计算机、电子信息学院，广西人工智能学院) 作者列表：Yupeng Tan (广西大学计算机、电子信息学院，广西人工智能学院)，Wei Xie (广西大学计算机、电子信息学院，广西人工智能学院) 💡 毒舌点评本文巧妙地将图神经网络与转导学习范式结合，用于解决少样本音频深度伪造生成器识别中因数据稀缺导致的原型估计偏差问题，技术路线完整且实验结果显著优于基线。然而，其核心思想——利用无标签数据（查询集）的结构信息来优化有标签数据的原型表示——在少样本学习领域并非首创（如标签传播等），创新深度有限，且论文未提供任何开源代码或模型权重，对后续研究的可复现性构成障碍。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开模型权重。数据集：使用了公开数据集ASVspoof2019 LA和MLAAD，论文未提及额外数据。 Demo：未提供在线演示。复现材料：论文提供了一些关键的超参数（如学习率、图top-k值、episode采样数），但缺少训练硬件信息、完整代码配置、权重文件以及Focal Loss和对比损失中的具体超参数（如γ, m）。依赖的开源项目/模型： CLAP 音频编码器（论文引用[17]）图卷积网络基础架构（论文引用[18]） Focal Loss（论文引用[19]）对比学习框架（论文引用[20]）消融实验中使用的RawNet3（论文引用[29]）总体评价：论文中未提及完整的开源计划。 📌 核心摘要问题：在音频取证中，识别深伪造音频的具体生成器类型至关重要，但新兴生成器的有标签样本极少，传统少样本方法因数据稀疏导致原型估计偏差大、特征区分度低。方法：提出基于图的原型适应框架。在每个少样本任务中，将支持集和查询集样本构建成一个联合图（基于样本间距离的稀疏连接），通过图适应模块进行信息传播和特征精炼，再估计更可靠的原型进行分类。创新：1）采用转导学习范式，联合利用有标签和支持样本构建任务特定图；2）设计图适应模块，通过图卷积网络精炼特征并校准原型，缓解原型偏差；3）在元测试阶段引入对比损失进行自适应。实验：在ASVspoof2019 LA和MLAAD数据集上的5-way设置中，GPA方法在所有shot数下均取得最优准确率，例如在ASV2019LA上5-shot相比最强基线提升3.17%，10-shot提升6.12%，20-shot提升8.28%。消融实验验证了各组件的必要性。意义：为应对新出现的音频深伪造威胁提供了一种有效的少样本识别方案，增强了音频取证系统对未知生成器的适应能力。局限性：方法依赖预训练的CLAP编码器和特定的图构建策略，计算复杂度随样本数增加；实验仅在两个数据集上进行，对更多样化生成器和真实场景的泛化能力有待验证。 🏗️ 模型架构模型架构图如图2所示。 ...

📄 StreamMark: A Deep Learning-Based Semi-Fragile Audio Watermarking for Proactive Deepfake Detection #音频深度伪造检测 #音频安全 #音频取证 #半监督学习 🔥 评分：8.2/10 | arxiv 👥 作者与机构第一作者：Zhentao Liu（根据arXiv页面及GitHub仓库L1uZhentao推断，可能为苏黎世联邦理工学院（ETH Zurich）或相关机构，论文中未明确标注）通讯作者：Milos Cernak（根据arXiv页面推断，可能为苏黎世联邦理工学院（ETH Zurich）或相关机构，论文中未明确标注）其他作者：无机构说明：论文全文未提供明确的作者单位信息。根据arXiv提交者信息及开源仓库L1uZhentao推断，作者可能来自苏黎世联邦理工学院（ETH Zurich）的计算机科学系或相关实验室。通讯作者Milos Cernak在音频处理领域较为活跃。此处信息为推断，论文中未明确说明。 💡 毒舌点评亮点是把图像取证里的“半脆弱水印”思想成功移植到音频深度伪造检测，实现了“对良性处理免疫，对恶意篡改过敏”的智能封条，思路清晰且实验验证扎实。槽点在于模拟“恶意变换”仅用了音高偏移，与真实世界中复杂的TTS/VC攻击存在差距，且16比特的水印容量在实际部署中可能略显单薄，更像个概念验证而非工业级方案。 🔗 开源详情代码：论文中明确提供了GitHub链接：https://github.com/L1uZhentao/deepfake_benchmark。该仓库应包含StreamMark的实现及文中提到的深度伪造基准测试数据集。模型权重：论文中未明确提及是否公开预训练模型权重。通常此类开源项目会附带权重，但需查阅其GitHub仓库确认。数据集：论文开源了其构建的深度伪造基准测试集，包含多种恶意（TTS, VC, 编辑）和良性（风格转移）AI转换的音频对。在线Demo：论文中未提及。依赖开源工具：论文中未详细列出，但实现必然依赖如PyTorch、Torchaudio等常见深度学习和音频处理库。 📌 核心摘要本文针对生成式AI带来的音频深度伪造威胁，提出了一种名为StreamMark的主动防御框架。该框架是一种基于深度学习的半脆弱音频水印系统，其核心创新在于重新定义了水印的目标：不是追求对所有变换的绝对鲁棒，而是被设计为对保持语义的良性变换（如压缩、噪声）保持鲁棒，而对改变语义的恶意篡改（如语音转换、编辑）变得脆弱。方法上，它采用独特的编码器-失真层-解码器架构，将水印嵌入STFT的复数域（实部与虚部），并通过一个包含良性与恶意变换集的失真层进行对抗性训练，使模型学会区分变换的语义属性。实验表明，StreamMark在保持高不可感知性（PESQ 4.20）和对Opus编码等良性变换高鲁棒性（>99.89%）的同时，能有效对抗多种深度伪造攻击：面对TTS、语音转换和编辑攻击时，水印恢复准确率降至随机猜测水平（~50%），而面对良性AI风格转移时，准确率保持在98%以上。该研究为音频真实性认证提供了从被动检测到主动标记的范式转变。 🏗️ 模型架构 StreamMark采用端到端的编码器-失真层-解码器三阶段架构，其完整流程与核心组件如下：编码器层：输入：原始音频波形 + 16比特水印信息。流程： a. 复数STFT：将音频转换为短时傅里叶变换的复数谱，分离为实部和虚部。 b. 水印编码：16比特信息通过一个Watermark Encoder（512维全连接层+LeakyReLU）进行编码。 c. 双路特征提取与嵌入：实部和虚部分别通过独立的Real Encoder和Imaginary Encoder（均为6层卷积网络，基本单元为Skip-Gated Block）提取特征。编码后的水印信息被分别注入到实部和虚部的特征中，通过Real Embedder和Imaginary Embedder（结构同编码器）进行融合。 d. 逆STFT：将修改后的实部和虚部谱图通过逆短时傅里叶变换合成为含水印的音频波形。设计理由：复数域嵌入利用了人耳对相位失真相对不敏感的特性，相比仅修改幅度谱的方法（如Timbre Watermarking），能在保证不可感知性的前提下，实现更有效的水印嵌入。失真层： ...