Latent Secret Spin: Keyed Orthogonal Rotations for Blind Speech Watermarking in Anisotropic Latent Spaces

📄 Latent Secret Spin: Keyed Orthogonal Rotations for Blind Speech Watermarking in Anisotropic Latent Spaces #音频水印 #主成分分析 #潜在空间操作 #神经编解码器 #鲁棒性 📝 5.5/10 | 前50% | #音频水印 | #主成分分析 | #潜在空间操作 #神经编解码器 | arxiv 学术质量 5.5/8 | 影响力 0.5/2 | 可复现性 0.4/1 | 置信度 高 👥 作者与机构 第一作者:Emma Coletta (EURECOM) 通讯作者:未明确说明(论文中未明确指定通讯作者,通常通讯作者为资深作者,但未显式标注) 作者列表:Emma Coletta (EURECOM)、Massimiliano Todisco (EURECOM)、Michele Panariello (EURECOM)、Antonio Faonio (EURECOM)、Nicholas Evans (EURECOM) 💡 毒舌点评 LSS的核心思想——在PCA空间利用各向异性进行微小旋转来诱导协方差变化——确实优雅且具备可解释性,为神经水印提供了一个纯几何的、无需训练的新视角。然而,其“轻量级”光环在很大程度上是以牺牲对更复杂、更贴近实战的攻击(如自适应攻击、裁剪拼接)的严格评估为代价的,使得该方法在安全关键应用中的可靠性存疑。 📌 核心摘要 问题:随着AI生成语音的泛滥,可靠的盲语音水印技术对于内容溯源和真实性验证至关重要。现有学习型水印方法(如WavMark, AudioSeal)虽然有效,但需要端到端训练,且部分方法(如AudioSeal)的负载固定,鲁棒性依赖训练数据覆盖。 方法核心:提出Latent Secret Spin (LSS),一种基于几何操作的盲语音水印框架。其核心是在预训练神经语音编解码器(如EnCodec)的潜在空间中,首先通过PCA获得一组正交基(主成分)。嵌入时,根据密钥生成的伪随机调度,在选定的主成分平面(各向异性平面)内对潜在特征施加微小的正交旋转。这些旋转会在平面的协方差矩阵中引入可预测的离对角项变化。检测时,在相同密钥控制下,重新计算这些特定平面上的归一化协方差,并与已知的负载和芯片序列进行累积,形成一个检测分数,分数超过阈值则判定存在水印。 新颖性:LSS是首个明确利用在主成分空间中通过几何旋转诱导可控协方差模式来进行语音水印和负载嵌入的方法。它完全不需要训练嵌入器或检测器网络,仅依赖于一个预训练编解码器和一组固定的PCA基,实现了水印嵌入/检测与编解码器的解耦,提供了更好的可解释性和跨模型泛化潜力。 实验结果:实验在VoxPopuli和ASVspoof5数据集上进行,内外部域场景下检测AUC均超过99.3%。在非恶意扰动(滤波、压缩、加噪)下,LSS的平均AUC为95.6%,略低于AudioSeal(97.2%),但在低通滤波(1kHz)场景下优于后者。感知质量方面,水印引入的平均PESQ下降小于0.2。 操纵类型 条件 LSS AUC (%) AudioSeal AUC (%) 无操纵 - 99.6 100.0 低通滤波 fc=1kHz 96.5 67.8 低通滤波 fc=1.5kHz 98.1 100.0 高通滤波 fc=1kHz 87.3 100.0 高通滤波 fc=1.5kHz 80.3 100.0 带通滤波 500Hz – 5kHz 97.4 100.0 MP3压缩 32kbps 99.5 100.0 重采样 24->16->24 kHz 99.7 100.0 白噪声 SNR = 5dB 94.8 99.8 白噪声 SNR = 20dB 99.3 100.0 粉噪声 SNR = 5dB 95.6 99.9 粉噪声 SNR = 20dB 99.4 100.0 平均 95.6 97.2 实际意义:LSS为语音水印领域引入了一种可解释、轻量级且灵活(负载可调)的新范式。它不依赖特定模型训练,降低了部署门槛,并可能启发其他在表示学习空间中进行几何操作的安全应用。 局限性:论文评估仅限于良性、非恶意的信号处理扰动,未评估针对水印的自适应对抗攻击(如梯度攻击去除水印)。对时间轴上的篡改(如剪切、拼接)的鲁棒性未充分研究。感知质量仅依赖客观指标PESQ,缺乏主观听力测试验证。 🔗 开源详情 代码:https://github.com/eurecom-asp/lss (论文第5.2节脚注明确指出代码和示例音频在此仓库) 模型权重:论文中未提及 数据集: VoxPopuli:论文中提到使用其英文子集(100小时无标注数据用于PCA估计,10k条用于评估)。获取方式通常通过官方途径(如申请),但论文中未提供具体链接。 ASVspoof 5:论文中提到使用其评估分区中的无压缩真实语音(约35k条,其中10k用于评估,25k用于PCA估计)。获取方式需遵循ASVspoof挑战赛的官方数据发布渠道,论文中未提供具体链接。 Demo:论文中未提及 复现材料:论文在“5.2 Configuration”节提供了详细的复现参数,包括:使用预训练的EnCodec编解码器(24kHz,6.0kbps目标带宽);特征维度n=128;帧率75Hz;分块大小M=32帧;子块大小L=8帧;使用P=24个平面;旋转角度θ=0.18 rad。这些信息已足以复现实验结果。 论文中引用的开源项目: EnCodec:论文使用的预训练神经音频编解码器。脚注中提供了其官方代码链接:https://github.com/facebookresearch/encodec。 WavMark:论文在相关工作部分提及的语音水印方法,但未提供其代码链接。 AudioSeal:论文在相关工作及实验比较部分提及的语音水印方法,但未提供其代码链接。 🏗️ 方法概述和架构 图2:LSS水印嵌入与检测流程概览。在嵌入时,输入信号x被编码为潜在特征F,投影到主成分空间为Z,经水印处理后得到Z*,映射回潜在空间F*,最后解码回水印语音x*。检测时,待测信号同样被编码并投影到相同空间,然后进行水印检测。 ...

2026-05-12 · 更新于 2026-05-19 · 3 min · 446 words

语音/音频论文速递 2026-05-12

语音/音频论文速递 2026-05-12 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 3篇 ███ #音乐生成 2篇 ██ #语音合成 2篇 ██ #语音增强 2篇 ██ #音频深度伪造检测 2篇 ██ #基准测试 2篇 ██ #语音质量评估 1篇 █ #音频编码 1篇 █ 📊 论文评分排行榜(39 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Polyphonia: Zero-Shot Timbre Transfer in Polyphonic Mus 7.5分 前30% #音乐生成 🥈 PoDAR: Power-Disentangled Audio Representation for Gene 7.3分 前25% #语音合成 🥉 Evaluating the Expressive Appropriateness of Speech in 7.2分 前25% #语音质量评估 4. Reducing Linguistic Hallucination in LM-Based Speech En 7.2分 前25% #语音增强 5. Encoding and Decoding Temporal Signals with Spiking Ban 7.0分 前25% #音频编码 6. Mitigating Multimodal Inconsistency via Cognitive Dual- 7.0分 前50% #意图识别 7. SF-Flow: Sound field magnitude estimation via flow matc 6.8分 前25% #空间音频 8. Probing Cross-modal Information Hubs in Audio-Visual LL 6.5分 前25% #模型分析 9. Towards Trustworthy Audio Deepfake Detection: A Systema 6.5分 前25% #音频深度伪造检测 10. Unison: Harmonizing Motion, Speech, and Sound for Human 6.5分 前30% #音视频生成 11. CORTEG: Foundation Models Enable Cross-Modality Represe 6.5分 前25% #脑机接口 12. Omni-Persona: Systematic Benchmarking and Improving Omn 6.5分 前25% #基准测试 13. DiffVQE: Hybrid Diffusion Voice Quality Enhancement Und 6.2分 前30% #语音增强 14. A Cold Diffusion Approach for Percussive Dereverberatio 6.2分 前35% #音频修复 15. APEX: Audio Prototype EXplanations for Classification T 6.2分 前25% #音频分类 16. How Should LLMs Listen While Speaking? A Study of User- 6.0分 前25% #语音对话系统 17. RADAR Challenge 2026: Robust Audio Deepfake Recognition 6.0分 前50% #音频深度伪造检测 18. ShipEcho – An Interactive Tool for Global Mapping of U 6.0分 前25% #水下声学 19. Rethinking Entropy Minimization in Test-Time Adaptation 6.0分 前40% #语音识别 20. Separate First, Fuse Later: Mitigating Cross-Modal Inte 6.0分 前50% #音视频问答 21. ChladniSonify: A Visual-Acoustic Mapping Method for Chl 6.0分 前50% #音频生成 22. Omni-DeepSearch: A Benchmark for Audio-Driven Omni-Moda 6.0分 前25% #基准测试 23. Online Segmented Beamforming via Dynamic Programming 6.0分 前25% #声源定位 24. FLARE: Full-Modality Long-Video Audiovisual Retrieval B 6.0分 前25% #音频检索 25. Speech-based Psychological Crisis Assessment using LLMs 5.8分 前25% #语音情感识别 26. EAR: Enhancing Uni-Modal Representations for Weakly Sup 5.8分 前25% #音频事件检测 27. Kinetic-Optimal Scheduling with Moment Correction for M 5.5分 前50% #语音合成 28. Dolphin-CN-Dialect: Where Chinese Dialects Matter 5.5分 前50% #语音识别 29. Latent Secret Spin: Keyed Orthogonal Rotations for Blin 5.5分 前50% #音频水印 30. Bangla-WhisperDiar: Fine-Tuning Whisper and PyAnnote fo 5.5分 前50% #语音识别 #说话人日志 31. Remix the Timbre: Diffusion-Based Style Transfer Across 5.5分 前30% #音色迁移 32. Low-Cost Detection of Degraded Voice Clones via Source- 5.3分 前50% #语音伪造检测 33. Single-Microphone Audio Point Source Discriminative Loc 5.0分 前50% #说话人分离 34. Responsible Benchmarking of Fairness for Automatic Spee 5.0分 前50% #语音识别 35. Sub-JEPA: Subspace Gaussian Regularization for Stable E 5.0分 前50% #世界模型 36. AllocMV: Optimal Resource Allocation for Music Video Ge 4.8分 前50% #音乐视频生成 37. Multi-layer attentive probing improves transfer of audi 4.0分 中等偏上 #生物声学 #音频分类 38. Drum Synthesis from Expressive Drum Grids via Neural Au 4.0分 前50% #音乐生成 39. Voice Biomarkers for Depression and Anxiety 1.0分 后50% #语音生物标志物 📋 论文列表 🥇 Polyphonia: Zero-Shot Timbre Transfer in Polyphonic Music with Acoustic-Informed Attention Calibration ✅ 7.5/10 | 前30% | #音乐生成 | #扩散模型 | #注意力机制 #零样本 | arxiv ...

2026-05-12 · 更新于 2026-05-19 · 28 min · 5761 words