Posts

Hearing Without Noticing? Attention-Aware Stealthy Black-Box Adversarial Audio Attacks

📄 Hearing Without Noticing? Attention-Aware Stealthy Black-Box Adversarial Audio Attacks #语音识别 #音频生成 7.6/10 | 创新 1.4/2 | 严谨 1/1.5 | 实验 1.1/1.5 | 清晰 0.7/1 | 影响 0.8/1.5 | 开源 1.2/1.5 | 复现 0.4/0.5 | 工程 1/1.5 ✅ 7.6/10 | 前25% | #语音识别 | #音频生成 | arxiv 👥 作者与机构第一作者：Tianyi Xu（中国科学院信息工程研究所，中国科学院大学网络空间安全学院）通讯作者：Yue Zhao（中国科学院信息工程研究所），Kai Chen（中国科学院信息工程研究所）作者列表：Tianyi Xu、Cheng’an Wei、Yue Zhao、Kai Chen（均来自中国科学院信息工程研究所 / 中国科学院大学网络空间安全学院） 💡 毒舌点评本文巧妙利用“听觉不留意”的心理声学现象，将其建模为可优化的注意力稀释损失，在对抗音频隐蔽性上迈出了关键一步。200人用户研究中55.6%的不可察觉率远超前人，攻击成本仅0.43美元，成果说服力强。然而，方法深度依赖人工精选的42首音乐载体库和经典MPEG-1掩蔽模型，对长命令和稀疏音乐的泛化能力明显不足；防御实验仅测试了两种基础信号处理手段，面对现实世界中可能存在的说话人验证、音频取证等主动防御系统时，其攻击效力仍存疑，这削弱了其宣称的现实威胁等级。 📌 核心摘要论文要解决的问题：在真实物理世界中对商用黑盒自动语音识别（ASR）系统发起隐蔽对抗攻击。现有方法仅关注压缩扰动幅度，忽视了人类选择性注意力机制，导致生成的对抗音频仍易被察觉（如Occam仅10.78%用户认为正常，Kenku有46%用户能识别嵌入的指令）。方法核心是提出HWN（Hearing Without Noticing）框架，包含两个关键设计：基于心理声学掩蔽效应的注意力兼容载体选择算法（从候选音乐库中选出最能掩蔽目标命令的音乐片段）和基于结构-残差分解的注意力稀释损失函数（抑制频谱中易捕获注意力的突变成分）。与已有方法相比，HWN的新颖之处在于显式建模“注意力”而非仅最小化信噪比，通过载体选择与频谱纹理平滑双重机制提升感知隐蔽性，将攻击从“小声”推向“不被注意”的层次。 ...

Hidden in Plain Tokens: Simply Robust, Gradient-Free Watermark for Synthetic Audio

📄 Hidden in Plain Tokens: Simply Robust, Gradient-Free Watermark for Synthetic Audio #音频水印 #自回归模型 #鲁棒性 #无监督学习 #理论分析 7/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1.1/1.5 | 清晰 0.7/1 | 影响 0.9/1.5 | 开源 0.8/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 7/10 | 前50% | #音频水印 | #自回归模型 | #鲁棒性 #无监督学习 | arxiv 👥 作者与机构第一作者：Georgios Milis（马里兰大学帕克分校计算机科学系）通讯作者：Heng Huang（马里兰大学帕克分校计算机科学系，heng@umd.edu）作者列表：Georgios Milis、Yubin Qin、Yihan Wu、Heng Huang（均来自马里兰大学帕克分校计算机科学系） 💡 毒舌点评用图社区发现来减轻重标记化误差的思路确实精简，将水印检测提升了好几个数量级，且全程无需梯度，黑盒友好。但对时间篡改（裁剪、变速）几乎束手无策，且音乐生成任务下 FAD 明显劣于无扰动基线；实验缺少与主流后置水印的直接对标，使“SOTA”声明缺少横向参照。 ...

HyperPotter: Spell the Charm of High-Order Interactions in Audio Deepfake Detection

📄 HyperPotter: Spell the Charm of High-Order Interactions in Audio Deepfake Detection #音频伪造检测 #自监督学习 #图神经网络 7.9/10 | 创新 1.1/2 | 严谨 1/1.5 | 实验 1.3/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 7.9/10 | 前25% | #音频伪造检测 | #自监督学习 | #图神经网络 | arxiv 👥 作者与机构第一作者：Qing Wen（浙江大学区块链与数据安全全国重点实验室，浙江大学上海高等研究院）通讯作者：Zhongjie Ba（浙江大学，杭州高新技术产业开发区（滨江）区块链与数据安全研究院），Peng Cheng（浙江大学，杭州高新技术产业开发区（滨江）区块链与数据安全研究院）作者列表：Qing Wen（同上），Haohao Li（浙江大学），Zhongjie Ba（浙江大学），Peng Cheng（浙江大学），Miao He（浙江大学），Li Lu（浙江大学），Kui Ren（浙江大学） 💡 毒舌点评本文利用O-信息理论优雅地诊断了音频深伪检测中的高阶交互缺失问题，并祭出超图与原型学习这对组合拳，立意颇有新意，实验覆盖也堪称广博。然而，方法本质上仍是Wav2Vec2-AASIST的“嫁接增强版”，原型引导与关系放大的协同缺乏深层理论论证，更像依赖工程直觉的拼装。更致命的是，在强压缩场景下性能反而开倒车，作者对何时该用高阶、何时该信冗余仍语焉不详，让整个框架的“协同”假设显得脆弱而不可控。 📌 核心摘要要解决的问题：现有音频深伪检测方法依赖局部或成对关系，忽视了由多个频谱-时间分量联合涌现的高阶协同交互（HOIs）。论文旨在显式建模HOIs，以捕获更具泛化性的伪造痕迹。方法核心：提出HyperPotter框架，以超图（hypergraph）代替传统成对图。利用由类感知原型库引导的模糊C均值（FCM）聚类构建软超边捕获高阶关系，并设计了关系伪影放大模块以增强微弱伪造线索。与已有方法相比的新在哪里：首次引入O-信息量化音频深伪检测中的冗余-协同模式，为高阶关系建模提供理论动机。将对称成对的图学习扩展为非成对的超图学习，并创新性地引入跨批次原型记忆机制，为FCM超边构建注入长期结构先验。主要实验结果：在仅用ASVspoof2019 LA训练的条件下，HyperPotter在13个测试集上相比Wav2Vec2-AASIST基线，平均相对EER降低12.68%，在性能改善的11个集上，该降幅高达22.15%。具体而言，In‑the‑Wild EER从7.58%降至5.72%，FoR从4.24%降至3.89%，LibriVoc EER从6.96%降至2.55%。但在重度编解码场景ASVspoof2021 LA（2.48%→3.94%）和ASVspoof5（13.38%→16.04%）上性能出现明显退化。实际意义：证明了高阶关系建模能有效捕获可迁移的伪造痕迹，作为一种“协同专家”，它可在多专家系统中与“冗余专家”互补，提升复杂场景下的整体检测鲁棒性。主要局限性：强编解码/信道失真会“掩盖”高阶依赖，导致该方法退化成噪声源；模型在参数量近乎不变的情况下，训练和推理开销显著增加，部署友好度差。 🔗 开源详情代码：https://github.com/HyperPotter/HyperPotter 模型权重：论文及GitHub仓库声明提供了预训练模型，位于上述仓库中。数据集：论文使用多个公开数据集（ASVspoof 2019 LA, 2021 LA/DF, 2024/5, In-the-Wild, FoR, Codecfake, ADD 2022/2023 系列, LibriVoc, SONAR 等），需遵循各数据集官方协议获取。复现材料：GitHub仓库提供代码、预训练模型及详细附录（超参、增强策略），复现可行性高。关键依赖项目： Wav2Vec2-AASIST (基线): https://github.com/TakHemlata/Wav2Vec2-AASIST XLS-R: https://github.com/facebookresearch/fairseq/tree/main/examples/wav2vec RawNet2: https://github.com/asvspoof-challenge/2021/tree/main/LA/Baseline-RawNet2 RawBoost: https://github.com/TakHemlata/RawBoost MUSAN: https://www.openslr.org/17/ 🏗️ 方法概述和架构 HyperPotter将音频深伪检测形式化为图级分类任务。 ...

INFER: Learning Implicit Neural Frequency Response Fields for Confined Acoustic Environments

📄 INFER: Learning Implicit Neural Frequency Response Fields for Confined Acoustic Environments #空间音频 6.4/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 0.9/1.5 | 清晰 0.7/1 | 影响 0.9/1.5 | 开源 0.4/1.5 | 复现 0.3/0.5 | 工程 0.9/1.5 ✅ 6.4/10 | 前50% | #空间音频 | #空间音频 | arxiv 👥 作者与机构第一作者：Harshvardhan C. Takawale（马里兰大学帕克分校计算机系；工作完成于Dolby Laboratories, Inc.）通讯作者：Harshvardhan C. Takawale（htakawal@umd.edu）作者列表：Harshvardhan C. Takawale（马里兰大学帕克分校计算机系 / Dolby Laboratories, Inc.）、Nirupam Roy（马里兰大学帕克分校计算机系）、C. Phillip Brown（Dolby Laboratories, Inc.） 💡 毒舌点评这篇文章以“frequency-first”为旗号，构建了一个工程上相当完备的频域神经声场建模管道。将Kramers-Kronig因果关系约束引入神经声场渲染，确实为黑箱模型注入了一丝物理可解释性，这值得肯定。然而，论文最大的争议点在于：它猛烈抨击时域方法“难以捕获频率选择性行为”，但其自身在关键的时域混响指标T60上却遭遇了灾难性滑坡（Buck数据集上T60误差高达9.8，而AVR仅为3.2）。作者将这一退化轻描淡写地归因于“感知频率加权”，但并未从原理上令人信服地论证为何频域建模必然导致时域包络的崩溃。这在某种程度上是“在频域考场上用频域模型吊打时域学生”，其宣称的39%幅度提升和51%相位提升，其比较基准的公平性值得读者深思。 ...

IVQ: Structured and Lightweight Vector Quantization via Binary Hierarchical Composition Inspired by

📄 IVQ: Structured and Lightweight Vector Quantization via Binary Hierarchical Composition Inspired by \(\textit{IChing}\) #音频编码 #音乐生成 #多模态模型 #模型压缩 8.2/10 | 创新 1.8/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 0.7/1 | 影响 1/1.5 | 开源 1.2/1.5 | 复现 0.4/0.5 | 工程 0.9/1.5 🔥 8.2/10 | 前25% | #音频编码 | #模型压缩 | #音乐生成 #多模态模型 | arxiv 👥 作者与机构第一作者：Heda Zuo（浙江大学计算机科学与技术学院）通讯作者：Weitao You（浙江大学计算机科学与技术学院）作者列表：Heda Zuo（浙江大学计算机科学与技术学院）、Junxian Wu（浙江大学计算机科学与技术学院）、Fengjie Lu（浙江大学计算机科学与技术学院）、Pei Chen（浙江大学计算机科学与技术学院）、Lingyun Sun（浙江大学计算机科学与技术学院）、Weitao You（浙江大学计算机科学与技术学院） 💡 毒舌点评这篇论文的野心在于用东方哲学包装一个本质上属于残差积量化（Residual-Product VQ）的技术方案，并试图将《易经》的符号系统强制映射为一种结构先验。但难能可贵的是，这种包装并非纯粹的概念点缀，而是真正催生了极简码本（4×2个基向量）与几何对称约束的有效结合，从根本上解决了码本坍缩，并实现了100%的利用率。在“大力出奇迹”的Scaling Law时代，这种追求结构优雅和极致轻量化的反向探索具有启发性。但哲学隐喻增加了不必要的阅读障碍，且实验规模与当前主流大模型相差甚远，使其实用性仍存疑。 ...

JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments

📄 JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments #声源定位 #多模态模型 #空间音频 #参数高效微调 #数据集 8.1/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.4/0.5 | 工程 1/1.5 🔥 8.1/10 | 前25% | #声源定位 | #多模态模型 | #空间音频 #参数高效微调 | arxiv 👥 作者与机构第一作者：Zhan Liu（清华大学、腾讯AI Lab）通讯作者：Chao Zhang（清华大学）作者列表：Zhan Liu（清华大学、腾讯AI Lab）、Changli Tang（清华大学）、Yuxin Wang（香港科技大学）、Zhiyuan Zhu（浙江大学）、Youjun Chen（香港中文大学）、Yiwen Shao（腾讯AI Lab）、Tianzi Wang（腾讯AI Lab）、Lei Ke（腾讯AI Lab）、Zengrui Jin（清华大学）、Chao Zhang（清华大学） 💡 毒舌点评本文提出了在3D模拟物理环境中进行联合音视频定位与推理的框架 JAEGER，其核心贡献 Neural IV 和 SpatialSceneQA 数据集为空间音频理解研究提供了有价值的工具和基准。亮点在于系统性整合了 RGB-D 视觉与多通道 FOA，并在附录中通过 SimpleFuse 基线实验初步证明了其架构设计的有效性，而非仅依赖于多模态输入的堆砌。然而，实验设计存在明显的“避重就轻”：正文主表（Table 2）回避了 SimpleFuse 基线，将其置于附录，这使得核心主张——即架构的优越性——在主叙述中缺乏最直接的量化支撑。此外，3D 视觉接地任务中，专门针对 3D 的模型 N3D-VLM 竟获得 0.0 IoU，这一零样本、无适配的对比方式极不公正，更像是对基线的“处决”而非“比较”。更严重的是，多说话人推理任务在正文中汇报了接近 100% 的准确率，营造出任务已被解决的假象，而论文在附录中承认，当干扰项增至 4-6 个时性能迅速下降，这种对任务天花板效应（ceiling effect）的深度分析本应是正文的核心内容，却被掩盖于近乎完美的数字之下。 ...

Joint Enhancement and Classification using Coupled Diffusion Models of Signals and Logits

📄 Joint Enhancement and Classification using Coupled Diffusion Models of Signals and Logits #语音识别 #语音增强 #鲁棒性 #扩散模型 #多模态模型 9.3/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.2/1.5 | 清晰 0.9/1 | 影响 1.2/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 🔥 9.3/10 | 前10% | #语音识别 | #扩散模型 | #语音增强 #鲁棒性 | arxiv 👥 作者与机构第一作者：Gilad Nurko（Technion – Israel Institute of Technology）通讯作者：Gilad Nurko（Technion – Israel Institute of Technology）作者列表：Gilad Nurko（Technion – Israel Institute of Technology）、Roi Benita（Technion – Israel Institute of Technology）、Yehoshua Dissen（Technion – Israel Institute of Technology）、Tomohiro Nakatani（NTT, Inc., Japan）、Marc Delcroix（NTT, Inc., Japan）、Shoko Araki（NTT, Inc., Japan）、Joseph Keshet（Technion – Israel Institute of Technology） 💡 毒舌点评信号与logits扩散的耦合想法聪明又实用，让增强和识别双向奔赴，确实比傻乎乎的“先增强后分类”高出几个段位。但计算开销是硬伤，Nested和Alternating策略的NFE（神经功能评估）倍数（10×和7×）让部署侧直呼受不了，且ASR实验一直抱着受限词表不放，似乎有点逃避大词汇量连续识别的hard mode。整体瑕不掩瑜，ICML的spotlight水平，但别想让审稿人给full oral。 ...

LALM-as-a-Judge: Benchmarking Large Audio-Language Models for Safety Evaluation in Multi-Turn Spoken Dialogues

📄 LALM-as-a-Judge: Benchmarking Large Audio-Language Models for Safety Evaluation in Multi-Turn Spoken Dialogues #语音交互 #语音大模型 #基准测试 #内容审核 #多模态模型 8.1/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 0.9/1 | 影响 0.8/1.5 | 开源 1.5/1.5 | 复现 0.4/0.5 | 工程 1.2/1.5 🔥 8.1/10 | 前25% | #语音交互 | #语音大模型 | #基准测试 #内容审核 | arxiv 👥 作者与机构第一作者：Amir Ivry（Technion–Israel Institute of Technology, Electrical and Computer Engineering）通讯作者：Amir Ivry（Technion–Israel Institute of Technology, Electrical and Computer Engineering）作者列表：Amir Ivry（Technion–Israel Institute of Technology, Electrical and Computer Engineering）、Shinji Watanabe（Carnegie Mellon University, Language Technologies Institute） 💡 毒舌点评这篇论文为语音安全评估贡献了一个设计精良的受控基准，最可贵之处在于清晰揭示了“增加音频不一定更安全”这一反直觉结论，并系统解构了模态、转录源和提示策略间的复杂交互。然而，所有对话均基于合成语音，真实的嘈杂环境、口音、自然副语言信息和多轮累积危害的缺失，使得当前结论能否直接迁移到实际部署中仍存较大疑问，而作者在这方面过于乐观的决策流程图可能会误导急于落地的从业者。 ...

Language Model Augmented Semi-Supervised Statistical Inference

📄 Language Model Augmented Semi-Supervised Statistical Inference #语音属性识别 #大语言模型 #少样本 #医疗音频 #理论分析 5.4/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 0.7/1.5 | 清晰 0.8/1 | 影响 0.4/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 📝 5.4/10 | 后50% | #语音属性识别 | #大语言模型 | #少样本 #医疗音频 | arxiv 👥 作者与机构第一作者：Xinrui Ruan（University of California, Berkeley, Division of Biostatistics）通讯作者：Jingshen Wang（University of California, Berkeley, Division of Biostatistics）作者列表：Xinrui Ruan（University of California, Berkeley）、Yingfei Wang（University of Washington, Foster School of Business）、Waverly Wei（University of Southern California, Department of Data Sciences and Operations）、Jingshen Wang（University of California, Berkeley） 💡 毒舌点评论文在统计理论上花费了大量篇幅证明LLM伪标签的校准权重能提升半监督推断效率，思想严谨但不够惊艳——本质上是对半参数推断中投影技巧的LLM特化。实验局限于语音转录文本这一个应用，且与语音社区熟知的预训练模型（Wav2Vec2、HuBERT）毫无关联，代码、数据提取全闭源，对于语音/音频领域的读者而言，这更像一篇披着语音应用外衣的统计论文，而非真正解决语音问题的研究。 ...

Learning Tight Rejection Boundaries without Negatives for Strict One-Class Audio Deepfake Detection

📄 Learning Tight Rejection Boundaries without Negatives for Strict One-Class Audio Deepfake Detection #语音伪造检测 9.3/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 0.9/1 | 影响 1.3/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 9.3/10 | 前10% | #语音伪造检测 | #无监督学习 | arxiv 👥 作者与机构第一作者：Yuze Zhao（哈尔滨工业大学深圳）通讯作者：Wei Jiang（哈尔滨工业大学网络空间安全学院）作者列表：Yuze Zhao（哈尔滨工业大学深圳）、Kuiyuan Zhang（哈尔滨工业大学网络空间安全学院）、Zhongyun Hua（哈尔滨工业大学深圳）、Yushu Zhang（江西财经大学计算机与人工智能学院）、Qing Liao（哈尔滨工业大学深圳）、Wei Jiang（哈尔滨工业大学网络空间安全学院） 💡 毒舌点评这篇文章的野心让人眼前一亮：它试图在完全不看任何伪造样本的前提下，仅靠真实语音就训练出一个既能圈定真实分布又能明确划出“哪是假”边界的检测器，这在音频深伪检测领域确实是个硬骨头。方法核心“用结构破坏的探针代替假样本当负类”的想法很巧妙，跨域和未知攻击的鲁棒性提升也相当扎实。不过，亮点背后也藏着隐忧：探针家族纯靠人工设计，万一未来的攻击技术高明到连音频的时序、频谱、相位结构都不带破绽，这套边界恐怕就会被钻空子。另外，在线标准化虽然有效缓解了余弦坍塌，但对比的归一化方法有限，缺乏更深入的理论解释。总体而言，是一篇想法新颖、实验扎实的顶会候选，但在理论深度和终极鲁棒性上仍有待打磨。 📌 核心摘要本工作瞄准严格单类音频深度伪造检测中的核心难题：如何在仅用真实语音训练、完全不接触任何伪造样本的前提下，学习一个既能压缩真实分布、又能在嵌入空间中明确划出拒绝边界的检测器。提出 CA-SOADD (Centroid-Anchored Strict One-Class Audio Deepfake Detection)，采用“质心锚定的三目标学习”框架：质心紧凑性 (\(\mathcal{L}_{\text{cpt}}\)) 锚定真实核心、良性视图不变性 (\(\mathcal{L}_{\text{binv}}\)) 稳定质心邻域、质心参考的边界塑造 (\(\mathcal{L}_{\text{cabs}}\)) 通过结构破坏探针施加余弦间隔约束，在不引入显式负类的情况下收紧接受域。与放松的单类方法（训练时引入伪造或辅助负样本）和纯紧凑性驱动的 Deep-SVDD 等彻底划清界限：CA-SOADD 严格对齐推理时的余弦-质心打分规则，首次将离线形边界探针与质心参照间隔引入语音伪造检测，完全避免了对伪造样本的判别学习或代理判别。在多个基准上验证了有效性：ASVSpoof-2021 LA/DF 上 AUC/EER 达到 96.9%/7.3% 和 96.9%/8.4%，ASVSpoof-5 上 92.7%/13.4%，CtrSVDD 歌唱基准 EER 16.83%，MLAAD 跨语言基准全语言 EER 17.70%，均大幅优于同严格协议下的其他单类基线，并在跨基准迁移（ASVSpoof-2021→ASVSpoof-5）中超越有监督检测器。贡献了系统的消融分析：证实边界塑造损失、良性不变性、在线标准化均起关键作用，尤其是代理判别损失（BCE、InfoNCE）无法复现增益，证明增益来自评分对齐的边界塑形而非代理判别。此外，探针池按机制族移除的分析验证了整体方法对特定探针的鲁棒性。实际意义：提供了一种完全脱离伪造样本的开集检测方案，天然适应快速演变的生成攻击，部署时无需收集、标注或假设攻击类型，可降低对抗性语音检测系统的持续维护成本。主要局限：结构破坏探针池依赖人工设计，对保留自然语音结构但含细微伪造痕迹的攻击覆盖不足；在线标准化缺乏与更多归一化方法的深度对比；跨域场景下阈值需域内真实样本校准；多语言场景禁用 \(\mathcal{L}_{\text{binv}}\)，暴露了良性不变性与多中心分离间的潜在冲突；未在工业级真实管道中验证。 🔗 开源详情代码：https://github.com/120L020310/CA-SOADD （论文声明的开源仓库）模型权重：未发布数据集： ASVSpoof-2021 LA/DF：需向 https://www.asvspoof.org/ 申请 ASVSpoof-5：需向 https://www.asvspoof.org/ 申请 CtrSVDD：https://github.com/nii-yamagishilab/CtrSVDD MLAAD：https://github.com/nii-yamagishilab/mlaad 复现材料：附录 B（在线标准化伪代码）、C.3（探针池算子参数与实现细节）、C.4（探针生成器范式诊断）、E（真实阈值校准流程）、F.1/F.2（损失权值与间隔敏感度分析）提供了充分信息；所有实验在单卡 NVIDIA RTX 5090 上完成。论文引用的开源/公开项目（部分列举）： XLSR / wav2vec 2.0: https://github.com/facebookresearch/fairseq/tree/main/examples/wav2vec WavLM: https://github.com/microsoft/unilm/tree/master/wavlm HuBERT: https://github.com/facebookresearch/fairseq/tree/main/examples/hubert Deep-SVDD: https://github.com/lukasruff/Deep-SVDD AASIST: https://github.com/clovaai/aasist RawNet2: https://github.com/jungjee/RawNet CSI: https://github.com/alinlab/CSI 其他引用的方法（OC-SVM, CutPaste, NAD, OC-Softmax, LCNN, RawGAT, ABC-CapsNet, MPE, ASDG, IG-SVD, NaturalSpeech 3, MaskGCT 等）的官方仓库或论文出处已在原文参考文献中标注。 🏗️ 方法概述和架构 CA-SOADD 严格遵循单类学习协议，训练全程只使用真实语音，推理采用余弦相似度到质心的打分规则。整体流程如图2所示：原始真实语音波形 \(x\) 经过几何稳定表征提取器 \(f_\theta\) 得到句级嵌入 \(z\)，嵌入经过在线标准化后参与三目标联合训练，同时维护一个仅从真实样本更新的运行质心 \(c\)。 ...