检索增强 | 语音/音乐/音频论文速递

Bypassing Direct Reconstruction: Speech Detection from MEG via Large-Scale Audio Retrieval

📄 Bypassing Direct Reconstruction: Speech Detection from MEG via Large-Scale Audio Retrieval #语音活动检测 #对比学习 #检索增强 #预训练 ✅ 7.0/10 | 前25% | #语音活动检测 | #对比学习 #检索增强 | #对比学习 #检索增强 | arxiv 学术质量 5.5/8 | 影响力 0.6/2 | 可复现性 0.4/1 | 置信度高 👥 作者与机构第一作者：Boda Xiao（北京大学BioMed-X研究中心、北京国家通用人工智能前沿科学中心）通讯作者：Heping Cheng（北京大学分子医学研究所、北京-清华生命科学中心、未来技术学院）作者列表：Boda Xiao（北京大学BioMed-X研究中心、北京国家通用人工智能前沿科学中心）、Bo Wang（北京大学言语与听觉研究中心、北京国家通用人工智能前沿科学中心）、Heping Cheng（北京大学分子医学研究所、北京-清华生命科学中心、未来技术学院） 💡 毒舌点评这篇论文的核心在于一个聪明的“偷懒”策略：面对从低信噪比MEG信号直接重建语音特征这一艰巨任务（作者自述精度仅~0.4），他们选择不去硬碰硬，而是转向一个更简单的任务——在庞大的LibriVox有声书库里，为给定的MEG片段“找出”对应的原始音频。这确实是一个在特定竞赛规则下能拿到高分（F1: 0.962）的巧妙工程捷径。然而，这恰恰暴露了其根本局限：该框架的成功极度依赖一个强假设——测试时听到的语音必须100%存在于那个预定义的60% LibriVox子集中。一旦脱离这个封闭的、已知的“题库”，该方法就立刻失效，对于未匹配部分只能回退到那个他们自己认为“不够好”的简单回归基线。因此，它更像一个针对LibriBrain 2025竞赛的“特解”，而非一个能推广到真实世界非侵入式BCI场景的通用方法论。论文的亮点在于其清晰的“绕行”思路，但其短板在于将一个通用科学问题转化为了一个特定条件下的工程问题，且对通用性和鲁棒性避而不谈。 📌 核心摘要问题：解决在LibriBrain 2025竞赛中，从低信噪比的MEG信号中准确检测语音/静默段的问题。作者指出，直接从MEG回归语音特征（如梅尔频谱图）的精度（Pearson相关系数~0.4）不足以支持此任务。方法核心：提出一个两阶段框架：首先，使用对比学习模型从大规模外部音频库（约60% LibriVox）中检索与给定测试MEG最匹配的语音片段；其次，使用一个语音检测模型，根据检索到的语音片段（及其经过处理的版本）直接生成二进制语音/静默序列。新在哪里：不同于主流的直接从MEG回归特征的范式，该方法绕过了直接重建的难题，转而利用外部数据库进行检索，将“重建问题”转化为“检索与模式匹配问题”。实验结果：该方法在LibriBrain竞赛扩展赛道取得了第一名，F1-score为0.962。对于测试MEG数据（总时长2243秒）中从1398秒开始的后半部分，通过检索匹配到了LibriVox中的特定有声书（studyinscarlet13）并成功生成序列；对于前1398秒，因在下载的60% LibriVox子集中未找到匹配音频，回退使用简单CNN+LSTM回归方法。实际意义：证明了在存在大规模外部音频库的特定场景下，利用检索策略辅助脑信号解码的可行性，为竞赛任务提供了第一名的解决方案。主要局限性：方法严重依赖测试音频存在于预定义的外部库中（论文中仅为60% LibriVox子集），无法处理库中没有的语音内容；对于未找到匹配音频的信号段，性能依赖于简单基线；整体框架的通用性和跨任务泛化能力未得到验证。 🔗 开源详情代码：论文中未提及作者自己训练模型的代码链接。模型权重：预训练模型权重：论文中提及并提供了外部预训练模型权重链接：https://huggingface.co/facebook/wav2vec2-base-960h。作者团队训练的模型权重：包括MEG编码器、对比学习模型、语音检测模型，均未提供下载链接。数据集： LibriVox数据集：论文中提及，并提供了下载主站链接：https://www.audiobooks.com。论文使用了约60%的数据（约10,000本有声读物），但未提供其使用的具体子集列表或下载脚本。 Libriaudio：作者根据比赛组织者提供的语音源URL从LibriVox下载并整理的完整音频文件集合，用于后续合成MEGaudio。未提供此数据集的直接下载链接。 MEGaudio：通过将event.tsv文件中记录的静音段插入Libriaudio对应位置后合成的音频，作为训练MEG-语音匹配模型和语音检测模型的直接输入。论文未提供此合成数据集的直接下载链接，但描述了其构建方法。 LibriBrain 2025竞赛数据集：论文未提及该竞赛数据集的独立下载链接。 Demo：论文中未提及。复现材料：训练配置：论文提供了详细的模型训练超参数（如学习率1×10⁻³、批量大小、温度参数τ=0.015、训练停止条件等）。数据划分：明确说明了使用Sherlock 1任务的第9、10会话作为验证集，第11、12会话作为测试集，其余作为训练集。模型架构：指定了MEG编码器使用ConvConcatNet架构（引用自文献[20]），但未提供该架构的具体实现细节。检查点：论文中未提及检查点的公开获取方式。论文中引用的开源项目： Wav2vec 2.0：论文中明确使用了其预训练模型，并提供了HuggingFace链接：https://huggingface.co/facebook/wav2vec2-base-960h。 Adam优化器：论文中使用了Adam优化器进行模型训练，但未提供其具体实现（如PyTorch或TensorFlow）的链接。 ConvConcatNet：论文中引用为文献[20]，但未提供该架构的具体代码链接。 🏗️ 方法概述和架构本文提出了一种两阶段流水线框架，用于从MEG信号中检测语音活动。该框架的核心思想是规避从低信噪比MEG信号中直接重建语音特征的困难，转而采用“检索-分析”的策略。 ...

A Decomposed Retrieval-Edit-Rerank Framework for Chord Generation

📄 A Decomposed Retrieval-Edit-Rerank Framework for Chord Generation #音乐生成 #检索增强 #规则约束 #音乐信息检索 ✅ 6.5/10 | #音乐生成 #检索增强 | arxiv 👥 作者与机构第一作者：Qiqi He（网易云音乐，上海）通讯作者：未说明作者列表：Qiqi He（网易云音乐，上海）、Dichucheng Li（个人研究者，香港）、Xiaoheng Sun（网易云音乐，上海）、Anqi Huang（网易云音乐，上海） 💡 毒舌点评这篇论文将RER范式引入和弦生成是一个清晰且工程化的思路，消融实验也很好地证明了各模块的互补作用，但论文的核心创新更多体现在系统设计而非算法突破。其最大的短板在于对“检索-编辑-重排序”这一框架的分析深度不足，尤其是编辑阶段将复杂的音乐理论简化为几个约束进行Viterbi搜索，其有效性和泛化能力存疑，且缺乏对框架中关键超参数（如检索池大小K，编辑距离权重λ）的敏感性分析。 📌 核心摘要要解决什么问题：现有端到端和弦生成模型将风格多样性与音乐理论可行性耦合在一个模型中，难以平衡与解释。方法核心是什么：提出一个分解式的检索-编辑-重排序框架。检索阶段从记忆库中检索风格相似的候选和弦进行；编辑阶段通过优化算法将候选和弦投影到满足音乐理论约束的可行空间；重排序阶段综合风格相似度和编辑代价选择最终和弦进行。与已有方法相比新在哪里：不同于将生成与约束融为一体的端到端模型，该框架将任务显式分解为三个阶段，提升了系统的可解释性、可调整性和可控性，且无需额外的GPU推理成本。主要实验结果如何：在RWC-Pop和Wikitest数据集上，该框架在多样性指标（CHE, CC）上最接近真实数据，同时保持了有竞争力的和谐性指标（PCS, MCTD）。消融实验证实，移除检索阶段导致多样性（CHE, CC）大幅下降；移除编辑阶段导致和谐性（PCS, MCTD）明显变差；移除重排序阶段影响较小但能优化选择。主观听觉评估显示其在和谐性、创造性和总体偏好上最平衡。实际意义是什么：为音乐制作工作流（如旋律和声化）提供了一种更可控、可解释的和弦进行生成系统，允许通过调整系统级接口（如检索池大小、约束集、偏好权重）来适应不同风格。主要局限性是什么：论文承认在检索候选与输入旋律距离过远时，编辑后结果会趋于保守。此外，音乐理论约束的建模较为简化，可能无法覆盖所有音乐风格；对框架关键组件的相互作用和超参数影响分析不够深入。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及。数据集： RWC-Pop：论文中引用 (Goto et al., 2002)，是付费数据集，论文中未提供开源下载链接。 Wikitest：论文中引用，衍生自 Wikifonia 数据集的测试集，论文中未提供具体链接。 POP-909：论文中引用 (Wang et al., 2020)，论文中未说明其开源状态及链接。 Nk1k3：论文中明确说明为内部数据集 (internal dataset)，未公开。 Demo：论文中未提及。复现材料：论文中未提及训练配置、检查点、具体模型权重等复现材料的链接。论文中引用的开源项目： FAISS：论文中提及使用 FAISS (Johnson et al., 2021) 进行向量检索，但未提供其代码仓库链接。 🏗️ 方法概述和架构该论文提出一个用于可控和弦生成的检索-编辑-重排序框架。其核心思想是将任务分解为三个串行的、功能明确的阶段，以解决现有端到端模型在多样性与可行性之间难以权衡的问题。 ...

Unified Multi-Modal Interactive and Reactive 3D Motion Generation via Rectified Flow

📄 Unified Multi-Modal Interactive and Reactive 3D Motion Generation via Rectified Flow #动作生成 #流匹配 #检索增强 #多模态 #扩散模型 ✅ 7.5/10 | 前25% | #动作生成 | #流匹配 | #检索增强 #多模态学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Prerit Gupta (Purdue University, Department of Computer Science) 通讯作者：未说明（但Aniket Bera为最后作者，通常为通讯作者）作者列表：Prerit Gupta (Purdue University), Shourya Verma (Purdue University), Ananth Grama (Purdue University), Aniket Bera (Purdue University) 💡 毒舌点评亮点在于将交互和反应式双人动作生成统一到一个框架中，并创新性地为动作生成引入了基于LLM分解的检索增强生成，有效提升了语义对齐。短板在于该领域相对小众，实际应用场景（如VR/AR游戏）的验证可能有限，且模型参数量（456M）相比基线（224M）显著增大，提升了部署门槛。 🔗 开源详情代码：论文明确承诺将开源代码（“Full code for this project… will be made open source… upon paper acceptance”），但未提供具体链接。模型权重：承诺将提供训练好的检查点。数据集：使用了InterHuman-AS、DD100、MDD三个公开数据集，论文中给出了获取参考。 Demo：未提及在线演示。复现材料：附录提供了详尽的LLM提示词设计、架构细节（公式）、损失权重配置、超参数选择等，复现信息充分。引用的开源项目：SMPL模型（动作表示），CLIP（文本编码），Jukebox（音乐编码），GPT-4o（文本分解），FlashAttention（加速）。 📌 核心摘要问题：生成真实、与上下文相关的双人3D动作，需同时支持交互式（双向协调）和反应式（单向响应）两种模式，且能融合文本、音乐等多种模态条件输入，是当前计算机图形学和具身AI的挑战。方法：提出DualFlow，首个基于矫正流匹配（Rectified Flow）的统一框架。通过可切换的“双流块”架构，同一模型可处理交互与反应任务；引入专为双人动作设计的检索增强生成模块，利用GPT-4o分解文本为空间关系、身体动作和节奏三类描述，并结合音乐特征检索动作范例，以增强生成动作的语义准确性；采用对比矫正流匹配目标，提升运动嵌入与条件信号的对齐度。创新：(1) 统一架构实现交互与反应任务的无缝切换；(2) 首个用于双人动作的RAG框架；(3) 结合同步损失的对比矫正流匹配，提升生成质量与采样效率。实验结果：在MDD、InterHuman-AS、DD100三个数据集上进行广泛评估。在MDD的交互任务上，DualFlow(Both)的R-Precision@3达0.513，MMDist为0.513；在反应任务上，FID为0.686，R-Precision@3为0.471，均优于基线。相比InterGen，DualFlow仅需20步（2.5倍加速）即可达到更优的FID。意义：为VR/AR、游戏、社交机器人等需要协调人际行为的领域提供了高效且高质量的多模态动作生成方案。局限：在长序列生成时可能存在节奏偏移；反应模式下可能出现轻微的肢体穿插；RAG检索质量依赖于库的覆盖度与查询的清晰度。 🏗️ 模型架构 DualFlow是一个基于Transformer和矫正流匹配的统一生成框架，其核心是多模态条件注入与“双流块”架构设计。 ...

Feedback-Driven Retrieval-Augmented Audio Generation with Large Audio Language Models

📄 Feedback-Driven Retrieval-Augmented Audio Generation with Large Audio Language Models #音频生成 #检索增强 #大型音频模型 #扩散模型 ✅ 6.5/10 | 前25% | #音频生成 | #检索增强 | #大型音频模型 #扩散模型学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Junqi Zhao（University of Surrey， CVSSP；Tencent AI Lab， Beijing）通讯作者：Wenwu Wang（University of Surrey， CVSSP）作者列表： Junqi Zhao（University of Surrey， CVSSP；Tencent AI Lab， Beijing） Chenxing Li（Tencent AI Lab， Beijing） Jinzheng Zhao（University of Surrey， CVSSP；Tencent AI Lab， Beijing） Rilin Chen（Tencent AI Lab， Beijing） Dong Yu（Tencent AI Lab， Seattle） Mark D. Plumbley（University of Surrey， CVSSP） Wenwu Wang（University of Surrey， CVSSP）（通讯作者） 💡 毒舌点评亮点在于其“反馈驱动”的框架设计很巧妙，让一个大型音频模型（LALM）去检查另一个生成模型（TTA）的作业，找出了“漏写的声音”，然后去资料库（检索数据库）里找参考答案补上，实现了一种通用且低成本的性能增强。短板是这套流程的“下限”严重依赖那个外部资料库（音频数据库）的全面性和质量，论文中并未充分探讨当数据库里没有合适参考或LALM“找错题”时的容错机制，且评估指标虽然全面，但未能揭示在极端复杂音频场景下的具体失效模式。 ...

Language-Infused Retrieval-Augmented CTC with Adaptive Soft-Hard Gating for Robust Code-Switching ASR

📄 Language-Infused Retrieval-Augmented CTC with Adaptive Soft-Hard Gating for Robust Code-Switching ASR #语音识别 #检索增强 #端到端 #零样本 #多语言 🔥 8.0/10 | 前25% | #语音识别 | #检索增强 | #端到端 #零样本学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度高 👥 作者与机构第一作者：Zhichao Liang（香港中文大学（深圳）数据科学学院）通讯作者：Satoshi Nakamura*（香港中文大学（深圳）数据科学学院与人工智能学院）作者列表：Zhichao Liang（香港中文大学（深圳）数据科学学院）、Satoshi Nakamura（香港中文大学（深圳）数据科学学院与人工智能学院） 💡 毒舌点评该工作巧妙地将语言后验信息“注入”kNN检索的查询空间，使检索过程本身具有语言意识，这是一个非常直观且有效的改进点。然而，实验仅局限于中英代码切换场景，且与更强或更新的基线（如基于大模型的零样本方法）对比不足，削弱了结论的普适性和说服力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：使用的是公开的ASCEND数据集，但未提供获取方式链接（论文中引用了原始数据集论文）。 Demo：未提供在线演示。复现材料：提供了部分实现细节（如使用WeNet和FAISS，关键超参数值），但不足以保证完整复现。论文中引用的开源项目：WeNet [22]， FAISS [24]， Conformer [23]（作为基线模型）， Whisper [16]（在引言中提及）。 📌 核心摘要解决的问题：针对代码切换自动语音识别中语言边界模糊和跨语言声学干扰的挑战，特别是现有门控检索增强CTC模型（如双单语数据存储）存在的边界决策不稳定和语言意识不足的问题。方法核心：提出LIRA-CTC框架，通过将帧级语言后验概率与编码器特征拼接，形成“语言信息注入”的检索查询，使检索空间与语言身份对齐；并设计自适应软硬门控策略，在数据存储距离差大时硬选择，在距离差小时软插值。与已有方法的创新：不同于先前仅使用编码器特征进行检索或在解码器端使用语言信息的方法，该工作将语言后验直接融入检索的“键/查询”构造中，并引入了平滑过渡的软硬混合门控机制。主要实验结果：在ASCEND中文-英文数据集上的实验表明，LIRA-CTC相较于基线Conformer、kNN-CTC和门控kNN-CTC，在官方测试集（TEST）和混合训练集（SMIX）上均取得了更低的混合错误率（MER）。关键数据见下表：方法 TEST MER (%) SMIX MER (%) RTF CTC 26.10 28.77 0.0139 kNN-CTC 25.49 27.24 0.0145 Gated kNN-CTC 24.97 26.33 0.0152 LIRA-CTC 23.60 24.98 0.0155 实际意义：为零样本代码切换ASR提供了一种有效且计算开销增加有限的新框架，通过增强检索过程的语言感知能力和决策稳定性，提升了模型对混合语言语音的识别鲁棒性。主要局限性：实验仅验证于中英代码切换场景，其有效性是否能扩展至其他语言对或更复杂的多语言场景有待证明；与当前前沿的零样本ASR方法（如基于大型预训练模型的方法）对比不足。 🏗️ 模型架构整体架构基于预训练的CTC ASR模型（Conformer编码器+Transformer解码器），核心扩展在于检索增强解码部分。 ...

Mispronunciation Detection and Diagnosis Without Model Training: A Retrieval-Based Approach

📄 Mispronunciation Detection and Diagnosis Without Model Training: A Retrieval-Based Approach #语音评估 #检索增强 #预训练 #零样本 #语音大模型 🔥 8.0/10 | 前25% | #语音评估 | #检索增强 | #预训练 #零样本学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Huu Tuong Tu（河内科技大学，VNPT AI/VNPT集团）通讯作者：Nguyen Thi Thu Trang（河内科技大学）作者列表：Huu Tuong Tu（河内科技大学，VNPT AI/VNPT集团）、Ha Viet Khanh（河内科技大学）、Tran Tien Dat（河内科技大学）、Vu Huan（国家经济大学）、Thien Van Luong（国家经济大学）、Nguyen Tien Cuong（VNPT AI/VNPT集团）、Nguyen Thi Thu Trang（河内科技大学） 💡 毒舌点评亮点：论文巧妙地将“检索”这一思想从生成领域迁移到了评估任务，构建音素嵌入池替代了复杂的模型训练，思路清新且在FRR等关键指标上效果显著，证明了预训练模型蕴含的语音知识足以支持细粒度的发音诊断。短板：作为一篇强调“无训练”的方法，其在大规模真实场景下的鲁棒性存疑，且论文承认的高插入错误率（PER高达104%）暴露出检索式方法在序列生成上的固有短板，这与其说是一个“特性”，不如说是一个待解决的“问题”。 🔗 开源详情代码：论文中未提及代码链接。模型权重：使用了公开的预训练模型 facebook/hubert-large-ls960-ft、facebook/data2vec-audio-large-960h、facebook/wav2vec2-large-960h-lv60。本文提出的方法本身不包含可训练的模型权重，其核心“模型”是构建好的音素嵌入池。数据集：使用公开的L2-ARCTIC数据集，论文中未提供直接获取链接。 Demo：未提供。复现材料：论文给出了主要超参数（池大小500，阈值0.7，top-k=10）和池化策略（mid-frame），但未提供数据预处理、池构建、检索和评估的完整代码或详细步骤。论文中引用的开源项目：引用了Hugging Face上的HuBERT、Data2vec、Wav2vec2模型。总结：论文中未提及开源计划。复现需自行处理数据集、实现检索逻辑并复用公开的预训练模型。 📌 核心摘要问题：传统的发音错误检测与诊断（MDD）系统通常需要训练或微调专门的声学模型（如音素识别器），过程复杂且依赖大量标注数据。方法核心：提出了一种基于检索的免训练框架（PER-MDD）。首先，利用预训练的HuBERT模型，为训练集中的每个音素片段提取其中心帧的嵌入向量，构建一个“音素嵌入池”。在推理时，对测试语音的每一帧提取嵌入，在池中通过余弦相似度检索最相似的k个候选音素，通过投票和阈值筛选确定预测的音素，最后与标准音素序列对齐以检测错误。新在哪里：首次将检索增强生成（RAG）的范式应用于MDD任务，避免了任何音素级模型的训练，完全依赖一个预训练的、通用的ASR模型（HuBERT）和一个检索过程。主要实验结果：在L2-ARCTIC数据集上，PER-MDD在MDD的核心指标上表现优异：错误拒绝率（FRR）为4.43%（最低），F1分数为69.60%（最高），检测准确率（DA）为91.57%。与强基线MDDGCN相比，F1提升了约13个百分点。消融实验证明了HuBERT模型、中间帧池化策略和适度的检索池大小（500条语料）的有效性。实际意义：为CAPT系统提供了一种更简单、轻量、易于部署的MDD方案，降低了构建发音诊断系统的门槛。主要局限性：该方法会产生较多的插入错误，导致语音识别的词错误率（PER）远高于基线方法（104.08% vs ~17%），虽然论文认为这对MDD影响不大，但这仍然是其技术路线的一个明显缺陷。此外，性能依赖于检索池的质量和大小，对新领域或新说话人的泛化能力有待验证。 🏗️ 模型架构该模型（PER-MDD）的整体架构是一个两阶段的检索流水线： ...

ICLAD: In-Context Learning with Comparison-Guidance for Audio Deepfake Detection

📄 ICLAD: In-Context Learning with Comparison-Guidance for Audio Deepfake Detection #音频深度伪造检测 #少样本 #检索增强 #音频大模型 #可解释性 ✅ 评分：7.5/10 | arxiv 👥 作者与机构第一作者（推断）：Benjamin Chou（普渡大学，Purdue University）通讯作者（推断）：Yi Zhu（Reality Defender Inc.），Surya Koppisetti（Reality Defender Inc.）其他作者：无机构详情： Benjamin Chou：普渡大学（Purdue University），论文注释表明工作在Reality Defender Inc.实习期间完成。 Yi Zhu：Reality Defender Inc.（美国/加拿大，邮箱后缀为@inrs.ca，INRS为加拿大魁北克大学研究所）。 Surya Koppisetti：Reality Defender Inc.。 💡 毒舌点评亮点：把大模型（ALM）的“思考”能力用在了音频安全这个“脏活累活”上，还搞出了个“左右互搏”（PCR）的套路让模型自己挑刺、去伪存真，思路相当清奇，结果在真实世界数据上效果拔群。槽点：最好的“厨师”（Phase-1证据生成）用的是谷歌的“秘制酱料”（Gemini），自己家“厨房”（开源ALM）的灶台还没完全搭好（AF3指令遵循差），让想完全复刻这道菜的人有点抓瞎。而且，这“秘制酱料”在处理“罐头食品”（脚本语音）时，味道反而不对了。 🔗 开源详情代码：论文提到“GitHub”链接，但未在正文中给出具体URL。未明确说明是否开源。模型权重：专用检测器：使用的Wav2Vec2-AASIST是公开的预训练模型。 ALM：主要实验使用专有的Gemini-2.5 Flash API。评估了开源的Audio Flamingo 3 (AF3) 模型权重。 ICLAD本身：未提及发布任何ICLAD特有的模型权重。其“模型”本质上是提示策略和流程。数据集：使用的均为公开学术数据集（ASVspoof 2019/2021, MLAAD, ITW, SpoofCeleb, DFEval 2024），并提供了详细的分割和许可证信息。预训练权重：Phase-1证据库依赖Gemini生成，非可下载的预训练权重。在线Demo：未提及。引用的开源项目：faiss（用于k-NN）， lm-format-enforcer, xgrammar（用于尝试约束AF3输出）。 📌 核心摘要本文针对音频深度伪造检测模型在真实场景（in-the-wild）中泛化能力差的核心问题，提出了一种名为ICLAD的全新范式。该框架利用音频语言模型（ALM）的上下文学习能力，实现了无需训练的快速适应。其核心是创新的成对比较推理策略：在离线阶段，引导ALM为每个样本同时生成“真实”和“伪造”的证据，再结合真实标签进行证据调和，生成高质量、去幻觉的文本解释库；在线推理时，通过检索最相似的样本及其证据作为上下文，并结合一个动态路由机制，将分布内样本交给专用检测器处理，将分布外（真实场景）样本交给ALM进行推理。实验表明，ICLAD在三个真实场景数据集上显著超越了SOTA专用检测器（宏F1最高提升近2倍），并能提供可解释的文本理由。然而，该方法在脚本语音数据集上性能有所下降，且其最佳性能依赖于专有模型Gemini。 ...