ICLAD: In-Context Learning with Comparison-Guidance for Audio Deepfake Detection

📄 ICLAD: In-Context Learning with Comparison-Guidance for Audio Deepfake Detection #音频深度伪造检测 #少样本 #检索增强 #音频大模型 #可解释性 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者(推断):Benjamin Chou(普渡大学,Purdue University) 通讯作者(推断):Yi Zhu(Reality Defender Inc.),Surya Koppisetti(Reality Defender Inc.) 其他作者:无 机构详情: Benjamin Chou:普渡大学(Purdue University),论文注释表明工作在Reality Defender Inc.实习期间完成。 Yi Zhu:Reality Defender Inc.(美国/加拿大,邮箱后缀为@inrs.ca,INRS为加拿大魁北克大学研究所)。 Surya Koppisetti:Reality Defender Inc.。 💡 毒舌点评 亮点:把大模型(ALM)的“思考”能力用在了音频安全这个“脏活累活”上,还搞出了个“左右互搏”(PCR)的套路让模型自己挑刺、去伪存真,思路相当清奇,结果在真实世界数据上效果拔群。槽点:最好的“厨师”(Phase-1证据生成)用的是谷歌的“秘制酱料”(Gemini),自己家“厨房”(开源ALM)的灶台还没完全搭好(AF3指令遵循差),让想完全复刻这道菜的人有点抓瞎。而且,这“秘制酱料”在处理“罐头食品”(脚本语音)时,味道反而不对了。 🔗 开源详情 代码:论文提到“GitHub”链接,但未在正文中给出具体URL。未明确说明是否开源。 模型权重: 专用检测器:使用的Wav2Vec2-AASIST是公开的预训练模型。 ALM:主要实验使用专有的Gemini-2.5 Flash API。评估了开源的Audio Flamingo 3 (AF3) 模型权重。 ICLAD本身:未提及发布任何ICLAD特有的模型权重。其“模型”本质上是提示策略和流程。 数据集:使用的均为公开学术数据集(ASVspoof 2019/2021, MLAAD, ITW, SpoofCeleb, DFEval 2024),并提供了详细的分割和许可证信息。 预训练权重:Phase-1证据库依赖Gemini生成,非可下载的预训练权重。 在线Demo:未提及。 引用的开源项目:faiss(用于k-NN), lm-format-enforcer, xgrammar(用于尝试约束AF3输出)。 📌 核心摘要 本文针对音频深度伪造检测模型在真实场景(in-the-wild)中泛化能力差的核心问题,提出了一种名为ICLAD的全新范式。该框架利用音频语言模型(ALM)的上下文学习能力,实现了无需训练的快速适应。其核心是创新的成对比较推理策略:在离线阶段,引导ALM为每个样本同时生成“真实”和“伪造”的证据,再结合真实标签进行证据调和,生成高质量、去幻觉的文本解释库;在线推理时,通过检索最相似的样本及其证据作为上下文,并结合一个动态路由机制,将分布内样本交给专用检测器处理,将分布外(真实场景)样本交给ALM进行推理。实验表明,ICLAD在三个真实场景数据集上显著超越了SOTA专用检测器(宏F1最高提升近2倍),并能提供可解释的文本理由。然而,该方法在脚本语音数据集上性能有所下降,且其最佳性能依赖于专有模型Gemini。 ...

2026-04-21 · 更新于 2026-05-19 · 2 min · 385 words

MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation

📄 MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation #语音翻译 #混合专家模型 #音频大模型 #少样本 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Szu-Chi Chen (台湾大学,国立台湾大学) 通讯作者:Hung-yi Lee (台湾大学,国立台湾大学;根据贡献和常见通讯作者习惯推断) 其他作者: I-Ning Tsai (台湾大学,国立台湾大学) Yi-Cheng Lin (台湾大学,国立台湾大学) Sung-Feng Huang (NVIDIA,英伟达台湾) 💡 毒舌点评 亮点:精准抓住了S2ST“翻译了语义,却丢失了灵魂(笑声/哭泣)”这个长期痛点,并用一套从数据到模型的组合拳(合成数据管道+MoE架构+两阶段训练)系统性地解决了它,效果拔群,NV保留率从14%飙升到76%。槽点:数据合成依赖于现有的情感TTS和过滤器,可能引入合成偏差;目前只聚焦于五种特定情感/声音,离建模人类全部复杂细腻的情感光谱还有距离。 🔗 开源详情 代码:论文未明确提及代码是否开源。 模型权重:论文未明确提及预训练或微调后的模型权重是否公开。 数据集:承诺开源。将发布一个1000小时的合成表达性S2ST语料库(En-Zh),包含五种情感/非语言声音类别。 在线Demo:承诺提供。访问地址:https://47zzz.github.io/MoVE/。 预训练权重:基于Kimi-Audio-7B-Instruct,但该基础模型的权重是否由作者提供未知。 引用的开源项目:使用了Whisper(编码器和ASR评估)、IndexTTS2(合成引擎)、Librosa(音频处理)、多个情感语音数据集(CREMA-D, MSP-IMPROV, IEMOCAP, JVNV)。 📌 核心摘要 这篇论文旨在解决语音到语音翻译(S2ST)系统普遍缺失非语言声音(如笑声、哭泣)和情感韵律的问题,这严重限制了跨语言交流的自然度和语用准确性。作者提出了三大贡献:1) 一个可扩展的表达性数据合成管道,能自动生成高质量、带情感标注的S2ST训练对,克服了数据稀缺瓶颈;2) MoVE(混合声音专家)架构,基于预训练音频大模型(Kimi-Audio),通过并行多个情感特化的LoRA适配器和一个动态软加权路由器,实现了对混合情感状态的精细建模,避免了特征干扰;3) 揭示了惊人的数据效率,仅需30分钟的精选数据微调,就能激活预训练模型的强大潜力,达到接近全量数据95%的情感保真度。实验表明,MoVE在英中翻译任务上,在语义准确性和非语言声音保留率(76%)上均大幅超越现有SOTA系统,并获得了最高的人工评价自然度和情感相似度分数。 🏗️ 模型架构 MoVE架构建立在预训练的音频大模型Kimi-Audio之上,其核心流程如下: 输入:源语言语音波形。 编码与离散化: 语音首先通过一个Whisper编码器(经过在表达性数据集上微调)提取高级语义和声学特征。 同时,语音通过音频分词器(Audio Tokenizer) 被离散化为一系列语音token。 LLM处理(核心创新): 离散token序列输入到冻结参数的Kimi-Audio LLM主干中。 在LLM的每个Transformer层中,注入了五个并行的LoRA专家适配器,分别专精于“高兴”、“悲伤”、“愤怒”、“大笑”、“哭泣”五种声音流形。每个专家独立作用于注意力层和前馈网络的投影矩阵(Wq, Wk, Wv, Wo, Wgate)。 一个动态软加权路由器(一个带Softmax的轻量线性层)根据当前token的隐藏状态x,为五个专家的输出计算混合权重g_i(x)。最终层的输出是基础模型权重与所有专家加权输出的和:h(x) = W0*x + Σ g_i(x) * (B_i * A_i * x)。这实现了token级别的、连续的情感混合。 解码与生成: LLM输出的离散语音token序列被送入音频解解码器(Audio Detokenizer)。 该解码器经过在表达性数据(特别是非语言声音)上的微调,能更好地将token重建为包含丰富情感和非语言声音的目标语言语音波形。 输出:保留了源语音情感和非语言声音的目标语言语音。 关键设计选择理由: ...

2026-04-21 · 更新于 2026-05-19 · 2 min · 303 words

Few-Shot and Pseudo-Label Guided Speech Quality Evaluation with Large Language Models

📄 Few-Shot and Pseudo-Label Guided Speech Quality Evaluation with Large Language Models #音频理解 #大语言模型 #少样本 #低资源 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Ryandhimas E. Zezario(推断为台湾中央研究院资讯科学研究所,根据论文[23]引用及常见合作模式) 通讯作者:Hsin-Min Wang(台湾中央研究院资讯科学研究所),Yu Tsao(台湾中央研究院资讯科学研究所) 其他作者:Dyah A. M. G. Wisnu(印度尼西亚玛琅国立大学电气工程系),Szu-Wei Fu(台湾中央研究院资讯科学研究所),Sabato Marco Siniscalchi(意大利卡塔尼亚大学电子工程系) (注:论文HTML全文未明确列出所有作者的具体机构,以上信息根据论文引用格式、常见合作网络及作者邮箱域名推断得出。) 💡 毒舌点评 亮点在于巧妙地将大语言模型(LLM)定位为“元评估器”,通过整合轻量级声学特征和现有模型的伪标签(DNSMOS, VQScore),而非直接处理原始音频,规避了LLM在音频理解上的短板,思路颇具巧思。槽点则是实验数据集过于单一(仅VoiceBank-DEMAND),且在“全样本评估”中少样本版本性能反而下降,暴露出其方法对示例选择的高度敏感性,结论的普适性有待商榷,有“为了用LLM而用LLM”之嫌。 🔗 开源详情 代码:论文提到代码将在GitHub上发布(“Report GitHub Issue ×”提示了代码仓库的存在),但HTML全文未提供具体链接。论文中未给出可访问的GitHub地址。 模型权重:GatherMOS本身不涉及训练新模型权重。它依赖的DNSMOS和VQScore的预训练权重分别在各自的GitHub仓库公开。所使用的LLM(GPT-5)为闭源API。 数据集:评估使用公开的VoiceBank-DEMAND数据集。少样本示例来自另一个公开数据集CHiME-7 UDASE任务。 预训练权重:不适用。 在线 Demo:论文中未提及。 论文中引用的开源项目:明确提到了使用DNSMOS和VQScore的官方GitHub检查点。 📌 核心摘要 本文旨在解决非侵入式语音质量评估在标注数据有限场景下的性能瓶颈。作者提出了GatherMOS框架,其核心是将大语言模型(如GPT-5)作为一个元评估器,通过精心设计的文本提示,融合多类异构信号:包括手工声学描述符(如RMS、ZCR、MFCC统计量)和来自轻量级模型DNSMOS与VQScore的伪标签。该框架支持零样本和少样本两种推理模式。实验表明,在VoiceBank-DEMAND数据集上,零样本GatherMOS已优于基线方法,而精心匹配的少样本引导能带来显著提升(在子集上SRCC达0.8473)。然而,当少样本示例与测试集分布不匹配时,性能会下降,揭示了其泛化性挑战。该研究证明了利用LLM聚合弱信号以进行可靠质量预测的可行性,为低资源场景下的语音质量评估提供了新思路。 🏗️ 模型架构 GatherMOS并非一个从头训练的模型,而是一个推理框架,其核心是利用预训练LLM的上下文学习能力。整体架构和流程如下: 输入:一段原始语音波形 x。 特征与伪标签提取(并行进行): 手工声学描述符提取器:从 x 中提取一系列低级特征,包括: 时域能量:RMS(均方根)。 频域/噪声相关:ZCR(过零率)。 信号完整性:是否削波(Clipping)、时长(Duration)。 频谱包络:13维MFCC的帧平均值。 频谱分布:梅尔频谱图的每-bin均值和方差、全局最大/最小值。 伪标签生成器(冻结): DNSMOS:输入语音,输出一个1到5之间的连续分数 s_DNS,代表感知质量。 VQScore:输入语音,输出一个0到1之间的分数 s_VQ,代表语音质量。 输入序列化与提示构建:将所有提取的描述符 {d_i}、伪标签 s_DNS 和 s_VQ,以及针对LLM的指令(例如:“您是语音质量评估专家…请估计分数…”),共同组织成一个结构化的文本提示(Prompt)。对于少样本版本,还会在提示中加入K个“支持样本”(few-shot examples),每个样本包含其特征、伪标签和对应的真实MOS分数。 LLM推理:将构建好的文本提示输入给大型语言模型(论文中为GPT-5)。LLM根据其内置的推理能力,对提示中的所有信息进行综合分析、权衡和“推理”。 输出:LLM生成两部分文本输出: 主输出:预测的连续MOS分数 ŝ。 辅助输出:解释性属性 a,如噪声水平、是否削波、混响程度以及一段解释性文字,说明其预测依据。 关键设计选择理由: ...

2026-04-19 · 更新于 2026-05-19 · 2 min · 234 words

SpeakerRPL v2: Robust Open-set Speaker Identification through Enhanced Few-shot Foundation Tuning and Model Fusion

📄 SpeakerRPL v2: Robust Open-set Speaker Identification through Enhanced Few-shot Foundation Tuning and Model Fusion #说话人识别 #少样本 #数据增强 #迁移学习 🔥 评分:8.3/10 | arxiv 👥 作者与机构 论文作者:Zhiyong Chen, Shuhang Wu, Yingjie Duan, Xinkang Xu, Xinhui Hu 机构信息:论文全文未明确标注作者所属机构。根据作者姓名、研究内容及开源仓库(GitHub)信息推断,作者可能来自**小米(Xiaomi)**或相关研究机构。论文中提及的“Xiaomi LLM Core Team”可能为相关团队,但未在作者单位中直接列出。 第一作者/通讯作者:无法从提供的文本中明确判断第一作者和通讯作者。论文中注明“Zhiyong Chen and Shuhang Wu contributed equally.”(贡献均等)。 💡 毒舌点评 亮点:这篇论文将“对数归一化”(LogitNorm)和“对抗性互惠点学习”(SpeakerRPL)这两个强大的开集学习技术进行了“联姻”,并巧妙地加入了“自适应锚点”来动态建模未知说话人,理论上有板有眼。更实在的是,它承认了少样本微调的不稳定性,并用一套基于特征分布均匀性的模型选择与融合策略来“稳住局面”,最终在Vox1-O*测试集上将EER暴降93%,效果惊人。 槽点:方法听起来像是在已有技术上做“排列组合”加“工程优化”(模型融合与选择),原创性的理论突破有限。此外,模型选择策略依赖于特征相似矩阵的特征值方差,这个指标的普适性和调参敏感性在论文中论证得不够充分,更像是一个为特定实验“量身定做”的后处理技巧。 🔗 开源详情 代码:已开源。GitHub地址:https://github.com/zhiyongchenGREAT/Few-shot-Robust-Speaker-TTS/tree/v2.1。基于PyTorch框架。 模型权重:论文中未明确说明是否公开发布微调后的适配器权重或完整的SpeakerRPL V2模型。预训练基础模型ELec2NetV2应是公开可用的。 数据集:实验所用数据集(VoxCeleb2, 3D-Speaker, ESD, LibriTTS, AiShell)均为公开学术数据集。新构建的Vox1-O*测试集划分可能随代码开源。 预训练权重:使用ELec2NetV2预训练说话人基础模型作为底座。 在线Demo:论文中未提及在线演示。 依赖的开源项目:GPT-SoVITSv2(用于语音合成)。 📌 核心摘要 本文旨在解决开放集说话人识别中的鲁棒性问题,即系统在仅有少量目标说话人注册样本的情况下,需同时准确识别已知说话人并可靠拒识未知说话人。作者在先前SpeakerRPL V1框架基础上提出了三项关键改进:1)设计了一个增强的损失函数,将互惠点学习(RPL)与对数归一化(LogitNorm)相结合,并引入自适应锚点学习,以约束目标说话人表征并提升对未知分布的建模能力;2)提出了一种模型融合策略,通过聚合多个随机初始化训练得到的适配器模型的分数,来稳定少样本微调过程,减少结果随机性;3)设计了一个基于特征分布均匀性(通过中心点和互惠点相似矩阵的特征值方差衡量)的自动模型选择策略,以筛选出最适合融合的候选模型。在VoxCeleb、3D-Speaker和ESD等多个数据集上的实验表明,该方法在各项开集识别指标上均优于基线。特别是在新构建的Vox1-O*测试集上,等错误率(EER)从1.28%降至0.09%,相对降低约93%,验证了方法的有效性和鲁棒性。其局限性在于模型选择策略增加了流程复杂性,且对中文等方言场景的验证尚可进一步扩展。 🏗️ 模型架构 模型整体基于“预训练基础模型 + 轻量级适配器微调”的范式。 ...

2026-04-19 · 更新于 2026-05-19 · 2 min · 401 words