Connecting Layer-Wise Representation of Wavlm with Spectro-Temporal Modulation on Speaker Verification

📄 Connecting Layer-Wise Representation of Wavlm with Spectro-Temporal Modulation on Speaker Verification #说话人验证 #自监督学习 #模型分析 #可解释性 ✅ 6.0/10 | 前50% | #说话人验证 | #自监督学习 | #模型分析 #可解释性 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -1.0 | 置信度 中 👥 作者与机构 第一作者:Shao-Hsuan Chen (⋆ 国立阳明交通大学电机工程学系) 通讯作者:未明确说明(根据惯例,可能是最后作者Tai-Shih Chi或Yuan-Fu Liao) 作者列表: Shao-Hsuan Chen (⋆ 国立阳明交通大学电机工程学系) Pei-Chin Hsieh (⋆ 国立阳明交通大学电机工程学系) Yih-Liang Shen (⋆ 国立阳明交通大学电机工程学系) Tai-Shih Chi (⋆ 国立阳明交通大学电机工程学系) Yuan-Fu Liao († 国立阳明交通大学人工智能创新研究所) Chi-Han Lin (‡ 玉山金融控股股份有限公司) Juan-Wei Xu (‡ 玉山金融控股股份有限公司) (⋆、†、‡ 标记对应其后机构,机构信息已在列表中明确标注) 💡 毒舌点评 论文最大的亮点在于为理解WavLM这类黑箱模型提供了一种新颖的“神经科学视角”,通过构建频谱-时空调制特征,发现模型中间层确实编码了类似听觉皮层的选择性(如对性别相关的谐波结构敏感),这种交叉学科的分析思路值得肯定。然而,其短板也十分明显:实验设计基本局限于TIMIT数据集的性别子集分析,更像是一个初步的、小规模的现象观察,未能将这些“生物启发式”的发现与提升实际说话人验证系统(如在VoxCeleb大规模数据上的性能)建立直接联系,使得论文的实用价值和影响力打了折扣。 ...

2026-04-29

GLoRIA: Gated Low-Rank Interpretable Adaptation for Dialectal ASR

📄 GLoRIA: Gated Low-Rank Interpretable Adaptation for Dialectal ASR #语音识别 #领域适应 #参数高效微调 #可解释性 🔥 8.0/10 | 前25% | #语音识别 | #领域适应 | #参数高效微调 #可解释性 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Pouya Mehralian (ESAT/PSI, KU Leuven, Belgium) 通讯作者:未说明 作者列表:Pouya Mehralian (ESAT/PSI, KU Leuven, Belgium)、Melissa Farasyn (∆iaLing, Ghent University, Belgium)、Anne Breitbarth (∆iaLing, Ghent University, Belgium)、Anne-Sophie Ghyselen (GLiMS & MULTPIPLES, Ghent University, Belgium)、Hugo Van hamme (ESAT/PSI, KU Leuven, Belgium) 💡 毒舌点评 这篇论文巧妙地将方言的“地理基因”编码进模型适配的“开关”里,让参数高效的LoRA学会了根据地图位置“量身定制”调整方向,可解释性做得相当漂亮。但其“门控”机制的发挥严重依赖基础模型本身对方言是“中立”的这个假设,如果预训练模型已经对某种方言有偏见,这套非负加法的逻辑可能就玩不转了,且依赖固定元数据(坐标)在流动性强的现代社会可能是个局限。 ...

2026-04-29

ICLAD: In-Context Learning with Comparison-Guidance for Audio Deepfake Detection

📄 ICLAD: In-Context Learning with Comparison-Guidance for Audio Deepfake Detection #音频深度伪造检测 #少样本 #检索增强 #音频大模型 #可解释性 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者(推断):Benjamin Chou(普渡大学,Purdue University) 通讯作者(推断):Yi Zhu(Reality Defender Inc.),Surya Koppisetti(Reality Defender Inc.) 其他作者:无 机构详情: Benjamin Chou:普渡大学(Purdue University),论文注释表明工作在Reality Defender Inc.实习期间完成。 Yi Zhu:Reality Defender Inc.(美国/加拿大,邮箱后缀为@inrs.ca,INRS为加拿大魁北克大学研究所)。 Surya Koppisetti:Reality Defender Inc.。 💡 毒舌点评 亮点:把大模型(ALM)的“思考”能力用在了音频安全这个“脏活累活”上,还搞出了个“左右互搏”(PCR)的套路让模型自己挑刺、去伪存真,思路相当清奇,结果在真实世界数据上效果拔群。槽点:最好的“厨师”(Phase-1证据生成)用的是谷歌的“秘制酱料”(Gemini),自己家“厨房”(开源ALM)的灶台还没完全搭好(AF3指令遵循差),让想完全复刻这道菜的人有点抓瞎。而且,这“秘制酱料”在处理“罐头食品”(脚本语音)时,味道反而不对了。 📌 核心摘要 本文针对音频深度伪造检测模型在真实场景(in-the-wild)中泛化能力差的核心问题,提出了一种名为ICLAD的全新范式。该框架利用音频语言模型(ALM)的上下文学习能力,实现了无需训练的快速适应。其核心是创新的成对比较推理策略:在离线阶段,引导ALM为每个样本同时生成“真实”和“伪造”的证据,再结合真实标签进行证据调和,生成高质量、去幻觉的文本解释库;在线推理时,通过检索最相似的样本及其证据作为上下文,并结合一个动态路由机制,将分布内样本交给专用检测器处理,将分布外(真实场景)样本交给ALM进行推理。实验表明,ICLAD在三个真实场景数据集上显著超越了SOTA专用检测器(宏F1最高提升近2倍),并能提供可解释的文本理由。然而,该方法在脚本语音数据集上性能有所下降,且其最佳性能依赖于专有模型Gemini。 🏗️ 模型架构 ICLAD是一个两阶段框架,整体流程如下: 阶段一:离线推理(证据库构建) - 输入:一批带标签的音频样本 {A_i, L_i}。 - 流程: a. 初始证据生成:对于每个音频 A_i,在不告知标签的情况下,提示ALM(如Gemini)同时生成两段文本证据:R_real,i(证明其真实的理由)和 R_fake,i(证明其伪造的理由)。 b. 证据调和:将 A_i、R_real,i、R_fake,i 以及真实标签 L_i 一起输入ALM,生成调和后的证据 R_reconciled,i。此步骤旨在让模型基于真相,识别并过滤掉初始证据中的矛盾、无关属性及幻觉。 c. 缓存:将每个样本的音频、标签、三份证据(R_real, R_fake, R_reconciled)以及其专用检测器嵌入(使用Wav2Vec2-AASIST提取)存入离线数据库,形成检索增强生成(RAG)库。 阶段二:在线推理 - 输入:一个查询音频 A_q。 - 流程: a. 分布检测与路由:使用k-NN方法计算 A_q 的Wav2Vec2-AASIST嵌入与数据库嵌入的相似度,判断其为分布内(ID)还是分布外(OOD)。 b. 路由决策: - 若为ID样本,直接送入专用检测器(Wav2Vec2-AASIST)输出最终判决���不使用ALM。 - 若为OOD样本,送入ALM路径。 c. ALM路径推理: i. 示例检索:基于 A_q 的Wav2Vec2-AASIST嵌入,从离线数据库中检索K个(论文中K=10)最相似的样本及其全部信息(音频、标签、三份证据)。 ii. 构建ICL提示:将检索到的K个样本的证据和标签格式化为上下文示例,并附上查询音频 A_q,构建最终提示。 iii. 推理与输出:将提示输入ALM,要求其为 A_q 也生成 R_real, R_fake, R_reconciled 三份证据,并基于此给出“真实”或“伪造”的二分类判决。 - 输出:最终的二分类标签(来自专用检测器或ALM)及(可选的)ALM生成的文本解释。 ...

2026-04-21

语音/音频论文速递 2026-04-21

语音/音频论文速递 2026-04-21 共分析 34 篇论文 ⚡ 今日概览 📥 抓取 34 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 模型评估 13篇 █████████████ 基准测试 9篇 █████████ 音频大模型 8篇 ████████ 数据集 7篇 ███████ 多语言 7篇 ███████ 多模态模型 5篇 █████ 强化学习 5篇 █████ 语音对话系统 4篇 ████ 📊 论文评分排行榜(34 篇,按分数降序) 排名 论文 评分 🥇 FreezeEmpath: Efficient Training for Empathetic Spoken 10.0分 🥈 Audio-DeepThinker: Progressive Reasoning-Aware Reinforc 9.5分 🥉 VoxSafeBench: Not Just What Is Said, but Who, How, and 9.5分 4 Benign Fine-Tuning Breaks Safety Alignment in Audio LLM 9.0分 5 Prosody as Supervision: Bridging the Non-Verbal–Verbal 9.0分 6 Anonymization, Not Elimination: Utility-Preserved Speec 8.5分 7 MimicLM: Zero-Shot Voice Imitation through Autoregressi 8.5分 8 ArtifactNet: Detecting AI-Generated Music via Forensic 8.5分 9 Audio-Cogito: Towards Deep Audio Reasoning in Large Aud 8.5分 10 LLM-Codec: Neural Audio Codec Meets Language Model Obje 8.5分 11 NIM4-ASR: Towards Efficient, Robust, and Customizable R 8.5分 12 Video-Robin: Autoregressive Diffusion Planning for Inte 8.0分 13 A state-space representation of the boundary integral e 8.0分 14 AVRT: Audio-Visual Reasoning Transfer through Single-Mo 8.0分 15 MoVE: Translating Laughter and Tears via Mixture of Voc 8.0分 16 SELF-EMO: Emotional Self-Evolution from Recognition to 8.0分 17 BhashaSutra: A Task-Centric Unified Survey of Indian NL 8.0分 18 MINT-Bench: A Comprehensive Multilingual Benchmark for 8.0分 19 ICLAD: In-Context Learning with Comparison-Guidance for 7.5分 20 Still Between Us? Evaluating and Improving Voice Assist 7.5分 21 Where Do Self-Supervised Speech Models Become Unfair? 7.5分 22 Neural Encoding Detection is Not All You Need for Synth 7.5分 23 Omni-Embed-Audio: Leveraging Multimodal LLMs for Robust 7.5分 24 Latent Fourier Transform 7.5分 25 Hard to Be Heard: Phoneme-Level ASR Analysis of Phonolo 7.5分 26 VIBE: Voice-Induced open-ended Bias Evaluation for Larg 7.5分 27 Aligning Language Models for Lyric-to-Melody Generation 7.5分 28 ClariCodec: Optimising Neural Speech Codes for 200bps C 7.0分 29 From Reactive to Proactive: Assessing the Proactivity o 7.0分 30 A novel LSTM music generator based on the fractional ti 6.5分 31 Incremental learning for audio classification with Hebb 6.5分 32 Coexisting Tempo Traditions in Beethoven’s Piano and Ce 6.0分 33 FLiP: Towards understanding and interpreting multimodal 5.5分 34 HCFD: A Benchmark for Audio Deepfake Detection in Healt 5.0分 📋 论文列表 🥇 FreezeEmpath: Efficient Training for Empathetic Spoken Chatbots with Frozen LLMs 🔥 10.0分 | #语音对话系统 #多模态模型 #迁移学习 #语音情感识别 | arxiv ...

2026-04-21