AUDIOGENIE-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning

📄 AUDIOGENIE-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning #音频问答 #音频场景理解 #多智能体 #迭代优化 #大语言模型 ✅ 7.0/10 | 前25% | #音频问答 | #多智能体 | #音频场景理解 #迭代优化 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 请基于当前提供的论文内容尽量完整提取作者与机构信息,要求: 明确标注第一作者(如论文可判断),否则写“未说明” 明确标注通讯作者(如论文可判断),否则写“未说明” 列出能确认的作者姓名及其所属机构(大学、实验室、公司) 机构信息尽量具体到实验室或部门;如果文本里没有,就写到能确认的层级 禁止猜测机构信息;无法确认时明确写“未说明” 输出格式示例: 第一作者:张三(清华大学计算机系) 通讯作者:李四(Google DeepMind) 作者列表:张三(清华大学计算机系)、李四(Google DeepMind)、王五(未说明) 第一作者:Yan Rong(香港科技大学(广州)) 通讯作者:Li Liu(香港科技大学(广州)) 作者列表:Yan Rong(香港科技大学(广州))、Chenxing Li(腾讯AI Lab)、Dong Yu(腾讯AI Lab)、Li Liu(香港科技大学(广州)) 💡 毒舌点评 用 2-3 句话做有信息量的点评,必须同时包含至少 1 个亮点和 1 个短板。可以犀利,但不要空泛嘲讽,不要只喊“很强”或“很水”。 ...

2026-04-29

Auditory Illusion Benchmark for Large Audio Language Models

📄 Auditory Illusion Benchmark for Large Audio Language Models #模型评估 #基准测试 #音频大模型 #听觉认知 ✅ 7.0/10 | 前50% | #模型评估 | #基准测试 | #音频大模型 #听觉认知 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Hayoon Kim(首尔大学音乐与音频研究组,首尔大学智能信息学系) 通讯作者:Kyogu Lee(首尔大学音乐与音频研究组,首尔大学智能信息学系,AIIS,IPAI) 作者列表:Hayoon Kim(首尔大学音乐与音频研究组,首尔大学智能信息学系)、Eunice Hong(首尔大学音乐与音频研究组,首尔大学智能信息学系)、Kyogu Lee(首尔大学音乐与音频研究组,首尔大学智能信息学系,AIIS,IPAI) 💡 毒舌点评 亮点:论文首次将认知科学中的“听觉错觉”概念系统化为评估大型音频语言模型(LALMs)的基准,方法严谨(包含对照组和人类基线),指出了模型在“感知”层面与人类的关键差距,角度新颖且具有启发性。短板:所有评估任务被压缩为简单的二选一或三选一,这种简化可能无法充分捕捉复杂听觉错觉的微妙体验和动态过程;对模型内部为何产生差异的分析停留在表面,缺乏更深入的机理解释。 📌 核心摘要 要解决什么问题:当前对大型音频语言模型(LALMs)的评估主要集中在识别准确性等客观任务上,缺乏评估其是否内化了人类特有的感知偏差(如对听觉错觉的易感性)的方法。本文旨在填补这一空白。 方法核心是什么:提出了首个听觉错觉基准(AIB),包含10种代表性听觉错觉(分为基于物理和基于物理+知识两类),涵盖音乐、声音和语音领域。将每个错觉的感知判断转化为多项选择题,并与控制刺激一起,对多款LALMs和人类被试(20名绝对音感者)进行平行测试。 与已有方法相比新在哪里:AIB是首个专门为LALMs设计的听觉错觉评估基准。与主要关注准确率或推理的现有音频基准不同,AIB的核心目标是衡量模型的“人类感知对齐度”(通过ISI等指标),即模型是否像人类一样“犯错”。 主要实验结果如何:人类被试在各类错觉上均表现出极高的易感性(ISI≈0.8-0.9)。LALMs的表现则系统性地分化:在“基音缺失”等低级声学错觉上,Qwen2-Audio表现出近人类易感性(ISI>0.9);在需要结合知识的错觉(如谢泼德音调)上,大模型(如MuLLaMa)显示出部分对齐,但整体仍弱于人类;在语音相关错觉(语音转歌曲、音素恢复)上差距最大,仅Qwen2-Audio在音素恢复上达到完美人类对齐,但所有模型在语音转歌曲上均失败。详细结果见下表。 实际意义是什么:为评估和开发更具“人感”的音频AI模型提供了新的诊断维度和工具。有助于推动模型从追求信号保真度向模拟人类认知特性发展,并为认知科学提供对比人类与机器感知的实验平台。 主要局限性是什么:评估任务被简化为固定的多项选择题,可能无法全面评估错觉感知的丰富性。许多模型在控制条件下性能也不稳定,表明其基础音频理解能力仍有不足。论文未深入探讨模型架构或训练方式导致差异的具体原因。 实验结果表格: 模型 参数量 Physics (幻觉) HLA/RA/ISI Physics (控制) HLA/RA/ISI Physics+Knowledge (幻觉) HLA/RA/ISI Physics+Knowledge (控制) HLA/RA/ISI 总体平均 HLA/RA/ISI Human - 1.000/0.000/1.000 1.000/1.000/0.000 1.000/0.000/1.000 1.000/1.000/0.000 1.000/0.000/1.000 Pengi 323M 0.677/0.323/0.355 0.333/0.389/-0.056 0.715/0.285/0.430 0.083/0.224/0.141 0.408/0.296/0.112 Audio Flamingo Chat 2.2B 0.925/0.075/0.875 0.120/0.139/-0.019 0.963/0.037/0.926 0.245/0.217/0.028 0.901/0.056/0.845 MuLLaMa 7B 0.535/0.465/0.070 0.155/0.167/-0.012 0.856/0.144/0.711 0.084/0.217/0.133 0.519/0.240/0.279 Qwen-Audio-Chat 8.4B 0.305/0.695/-0.389 0.267/0.222/0.045 0.567/0.433/0.133 0.083/0.217/0.134 -0.023/0.512/-0.535 Qwen2-Audio 8.4B 0.985/0.015/0.971 0.015/0.111/-0.096 0.744/0.256/0.489 0.083/0.217/0.134 0.633/0.183/0.450 Qwen2-Audio-Instruct 8.4B 0.182/0.818/-0.636 0.314/0.222/0.092 0.470/0.530/-0.059 0.088/0.217/0.129 -0.232/0.616/-0.848 图1展示了AIB中三个错觉刺激(基音缺失、Zwicker音调、Tartini音调)及其对照刺激的示例,以及用于查询人类和AI模型的提示格式。这直观地说明了如何将听觉错觉感知转化为可评估的任务。 ...

2026-04-29

Auditory-Inspired Transformer for Binaural Speech Enhancement and Spatial Cue Preservation

📄 Auditory-Inspired Transformer for Binaural Speech Enhancement and Spatial Cue Preservation #语音增强 #端到端 #空间音频 #多通道 ✅ 7.0/10 | 前25% | #语音增强 | #端到端 | #空间音频 #多通道 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Sirawitch Laichatkul(朱拉隆功大学计算机工程系) 通讯作者:未说明 作者列表:Sirawitch Laichatkul(朱拉隆功大学计算机工程系)、Waradon Phokhinanan(巴黎高等师范学校感知系统实验室)、Thanapat Trachu(朱拉隆功大学计算机工程系)、Ekapol Chuangsuwanich(朱拉隆功大学计算机工程系) 💡 毒舌点评 这篇论文最大的亮点在于将听觉皮层的频率选择性(tonotopy)和自上而下注意力这一神经科学概念,成功地转化为了一个有效的计算模块(修改的ViT编码器和频率受限注意力掩码),为解决双耳增强中的空间线索失真问题提供了一个新颖且合理的切入点。但短板同样明显:模型对最具挑战性的相位线索(IPD)保持效果提升有限(∆IPD仅从1.12/1.13微降至1.09),实验仅基于合成数据,其在真实复杂声学环境下的表现和泛化能力有待验证,且缺乏开源代码,让这份“灵感”稍显难以触摸。 📌 核心摘要 问题:双耳语音增强不仅要在频谱上抑制噪声,更关键的是要保持双耳线索(如耳间时间差ITD和耳间强度差ILD),否则会破坏空间听觉,影响助听器和增强现实等应用效果。现有方法在这一挑战上表现不足。 方法:提出了BinauralViT,一个受听觉神经科学启发的Transformer架构。其核心是引入两个听觉启发层:一个能实现“自上而下”注意力的频率选择性表示层(通过修改ViT编码器和添加频率注意力掩码实现),以及一个用于捕捉时序连贯性的语音处理层。 创新:与已有方法相比,新在:1)受皮层频率拓扑组织启发,设计了允许同一时间帧内频率间注意力但限制跨帧注意力的机制;2)提出了一种双层Transformer结构,第一层进行特征选择与融合,第二层建模时序依赖以保持空间线索。 结果:在合成的非平稳噪声数据集上,BinauralViT在PESQ(2.78 vs 2.54/2.30)、SI-SNR(17.43 vs 16.92/15.30)上优于BiTasNet和BCCTN基线,并在ILD保持(∆ILD 4.20 vs 6.03/5.85)上显著提升,IPD保持(∆IPD 1.09 vs 1.13/1.12)略有改善。MBSTOI(~0.98)在所有模型中已接近饱和。消融实验验证了修改ViT编码器、第二层编码器及IPD/ILD特征的必要性。 意义:为双耳语音处理提供了一种新的、受生物启发的模型设计思路,证明了模拟听觉机制对提升空间线索保持能力的有效性,对助听技术发展有积极参考价值。 局限:实验在模拟数据上进行,可能无法完全反映真实场景的复杂性;对IPD的提升幅度有限;模型计算复杂度和实时性未作讨论。 🏗️ 模型架构 BinauralViT的完整架构如图1所示,是一个端到端的双耳语音增强模型,其目标是从带噪的双耳语音信号中估计出相位敏感掩码(PSM),进而重构出干净语音。整体流程可分为四个主要阶段: ...

2026-04-29

AURA: A Stegaformer-Based Scalable Deep Audio Watermark with Extreme Robustness

📄 AURA: A Stegaformer-Based Scalable Deep Audio Watermark with Extreme Robustness #音频水印 #音频安全 #Conformer #条件模型 #鲁棒性 ✅ 7.5/10 | 前25% | #音频水印 | #条件生成 | #音频安全 #Conformer 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Linxi Li(University of Warwick, OfSpectrum, Inc.) 通讯作者:未说明 作者列表:Linxi Li(University of Warwick, OfSpectrum, Inc.)、Liwei Jin(OfSpectrum, Inc.)、Yechen Wang(OfSpectrum, Inc.)、Houmin Sun(Duke Kunshan University)、Zi Hu(Duke Kunshan University)、Carsten Maple(University of Warwick) 💡 毒舌点评 亮点: 论文直面了现有音频水印方法在应对“极端”攻击(如剧烈变速、高损压缩、录音回放)时崩溃的痛点,并用一套设计周密的实验(包括真实环境下的手机录音回放)令人信服地展示了AURA模型在这些极端场景下近乎完美的鲁棒性,其性能提升是数量级的。短板: 论文引以为傲的“首个缩放定律研究”,其核心结论(如“宽深”模型最优)缺乏足够的理论支撑和普适性验证,目前更像是一次基于小规模网格搜索的经验性观察。此外,人类评估仅用24人测试40个样本,其统计显著性和代表性存疑,难以为“水印不可感知”的结论提供强有力背书。 ...

2026-04-29

Auto-MatchCut: An Audio-Visual Retrieval Framework for Seamless Match Cutting

📄 Auto-MatchCut: An Audio-Visual Retrieval Framework for Seamless Match Cutting #音频检索 #视频检索 #跨模态 ✅ 7.0/10 | 前50% | #跨模态检索 | #音频检索 | #视频检索 #跨模态 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Hongjie Chen (Dolby Laboratories) 通讯作者:未说明 作者列表:Hongjie Chen (Dolby Laboratories), Hanyu Meng (The University of New South Wales), Gautam Bhattacharya (Dolby Laboratories), Lie Lu (Dolby Laboratories), Josh Kimball (Dolby Laboratories), Ryan Rossi (未说明) 💡 毒舌点评 亮点:框架设计巧妙,通过独立控制音频和视觉距离参数(τ_a, τ_v),为用户提供了在“平滑”与“创意对比”之间灵活调节的杠杆,这是对现有单一模态方法的一个有意义扩展。 短板:评估方法过于依赖主观打分(人类和LLM),缺乏如剪切点帧级精确度、跨视频语义连贯性等客观、可量化的指标,使得“超过60%平滑”的结论说服力打折扣;且整个系统严重依赖所选编码器(CLAP/CLIP)的性能,未探讨其边界与失效情况。 ...

2026-04-29

Automated Dysphagia Screening Using Noninvasive Neck Acoustic Sensing

📄 Automated Dysphagia Screening Using Noninvasive Neck Acoustic Sensing #音频分类 #信号处理 #数字健康 #生物声学 🔥 8.0/10 | 前25% | #音频分类 | #信号处理 | #数字健康 #生物声学 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Jade Chng(Jacobs School of Engineering, University of California San Diego; Department of Biomedical Engineering, Duke University)(论文中标注了*,且名字在首位) 通讯作者:未明确指定。论文中标注Andrew Yousef和Philip A Weissbrod为“Equal Senior Authors”(†)。 作者列表: Jade Chng(加州大学圣地亚哥分校 Jacobs 工程学院;杜克大学生物医学工程系) Rong Xing(加州大学圣地亚哥分校 Jacobs 工程学院) Yunfei Luo(加州大学圣地亚哥分校 Halıcıoğlu 数据科学研究所) Kristen Linnemeyer-Risser(加州大学圣地亚哥分校 耳鼻喉头颈外科系) Tauhidur Rahman(加州大学圣地亚哥分校 Jacobs 工程学院;Halıcıoğlu 数据科学研究所) Andrew Yousef(加州大学圣地亚哥分校 耳鼻喉头颈外科系)(平等资深作者) Philip A Weissbrod(加州大学圣地亚哥分校 耳鼻喉头颈外科系)(平等资深作者) 💡 毒舌点评 亮点:这篇论文的最大亮点在于其扎实的临床数据采集流程——将声学传感与吞咽评估的“金标准”FEES实时同步进行,确保了标签的准确性,这为医疗声学研究树立了良好的数据基础。短板:然而,其核心模型(随机森林)和自动分割算法(固定参数/滑动窗口)显得相对传统和保守,在模型创新性上略显不足;更重要的是,未提供任何代码或数据,对于一项旨在推动“实用工具”的工作而言,这极大地限制了其快速验证和应用转化的可能性。 ...

2026-04-29

Automatic Estimation of Speaker Diarization Error Rate Based on Features of Audio Quality and Speaker Discriminability

📄 Automatic Estimation of Speaker Diarization Error Rate Based on Features of Audio Quality and Speaker Discriminability #说话人分离 #说话人日志 #模型评估 #语音活动检测 #聚类 ✅ 7.5/10 | 前25% | #说话人分离 | #说话人日志 | #模型评估 #语音活动检测 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Kenkichi Ishizuka (RevComm Inc.) 通讯作者:未说明 作者列表:Kenkichi Ishizuka (RevComm Inc., Tokyo, Japan), Chang Zeng (RevComm Inc., Tokyo, Japan), Masaki Ono (RevComm Inc., Tokyo, Japan), Taiichi Hashimoto (RevComm Inc., Tokyo, Japan) 💡 毒舌点评 本文的亮点在于它精准地识别并填补了“说话人日志误差率(DER)自动估计”这一实用但被忽视的研究空白,并设计了一个逻辑自洽、实验充分的框架来证明其可行性。其短板则在于方法创新性略显不足,核心贡献是启发式地组合了现有特征(VAD差异、DNSMOS、聚类指标)和回归模型,更像一个精心设计的工程解决方案,而非在理论或模型上有深层突破。 ...

2026-04-29

Automatic Music Mixing Using a Generative Model of Effect Embeddings

📄 Automatic Music Mixing Using a Generative Model of Effect Embeddings #音乐生成 #扩散模型 #领域适应 #音乐信息检索 ✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #领域适应 #音乐信息检索 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Eloi Moliner(Aalto大学,DICE声学实验室) 通讯作者:未说明 作者列表:Eloi Moliner(Aalto大学,DICE声学实验室)、Marco A. Mart´ınez-Ram´ırez(Sony AI)、Junghyun Koo(Sony AI)、Wei-Hsiang Liao(Sony AI)、Kin Wai Cheuk(Sony AI)、Joan Serr`a(Sony AI)、Vesa V¨alim¨aki(Aalto大学,DICE声学实验室)、Yuki Mitsufuji(Sony AI, Sony Group Corporation) 💡 毒舌点评 MEGAMI的核心亮点在于巧妙地将扩散模型应用于效应嵌入空间,解决了自动混音中“一对多”的根本难题,同时其领域适应策略为利用海量无配对湿录音数据提供了优雅的解决方案,架构设计完整且有深度。然而,论文的评估严重依赖内部数据集,缺乏在大型公开基准上的可复现比较,且其“接近人类水平”的结论在部分主观测试结果中略显主观,实际泛化能力与可落地性仍有疑问。 📌 核心摘要 这篇论文旨在解决自动音乐混音中的核心挑战:专业混音本质上是主观的,同一组干录音存在多种同样有效的混音方案,而现有的确定性回归方法无法捕捉这种多样性。论文提出了MEGAMI(Multitrack Embedding Generative Auto MIxing),一个生成式框架,它使用条件扩散模型在效应嵌入空间中建模给定干音轨的专业混音的条件分布。其核心方法是将混音决策(由效应嵌入表示)与音乐内容分离,并设计了一个排列等变的Transformer架构以处理任意数量和顺序的音轨。与已有方法相比,MEGAMI的创新在于:(1)首次将生成模型(扩散模型)用于自动混音;(2)提出了一种效应嵌入因式分解;(3)通过领域适应策略,使模型能利用大量仅有湿录音的公开数据集进行训练。实验表明,在客观分布性指标(KAD)上,MEGAMI优于所有基线;主观听力测试显示其性能接近人类混音师,在部分曲目上甚至超越了人类参考混音。这项工作为自动音乐生成开辟了新方向,其框架可用于合成混音数据集。主要局限性在于评估数据集大部分为内部数据,且模型性能依赖于CLAP和FxEncoder++等预训练嵌入模型的质量。 ...

2026-04-29

Automatic Music Sample Identification with Multi-Track Contrastive Learning

📄 Automatic Music Sample Identification with Multi-Track Contrastive Learning #音频检索 #对比学习 #自监督学习 #数据增强 #音乐信息检索 ✅ 7.5/10 | 前25% | #音频检索 | #对比学习 | #自监督学习 #数据增强 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Alain Riou (Sony AI) 通讯作者:未说明 作者列表:Alain Riou (Sony AI), Joan Serrà (Sony AI), Yuki Mitsufuji (Sony AI) 💡 毒舌点评 亮点在于用多轨数据“动态合成”正样本对的设计非常巧妙,比以往在单轨上做文章更贴近“采样后混音”的真实场景,且通过VQT域的增强操作在计算效率和效果之间取得了很好的平衡。短板是论文坦诚地指出了当前方法在理论上的一个根本局限(即单嵌入无法区分来自同一原曲的不同采样),但这恰恰暴露了对比学习在复杂关系建模上的天花板,后续工作若不能在此突破,则该领域的进步可能很快会触及瓶颈。 📌 核心摘要 问题:自动音乐采样识别(从新曲中检测并找到被采样的原曲)是一项重要但极具挑战的任务,面临训练数据匮乏、需抵抗复杂音频变换、以及在大库中高效检索等难题。 方法核心:提出一种基于自监督对比学习的框架。核心创新是利用多轨录音数据,在训练时动态创建“人工混合”正样本对(将不同轨道子集混合),模拟真实的采样混音过程。模型使用VQT(可变Q变换)时频表示作为输入,并采用ResNet-IBN编码器。 与已有方法相比新在哪里:(1) 数据创建范式革新:首次在采样识别任务中利用多轨数据创建混合正样本,而非仅从单轨中裁剪。(2) 对比损失设计:为匹配新的数据创建方式,设计了一种允许每个样本拥有两个正样本对的修改版对比损失。(3) 高效的频域增强:在VQT表示上进行随机裁剪和时间拉伸,以低成本实现对音高和时间偏移的鲁棒性。 主要实验结果:在标准的Sample100基准上,本方法取得了0.603的mAP,相较于之前最佳基线(0.442)提升了超过15%(绝对值),同时在HR@1、HR@10等指标上也大幅领先。消融实验证明了时间拉伸、音高偏移(VQT裁剪)等增强策略以及使用高质量ground-truth stems的必要性。实验结果关键表格如下: 表1:模型消融实验(在Sample100和SamplePairs数据集上) 模型 Sample100 mAP (↑) Sample100 HR@1 (↑) SamplePairs mAP (↑) SamplePairs HR@1 (↑) Ours (完整模型) 0.603 ± .098 0.587 ± .111 0.450 ± .095 0.430 ± .097 no time-stretch 0.463 ± .100 0.427 ± .112 0.301 ± .086 0.270 ± .087 no time-shift 0.598 ± .100 0.573 ± .112 0.376 ± .091 0.350 ± .093 no pitch-shift 0.422 ± .100 0.413 ± .094 0.355 ± .092 0.340 ± .093 Contrastive baseline 0.551 ± .101 0.533 ± .113 0.409 ± .092 0.380 ± .095 表2:与SOTA方法在Sample100上的性能对比 ...

2026-04-29

AUV: Teaching Audio Universal Vector Quantization with Single Nested Codebook

📄 AUV: Teaching Audio Universal Vector Quantization with Single Nested Codebook #音频生成 #统一音频模型 #知识蒸馏 #自监督学习 🔥 8.0/10 | 前25% | #音频生成 | #知识蒸馏 | #统一音频模型 #自监督学习 学术质量 5.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yushen Chen (上海交通大学X-LANCE实验室, MoE人工智能重点实验室, 江苏省语言计算重点实验室, SCS;上海创新研究院) 通讯作者:Xie Chen (上海交通大学X-LANCE实验室, MoE人工智能重点实验室, 江苏省语言计算重点实验室, SCS;上海创新研究院) 作者列表:Yushen Chen(上海交通大学X-LANCE实验室, MoE人工智能重点实验室, 江苏省语言计算重点实验室, SCS;上海创新研究院)、Kai Hu(腾讯混元)、Long Zhou(腾讯混元)、Shulin Feng(腾讯混元)、Xusheng Yang(北京大学,深圳)、Hangting Chen(腾讯混元)、Xie Chen(上海交通大学X-LANCE实验室, MoE人工智能重点实验室, 江苏省语言计算重点实验室, SCS;上海创新研究院) 💡 毒舌点评 亮点是嵌套码本(Matryoshka Codebook)设计巧妙,将领域先验以一种灵活、可学习的方式注入单一码本,避免了复杂多阶段训练和域切换难题。短板在于“统一”模型在语音重建的关键指标(如PESQ)上仍稍逊于领域专用模型(如BigCodec),且论文未公开完整的训练数据与硬件配置,对工业级复现构成挑战。 📌 核心摘要 问题:现有的神经音频编解码器要么是领域专用的(语音、音乐等分开训练),要么在使用单一码本实现统一音频表示时,面临重建质量不佳、训练流程复杂、处理混合域音频能力弱等问题。 方法核心:提出AUV,一个采用单一嵌套码本的统一神经音频编解码器。其核心是设计一个“俄罗斯套娃”式(Matryoshka)的嵌套码本,为语音、人声、音乐、声音等不同领域分配重叠的索引区间作为弱先验。同时,利用多个领域的预训练教师模型(如WavLM、MuQ、BEATs)对学生编解码器进行知识蒸馏,以注入丰富的语义信息,所有训练在单阶段完成。 新意:AUV是首个将嵌套码本设计和多领域教师蒸馏相结合,用于实现统一单码本音频表示的方法。与之前工作(如UniCodec的刚性分割码本和多阶段训练)相比,它更灵活、更高效,且能自然处理混合域音频。 主要实验结果:在语音重建(LibriSpeech test-clean)上,AUV(WER 3.64, SPK-SIM 0.81)与BigCodec(WER 3.63, SPK-SIM 0.84)等专用模型表现相当,并显著优于UniCodec(WER 3.78)。在音乐和声音重建上,AUV的Audiobox Aesthetics各项得分全面超越UniCodec(例如,音乐CE: 5.90 vs 5.06)。消融实验证实了嵌套码本和多领域蒸馏对重建和生成质量的提升。 实际意义:AUV为语音、音乐、声音等多领域提供了一个统一的离散表示基础,有望简化下游音频大模型(如TTS、音频生成)的训练,并能高效处理现实世界中的混合音频内容。 局限性:在极低比特率下的重建保真度仍有提升空间;统一模型在个别语音指标上与最强专用模型仍有微小差距;训练数据的具体细节和获取方式未完全公开。 🏗️ 模型架构 AUV的整体架构为编码器-量化器-解码器(Encoder-Quantizer-Decoder)。 ...

2026-04-29