Sunac: Source-Aware Unified Neural Audio Codec

📄 Sunac: Source-Aware Unified Neural Audio Codec #音频生成 #提示学习 #语音分离 #端到端 ✅ 7.5/10 | 前50% | #音频生成 | #提示学习 | #语音分离 #端到端 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Ryo Aihara(三菱电机研究实验室, 三菱电机公司) 通讯作者:未说明 作者列表:Ryo Aihara(三菱电机研究实验室, 三菱电机公司)、Yoshiki Masuyama(三菱电机研究实验室)、Francesco Paissan(特伦托大学, 三菱电机研究实验室)、François G. Germain(三菱电机研究实验室)、Gordon Wichern(三菱电机研究实验室)、Jonathan Le Roux(三菱电机研究实验室) 💡 毒舌点评 亮点:将源分离与音频编解码在特征空间进行优雅融合,通过提示机制统一处理不同数量和种类的音频源,设计思路非常灵活且具有前瞻性。 短板:论文在展示模型最强能力(处理多个同类型源)的关键实验上,缺乏对“条件特征提取器”各模块贡献的消融分析,使得模型高效性的来源不够透明;同时,完全缺乏代码和训练细节,让“可复现性”成为泡影。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开SUNAC模型权重。文中使用了预训练的DAC^1、TUSS^2、FasTUSS^2和SDCodec^3模型,但这些并非SUNAC本身。 数据集:评估使用了更新版的Divide and Remaster (DnR)数据集^36,但论文未说明其是否公开或如何获取训练集。 Demo:未提及。 复现材料:论文未给出训练超参数(如学习率、优化器)、检查点或附录说明。仅提供了模型参数量和计算量的总结表格(表1),不足以支撑复现。 论文中引用的开源项目: Descript Audio Codec (DAC):https://github.com/descriptinc/descript-audio-codec Task-Aware Unified Source Separation (TUSS):https://github.com/merlresearch/unified-source-separation SDCodec:https://github.com/XiaoyuBIE1994/SDCodec ViSQOL评估工具:https://github.com/google/visqol 论文中未提及开源计划:关于SUNAC自身的代码、模型或数据的开源计划,论文中未提及。 📌 核心摘要 问题:传统的神经音频编解码器(NAC)将混合音频信号(如语音+音乐)纠缠在一起编码,这对于只需要处理特定源(如会议纪要只需语音)的下游任务(如LLM)是低效的。现有方案(如SDCodec)无法处理同一类型的多个并发源(如两人同时说话)。 方法核心:提出SUNAC,一个基于提示的源感知统一神经音频编解码器。其核心是在共享的编码器之后、量化器之前,插入一个“条件特征提取器”。该模块接收编码特征和表示目标源类型的可学习提示向量,直接从混合特征中提取出指定源的特征,然后共享的量化器和解码器对其进行重建。同时,提出了一个级联系统(TUSS-DAC)作为性能上界。 新在哪里: 架构:相比于级联系统,SUNAC将分离与编码在特征空间集成,避免重复计算;相比于SDCodec,它使用统一的特征提取和单一共享的RVQ,通过提示实现灵活提取,且能处理同类型多源。 技术:在条件特征提取器中,创新性地使用了跨提示Transformer模块和基于FiLM的条件注入机制。 训练:采用置换不变训练(PIT)在特征空间解决同类型多源的输出排列模糊问题。 主要实验结果: 计算效率:SUNAC(69.2M参数,总MAC可扩展)比级联系统(如TUSS-DAC:85.2M)计算量更低,且优于轻量化级联版本(FasTUSS-DACT)。 核心能力:在分离两个说话人(表4)任务中,SDCodec(SI-SDR为0)完全失败,而SUNAC(SI-SDR为11.80)取得了与级联系统(13.35)可比的性能。 基础性能:在分离不同类源(表3)任务中,SUNAC的VisQOL得分(语音3.68, 音乐4.14)与最优基线接近;在复杂混合源(表5, 含两个说话人)任务中,SUNAC在语音分离上的SI-SDR(7.46)远高于SDCodec(约-1),接近级联系统(9.07)。 模型 SI-SDR (混合) ↑ VisQOL (混合) ↑ SI-SDR (语音) ↑ VisQOL (语音) ↑ TUSS-DAC – – 13.35 ± 3.80 4.08 ± 0.39 FasTUSS-DACT – – 10.73 ± 4.66 3.83 ± 0.46 SDCodec 0.00 ± 2.83 3.04 ± 0.62 0.00 ± 2.83 3.04 ± 0.62 SUNAC 11.80 ± 3.07 4.12 ± 0.42 11.80 ± 3.07 4.12 ± 0.42 表4:从{, }中分离结果。SUNAC在处理同类型多源上显著优于SDCodec。 实际意义:为音频LLM、全双工对话系统、音频事件检测等下游任务提供了一种更高效、灵活的前端音频表示获取方案,允许用户按需从混合信号中提取和编码感兴趣的源。 主要局限:模型在处理训练时未见过的源数量和类型组合时性能会下降(表5);论文未提供代码和详细训练配置,复现困难;缺乏对条件特征提取器内部模块的详细消融实验。 🏗️ 模型架构 SUNAC是一个端到端的神经音频编解码器,其目标是从混合音频信号\(x\)中,根据用户提供的提示(如“语音”、“音乐”),直接生成对应源的离散token。 整体架构(图1(c))包含四个主要部分,数据流如下: ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 336 words

Towards Distance-Aware Synthetic Audio Mixtures for Universal Sound Separation

📄 Towards Distance-Aware Synthetic Audio Mixtures for Universal Sound Separation #语音分离 #数据增强 #大语言模型 ✅ 6.5/10 | 前50% | #语音分离 | #数据增强 | #大语言模型 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Wonjun Park(德克萨斯大学阿灵顿分校 计算机科学与工程系) 通讯作者:未说明 作者列表:Wonjun Park(德克萨斯大学阿灵顿分校 计算机科学与工程系)、Tuan M. Dang(德克萨斯大学阿灵顿分校 计算机科学与工程系)、Kenny Q. Zhu(德克萨斯大学阿灵顿分校 计算机科学与工程系) 💡 毒舌点评 亮点:论文最大的亮点在于将大语言模型视为一个“世界知识库”,通过文本推理来注入“距离先验”,从而让合成的音频混合更贴近现实世界(如“蛙鸣”与“雨声”混合时蛙声应更响),这种跨模态知识迁移的思路颇具巧思。 短板:评估体系严重依赖主观人类投票,却缺乏在标准声音分离客观测试集(如SI-SDR指标)上的横向对比,使得“性能提升”的结论有些悬空;同时,仅用1B参数的LLM进行推理,在训练中引入的计算开销与收益是否成比例,文中也未做深入分析。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用了公开数据集Clotho v2.1和FSD50K,但论文本身未公开其制作的评估集。 Demo:未提及。 复现材料:论文提供了超参数γ、Batch size、使用的LLM型号等基本信息,但缺少完整的训练脚本、配置文件和更详细的实现说明。 论文中引用的开源项目:Meta Llama 3.2 1B(LLM)、CLAP(文本编码器)、TDCN++和ResUNet(分离模型架构)、AudioSep(条件分离框架)。 论文中未提及开源计划。 📌 核心摘要 这篇论文旨在解决通用声音分离(USS)任务中,因依赖随机混合生成的合成训练数据而导致模型在现实场景中泛化能力不足的问题。其核心方法是提出一种“距离感知”的音频合成策略:利用大语言模型(LLM)从音频文本描述中推断两个声源之间的合理相对距离(远、相同、近),并据此调整候选音频相对于基础音频的音量大小,从而生成更自然、更符合现实分布的“混合中的混合”(MoMs)训练数据。与以往所有工作采用的随机混合策略相比,新方法首次将外部知识(LLM常识)引入数据生成环节,以对齐训练分布与真实世界分布。主要实验基于人类评估,在室内/城市、户外/野外、音乐三类场景的100个混合样本上进行,结果显示,使用距离感知策略训练的模型(AudioSep和MixIT)在多数情况下获得的投票数是随机策略的2倍以上。该研究为数据稀缺领域的模型训练提供了新的数据合成范式,其主要意义在于证明了对合成数据施加“常识约束”的有效性。主要局限性在于:评估高度依赖主观人类评分,缺乏主流客观基准上的对比;LLM推理引入了额外的训练计算开销;方法目前仅应用于特定数据集(Clotho, FSD50K),普适性有待验证。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 272 words

Training Dynamics-Aware Multi-Factor Curriculum Learning for Target Speaker Extraction

📄 Training Dynamics-Aware Multi-Factor Curriculum Learning for Target Speaker Extraction #语音分离 #课程学习 #音频安全 #数据集 ✅ 7.0/10 | 前25% | #语音分离 | #课程学习 | #音频安全 #数据集 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Yun Liu(日本国立信息学研究所;综合研究大学院大学) 通讯作者:未说明(论文未明确指定通讯作者,通常根据邮箱判断,此处多个邮箱并列) 作者列表:Yun Liu(日本国立信息学研究所 & 综合研究大学院大学)、Xuechen Liu(日本国立信息学研究所)、Xiaoxiao Miao(昆山杜克大学自然科学与应用科学部)、Junichi Yamagishi(日本国立信息学研究所 & 综合研究大学院大学) 💡 毒舌点评 亮点:将“训练动态可视化”(Dataset Cartography)引入TSE任务,并创新性地结合多因子(SNR、说话人数、重叠率、数据来源)联合调度,克服了传统课程学习依赖预设单一难度指标的缺陷,在复杂多说话人场景下取得了显著的性能增益。 短板:实验仅在单一数据集(Libri2Vox)和一种相对简单的BLSTM模型上验证,未在更先进的模型架构(如基于Transformer的)和更多元的数据集上测试其通用性;TSE-Datamap区域的划分比例(30%,50%,20%)是经验值,缺乏理论支撑或自动优化机制。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:提及了使用Libri2Vox数据集及其合成变体,并引用了相关数据集论文,但未提供本工作生成的数据或脚本。 Demo:未提及。 复现材料:提供了较详细的训练配置(优化器、学习率调度、早停)、数据采样参数、模型架构描述,但缺少超参数网格搜索细节、具体的数据预处理脚本和硬件信息。 论文中引用的开源项目:ECAPA-TDNN(预训练说话人模型)、SALT(语音合成模型)、SynVox2(语音匿名化/合成模型)。 论文中未提及开源计划。 📌 核心摘要 问题:现有针对目标说话人提取(TSE)的课程学习方法通常单独处理不同难度因子(如SNR、说话人数),无法建模因子间的复杂交互,且依赖可能不符合模型实际学习情况的预设难度指标。 方法核心:提出多因子课程学习策略,联合调度SNR、干扰说话人数、时间重叠比和干扰源类型(真实/合成)四个因子;同时提出TSE-Datamap框架,通过跟踪训练过程中每个样本的损失置信度和变异性,在二维空间将数据分为“易学习”、“模糊”和“难学习”三个区域,以指导数据选择。 创新:相较于传统单因子、预设规则的课程学习,本文方法实现了多因子协同渐进式学习,并首次将训练动态可视化(TSE-Datamap)应用于TSE,使课程设计基于模型实际学习行为。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 294 words

UNMIXX: Untangling Highly Correlated Singing Voices Mixtures

📄 UNMIXX: Untangling Highly Correlated Singing Voices Mixtures #语音分离 #时频分析 #歌唱语音合成 #数据增强 #低资源 🔥 8.5/10 | 前25% | #语音分离 | #时频分析 | #歌唱语音合成 #数据增强 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jihoo Jung(韩国科学技术院, Korea Advanced Institute of Science and Technology, South Korea) 通讯作者:未说明(论文中未明确标注) 作者列表:Jihoo Jung(韩国科学技术院)、Ji-Hoon Kim(韩国科学技术院)、Doyeop Kwak(韩国科学技术院)、Junwon Lee(韩国科学技术院)、Juhan Nam(韩国科学技术院)、Joon Son Chung(韩国科学技术院) 💡 毒舌点评 亮点: 论文对问题(高相关、数据稀缺)的洞察和解决方案设计(MIM生成相关数据、CS Attention解耦表示)非常系统且直击要害,实验验证也堪称范本,尤其是提出了HSSNR这个更合理的评估指标来应对同歌手场景。短板: 依赖合成数据(MIM)来解决数据问题,与真实多轨录音的差距未充分探讨;且所有对比实验均在单一的MedleyVox数据集上进行,未见其他公开数据集上的验证,说服力略打折扣。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及。 数据集:论文中使用了多个公开歌唱语音数据集(见参考文献[17-25]),但未提及UNMIXX合成的训练集是否开源。 Demo:提供音频演示链接:https://unmixx.github.io/ 复现材料:提供了详细的训练参数(学习率、优化器、批大小、损失函数权重、阈值、训练步数等),但未提供完整的配置文件或训练日志。 论文中引用的开源项目:引用了TIGER [14] 作为架构基础,以及Beat Tracking模型 [16] 用于MIM。 📌 核心摘要 问题: 本文旨在解决多人歌唱语音分离(MSVS)任务,该任务面临两大独特挑战:可用的训练数据极度稀缺,且混合的歌唱语音本身具有高度相关性(如共享歌词、和声、时间对齐),这使得现有语音分离方法效果不佳。 方法核心: 提出UNMIXX框架,包含三个关键组件:(1)音乐信息混合(MIM)策略,通过选择时间节奏和音高和谐的歌曲进行配对,合成高度相关且逼真的训练数据,以缓解数据稀缺;(2)跨源注意力(CS Attention),通过“反向注意力”机制主动抑制两个歌手表示中的相似区域,强制表示分离;(3)幅度惩罚损失(Magnitude Penalty Loss),在训练后期显式惩罚目标频谱图中残留的干扰能量。 创新点: 1)首次提出针对MSVS任务的、模拟真实音乐相关性的数据合成方法(MIM)。2)在架构(CS Attention)和损失(LPenalty)两个层面引入跨源互斥约束,专门针对“高相关性”这一难点。3)为同演唱者场景提出了更合理的评估指标HSSNR。 实验结果: 在MedleyVox评估集上,UNMIXX相对于此前最优方法(MedleyVox基线)取得了显著提升,在duet子集上SDRi提升2.42 dB,在unison子集上提升2.26 dB。消融实验证明了每个组件的有效性。 主实验对比(关键数据): 方法 #参数 Duet SDRi (↑) Unison SDRi (↑) MedleyVox 5M 15.10 4.90 TIGER* 947k 16.58 5.96 UNMIXX 951k 17.52 7.16 消融实验(部分关键结果): 方法 Duet SDRi Unison SDRi TIGER* (基线) 16.58 5.96 + MIM (m=8) 16.79 7.31 + CS attention 18.01 6.17 + Mag, Penalty loss 16.68 6.44 UNMIXX (全组件) 17.52 7.16 实际意义: 为处理真实音乐中常见的多轨人声混合提供了有效工具,可应用于音乐制作(人声轨道分离)、卡拉OK(伴奏与任意人声分离)、以及后续的单人歌唱信息检索任务。 主要局限性: 1)模型性能高度依赖于MIM合成的数据与真实数据的匹配度;2)实验仅在一个评估数据集上进行,泛化能力有待进一步验证;3)模型为离线处理,未讨论实时性。 🏗️ 模型架构 UNMIXX的整体架构基于轻量级语音分离模型TIGER进行改造,其核心流程如下: ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 373 words

Vib2Sound: Separation Of Multimodal Sound Sources

📄 Vib2Sound: Separation Of Multimodal Sound Sources #语音分离 #生物声学 #麦克风阵列 #信号处理 ✅ 6.5/10 | 前50% | #语音分离 | #麦克风阵列 | #生物声学 #信号处理 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Mai Akahoshi (ETH Zurich and University of Zurich, Institute of Neuroinformatics) 通讯作者:Richard H. R. Hahnloser (makahoshi@ethz.ch, {yuhang, zaia, rich}@ini.ethz.ch, 从邮箱和星号标注判断,Hahnloser 和 Zai 为共同资深作者) 作者列表:Mai Akahoshi (ETH Zurich and University of Zurich, Institute of Neuroinformatics & Neuroscience Center Zurich), Yuhang Wang (同上), Longbiao Cheng (ETH Zurich and University of Zurich, Institute of Neuroinformatics), Anja T. Zai (同上), Richard H. R. Hahnloser (同上) 💡 毒舌点评 亮点:论文巧妙地将动物佩戴的加速度计信号作为个体身份“锚点”,解决了同种动物发声高度相似导致麦克风阵列分离失效的核心难题,在生物声学领域思路清晰且有效。短板:模型架构是对现有VoiceFilter框架的简单适配与修改,创新深度有限;研究场景(斑胸草雀)和数据集较为垂直,对主流音频/语音处理社区的普适性启发可能不足。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 361 words

VM-UNSSOR: Unsupervised Neural Speech Separation Enhanced by Higher-SNR Virtual Microphone Arrays

📄 VM-UNSSOR: Unsupervised Neural Speech Separation Enhanced by Higher-SNR Virtual Microphone Arrays #语音分离 #麦克风阵列 #无监督学习 ✅ 7.5/10 | 前25% | #语音分离 | #麦克风阵列 | #无监督学习 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Shulin He(南方科技大学计算机科学与工程系) 通讯作者:Zhong-Qiu Wang(南方科技大学计算机科学与工程系) 作者列表:Shulin He(南方科技大学计算机科学与工程系),Zhong-Qiu Wang(南方科技大学计算机科学与工程系) 💡 毒舌点评 亮点:方法巧妙地将传统盲源分离器(IVA/SC)的输出“废物利用”,包装成提供额外监督信号的“虚拟麦克风”,用极低的计算代价显著缓解了小阵列无监督训练崩溃的问题,工程思维值得学习。短板:实验仅在模拟数据(SMS-WSJ)上进行,在真实复杂声场(如强混响、非平稳噪声)下的鲁棒性未经验证,且虚拟麦克风的质量完全依赖于前端分离器的性能,形成了一个潜在的瓶颈。 🔗 开源详情 代码:论文中未提及代码链接。文中提到的开源项目仅为依赖项:torchiva (https://github.com/fakufaku/torchiva) 和 pb_bss 中的CACGMM示例。 模型权重:未提及。 数据集:使用公开的SMS-WSJ数据集[29]。 Demo:未提及。 复现材料:提供了非常详细的实验配置,包括数据集划分、STFT参数、损失函数权重(α, β, ξ)以及训练流程(沿用UNSSOR配方),但未提供训练脚本、配置文件或检查点。 论文中引用的开源项目:torchiva(用于IVA),CACGMM实现(用于空间聚类)。 开源计划:论文中未提及开源计划。 📌 核心摘要 问题:无监督语音分离(USS)依赖混合一致性(MC)损失进行训练,但当训练所用的物理麦克风数量减少(特别是降至确定性配置时),MC约束变弱,导致分离性能急剧下降甚至训练失败。 方法核心:提出VM-UNSSOR,利用线性空间分离器(如IVA或空间聚类)对原始多通道混合信号进行处理,生成一组高信噪比(SNR)的“虚拟麦克风”信号。这些虚拟信号作为原始混合信号的线性投影,满足相同的声学混合模型。将物理和虚拟麦克风信号一起输入神经网络分离器,并基于所有麦克风(物理+虚拟)计算加权的MC损失,从而增强训练约束。 创新之处:与基础UNSSOR相比,VM-UNSSOR通过引入虚拟麦克风,人为增加了用于计算MC损失的“通道”数量,将确定或欠定的训练条件转变为伪过确定条件。这不仅提供了更强的训练约束,其高SNR特性还可能充当伪教师信号,帮助解决频率置换问题。 主要实验结果:在SMS-WSJ数据集的6麦克风2说话人设置下,VM-UNSSOR达到17.1 dB SI-SDR,比UNSSOR基线(14.7 dB)提升2.4 dB,也优于参考的扩散模型方法ArrayDPS(16.2 dB)。在更具挑战性的2麦克风2说话人(确定性)设置中,UNSSOR训练失败(-2.7 dB SI-SDR),而VM-UNSSOR能达到10.7 dB SI-SDR。 系统 设置 SI-SDR (dB) UNSSOR 6麦,2说话人 14.7 VM-UNSSOR 6麦,2说话人 17.1 UNSSOR 2麦,2说话人 -2.7 VM-UNSSOR 2麦,2说话人 10.7 实际意义:该方法无需标注数据或额外硬件麦克风,可显著提升现实场景中(麦克风数量有限)的无监督语音分离性能,适用于智能设备、助听器等需要快速在目标环境自适应部署的场景。 主要局限性:1)性能上限受限于所使用的线性分离器(IVA/SC)的质量;2)所有实验基于模拟数据(SMS-WSJ),缺乏真实场景验证;3)虚拟麦克风引入了额外的计算开销。 🏗️ 模型架构 VM-UNSSOR的系统架构(如图1所示)主要包含三个核心组件:虚拟麦克风生成器、神经网络分离器和基于混合一致性(MC)的训练框架。 ...

2026-04-29 · 更新于 2026-06-12 · 3 min · 603 words

Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model

📄 Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model #语音分离 #自回归模型 #流式处理 #实时处理 #语音大模型 🔥 8.5/10 | 前25% | #语音分离 | #自回归模型 | #流式处理 #实时处理 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Shuhai Peng (1) 通讯作者:Zhiyong Wu (1,†) 作者列表: Shuhai Peng (1) Hui Lu (2) Jinjiang Liu (1) Liyang Chen (1) Guiping Zhong (3) Jiakui Li (3) Huimeng Wang (2) Haiyun Li (1) Liang Cao (1) Shiyin Kang (3) Zhiyong Wu (1,†) 机构信息:论文中未明确给出机构1、2、3的具体名称。根据作者上标标注,作者分属三个不同机构。 💡 毒舌点评 这篇论文的亮点在于首次将自回归生成模型成功适配到流式目标说话人提取任务中,并通过“分块交错拼接”这一工程上优雅的设计解决了训练与推理的不匹配问题,实现了100%的推理稳定性,且性能在低延迟下超越了传统判别式模型。然而,其短板也十分明显:所有实验均在单一的Libri2Mix数据集上进行,对于更复杂、噪声更多样的真实场景(如远场、强混响)的泛化能力未得到验证,这使得其“超越离线基线”的结论显得有些封闭和乐观。 ...

2026-04-23 · 更新于 2026-06-12 · 2 min · 316 words

Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model

📄 Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model #语音分离 #自回归模型 #流式处理 #大语言模型 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Shuhai Peng(推断为小米或合作机构) 通讯作者:Zhiyong Wu(推断为小米或合作机构) 其他作者:Hui Lu, Jinjiang Liu, Liyang Chen, Guiping Zhong, Jiakui Li, Huimeng Wang, Haiyun Li, Liang Cao, Shiyin Kang 机构信息:论文未明确标注所有作者的所属机构。根据作者列表和常见合作模式,作者可能来自小米公司(Xiaomi)、香港中文大学(The Chinese University of Hong Kong) 或其他合作研究机构。具体实验室/课题组信息未在提供的文本中说明。 💡 毒舌点评 亮点:精准地抓住了生成式TSE模型流式化时“一跑就崩”的痛点,用“交织拼接”这招巧妙地给模型戴上了“因果紧箍咒”,硬是把一个“离线学霸”改造成了“实时能手”,稳定性拉满。槽点:方法创新更像是针对现有大模型(LauraGPT)的“工程适配”和“流程优化”,理论深度稍显不足;而且说好的开源代码“将在GitHub上”,目前还是一张空头支票。 🔗 开源详情 代码:论文在结论部分声明“我们的代码将在GitHub上开源”,但当前arXiv版本未提供具体URL。状态为承诺开源,暂未发布。 模型权重:未提及是否公开预训练模型权重。 数据集:实验基于公开的LibriSpeech和Libri2Mix数据集生成。 预训练权重:使用了预训练的funcodec作为声学编解码器,以及LauraGPT作为生成主干。 在线Demo:未提及。 依赖的开源项目:明确提到了LauraGPT、funcodec、WavLM、WeSpeaker、Whisper(用于计算WER)等。 📌 核心摘要 这篇论文旨在解决生成式目标说话人提取(TSE)模型在流式实时应用中因依赖全局上下文而导致性能严重下降的核心问题。作者首次提出了一个基于自回归语言模型(LauraGPT)的流式TSE框架。其核心创新是“分块交织拼接范式”,通过将混合音频块与对应的目标语音离散编码块交错排列作为模型输入,严格保证了推理的因果性,防止了未来信息泄露。同时,设计了“历史上下文优化机制”,在声码器解码阶段引入前一音频块的隐藏状态,以缓解块间的相位不连续问题。实验表明,该方法在低延迟(如560ms)下实现了100%的推理成功率,语音质量和可懂度优于基线生成模型,并能匹配甚至超越离线判别式模型的性能,且在消费级GPU上达到了0.248的实时率(RTF)。该工作证明了自回归生成模型适用于低延迟流式应用的可行性。 🏗️ 模型架构 模型整体采用基于LauraGPT的粗到细(coarse-to-fine)分层架构,处理流程如下: 输入:一段包含目标说话人和干扰的混合语音(被切分为连续的音频块 C_mix),以及一段目标说话人的参考语音 E_ref。 共享特征提取:混合语音块和参考语音分别通过两个权重共享、严格因果的Conformer编码器,提取帧级别的连续嵌入表示 E_mix 和 E_ref。这确保了特征提取只依赖当前和历史信息。 语义提取语言模型(SELM): 输入构造:将静态的参考语音嵌入 E_ref 与一个特殊分隔符 v_sep 作为前缀,后面交织拼接历史所有的混合语音块和它们对应的目标语音离散语义令牌(C_mix(1), v_task, u(1), ..., C_mix(t), v_task, u(t))。 功能:这是一个自回归Transformer模型,负责预测当前音频块对应的粗粒度语义离散令牌序列 u(t)。其自注意力机制被限制在交织的序列上,保证了因果性。 声学细化语言模型(ARLM): 输入构造:同样以参考语音为静态前缀,后面交织拼接历史所有的混合语音块和它们对应的、由SELM预测出的语义令牌序列(C_mix(1), U_SELM(1), ..., C_mix(t), U_SELM(t))。 功能:另一个自回归Transformer模型,负责在SELM输出的粗粒度语义令牌基础上,生成细粒度的声学隐藏状态 h(t),以恢复高频细节和提升音质。 声码器解码与历史上下文优化: 输入构造:解码器的输入不仅是当前块的声学隐藏状态 h(t),还拼接了上一时刻优化后的隐藏状态 h(t-1),即 Concat(h(t-1), h(t))。 功能:一个预训练的神经声码器(funcodec的解码器部分),将细粒度的声学隐藏状态重建为最终的语音波形。引入 h(t-1) 的目的是平滑块间过渡,保持相位和语义连贯性。 输出:当前时间块的目标语音波形。 关键设计理由: ...

2026-04-22 · 更新于 2026-06-12 · 2 min · 338 words