Latent Fourier Transform

📄 Latent Fourier Transform #音乐生成 #扩散模型 #生成模型 #数据集 #音频生成 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Mason L. Wang (MIT CSAIL) 通讯作者:Cheng-Zhi Anna Huang (MIT CSAIL) 其他作者:无 💡 毒舌点评 亮点:这篇论文最妙的地方在于,它没有去折腾音频波形本身,而是聪明地给音乐模型的“脑内活动”(潜在表示)做了一次傅里叶体检,然后像调EQ一样去调节音乐在不同时间尺度上的特征,思路非常清奇且有效。槽点:目前这“脑内手术”需要专门训练一套模型才能做,还不能直接给一个现成的音乐生成模型(如MusicLM)装上这个“傅里叶控制插件”,限制了其即插即用的潜力。 🔗 开源详情 代码:已开源。GitHub地址:https://github.com/maswang32/latentfouriertransform/。包含模型训练、推理、混合、可解释性分析代码,以及所有基线实现和实验管道。 模型权重:论文中未明确提及是否公开预训练模型权重。 数据集:使用了公开数据集MTG-Jamendo、GTZAN和Maestro。 在线Demo:论文中未提及。 📌 核心摘要 这篇论文旨在解决现有音乐生成模型难以对任意时间尺度上的音乐模式进行精确控制的问题。作者提出了潜在傅里叶变换(LatentFT) 框架,其核心是将离散傅里叶变换应用于由扩散自编码器编码得到的潜在向量序列,从而得到“潜在频谱”。通过在训练过程中对潜在频谱进行随机频率掩码,迫使解码器学会从部分频率信息中重建音乐,使得训练后的模型潜在空间对频率域操作具有鲁棒性。这使得用户可以在推理时,通过指定潜在频率(对应音乐模式的时间尺度)来生成保留特定尺度特征的变体,或将两首乐曲按不同时间尺度进行混合。实验表明,LatentFT在条件生成和混合任务的保真度与质量上均优于多个基线方法。用户研究也证实了其生成质量和混合效果更受青睐。此外,论文还展示了隔离特定潜在频率以“聆听”对应音乐模式,以及分析不同音乐属性(如流派、和声、节奏)在潜在频谱中分布的能力。该工作为生成模型引入了一种直观、连续的频率域控制维度,推动了更可解释、可交互的音乐生成模型的发展。其局限性在于需要端到端训练特定模型,且目前主要应用于音乐领域。 🏗️ 模型架构 LatentFT 是一个端到端的编码器-解码器架构,其完整流程如下: 编码阶段: 输入:音频波形或梅尔频谱图 x₀。 编码器:将 x₀ 映射为一个时间序列的潜在向量 z ∈ R^(C'×T')。论文尝试了三种编码器:帧级MLP、1D U-Net(基于梅尔谱)和基于Descript音频编解码器(DAC)的编码器+1D U-Net。 潜在傅里叶变换:对潜在序列 z 沿时间轴应用离散傅里叶变换(DFT),得到潜在频谱 Z ∈ C^(C'×K)。Z 的频率轴称为潜在频率轴,其上的频率(Hz)对应于潜在序列振荡的速率,即音乐模式的时间尺度。 频率掩码(训练时随机,推理时用户指定): 采样一个随机阈值 η 和一组频率分箱得分 s(通过相关矩阵 K 生成,使相邻分箱得分相关)。 生成二进制掩码 M,保留得分高于阈值的分箱。 应用掩码:Z_masked = Z ⊙ M。 逆变换:对掩码后的频谱 Z_masked 应用逆DFT,得到频率掩码后的潜在序列 z_masked。 解码/生成阶段: 解码器:一个基于扩散模型的U-Net。其输入是:(a) 频率掩码后的潜在序列 z_masked(作为条件),(b) 带噪的梅尔频谱图 x_τ(训练时为加噪的真实数据,推理时为随机噪声),(c) 噪声水平 τ。 输出:预测的干净梅尔频谱图 x̂₀。最终通过BigVGAN声码器将梅尔谱转换为音频波形。 关键设计理由: 使用扩散自编码器:结合了表示学习(编码器)和强大的生成能力(扩散解码器),且其潜在表示具有语义意义。 在潜在空间而非音频空间做傅里叶变换:音频的频谱对应音色,而潜在序列的频谱对应音乐模式的时间变化(如和弦变化、节奏型)。这使得控制直接作用于音乐结构。 训练时频率掩码:这是核心创新。它迫使解码器学会从不完整的频率信息中连贯地重建音乐,从而使潜在空间对频率域操作(如掩码、混合)变得鲁棒。没有这一步,直接对预训练模型的潜在表示进行频率滤波会导致生成质量严重下降(如消融实验所示)。 相关分组与对数频率缩放:生成连续的掩码区域,更符合用户实际操作习惯,并平衡了1/f频谱中高低频能量不均的问题。 💡 核心创新点 潜在傅里叶变换(Latent Fourier Transform)的概念: ...

2026-04-21 · 更新于 2026-06-24 · 2 min · 342 words

LLM-Codec: Neural Audio Codec Meets Language Model Objectives

📄 LLM-Codec: Neural Audio Codec Meets Language Model Objectives #语音大模型, #预训练, #基准测试, #音频大模型 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Ho-Lam Chung (台湾大学 通信工程研究所, 华硕智能云服务) 通讯作者:Hung-yi Lee (台湾大学 人工智能卓越研究中心) 其他作者:Yiming Chen (华硕智能云服务) 💡 毒舌点评 亮点:精准地抓住了语音令牌化领域“重建质量”与“语言模型可预测性”之间的核心矛盾,并用一套设计精巧、实验扎实的“组合拳”(FTP+SA+Gumbel桥)漂亮地解决了问题,效果拔群。槽点:方法依赖语音-文本对齐(SA),这在非语音音频或无转录数据上就成了“阿喀琉斯之踵”,限制了其通用性;另外,训练时需要额外的前向传播和辅助模块,对计算资源是个小考验。 🔗 开源详情 代码与模型:论文明确承诺将开源,GitHub仓库地址为 https://github.com/voidful/llm-codec。截至论文阅读时(v1版本),代码和模型权重尚未发布。 预训练权重:基于AUV编码器和Qwen3-4B-Instruct语言模型进行微调。预计开源时会提供微调后的编码器权重。 在线Demo:论文中未提及。 依赖的开源项目:论文中引用了多个开源项目作为基线或组件,包括:AUV编码器、Qwen3大语言模型、EnCodec、SoundStream、BigCodec、UniCodec、WavTokenizer、LibriSpeech数据集、Codec-SUPERB评估工具、SALMon评估基准等。 📌 核心摘要 本文旨在解决语音语言模型(SLM)中一个根本性矛盾:神经音频编码器以波形重建为目标进行优化,而语言模型以序列预测为目标进行优化,这种目标不匹配导致生成的离散语音令牌熵值高、难以预测。为此,作者提出了LLM-Codec训练框架,在不改变编码器和语言模型架构的前提下,通过引入两个面向语言模型的正则化目标来重塑编码器:1)未来令牌预测(FTP),使用Medusa风格的多头结构预测多个未来令牌,鼓励令牌序列的局部可预测性;2)语义对齐(SA),通过对比学习将语音在冻结LLM中的隐藏状态与对应文本的隐藏状态对齐,确保令牌的语义一致性。一个可微分的Gumbel桥使得梯度能够端到端地回传至编码器。实验表明,LLM-Codec在SALMon语音连贯性基准上达到61.6%的准确率(比基线AUV高12.1个百分点),并将令牌级困惑度降低了35倍,同时在Codec-SUPERB-tiny基准上将语音Mel距离提升了5.0%,证明了重建质量与令牌可学习性可以协同提升。 🏗️ 模型架构 LLM-Codec的整体架构是一个增强型的神经音频编码器,其核心是在标准编码器-量化器-解码器流程中,插入了面向LLM的训练模块,并通过一个可微分的桥接器与冻结的LLM主干连接,实现端到端训练。 完整输入输出流程: 输入:原始音频波形 x。 编码与量化:音频 x 通过编码器 ℰ 得到连续潜变量 z,再通过量化器 𝒬(使用Gumbel-Softmax桥接)得到离散令牌 c。 LLM处理:离散令牌 c 通过音频令牌嵌入层 E_audio 转换为嵌入向量,输入到冻结的LLM主干(如Qwen3-4B)中,得到各层的隐藏状态 {h_t}。 辅助任务计算: 未来令牌预测(FTP):在LLM的最后一个隐藏状态上,连接K个Medusa头(线性层 M_k),分别预测当前时刻之后第k个未来令牌。 语义对齐(SA):从LLM的中间到高层(如第10-25层)提取语音序列的最后隐藏状态 h_audio,与对应文本通过相同且冻结的LLM得到的最后隐藏状态 h_text 进行对齐(余弦损失+对比损失)。 重建输出:离散令牌 c 通过解码器 𝒟 重建为音频波形 x̂。 损失计算与反向传播:总损失 ℒ_total 包含重建损失 ℒ_codec、桥接损失 ℒ_bridge、FTP损失 ℒ_FTP、语义对齐损失(ℒ_cos + ℒ_ctr)。梯度通过Gumbel桥反向传播至编码器 ℰ,从而优化编码器使其产生对LLM更友好的令牌。 主要组件与设计理由: ...

2026-04-21 · 更新于 2026-06-24 · 2 min · 391 words

MimicLM: Zero-Shot Voice Imitation through Autoregressive Modeling of Pseudo-Parallel Speech Corpora

📄 MimicLM: Zero-Shot Voice Imitation through Autoregressive Modeling of Pseudo-Parallel Speech Corpora #语音转换 #自回归模型 #强化学习 #多语言 #工业应用 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Tao Feng (清华大学) 通讯作者:Zhizheng Wu (香港中文大学(深圳)) 其他作者: Yuxiang Wang, Yuancheng Wang, Xueyao Zhang, Dekun Chen, Chaoren Wang (香港中文大学(深圳)) Xun Guan (清华大学) 💡 毒舌点评 亮点:把TTS生成的“垃圾”(合成语音)从训练目标变成训练源,这个“角色交换”的脑回路确实清奇,直接绕过了合成质量天花板,是论文最大的创新点。槽点:虽然思路巧妙,但整个框架依然严重依赖一个高质量的外部TTS系统来生成训练源,33%的数据过滤率也暗示了对TTS质量的敏感性;此外,构建850万对训练数据所需的计算资源(TTS推理+模型训练)恐怕不是一般实验室能承受的,可复现性存疑。 🔗 开源详情 代码:论文在摘要和正文末尾提供了项目页面 (https://fff-ttt.github.io/MimicLM_demo/) 和 GitHub Issue 链接,暗示代码可能开源或部分开源。但论文正文中未明确给出GitHub仓库地址。 模型权重:未明确说明是否公开预训练模型权重。 数据集:伪平行训练数据基于公开的Emilia数据集构建,但构建后的850M对数据本身未说明是否公开。 在线Demo:项目页面标题为“MimicLM_demo”,很可能提供在线演示。 引用的开源项目:论文明确依赖并集成了 CosyVoice 2.0 的音频分词器和流匹配解码器,以及 Qwen2.5 的语言模型架构。还使用了 Whisper-large-v3 进行ASR过滤和评估。 📌 核心摘要 这篇论文旨在解决零样本语音模仿任务中高质量平行训练数据稀缺的核心瓶颈。传统方法要么依赖复杂的解耦架构,要么使用合成语音作为训练目标,导致输出质量受限于合成系统的能力。作者提出了一种名为 MimicLM 的新框架,其核心创新在于**“角色交换”的数据构建策略**:使用TTS生成的语音作为训练源,而将真实的录音保留为训练目标。这使得模型能够直接从真实语音分布中学习,突破了合成质量的“天花板”。为应对这一新范式带来的内容保真度挑战和训练-推理分布不匹配问题,论文进一步引入了交错文本-音频建模(通过文本锚点引导内容生成)和基于DPO的偏好对齐(使用真实输入进行后训练以弥合分布差距)。实验表明,MimicLM在自然度、说话人相似度和情感保真度上取得了与SOTA方法竞争甚至更优的结果,尤其在主观评价中表现突出,并有效降低了在真实输入上的词错误率。该工作为语音模仿提供了一种概念更简单、效果显著的新范式。 ...

2026-04-21 · 更新于 2026-06-24 · 3 min · 472 words

MINT-Bench: A Comprehensive Multilingual Benchmark for Instruction-Following Text-to-Speech

📄 MINT-Bench: A Comprehensive Multilingual Benchmark for Instruction-Following Text-to-Speech #语音合成 #基准测试 #多语言 #模型评估 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Huakang Chen (陈华康)(西北工业大学,音频、语音与语言处理实验室,ASLP@NPU) 通讯作者:Lei Xie (谢磊)(西北工业大学,音频、语音与语言处理实验室,ASLP@NPU) 其他作者: Jingbin Hu (胡景斌)(西北工业大学,ASLP@NPU) Liumeng Xue (薛刘猛)(南京大学,智能科学与技术学院) Qirui Zhan (詹启瑞)(西北工业大学,ASLP@NPU) Wenhao Li (李文浩)(西北工业大学,ASLP@NPU) Guobin Ma (马国斌)(西北工业大学,ASLP@NPU) Hanke Xie (谢涵科)(西北工业大学,ASLP@NPU) Dake Guo (郭大可)(西北工业大学,ASLP@NPU) Linhan Ma (马林汉)(西北工业大学,ASLP@NPU) Yuepeng Jiang (蒋月鹏)(西北工业大学,ASLP@NPU) Bengu Wu (吴本固)(宇图智能,北京) Pengyuan Xie (谢鹏远)(灵光乍现科技,上海) Chuan Xie (谢川)(灵光乍现科技,上海) Qiang Zhang (张强)(灵光乍现科技,上海) 💡 毒舌点评 亮点:这篇论文精准地戳中了指令跟随TTS领域的“阿喀琉斯之踵”——评估。它不像某些工作那样“造轮子”,而是“造尺子”,并且是一把设计精巧、刻度分明、还能换着语言用的“多功能智能尺”。其分层分类和诊断性评估的思路,为混乱的评估现状带来了急需的秩序。 槽点:尺子本身好不好用,很大程度上依赖于“持尺人”(即评估器Gemini)。虽然论文做了人类一致性验证,但将评估标准很大程度上托付给一个商业黑盒API,总让人感觉根基不够稳固,未来可能需要更开放、可复现的评估模型。 🔗 开源详情 代码与工具:论文明确承诺将开源数据构建和评估工具包。项目主页为 https://longwaytog0.github.io/MINT-Bench/,并提供了用于接收反馈的GitHub Issue链接。 数据集:MINT-Bench基准数据集本身将开源,包含10种语言的指令-文本对。 模型权重:本文不涉及提出新的TTS模型,因此不涉及模型权重开源。但评估中使用了多个开源和商业模型。 在线Demo:论文主页提供了Demo链接。 依赖的开源项目:评估中使用了开源ASR模型(Paraformer-zh, Whisper Large-v3)和说话人嵌入模型(WavLM-Large)。 📌 核心摘要 这篇论文旨在解决指令跟随文本转语音(TTS)领域缺乏系统化评估工具的问题。当前评估存在覆盖不全、诊断粒度粗、多语言支持弱等缺陷。为此,作者提出了MINT-Bench,一个全面的多语言基准测试。其核心方法包括:1)一个基于10种原子声学属性的分层多轴分类法,系统性地组织了从简单到复杂(如组合、动态、角色扮演)及特殊(如非言语事件)的控制案例;2)一个三阶段数据构建流程(节点规范->结构化标签规划->指令-文本对生成),确保生成语义清晰、无属性泄露的测试用例;3)一个分层混合评估协议,依次评估内容一致性(基于ASR和WER)、指令跟随(基于大型音频语言模型判断)和感知质量/音色多样性。在十种语言上的实验表明,当前系统远未解决该问题:商业系统整体领先,但开源模型在中文等本地化场景中已具竞争力;内容保真度高不等于可控性强,复杂的组合和副语言控制仍是主要瓶颈。该工作为可控、多语言的语音生成研究提供了重要的诊断和评估基础。 ...

2026-04-21 · 更新于 2026-06-24 · 2 min · 284 words

MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation

📄 MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation #语音翻译 #混合专家模型 #音频大模型 #少样本 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Szu-Chi Chen (台湾大学,国立台湾大学) 通讯作者:Hung-yi Lee (台湾大学,国立台湾大学;根据贡献和常见通讯作者习惯推断) 其他作者: I-Ning Tsai (台湾大学,国立台湾大学) Yi-Cheng Lin (台湾大学,国立台湾大学) Sung-Feng Huang (NVIDIA,英伟达台湾) 💡 毒舌点评 亮点:精准抓住了S2ST“翻译了语义,却丢失了灵魂(笑声/哭泣)”这个长期痛点,并用一套从数据到模型的组合拳(合成数据管道+MoE架构+两阶段训练)系统性地解决了它,效果拔群,NV保留率从14%飙升到76%。槽点:数据合成依赖于现有的情感TTS和过滤器,可能引入合成偏差;目前只聚焦于五种特定情感/声音,离建模人类全部复杂细腻的情感光谱还有距离。 🔗 开源详情 代码:论文未明确提及代码是否开源。 模型权重:论文未明确提及预训练或微调后的模型权重是否公开。 数据集:承诺开源。将发布一个1000小时的合成表达性S2ST语料库(En-Zh),包含五种情感/非语言声音类别。 在线Demo:承诺提供。访问地址:https://47zzz.github.io/MoVE/。 预训练权重:基于Kimi-Audio-7B-Instruct,但该基础模型的权重是否由作者提供未知。 引用的开源项目:使用了Whisper(编码器和ASR评估)、IndexTTS2(合成引擎)、Librosa(音频处理)、多个情感语音数据集(CREMA-D, MSP-IMPROV, IEMOCAP, JVNV)。 📌 核心摘要 这篇论文旨在解决语音到语音翻译(S2ST)系统普遍缺失非语言声音(如笑声、哭泣)和情感韵律的问题,这严重限制了跨语言交流的自然度和语用准确性。作者提出了三大贡献:1) 一个可扩展的表达性数据合成管道,能自动生成高质量、带情感标注的S2ST训练对,克服了数据稀缺瓶颈;2) MoVE(混合声音专家)架构,基于预训练音频大模型(Kimi-Audio),通过并行多个情感特化的LoRA适配器和一个动态软加权路由器,实现了对混合情感状态的精细建模,避免了特征干扰;3) 揭示了惊人的数据效率,仅需30分钟的精选数据微调,就能激活预训练模型的强大潜力,达到接近全量数据95%的情感保真度。实验表明,MoVE在英中翻译任务上,在语义准确性和非语言声音保留率(76%)上均大幅超越现有SOTA系统,并获得了最高的人工评价自然度和情感相似度分数。 🏗️ 模型架构 MoVE架构建立在预训练的音频大模型Kimi-Audio之上,其核心流程如下: 输入:源语言语音波形。 编码与离散化: 语音首先通过一个Whisper编码器(经过在表达性数据集上微调)提取高级语义和声学特征。 同时,语音通过音频分词器(Audio Tokenizer) 被离散化为一系列语音token。 LLM处理(核心创新): 离散token序列输入到冻结参数的Kimi-Audio LLM主干中。 在LLM的每个Transformer层中,注入了五个并行的LoRA专家适配器,分别专精于“高兴”、“悲伤”、“愤怒”、“大笑”、“哭泣”五种声音流形。每个专家独立作用于注意力层和前馈网络的投影矩阵(Wq, Wk, Wv, Wo, Wgate)。 一个动态软加权路由器(一个带Softmax的轻量线性层)根据当前token的隐藏状态x,为五个专家的输出计算混合权重g_i(x)。最终层的输出是基础模型权重与所有专家加权输出的和:h(x) = W0*x + Σ g_i(x) * (B_i * A_i * x)。这实现了token级别的、连续的情感混合。 解码与生成: LLM输出的离散语音token序列被送入音频解解码器(Audio Detokenizer)。 该解码器经过在表达性数据(特别是非语言声音)上的微调,能更好地将token重建为包含丰富情感和非语言声音的目标语言语音波形。 输出:保留了源语音情感和非语言声音的目标语言语音。 关键设计选择理由: ...

2026-04-21 · 更新于 2026-06-24 · 2 min · 303 words

Neural Encoding Detection is Not All You Need for Synthetic Speech Detection

📄 Neural Encoding Detection is Not All You Need for Synthetic Speech Detection #语音伪造检测 #自监督学习 #数据集 #模型评估 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Luca Cuccovillo(柏林工业大学,媒体技术中心) 通讯作者:根据论文格式和致谢,Xin Wang(理化学研究所,RIKEN)可能是通讯作者,但论文未明确标注。 其他作者: Xin Wang(日本理化学研究所,RIKEN 知能系统中心 PRESTO) Milica Gerhardt(柏林工业大学,媒体技术中心) Patrick Aichroth(柏林工业大学,媒体技术中心) 💡 毒舌点评 亮点:给当前合成语音检测领域狂热追捧的“神经编码检测”泼了一盆及时的冷水,一针见血地指出SOTA方法可能只是在检测“声码器痕迹”而非“合成语音本质”,并犀利地关联到法律证据适用性问题,格局打开了。 槽点:作为“综述”,自己提出的“假设驱动”方法部分(韵律、POI)有点像文献综述的简单罗列,深度和说服力不如对数据驱动方法的批判部分那么酣畅淋漓,有点“破而不立”的感觉。 🔗 开源详情 代码:论文未明确开源代码。但在图2的脚注中提供了一个GitHub仓库链接:https://neural-isnt-deepfake.github.io,该仓库用于发布其实验中创建的“神经编码后的自然语音”测试数据集。 模型权重:论文中实验部分使用的SSL模型(XLSR-AASIST, XLSR-SLS, XLSR-Mamba)的权重,声明是“使用作者提供的权重”,但未说明获取方式。 数据集: 引用的公开数据集:ASVspoof 2019/2021/2024 LA, ADD, SAFE, CodecFake等。 自建/发布的数据集:通过上述GitHub仓库,提供了用于复现其图2实验的、经过多种神经编码器处理的ASVspoof 2019 LA评估集子集。 在线Demo:未提及。 📌 核心摘要 这篇综述论文的核心贡献在于揭示并论证了当前合成语音检测领域的一个关键误区:过度依赖“神经编码检测”。论文首先系统回顾了基于SincNet、自监督学习(SSL)和神经编码检测的三类数据驱动方法,指出当前性能最佳的SSL模型实际上主要捕捉的是声码器(vocoder)在波形生成阶段引入的痕迹,而非语音合成特征提取阶段的异常。通过实验(图2)证明,当对自然语音施加神经编码后,现有SOTA检测器的性能会显著下降,这验证了其核心论点。论文进一步指出,这种依赖在长期来看是不可靠的,因为神经编码将成为语音传输的常态,而非合成的专属标志。因此,论文倡导未来研究应转向更具可解释性和针对性的“假设驱动”方法,如基于韵律异常和特定说话人身份(POI)验证的检测,并呼吁建立高质量的合成语音数据集、标准化的评估流程以及可解释性分析工具。 🏗️ 模型架构 本文是一篇综述和立场性论文,并未提出一个全新的、端到端的模型架构。因此,其“模型架构”部分主要体现在对现有三类数据驱动方法的梳理和批判上: SincNet-based 方法: 输入:原始音频波形。 核心组件:SincNet滤波器组,其参数(中心频率、带宽)通过可学习的sinc函数表示,旨在学习一组带通滤波器。 后续处理:滤波器组输出后接复杂的分析模块,如残差块(RawNet2)、图注意力网络(RawGAT-ST, AASIST)来建模时频关系。 关键设计理由:避免对梅尔频谱图使用2D卷积,直接在波形上学习滤波器。但论文指出,这些模型最终倾向于关注无语音的高频和低频区域(背景噪声),而非语音本身,导致泛化能力差。 SSL-based 方法: ...

2026-04-21 · 更新于 2026-06-24 · 2 min · 263 words

NIM4-ASR: Towards Efficient, Robust, and Customizable Real-Time LLM-Based ASR

📄 NIM4-ASR: Towards Efficient, Robust, and Customizable Real-Time LLM-Based ASR #语音识别, #语音大模型, #强化学习, #流式处理 🔥 评分:8.5/10 | arxiv 👥 作者与机构 作者:Yuan Xie, Jiaqi Song, Guang Qiu, Xianliang Wang, Kai Qiao, Junfeng Yuan, Shengqing Liu, Yi Zhang, Bowen Chen, Ming Lei, Jie Gao, Jie Wu 所属机构:Advanced Intelligent Systems Group, NIO (蔚来汽车) 备注:论文未明确区分第一作者和通讯作者。所有作者均来自同一工业界团队(NIO)。 💡 毒舌点评 亮点:这是一篇典型的“工程美学”论文,把一个前沿技术(LLM-based ASR)在落地前可能遇到的坑(轻量化、幻觉、热词)都系统性地填上了,而且填得很扎实、很漂亮。特别是多阶段训练和流式推理的设计,体现了对LLM和语音特性深刻的理解。 槽点:理论创新的“性感”程度略逊于其工程实现的“性感”。它更像是一个优化到极致的“解决方案”而非一个颠覆性的“新方法”。另外,开源信息的缺失对于这样一个以实用为导向的工作来说,是个不小的遗憾。 🔗 开源详情 论文中未明确提及代码、模型权重或训练数据的开源计划。文末提供的GitHub链接(https://github.com/.../NIM4-ASR)上下文是“Report GitHub Issue”,且论文全文未提及任何关于开源发布的细节。因此,目前���法确认该项目已开源。 📌 核心摘要 本文提出了NIM4-ASR,一个面向生产环境的高效、鲁棒且可定制的实时语音识别框架。该工作旨在解决现有LLM-based ASR在实际部署中的三大挑战:1) 轻量化模型性能严重下降(有限的向下扩展性);2) 在声学挑战条件下产生幻觉;3) 缺乏生产就绪的热词定制机制。为此,作者提出了一套原则性的多阶段训练范式,通过模块感知的预训练、迭代异步监督微调(IA-SFT)和ASR专用强化学习(RL),显式地划分编码器与LLM的功能边界,减少模态差距并抑制表示漂移。在推理端,设计了优化的流式推理管道和基于音素检索增强生成(RAG)的百万级热词定制方案。实验表明,仅2.3B参数的NIM4-ASR在多个公开基准上达到SOTA水平,并在内部实体密集型场景中大幅超越更大规模的模型,同时支持亚毫秒级检索延迟的热词定制。该工作为构建适用于实时语音交互的LLM-based ASR系统提供了实用的解决方案。 🏗️ 模型架构 NIM4-ASR采用模块化的编码器-适配器-LLM架构,整体流程如下: ...

2026-04-21 · 更新于 2026-06-24 · 2 min · 257 words

Omni-Embed-Audio: Leveraging Multimodal LLMs for Robust Audio-Text Retrieval

📄 Omni-Embed-Audio: Leveraging Multimodal LLMs for Robust Audio-Text Retrieval #音频检索 #多模态模型 #鲁棒性 #基准测试 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:HaeJun Yoo(韩国西江大学) 通讯作者:Myoung-Wan Koo(韩国西江大学)(根据论文联系邮箱推断) 其他作者:Yongseop Shin, Insung Lee, Du-Seong Chang(均来自韩国西江大学) 💡 毒舌点评 亮点:论文最犀利的地方在于“掀桌子”——直接指出大家常用的AudioCaps/Clotho评测集和真实用户查询方式(平均才1.8个词!)严重脱节,并为此精心打造了一套更贴近现实的“用户意图查询”(UIQ)考题和“硬负样本辨别”评分标准,这比单纯刷高几个点的Recall@K有意义得多。 槽点:模型本身(OEA)有点像“富二代”——背靠强大的多模态LLM(Qwen2.5-Omni等)这个“家族产业”,通过LoRA等手段“微调”一下就上岗了。虽然效果不错,但核心创新更多在“评测”和“应用”层面,而非底层模型架构的突破,让人感觉“这活儿我上我也行(如果有足够GPU的话)”。 🔗 开源详情 代码:论文承诺开源,将发布在GitHub(文中提及 https://github.com/omni-embed-audio)。 模型权重:论文承诺开源训练后的OEA模型权重。 数据集:论文承诺开源三个UIQ基准数据集(AudioCaps-UIQ, Clotho-UIQ, MECAT-UIQ)。 在线Demo:论文提供了交互式Web演示地址:https://omni-embed-audio.github.io,包含75个代表性样本。 依赖的开源项目:论文中引用了多个开源模型和数据集作为基线或组件,如LAION-CLAP, MGA-CLAP, M2D-CLAP, WavCaps, AudioCaps, Clotho, MECAT, BGE嵌入模型等。 📌 核心摘要 这篇论文旨在解决当前音频-文本检索模型在真实、多样化用户查询下性能下降的问题。作者指出,现有基准测试(如AudioCaps, Clotho)依赖描述性标题式查询,与真实世界中简短、多变的搜索行为(如问题、命令、关键词、排除性查询)存在巨大差距。为此,论文提出了两大核心贡献:1) Omni-Embed-Audio (OEA):一个基于多模态大语言模型(如Qwen2.5-Omni)的统一编码器架构,通过LoRA适配器将文本和音频映射到同一嵌入空间,充分利用LLM强大的语义理解能力;2) User-Intent Queries (UIQ) 基准:包含五种查询类型(问题、命令、关键词、同义改写、排除性查询)的评测集,并配套提出了硬负样本辨别率 (HNSR) 等新指标,以评估模型抑制语义相似但内容相异干扰项的能力。实验表明,OEA在传统文本到音频检索上与SOTA的M2D-CLAP持平,但在文本到文本检索(相对提升22%)和硬负样本辨别(HNSR@10提升4.3个百分点)上显著领先,证明了LLM骨干在理解复杂查询和进行细粒度语义区分方面的优势。论文还进行了详尽的数据泄漏分析,并发布了无泄漏的MECAT基准评测结果。 🏗️ 模型架构 OEA的核心设计是利用一个预训练的多模态LLM作为统一的双模态编码器,而非传统的双塔(独立文本/音频编码器)结构。 整体流程: 输入处理: 文本:将查询包装为 query: <文本> 格式,经过分词器转换为Token序列。 音频:将16kHz单声道原始波形输入到多模态LLM内置的音频编码器中,转换为音频特征,再包装为 passage: <音频特征> 格式。 骨干网络:文本Token或音频特征序列被送入共享的多模态LLM骨干(如Qwen2.5-Omni-3B/7B, Omni-Embed-Nemotron-3B)。骨干网络的大部分权重被冻结。 参数高效适配:在骨干网络的注意力层中插入LoRA适配器(仅约11-16M可训练参数),用于模态适配。 特征聚合:对骨干网络输出的最后一层隐藏状态进行平均池化,得到一个固定长度的向量。 投影与归一化:池化后的向量分别通过各自模态专属的投影头(一个线性层+LayerNorm+L2归一化),映射到一个共享的512维检索嵌入空间,并进行L2归一化,得到最终的单位范数嵌入向量。 关键设计理由: 统一编码器:旨在缩小模态差异,并让音频理解直接受益于LLM强大的语言先验和推理能力。 LoRA:在保持预训练知识的同时,以极低的参数成本实现模态适配。 共享嵌入空间:便于直接计算文本与音频嵌入之间的余弦相似度,用于对比学习和检索。 💡 核心创新点 系统性评估框架创新(UIQ基准): ...

2026-04-21 · 更新于 2026-06-24 · 2 min · 271 words

Prosody as Supervision: Bridging the Non-Verbal--Verbal for Multilingual Speech Emotion Recognition

📄 Prosody as Supervision: Bridging the Non-Verbal–Verbal for Multilingual Speech Emotion Recognition #语音情感识别 #领域适应 #最优传输 #自监督学习 #多语言 🔥 评分:9.0/10 | arxiv 👥 作者与机构 第一作者 (共同):Girish (UPES, India) 第一作者 (共同):Mohd Mujtaba Akhtar (Veer Bahadur Singh Purvanchal University, India) 通讯作者:Muskaan Singh (Ulster University, UK) 机构: UPES, India Veer Bahadur Singh Purvanchal University, India Ulster University, UK (具体为Ulster University的某个实验室/课题组,论文未明确指出) 💡 毒舌点评 亮点:这篇论文最妙的地方在于“换道超车”——当大家还在为标注好的多语言情感语音数据发愁时,它另辟蹊径,用几乎“免费”的非言语情感声音(笑、哭、叹气)作为监督信号,去教模型理解说话人的情感,这个视角非常新颖且具有启发性。 槽点:方法有点“堆料”之嫌,双曲几何、最优传输、向量量化全用上了,模型复杂度不低。虽然实验结果漂亮,但让人不禁怀疑,在实际低资源场景中,这套复杂系统的训练稳定性和部署成本是否会成为新的瓶颈。 🔗 开源详情 代码:论文中提供了GitHub仓库链接:https://github.com/helixometry/NOVA-ARC,表明代码计划或已经开源。 项目页面:提供了项目主页:https://helixometry.github.io/NOVA-ARC---ACL26/,通常用于展示更多结果和资源。 模型权重:论文中未明确说明是否公开预训练模型权重。但基于其开源代码的承诺,模型权重有可能随代码一同发布。 数据集:使用了多个公开数据集(ASVP-ESD, MESD, AESDD, RAVDESS, Emo-DB, CREMA-D),论文中提供了引用和获取方式的描述。 预训练权重:使用了开源的预训练模型(voc2vec, WavLM, wav2vec 2.0, MMS),并给出了HuggingFace等平台的链接。 在线Demo:论文中未提及在线演示。 依赖的开源项目:论文明确引用了voc2vec, WavLM, wav2vec 2.0, MMS等预训练模型作为基础编码器。 📌 核心摘要 这篇论文旨在解决低资源多语言语音情感识别(SER)中标注数据稀缺的核心瓶颈。作者提出了一个颠覆性的范式:将SER重新定义为无监督的“非言语到言语”迁移问题。其核心假设是,非言语发声(如笑、哭)中蕴含的韵律情感线索比言语更纯粹、更跨语言,因此可以作为更好的监督源。为此,作者设计了NOVA-ARC框架,它首先在标注的非言语数据上学习情感表征,并将其映射到双曲空间以捕捉情感的层级结构。通过一个双曲向量量化码本对韵律模式进行离散化,并与连续表征融合。对于无标签的目标言语数据,框架采用基于双曲最优传输的原型对齐方法,将目标语音样本软性地对齐到源域的情感原型上,从而诱导出伪监督信号进行自适应训练。实验在ASVP-ESD及五个公开言语SER数据集上进行,结果表明,NOVA-ARC在非言语到言语的迁移设定下, consistently 优于包括语音SSL模型在内的多种强基线,并在言语到言语的迁移设定中也表现出色。该工作首次为多语言SER提供了一种不依赖目标语言标签的、可扩展的监督新范式。 ...

2026-04-21 · 更新于 2026-06-24 · 3 min · 617 words

SELF-EMO: Emotional Self-Evolution from Recognition to Consistent Expression

📄 SELF-EMO: Emotional Self-Evolution from Recognition to Consistent Expression #语音情感识别 #强化学习 #多任务学习 #大语言模型 #语音对话系统 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Shaowei Zhang (商汤科技 SenseTime) 通讯作者:Faqiang Qian, Mengya Gao, Yichao Wu (商汤科技 SenseTime,邮箱:{qianfaqiang, gaomengya, wuyichao}@senseauto.com) 其他作者: Yan Chen (商汤科技 SenseTime,清华大学) Ziliang Wang (商汤科技 SenseTime) Kang An (商汤科技 SenseTime,上海交通大学) Yong Dai (X-Humanoid) 💡 毒舌点评 亮点在于巧妙地将心理学中的“情绪理解驱动情绪表达”理论,包装成了一个AI自我进化的“飞轮”游戏,让模型自己跟自己玩就能变强,理论上很优雅。槽点是整个框架严重依赖另一个LLM(Seed-1.8, DeepSeek-V3.2)来提取人格和生成初始数据,这相当于请了个“家教”来启动“自学循环”,其最终效果的天花板可能受限于这位“家教”的水平,且可能引入隐性偏差。 🔗 开源详情 代码:论文中明确声明“Code and data will be released at GitHub”,并提供了链接占位符(https://github.com/…),但截至论文发布时(2026年4月20日)链接未生效。因此,代码计划开源但尚未发布。 模型权重:未提及是否公开训练后的模型权重。 数据集:论文中使用的三个基准数据集(IEMOCAP, MELD, EmoryNLP)是公开的。自博弈生成的合成数据集预计会随代码一同发布。 预训练权重:基于Qwen3-4B和Qwen3-8B这两个公开的预训练模型。 在线 Demo:未提及。 引用的开源项目:论文中提到了VeRL训练框架,并在实验中使用了它。 📌 核心摘要 本文旨在解决对话系统中情感识别(ERC)与情感表达能力受限于高质量标注数据稀缺且静态的问题。核心贡献是提出了一个心理学动机的自我进化框架 SELF-EMO。关键方法是构建一个角色扮演的自博弈范式,使模型同时充当“情绪识别者”和“对话响应者”,并通过一个“生成-筛选-重用”的数据飞轮机制,利用平滑的基于IOU的奖励函数筛选高质量样本,实现无外部监督的持续自我改进。为此,作者还设计了多情感强化学习算法 SELF-GRPO,通过核心情绪集聚合和组级一致性建模来稳定训练。主要发现是在IEMOCAP、MELD和EmoryNLP三个基准数据集上,该方法在统一的训练设定下取得了SOTA性能,显著提升了模型的泛化能力。实际意义在于为构建数据高效、可自我进化的情感智能体提供了新范式。局限性在于框架的启动依赖外部LLM生成数据,且自我进化过程的长期稳定性和可能产生的偏差需要进一步研究。 ...

2026-04-21 · 更新于 2026-06-24 · 2 min · 370 words