EntangleCodec: A Unified Discrete Audio Tokenizer via Semantic-Acoustic Entanglement

📄 EntangleCodec: A Unified Discrete Audio Tokenizer via Semantic-Acoustic Entanglement #语音合成 #自监督学习 #预训练 8.6/10 | 创新 1.8/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0/1.5 🔥 8.6/10 | 前10% | #语音合成 | #自监督学习 | #预训练 | arxiv 👥 作者与机构 Hui Li, Yangfan Gao (共同一作), Junlin Shang, Changhao Jiang, Tao Gui, Qi Zhang, Xuanjing Huang. 复旦大学. 联系方式:hui_li25@m.fudan.edu.cn. 💡 毒舌点评 这篇论文野心不小,想用一个“纠缠”的统一模型搞定理解、重建、生成,避免双流架构的冗余。核心想法——用丰富文本caption而非ASR transcript来对齐声学和语义特征——确实抓住了当前音频tokenizer“重声学轻语义”的痛点,出发点很好。实验设计也比较扎实,用了受控对比(相同LLM骨干)来隔离tokenizer质量的影响,0.6B小模型挑战13B大模型的故事讲得很有冲击力。但有几个“但是”必须指出:1)“统一”的代价是什么?论文没有深入讨论在极端任务需求(如超高保真度音乐重建 vs. 复杂语义推理)下,这种纠缠表示是否会成为瓶颈,还是说它只是个“中庸”的解决方案?2)与SOTA的比较存在选择性:在重建质量上,论文承认落后于XCodec2,但通过“综合表现”和“统一性”的论述巧妙地转移了焦点;在理解任务上,虽然对比了连续表示模型,但未深入分析离散tokenizer与连续encoder在信息瓶颈和效率上的本质差异,使得“22倍参数效率”的claim虽然震撼但机制解释不足。3)论文自述的“有限细粒度语义建模”和“有限的大规模探索”是真实存在的软肋,尤其是在强调“表示质量与模型规模同等重要”的结论下,缺少更大规模(如>8B)的验证略显说服力不足。总的来说,是一篇扎实的、有明确贡献的工作,但离“完美解决统一问题”还有距离,更适合被视为一个有力的baseline而非终极方案。 ...

2026-06-03 · 更新于 2026-06-19 · 2 min · 349 words

Exploiting Noise Inseparability for Weakly-Supervised Discriminative Speech Denoising Using Noisy Targets

📄 Exploiting Noise Inseparability for Weakly-Supervised Discriminative Speech Denoising Using Noisy Targets #语音增强 8.5/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.5/10 | 前50% | #语音增强 | #语音增强 | arxiv 👥 作者与机构 作者:Matthew Maciejewski, Samuele Cornell 机构:论文中未明确说明作者所属机构,仅标注研究领域类别为 eess.AS。 💡 毒舌点评 这篇论文的核心思想——把“噪声分不开”这个公认缺陷变成“可以抵消”的优势——确实有点意思,算是个“废物利用”的巧妙构思。作者显然对NyTT的痛点理解很深,理论推导也做得不错。但问题在于,那个核心的数学假设(\(\langle n_1, n_2 \rangle \approx 0\))在现实的复杂声学环境里真的那么铁板钉钉吗?论文对此语焉不详。实验部分,特别是在CHiME-3上的混合训练结果是亮点,但报告得不够扎实,缺少方差分析,让人怀疑数字的稳定性。而且,方法的计算开销增加了多少?这在论文里完全是个谜。总的来说,是个有想法但打磨不够的半成品,离顶会标准还有距离。 📌 核心摘要 本文针对弱监督语音去噪中,使用带噪语音作为训练目标(NyTT)导致模型学习到次优解(包含残余噪声)的问题,提出了差异噪声滤波(DNF)方法。作者首先从理论上分析了NyTT的优化目标,推导出模型会学习到包含固定比例混合噪声的估计。受此启发,DNF训练一个双输出网络,分别估计带噪语音和噪声,并通过设计一致的损失函数,使得两个估计中的残余噪声分量具有相同的缩放比例。在推理时,通过简单的减法操作,噪声分量被抵消,从而得到更干净的语音。该框架的关键优势在于,其训练目标与全监督训练兼容,使得可以混合使用带噪目标数据和合成干净数据进行训练,提升了模型在真实噪声环境下的泛化能力。在WHAM!和CHiME-3数据集上的实验证明了该方法的有效性。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集:论文使用了以下公开数据集: WHAM! 数据集:获取链接:https://whamr.cs.washington.edu/ CHiME-3 数据集:获取链接:http://sp.ee.tsinghua.edu.cn/enmhub/Data/CHiME3/download.html Demo:论文中未提及在线演示链接。 复现材料:论文在3.1节提供了详细的模型架构(4-block TF-GridNet)和STFT参数,但未提供训练脚本、配置文件或预训练检查点。 论文中引用的开源项目: TF-GridNet:论文使用的模型架构。链接:https://arxiv.org/abs/2209.03952 OWSM v3.1:用于转录和计算WER的模型。链接:https://huggingface.co/espnet/espnet_owsm_v3.1 VERSA toolkit:用于计算DNSMOS, UTMOS和WER的评估工具包。链接:https://github.com/Sarayan-MSU/VERSA 🏗️ 方法概述和架构 本文提出的差异噪声滤波(DNF)框架,其核心架构如图1所示,旨在解决传统带噪目标训练(NyTT)的理论次优解问题。该架构主要包含一个双输出的神经网络和特定的损失函数设计。 ...

2026-06-03 · 更新于 2026-06-19 · 2 min · 406 words

Foley-Omni: A Unified Multimodal Generation Model from Task-Level Audio Synthesis to Complete Video Soundtrack Generation

📄 Foley-Omni: A Unified Multimodal Generation Model from Task-Level Audio Synthesis to Complete Video Soundtrack Generation #音频生成 #语音合成 #音乐生成 #多模态模型 #课程学习 #扩散模型 7/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 0.3/1.5 | 复现 0.3/0.5 | 工程 0/1.5 ✅ 7/10 | 前25% | #音频生成 | #课程学习 | #语音合成 #音乐生成 | arxiv 👥 作者与机构 作者:Ye Tao, Lupeng Liu, Xuenan Xu, Jiasun Feng, Jiarui Wang, Ying Qin, Shuiyang Mao, Wei Liu, Shuai Wang 机构:南京大学智能科学与技术学院,Video Rebirth,上海交通大学,北京交通大学,上海人工智能实验室 ...

2026-06-03 · 更新于 2026-06-19 · 3 min · 476 words

FSA-GRPO: Teaching Auditory LLMs to Use Few-shot Demonstrations

📄 FSA-GRPO: Teaching Auditory LLMs to Use Few-shot Demonstrations #语音识别 #低资源 #强化学习 8.1/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.6/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.1/10 | 前50% | #语音识别 | #强化学习 | #低资源 | arxiv 👥 作者与机构 Haolong Zheng (University of Illinois Urbana Champaign), Siyin Wang (Tsinghua University), Xulin Fan (University of Illinois Urbana Champaign), Zengrui Jin (Tsinghua University), Mark Hasegawa-Johnson (University of Illinois Urbana Champaign) ...

2026-06-03 · 更新于 2026-06-19 · 2 min · 366 words

In-the-Loop Training of Deep Feedback Cancellation for Hearing Aids

📄 In-the-Loop Training of Deep Feedback Cancellation for Hearing Aids #自适应滤波 5.3/10 | 创新 1/2 | 严谨 0.8/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.7/1.5 📝 5.3/10 | 前50% | #自适应滤波 | #自适应滤波 | arxiv 👥 作者与机构 Svantje Voit, Simon Doclo Bielefeld University (比勒费尔德大学) 💡 毒舌点评 这篇文章解决了一个真实的工程痛点(开环训练的不稳定性),方法思路也足够直观(把网络塞进训练循环里)。但它的问题在于,这种“把模型放进优化环”的想法在元学习、可微分物理仿真等领域早已是常识,甚至在音频反馈消除领域,引用的NeuralAFC[20]也用了类似框架。论文没有清晰界定其与[20]的根本区别(一个是训练路径估计器,一个是训练步长控制器),导致核心贡献的“新颖性”大打折扣。更令人失望的是,全文几乎零理论分析,仅仅依靠实验表格就下了结论,这在顶会论文中显得深度不足。实验设计也存在硬伤,如DFC-OL与DFC-IL测试配置不一致造成的公平性疑问。总体而言,这是一篇扎实的领域应用论文,但离顶级机器学习会议的标准还有距离。 📌 核心摘要 本文针对深度神经网络训练的声反馈消除(DFC)方法中存在的训练-推理不匹配问题,提出了一种在环训练框架(DFC-IL)。该框架将DFC模型直接集成到包含反馈回路的训练过程中,使模型能够暴露于不稳定条件。采用两阶段训练策略(先在稳定系统上预训练,再在更宽增益范围上微调)以确保鲁棒性。实验在多种测量和合成的反馈路径上进行,结果表明:在低增益场景下,DFC-IL与开环训练的DFC-OL性能相似;在高增益场景下,DFC-IL通过维持系统稳定性显著优于DFC-OL,且平均有效闭环增益(ECLG)最低。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及模型权重链接 数据集:论文中提及了以下数据集,但未提供具体获取链接: Hearpiece 数据库:包含5,740条反馈路径脉冲响应。 LibriSpeech 语料库:作为源信号 v(n) 来源。 双麦克风助听器测量数据:420条反馈路径,录制于假头。 合成反馈路径:9,000条,根据[31]中的模型生成。 Demo:论文中未提及 复现材料:论文中提供了详细的训练配置(如两阶段训练策略、超参数),但未提供具体的训练脚本、检查点或附录材料。 论文中引用的开源项目:未提及具体项目链接。论文引用了参考文献中的工作,如[2] Hearpiece数据库、[10] DFC-OL原始论文、[20] NeuralAFC论文、[21] PEM-NLMS论文,但未明确这些参考文献对应的代码或项目主页是否开源及具体链接。 🏗️ 方法概述和架构 本文提出的在环训练DFC-IL模型,其核心架构基于先前的DFC-OL模型[10],但进行了关键修改以实现在环训练和降低计算复杂度。模型以帧为单位操作,输入为当前时刻的归一化频域扬声器信号谱 \(`\widetilde{\boldsymbol{\mathbf{U}}}(k)`\) 和误差信号谱 \(`\widetilde{\boldsymbol{\mathbf{E}}}(k)`\)。这两个谱是由对应的时间域帧 \(`\boldsymbol{\mathbf{u}}(k)`\) 和 \(`\boldsymbol{\mathbf{e}}(k)\)(长度\(`M`\),移位\(`R`\))经过\(`M`\)点离散傅里叶变换并归一化(除以 \(`\lVert\boldsymbol{\mathbf{U}}(k)\rVert_{2}`\))得到。架构如图2所示,具体处理流程如下:1)两个归一化谱首先被连接成两个通道;2)通过一个卷积核大小为5的一维卷积层,生成一个单通道的谱包络特征;3)该谱包络特征再次与原始的归一化谱 \(`\widetilde{\boldsymbol{\mathbf{U}}(k)}\) 和 \(\widetilde{\boldsymbol{\mathbf{E}}(k)}) 连接,形成 \(3(M+2)\) 维的特征向量;4)该特征向量依次经过一个带LeakyReLU激活的全连接层、一个具有256个单元的LSTM层、另一个带LeakyReLU激活的全连接层;5)最后一个带tanh激活的全连接层输出最终的时域反馈路径估计系数 \(\boldsymbol{\mathbf{\widehat{h}}}(k)=[\widehat{h}{1}(k),\dots,\widehat{h}{L}(k)]^{\textit{\scriptsize{T}}}\),其中\(L=64`)。 ...

2026-06-03 · 更新于 2026-06-19 · 2 min · 269 words

Inference-Time Scaling for Joint Audio-Video Generation

📄 Inference-Time Scaling for Joint Audio-Video Generation #语音合成 6.9/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 6.9/10 | 前50% | #语音合成 | #语音合成 | arxiv 👥 作者与机构 作者:Jaemin Jung, Kyeongha Rho, Inkyu Shin, Joon Son Chung 机构:Korea Advanced Institute of Science and Technology (KAIST), Luma AI 💡 毒舌点评 这篇论文选了一个非常实际且重要的多模态生成问题——如何在推理时提升联合音视频生成的质量,而不是单纯增加训练成本。它指出了“单一验证器黑客”这个观察很有趣,且提出的多验证器组合选择和自适应奖励加权(ARW)思路有一定工程价值。然而,论文的局限性同样明显:1) 创新性有限,核心思想(ITS, 多目标聚合)在单模态领域已有大量研究,本文更多是将现有范式“移植”到多模态场景并做了一些调参和组合实验,缺乏理论层面的突破。2) 实验虽然全面,但评估完全依赖现有的自动化指标,而这些指标本身可能无法完全捕捉人类对音频-视频同步和质量的感知,人类评估部分也过于简单。3) 所提方法的计算开销依然巨大,限制了其实际应用,论文也未能提出真正有效的效率优化方案。4) 影响力受限于领域,核心贡献在音频-视频生成,对更广泛的语音处理社区直接启示有限。 ...

2026-06-03 · 更新于 2026-06-19 · 2 min · 344 words

LiveBand: Live Accompaniment Generation in the Audio Domain

📄 LiveBand: Live Accompaniment Generation in the Audio Domain #对抗训练 #自回归模型 #生成对抗网络 8/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8/10 | 前25% | #音乐生成 | #对抗训练 | #自回归模型 #生成对抗网络 | arxiv 👥 作者与机构 索尼计算机科学实验室(Sony Computer Science Laboratories, SCS Paris) 💡 毒舌点评 这篇论文瞄准了一个非常具体且困难的实际问题:如何在零前瞻(lookahead)的严格实时约束下,根据混合音频流生成伴奏。它提出的解决方案核心思想——用对抗训练替代自回归损失以消除教师强制偏差——是清晰且合理的。然而,论文的评估部分存在显著的漏洞,严重削弱了其结论的可信度。主观测试中,低质量锚点在“一致性”上的得分竟高于基线模型,这一反常结果未得到任何解释或讨论,暴露出实验设计的重大缺陷。此外,FAD等客观指标在部分配置下优于真实音频,这更可能指向评估指标的局限性或生成模式的坍塌,而非模型真的超越了人类水平,但论文对此缺乏批判性分析。在声称解决了“根本性障碍”之前,先得把自家后院的篱笆扎牢。技术细节扎实,但实验论证链条的这一环太薄弱了。 📌 核心摘要 问题背景:解决在严格因果约束和实时延迟要求下,根据实时输入的混合音频(mix)生成高质量音乐伴奏(accompaniment)的任务。传统方法依赖教师强制训练,导致训练与推理间存在分布偏移(暴露偏差),需要未来信息前瞻(lookahead)来维持一致性。 核心方法:提出LiveBand系统,它在一个预训练的因果音频自编码器(CoDiCodec的因果变体)的连续潜在空间中训练一个因果Transformer生成器。生成器每一步仅接收因果可用的混合上下文和独立高斯噪声,不接收之前生成的目标隐状态,从而在训练时即可实现与推理完全匹配的序列生成,消除了暴露偏差。对抗性训练由一个非因果的卷积判别器提供序列级监督,评估完整生成序列的真实性。 主要贡献:1. 提出首个无需未来信息前瞻的严格因果Transformer,用于实时音乐伴奏生成。2. 通过设计实现了训练与推理的完全匹配(平行掩码前向传播与自回归推理等价),无需序列回滚即可消除教师强制带来的暴露偏差。3. 提出一种自适应梯度惩罚权重(AdaGP),通过维持目标判别器优势来稳定对抗训练,减少超参数调整。 实验数据集:主要使用Slakh2100数据集的官方划分。另有一个基于约2万条非合成多轨立体声录音的内部语料库,仅用于训练一个CLAP条件变体(LiveBand_int)。 评估指标:使用Fréchet Audio Distance(FAD,VGGish和CLAP嵌入空间,↓)、节拍对齐F1分数(BA F1,↑)、COCOLA(衡量混合-伴奏一致性,包括full/harm/perc版本,↑)等客观指标,并进行了主观听音测试评估音频质量和混合一致性。同时报告了从第10秒到第20秒生成内容的指标漂移(Δ)。 主要结果:在Slakh2100基准测试上,LiveBand(包括τ=0, 0.1, 1秒前瞻)在所有客观指标上均优于自回归基线模型StreamMusicGen(SMG)。即使在τ=1秒的强前瞻设置下,LiveBand的BA和COCOLA指标仍优于SMG在τ=0(严格同步)下的表现。在20秒生成中,LiveBand表现出极低或有利的指标漂移,而SMG性能随时间下降。主观测试显示LiveBand在质量和混合一致性上显著优于SMG。在消费级硬件(RTX 3090)上,配合torch.compile,系统可实现实时推理(RTF > 1)。 代码与数据:论文提供了演示页面链接:https://sonycslparis.github.io/liveband-companion。未提供训练代码、模型权重或数据集下载链接。 资源需求:在单块RTX 3090 GPU上,使用bfloat16混合精度,训练约75万次迭代(约1周)。生成器和判别器各约1.5亿参数。 局限性:论文承认生成的音频保真度与真实音频相比仍有提升空间。实验设计(如主观测试锚点)存在可讨论的问题。 伦理考量:论文提及了该技术在作者权、对音乐家影响及潜在滥用方面的伦理问题。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:主要使用 Slakh2100 数据集(论文中引用了其官方 train/test split [48])。另有一个基于约20k首非合成多轨立体声录音的内部语料库,用于训练CLAP条件变体,但该内部数据集未公开。Slakh2100 数据集是公开的,可通过其原论文或官方渠道获取。 Demo:https://sonycslparis.github.io/liveband-companion 复现材料:论文中详细描述了模型架构超参数、训练细节(如优化器设置、学习率、批大小、训练迭代次数、硬件等),但未提供具体的训练脚本、配置文件或检查点下载链接。 论文中引用的开源项目: CoDiCodec:论文中引用了其因果音频自编码器变体 [40](“retraining a causal variant of CoDiCodec”)。未提供直接链接。 R3GAN:论文中引用了该相对论GAN框架 [24](“We adopt R3GAN”)。未提供直接链接。 BeatThis:用于节拍对齐评估 [52]。 Madmom:用于节拍对齐评估 [53]。 COCOLA:用于衡量mix-accompaniment对齐度 [54]。 (注:论文未提供以上所有引用项目的具体URL。) 🏗️ 方法概述和架构 LiveBand系统旨在解决实时、因果的音乐伴奏生成问题,其方法核心在于消除训练与推理的不匹配,并利用序列级监督。整个系统在预训练的因果音频自编码器的连续隐空间内操作。 ...

2026-06-03 · 更新于 2026-06-19 · 3 min · 502 words

Localizing broadband noise sources using the Loève spectrum and a 2.5D approach

📄 Localizing broadband noise sources using the Loève spectrum and a 2.5D approach #声源定位 6.9/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 6.9/10 | 前50% | #声源定位 | #声源定位 | arxiv 👥 作者与机构 Christian H. Kasess (Acoustics Research Institute, Austrian Academy of Sciences, Vienna, Austria) Wolfgang Kreuzer (未提供具体机构) Holger Waubke (未提供具体机构) 💡 毒舌点评 这篇论文工作扎实,理论推导细致,将2.5D BEM框架从单频源成功扩展到了宽带随机源,使用Loève谱处理非平稳过程是个合理的选择。然而,其“概念验证”的定位过于保守,实验设计几乎全部基于理想化的自由场模拟,缺乏对真实环境(如地面反射、散射体、实际噪声源特性)的任何考量。所谓“定位”能力仅通过理论谱与估计谱的相关性来展示,而非通过重建源位置来评估,这回避了最具挑战性的逆问题部分。作者强调的计算复杂度问题虽然真实,但在仅有理论公式和有限数值实验的论文中提出,更像一个有待解决的“未来工作”,而非对当前方法瓶颈的深刻剖析。整体看,这是一篇领域内小修小补、为特定应用场景(铁路噪声)铺路的预备性工作,离解决实际的宽带移动源定位问题还有相当距离。 ...

2026-06-03 · 更新于 2026-06-19 · 2 min · 324 words

Logit Distillation on Manifolds: Mapping by Learning

📄 Logit Distillation on Manifolds: Mapping by Learning #知识蒸馏 #参数高效微调 6.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 0.3/1.5 ✅ 6.5/10 | 前50% | #语音识别 | #知识蒸馏 | #参数高效微调 | arxiv 👥 作者与机构 Yiru Yang (University of Zurich), Junling Wang (ETH Zurich), Nishant Kumar Singh (University of Zurich), Luohong Wu (University of Zurich), Haoran Yan (Deutsche Bank Securities) ...

2026-06-03 · 更新于 2026-06-19 · 3 min · 509 words

MoDAl: Self-Supervised Neural Modality Discovery via Decorrelation for Speech Neuroprosthesis

📄 MoDAl: Self-Supervised Neural Modality Discovery via Decorrelation for Speech Neuroprosthesis #自监督学习 #对比学习 #多模态模型 #参数高效微调 6.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.6/10 | 前25% | #自监督学习 | #自监督学习 | #对比学习 #多模态模型 | arxiv 👥 作者与机构 作者:Yuanhao Chen, Peter Chin 机构:Dartmouth College, Hanover, NH, USA 💡 毒舌点评 一篇动机良好、理论包装扎实的工作,但将一个在单个数据集、单个参与者上的工程优化,拔高到了“模态发现”的哲学高度。最大的卖点——Area 44信号的“起死回生”——其普适性存疑,且缺乏与最先进级联系统的公平比较。理论命题(Proposition 3.1 & 3.2)虽优雅,但与现实训练条件(τ为有限值)脱节,更像一个解释现象的后验故事而非设计指南。代码未开源是硬伤,严重阻碍了验证与复现。 ...

2026-06-03 · 更新于 2026-06-19 · 2 min · 400 words