Speaker-Invariant Representation Learning for Spoofing Detection via Gradient Reversal and A Variational Information Bottleneck

📄 Speaker-Invariant Representation Learning for Spoofing Detection via Gradient Reversal and A Variational Information Bottleneck #对抗训练 7.1/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 0.6/1.5 ✅ 7.1/10 | 前25% | #对抗训练 | #对抗训练 | arxiv 👥 作者与机构 作者:Anh-Tuan Dao, Driss Matrouf, Mickael Rouvier, Nicholas Evans。 机构:Laboratoire Informatique d’Avignon, Avignon Universite, France; EURECOM, Sophia Antipolis, France。 ...

2026-06-09 · 更新于 2026-06-12 · 2 min · 291 words

LiveBand: Live Accompaniment Generation in the Audio Domain

📄 LiveBand: Live Accompaniment Generation in the Audio Domain #对抗训练 #自回归模型 #生成对抗网络 8/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8/10 | 前25% | #音乐生成 | #对抗训练 | #自回归模型 #生成对抗网络 | arxiv 👥 作者与机构 索尼计算机科学实验室(Sony Computer Science Laboratories, SCS Paris) 💡 毒舌点评 这篇论文瞄准了一个非常具体且困难的实际问题:如何在零前瞻(lookahead)的严格实时约束下,根据混合音频流生成伴奏。它提出的解决方案核心思想——用对抗训练替代自回归损失以消除教师强制偏差——是清晰且合理的。然而,论文的评估部分存在显著的漏洞,严重削弱了其结论的可信度。主观测试中,低质量锚点在“一致性”上的得分竟高于基线模型,这一反常结果未得到任何解释或讨论,暴露出实验设计的重大缺陷。此外,FAD等客观指标在部分配置下优于真实音频,这更可能指向评估指标的局限性或生成模式的坍塌,而非模型真的超越了人类水平,但论文对此缺乏批判性分析。在声称解决了“根本性障碍”之前,先得把自家后院的篱笆扎牢。技术细节扎实,但实验论证链条的这一环太薄弱了。 📌 核心摘要 问题背景:解决在严格因果约束和实时延迟要求下,根据实时输入的混合音频(mix)生成高质量音乐伴奏(accompaniment)的任务。传统方法依赖教师强制训练,导致训练与推理间存在分布偏移(暴露偏差),需要未来信息前瞻(lookahead)来维持一致性。 核心方法:提出LiveBand系统,它在一个预训练的因果音频自编码器(CoDiCodec的因果变体)的连续潜在空间中训练一个因果Transformer生成器。生成器每一步仅接收因果可用的混合上下文和独立高斯噪声,不接收之前生成的目标隐状态,从而在训练时即可实现与推理完全匹配的序列生成,消除了暴露偏差。对抗性训练由一个非因果的卷积判别器提供序列级监督,评估完整生成序列的真实性。 主要贡献:1. 提出首个无需未来信息前瞻的严格因果Transformer,用于实时音乐伴奏生成。2. 通过设计实现了训练与推理的完全匹配(平行掩码前向传播与自回归推理等价),无需序列回滚即可消除教师强制带来的暴露偏差。3. 提出一种自适应梯度惩罚权重(AdaGP),通过维持目标判别器优势来稳定对抗训练,减少超参数调整。 实验数据集:主要使用Slakh2100数据集的官方划分。另有一个基于约2万条非合成多轨立体声录音的内部语料库,仅用于训练一个CLAP条件变体(LiveBand_int)。 评估指标:使用Fréchet Audio Distance(FAD,VGGish和CLAP嵌入空间,↓)、节拍对齐F1分数(BA F1,↑)、COCOLA(衡量混合-伴奏一致性,包括full/harm/perc版本,↑)等客观指标,并进行了主观听音测试评估音频质量和混合一致性。同时报告了从第10秒到第20秒生成内容的指标漂移(Δ)。 主要结果:在Slakh2100基准测试上,LiveBand(包括τ=0, 0.1, 1秒前瞻)在所有客观指标上均优于自回归基线模型StreamMusicGen(SMG)。即使在τ=1秒的强前瞻设置下,LiveBand的BA和COCOLA指标仍优于SMG在τ=0(严格同步)下的表现。在20秒生成中,LiveBand表现出极低或有利的指标漂移,而SMG性能随时间下降。主观测试显示LiveBand在质量和混合一致性上显著优于SMG。在消费级硬件(RTX 3090)上,配合torch.compile,系统可实现实时推理(RTF > 1)。 代码与数据:论文提供了演示页面链接:https://sonycslparis.github.io/liveband-companion。未提供训练代码、模型权重或数据集下载链接。 资源需求:在单块RTX 3090 GPU上,使用bfloat16混合精度,训练约75万次迭代(约1周)。生成器和判别器各约1.5亿参数。 局限性:论文承认生成的音频保真度与真实音频相比仍有提升空间。实验设计(如主观测试锚点)存在可讨论的问题。 伦理考量:论文提及了该技术在作者权、对音乐家影响及潜在滥用方面的伦理问题。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:主要使用 Slakh2100 数据集(论文中引用了其官方 train/test split [48])。另有一个基于约20k首非合成多轨立体声录音的内部语料库,用于训练CLAP条件变体,但该内部数据集未公开。Slakh2100 数据集是公开的,可通过其原论文或官方渠道获取。 Demo:https://sonycslparis.github.io/liveband-companion 复现材料:论文中详细描述了模型架构超参数、训练细节(如优化器设置、学习率、批大小、训练迭代次数、硬件等),但未提供具体的训练脚本、配置文件或检查点下载链接。 论文中引用的开源项目: CoDiCodec:论文中引用了其因果音频自编码器变体 [40](“retraining a causal variant of CoDiCodec”)。未提供直接链接。 R3GAN:论文中引用了该相对论GAN框架 [24](“We adopt R3GAN”)。未提供直接链接。 BeatThis:用于节拍对齐评估 [52]。 Madmom:用于节拍对齐评估 [53]。 COCOLA:用于衡量mix-accompaniment对齐度 [54]。 (注:论文未提供以上所有引用项目的具体URL。) 🏗️ 方法概述和架构 LiveBand系统旨在解决实时、因果的音乐伴奏生成问题,其方法核心在于消除训练与推理的不匹配,并利用序列级监督。整个系统在预训练的因果音频自编码器的连续隐空间内操作。 ...

2026-06-03 · 更新于 2026-06-12 · 3 min · 502 words

语音/音乐/音频论文速递 2026-06-03

语音/音乐/音频论文速递 2026-06-03 共分析 40 篇论文 ⚡ 今日概览 📥 抓取 40 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 7篇 ███████ #语音识别 7篇 ███████ #音乐生成 3篇 ███ #音频生成 2篇 ██ #语音增强 2篇 ██ #多模态模型 2篇 ██ #语音情感识别 2篇 ██ #语音翻译 2篇 ██ 📊 论文评分排行榜(40 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 AnyAudio-Judge: A Dynamic Rubric-Based Benchmark and Ev 10.0分 前10% #语音合成 🥈 Cosmos 3: Omnimodal World Models for Physical AI 10.0分 前10% #音频生成 🥉 WavTTS: Towards High-Quality Zero-Shot TTS via Direct R 9.2分 前25% #语音合成 4. CoughSense: Five-Class Respiratory Disease Classificati 9.1分 前25% #数据增强 5. SoulX-Transcriber: A Robust End-to-End Framework for Mu 8.8分 前50% #语音识别 6. SVHalluc: Benchmarking Speech-Vision Hallucination in A 8.7分 前25% #语音识别 7. Benchmarking Speech-to-Speech Translation Models 8.7分 前25% #语音合成 8. The DeepSpeak-Agentic Dataset 8.7分 前50% #语音合成 9. EntangleCodec: A Unified Discrete Audio Tokenizer via S 8.6分 前10% #语音合成 10. SketchSong: Hierarchical Song Generation with Sketch Pl 8.6分 前25% #音乐生成 11. SegTune: Structured and Fine-Grained Control for Song G 8.5分 前25% #音乐生成 12. Exploiting Noise Inseparability for Weakly-Supervised D 8.5分 前50% #语音增强 13. A Comparison of Generative and Discriminative Methods f 8.3分 前25% #语音增强 14. FSA-GRPO: Teaching Auditory LLMs to Use Few-shot Demons 8.1分 前50% #语音识别 15. Tonal parsimony in chord-sequence analysis: combining m 8.1分 前25% #音乐信息检索 16. Efficient ASR Training with Conversations that Never Ha 8.0分 前50% #语音识别 17. LiveBand: Live Accompaniment Generation in the Audio Do 8.0分 前25% #音乐生成 18. Sandboxed Coding Agents are Competitive Omni-modal Task 7.9分 前25% #强化学习 19. OmniHalluc-L: Counterfactual Benchmarking and Modality- 7.8分 前25% #多模态模型 20. BaltiVoice: A Speech Corpus and Fine-tuned Whisper ASR 7.8分 前25% #语音识别 21. Speech Emotion Recognition using Attention-based LSTM-N 7.5分 前50% #语音情感识别 22. SpeakerCard-1M: An Evidence-Grounded Speaker Card Corpu 7.4分 前25% #说话人验证 23. C2GA: A Class-Controllable Generative Augmentation Fram 7.3分 前50% #音频分类 24. AlignAtt4LLM: Fast AlignAtt for Decoder-Only LLMs at IW 7.3分 前50% #语音翻译 25. Before Fusion, Ask What to Keep: Contextual Calibration 7.2分 前50% #语音情感识别 26. Diffusion-Based Heart Sound Generation: Evaluation with 7.1分 前50% #语音合成 27. SiamCTC: Learning Speech Representations through Monoto 7.0分 前50% #语音识别 28. Foley-Omni: A Unified Multimodal Generation Model from 7.0分 前25% #音频生成 29. Inference-Time Scaling for Joint Audio-Video Generation 6.9分 前50% #语音合成 30. Breaking the Pair: Evaluating Dyadic Interaction via Sp 6.9分 前50% - 31. Localizing broadband noise sources using the Loève spec 6.9分 前50% #声源定位 32. A Pocket Offline Model for Simultaneous Speech Translat 6.8分 前50% #语音翻译 33. Stable Hybrid Cross-Attention Fusion for Audio-Visual E 6.7分 后50% #自监督学习 34. A Training-Efficient Transformer-Based Anti-Spoofing Ne 6.7分 后50% #Transformer 35. MoDAl: Self-Supervised Neural Modality Discovery via De 6.6分 前25% #自监督学习 36. Audio Spotforming via Post-Filtering Using Cross-Array 6.6分 前50% #维纳滤波 37. Logit Distillation on Manifolds: Mapping by Learning 6.5分 前50% #语音识别 38. Domain-Agnostic Incremental Learning for Sound Classifi 6.1分 前50% - 39. Wavelet as Tokenizer: Preliminary Results on a Shared W 5.4分 后50% #多模态模型 40. In-the-Loop Training of Deep Feedback Cancellation for 5.3分 前50% #自适应滤波 📋 论文列表 🥇 AnyAudio-Judge: A Dynamic Rubric-Based Benchmark and Evaluator for Audio Instruction Following 10.0/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

2026-06-03 · 更新于 2026-06-12 · 26 min · 5337 words

Generative Adversarial Post-Training Mitigates Reward Hacking in Live Human-AI Music Interaction

📄 Generative Adversarial Post-Training Mitigates Reward Hacking in Live Human-AI Music Interaction #音乐生成 #强化学习 #对抗训练 #实时处理 #音乐信息检索 ✅ 7.0/10 | 前25% | #音乐生成 | #强化学习 | #对抗训练 #实时处理 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yusong Wu (Mila, Quebec Artificial Intelligence Institute, Université de Montréal) 通讯作者:Natasha Jaques (University of Washington), Cheng-Zhi Anna Huang (Massachusetts Institute of Technology) 作者列表:Yusong Wu (Mila, Université de Montréal), Stephen Brade (Massachusetts Institute of Technology), Aleksandra Teng Ma (Georgia Institute of Technology), Tia-Jane Fowler (University of Washington), Enning Yang (McGill University), Berker Banar (Independent Researcher), Aaron Courville (Mila, Université de Montréal), Natasha Jaques (University of Washington), Cheng-Zhi Anna Huang (Massachusetts Institute of Technology) 💡 毒舌点评 亮点:在强化学习后训练中巧妙引入对抗训练思想来解决“奖励黑客”问题,特别是通过一个自适应更新的判别器来平衡“真实感”与任务目标,方案设计精巧且有实验验证。短板:方法的核心创新是将GAN和RL思想结合用于序列模型,这并非完全原创;研究场景(实时旋律-和弦伴奏)非常垂直,其影响力可能局限于音乐生成领域,对更广泛的序列生成任务(如对话)的普适性未得到充分论证。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 342 words

Dual-LoRA: Parameter-Efficient Adversarial Disentanglement for Cross-Lingual Speaker Verification

📄 Dual-LoRA: Parameter-Efficient Adversarial Disentanglement for Cross-Lingual Speaker Verification #说话人验证 #跨语言 #对抗训练 #参数高效微调 #预训练 ✅ 7.5/10 | 前25% | #说话人验证 | #对抗训练 | #跨语言 #参数高效微调 | arxiv 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Qituan Shangguan (南京大学智能科学与技术学院,苏州) 通讯作者:未明确标注。论文中给出了多位作者的邮箱,但未明确指出通讯作者。通常通讯作者会标注“*”,但本文未提供此信息。 作者列表: Qituan Shangguan (南京大学智能科学与技术学院) Junhao Du (未说明具体单位,邮箱指向Gmail) Kunyang Peng (思必驰公司,苏州) Feng Xue (思必驰公司,苏州) Hui Zhang (思必驰公司,苏州) Xinsheng Wang (Soul AI Lab, 中国) Kai Yu (上海交通大学X-LANCE实验室,计算机科学学院) Shuai Wang (南京大学, 苏州) 💡 毒舌点评 亮点: 该工作直击跨语言说话人验证中“语言-说话人纠缠”这一核心痛点,提出的“语言锚定对抗”机制构思巧妙,通过共享判别器并显式引入语言分支,有效防止了对抗训练对说话人判别信息的误伤,实验上在最难的交叉场景(SS-DL vs DS-SL)取得了显著提升。 短板: 论文的核心方法(Dual-LoRA)和关键创新(语言锚定对抗)设计清晰,但在“参数高效”方面仅通过冻结主干和低秩适配体现,并未深入探讨在极端资源受限场景下的效率优势;此外,论文完全未提及代码、模型或训练细节的开源计划,极大地限制了其可复现性和社区影响力。 ...

2026-04-30 · 更新于 2026-06-12 · 2 min · 422 words

FlashFoley: Fast Interactive Sketch2audio Generation

📄 FlashFoley: Fast Interactive Sketch2audio Generation #音频生成 #流匹配 #对抗训练 #实时处理 ✅ 7.5/10 | 前25% | #音频生成 | #流匹配 | #对抗训练 #实时处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Zachary Novack (UC San Diego; Sony Group Corporation, Japan) 通讯作者:Christian Simon† (Sony AI, USA) (论文中标注†为“Project lead”,通常可视为通讯作者) 作者列表:Zachary Novack¹,²,Koichi Saito³,Zhi Zhong²,Takashi Shibuya³,Shuyang Cui²,Julian McAuley¹,Taylor Berg-Kirkpatrick¹,Christian Simon²†,Shusuke Takahashi²,Yuki Mitsufuji²,³ ¹ UC – San Diego ² Sony Group Corporation, Japan ³ Sony AI, USA 💡 毒舌点评 亮点:这篇论文精准地切中了当前交互式音频生成工具的一个核心痛点——“精细控制”与“实时速度”不可兼得,并给出了一个工程上巧妙且相对完整的解决方案,首次将开源加速的草图到音频模型带入实时交互场景。 短板:虽然方法组合很实用,但核心的“创新”更多是已有技术(草图控制、ARC后训练、流式生成)的整合与适配,缺乏根本性的理论突破;另外,文中“开源”的承诺尚未在论文发布时兑现,这削弱了其作为“首个开源”模型的即时影响力。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 329 words