AudioX-Turbo: A Unified Framework for Efficient Anything-to-Audio Generation

📄 AudioX-Turbo: A Unified Framework for Efficient Anything-to-Audio Generation #音频生成 #音乐生成 9/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9/10 | 前10% | #音频生成 | #音乐生成 | arxiv 👥 作者与机构 Zeyue Tian (香港科技大学, Noiz AI), Lei Ke (清华大学), Zhaoyang Liu (香港科技大学), Ruibin Yuan (香港科技大学), Liumeng Xue (香港科技大学), Yujiu Yang (清华大学), Weijia Chen (Noiz AI), Xu Tan (独立研究者), Qifeng Chen (香港科技大学), Wei Xue (香港科技大学), Yike Guo (香港科技大学)。 ...

2026-06-12 · 更新于 2026-06-12 · 4 min · 720 words

Low-Latency Real-Time Audio Game Commentary System via LLM-Based Parallel Text Generation

📄 Low-Latency Real-Time Audio Game Commentary System via LLM-Based Parallel Text Generation #语音合成 #音频生成 7.9/10 | 创新 1.6/2 | 严谨 1.4/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ✅ 7.9/10 | 前25% | #语音合成 | #音频生成 | arxiv 👥 作者与机构 Ryota Kawamatsu (东京大学, 产业技术综合研究所) Anum Afzal (产业技术综合研究所, 慕尼黑工业大学) Yuki Saito (东京大学) Shinnosuke Takamichi (庆应义塾大学, 东京大学) Graham Neubig (卡内基梅隆大学) Katsuhito Sudoh (奈良女子大学) Hiroya Takamura (产业技术综合研究所) Tatsuya Ishigaki (产业技术综合研究所) ...

2026-06-12 · 更新于 2026-06-12 · 2 min · 238 words

Sensitivity Analysis of Generative Spatial Audio Metrics: A Study on Responsiveness, Smoothness, and Symmetry

📄 Sensitivity Analysis of Generative Spatial Audio Metrics: A Study on Responsiveness, Smoothness, and Symmetry #空间音频 #音频生成 7.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7.2/10 | 前50% | #音频生成 | #空间音频 | arxiv 👥 作者与机构 Purnima Kamath (New York University, New York, USA) Adrian S Roman (New York University, New York, USA) Koichi Saito (Sony AI, New York, USA; Sony Group Corporation, Tokyo, Japan) Yuki Mitsufuji (Sony AI, New York, USA; Sony Group Corporation, Tokyo, Japan) Juan P Bello (New York University, New York, USA) ...

2026-06-11 · 更新于 2026-06-12 · 2 min · 335 words

BareWave: Waveform-Native Flow-Matching Text-to-Speech

📄 BareWave: Waveform-Native Flow-Matching Text-to-Speech #语音合成 #音频生成 #自监督学习 7.0/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1.4/1 | 影响 1.2/1.5 | 开源 0.8/1.5 | 复现 1.0/0.5 | 工程 1.2/1.5 ✅ 7.0/10 | 前50% | #语音合成 | #Transformer | #音频生成 #自监督学习 | arxiv 👥 作者与机构 Wei Fan1*, Chao-Hong Tan2†, Qian Chen2†, Wen Wang2, Xiangang Li2, Kejiang Chen1†, Weiming Zhang1, Nenghai Yu1. 1安徽大学,数字安全安徽省重点实验室;2阿里巴巴通义实验室 (Tongyi Fun Team, Alibaba Group)。(*工作在Wei Fan于阿里巴巴通义实验室实习期间完成;†通讯作者)。 ...

2026-06-09 · 更新于 2026-06-12 · 3 min · 591 words

HoliDubber: Holistic Video Dubbing for Complex Acoustic Scenes via Text-Guided Audio Synthesis

📄 HoliDubber: Holistic Video Dubbing for Complex Acoustic Scenes via Text-Guided Audio Synthesis #语音合成 #音频生成 #多模态模型 #扩散模型 #自监督学习 9/10 | 创新 1.6/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9/10 | 前10% | #语音合成 | #自监督学习 | #音频生成 #多模态模型 | arxiv 👥 作者与机构 Wenhao Guan (厦门大学, 上海创新研究院), Yifan Duan (上海交通大学), Junxi Liu (上海交通大学), Yu Gu (未来工场), Feng Dang (未来工场), Kaidi Wang (厦门大学), Qingyang Hong (厦门大学), Lin Li (厦门大学), Xie Chen (上海交通大学, 上海创新研究院) ...

2026-06-09 · 更新于 2026-06-12 · 3 min · 576 words

SMC-ITA: Sequential Monte Carlo Inference-Time Alignment for Video-to-Audio Generation

📄 SMC-ITA: Sequential Monte Carlo Inference-Time Alignment for Video-to-Audio Generation #音频生成 #多模态模型 #流匹配 7/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7/10 | 前50% | #音频生成 | #多模态模型 | #流匹配 | arxiv 👥 作者与机构 作者:Haoyu Zhang, Yuta Oshima, Xingjian Du, Chunfeng Wang, Irene Li, Yusuke Iwasawa, Yutaka Matsuo 单位:The University of Tokyo, University of Rochester, Independent ...

2026-06-09 · 更新于 2026-06-12 · 3 min · 438 words

Audio Imitator: Controlling Timbre and Tempo in Video2Audio Synthesis with Audio Reference

📄 Audio Imitator: Controlling Timbre and Tempo in Video2Audio Synthesis with Audio Reference #音频生成 6/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.4/0.5 | 工程 0.6/1.5 ✅ 6/10 | 前50% | #音频生成 | #音频生成 | arxiv 👥 作者与机构 第一作者:Jiahui Zhao;其他作者:Tianrui Wang, Chunyu Qiang, Cheng Gong, Xijuan Zeng, Feng Deng, Longbiao Wang。 机构:天津大学(1),快手科技(2)。 💡 毒舌点评 “创新”稍显保守:把参考音频拆成音色和节奏分别处理,这想法不算石破天惊。说“首次”或“新颖”有点过了,更像是工程上把已知的两个编码器(BEATs和Style Conditioner)合理地拼了一下。真正的挑战和创新点(如果有的话)在于这种拆分在生成任务上到底比“整体条件”好了多少,以及是否真的在“控制”。 实验“充分”但“不惊艳”:VGGSound数据集+MMAudio微调,标准操作。消融实验(表1)逻辑清晰,证明了各模块都有贡献。但和最SOTA的V2A方法比了吗?只和自家MMAudio的几个变体比,说服力打折。风格相似性提升显著(表2),但以牺牲多少生成多样性或引入多少伪影为代价?论文似乎回避了这个问题。 开源“态度”存疑:给个匿名demo链接,代码权重都不给。想复现?自己搭MMAudio环境再“微调”800步?这对社区共享和技术复现非常不友好。作为预印本可以理解,但降低其短期实际影响力。 局限性“轻描淡写”:作者自己提到了在人声上效果弱,归因于节奏编码器的训练偏差。但更根本的问题是:1)这种固定的“音色-节奏”二分法是否真的普适?2)“控制”的程度和边界在哪?能插值吗?能只改节奏不改音色吗?论文没有深入探讨。 部分结论“过度外推”:从“在VGGSound上改善风格相似性”直接跳到“使模型可控”,有点跳跃。这更像是在特定设定下的风格模仿,距离真正的、可交互的“控制”还有距离。标题中的“Controlling”略显激进。 📌 核心摘要 本文提出了AudioIM,一个用于视频到音频(V2A)生成、并能控制生成音频音色和节奏的属性感知框架。现有V2A方法通常将参考音频作为整体条件信号,难以实现对风格属性的细粒度控制。为此,AudioIM采用两项关键技术:1)掩码训练策略:在训练时部分遮蔽音频潜在表示,使模型学习在部分观测条件下进行流匹配推断,从而在推理时能利用提示音频的潜在特征提供细粒度风格信息。2)双风格编码器:使用基于BEATs的音色编码器和基于Style Conditioner的节奏编码器,分别从参考音频中提取音色和节奏特征,并通过全局和帧级条件注入生成骨干网络。在VGGSound数据集上的实验表明,AudioIM在保持语义对齐和时间同步性能的同时,显著提升了生成音频与参考音频的风格相似性(SS-MOS从基线3.22提升至4.06)。消融研究验证了各组件的有效性。论文指出该方法在非人声音效(特别是乐器声)上效果更显著,而对人声的风格控制较弱。 ...

2026-06-08 · 更新于 2026-06-12 · 3 min · 552 words

Audio-Oscar: A Multi-Agent System for Complex Audio Scene Generation, Orchestration, and Refinement

📄 Audio-Oscar: A Multi-Agent System for Complex Audio Scene Generation, Orchestration, and Refinement #音频生成 #语音合成 #音频质量评估 9.9/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 9.9/10 | 前10% | #音频生成 | #语音合成 | #音频质量评估 | arxiv 👥 作者与机构 作者:Yifan Duan, Qixiang Xu, Hengtao Wu, Zhanxun Liu, Wenhao Guan, Junxi Liu, Ziyang Ma, Kelu Xu, Xie Chen 机构: ...

2026-06-08 · 更新于 2026-06-12 · 3 min · 509 words

Where Rectified Flows Leak: Characterising Membership Signals Along the Interpolation Path

📄 Where Rectified Flows Leak: Characterising Membership Signals Along the Interpolation Path #音频生成 #理论分析 8.7/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.7/10 | 前25% | #音频生成 | #理论分析 | arxiv 👥 作者与机构 作者:Thomas Sesmat, Gabriel Meseguer-Brocal, Geoffroy Peeters 机构:论文正文未明确列出作者机构,但致谢部分提及工作由法国巴黎萨克雷电信学院提供计算资源支持。 💡 毒舌点评 这篇论文的工作,说好听点是“把显而易见的事情理论化”,说难听点就是“在噪声和数据之间的中间点发现了模型拟合训练数据残差”这一现象,并为其穿上了“钟形曲线”和“闭式解”的理论外衣。其核心创新点——那个看起来很美的闭式解\(\lambda_F^*\),被其赖以生存的“各向同性高斯”假设牢牢锁死在玩具模型的范畴。一旦遇到现实世界里稍有复杂度的潜在空间(如CelebA),这理论就哑火了,只剩下那个依然普适但不够“性感”的钟形曲线。作者试图用一个在特定假设下才成立的峰值预测来撑起理论贡献的门面,这多少有点“拿着放大镜找金矿”的嫌疑。至于那个作为“概念验证”的成员推理攻击(MIA),用了一个极其简单的MLP分类器,且在最具理论优势的MAESTRO数据集上取得了0.91的AUC,这固然不错,但论文对此攻击的实际威胁模型(白盒、需完整访问插值路径)避而不谈,使其现实意义大打折扣。最后,开源情况的含糊其辞(提到有代码但不提供链接)更是给这篇顶会水准论文的严谨性抹上了一层阴影。整体而言,这是一篇技术细节扎实但格局受限、理论贡献存在“硬伤”、应用价值被高估的论文。 📌 核心摘要 论文研究了Rectified Flow(RF)生成模型在训练过程中如何编码训练数据的成员身份信息(即“成员信号”)。通过分析定义RF训练的线性插值路径 \(X_\lambda = (1-\lambda)X_0 + \lambda X_1\),作者证明了训练集与测试集在重建误差上存在一个沿插值参数 \(\lambda\) 分布的“钟形”差异。该差异源于模型在特定 \(\lambda\) 处拟合了训练样本特有的残差。在数据噪声和分布均为各向同性高斯的假设下,论文推导出了该差异峰值位置 \(\lambda_F^*\) 的闭式表达式。作者在多个音频和图像数据集上实验验证了理论预测,并展示了将此钟形差异结构作为特征,构建成员推理攻击(MIA)的概念验证方法,其性能优于将扩散模型攻击方法适配到RF的基线方法。 ...

2026-06-08 · 更新于 2026-06-12 · 3 min · 625 words

F3-Tokenizer: Taming Audio Autoencoder Latents for Understanding and Generation

📄 F3-Tokenizer: Taming Audio Autoencoder Latents for Understanding and Generation #语音合成 #音频生成 #语音识别 #自监督学习 #多任务学习 7.2/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 0.8/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7.2/10 | 前25% | #语音合成 | #自监督学习 | #音频生成 #语音识别 | arxiv 👥 作者与机构 Dinghao Zhou, Xingchen Song, Di Wu, Pengyu Cheng, Shengfan Shen, Sixiang Lv。第一作者单位为南京大学,第二作者单位为WeNet开源社区。论文标注作者贡献相等。 💡 毒舌点评 这篇论文的工作量扎实,试图解决音频标记器在“理解”与“生成”目标间的固有矛盾,技术路线清晰。但“新颖性”的成色需要仔细考量,其核心组件(归一化瓶颈、RQ-MTP、流匹配头)均为已有技术的组合与适配,缺少原理层面的根本性突破。更令人皱眉的是,作为一篇顶会论文,在“开源”和“可复现性”上的表现堪称“裸奔”——不提供代码、模型权重或详细的训练配置,这让所有令人印象深刻的实验结果都成了“黑箱表演”,极大地削弱了其可验证性和社区贡献度。实验部分虽然全面,但在生成任务上与最新SOTA(如Qwen3-TTS、Ming-Omni系列)的比较略显取巧,Token Rate不统一且SIM分数缺失,难以进行公平对比。总体来说,这是一篇完成度不错、但“诚意”不足的“应用整合式”论文。 ...

2026-06-05 · 更新于 2026-06-12 · 2 min · 355 words