OLIVE: View-Augmented Latent Prediction with Waveform Reconstruction for Speech SSL

📄 OLIVE: View-Augmented Latent Prediction with Waveform Reconstruction for Speech SSL #自监督学习 #生成对抗网络 #语音增强 #语音分离 #语音转换 7.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1.2/1 | 影响 1.3/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 ✅ 7.5/10 | 前50% | #语音识别 | #自监督学习 | #生成对抗网络 #语音增强 | arxiv 👥 作者与机构 作者:Karl El Hajal (Idiap Research Institute, Switzerland; EPFL, Switzerland), Mathew Magimai.-Doss (Idiap Research Institute, Switzerland) 机构:Idiap Research Institute(瑞士),洛桑联邦理工学院(EPFL,瑞士) ...

2026-06-30 · 更新于 2026-07-02 · 5 min · 996 words

Joint Residual Reweighting for Classifier Free Guidance in Flow-Matching Zero-Shot TTS

📄 Joint Residual Reweighting for Classifier Free Guidance in Flow-Matching Zero-Shot TTS #语音合成 #语音增强 #生成对抗网络 #自监督学习 #生成模型 #多模态模型 7.5/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.5/10 | 前50% | #语音合成 | #生成对抗网络 | #语音增强 #自监督学习 | arxiv 👥 作者与机构 作者:Runwu Shi, Yujin Wang, Hongjin Song, Chunxiang Jin 机构:Institute of Science Tokyo, Wuhan University, Beijing Institute of Technology, Ant Group ...

2026-06-25 · 更新于 2026-07-02 · 3 min · 458 words

DTT-BSR+: A Generative-Regression Cascade for Music Source Restoration

📄 DTT-BSR+: A Generative-Regression Cascade for Music Source Restoration #生成对抗网络 8/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8/10 | 前25% | #生成对抗网络 | #生成对抗网络 | arxiv 👥 作者与机构 Tan, Wang, Huang。隶属于武汉大学电子信息学院和坦佩雷大学信号处理研究中心。 💡 毒舌点评 这篇工作干了件聪明事:把一个难啃的骨头(同时搞定分离和效果反转)拆成两步走,先让它“听起来像”,再让它“波形准”。消融实验做得扎实,FAD的拆分分析有点意思,指出了“像”和“准”可能打架。但问题在于,Percussions声部直接崩盘,暴露了这套“级联手术”对病灶(第一阶段的失真)非常敏感,一旦切歪了,后面再好的缝合技术也救不回来。另外,光说不练假把式,不给代码只给配置,这年头顶会光看论文可不够复现。 📌 核心摘要 本文提出了DTT-BSR+,一个用于音乐源恢复(MSR)的两阶段级联深度学习系统。MSR任务旨在从经过非线性后期处理的混合音轨中恢复干净的原始音轨,比传统的音乐源分离(MSS)更具挑战性。DTT-BSR+的核心思想是“解耦”:第一阶段使用基于GAN的DTT-BSR网络作为生成式分离器,其目标是产生与干净源信号语义分布匹配的估计;第二阶段使用一个名为Demucs-L的回归网络,以第一阶段输出为输入,通过最小化时域L1损失和多分辨率STFT损失,专注于改善波形级别的重建精度。实验在MSRBench基准数据集上进行,结果表明,DTT-BSR+在所有八个声部的多梅尔信噪比(MMSNR)上均优于其单阶段版本DTT-BSR,并在Vocals, Guitars, Synthesizers, Bass, Drums五个声部上超越了当前最优系统X-LANCE-MSR。论文通过FAD-CLAP分解,揭示了在某些声部上存在信号重建精度(MMSNR)与语义分布拟合(FAD)之间的隐式权衡,表现为语义中心的偏移而非分布多样性的改变。研究也指出了该级联设计在Percussions声部上的局限性。 🔗 开源详情 代码:论文中未提及任何代码仓库链接。 模型权重:论文中未提及任何模型权重下载链接。 数据集:论文使用了MSRBench和RawStems数据集。MSRBench是公开基准数据集。RawStems数据集未提供具体下载链接或开源协议。 Demo:论文中未提及。 复现材料:论文未提供预训练模型或完整训练代码。但提供了第二阶段Demucs-L的关键训练配置:网络结构(6层编解码器,核大小8,步长4,起始通道64),优化器(Adam,学习率2e-4),训练轮次(150 epochs),批量大小(16),损失权重(\(\lambda_1=10.0\), \(\lambda_2=1.0\)),以及数据增强策略(随机相位偏移,10%概率替换为真实目标)。 论文中引用的开源项目(未提供具体链接):DTT-BSR, Demucs, X-LANCE MSR系统, BSRNN, MSG, TF-Locoformer。 🏗️ 方法概述和架构 DTT-BSR+是一个两阶段级联系统,其设计动机源于对MSR任务核心挑战的分析:即如何在生成式模型擅长的语义分布拟合(保证输出“听起来对”)与回归模型擅长的精确波形重建(保证输出“波形准”)之间取得平衡。论文提出将这两项目标解耦到两个独立的阶段中。 ...

2026-06-24 · 更新于 2026-07-02 · 2 min · 379 words

Exploiting Neural Audio Codec Latents for Adversarial Audio Attacks

📄 Exploiting Neural Audio Codec Latents for Adversarial Audio Attacks #生成对抗网络 #对抗样本 7.2/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.2/10 | 前50% | #生成对抗网络 | #生成对抗网络 | #对抗样本 | arxiv 👥 作者与机构 Sameek Bhattacharya, Bharath Krishnamurthy, Ajita Rattani Dept. of Computer Science and Engineering, University of North Texas, Denton, Texas, USA 💡 毒舌点评 论文核心idea很讨巧:把DAC这个音频领域的“瑞士军刀”(本来是做编解码的)拿来当攻击者的武器,利用其连续的潜空间来生成扰动。这确实比在高维波形上直接“硬碰硬”的迭代优化快了几个数量级,实验数据上速度优势明显。但作者的分析像是急着发新闻稿,深挖不足:为什么这个潜空间就特别适合生成对抗样本?是几何特性还是压缩带来的语义保真?没说清楚。实验只用了一个16kHz的DAC,泛化性存疑。更关键的是,对抗样本的“灵魂”——听不出来(感知质量)和能迁移(黑盒攻击)——完全没验证。论文给人感觉是“我们很快,而且成功率看起来不错”,但距离一篇扎实的、分析透彻的顶会论文还差得远,更像是一个有趣的工程验证。 ...

2026-06-23 · 更新于 2026-07-02 · 3 min · 435 words

PhysDrift: Bridging the Embodiment Gap in Humanoid Co-Speech Motion Generation

📄 PhysDrift: Bridging the Embodiment Gap in Humanoid Co-Speech Motion Generation #语音合成 #生成对抗网络 7.4/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.4/10 | 前50% | #语音合成 | #生成对抗网络 | arxiv 👥 作者与机构 华南理工大学(Xiaofen Xing 为通讯作者)、DexForce Technology、佛山大学 💡 毒舌点评 这篇论文动机清晰,把“人形机器人做动作时,如果先按人的身体来生成再‘套’上去会出问题”这个工程直觉,包装成了“体现鸿沟”这个听起来高深的概念。提出的IK-EER和PhysDrift框架在思路上有一定道理,也做了一些实验。但问题在于:1)作为一篇顶会论文,实验的对比基线有点“复古”,很多是几年前的方法(如GMR、PHC),缺乏与最新机器人动作生成工作的直接对比。2)所谓的“机器人原生生成”方法,只是把Flow Matching的输出从人形参数空间换成了机器人关节角空间,核心生成模型(GestureLSM)是别人的,创新点有点像在别人搭好的厨房里换了口锅做饭。3)“真实部署”的展示过于简略,一个顶会论文,连一个定性的视频或更详细的场景描述都吝啬提供,说服力大打折扣。4)MDF的理论性质(如收敛性)只是给了个Proposition,没有证明,略显单薄。总的来说,一篇合格的工作,但离顶尖还有差距,有点“PPT论文”的味道——框架画得漂亮,实操细节模糊。 📌 核心摘要 针对现有人形机器人协同语音动作生成采用的“人类中心”流水线(先在SMPL-X等人类表示空间生成动作,再重定向到机器人),本文指出其存在根本性的“体现鸿沟”——人类动作流形与机器人可执行动作流形不匹配,导致重定向过程会压缩动作多样性并削弱语音-动作同步性。为此,本文提出了两阶段解决方案:首先,提出IK-EER框架,在重定向过程中联合优化运动学可行性和语音-动作时间对齐,构建高质量的机器人原生运动数据集。然后,提出PhysDrift框架,一个体现感知的机器人原生生成模型,它直接从语音预测可执行的机器人关节轨迹,无需中间人类身体表示。PhysDrift引入运动漂移场(MDF)来替代传统的速度场学习,并在损失函数中加入物理约束和语音同步约束。大量实验和真实机器人部署表明,该机器人原生方法在语音对齐、物理合理性、运动平滑度(Jerk显著降低)和实时生成效率(2880 APS)上均优于传统流水线和直接适配的生成模型,证明了体现感知建模对人形机器人的重要性。 🔗 开源详情 代码:论文中未提供代码链接。 模型权重:论文中未提供模型权重。 数据集:BEAT2数据集(获取链接:https://github.com/ICT-Research/BEAT2) Demo:论文中未提及Demo。 复现材料:论文中未提供。仅在实验部分简要说明了训练细节:在单个 NVIDIA A100 上训练 1000 个 epoch,使用 Adam 优化器,学习率为 1e-4,但未提供配置文件、检查点或详细附录等具体复现材料。 论文中引用的开源项目:BEAT2(https://github.com/ICT-Research/BEAT2) 🏗️ 方法概述和架构 本文方法旨在解决人类中心流水线带来的体现鸿沟问题,其核心思想是绕过人类动作表示,直接在机器人关节空间进行动作策划与生成。框架包含两个紧密耦合的模块:数据策划模块IK-EER和生成模型PhysDrift。 ...

2026-06-19 · 更新于 2026-07-02 · 3 min · 473 words

Zero-VC: Zero-Lookahead Streaming Voice Conversion via Speaker Anonymization

📄 Zero-VC: Zero-Lookahead Streaming Voice Conversion via Speaker Anonymization #语音转换 #流式处理 #生成对抗网络 6.1/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 0.5/1.5 ✅ 6.1/10 | 前50% | #语音转换 | #生成对抗网络 | #流式处理 | arxiv 👥 作者与机构 Li Yudong, Fang Zihao, Qiu Junwen, Jing Ruihai, Shen Ruixiang, Wu Zhizheng. 机构:1. 香港中文大学(深圳) 2. 深圳湾区研究院 3. 深圳传音控股股份有限公司 4. Amphion Technology Co.,Ltd. ...

2026-06-19 · 更新于 2026-07-02 · 2 min · 292 words

QC-GAN: A Parameter-Efficient Quaternion Conformer GAN for High-Fidelity Speech Enhancement

📄 QC-GAN: A Parameter-Efficient Quaternion Conformer GAN for High-Fidelity Speech Enhancement #生成对抗网络 #语音增强 #Conformer 7.1/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.1/10 | 前50% | #语音增强 | #生成对抗网络 | #Conformer | arxiv 👥 作者与机构 作者:Shogo Yamauchi, Hideaki Tamori, Makoto Sakai, Yosuke Yamano, Tohru Nitta 机构:The Asahi Shimbun Company, Japan; Tokyo Woman’s Christian University, Japan ...

2026-06-18 · 更新于 2026-07-02 · 3 min · 562 words

Unified Audio Generation and Editing via Joint Condition Modeling and Progressive Training

📄 Unified Audio Generation and Editing via Joint Condition Modeling and Progressive Training #音频生成 #扩散模型 #生成对抗网络 8.7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.7/10 | 前25% | #音频生成 | #生成对抗网络 | #扩散模型 | arxiv 👥 作者与机构 Haocheng Dong:中国科学技术大学电子工程与信息科学系、中国电信人工智能研究院(TeleAI)。 Yuheng Lu:天津大学人工智能学院认知计算与应用天津市重点实验室、中国电信人工智能研究院(TeleAI)。 Cheng Gong, Shansong Liu, Xiao-Lei Zhang, Xuelong Li:中国电信人工智能研究院(TeleAI)。 💡 毒舌点评 这篇论文瞄准了一个实际痛点:音频生成与编辑模型的碎片化。作者提出的统一框架思路清晰,将扩散Transformer(DiT)适配为统一骨架,并通过联合条件建模与因子化位置嵌入处理不同任务的输入,有一定工程巧思。然而,论文在“统一”的深度上仍有欠缺,更像一个“多任务模型”而非真正的“统一范式”。任务特定注意力掩码这一关键设计被轻描淡写,缺乏原理性论证,令人怀疑其必要性与通用性。实验部分,虽然与SOTA模型对比数据亮眼,但编辑任务数据集是人工合成的,其真实世界泛化能力存疑。此外,论文声称“可扩展性”优势,但并未提供长音频或多参考音频的验证,这一宣称显得空洞。总体而言,这是一项扎实的工程应用研究,但理论洞察和实验验证的深度(尤其在编辑任务)未能匹配其雄心勃勃的标题。 📌 核心摘要 本文针对现有音频生成(如文本到音频,TTA)与编辑任务模型相互独立的现状,提出了一个名为AudioWeave的统一模型。该模型基于扩散Transformer(DiT)骨架,无需引入额外的任务特定模块,即可处理文本到音频生成和基于指令的音频编辑(需参考音频)两大类任务。核心方法包括:1)联合条件建模:将参考音频潜在序列与目标音频潜在序列沿序列维度拼接,形成统一的音频输入流;2)因子化位置嵌入:将位置信息分解为全局序列间位置和局部序列内位置,以区分不同序列(文本、目标音频、参考音频)并保持其内部时序结构;3)渐进式多阶段训练策略:先在纯TTA数据上训练基础模型,再混合TTA与编辑数据进行微调,以缓解任务竞争与灾难性遗忘。实验表明,在TTA任务及六种音频编辑任务上,AudioWeave的性能与多种任务特定模型相当,验证了该统一框架的有效性。 ...

2026-06-16 · 更新于 2026-07-02 · 1 min · 192 words

Feature-Aligned Speech Watermarking for Robustness to Reconstruction Distortions

📄 Feature-Aligned Speech Watermarking for Robustness to Reconstruction Distortions #鲁棒性 #生成对抗网络 7.1/10 | 创新 1.7/2 | 严谨 0/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.4/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.1/10 | 前25% | #鲁棒性 | #生成对抗网络 | arxiv 👥 作者与机构 作者:Haiyun Li (1, 2), Shuhai Peng (1), Zhisheng Zhang (1), Jingran Xie (1), Xiaofeng Xie (3), Hanyang Peng (2), Zhiyong Wu (1, 2) 机构:1. 香港中文大学(深圳); 2. 深圳大学; 3. 未在摘要中明确列出具体机构(原文中仅标注数字3)。 ...

2026-06-11 · 更新于 2026-07-02 · 2 min · 308 words

NüshuVoice: Reviving the Voice of Endangered Nüshu with Pitch-Aware Text-to-Speech

📄 NüshuVoice: Reviving the Voice of Endangered Nüshu with Pitch-Aware Text-to-Speech #语音合成 #变分自编码器 #生成对抗网络 #低资源 #多任务学习 7/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7/10 | 前50% | #语音合成 | #变分自编码器 | #生成对抗网络 #低资源 | arxiv 👥 作者与机构 Hongkun Yang (1), Xinhui Yi (2), Xiyan Zhao (2), Yibo Meng (3), Lionel Z. Wang (2), Lixu Wang (4), Yaqi Zhang (5), Ruiqi Chen (6), Xuanyue Zhao (4), Lanxin Zhang (4), Yu Zeng (7), Weijia Chu (2), Yiming Ma (8), Chenyu Liu (2), Jianghao Lin (7), Xin Xu (2) ...

2026-06-09 · 更新于 2026-07-02 · 3 min · 466 words