OLIVE: View-Augmented Latent Prediction with Waveform Reconstruction for Speech SSL

📄 OLIVE: View-Augmented Latent Prediction with Waveform Reconstruction for Speech SSL #自监督学习 #生成对抗网络 #语音增强 #语音分离 #语音转换 7.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1.2/1 | 影响 1.3/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 ✅ 7.5/10 | 前50% | #语音识别 | #自监督学习 | #生成对抗网络 #语音增强 | arxiv 👥 作者与机构 作者:Karl El Hajal (Idiap Research Institute, Switzerland; EPFL, Switzerland), Mathew Magimai.-Doss (Idiap Research Institute, Switzerland) 机构:Idiap Research Institute(瑞士),洛桑联邦理工学院(EPFL,瑞士) ...

2026-06-30 · 更新于 2026-07-03 · 5 min · 996 words

ProsoCodec: Prosody-Oriented Speech Codec for Voice Conversion

📄 ProsoCodec: Prosody-Oriented Speech Codec for Voice Conversion #语音转换 #流匹配 #扩散模型 6.6/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.3/1.5 | 复现 0.4/0.5 | 工程 0.5/1.5 ✅ 6.6/10 | 前50% | #语音转换 | #流匹配 | #扩散模型 | arxiv 👥 作者与机构 作者: Jeongsoo Choi, Ji-Hoon Kim, Shujie Hu, Joon Son Chung 机构: KAIST (韩国科学技术院), Chung-Ang University (中央大学), The Chinese University of Hong Kong (香港中文大学) ...

2026-06-23 · 更新于 2026-07-03 · 3 min · 578 words

RIVET: Robust Idempotent Voice Attribute Editing

📄 RIVET: Robust Idempotent Voice Attribute Editing #语音编辑 #语音转换 #低资源 8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8/10 | 前50% | #语音转换 | #语音编辑 | #低资源 | arxiv 👥 作者与机构 Dareen Alharthi, Bhuvan Koduru, Rita Singh, Bhiksha Raj 卡内基梅隆大学 (Carnegie Mellon University) 💡 毒舌点评 这篇工作的出发点不错,抓住了语音编辑在大数据时代的一个真实痛点——脏标签。用“幂等性”这剂药方听起来也挺高大上,直觉上说得通。但仔细一看,这药方的“药效”和“适用症”证明得不够扎实。最大的问题是,作者自己搭了个简易擂台(去掉核心损失的自身架构),就宣布自己赢了。这就像只跟昨天的自己比赛,说服力打折扣。而且,对“年龄”这个属性,药效好像不太灵(在EARS上甚至变差了),论文却轻描淡写带过,没给出像样的病理分析。方法部分对模型“怎么做手术”的细节描述比较模糊,光给了个公式和示意图,让人不清楚这“潜在表示空间”的约束到底落在VITS的哪个部位。总之,想法有价值,但就像一篇刚完成初步临床试验的新药报告:看到了希望,但离证明其广泛有效性和弄清所有副作用,还有不少路要走。 📌 核心摘要 本文针对语音属性编辑模型因训练数据中的标签噪声而导致编辑不稳定和身份漂移的问题,提出了RIVET训练框架。其核心在于利用幂等性原理(\(f(f(x)) = f(x)\))作为正则化。具体实现上,RIVET在模型的编码潜在表示空间(同时针对说话人嵌入和语音潜在表示)施加一致性约束,通过最小化原始编码与“编辑-重建”再编码之间的差异,使模型在噪声标签下也能学习到稳定的映射。实验表明,该方法能有效提升模型在自然噪声(GLOBE)和可控合成噪声(EARS)下的编辑成功率和说话人身份保持能力,尤其是在性别编辑和对抗噪声方面效果显著。 🔗 开源详情 代码:https://github.com/DareenHarthi/rivet (提供了完整的训练和评估代码) 模型权重:论文中未提及提供预训练模型权重。 数据集:论文使用GLOBE和EARS数据集,但未提供直接获取链接,需从官方渠道获取。 Demo:论文中未提及。 复现材料:论文中包含主要的训练细节(如优化器、学习率),但未提供具体的配置文件或脚本。 🏗️ 方法概述和架构 RIVET是一个端到端训练的语音属性编辑框架,其核心组件包括三个部分:说话人编码器、属性编辑模块和语音生成器,并通过引入幂等性损失进行联合优化。 ...

2026-06-19 · 更新于 2026-07-03 · 2 min · 292 words

Zero-VC: Zero-Lookahead Streaming Voice Conversion via Speaker Anonymization

📄 Zero-VC: Zero-Lookahead Streaming Voice Conversion via Speaker Anonymization #语音转换 #流式处理 #生成对抗网络 6.1/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 0.5/1.5 ✅ 6.1/10 | 前50% | #语音转换 | #生成对抗网络 | #流式处理 | arxiv 👥 作者与机构 Li Yudong, Fang Zihao, Qiu Junwen, Jing Ruihai, Shen Ruixiang, Wu Zhizheng. 机构:1. 香港中文大学(深圳) 2. 深圳湾区研究院 3. 深圳传音控股股份有限公司 4. Amphion Technology Co.,Ltd. ...

2026-06-19 · 更新于 2026-07-03 · 2 min · 292 words

DDPO-VC: Speaker De-Identification via Diffusion Denoising Policy Optimization

📄 DDPO-VC: Speaker De-Identification via Diffusion Denoising Policy Optimization #语音转换 #扩散模型 #强化学习 6.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 6.5/10 | 前50% | #语音转换 | #强化学习 | #扩散模型 | arxiv 👥 作者与机构 作者:Liming Wang, Cody Karjadi, Rhoda Au, James Glass 机构:MIT CSAIL;波士顿大学阿尔茨海默病中心 💡 毒舌点评 动机有点“既要又要”的浪漫主义——既要脱敏又要保真,尤其是在医疗数据上,这本身就是个两难困境。论文提出的RL方法算是条务实的路子,但离“通用解”还差得远。 实验设计还算扎实,和一堆主流方法(KNN-VC, LinearVC, TriAAN-VC, VEVO, FACodec, VALL-E)都比了,数据集也选了公认的ADReSS和FHS gold 92。但结果嘛,只能说赢了一部分,离“显著优于所有基线”还有距离,特别是在FHS gold 92的零样本设定上。 消融实验做了几项,聊胜于无。但关键的点,比如“可训练奖励教师”为什么在更嘈杂数据上会让零样本AUC下降?作者给出的解释(分布偏移)有点轻描淡写,这问题值得深挖。 自然度(UTMOS)和认知效用(AUC)经常不一致这个发现很有意思,点出了当前评估体系的盲点。但论文没进一步给出一个更好的综合评估指标,只是提了个醒。 开源态度不错,给了代码和Demo。但模型权重、训练好的教师模型、完整数据集预处理脚本都没给,想完美复现还是得自己折腾,减分。 📌 核心摘要 本文针对说话人去识别任务中隐私保护与下游任务效用(特别是认知健康评估)难以兼顾的挑战,提出了一种基于扩散模型(DDPM)与强化学习后训练(DDPO)的框架DDPO-VC。该方法无需对隐私与效用变量做解耦假设,而是通过组合来自隐私教师(说话人验证器)和效用教师(痴呆分类器)的奖励信号,直接优化扩散模型以生成既“匿名”又“保真”的语音。在ADReSS和FHS gold 92两个痴呆语音数据集上的实验表明,DDPO-VC在零样本和微调设定下的认知效用(AUC)和隐私保护(EER)上均能取得有竞争力的结果,并通过消融实验分析了教师类型、后训练技术(DDPO vs DPO)和奖励权重的影响。 ...

2026-06-16 · 更新于 2026-07-03 · 4 min · 782 words

SSL-GMMVC: Interpretable Voice Conversion via Locally Linear GMM Transforms in Self-Supervised Representation Space

📄 SSL-GMMVC: Interpretable Voice Conversion via Locally Linear GMM Transforms in Self-Supervised Representation Space #语音转换 #高斯混合模型 #自监督学习 #低资源 6.8/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.6/1.5 | 复现 0.5/0.5 | 工程 0.4/1.5 ✅ 6.8/10 | 前50% | #语音转换 | #高斯混合模型 | #自监督学习 #低资源 | arxiv 👥 作者与机构 作者:Tomoya Tanabu, Hiroshi Nishijima, Daisuke Saito, Nobuaki Minematsu 机构:The University of Tokyo, Japan (东京大学) 邮箱:{tanabu,hiroshi,dsk_saito,mine}@gavo.t.u-tokyo.ac.jp ...

2026-06-10 · 更新于 2026-07-03 · 5 min · 972 words

TargetSEC: Plug-and-Play In-the-Wild Speech Emotion Conversion via Arousal-Conditioned Latent Style Diffusion

📄 TargetSEC: Plug-and-Play In-the-Wild Speech Emotion Conversion via Arousal-Conditioned Latent Style Diffusion #语音转换 #扩散模型 #自监督学习 6.8/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.8/10 | 前50% | #语音转换 | #自监督学习 | #扩散模型 | arxiv 👥 作者与机构 作者:Constantin Alexander Auga 机构:Hasso Plattner Institute / University of Potsdam, Potsdam, Germany 💡 毒舌点评 这篇工作挺扎实,属于“把已有好工具用对地方”的典范。用潜在扩散模型处理风格嵌入,而不是在声谱图上硬刚,这思路很聪明,直接避免了生成声谱图常见的相位撕裂问题,保住了语音自然度(WVMOS 3.25 vs. 2.56)。消融实验设计得很规矩,一步步把MLP换成扩散、再加说话人条件,证明了每一步都有收益。作者也很诚实地承认了自己方法在极端情绪(如极度愤怒或无聊)上的短板,因为没做时长预测,语速跟不上。但问题是,这论文的“新颖性”有点虚。说是“首次”在嘈杂环境SEC中用LDM,但本质上是把DreamVoice或PromptVC那套“文本驱动LDM生成风格”的框架,里的文本条件换成了情绪嵌入,再套上一个现成的SEC任务。这更像是工程上的适配和验证,理论或方法论上的突破有限。实验只做了客观指标,主观听感完全缺失,对于语音合成任务来说,这是个明显的评审漏洞。开源方面几乎为零,连复现的关键细节(如完整的损失权重、优化器设置)都没给,让“plug-and-play”打了折扣。 ...

2026-06-08 · 更新于 2026-07-03 · 2 min · 319 words

SwanVoice: Expressive Long-Form Zero-Shot Speech Synthesis for Both Monologue and Dialogue

📄 SwanVoice: Expressive Long-Form Zero-Shot Speech Synthesis for Both Monologue and Dialogue #语音合成 #语音转换 #数据增强 #变分自编码器 #扩散模型 #强化学习 #课程学习 🔥 8.9/10 | 前50% | #语音合成 | #变分自编码器 | #语音转换 #数据增强 | arxiv 学术质量 6.3/7 | 影响力 1.5/2 | 可复现性 1.1/2 | 置信度 高 👥 作者与机构 作者:Ruiqi Li (1), Yu Zhang (1), Changhao Pan (1,2), Ke Lei (1,2), Xiang Yin (1), Cheng Yang (1) 单位:1 ByteDance, 2 Zhejiang University 通讯作者及贡献:1为共同贡献,2为通讯作者(根据原文格式推断)。 💡 毒舌点评 这篇论文工整地完成了一个大型工业级语音合成系统应做的所有事:堆砌了看似合理的数据处理流程、模型架构和训练策略,最后在自建的Benchmark上宣称自己最好。其核心工作(SwanVoice模型本身)在架构上(VAE+Flow-matching DiT)并非独创,更多是工程上的整合与优化。最大的“贡献”似乎是那个数据处理管道(SwanData-Speech),但这更像是一个内部产品开发文档,而非可复用、可验证的学术方法。论文通篇都在强调“表现力”得分最高,但关键的“内容准确性”却是短板,这在一个语音合成系统中是相当尴尬的权衡。更值得玩味的是,评估所用的核心模型(如SpeechJudge)未开源,这使得其“表现力”领先的结论大打折扣。整篇论文更像是一份技术报告,而非一篇能推动领域进步的学术论文。 ...

2026-06-01 · 更新于 2026-07-03 · 3 min · 453 words

UNISON: A Unified Sound Generation and Editing Framework via Deep LLM Fusion

📄 UNISON: A Unified Sound Generation and Editing Framework via Deep LLM Fusion #语音合成 #语音转换 #音频生成 🔥 8.2/10 | 前25% | #语音合成 | #语音转换 | #音频生成 | arxiv 学术质量 5.9/7 | 影响力 1.7/2 | 可复现性 0.6/2 | 置信度 高 👥 作者与机构 Zhaoqing Li, Haoning Xu (香港中文大学); Jingran Su (香港理工大学); Yaofang Liu (香港城市大学); Zhefan Rao, Haoxuan Che (香港科技大学); Huimeng Wang, Jiajun Deng, Tianzi Wang, Xunying Liu (香港中文大学); Zengrui Jin (清华大学); Rui Liu (华为香港研究中心)。论文同时列出了六所机构作为合作单位。 ...

2026-06-01 · 更新于 2026-07-03 · 4 min · 838 words

Hidden in Plain Tokens: Simply Robust, Gradient-Free Watermark for Synthetic Audio

📄 Hidden in Plain Tokens: Simply Robust, Gradient-Free Watermark for Synthetic Audio #语音合成 #语音转换 #生成对抗网络 #对比学习 #扩散模型 #多任务学习 🔥 10/10 | 前25% | #语音合成 | #生成对抗网络 | #语音转换 #对比学习 | arxiv 学术质量 6.5/7 | 影响力 2/2 | 可复现性 1.5/2 | 置信度 高 👥 作者与机构 Georgios Milis, Yubin Qin, Yihan Wu, Heng Huang。论文未明确提及作者所属机构。 💡 毒舌点评 本文提出了一种思路精巧且理论扎实的音频水印方法,其核心贡献在于发现了重标记化错误的结构性并利用图社区检测来缓解,实现了“无梯度训练”下的显著性能提升,这在当前需要白盒微调的解决方案中是一股清流。然而,审稿人认为其评估存在明显偏科和不足:1)对音频质量影响的评估深度不足,仅报告了FAD和预测MOS,缺乏如PESQ、STOI或主观听测(如ABX测试)等更全面的音频质量客观指标和人类评估,尤其是在声称“对生成质量影响微小”时,说服力有限。2)对“语义相邻”的假设和聚类结果缺乏深入分析,论文观察到错误具有结构性,但未提供任何可视化或量化证据(如混淆矩阵热图、聚类可视化)来向读者直观展示这种“语义相邻”到底是什么样子,以及Leiden算法究竟聚出了什么样的集群。3)局限性讨论可以更深入,例如,方法依赖于对特定编解码器进行离线聚类,当编解码器版本更新或部署环境变化时,聚类可能失效,如何维护?此外,将令牌聚类为簇,本质上是降低了水印的“分辨率”和熵,这可能在更长的上下文或更复杂的模型中带来新的、未被探讨的统计特性(如检测p值的分布变化)。4)实验比较的选择性,主要对比了Base和WMAR,但缺少与同属“训练无关”范畴的、其他可能的令牌聚类或特征空间对齐方法的比较,削弱了结论的普适性。 📌 核心摘要 本文针对自回归音频生成模型中令牌级水印因重标记化错误而失效的问题,提出了一种新颖的、梯度无关的解决方案。核心思想是:观察到重标记化错误并非随机,而是将令牌混淆为少量“语义邻居”,这种结构性冗余可以通过图社区检测算法(Leiden)发现并利用。方法将音频编解码器的令牌词表建模为图,边权为混淆概率,然后运行社区检测算法得到“令牌簇”。水印机制(基于KGW)在簇级别而非原始令牌级别上实施,从而对重标记化噪声变得鲁棒。理论分析量化了令牌匹配率\(r\)和簇匹配率\(r_{cl}\)对水印检测统计量\(\mathbb{E}[z|H_1]\)的指数级影响。在Moshi(Mimi编解码器)和MusicGen(EnCodec)上的全面实验表明,该方法在检测性能上比基线(包括微调编解码器的WMAR方法)提高了数个数量级,对常见的音频处理攻击(如滤波、压缩、时移)保持强鲁棒性,且对音频质量(FAD、预测MOS)影响较小。此外,该方法在CosyVoice3和Spark-TTS等基于流匹配的文本转语音模型上也验证了有效性。 🔗 开源详情 代码:提供项目主页链接:https://g-milis.github.io/projects/nograd-audio-wm.html,用于发布音频样本和代码。 模型权重:论文中未提及。 数据集:实验使用了开源数据集LibriSpeech、MusicCaps、Free Music Archive和LibriTTS,但未在论文中提供具体下载链接。 Demo:论文中未提及。 复现材料:论文在附录E (Experimental Details) 中提供了详细的复现信息,包括: 构建词汇缩减所用音频数据集(Mimi/TTS用LibriSpeech开发集,EnCodec用MusicCaps)。 聚类超参数网格搜索过程(分辨率\(\rho\)和噪声阈值\(m\))。 最终选定的超参数(表8)。 水印参数(\(\gamma, \delta, h\), 生成长度)。 各种鲁棒性攻击的具体设置(滤波器截止频率、噪声标准差、MP3比特率、时移比例、裁剪比例等)。 论文中引用的第三方开源项目(论文正文仅提及名称,未提供具体链接):Mimi, MusicGen, EnCodec, Leiden, Louvain, Whisper, WMAR, CosyVoice3, Spark-TTS, FaCodec, SpeechTokenizer, DAC, LibriSpeech, MusicCaps, Free Music Archive, LibriTTS。 🏗️ 方法概述和架构 本文方法的核心架构是一个两阶段的离线准备与在线水印方案,其设计动机是解决令牌级水印在连续模态(如音频)中因重标记化(retokenization)不一致导致的鲁棒性崩溃问题,且完全不依赖于梯度信息或对编解码器进行微调。 ...

2026-05-27 · 更新于 2026-07-03 · 2 min · 243 words