Posts

From A to B to A: Palindromic Zero-Shot Voice Conversion with Non-Parallel Data

📄 From A to B to A: Palindromic Zero-Shot Voice Conversion with Non-Parallel Data 7.3/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 0.7/1.5 ✅ 7.3/10 | 前50% | arxiv 👥 作者与机构作者：Moshe Mandel (独立研究者，以色列)， Shlomo E. Chazan (OriginAI, 以色列) 联系邮箱：moshe.mandel@mail.huji.ac.il, shlomi@originai.co 💡 毒舌点评这篇文章的点子挺“巧”的，把KNN-VC这个现成的“零件”拿来，通过一个“合成-真实”配对的回文训练把一个简单的检索方法升级成了一个监督学习框架。这就像你发现了一个很好的食材（KNN特征），但没有好的菜谱，于是你写了一本菜谱（回文训练），结果做出来的菜（转换效果）比直接用食材好很多，特别是“味道”（说话人相似性）更正了。这种“站在巨人肩膀上做加法”的思路是有效的，也确实提升了性能。但问题在于，这本“菜谱”的核心——那个说话人损失——是直接从别处借来的现成调料（ECAPA-TDNN），文章并没有在“调料搭配”或“火候控制”（损失函数的具体设计、权重、稳定性分析）上给出足够深入的见解。实验部分，多语言泛化的能力看起来很诱人，但只展示了WER和两个总体分数，缺乏对转换质量在不同语言上具体表现的深入分析（比如，韵律保持如何？音素混淆在哪里？）。另外，文章一边声称“无需显式建模韵律”，一边又在对比中指出别人的韵律问题，这种论证方式有点取巧。总的来说，这是一个工程上扎实、效果不错的工作，但理论深度和实验分析的细致程度离顶级会议的要求还差那么一口气。 📌 核心摘要本文提出了一种用于零样本语音转换的回文式训练框架。该方法不依赖于并行语音数据，而是利用预训练的WavLM特征，通过离线KNN检索将目标说话人音频转换为合成源音频，从而构建“合成源-真实目标”训练对。系统由WavLM编码器、基于Transformer的潜在空间转换器和HiFi-GAN声码器组成，并采用三阶段训练策略。其核心创新是在训练中引入了一个基于预训练说话人验证模型（ECAPA-TDNN）的波形级说话人损失，以直接优化转换后语音的说话人相似性。在LibriSpeech上的实验表明，该方法在说话人相似性和EER指标上优于多个近期基线，同时在内容保持（WER/CER）和主观质量（MOS/SMOS）上保持可比。此外，该模型在未进行微调的情况下，在8种非英语语言上展示了强大的跨语言泛化能力，实现了更低的WER和可比的说话人相似性。 🔗 开源详情代码：论文未提供代码仓库链接，仅提供了一个项目页面/演示页面（https://palindromic-vc.github.io）。因此，严格意义上并无可执行的开源代码。模型权重：论文中未提及模型权重链接。数据集：论文中使用了 LibriSpeech 数据集和 Multilingual LibriSpeech 数据集。具体链接或开源协议论文中未提及。 Demo：https://palindromic-vc.github.io 复现材料：论文中详细描述了三个训练阶段的流程、关键模型参数（如Transformer层数、头数、隐藏维度）和超参数（如学习率），为复现提供了理论基础。但未提供具体的配置文件、检查点或详细附录的下载链接。论文中引用的开源项目： WavLM: 论文中未提及链接，仅标注了引用 [chen2022wavlm]。 HiFi-GAN vocoder: 论文中未提及链接，仅标注了引用 [kong2020hifi]。 ECAPA-TDNN speaker verification model: 论文中未提及链接，仅标注了引用 [desplanques2020ecapa]。 RedimNet Speaker Verifier: 论文中未提及链接，仅标注了引用 [yakovlev24_redimnet]。 Whisper-Large-V3: 论文中未提及链接，仅标注了引用 [radford2022whisper]。作者与机构作者：Moshe Mandel (独立研究者，以色列)， Shlomo E. Chazan (OriginAI, 以色列) 联系邮箱：moshe.mandel@mail.huji.ac.il, shlomi@originai.co 毒舌点评这篇文章的点子挺“巧”的，把KNN-VC这个现成的“零件”拿来，通过一个“合成-真实”配对的回文训练把一个简单的检索方法升级成了一个监督学习框架。这就像你发现了一个很好的食材（KNN特征），但没有好的菜谱，于是你写了一本菜谱（回文训练），结果做出来的菜（转换效果）比直接用食材好很多，特别是“味道”（说话人相似性）更正了。这种“站在巨人肩膀上做加法”的思路是有效的，也确实提升了性能。但问题在于，这本“菜谱”的核心——那个说话人损失——是直接从别处借来的现成调料（ECAPA-TDNN），文章并没有在“调料搭配”或“火候控制”（损失函数的具体设计、权重、稳定性分析）上给出足够深入的见解。实验部分，多语言泛化的能力看起来很诱人，但只展示了WER和两个总体分数，缺乏对转换质量在不同语言上具体表现的深入分析（比如，韵律保持如何？音素混淆在哪里？）。另外，文章一边声称“无需显式建模韵律”，一边又在对比中指出别人的韵律问题，这种论证方式有点取巧。总的来说，这是一个工程上扎实、效果不错的工作，但理论深度和实验分析的细致程度离顶级会议的要求还差那么一口气。 ...

FXplorer: A Map-Based Interface for Exploratory Audio Effect Design

📄 FXplorer: A Map-Based Interface for Exploratory Audio Effect Design 7.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.5/10 | 前25% | #音频生成 | arxiv 👥 作者与机构 Annie Chu, Jason Brent Smith, Bryan Pardo Northwestern University, Chicago, IL, USA 💡 毒舌点评这篇论文像是一个精心打磨的课程设计项目，而非一篇顶会论文。作者构建了一个看起来很酷的“声音地图”工具，但其核心验证方式仅仅是报告“处理一张地图要花几秒钟”——这完全是工程优化的范畴，而非学术贡献。他们花费大量篇幅描述交互细节（鼠标悬停、键盘快捷键），却对更关键的问题避而不谈：你的“感知组织”到底有多准确？用户真的能用这个工具创造出更好的声音吗？还是说这只是一个让人眼花缭乱的玩具？论文最大的缺失是用户研究，这在NIME或CHI领域几乎是必需品。没有用户数据，所谓的“支持发散探索和收敛精炼”就只是一厢情愿的声明。作者自己也承认了局限性，但讨论得相当肤浅，没有触及“预渲染变体”这一核心架构的根本限制。总之，这是一个完成度不错的原型演示，但其学术贡献和评估严谨性远未达到顶会标准。 📌 核心摘要本文介绍了FXplorer，一个基于地图的交互式音频效果设计界面，旨在解决传统数字音频工作站（DAW）中离散模块和参数设置不利于探索性声音设计的问题。系统的核心是将大量音频效果变体组织在一个二维的感知空间中，用户可以通过鼠标导航、文本/音频语义搜索、实时参数插值和编辑来探索声音变换的可能性。该界面整合了多种交互模式，试图统一“发现可能性”的发散探索和“实现具体目标”的收敛精炼过程。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及数据集：论文中未提及 Demo：论文中未提及复现材料：论文中未提及论文中引用的开源项目： Svelte：https://svelte.dev/ Tone.js：http://tonejs.github.io/ Pedalboard：https://github.com/spotify/pedalboard 🏗️ 方法概述和架构 FXplorer采用了一个清晰的混合架构，将计算密集型任务与实时交互分离，具体实现包含以下核心组件与流程： ...

G-MaP-SE: Guided Speech Enhancement via GMM-Based Prior Matching

📄 G-MaP-SE: Guided Speech Enhancement via GMM-Based Prior Matching #语音增强 #说话人识别 #语音质量评估 #高斯混合模型 9.3/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9.3/10 | 前50% | #语音增强 | #高斯混合模型 | #说话人识别 #语音质量评估 | arxiv 👥 作者与机构作者：Yike Zhu, Ziqian Wang, Zikai Liu, Xingchen Li, Zhuangqi Chen, Xianjun Xia, Chuanzeng Huang, Lei Xie 机构：Audio, Speech and Language Processing Group (ASLP@NPU), School of Software, Northwestern Polytechnical University, Xi’an, China 💡 毒舌点评这篇论文提出了一个解决特定痛点（无需注册语音的个性化增强）的巧妙工程方案，但离“重大突破”还有距离。其创新更多是“组合创新”而非“原理创新”——用现成的GMM和余弦匹配给噪声嵌入做个“整形手术”。最令人玩味的是实验设计：用在VBD上训练的模型去测DNS2020，然后宣称“跨域”效果显著，这本质上是在验证一个简单的假设：说话人嵌入空间在不同噪声分布下是相对稳定的。论文的诚意体现在开源了代码，但缺乏与同期更强大（如基于扩散模型）的语音增强方法的对比，让“state-of-the-art”的宣称显得底气不足。方法的“轻量”是优点，但也暗示了其天花板可能有限。 ...

HoliDubber: Holistic Video Dubbing for Complex Acoustic Scenes via Text-Guided Audio Synthesis

📄 HoliDubber: Holistic Video Dubbing for Complex Acoustic Scenes via Text-Guided Audio Synthesis #语音合成 #音频生成 #多模态模型 #扩散模型 #自监督学习 9/10 | 创新 1.6/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9/10 | 前10% | #语音合成 | #自监督学习 | #音频生成 #多模态模型 | arxiv 👥 作者与机构 Wenhao Guan (厦门大学, 上海创新研究院), Yifan Duan (上海交通大学), Junxi Liu (上海交通大学), Yu Gu (未来工场), Feng Dang (未来工场), Kaidi Wang (厦门大学), Qingyang Hong (厦门大学), Lin Li (厦门大学), Xie Chen (上海交通大学, 上海创新研究院) ...

Is Text All You Need? Text as a Universal Information Bottleneck for Speech LLMs

📄 Is Text All You Need? Text as a Universal Information Bottleneck for Speech LLMs #语音识别 #多任务学习 7.6/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.6/10 | 前50% | #语音识别 | #自监督学习 | #多任务学习 | arxiv 👥 作者与机构 Ming-Hao Hsu1,†, Yuxuan Hu2, Shujie Liu3,∗, Jinyu Li2, Yan Lu3, Zhizheng Wu1,∗。1香港中文大学（深圳）数据科学学院；2微软雷德蒙德研究院；3微软亚洲研究院（香港）。†表示实习期间完成的工作，∗为通讯作者。 💡 毒舌点评这篇论文的“几何约束”核心卖点包装得不错，用凸包的概念来桥接冻结LLM与连续语音信号，逻辑自洽。机制分析部分，特别是因果干预实验，设计得相当用心，为“轨迹而非离散token承载信息”这一论点提供了有力支持。然而，其评估严格受限于单一编码器-LLM对（Whisper-large-v3 + Qwen2.5-7B）和单一训练种子，这使得“普适性”宣称大打折扣。在“多任务学习”这个拥挤的赛道上，缺乏与更强、更广泛基线（如近期出现的多模态大模型）的直接比较，削弱了说服力。情感识别任务选用表演数据集RAVDESS，其与现实场景的差距论文也提及但未充分探讨。本质上，这是一项在高度受控、特定设置下验证有趣几何假设的工作，其工程价值和可复现性因缺乏完整开源而受限，更像一篇机制研究而非一套通用解决方案。 ...

Liberating LLM Capabilities in Full-Duplex Speech Models

📄 Liberating LLM Capabilities in Full-Duplex Speech Models #多模态模型 #数据增强 8.7/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 🔥 8.7/10 | 前25% | #多模态模型 | #数据增强 | arxiv 👥 作者与机构通讯作者：Luoyuan Zhang (zly.idleness@gmail.com)。论文未明确列出作者所属机构，仅提供了个人邮箱和项目主页。 💡 毒舌点评这论文的切入点不错——让全双工语音模型也能“写”出好东西，而不是只能“说”。但方法部分有点“取巧”，核心创新在于一个Token Schema，这更像是一个巧妙的工程实现，而非深刻的架构或算法突破。数据合成流水线虽实用，但高度依赖强大的教师模型（Qwen3-235B），其“蒸馏”出来的质量上限可能受制于教师本身，而论文并未分析其误差传播。实验结果看着漂亮，但在关键的URO-Bench上，LWS的优势主要体现在特定的“中文Pro”子集，且与Step-Audio 2等顶级基线的差距并不稳定（英文Pro甚至落后）。最大的问题在于，论文声称解决了文本能力受限的问题，但实验主要评估了理解、回复质量和交互，对于真正展现“代码生成、结构化分析”等被压制能力的任务（例如，在对话中实时生成并展示可执行的Python代码片段），缺乏直接、有力的验证。全双工交互性能优异，但这是在1秒Unit的固定延迟下取得的，更细粒度的交互性能未探讨。 📌 核心摘要论文标题： Liberating LLM Capabilities in Full-Duplex Speech Models 核心问题：如何在保持基于语音的大语言模型（Speech LLM）全双工实时交互能力的同时，不丧失其原生的文本生成能力（如代码、结构化分析、多步推理），并允许用户实时看到这些结构化的中间或最终输出。核心方法：提出Listen-Write-Speak (LWS) 范式。这是一种“文本优先”的三通道（听、写、说）交互模式。在标准自回归Transformer中，通过定义特殊的Token Schema来划分时间单元（Unit，1秒）和通道边界，使得模型能在共享的因果注意力上下文中同时处理用户音频、生成可见的自由形式文本（作为主要输出）和生成语音响应。该架构无需修改模型结构。关键技术细节： ...

MeanVC 2: Robust Low-Latency Streaming Zero-Shot Voice Conversion

📄 MeanVC 2: Robust Low-Latency Streaming Zero-Shot Voice Conversion #语音合成 #生成模型 #流式处理 #鲁棒性 #数据增强 #正则化微调 6.9/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.9/10 | 前50% | #语音转换 | #生成对抗网络 | #语音合成 #生成模型 | arxiv 👥 作者与机构马国彬1，谢旭1，赵品枫3，马佳琪1，江翰科1，贾景bin1，郭延波1，谢磊1,2，朱鹏程3 1 西北工业大学软件学院，音频、语音与语言处理组 (ASLP@NPU)，中国 2 新南威尔士大学，澳大利亚 3 WeNet开源社区，中国 💡 毒舌点评这篇工作在解决流式VC的实际痛点上做得扎实，将训练效率和推理延迟的提升量化得很清楚。FRC和UTTE的设计动机明确，且都有消融实验支持。但创新性略显不足，FRC本质上是对注意力掩码的层间调度，UTTE的结构也较为常见。实验对比基线较弱，缺乏与近期（如SeedVC等）强力SOTA的直接比较。作者声称的“鲁棒性”提升，其评估规模（30个说话人）和退化模型的多样性值得商榷。此外，代码未开源使得其声称的可复现性目前仍为空头支票。总体是一篇扎实的工程优化论文，但理论新意和实验全面性有提升空间。 📌 核心摘要本文针对流式零样本语音转换中存在的训练效率低、小分块设置下质量下降以及参考音频质量敏感等局限性，提出了MeanVC 2系统。其核心创新在于：1) 引入未来感知分块策略（FRC），通过为扩散Transformer（DiT）的每一层分配不同的注意力掩码，分层调度过去和未来的感受野，并移除了原有的干净分块教师强迫机制。这使模型能够利用有限的未来上下文，在仅40毫秒的小分块设置下稳定生成，并将首包延迟从211毫秒降至110毫秒，同时将训练峰值内存消耗降低约60%。2) 提出通用音色标记编码器（UTTE），它不直接从参考梅尔谱图中提取细粒度特征，而是将全局说话人嵌入映射为一组“通用音色标记”（包含可学习的先验和针对目标说话人的调制），并利用源语音的瓶颈特征作为查询，通过交叉注意力检索发音相关的音色细节，从而解耦音色表示与参考音频质量，提升了鲁棒性。实验表明，MeanVC 2在说话人相似度（SSIM）和语音质量（DNSMOS）上优于MeanVC基线和StreamVoice+，且在低质量参考音频条件下表现更优。 ...

MeCo: One-Step MeanFlow-based Corrector for Multi-Channel Speech Separation

📄 MeCo: One-Step MeanFlow-based Corrector for Multi-Channel Speech Separation #语音分离 #生成模型 #多通道 #实时处理 8.4/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 🔥 8.4/10 | 前25% | #语音分离 | #生成对抗网络 | #生成模型 #多通道 | arxiv 👥 作者与机构 Dohwan Kim (通讯作者)，Jung-Woo Choi。机构：韩国科学技术院（KAIST）电气工程学院。 💡 毒舌点评这篇论文精准地切入了一个实际痛点：判别模型指标好听感差，生成模型听感好但太慢。提出的MeCo（基于MeanFlow的一步修正器）思路清晰，工程实现上有亮点（DSO策略）。然而，其核心创新“MeanFlow”和“一步生成”概念并非首创，主要贡献在于将现有技术有效组合并应用于多通道语音分离这一具体场景。实验部分比较全面，但所有实验均在自己构建的模拟数据集上进行，缺乏真实录音场景的验证，这在一定程度上削弱了结论的普适性声称。作者将“独立说话人细化”列为局限性，但回避了更根本的问题：该级联系统的性能上限完全受限于前端判别模型，MeCo的修正能力在前端估计极差时是否依然鲁棒？未来工作部分提到的“显式空间建模”是必要的，但略显空泛。 📌 核心摘要本文针对多通道语音分离任务中判别模型（信号保真度高但听感差）与生成模型（听感自然但计算慢且多通道方案少）的局限，提出了一种名为MeCo（MeanFlow-based One-Step Corrector）的一步式生成修正器。MeCo基于MeanFlows框架，学习从判别模型输出（t=1）到干净语音流形（t=0）的平均速度场，实现单步映射，避免了迭代生成的延迟。核心创新在于提出了数据空间优化（DSO）策略，通过结合 \(\mathbf{x}_{r}\)-损失（隐式优化生成轨迹）和端点SI-SDR损失（直接优化最终一步生成的信号保真度），最大化一步生成的性能。实验表明，MeCo在域内（WSJ0+WHAM!）和域外（Librispeech+DEMAND、低资源语言+DEMAND）数据集上，在参考性指标（PESQ， ESTOI， SI-SDR）和参考性人类听感指标（DNSMOS， UTMOS， NISQA）上均取得了最优性能，且计算开销极小。 🔗 开源详情代码：https://github.com/rlaehghks5/MECO （论文明确声明并链接）模型权重：论文中未提及提供预训练模型权重的下载链接。数据集：论文中提及了以下公开数据集用于构建实验数据： WSJ0语料库（用于训练/测试） WHAM! 噪声数据集（用于训练/测试） Librispeech 语料库（用于域外评估） DEMAND 噪声数据集（用于域外评估）低资源语言数据集（sodimana2018multilingual，用于域外语言评估）（论文未提供上述数据集的具体下载链接或开源协议说��，需研究者自行获取） Demo：论文中未提及。复现材料：论文在4.2节“Implementation details”中声明：“所有模型的详细配置可在我们的公共仓库中找到。”（指代上述GitHub仓库）。未单独提供训练配置文件或检查点。论文中引用的开源项目： gpuRIR (diaz2021gpurir)：用于模拟房间脉冲响应（RIR）。 NCSN++ (Richter_2023SGMSE)：作为生成模型（Fast-GeCo, MeanFlow, MeCo）的骨干网络。 Adam优化器 (kingma2014adam)：用于模型训练。（论文引用了项目名称，但未提供这些项目本身的链接） 🏗️ 方法概述和架构 MeCo是一个级联系统中的生成修正模块，其核心架构基于条件MeanFlows，并引入数据空间优化（DSO）进行训练。 ...

Multi-View Speech Representation Learning for Parkinson's Disease Detection Using Context-guided Cross-modal Attention

📄 Multi-View Speech Representation Learning for Parkinson's Disease Detection Using Context-guided Cross-modal Attention #自监督学习 #多模态模型 7.9/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 ✅ 7.9/10 | 前50% | #自监督学习 | #自监督学习 | #多模态模型 | arxiv 👥 作者与机构 George Theodosiou†, Loukas Ilias†, Dimitris Askounis (†共同第一作者) 决策支持系统实验室，电气与计算机工程学院，雅典国立技术大学，雅典，希腊 💡 毒舌点评这篇文章试图用“多视图”和“注意力”这些热门词汇包装一个相当直白的任务：在单个数据集上分类帕金森语音。作者将三种特征（频谱图、MFCC、HuBERT）拼接后用注意力加权，声称这是“新颖”的融合。其核心创新——上下文引导的跨模态注意力——本质上是一种特征级的交叉注意力，其“上下文”来自另外两个分支的全局向量，设计上并不复杂。实验仅限于PC-GITA这一个公开数据集，虽然报告了较高的分数，但在未进行任何外部验证的情况下，其宣称的“临床可靠性”显得有些空中楼阁。消融实验是亮点，但基线选择相对陈旧（如[19], [21]），且与最新的基础模型方法对比时，提升幅度有限（约6%）。最大的硬伤是完全未开源代码和模型，这使得所有复现承诺成为空谈，也严重削弱了其在社区中的实际价值。总体而言，这是一篇工程整合度较高、但理论创新有限、且未能提供足够验证的临床应用论文。 📌 核心摘要本文针对帕金森病（PD）的语音检测任务，提出了一种多分支深度学习框架。该框架摒弃了依赖单一语音表征的惯例，同时从同一段语音中提取三种互补的表征：1) 由ResNet-18编码器处理的Log-Mel频谱图，2) 由双向LSTM网络建模的MFCC序列，3) 由预训练HuBERT基础模型提取的原始波形嵌入。为有效融合这些异构表征，论文引入了上下文引导的跨模态注意力机制，该机制利用来自频谱图和MFCC分支的全局声学上下文，动态加权时序HuBERT嵌入中的相关部分。在西班牙语PC-GITA数据集上的严格说话人独立五折交叉验证实验表明，该框架取得了优异性能（准确率91.51%， F1分数91.24%， AUROC 95.97%），并通过一系列消融研究验证了所提注意力机制和多表征集成的有效性。 ...

NüshuVoice: Reviving the Voice of Endangered Nüshu with Pitch-Aware Text-to-Speech

📄 NüshuVoice: Reviving the Voice of Endangered Nüshu with Pitch-Aware Text-to-Speech #语音合成 #变分自编码器 #生成对抗网络 #低资源 #多任务学习 7/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7/10 | 前50% | #语音合成 | #变分自编码器 | #生成对抗网络 #低资源 | arxiv 👥 作者与机构 Hongkun Yang (1), Xinhui Yi (2), Xiyan Zhao (2), Yibo Meng (3), Lionel Z. Wang (2), Lixu Wang (4), Yaqi Zhang (5), Ruiqi Chen (6), Xuanyue Zhao (4), Lanxin Zhang (4), Yu Zeng (7), Weijia Chu (2), Yiming Ma (8), Chenyu Liu (2), Jianghao Lin (7), Xin Xu (2) ...