FoeGlass: Simple In-Context Learning Is Enough for Red Teaming Audio Deepfake Detectors

📄 FoeGlass: Simple In-Context Learning Is Enough for Red Teaming Audio Deepfake Detectors #大语言模型 #音频生成 #语音合成 #数据增强 7.5/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.5/10 | 前25% | #音频生成 | #数据增强 | #大语言模型 #语音合成 | arxiv 👥 作者与机构 作者:Sepehr Dehdashtian, Jacob H. Seidman, Vishnu Naresh Boddeti, Gaurav Bharaj 机构:未明确说明作者所属机构。 💡 毒舌点评 优点: ...

2026-06-05 · 更新于 2026-06-12 · 5 min · 911 words

Channel-Oriented Design for EEG-to-Music Reconstruction

📄 Channel-Oriented Design for EEG-to-Music Reconstruction #音乐信息检索 #音频生成 #自监督学习 #对比学习 #数据增强 7.7/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.7/10 | 前25% | #音乐生成 | #自监督学习 | #音乐信息检索 #音频生成 | arxiv 👥 作者与机构 Jiaxin Qing (UC Berkeley), Junwei Lu (Harvard University), Lexin Li (UC Berkeley) 💡 毒舌点评 这篇论文在脑机接口的细分赛道——EEG-to-Music重建上,精准地抓住了“通道信息早期混合”这个痛点,并提出了一个逻辑自洽、组件清晰的解决方案。理论分析虽简化,但为设计选择提供了合理的数学依据,比单纯喊口号强。实验部分,与当前SOTA基础模型的对比很到位,证明了专用设计优于通用预训练模型在特定任务上的表现。可解释性分析更是点睛之笔,将EEG的通道注意力与听觉处理脑区关联,提升了工作的可信度和价值。不过,其“对齐+固定生成器”的管道设计虽能隔离贡献,但也限制了对生成阶段优化潜力的探索。在通用性方面,模型对电极配置的固定依赖是一个明显的实用化短板。总的来说,这是一篇扎实、聚焦、有洞察力的工作,配得上顶会水准。 📌 核心摘要 本文研究了从EEG信号重建音乐这一具有挑战性的任务。作者指出,现有方法中过早地混合通道信息会破坏EEG中微弱但有区分度的信号。为此,提出了一个“通道导向”的设计框架,其核心包含三个组件:通道级标记化(将每个电极视为独立标记以保留空间局部证据)、通道级多视图自蒸馏(强制模型在不同时间裁剪和随机通道子集之间保持一致性,以学习鲁棒且分布式的表示)和通道级数据增强(通过结构化的通道丢弃提高对噪声和缺失电极的不变性)。这些组件被集成到一个编码-对齐-解码的管道中。从理论上,论文分析了通道级遮蔽相比块级遮蔽在何种条件下能降低跨类重叠。在实验上,通过与多种基线方法(包括专门的EEG2Mel和通用的EEG基础模型LaBraM、EEGPT、CBraMod)进行系统对比,在语义重建(CLAP score 0.683)和嵌入级对齐(50-way 识别准确率0.487)指标上取得了最佳性能。消融研究验证了每个组件的贡献,可解释性分析揭示了与听觉处理相关的通道注意力模式。 ...

2026-06-04 · 更新于 2026-06-12 · 2 min · 382 words

Differentiable Articulatory Copy-Synthesis of Biphonic Singing

📄 Differentiable Articulatory Copy-Synthesis of Biphonic Singing #音频生成 7.1/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.4/1.5 ✅ 7.1/10 | 前50% | #音频生成 | #音频生成 | arxiv 👥 作者与机构 论文未明确列出作者所属机构。论文脚注显示工作得到了西班牙经济与竞争力部(Ministry of Economy and Competitiveness of Spain)及Santander基金会的支持。 💡 毒舌点评 这篇论文很扎实,但也有明显的“精致的小作坊”气质。它精准地解决了一个非常小众但极具声学美感的“图瓦喉音”合成问题,这种专注值得称赞。然而,其方法的核心假设——舌下第二声源——就像在物理学大厦里塞进一个“薛定谔的声源”,虽然消融实验证明其有效,但其生理合理性始终是个“房间里的大象”,作者在讨论中试图轻描淡写地将其称为“声学抽象”,这多少有点回避核心争议。实验规模(20个样本)对于“验证”一个模型来说过于袖珍,更像是一个概念验证(PoC)的展示,离稳健的泛化性证明还有距离。最令人扼腕的是其离线优化成本(处理5秒音频要30分钟),这使得整个“可微分建模”的炫酷光环瞬间被现实应用的门槛拉回地面。总的来说,这是一篇技术实现精巧、写作规范的领域应用论文,但离改变游戏规则的突破性工作还有一步之遥——这一步就是规模和效率。 📌 核心摘要 本文提出了一种可微分的关节复制合成方法,用于图瓦双声部歌唱中的“Sygyt”技巧。核心模型是一个扩展的Kelly-Lochbaum波导模型,集成了三项关键创新:1)一个舌下第二声源,用于建模双声源现象;2)基于三次B样条的声道参数化,以实现平滑且物理合理的声道形状控制;3)空间可变的可学习阻尼,用于精细调控共振峰带宽。该模型通过端到端梯度下降优化,以最小化合成音频与目标音频的差异。实验在两个独立的Sygyt数据集(20个片段,5位歌手,10个音高)上进行,与传统的关节链基线模型和无物理约束的DDSP基线模型进行比较。结果表明,所提的B样条模型在对数谱距离(LSD)上相对关节链基线降低了30-38%,改进主要集中于1-3kHz的泛音区域。倒谱包络分析显示,模型能更准确地再现Sygyt产生的共振峰合并结构。消融实验表明,舌下第二声源是性能提升的主要贡献者。模型学习到的声道轮廓与已知的Sygyt发声机制一致,具有声学可解释性。 🔗 开源详情 代码:论文中未提及明确的官方代码仓库链接(如GitHub)。论文指出模型使用JAX实现,并基于了开源项目VocalTrax,但未提供其改进版本的具体代码地址。 模型权重:论文中未提及任何预训练模型权重的下载链接(如HuggingFace、ModelScope)。 数据集:论文中未提供其使用的两个独立数据集(HFA Overtone Singing Preview dataset [9] 和 Bergevin et al. [2])的具体公开获取链接或开源协议。数据集描述为“独立录制的工作室录音”。 Demo:论文中未提及在线演示链接。 复现材料:论文在脚注中提供了补充材料网站:https://mateocamara.com/khoomei-supp-materials 。音频示例和更多补充材料应在此获取。 论文中引用的开源项目: VocalTrax:论文指出其可微分波导模型扩展自该项目,并引用了其JAX实现。相关论文链接:https://arxiv.org/abs/2002.00180 。 Pink Trombone:论文中提到了作为交互式Kelly-Lochbaum风格波导模型的实时合成器。相关GitHub仓库:https://github.com/timurmusic/Pink-Trombone 。 🏗️ 方法概述和架构 本文提出的复制合成方法旨在从录音中逆向优化声道参数和声源参数,以重建“Sygyt”歌唱效果。系统整体分为预处理(固定参数提取)和可微分优化(参数学习)两个阶段。 ...

2026-06-04 · 更新于 2026-06-12 · 4 min · 689 words

UAT: Unified Audio-Text Diffusion for Audio Generation, Editing, and Captioning

📄 UAT: Unified Audio-Text Diffusion for Audio Generation, Editing, and Captioning #扩散模型 #音频生成 8.5/10 | 创新 1.7/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 🔥 8.5/10 | 前25% | #音频生成 | #扩散模型 | arxiv 👥 作者与机构 本文由南开大学、腾讯、上海交通大学、香港科技大学和Noiz AI的研究人员共同完成。第一作者是Hui Wang(南开大学和腾讯),通讯作者是Yong Qin(南开大学)。 💡 毒舌点评 这篇工作提出了一个有趣且有价值的问题:如何用一个单一的扩散模型统一音频生成、编辑和理解(字幕)。其“扩散中心”的路线与主流的AR中心或混合架构形成对比,具有新颖性。技术上,通过双流DiT实现音频(连续扩散)和文本(离散掩码扩散)的耦合是合理的创新点。实验也较为充分,验证了统一模型在多个任务上的竞争力。 然而,论文的贡献声明(如“首个”)需要审慎评估。其在字幕生成任务上的性能虽然“有竞争力”,但与顶尖的专用模型(如Audio Flamingo 3)仍有明显差距,这在“统一”的光环下容易被忽略。消融实验揭示了生成与理解之间的权衡,这一点很好,但作者对此的讨论似乎偏乐观。此外,论文未开源代码和完整训练数据,这在一定程度上削弱了其可复现性和影响力。整体而言,这是一篇扎实的工作,为扩散模型在统一多模态建模中的应用提供了新的视角和实证,但尚未达到颠覆性的水平。 📌 核心摘要 本文提出了UAT,据称是首个以扩散为中心的统一框架,支持音频生成、编辑和字幕生成。为解决传统文本到音频扩散模型中音频流更新而文本条件固定的不对称性问题,UAT引入了一个与预训练音频扩散骨干(AudioX)耦合的轻量文本流,形成动态双流扩散Transformer(DiT)。该架构同时处理连续音频潜变量(通过连续扩散)和离散文本词元(通过掩码离散扩散),实现双向音频-文本建模。实验表明,UAT在保持强大的音频生成和编辑能力的同时,达到了有竞争力的音频字幕性能,在声学合成与语义预测之间取得了良好平衡。 🔗 开源详情 代码:论文中未提供UAT官方代码仓库的链接。 模型权重:论文中未提供UAT最终训练模型权重的下载链接。仅提及预训练初始化使用的AudioX权重链接:https://huggingface.co/HKUSTAudio/AudioX。 数据集:论文中未提供UAT最终合并训练数据集的直接下载链接。但明确指出了其由四个公开数据集构建,并提供了其中AudioCaps 2.0的GitHub仓库链接:https://github.com/cdjkim/audiocaps/tree/master/dataset2.0。其他数据集(AudioSetCaps, VGGSound, WavCaps)通过引用提供。 Demo:论文提供了在线演示示例链接:https://UAT-demo.github.io。 复现材料:论文中提及了训练超参数、硬件环境等细节,但未提供训练配置文件、检查点或预处理脚本的下载链接。 论文中引用的开源项目: 评估工具:AAC-metrics (https://github.com/Labbeti/aac-metrics), CLAP (https://github.com/LAION-AI/CLAP)。 基线评估框架:ms-swift (https://github.com/modelscope/ms-swift)。 对比实验的基线模型:Tango 2 (https://huggingface.co/declare-lab/tango2), AudioLDM (https://huggingface.co/cvssp/audioldm), AudioLDM 2 (https://huggingface.co/cvssp/audioldm2), MAGNeT (https://huggingface.co/facebook/audio-magnet-medium), Stable Audio Open (https://huggingface.co/stabilityai/stable-audio-open-1.0), AudioX (https://huggingface.co/HKUSTAudio/AudioX), MiDashengLM (https://huggingface.co/mispeech/midashenglm-7b-0804-fp32), Qwen2-Audio (https://huggingface.co/Qwen/Qwen2-Audio-7B), Qwen3-Omni (https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct), Audio Flamingo 2 (https://huggingface.co/nvidia/audio-flamingo-2), Audio Flamingo 3 (https://huggingface.co/nvidia/audio-flamingo-3/), AP-adapter (https://huggingface.co/cvssp/audioldm2), MusicGen (https://huggingface.co/facebook/musicgen-large)。 🏗️ 方法概述和架构 UAT的核心目标是将文本到音频生成、文本引导音频编辑和音频字幕生成三个任务统一在一个扩散中心的框架内。其方法核心在于设计一个能同时处理连续音频信号和离散文本词元的联合扩散模型,具体架构如图2所示。 ...

2026-06-04 · 更新于 2026-06-12 · 3 min · 613 words

Cosmos 3: Omnimodal World Models for Physical AI

📄 Cosmos 3: Omnimodal World Models for Physical AI #多模态模型 #扩散模型 #音频生成 #强化学习 10/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 10/10 | 前10% | #音频生成 | #强化学习 | #多模态模型 #扩散模型 | arxiv 👥 作者与机构 论文作者:NVIDIA(英伟达)。贡献者来自NVIDIA的多个部门,包括模型架构、Reasoner预训练/后训练数据、生成器数据、训练、基础设施、结果和基准测试等团队。 💡 毒舌点评 Cosmos 3是一篇典型的“巨无霸”式工业技术报告,旨在通过发布一个全模态(语言、图像、视频、音频、动作)统一模型,为Physical AI(机器人、自动驾驶)提供一个通用的骨干网络。其核心动机——打破理解、生成和行动模型的分离——是清晰且有价值的。模型在架构上(MoT)和训练策略上(分阶段、多模态课程)都有扎实的工程实践,并在多个SOTA榜单上取得了优异成绩。然而,它的优势很大程度上源于NVIDIA庞大的资源和数据工程能力,而非基础科学层面的颠覆性创新。论文本身是出色的工程集成和系统设计的展示,但在分析某个具体子问题(如长尾物理规律的建模、跨具身迁移的理论基础)时深度有限。更关键的是,作为一篇技术报告,其“自我声明”的局限性部分(sim-to-real gap等)论述得相当克制,甚至可以说是轻描淡写,对于一篇宣称要解决真实世界Physical AI问题的工作来说,这需要读者自己更批判性地审视。开源程度很高,但模型的巨大规模和复杂的基础设施栈,使得真正的“可复现性”对普通研究者而言几乎是一个伪命题。 📌 核心摘要 Cosmos 3 是一个统一的全模态世界模型家族,旨在联合处理和生成语言、图像、视频、音频和动作序列,以支持Physical AI(具身智能)。其核心架构是基于Mixture-of-Transformers (MoT) 的双塔结构:一个自回归Reasoner路径负责理解和推理,一个扩散Generator路径负责生成,两者通过双流联合注意力机制交互。模型采用多阶段训练流程,Reasoner先在大规模图文/视频-文本数据上预训练,再在Physical AI任务上微调;Generator则采用渐进式多模态课程训练,从图像、视频、音频预训练开始,逐步引入动作和传输数据进行中期训练,最后在特定领域数据上进行后训练。评估显示,Cosmos 3在多个理解与生成基准测试上达到或超越了当时的开源及部分闭源模型的最佳水平,其后训练版本在Artificial Analysis榜单上被评为最佳开源文生图和图生视频模型,在RoboArena上被评为最佳机器人策略模型。论文同时开源了代码、模型权重、合成数据集和评估基准。 ...

2026-06-03 · 更新于 2026-06-12 · 3 min · 629 words

Foley-Omni: A Unified Multimodal Generation Model from Task-Level Audio Synthesis to Complete Video Soundtrack Generation

📄 Foley-Omni: A Unified Multimodal Generation Model from Task-Level Audio Synthesis to Complete Video Soundtrack Generation #音频生成 #语音合成 #音乐生成 #多模态模型 #课程学习 #扩散模型 7/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 0.3/1.5 | 复现 0.3/0.5 | 工程 0/1.5 ✅ 7/10 | 前25% | #音频生成 | #课程学习 | #语音合成 #音乐生成 | arxiv 👥 作者与机构 作者:Ye Tao, Lupeng Liu, Xuenan Xu, Jiasun Feng, Jiarui Wang, Ying Qin, Shuiyang Mao, Wei Liu, Shuai Wang 机构:南京大学智能科学与技术学院,Video Rebirth,上海交通大学,北京交通大学,上海人工智能实验室 ...

2026-06-03 · 更新于 2026-06-12 · 3 min · 476 words

SketchSong: Hierarchical Song Generation with Sketch Planning and Fine-Grained Multi-Track Modeling

📄 SketchSong: Hierarchical Song Generation with Sketch Planning and Fine-Grained Multi-Track Modeling #音乐生成 #音频生成 #多模态模型 #数据增强 #低资源 8.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 8.6/10 | 前25% | #音乐生成 | #数据增强 | #音频生成 #多模态模型 | arxiv 👥 作者与机构 论文作者:Xiaoyue Duan, Nanxing Hu, Yutang Feng, Xudong Yan, Jiatao Chen, Jinchao Zhang, Jie Zhou 机构:腾讯微信AI模式识别中心 (Pattern Recognition Center, WeChat AI, Tencent Inc.) 通讯作者:Jinchao Zhang (†Work done during an internship at WeChat AI, Tencent Inc. ‡Corresponding author) 💡 毒舌点评 这篇工作在概念层面抓住了当前歌曲生成模型的两个痛点:宏观结构规划不足和伴奏部分建模粗糙。提出的“草图规划”和“四轨建模”思路直接、清晰,且能互补。实验设计比较扎实,消融研究有力地支撑了各自组件的贡献。然而,方法的工程实现存在明显的“补丁”感,尤其是第二阶段多轨道模型却沿用第一阶段(或基线)为混合信号训练的伴奏解码器,这就像声称做了精细分轨烹饪,最后却用同一个大锅炒在一起,严重削弱了“细粒度”声称的冲击力。论文在局限性部分诚实地指出了这一点,但这也使得其作为一项完整工作的贡献打了折扣。与经过充分后训练(如DPO、对齐优化)的开源系统相比,本系统在部分主观指标上仍有差距,这进一步说明了其“潜力”与“现状”的差距。总体而言,这是一篇扎实的系统性工作,但缺乏一个令人惊艳的、完全自洽的闭环。 ...

2026-06-03 · 更新于 2026-06-12 · 5 min · 933 words

UniVocal: Unified Speech-Singing Code-Switching Synthesis

📄 UniVocal: Unified Speech-Singing Code-Switching Synthesis #语音合成 #语音生成 #音频生成 #音乐生成 #自监督学习 #课程学习 #数据增强 8.9/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 0/1.5 🔥 8.9/10 | 前25% | #语音合成 | #自监督学习 | #语音生成 #音频生成 | arxiv 👥 作者与机构 作者: Yufei Shi, Qian Chen, Wen Wang, Xiangang Li, Zhen-Hua Ling, Yang Ai 机构: Tongyi Fun Team, Alibaba Group; Independent Researcher ...

2026-06-02 · 更新于 2026-06-12 · 1 min · 132 words

Sound effects in media:A comparative analysis of recorded and synthetic samples in live-action and animation

📄 Sound effects in media:A comparative analysis of recorded and synthetic samples in live-action and animation #音频生成 #音频质量评估 #信号处理基础 📝 5.7/10 | 前50% | #音频生成 | #音频质量评估 | #信号处理基础 | arxiv 学术质量 4/7 | 影响力 1.2/2 | 可复现性 0.5/2 | 置信度 中 👥 作者与机构 作者:Nelly Garcia, Joshua Reiss 机构:Centre for Digital Music (C4DM), Queen Mary University of London 💡 毒舌点评 这篇论文像是一个音频专业的本科毕业设计,野心不小但手上功夫差了点。想用机器学习和用户研究来评判“程序化音频”这把双刃剑到底锋不锋利,想法是好的。但问题在于,你的尺子(MUSHRA评估)根本量不准你想量的东西(合成声音本身的质量)。你让一群专家评价“整体音效设计”,里面混着混音、同步、创意,最后得出“合成声音在动画日常场景里不行”的结论,这不是隔靴搔痒吗?方法部分写的像实验笔记,特征选择理由一笔带过,统计结果报告得乱七八糟,自由度都没有。最搞笑的是,你号称发现了“至少三个需要优化的声音效应”,结果通篇没说清楚是哪三个。这就像医生告诉你病了三个地方,但不说具体是哪。结论呢?又把“上下文很重要”这种老生常谈当宝贝。说白了,这篇论文最大的贡献可能是为后续研究者提供了一个“如何设计不严谨音频评估实验”的反面案例。 📌 核心摘要 本研究旨在评估程序化合成音效在不同类型(动画与真人实拍)视频场景中,相较于传统录音库样本的“可信度”。研究者构建了一个包含8个场景(4个动画,4个真人实拍)的数据集,每个场景制作了三种音效设计版本(全真实样本、混合合成样本、随机错误样本)。客观分析上,使用Essentia库提取了78个低层音频特征,利用XGBoost和Random Forest进行二分类(合成 vs. 真实),并通过SHAP和PCA分析关键特征。主观评估上,邀请了20名音频领域专业人士(最终有效样本18人),通过WebMUSHRA工具对视频的“整体音效设计质量”进行0-100分评分,并使用Google表单收集对不真实合成声音的定性反馈。研究发现:1) 真实音效设计在所有场景中评分均高于混合合成设计;2) 在模拟日常生活的动画场景(如“Drama (C)”)和科幻动画场景中,真实与混合设计的评分差异在统计上最为显著;3) 通过分类结果和用户反馈,识别出如“液体”、“身体击打”等模型需要优化,并关联到“增强低频”、“强调首次冲击”等改进方向及对应的音频特征域(如频率域、时频域)。 🔗 开源详情 代码:论文中未提及作者公开任何分析代码(如特征提取脚本、机器学习训练/评估代码)。 模型权重:论文中未提及公开任何训练好的分类模型。 数据集: 描述:自建了一个包含1616个音频样本的数据集,分为32个类别(16个合成类别,16个库样本类别)。样本格式为单声道、16位、44.1kHz、5秒长度。 来源:合成样本来自Nemisindo在线程序音频引擎;库样本来自BBC Sound Effects Library, Hybrid Sound Library, 50-ESC dataset [16], Soundsnap。 公开状态:论文中未提供该自建数据集的公开下载链接或开源协议。 Demo: 用于主观评估的视频可在作者YouTube频道观看:https://www.youtube.com/@nellyngz/videos (此为内容展示,非可下载数据集)。 用于主观评估的WebMUSHRA在线测试工具链接:论文未提供作者自己的测试实例链接,仅提到了工具名称。 用于收集定性反馈的Google表单链接:https://docs.google.com/forms/d/e/1FAIpQLSd4_IwgM0plWo2ug5Odu89mgm3yYfWCrwwrR1e75-iryGI3aw/viewform 复现材料:论文未提供训练配置、特征提取后的数据文件、模型检查点、或用于复现主观实验的视频包等具体复现材料。复现主要依赖于文本描述的方法和提供的外部工具/数据源链接。 论文中引用的开源项目: Essentia: https://essentia.upf.edu Nemisindo: https://nemisindo.com BBC Sound Effects Library: https://sound-effects.bbcrewind.co.uk Soundsnap: https://www.soundsnap.com WebMUSHRA: 论文未提供其项目主页链接。 XGBoost, Random Forest, SHAP, PCA: 论文仅引用,未提供项目链接。 🏗️ 方法概述和架构 本文研究方法可分为三个相互关联的阶段:数据集构建、客观特征分析和主观用户评估。 ...

2026-06-01 · 更新于 2026-06-12 · 2 min · 299 words

UNISON: A Unified Sound Generation and Editing Framework via Deep LLM Fusion

📄 UNISON: A Unified Sound Generation and Editing Framework via Deep LLM Fusion #语音合成 #语音转换 #音频生成 🔥 8.2/10 | 前25% | #语音合成 | #语音转换 | #音频生成 | arxiv 学术质量 5.9/7 | 影响力 1.7/2 | 可复现性 0.6/2 | 置信度 高 👥 作者与机构 Zhaoqing Li, Haoning Xu (香港中文大学); Jingran Su (香港理工大学); Yaofang Liu (香港城市大学); Zhefan Rao, Haoxuan Che (香港科技大学); Huimeng Wang, Jiajun Deng, Tianzi Wang, Xunying Liu (香港中文大学); Zengrui Jin (清华大学); Rui Liu (华为香港研究中心)。论文同时列出了六所机构作为合作单位。 ...

2026-06-01 · 更新于 2026-06-12 · 4 min · 838 words