SwanVoice: Expressive Long-Form Zero-Shot Speech Synthesis for Both Monologue and Dialogue

📄 SwanVoice: Expressive Long-Form Zero-Shot Speech Synthesis for Both Monologue and Dialogue #语音合成 #语音转换 #数据增强 #变分自编码器 #扩散模型 #强化学习 #课程学习 🔥 8.9/10 | 前50% | #语音合成 | #变分自编码器 | #语音转换 #数据增强 | arxiv 学术质量 6.3/7 | 影响力 1.5/2 | 可复现性 1.1/2 | 置信度 高 👥 作者与机构 作者:Ruiqi Li (1), Yu Zhang (1), Changhao Pan (1,2), Ke Lei (1,2), Xiang Yin (1), Cheng Yang (1) 单位:1 ByteDance, 2 Zhejiang University 通讯作者及贡献:1为共同贡献,2为通讯作者(根据原文格式推断)。 💡 毒舌点评 这篇论文工整地完成了一个大型工业级语音合成系统应做的所有事:堆砌了看似合理的数据处理流程、模型架构和训练策略,最后在自建的Benchmark上宣称自己最好。其核心工作(SwanVoice模型本身)在架构上(VAE+Flow-matching DiT)并非独创,更多是工程上的整合与优化。最大的“贡献”似乎是那个数据处理管道(SwanData-Speech),但这更像是一个内部产品开发文档,而非可复用、可验证的学术方法。论文通篇都在强调“表现力”得分最高,但关键的“内容准确性”却是短板,这在一个语音合成系统中是相当尴尬的权衡。更值得玩味的是,评估所用的核心模型(如SpeechJudge)未开源,这使得其“表现力”领先的结论大打折扣。整篇论文更像是一份技术报告,而非一篇能推动领域进步的学术论文。 ...

2026-06-01 · 更新于 2026-06-15 · 3 min · 453 words

UniAudio-Token: Empowering Semantic Speech Tokenizers with General Audio Perception

📄 UniAudio-Token: Empowering Semantic Speech Tokenizers with General Audio Perception #语音合成 #语音识别 #多模态模型 #低资源 🔥 10/10 | 前25% | #语音合成 | #语音识别 | #多模态模型 #低资源 | arxiv 学术质量 6.5/7 | 影响力 1.8/2 | 可复现性 1.7/2 | 置信度 高 👥 作者与机构 作者:Yuhan Song¹, Linhao Zhang², Aiwei Liu², Chuhan Wu², Sijun Zhang², Wei Jia², Yuan Liu², Houfeng Wang¹, Xiao Zhou² (通讯作者) 机构:¹北京大学计算机科学学院,多媒体信息处理国家重点实验室;²腾讯微信事业群基础模型技术中心 💡 毒舌点评 这篇论文切中了当前Audio-LLM领域一个真实且重要的痛点:语义语音分词器为了对齐文本,把音频里丰富的声学细节给“弄瞎”了,导致处理音乐、环境音时抓瞎。提出的SAP监督和SAE门控机制在思路上确实巧妙且直觉上合理,实验数据也显示出全面的性能提升。然而,其“通用”的宣称可能有些过于乐观——训练和评估仍重度依赖英语和中文资源,非语音音频的重建质量也承认远不如专用编解码器。此外,其数据创建流程完全依赖Qwen3系列大模型,这本身就引入了新的偏差和可复现性门槛。总的来说,这是一篇扎实的、解决了具体问题的增量工作,但距离真正的“通用音频接口”还有明显距离,尤其在多语言覆盖和高保真非语音重建方面。 📌 核心摘要 本文针对现有语义语音分词器在通用音频感知上的“声学失明”(acoustic blindness)问题,提出了UniAudio-Token框架。该框架旨在不牺牲语音生成能力的前提下,为语义分词器赋予通用音频感知能力。其核心创新包括两点:(1)语义-声学原语(Semantic-Acoustic Primitives, SAP):一种结构化监督协议,将音频分解为语言内容、声音属性和听觉场景原语进行监督,以解耦内容与风格。(2)语义-声学平衡(Semantic-Acoustic Equilibrium, SAE):一种内容感知的门控机制,能够自适应地从浅层注入细粒度声学细节到深层语义流中,以缓解声学失明,同时不破坏语义表征。大量实验证明,UniAudio-Token学到了全面的通用表征,同时保持了高保真度的语音生成。当集成到下游LLM中,其在理解和生成任务上均超越了所有单码本基线分词器。 🔗 开源详情 代码:https://github.com/Tencent/Universal_Audio_Tokenizer (包含训练和推理脚本) 模型权重:论文明确在摘要和引言中声明,将随代码仓库发布模型检查点(checkpoints),但未提供独立的HuggingFace或ModelScope链接。 数据集:训练使用了多个公开数据集,论文附录C.1(表7)提供了完整列表和时长。具体数据集获取方式通常如下: LibriSpeech: https://www.openslr.org/12 Multilingual LibriSpeech: https://github.com/facebookresearch/libri-light GigaSpeech: https://github.com/SpeechColab/GigaSpeech Yodas: https://github.com/facebookresearch/yodas Hi-Fi TTS: 论文引用Bakhturina et al., 链接可能为 https://github.com/keithito/tacotron-2-data 或相关发布。 VCTK: https://datashare.ed.ac.uk/handle/10283/2651 LibriTTS: https://www.openslr.org/60 AISHELL-1: https://www.openslr.org/33 WenetSpeech: https://github.com/wenet-e2e/WenetSpeech Common Voice: https://commonvoice.mozilla.org/ Emilia: https://github.com/EMI-PMC/emilia-dataset AudioSet: https://research.google.com/audioset/ Demo:论文中未提及在线演示链接。 复现材料:提供了完整的训练细节,包括数据集组成(附录C.1, 表7)、超参数配置(附录C.2, 表8)。SAP数据标注样例见附录A(图5-7)。 论文中引用的其他开源项目: WavTokenizer: https://github.com/jishengpeng/WavTokenizer CosyVoice: https://github.com/FunAudioLLM/CosyVoice GLM-4-Voice: https://github.com/THUDM/GLM-4-Voice StableToken: 论文中未提供明确链接。 Whisper: https://github.com/openai/whisper (使用whisper-large-v3) Qwen3系列模型:论文用于生成SAP数据和评估,但未提供具体下载链接。 Qwen2.5: 用于下游Audio-LLM实验,未提供链接。 MOSNet: https://github.com/dongchao-py/MOSNet CAM++: https://github.com/alibaba/damo-academy ERes2Net: 论文中提及但未提供链接。 🏗️ 方法概述和架构 UniAudio-Token 的核心目标是解决语义语音分词器的“声学失明”问题,即它们为了对齐语言内容而主动抑制声学细节,导致其在非语音任务上表现不佳。该方法通过两个核心组件协同工作:SAP(解决监督冲突)和SAE(解决架构瓶颈),最终输出一个能统一表征语音和通用音频的离散码本。 ...

2026-06-01 · 更新于 2026-06-15 · 3 min · 485 words

UNISON: A Unified Sound Generation and Editing Framework via Deep LLM Fusion

📄 UNISON: A Unified Sound Generation and Editing Framework via Deep LLM Fusion #语音合成 #语音转换 #音频生成 🔥 8.2/10 | 前25% | #语音合成 | #语音转换 | #音频生成 | arxiv 学术质量 5.9/7 | 影响力 1.7/2 | 可复现性 0.6/2 | 置信度 高 👥 作者与机构 Zhaoqing Li, Haoning Xu (香港中文大学); Jingran Su (香港理工大学); Yaofang Liu (香港城市大学); Zhefan Rao, Haoxuan Che (香港科技大学); Huimeng Wang, Jiajun Deng, Tianzi Wang, Xunying Liu (香港中文大学); Zengrui Jin (清华大学); Rui Liu (华为香港研究中心)。论文同时列出了六所机构作为合作单位。 ...

2026-06-01 · 更新于 2026-06-15 · 4 min · 838 words

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

📄 Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs #语音识别 #语音合成 #多模态模型 #数据增强 #低资源 #参数高效微调 #多语言 ✅ 7.2/10 | 前50% | #语音识别 | #数据增强 | #语音合成 #多模态模型 | arxiv 学术质量 7.5/7 | 影响力 7.0/2 | 可复现性 0.3/2 | 置信度 中 👥 作者与机构 论文作者为 Nguyen Quang Trung, Cheng Yi Lewis Sun, Minh Duc He, Yingxu Shuo, Ai Ti Aw。机构包括 Institute for Infocomm Research (I2R), A*STAR, Singapore 和 Nanyang Technological University, Singapore。 ...

2026-05-30 · 更新于 2026-06-15 · 2 min · 274 words

Raon-Speech Technical Report

📄 Raon-Speech Technical Report #语音合成 #语音识别 #知识蒸馏 #多模态模型 #数据增强 ✅ 6.5/10 | 前25% | #语音识别 | #知识蒸馏 | #语音合成 #多模态模型 | arxiv 学术质量 3.5/7 | 影响力 1.5/2 | 可复现性 1.5/2 | 置信度 高 👥 作者与机构 核心贡献者来自KRAFTON。论文作者列表按角色划分,核心贡献者包括:建模(Ethan Ewer等)、数据(Beomsoo Kim等)、评估(Haechan Kim等)、服务与工程(Hyeonghwan Kim等)、基础设施(Jiyun Kim等)。项目负责人为Kangwook Lee和Jaewoong Cho。致谢部分还提到了多位提供支持的个人。 💡 毒舌点评 这是一份扎实但缺乏惊喜的工业级技术报告。模型在韩语上的性能提升确实显著,但论文在论证“最强整体表现”时,巧妙地选择了对自家有利的8个基线模型,并在多轮对话(FDB v2.0)上露出了短板。所谓“开源一切”的承诺,在正文中连代码仓库和模型权重的具体链接都找不到,实在不够诚恳。全双工模型设计了不少“状态建模”技巧,却没有任何消融实验来证明其有效性,这让贡献打了折扣。整体来看,它更像一份详尽的模型发布说明书,而非一篇经得起严格推敲的学术论文,顶会门槛确实还没到。 📌 核心摘要 本文介绍了Raon-Speech,一个针对英语和韩语优化的9B参数语音语言模型,以及其全双工对话扩展Raon-SpeechChat。Raon-Speech通过三阶段训练(对齐、端到端预训练+知识蒸馏、偏好优化后训练)将预训练LLM转化为兼具语音理解和生成能力的模型,并在42个基准测试中展示了其在语音相关任务上的优越性能,尤其是在韩语任务上。Raon-SpeechChat引入了因果编码器、交错的文本-语音序列和交互状态建模(SIL, BOW, BC),以支持实时对话。该模型在FDB v1.0的转接行为上表现出色,但在更复杂的多轮对话场景(FDB v2.0)中并非最优。论文声称开源了模型、代码和演示,但未提供具体链接。 🔗 开源详情 代码:论文中未提及具体的代码仓库链接(如GitHub地址)。 模型权重:论文中未提及具体的模型权重下载链接(如HuggingFace/ModelScope页面)。 数据集: KVoiceBench: https://huggingface.co/datasets/KRAFTON/KVoiceBench KOpenAudioBench: https://huggingface.co/datasets/KRAFTON/KOpenAudioBench KMMAU: https://huggingface.co/datasets/KRAFTON/KMMAU Demo:论文中未提及在线交互式演示的具体链接。 复现材料:论文未提供独立的复现材料包。论文详细说明了模型架构(附录B、C)、训练流程与超参数(表2、第3节)、数据处理流程(第4节、附录D),这些信息构成了复现所需的核心材料,但部分细节仍需参考附录。 论文中引用的开源项目: 骨干LLM: Qwen3-VL-8B-Instruct 语音编码器(理解对齐): AuT模型 语音编解码器: Mimi 说话人编码器: speechbrain/spkrec-ecapa-voxceleb 因果语音编码器(全双工): Voxtral-Mini-4B-Realtime-2602 RCP初始化: Qwen3-Omni-30B-A3B-Instruct TTS: Qwen3-TTS ASR: Whisper, 内部基于Zipformer的ASR模型 偏好优化方法: SimPO 全双工基准测试: Full-Duplex-Bench (FDB) v1.0, v1.5, v2.0 全双工对话模型基线: Moshi, Freeze-Omni, PersonaPlex, OmniFlatten 🏗️ 方法概述和架构 Raon-Speech的核心是将预训练LLM(Qwen3-VL-8B-Instruct)作为骨干,通过添加模块扩展其语音能力。架构分为理解与生成两侧。理解侧:输入语音经由一个预训练的非因果语音编码器(AuT)提取特征(12.5Hz),再通过一个随机初始化的2层MLP输入适配器投影至LLM嵌入空间。适配器后使用缩放为0.02的RMSNorm以稳定对齐。处理后的语音嵌入与文本嵌入拼接后送入LLM。生成侧:使用Mimi编解码器(保留前16个残差码本)。生成过程是自回归的:上一帧的编解码器嵌入经输出适配器映射至LLM输入空间,LLM的隐藏状态被一个4层解码器-仅Transformer语音生成专家(SGE)用于预测语义token(第一层码本)。随后,一个15层的残差码本预测器(RCP,初始化自Qwen3-Omni-30B-A3B-Instruct)自回归地预测剩余15层的声学token。最终所有层的token反量化、求和得到编解码器嵌入,输入编解码器解码器合成语音,并反馈至输出适配器用于下一帧生成。说话人控制:通过一个预训练的说话人编码器(speechbrain/spkrec-ecapa-voxceleb)从目标语音中提取2-8秒的片段,其嵌入被插入LLM输入序列以条件化生成语音的说话人身份。 ...

2026-05-30 · 更新于 2026-06-15 · 4 min · 730 words

语音/音乐/音频论文速递 2026-05-30

语音/音乐/音频论文速递 2026-05-30 共分析 6 篇论文 ⚡ 今日概览 📥 抓取 6 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 2篇 ██ #语音情感识别 1篇 █ #强化学习 1篇 █ #Transformer 1篇 █ 📊 论文评分排行榜(6 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 A Multi-Probe Audit of Clinical-Interview Depression De 9.6分 前10% #语音情感识别 🥈 EchoDistill:Alignment Noisy-to-Clean Self-Distillation 9.1分 前50% #强化学习 🥉 MIRAGE: Adaptive Multimodal Gating for Whole-Brain fMRI 8.2分 前50% #Transformer 4. Direct Preference Optimization for English-Mandarin Cod 7.2分 前50% #语音识别 5. Raon-Speech Technical Report 6.5分 前25% #语音识别 6. PiAnnotate: A Web Annotation Tool for Piano Fingering, 6.0分 前50% - 📋 论文列表 🥇 A Multi-Probe Audit of Clinical-Interview Depression Detection Benchmarks 🔥 9.6/10 | 前10% | #语音情感识别 | #迁移学习 | #音频信号处理 #预训练语言模型 | arxiv ...

2026-05-30 · 更新于 2026-06-15 · 3 min · 583 words

Dial HEALTHDIAL for Advice: A Multilingual and Multi-Parallel Spoken Dialogue Dataset for Knowledge-Grounded Information Seeking

📄 Dial HEALTHDIAL for Advice: A Multilingual and Multi-Parallel Spoken Dialogue Dataset for Knowledge-Grounded Information Seeking #数据集 #数据增强 #多语言 #低资源 #语音合成 #语音识别 🔥 8.6/10 | 前25% | #语音合成 | #数据增强 | #数据集 #多语言 | arxiv 学术质量 5.3/7 | 影响力 1.3/2 | 可复现性 2/2 | 置信度 高 👥 作者与机构 Songbo Hu1, Yinhong Liu1, Ej Zhou1*, Evgeniia Razumovskaia1, Xiaobin Wang2, Alexander Fraser3, Ivan Vulić1†, Anna Korhonen1† 1语言技术实验室,剑桥大学,英国 2独立研究者 3计算、信息与技术学院,慕尼黑工业大学,德国 *共同第一作者,†共同通讯作者 💡 毒舌点评 这篇论文做了一件“正确但保守”的事:为多语言对话系统构建了一个大规模、高质量的基准数据集。其方法论清晰,开源彻底,是社区需要的基础设施。然而,主要问题在于其“合成”本质和“管道式”评估框架。用LLM生成对话再由人录音,虽然解决了隐私和成本问题,但得到的终究是“假设性”的健康咨询,与真实世界复杂、混乱的患者交互相去甚远。更关键的是,所有基准测试都基于传统的ASR->检索->LLM->TTS管道,这固然是当前的技术现实,但使得数据集的核心价值——支持原生语音对话模型研究——大打折扣。论文在揭示跨语言性能差异上做得不错,但这更多是现有模型(如Whisper, GPT)多语言能力不均衡的反映,而非数据集本身的独特发现。总体而言,这是一篇扎实的资源论文,但未能在方法论或系统评估上带来突破性视角,更像是一份详尽的“使用说明书”。 ...

2026-05-29 · 更新于 2026-06-15 · 2 min · 358 words

HoliTok:A Coutinuous Holistic Tokenization with Robust Dual Capabilities of Speech Generation and Understanding

📄 HoliTok:A Coutinuous Holistic Tokenization with Robust Dual Capabilities of Speech Generation and Understanding #语音合成 #语音识别 #自监督学习 #知识蒸馏 #多任务学习 #模型压缩 🔥 8.6/10 | 前25% | #语音合成 | #自监督学习 | #语音识别 #知识蒸馏 | arxiv 学术质量 5.7/7 | 影响力 1.8/2 | 可复现性 1.1/2 | 置信度 高 👥 作者与机构 作者: Bohan Li, Shi Lian, Hankun Wang, Yiwei Guo, Yu Xi, Zhihan Li, Da Zheng, Colin Zhang, Kai Yu. 机构: 1. 上海交通大学 X-LANCE 实验室;2. 小红书 Hi-lab。 ...

2026-05-29 · 更新于 2026-06-15 · 4 min · 673 words

MELD: Mel-Spectrogram-Based Speech Language Modeling with Discrete Latent Variables

📄 MELD: Mel-Spectrogram-Based Speech Language Modeling with Discrete Latent Variables #语音合成 #语音识别 #变分推断 ✅ 7.3/10 | 前50% | #语音合成 | #变分推断 | #语音识别 | arxiv 学术质量 5.9/7 | 影响力 1.4/2 | 可复现性 0/2 | 置信度 中 👥 作者与机构 Sung-Lin Yeh\(^{1}\), Wei Zhou\(^{2}\), Gil Keren\(^{3}\), Duc Le\(^{3}\), Zhong Meng\(^{3}\), Hao Tang\(^{3}\), Jay Mahadeokar\(^{3}\), Ozlem Kalinli\(^{3}\), Alexandre Mourachko\(^{3}\) (\(^{1}\)University of Edinburgh, \(^{2}\)Google DeepMind, \(^{3}\)Meta Superintelligence Labs) 📌 核心摘要 本文提出了MELD(Mel-Spectrogram-Based Discrete Latent Language Model),一种基于梅尔频谱图和离散潜变量的语音语言模型框架。其核心创新在于联合优化一个量化编码器和一个自回归语言模型,直接对连续的梅尔频谱帧进行建模,从而避免了传统两阶段方法(先训练独立的编码器/编解码器,再训练语言模型)中编码器无法感知下游任务目标的问题。MELD通过引入离散潜变量空间进行采样,有效缓解了直接自回归建模梅尔频谱时常见的静音延长和单词遗漏问题。模型在单一框架内通过不同的控制令牌(<TTS> 和 <STT>)支持零样本文本到语音(TTS)合成和语音到文本(STT)识别任务,并在LibriSpeech数据集上展示了相比基线方法(如Codec-LM、MELLE、dMel)的优势,特别是在STT性能和联合TTS-STT建模方面。 ...

2026-05-29 · 更新于 2026-06-15 · 1 min · 115 words

OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants

📄 OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants #多模态模型 #基准测试 #语音识别 #语音合成 ✅ 7.8/10 | 前50% | #语音识别 | #多模态模型 | #基准测试 #语音合成 | arxiv 学术质量 4.9/7 | 影响力 1.2/2 | 可复现性 1.7/2 | 置信度 高 👥 作者与机构 作者:Xudong Lu, Xueying Li, Annan Wang, Yang Bo, Jinpeng Chen, Zengliang Li, Nianzu Yang, Rui Liu, Xue Yang, Jingwen Hou, Hongsheng Li 机构:CUHK MMLab (香港中文大学多媒体实验室), SJTU (上海交通大学), NTU (南洋理工大学), McMaster (麦克马斯特大学), CityUHK (香港城市大学), JUFE (江西财经大学) ...

2026-05-29 · 更新于 2026-06-15 · 2 min · 416 words