📄 Raon-Speech Technical Report
#语音合成 #语音识别 #知识蒸馏 #多模态模型 #数据增强
✅ 6.5/10 | 前25% | #语音识别 | #知识蒸馏 | #语音合成 #多模态模型 | arxiv
学术质量 3.5/7 | 影响力 1.5/2 | 可复现性 1.5/2 | 置信度 高
👥 作者与机构
核心贡献者来自KRAFTON。论文作者列表按角色划分,核心贡献者包括:建模(Ethan Ewer等)、数据(Beomsoo Kim等)、评估(Haechan Kim等)、服务与工程(Hyeonghwan Kim等)、基础设施(Jiyun Kim等)。项目负责人为Kangwook Lee和Jaewoong Cho。致谢部分还提到了多位提供支持的个人。
💡 毒舌点评
这是一份扎实但缺乏惊喜的工业级技术报告。模型在韩语上的性能提升确实显著,但论文在论证“最强整体表现”时,巧妙地选择了对自家有利的8个基线模型,并在多轮对话(FDB v2.0)上露出了短板。所谓“开源一切”的承诺,在正文中连代码仓库和模型权重的具体链接都找不到,实在不够诚恳。全双工模型设计了不少“状态建模”技巧,却没有任何消融实验来证明其有效性,这让贡献打了折扣。整体来看,它更像一份详尽的模型发布说明书,而非一篇经得起严格推敲的学术论文,顶会门槛确实还没到。
📌 核心摘要
本文介绍了Raon-Speech,一个针对英语和韩语优化的9B参数语音语言模型,以及其全双工对话扩展Raon-SpeechChat。Raon-Speech通过三阶段训练(对齐、端到端预训练+知识蒸馏、偏好优化后训练)将预训练LLM转化为兼具语音理解和生成能力的模型,并在42个基准测试中展示了其在语音相关任务上的优越性能,尤其是在韩语任务上。Raon-SpeechChat引入了因果编码器、交错的文本-语音序列和交互状态建模(SIL, BOW, BC),以支持实时对话。该模型在FDB v1.0的转接行为上表现出色,但在更复杂的多轮对话场景(FDB v2.0)中并非最优。论文声称开源了模型、代码和演示,但未提供具体链接。
🔗 开源详情
- 代码:论文中未提及具体的代码仓库链接(如GitHub地址)。
- 模型权重:论文中未提及具体的模型权重下载链接(如HuggingFace/ModelScope页面)。
- 数据集:
- Demo:论文中未提及在线交互式演示的具体链接。
- 复现材料:论文未提供独立的复现材料包。论文详细说明了模型架构(附录B、C)、训练流程与超参数(表2、第3节)、数据处理流程(第4节、附录D),这些信息构成了复现所需的核心材料,但部分细节仍需参考附录。
- 论文中引用的开源项目:
- 骨干LLM:
Qwen3-VL-8B-Instruct - 语音编码器(理解对齐): AuT模型
- 语音编解码器:
Mimi - 说话人编码器:
speechbrain/spkrec-ecapa-voxceleb - 因果语音编码器(全双工):
Voxtral-Mini-4B-Realtime-2602 - RCP初始化:
Qwen3-Omni-30B-A3B-Instruct - TTS:
Qwen3-TTS - ASR:
Whisper, 内部基于Zipformer的ASR模型 - 偏好优化方法:
SimPO - 全双工基准测试:
Full-Duplex-Bench (FDB) v1.0, v1.5, v2.0 - 全双工对话模型基线:
Moshi,Freeze-Omni,PersonaPlex,OmniFlatten
- 骨干LLM:
🏗️ 方法概述和架构
Raon-Speech的核心是将预训练LLM(Qwen3-VL-8B-Instruct)作为骨干,通过添加模块扩展其语音能力。架构分为理解与生成两侧。理解侧:输入语音经由一个预训练的非因果语音编码器(AuT)提取特征(12.5Hz),再通过一个随机初始化的2层MLP输入适配器投影至LLM嵌入空间。适配器后使用缩放为0.02的RMSNorm以稳定对齐。处理后的语音嵌入与文本嵌入拼接后送入LLM。生成侧:使用Mimi编解码器(保留前16个残差码本)。生成过程是自回归的:上一帧的编解码器嵌入经输出适配器映射至LLM输入空间,LLM的隐藏状态被一个4层解码器-仅Transformer语音生成专家(SGE)用于预测语义token(第一层码本)。随后,一个15层的残差码本预测器(RCP,初始化自Qwen3-Omni-30B-A3B-Instruct)自回归地预测剩余15层的声学token。最终所有层的token反量化、求和得到编解码器嵌入,输入编解码器解码器合成语音,并反馈至输出适配器用于下一帧生成。说话人控制:通过一个预训练的说话人编码器(speechbrain/spkrec-ecapa-voxceleb)从目标语音中提取2-8秒的片段,其嵌入被插入LLM输入序列以条件化生成语音的说话人身份。
Raon-SpeechChat的扩展引入了三个关键修改:1. 因果语音编码器:将非因果的AuT替换为专为流式设计的因果编码器(Voxtral-Mini-4B-Realtime-2602),使用因果注意力和滑动窗口注意力支持流式处理。2. 交错序列设计:训练单一自回归序列,交错用户语音、助手文本和助手语音。助手文本与助手语音在词级对齐,当文本token数少于语音token数时填充PAD。这使得识别、规划和语音生成在同一框架内进行。3. 交互状态建模:引入SIL(静默)token明确建模聆听状态。引入BOW(词始)token,作为每个助手文本token前的标记,将“何时说”与“说什么”解耦。引入BC(回溯)token,专门用于区分简短的附和回应,便于独立控制。文本前瞻:在生成助手语音时,文本生成领先于语音一帧,以减少语义漂移,提供更稳定的文本目标。


💡 核心创新点
- 提出了一个高效的9B参数双语(英/韩)语音语言模型训练框架,通过三阶段训练将LLM转化为SpeechLM。
- 贡献了三个针对韩语语音理解、生成和问答的新基准测试集:
KVoiceBench、KOpenAudioBench和KMMAU。 - 通过引入因果编码器、交错序列和细粒度的状态建模(
SIL,BOW,BC)以及文本前瞻,改进了全双工交互模型Raon-SpeechChat的自然性和可控性。 - 声称开源了所有模型检查点、训练推理管道和交互式演示(但正文未提供具体链接)。
📊 实验结果
论文在42个英语和韩语基准上评估了Raon-Speech,并在FDB v1.0, v1.5, v2.0上评估了Raon-SpeechChat。与8个同等规模(约9B参数)的基线模型对比,主要结果如下:
表4:英语基准结果
| Benchmark | Raon-Speech | Qwen2.5-Omni | Kimi-Audio | Audio Flamingo 3 | Step-Audio 2 mini | InteractiveOmni | Fun-Audio-Chat | HyperCLOVA X 8B Omni | MiniCPM-o 4.5 |
|---|---|---|---|---|---|---|---|---|---|
| ASR (WER ↓) | |||||||||
| LibriSpeech-c | 1.44 | 1.73 | 1.38 | 1.40 | 4.88 | 2.28 | 1.60 | 2.28 | 1.51 |
| LibriSpeech-o | 2.89 | 3.88 | 2.70 | 2.97 | 6.82 | 4.67 | 3.89 | 5.03 | 3.56 |
| Fleurs-en | 3.59 | 4.05 | 4.54 | 4.54 | 13.02 | 4.89 | 7.61 | 5.57 | 3.52 |
| Speech Generation (WER ↓ | UTMOS ↑) | ||||||||
| LibriSpeech-c | 2.01 | 3.26 | 2.30 | 3.55 | – | – | 3.01 | 3.83 | 3.11 | 3.68 | 72.52 | 3.33 | 7.31 | 3.23 | 11.08 | 3.37 |
| Seed | 1.93 | 3.20 | 3.54 | 3.56 | – | – | 3.49 | 3.85 | 2.70 | 3.69 | 22.26 | 3.38 | 3.42 | 3.29 | 4.72 | 3.06 |
| Spoken QA ↑ | |||||||||
| VoiceBench | 76.79 | 66.71 | 68.92 | 41.60 | 50.26 | 62.41 | 73.64 | 48.70 | 76.06 |
| OpenAudioBench | 70.21 | 66.73 | 68.23 | 38.88 | 59.63 | 66.68 | 72.39 | 57.44 | 74.82 |
| Speech Understanding (Accuracy ↑) | |||||||||
| MMAU (Speech) | 78.68 | 77.18 | 66.37 | 68.77 | 68.47 | 66.07 | 71.47 | 53.15 | 72.67 |
| MMAU-Pro (Speech) | 64.65 | 62.74 | 54.77 | 52.41 | 59.60 | 44.11 | 64.53 | 40.52 | 59.48 |
| Text QA (Accuracy ↑) | |||||||||
| MMLU-Pro | 64.05 | 50.40 | 16.66 | 2.52 | 34.95 | 31.38 | 61.12 | 53.79 | 55.20 |
| MMLU-Redux | 78.87 | 68.03 | 44.27 | 0.90 | 51.73 | 36.03 | 74.70 | 71.83 | 72.53 |
表5:韩语基准结果
| Benchmark | Raon-Speech | Qwen2.5-Omni | Audio Flamingo 3 | Step-Audio 2 mini | InteractiveOmni | Fun-Audio-Chat | HyperCLOVA X 8B Omni | MiniCPM-o 4.5 |
|---|---|---|---|---|---|---|---|---|
| ASR (CER ↓) | ||||||||
| KSponSpeech-c | 6.56 | 18.96 | 134.12 | 55.84 | 461.87 | 646.25 | 10.22 | 205.35 |
| KSponSpeech-o | 6.96 | 22.72 | 136.50 | 59.43 | 428.83 | 514.82 | 10.15 | 202.14 |
| Fleurs-ko | 1.81 | 3.24 | 71.85 | 45.72 | 159.10 | 36.44 | 3.70 | 168.14 |
| Speech Generation (CER ↓ | UTMOS ↑) | |||||||
| KSponSpeech-c | 4.89 | 2.36 | 121 | 2.82 | – | 28.13 | 3.27 | 98.93 | 3.10 | 112.06 | 2.95 | 16.7 | 2.71 | 111.02 | 2.77 |
| MiniMax-ko | 1.57 | 2.88 | 121 | 2.92 | – | 23.35 | 3.54 | 99.88 | 3.12 | 70.60 | 3.00 | 2.64 | 3.24 | 103.69 | 2.71 |
| CV3-Eval-ko | 3.90 | 2.64 | 118 | 2.96 | – | 35.33 | 3.46 | 96.12 | 3.20 | 85.72 | 2.97 | 4.52 | 3.29 | 117.46 | 2.68 |
| Spoken QA ↑ | ||||||||
| KVoiceBench | 66.62 | 49.04 | 18.82 | 32.03 | 19.96 | 50.12 | 45.11 | 39.47 |
| KOpenAudioBench | 52.10 | 39.23 | 12.60 | 31.00 | 11.45 | 43.05 | 45.09 | 35.66 |
| Speech Understanding (Accuracy ↑) | ||||||||
| KMMAU | 71.83 | 62.85 | 44.46 | 63.02 | 30.56 | 67.37 | 30.99 | 62.39 |
| Text QA (Accuracy ↑) | ||||||||
| KMMLU-Pro | 46.85 | 32.49 | 0.43 | 38.38 | 36.43 | 43.23 | 19.06 | 41.57 |
| KMMLU-Redux | 51.80 | 30.54 | 0.27 | 35.41 | 34.98 | 45.07 | 30.58 | 46.27 |
表6:Raon-SpeechChat在FDB v1.0, v1.5, v2.0上的结果
| Benchmark Slice | Models | Scenario / Task | Metric | Raon-SpeechChat | Moshi | Freeze-Omni | PersonaPlex | MiniCPM-o 4.5 |
|---|---|---|---|---|---|---|---|---|
| FDB v1.0 | Pause Handling | Synthetic TOR (↓) | 0.212 | 0.299 | 0.620 | 0.212 | 0.182 |
| | | Backchannel | TOR (↓) | 0.091 | 0.309 | 0.564 | 0.236 | 0.418 |
| | | Smooth Turn-Taking | TOR (↑) | 0.832 | 0.437 | 0.252 | 0.782 | 0.891 |
| | | User Interruption | Judge (↑) | 2.790 | 2.908 | 2.830 | 2.943 | 3.408 |
| FDB v1.5 | | User Backchannel | Resume (↑) | 0.398 | 0.092 | 0.480 | 0.418 | 0.520 |
| | | Background Speech | Resume (↑) | 0.230 | 0.100 | 0.100 | 0.160 | 0.260 |
| | | Talking to Others | Resume (↑) | 0.150 | 0.210 | 0.150 | 0.120 | 0.130 |
| | | User Interruption | Respond (↑) | 0.725 | 0.560 | 0.810 | 0.710 | 0.660 |
| FDB v2.0 | | Multi-Turn Session | TT Fluency (↑) | 3.552 | 3.274 | 3.176 | 3.706 | 3.984 |
结论:Raon-Speech在英语的语音理解(MMAU, MMAU-Pro)和语音问答(VoiceBench平均分)上取得最佳,同时保持了强大的文本问答能力(MMLU-Pro, MMLU-Redux最佳)。在韩语上,优势更为全面和显著,在所有ASR、语音生成、语音问答、语音理解和文本问答基准上均取得最佳。Raon-SpeechChat在FDB v1.0的转接行为(如中断处理TOR、回溯频率)上表现突出,在FDB v1.5的重叠语音场景中具有竞争力(但用户回溯Resume率并非最优),但在FDB v2.0的多轮对话场景中,其各项指标(TT Fluency, IF, Task Metric)均落后于PersonaPlex和MiniCPM-o 4.5。


🔬 细节详述
- 数据:训练数据总量1.38M小时,来自英语和韩语。包括音频-文本配对、仅音频、仅文本数据。数据处理流程包括归一化、过滤(基于STT错误率、强制对齐、感知质量评分)、重新标记和重平衡。全双工数据包含13.21K小时真实对话和106.33K小时合成对话,合成数据生成涉及LLM对话生成、TTS合成、说话人分离、词级对齐和过滤。
- 训练:Raon-Speech三阶段训练:(1) 模块对齐(冻结LLM),分别对理解模块和生成模块进行对齐训练;(2) 端到端预训练,使用交叉熵损失和知识蒸馏(KL散度)损失的加权和,权重相等。蒸馏使用两个教师:对音频输入使用自蒸馏(教师为模型自身处理文本转录),对文本输入使用预训练前的骨干LLM;(3) 后训练,结合SFT和SimPO偏好优化。Raon-SpeechChat在Raon-Speech基础上进行因果编码器适应、全双工预训练(混入10%原始数据以防遗忘,使用PAD/SIL损失权重)和两阶段全双工微调(第二阶段将
BOW替换为BC用于回溯,损失权重提高50倍)。 - 评估:新建的韩语基准(KVoiceBench等)是通过将英语基准翻译、规范化为语音友好文本并合成语音构建的。全双工评估使用了内部评估器,其与FDB官方脚本在暂停处理阈值(1.5秒/5词 vs 1.0秒/3词)、锚点细化、延迟裁剪和评判模型(GPT-5.2)上存在差异。
- 消融研究:论文没有提供任何关键组件(如知识蒸馏、状态建模
SIL/BOW/BC、文本前瞻、RCP初始化等)的消融实验。
⚖️ 评分理由
- 创新性 (1.5/3):将LLM转化为双语SpeechLM的框架和训练流程较为系统,但在架构上并非革命性创新(延续了编码器-适配器-解码器范式)。全双工模型通过状态建模分离“何时说”与“说什么”是明确的设计贡献,但缺乏验证其有效性的消融实验,使得创新性证据不足。
- 技术严谨性 (0.5/1.5):技术细节描述较为完整,但关键环节的细节缺失或模糊:(1) 知识蒸馏中两种教师模型的权重、蒸馏温度未说明;(2) RCP从大模型初始化的迁移效果未分析;(3) 重要预处理步骤(如过滤阈值、重新标记方法)的细节推迟到附录或未说明;(4) 基线模型(8个)的选择标准未明确;(5) 韩语新基准构建过程(翻译、合成)可能引入偏置,缺乏论证;(6) 全双工评估使用非官方评估器,其差异虽在附录说明,但可能影响结果可比性。
- 实验充分性 (0.8/1.5):实验范围广(42个基准),包含英语和韩语多任务。但存在不足:(1) 缺失关键消融实验,无法判断各项技术的实际贡献;(2) 基线对比选择可能存在偏见;(3) 自建基准的可靠性需更多验证;(4) 全双工模型在长程多轮对话(FDB v2.0)上非最优,失败案例分析缺失。
- 清晰度 (0.7/1):论文结构清晰,图表有效。但部分技术细节(如蒸馏配置、合成数据生成参数)表述不够清晰或集中,需要参考附录。方法概述部分在正文中相对简洁。
- 影响力 (1.5/2):在双语,尤其是韩语语音模型方面做出了贡献,并提供了新的韩语基准。开源承诺(尽管链接缺失)有助于社区。但作为技术报告,其影响力可能局限于工业应用和特定语言对的研究者。
- 开源 (1.0/1.5):论文声称开源所有模型检查点、训练推理管道和交互演示,并提供了三个韩语数据集的HuggingFace链接。但正文中未提及代码仓库、模型权重下载页或演示的具体链接,降低了开源信息的可查性和完整性。
- 可复现性 (0.5/0.5):提供了详细的架构配置(表7、8)、训练超参数(表2)、数据处理流程。但如上所述,部分训练细节和评估设置的差异说明,完全复现结果可能存在难度。开源材料的具体缺失也影响可复现性。
🚨 局限与问题
- 关键消融实验缺失:这是最大的方法论缺陷。知识蒸馏(特别是双教师策略)的贡献、全双工模型中状态建模(
SIL/BOW/BC)和文本前瞻的有效性、RCP从大模型初始化的益处均未经消融验证,难以评估各项设计的必要性和权重。 - 实验设计的严谨性问题:
- 基线选择不透明:未说明选择这8个特定基线模型的标准。这影响了“最强整体表现”宣称的客观性。
- 自建基准的偏置风险:三个韩语新基准均由英语基准翻译合成而来,可能无法完全代表真实的韩语语音场景和文化背景,其有效性和公平性需要更严格的论证。
- 评估可比性存疑:全双工评估使用了与FDB官方不同的内部评估器(暂停处理阈值、评判模型GPT-5.2等不同),这可能导致报告的分数与使用官方脚本的结果不可直接比较,影响复现和对比。
- 技术细节披露不足:
- 预训练阶段知识蒸馏的具体配置(如两种教师的损失权重比例、温度)未说明。
- RCP从
Qwen3-Omni-30B初始化的迁移学习效果和影响未进行分析。 - 核心数据预处理步骤(如过滤的具体阈值、重新标记的具体方法)在正文中过于简略,关键细节推迟至附录或未说明。
- 结论部分过强:声称“最强的整体表现”,但未明确指出是在何种限定条件下(如对比基线集合)成立。在更广泛的模型对比中(例如包含更新或更大模型),此结论可能不成立。
- 模型实际能力边界模糊:论文未充分讨论或分析模型的失败案例,特别是在复杂、非结构化的真实对话场景中(这在FDB v2.0的结果中已初现端倪)。