📄 Raon-Speech Technical Report

#语音合成 #语音识别 #知识蒸馏 #多模态模型 #数据增强

学术质量 3.5/7 | 影响力 1.5/2 | 可复现性 1.5/2 | 置信度高

👥 作者与机构

核心贡献者来自KRAFTON。论文作者列表按角色划分，核心贡献者包括：建模（Ethan Ewer等）、数据（Beomsoo Kim等）、评估（Haechan Kim等）、服务与工程（Hyeonghwan Kim等）、基础设施（Jiyun Kim等）。项目负责人为Kangwook Lee和Jaewoong Cho。致谢部分还提到了多位提供支持的个人。

💡 毒舌点评

这是一份扎实但缺乏惊喜的工业级技术报告。模型在韩语上的性能提升确实显著，但论文在论证“最强整体表现”时，巧妙地选择了对自家有利的8个基线模型，并在多轮对话（FDB v2.0）上露出了短板。所谓“开源一切”的承诺，在正文中连代码仓库和模型权重的具体链接都找不到，实在不够诚恳。全双工模型设计了不少“状态建模”技巧，却没有任何消融实验来证明其有效性，这让贡献打了折扣。整体来看，它更像一份详尽的模型发布说明书，而非一篇经得起严格推敲的学术论文，顶会门槛确实还没到。

📌 核心摘要

本文介绍了Raon-Speech，一个针对英语和韩语优化的9B参数语音语言模型，以及其全双工对话扩展Raon-SpeechChat。Raon-Speech通过三阶段训练（对齐、端到端预训练+知识蒸馏、偏好优化后训练）将预训练LLM转化为兼具语音理解和生成能力的模型，并在42个基准测试中展示了其在语音相关任务上的优越性能，尤其是在韩语任务上。Raon-SpeechChat引入了因果编码器、交错的文本-语音序列和交互状态建模（SIL, BOW, BC），以支持实时对话。该模型在FDB v1.0的转接行为上表现出色，但在更复杂的多轮对话场景（FDB v2.0）中并非最优。论文声称开源了模型、代码和演示，但未提供具体链接。

🔗 开源详情

代码：论文中未提及具体的代码仓库链接（如GitHub地址）。
模型权重：论文中未提及具体的模型权重下载链接（如HuggingFace/ModelScope页面）。
数据集：
1. KVoiceBench: https://huggingface.co/datasets/KRAFTON/KVoiceBench
2. KOpenAudioBench: https://huggingface.co/datasets/KRAFTON/KOpenAudioBench
3. KMMAU: https://huggingface.co/datasets/KRAFTON/KMMAU
Demo：论文中未提及在线交互式演示的具体链接。
复现材料：论文未提供独立的复现材料包。论文详细说明了模型架构（附录B、C）、训练流程与超参数（表2、第3节）、数据处理流程（第4节、附录D），这些信息构成了复现所需的核心材料，但部分细节仍需参考附录。
论文中引用的开源项目：
- 骨干LLM: Qwen3-VL-8B-Instruct
- 语音编码器（理解对齐）: AuT模型
- 语音编解码器: Mimi
- 说话人编码器: speechbrain/spkrec-ecapa-voxceleb
- 因果语音编码器（全双工）: Voxtral-Mini-4B-Realtime-2602
- RCP初始化: Qwen3-Omni-30B-A3B-Instruct
- TTS: Qwen3-TTS
- ASR: Whisper, 内部基于Zipformer的ASR模型
- 偏好优化方法: SimPO
- 全双工基准测试: Full-Duplex-Bench (FDB) v1.0, v1.5, v2.0
- 全双工对话模型基线: Moshi, Freeze-Omni, PersonaPlex, OmniFlatten

🏗️ 方法概述和架构

Raon-Speech的核心是将预训练LLM（Qwen3-VL-8B-Instruct）作为骨干，通过添加模块扩展其语音能力。架构分为理解与生成两侧。理解侧：输入语音经由一个预训练的非因果语音编码器（AuT）提取特征（12.5Hz），再通过一个随机初始化的2层MLP输入适配器投影至LLM嵌入空间。适配器后使用缩放为0.02的RMSNorm以稳定对齐。处理后的语音嵌入与文本嵌入拼接后送入LLM。生成侧：使用Mimi编解码器（保留前16个残差码本）。生成过程是自回归的：上一帧的编解码器嵌入经输出适配器映射至LLM输入空间，LLM的隐藏状态被一个4层解码器-仅Transformer语音生成专家（SGE）用于预测语义token（第一层码本）。随后，一个15层的残差码本预测器（RCP，初始化自Qwen3-Omni-30B-A3B-Instruct）自回归地预测剩余15层的声学token。最终所有层的token反量化、求和得到编解码器嵌入，输入编解码器解码器合成语音，并反馈至输出适配器用于下一帧生成。说话人控制：通过一个预训练的说话人编码器（speechbrain/spkrec-ecapa-voxceleb）从目标语音中提取2-8秒的片段，其嵌入被插入LLM输入序列以条件化生成语音的说话人身份。

Raon-SpeechChat的扩展引入了三个关键修改：1. 因果语音编码器：将非因果的AuT替换为专为流式设计的因果编码器（Voxtral-Mini-4B-Realtime-2602），使用因果注意力和滑动窗口注意力支持流式处理。2. 交错序列设计：训练单一自回归序列，交错用户语音、助手文本和助手语音。助手文本与助手语音在词级对齐，当文本token数少于语音token数时填充PAD。这使得识别、规划和语音生成在同一框架内进行。3. 交互状态建模：引入SIL（静默）token明确建模聆听状态。引入BOW（词始）token，作为每个助手文本token前的标记，将“何时说”与“说什么”解耦。引入BC（回溯）token，专门用于区分简短的附和回应，便于独立控制。文本前瞻：在生成助手语音时，文本生成领先于语音一帧，以减少语义漂移，提供更稳定的文本目标。

💡 核心创新点

提出了一个高效的9B参数双语（英/韩）语音语言模型训练框架，通过三阶段训练将LLM转化为SpeechLM。
贡献了三个针对韩语语音理解、生成和问答的新基准测试集：KVoiceBench、KOpenAudioBench和KMMAU。
通过引入因果编码器、交错序列和细粒度的状态建模（SIL, BOW, BC）以及文本前瞻，改进了全双工交互模型Raon-SpeechChat的自然性和可控性。
声称开源了所有模型检查点、训练推理管道和交互式演示（但正文未提供具体链接）。

📊 实验结果

论文在42个英语和韩语基准上评估了Raon-Speech，并在FDB v1.0, v1.5, v2.0上评估了Raon-SpeechChat。与8个同等规模（约9B参数）的基线模型对比，主要结果如下：

表4：英语基准结果

Benchmark	Raon-Speech	Qwen2.5-Omni	Kimi-Audio	Audio Flamingo 3	Step-Audio 2 mini	InteractiveOmni	Fun-Audio-Chat	HyperCLOVA X 8B Omni	MiniCPM-o 4.5
ASR (WER ↓)
LibriSpeech-c	1.44	1.73	1.38	1.40	4.88	2.28	1.60	2.28	1.51
LibriSpeech-o	2.89	3.88	2.70	2.97	6.82	4.67	3.89	5.03	3.56
Fleurs-en	3.59	4.05	4.54	4.54	13.02	4.89	7.61	5.57	3.52
Speech Generation (WER ↓	UTMOS ↑)
LibriSpeech-c	2.01 \| 3.26	2.30 \| 3.55	–	–	3.01 \| 3.83	3.11 \| 3.68	72.52 \| 3.33	7.31 \| 3.23	11.08 \| 3.37
Seed	1.93 \| 3.20	3.54 \| 3.56	–	–	3.49 \| 3.85	2.70 \| 3.69	22.26 \| 3.38	3.42 \| 3.29	4.72 \| 3.06
Spoken QA ↑
VoiceBench	76.79	66.71	68.92	41.60	50.26	62.41	73.64	48.70	76.06
OpenAudioBench	70.21	66.73	68.23	38.88	59.63	66.68	72.39	57.44	74.82
Speech Understanding (Accuracy ↑)
MMAU (Speech)	78.68	77.18	66.37	68.77	68.47	66.07	71.47	53.15	72.67
MMAU-Pro (Speech)	64.65	62.74	54.77	52.41	59.60	44.11	64.53	40.52	59.48
Text QA (Accuracy ↑)
MMLU-Pro	64.05	50.40	16.66	2.52	34.95	31.38	61.12	53.79	55.20
MMLU-Redux	78.87	68.03	44.27	0.90	51.73	36.03	74.70	71.83	72.53

表5：韩语基准结果

Benchmark	Raon-Speech	Qwen2.5-Omni	Audio Flamingo 3	Step-Audio 2 mini	InteractiveOmni	Fun-Audio-Chat	HyperCLOVA X 8B Omni	MiniCPM-o 4.5
ASR (CER ↓)
KSponSpeech-c	6.56	18.96	134.12	55.84	461.87	646.25	10.22	205.35
KSponSpeech-o	6.96	22.72	136.50	59.43	428.83	514.82	10.15	202.14
Fleurs-ko	1.81	3.24	71.85	45.72	159.10	36.44	3.70	168.14
Speech Generation (CER ↓	UTMOS ↑)
KSponSpeech-c	4.89 \| 2.36	121 \| 2.82	–	28.13 \| 3.27	98.93 \| 3.10	112.06 \| 2.95	16.7 \| 2.71	111.02 \| 2.77
MiniMax-ko	1.57 \| 2.88	121 \| 2.92	–	23.35 \| 3.54	99.88 \| 3.12	70.60 \| 3.00	2.64 \| 3.24	103.69 \| 2.71
CV3-Eval-ko	3.90 \| 2.64	118 \| 2.96	–	35.33 \| 3.46	96.12 \| 3.20	85.72 \| 2.97	4.52 \| 3.29	117.46 \| 2.68
Spoken QA ↑
KVoiceBench	66.62	49.04	18.82	32.03	19.96	50.12	45.11	39.47
KOpenAudioBench	52.10	39.23	12.60	31.00	11.45	43.05	45.09	35.66
Speech Understanding (Accuracy ↑)
KMMAU	71.83	62.85	44.46	63.02	30.56	67.37	30.99	62.39
Text QA (Accuracy ↑)
KMMLU-Pro	46.85	32.49	0.43	38.38	36.43	43.23	19.06	41.57
KMMLU-Redux	51.80	30.54	0.27	35.41	34.98	45.07	30.58	46.27

表6：Raon-SpeechChat在FDB v1.0, v1.5, v2.0上的结果

Benchmark Slice	Models	Scenario / Task	Metric	Raon-SpeechChat	Moshi	Freeze-Omni	PersonaPlex	MiniCPM-o 4.5
FDB v1.0		Pause Handling	Synthetic TOR (↓)	0.212	0.299	0.620	0.212	0.182

| | | Backchannel | TOR (↓) | 0.091 | 0.309 | 0.564 | 0.236 | 0.418 |

| | | Smooth Turn-Taking | TOR (↑) | 0.832 | 0.437 | 0.252 | 0.782 | 0.891 |

| | | User Interruption | Judge (↑) | 2.790 | 2.908 | 2.830 | 2.943 | 3.408 |

| FDB v1.5 | | User Backchannel | Resume (↑) | 0.398 | 0.092 | 0.480 | 0.418 | 0.520 |

| | | Background Speech | Resume (↑) | 0.230 | 0.100 | 0.100 | 0.160 | 0.260 |

| | | Talking to Others | Resume (↑) | 0.150 | 0.210 | 0.150 | 0.120 | 0.130 |

| | | User Interruption | Respond (↑) | 0.725 | 0.560 | 0.810 | 0.710 | 0.660 |

| FDB v2.0 | | Multi-Turn Session | TT Fluency (↑) | 3.552 | 3.274 | 3.176 | 3.706 | 3.984 |

结论：Raon-Speech在英语的语音理解（MMAU, MMAU-Pro）和语音问答（VoiceBench平均分）上取得最佳，同时保持了强大的文本问答能力（MMLU-Pro, MMLU-Redux最佳）。在韩语上，优势更为全面和显著，在所有ASR、语音生成、语音问答、语音理解和文本问答基准上均取得最佳。Raon-SpeechChat在FDB v1.0的转接行为（如中断处理TOR、回溯频率）上表现突出，在FDB v1.5的重叠语音场景中具有竞争力（但用户回溯Resume率并非最优），但在FDB v2.0的多轮对话场景中，其各项指标（TT Fluency, IF, Task Metric）均落后于PersonaPlex和MiniCPM-o 4.5。

🔬 细节详述

数据：训练数据总量1.38M小时，来自英语和韩语。包括音频-文本配对、仅音频、仅文本数据。数据处理流程包括归一化、过滤（基于STT错误率、强制对齐、感知质量评分）、重新标记和重平衡。全双工数据包含13.21K小时真实对话和106.33K小时合成对话，合成数据生成涉及LLM对话生成、TTS合成、说话人分离、词级对齐和过滤。
训练：Raon-Speech三阶段训练：(1) 模块对齐（冻结LLM），分别对理解模块和生成模块进行对齐训练；(2) 端到端预训练，使用交叉熵损失和知识蒸馏（KL散度）损失的加权和，权重相等。蒸馏使用两个教师：对音频输入使用自蒸馏（教师为模型自身处理文本转录），对文本输入使用预训练前的骨干LLM；(3) 后训练，结合SFT和SimPO偏好优化。Raon-SpeechChat在Raon-Speech基础上进行因果编码器适应、全双工预训练（混入10%原始数据以防遗忘，使用PAD/SIL损失权重）和两阶段全双工微调（第二阶段将BOW替换为BC用于回溯，损失权重提高50倍）。
评估：新建的韩语基准（KVoiceBench等）是通过将英语基准翻译、规范化为语音友好文本并合成语音构建的。全双工评估使用了内部评估器，其与FDB官方脚本在暂停处理阈值（1.5秒/5词 vs 1.0秒/3词）、锚点细化、延迟裁剪和评判模型（GPT-5.2）上存在差异。
消融研究：论文没有提供任何关键组件（如知识蒸馏、状态建模SIL/BOW/BC、文本前瞻、RCP初始化等）的消融实验。

⚖️ 评分理由

创新性 (1.5/3)：将LLM转化为双语SpeechLM的框架和训练流程较为系统，但在架构上并非革命性创新（延续了编码器-适配器-解码器范式）。全双工模型通过状态建模分离“何时说”与“说什么”是明确的设计贡献，但缺乏验证其有效性的消融实验，使得创新性证据不足。
技术严谨性 (0.5/1.5)：技术细节描述较为完整，但关键环节的细节缺失或模糊：(1) 知识蒸馏中两种教师模型的权重、蒸馏温度未说明；(2) RCP从大模型初始化的迁移效果未分析；(3) 重要预处理步骤（如过滤阈值、重新标记方法）的细节推迟到附录或未说明；(4) 基线模型（8个）的选择标准未明确；(5) 韩语新基准构建过程（翻译、合成）可能引入偏置，缺乏论证；(6) 全双工评估使用非官方评估器，其差异虽在附录说明，但可能影响结果可比性。
实验充分性 (0.8/1.5)：实验范围广（42个基准），包含英语和韩语多任务。但存在不足：(1) 缺失关键消融实验，无法判断各项技术的实际贡献；(2) 基线对比选择可能存在偏见；(3) 自建基准的可靠性需更多验证；(4) 全双工模型在长程多轮对话（FDB v2.0）上非最优，失败案例分析缺失。
清晰度 (0.7/1)：论文结构清晰，图表有效。但部分技术细节（如蒸馏配置、合成数据生成参数）表述不够清晰或集中，需要参考附录。方法概述部分在正文中相对简洁。
影响力 (1.5/2)：在双语，尤其是韩语语音模型方面做出了贡献，并提供了新的韩语基准。开源承诺（尽管链接缺失）有助于社区。但作为技术报告，其影响力可能局限于工业应用和特定语言对的研究者。
开源 (1.0/1.5)：论文声称开源所有模型检查点、训练推理管道和交互演示，并提供了三个韩语数据集的HuggingFace链接。但正文中未提及代码仓库、模型权重下载页或演示的具体链接，降低了开源信息的可查性和完整性。
可复现性 (0.5/0.5)：提供了详细的架构配置（表7、8）、训练超参数（表2）、数据处理流程。但如上所述，部分训练细节和评估设置的差异说明，完全复现结果可能存在难度。开源材料的具体缺失也影响可复现性。

🚨 局限与问题

关键消融实验缺失：这是最大的方法论缺陷。知识蒸馏（特别是双教师策略）的贡献、全双工模型中状态建模（SIL/BOW/BC）和文本前瞻的有效性、RCP从大模型初始化的益处均未经消融验证，难以评估各项设计的必要性和权重。
实验设计的严谨性问题：
- 基线选择不透明：未说明选择这8个特定基线模型的标准。这影响了“最强整体表现”宣称的客观性。
- 自建基准的偏置风险：三个韩语新基准均由英语基准翻译合成而来，可能无法完全代表真实的韩语语音场景和文化背景，其有效性和公平性需要更严格的论证。
- 评估可比性存疑：全双工评估使用了与FDB官方不同的内部评估器（暂停处理阈值、评判模型GPT-5.2等不同），这可能导致报告的分数与使用官方脚本的结果不可直接比较，影响复现和对比。
技术细节披露不足：
- 预训练阶段知识蒸馏的具体配置（如两种教师的损失权重比例、温度）未说明。
- RCP从Qwen3-Omni-30B初始化的迁移学习效果和影响未进行分析。
- 核心数据预处理步骤（如过滤的具体阈值、重新标记的具体方法）在正文中过于简略，关键细节推迟至附录或未说明。
结论部分过强：声称“最强的整体表现”，但未明确指出是在何种限定条件下（如对比基线集合）成立。在更广泛的模型对比中（例如包含更新或更大模型），此结论可能不成立。
模型实际能力边界模糊：论文未充分讨论或分析模型的失败案例，特别是在复杂、非结构化的真实对话场景中（这在FDB v2.0的结果中已初现端倪）。

← 返回 2026-05-30 语音/音乐/音频论文速递

📄 Raon-Speech Technical Report#

👥 作者与机构#

💡 毒舌点评#

📌 核心摘要#

🔗 开源详情#

🏗️ 方法概述和架构#

💡 核心创新点#

📊 实验结果#

🔬 细节详述#

⚖️ 评分理由#

🚨 局限与问题#

📎 相关论文