📄 Raon-Speech Technical Report

#语音合成 #语音识别 #知识蒸馏 #多模态模型 #数据增强

6.5/10 | 前25% | #语音识别 | #知识蒸馏 | #语音合成 #多模态模型 | arxiv

学术质量 3.5/7 | 影响力 1.5/2 | 可复现性 1.5/2 | 置信度 高

👥 作者与机构

核心贡献者来自KRAFTON。论文作者列表按角色划分,核心贡献者包括:建模(Ethan Ewer等)、数据(Beomsoo Kim等)、评估(Haechan Kim等)、服务与工程(Hyeonghwan Kim等)、基础设施(Jiyun Kim等)。项目负责人为Kangwook Lee和Jaewoong Cho。致谢部分还提到了多位提供支持的个人。

💡 毒舌点评

这是一份扎实但缺乏惊喜的工业级技术报告。模型在韩语上的性能提升确实显著,但论文在论证“最强整体表现”时,巧妙地选择了对自家有利的8个基线模型,并在多轮对话(FDB v2.0)上露出了短板。所谓“开源一切”的承诺,在正文中连代码仓库和模型权重的具体链接都找不到,实在不够诚恳。全双工模型设计了不少“状态建模”技巧,却没有任何消融实验来证明其有效性,这让贡献打了折扣。整体来看,它更像一份详尽的模型发布说明书,而非一篇经得起严格推敲的学术论文,顶会门槛确实还没到。

📌 核心摘要

本文介绍了Raon-Speech,一个针对英语和韩语优化的9B参数语音语言模型,以及其全双工对话扩展Raon-SpeechChat。Raon-Speech通过三阶段训练(对齐、端到端预训练+知识蒸馏、偏好优化后训练)将预训练LLM转化为兼具语音理解和生成能力的模型,并在42个基准测试中展示了其在语音相关任务上的优越性能,尤其是在韩语任务上。Raon-SpeechChat引入了因果编码器、交错的文本-语音序列和交互状态建模(SIL, BOW, BC),以支持实时对话。该模型在FDB v1.0的转接行为上表现出色,但在更复杂的多轮对话场景(FDB v2.0)中并非最优。论文声称开源了模型、代码和演示,但未提供具体链接。

🔗 开源详情

  • 代码:论文中未提及具体的代码仓库链接(如GitHub地址)。
  • 模型权重:论文中未提及具体的模型权重下载链接(如HuggingFace/ModelScope页面)。
  • 数据集:
    1. KVoiceBench: https://huggingface.co/datasets/KRAFTON/KVoiceBench
    2. KOpenAudioBench: https://huggingface.co/datasets/KRAFTON/KOpenAudioBench
    3. KMMAU: https://huggingface.co/datasets/KRAFTON/KMMAU
  • Demo:论文中未提及在线交互式演示的具体链接。
  • 复现材料:论文未提供独立的复现材料包。论文详细说明了模型架构(附录B、C)、训练流程与超参数(表2、第3节)、数据处理流程(第4节、附录D),这些信息构成了复现所需的核心材料,但部分细节仍需参考附录。
  • 论文中引用的开源项目:
    • 骨干LLM: Qwen3-VL-8B-Instruct
    • 语音编码器(理解对齐): AuT模型
    • 语音编解码器: Mimi
    • 说话人编码器: speechbrain/spkrec-ecapa-voxceleb
    • 因果语音编码器(全双工): Voxtral-Mini-4B-Realtime-2602
    • RCP初始化: Qwen3-Omni-30B-A3B-Instruct
    • TTS: Qwen3-TTS
    • ASR: Whisper, 内部基于Zipformer的ASR模型
    • 偏好优化方法: SimPO
    • 全双工基准测试: Full-Duplex-Bench (FDB) v1.0, v1.5, v2.0
    • 全双工对话模型基线: Moshi, Freeze-Omni, PersonaPlex, OmniFlatten

🏗️ 方法概述和架构

Raon-Speech的核心是将预训练LLM(Qwen3-VL-8B-Instruct)作为骨干,通过添加模块扩展其语音能力。架构分为理解与生成两侧。理解侧:输入语音经由一个预训练的非因果语音编码器(AuT)提取特征(12.5Hz),再通过一个随机初始化的2层MLP输入适配器投影至LLM嵌入空间。适配器后使用缩放为0.02的RMSNorm以稳定对齐。处理后的语音嵌入与文本嵌入拼接后送入LLM。生成侧:使用Mimi编解码器(保留前16个残差码本)。生成过程是自回归的:上一帧的编解码器嵌入经输出适配器映射至LLM输入空间,LLM的隐藏状态被一个4层解码器-仅Transformer语音生成专家(SGE)用于预测语义token(第一层码本)。随后,一个15层的残差码本预测器(RCP,初始化自Qwen3-Omni-30B-A3B-Instruct)自回归地预测剩余15层的声学token。最终所有层的token反量化、求和得到编解码器嵌入,输入编解码器解码器合成语音,并反馈至输出适配器用于下一帧生成。说话人控制:通过一个预训练的说话人编码器(speechbrain/spkrec-ecapa-voxceleb)从目标语音中提取2-8秒的片段,其嵌入被插入LLM输入序列以条件化生成语音的说话人身份。

Raon-SpeechChat的扩展引入了三个关键修改:1. 因果语音编码器:将非因果的AuT替换为专为流式设计的因果编码器(Voxtral-Mini-4B-Realtime-2602),使用因果注意力和滑动窗口注意力支持流式处理。2. 交错序列设计:训练单一自回归序列,交错用户语音、助手文本和助手语音。助手文本与助手语音在词级对齐,当文本token数少于语音token数时填充PAD。这使得识别、规划和语音生成在同一框架内进行。3. 交互状态建模:引入SIL(静默)token明确建模聆听状态。引入BOW(词始)token,作为每个助手文本token前的标记,将“何时说”与“说什么”解耦。引入BC(回溯)token,专门用于区分简短的附和回应,便于独立控制。文本前瞻:在生成助手语音时,文本生成领先于语音一帧,以减少语义漂移,提供更稳定的文本目标。

图1

图2

💡 核心创新点

  1. 提出了一个高效的9B参数双语(英/韩)语音语言模型训练框架,通过三阶段训练将LLM转化为SpeechLM。
  2. 贡献了三个针对韩语语音理解、生成和问答的新基准测试集:KVoiceBenchKOpenAudioBenchKMMAU
  3. 通过引入因果编码器、交错序列和细粒度的状态建模(SIL, BOW, BC)以及文本前瞻,改进了全双工交互模型Raon-SpeechChat的自然性和可控性。
  4. 声称开源了所有模型检查点、训练推理管道和交互式演示(但正文未提供具体链接)。

📊 实验结果

论文在42个英语和韩语基准上评估了Raon-Speech,并在FDB v1.0, v1.5, v2.0上评估了Raon-SpeechChat。与8个同等规模(约9B参数)的基线模型对比,主要结果如下:

表4:英语基准结果

BenchmarkRaon-SpeechQwen2.5-OmniKimi-AudioAudio Flamingo 3Step-Audio 2 miniInteractiveOmniFun-Audio-ChatHyperCLOVA X 8B OmniMiniCPM-o 4.5
ASR (WER ↓)
LibriSpeech-c1.441.731.381.404.882.281.602.281.51
LibriSpeech-o2.893.882.702.976.824.673.895.033.56
Fleurs-en3.594.054.544.5413.024.897.615.573.52
Speech Generation (WER ↓UTMOS ↑)
LibriSpeech-c2.01 | 3.262.30 | 3.553.01 | 3.833.11 | 3.6872.52 | 3.337.31 | 3.2311.08 | 3.37
Seed1.93 | 3.203.54 | 3.563.49 | 3.852.70 | 3.6922.26 | 3.383.42 | 3.294.72 | 3.06
Spoken QA ↑
VoiceBench76.7966.7168.9241.6050.2662.4173.6448.7076.06
OpenAudioBench70.2166.7368.2338.8859.6366.6872.3957.4474.82
Speech Understanding (Accuracy ↑)
MMAU (Speech)78.6877.1866.3768.7768.4766.0771.4753.1572.67
MMAU-Pro (Speech)64.6562.7454.7752.4159.6044.1164.5340.5259.48
Text QA (Accuracy ↑)
MMLU-Pro64.0550.4016.662.5234.9531.3861.1253.7955.20
MMLU-Redux78.8768.0344.270.9051.7336.0374.7071.8372.53

表5:韩语基准结果

BenchmarkRaon-SpeechQwen2.5-OmniAudio Flamingo 3Step-Audio 2 miniInteractiveOmniFun-Audio-ChatHyperCLOVA X 8B OmniMiniCPM-o 4.5
ASR (CER ↓)
KSponSpeech-c6.5618.96134.1255.84461.87646.2510.22205.35
KSponSpeech-o6.9622.72136.5059.43428.83514.8210.15202.14
Fleurs-ko1.813.2471.8545.72159.1036.443.70168.14
Speech Generation (CER ↓UTMOS ↑)
KSponSpeech-c4.89 | 2.36121 | 2.8228.13 | 3.2798.93 | 3.10112.06 | 2.9516.7 | 2.71111.02 | 2.77
MiniMax-ko1.57 | 2.88121 | 2.9223.35 | 3.5499.88 | 3.1270.60 | 3.002.64 | 3.24103.69 | 2.71
CV3-Eval-ko3.90 | 2.64118 | 2.9635.33 | 3.4696.12 | 3.2085.72 | 2.974.52 | 3.29117.46 | 2.68
Spoken QA ↑
KVoiceBench66.6249.0418.8232.0319.9650.1245.1139.47
KOpenAudioBench52.1039.2312.6031.0011.4543.0545.0935.66
Speech Understanding (Accuracy ↑)
KMMAU71.8362.8544.4663.0230.5667.3730.9962.39
Text QA (Accuracy ↑)
KMMLU-Pro46.8532.490.4338.3836.4343.2319.0641.57
KMMLU-Redux51.8030.540.2735.4134.9845.0730.5846.27

表6:Raon-SpeechChat在FDB v1.0, v1.5, v2.0上的结果

Benchmark SliceModelsScenario / TaskMetricRaon-SpeechChatMoshiFreeze-OmniPersonaPlexMiniCPM-o 4.5
FDB v1.0Pause HandlingSynthetic TOR (↓)0.2120.2990.6200.2120.182

| | | Backchannel | TOR (↓) | 0.091 | 0.309 | 0.564 | 0.236 | 0.418 |

| | | Smooth Turn-Taking | TOR (↑) | 0.832 | 0.437 | 0.252 | 0.782 | 0.891 |

| | | User Interruption | Judge (↑) | 2.790 | 2.908 | 2.830 | 2.943 | 3.408 |

| FDB v1.5 | | User Backchannel | Resume (↑) | 0.398 | 0.092 | 0.480 | 0.418 | 0.520 |

| | | Background Speech | Resume (↑) | 0.230 | 0.100 | 0.100 | 0.160 | 0.260 |

| | | Talking to Others | Resume (↑) | 0.150 | 0.210 | 0.150 | 0.120 | 0.130 |

| | | User Interruption | Respond (↑) | 0.725 | 0.560 | 0.810 | 0.710 | 0.660 |

| FDB v2.0 | | Multi-Turn Session | TT Fluency (↑) | 3.552 | 3.274 | 3.176 | 3.706 | 3.984 |

结论:Raon-Speech在英语的语音理解(MMAU, MMAU-Pro)和语音问答(VoiceBench平均分)上取得最佳,同时保持了强大的文本问答能力(MMLU-Pro, MMLU-Redux最佳)。在韩语上,优势更为全面和显著,在所有ASR、语音生成、语音问答、语音理解和文本问答基准上均取得最佳。Raon-SpeechChat在FDB v1.0的转接行为(如中断处理TOR、回溯频率)上表现突出,在FDB v1.5的重叠语音场景中具有竞争力(但用户回溯Resume率并非最优),但在FDB v2.0的多轮对话场景中,其各项指标(TT Fluency, IF, Task Metric)均落后于PersonaPlex和MiniCPM-o 4.5。

图3

图4

🔬 细节详述

  1. 数据:训练数据总量1.38M小时,来自英语和韩语。包括音频-文本配对、仅音频、仅文本数据。数据处理流程包括归一化、过滤(基于STT错误率、强制对齐、感知质量评分)、重新标记和重平衡。全双工数据包含13.21K小时真实对话和106.33K小时合成对话,合成数据生成涉及LLM对话生成、TTS合成、说话人分离、词级对齐和过滤。
  2. 训练:Raon-Speech三阶段训练:(1) 模块对齐(冻结LLM),分别对理解模块和生成模块进行对齐训练;(2) 端到端预训练,使用交叉熵损失和知识蒸馏(KL散度)损失的加权和,权重相等。蒸馏使用两个教师:对音频输入使用自蒸馏(教师为模型自身处理文本转录),对文本输入使用预训练前的骨干LLM;(3) 后训练,结合SFT和SimPO偏好优化。Raon-SpeechChat在Raon-Speech基础上进行因果编码器适应、全双工预训练(混入10%原始数据以防遗忘,使用PAD/SIL损失权重)和两阶段全双工微调(第二阶段将BOW替换为BC用于回溯,损失权重提高50倍)。
  3. 评估:新建的韩语基准(KVoiceBench等)是通过将英语基准翻译、规范化为语音友好文本并合成语音构建的。全双工评估使用了内部评估器,其与FDB官方脚本在暂停处理阈值(1.5秒/5词 vs 1.0秒/3词)、锚点细化、延迟裁剪和评判模型(GPT-5.2)上存在差异。
  4. 消融研究:论文没有提供任何关键组件(如知识蒸馏、状态建模SIL/BOW/BC、文本前瞻、RCP初始化等)的消融实验。

⚖️ 评分理由

  • 创新性 (1.5/3):将LLM转化为双语SpeechLM的框架和训练流程较为系统,但在架构上并非革命性创新(延续了编码器-适配器-解码器范式)。全双工模型通过状态建模分离“何时说”与“说什么”是明确的设计贡献,但缺乏验证其有效性的消融实验,使得创新性证据不足。
  • 技术严谨性 (0.5/1.5):技术细节描述较为完整,但关键环节的细节缺失或模糊:(1) 知识蒸馏中两种教师模型的权重、蒸馏温度未说明;(2) RCP从大模型初始化的迁移效果未分析;(3) 重要预处理步骤(如过滤阈值、重新标记方法)的细节推迟到附录或未说明;(4) 基线模型(8个)的选择标准未明确;(5) 韩语新基准构建过程(翻译、合成)可能引入偏置,缺乏论证;(6) 全双工评估使用非官方评估器,其差异虽在附录说明,但可能影响结果可比性。
  • 实验充分性 (0.8/1.5):实验范围广(42个基准),包含英语和韩语多任务。但存在不足:(1) 缺失关键消融实验,无法判断各项技术的实际贡献;(2) 基线对比选择可能存在偏见;(3) 自建基准的可靠性需更多验证;(4) 全双工模型在长程多轮对话(FDB v2.0)上非最优,失败案例分析缺失。
  • 清晰度 (0.7/1):论文结构清晰,图表有效。但部分技术细节(如蒸馏配置、合成数据生成参数)表述不够清晰或集中,需要参考附录。方法概述部分在正文中相对简洁。
  • 影响力 (1.5/2):在双语,尤其是韩语语音模型方面做出了贡献,并提供了新的韩语基准。开源承诺(尽管链接缺失)有助于社区。但作为技术报告,其影响力可能局限于工业应用和特定语言对的研究者。
  • 开源 (1.0/1.5):论文声称开源所有模型检查点、训练推理管道和交互演示,并提供了三个韩语数据集的HuggingFace链接。但正文中未提及代码仓库、模型权重下载页或演示的具体链接,降低了开源信息的可查性和完整性。
  • 可复现性 (0.5/0.5):提供了详细的架构配置(表7、8)、训练超参数(表2)、数据处理流程。但如上所述,部分训练细节和评估设置的差异说明,完全复现结果可能存在难度。开源材料的具体缺失也影响可复现性。

🚨 局限与问题

  1. 关键消融实验缺失:这是最大的方法论缺陷。知识蒸馏(特别是双教师策略)的贡献、全双工模型中状态建模(SIL/BOW/BC)和文本前瞻的有效性、RCP从大模型初始化的益处均未经消融验证,难以评估各项设计的必要性和权重。
  2. 实验设计的严谨性问题:
    • 基线选择不透明:未说明选择这8个特定基线模型的标准。这影响了“最强整体表现”宣称的客观性。
    • 自建基准的偏置风险:三个韩语新基准均由英语基准翻译合成而来,可能无法完全代表真实的韩语语音场景和文化背景,其有效性和公平性需要更严格的论证。
    • 评估可比性存疑:全双工评估使用了与FDB官方不同的内部评估器(暂停处理阈值、评判模型GPT-5.2等不同),这可能导致报告的分数与使用官方脚本的结果不可直接比较,影响复现和对比。
  3. 技术细节披露不足:
    • 预训练阶段知识蒸馏的具体配置(如两种教师的损失权重比例、温度)未说明。
    • RCP从Qwen3-Omni-30B初始化的迁移学习效果和影响未进行分析。
    • 核心数据预处理步骤(如过滤的具体阈值、重新标记的具体方法)在正文中过于简略,关键细节推迟至附录或未说明。
  4. 结论部分过强:声称“最强的整体表现”,但未明确指出是在何种限定条件下(如对比基线集合)成立。在更广泛的模型对比中(例如包含更新或更大模型),此结论可能不成立。
  5. 模型实际能力边界模糊:论文未充分讨论或分析模型的失败案例,特别是在复杂、非结构化的真实对话场景中(这在FDB v2.0的结果中已初现端倪)。

← 返回 2026-05-30 语音/音乐/音频论文速递