📄 Benchmarking Large Language Models for Grapheme-to-Phoneme Conversion: A Japanese Case Study
#大语言模型 #基准测试 #语音合成
8.4/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1/1.5
🔥 8.4/10 | 前25% | #语音合成 | #大语言模型 | #基准测试 | arxiv
👥 作者与机构
Koriyama, Tomoki. CyberAgent, Japan.
💡 毒舌点评
这篇论文是一篇扎实的工程性基准测试研究,对日语G2P这个具体任务的LLM应用进行了迄今为止最全面的评估。实验设计合理,覆盖了30+模型,分析维度(模型规模、版本、专门化训练、提示模式)清晰。作为一篇面向应用的实证论文,其价值在于为日语TTS领域的从业者提供了明确的模型选择参考和性能基线。然而,其核心贡献是“评估”而非“提出”新方法,创新性相对有限,更像是一篇详尽的系统报告而非顶会级别的理论或方法突破。论文对错误模式的分析不够深入,对“为什么”某些模式有效或失败的探讨可以更进一步。TTS对比实验虽然实用,但对比系统的选择(如使用未提及的CosyVoice 2作为E2E代表)和实验设置(仅微调一个模型)的说服力可以更强。总体而言,这是一篇合格的、有用的工作,但可能更适合作为领域内的技术报告或会议短文,而非顶会主会场论文。
📌 核心摘要
本文首次对超过30种大型语言模型(LLM)在日语字形到音素(G2P)转换任务上的性能进行了大规模基准测试。研究提出并比较了两种LLM应用策略:解析模式(LLM执行形态分析,规则后处理负责发音规则)和直接模式(LLM直接预测假名)。实验使用包含3000句手动标注假名的JVS语料库子集,以假名字符错误率(CER)为指标。结果显示,模型规模、版本更新以及针对日语的专门化训练是提升准确率的关键因素。最优的专有模型(如Claude Opus,解析模式CER 0.52%)超越了最佳传统工具OpenJTalk(CER 1.03%)。解析模式在绝大多数模型上优于直接模式,因其减轻了LLM处理复杂发音规则的负担。此外,研究将LLM预测的假名输入一个微调的假名输入TTS模型(CosyVoice 2),其发音准确度优于多个端到端(E2E)TTS系统(如Gemini 2.5 Flash TTS, Qwen 3 TTS),同时保持了可比的自然度,证明了显式G2P模块在可控发音方面的实用价值。
🔗 开源详情
- 代码:https://github.com/CyberAgentAILab/jvs_nonpara_kana (提供评估脚本)
- 模型权重:论文中未提及
- 数据集:3,000 manually annotated sentences from the nonpara30 subset of the JVS corpus; 获取链接:https://github.com/CyberAgentAILab/jvs_nonpara_kana; 开源协议:论文中未明确说明。
- Demo:论文中未提及
- 复现材料:论文中未提及(论文仅提到对CosyVoice 2模型进行了LoRA微调,但未提供具体的训练配置、检查点或附录等信息)
- 论文中引用的开源项目:
- OpenJTalk:论文中未提供具体链接。
- MeCab:论文中未提供具体链接。
- UniDic:论文中未提供具体链接。
- KyTea:论文中未提供具体链接。
- KWJA:论文中未提供具体链接。
- Sudachi:论文中未提供具体链接。
- Vaporetto:论文中未提供具体链接。
🏗️ 方法概述和架构
本文评估了两种利用LLM进行日语G2P转换的方法架构,旨在解决日语文本中无词边界、多音字、不规则发音(如助词变音、长音化、数词量词组合)等挑战。
解析模式 (Parse Mode):
- 架构:采用“LLM + 规则后处理”的级联架构,图1展示了其流程。
- 核心组件与数据流:
a. LLM形态分析器:输入为原始混合文字文本(包含汉字、假名、数字等)。通过精心设计的提示(Prompt),指导LLM输出一个JSON数组。每个数组元素是一个词,包含三个字段:
surface(原词形)、kana(片假名读音)、pos(词性)。提示中明确要求将复合名词和专有名词作为单个词条处理,并提供了少样本示例以规范输出格式。此步骤替代了传统流程中的形态分析器(如MeCab),核心是LLM的词分割和读音估测能力。 b. 规则后处理:接收LLM输出的JSON读音序列。应用确定性的日语发音规则,主要包括:(i) 助词变音:将助词“は”、“を”、“へ”的读音从假名ha、wo、he分别转换为wa、o、e;(ii) 长音规范化:处理连续元音(如“ou”序列)转化为长音(“oo”)的规则。此步骤的输出是最终的、规范的平假名序列。 - 设计动机:论文指出,直接让LLM在提示中处理所有发音规则会使指令过于复杂并增加错误。因此,将发音规则这些确定性部分剥离出来交由规则处理,能让LLM专注于其更擅长的、非确定性的形态分析和读音预测任务,从而降低整体错误率。
直接模式 (Direct Mode):
- 架构:纯LLM单步转换架构,图2展示了其流程。
- 核心组件与数据流:
- 单步LLM推理:输入为原始文本。提示(Prompt)中包含了详尽的日语发音转换指令,要求LLM直接输出完整的平假名读音序列。指令覆盖了助词发音、各类元音的长音化规则(如
o+う→长音oo),以及在动词活用词尾和助词边界处不应长音化的例外情况。同样提供了少样本示例。LLM需要在一个推理步骤内,自主完成词分割、读音估测以及所有发音规则的转换。
- 单步LLM推理:输入为原始文本。提示(Prompt)中包含了详尽的日语发音转换指令,要求LLM直接输出完整的平假名读音序列。指令覆盖了助词发音、各类元音的长音化规则(如
- 设计动机:探索一种更简洁的端到端流水线设计的可能性,完全依赖LLM自身的语言知识和上下文理解能力来处理所有G2P挑战。
两种模式的对比:解析模式通过流水线分解降低了任务难度,但可能在形态分析阶段引入错误(如错误分割数词量词组合)。直接模式更简洁,但对LLM的指令遵循和综合语言能力要求极高,导致较小模型或能力不足的模型在此模式下表现急剧下降,甚至出现完全忽略指令的情况(如llm-jp-3.1-13b直接模式CER高达86.02%)。


💡 核心创新点
- 首次大规模基准测试:系统性地对超过30种LLM(涵盖不同规模、版本、专有/开源、是否经日语专门化训练)在日语G2P任务上进行了性能评估,并与多种传统形态分析工具(OpenJTalk, MeCab等)进行对比,建立了明确的性能基线。
- 提出并评估了两种提示策略:通过对比“解析模式”与“直接模式”,明确了将复杂任务分解(解析模式)对于提升LLM在结构化语言任务中性能的重要性,并为实际应用提供了清晰的选择依据。
- 验证了LLM-G2P与TTS结合的实用性:通过将性能最优的LLM-G2P输出接入微调的假名输入TTS模型,在发音准确度上超越了多个端到端TTS系统,同时保持了自然度,为构建更可控、准确的日语TTS系统提供了一条有效路径。
- 贡献了高质量评测数据集:公开了3000句带有手动标注假名读音的JVS语料句子,为日语G2P和相关任务的研究提供了宝贵的评测资源。
📊 实验结果
论文在JVS语料库nonpara30子集的3000句上进行了实验,以假名字符错误率(CER)为主要指标。以下是核心结果:
表1:所有评估模型的假名CER(%)
| 模型 | 参数规模 | 解析模式 | 直接模式 |
|---|---|---|---|
| 专有LLM | |||
| Claude Opus | – | 0.52 | 0.74 |
| Claude Sonnet | – | 0.82 | 1.28 |
| Gemini 2.5 Flash | – | 1.08 | 1.17 |
| Gemini 3 Flash | – | 0.94 | 1.61 |
| Gemini 3.1 Pro | – | 0.62 | 0.53 |
| OpenAI GPT-5.2 | – | 1.64 | 1.05 |
| 开源LLM | |||
| CALM3-22B | 22B | 14.30 | 22.81 |
| Gemma3-4B | 4B | 34.82 | 56.69 |
| Gemma2-27B | 27B | 10.33 | 24.56 |
| Gemma2-Swallow-27B | 27B | 5.74 | 17.53 |
| Gemma3-12B | 12B | 14.15 | 28.77 |
| Gemma3-27B | 27B | 5.75 | 15.16 |
| GLM4-9B | 9B | 26.89 | 57.56 |
| GLM4-32B | 32B | 16.82 | 35.62 |
| GLM4.7† | 355B | 3.70 | 5.87 |
| GLM5† | 744B | 1.44 | 4.96 |
| gpt-oss-20b | 20B | 7.95 | 14.71 |
| gpt-oss-120b | 120B | 3.03 | 3.45 |
| Kimi K2.5† | 1T | 1.35 | 4.91 |
| Llama3.1-Swallow-8B | 8B | 9.34 | 22.47 |
| Llama3.3-70B | 70B | 6.58 | 23.48 |
| Llama3.3-Swallow-70B | 70B | 2.85 | 11.78 |
| llm-jp-3.1-13b | 13B | 15.36 | 86.02 |
| Qwen2.5-7B | 7B | 43.27 | 79.39 |
| Qwen2.5-32B | 32B | 16.54 | 35.48 |
| Qwen3-4B | 4B | 35.77 | 57.72 |
| Qwen3-8B | 8B | 28.13 | 100.15 |
| Qwen3-14B | 14B | 17.13 | 32.11 |
| Qwen3-32B | 32B | 17.07 | 32.46 |
| Qwen3-Swallow-32B | 32B | 9.30 | 21.59 |
| Qwen3.5-2B | 2B | 41.87 | 87.30 |
| Qwen3.5-4B | 4B | 23.00 | 43.98 |
| Qwen3.5-9B | 9B | 14.17 | 27.47 |
| Qwen3.5-27B | 27B | 6.27 | 14.61 |
| Qwen3.5-35B-A3B | 35B | 6.12 | 26.93 |
| Qwen3.5-122B-A10B† | 122B | 7.57 | 16.80 |
| Qwen3.5-397B† | 397B | 1.96 | 6.20 |
| 传统形态分析器 | |||
| KWJA | – | 2.52 | – |
| KyTea | – | 1.42 | – |
| MeCab+IPAdic | – | 1.78 | – |
| MeCab+UniDic | – | 1.54 | – |
| OpenJTalk | – | 1.03 | – |
| Sudachi | – | 1.83 | – |
| Vaporetto | – | 1.86 | – |
主要发现:
- 模型规模:在解析模式下,CER随模型规模增大而单调递减(如Qwen3.5系列:2B 41.87% -> 4B 23.00% -> 9B 14.17% -> 27B 6.27%),符合规模定律。
- 版本与专门化:更新版本模型性能更优(Gemma3-27B vs Gemma2-27B)。日语专门化训练(Swallow系列)显著降低CER(如Llama3.3-Swallow-70B 2.85% vs Llama3.3-70B 6.58%)。
- 提示模式:解析模式在绝大多数模型上优于直接模式,尤其对小模型优势巨大。例外是Gemini 3.1 Pro和GPT-5.2,其直接模式略优,因其能更好地遵循复杂指令并正确处理数词量词(如“2人”)。
- LLM vs 工具:Claude Opus (0.52%) 和 Gemini 3.1 Pro (0.62%) 在解析模式下超越最佳传统工具 OpenJTalk (1.03%)。LLM在处理未登录词(如“剣歯虎”)上更强,但偶尔会误读常见词(如“本名”)。
- 思考模式:对Gemini 3 Flash进行实验,思考模式将CER从0.94%降至0.54%,显示了推理能力对高准确性模型的进一步提升潜力。
TTS对比实验(表2):
| 系统 | 输入 | CER(%) | UTMOS |
|---|---|---|---|
| G2P + 假名输入TTS (微调CosyVoice 2) | |||
| Oracle (真实假名) | 假名 | 2.10 | 3.81 |
| Gemini 3.1 Pro (直接) | 假名 | 2.38 | 3.82 |
| Claude Opus 4.6 (解析) | 假名 | 2.69 | 3.82 |
| 端到端TTS | |||
| Gemini 2.5 Flash TTS | 文本 | 3.96 | 3.75 |
| Qwen 3 TTS (1.7B) | 文本 | 4.31 | 4.00 |
| CosyVoice 2 | 文本 | 12.08 | 3.45 |
| ElevenLabs v2 | 文本 | 13.96 | 3.36 |
G2P+TTS路径(如Gemini 3.1 Pro: 2.38%)在发音准确度上显著优于端到端TTS系统,同时UTMOS分数(约3.82)与最佳端到端系统相当。

⚖️ 评分理由
- 创新性 (1.2/2):问题定义明确,但核心贡献是详尽的评估而非提出突破性新方法或理论。提出的“解析/直接”二分法是直观的工程选择,而非深刻的方法论创新。
- 技术严谨性 (1.2/1.5):实验设计合理,控制了后处理规则等变量,分析了多个影响因素。但对错误模式的统计分析不够深入,例如未量化数词量词分割错误的比例,也未深入分析直接模式失败的具体原因(是指令遵循问题还是能力不足)。
- 实验充分性 (1.5/1.5):实验非常充分,模型覆盖面广(30+),对比基线全面(传统工具+端到端TTS),分析维度清晰(规模、版本、模式、思考模式),并公开了数据集。
- 清晰度 (1.2/1.5):论文结构清晰,方法描述和实验设置交代得较为清楚。但部分结果分析(如不同模型家族的缩放行为)可以更系统化地呈现。
- 影响力 (0.8/1.5):对日语语音合成社区有直接的实用价值,提供了模型选型指南。但研究问题(LLM for G2P)的普适性有限,跨语言或对更广泛的语音处理领域的推动作用一般。
- 开源 (1.2/1.5):提供了评估脚本和数据集(3000句标注),代码仓库可访问。但论文中提到的“对CosyVoice 2模型进行LoRA微调”未提供具体配置或模型权重,可复现性部分受限。
- 可复现性 (1.0/1.5):提供了数据集和评估脚本,但TTS对比实验中的关键组件——微调后的CosyVoice 2模型——的训练细节和权重未公开,使得该部分结果难以完全复现。
- 工程/实践价值 (1.0/1.5):对构建高准确度日语TTS系统具有明确的实践指导意义,展示了“LLM-G2P + 假名TTS”路径的优越性。但未讨论推理延迟和成本,这是实际部署的关键因素。
🚨 局限与问题
- 错误分析的深度不足:论文仅列举了少数定性错误案例(如错误读音例子),但缺乏系统的定量错误分析。例如,未统计不同错误类型(词分割错误、读音估测错误、发音规则应用错误)的分布比例,这使得对模型瓶颈的理解停留在表面。
- 计算效率与成本被忽略:论文完全没有报告不同规模LLM在G2P任务上的推理延迟、吞吐量或API调用成本。对于“最佳模型”的推荐,若不考虑实时性和成本,其实际应用价值将大打折扣。这是一个关键的实践性缺失���
- TTS对比实验的设计局限:
- 不公平对比:G2P+TTS路径使用的是针对假名输入专门微调过的CosyVoice 2,而对比的端到端TTS系统(Gemini 2.5 Flash TTS等)是预训练模型。这种对比可能高估了G2P路径的优势。更公平的对比应在相同微调程度下进行。
- TTS系统选择偏颇:论文未说明为何选择CosyVoice 2作为微调基座和主要对比对象。缺少对其他主流日语TTS引擎(如VOICEVOX, CoeFont)或更强大的E2E模型(如VALL-E X, F5-TTS)的对比,结论的普适性受限。
- 自然度评估单一:仅使用UTMOS(客观指标)评估自然度,缺少主观MOS评分,而UTMOS的分数差异(0.5左右)可能不具显著感知差异。
- 对“思考模式”的探索有限:仅在一个模型(Gemini 3 Flash)上验证了思考模式的正面效果。结论“推理可进一步提高准确性”基于单一案例,可能不具备普遍性,需要更广泛的验证。
- 未讨论泛化性与鲁棒性:评测集来自单一语料库(JVS),且句子为“非平行”文本,但未必覆盖所有真实场景。论文未探讨模型对极罕见专有名词、特定领域文本(如医学、法律)、或方言/古语读音的处理能力,鲁棒性未知。
- 结论表述可能过强:例如,“解析模式优于直接模式”是一个较强的全局结论,但论文也指出了Gemini 3.1 Pro和GPT-5.2的例外。更严谨的说法应是“对于大多数已评估的当前LLM,解析模式更优”。