📄 Benchmarking Large Language Models for Grapheme-to-Phoneme Conversion: A Japanese Case Study

#大语言模型 #基准测试 #语音合成

8.4/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1/1.5

👥 作者与机构

Koriyama, Tomoki. CyberAgent, Japan.

💡 毒舌点评

这篇论文是一篇扎实的工程性基准测试研究，对日语G2P这个具体任务的LLM应用进行了迄今为止最全面的评估。实验设计合理，覆盖了30+模型，分析维度（模型规模、版本、专门化训练、提示模式）清晰。作为一篇面向应用的实证论文，其价值在于为日语TTS领域的从业者提供了明确的模型选择参考和性能基线。然而，其核心贡献是“评估”而非“提出”新方法，创新性相对有限，更像是一篇详尽的系统报告而非顶会级别的理论或方法突破。论文对错误模式的分析不够深入，对“为什么”某些模式有效或失败的探讨可以更进一步。TTS对比实验虽然实用，但对比系统的选择（如使用未提及的CosyVoice 2作为E2E代表）和实验设置（仅微调一个模型）的说服力可以更强。总体而言，这是一篇合格的、有用的工作，但可能更适合作为领域内的技术报告或会议短文，而非顶会主会场论文。

📌 核心摘要

本文首次对超过30种大型语言模型（LLM）在日语字形到音素（G2P）转换任务上的性能进行了大规模基准测试。研究提出并比较了两种LLM应用策略：解析模式（LLM执行形态分析，规则后处理负责发音规则）和直接模式（LLM直接预测假名）。实验使用包含3000句手动标注假名的JVS语料库子集，以假名字符错误率（CER）为指标。结果显示，模型规模、版本更新以及针对日语的专门化训练是提升准确率的关键因素。最优的专有模型（如Claude Opus，解析模式CER 0.52%）超越了最佳传统工具OpenJTalk（CER 1.03%）。解析模式在绝大多数模型上优于直接模式，因其减轻了LLM处理复杂发音规则的负担。此外，研究将LLM预测的假名输入一个微调的假名输入TTS模型（CosyVoice 2），其发音准确度优于多个端到端（E2E）TTS系统（如Gemini 2.5 Flash TTS, Qwen 3 TTS），同时保持了可比的自然度，证明了显式G2P模块在可控发音方面的实用价值。

🔗 开源详情

代码：https://github.com/CyberAgentAILab/jvs_nonpara_kana （提供评估脚本）
模型权重：论文中未提及
数据集：3,000 manually annotated sentences from the nonpara30 subset of the JVS corpus; 获取链接：https://github.com/CyberAgentAILab/jvs_nonpara_kana；开源协议：论文中未明确说明。
Demo：论文中未提及
复现材料：论文中未提及（论文仅提到对CosyVoice 2模型进行了LoRA微调，但未提供具体的训练配置、检查点或附录等信息）
论文中引用的开源项目：
- OpenJTalk：论文中未提供具体链接。
- MeCab：论文中未提供具体链接。
- UniDic：论文中未提供具体链接。
- KyTea：论文中未提供具体链接。
- KWJA：论文中未提供具体链接。
- Sudachi：论文中未提供具体链接。
- Vaporetto：论文中未提供具体链接。

🏗️ 方法概述和架构

本文评估了两种利用LLM进行日语G2P转换的方法架构，旨在解决日语文本中无词边界、多音字、不规则发音（如助词变音、长音化、数词量词组合）等挑战。

解析模式 (Parse Mode)：
- 架构：采用“LLM + 规则后处理”的级联架构，图1展示了其流程。
- 核心组件与数据流： a. LLM形态分析器：输入为原始混合文字文本（包含汉字、假名、数字等）。通过精心设计的提示（Prompt），指导LLM输出一个JSON数组。每个数组元素是一个词，包含三个字段：surface（原词形）、kana（片假名读音）、pos（词性）。提示中明确要求将复合名词和专有名词作为单个词条处理，并提供了少样本示例以规范输出格式。此步骤替代了传统流程中的形态分析器（如MeCab），核心是LLM的词分割和读音估测能力。 b. 规则后处理：接收LLM输出的JSON读音序列。应用确定性的日语发音规则，主要包括：(i) 助词变音：将助词“は”、“を”、“へ”的读音从假名ha、wo、he分别转换为wa、o、e；(ii) 长音规范化：处理连续元音（如“ou”序列）转化为长音（“oo”）的规则。此步骤的输出是最终的、规范的平假名序列。
- 设计动机：论文指出，直接让LLM在提示中处理所有发音规则会使指令过于复杂并增加错误。因此，将发音规则这些确定性部分剥离出来交由规则处理，能让LLM专注于其更擅长的、非确定性的形态分析和读音预测任务，从而降低整体错误率。
直接模式 (Direct Mode)：
- 架构：纯LLM单步转换架构，图2展示了其流程。
- 核心组件与数据流：
  - 单步LLM推理：输入为原始文本。提示（Prompt）中包含了详尽的日语发音转换指令，要求LLM直接输出完整的平假名读音序列。指令覆盖了助词发音、各类元音的长音化规则（如o+う→长音oo），以及在动词活用词尾和助词边界处不应长音化的例外情况。同样提供了少样本示例。LLM需要在一个推理步骤内，自主完成词分割、读音估测以及所有发音规则的转换。
- 设计动机：探索一种更简洁的端到端流水线设计的可能性，完全依赖LLM自身的语言知识和上下文理解能力来处理所有G2P挑战。

两种模式的对比：解析模式通过流水线分解降低了任务难度，但可能在形态分析阶段引入错误（如错误分割数词量词组合）。直接模式更简洁，但对LLM的指令遵循和综合语言能力要求极高，导致较小模型或能力不足的模型在此模式下表现急剧下降，甚至出现完全忽略指令的情况（如llm-jp-3.1-13b直接模式CER高达86.02%）。

💡 核心创新点

首次大规模基准测试：系统性地对超过30种LLM（涵盖不同规模、版本、专有/开源、是否经日语专门化训练）在日语G2P任务上进行了性能评估，并与多种传统形态分析工具（OpenJTalk， MeCab等）进行对比，建立了明确的性能基线。
提出并评估了两种提示策略：通过对比“解析模式”与“直接模式”，明确了将复杂任务分解（解析模式）对于提升LLM在结构化语言任务中性能的重要性，并为实际应用提供了清晰的选择依据。
验证了LLM-G2P与TTS结合的实用性：通过将性能最优的LLM-G2P输出接入微调的假名输入TTS模型，在发音准确度上超越了多个端到端TTS系统，同时保持了自然度，为构建更可控、准确的日语TTS系统提供了一条有效路径。
贡献了高质量评测数据集：公开了3000句带有手动标注假名读音的JVS语料句子，为日语G2P和相关任务的研究提供了宝贵的评测资源。

📊 实验结果

论文在JVS语料库nonpara30子集的3000句上进行了实验，以假名字符错误率（CER）为主要指标。以下是核心结果：

表1：所有评估模型的假名CER（%）

模型	参数规模	解析模式	直接模式
专有LLM
Claude Opus	–	0.52	0.74
Claude Sonnet	–	0.82	1.28
Gemini 2.5 Flash	–	1.08	1.17
Gemini 3 Flash	–	0.94	1.61
Gemini 3.1 Pro	–	0.62	0.53
OpenAI GPT-5.2	–	1.64	1.05
开源LLM
CALM3-22B	22B	14.30	22.81
Gemma3-4B	4B	34.82	56.69
Gemma2-27B	27B	10.33	24.56
Gemma2-Swallow-27B	27B	5.74	17.53
Gemma3-12B	12B	14.15	28.77
Gemma3-27B	27B	5.75	15.16
GLM4-9B	9B	26.89	57.56
GLM4-32B	32B	16.82	35.62
GLM4.7†	355B	3.70	5.87
GLM5†	744B	1.44	4.96
gpt-oss-20b	20B	7.95	14.71
gpt-oss-120b	120B	3.03	3.45
Kimi K2.5†	1T	1.35	4.91
Llama3.1-Swallow-8B	8B	9.34	22.47
Llama3.3-70B	70B	6.58	23.48
Llama3.3-Swallow-70B	70B	2.85	11.78
llm-jp-3.1-13b	13B	15.36	86.02
Qwen2.5-7B	7B	43.27	79.39
Qwen2.5-32B	32B	16.54	35.48
Qwen3-4B	4B	35.77	57.72
Qwen3-8B	8B	28.13	100.15
Qwen3-14B	14B	17.13	32.11
Qwen3-32B	32B	17.07	32.46
Qwen3-Swallow-32B	32B	9.30	21.59
Qwen3.5-2B	2B	41.87	87.30
Qwen3.5-4B	4B	23.00	43.98
Qwen3.5-9B	9B	14.17	27.47
Qwen3.5-27B	27B	6.27	14.61
Qwen3.5-35B-A3B	35B	6.12	26.93
Qwen3.5-122B-A10B†	122B	7.57	16.80
Qwen3.5-397B†	397B	1.96	6.20
传统形态分析器
KWJA	–	2.52	–
KyTea	–	1.42	–
MeCab+IPAdic	–	1.78	–
MeCab+UniDic	–	1.54	–
OpenJTalk	–	1.03	–
Sudachi	–	1.83	–
Vaporetto	–	1.86	–

主要发现：

模型规模：在解析模式下，CER随模型规模增大而单调递减（如Qwen3.5系列：2B 41.87% -> 4B 23.00% -> 9B 14.17% -> 27B 6.27%），符合规模定律。
版本与专门化：更新版本模型性能更优（Gemma3-27B vs Gemma2-27B）。日语专门化训练（Swallow系列）显著降低CER（如Llama3.3-Swallow-70B 2.85% vs Llama3.3-70B 6.58%）。
提示模式：解析模式在绝大多数模型上优于直接模式，尤其对小模型优势巨大。例外是Gemini 3.1 Pro和GPT-5.2，其直接模式略优，因其能更好地遵循复杂指令并正确处理数词量词（如“2人”）。
LLM vs 工具：Claude Opus (0.52%) 和 Gemini 3.1 Pro (0.62%) 在解析模式下超越最佳传统工具 OpenJTalk (1.03%)。LLM在处理未登录词（如“剣歯虎”）上更强，但偶尔会误读常见词（如“本名”）。
思考模式：对Gemini 3 Flash进行实验，思考模式将CER从0.94%降至0.54%，显示了推理能力对高准确性模型的进一步提升潜力。

TTS对比实验（表2）：

系统	输入	CER（%）	UTMOS
G2P + 假名输入TTS (微调CosyVoice 2)
Oracle (真实假名)	假名	2.10	3.81
Gemini 3.1 Pro (直接)	假名	2.38	3.82
Claude Opus 4.6 (解析)	假名	2.69	3.82
端到端TTS
Gemini 2.5 Flash TTS	文本	3.96	3.75
Qwen 3 TTS (1.7B)	文本	4.31	4.00
CosyVoice 2	文本	12.08	3.45
ElevenLabs v2	文本	13.96	3.36

G2P+TTS路径（如Gemini 3.1 Pro: 2.38%）在发音准确度上显著优于端到端TTS系统，同时UTMOS分数（约3.82）与最佳端到端系统相当。

⚖️ 评分理由

创新性 (1.2/2)：问题定义明确，但核心贡献是详尽的评估而非提出突破性新方法或理论。提出的“解析/直接”二分法是直观的工程选择，而非深刻的方法论创新。
技术严谨性 (1.2/1.5)：实验设计合理，控制了后处理规则等变量，分析了多个影响因素。但对错误模式的统计分析不够深入，例如未量化数词量词分割错误的比例，也未深入分析直接模式失败的具体原因（是指令遵循问题还是能力不足）。
实验充分性 (1.5/1.5)：实验非常充分，模型覆盖面广（30+），对比基线全面（传统工具+端到端TTS），分析维度清晰（规模、版本、模式、思考模式），并公开了数据集。
清晰度 (1.2/1.5)：论文结构清晰，方法描述和实验设置交代得较为清楚。但部分结果分析（如不同模型家族的缩放行为）可以更系统化地呈现。
影响力 (0.8/1.5)：对日语语音合成社区有直接的实用价值，提供了模型选型指南。但研究问题（LLM for G2P）的普适性有限，跨语言或对更广泛的语音处理领域的推动作用一般。
开源 (1.2/1.5)：提供了评估脚本和数据集（3000句标注），代码仓库可访问。但论文中提到的“对CosyVoice 2模型进行LoRA微调”未提供具体配置或模型权重，可复现性部分受限。
可复现性 (1.0/1.5)：提供了数据集和评估脚本，但TTS对比实验中的关键组件——微调后的CosyVoice 2模型——的训练细节和权重未公开，使得该部分结果难以完全复现。
工程/实践价值 (1.0/1.5)：对构建高准确度日语TTS系统具有明确的实践指导意义，展示了“LLM-G2P + 假名TTS”路径的优越性。但未讨论推理延迟和成本，这是实际部署的关键因素。

🚨 局限与问题

错误分析的深度不足：论文仅列举了少数定性错误案例（如错误读音例子），但缺乏系统的定量错误分析。例如，未统计不同错误类型（词分割错误、读音估测错误、发音规则应用错误）的分布比例，这使得对模型瓶颈的理解停留在表面。
计算效率与成本被忽略：论文完全没有报告不同规模LLM在G2P任务上的推理延迟、吞吐量或API调用成本。对于“最佳模型”的推荐，若不考虑实时性和成本，其实际应用价值将大打折扣。这是一个关键的实践性缺失��
TTS对比实验的设计局限：
- 不公平对比：G2P+TTS路径使用的是针对假名输入专门微调过的CosyVoice 2，而对比的端到端TTS系统（Gemini 2.5 Flash TTS等）是预训练模型。这种对比可能高估了G2P路径的优势。更公平的对比应在相同微调程度下进行。
- TTS系统选择偏颇：论文未说明为何选择CosyVoice 2作为微调基座和主要对比对象。缺少对其他主流日语TTS引擎（如VOICEVOX, CoeFont）或更强大的E2E模型（如VALL-E X, F5-TTS）的对比，结论的普适性受限。
- 自然度评估单一：仅使用UTMOS（客观指标）评估自然度，缺少主观MOS评分，而UTMOS的分数差异（0.5左右）可能不具显著感知差异。
对“思考模式”的探索有限：仅在一个模型（Gemini 3 Flash）上验证了思考模式的正面效果。结论“推理可进一步提高准确性”基于单一案例，可能不具备普遍性，需要更广泛的验证。
未讨论泛化性与鲁棒性：评测集来自单一语料库（JVS），且句子为“非平行”文本，但未必覆盖所有真实场景。论文未探讨模型对极罕见专有名词、特定领域文本（如医学、法律）、或方言/古语读音的处理能力，鲁棒性未知。
结论表述可能过强：例如，“解析模式优于直接模式”是一个较强的全局结论，但论文也指出了Gemini 3.1 Pro和GPT-5.2的例外。更严谨的说法应是“对于大多数已评估的当前LLM，解析模式更优”。

← 返回 2026-06-23 语音/音乐/音频论文速递

📄 Benchmarking Large Language Models for Grapheme-to-Phoneme Conversion: A Japanese Case Study#

👥 作者与机构#

💡 毒舌点评#

📌 核心摘要#

🔗 开源详情#

🏗️ 方法概述和架构#

💡 核心创新点#

📊 实验结果#

⚖️ 评分理由#

🚨 局限与问题#

📎 相关论文