📄 Benchmarking Large Language Models for Grapheme-to-Phoneme Conversion: A Japanese Case Study

#大语言模型 #基准测试 #语音合成

8.4/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1/1.5

🔥 8.4/10 | 前25% | #语音合成 | #大语言模型 | #基准测试 | arxiv

👥 作者与机构

Koriyama, Tomoki. CyberAgent, Japan.

💡 毒舌点评

这篇论文是一篇扎实的工程性基准测试研究,对日语G2P这个具体任务的LLM应用进行了迄今为止最全面的评估。实验设计合理,覆盖了30+模型,分析维度(模型规模、版本、专门化训练、提示模式)清晰。作为一篇面向应用的实证论文,其价值在于为日语TTS领域的从业者提供了明确的模型选择参考和性能基线。然而,其核心贡献是“评估”而非“提出”新方法,创新性相对有限,更像是一篇详尽的系统报告而非顶会级别的理论或方法突破。论文对错误模式的分析不够深入,对“为什么”某些模式有效或失败的探讨可以更进一步。TTS对比实验虽然实用,但对比系统的选择(如使用未提及的CosyVoice 2作为E2E代表)和实验设置(仅微调一个模型)的说服力可以更强。总体而言,这是一篇合格的、有用的工作,但可能更适合作为领域内的技术报告或会议短文,而非顶会主会场论文。

📌 核心摘要

本文首次对超过30种大型语言模型(LLM)在日语字形到音素(G2P)转换任务上的性能进行了大规模基准测试。研究提出并比较了两种LLM应用策略:解析模式(LLM执行形态分析,规则后处理负责发音规则)和直接模式(LLM直接预测假名)。实验使用包含3000句手动标注假名的JVS语料库子集,以假名字符错误率(CER)为指标。结果显示,模型规模、版本更新以及针对日语的专门化训练是提升准确率的关键因素。最优的专有模型(如Claude Opus,解析模式CER 0.52%)超越了最佳传统工具OpenJTalk(CER 1.03%)。解析模式在绝大多数模型上优于直接模式,因其减轻了LLM处理复杂发音规则的负担。此外,研究将LLM预测的假名输入一个微调的假名输入TTS模型(CosyVoice 2),其发音准确度优于多个端到端(E2E)TTS系统(如Gemini 2.5 Flash TTS, Qwen 3 TTS),同时保持了可比的自然度,证明了显式G2P模块在可控发音方面的实用价值。

🔗 开源详情

  • 代码:https://github.com/CyberAgentAILab/jvs_nonpara_kana (提供评估脚本)
  • 模型权重:论文中未提及
  • 数据集:3,000 manually annotated sentences from the nonpara30 subset of the JVS corpus; 获取链接:https://github.com/CyberAgentAILab/jvs_nonpara_kana; 开源协议:论文中未明确说明。
  • Demo:论文中未提及
  • 复现材料:论文中未提及(论文仅提到对CosyVoice 2模型进行了LoRA微调,但未提供具体的训练配置、检查点或附录等信息)
  • 论文中引用的开源项目:
    • OpenJTalk:论文中未提供具体链接。
    • MeCab:论文中未提供具体链接。
    • UniDic:论文中未提供具体链接。
    • KyTea:论文中未提供具体链接。
    • KWJA:论文中未提供具体链接。
    • Sudachi:论文中未提供具体链接。
    • Vaporetto:论文中未提供具体链接。

🏗️ 方法概述和架构

本文评估了两种利用LLM进行日语G2P转换的方法架构,旨在解决日语文本中无词边界、多音字、不规则发音(如助词变音、长音化、数词量词组合)等挑战。

  1. 解析模式 (Parse Mode):

    • 架构:采用“LLM + 规则后处理”的级联架构,图1展示了其流程。
    • 核心组件与数据流: a. LLM形态分析器:输入为原始混合文字文本(包含汉字、假名、数字等)。通过精心设计的提示(Prompt),指导LLM输出一个JSON数组。每个数组元素是一个词,包含三个字段:surface(原词形)、kana(片假名读音)、pos(词性)。提示中明确要求将复合名词和专有名词作为单个词条处理,并提供了少样本示例以规范输出格式。此步骤替代了传统流程中的形态分析器(如MeCab),核心是LLM的词分割和读音估测能力。 b. 规则后处理:接收LLM输出的JSON读音序列。应用确定性的日语发音规则,主要包括:(i) 助词变音:将助词“は”、“を”、“へ”的读音从假名hawohe分别转换为waoe;(ii) 长音规范化:处理连续元音(如“ou”序列)转化为长音(“oo”)的规则。此步骤的输出是最终的、规范的平假名序列。
    • 设计动机:论文指出,直接让LLM在提示中处理所有发音规则会使指令过于复杂并增加错误。因此,将发音规则这些确定性部分剥离出来交由规则处理,能让LLM专注于其更擅长的、非确定性的形态分析和读音预测任务,从而降低整体错误率。
  2. 直接模式 (Direct Mode):

    • 架构:纯LLM单步转换架构,图2展示了其流程。
    • 核心组件与数据流:
      • 单步LLM推理:输入为原始文本。提示(Prompt)中包含了详尽的日语发音转换指令,要求LLM直接输出完整的平假名读音序列。指令覆盖了助词发音、各类元音的长音化规则(如o+う→长音oo),以及在动词活用词尾和助词边界处不应长音化的例外情况。同样提供了少样本示例。LLM需要在一个推理步骤内,自主完成词分割、读音估测以及所有发音规则的转换。
    • 设计动机:探索一种更简洁的端到端流水线设计的可能性,完全依赖LLM自身的语言知识和上下文理解能力来处理所有G2P挑战。

两种模式的对比:解析模式通过流水线分解降低了任务难度,但可能在形态分析阶段引入错误(如错误分割数词量词组合)。直接模式更简洁,但对LLM的指令遵循和综合语言能力要求极高,导致较小模型或能力不足的模型在此模式下表现急剧下降,甚至出现完全忽略指令的情况(如llm-jp-3.1-13b直接模式CER高达86.02%)。

图1

图2

💡 核心创新点

  1. 首次大规模基准测试:系统性地对超过30种LLM(涵盖不同规模、版本、专有/开源、是否经日语专门化训练)在日语G2P任务上进行了性能评估,并与多种传统形态分析工具(OpenJTalk, MeCab等)进行对比,建立了明确的性能基线。
  2. 提出并评估了两种提示策略:通过对比“解析模式”与“直接模式”,明确了将复杂任务分解(解析模式)对于提升LLM在结构化语言任务中性能的重要性,并为实际应用提供了清晰的选择依据。
  3. 验证了LLM-G2P与TTS结合的实用性:通过将性能最优的LLM-G2P输出接入微调的假名输入TTS模型,在发音准确度上超越了多个端到端TTS系统,同时保持了自然度,为构建更可控、准确的日语TTS系统提供了一条有效路径。
  4. 贡献了高质量评测数据集:公开了3000句带有手动标注假名读音的JVS语料句子,为日语G2P和相关任务的研究提供了宝贵的评测资源。

📊 实验结果

论文在JVS语料库nonpara30子集的3000句上进行了实验,以假名字符错误率(CER)为主要指标。以下是核心结果:

表1:所有评估模型的假名CER(%)

模型参数规模解析模式直接模式
专有LLM
Claude Opus0.520.74
Claude Sonnet0.821.28
Gemini 2.5 Flash1.081.17
Gemini 3 Flash0.941.61
Gemini 3.1 Pro0.620.53
OpenAI GPT-5.21.641.05
开源LLM
CALM3-22B22B14.3022.81
Gemma3-4B4B34.8256.69
Gemma2-27B27B10.3324.56
Gemma2-Swallow-27B27B5.7417.53
Gemma3-12B12B14.1528.77
Gemma3-27B27B5.7515.16
GLM4-9B9B26.8957.56
GLM4-32B32B16.8235.62
GLM4.7†355B3.705.87
GLM5†744B1.444.96
gpt-oss-20b20B7.9514.71
gpt-oss-120b120B3.033.45
Kimi K2.5†1T1.354.91
Llama3.1-Swallow-8B8B9.3422.47
Llama3.3-70B70B6.5823.48
Llama3.3-Swallow-70B70B2.8511.78
llm-jp-3.1-13b13B15.3686.02
Qwen2.5-7B7B43.2779.39
Qwen2.5-32B32B16.5435.48
Qwen3-4B4B35.7757.72
Qwen3-8B8B28.13100.15
Qwen3-14B14B17.1332.11
Qwen3-32B32B17.0732.46
Qwen3-Swallow-32B32B9.3021.59
Qwen3.5-2B2B41.8787.30
Qwen3.5-4B4B23.0043.98
Qwen3.5-9B9B14.1727.47
Qwen3.5-27B27B6.2714.61
Qwen3.5-35B-A3B35B6.1226.93
Qwen3.5-122B-A10B†122B7.5716.80
Qwen3.5-397B†397B1.966.20
传统形态分析器
KWJA2.52
KyTea1.42
MeCab+IPAdic1.78
MeCab+UniDic1.54
OpenJTalk1.03
Sudachi1.83
Vaporetto1.86

主要发现:

  • 模型规模:在解析模式下,CER随模型规模增大而单调递减(如Qwen3.5系列:2B 41.87% -> 4B 23.00% -> 9B 14.17% -> 27B 6.27%),符合规模定律。
  • 版本与专门化:更新版本模型性能更优(Gemma3-27B vs Gemma2-27B)。日语专门化训练(Swallow系列)显著降低CER(如Llama3.3-Swallow-70B 2.85% vs Llama3.3-70B 6.58%)。
  • 提示模式:解析模式在绝大多数模型上优于直接模式,尤其对小模型优势巨大。例外是Gemini 3.1 Pro和GPT-5.2,其直接模式略优,因其能更好地遵循复杂指令并正确处理数词量词(如“2人”)。
  • LLM vs 工具:Claude Opus (0.52%) 和 Gemini 3.1 Pro (0.62%) 在解析模式下超越最佳传统工具 OpenJTalk (1.03%)。LLM在处理未登录词(如“剣歯虎”)上更强,但偶尔会误读常见词(如“本名”)。
  • 思考模式:对Gemini 3 Flash进行实验,思考模式将CER从0.94%降至0.54%,显示了推理能力对高准确性模型的进一步提升潜力。

TTS对比实验(表2):

系统输入CER(%)UTMOS
G2P + 假名输入TTS (微调CosyVoice 2)
Oracle (真实假名)假名2.103.81
Gemini 3.1 Pro (直接)假名2.383.82
Claude Opus 4.6 (解析)假名2.693.82
端到端TTS
Gemini 2.5 Flash TTS文本3.963.75
Qwen 3 TTS (1.7B)文本4.314.00
CosyVoice 2文本12.083.45
ElevenLabs v2文本13.963.36

G2P+TTS路径(如Gemini 3.1 Pro: 2.38%)在发音准确度上显著优于端到端TTS系统,同时UTMOS分数(约3.82)与最佳端到端系统相当。

图3

⚖️ 评分理由

  • 创新性 (1.2/2):问题定义明确,但核心贡献是详尽的评估而非提出突破性新方法或理论。提出的“解析/直接”二分法是直观的工程选择,而非深刻的方法论创新。
  • 技术严谨性 (1.2/1.5):实验设计合理,控制了后处理规则等变量,分析了多个影响因素。但对错误模式的统计分析不够深入,例如未量化数词量词分割错误的比例,也未深入分析直接模式失败的具体原因(是指令遵循问题还是能力不足)。
  • 实验充分性 (1.5/1.5):实验非常充分,模型覆盖面广(30+),对比基线全面(传统工具+端到端TTS),分析维度清晰(规模、版本、模式、思考模式),并公开了数据集。
  • 清晰度 (1.2/1.5):论文结构清晰,方法描述和实验设置交代得较为清楚。但部分结果分析(如不同模型家族的缩放行为)可以更系统化地呈现。
  • 影响力 (0.8/1.5):对日语语音合成社区有直接的实用价值,提供了模型选型指南。但研究问题(LLM for G2P)的普适性有限,跨语言或对更广泛的语音处理领域的推动作用一般。
  • 开源 (1.2/1.5):提供了评估脚本和数据集(3000句标注),代码仓库可访问。但论文中提到的“对CosyVoice 2模型进行LoRA微调”未提供具体配置或模型权重,可复现性部分受限。
  • 可复现性 (1.0/1.5):提供了数据集和评估脚本,但TTS对比实验中的关键组件——微调后的CosyVoice 2模型——的训练细节和权重未公开,使得该部分结果难以完全复现。
  • 工程/实践价值 (1.0/1.5):对构建高准确度日语TTS系统具有明确的实践指导意义,展示了“LLM-G2P + 假名TTS”路径的优越性。但未讨论推理延迟和成本,这是实际部署的关键因素。

🚨 局限与问题

  1. 错误分析的深度不足:论文仅列举了少数定性错误案例(如错误读音例子),但缺乏系统的定量错误分析。例如,未统计不同错误类型(词分割错误、读音估测错误、发音规则应用错误)的分布比例,这使得对模型瓶颈的理解停留在表面。
  2. 计算效率与成本被忽略:论文完全没有报告不同规模LLM在G2P任务上的推理延迟、吞吐量或API调用成本。对于“最佳模型”的推荐,若不考虑实时性和成本,其实际应用价值将大打折扣。这是一个关键的实践性缺失���
  3. TTS对比实验的设计局限:
    • 不公平对比:G2P+TTS路径使用的是针对假名输入专门微调过的CosyVoice 2,而对比的端到端TTS系统(Gemini 2.5 Flash TTS等)是预训练模型。这种对比可能高估了G2P路径的优势。更公平的对比应在相同微调程度下进行。
    • TTS系统选择偏颇:论文未说明为何选择CosyVoice 2作为微调基座和主要对比对象。缺少对其他主流日语TTS引擎(如VOICEVOX, CoeFont)或更强大的E2E模型(如VALL-E X, F5-TTS)的对比,结论的普适性受限。
    • 自然度评估单一:仅使用UTMOS(客观指标)评估自然度,缺少主观MOS评分,而UTMOS的分数差异(0.5左右)可能不具显著感知差异。
  4. 对“思考模式”的探索有限:仅在一个模型(Gemini 3 Flash)上验证了思考模式的正面效果。结论“推理可进一步提高准确性”基于单一案例,可能不具备普遍性,需要更广泛的验证。
  5. 未讨论泛化性与鲁棒性:评测集来自单一语料库(JVS),且句子为“非平行”文本,但未必覆盖所有真实场景。论文未探讨模型对极罕见专有名词、特定领域文本(如医学、法律)、或方言/古语读音的处理能力,鲁棒性未知。
  6. 结论表述可能过强:例如,“解析模式优于直接模式”是一个较强的全局结论,但论文也指出了Gemini 3.1 Pro和GPT-5.2的例外。更严谨的说法应是“对于大多数已评估的当前LLM,解析模式更优”。

← 返回 2026-06-23 语音/音乐/音频论文速递