📄 Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences

#语音识别 #数据集 #大语言模型 #多模态模型 #多语言

7.5/10 | 前25% | #语音识别 | #大语言模型 | #数据集 #多模态模型

学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高

👥 作者与机构

  • 第一作者:Dmitrii Korzh(AXXX, Moscow, Russia;MTUCI, Moscow, Russia)
  • 通讯作者:论文中未明确标注通讯作者
  • 作者列表:Dmitrii Korzh(AXXX, MTUCI),Dmitrii Tarasov(FusionBrain Lab, AXXX; HSE University),Artyom Iudin(AXXX; MTUCI),Elvir Karimov(AXXX; MTUCI; Applied AI Institute),Matvey Skripkin(FusionBrain Lab, AXXX; Applied AI Institute),Nikita Kuzmin(AXXX; MTUCI; Applied AI Institute),Andrey Kuznetsov(FusionBrain Lab, AXXX; Innopolis University),Oleg Y. Rogov(AXXX; MTUCI; Applied AI Institute),Ivan Oseledets(AXXX; Applied AI Institute; Moscow State University)

💡 毒舌点评

亮点在于,论文贡献了一个规模空前、标注细致的开源S2L数据集,并系统性地探索了从ASR后校正到端到端Audio-LLM的多种技术路线,为这个细分领域确立了坚实的基准和评估框架。短板是,无论是ASR后校正还是端到端方法,模型架构本身均无显著创新,更多是现有技术的组合与应用,其性能提升很大程度上依赖于新构建的高质量数据集。

🔗 开源详情

  • 代码:提供代码仓库链接 https://github.com/dkorzh10/speech2latex
  • 模型权重:论文中未提及公开预训练模型权重。但基于开源数据集和代码,可进行训练复现。
  • 数据集:完全开源,托管于Hugging Face:https://huggingface.co/datasets/marsianin500/Speech2Latex
  • Demo:论文中未提及在线演示。
  • 复现材料:提供了详细的训练超参数、模型配置(如LoRA设置)、数据集划分策略和附录说明。
  • 论文中引用的开源项目:Whisper, BEATs, Qwen2.5, Qwen2.5-Math, SALMONN, LLaMA, XTTSv2, MathBridge, TextTeller, Proof-Pile, KaTeX。

📌 核心摘要

该论文旨在解决将语音中的数学表达式和句子准确转换为LaTeX格式的挑战,该任务在教育(如课堂转录)和科研中具有重要应用价值。论文的核心贡献是构建并开源了首个大规模、多语言(英语和俄语)的语音转LaTeX数据集S2L,包含约66k人类标注和571k TTS合成的音频样本,涵盖孤立方程(S2L-equations)和嵌入公式的句子(S2L-sentences)两种类型。方法上,论文系统评估了基于ASR后校正(使用Whisper转录后接微调的LLM)和端到端Audio-LLM(如SALMONN)的多种技术路径。主要实验结果表明,在S2L-equations基准上,其最佳模型(SALMONN-13B)的字符错误率(CER)达到17.5%,而基于后校正的Qwen2.5-0.5B模型CER为27.2%,均显著优于MathSpeech基线(64.0%)。在S2L-sentences基准上,模型在句子整体CER为15.4%,其中公式部分的CER为39.7%,揭示了处理上下文相关数学语音的更大难度。这项工作为语音驱动的数学内容理解提供了重要资源和强基线,但局限在于当前数据集未能完全覆盖真实课堂环境(如口头解释、视觉内容关联),且模型在高度歧义或复杂嵌套表达式上仍有提升空间。

🏗️ 模型架构

论文并未提出一个全新的、统一的模型架构,而是评估了两大类现有技术路径在S2L任务上的表现:ASR后校正和端到端Audio-LLM。两者的核心流程如下:

  1. ASR后校正流程:

    • 输入:原始语音波形(重采样至16kHz)。
    • ASR模型:使用冻结的Whisper-Large v3将语音转录为文本(自然语言描述)。
    • LLM后校正:将ASR的文本转录作为输入,输入到微调过的大语言模型(如Qwen2.5系列、Qwen2.5-Math)中。LLM的任务是将非结构化的ASR转录“纠正”并“转换”为结构化的LaTeX代码。
    • 输出:LaTeX格式的数学表达式或句子。
    • 关键点:这是一种两阶段流水线,依赖于中间ASR转录的质量。论文实验了不同规模(0.5B, 1.5B, 7B)和类型(通用 vs. 数学专用)的LLM进行微调。
  2. 端到端Audio-LLM流程(以SALMONN为例):

    • 输入:原始音频波形和文本提示(Prompt)。
    • 音频编码:使用两个预训练的音频编码器(如Whisper和BEATs)分别提取音频的声学特征和语义特征。
    • 模态对齐:通过适配器(如Q-Former)将不同编码器输出的音频特征向量进行融合和对齐,生成与LLM词嵌入维度兼容的音频标记(Audio Tokens)。
    • 语言模型解码:将音频标记与文本提示标记拼接,输入到基于LLaMA的大语言模型中,进行自回归生成,直接输出LaTeX序列。
    • 关键设计:端到端地联合处理音频和文本,避免了ASR中间转录可能带来的信息损失和歧义放大。论文对SALMONN的LLaMA部分使用LoRA进行微调,同时冻结了音频编码器和适配器。

S2L方法示意图

(图1:论文中的图1,展示了S2L的两种主要方法示意图。左侧(a)是后校正方法,流程为“输入波形 -> ASR模型 -> 文本转录 -> 后校正LLM -> 输出LaTeX”。右侧(b)是多模态端到端方法(以SALMONN为例),流程为“输入波形 -> 双音频编码器(Whisper, BEATs) -> 适配器 -> 音频与文本提示标记 -> LLaMA LLM -> 下一token预测”。)

💡 核心创新点

  1. 首个大规模开源S2L数据集(S2L):解决了该领域缺乏高质量、大规模、多语言、多说话人语音-公式配对数据的瓶颈。数据集包含人类标注(确保真实性和多样性)和TTS合成(用于扩展规模),并涵盖了孤立方程和句子两种任务���型。
  2. 定义并建立“数学句子识别”新基准(S2L-sentences):将任务从处理孤立方程扩展到处理嵌入自然语言中的数学公式,这更贴近实际应用场景(如讲座转录),并揭示了新的挑战。
  3. 系统性的方法对比与基线建立:全面对比了从传统ASR后校正到前沿Audio-LLM等多种技术路线,并在自有新基准(S2L)和已有基准(MathSpeech)上建立了强大的性能基线,证明了方法的有效性。特别是,其模型在自有基准上大幅超越了MathSpeech模型。

🔬 细节详述

  • 训练数据:

    • S2L-equations:来自MathBridge(经筛选)、TextTeller(用GPT-4生成发音)、GPT-4生成。总计:英语6.5k人类标注音频,45万+ TTS音频;俄语4.3k人类标注音频,5.3万+ TTS音频。
    • S2L-sentences:来自Proof-Pile-2的arXiv子集(提取含行内公式的句子)。总计:1.2万+人类标注音频,6.7万+ TTS音频。
    • 预处理:对所有LaTeX方程进行标准化(基于KaTeX),移除不可编译样本;音频重采样至16kHz。
    • 数据增强:主要通过TTS模型(XTTSv2, SaluteSpeech等)生成合成语音进行数据增强。
  • 损失函数:未明确说明。根据任务性质,微调LLM进行序列生成时,推测使用交叉熵损失(Cross-Entropy Loss)。

  • 训练策略:

    • LLM微调:使用AdamW优化器,学习率1e-4(带线性调度),权重衰减0.01,批次大小16,训练1个epoch。对于7B参数模型,使用LoRA(rank=8, alpha=32或16)。
    • SALMONN微调:使用LoRA(rank=8, alpha=32, dropout=10%)微调LLaMA部分,冻结Whisper和BEATs。使用AdamW优化器,学习率3e-5(带warmup 3000步和余弦衰减),梯度累积3步,批次大小12,混合精度(float16),训练6个epoch。
    • 硬件:Qwen模型在单卡A100上训练;SALMONN在2张H100-80GB上训练。
  • 关键超参数:ASR模型为Whisper-Large v3;评估指标主要为字符错误率(CER)和TeXBLEU。

  • 推理细节:论文未详细说明。对于生成式LLM,通常使用贪婪解码或束搜索。

  • 正则化:SALMONN训练中使用了dropout(10%)。

📊 实验结果

论文在S2L-equations(英语测试集)和MathSpeech基准上进行了主要对比,并在S2L-sentences上验证了模型处理上下文公式的能力。

S2L-Equations 主要结果(英语测试集,Disjoint Split)

模型训练数据训练语言测试语言测试集CER↓测试集TeXBLEU↑
MathSpeechMS-train英语英语64.0483.71
Qwen2.5-0.5BMix-full英+俄英语27.2190.20
Qwen2.5-1.5BMix-full英+俄英语25.6990.70
Qwen2.5-Math-1.5BMix-full英+俄英语25.0190.90
SALMONN-13BMix-full英语英语17.5093.68
Flamingo-3-8BMix英语英语23.2591.32

跨基准对比(CER)

模型MathSpeech基准CER↓S2L-equations基准CER↓
MathSpeech模型27.7%64.0%
Qwen2.5-0.5B (本文)30.0%27.2%
SALMONN-13B (本文)27.7%17.5%

(论文中的图5/表格,展示了S2L-equations上的详细实验结果,包含不同模型、训练数据、语言设置下的CER和TeXBLEU分数。)

S2L-Sentences 结果示例(英语人类标注测试集)

模型训练数据句子整体CER↓文本部分CER↓公式部分CER↓公式部分TeXBLEU↑
Qwen2.5-7B (LoRA)Mix18.7512.3643.7585.46
SALMONN-13BMix15.439.5739.6885.76

S2L-sentences实验结果

(论文中的图6/表格,展示了S2L-sentences上的主要结果,对比了不同模型在句子、文本、公式各部分上的性能。)

关键结论:SALMONN-13B(端到端)在S2L-equations上取得了最佳性能。所有模型在S2L-sentences的公式部分CER(~40%)远高于孤立方程(~20-30%),证明了任务难度。少量样本提示(Few-shot)性能显著弱于微调模型。

⚖️ 评分理由

  • 学术质量:6.5/7:论文贡献扎实,工作量饱满。创新在于数据集构建和新任务定义,而非算法模型本身。实验设计严谨,对比充分(多模型、多数据、多语言),并提供了定性结果(图3)和错误分析。但核心方法(ASR后校正、微调Audio-LLM)均为现有技术应用。
  • 选题价值:1.5/2:任务垂直但应用明确。数据集的开源对社区有重要价值。成果可能促进教育科技、无障碍工具等领域的发展。
  • 开源与复现加成:0.5/1:完全开源了数据集和代码,训练细节描述清晰,复现门槛较低。未提供预训练模型权重,但已足够支撑研究复现。

← 返回 ICLR 2026 论文分析