📄 Tadabur: A Large-Scale Quran Audio Dataset

#语音识别 #数据集 #领域适应 #多语言

✅ 7.5/10 | 前25% | #语音识别 | #数据集 | #领域适应 #多语言 | arxiv

学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高

👥 作者与机构

第一作者：Faisal Alherran（未说明具体机构，仅标注地点为Riyadh, Saudi Arabia）
通讯作者：Faisal Alherran（alherranfaisal@gmail.com）
作者列表：
- Faisal Alherran（未说明具体机构）

💡 毒舌点评

亮点：数据集规模（1400+小时，600+诵读者）和多样性堪称古兰经语音领域的“ImageNet”，其自动化处理流水线（融合LLM、ASR、语义对齐）设计得相当完整且有效，为构建垂直领域大规模数据集提供了可借鉴的范本。短板：本质上是数据集工程论文，技术深度有限，核心流水线是现有技术的巧妙组合而非原创算法；对“古兰经”这一特殊领域的语音特性（如诵读规则tajwīd）如何影响模型性能的分析可以更深入。

🔗 开源详情

代码：论文中提到了GitHub和Hugging Face链接（Github | Huggingface | Tadabur Page），但未在提供的文本中给出具体URL。因此，推测有相关代码或数据页面，但详情未知。
模型权重：论文中未提及公开其微调的Whisper模型（Tadabur fine-tuned model）权重。只提及了评估时使用的开源模型权重（如Whisper-Quran）。
数据集：是，论文明确表示Tadabur数据集是开源的，并提供了获取途径（推测通过Hugging Face）。
Demo：未提及。
复现材料：论文提供了流水线各阶段的详细描述和评估结果，但未提供具体的训练超参数、配置文件或检查点，复现其微调ASR模型存在困难。
论文中引用的开源项目：
- WhisperX (用于对齐)
- SILMA AI Embedding Model (用于语义匹配)
- Efficient Audio Transformer (EAT) (用于去重)
- Whisper-Quran (用于评估和对比)
- 其他多个ASR模型（Whisper, MMS, Qwen3-ASR等）用于评估。
论文中未提及开源计划：论文未明确说明其数据处理流水线代码是否会开源。

📌 核心摘要

问题：现有的古兰经语音数据集在规模、诵读者多样性、音频质量和标注深度上存在严重不足，限制了古兰经ASR、诵读者识别等任务的研究进展。
方法核心：提出Tadabur数据集及其构建流水线。流水线核心是“古兰经经文对齐模块”（AAM），它结合WhisperX进行初步转录，再利用SILMA嵌入模型进行语义相似度匹配，将音频精确对齐到古兰经原文，并辅以LLM元数据提取、ASR内容过滤和音频去重。
新意：首次构建了超过1400小时、涵盖600多位不同诵读者的古兰经语音数据集，规模和多样性远超前人。同时，提出了一套完整的、可扩展的自动化数据处理与质量控制流水线。
主要结果：在AAM的评估中，使用SILMA嵌入和微调过的Whisper模型（Tadabur fine-tuned）达到了96.63%的平均对齐覆盖率。在下游ASR评估中，针对古兰经微调的Whisper-Quran模型（74M参数）取得了最佳的WER（8.7%）和CER（6.5%），显著优于更大的通用模型（如Cohere Transcribe的11.2% WER）。
实际意义：为古兰经语音研究提供了前所未有的高质量、大规模基准数据集，有助于推动该领域ASR模型的性能提升，并支持诵读风格、韵律等更深入的分析。
主要局限性：部分诵读者的音频覆盖不完整；自动生成的词级时间戳精度有待提高，因为对齐模型并非专为古兰经诵读设计。

🏗️ 模型架构

本文的核心贡献是数据集构建流水线，而非一个单一的端到端模型。该流水线是一个多阶段的自动化系统，主要包含以下组件：

数据收集与预处理：从公开平台收集长篇古兰经诵读音频，统一格式和采样率。
元数据提取：使用Gemini 2.5 Flash大语言模型，从音频文件的标题、描述等非结构化文本中提取标准化的元数据（如章节名、诵读者身份）。
古兰经经文对齐模块（AAM）：流水线的核心。其流程为：
- 输入：长篇音频。
- ASR转录与对齐：使用Whisper Large v3 + WhisperX进行语音识别，获得带时间戳的转录文本。
- 语义匹配与分割：将WhisperX输出的转录片段与从Quran API获取的古兰经原文经文进行匹配。具体做法是：将原文经文和转录片段分别通过SILMA AI嵌入模型转换为向量，计算余弦相似度，超过阈值则视为匹配成功，并提取对应的时间戳进行初步分割。
- 诵读边界修正：为确保分割后的音频片段恰好结束于诵读者自然停顿处，使用一个专门的**诵读边界检测模型（recitation-segmenter-v2）**对初步片段进行处理，修正结束点。
数据清洗与策展：包括基于LLM的元数据验证、基于ASR对齐的内容过滤（无法对齐的即为非古兰经内容），以及使用**高效音频Transformer（EAT）**提取音频嵌入进行相似度计算，从而去除重复或近似重复的录音。
输出：最终生成以经文为单位的WAV音频文件及其对应的JSON格式元数据（包含词级时间对齐）。

💡 核心创新点

前所未有的数据集规模与多样性：构建了首个超过1400小时、涵盖600多位诵读者的古兰经语音数据集，在规模和诵读者覆盖面上实现了数量级的提升，为训练鲁棒的领域模型奠定了基础。
端到端的自动化数据处理流水线：设计并实现了一个从原始音频到高质量、带标注数据集的完整自动化流水线，融合了LLM、ASR、语义嵌入和音频分析等多种技术，为构建类似垂直领域数据集提供了范式。
基于语义嵌入的鲁棒对齐方法：在经文对齐环节，创新性地采用语义嵌入（SILMA）代替传统的模糊文本匹配，有效解决了古兰经诵读中音素延长、风格化发音导致的文本匹配失败问题，将对齐覆盖率从86.03%大幅提升至96.63%。
多维度数据质量控制：提出了结合元数据验证、ASR内容过滤和音频嵌入去重的三重策展机制，确保了数据集的纯净度和一致性。

🔬 细节详述

训练数据：
- 数据集构建数据：来源为公开的古兰经音频发布平台，具体平台名称未在论文中说明。规模为1400+小时，涵盖113个章节（除开端章外），600+诵读者。
- 下游ASR评估数据：使用Tadabur数据集本身进行评估。
损失函数：未说明。本文不涉及新模型的训练，主要使用现有模型（如Whisper）进行转录和对齐。
训练策略：未说明。论文未详细描述其微调Whisper模型（Tadabur fine-tuned model）的具体训练策略（如学习率、优化器等）。
关键超参数：
- 对齐阶段：语义相似度阈值未明确给出数值（仅提及“predefined threshold”）。
- 去重阶段：音频嵌入相似度阈值为0.9。
- 音频处理：统一为WAV格式和固定采样率（具体数值未说明）。
训练硬件：未说明。
推理细节：未说明。评估时使用标准的WER/CER计算，模型推理设置未提及。
正则化或稳定训练技巧：不适用。

📊 实验结果

流水线对齐质量评估（表1）：
- 最佳配置：SILMA Embedding + Tadabur (Ours) ASR模型，在5位诵读者上平均对齐覆盖率为 96.63%。
- 对比：
  - 相比模糊文本匹配（Fuzzy Match），平均覆盖率从86.03%提升至96.63%，提升超过10个百分点。
  - 相比未适配领域的Whisper Small模型，在SILMA Embedding下，平均覆盖率从82.57%提升至96.63%。
  - 与另一个领域适配模型Whisper-Quran相比，两者在SILMA Embedding下表现接近（96.63% vs 95.50%）。
下游ASR模型评估（表3）：
- 最佳模型：Whisper-Quran（74M参数），WER为 8.7%，CER为 6.5%。
- 对比：
  - 显著优于更大的通用多语言模型，如Cohere Transcribe（2B参数，WER 11.2%）、Voxtral Mini（4B参数，WER 15.1%）。
  - 远优于未经领域适配的模型，如MMS 1B（WER 51.1%）和Wav2Vec2 XLSR-53 Arabic（WER 57.4%）。
- 结论：在古兰经ASR任务上，领域适配（fine-tuning）比模型规模更重要。
数据集规模对比（表2）：
- Tadabur：365,000+片段，600+诵读者，有转录和词级对齐。
- SLR132：226,129片段，30诵读者，有转录无词级对齐。
- Buraaq：187,080片段，30诵读者，有转录无词级对齐。

⚖️ 评分理由

学术质量（5.5/7）：论文在数据集构建的工程实践上扎实可靠，流水线设计逻辑清晰，实验验证了关键模块的有效性。主要扣分点在于，其核心贡献是数据集和流水线，而非提出新的学术算法，创新性更多体现在应用集成和规模上。
选题价值（1.5/2）：古兰经语音处理是一个有明确需求且研究相对不足的领域。Tadabur数据集的发布有望成为该领域的标准基准，推动相关技术发展，价值明确。
开源与复现加成（0.5/1）：最大的亮点是开源了大规模数据集。论文也提及了所依赖的开源工具，但未提供构建流水线的完整代码，因此复现加成适中。

📸 论文图片

← 返回 2026-04-23 论文速递

📄 Tadabur: A Large-Scale Quran Audio Dataset#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

📸 论文图片#

📎 相关论文