📄 Tadabur: A Large-Scale Quran Audio Dataset

#语音识别 #领域适应 #数据集 #多语言

✅ 评分：7.0/10 | arxiv

👥 作者与机构

第一作者：Faisal Alherran (利雅得，沙特阿拉伯 - alherranfaisal@gmail.com)
通讯作者：Faisal Alherran (同上)
其他作者：无。论文仅列出一位作者。

💡 毒舌点评

亮点：这论文最实在的地方就是“大力出奇迹”，用一套组合拳（LLM+Whisper+Embedding）硬生生把散落在网络各处的古兰经朗诵音频，整合成了一个规模空前、标注精细的“数据航母”，直接把该领域的数据门槛拉高了好几个档次。槽点：方法上更像是“系统集成创新”，用的都是现成的明星模型（Whisper, Gemini），自己炼的“新丹”（Tadabur fine-tuned ASR）效果提升也有限。说白了，这是一篇出色的“数据工程”报告，而非“算法突破”论文。

🔗 开源详情

代码：开源。论文提供了GitHub链接。
模型权重：论文中提到的“Tadabur fine-tuned model”（基于Whisper Small微调）是否开源未在正文明确说明，但数据集本身在HuggingFace上开源。
数据集：完全开源。包含超过1400小时的音频和词级对齐标注。在HuggingFace和项目主页上提供。
预训练权重：未提供。流水线中使用的模型（如Whisper, SILMA, EAT）均为已有公开模型。
在线Demo：论文中未提及。
引用的开源项目：WhisperX, SILMA Embedding模型, EAT模型, Quran API等。

📌 核心摘要

本文旨在解决古兰经语音研究领域缺乏大规模、多样化、细粒度标注数据集的问题。为此，作者提出了Tadabur数据集及其自动化构建流水线。该流水线首先从公共平台收集音频，并利用大语言模型（Gemini）从非结构化文本中提取标准化元数据（如章节、朗诵者）。核心步骤是Ayah Alignment Module (AAM)，它利用Whisper/WhisperX进行语音识别和词级对齐，再通过SILMA嵌入模型的语义相似度匹配，将转录文本与《古兰经》标准文本进行对齐，从而实现从长录音中精准分割出经文（Ayah）级别的音频片段。最后，通过基于ASR的内容验证和基于音频嵌入的去重进行数据清洗。最终构建的Tadabur数据集包含超过1400小时音频，来自600多位不同朗诵者，提供了词级时间戳和结构化元数据。实验评估表明，所选的语义对齐方法和领域适配ASR模型能达到96.63%的对齐覆盖率。该数据集为古兰经语音识别、朗诵风格分析等研究提供了重要基础资源。

🏗️ 模型架构

本文的核心“架构”并非一个端到端的神经网络模型，而是一个多阶段、模块化的数据处理流水线。其整体流程如下：

输入：从网络收集的、包含长篇朗诵（整章或整卷）的原始音频文件及其伴随的非结构化文本描述（标题、标签等）。
元数据提取与过滤：
- 组件：大语言模型（Gemini 2.5 Flash）。
- 功能：接收文本描述，判断是否为有效的古兰经朗诵，并提取结构化元数据（章节名、朗诵者身份）。
- 输出：过滤后的有效音频文件及其标准化元数据。
语音识别与词级对齐：
- 组件：Whisper Large v3 + WhisperX。
- 功能：对音频进行语音识别，生成带词级时间戳的转录文本。
- 输出：包含词及起止时间戳的转录结果。
经文级对齐与分割 (核心 - Ayah Alignment Module, AAM)：
- 子模块1：语义匹配：
  - 输入：WhisperX转录文本片段、来自Quran API的标准经文文本。
  - 处理：分别使用SILMA嵌入模型生成文本片段和标准经文的向量，计算余弦相似度。超过阈值则视为匹配成功。
  - 输出：匹配的经文及其在音频中的粗略起止时间。
- 子模块2：朗诵边界精修：
  - 输入：粗略分割的音频片段。
  - 处理：使用一个专门的“recitation-segmenter-v2”模型检测朗诵自然停顿点。为防止截断，在粗略结束点后附加5秒缓冲区，再进行边界检测，最后将检测到的自然结束点与WhisperX时间戳调和。
  - 输出：精确的、以自然停顿为终点的单条经文音频片段。
数据清洗与去重：
- 组件：EAT（高效音频Transformer）模型、并查集（Union-Find）数据结构。
- 功能：对同一朗诵者同一经文的多个录音，提取音频嵌入并计算相似度，超过阈值（0.9）视为重复，通过图算法聚类后每组仅保留一个代表。
- 输出：去重后的最终数据集。
输出：成对的（音频文件， JSON元数据文件）。JSON中包含经文文本、朗诵者、章节以及词级时间戳等结构化信息。

💡 核心创新点

面向古兰经的大规模自动化数据构建流水线：这是最主要的贡献。论文提出并实现了一个端到端的、从数据收集、清洗、标注到最终发布的完整自动化框架，解决了该领域数据稀缺且构建困难的核心问题。
基于语义嵌入的经文对齐方法：相比传统的模糊文本匹配（Fuzzy Matching），采用SILMA嵌入模型进行语义相似度计算，能更好地应对古兰经朗诵中因音律、延长音导致的转录文本与标准文本在表面形式上的差异，将对齐覆盖率从~~86%提升至~~96.6%。
朗诵边界感知的精细分割：在初步对齐后，引入专门的朗诵边界检测模型进行后处理，确保分割出的音频片段以朗诵者的自然停顿结束，而非机械地截断于识别词的结束点，提高了片段质量。
基于音频嵌入的高效去重策略：利用预训练的音频模型（EAT）提取嵌入，并结合并查集数据结构进行可扩展的去重，有效处理了大规模数据中普遍存在的重复录音问题。

🔬 细节详述

训练数据：本文主要贡献是构建数据集，而非训练一个新模型。所提及的“Tadabur fine-tuned model”是基于Whisper Small在自有数据上微调的ASR模型，但论文未提供微调的具体数据规模、超参数等细节。
损失函数/训练策略/关键超参数：这些信息主要针对文中提到的已有模型（如Whisper, EAT），但论文未详述其训练过程。文中明确给出的关键超参数包括：
- 去重相似度阈值：0.9
- 边界精修缓冲区时长：5秒（经验值）
- 对齐方法：SILMA Embedding + 余弦相似度，阈值未明确给出。
推理细节：流水线推理涉及多个模型调用。对于对齐模块，核心是生成嵌入并计算相似度。对于边界精修，使用了“recitation-segmenter-v2”模型进行推理。
数据增强/正则化：未提及。本文工作重点是数据构建而非模型训练。

📊 实验结果

表1：不同对齐方法和ASR模型在5位朗诵者上的对齐覆盖率（%）

对齐方法	ASR模型	Abd al-Basit	Al-Qasim	Al-Sudais	Al-Shuraim	Al-Dosari	平均
SILMA Emb.	Tadabur (Ours)	95.61	97.73	94.47	98.14	97.18	96.63
SILMA Emb.	Whisper-Quran	97.25	96.70	92.69	92.61	98.23	95.50
SILMA Emb.	Whisper Small	79.67	82.35	76.34	86.95	87.56	82.57
Fuzzy Match	Tadabur (Ours)	80.76	89.57	83.48	92.00	84.35	86.03
Fuzzy Match	Whisper-Quran	87.29	91.42	83.33	84.41	89.68	87.23
Fuzzy Match	Whisper Small	69.75	73.26	67.00	78.25	75.75	72.80

表3：各ASR模型在Tadabur测试集上的性能（WER和CER）

模型	参数量	WER (%) ↓	CER (%) ↓
Whisper-Quran	74M	8.7	6.5
Cohere Transcribe	2B	11.2	8.1
Voxtral Mini	4B	15.1	11.2
VibeVoice-ASR	7B	24.3	14.0
Qwen3-ASR-1.7B	1.7B	25.2	9.9
Whisper Small	244M	29.2	16.1
MMS 1B	1B	51.1	16.6
Wav2Vec2 XLSR-53 Arabic	300M	57.4	21.9

主要发现：

对齐方法：语义嵌入（SILMA）方法在所有ASR模型上均显著优于模糊匹配，平均提升超过10个百分点。
ASR模型：在对齐任务中，领域适配模型（Tadabur, Whisper-Quran）远超通用模型（Whisper Small）。在最终的ASR基准测试中，最小的领域适配模型Whisper-Quran（74M）取得了最好的WER（8.7%），证明了领域适应的重要性。
数据集规模对比：Tadabur在片段数（365,000+）、朗诵者数（600+）和是否提供词级对齐方面，全面超越了之前的主要数据集（Kaggle, SLR132, Buraaq）。

⚖️ 评分理由

创新性：6.5/10 - 创新点在于针对特定领域问题的系统性工程解决方案和流程设计，而非基础算法的突破。将多种现有技术有效整合并适配于古兰经这一特殊场景，是其价值所在。
实验充分性：7.5/10 - 实验设计合理，清晰地验证了流水线核心组件（对齐模块）的有效性，并提供了与基线方法的详细对比。在数据集发布时附带了多个主流ASR模型的基准测试结果，为后续研究提供了有价值的参考。
实用价值：8.0/10 - 实用价值非常高。它直接填补了古兰经语音研究领域的关键资源空白，1400+小时的规模和高质量的细粒度标注将极大促进该领域的研究进展，包括ASR、朗诵风格分析、发音评估等。开源发布也确保了其可复用性。
灌水程度：2.0/10 - 论文内容紧凑，聚焦于数据集构建方法和结果展示，没有明显的冗余内容或夸大表述。方法描述清晰，实验目标明确。

🖼️ 图片与表格

图1: Ayah Alignment Module (AAM) 高层流程图 | 保留: 是 - 理由：清晰展示了从长音频到最终WAV+JSON输出的核心处理流程，是理解论文方法的关键。
图2: 语义相似度计算子流程 | 保留: 是 - 理由：详细说明了AAM中“Normalization -> SILMA -> Similarity”的具体步骤，解释了核心的对齐机制。
图3: 朗诵边界精修子流程 | 保留: 是 - 理由：展示了如何利用专用分割模型对初步分割的音频进行端点修正，是保证数据质量的重要环节。
图4: LLM元数据提取与过滤示意图 | 保留: 是 - 理由：直观展示了如何利用LLM从混乱的文本描述中提取有效信息并过滤无效数据，是流水线的第一步。
图5: 去重流程图 | 保留: 是 - 理由：说明了基于音频嵌入和图算法的去重过程，对于理解如何保证数据集唯一性很重要。
表1（对齐覆盖率对比） | 保留: 是 - 理由：核心实验结果，定量证明了所选语义对齐方法和领域ASR模型的优势。
表2（数据集规模对比） | 保留: 是 - 理由：直观展示了Tadabur数据集相对于已有工作的巨大规模优势，是论文价值的核心体现。
表3（ASR模型基准测试） | 保留: 是 - 理由：为社区提供了在新数据集上的模型性能基线，验证了数据集作为基准测试平台的有效性，并再次强调了领域适应的重要性。

📸 论文图片

← 返回 2026-04-22 论文速递

📄 Tadabur: A Large-Scale Quran Audio Dataset#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

🖼️ 图片与表格#

📸 论文图片#

📎 相关论文