Tadabur: A Large-Scale Quran Audio Dataset
📄 Tadabur: A Large-Scale Quran Audio Dataset #语音识别 #领域适应 #数据集 #多语言 ✅ 评分:7.0/10 | arxiv 👥 作者与机构 第一作者:Faisal Alherran (利雅得,沙特阿拉伯 - alherranfaisal@gmail.com) 通讯作者:Faisal Alherran (同上) 其他作者:无。论文仅列出一位作者。 💡 毒舌点评 亮点:这论文最实在的地方就是“大力出奇迹”,用一套组合拳(LLM+Whisper+Embedding)硬生生把散落在网络各处的古兰经朗诵音频,整合成了一个规模空前、标注精细的“数据航母”,直接把该领域的数据门槛拉高了好几个档次。槽点:方法上更像是“系统集成创新”,用的都是现成的明星模型(Whisper, Gemini),自己炼的“新丹”(Tadabur fine-tuned ASR)效果提升也有限。说白了,这是一篇出色的“数据工程”报告,而非“算法突破”论文。 📌 核心摘要 本文旨在解决古兰经语音研究领域缺乏大规模、多样化、细粒度标注数据集的问题。为此,作者提出了Tadabur数据集及其自动化构建流水线。该流水线首先从公共平台收集音频,并利用大语言模型(Gemini)从非结构化文本中提取标准化元数据(如章节、朗诵者)。核心步骤是Ayah Alignment Module (AAM),它利用Whisper/WhisperX进行语音识别和词级对齐,再通过SILMA嵌入模型的语义相似度匹配,将转录文本与《古兰经》标准文本进行对齐,从而实现从长录音中精准分割出经文(Ayah)级别的音频片段。最后,通过基于ASR的内容验证和基于音频嵌入的去重进行数据清洗。最终构建的Tadabur数据集包含超过1400小时音频,来自600多位不同朗诵者,提供了词级时间戳和结构化元数据。实验评估表明,所选的语义对齐方法和领域适配ASR模型能达到96.63%的对齐覆盖率。该数据集为古兰经语音识别、朗诵风格分析等研究提供了重要基础资源。 🏗️ 模型架构 本文的核心“架构”并非一个端到端的神经网络模型,而是一个多阶段、模块化的数据处理流水线。其整体流程如下: 输入:从网络收集的、包含长篇朗诵(整章或整卷)的原始音频文件及其伴随的非结构化文本描述(标题、标签等)。 元数据提取与过滤: 组件:大语言模型(Gemini 2.5 Flash)。 功能:接收文本描述,判断是否为有效的古兰经朗诵,并提取结构化元数据(章节名、朗诵者身份)。 输出:过滤后的有效音频文件及其标准化元数据。 语音识别与词级对齐: 组件:Whisper Large v3 + WhisperX。 功能:对音频进行语音识别,生成带词级时间戳的转录文本。 输出:包含词及起止时间戳的转录结果。 经文级对齐与分割 (核心 - Ayah Alignment Module, AAM): 子模块1:语义匹配: 输入:WhisperX转录文本片段、来自Quran API的标准经文文本。 处理:分别使用SILMA嵌入模型生成文本片段和标准经文的向量,计算余弦相似度。超过阈值则视为匹配成功。 输出:匹配的经文及其在音频中的粗略起止时间。 子模块2:朗诵边界精修: 输入:粗略分割的音频片段。 处理:使用一个专门的“recitation-segmenter-v2”模型检测朗诵自然停顿点。为防止截断,在粗略结束点后附加5秒缓冲区,再进行边界检测,最后将检测到的自然结束点与WhisperX时间戳调和。 输出:精确的、以自然停顿为终点的单条经文音频片段。 数据清洗与去重: 组件:EAT(高效音频Transformer)模型、并查集(Union-Find)数据结构。 功能:对同一朗诵者同一经文的多个录音,提取音频嵌入并计算相似度,超过阈值(0.9)视为重复,通过图算法聚类后每组仅保留一个代表。 输出:去重后的最终数据集。 输出:成对的(音频文件, JSON元数据文件)。JSON中包含经文文本、朗诵者、章节以及词级时间戳等结构化信息。 💡 核心创新点 面向古兰经的大规模自动化数据构建流水线:这是最主要的贡献。论文提出并实现了一个端到端的、从数据收集、清洗、标注到最终发布的完整自动化框架,解决了该领域数据稀缺且构建困难的核心问题。 基于语义嵌入的经文对齐方法:相比传统的模糊文本匹配(Fuzzy Matching),采用SILMA嵌入模型进行语义相似度计算,能更好地应对古兰经朗诵中因音律、延长音导致的转录文本与标准文本在表面形式上的差异,将对齐覆盖率从86%提升至96.6%。 朗诵边界感知的精细分割:在初步对齐后,引入专门的朗诵边界检测模型进行后处理,确保分割出的音频片段以朗诵者的自然停顿结束,而非机械地截断于识别词的结束点,提高了片段质量。 基于音频嵌入的高效去重策略:利用预训练的音频模型(EAT)提取嵌入,并结合并查集数据结构进行可扩展的去重,有效处理了大规模数据中普遍存在的重复录音问题。 🔬 细节详述 训练数据:本文主要贡献是构建数据集,而非训练一个新模型。所提及的“Tadabur fine-tuned model”是基于Whisper Small在自有数据上微调的ASR模型,但论文未提供微调的具体数据规模、超参数等细节。 损失函数/训练策略/关键超参数:这些信息主要针对文中提到的已有模型(如Whisper, EAT),但论文未详述其训练过程。文中明确给出的关键超参数包括: 去重相似度阈值:0.9 边界精修缓冲区时长:5秒(经验值) 对齐方法:SILMA Embedding + 余弦相似度,阈值未明确给出。 推理细节:流水线推理涉及多个模型调用。对于对齐模块,核心是生成嵌入并计算相似度。对于边界精修,使用了“recitation-segmenter-v2”模型进行推理。 数据增强/正则化:未提及。本文工作重点是数据构建而非模型训练。 📊 实验结果 表1:不同对齐方法和ASR模型在5位朗诵者上的对齐覆盖率(%) ...