Audio-Based Understanding of Audiobook Narration Appeal

📄 Audio-Based Understanding of Audiobook Narration Appeal #语音属性识别 6.9/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.5/1.5 | 开源 1.2/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 6.9/10 | 前50% | #语音属性识别 | #预训练 | arxiv 👥 作者与机构 第一作者:Shahar Elisha(Spotify) 通讯作者:Shahar Elisha (shahar@spotify.com) 作者列表:Shahar Elisha(Spotify)、Mariano Beguerisse-Díaz(Spotify)、Emmanouil Benetos(Queen Mary University of London) 💡 毒舌点评 本文的亮点在于首次将有声书叙述的声学特征与大规模真实消费数据系统性关联,并通过体裁内分析和书组内对比提供了细致的洞察。然而,消费代理指标(view-rate)极其粗糙,预测模型性能提升微弱(分类准确率仅比随机高0.1),声学特征分析仍停留在关联性层面,缺乏对叙述吸引力底层机制的因果性挖掘,整体影响力局限于有声书推荐这一小众应用场景。 📌 核心摘要 本文探索有声书叙述的声学特征(音调、语速、响度等)如何影响听众的吸引力,并特别考察体裁和书目标题的调节作用。方法上,从LibriVox的8,854本有声书中,利用eGeMAPS、YAMNet、Whisper-tiny等预训练模型提取并汇总声学与副语言特征,拼接为129维向量,再通过VIF剪枝和统计建模(GLM、LME、GLM per genre)评估特征与view-rate的关系,并辅以分类与排序预测任务。相比此前依赖小规模用户评分的研究,本文首次在数千本真实有声书上对叙述声学与消费数据进行系统性量化分析,并通过书组内对比控制内容差异。全球GLM的 pseudo-\(R^2\) 为0.09,31个特征效应显著(BH校正后),最高 \(|\beta| \le 0.13\);分类准确率最高仅0.35(随机基线0.25);排序任务在view-rate指标上的Kendall \(\tau\) 约为0.13,改用Spotify内部return-rate后提升至0.26-0.28,证明了声学特征对吸引力的影响具有稳健性,但效应量有限。不同体裁下,同类声学特征的效应方向和大小差异显著。局限性在于消费指标噪声大、仅包含公开领域业余朗读、未涉及听众人口特征,方法上属于关联性建模而非因果推断。实际应用价值在于为有声书推荐系统、叙述者选角提供数据驱动的参考依据。 ...

2026-07-03 · 更新于 2026-07-03 · 2 min · 281 words