Misinformation Span Detection in Videos via Audio Transcripts

📄 Misinformation Span Detection in Videos via Audio Transcripts #音频安全 #预训练 #多语言 #音视频 ✅ 7.5/10 | 前25% | #音频安全 | #预训练 | #多语言 #音视频 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Breno Matos (联邦米纳斯吉拉斯大学,工作完成时) 通讯作者:未说明 作者列表: Breno Matos (联邦米纳斯吉拉斯大学) Rennan C. Lima (未说明具体机构) Savvas Zannettou (未说明具体机构) Fabrício Benevenuto (未说明具体机构) Rodrygo L.T. Santos (未说明具体机构) 💡 毒舌点评 这篇论文的亮点在于敏锐地捕捉到了“视频虚假信息片段检测”这一空白任务,并提供了首个公开、标注的数据集,为后续研究铺平了道路。然而,其短板也十分明显:方法上缺乏实质创新,仅仅是现有语音转录模型(Whisper)和语言模型(BERTimbau/PTT5)的串联使用,更像是一个“数据集构建与初步验证”的工作,而非一个提出突破性算法的论文。 🔗 开源详情 代码:提供代码仓库链接(https://github.com/brenomatos/msd)。 模型权重:提及发布了训练好的模型权重,可通过HuggingFace获取。 数据集:公开发布。BOL4Y和EI22数据集(包括虚假声明、转录文本、标注)在Zenodo仓库(https://zenodo.org/records/19097541)。音频和视频文件托管在HuggingFace(https://huggingface.co/datasets/brenomatos/msd),需申请访问。 Demo:未提及。 复现材料:提供了数据集构建和模型训练的代码。论文附录详细说明了数据集的字段结构。 引用的开源项目: Whisper:用于语音转录。 BERTimbau:用于生成文本嵌入和作为分类器。 PTT5:用于作为分类器。 SentenceTransformers:用于获取嵌入。 Doccano:用于文本标注。 HuggingFace Transformers:用于模型实现。 📌 核心摘要 问题:现有视频虚假信息检测多停留在视频级别的二分类,无法定位视频中具体哪一段内容(即虚假声明)是问题所在,这给事实核查和内容审核带来了困难。 方法核心:提出“虚假信息片段检测”任务。方法流程为:使用Whisper将视频音频转录为文本片段;利用BERTimbau模型将片段和已知的虚假声明转换为向量,通过余弦相似度匹配可能包含虚假信息的片段;最后,使用BERTimbau或PTT5作为分类器,对转录片段进行二分类(是否为虚假信息)。 创新点:首次定义并研究该任务;构建并公开了两个包含时间戳标注的葡萄牙语虚假视频数据集(BOL4Y和EI22);进行了包括时间窗口分析、跨数据集评估在内的系统性基准实验。 主要实验结果:在BOL4Y数据集上,使用BERTimbau分类器在1:75的下采样比例下取得了最佳的Macro F1分数0.68。在“编辑版”数据集(使用记者润色后的声明)上,性能有所提升,最佳F1达到0.81。跨数据集实验(BOL4Y训练,EI22测试)取得了0.71的F1分数,表明模型具有一定的泛化能力。时间分析显示,模型性能在不同月份间存在波动。 实际意义:为自动化辅助事实核查人员定位视频中的虚假内容、为社交平台在虚假声明出现时精准添加警告标签提供了技术可能和数据基础。 主要局限性:依赖于音频转录质量,Whisper的自动分段可能不够精确;数据仅限于葡萄牙语和巴西政治语境,泛化性未知;分类性能(F1=0.68)仍有较大提升空间。 🏗️ 模型架构 本文没有提出新的模型架构,而是构建了一个基于现有预训练模型的处理流水线。整体流程如下: ...

2026-04-24 · 更新于 2026-05-20 · 2 min · 285 words

Preferences of a Voice-First Nation: Large-Scale Pairwise Evaluation and Preference Analysis for TTS in Indian Languages

📄 Preferences of a Voice-First Nation: Large-Scale Pairwise Evaluation and Preference Analysis for TTS in Indian Languages #语音合成 #模型评估 #多语言 #基准测试 ✅ 7.5/10 | 前25% | #语音合成 | #模型评估 | #多语言 #基准测试 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Srija Anand(Indian Institute of Technology, Madras; AI4Bharat) 通讯作者:未说明 作者列表:Srija Anand(Indian Institute of Technology, Madras; AI4Bharat)、Ashwin Sankar(AI4Bharat)、Ishvinder Sethi(AI4Bharat)、Aaditya Pareek(AI4Bharat)、Kartik Rajput(AI4Bharat)、Gaurav Yadav(AI4Bharat)、Nikhil Narasimhan(AI4Bharat)、Adish Pandya(AI4Bharat)、Deepon Halder(AI4Bharat)、Mohammed Safi Ur Rahman Khan(AI4Bharat)、Praveen S(AI4Bharat)、Shobhit Banga(Josh Talks)、Mitesh M Khapra(Indian Institute of Technology, Madras; AI4Bharat) 💡 毒舌点评 这篇论文在印度语言TTS评估上做到了“大力出奇迹”,用海量数据和严谨框架构建了一个可靠的排行榜,其多维度感知分析(尤其是SHAP解释)是亮点。但短板在于,作为一篇评估论文,它未能深入探讨评估者间一致性(inter-rater agreement)这一核心可靠性指标,使得“1900+评估者”的数据权威性打了折扣。 ...

2026-04-24 · 更新于 2026-05-20 · 2 min · 280 words

Prosody as Supervision: Bridging the Non-Verbal--Verbal for Multilingual Speech Emotion Recognition

📄 Prosody as Supervision: Bridging the Non-Verbal–Verbal for Multilingual Speech Emotion Recognition #语音情感识别 #领域适应 #双曲神经网络 #自监督学习 #多语言 🔥 8.0/10 | 前25% | #语音情感识别 | #领域适应 | #双曲神经网络 #自监督学习 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Girish (UPES, India), Mohd Mujtaba Akhtar (Veer Bahadur Singh Purvanchal University, India) (论文注明两人贡献相等) 通讯作者:Muskaan Singh (Ulster University, UK) 作者列表:Girish (UPES, India)、Mohd Mujtaba Akhtar (Veer Bahadur Singh Purvanchal University, India)、Muskaan Singh (Ulster University, UK) 💡 毒舌点评 亮点:论文最巧妙之处在于将低资源多语言SER问题重新定义为“非语音到语音”的无监督域适应,这个视角跳出了传统“语音到语音”迁移的框架,为利用丰富但未被充分利用的非语音情感数据开辟了新路径。短板:整个框架(双曲几何、VQ、最优传输)的复杂性较高,虽然消融实验证明了各模块必要性,但这种“组合式创新”是否带来了根本性的理论突破,或者只是工程上的有效堆砌,值得进一步思考。 ...

2026-04-24 · 更新于 2026-05-20 · 3 min · 487 words

语音/音频论文速递 2026-04-24

语音/音频论文速递 2026-04-24 共分析 21 篇论文 ⚡ 今日概览 📥 抓取 21 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 3篇 ███ #语音合成 3篇 ███ #语音情感识别 2篇 ██ #音频生成 1篇 █ #音频安全 1篇 █ #语音翻译 1篇 █ #音乐理解 1篇 █ #语音生物标志物 1篇 █ 📊 论文评分排行榜(20 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Prosody as Supervision: Bridging the Non-Verbal–Verbal 8.0分 前25% #语音情感识别 🥈 Do LLM Decoders Listen Fairly? Benchmarking How Languag 7.5分 前25% #语音识别 🥉 MAGIC-TTS: Fine-Grained Controllable Speech Synthesis w 7.5分 前25% #语音合成 4. Materialistic RIR: Material Conditioned Realistic RIR G 7.5分 前25% #音频生成 5. Evaluation of Automatic Speech Recognition Using Genera 7.5分 前25% #语音识别 6. Misinformation Span Detection in Videos via Audio Trans 7.5分 前25% #音频安全 7. Preferences of a Voice-First Nation: Large-Scale Pairwi 7.5分 前25% #语音合成 8. Hierarchical Policy Optimization for Simultaneous Trans 7.5分 前25% #语音翻译 9. Beyond Rules: Towards Basso Continuo Personal Style Ide 7.0分 前50% #音乐理解 10. Time vs. Layer: Locating Predictive Cues for Dysarthric 7.0分 前25% #语音生物标志物 11. ATRIE: Adaptive Tuning for Robust Inference and Emotion 7.0分 前25% #语音合成 12. Video-Robin: Autoregressive Diffusion Planning for Inte 7.0分 前25% #音乐生成 13. “This Wasn’t Made for Me”: Recentering User Experience 7.0分 前50% #语音识别 14. Dilated CNNs for Periodic Signal Processing: A Low-Comp 6.5分 前50% #语音增强 15. DiariZen Explained: A Tutorial for the Open Source Stat 6.5分 前50% #说话人分离 16. Full-Duplex Interaction in Spoken Dialogue Systems: A C 6.5分 前25% #语音对话系统 17. Sema: Semantic Transport for Real-Time Multimodal Agent 6.5分 前50% #实时处理 18. AUDITA: A New Dataset to Audit Humans vs. AI Skill at A 6.5分 前50% #音频问答 19. MER 2026: From Discriminative Emotion Recognition to Ge 6.0分 前50% #语音情感识别 20. Low-Rank Adaptation Redux for Large Models 5.5分 前50% #大语言模型 21 Phonological Subspace Collapse Is Aetiology-Specific an N/A - - 📋 论文列表 🥇 Prosody as Supervision: Bridging the Non-Verbal–Verbal for Multilingual Speech Emotion Recognition 🔥 8.0/10 | 前25% | #语音情感识别 | #领域适应 | #双曲神经网络 #自监督学习 | arxiv ...

2026-04-24 · 更新于 2026-05-20 · 11 min · 2180 words

Aligning Stuttered-Speech Research with End-User Needs: Scoping Review, Survey, and Guidelines

📄 Aligning Stuttered-Speech Research with End-User Needs: Scoping Review, Survey, and Guidelines #语音识别 #语音活动检测 #数据集 #模型评估 #多语言 🔥 8.5/10 | 前25% | #语音识别 | #模型评估 | #语音活动检测 #数据集 | arxiv 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Hawau Olamide Toyin(MBZUAI, UAE) 通讯作者:Hanan Aldarmaki(MBZUAI, UAE) 作者列表: Hawau Olamide Toyin(MBZUAI, UAE) Mutiah Apampa(SpeechCare, Portugal & UAE) Toluwani Aremu(SpeechCare, Portugal & UAE) Humaid Alblooshi(SpeechCare, Portugal & UAE) Ana Rita Valente(SLAI & CUHK (SZ), China) Gonçalo Leal(SLAI & CUHK (SZ), China) Zhengjun Yue(SLAI & CUHK (SZ), China) Zeerak Talat(University of Edinburgh, UK) Hanan Aldarmaki(MBZUAI, UAE) 💡 毒舌点评 亮点在于它系统性地揭示了口吃语音处理领域“研究自嗨”与“用户真实需求”之间的鸿沟,并提出了一个清晰的任务分类法来弥合术语混乱。短板是作为一篇“指南”类论文,它主要诊断问题,解决方案相对宏观,缺乏具体的技术路线图或可立即实施的算法改进方案。 ...

2026-04-23 · 更新于 2026-05-20 · 1 min · 165 words

FLiP: Towards understanding and interpreting multimodal multilingual sentence embeddings

📄 FLiP: Towards understanding and interpreting multimodal multilingual sentence embeddings #模型评估 #线性探测 #多模态 #多语言 #跨模态 ✅ 7.5/10 | 前50% | #模型评估 | #线性探测 | #多模态 #多语言 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Santosh Kesiraju (Speech@FIT, Brno University of Technology, Czechia) 通讯作者:未说明 作者列表: Santosh Kesiraju (Speech@FIT, Brno University of Technology, Czechia) Bolaji Yusuf (Speech@FIT, Brno University of Technology, Czechia) Šimon Sedláček (Speech@FIT, Brno University of Technology, Czechia) Oldřich Plchot (Speech@FIT, Brno University of Technology, Czechia) Petr Schwarz (Speech@FIT, Brno University of Technology, Czechia) 💡 毒舌点评 论文提出的FLiP模型在“从嵌入中恢复词汇内容”这个诊断任务上取得了扎实且显著的改进,证明了因子化和隐式正则化的有效性。然而,其核心价值在于作为一个诊断工具,而非解决一个直接的应用问题,因此其影响力和读者面相对受限,更像是一个为嵌入模型开发者提供的“内窥镜”。 ...

2026-04-23 · 更新于 2026-05-20 · 2 min · 266 words

Indic-CodecFake meets SATYAM: Towards Detecting Neural Audio Codec Synthesized Speech Deepfakes in Indic Languages

📄 Indic-CodecFake meets SATYAM: Towards Detecting Neural Audio Codec Synthesized Speech Deepfakes in Indic Languages #音频深度伪造检测 #预训练 #多语言 #语音大模型 🔥 8.5/10 | 前25% | #音频深度伪造检测 | #预训练 | #多语言 #语音大模型 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Girish(UPES, India)与 Mohd Mujtaba Akhtar(Veer Bahadur Singh Purvanchal University, India)为共同第一作者 通讯作者:Orchid Chetia Phukan(IIIT-Delhi, India),邮箱:orchidp@iiitd.ac.in 作者列表: Girish(UPES, India) Mohd Mujtaba Akhtar(Veer Bahadur Singh Purvanchal University, India) Orchid Chetia Phukan(IIIT-Delhi, India) Arun Balaji Buduru(IIIT-Delhi, India) 💡 毒舌点评 这篇论文在填补印度语言CodecFake检测空白方面做得非常扎实,SATYAM模型的双曲空间对齐设计也颇具巧思,为多模态融合提供了新思路。然而,其所有“实战”演练都发生在精心构造的合成数据集上,缺乏对真实世界中可能遇到的噪声、信道失真、对抗攻击等复杂因素的评估,这使得其宣称的“鲁棒性”仍停留在实验室阶段。 ...

2026-04-23 · 更新于 2026-05-20 · 2 min · 386 words

Qwen3.5-Omni Technical Report

📄 Qwen3.5-Omni Technical Report #多模态模型 #语音对话系统 #多语言 #语音合成 🔥 8.5/10 | 前25% | #语音对话系统 | #多模态模型 | #多语言 #语音合成 | arxiv 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:未说明 通讯作者:未说明 作者列表: Bing Han (未说明) Baosong Yang (未说明) Bin Zhang (未说明) Bo Zheng (未说明) Dayiheng Liu (未说明) Fan Zhou (未说明) Hongkun Hao (未说明) Hangrui Hu (未说明) Jin Xu (未说明) Jianxin Yang (未说明) Jingren Zhou (未说明) Keqin Chen (未说明) Le Yu (未说明) Mingkun Yang (未说明) Peng Wang (未说明) Pei Zhang (未说明) Qize Yang (未说明) Rui Men (未说明) Ruiyang Xu (未说明) Shuai Bai (未说明) Sibo Song (未说明) Ting He (未说明) Xize Cheng (未说明) Xingzhang Ren (未说明) Xian Shi (未说明) Xiong Wang (未说明) Xinyu Zhang (未说明) Xinfa Zhu (未说明) Yunfei Chu (未说明) Yuanjun Lv (未说明) Yuchong Sun (未说明) Yongqi Wang (未说明) Yuxuan Wang (未说明) Yang Zhang (未说明) Zhifang Guo (未说明) Zishan Guo (未说明) Ziyang Ma (未说明) (以及数十位贡献者,论文中未提供其具体机构信息) 💡 毒舌点评 亮点:工程整合能力极强,在215个涵盖理解、推理和交互的音频/音视觉基准上全面达到SOTA,尤其在语音对话和多语言识别上超越了Gemini-3.1 Pro,展现了扎实的“刷榜”实力。短板:作为技术报告,其创新性主要体现在将现有技术(MoE、ARIA、长上下文)进行大规模组合与优化,而非提出颠覆性的新范式,读起来更像一份详尽的“产品说明书”而非“科学发现”。 ...

2026-04-23 · 更新于 2026-05-20 · 2 min · 251 words

SpeechParaling-Bench: A Comprehensive Benchmark for Paralinguistic-Aware Speech Generation

📄 SpeechParaling-Bench: A Comprehensive Benchmark for Paralinguistic-Aware Speech Generation #基准测试 #语音大模型 #语音合成 #多语言 #模型评估 ✅ 7.5/10 | 前25% | #基准测试 | #模型评估 | #语音大模型 #语音合成 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Ruohan Liu (南京大学) 通讯作者:Chaoyou Fu (南京大学) 作者列表: Ruohan Liu (南京大学) Shukang Yin (南京大学) Tao Wang (南京大学) Dong Zhang (小米) Weiji Zhuang (小米) Shuhuai Ren (小米) Ran He (南京大学) Caifeng Shan (南京大学) Chaoyou Fu (南京大学) 💡 毒舌点评 亮点:这篇论文把“副语言生成评估”这个模糊地带彻底标准化了,从不到50个特征扩展到100多个,还设计了从静态控制到动态变化再到情境适应的递进式任务,评估流水线也用上了“成对比较”来对抗主观性,工程上相当完备。短板:数据全靠合成,用TTS生成的“用户查询”和真实人类说话的副语言信息可能差了十万八千里,这导致整个基准测试的生态位有点尴尬——它测的是模型对“合成指令”的服从度,而非对“真实人类语音”的理解力。 ...

2026-04-23 · 更新于 2026-05-20 · 1 min · 200 words

Tadabur: A Large-Scale Quran Audio Dataset

📄 Tadabur: A Large-Scale Quran Audio Dataset #语音识别 #数据集 #领域适应 #多语言 ✅ 7.5/10 | 前25% | #语音识别 | #数据集 | #领域适应 #多语言 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Faisal Alherran(未说明具体机构,仅标注地点为Riyadh, Saudi Arabia) 通讯作者:Faisal Alherran(alherranfaisal@gmail.com) 作者列表: Faisal Alherran(未说明具体机构) 💡 毒舌点评 亮点:数据集规模(1400+小时,600+诵读者)和多样性堪称古兰经语音领域的“ImageNet”,其自动化处理流水线(融合LLM、ASR、语义对齐)设计得相当完整且有效,为构建垂直领域大规模数据集提供了可借鉴的范本。 短板:本质上是数据集工程论文,技术深度有限,核心流水线是现有技术的巧妙组合而非原创算法;对“古兰经”这一特殊领域的语音特性(如诵读规则tajwīd)如何影响模型性能的分析可以更深入。 🔗 开源详情 代码:论文中提到了GitHub和Hugging Face链接(Github | Huggingface | Tadabur Page),但未在提供的文本中给出具体URL。因此,推测有相关代码或数据页面,但详情未知。 模型权重:论文中未提及公开其微调的Whisper模型(Tadabur fine-tuned model)权重。只提及了评估时使用的开源模型权重(如Whisper-Quran)。 数据集:是,论文明确表示Tadabur数据集是开源的,并提供了获取途径(推测通过Hugging Face)。 Demo:未提及。 复现材料:论文提供了流水线各阶段的详细描述和评估结果,但未提供具体的训练超参数、配置文件或检查点,复现其微调ASR模型存在困难。 论文中引用的开源项目: WhisperX (用于对齐) SILMA AI Embedding Model (用于语义匹配) Efficient Audio Transformer (EAT) (用于去重) Whisper-Quran (用于评估和对比) 其他多个ASR模型(Whisper, MMS, Qwen3-ASR等)用于评估。 论文中未提及开源计划:论文未明确说明其数据处理流水线代码是否会开源。 📌 核心摘要 问题:现有的古兰经语音数据集在规模、诵读者多样性、音频质量和标注深度上存在严重不足,限制了古兰经ASR、诵读者识别等任务的研究进展。 方法核心:提出Tadabur数据集及其构建流水线。流水线核心是“古兰经经文对齐模块”(AAM),它结合WhisperX进行初步转录,再利用SILMA嵌入模型进行语义相似度匹配,将音频精确对齐到古兰经原文,并辅以LLM元数据提取、ASR内容过滤和音频去重。 新意:首次构建了超过1400小时、涵盖600多位不同诵读者的古兰经语音数据集,规模和多样性远超前人。同时,提出了一套完整的、可扩展的自动化数据处理与质量控制流水线。 主要结果:在AAM的评估中,使用SILMA嵌入和微调过的Whisper模型(Tadabur fine-tuned)达到了96.63%的平均对齐覆盖率。在下游ASR评估中,针对古兰经微调的Whisper-Quran模型(74M参数)取得了最佳的WER(8.7%)和CER(6.5%),显著优于更大的通用模型(如Cohere Transcribe的11.2% WER)。 实际意义:为古兰经语音研究提供了前所未有的高质量、大规模基准数据集,有助于推动该领域ASR模型的性能提升,并支持诵读风格、韵律等更深入的分析。 主要局限性:部分诵读者的音频覆盖不完整;自动生成的词级时间戳精度有待提高,因为对齐模型并非专为古兰经诵读设计。 🏗️ 模型架构 本文的核心贡献是数据集构建流水线,而非一个单一的端到端模型。该流水线是一个多阶段的自动化系统,主要包含以下组件: ...

2026-04-23 · 更新于 2026-05-20 · 1 min · 191 words