EMO-BOOST: Emotion-Augmented Audio-Visual Features for Improved Generalization in Deepfake Detection

📄 EMO-BOOST: Emotion-Augmented Audio-Visual Features for Improved Generalization in Deepfake Detection #音频深度伪造检测 #多模态模型 #对比学习 #语音情感识别 #鲁棒性 ✅ 7.2/10 | 前25% | #音频深度伪造检测 | #多模态模型 | #对比学习 #语音情感识别 | arxiv 学术质量 6.3/8 | 影响力 0.6/1 | 可复现性 0.3/1 | 置信度 高 👥 作者与机构 第一作者:Aritra Marik(达姆施塔特工业大学, ELIZA) 通讯作者:论文未明确标注通讯作者,但提供了三位作者的邮箱。 作者列表:Aritra Marik(达姆施塔特工业大学, ELIZA)、Marcel Klemt(达姆施塔特工业大学, hessian.AI)、Anna Rohrbach(达姆施塔特工业大学, hessian.AI) 💡 毒舌点评 论文的核心价值在于系统性地将“情感一致性”作为深度伪造检测的高阶语义信号,并设计了专用模块(EmoForensics)进行建模。然而,其“增强”效果高度依赖于强基线(SIMBA),且EmoForensics独立性能(在FakeAVCeleb上AUC 82.10%,在DeepSpeak v2上仅65.38%)与其声称的“互补性”角色存在巨大落差,这引发对其作为独立检测线索可靠性的根本质疑。在DeepSpeak v2数据集上的无效性也被轻描淡写地归因于数据集特性,缺乏深入分析。 📌 核心摘要 要解决什么问题:随着生成式AI快速发展,深度伪造技术不断更新,现有检测模型难以泛化至训练时未见过的伪造类型,这是当前深度伪造检测研究面临的主要挑战。 方法核心是什么:本文提出 Emo-Boost 框架,旨在通过引入高层语义线索——情感(Emotion)来提升现有基于低级特征的多模态检测器的跨操纵泛化能力。核心是设计了一个名为 EmoForensics 的情感感知检测器,它利用冻结的预训练情感识别模型提取音频和视觉情感表征,并通过时序 Transformer 建模模态内情感一致性,通过对比学习建模模态间情感一致性。Emo-Boost 通过简单的后期特征乘法融合,将 EmoForensics 的表征与现有多模态检测器(如 SIMBA)的表征相结合。 与已有方法相比新在哪里:相比于主要关注像素级、频谱级伪影或跨模态对齐(如音素-视位匹配)的现有方法,本文首次系统性地将“情感一致性”作为一种高阶、稳定的伪造信号,并显式地设计了针对情感表征的跨模态和时序建模模块。此外,与先前情感检测工作相比,本文强调了使用冻结的预训练模型来应对伪造数据导致的情感识别模型分布偏移问题。 主要实验结果如何:在 FakeAVCeleb 数据集的留一法(跨操纵)评估中,Emo-Boosted SIMBA 的平均 AUC 达到了 95.30%,相比基线 SIMBA(93.17%)提升了 2.13%。在 DeepSpeak v2 上,Emo-Boosted SIMBA(95.26%)与 SIMBA(95.30%)性能相当。消融实验证明,EmoForensics 中的时序 Transformer 和对比学习模块对性能有积极贡献。论文还通过稳定性分析(图4)显示,EmoForensics 在不同伪造类型上的性能波动(面积 12.50)小于 SIMBA(面积 32.98)。 模型 FakeAVCeleb (平均 AUC) DeepSpeak v2 (平均 AUC) SIMBA [19] 93.17 95.30 Emo-Boosted SIMBA 95.30 95.26 AVFF [34] 86.11 93.75 AVAD [12] 80.89 50.48 实际意义是什么:该工作为深度伪造检测提供了一个新的视角,即利用高阶语义信息作为补充线索,有助于提升检测器面对未知新伪造技术的鲁棒性,对内容安全审核领域有潜在应用价值。 主要局限性是什么:EmoForensics 作为独立检测器的性能较弱;在数据集 DeepSpeak v2 上未观察到明显的性能提升,作者归因于该数据集情感表达不够自然;融合策略(特征乘法)的理论依据和有效性分析不足;未探讨情感特征在不同伪造攻击下的失效模式。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及具体模型权重获取链接。 数据集:论文中使用了 FakeAVCeleb 和 DeepSpeak v2 数据集。论文中未提及具体获取链接或开源协议。 Demo:论文中未提及。 复现材料:论文中提供了详细的实现细节、训练配置和超参数设置(见 Section 4 Implementation Details)。论文中未提及模型检查点获取方式。 论文中引用的开源项目: POSTER (视觉情绪编码器): https://github.com/justinjohn0306/POSTER emotion2vec (音频情绪编码器): https://huggingface.co/lenagong/emotion2vec_finetuned SIMBA (用于Emo-Boost的基线多模态检测器): https://github.com/yzyou/SIMBA XceptionNet, LipForensics, AVAD, AVFF 等其他项目:论文中仅提及名称,未提供具体链接。 🏗️ 方法概述和架构 Figure 2: Overview of our proposed framework, Emo-Boost, and the emotion-based deepfake detection network, EmoForensics. ...

2026-05-20 · 更新于 2026-06-19 · 4 min · 775 words

Executable Boundary Contracts for Sound Event Traces

📄 Executable Boundary Contracts for Sound Event Traces #音频事件检测 #基准测试 #形式化验证 #数据增强 🔥 8.4/10 | 前25% | #音频事件检测 | #基准测试 | #形式化验证 #数据增强 | arxiv 学术质量 6.8/8 | 影响力 0.7/1 | 可复现性 0.9/1 | 置信度 高 👥 作者与机构 第一作者:Faruk Alpay(Bahcesehir University, Department of Computer Engineering) 通讯作者:Hamdi Alakkad(Bahcesehir University, Department of Artificial Intelligence Engineering) 作者列表:Faruk Alpay(Bahcesehir University, Department of Computer Engineering)、Hamdi Alakkad(Bahcesehir University, Department of Artificial Intelligence Engineering) 💡 毒舌点评 本文的核心亮点在于将形式化逻辑与可执行契约的思想引入声音事件检测(SED)的评估框架,旨在提供比传统F1分数更细粒度的边界行为度量。其形式化定义和Lean验证体现了工程严谨性。然而,潜在短板在于:1)框架的复杂性(如义务掩码、两排序设计)可能使其难以被社区快速采纳;2)该框架更偏向一个元评估或诊断工具,而非能直接提升检测性能的核心算法,影响力受限;3)其评估的“契约”选择依赖于特定的校准集和风险顺序,普适性存疑。 📌 核心摘要 问题:传统的SED评估指标(如帧F1、事件F1)将边界行为压缩成单一标量,掩盖了具体的失败模式(如onset/offset位移、静音泄漏、事件碎片化等),无法满足下游系统对精确边界语义的需求。 方法核心:提出一种“可执行边界契约”框架。该框架定义了一个两排序(帧排序和事件排序)的、有限的、可解析的形式化语言,用于明确声明对声音事件迹线(trace)的边界义务。契约通过一个“监控器”进行评估,输出一个包含多个义务满足度的守卫向量(guard vector),而非单一分数。 与已有方法相比新在哪里:不同于传统指标事后计算,本方法事前声明边界策略。它引入了“义务受限评分”(obligation-restricted scoring)来避免空虚性问题,将区间匹配策略(贪婪 vs 最优)作为契约的一部分进行审计,并通过校准集和风险顺序选择最相关的契约坐标。此外,将形式化方法(包括Lean定理证明器验证核心逻辑)与音频评估紧密结合。 主要实验结果:在受控场景(Mini LibriSpeech种子)、MAESTRO Real真实声景、冻结的预训练编码器探针以及DCASE 2024 Task 4官方基线四个赛道上进行了评估。关键发现包括: 契约向量能揭示被标准分数掩盖的失败。例如,在MAESTRO Real上,联合活动(union activity)的分数很高(边界F1:0.961),但类别索引分数很低(边界F1:0.304),表明联合迹线隐藏了类型边界失败。 不同的契约坐标(如onset_guard, silence_guard, fragmentation_guard)会选择不同的“最佳”检测器,证明了评估的多维度性。 所提出的契约感知检测器(contract_tcn_aug)在受控基准上的平均边界F1为0.829,逻辑得分为0.802,显著优于传统基线(如dilated_cnn的边界F1为0.408)。 实际意义:为音频评估提供了一个更透明、可审计、可定制的元评估框架。它有助于开发者诊断模型具体弱点(如尾部泄漏、事件碎片化),并为挑战赛或下游应用(如语音门控、检索分割)提供更贴近实际需求的评估协议。 主要局限性:契约是任务相关的,其坐标集由校准集和风险顺序定义,非普适。论文承认受控场景相对简单,而真实世界的多声源、非平稳环境更具挑战性。框架的复杂性可能带来使用门槛。Lean验证覆盖有限。 🔗 开源详情 代码:论文指出代码、生成的表格、清单和有限帧核心的Lean检查作为附属材料提供,但未在正文中给出具体的GitHub或代码仓库URL。提供了详细的复现命令表(表40)。 ...

2026-05-20 · 更新于 2026-06-19 · 3 min · 617 words

Fast Multichannel NMF with Block-Diagonal Spatial Covariance Matrices for Efficient Blind Source Separation Using Distributed Microphone Arrays

📄 Fast Multichannel NMF with Block-Diagonal Spatial Covariance Matrices for Efficient Blind Source Separation Using Distributed Microphone Arrays #语音分离 #麦克风阵列 #信号处理 #多通道 #高效推理 #分布式阵列 ✅ 6.5/10 | 前50% | #语音分离 | #麦克风阵列 #信号处理 | #麦克风阵列 #信号处理 | arxiv 学术质量 5/8 | 影响力 0.5/1 | 可复现性 1/1 | 置信度 高 👥 作者与机构 第一作者:Hirotaka Nishikori (东京大学) 通讯作者:论文中未明确指定,但第一作者隶属于东京大学 作者列表:Hirotaka Nishikori (东京大学),Nobutaka Ito (日本产业技术综合研究所 AIST),Kouei Yamaoka (东京大学),Norihiro Takamune (东京大学),Hiroshi Saruwatari (东京大学) 💡 毒舌点评 这篇论文为成熟的FastMNMF框架引入了一个针对分布式阵列的“块对角”结构约束,其工程动机明确,理论支撑(附录定理1)严谨,旨在为全阵列处理和单子阵列处理之间提供一个高效的中间选项。然而,其实验验证如同一场精心控制的温室实验——所有条件(同步、无噪、固定几何)都被完美设定,且基线选择仅限于自身变体,这严重限制了其结论在充满噪声、异步和动态的真实世界部署中的适用性。 📌 核心摘要 本文旨在解决将快速多通道非负矩阵分解(FastMNMF)应用于由多个子阵列组成的分布式麦克风阵列时的计算效率瓶颈。核心方法是为源的空间协方差矩阵(SCM)施加一个块对角结构约束,每个块对应一个子阵列。该约束使得矩阵求逆等昂贵操作仅在子阵列内部进行,同时通过在所有子阵列间共享源频谱图的NMF模型来聚合源活动信息。其目标不是超越全阵列FastMNMF,而是在其与单子阵列FastMNMF之间取得计算效率与分离性能的平衡。实验表明,与使用全部麦克风的全阵列方法相比,该方法计算时间减少至33.9%(快约2.95倍);与使用单个子阵列的方法相比,其源-失真比改善量(SDR improvement)在3源和5源情况下分别提升0.8 dB和0.5 dB。该方法的主要意义在于为分布式阵列BSS提供了高效的计算方案,其主要局限性在于所有评估均在同步、无噪、固定几何的理想模拟环境中进行。 ...

2026-05-20 · 更新于 2026-06-19 · 2 min · 378 words

FormalASR: End-to-End Spoken Chinese to Formal Text

📄 FormalASR: End-to-End Spoken Chinese to Formal Text #语音识别 #端到端 #语音大模型 #模型量化 #数据集 ✅ 6/10 | 前35% | #语音识别 | #端到端 | #语音大模型 #模型量化 | arxiv 学术质量 4.3/8 | 影响力 0.8/1 | 可复现性 0.9/1 | 置信度 高 👥 作者与机构 第一作者:未说明 通讯作者:未说明 作者列表:Wanyi Ning、Yinshang Guo、Haitao Qian、Jiyuan Cheng、Weiyuan Feng、Yufei Zhang(所有作者机构均未在论文中说明) 💡 毒舌点评 精准定义了“语音转写结果不符合书写规范”这一真实工业痛点,并通过构建大规模数据集和端到端微调给出了一个直接解决方案。然而,论文的核心贡献在学术创新性上略显薄弱:它本质上是利用一个强大的LLM(DeepSeek-V3.2)生成伪标签,然后对现有的音频-语言模型(Qwen3-ASR)进行监督微调。这一范式在NLP和Speech领域已属常规操作,其新意更多体现在问题形式化和数据集构建上,而非算法或理论突破。论文在论证其“端侧优势”时,缺少与“ASR+LLM”流水线在关键指标(如延迟、内存)上的直接对比,使得其核心主张的说服力打了折扣。 📌 核心摘要 要解决什么问题:传统ASR系统输出包含口头禅、错误启动等不规范元素的逐字稿(verbatim transcript),不适合文档生成等下游任务。常用的两阶段ASR+LLM流水线方案部署复杂、延迟高,难以用于端侧设备。 方法核心:提出FormalASR,一个端到端模型,直接将中文口语语音映射为正式书面文本。为此,构建了两个大规模数据集(WenetSpeech-Formal, Speechio-Formal),通过LLM(DeepSeek-V3.2)改写原始逐字稿并经过质量过滤生成“口语-正式文本”对。基于Qwen3-ASR模型(0.6B和1.7B)在上述数据集上进行全参数监督微调(SFT)。 与已有方法相比新在哪里:首次尝试将紧凑的音频-语言模型端到端地微调用于中文的口语到正式文本转写,避免了推理时需要额外LLM的开销(如Table 1所示)。明确对比了传统ASR、ASR+LLM流水线和大型多模态模型(如GPT-4o),并构建了专用评测基准。 主要实验结果:FormalASR在WenetSpeech-Formal和Speechio-Formal测试集上,相比逐字稿基线(Qwen3-ASR),字符错误率(CER)最高降低了37.4%,同时ROUGE-L和BERTScore得到提升。量化实验显示,GGUF 8-bit量化几乎无损,4-bit量化在大幅压缩模型尺寸时性能下降可控。主要结果如下表所示: 模型 数据集 CER ↓ ROUGE-L ↑ BERTScore ↑ Qwen3-ASR-0.6B WenetSpeech-Formal 0.2581 0.8463 0.9198 FormalASR-0.6B (Ours) WenetSpeech-Formal 0.1770 0.8769 0.9359 Qwen3-ASR-1.7B WenetSpeech-Formal 0.2460 0.8571 0.9268 FormalASR-1.7B (Ours) WenetSpeech-Formal 0.1606 0.8896 0.9439 Whisper large-v3 WenetSpeech-Formal 0.3631 0.7393 0.8538 Qwen3-ASR-0.6B Speechio-Formal 0.2252 0.8701 0.9343 FormalASR-0.6B (Ours) Speechio-Formal 0.1603 0.8948 0.9481 Qwen3-ASR-1.7B Speechio-Formal 0.2393 0.8510 0.9108 FormalASR-1.7B (Ours) Speechio-Formal 0.1499 0.9029 0.9533 图2说明:此图展示了FormalASR-1.7B与基线Qwen3-ASR-1.7B在推理效率上的对比。左图显示,在WenetSpeech-Formal上,FormalASR的平均输出token数从18.5减少到14.3(减少22.8%),在Speechio-Formal上从18.5减少到15.8(减少14.3%)。右图显示,解码延迟随逐字稿句子长度(token数)增加而显著降低,在40-49 token的长句区间,延迟降低约388毫秒。 5. 实际意义:为端侧设备(如手机、嵌入式设备)提供了一种轻量、低延迟的语音转正式文本解决方案,省去了云端依赖和第二模型。GGUF量化后的模型(如1.7B模型的Q4_K版本仅1.08GB)进一步增强了端侧部署可行性。 6. 主要局限性:1)方法本质上是利用LLM生成的数据对现有模型进行领域微调,创新性有限;2)“正式文本”的定义和监督信号完全依赖DeepSeek-V3.2的生成结果,存在偏见或误差传播风险,论文未对生成标签质量进行人工验证;3)实验未与最强的“ASR+LLM”流水线方案(如Qwen3-ASR接一个通用LLM)进行直接的延迟、内存和最终文本质量对比;4)主要评估指标CER、ROUGE-L衡量的是与LLM生成参考文本的匹配度,未评估生成文本本身的语法自然度、连贯性或用户偏好。 ...

2026-05-20 · 更新于 2026-06-19 · 2 min · 303 words

GroupAffect-4: A Multimodal Dataset of Four-Person Collaborative Interaction

📄 GroupAffect-4: A Multimodal Dataset of Four-Person Collaborative Interaction #数据集 #多模态模型 #情感识别 #基准测试 #协作交互 #过程建模 ✅ 6.8/10 | 前50% | #数据集 | #多模态模型 | #情感识别 #基准测试 | arxiv 学术质量 5.3/8 | 影响力 0.6/1 | 可复现性 0.9/1 | 置信度 高 👥 作者与机构 第一作者:Meisam Jamshidi Seikavandi(1GN Advanced Science, GN Group, Ballerup, Denmark;2IT University of Copenhagen, brAIn lab, Copenhagen, Denmark)。根据论文脚注“These authors contributed equally.”,Meisam Jamshidi Seikavandi、Alice Modica和Anna Obara为共同第一作者。 通讯作者:未明确指定,但论文中将Meisam Jamshidi Seikavandi标注为“corresponding author”。 作者列表:Meisam Jamshidi Seikavandi, Alice Modica, Anna Obara, Shan Ahmed Shaffi, Fabricio Batista Narcizo, Tanya Ignatenko, Ted Vucurevich, Karim Haddad, Daniel Barratt, Daniel Overholt, Jesper Bünsow Boldt, Paolo Burelli, Andrew Burke Dittberner。机构涉及GN Advanced Science (GN Group), IT University of Copenhagen, Copenhagen Business School, Aalborg University。 💡 毒舌点评 这篇论文是一个扎实的“基础设施”工作。亮点在于其对数据集构建和发布的极高透明度要求:BIDS-inspired结构、Croissant元数据、详细的数据表、每会话质量报告,这为后续研究设立了一个可审计的标杆。它精准定位了多人、多模态、多层次(个体内/个体间/群体)情感分析数据集的空白,并通过精心设计的四个协作任务和同步的多传感器采集来填补。然而,短板也同样明显且根本:10组40人的样本量使得许多定义的“基准测试”在统计上形同虚设。论文中大量基准任务(特别是涉及个体间特质和群体动态的)的性能接近随机,其置信区间宽到无法得出任何稳健结论。这使得论文更像是一份“问题定义书”和“数据发布说明书”,而非一份能产出可靠科学发现的实验报告。基线模型的“失败”(如群体不平等性预测)更多暴露了数据量不足导致的过拟合,而非方法本身的缺陷。 ...

2026-05-20 · 更新于 2026-06-19 · 3 min · 548 words

Heterogeneity-Aware Dataset Scheduling for Efficient Audio Large Language Model Training

📄 Heterogeneity-Aware Dataset Scheduling for Efficient Audio Large Language Model Training #音频问答 #训练调度 #多任务学习 #音频大模型 ✅ 7/10 | 前50% | #音频问答 | #训练调度 | #多任务学习 #音频大模型 | arxiv 学术质量 5.9/8 | 影响力 0.6/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Yanru Wu(清华大学深圳国际研究生院) 通讯作者:Yang Li(清华大学深圳国际研究生院) 作者列表:Yanru Wu(清华大学深圳国际研究生院)、Jianning Wang(独立研究者)、Chongxin Gan(香港理工大学)、Yang Li(清华大学深圳国际研究生院) 💡 毒舌点评 本文的亮点在于从收敛性角度对多数据集训练的异质性问题进行了清晰的理论刻画,并据此提出了一个逻辑自洽、易于实施的调度框架(GST),实验也验证了其在加速收敛方面的有效性。然而,其理论分析框架的原创性有限(主要借鉴自联邦学习),且实验规模和模型验证(仅基于SALMONN-13B)相对保守,未能充分展示该方法在更大规模、更多架构上的通用性,使其更像是一篇扎实的“工程优化”工作而非领域突破。论文将渐进式策略作为核心实践,但其理论保证与实际实现存在断层,是一个需要正视的弱点。 📌 核心摘要 问题:训练通用音频大语言模型(ALLMs)时,将语音、音乐、环境声等异构数据集混合训练会导致梯度冲突和收敛缓慢,现有方法(如均匀混合)未有效管理这种异质性。 方法核心:提出分组顺序训练(GST)。首先基于梯度亲和度(或任务亲和度)将数据集聚类为“亲和组”,然后按组顺序引入模型进行训练,并采用渐进式(progressive)扩展训练池的策略以平衡稳定性和效率。 新在哪里:与简单并行或顺序训练不同,GST 在理论和实践上提出了一种在二者之间权衡的调度范式。理论部分将联邦学习的收敛分析适配到多数据集场景,并推导出 GST 的收敛界,证明其优于两个极端。实践上,引入了基于梯度的、可在训练循环中动态计算的亲和度指标。 主要结果:在14个AudioQA数据集上的实验表明,在全数据训练设置下,GST变体(如GST-G3)相比标准并行训练(Mix-all)实现了约30-40%的训练时间缩短(从约4天降至约2天),同时保持或略微提升了平均精度(Avg: 75.2% vs Mix-all 74.3%)。在低资源微调设置下,GST保持了与基线相当的性能。 实际意义:提供了一个模型无关的、可插拔的训练调度策略,能直接加速现有ALLM的训练过程,降低计算成本,对大规模多任务音频模型训练具有实用价值。 局限性:验证局限于单一模型架构(SALMONN);理论分析依赖较强的假设(如强凸、有界异质性);亲和度计算需额外开销;渐进式训练的具体调度策略(如顺序、增长率)仍为启发式。 🔗 开源详情 代码:论文中未提及代码链接。论文描述了实验基于SALMONN框架,并提及使用了Singularity容器平台,但未提供作者自己代码仓库的链接。 模型权重:论文中未提及。论文使用SALMONN-13B作为实验平台,但未提供其自身训练产出的模型权重下载链接。 数据集:论文中提及了14个数据集名称,但未提供整合后的下载链接或开源协议信息。数据集包括:AudioCaps, ChimeHome, Clotho, CochlScene, IEMOCAP, Jamendo, MACS, MusicNet, MusicQA, OpenAQA, PromptSpeech, SoundDescs, TextrolSpeech, WavCaps。论文指出这些数据集已统一为AudioQA格式,具体获取方式需参考各数据集原始来源。 Demo:论文中未提及。 复现材料:论文在附录A.3中提供了详细的训练超参数、硬件配置(如4xA100 GPU)和分布式训练设置。未提供训练检查点或具体代码脚本的直接链接。 论文中引用的开源项目: SALMONN: https://github.com/Tmechway/SALMONN Whisper: https://github.com/openai/whisper BEATs: https://github.com/microsoft/unilm/tree/master/beats Vicuna: https://github.com/lm-sys/FastChat LoRA (参数高效微调技术): 论文提到使用LoRA,该技术官方仓库为 https://github.com/microsoft/LoRA CLIP: https://github.com/openai/CLIP LLaMA (论文提及Vicuna基于此): https://github.com/facebookresearch/llama 其他引用的开源工作(如Pengi, Qwen-Audio, Audio Flamingo)在论文中有提及,但未在此提供统一链接。 🏗️ 方法概述和架构 本文提出的核心方法是分组顺序训练(Grouped Sequential Training, GST),它是一个针对ALLM多数据集训练的调度框架,而非一个新的模型架构。整个流程旨在解决数据集异质性带来的梯度冲突问题,通过智能安排训练数据的引入顺序和方式来加速收敛。 ...

2026-05-20 · 更新于 2026-06-19 · 3 min · 568 words

Mega-ASR: Towards In-the-wild^2 Speech Recognition via Scaling up Real-world Acoustic Simulation

📄 Mega-ASR: Towards In-the-wild^2 Speech Recognition via Scaling up Real-world Acoustic Simulation #语音识别 #语音大模型 #渐进式训练 #数据集 #鲁棒性 #强化学习 ✅ 6.8/10 | 前35% | #语音识别 | #渐进式训练 | #语音大模型 #数据集 | arxiv 学术质量 5.5/8 | 影响力 0.7/1 | 可复现性 0.6/1 | 置信度 高 👥 作者与机构 第一作者:Zhifei Xie (NTU) 通讯作者:Deheng Ye (NTU, NUS, †)、Xiaobin Hu (NUS, †)、Shuicheng Yan (NUS, †)、Chunyan Miao (NTU, †)(论文中标注†的作者即为通讯作者) 作者列表:Zhifei Xie (NTU)、Kaiyu Pang (Shanghai AI Lab)、Haobin Zhang (NUS)、Deheng Ye (NTU, NUS, †)、Xiaobin Hu (NUS, †)、Shuicheng Yan (NUS, †)、Chunyan Miao (NTU, †) 💡 毒舌点评 本文的亮点在于其系统性工程思维:从构建一个覆盖复合声学效应的合成数据集(Voices-in-the-wild-2M)出发,配合一个针对中高WER不同错误模式设计的渐进式训练与策略优化方案(A2S-SFT + DG-WGPO),在多个基准上取得了显著的性能提升。但短板也十分明显:整套方案高度依赖“合成数据能有效校准真实世界”的假设,缺乏对合成与真实分布差距的量化分析;将所有声学场景简化为几种原子效应的线性组合,可能无法完全捕捉真实环境中更复杂、非线性的声学交互;此外,代码未开源,可复现性存疑。 ...

2026-05-20 · 更新于 2026-06-19 · 3 min · 517 words

MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation

📄 MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation #基准测试 #模型评估 #音视频 #生成模型 #多模态模型 ✅ 6.5/10 | 前40% | #基准测试 | #模型评估 | #音视频 #生成模型 | arxiv 学术质量 5.5/8 | 影响力 0.5/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 共同第一作者:Yujie Wei(复旦大学),Yujin Han(香港大学),Zhekai Chen(香港大学),Yongming Li(复旦大学) 项目负责人:Shiwei Zhang(阿里巴巴通义实验室) 通讯作者:Hongming Shan(复旦大学),Xihui Liu(香港大学) 作者列表(按原文顺序): Yujie Wei (1,复旦大学) Yujin Han (2*,香港大学) Zhekai Chen (2*,香港大学) Yongming Li (1*,复旦大学) Kaixun Jiang (1,复旦大学) Zhihang Liu (3,阿里巴巴通义实验室) Quanhao Li (1,复旦大学) Zhiwu Qing (3,阿里巴巴通义实验室) Xiang Wang (3,阿里巴巴通义实验室) Zhen Xing (3,阿里巴巴通义实验室) Ruihang Chu (3,阿里巴巴通义实验室) Lingyi Hong (1,复旦大学) Yefei He (4,浙江大学) Junjie Zhou (3,阿里巴巴通义实验室) Junqiu Yu (1,复旦大学) Yang Shi (5,北京大学) Difan Zou (2,香港大学) Kai Zhu (3,阿里巴巴通义实验室) Shiwei Zhang (3†,阿里巴巴通义实验室,项目负责人) Yingya Zhang (3,阿里巴巴通义实验室) Yu Liu (3,阿里巴巴通义实验室) Xihui Liu (2🖂,香港大学,通讯作者) Hongming Shan (1🖂,复旦大学,通讯作者) 💡 毒舌点评 亮点:论文精准切入“多镜头音视频(MSAV)生成”这一前沿评测空白,提出了首个综合性基准MSAVBench。其数据设计(四维度:视频、音频、镜头、参考)和评估框架(自校正、分层评分、工具增强代理)的系统性与前瞻性值得肯定,对19个模型的评估也提供了有价值的生态诊断。短板:论文的核心贡献在于构建一个评测“系统”和“报告”,而非提出新的生成模型或基础算法。其创新性更偏向工程设计和方法论集成,在追求算法理论突破的顶会中,原创性“硬度”不足。同时,对评估框架自身的深入分析(如不同VLM的影响、成本分析)略显仓促,对评测结果的解读存在过度泛化的风险。 ...

2026-05-20 · 更新于 2026-06-19 · 4 min · 741 words

OmniPro: A Comprehensive Benchmark for Omni-Proactive Streaming Video Understanding

📄 OmniPro: A Comprehensive Benchmark for Omni-Proactive Streaming Video Understanding #视频理解 #基准测试 #多模态模型 #流式处理 #大语言模型 ✅ 7.3/10 | 前25% | #视频理解 | #基准测试 | #多模态模型 #流式处理 | arxiv 学术质量 6/8 | 影响力 0.8/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Ruixiang Zhao(中国人民大学) 通讯作者:Xirong Li(中国人民大学),Jie Yang(腾讯微信视觉) 作者列表:Ruixiang Zhao(中国人民大学)、Jie Yang(腾讯微信视觉)、Zijie Xin(中国人民大学)、Tianyi Wang(腾讯微信视觉)、Fengyun Rao(腾讯微信视觉)、Jing LYU(腾讯微信视觉)、Xirong Li(中国人民大学) 💡 毒舌点评 该工作系统性地指出了现有主动流式视频理解基准在全模态、主动性和任务多样性上的不足,并提出了一个整合性的评估框架(任务分类法、双模式协议)。其核心贡献在于定义了“好的全模态主动流式模型”的三个标准,并将它们放入统一的评估标尺中,对社区具有明确的指引价值。然而,作为一项基准测试工作,其自身价值高度依赖于数据质量与评估设计的严谨性。数据完全由单一大模型(Gemini)生成且无人工标注的多样性,这一关键决策可能引入系统性偏差,严重影响基准的长期可靠性。此外,在线评估仅涵盖三个模型,且其F1指标的具体实现细节(如开放任务由LLM裁判评分)的稳定性与公平性有待更深入的验证。 📌 核心摘要 问题:现有流式视频理解基准存在三大缺陷:主要依赖视觉信号、采用轮询或固定时间戳的被动评估方式、覆盖任务有限,无法可靠地区分和评估具备“主动”能力的全模态大模型。 方法核心:提出首个联合评估全模态感知、主动响应和多样化任务能力的基准 OmniPro。核心包括一个包含3级认知水平、9个子任务的任务分类法;一个结合密集描述、大模型生成和两轮人工审核的数据构建流程;以及一个包含Probe(评估内容理解)和Online(评估流式主动能力)的双模式评估协议。 新意:首次在统一框架下,系统性地评估模型在全模态感知(音频至关重要)、主动决策何时响应以及广泛任务理解这三方面的能力。特别强调了非语音音频的作用,并设计了支持多次响应和惩罚误触发的在线评估F1指标。 主要实验结果:评估了11个代表性模型。主要发现:(1) 音频带来一致性增益但模型利用率差异巨大(AV输入比V输入平均提升+2.4至+11.1分);(2) 性能随触发时间推后严重衰减,模型仅能保持早期性能的37%;(3) 非语音音频感知是所有模型的共同短板。最强闭源模型(Gemini-3-Flash,Probe模式40.4%准确率)与最强开源模型(Qwen3-Omni,22.6%)存在巨大差距。 实际意义:为快速发展的全模态主动流式大模型提供了首个全面的评估标准和测试平台,明确了当前模型在长期感知、音频理解等方面的具体短板,指导未来模型研发方向。 主要局限性:所有问答和标注均为英文,限制了多语言评估;在线评估仅测试了3个模型,对流式架构能力的揭示可能不足;数据构建完全依赖单一大模型生成,可能引入分布偏差且无人工标注的多样性。 🔗 开源详情 代码:论文中承诺开源评估代码和数据生成提示模板,并在附录中提供了完整示例。项目主页为 https://ruixiangzhao.github.io/OmniPro ,但论文中未直接给出代码仓库的具体URL(如GitHub链接)。 模型权重:论文中未提及模型权重的具体下载链接。论文评估了多个开源模型(如Qwen2.5-Omni、Qwen3-Omni、video-SALMONN 2+、VideoLLaMA2.1-AV、Phi-4-multimodal、InternVL3.5、Qwen3-VL、MiniCPM-o 4.5、MMDuet2、LiveStar),但未提供OmniPro基准或评估用模型的权重链接。 数据集: 数据集名称:OmniPro 开源协议:CC BY-NC 4.0(见附录C.3) 获取链接:论文中未提及具体下载链接。项目主页可能包含数据访问方式。 数据来源:视频来自 LongVALE (CC-BY-NC-SA-4.0) 和 COIN (CC BY-NC 4.0) 数据集的测试集(见附录C.3)。 Demo:论文中未提及在线演示链接。 复现材料:论文附录提供了用于数据生成的提示词模板(Dense Captioning Prompt和各子任务的QA Generation Prompts)。评估代码承诺开源但未提供链接。未提供训练配置或检查点(因本工作不涉及模型训练)。 论文中引用的开源项目:论文中评估了多个开源模型及其各自资源,但未明确引用除评估模型外的其他特定开源项目或工具。 🏗️ 方法概述和架构 本论文是一项基准测试构建工作,其核心“方法”是定义了一个全新的评估框架和数据集,而非一个可训练的模型架构。其流程是:源视频收集 → 自动化密集描述与QA生成 → 人工质量控制 → 双模式评估协议执行。 ...

2026-05-20 · 更新于 2026-06-19 · 4 min · 647 words

Optimising Neural Speech Codecs for 300bps Communication using Reinforcement Learning

📄 Optimising Neural Speech Codecs for 300bps Communication using Reinforcement Learning #音频编码 #强化学习 #语音可懂度 ✅ 7/10 | 前30% | #音频编码 | #强化学习 | #语音可懂度 | arxiv 学术质量 5.9/8 | 影响力 0.7/1 | 可复现性 0.4/1 | 置信度 中高 👥 作者与机构 第一作者:Junyi Wang(清华大学,未明确具体院系) 通讯作者:未明确说明(论文列出了多个联系邮箱,未指明通讯作者) 作者列表:Junyi Wang(清华大学),Chi Zhang(华为技术有限公司),Jing Qian(华为技术有限公司),Haifeng Luo(华为技术有限公司),Hao Wang(华为技术有限公司),Zengrui Jin(清华大学),Chao Zhang(清华大学) 💡 毒舌点评 亮点:将强化学习引入极低比特率神经语音编解码器的训练,以直接优化语音可懂度(WER),是一个清晰且有价值的创新。通过将量化过程重构为可微分的随机策略,实现了对非可微指标的直接优化,这一方法论本身具有启发性。在300bps的极端条件下,其WER性能优于更高比特率的基线,证明了“可懂度优先”策略的有效性。 短板:论文的核心贡献局限于单一数据集(LibriSpeech)和单一下游任务(ASR)的评估,缺乏对不同语言、说话风格、噪声环境等场景的验证,泛化性存疑。声称“首次”将RL应用于编解码器训练需谨慎。模型未开源,严重限制了可复现性和社区验证。 📌 核心摘要 解决的问题:在卫星、水下等带宽受限的通信环境中,需要在极低比特率(如300bps)下传输语音,此时首要目标是保证语音可懂度(语义清晰度)。传统神经语音编解码器通常优化波形或频谱重建损失,这在极低比特率下会分配比特去拟合不必要的声学细节,从而损害可懂度。 方法核心:提出ClariCodec,一个两阶段训练的神经语音编解码器。第一阶段使用改进的有限标量量化(iFSQ)和重建损失(L1 mel、对抗、特征匹配)进行预训练,建立基础的离散语音表示。第二阶段,将量化过程重新表述为随机策略,冻结除编码器外的所有模块,使用基于组相对策略优化(GRPO)的强化学习,以预训练ASR模型输出的词错误率(WER)的负值作为奖励信号,直接微调编码器以最大化可懂度。为平衡可懂度与声学质量,在RL损失中引入梅尔重建损失作为正则项。 与已有方法的新颖之处:首次将强化学习应用于训练神经语音编解码器(根据作者声称),实现了对非可微指标(WER)的直接优化。提出了“随机残差量化”的概念,通过Gumbel-Softmax技巧使量化过程可微分,从而可作为RL策略。在300bps这一极低比特率下,证明了“可懂度优先”的训练策略能有效补偿比特率劣势。 主要实验结果: 在LibriSpeech test-clean上,ClariCodec(无RL)在300bps下WER为4.64%,已优于工作在400bps(4.88%)和466bps(5.59%)的基线。加入RL微调后,WER降至3.55%,实现了约23.5%的相对改进。 在更具挑战性的test-other上,WER从13.3%降至10.4%(约21.8%相对改进)。 声学质量指标(PESQ, UTMOS, SIM)在RL微调后基本保持稳定或略有改善(如test-clean UTMOS从4.12升至4.16),证明可懂度提升并非以严重牺牲声学质量为代价。 消融实验证明,单独的RL优化会轻微损害PESQ(从1.88降至1.83),而加入梅尔重建损失正则化后,PESQ得以部分恢复(至1.87),同时保留了大部分可懂度收益。STOI, UTMOS, SIM保持稳定。 主要结果表格(Table 1): 模型 #参数 #训练小时数 帧率 比特率 (bps) test-clean WER(%) ↓ test-other WER(%) ↓ test-clean PESQ ↑ test-clean UTMOS ↑ test-clean SIM ↑ Ground Truth - - - - 1.50 2.81 4.64 4.09 1.00 EnCodec (第一层) 15M 17.5k 10 750 16.1 36.4 1.25 1.25 0.25 StableCodec-700 950M 105k 25 700 3.91 12.0 1.92 4.31 0.58 FlexiCodec 450M 54k 6.25 640 2.57 4.69 2.20 4.15 0.71 SAC 533M 20k 12.5/25 525 2.00 4.15 2.16 4.27 0.78 WavTokenizer 72M 8k 40 480 7.38 21.1 1.63 3.57 0.51 SoCodec 54M 7.2k 8.3 466 5.59 10.6 1.28 2.50 0.39 StableCodec-400 950M 105k 25 400 4.88 14.4 1.92 4.31 0.53 SemantiCodec 507M 37.6k 12.5/12.5 312.5 22.7 40.2 1.38 2.72 0.34 ClariCodec (w/o RL) 301M 50k 12.5 300 4.64 13.3 1.88 4.12 0.50 ClariCodec (RL) 301M 50k 12.5 300 3.55 10.4 1.87 4.16 0.50 消融实验表格(Table 2): 配置 STOI ↑ PESQ ↑ UTMOS ↑ SIM ↑ WER(%) ↓ Stage 1 (无RL) 0.87 1.88 4.12 0.50 4.64 仅RL损失 0.87 1.83 4.15 0.50 3.54 Mel + RL损失 0.87 1.87 4.16 0.50 3.55 实际意义:为卫星、水下等极端带宽受限场景下的语音通信提供了一种新思路,强调了在不同应用场景下目标函数(优化可懂度而非音质)选择的重要性。 主要局限性:评估仅限于英语ASR任务和LibriSpeech数据集,对不同语言、说话风格、噪声环境的泛化能力未知;未评估对下游生成任务(如TTS、语音LLM)的影响;RL训练依赖特定的ASR模型作为奖励来源,其泛化性和稳定性是潜在风险;当前模型是非因果的,存在延迟,不适合实时应用。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中提及使用 Libriheavy(大子集,50,000 小时)进行训练,在 LibriSpeech 的 test-clean 和 test-other 子集上进行评估。这些数据集均为公开数据集,但论文未提供具体获取链接。 Demo:https://demo941.github.io/ClariCodec/ 复现材料:论文中提及了具体的训练配置(例如:使用8张NVIDIA H200 GPU,批次大小、训练步数、学习率、损失函数权重等)。未提及提供额外的检查点或附录。 论文中引用的开源项目: NeMo Conformer-Transducer: 用于计算WER。链接:https://huggingface.co/nvidia/stt_en_conformer_transducer_xlarge WavLM: 用于计算说话人相似度(SIM)的声纹验证模型。链接:https://github.com/microsoft/UniSpeech/tree/main/downstreams/speaker_verification Hybrid FastConformer TDT-CTC: 用于生成WER奖励信号的ASR模型。链接:https://huggingface.co/nvidia/parakeet-tdt_ctc-1.1b 🏗️ 方法概述和架构 整体流程概述 ClariCodec是一个端到端的神经语音编解码器,采用两阶段训练策略。系统输入为原始波形(16kHz单声道),输出为重建波形。核心流程:输入波形提取对数梅尔频谱图(窗长160样本,即10ms),经过基于ConvNeXt V2的编码器压缩为低帧率(12.5Hz)的离散token序列,再由对称结构的解码器从token序列重建出对数梅尔频谱图,最后由从头训练的Vocos声码器将频谱图转换回波形。第一阶段通过重建损失联合训练整个流水线以建立基础声学质量;第二阶段冻结解码器、量化器和声码器的参数,仅使用强化学习微调编码器,使其输出的token序列能最大化下游ASR模型给出的奖励(即最小化WER)。 ...

2026-05-20 · 更新于 2026-06-19 · 4 min · 747 words