语音/音乐/音频论文速递 2026-05-07

语音/音乐/音频论文速递 2026-05-07 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音频分类 3篇 ███ #音乐信息检索 2篇 ██ #音乐生成 2篇 ██ #音频质量评估 1篇 █ #语音识别 1篇 █ #语音情感识别 1篇 █ #标签分布学习 1篇 █ #视频编辑 1篇 █ 📊 论文评分排行榜(22 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Ev 8.5分 前10% #音频质量评估 🥈 PHALAR: Phasors for Learned Musical Audio Representatio 8.5分 前10% #音乐信息检索 🥉 The TTS-STT Flywheel: Synthetic Entity-Dense Audio Clos 8.5分 前25% #语音识别 4. To Fuse or to Drop? Dual-Path Learning for Resolving Mo 8.0分 前25% #语音情感识别 5. Trustworthy Federated Label Distribution Learning under 8.0分 前25% #标签分布学习 6. AVI-Edit: Audio-sync Video Instance Editing with Granul 8.0分 前25% #视频编辑 7. Empirical Study of Pop and Jazz Mix Ratios for Genre-Ad 7.5分 前50% #音乐生成 8. Hearing the Ocean: Bio-inspired Gammatone-CNN framework 7.5分 前25% #音频分类 9. Sparse Tokens Suffice: Jailbreaking Audio Language Mode 7.5分 前25% #音频安全 10. SEI-SHIELD: Robust Specific Emitter Identification Unde 7.5分 前25% #信号处理 11. OceanPile: A Large-Scale Multimodal Ocean Corpus for Fo 7.5分 前25% #音频分类 12. MiniMind-O Technical Report: An Open Small-Scale Speech 7.5分 前25% #语音对话系统 13. APEX: Large-scale Multi-task Aesthetic-Informed Popular 7.5分 前25% #音乐评估 14. Spatial-Magnifier: Spatial upsampling for multichannel 7.0分 前25% #语音增强 15. VocalParse: Towards Unified and Scalable Singing Voice 7.0分 前25% #音乐转录 16. Benchmarking LLMs on the Massive Sound Embedding Benchm 7.0分 前50% #音频分类 17. Stage-adaptive audio diffusion modeling 7.0分 前25% #音频生成 18. Adaptive Diagonal Loading for Norm Constrained Beamform 7.0分 前25% #波束成形 19. RenCon 2025: Revival of the Expressive Performance Rend 7.0分 前50% #音乐生成 20. Beyond Seeing Is Believing: On Crowdsourced Detection o 7.0分 前25% #音频深度伪造检测 21. Stage Light is Sequence^2: Multi-Light Control via Imit 7.0分 前25% #舞台技术 22. Library learning with e-graphs on jazz harmony 6.5分 前50% #音乐信息检索 📋 论文列表 🥇 JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Evaluation via Natural Language Instructions 🔥 8.5/10 | 前10% | #音频质量评估 | #大语言模型 | #多模态模型 #零样本 | arxiv ...

2026-05-07 · 更新于 2026-06-19 · 14 min · 2879 words

Enhancing Self-Supervised Talking Head Forgery Detection via a Training-Free Dual-System Framework

📄 Enhancing Self-Supervised Talking Head Forgery Detection via a Training-Free Dual-System Framework #说话头伪造检测 #音频安全 #自监督学习 #多模态模型 #免训练推理 ✅ 7.5/10 | 前25% | #说话头伪造检测 | #自监督学习 | #音频安全 #多模态模型 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 中 👥 作者与机构 第一作者:Ke Liu(电子科技大学) 通讯作者:未说明 作者列表:Ke Liu(电子科技大学),Jiwei Wei(电子科技大学),Shuchang Zhou(电子科技大学),Yutong Xiao(电子科技大学),Ruikun Chai(电子科技大学),Yitong Qin(电子科技大学),Yuyang Zhou(海南大学),Yang Yang(电子科技大学) 💡 毒舌点评 论文最大的亮点在于其巧妙的系统设计:将“不确定样本路由”与“大型多模态模型的免训练精细推理”解耦,既保留了原检测器的泛化性,又利用了基础模型的强理解能力来攻坚克难,思路清晰且具启发性。然而,短板也很明显:推理阶段依赖Qwen-7B这样的大型模型,计算开销和部署成本极高,这使得其宣称的“训练免费”优势在实际应用中可能大打折扣;此外,整个系统的复杂度(文本原型生成、帧/patch选择策略、提示工程)也带来了新的调优负担。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重的特定存储库链接(如Hugging Face或ModelScope)。论文中使用了预训练的第三方模型,但未提供其具体权重文件链接。 数据集: AVLips:论文中称其为“publicly available”(公开可用),但未提供具体URL。请通过检索论文引用(Liu et al., 2024)获取。 FakeAVCeleb (FKAV):论文中提及(Khalid et al., 2021),但未提供具体URL。请通过检索论文引用获取。 TalkingHeadBench (THB):论文中提及(Xiong et al., 2026),但未提供具体URL。请通过检索论文引用获取。 Demo:论文中未提及在线演示链接。 复现材料:论文中未提及包含训练配置、检查点、附录等在内的具体复现材料链接。 论文中引用的开源项目: CLIP:论文中使用了“frozen CLIP (Radford et al., 2021)”作为证据挖掘工具。项目主页通常为:https://github.com/openai/CLIP。 Qwen:论文中使用了“Qwen (Wang et al., 2024a)”进行视觉语言推理。项目主页通常为:https://github.com/QwenLM/Qwen2-VL。 BGE-Reranker-Large:论文中使用了“a text reranker (Rachidy et al., 2025)”进行排名分数估计。项目主页通常为:https://github.com/FlagOpen/FlagEmbedding。 AVH-Align:论文中的基础检测器,但未提供其官方代码仓库链接。请通过检索论文引用(Smeu et al., 2025)获取。 (注:以上链接为通用开源项目主页,论文本身未提供具体链接。) 补充信息 [作者与机构] 补充:论文作者列表中,Yang Yang 同样来自电子科技大学,根据学术惯例,其作为最后一位作者可能承担通讯或资深作者的角色,尽管原文未明确标注。 [模型架构] 补充:论文在介绍系统-2时明确指出,引入它的目的不是重复基检测器已建模的音视频对齐,而是为重新审视不确定样本提供一个互补的视觉-语言视角。这一动机更清晰地解释了系统-2与系统-1(音视频检测器)在分析维度上的区别。 [核心摘要/创新点] 补充:在“与已有方法相比新在哪里”部分,论文强调了一种范式转变:即不再仅仅致力于设计更强的检测器(“模型竞赛”),而是转向挖掘和释放现有检测器在困难样本上剩余的判别潜力。这一视角的提出是其核心贡献之一。 [实验结果] 补充: 在表1中,AVH-Align*+TFDS 在AVLips数据集上的AP提升幅度为+13.2个百分点(从74.3%到87.5%),这是一个非常显著的性能增益,分析中提到了AP提升13.2%但未明确列出基线数值。 在表2关于不确定子集的分析中,AVLips数据集上不确定子集的AUC从基线的31.6% 提升至67.1%,绝对提升达35.5个百分点,该数据直接量化了TFDS在困难样本上的强大修正能力。 [消融实验] 补充:表4的消融实验结果中,“w/o CLIP”(移除CLIP证据挖掘)和“w/o Qwen”(移除Qwen推理)两项消融在THB和AVLips上均导致了显著的性能下降(如AVLips上AP分别从87.5降至81.3和75.7),这定量证实了视觉证据挖掘模块和语义推理阶段均为系统不可或缺的关键组件。 [评分理由/毒舌点评] 补充:论文在其结论中再次总结,TFDS的核心价值在于通过显式精炼(refine)其不确定预测,从一个固定的(fixed) 自监督检测器中获得了显著增益,而无需重新训练新检测器。这一陈述强化了其“免训练增强”的定位和实践意义。 [细节详述] 补充:论文在4.1.1节说明,用于估计系统-1路由阈值τ的验证集数据,与用于重训练基检测器AVH-Align*的验证集数据是同一份(来自AVLips的6:1:3划分中的“1”部分)。 📌 核心摘要 要解决的问题:现有的自监督说话头伪造检测器虽然泛化性较好,但在面对生成器不断进化、伪造痕迹越来越微弱时,对“困难样本”(不确定子集)的判别能力不足,导致整体性能瓶颈。 方法核心:提出免训练双系统框架(TFDS)。系统-1:基于现有自监督检测器(如AVH-Align)的原始分数,通过验证集学习一个阈值,将测试样本快速路由为“置信子集”和“不确定子集”。系统-2:仅对不确定子集激活,利用冻结的CLIP模型挖掘可疑的视觉证据(帧和局部patch),将证据输入Qwen生成精细文本描述,再通过文本重排器转化为排名分数,最终通过“槽位保持重排”仅修正不确定子集内的样本相对排序。 与已有方法相比新在哪里:不同于以往“设计更强检测器”的思路,本文转向“挖掘现有检测器的剩余潜力”。新在:1) 双系统分工:模仿人类认知,让快速直觉判断(系统-1)和精细分析(系统-2)各司其职。2) 免训练集成:将大型多模态模型作为即插即用的推理模块,而非训练目标的一部分。3) 槽位保持精修:严格限制系统-2的输出仅用于局部重排,保护原检测器的全局决策结构。 主要实验结果:在AVLips、FKAV、THB三个数据集上,TFDS能稳定提升基检测器(AVH-Align*)的性能。例如,在AVLips上AP提升13.2%,在THB上AP提升12.2%。提升主要集中在不确定子集(AVLips不确定子集AP提升17.1%,AUC提升35.5%)。在噪声、模糊、压缩等扰动下,性能提升依然显著(如反转扰动下AP提升25.6%)。消融实验表明,系统-1路由、CLIP证据挖掘、Qwen推理和槽位保持重排均为关键组件。 实际意义:提供了一种“模型插件”式的新范式,无需重新训练检测器即可提升其性能上限,对快速响应新型生成器有一定实用价值。它强调了在模型性能已较高的情况下,精细化处理“难例”可能是更具性价比的优化方向。 主要局限性:1) 推理开销大:系统-2依赖大型视觉语言模型(Qwen-7B),导致推理速度慢、资源消耗高,难以满足实时或大规模检测需求。2) 模块复杂度高:涉及多个子模块(帧选择、patch选择、文本原型、重排器),整体流程复杂,每个环节的超参数都可能影响最终效果。3) 对基检测器的依赖:性能提升依赖于基检测器(AVH-Align)提供有效的粗排,若基检测器本身很差,路由和精修的基础可能不牢固。 🏗️ 模型架构 整体架构是一个串行的两阶段流程,核心设计思想是“先粗筛,后精修”。 ...

2026-05-06 · 更新于 2026-06-19 · 3 min · 428 words

MiniMind-O Technical Report: An Open Small-Scale Speech-Native Omni Model

📄 MiniMind-O Technical Report: An Open Small-Scale Speech-Native Omni Model #语音对话系统 #端到端 #多模态模型 #流式处理 #语音克隆 ✅ 7.5/10 | 前25% | #语音对话系统 | #端到端 | #多模态模型 #流式处理 | arxiv 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Jingyao Gong(Independent Researcher,独立研究者) 通讯作者:未明确说明(论文中仅提供第一作者邮箱 gongjy.cs@foxmail.com,未指明通讯作者) 作者列表:Jingyao Gong(Independent Researcher) 毛舌点评 该论文的亮点在于它将一个完整的“听-看-想-说”全模态闭环在0.1B的小模型规模上实现并彻底开源,包括训练代码、模型权重和处理过的多模态训练数据集,为社区提供了一个可完全复现和修改的小型研究基线。然而,其短板也十分明显:受限于极小的模型规模,在语音自然度、长句稳定性和复杂指令跟随能力上与大模型存在显著差距,其评估也主要集中在内部一致性而非端到端的用户体验,更像一个验证技术可行性的原型而非实用系统。 核心摘要 问题:旨在探索在极小参数规模(0.1B)下,构建一个能够同时处理文本、语音、图像输入并输出文本与流式语音的端到端全模态模型的可行性与设计范式。 方法:采用“思考者-说话者”分离架构。“思考者”是完整的MiniMind语言模型主干,接收文本、经过投影的语音(SenseVoice)和图像(SigLIP2)特征;“说话者”是一个独立的4层MiniMind模块,接收来自思考者中层的语义桥接状态和自回归的Mimi语音编码历史,以预测8层的Mimi码本用于生成流式语音。说话人身份通过参考语音编码和预计算的CAM++嵌入在说话者模块中进行条件化。 创新:核心创新在于为小规模全模态模型提出的三项设计选择:(1) 使用中层语义桥接,而非首层或末层状态,为说话者提供更干净的语义条件;(2) 公开了用于训练的多模态序列格式和数据集;(3) 为8个Mimi码本设计了参数高效的共享基础加低秩适配器的嵌入与输出头接口。 主要实验结果: 一致性:在内部一致性评估中,密集模型和MoE模型在平均字符错误率(CER)上分别为0.0897和0.0900。 语音克隆:使用CAM++说话人嵌入进行评估,密集模型和MoE模型的总体语音克隆相似度(余弦相似度)分别为0.5995和0.5937。 跨模型对比:在简短英文问答T2A一致性上,0.1B的MiniMind-O(Avg CER: 0.0964, Avg WER: 0.0973)落后于0.5B的Mini-Omni(Avg CER: 0.0101, Avg WER: 0.0185)和Mini-Omni2(Avg CER: 0.0371, Avg WER: 0.0431)。 消融实验:说话者模块的隐藏维度从768降至512或384时,CER显著恶化。低秩适配器消融显示输出头的秩比嵌入层的秩更重要。 实际意义:提供了一个完全可公开审查和复现的小规模全模态交互系统,降低了该领域的研究门槛。其明确的设计选择(如中层桥接)和完全开源的闭环数据,为分析和改进小模型全模态架构提供了可控的研究对象。 主要局限性:语音自然度和长句生成的稳定性不足;视觉通路依赖冻结编码器和固定占位符,能力有限;评估主要关注内部转录一致性,未充分评估自然度、鲁棒性和安全性等。 详细分析 01.模型架构 MiniMind-O 是一个端到端的全模态模型,其核心架构遵循“思考者-说话者”分离范式,整体数据流如图1所示。 ...

2026-05-06 · 更新于 2026-06-19 · 5 min · 929 words

ReasonAudio: A Benchmark for Evaluating Reasoning Beyond Matching in Text-Audio Retrieval

📄 ReasonAudio: A Benchmark for Evaluating Reasoning Beyond Matching in Text-Audio Retrieval #音频检索 #基准测试 #多模态模型 #对比学习 #模型评估 ✅ 7.5/10 | 前25% | #音频检索 | #对比学习 | #基准测试 #多模态模型 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Honglei Zhang (南京大学软件学院) 通讯作者:未说明(论文未明确指定) 作者列表: Honglei Zhang (南京大学软件学院) Yuting Chen (西北工业大学软件学院) Chenpeng Hu (西北工业大学软件学院) Siyue Zhang (南洋理工大学计算与数据科学学院) Yilei Shi (西北工业大学软件学院) 💡 毒舌点评 本文最大的价值在于“撕开了一道口子”:用精心设计的合成基准,无情地揭示了当前多模态检索模型(即便是基于强大MLLM的)在“否定”、“时长”等基础推理任务上脆弱得可笑,最高平均准确率仅20.1%,这为后续研究划出了明确的“能力短板”地图。但硬伤也很明显:全靠合成数据得出的结论,多少有点“温室里的比武”,模型在真实世界嘈杂、语义模糊的查询中表现如何,这篇论文其实并没有给出答案。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重获取链接。 数据集:ReasonAudio。论文中在摘要部分的脚注提到“The dataset is available on HuggingFace”,但未提供具体URL。 Demo:论文中未提及在线演示链接。 复现材料:论文中未提及训练配置、检查点等复现材料。 论文中引用的开源项目: FSD50K (Fonseca et al., 2022):https://zenodo.org/record/4060432 Freesound (Jiang et al., 2025):https://freesound.org/ AudioCaps (Kim et al., 2019):https://www.kaggle.com/datasets/costacr/audio-caps Clotho (Drossos et al., 2020):https://zenodo.org/record/4783391 WavText5K (Deshmukh et al., 2022):https://github.com/Declare-lab/WavText5K SoundDescs (Koepke et al., 2023):https://zenodo.org/record/6990313 AudioSet (Sun et al., 2025):https://research.google.com/audioset/ SVQ (MSEB) (Google Research, 2025):https://github.com/google-research/google-research/tree/master/mseb Spoken SQuAD (Lee et al., 2018):https://github.com/raoyongming/Spoken-SQuAD Qwen2-Audio (Chu et al., 2024):https://github.com/QwenLM/Qwen2-Audio Step-Audio (Huang et al., 2025):https://github.com/step-function-ai/Step-Audio BGE-M3 (Chen et al., 2024):https://github.com/FlagOpen/FlagEmbedding Qwen3-Embedding (Zhang et al., 2025c):https://github.com/QwenLM/Qwen3-Embedding CLAP (Elizalde et al., 2023):https://github.com/LAION-AI/CLAP AudioCLIP (Guzhov et al., 2022):https://github.com/AndreyGuzhov/AudioCLIP Wav2CLIP (Wu et al., 2022):https://github.com/keunwoochoi/Wav2CLIP LCO-Embedding (Xiao et al., 2025):https://github.com/LCO-AI/LCO-Embedding e5-omni (Chen et al., 2026):https://github.com/microsoft/unilm/tree/master/e5-omni OmniEmbed (Xu et al., 2025):https://github.com/XuLab-Connect/OmniEmbed CLIP (Radford et al., 2021):https://github.com/openai/CLIP 补充信息 [模型架构] 补充:对于“基于MLLM的嵌入模型”这一范式,论文原文更具体地指出其设计动机和核心是“leverage pretrained multimodal large language models (MLLMs) to learn unified representations across modalities”(利用预训练的多模态大语言模型来学习跨模态的统一表示)。这明确了其架构创新点在于直接基于强大的多模态生成模型进行微调以获取检索嵌入,而非从头训练或使用纯编码器架构。 [实验结果] 补充:论文在第5节的分析中,对多选题测试和t-SNE可视化的结果有更深入和具体的解读。 关于多选题测试(图2),论文指出OmniEmbed-7B在Duration任务上的准确率(50.8%)是“marginally above random chance”(略高于随机水平),而在Negation任务上的准确率(27.5%)则“indicating a failure to capture negation semantics and a bias toward matching mentioned sounds”(表明未能捕捉否定语义,并存在匹配查询中提及声音的偏见)。这比“接近随机”和“低于随机”的概括更具体地揭示了模型的问题本质。 关于t-SNE可视化(图3),论文结论更明确地指出,嵌入空间的错位(misalignment)直接导致了“failing to encode logical constraints—particularly negation—into the shared embedding space”(未能将逻辑约束——尤其是否定——编码到共享嵌入空间)。这直接解释了模型在否定任务上表现低于随机水平的原因。 [核心摘要/毒舌点评] 补充:论文在摘要和结论中均强调了一个关键发现:所提出的五个推理任务“pose significant challenges to current models”(对当前模型构成重大挑战)。这不仅是实验结果,也是论文的核心诊断结论,明确了其作为“压力测试”基准的价值。 📌 核心摘要 要解决什么问题:现有的文本-音频检索基准(如AudioCaps, Clotho)主要关注语义匹配,忽视了现实世界查询中常见的复杂逻辑推理需求(如否定、时序、并发、时长)。这导致当前检索模型的能力评估不全面。 方法核心是什么:提出了首个推理密集型文本-音频检索基准ReasonAudio。通过从FSD50K和Freesound收集200种原子声音,程序化合成为10,000个具有精确时间关系的复合音频片段,并基于模板生成了1,000个涵盖五个推理任务(否定、排序、重叠、时长、混合)的文本查询。 与已有方法相比新在哪里:不同于以往侧重于音频-文本描述对的检索数据集,ReasonAudio专注于评估模型对查询中逻辑和时间约束的理解与执行能力,是音频检索领域的首个推理专用基准。 主要实验结果如何:在ReasonAudio上评测了三大范式十个模型,发现所有模型都表现不佳。两个阶段和CLIP式模型平均准确率低于10%。基于MLLM的嵌入模型表现最好,但最佳模型(OmniEmbed-7B)的平均准确率也仅为20.1%。具体而言,模型在“重叠”和“排序”任务上相对较好,但在“否定”和“时长”任务上严重失败,准确率极低。模型即使在只评估推理能力的多选题设置中,“否定”任务准确率也低于随机水平(27.5%)。 实际意义是什么:本工作为社区提供了一个用于诊断和推进音频检索模型推理能力的标准化评测工具。实验结果明确指出了当前模型,特别是通过对比学习微调的MLLM,无法有效保留其骨干网络的推理能力,为未来的模型训练范式(如如何更好地对齐与约束嵌入空间)指明了改进方向。 主要局限性是什么:基准完全基于合成音频构建,缺乏真实录音环境的声学复杂性和语义模糊性。评估的查询规模(1000条)虽满足实验需求,但与工业应用规模仍有差距。论文未提出新的模型方法,主要贡献在于诊断与评测。 🏗️ 模型架构 本文是一篇基准测试与模型评估论文,并未提出一个新的检索模型架构。其核心“架构”是所提出的ReasonAudio基准的构建流程以及对现有模型范式的评测框架。 ...

2026-05-06 · 更新于 2026-06-19 · 3 min · 429 words

Toward Structural Multimodal Representations: Specialization, Selection, and Sparsification via Mixture-of-Experts

📄 Toward Structural Multimodal Representations: Specialization, Selection, and Sparsification via Mixture-of-Experts #多模态模型 #自监督学习 #对比学习 #多任务学习 #模型评估 ✅ 7.0/10 | 前25% | #多模态模型 | #自监督学习 | #对比学习 #多任务学习 | arxiv 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Hahyeon Choi(未说明具体机构) 通讯作者:Nojun Kwak(未说明具体机构) 作者列表:Hahyeon Choi(未说明具体机构),Nojun Kwak(未说明具体机构) (注:论文作者列表仅提供姓名,未在正文中明确标注所属大学、实验室或公司。根据致谢部分,研究由韩国政府资助,但作者具体机构未在文中说明。) 💡 毒舌点评 论文最大的亮点在于它没有陷入“目标函数炼丹”,而是从“表示结构”的角度为多模态学习提出了一个清晰、模块化的三阶段框架(S3),理论分析也挺到位,尤其是对对比学习和InfoMax方法缺陷的剖析。不过,短板也很明显:它把一个通用的多模态框架牢牢焊死在了“视频情感分析”这个应用场景上,实验完全基于MultiBench里的四个情感任务,既没碰音频,也没展示在更广泛任务(如检索、生成)上的威力,让人怀疑这“结构化”的优势到底有多通用。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中提及使用了 MultiBench 基准套件中的四个数据集:MOSEI、MOSI、UR-FUNNY 和 MUStARD。论文中未提供这些数据集的具体获取链接。 Demo:论文中未提及 复现材料:论文中未提及训练配置、检查点等具体复现材料。文中提供了实验细节(如附录 G.2)和部分消融研究结果(如表 3, 表 4),但未提供完整的代码或模型文件。 论文中引用的开源项目: MultiBench:论文中提及的多模态基准套件,但未提供链接。 CLIP:论文中作为对比方法提及,但未提供链接。 FactorCL:论文中作为对比方法提及,但未提供链接。 FOCAL:论文中作为对比方法提及,但未提供链接。 JointOpt:论文中作为对比方法提及,但未提供链接。 DisentangledSSL:论文中作为对比方法提及,但未提供链接。 补充信息 细节详述 补充:论文未在正文中提供具体的训练超参数(如学习率、优化器、训练轮数),但在附录G.2中说明其设置遵循先前工作(Liang et al., 2023; Wang et al., 2025)以进行公平对比。 实验结果 补充:论文Table 1提供了不同粒度χ和稀疏化比例p下的完整性能数据,更清晰地展示了“反U型”曲线。以χ=8在MOSEI上的结果为例,完整S3性能随p值从1.0降至0.1的变化为:75.78% (Special.) → 77.36% (p=1.0) → 77.95% (p=0.7) → 77.01% (p=0.1)。论文Table 2显示,与最强基线DisentangledSSL相比,S3在MOSI上的提升约为1.0%(65.16% vs 66.13%),在MUStARD上的提升约为1.0%(61.60% vs 62.56%)。 细节详述 补充:论文附录H.3的Table 4提供了“选择”阶段可训练参数的比例,显示仅更新路由器参数,其占比在0.0984%(χ=2)到1.0708%(χ=8)之间,强调了该阶段的高效性。 模型架构 补充:论文4.4节详细解释了超参数“粒度χ”与“扩展比ρ”的关系和设计动机。χ决定了专家隐藏维度(D_expert = D_ffn / χ),ρ决定了参数增加量(ρ = P_moe / P_ffn),总专家数N_expert = χ * ρ。论文固定ρ=8,并说明将激活专家数k设为等于χ,以保证与原始FFN的公平比较。 核心摘要 补充:论文在结论部分明确列出了未来研究方向,包括:(1) 针对关键任务的模态自适应信息保留;(2) 对模型深度中语义抽象的层自适应建模;(3) 减少标签依赖的自监督路由适应;(4) 更精确语义分解的增强专家特化;(5) 自适应粒度和剪枝策略的稀疏化。这反映了作者对框架局限性的认识和未来拓展路径。 作者与机构 补充:论文致谢部分明确说明研究由韩国政府通过IITP的三个基金(RS-2021-II211343, RS-2022-II220953, RS-2025-25442338)资助。 📌 核心摘要 解决的问题:现有主流多模态表示学习方法存在根本矛盾——对比学习(Contrastive Learning)倾向于对齐共享信息但丢失模态独特信息,而信息最大化(InfoMax)方法试图保留所有信息却引入大量任务无关冗余。论文指出,这种矛盾部分源于缺乏将表示结构化的归纳偏置。 方法核心:提出S3(特化、选择、稀疏化)框架,基于混合专家(MoE)模型构建结构化的多模态表示。 特化(Specialization):使用MoE编码器将多模态输入分解为概念级的“专家”表示,并通过信息最大化损失和分布语义一致性(DSC)约束进行自监督预训练。 选择(Selection):冻结编码器,仅微调路由网络,通过监督对比损失(促进任务充分性)和基于vMF分布的紧致性损失(促进信息最小性)来选择性激活任务相关专家。 稀疏化(Sparsification):在推理时,根据路由分数剪枝低贡献的专家路径,无需额外训练,得到更简洁的表示。 创新之处:核心创新是从“结构”视角重新设计MMRL,将信息显式分解为可选择的语义组件,而非优化单一损失函数。这提供了理论上的“任务充分性”与“信息最小性”的统一框架,并发现了性能随稀疏度呈“反U型”曲线的关键现象。 实验结果:在MultiBench的四个情感分析基准(MOSEI, MOSI, UR-FUNNY, MUStARD)上,S3框架在多个细粒度设置(χ=8)下取得了最优的线性探测准确率。例如,在MOSEI上,完整S3框架(χ=8,剪枝后)达到77.95% 的准确率,超过了之前最好的DisentangledSSL(77.45%)和CLIP(76.87%)。关键消融实验表明,三阶段流程是必要的,单独使用稀疏化效果不佳。 实际意义:该框架为构建更可控、高效的多模态模型提供了新思路,其“选择-稀疏”机制允许在推理时动态权衡性能与计算效率,对边缘部署等场景有潜在价值。所提出的“结构化”理念可能启发其他领域表示学习的设计。 主要局限:实验范围局限于视觉-文本模态和情感分析任务,未验证在其他模态(如音频)或任务(如检索、生成)上的通用性。评估仅使用线性探测,未与端到端微调或其他评估方式对比。理论上的“分布语义一致性”在实际模型中如何精确实现和验证仍需深入探讨。 🏗️ 模型架构 S3框架是一个三阶段的模块化流程,其核心架构基于混合专家(Mixture-of-Experts, MoE) 构建。 ...

2026-05-06 · 更新于 2026-06-19 · 2 min · 325 words

语音/音乐/音频论文速递 2026-05-06

语音/音乐/音频论文速递 2026-05-06 共分析 23 篇论文 ⚡ 今日概览 📥 抓取 23 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 5篇 █████ #音乐信息检索 3篇 ███ #生物声学 3篇 ███ #音频深度伪造检测 2篇 ██ #音频事件检测 1篇 █ #音乐理解 1篇 █ #语音生物标志物 1篇 █ #语音对话系统 1篇 █ 📊 论文评分排行榜(23 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Towards Open World Sound Event Detection 8.5分 前25% #音频事件检测 🥈 The TTS-STT Flywheel: Synthetic Entity-Dense Audio Clos 8.5分 前25% #语音识别 🥉 PHALAR: Phasors for Learned Musical Audio Representatio 8.0分 前10% #音乐信息检索 4. Ecologically-Constrained Task Arithmetic for Multi-Taxa 8.0分 前25% #生物声学 5. AfriVox-v2: A Domain-Verticalized Benchmark for In-the- 8.0分 前25% #语音识别 6. APEX: Large-scale Multi-task Aesthetic-Informed Popular 8.0分 前25% #音乐理解 7. Mixed-Precision Information Bottlenecks for On-Device T 8.0分 前25% #语音生物标志物 8. MiniMind-O Technical Report: An Open Small-Scale Speech 7.5分 前25% #语音对话系统 9. Deepfake Audio Detection Using Self-supervised Fusion R 7.5分 前25% #音频深度伪造检测 10. Smart Passive Acoustic Monitoring: Embedding a Classifi 7.5分 前25% #生物声学 11. DECKER: Domain-invariant Embedding for Cross-Keyboard E 7.5分 前25% #音频安全 12. Contrastive Regularization for Accent-Robust ASR 7.5分 前25% #语音识别 13. AsymK-Talker: Real-Time and Long-Horizon Talking Head G 7.5分 前25% #语音合成 14. Learning Generalizable Action Representations via Pre-t 7.5分 前25% #生物声学 15. Stage Light is Sequence$^2$: Multi-Light Control via Im 7.5分 前25% #音乐信息检索 16. Enhancing Self-Supervised Talking Head Forgery Detectio 7.5分 前25% #说话头伪造检测 17. ReasonAudio: A Benchmark for Evaluating Reasoning Beyon 7.5分 前25% #音频检索 18. Assessing the Impact of Noise and Speech Enhancement on 7.0分 前25% #模型评估 19. Phoneme-Level Deepfake Detection Across Emotional Condi 7.0分 前50% #音频深度伪造检测 20. A Comprehensive Analysis of Tokenization and Self-Super 7.0分 前50% #语音识别 21. Toward Structural Multimodal Representations: Specializ 7.0分 前25% #多模态模型 22. Cosmodoit: A Python Package for Adaptive, Efficient Pip 6.5分 前50% #音乐信息检索 23. A Paradigm for Interpreting Metrics and Identifying Cri 6.0分 前50% #语音识别 📋 论文列表 🥇 Towards Open World Sound Event Detection 🔥 8.5/10 | 前25% | #音频事件检测 | #Transformer | #开放世界学习 #增量学习 | arxiv ...

2026-05-06 · 更新于 2026-06-19 · 15 min · 3158 words

BRITE: A Benchmark for Reliable and Interpretable T2V Evaluation on Implausible Scenarios

📄 BRITE: A Benchmark for Reliable and Interpretable T2V Evaluation on Implausible Scenarios #基准测试 #模型评估 #音视频 #多模态模型 ✅ 7.5/10 | 前25% | #基准测试 | #模型评估 | #音视频 #多模态模型 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Advait Tilak(未说明) 通讯作者:未说明 作者列表:Advait Tilak(未说明)、Jiwon Choi(未说明)、Nazifa Mouli(未说明)、Wei Le(未说明) 💡 毒舌点评 亮点:BRITE基准的核心设计非常“聪明”,它通过“不可能场景”和细粒度问答,像给T2V模型做“压力测试”和“CT扫描”,能精准定位模型是“记不住动作”还是“对不上音画”,这比单纯看生成视频“像不像”深刻得多。 短板:然而,这个“CT扫描仪”本身有点贵——整个评估依赖大量人工标注,导致基准规模受限(每个模型仅100个提示),其结论的统计显著性和泛化能力可能会被质疑,更像是一个概念验证(Proof-of-Concept)而非可无限扩展的工业标准。 🔗 开源详情 代码:https://doi.org/10.6084/m9.figshare.31179547 模型权重:论文中未提及 数据集:https://doi.org/10.6084/m9.figshare.31179547 Demo:论文中未提及 复现材料:论文中提及的代码、提示词和数据集均发布于上述 figshare 链接。论文附录提供了用于生成提示词和评估问题的 LLM 提示词模板(Meta-Prompt),但未提及模型训练配置或检查点。 论文中引用的开源项目:未提及(论文中引用的评估对象为闭源商业模型,如 Sora 2, Veo 3.1, Runway Gen4.5 等;使用的生成工具如 GPT-4, Gemini 2.5 Pro 为闭源商业 API,未提供其开源代码仓库链接)。 📌 核心摘要 问题:当前文本到视频(T2V)生成模型的评估基准存在两大盲点:一是主要关注合理场景,无法测试模型在违背常识的“不可能场景”下是否还能忠实于指令;二是绝大多数基准只评估视觉,忽略了对音频及其与视频同步性的评估。 方法核心:提出了BRITE,一个集不可能场景提示、多维度(包含音频与音视频同步)原子问题评估、以及人类在环可靠验证于一体的综合T2V评估框架。 创新之处:(1) 系统性地将“不可能场景”(社会反转、生物/物理不可能、时间修改)作为核心测试用例;(2) 首次在T2V基准中引入对音频内容和音视频时序同步的细粒度评估;(3) 设计了人类在环协议(从提示筛选、问题生成到最终标注)以规避VLM评估的“循环偏见”,确保可靠性。 实验结果:在五个SOTA模型(Sora 2, Veo 3.1等)上评估了500个视频和1364个问题。结果显示,模型普遍在生成静态主体(平均得分0.90)和环境(0.94)上表现良好,但在动态动作绑定(0.59)、音频正确性(0.61)和音视频同步(0.47)上显著退化。其中,时间修改类场景最具挑战性(平均分0.65)。关键数据见下表: 模型 总体得分 主体 动作 环境 音频 音视频同步 Runway Gen4.5 0.84 0.93 0.61 0.96 N/A N/A Sora 2 0.77 0.94 0.65 0.95 0.76 0.55 Veo 3.1 0.76 0.92 0.58 0.97 0.69 0.63 Qwen3MAX 0.69 0.90 0.56 0.90 0.63 0.41 PixVerse 5.5 0.59 0.82 0.55 0.88 0.37 0.31 平均 0.73 0.90 0.59 0.94 0.61 0.47 上图(a)显示了模型在“不可能场景”上的整体及分维度表现;下图(b)展示了在四类不同不可能提示上的推理性能。关键结论:Runway Gen4.5综合表现最佳,但所有模型在“时间修改”上均表现不佳,且主体-动作性能差距显著。 ...

2026-05-05 · 更新于 2026-06-19 · 2 min · 295 words

Delayed Commitment for Representation Readiness in Stage-wise Audio-Visual Learning

📄 Delayed Commitment for Representation Readiness in Stage-wise Audio-Visual Learning #音视频 #多模态模型 #语音分离 #语音识别 #音频事件检测 ✅ 7.5/10 | 前25% | #音视频 | #多模态模型 | #语音分离 #语音识别 | arxiv 学术质量 7.0/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Xinmeng Xu(岭南大学人工智能系) 通讯作者:Haoran Xie(岭南大学人工智能系) 作者列表: Xinmeng Xu(岭南大学人工智能系) Haoran Xie(岭南大学人工智能系) S. Joe Qin(岭南大学人工智能系) Lin Li(武汉理工大学计算机与人工智能学院) Xiaohui Tao(南昆士兰大学数学、物理与计算学院) Fu Lee Wang(香港都会大学科技学院) 💡 毒舌点评 亮点:论文最大的价值在于将音视频融合中“局部匹配好但后续支持不足”的中间状态,形式化为一个可计算、可干预的“准备度缺陷”问题,并设计了一套从诊断到修复的完整框架,这种从“现象描述”到“机理分析”再到“模块化修正”的研究思路非常扎实。短板:方法的核心创新(识别并强化弱支持层)在某些视角下可视为一种特殊的层间注意力或自适应特征精炼,其相对于现有注意力机制的质变提升并不明显;此外,论文对计算开销的讨论较浅,虽然声称是编码器级轻量干预,但增加的支持聚合和门控计算在具体硬件上的实际延迟影响未被充分量化。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中提及并使用了LRS2、LRS3、VoxCeleb2、AVE数据集,但未提供具体的获取链接或开源协议。 Demo:论文中未提及 复现材料:论文中提及了训练配置的概要(如使用Adam优化器、NVIDIA H100 GPU训练、早停策略),但未提供具体的配置文件、检查点或详细复现指南。 论文中引用的开源项目:论文中引用了多个音频-视觉学习相关的基线方法(如AV-ConvTasNet, VisualVoice, CTC-Net, RTFS-Net, LAVisH, AVMoE等),但未提供这些项目的具体开源仓库链接。 补充信息 [模型架构] 补充:原文在 Table IX: Implementation Design Ablations 中详细分析了承诺评估和支持感知瓶颈完成的实现设计选择,该部分内容在已有分析中未被提及。该表格报告了在LRS2数据集不同条件下,针对路由策略(训练与推理时软/硬路由的组合)、评估线索来源(音频/视觉线索是否为学习得到)、修正阶段选择(单阶段、同时Top-2、迭代2阶段)、支持分支设计(仅视觉支持、仅音频支持、无支持、完整支持)以及支持模块设计(是否包含跨模态交互、是否包含全局聚合)等不同变体的消融实验结果(SI-SNRi)。这些实验验证了默认设计选择的合理性,是模型实现的重要组成部分。 [细节详述] 补充: 训练硬件:分析中已提及优化器、学习率等,但未明确说明训练硬件。论文第五节明确指出“Training is conducted on NVIDIA H100 GPUs”。 实现设计消融:分析中详细列举了Table VIII的组件消融(CA/BC),但未提及原文 Section VII-D Implementation Design Analysis 和 Table IX 中的实现设计消融。该部分分析了不同路由策略、评估线索来源、修正阶段选择、支持分支设计等具体实现选择对性能的影响,是理解模型工程细节的关键,补充了分析中“训练策略”和“关键超参数”部分的深度。 [实验结果] 补充: 与SOTA的量化差距:分析中在结论部分提到了性能提升,但未在实验结果部分给出与关键基线的具体提升数值。可在相应表格结论中补充具体数字,例如:在AVSS任务LRS2数据集标准设置下(Table II),DPC-Net的SI-SNRi(16.8 dB)比最强对照基线AV-CrossNet†(16.5 dB)高出0.3 dB;在AVSR任务LRS2数据集-5~5 dB设置下(Table V),WER(9.0%)比AD-AVSR(9.4%)绝对值低0.4%。 统计可靠性具体数值:分析中提及了Table VII显示结果稳定,但未列出具体的均值和标准差。可在该部分补充关键设置下的具体统计数值,例如:在AVSS LRS2 Clean设置下,DPC-Net的SI-SNRi为16.84±0.18 dB(AV-CrossNet†为16.46±0.21 dB);在AVEL Swin-V2-L+HTS-AT设置下,准确率为83.28±0.11%(AVMoE†为82.13±0.10%)。 [核心摘要] 补充:在“局限性”部分,可进一步明确论文原文提及的局限性。除了分析中已列出的三点,论文摘要最后一句还强调了方法的有效性可能依赖于编码器具有明显的阶段性中间层表示,对于更连续的融合架构(如某些Transformer)的适用性有待验证。这一点已在分析的“核心摘要”局限性第3点中提及,但表述可以更直接引用原文。更重要的是,分析未提及原文在Section I Introduction中关于方法局限性的具体讨论:干预模块增加了参数和计算开销,但论文未详细量化在具体硬件上的实际延迟影响。这一讨论在“毒舌点评”中被提及,但未在“核心摘要”的局限性列表中强调其作为已声明局限性的重要性。 [评分理由] 补充:在“学术质量分”的“实验充分性”部分,可补充原文 Section VI-D Statistical Reliability 和 Table VII 的内容。论文不仅进行了广泛的任务对比,还通过五次重复运行报告了均值和标准差,以证明性能提升的统计可靠性,这增强了实验充分性的说服力,是评分中“实验充分性(优秀)”的一个具体支撑点。 📌 核心摘要 问题:在多阶段音视频编码器中,中间层的融合状态会被传递到后续层。一个在当前阶段局部一致性很强的融合状态,可能在没有积累足够的跨层、跨模态证据支持前,就过早地获得了对后续表示的强大影响力,导致“过早感知承诺”,损害整体表示质量。 方法核心:提出了延迟感知承诺网络(DPC-Net)。它通过估计一个“准备度缺陷”代理指标 $\widehat{D}_{l}$ 来定位干预敏感的瓶颈层(该指标综合了当前层的音视频一致性、下游锚定度、支持覆盖度)。随后,聚合所有层的音视频支持证据,对瓶颈层的表示进行门控残差校正,以增强其支持覆盖度,再传递给后续层。 创新点:首次将多模态中间层融合的“时机”和“准备度”问题形式化为“准备度缺陷”;提出了基于可观测线索的瓶颈定位准则;设计了一个编码器级、任务无关的干预框架,在保持任务头和损失不变的情况下提升表示。 实验结果:在AVSS(语音分离)、AVEL(事件定位)、AVSR(语音识别)三个任务和多个数据集上均取得一致提升。例如,在LRS2语音分离标准设置下,SI-SNRi达到16.8 dB,超过最强基线AV-CrossNet(16.5 dB);在LRS2语音识别低信噪比(-5~5 dB)设置下,WER降至9.0%,优于AD-AVSR(9.4%)。在视觉降质(遮挡、噪声模糊)条件下,优势更为明显。 实际意义:为设计更鲁棒的多模态融合模型提供了新思路,即不仅关注当前层的交互,还应评估中间状态对后续步骤的“准备就绪”程度。该方法可作为通用模块提升多种音视频任务的性能。 局限性:1)干预模块本身增加了参数和计算开销(论文未详细讨论实际延迟影响);2)准备度代理指标的阈值($\tau_A, \tau_P, \tau_C$)需要设定,其敏感性分析可更深入;3)方法的有效性可能依赖于编码器具有明显的阶段性中间层表示,对于更连续的融合架构(如某些Transformer)的适用性有待验证。 🏗️ 模型架构 DPC-Net是一个编码器级的干预框架,旨在嵌入到现有的多阶段音视频编码器中,改进其中间融合状态的表示质量,而不改变任务特定的头部、损失和解码器。 ...

2026-05-05 · 更新于 2026-06-19 · 3 min · 461 words

HARMES: A Multi-Modal Dataset for Wearable Human Activity Recognition with Motion, Environmental Sensing and Sound

📄 HARMES: A Multi-Modal Dataset for Wearable Human Activity Recognition with Motion, Environmental Sensing and Sound #音频分类 #多模态模型 #数据集 #基准测试 #音频事件检测 🔥 8.0/10 | 前25% | #音频分类 | #多模态模型 | #数据集 #基准测试 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Robin Burchard(University of Siegen) 通讯作者:未说明(论文中未明确指定通讯作者) 作者列表:Robin Burchard(University of Siegen)、Pascal-André Brückner(University of Siegen)、Marius Bock(University of Bonn & Lamarr Institute for Machine Learning and Artificial Intelligence)、Juergen Gall(University of Bonn & Lamarr Institute for Machine Learning and Artificial Intelligence)、Kristof Van Laerhoven(University of Siegen) 💡 毒舌点评 亮点在于其工程上的“洁癖”——用三击掌同步传感器、在家录制真实环境声、为隐私彻底静音人声,这种对数据质量近乎偏执的追求,是很多论文做不到的。短板则在于,花了大力气采集的环境传感器(温湿度、气压)数据,在最终的机器学习实验中几乎成了“鸡肋”,虽然可视化显示有响应,但消融实验未带来提升,暴露出如何有效融合这类低频、慢变上下文模态仍是开放问题。 ...

2026-05-05 · 更新于 2026-06-19 · 2 min · 286 words

MedMosaic: A Challenging Large Scale Benchmark of Diverse Medical Audio

📄 MedMosaic: A Challenging Large Scale Benchmark of Diverse Medical Audio #音频问答 #数据集 #多模态模型 #医学音频 #基准测试 ✅ 6.5/10 | 前25% | #音频问答 | #数据集 | #多模态模型 #医学音频 | arxiv 学术质量 5.5/7 | 选题价值 0.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Harshit Rajgarhia(未说明所属机构) 通讯作者:论文中未提及 作者列表:Harshit Rajgarhia(未说明)、Shuubham Ojha(未说明)、Asif Shaik(未说明)、Akhil Pothanapalli(未说明)、Rachuri Lokesh(未说明)、Abhishek Mukherji(未说明)、Prasanna Desikan(未说明) 💡 毒舌点评 亮点:论文正视了医学音频领域数据获取难的痛点,并通过结合合成语音与真实临床对话的方式,构建了一个任务类型丰富、规模可观(46,701 QA对)的基准测试集,填补了该领域的评估空白。短板:摘要仅展示了评测结果(如Gemini 2.5 Pro仅68.1%),但对数据集构建过程中的关键技术(如合成语音如何“精心构造”以模拟伪影)、详细的实验对比分析(与其他音频QA或医学QA基准的对比)着墨甚少,使得其作为“基准”的深度和说服力略显不足。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及。 数据集:论文中未提及具体的下载链接或开源协议。 Demo:论文中未提及。 复现材料:论文中未提及。 论文中引用的开源项目:未提及。 补充信息 [实验结果] 补充:论文中明确指出,对13个音频和多模态推理模型进行了评测,并观察到“性能在不同问题类型上存在显著差异”(substantial performance variation across question types)。尽管分析报告中提到“摘要未提供其他模型的具体性能数字”,这与原文信息一致,但原文中强调的“13个模型”这一具体数量和对“问题类型间差异”的观察是明确存在的事实,可以作为更完整的背景信息。 (注:经仔细比对,提供的“深度分析结果”已全面且准确地覆盖了“论文原文”中所有实质性信息,包括模型架构(未提及)、实验结果核心数据(Gemini-2.5-pro约68.1%)、训练细节(不适用)、消融实验(未提及)、自我声明的局限性(分析中已推断)以及SOTA差距(仅提及单一模型结果)。原文本身为摘要性质,未提供更详细的实验数据、对比表格或消融分析,因此分析报告无法基于现有信息补充更多具体数值或细节。) ...

2026-05-05 · 更新于 2026-06-19 · 1 min · 119 words