SMC-ITA: Sequential Monte Carlo Inference-Time Alignment for Video-to-Audio Generation

📄 SMC-ITA: Sequential Monte Carlo Inference-Time Alignment for Video-to-Audio Generation #音频生成 #多模态模型 #流匹配 7/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7/10 | 前50% | #音频生成 | #多模态模型 | #流匹配 | arxiv 👥 作者与机构 作者:Haoyu Zhang, Yuta Oshima, Xingjian Du, Chunfeng Wang, Irene Li, Yusuke Iwasawa, Yutaka Matsuo 单位:The University of Tokyo, University of Rochester, Independent ...

2026-06-09 · 更新于 2026-06-12 · 3 min · 438 words

TinyGiantALM: A Compact Audio-Language Model for Intent-Aware Reasoning under Resource Constraints

📄 TinyGiantALM: A Compact Audio-Language Model for Intent-Aware Reasoning under Resource Constraints #多模态模型 #指令微调 6.4/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 6.4/10 | 前50% | #多模态模型 | #指令微调 | arxiv 👥 作者与机构 Vinh-Thuan Le 1 University of Science, VNU-HCM, Ho Chi Minh City, Vietnam; 2 Vietnam National University, Ho Chi Minh City, Vietnam 💡 毒舌点评 优点: ...

2026-06-09 · 更新于 2026-06-12 · 4 min · 653 words

语音/音乐/音频论文速递 2026-06-09

语音/音乐/音频论文速递 2026-06-09 共分析 48 篇论文 ⚡ 今日概览 📥 抓取 48 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 10篇 ██████████ #语音识别 9篇 █████████ #自监督学习 3篇 ███ #多模态模型 3篇 ███ #语音增强 2篇 ██ #音频生成 2篇 ██ #说话人验证 2篇 ██ #大语言模型 1篇 █ 📊 论文评分排行榜(48 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 A Finetuned SpeechLLM for Joint Multi-Granular L2 Asses 10.0分 前25% #大语言模型 🥈 G-MaP-SE: Guided Speech Enhancement via GMM-Based Prior 9.3分 前50% #语音增强 🥉 HoliDubber: Holistic Video Dubbing for Complex Acoustic 9.0分 前10% #语音合成 4. Probing Token Spaces under Generator Shift in AI-Genera 9.0分 前10% #音频编码 5. A Comparative Study of Pre-trained Speech Encoders and 8.9分 前50% #自监督学习 6. AVI-Bench: Toward Human-like Audio-Visual Intelligence 8.8分 前25% #语音识别 7. Liberating LLM Capabilities in Full-Duplex Speech Model 8.7分 前25% #多模态模型 8. MeCo: One-Step MeanFlow-based Corrector for Multi-Chann 8.4分 前25% #语音分离 9. Your U-Net Dereverberation Model is Secretly an RIR Enc 8.3分 前50% #对比学习 10. Predictive Fixed-Filter Active Noise Control (PFANC) Us 8.3分 前25% - 11. TLDR: Compressing Audio Tokens for Efficient Autoregres 8.2分 前25% #语音合成 12. Subtitle-Aligned Fine-Tuning of Whisper for Swiss Germa 8.2分 前25% #语音识别 13. Discovering Functionally Selective Brain Regions with a 8.2分 前25% #多模态模型 14. Parameter-Efficient Continual Learning for Automatic Sp 8.1分 前25% #语音识别 15. OmniMem: Perturbation-aware Memory Compression for Stre 8.0分 前25% #高效推理 16. OpenBibleTTS: Large-Scale Speech Resources and TTS Mode 8.0分 前25% #语音合成 17. FlashTTS: Fast Streaming TTS with MTP Acceleration and 7.9分 前25% #语音合成 18. Multi-View Speech Representation Learning for Parkinson 7.9分 前50% #自监督学习 19. Is Text All You Need? Text as a Universal Information B 7.6分 前50% #语音识别 20. End-to-End Training for Discrete Token LLM based TTS Sy 7.6分 前50% #语音合成 21. Conan-embedding-v3: Fusing Modality-Specific Models for 7.6分 前25% #音频检索 22. Cross-Modal Masking for Robust Silent Speech Synthesis 7.5分 前50% #语音合成 23. Rethinking Depth: A study of the Recursive-Transformer 7.5分 前25% #语音识别 24. What Makes Synthetic Speech Sound Sarcastic? A Prosody- 7.5分 前25% #语音合成 25. FXplorer: A Map-Based Interface for Exploratory Audio E 7.5分 前25% #音频生成 26. Assessing the Energy and Carbon Emissions of Neural Spe 7.4分 前50% #说话人验证 27. Exploring the Scale and Diversity of Speech Anti-spoofi 7.4分 前50% #数据增强 28. From A to B to A: Palindromic Zero-Shot Voice Conversio 7.3分 前50% - 29. A study on the impact of region specific data on the pe 7.2分 前50% #语音识别 30. Speaker-Invariant Representation Learning for Spoofing 7.1分 前25% #对抗训练 31. BareWave: Waveform-Native Flow-Matching Text-to-Speech 7.0分 前50% #语音合成 32. SMC-ITA: Sequential Monte Carlo Inference-Time Alignmen 7.0分 前50% #音频生成 33. Quality-Diversity Search in Sound Generation: Investiga 7.0分 前50% - 34. Can LLMs understand LilyPond? A benchmark for symbolic 7.0分 前50% #音乐生成 35. NüshuVoice: Reviving the Voice of Endangered Nüshu with 7.0分 前50% #语音合成 36. Factors affecting ASR performance: A study using state 6.9分 前50% #语音识别 37. MeanVC 2: Robust Low-Latency Streaming Zero-Shot Voice 6.9分 前50% #语音转换 38. Few-shot Class-variable Incremental Audio Classificatio 6.9分 前50% #音频分类 39. A Hierarchical Feature Engineering Framework for Automa 6.8分 前50% - 40. Fast and Robust On-Device Speaker Diarization: Relative 6.6分 前50% #说话人分离 41. On Low-Bit Quantization Errors in Speaker Verification: 6.6分 前50% #说话人验证 42. Paediatric-HGNN: A Hybrid Heterogeneous Graph Neural Ne 6.5分 后50% #语音合成 43. TinyGiantALM: A Compact Audio-Language Model for Intent 6.4分 前50% #多模态模型 44. Overcoming Decoder Inconsistencies in Whisper for Dravi 6.2分 后50% #语音识别 45. Bridging Traditional Explainability Methods and Multimo 5.4分 后50% #语音识别 46. Sound Field Interpolation Using Physics-Informed Extrem 5.3分 后50% #语音增强 47. A Comparison of SSL-Based Feature Extractors and Back-E 5.0分 后50% #自监督学习 48. AeroSpectra Sentinel: An Auditable LLM Prompt-Chaining 4.5分 后50% #音频事件检测 📋 论文列表 🥇 A Finetuned SpeechLLM for Joint Multi-Granular L2 Assessment and Natural-Language Rationales 10.0/10 | 创新 2.0/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-09 · 更新于 2026-06-12 · 29 min · 6000 words

Acoustic Cue Alignment in Audio Language Models for Speech Emotion Recognition

📄 Acoustic Cue Alignment in Audio Language Models for Speech Emotion Recognition #语音情感识别 #提示学习 #多模态模型 #参数高效微调 #迁移学习 7.8/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.7/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.8/10 | 前50% | #语音情感识别 | #提示学习 | #多模态模型 #参数高效微调 | arxiv 👥 作者与机构 Iosif Tsangko (1, 2), Andreas Triantafyllopoulos (1, 2), Björn W. Schuller (1, 2, 3, 4) (注:机构详情未在论文正文中明确列出,脚注显示了项目资助信息) ...

2026-06-08 · 更新于 2026-06-12 · 2 min · 359 words

Assessing True Generalisability of Audio-Visual Speech Recognisers

📄 Assessing True Generalisability of Audio-Visual Speech Recognisers #语音识别 #自监督学习 #多模态模型 #基准测试 9.5/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.1/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 9.5/10 | 前10% | #语音识别 | #自监督学习 | #多模态模型 #基准测试 | arxiv 👥 作者与机构 作者:Zhaofeng Lin, Stavros Petridis, Maja Pantic, Naomi Harte 机构:1 Trinity College Dublin, Ireland;2 Imperial College London, UK 💡 毒舌点评 这篇论文根本不是在发明一个“更好”的AVSR模型,而是在无情地揭露当前AVSR领域集体自嗨的泡沫。它本质上是一篇“基准测评”论文,却起到了比很多模型创新论文更重要的作用——戳穿了LRS3基准带来的虚假繁荣。它的核心贡献是“破”而非“立”,但这种“破”恰恰是领域健康发展所急需的。作者通过近乎偏执的严谨方法(构建严格分布匹配的MV2LRS3集),得出了一个令人尴尬的结论:我们引以为傲的AVSR模型,在离开精心维护的LRS3温室后,表现得一塌糊涂。多模态融合不仅没帮忙,反而成了拖累。最讽刺的是,论文名为“评估真实泛化能力”,但其结论反而揭示了“泛化”这个概念本身在当前AVSR研究中可能被过度推广和误用。这篇论文应该被每一个致力于提升AVSR性能的研究者放在案头,用来审视自己工作的实际意义,而不是仅仅在LRS3刷榜。 ...

2026-06-08 · 更新于 2026-06-12 · 3 min · 480 words

Beyond Semantic Dominance: Cognitive Affective Reasoning and Empathetic Response Alignment in Audio Language Models

📄 Beyond Semantic Dominance: Cognitive Affective Reasoning and Empathetic Response Alignment in Audio Language Models #语音合成 #强化学习 #参数高效微调 #多模态模型 9.2/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 9.2/10 | 前10% | #语音合成 | #强化学习 | #参数高效微调 #多模态模型 | arxiv 👥 作者与机构 作者:Zhixian Zhao, Shuiyuan Wang, Wenjie Tian, Jingbin Hu, Ziyu Zhang, Lei Xie 机构:Audio, Speech and Language Processing Group (ASLP@NPU), Northwestern Polytechnical University, Xi’an, China ...

2026-06-08 · 更新于 2026-06-12 · 4 min · 691 words

FIGMA: Towards FIne-Grained Music retrievAl

📄 FIGMA: Towards FIne-Grained Music retrievAl #对比学习 #多模态模型 7.2/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 0.1/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 ✅ 7.2/10 | 前50% | #对比学习 | #对比学习 | #多模态模型 | arxiv 👥 作者与机构 作者:Nishit Anand, Ashish Seth, Sreyan Ghosh, Dinesh Manocha, Ramani Duraiswami 机构:University of Maryland, College Park, USA 链接:https://arxiv.org/abs/2606.06615 💡 毒舌点评 这篇论文提出的问题“细粒度音乐检索”是实际存在的,动机清晰。然而,其核心方法“多视图对比学习”本质上是将两个已有的、简单的对比损失(全局损失+一个基于帧-词元最大相似度的帧级损失)线性相加,技术新颖性有限。最大的硬伤在于,其贡献的庞大FGMCaps数据集(380K样本)完全由自动工具和LLM生成,缺乏人工标注验证,这使得其“细粒度”的可靠性存疑,也让论文的实验结论打了折扣——模型可能只是学会了匹配LLM生成的“模板化描述”,而非真正理解音乐理论属性。此外,论文开源情况极差,代码、模型权重、数据集均未提供,这在顶会论文中是难以接受的,严重阻碍了可复现性和后续研究。实验上,在自建测试集(FGMCaps)上的巨大提升说服力有限,而在外部分 benchmark(MusicBench, FMACaps-Eval)上的提升虽然显著,但基线模型(特别是最强的音乐专用模型 CLAMP 3)在 A2T 任务上表现异常差,这可能暗示了基线评估或设置存在问题,削弱了对比的公平性。 ...

2026-06-08 · 更新于 2026-06-12 · 3 min · 566 words

Hearing the Unspoken: Language Model Priors for Acoustic Adversarial Attacks

📄 Hearing the Unspoken: Language Model Priors for Acoustic Adversarial Attacks #语音识别 #对抗样本 #多模态模型 9.2/10 | 创新 1.6/2 | 严谨 1.5/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 🔥 9.2/10 | 前25% | #语音识别 | #对抗样本 | #多模态模型 | arxiv 👥 作者与机构 Jiani Xie, University of Melbourne Andrew C. Cullen, University of Melbourne Paul Montague, DST Group Benjamin I. P. Rubinstein, University of Melbourne ...

2026-06-08 · 更新于 2026-06-12 · 3 min · 440 words

Hierarchical Semantic-Constrained Heterogeneous Graph for Audio-Visual Event Localization

📄 Hierarchical Semantic-Constrained Heterogeneous Graph for Audio-Visual Event Localization #多模态模型 6.2/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.3/1.5 ✅ 6.2/10 | 前50% | #多模态模型 | #图神经网络 | arxiv 👥 作者与机构 哈尔滨工业大学(计算学院)、鹏城实验室、哈尔滨工业大学苏州研究院。 💡 毒舌点评 这篇论文在“概念缝合”上做得不错,把图网络、双曲几何和开放词汇这些热门方向缝合成一个新框架。想法听起来很“顶会”,但仔细看技术实现,双阈值机制里的 \(w_1/w_2\) 是拍脑袋定的超参数,指示函数不可微也没交代,理论部分对双曲空间的作用解释得像玄学。实验上,消融研究做了,但“为什么有效”的分析深度不够,更像是组件堆叠的功劳报告。最让人皱眉的是开源方面,啥也没提供,这对于顶会论文来说是重大减分项——光说代码“可复现”是不够的。作者声称解决了开放词汇泛化问题,但实验里未见类别性能仍远低于已见类别,这“显著提升”的结论需要打个问号。总的来说,包装大于实质,想法有价值,但执行和论证的严谨性离顶级工作还有差距。 📌 核心摘要 本文针对开放词汇音频-视觉事件定位(OV-AVEL)任务,提出一种分层语义约束异构图(HSCHG)框架。该框架包含两个主要阶段:首先,在欧氏空间构建异构层次图网络(HHGN),联合建模片段级和视频级的音视一致性表示;其次,将多层级表示映射到双曲空间,利用层次蕴涵正则化损失显式建模语义层次关系,以增强对未见类别的泛化能力。核心创新在于将异构图的多粒度跨模态交互与双曲空间的几何层次先验相结合,为开放词汇场景下的多模态理解提供了新思路。在OV-AVEBench基准上的实验表明,该方法在已见和未见类别上均优于现有基线,尤其在未见类别上取得显著性能提升。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及。 数据集:论文使用OV-AVEBench数据集(基于VGGSound构建),但未提供具体下载链接。 Demo:论文中未提及。 复现材料:论文未提供训练配置文件、检查点或附录等复现材料的下载链接。 论文中引用的开源项目: ImageBind: 论文使用其作为特征提取器。项目链接:https://github.com/facebookresearch/ImageBind 🏗️ 方法概述和架构 HSCHG框架(如图3所示)旨在为OV-AVEL任务学习具有语义一致性且层次分明的音视表示。其整体流程可分为四个主要阶段:特征提取、异构图网络处理、双曲空间映射与约束、损失优化。 特征提取与初始化:使用冻结的预训练ImageBind模型分别提取音频、视觉和文本特征。对于输入视频,将其划分为\(T\)个片段,得到片段级音频特征 \(\mathbf{A}^{p} \in \mathbb{R}^{T \times D}\) 和视觉特征 \(\mathbf{V}^{p} \in \mathbb{R}^{T \times D}\),以及类别文本特征 \(\mathbf{E} \in \mathbb{R}^{(|C|+1) \times D}\)。通过对片段特征进行时间平均池化,得到视频级音频特征 \(\mathbf{A}^{v}\) 和视觉特征 \(\mathbf{V}^{v}\)。此外,为每个样本构建一个视频级文本特征 \(e_{v}\)(通过提示“a full video of {category}”编码得到),用于后续层次约束。这些初始化的特征作为异构图网络的节点输入。 ...

2026-06-08 · 更新于 2026-06-12 · 2 min · 340 words

SVHighlights: Towards Extremely Long Sport Video Highlight Detection

📄 SVHighlights: Towards Extremely Long Sport Video Highlight Detection #多模态模型 7/10 | 创新 1.7/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 0.9/1 | 影响 0.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7/10 | 前50% | #多模态模型 | #多模态模型 | arxiv 👥 作者与机构 作者:Donggyu Lee, Youngbin Ki, Jeonghun Kang, Taehwan Kim 机构:Ulsan National Institute of Science and Technology (UNIST), Ulsan, Republic of Korea 💡 毒舌点评 这是一篇典型的“数据集驱动”工作,核心贡献是搭台(SVHighlights数据集)和给出一个免训练的强基线(TF-SELECTOR)。优点是问题定义清晰,直指当前长视频理解的一个空白点,数据集构建流程考虑周全,消融实验也比较扎实。然而,作为一篇顶会论文,其技术深度略显不足。TF-SELECTOR本质上是一个工程化的Pipeline(分割-描述-打分),创新点主要在于组合策略和如何适应长视频,而非提出新的算法模型。数据集的“免人工标注”依赖官方高光视频,这在一定程度上限制了其泛化到非体育领域的能力。实验结果中,TF-SELECTOR在HIT@1等指标上显著领先,但在mAP上不及TRACE,论文对此的解释有说服力(TRACE的稀疏预测策略)。总体而言,这是一篇扎实的系统性工作,为长视频高光检测领域提供了一个急需的基础设施和强力基线,但若期望看到颠覆性的算法创新可能会有些失望。 📌 核心摘要 本文致力于解决视频高光检测领域向小时级长视频扩展的挑战。现有研究因缺乏合适基准而主要局限于短视频。为此,作者构建了首个超长体育视频高光检测基准SVHighlights,包含320个平均时长2小时的视频,总时长超过640小时。该基准通过创新的数据集生成流水线构建,利用官方高光视频与完整比赛视频进行对齐,自动生成标注,避免了昂贵的人工逐片段标注。为在长视频上提供有效基线,作者提出了TF-SELECTOR,一个免训练的框架。其核心思想是将长视频分割为基于转写文本的上下文感知语义片段,利用VLM为每个片段生成文字描述,再结合转写文本和音频音量,由LLM预测片段的高光显著性分数。在SVHighlights基准上的实验表明,TF-SELECTOR在HIT@1、HIT@K和IoU等关键指标上显著优于在短视频数据集上微调的视频时序定位模型。消融研究证实了多模态输入(尤其是转写文本)的重要性。该工作为长视频高光检测领域建立了首个标准化评测平台和强基线。 ...

2026-06-08 · 更新于 2026-06-12 · 2 min · 337 words