论文速递 | 语音/音乐/音频论文速递

Multimodal Video-to-Music Recommendation via Semantic Retrieval and Temporal Reranking

📄 Multimodal Video-to-Music Recommendation via Semantic Retrieval and Temporal Reranking #音乐检索 #多模态模型 #对比学习 5.4/10 | 创新 1.2/2 | 严谨 0.9/1.5 | 实验 0.5/1.5 | 清晰 0.8/1 | 影响 0.7/1.5 | 开源 0.1/1.5 | 复现 0/0.5 | 工程 1.2/1.5 📝 5.4/10 | 后50% | #音乐检索 | #对比学习 | #多模态模型 | arxiv 👥 作者与机构第一作者：Seungheon Doh（未说明）通讯作者：未说明作者列表：Seungheon Doh（未说明）、Minhee Lee（未说明）、Sangmoon Lee（未说明）、Ben Sangbae Chon（未说明）、Juhan Nam（未说明） 💡 毒舌点评本文构建了一个“检索+重排序”的两阶段视频音乐推荐框架，把多模态语义检索和时序交叉编码器拼成了一个完整系统，在评测基准上超越了通用跨模态模型，人类评估也显示音乐质量能吊打生成式方案。然而，实验部分缺少消融实验、关键训练细节几乎全部缺失、代码和模型都未开源，这些硬伤使得方法的有效部件无法区分，整个工作的学术可验证性约等于零。两阶段的独立贡献说不清楚，创新点看起来更像是工程拼装而非方法突破。 📌 核心摘要论文针对视频配乐推荐任务，提出 VTMR 两阶段框架：第一阶段利用视频的RGB帧、非音乐音频和LLM生成的场景描述，与音乐音频及其LLM生成字幕和视频元数据，在共享嵌入空间中进行多模态语义检索，得到全局语义兼容的 top-N 候选音乐；第二阶段通过交叉编码器对视频的视听序列与候选音乐的声学序列进行时序交叉注意力打分，实现细粒度时间对齐重排序。相比以往仅依赖单模态全局嵌入的方法，VTMR 同时建模了全局语义兼容与局部时序对应。在 VidMuse 基准上，语义检索阶段将 R@10 从最强基线 ImageBind 的 14.2 提升至 15.9，MedR 从 75 降至 58；加入时序重排序后 R@10 进一步提升至 18.3，MedR 降至 46。人工 A-vs-B 测试中，VTMR 在与 Adobe Firefly 商用工具的总体偏好对比中具有竞争力（77% win+tie），且音乐质量远胜生成式基线 VidMuse（96% win+tie）。实际意义在于为视频创作者提供可检索高质量版权音乐的自动化工具，但主要局限在于缺少消融实验、训练超参数缺失且未开源，方法贡献的归因存疑。 ...

Music I Care About: Automated Multimodal Benchmarking of LLM Music Perception Skills on (Almost) Any Music

📄 Music I Care About: Automated Multimodal Benchmarking of LLM Music Perception Skills on (Almost) Any Music #音乐理解 #基准测试 7.8/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1.1/1.5 | 清晰 0.7/1 | 影响 0.9/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.8/10 | 前25% | #音乐理解 | #提示学习 | #基准测试 | arxiv 👥 作者与机构第一作者：Tomáš Sourada（查尔斯大学数学与物理学院，形式与应用语言学研究所）通讯作者：未明确提及，推断为 Jan Hajič jr 作者列表：Tomáš Sourada，Katia Vendrame，Jan Hajič jr 机构：查尔斯大学数学与物理学院，形式与应用语言学研究所 💡 毒舌点评论文用"用户数据即benchmark"的元框架戳中静态基准的致命伤，程序化生成和基准尺寸校准做得聪明又实用。遗憾的是，问题模板仍停留在音乐理论的"小学算术"级别，无输入基线在修改提示语后才可能更干净，现在对"真正在听"的论证依然有点虚。跨模态对齐的想法很好，但音频模态下"第n个音符"这种需要强音高追踪的题目，本质上就比读乐谱难一个量级——这不完全是模型的锅，部分是出题的问题。 ...

NAVER LABS System Re-implementation for the IWSLT 2026 Instruction-Following Task

📄 NAVER LABS System Re-implementation for the IWSLT 2026 Instruction-Following Task #语音翻译 #语音识别 #指令微调 #多模态模型 #参数高效微调 6.4/10 | 创新 0.5/2 | 严谨 0.8/1.5 | 实验 0.8/1.5 | 清晰 0.8/1 | 影响 0.7/1.5 | 开源 1.2/1.5 | 复现 0.4/0.5 | 工程 1.2/1.5 ✅ 6.4/10 | 前50% | #语音翻译 | #参数高效微调 | #语音识别 #指令微调 | arxiv 👥 作者与机构第一作者：Anand Kamble（Florida State University）第二作者：Aniket Tathe（University of Illinois Urbana-Champaign）通讯作者：未明确说明。 💡 毒舌点评这是一份诚实的系统复现报告，它把NAVER LABS 2025的旧船票勉强贴上了IWSLT 2026的新船，工程上中规中矩。但作为一篇论文，它几乎没有任何方法层面的新贡献：三阶段训练是照搬的，合成数据是Gemma生成的，且最关键的是——这10万条数据造出来了却没被用在主实验结果里，成了一个挂羊头卖狗肉的“未兑现承诺”。开源了代码却没给模型权重，这让“开源”两字的诚意大打折扣。作为共享任务基线尚可一用，作为学术论文则乏善可陈。 ...

Precise Video-to-Audio Generation with Cross-Modal Alignment in Latent Space

📄 Precise Video-to-Audio Generation with Cross-Modal Alignment in Latent Space #流匹配 #音频生成 7.4/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 0.9/1 | 影响 1.2/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 7.4/10 | 前50% | #音视频生成 | #流匹配 | #音频生成 | arxiv 👥 作者与机构第一作者：Thanh V. T. Tran（FPT Software AI Center, Vietnam）通讯作者：未提及作者列表：Thanh V. T. Tran（FPT Software AI Center, Vietnam）、Ngoc-Son Nguyen（FPT Software AI Center, Vietnam）、Luong Tran（FPT Software AI Center, Vietnam）、Long-Khanh Pham（FPT Software AI Center, Vietnam）、Paarth Neekhara（NVIDIA Corporation, USA）、Shehzeen Hussain（NVIDIA Corporation, USA）、Van Nguyen（FPT Software AI Center, Vietnam） 💡 毒舌点评 Flowley 用一个设计巧妙的渐进软掩码交叉注意力（PSCA），将音视频对齐悄无声息地嵌入了流匹配的去噪过程，实现了零额外参数的精准同步，这一点值得肯定。但这项工作的规模优势叙事略显取巧：在200K的VGGSound上打败更大模型固然吸睛，但零样本测试立刻暴露了语义理解的天花板（IB-Score仅为Movie Gen的六成），说明所谓的SOTA高度依赖训练分布。SoundCap看似锦上添花，实则是将大型AV-LLM的算力和错误风险转移到了数据预处理阶段，且其产出成为黑箱，开源承诺缺失让这一"即插即用"模块的复现与验证沦为空谈。整篇工作工程味道略重，架构创新本质上是对成熟模块的精心重组，对领域长远理论突破的推动有限。 ...

Propose and Attend: Training-free MLLM Grounding Confidence via Multi-Token Localized Attention

📄 Propose and Attend: Training-free MLLM Grounding Confidence via Multi-Token Localized Attention #音频事件检测 #多模态模型 8.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 1.5/1.5 | 复现 0.4/0.5 | 工程 0.9/1.5 🔥 8.2/10 | 前25% | #音频事件检测 | #多模态模型 | arxiv 👥 作者与机构第一作者：Daniel Shalam（Amazon）通讯作者：未说明作者列表：Daniel Shalam（Amazon）、Emanuel Ben Baruch（Amazon）、Avi Ben Cohen（Amazon）、Tal Remez（Amazon） 💡 毒舌点评这是一篇"简单但有效"的典型工作：两个清晰insight（注意力应聚焦于预测区域、信号应跨token聚合）组合出一个即插即用的Training-free分数，在三个模态四个benchmark上一路吊打SVAR等基线，甚至在COCO上将零样本AP翻倍，实用性拉满。但"注意力质量即置信度"这条路线已有多篇工作在走，MTLA本质上是对SVAR做了"localize + multi-token"的工程优化，创新高度稍欠；且跨模态迁移性依旧依赖MLLM的天花板，并没有从根本上解决MLLM幻觉生成的底层缺陷。 📌 核心摘要要解决的问题：多模态大语言模型（MLLM）在生成定位输出（检测框、时序窗口）时存在严重幻觉（58%-68%的预测区域不匹配真实目标），且模型自身的token概率无法有效区分幻觉与真实定位，导致MLLM在标准检测/定位评测中可靠性差。 ...

Revisiting the Relation Between Language Model Perplexity and ASR Word Error Rate for Modern End-to-End Speech Recognition

📄 Revisiting the Relation Between Language Model Perplexity and ASR Word Error Rate for Modern End-to-End Speech Recognition #语音识别 #大语言模型 6/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 0.9/1.5 | 清晰 0.8/1 | 影响 0.6/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 1.1/1.5 ✅ 6/10 | 前50% | #语音识别 | #端到端 | #大语言模型 | arxiv 👥 作者与机构第一作者：Mohammad Zeineldeen（RWTH Aachen University, AppTek）通讯作者：未明确标注，但通常为最后一作Hermann Ney 作者列表：Mohammad Zeineldeen（RWTH Aachen University, AppTek）、Albert Zeyer（RWTH Aachen University, AppTek）、Haoran Zhang（AppTek）、Robin Schmitt（RWTH Aachen University, AppTek）、Ralf Schlüter（RWTH Aachen University, AppTek）、Hermann Ney（RWTH Aachen University, AppTek） 💡 毒舌点评这篇论文勇敢地挑战了“PPL下降则WER必然改善”的经验信条，用大量对照实验揭示了现代E2E ASR系统中PPL-WER关系的脆弱性，尤其是分段线性、温度解耦和ILM主导的饱和效应，从工程角度看是扎实且有指导意义的。但整体工作更像是一份详尽的技术报告而非顶会论文：所有结论依赖自有模型和两个数据集，缺乏与Whisper、USM等主流E2E系统或deep fusion、rescoring等更广泛LM集成范式的对比，且代码、模型全封闭，这让结论的普适性存疑。审稿人最不能忍的是，那么多实验居然没有一个误差棒或显著性检验，仿佛所有WER数值都是确定性的真理。 ...

TriA Pipeline: A Large-Scale Automatic Audio Annotation Pipeline For Audio Classification In Specific Scenarios

📄 TriA Pipeline: A Large-Scale Automatic Audio Annotation Pipeline For Audio Classification In Specific Scenarios #音频分类 #迁移学习 7.4/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 1.2/1.5 | 复现 0.4/0.5 | 工程 1.2/1.5 ✅ 7.4/10 | 前50% | #音频分类 | #迁移学习 | arxiv 👥 作者与机构第一作者：Hong Lyu（华南理工大学电子与信息工程学院）通讯作者：未说明（论文中未标注通讯作者，仅列出多个邮箱）作者列表：Hong Lyu（华南理工大学电子与信息工程学院）、Mingru Yang（华南理工大学电子与信息工程学院）、Qianhua He（华南理工大学电子与信息工程学院）、Yanxiong Li（华南理工大学电子与信息工程学院）、Jinxin Huang（华南理工大学电子与信息工程学院）、Zhengyu Pei（华南理工大学电子与信息工程学院） 💡 毒舌点评论文搭建了一条完整的自动音频标注流水线，并在家庭场景分类上验证了实用价值，工程贡献扎实。但方法本质上是对现有检测模型与质量过滤工具的串联，创新高度有限。ECT/SCT阈值依赖耗时的人工听觉测试，缺乏自动化路径。实验设计避重就轻：仅用BEATs作为下游backbone，未与任何强伪标签基线或数据增强方法做严格对比；过滤消融仅停留在mini-batch客观统计，缺乏对标注噪声如何在模型训练中传播的深入讨论。整体属于一份扎实的工程报告，离顶会要求的学术创新尚有差距。 📌 核心摘要要解决的问题：特定场景（如家庭环境）下带标注音频数据稀缺，现有通用数据集覆盖不足、专用数据集规模有限，难以支撑高质量的音频分类模型训练。方法核心：提出TriA Pipeline，将原始音视频流平台音频通过标准化→音频活动检测（AAD）→音频事件检测（AED）→过滤四阶段自动转化为带事件标注的高质量训练数据，并构建了TriA数据集（超过2130小时、431类）。 ...

Umm... With Transformers? Insights from Filled Pause Use across Four Slavic Parliaments

📄 Umm… With Transformers? Insights from Filled Pause Use across Four Slavic Parliaments #语音属性识别 4.8/10 | 创新 1.2/2 | 严谨 0.8/1.5 | 实验 0.6/1.5 | 清晰 0.8/1 | 影响 0.6/1.5 | 开源 0.2/1.5 | 复现 0.2/0.5 | 工程 0.4/1.5 📝 4.8/10 | 后50% | #语音属性识别 | #Transformer | arxiv 👥 作者与机构第一作者：Ivan Porupski（Jožef Stefan Institute, Department of Knowledge Technologies；TransUnion, Zagreb）第二作者：Branimir Dropuljić（University of Zagreb, Faculty of Electrical Engineering and Computing）第三作者：Nikola Ljubešić（Jožef Stefan Institute, Department of Knowledge Technologies；University of Ljubljana, Faculty of Computer and Information Science；Institute of Contemporary History, Ljubljana）通讯作者：未明确说明，但从邮箱和机构信息推断可能为 Ivan Porupski 或 Nikola Ljubešić。 💡 毒舌点评这项工作的社会学雄心值得肯定，利用大规模自动语音分析在四个斯拉夫语议会中寻找填充停顿（FP）使用的规律，特别是发现了南斯拉夫语议会中性别效应的反向模式，颇具话题性。然而，整个分析链建立在两个预训练预测器（FP检测器和情感预测器）之上，作者却对错误传播问题视而不见，未进行任何形式的敏感性分析或误差校正，这让所有漂亮的p值和置信区间都建立在脆弱的地基上。情感预测器的R²仅约0.65，FP检测器的跨语言F1在0.87-0.94之间波动，这些测量误差如何系统性偏移IRR估计？作者只字未提。此外，声称的Mundlak校正统计创新在经济学中已是标准工具，迁移到副语言学后，由于缺乏对时间混淆因素的控制，仍无法排除Simpson悖论或反向因果——演讲者可能因面临复杂议题而同时语速变慢和FP增加。更令人失望的是，作为一个以大规模可复用分析为卖点的研究，代码和数据管道完全闭源，第三方连验证基础统计结果都做不到。这种“黑盒分析”对于一个倡导透明和可复现科学的领域而言，是一个实实在在的倒退。 ...

Uncovering Latent Depression Severity for Binary Depression Detection via Advantage-weighting Ranking

📄 Uncovering Latent Depression Severity for Binary Depression Detection via Advantage-weighting Ranking #音视频理解 #对比学习 #医疗音频 #多模态模型 7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 0.9/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.4/0.5 | 工程 0.5/1.5 ✅ 7/10 | 前50% | #音视频理解 | #对比学习 | #医疗音频 #多模态模型 | arxiv 👥 作者与机构第一作者：Manning Gao（华南师范大学）通讯作者：未明确标注（推测为 Sijie Mai，华南师范大学，根据常见通讯作者惯例）作者列表：Manning Gao（华南师范大学）、Tingyi Liu（华南师范大学）、Leheng Zhang（华南师范大学）、Haifeng Hu（中山大学）、Yuncheng Jiang（华南师范大学）、Sijie Mai（华南师范大学） 💡 毒舌点评该工作抓住了二元抑郁检测中粗粒度标签丢失连续严重度信息的痛点，将排序学习引入基于音视频的自动抑郁检测，idea 有洞察力。BAR Loss 通过动态优势加权聚焦难样本，实验设计也较为扎实。但核心方法始终在成对损失框架内修修补补，学理深度有限，且作者完全不提供代码、模型或数据集链接，在严重依赖开源和快速复现的顶会语境下，这种封闭姿态会极大削弱社区信任与实际影响力。 ...

WordVoice: Explicit and Decoupled Multi-Dimensional Word-Level Control for LLM-Based TTS

📄 WordVoice: Explicit and Decoupled Multi-Dimensional Word-Level Control for LLM-Based TTS #语音合成 #语音大模型 #自回归模型 #流匹配 #数据集 7.2/10 | 创新 1/2 | 严谨 1.1/1.5 | 实验 0.9/1.5 | 清晰 0.8/1 | 影响 0.9/1.5 | 开源 1/1.5 | 复现 0.4/0.5 | 工程 1.1/1.5 ✅ 7.2/10 | 前50% | #语音合成 | #语音大模型 | #自回归模型 #流匹配 | arxiv 👥 作者与机构第一作者：Sihang Nie（未说明）通讯作者：未说明作者列表：Sihang Nie（未说明）、Jinxin Ji（未说明）、Xiaofen Xing（未说明）、Deyi Tuo（未说明）、Chengbin Jin（未说明）、Jialong Mai（未说明）、Xiangmin Xu（未说明） 💡 毒舌点评亮点在于构建了大规模词级声学标注数据集WordVoice-5A，并设计了LLM内显式“声学规划”与流匹配阶段帧级风格调制的协同框架，首次在LLM-TTS中实现了多维、可解耦的词级控制，工程一致性良好。短板则令人失望：baseline选择极度贫乏，全程仅与一个CosyVoice3比较，缺乏与MagicTTS（仅部分子集测了时间维度）、P-Flow、InstructTTS等具有细粒度控制能力的近期SOTA系统进行系统、公平的比较。“多维同时控制优越性”的声称因此大打折扣。此外，说话人相似度的损失在所有模式中均未追平基线，作者对此仅是轻描淡写地称之为“值得的权衡”，未提供任何缓解策略的分析。语调控制虽被定义为7类离散形态，但其解耦性的分析过于乐观，本质上并未解决动态轮廓与标量属性间的根本纠缠。 📌 核心摘要论文旨在解决LLM-based TTS中缺乏显式、细粒度、多维词级声学控制的问题。作者首先构建了一个名为WordVoice-5A的4.7k小时中英双语数据集，通过一个语言学指导的严格流水线，自动标注了时长、边界、能量、基频和语调五维词级属性。基于此，提出了WordVoice框架，其核心包含两级创新：在自回归LLM中引入bound-token机制，将生成过程重构为“预测词边界→多属性声学规划→条件化语音块生成”的显式流程；在流匹配（Flow Matching，FM）阶段，引入一个词级风格调制模块，通过时长对齐上采样和帧级仿射变换，弥补离散语音token量化带来的微声学细节损失。实验表明，WordVoice首次在单一框架内实现了五维的显式、可解耦词级控制。在控制模式下，客观指标如中文能量MAE从0.1030降至0.0486，边界错误率从32.47%降至12.72%，主观Ctrl-MOS显著提升，但说话人相似度和字错率（WER）存在轻微妥协。公开的数据集为细粒度可控TTS提供了基准。 ...