跨模态 | 语音/音乐/音频论文速递

Sounds that Shape: Audio-Driven 3D Mesh Generation with Attribute-Decoupled Score Distillation Sampling

📄 Sounds that Shape: Audio-Driven 3D Mesh Generation with Attribute-Decoupled Score Distillation Sampling #音频生成 #3D音频 #扩散模型 #知识蒸馏 #跨模态 ✅ 7.0/10 | 前25% | #音频生成 | #扩散模型 | #3D音频 #知识蒸馏学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Bumsoo Kim（Chung-Ang University, Republic of Korea）通讯作者：Sanghyun Seo†（Chung-Ang University, Republic of Korea）作者列表：Bumsoo Kim（Chung-Ang University, Republic of Korea）， Sanghyun Seo（Chung-Ang University, Republic of Korea） 💡 毒舌点评亮点在于巧妙地绕过了构建昂贵的音频-3D数据集的难题，直接利用现有强大的音频-图像扩散模型知识，通过“属性解耦引导”这一符合3D Gaussian Splatting特性的设计，将文本和音频的各自优势“分配”到几何和纹理上，实现了1+1>2的效果。短板则是其验证强度略显不足，仅用80个样本的微型数据集就得出“SOTA”结论，且未展示对非环境音、非语义音等复杂音频的处理能力，让人对其在真实世界中的鲁棒性和泛化性打个问号。 ...

Spatial-CLAP: Learning Spatially-Aware Audio–Text Embeddings for Multi-Source Conditions

📄 Spatial-CLAP: Learning Spatially-Aware Audio–Text Embeddings for Multi-Source Conditions #空间音频 #声源定位 #对比学习 #跨模态 🔥 8.5/10 | 前25% | #空间音频 | #对比学习 | #声源定位 #跨模态学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Kentaro Seki（The University of Tokyo, Keio University）通讯作者：未明确说明作者列表：Kentaro Seki（The University of Tokyo, Keio University）、Yuki Okamoto（未说明具体单位，根据作者顺序推测与第一作者同组）、Kouei Yamaoka（未说明具体单位）、Yuki Saito（未说明具体单位）、Shinnosuke Takamichi（The University of Tokyo, Keio University）、Hiroshi Saruwatari（The University of Tokyo, Keio University） 💡 毒舌点评亮点在于其设计巧妙且动机清晰：通过内容感知空间编码器将空间信息与内容信息耦合，再用空间对比学习（SCL）这一“硬负例”策略显式强迫模型学习正确的空间对应关系，直击多声源建模的核心痛点。短板则在于其实验环境的“温室化”：所有音频均由模拟房间脉冲响应和AudioCaps数据集构建，DoA仅限于5个离散类别，且未与更多真实的多声源数据集或更复杂的空间编码方法（如高阶Ambisonics）进行比较，其真实世界泛化能力仍存疑。 🔗 开源详情代码：论文提供了公开的代码仓库链接：https://github.com/sarulab-speech/SpatialCLAP。模型权重：论文中提到“we release our code and pretrained models”，即会公开预训练模型。数据集：使用了公开的AudioCaps 2.0数据集，空间增强部分的模拟代码和RIR配置应在开源仓库中提供。 Demo：论文中未提及在线演示。复现材料：论文提供了详细的训练设置（学习率、batch size、epoch）、模型架构描述（HTSAT， SELDNet， RoBERTa）和数据集构建方法，复现信息较为充分。论文中引用的开源项目： pyroomacoustics：用于模拟房间和RIR。 HTS-AT：作为内容编码器的基础模型。 CLAP预训练模型：用于初始化内容编码器。 SELDNet：作为空间编码器的基础模型并进行预训练。 RoBERTa：作为文本编码器。 GPT-2：用于下游任务（空间音频描述）的解码器。 📌 核心摘要解决的问题：现有的音频-文本嵌入模型（如CLAP）主要针对单声道/单声源，无法有效捕捉和利用音频中的空间信息，尤其在多声源条件下，无法正确建立“什么声音在哪里”的对应关系（排列问题）。方法核心：提出Spatial-CLAP模型。其音频编码器包含一个内容编码器（CE）和一个内容感知空间编码器（CA-SE）。CE从单声道音频（左右声道平均）提取内容特征；CA-SE则从立体声音频中提取与内容信息耦合的空间特征。二者输出拼接后通过MLP得到最终音频嵌入，与文本嵌入在共享空间中对齐。训练策略上引入了空间对比学习（SCL），通过构造交换空间位置的音频-文本对作为困难负样本，显式监督模型学习正确的内容-空间对应关系。新颖之处：1) 架构创新：引入内容感知的空间编码器（CA-SE），解决了先前方法中内容与空间编码分离导致的排列问题。2) 训练范式创新：首次明确提出在多声源条件下训练空间感知的音频-文本嵌入模型，并设计了SCL策略来实现这一目标。主要实验结果：在自建的多声源评估集上，Spatial-CLAP在检索（R@1）、空间分类和内容-空间分配准确率上均显著优于基线。例如，在2-声源条件下的内容-空间分配准确率，本文方法（Ours）达到81.69%，而传统方法（Conventional）仅为48.77%。下游任务“空间音频描述”的评估（见下表）也表明，本文方法在BLEU、CIDEr等常规指标和专门设计的空间指标（DW-SBERT, Spatial desc. accuracy）上均取得最佳成绩。在未见过的3-声源混合评估中，本文方法在内容-空间分配准确率上（Ours: 41.77%）远超传统单声源训练方法（Conventional: 16.31%，接近随机猜测）。表2：空间音频描述任务评估结果方法 BLEU ROUGE-L METEOR CIDEr SPICE SPIDEr BERTScore SBERT DW-SBERT Spatial desc. Monaural 0.0735 0.2823 0.1789 0.1986 0.1757 0.1871 0.3769 0.5520 0.2196 0.1770 Conventional 0.1329 0.3497 0.1984 0.2075 0.2416 0.2246 0.3898 0.5026 0.3620 0.6955 Structured 0.1323 0.3487 0.1997 0.2154 0.2418 0.2286 0.3899 0.5137 0.3630 0.6461 Ours 0.1463 0.3709 0.2135 0.2553 0.2658 0.2606 0.4152 0.5564 0.4144 0.7942 Ours (w/o SCL) 0.1455 0.3685 0.2121 0.2482 0.2589 0.2536 0.4118 0.5456 0.4071 0.7922 实际意义：为构建能同时理解“什么声音”和“在哪里”的通用音频-文本表示模型奠定了基础，推动了空间音频理解、检索与生成（如空间音频描述）等下游任务的发展。主要局限性：1) 数据局限：实验基于AudioCaps和模拟的房间脉冲响应（RIR）构建，数据集规模和场景复杂性有限。2) 空间建模简化：仅考虑了静态的、有限类别（5类）的DoA，未涉及声源移动、复杂声学环境或更高阶的空间表示（如B格式）。3) 评估局限：评估主要集中在检索和自定义的描述任务，缺乏在更通用的、公认的空间音频基准测试上的比较。 🏗️ 模型架构 Spatial-CLAP的整体架构是一个双塔模型，由音频编码器和文本编码器组成，最终输出对齐的嵌入向量。 ...

StereoFoley: Object-Aware Stereo Audio Generation from Video

📄 StereoFoley: Object-Aware Stereo Audio Generation from Video #音频生成 #扩散模型 #空间音频 #跨模态 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #空间音频 #跨模态学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Tornike Karchkhadze（UC San Diego）通讯作者：未说明（论文中未明确标注通讯作者）作者列表：Tornike Karchkhadze（UC San Diego）、Kuan-Lin Chen（Apple）、Mojtaba Heydari（Apple）、Robert Henzel（Apple）、Alessandro Toso（Apple）、Mehrez Souden（Apple）、Joshua Atkins（Apple） 💡 毒舌点评亮点：论文的核心贡献——合成数据管线，巧妙地将视频对象分割、跟踪与音频空间化规则结合，为解决小众任务的冷启动问题提供了一个系统且可扩展的“数据工厂”蓝图。短板：论文对合成数据与真实数据的差距讨论不足，且关键组件（如OVD、T2A模型）均为“内部”或“借鉴”，极大限制了结果的可复现性和社区验证。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开模型权重。数据集：未提及公开其合成的立体声数据集。实验使用了公开的VGGSound和AudioSet，但筛选和替换后的具体版本未公开。 Demo：未提及在线演示。复现材料：论文提供了详细的模型架构描述、训练超参数、数据集筛选条件和合成管线流程图，但缺乏关键的实现细节和工具链。引用的开源项目：论文引用并基于了Synchformer、SAM2等开源模型或思想，但具体集成方式未详述。整体：论文中未提及开源计划。 📌 核心摘要问题：现有视频到音频生成模型大多只能生成单声道，或无法实现基于视频中物体位置的、语义一致的立体声效。主要瓶颈在于缺乏专业的、空间信息准确的立体声V2A训练数据集。方法核心：提出StereoFoley框架，包含一个基础立体声V2A模型和一个合成数据管线。基础模型基于潜扩散和Transformer架构。核心创新是合成数据管线，它通过视频分析、对象检测与分割、文本到音频生成及基于规则的立体声空间化（基于物体位置和尺寸），自动生成带有精确空间标签的训练数据。新意：首次提出端到端的、对象感知的立体声视频到音频生成框架。与现有工作相比，其创新不在于新的网络架构，而在于通过精心设计的合成数据管线，系统性地解决了训练数据缺失这一根本性障碍。实验结果：基础性能：StereoFoley-base在VGGSound数据集上的语义一致性（IB-score 30.61）、同步性（DeSync 0.42）等指标上与SOTA模型MMAudio和Kling-Foley性能相当。对象感知效果：在合成的VGG-obj测试集上，StereoFoley-obj的立体声对象对齐分数（BAS）为0.33，显著高于基线MMAudio（0.08）和StereoFoley-base（0.23）。在用户研究中，StereoFoley-obj的MOS评分为3.46，显著高于其他系统（p < 0.001）。实际意义：为影视、游戏、AR/VR内容创作提供了自动化生成空间准确音效的潜在工具，并建立了首个相关基准和评估指标（BAS）。局限性：合成数据管线依赖多个复杂的、未公开的内部模型，其生成数据的真实感和多样性可能不足。模型规模庞大（~1.1B参数），训练成本高。 🏗️ 模型架构 StereoFoley的架构基于潜扩散模型，由编码器和扩散生成基础模型两大部分组成。 ...

TextlessRAG: End-to-End Visual Document RAG by Speech without Text

📄 TextlessRAG: End-to-End Visual Document RAG by Speech without Text #语音问答 #端到端 #基准测试 #跨模态 #工业应用 🔥 8.5/10 | 前25% | #语音问答 | #端到端 | #基准测试 #跨模态学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Peijin Xie (哈尔滨工业大学 ITNLP实验室) 通讯作者：Bingquan Liu (哈尔滨工业大学 ITNLP实验室) 作者列表：Peijin Xie (哈尔滨工业大学 ITNLP实验室)、Shun Qian (哈尔滨工业大学 ITNLP实验室)、Bingquan Liu (哈尔滨工业大学 ITNLP实验室)、Dexin Wang (奇虎360科技智脑AI实验室)、Lin Sun (奇虎360科技智脑AI实验室)、Xiangzheng Zhang (奇虎360科技智脑AI实验室) 💡 毒舌点评亮点：创新性地提出了完全“去文本化”的语音文档RAG框架，将语音交互的便捷性与视觉文档理解相结合，是“多模态原生”交互的一次有意义探索，并首次发布了双语语音-文档RAG基准数据集。短板：端到端框架严重依赖现有的强多模态模型（ColQwen-Omni， Qwen2.5-Omni），核心的“无文本”生成质量在部分数据集（如DUDE、CDR）上仍明显低于使用文本的SOTA模型，延迟优势相对SOTA（ViDoRAG）的差距也未充分证明。 ...

The Structured Output Benchmark: A Multi-Source Benchmark for Evaluating Structured Output Quality in Large Language Models

📄 The Structured Output Benchmark: A Multi-Source Benchmark for Evaluating Structured Output Quality in Large Language Models #基准测试 #模型评估 #大语言模型 #数据集 #跨模态 ✅ 7.0/10 | 前25% | #基准测试 | #大语言模型 | #模型评估 #数据集 | arxiv 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Abhinav Kumar Singh（JigsawStack, Inc.）通讯作者：未说明作者列表：Abhinav Kumar Singh（JigsawStack, Inc., New Delhi, India），Harsha Vardhan Khurdula（JigsawStack, Inc., San Francisco, CA, USA），Yoeven D Khemlani（JigsawStack, Inc., San Francisco, CA, USA），Vineet Agarwal（JigsawStack, Inc., Durgapur, WB, India） 💡 毒舌点评这篇论文直击了大模型应用中的一个真实痛点：生成的JSON格式完美但内容胡说八道，并提供了迄今最系统的跨模态评估框架。不过，其“多模态”评估实则是把图像和音频先转成文本再喂给模型，相当于跳过了最关键、最容易出错的视觉和语音理解环节，这使得对多模态大模型的直接评估力度大打折扣。 ...

Towards Multi-View Hierarchical Video-to-Piano Generation with MIDI Guidance

📄 Towards Multi-View Hierarchical Video-to-Piano Generation with MIDI Guidance #音乐生成 #扩散模型 #多模态模型 #跨模态 ✅ 7.0/10 | 前25% | #音乐生成 | #扩散模型 | #多模态模型 #跨模态学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Chang Liu（巨像AI Lab；特伦托大学）通讯作者：Zihao Chen†（巨像AI Lab）作者列表：Chang Liu（巨像AI Lab；特伦托大学）， Zihao Chen†（巨像AI Lab）， Gongyu Chen（巨像AI Lab）， Chaofan Ding（巨像AI Lab）， Nicu Sebe（特伦托大学） 💡 毒舌点评论文的核心思路——用分层、多视角的符号化MIDI信息来“指挥”扩散模型生成更精准的钢琴音频，是清晰且有效的，实验中SI-SDR的巨幅提升（如从-4.87 dB到2.45 dB）也极具说服力。然而，这篇工作就像在精心打磨一个高度定制的工具，却对工具的内部齿轮（控制分支具体如何融合MIDI特征）和打造工具的材料（训练数据集细节）语焉不详，这给希望跟进的同行留下了不小的障碍。 🔗 开源详情代码：论文中未提及代码链接或开源计划。模型权重：论文中未提及公开模型权重。数据集：论文未说明训练数据的来源和获取方式。仅提及在公开的Audeo和EGQ测试集上进行评估。 Demo：未提及在线演示。复现材料：仅给出了非常基础的训练配置（GPU型号、batch size、优化器、部分训练步数），缺乏模型超参数、数据预处理、代码框架等关键信息，复现难度高。引用的开源项目：论文引用了MMAudio、AudioX、YingSound等基线模型论文，但未明确说明是否基于其开源代码进行复现和扩展。 📌 核心摘要问题：现有视频到音频（V2A）的生成方法在直接映射视频到波形时，难以精确捕捉钢琴演奏中细微的时序、力度和延音控制，导致生成音频的时序对齐和音乐表现力不足。方法核心：提出一个分层的视频到钢琴（V2P）生成框架。其核心是引入MIDI作为中间表示，通过一个多视角MIDI预测器从不同摄像头视角（顶视、前视、侧视、踏板视）渐进式地预测音符起始、力度和延音等符号信息，然后利用一个控制分支将这些层级化的MIDI信息注入到基于扩散变换器（DiT）的音频生成模型中，以引导更精确的波形合成。创新性：相比于现有“视频->波形”的端到端方法，该工作首次在V2P任务中提出：a) 分层MIDI引导的生成范式；b) 利用多视角视频（特别是踏板视角）捕捉完整演奏动态；c) 通用的控制分支设计，可集成到不同V2A模型中。主要实验结果：在Audeo和EGQ两个测试集上，将所提方法应用于YingSound、MMAudio等多个基线模型。结果显示，加入MIDI引导后，音频生成质量显著提升。例如，在MMAudio-S-16kHz模型上，SI-SDR从-2.15 dB提升至2.31 dB（提升207.44%），FDPANNS从3.0643降至2.0657（降低32.59%）。频谱图对比也显示MIDI引导能有效修复基线模型生成的不准确片段。实际意义：该方法能生成与演奏视频高度同步且富有表现力的钢琴音频，可应用于无声钢琴视频配音、音乐教学反馈、自动乐谱生成辅助等场景。主要局限性：a) 方法目前仅针对钢琴这一种乐器，未验证其对其他乐器的泛化性；b) 多视角输入在实际应用中可能增加部署复杂度和成本；c) 训练依赖多视角同步录制的钢琴视频-MIDI数据集，数据获取门槛较高。 🏗️ 模型架构本文提出的分层V2P框架包含三个阶段，其整体架构如图2所示。 ...

UVT-LM: Unifying Visual and Tactile Perception with Language Model

📄 UVT-LM: Unifying Visual and Tactile Perception with Language Model #多模态模型 #跨模态 #音频分类 #大语言模型 #机器人 ✅ 7.0/10 | 前25% | #跨模态 | #多模态模型 | #音频分类 #大语言模型学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -1.0 | 置信度中 👥 作者与机构第一作者：Jinlin Wang（四川大学，合成视觉国家重点实验室）通讯作者：Hongyu Yang（四川大学计算机学院），Yulong Ji（四川大学航空航天学院）作者列表：Jinlin Wang（四川大学合成视觉国家重点实验室）、Hongyu Yang（四川大学计算机学院）、Yulong Ji（四川大学航空航天学院） 💡 毒舌点评亮点：该工作巧妙地将大语言模型（LLM）作为“语义粘合剂”，用文本查询引导将视觉、触觉图像、音频、压力等异构信号映射到共享语义空间，这种设计思路在解决多模态对齐难题上具有启发性，且实验中的跨数据集零样本性能（51.85%）证明了其泛化潜力。短板：论文在实验部分声称“outperforming state-of-the-art methods”，但未清晰说明其对比的基线方法（如MTF, MViTac）是否真正代表了当前最优水平；更关键的是，作为一篇方法论文，其训练细节（如LLM如何参与训练、所有超参数）近乎完全缺失，这严重削弱了研究的可复现性和工程参考价值，无异于“只给菜谱不给火候”。 🔗 开源详情代码：论文明确提供了代码仓库链接：https://github.com/PluteW/UVT-LM。模型权重：论文中未提及是否公开预训练或训练好的模型权重。数据集：论文使用的数据集（Calandra, Au, PHAC-2, Jianhua）均为公开的学术数据集，但论文未说明如何获取或预处理。 Demo：论文中未提及提供在线演示。复现材料：论文未提供训练细节、配置文件、检查点或详细的复现指南。技术细节严重不足。论文中引用的开源项目：论文明确引用了预训练模型作为组件：CLIP [11], BERT [12], Llama2-7B, Whisper [18]。 📌 核心摘要要解决的问题：现有机器人视觉-触觉融合方法受限于特定传感器配对，且难以有效融合异构的触觉信号（如图像、音频、压力）与视觉输入，制约了通用化多模态感知能力的发展。方法核心：提出UVT-LM框架，采用四阶段流程：1) 使用模态特定编码器将各类输入转化为特征；2) 通过“模态语义映射器”，以文本查询生成的Key，引导视觉和触觉特征通过交叉注意力对齐到共享语义空间；3) 利用预训练的Llama2-7B作为“语义编码器”进一步处理融合特征；4) 通过任务头进行预测。与已有方法相比新在哪里：首次提出一个统一架构，能够处理包括触觉图像、音频、压力在内的多种异构触觉信号，并利用LLM的预训练知识进行语义级对齐，而非传统的特征级简单拼接或对比学习。主要实验结果：在物体识别（Au数据集，89.58%）、材料分类（Au数据集95.83%，PHAC-2数据集85.05%）和抓取结果预测（Calandra数据集98.82%）任务上，UVT-LM的准确率均优于所对比的基线方法。在跨数据集零样本迁移（Jianhua数据集）中，达到51.85%的准确率，显著高于随机初始化模型（SNAP, 36.46%）。关键对比结果如下表所示：任务数据集指标 UVT-LM 最强基线差距物体识别 Au 准确率(%) 89.58 CRNN: 88.89 +0.69 材料分类 Au 准确率(%) 95.83 C2M: 88.92 +6.91 材料分类 PHAC-2 准确率(%) 85.05 C3: 76.19 +8.86 抓取预测 Calandra 准确率(%) 98.82 MoCo: 81.83 +16.99 零样本迁移 Jianhua 准确率(%) 51.85 SNAP: 36.46 +15.39 实际意义：为机器人感知提供了一种更通用、可扩展的多模态融合框架，使机器人能利用更丰富的触觉信号理解环境与操作对象，有望提升其在复杂物理交互任务中的鲁棒性和适应性。主要局限性：1) 训练细节（超参数、硬件、策略）完全缺失，严重影响可复现性；2) 实验对比的基线方法是否全面代表了各任务的最先进水平存疑；3) 未探讨模型效率、推理延迟等在实际机器人部署中的关键问题。 🏗️ 模型架构 UVT-LM的整体架构（如图1所示）是一个四阶段的管道，旨在将异构输入统一到由LLM主导的语义空间中。 ...

Visual Keys to Symphonies: Latent Diffusion for Multi-Scene Video-to-Music Generation

📄 Visual Keys to Symphonies: Latent Diffusion for Multi-Scene Video-to-Music Generation #音乐生成 #扩散模型 #跨模态 #数据集 ✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #跨模态 #数据集学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Chiu Fai Ng（华为中央媒体技术研究院⋆，清华大学深圳国际研究生院†）通讯作者：未说明作者列表：Chiu Fai Ng（华为中央媒体技术研究院，清华大学深圳国际研究生院）， Karsper So（华为中央媒体技术研究院）， Jing Yang（华为中央媒体技术研究院）， Patricio Ovalle（华为中央媒体技术研究院）， Simon Lui（华为中央媒体技术研究院）， Fan Fan（华为中央媒体技术研究院）， Yuhan Dong（清华大学深圳国际研究生院） 💡 毒舌点评亮点在于将关键帧采样、多模态特征（视觉语义、情绪、光流）与DPO偏好学习结合，形成了一套逻辑自洽且实验验证较为完整的V2M生成管线，尤其在数据构建和节拍对齐上做了细致工作。短板在于核心生成模型高度依赖Stable Audio的DiT架构，原创性主要体现在“组装”和任务适配上，且评估指标（如KAD、Audiobox-Aesthetics）对于普通读者理解“好音乐”的直观性有限，缺乏更贴近人类音乐感知的主观评价分析。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及是否公开模型权重。数据集：论文提到构建了包含660小时视频-音乐对的数据集，但未提及是否公开及获取方式。 Demo：提供了在线演示页面链接：https://jasonng-glitch.github.io/v2m-demo/。复现材料：给出了模型架构、训练超参数（如学习率、batch size、优化器）、评估指标计算方法等细节。未提供训练配置、检查点或详细附录。论文中引用的开源项目：TransNet（镜头边界检测）、OpenCLIP（视觉特征）、NeuFlow v2（光流估计）、Stable Audio 2.0（DiT架构）、ImageBind（多模态相似度）、Audiobox-Aesthetics（质量评估）、Librosa（音频分析）、RAFT/MemFlow（光流对比基线）。总结：论文提供了用于理解与初步验证的Demo和较多技术细节，但未提及完整的开源计划（代码、模型、数据），复现门槛较高。 📌 核心摘要解决的问题：现有视频到音乐（V2M）生成方法在处理多场景视频时，难以同时保证全局连贯性、情感共鸣以及准确的节拍-视觉事件同步。方法核心：提出一个基于潜在扩散的V2M框架。首先设计了一个可扩展的数据过滤与重评分管道构建高质量视频-音乐对齐数据集。模型采用关键帧作为条件输入，提取视觉语义（OpenCLIP）、情绪标签和光流特征（NeuFlow v2）并进行融合，作为DiT模型的条件信号。最后，通过直接偏好优化（DPO）对模型进行微调，使其输出更符合人类对“高光时刻”音画同步的偏好。新颖之处：首次在V2M领域应用DPO进行微调；主张并验证了关键帧采样优于均匀采样；构建了一个包含节拍同步约束的高质量数据子集用于偏好学习；系统整合了多种视频特征（语义、情绪、运动）以指导音乐生成的不同方面（内容、情感、节奏）。主要实验结果：在多个指标上与现有方法对比（见表1）。DPO微调后的模型在ImageBind语义相似度（5.612）和提出的新指标“Beat Sync”（0.0489）上达到最优，同时Audiobox美学评分与基线模型相当或略优。消融实验表明，关键帧采样在语义和情感对齐上与1FPS采样相当，但计算成本更低（表2）；特征融合模型在PQ和ImageBind上优于单一特征模型（表3）。实际意义：为视频创作者提供了一种自动生成与其内容语义和情绪相符、节拍对齐良好的背景音乐的新工具，有望降低视频制作门槛并避免版权问题。主要局限性：生成模型的核心架构（DiT）并非原创；评估指标偏向于客观度量，缺乏大规模的人类主观偏好评分；数据集中视频类型和音乐流派可能仍有偏见；DPO微调的效果依赖于精心构建的正负样本对。 🏗️ 模型架构整体架构（图3）是一个条件潜在扩散模型，分为视频条件提取和音频生成两大部分。 ...

VMSP: Video-to-Music Generation with Two-Stage Alignment and Synthesis

📄 VMSP: Video-to-Music Generation with Two-Stage Alignment and Synthesis #音乐生成 #扩散模型 #多模态模型 #跨模态 ✅ 7.0/10 | 前25% | #音乐生成 | #扩散模型 | #多模态模型 #跨模态学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Xin Gu（中国传媒大学信息与通信工程学院）通讯作者：Wei Jiang*（中国传媒大学信息与通信工程学院）作者列表：Xin Gu（中国传媒大学信息与通信工程学院）、Wei Jiang*（中国传媒大学信息与通信工程学院）、Yujian Jiang（中国传媒大学信息与通信工程学院）、Zhibin Su（中国传媒大学信息与通信工程学院）、Ming Yan（中国传媒大学信息与通信工程学院） 💡 毒舌点评论文的亮点在于其清晰的“先对齐中间表示，再生成”的两阶段框架设计，这有效缓解了端到端模型常忽略音乐结构的问题，逻辑自洽。但短板也明显：它严重依赖特定的、可能闭源的MLLM（Qwen2.5-VL, Qwen2-Audio）来生成感知描述，这增加了复现成本和不可控性，且论文未开源任何资源，让后续研究者“只能看，不能练”。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开的模型权重。数据集：使用了公开数据集MVED， MuVi-Sync， V2M-bench，但论文未说明其自身的数据预处理脚本或额外数据是否公开。 Demo：未提供在线演示。复现材料：给出了部分训练细节（优化器、学习率调度、训练轮数、硬件）和模型架构参数（Transformer层数、维度），但关键组件的完整训练配置（如VAE-GAN）、MLLM的详细使用方式（Prompt、是否微调）、以及评估脚本未提供。论文中引用的开源项目：引用并依赖了MetaClip、CLAP、Qwen2.5-VL、Qwen2-Audio等模型/工具。开源计划：论文中未提及开源计划。 📌 核心摘要问题：现有的视频生成音乐（V2M）方法大多直接将视频特征映射到声学标记或波形，跳过了对音乐中间表示（如语义、结构）的建模，导致生成的音乐结构连贯性差、和声不丰富。方法核心：提出VMSP，一个基于分层条件映射的两阶段生成框架。第一阶段（跨模态映射）通过Transformer学习视频与音乐语义特征的段级对齐，并利用多模态大语言模型（MLLM）确保视频与音乐在感知层面的一致性。第二阶段（音乐生成）使用扩散Transformer（DiT），将上述对齐后的语义特征和感知信息作为分层条件，指导音乐波形的生成。与已有方法的新颖性：相比于直接映射或依赖文本中间描述的方法，VMSP显式地建模了音乐的“中间表示”（语义和感知），并设计了分层条件注入机制（全局感知条件+局部语义条件），旨在同时保证全局氛围一致和局部时间对齐。主要实验结果：在MVED和MuVi-Sync数据集上训练，在V2M-bench数据集上评估。定量对比显示VMSP在KL、FAD、Density和Coverage指标上均优于CMT、Video2Music、M2UGen和VidMuse等基线模型。消融实验表明两阶段框架和双重条件（语义+感知）缺一不可。用户研究也显示VMSP在音频质量、音乐性、对齐度和感知和谐度上具有优势。模型/方法 KL↓ FAD↓ Density↑ Coverage↑ GT 0.000 0.000 1.167 1.000 CMT[7] 1.220 8.637 0.080 0.070 Video2Music[9] 1.782 18.722 0.103 0.023 M2UGen[18] 0.997 5.104 0.608 0.433 VidMuse[6] 0.734 2.459 1.250 0.730 VMSP 0.607 2.580 1.280 0.870 表1: 客观定量对比结果（来自论文） ...

When Silence Matters: The Impact of Irrelevant Audio on Text Reasoning in Large Audio-Language Models

📄 When Silence Matters: The Impact of Irrelevant Audio on Text Reasoning in Large Audio-Language Models #模型评估 #鲁棒性 #音频大模型 #跨模态 #基准测试 ✅ 7.0/10 | 前50% | #模型评估 | #鲁棒性 | #音频大模型 #跨模态学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Chen-An Li（台湾大学，National Taiwan University, Taipei, Taiwan）通讯作者：Hung-yi Lee（台湾大学，National Taiwan University, Taipei, Taiwan）[注：根据学术惯例，论文末尾作者排序通常通讯作者靠后，且Hung-yi Lee为知名教授，推断其为通讯作者。] 作者列表：Chen-An Li（台湾大学）、Tzu-Han Lin（台湾大学）、Hung-yi Lee（台湾大学） 💡 毒舌点评这篇论文像一位严谨的“系统质检员”，它系统性地量化并证实了多模态模型在“心不在焉”（处理无关音频）时确实会“分心”，甚至发现“安静”本身也是一种干扰——这是一个反直觉且重要的发现。然而，它提供的“解决方案”（自我一致性）更像是一个以资源换性能的笨办法，未能指向更优雅、高效的模型架构层面改进，略显乏力。 🔗 开源详情代码：是。论文明确提供了代码仓库链接：https://github.com/lca0503/AudioInterference。模��权重：论文中未提及提供新训练的模型权重。实验使用的是已公开发布的模型（Qwen2.5-Omni， Phi-4-Multimodal， Voxtral， DeSTA2.5-Audio）。数据集：论文中未提及提供新数据集。实验使用的文本基准（GSM8K， ARC-Challenge， MMLU）和音频干扰源（FSD50K）均为公开数据集。 Demo：论文中未提及提供在线演示。复现材料：论文中未提供训练细节（因未训练模型）。提供了评估所用的代码和依赖的推理工具（vLLM， Transformers），但音频干扰文件（如特定振幅的高斯噪声、静音片段）的具体生成方式未详细说明，需复现者参照文中描述自行生成。论文中引用的开源项目：列出了vLLM [33] 和 Transformers [34] 作为推理工具。总结：论文提供了基本的代码复现支持，但未涉及模型训练，因此复现材料集中于评估部分。论文中未提及开源计划（因相关代码已开源）。 📌 核心摘要要解决什么问题：研究大型音频语言模型在执行纯文本推理任务时，其性能是否会受到输入中不相关音频（如静音、噪声、环境声）的干扰，即跨模态干扰的鲁棒性问题。方法核心是什么：通过系统性的控制变量实验，在三个标准文本推理基准（GSM8K， ARC-Challenge， MMLU）上，评估多个开源LALMs在不同干扰条件下的准确率和预测稳定性（提出“影响率”指标）。与已有方法相比新在哪里：不同于以往关注音频与文本冲突或对抗攻击的研究，本文聚焦于更普遍但未被充分研究的“无关音频干扰”场景。核心新发现包括：(1) 即使无语义信息的静音也会显著干扰模型输出；(2) 干扰严重程度与音频时长、振幅和解码温度正相关；(3) 模型大小和架构影响抗干扰能力。主要实验结果如何：无关音频普遍降低模型准确率（绝对下降幅度温和，但普遍存在）并显著提高“影响率”（预测改变的比例）。干扰随音频时长增加、噪声振幅增大而加剧。在30秒静音或噪声下，影响率可达0.15-0.25。解码温度升高会急剧放大干扰效应，模型输出变得不稳定。提示（Prompting）缓解效果有限且不稳定；自我一致性（Self-Consistency，生成8次取众数）能有效降低影响率（如从0.10以上降至0.05左右）并提升准确率，但计算成本增加。更大模型（如24B参数）通常比小模型更鲁棒，但无一模型完全免疫。干扰程度在不同任务上有差异，MMLU（多领域知识）比GSM8K（数学）受影响更大。 (关键数据见图2，图3，图4及表1，表2) 实际意义是什么：揭示了LALMs在真实部署场景中的一个关键脆弱性：即使音频流中仅包含静音或背景噪声，也可能损害文本推理性能。这对需要处理连续音频输入的实时多模态系统（如语音助手）的鲁棒性设计提出了警示。主要局限性是什么：(1) 研究仅发现问题，提出的缓解方法（自我一致性）效率不高；(2) 缺乏从模型架构或融合机制层面提出根本性解决方案；(3) 实验限于文本推理任务，未探索无关音频对其他多模态任务（如音频理解）的影响。 🏗️ 模型架构论文未提出新模型架构，而是评估现有多个模型。被评估的大型音频语言模型（LALMs）通常共享一个通用的多模态架构，如图1所示，主要包括三个组件： ...