多模态模型

AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling

📄 AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling #多模态模型 #自回归模型 #数据增强 7/10 | 创新 2/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0/1.5 ✅ 7/10 | 前50% | #多模态模型 | #数据增强 | #自回归模型 | arxiv 👥 作者与机构作者：Yiheng Li (中国科学院计算技术研究所, 中国科学院大学)，Zhuo Li (独立作者)，Ruibing Hou (中国科学院计算技术研究所)，Yingjie Chen (北京大学)，Hong Chang (中国科学院计算技术研究所, 中国科学院大学)，Hao Liu (独立作者)，Shiguang Shan (中国科学院计算技术研究所, 中国科学院大学) 通讯作者：Hao Liu (lewes6369@gmail.com) 💡 毒舌点评这篇论文试图解决运动生成领域的一个“贪心”问题：想要一个模型吃下所有条件（文本、语音、音乐、轨迹），还想要数据足够大、模型能缩放。野心不小，也确实做出了些东西。数据集OmniHuMo规模号称最大，这算是个实在的工程贡献，对社区后续研究有价值。AnyMo框架的设计思路清晰，把R-FSQ和并行掩码建模结合起来处理多流token，算是一个合理的技术集成。缩放研究展示了从111M到3B参数的效果趋势，尤其是文本任务上FID的显著下降，验证了 scaling law 在这个任务上的有效性。 ...

Beyond the Mouth: Upper-Face Affective Cues in Audiovisual Sentence Recognition under Acoustic Uncertainty

📄 Beyond the Mouth: Upper-Face Affective Cues in Audiovisual Sentence Recognition under Acoustic Uncertainty #多模态模型 #语音识别 #鲁棒性 5.5/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.1/1.5 | 复现 0.5/0.5 | 工程 0.4/1.5 📝 5.5/10 | 前50% | #语音识别 | #多模态模型 | #鲁棒性 | arxiv 👥 作者与机构 Zhou Yang: Faculty of Education and Psychology, University of Oulu, Finland Yueyi Yang: Center for Machine Vision and Signal Analysis, University of Oulu, Finland ...

Dynamic Interaction-Aware and Causality-Disentangled Framework for Multimodal Sentiment Analysis

📄 Dynamic Interaction-Aware and Causality-Disentangled Framework for Multimodal Sentiment Analysis #多模态模型 #对比学习 7.8/10 | 创新 2/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 0.9/1 | 影响 1.2/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 0.6/1.5 ✅ 7.8/10 | 前25% | #多模态模型 | #对比学习 | arxiv 👥 作者与机构 Guangyuan Dong (NUS), Ziwei Hong (UPenn), Shenghao Liu (CUC), Chenyu Wu (Duke), Yuanyuan Fang (BU), Zihao Li (Liverpool), Xudong Zhang (PKU), Bingchen Liu (SDU), Yuchen Zhang (SeeWay.ai), Haitao Ding (JLU), Zhenzhou Zhou (NEU), Ziyu Song (JLU) ...

JenBridge: Adaptive Long-Form Video Soundtracking across Scene Transitions

📄 JenBridge: Adaptive Long-Form Video Soundtracking across Scene Transitions #音乐生成 #多模态模型 #大语言模型 #基准测试 7.3/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7.3/10 | 前25% | #音乐生成 | #多模态模型 | #大语言模型 #基准测试 | arxiv 👥 作者与机构作者：Jiashuo Yu, Yao Yao, Boyu Chen, Alex Wang 机构：Jen Music AI 💡 毒舌点评这篇论文试图解决一个实际且重要的问题——长视频的连贯配乐，并提出了一个模块化的框架。其核心创意“LLM导演自适应过渡”确实新颖且吸引眼球，构建新基准的贡献也值得肯定。然而，论文在将这一创意落实为坚实技术贡献时，暴露出明显的短板。首先，对核心的LLM Agent决策能力的评估过于粗糙，缺乏对其鲁棒性和失败案例的深入剖析，仅凭几个精心挑选的定性案例和整体分数提升，难以证明其在复杂现实场景下的有效性。其次，作为技术核心的“生成式过渡模型”，其具体实现细节（如何将ControlNet用于音乐修补、‘无训练适配’的具体含义）语焉不详，这直接影响了方法的可复现性和技术深度。再者，完全忽略视频中已存在的音频信息（如对话），使得这个号称“端到端”的框架在面对真实世界复杂内容时显得天真和不完整。最后，对视频分割这一起始步骤的潜在影响缺乏任何敏感性分析，这是一个不可忽视的系统漏洞。总的来说，论文提出了一个有趣的系统框架，但未能充分证明其核心组件的鲁棒性和全面性，技术细节的缺失也削弱了其严谨性。 📌 核心摘要针对长视频配乐中场景切换时音乐连贯性差的挑战，本文提出了JenBridge框架。该框架采用模块化设计，首先将长视频分割为语义片段，然后为每个片段独立生成音乐，最后通过一个自适应过渡机制将音乐片段连接成连贯的长片段。其核心创新点在于设计了一种新颖的自适应过渡机制：该机制包含一个提供四种过渡风格（突变、静音、淡入淡出、生成式过渡）的“工具包”，并独特地利用一个大语言模型（LLM）作为“导演”，根据前后片段的视觉和音乐上下文智能选择最合适的过渡方式。此外，为评估该任务，论文提出了首个专门的长视频配乐基准测试集（LVS Benchmark），包含精心策划的数据和新的评估范式。实验证明，JenBridge在客观指标和主观评估上均显著优于现有方法，尤其在“过渡自然度”和“制作复杂度”上优势明显。 ...

MOSS-Audio Technical Report

📄 MOSS-Audio Technical Report #语音识别 #音乐理解 #多模态模型 #预训练 9.2/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 9.2/10 | 前25% | #语音识别 | #预训练 | #音乐理解 #多模态模型 | arxiv 👥 作者与机构核心贡献者：Chen Yang, Chufan Yu, Hanfu Chen, Jie Zhu, Jingqi Chen, Ke Chen, Wenxuan Wang, Yang Wang, Yaozhou Jiang, Yi Jiang, Zhengyuan Lin, Ziqi Chen, Zhaoye Fei 贡献者：Chenghao Liu, Jun Zhan, Kang Yu, Kexin Huang, Mingshu Chen, Qinyuan Cheng, Ruixiao Li, Shimin Li, Songlin Wang, Yang Gao, Yiyang Zhang 顾问：Xipeng Qiu§ 单位：上海创新研究院 (Shanghai Innovation Institute)、MOSI Intelligence、复旦大学 (Fudan University) ...

Multimodal Music Recommendation System using LLMs

📄 Multimodal Music Recommendation System using LLMs #音乐推荐 #多模态模型 #大语言模型 10/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 10/10 | 前50% | #音乐推荐 | #多模态模型 | #大语言模型 | arxiv 👥 作者与机构 Srikar Prabhas Kandagatla (University of Massachusetts Amherst)，Sreehitha R. Narayana (University of Massachusetts Amherst)，Chandana Magapu (University of Massachusetts Amherst)，Swetha Mohan (University of Massachusetts Amherst)，Shamanth Kuthpadi (University of Massachusetts Amherst)，Hongjie Chen (Dolby Laboratories)，Ryan A. Rossi (Adobe Research)，Franck Dernoncourt (Adobe Research)，Nesreen Ahmed (Cisco Research) ...

SALSA: Speech Aware LLM Adaptation via Learned Steering Activation Vectors

📄 SALSA: Speech Aware LLM Adaptation via Learned Steering Activation Vectors #参数高效微调 #低资源 #多语言 #多模态模型 7.2/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.2/10 | 前25% | #语音识别 | #参数高效微调 | #低资源 #多语言 | arxiv 👥 作者与机构作者: Yekaterina Yegorova, Argyrios Gerogiannis, Haolong Zheng, Julia Hockenmaier, Chang D. Yoo, Mark A. Hasegawa-Johnson 机构: 1University of Illinois Urbana-Champaign, 2Korea Advanced Institute of Science and Technology （注：原文作者列表为“Argyrios Gerogiannis”，已有分析中为“Gerogiannis”，已修正。） ...

语音/音乐/音频论文速递 2026-06-02

语音/音乐/音频论文速递 2026-06-02 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 9篇 █████████ #语音合成 5篇 █████ #自监督学习 2篇 ██ #多模态模型 2篇 ██ #音频分类 2篇 ██ #计算机视觉 1篇 █ #音乐推荐 1篇 █ #语音编辑 1篇 █ 📊 论文评分排行榜（35 篇，按分数降序）排名论文总分分档主任务 🥇 Project SPARROW and the Future of Conservation Technolo 10.0分前50% #计算机视觉 🥈 Multimodal Music Recommendation System using LLMs 10.0分前50% #音乐推荐 🥉 Sympatheia: Emotionally Adaptive Voice Assistant with C 9.6分前25% #语音合成 4. MOSS-Audio Technical Report 9.2分前25% #语音识别 5. UniVocal: Unified Speech-Singing Code-Switching Synthes 8.9分前25% #语音合成 6. PolySpeech-100: A Large-Scale Benchmark for Speech Unde 8.8分前50% #语音识别 7. SpeechEditBench: A Bilingual Multi-Attribute Benchmark 8.7分前25% #语音编辑 8. Context-aware child-directed speech detection from long 8.5分前25% #自监督学习 9. RRP-Voice: A Longitudinal Dataset and Benchmark for Rec 8.3分前50% #数据集 10. MURMUR: An Efficient Inference System for Long-Form ASR 8.3分前50% #语音识别 11. Local Diagnostics of Continuous Normalizing Flow for Ou 8.1分前50% #语音合成 12. WAXAL-NET: Finetuned Edge ASR Across 19 African Languag 8.0分前25% #语音识别 13. Dynamic Interaction-Aware and Causality-Disentangled Fr 7.8分前25% #多模态模型 14. Temporally-Aligned Evaluation for Audio-Driven Talking 7.6分前25% #语音合成 15. HAIM: Human-AI Music Datasets for AI Music Production T 7.5分前50% - 16. Spiking and Event-driven Neuromorphic Mamba Models for 7.5分前50% #语音识别 17. JenBridge: Adaptive Long-Form Video Soundtracking acros 7.3分前25% #音乐生成 18. MelT: GEMM-Native NDFT for Efficient Single-Stage Audio 7.3分前50% #信号处理基础 19. Description and Discussion on DCASE 2026 Challenge Task 7.2分前50% #无监督学习 20. SALSA: Speech Aware LLM Adaptation via Learned Steering 7.2分前25% #语音识别 21. Advancing Electrolaryngeal Speech Enhancement Through S 7.1分前50% #语音增强 22. DUET: Unified Dual-Space Emotion Control for Diffusion 7.1分前25% #语音合成 23. When Tabular Foundation Models Transfer Across Modaliti 7.1分前50% #音频分类 24. Echo: A Joint-Embedding Predictive Architecture for Spe 7.0分前50% #语音识别 25. AnyMo: Scaling Any-Modality Conditional Motion Generati 7.0分前50% #多模态模型 26. Kinship Verification Using Voice 6.9分前50% #声纹识别 27. Quality Audio Prototyping: a prototype system for unifi 6.9分前50% #音频检索 28. A Lightweight Slot-Attention Framework for Multi-Instru 6.7分前50% #音乐信息检索 29. A 1000-hour EEG-EMG-audio dataset of Japanese speech pr 6.5分前50% - 30. DAStatFormer: A Hybrid Multibranch Transformer with Sta 6.4分前50% #音频事件检测 31. Parameter-efficient Dual-encoder Architecture with Diff 6.4分前25% #音频分类 32. Beyond the Mouth: Upper-Face Affective Cues in Audiovis 5.5分前50% #语音识别 33. SN-WER: Script-Normalized WER for Multi-Script Indic AS 5.3分前50% #语音识别 34. Privacy-preserving Prosody Representation Learning 4.9分前50% #自监督学习 35. AI Slop or AI-enhancement? Student perceptions of AI-ge 3.7分后50% - 📋 论文列表 🥇 Project SPARROW and the Future of Conservation Technology 10.0/10 | 创新 2.0/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1.0/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

DOA: Training-Free Decoder-Only Attention Policy for Long-Form Simultaneous Translation with SpeechLLMs

📄 DOA: Training-Free Decoder-Only Attention Policy for Long-Form Simultaneous Translation with SpeechLLMs #语音翻译 #流式处理 #多模态模型 ✅ 7.8/10 | 前25% | #语音翻译 | #流式处理 | #多模态模型 | arxiv 学术质量 5.7/7 | 影响力 1.6/2 | 可复现性 0.5/2 | 置信度高 👥 作者与机构论文作者是Sara Papi和Luisa Bentivogli，隶属于意大利的Fondazione Bruno Kessler (FBK)。 💡 毒舌点评这篇论文提出了一个简单而有效的思路：既然decoder-only的SpeechLLMs没有显式的交叉注意力，那能不能从自注意力中“借用”对齐信号来做流式决策？答案是“可以”，而且效果还不错。核心思想（从自注意力矩阵中截取前S列作为代理交叉注意力）直观且易于实现，实验也证明了其在长时序翻译上的有效性，甚至优于一些AED基线。然而，方法的“新颖性”更多体现在“首次将”这个概念应用于该架构，而非方法论上的重大突破。实验虽然充分，但局限性（如单一源语言、缺乏计算延迟分析）限制了结论的普适性。总体是一篇扎实的、解决实际问题的系统论文，但离改变范式还有距离。 📌 核心摘要本文针对decoder-only架构的语音大语言模型（SpeechLLMs）在长时序同步语音翻译（SimulST）中的应用，提出了一种名为解码器注意力策略（DOA）的无训练方法。该方法的核心思想是，从decoder的自注意力权重中提取一个代理交叉注意力矩阵，用以推断生成文本与源音频的对齐关系，并基于此对齐信号动态决策读取和生成时机。研究旨在回答一个关键问题：decoder-only模型的自注意力是否能像encoder-decoder模型的交叉注意力一样，提供足够稳定的对齐信号以指导流式推理？在Phi4-Multimodal和Qwen3-Omni两个开源SpeechLLMs上的实验表明，DOA策略能够有效地支持低延迟的长时序SimulST，生成质量接近离线解码，且无需对模型进行任务特定的重训练。此外，研究发现基于标点符号的文本历史选择策略在decoder-only架构上优于传统的固定词数策略。 🔗 开源详情代码：https://github.com/hlt-mt/simulstream (Apache 2.0 License) 模型权重： Phi4-Multimodal: https://huggingface.co/microsoft/Phi-4-multimodal-instruct Qwen3-Omni: https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct SeamlessM4T (基线): https://huggingface.co/facebook/hf-seamless-m4t-medium 数据集： MCIF (测试集)：作为IWSLT评测数据集公开，论文中未提供直接链接。 ACL 60/60 (开发集)：作为IWSLT评测数据集公开，论文中未提供直接链接。复现材料：论文在附录A中提供了详尽的实验设置��包括所有模型的具体版本、权重、推理提示模板、超参数（\(f\)值范围、音频块大小、最大音频长度、最大生成令牌数、最大文本历史长度）以及硬件环境信息。论文中引用的开源项目： SimulStream toolkit: https://github.com/hlt-mt/simulstream (推理框架) OmniST-Eval: https://github.com/CTTAT/OmniST-Eval (用于计算LongYAAL, LongLAAL) StreamAtt: (基线方法，原始代码库未在本文中提供直接链接) HuggingFace Transformers: https://github.com/huggingface/transformers (实验所用版本见表1) 🏗️ 方法概述和架构 DOA（Decoder-Only Attention）是一个无训练的流式推理策略，旨在将现成的decoder-only SpeechLLMs应用于长时序同步语音翻译（SimulST）。其核心是将解码器的自注意力（self-attention）机制重新解释为源-目标对齐的信号，并基于此对齐信号构建一个读写决策策略。该方法包含两个主要部分：流式策略设计和长时序适应。 ...

ImmersiveTTS: Environment-Aware Text-to-Speech with Multimodal Diffusion Transformer and Domain-Specific Representation Alignment

📄 ImmersiveTTS: Environment-Aware Text-to-Speech with Multimodal Diffusion Transformer and Domain-Specific Representation Alignment #语音合成 #多模态模型 #扩散模型 #自监督学习 #数据增强 🔥 9.3/10 | 前25% | #语音合成 | #自监督学习 | #多模态模型 #扩散模型 | arxiv 学术质量 6.8/7 | 影响力 1.5/2 | 可复现性 1/2 | 置信度高 👥 作者与机构 Jun-Hak Yun, Seung-Bin Kim, Seong-Whan Lee。Korea University, Seoul, Korea. 💡 毒舌点评论文提出了一个解决环境感知TTS任务的完整框架，技术路线清晰，实验设计也较为扎实。MM-DiT架构在音频领域的适配和领域特定REPA的引入是其核心亮点。然而，这篇工作给人的感觉像是为一个相对小众、定义明确的任务（从文本生成带环境声的语音）“量身定制”了一套复杂的系统，其普适性和根本性贡献可能存疑。训练数据完全依赖合成混合是一个硬伤，虽然作者在局限性中承认，但其对模型实际泛化能力的影响可能比想象中更严重。此外，与精心设计的流水线（CosyVoice2 + TangoFlux）在部分指标上的差距表明，统一模型在当前阶段并未显示出全面的优越性，其“统一建模”带来的核心价值（交互一致性）缺乏更有力的量化证明。工作完成度高，但创新性的天花板似乎受限于任务本身。 📌 核心摘要针对现有环境感知TTS方法在建模语音与环境音频跨模态交互方面的不足，本文提出了ImmersiveTTS。该框架基于多模态扩散Transformer（MM-DiT），采用双流设计：一条流处理文本条件化的环境上下文（由Flan-T5和CLAP提供细粒度与全局特征），另一条流处理与转录对齐的语音特征。两流通过联合注意力机制显式交互。为稳定训练并增强语义一致性，提出了领域特定表示对齐（REPA）目标，使用WavLM（语音专家）和ATST-Frame（音频专家）作为双教师模型，引导中间特征学习。实验证明，ImmersiveTTS在主观和客观指标上优于VoiceLDM和VoiceDiT等基线，且仅需25步采样，实现了效率与质量的平衡。消融研究验证了双流设计和REPA策略的有效性。 🔗 开源详情代码：论文未提供明确的代码仓库链接（如GitHub）。摘要中提供了项目主页链接：https://jjunak-yun.github.io/ImmersiveTTS。模型权重：未提及模型权重的下载链接（如HuggingFace或ModelScope）。数据集：使用了LibriTTS（train-clean-360子集）和WavCaps数据集，但未提供具体的下载链接或开源协议。 Demo：项目主页链接 https://jjunak-yun.github.io/ImmersiveTTS 可能包含在线演示或音频样本，论文未单独列出其他Demo地址。复现材料：论文提供了详细的实现细节（架构参数、损失函数、训练超参数），但未提供具体的配置文件、检查点或复现脚本的下载链接。论文中引用的开源项目： Flux 架构：https://github.com/black-forest-labs/flux WavLM (WavLM-base-sv)：https://huggingface.co/microsoft/wavlm-base-sv Flan-T5-Large：https://huggingface.co/google/flan-t5-large CLAP (clap-htsat-unfused)：https://huggingface.co/laion/clap-htsat-unfused AudioLDM2 VAE：https://huggingface.co/cvssp/audioldm2 HiFi-GAN：未提供链接。 WavLM-Large：https://huggingface.co/microsoft/wavlm-large ATST-Frame-Base：https://github.com/Audio-WestlakeU/audiossl USAD-Base：https://huggingface.co/MIT-SLS/USAD-Base 🏗️ 方法概述和架构 ImmersiveTTS的架构核心是一个为环境感知TTS任务定制的多模态扩散Transformer（MM-DiT），其基础是Flow Matching生成模型。整体流程如图1所示。 ...