多模态模型

MAF: Multimodal Adaptive Few-shot Prompting for Sentiment Analysis with MLLMs

📄 MAF: Multimodal Adaptive Few-shot Prompting for Sentiment Analysis with MLLMs #多模态模型 #大语言模型 5.9/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 0.4/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 📝 5.9/10 | 前50% | #多模态模型 | #大语言模型 | arxiv 👥 作者与机构作者：Hangling Xie (谢行凌) 机构：南京邮电大学 (Nanjing University of Posts and Telecommunications) 💡 毒舌点评论文定位清晰，工作扎实，是一篇典型的“系统整合式”研究。它准确指出了MLLM在情感分析中的痛点（提示敏感性、输出不稳定），并给出了一个工程上合理的解决方案。三个模块（检索、自适应加权、投票）的拼接逻辑顺畅，实验设计也覆盖了足够的数据集和骨干模型，消融实验提供了有力的支撑。然而，这种“模块化拼接”的创新性较为有限，每个组件单独来看都有迹可循（RAG、可学习权重、self-consistency）。技术深度上，将连续权重优化离散化为分类问题是一种实用的妥协，但缺乏理论上的深入讨论；对时序信息的处理（平均池化）也过于简单。最令人诟病的是缺乏对推理效率的量化分析，以及代码和数据的未开源，这严重影响了工作的可复现性和实用价值评估。总体而言，这是一篇合格的、偏向应用的工程性论文，但距离顶级会议的理论或算法创新还有距离。 📌 核心摘要本文针对多模态大语言模型（MLLMs）在情感分析任务中面临的提示设计敏感、静态演示无法适应多样输入以及模型输出不稳定等问题，提出了一个多模态自适应少样本提示框架（MAF）。该框架不更新MLLM参数，而是通过三个协同工作的核心模块来提升性能：1）多特征混合检索模块：整合面部表情（包含用于定位活跃说话人的唇部运动检测）、场景上下文和文本语义特征，从演示语料库中检索与当前查询最相关的多模态示例。2）自适应系数生成模块：一个轻量级神经网络，根据输入查询的内容，实时预测面部、场景和文本三个模态相似度分数的最优融合权重（从离散的66种权重组合中选择），取代传统的固定权重融合。3）多数投票模块：对MLLM进行多次采样生成候选预测，通过投票机制聚合结果，以提升输出的稳定性和鲁棒性。实验在CMU-MOSEI、CH-SIMS v2.0和MELD三个代表性数据集上，使用Qwen-1.8B、LLaMA2-7B和ChatGLM3-6B三个不同规模的骨干模型进行了验证。结果表明，MAF在各骨干模型上均能稳定提升基线性能（如在ChatGLM3-6B骨干上，MAF在CH-SIMS v2.0的Acc-2上达到86.89%，在MELD的Acc上达到69.94%），并与强基线方法具备竞争力。消融实验证实了检索、自适应加权和投票三个模块各自的贡献及其协同效应。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及具体模型权重链接。数据集：论文中提及使用了CMU-MOSEI、CH-SIMS v2.0和MELD三个公开数据集，但未提供具体的下载链接或明确的开源协议信息。 Demo：论文中未提及。复现材料：论文中提及“所有实验使用了固定种子以确保可复现性”，并说明了硬件环境（NVIDIA GeForce RTX 4090），但未提供完整的训练配置文件、模型检查点或详细复现指南。论文中引用的开源项目：论文中提及了以下工具/项目，但未提供其具体链接： OpenFace3.0 (用于面部特征提取) PlaceCNN (用于场景特征提取) FAISS (用于构建向量数据库和执行近似最近邻搜索) 🏗️ 方法概述和架构 MAF框架的完整架构如论文图2所示，其目标是在不更新MLLM参数的前提下，通过动态的上下文构建和稳定的推理策略来增强其情感分析能力。整个过程可分为三个主要阶段，分别对应三个核心模块。 ...

MUNI: Multimodal Unified Latent Diffusion for Coherent Any-to-Any Generation

📄 MUNI: Multimodal Unified Latent Diffusion for Coherent Any-to-Any Generation #语音生成 #音频生成 #多模态模型 #扩散模型 #流匹配 #变分推断 #变分自编码器 6.9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0.1/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 6.9/10 | 前50% | #语音生成 | #变分推断 | #音频生成 #多模态模型 | arxiv 👥 作者与机构作者：Kyeongmin Yeo, Yunhong Min, Minhyuk Sung 机构：KAIST 💡 毒舌点评本文立意不错，试图从变分推断第一性原理出发解决多模态生成中的“一致性”痛点。理论分析部分逻辑清晰，提出了三个潜在空间准则并设计了相应的路由目标，这种“讲道理”的方式值得肯定。实验也表明其在无条件联合生成的一致性指标上有显著提升。然而，论文的核心创新点在于理论分析和目标设计，而实现这些目标的架构（编码器、解码器、先验）本身并无革命性变化。此外，理论证明依赖于多个理想化假设，其现实适用性存疑。最遗憾的是，缺少了对自身关键设计选择（如路由策略、不同聚合规则）的消融实验，使得理论分析与实际性能提升之间的因果链条不够坚固。在影响力方面，对于本领域的读者而言，这项工作的直接可借鉴性有限，更像一个针对视觉主导的多模态生成的“特解”。 📌 核心摘要 MUNI是一个面向任意多模态生成（any-to-any generation）的统一框架。它扩展了联合训练的单模态潜在扩散模型到多模态场景，核心在于两点：1）架构上，引入模态特定的编码器、表达力强的解码器和一个共享的流匹配先验；2）目标上，设计了一个路由训练目标，该目标通过非混合聚合、目标解耦的自重建以及仅在留一子集上训练先验等策略，使共享潜在变量同时满足一致性充分、预测充分和最小性这三个准则。实验在合成和真实图像-文本-音频数据上进行，结果表明MUNI在条件生成任务上不弱于强基线，而在更难的无条件联合生成任务上，其生成的模态间一致性显著优于现有方法。 ...

MuVAP: Multimodal Multiparty Voice Activity Projection for Turn-taking Prediction in the Wild

📄 MuVAP: Multimodal Multiparty Voice Activity Projection for Turn-taking Prediction in the Wild #语音对话系统 #多模态模型 #语音活动检测 #模型融合 7.8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ✅ 7.8/10 | 前25% | #语音对话系统 | #模型融合 | #多模态模型 #语音活动检测 | arxiv 👥 作者与机构作者: Haotian Qi, Gabriel Skantze 机构: Department of Speech Music and Hearing, KTH, Stockholm, Sweden ...

Teacher-Student Structure for Domain Adaptation in Ensemble Audio-Visual Video Deepfake Detection

📄 Teacher-Student Structure for Domain Adaptation in Ensemble Audio-Visual Video Deepfake Detection #多模态模型 #知识蒸馏 #集成学习 #Transformer #数据增强 7.4/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7.4/10 | 前50% | #多模态模型 | #知识蒸馏 | #集成学习 #Transformer | arxiv 👥 作者与机构 Elham Abolhasani, Maryam Ramezani, Hamid R. Rabiee* 沙理工大学 (Sharif University of Technology) 计算机工程系 💡 毒舌点评这篇论文试图做一件有价值的事：让深度伪造检测器“活”起来，能适应新出现的伪造技术。想法不错，但执行上更像是一个标准流程的工程化整合，而非一个能激发领域范式转变的突破。教师-学生框架（第2.3节）被作者明确指出是受[19, 33]启发，其主要创新点——针对Transformer的\(L_{AV-KL}\)损失——虽有技术意义，但贡献深度有限。最令人困惑的是，在DFDC这个公认复杂的数据集上，经过精心设计的学生模型相比教师模型AUC提升仅4.09%，这是否真正证明了该框架的有效性，还是只是数据不足导致的勉强适应？论文试图通过解释性（第5.4节）和鲁棒性（第5.5节）分析来增加亮点，但这些分析更多是定性展示，缺乏更严谨的量化支撑。总体而言，这是一篇扎实的、但缺乏足够想象力和突破性贡献的论文，适合发表在会议的Poster环节，而非获得广泛关注的Oral。 ...

TuneJury: An Open Metric for Improving Music Generation Preference Alignment

📄 TuneJury: An Open Metric for Improving Music Generation Preference Alignment #多模态模型 #数据集 9.7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 9.7/10 | 前25% | #多模态模型 | #数据集 | arxiv 👥 作者与机构论文作者包括Yonghyun Kim (Georgia Tech, ♯), Junwon Lee (KAIST, ♭♭), Haiwen Xia (Peking University, ♮♮), Yinghao Ma (QMUL, ♯♯), Junghyun Koo (Sony AI, ♮), Koichi Saito (Sony AI, ♮), Yuki Mitsufuji (Sony AI, ♮), 和 Chris Donahue (Carnegie Mellon University, ♭)。机构包括Georgia Tech, KAIST, Peking University, QMUL, Sony AI, 和 Carnegie Mellon University。 ...

Unifying Acoustic Features and Text with Multimodal LLMs for Neurodegenerative Screening

📄 Unifying Acoustic Features and Text with Multimodal LLMs for Neurodegenerative Screening #多模态模型 #参数高效微调 #大语言模型 6.2/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 6.2/10 | 前50% | #多模态模型 | #参数高效微调 | #大语言模型 | arxiv 👥 作者与机构作者：Qingfeng Zhang, Yuanxiong Guo, Yanmin Gong 机构：论文致谢部分显示，Q. Zhang和Y. Guo部分得到UT San Antonio Office of Research and Innovation的种子基金和NSF Grant CNS-2106761的资助；Y. Gong部分得到NSF Grant CNS-2611068的资助。论文正文未明确列出作者所属机构。 ...

XAI-Grounded Explanation Generation for Speech Deepfake Detection with Training-Free Multimodal Large Language Models

📄 XAI-Grounded Explanation Generation for Speech Deepfake Detection with Training-Free Multimodal Large Language Models #多模态模型 8.9/10 | 创新 1.7/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8.9/10 | 前25% | #多模态模型 | #多模态模型 | arxiv 👥 作者与机构 Yupei Li, Qiyang Sun, Xiaoliang Wu, Chenxi Wang, Berrak Sisman, Björn W. Schuller 机构：帝国理工学院，慕尼黑工业大学，南安普顿大学，马斯达尔理工学院，约翰霍普金斯大学 💡 毒舌点评这篇论文的“无需训练”标签打得一手好太极。确实，核心生成模型（LLM）的权重是冻结的，但框架的运转严重依赖于一整套“训练中”的组件：一个在训练集上微调过的MLP分类器（为了生成SHAP特征），以及多个预训练的检测模型。这就像说一辆车“无需加油”，因为它用电，但前提是你得有个发电厂（预训练模型）和一条电缆（MLP训练过程）。另外，数据集构建中那个“只保留所有模型都猜对的样本”的筛选，虽然能提升解释质量的“下限”，但无形中也把“硬骨头”都扔掉了，生成的解释在面对更棘手或模型分歧的样本时，表现如何，是个大大的问号。人类评估的设计也略显偷懒，只测了伪造样本，对于“证明清白”（解释真实语音）这个更难的任务，只给了定性例子，这可不够有说服力。 📌 核心摘要本文针对语音深度伪造检测（SDD）中可解释性不足的问题，提出了一个无需训练的多模态框架XGEG。该框架的核心思想是利用传统可解释AI（XAI）方法（如IG, LIME, Saliency）从预训练的检测模型中提取归因图作为“启发式证据”，并将这些证据与通过openSMILE提取的声学特征相结合，共同作为提示输入到多模态大语言模型（Qwen2.5-VL-7B和Qwen3-Omni-30B）中，以生成结构化、有依据、低幻觉的自然语言解释。论文同时构建并公开了一个基于PartialSpoof的、包含约65,000个实例的大规模SDD解释数据集。实验通过人类评估和定量忠实度分析验证了XAI引导能显著提升解释的正确性、证据支持度和特异性。 ...

语音/音乐/音频论文速递 2026-06-16

语音/音乐/音频论文速递 2026-06-16 共分析 62 篇论文 ⚡ 今日概览 📥 抓取 62 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 9篇 █████████ #语音合成 6篇 ██████ #多模态模型 5篇 █████ #自监督学习 4篇 ████ #音频生成 3篇 ███ #生成模型 2篇 ██ #语音生成 2篇 ██ #音乐信息检索 2篇 ██ 📊 论文评分排行榜（62 篇，按分数降序）排名论文总分分档主任务 🥇 TuneJury: An Open Metric for Improving Music Generation 9.7分前25% #多模态模型 🥈 Acoustic, VOC, and Multimodal Stress Source Localizatio 9.7分前50% #声源定位 🥉 VoxWatermark: A Large-Scale Benchmark for Audio Waterma 9.4分前50% #鲁棒性 4. Phonetically Explainable Speech Deepfake Detection 9.0分前50% #语音伪造检测 5. FreeSonic: Training-Free Temporal-Aware Decoupled Atten 9.0分前25% #音频生成 6. MambAdapter: Lightweight Mamba-Based Adapters for Param 8.9分前25% #语音识别 7. XAI-Grounded Explanation Generation for Speech Deepfake 8.9分前25% #多模态模型 8. Unified Audio Generation and Editing via Joint Conditio 8.7分前25% #音频生成 9. AdaTT: Text-Guided Instrument Timbre Transfer with Targ 8.7分前25% #音频生成 10. DuraMark: Duration-Embedded Watermarking in LLM-based T 8.7分前25% #生成模型 11. When the Same Musical Knowledge Forgets Differently: A 8.6分前10% - 12. Probing Low Frame Rate Degradation in Neural Audio Code 8.6分前25% #语音生成 13. Rhythm of the Deep: A Computational-Linguistic Test of 8.5分前25% #自监督学习 14. Beyond Artifacts: Towards Generalizable Synthetic Song 8.4分前25% #音乐信息检索 15. Acoustic Prompting via Stage-wise Modulation for Few-Sh 8.3分前50% #音频分类 16. ArtNet: A JEPA-Like Articulatory Predictive Framework f 8.3分前50% #语音识别 17. MatchLM2Lite: A Scalable MLLM-to-Lite Framework for Rep 8.3分前25% #音频分类 18. Bridging the SEA Gap: An Initial Benchmark for Neural A 8.2分前25% #语音合成 19. An Empirical Study on Learning Latent Representations f 8.2分后50% #语音合成 20. From Physics to Representation: Audio Learning with Syn 8.2分前25% #自监督学习 21. An Asymmetric Formula for Interval Consonance and its R 8.0分前25% #音乐信息检索 22. Universal adaptive beamforming: A Bayesian approach 8.0分前50% #自适应滤波 23. Learning Input-Channel Permutation Equivariance for Mul 7.9分前50% #音乐源分离 24. Stabilizing Short Duration Speaker Verification through 7.9分前50% #说话人验证 25. AUDEDIT: Inversion-Free Text-Guided Editing with Pretra 7.8分前25% #生成模型 26. Interpretable and Frugal Learning Systems Employing Mul 7.8分前25% - 27. MuVAP: Multimodal Multiparty Voice Activity Projection 7.8分前25% #语音对话系统 28. Dynamic Prosody Prediction in LLM-based TTS for Improvi 7.6分前25% #语音合成 29. Scaling Human and G2P Supervision for Robust Phonetic T 7.6分前25% #语音识别 30. SPRI: SVD-Partitioned Residual Initialization for Data- 7.6分前25% #语音翻译 31. CraBERT: Efficient Phoneme Encoder Pre-Training via Cas 7.5分前50% #语音合成 32. Pixel-TTS: Image based Text Rendering for Robust Text-t 7.5分前50% #语音合成 33. AP-GRPO: Anchor-Gated Phonetic Alignment with Policy Op 7.4分前50% #语音识别 34. Spectro-Temporal Interference Confounds Phase Encoding 7.4分前50% #自监督学习 35. Teacher-Student Structure for Domain Adaptation in Ense 7.4分前50% #多模态模型 36. SciText2Eq: Assessing LLMs for Explainable Equation Gen 7.3分前50% #大语言模型 37. Confidence Score Guided Incremental and Speaker Adaptiv 7.2分前50% #语音识别 38. Geometrically Constrained Decentralized Independent Vec 7.2分前50% #语音分离 39. Dual-Granularity Orthogonal Disentanglement for General 7.2分前50% #课程学习 40. Data-Driven Decoding of Russell's Circumplex Model 7.2分前50% #语音情感识别 41. Connecting Speech to Words through Images 7.1分前50% #无监督学习 42. Bridging the Usability Gap: Lessons from Interpreting S 7.1分前50% #语音翻译 43. TMASC: Transmasculine Attitude and Speech Corpus 7.0分前50% - 44. MUNI: Multimodal Unified Latent Diffusion for Coherent 6.9分前50% #语音生成 45. Decoding while Adapting: Zero-Shot Online Speaker Adapt 6.8分前50% #语音识别 46. Joycent: Diffusion-based Accent TTS without Accented Ph 6.8分前50% #语音合成 47. Semi-Supervised Speech Confidence Detection using Pseud 6.8分前50% - 48. Robust Spoofed Speech Detection via Temporal Pyramid Mo 6.7分前50% #音频深度伪造检测 49. From Awareness to Adherence: Bridging the Context Gap i 6.7分前50% #语音识别 50. ArtBoost: Synthetic Articulatory Data Augmentation for 6.5分前50% #语音识别 51. DDPO-VC: Speaker De-Identification via Diffusion Denois 6.5分前50% #语音转换 52. NVMOS: Non-Verbal Vocalization Quality Assessment in Sp 6.2分前50% #自监督学习 53. Unifying Acoustic Features and Text with Multimodal LLM 6.2分前50% #多模态模型 54. ROMPAR: Morphological Completion and Demographic Unlear 6.2分前50% #语音识别 55. EChO-Agent: Evidence Chain Orchestration Agent for Audi 6.1分前50% #音频问答 56. Beyond Classification: A Cough Regression Benchmark for 6.0分前50% #音频事件检测 57. Towards Robust Generative Speech Enhancement Using Vect 5.9分前50% #语音增强 58. Fast When, Careful Who: Dual-Process Multiparty Turn-Ta 5.9分前50% #语音活动检测 59. MAF: Multimodal Adaptive Few-shot Prompting for Sentime 5.9分前50% #多模态模型 60. An auscultation location specific study on the relation 5.8分前50% - 61. Closed-Loop Triplet Synergistic Generation for Long-For 5.5分前50% - 62. LLM-Based Synthetic Ground Truth Generation for Audio-B 5.3分后50% #数据增强 📋 论文列表 🥇 TuneJury: An Open Metric for Improving Music Generation Preference Alignment 9.7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1.0/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.0/1.5 ...

A Multi-Domain Feature Fusion Framework for Generalizable Deepfake Detection Across Different Generators

📄 A Multi-Domain Feature Fusion Framework for Generalizable Deepfake Detection Across Different Generators #多模态模型 #数据增强 7.4/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.4/10 | 前50% | #多模态模型 | #多任务学习 | #数据增强 | arxiv 👥 作者与机构第一作者：Amna Amjid，单位：国家科学技术大学（NUST），巴基斯坦。通讯作者：Sana Qadir，单位：国家科学技术大学（NUST），巴基斯坦。其他作者：Mehwish Fatima（同NUST），Raja Khurram Shahzad（密德瑞典大学及吕勒奥理工大学）。 💡 毒舌点评这篇论文的“多领域融合”听起来挺唬人，但实际上就是把RGB、梯度图和DWT小波系数三个东西拼接在一起，然后丢进一个现成的双路残差网络（DRN）里。这种“融合”缺乏任何新颖的交互或注意力机制，更像是工程上的简单叠加。论文最大的亮点是实验设置比较系统，把跨模型、跨范式、多源和真实世界测试都做了一遍，这值得肯定。但问题在于，所有实验结果都强烈暗示，在这个任务上，数据的多样性（多源训练）和标准的数据增强策略，比你那个“多领域特征融合”的设计本身贡献大得多。看看表VIII，用MIX_ALL加增强就从49%提到75.8%，而模型架构的改进从baseline DRN到SGFF-Net的提升幅度在跨模型测试中（表V）远没有这么明显。所以，这篇论文更像是一份详尽的深度伪造检测实验报告，而不是一个在方法论上有坚实贡献的工作。核心方法部分（III节）描述还算清晰，但理论深度几乎为零。最要命的是，摘要和结论中声称的“显著提升”需要更审慎地限定范围——在最具挑战性的真实世界泛化上，75.8%的准确率离实用还很远，而且这提升很大程度归功于训练数据策略，而非模型架构本身。 📌 核心摘要针对现有深度伪造检测方法（尤其是基于空间或单一频率域的方法）在面对扩散模型生成内容时泛化能力不足的问题，本文提出SGFF-Net（空间-梯度-频率融合网络）。该框架在一个双路残差网络（DRN）架构中，并行提取并融合图像的RGB空间特征、基于预训练ResNet-50的梯度特征以及基于离散小波变换（DWT）的频率特征。论文通过系统性的消融研究确定了DWT（尤其是Symlet小波族和反射边界模式）作为最优的频率表示方法，并验证了三路特征融合的必要性。实验评估涵盖五个场景：数据集内评估、跨模型评估、跨范式评估、多源评估和真实世界评估。结果表明，SGFF-Net在数据集内评估中达到98.95%的准确率。然而，在最具挑战性的跨范式（如用扩散模型训练测试GAN数据）和真实世界测试中，其性能仍显著下降（跨范式约70%，真实世界最高75.8%）。关键发现是，引入多源训练和标准数据增强策略，比单纯改进模型架构对提升泛化能力（尤其是跨模型和真实世界场景）的贡献更为显著。 🔗 开源详情代码：论文中声称代码在GitHub公开，但未提供具体仓库链接。模型权重：论文中未提及。数据集：论文中明确提到了三个公开数据集，其获取链接在论文中已给出： DeepFakeFace (DFF): https://github.com/OpenRL-Lab/DeepFakeFace Diffusion Face (DiffFace): https://github.com/Rapisurazurite/DiffFace Diverse Fake Face Dataset (DFFD): https://cvlab.cse.msu.edu/dffd-dataset.html Demo：论文中未提及。复现材料：论文中提供了详细的训练配置参数（如使用PyTorch框架、AdamW优化器、学习率、批大小、训练轮次等），但未提及是否提供检查点、完整训练脚本或数据预处理/划分脚本。论文中引用的开源项目：未提及除数据集外的其他第三方开源项目。标签 #多模态模型 #数据增强 #领域自适应主任务标签：#图像生成主方法标签：#多任务学习补充标签：#数据增强 #领域自适应 ...

FoleyGenEx: Unified Video-to-Audio Generation with Multi-Modal Control, Temporal Alignment, and Semantic Precision

📄 FoleyGenEx: Unified Video-to-Audio Generation with Multi-Modal Control, Temporal Alignment, and Semantic Precision #语音合成 #多模态模型 #扩散模型 #数据增强 7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7/10 | 前50% | #语音合成 | #数据增强 | #多模态模型 #扩散模型 | arxiv 👥 作者与机构作者：Shiyao Wang, Xijuan Zeng, Hui Wang, Shiwan Zhao, Feng Deng, Chen Zhang, Yong Qin。机构：南开大学先进交叉科学研究院，快手科技。论文注明工作于王诗瑶在快手科技实习期间完成。 ...