MUNI: Multimodal Unified Latent Diffusion for Coherent Any-to-Any Generation

📄 MUNI: Multimodal Unified Latent Diffusion for Coherent Any-to-Any Generation #语音生成 #音频生成 #多模态模型 #扩散模型 #流匹配 #变分推断 #变分自编码器 6.9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0.1/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 6.9/10 | 前50% | #语音生成 | #变分推断 | #音频生成 #多模态模型 | arxiv 👥 作者与机构 作者:Kyeongmin Yeo, Yunhong Min, Minhyuk Sung 机构:KAIST 💡 毒舌点评 本文立意不错,试图从变分推断第一性原理出发解决多模态生成中的“一致性”痛点。理论分析部分逻辑清晰,提出了三个潜在空间准则并设计了相应的路由目标,这种“讲道理”的方式值得肯定。实验也表明其在无条件联合生成的一致性指标上有显著提升。然而,论文的核心创新点在于理论分析和目标设计,而实现这些目标的架构(编码器、解码器、先验)本身并无革命性变化。此外,理论证明依赖于多个理想化假设,其现实适用性存疑。最遗憾的是,缺少了对自身关键设计选择(如路由策略、不同聚合规则)的消融实验,使得理论分析与实际性能提升之间的因果链条不够坚固。在影响力方面,对于本领域的读者而言,这项工作的直接可借鉴性有限,更像一个针对视觉主导的多模态生成的“特解”。 📌 核心摘要 MUNI是一个面向任意多模态生成(any-to-any generation)的统一框架。它扩展了联合训练的单模态潜在扩散模型到多模态场景,核心在于两点:1)架构上,引入模态特定的编码器、表达力强的解码器和一个共享的流匹配先验;2)目标上,设计了一个路由训练目标,该目标通过非混合聚合、目标解耦的自重建以及仅在留一子集上训练先验等策略,使共享潜在变量同时满足一致性充分、预测充分和最小性这三个准则。实验在合成和真实图像-文本-音频数据上进行,结果表明MUNI在条件生成任务上不弱于强基线,而在更难的无条件联合生成任务上,其生成的模态间一致性显著优于现有方法。 ...

2026-06-16 · 更新于 2026-07-02 · 3 min · 438 words

语音/音乐/音频论文速递 2026-06-16

语音/音乐/音频论文速递 2026-06-16 共分析 62 篇论文 ⚡ 今日概览 📥 抓取 62 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 9篇 █████████ #语音合成 6篇 ██████ #多模态模型 5篇 █████ #自监督学习 4篇 ████ #音频生成 3篇 ███ #生成模型 2篇 ██ #语音生成 2篇 ██ #音乐信息检索 2篇 ██ 📊 论文评分排行榜(62 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 TuneJury: An Open Metric for Improving Music Generation 9.7分 前25% #多模态模型 🥈 Acoustic, VOC, and Multimodal Stress Source Localizatio 9.7分 前50% #声源定位 🥉 VoxWatermark: A Large-Scale Benchmark for Audio Waterma 9.4分 前50% #鲁棒性 4. Phonetically Explainable Speech Deepfake Detection 9.0分 前50% #语音伪造检测 5. FreeSonic: Training-Free Temporal-Aware Decoupled Atten 9.0分 前25% #音频生成 6. MambAdapter: Lightweight Mamba-Based Adapters for Param 8.9分 前25% #语音识别 7. XAI-Grounded Explanation Generation for Speech Deepfake 8.9分 前25% #多模态模型 8. Unified Audio Generation and Editing via Joint Conditio 8.7分 前25% #音频生成 9. AdaTT: Text-Guided Instrument Timbre Transfer with Targ 8.7分 前25% #音频生成 10. DuraMark: Duration-Embedded Watermarking in LLM-based T 8.7分 前25% #生成模型 11. When the Same Musical Knowledge Forgets Differently: A 8.6分 前10% - 12. Probing Low Frame Rate Degradation in Neural Audio Code 8.6分 前25% #语音生成 13. Rhythm of the Deep: A Computational-Linguistic Test of 8.5分 前25% #自监督学习 14. Beyond Artifacts: Towards Generalizable Synthetic Song 8.4分 前25% #音乐信息检索 15. Acoustic Prompting via Stage-wise Modulation for Few-Sh 8.3分 前50% #音频分类 16. ArtNet: A JEPA-Like Articulatory Predictive Framework f 8.3分 前50% #语音识别 17. MatchLM2Lite: A Scalable MLLM-to-Lite Framework for Rep 8.3分 前25% #音频分类 18. Bridging the SEA Gap: An Initial Benchmark for Neural A 8.2分 前25% #语音合成 19. An Empirical Study on Learning Latent Representations f 8.2分 后50% #语音合成 20. From Physics to Representation: Audio Learning with Syn 8.2分 前25% #自监督学习 21. An Asymmetric Formula for Interval Consonance and its R 8.0分 前25% #音乐信息检索 22. Universal adaptive beamforming: A Bayesian approach 8.0分 前50% #自适应滤波 23. Learning Input-Channel Permutation Equivariance for Mul 7.9分 前50% #音乐源分离 24. Stabilizing Short Duration Speaker Verification through 7.9分 前50% #说话人验证 25. AUDEDIT: Inversion-Free Text-Guided Editing with Pretra 7.8分 前25% #生成模型 26. Interpretable and Frugal Learning Systems Employing Mul 7.8分 前25% - 27. MuVAP: Multimodal Multiparty Voice Activity Projection 7.8分 前25% #语音对话系统 28. Dynamic Prosody Prediction in LLM-based TTS for Improvi 7.6分 前25% #语音合成 29. Scaling Human and G2P Supervision for Robust Phonetic T 7.6分 前25% #语音识别 30. SPRI: SVD-Partitioned Residual Initialization for Data- 7.6分 前25% #语音翻译 31. CraBERT: Efficient Phoneme Encoder Pre-Training via Cas 7.5分 前50% #语音合成 32. Pixel-TTS: Image based Text Rendering for Robust Text-t 7.5分 前50% #语音合成 33. AP-GRPO: Anchor-Gated Phonetic Alignment with Policy Op 7.4分 前50% #语音识别 34. Spectro-Temporal Interference Confounds Phase Encoding 7.4分 前50% #自监督学习 35. Teacher-Student Structure for Domain Adaptation in Ense 7.4分 前50% #多模态模型 36. SciText2Eq: Assessing LLMs for Explainable Equation Gen 7.3分 前50% #大语言模型 37. Confidence Score Guided Incremental and Speaker Adaptiv 7.2分 前50% #语音识别 38. Geometrically Constrained Decentralized Independent Vec 7.2分 前50% #语音分离 39. Dual-Granularity Orthogonal Disentanglement for General 7.2分 前50% #课程学习 40. Data-Driven Decoding of Russell's Circumplex Model 7.2分 前50% #语音情感识别 41. Connecting Speech to Words through Images 7.1分 前50% #无监督学习 42. Bridging the Usability Gap: Lessons from Interpreting S 7.1分 前50% #语音翻译 43. TMASC: Transmasculine Attitude and Speech Corpus 7.0分 前50% - 44. MUNI: Multimodal Unified Latent Diffusion for Coherent 6.9分 前50% #语音生成 45. Decoding while Adapting: Zero-Shot Online Speaker Adapt 6.8分 前50% #语音识别 46. Joycent: Diffusion-based Accent TTS without Accented Ph 6.8分 前50% #语音合成 47. Semi-Supervised Speech Confidence Detection using Pseud 6.8分 前50% - 48. Robust Spoofed Speech Detection via Temporal Pyramid Mo 6.7分 前50% #音频深度伪造检测 49. From Awareness to Adherence: Bridging the Context Gap i 6.7分 前50% #语音识别 50. ArtBoost: Synthetic Articulatory Data Augmentation for 6.5分 前50% #语音识别 51. DDPO-VC: Speaker De-Identification via Diffusion Denois 6.5分 前50% #语音转换 52. NVMOS: Non-Verbal Vocalization Quality Assessment in Sp 6.2分 前50% #自监督学习 53. Unifying Acoustic Features and Text with Multimodal LLM 6.2分 前50% #多模态模型 54. ROMPAR: Morphological Completion and Demographic Unlear 6.2分 前50% #语音识别 55. EChO-Agent: Evidence Chain Orchestration Agent for Audi 6.1分 前50% #音频问答 56. Beyond Classification: A Cough Regression Benchmark for 6.0分 前50% #音频事件检测 57. Towards Robust Generative Speech Enhancement Using Vect 5.9分 前50% #语音增强 58. Fast When, Careful Who: Dual-Process Multiparty Turn-Ta 5.9分 前50% #语音活动检测 59. MAF: Multimodal Adaptive Few-shot Prompting for Sentime 5.9分 前50% #多模态模型 60. An auscultation location specific study on the relation 5.8分 前50% - 61. Closed-Loop Triplet Synergistic Generation for Long-For 5.5分 前50% - 62. LLM-Based Synthetic Ground Truth Generation for Audio-B 5.3分 后50% #数据增强 📋 论文列表 🥇 TuneJury: An Open Metric for Improving Music Generation Preference Alignment 9.7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1.0/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.0/1.5 ...

2026-06-16 · 更新于 2026-07-02 · 36 min · 7668 words

MELD: Mel-Spectrogram-Based Speech Language Modeling with Discrete Latent Variables

📄 MELD: Mel-Spectrogram-Based Speech Language Modeling with Discrete Latent Variables #语音合成 #语音识别 #变分推断 ✅ 7.3/10 | 前50% | #语音合成 | #变分推断 | #语音识别 | arxiv 学术质量 5.9/7 | 影响力 1.4/2 | 可复现性 0/2 | 置信度 中 👥 作者与机构 Sung-Lin Yeh\(^{1}\), Wei Zhou\(^{2}\), Gil Keren\(^{3}\), Duc Le\(^{3}\), Zhong Meng\(^{3}\), Hao Tang\(^{3}\), Jay Mahadeokar\(^{3}\), Ozlem Kalinli\(^{3}\), Alexandre Mourachko\(^{3}\) (\(^{1}\)University of Edinburgh, \(^{2}\)Google DeepMind, \(^{3}\)Meta Superintelligence Labs) 📌 核心摘要 本文提出了MELD(Mel-Spectrogram-Based Discrete Latent Language Model),一种基于梅尔频谱图和离散潜变量的语音语言模型框架。其核心创新在于联合优化一个量化编码器和一个自回归语言模型,直接对连续的梅尔频谱帧进行建模,从而避免了传统两阶段方法(先训练独立的编码器/编解码器,再训练语言模型)中编码器无法感知下游任务目标的问题。MELD通过引入离散潜变量空间进行采样,有效缓解了直接自回归建模梅尔频谱时常见的静音延长和单词遗漏问题。模型在单一框架内通过不同的控制令牌(<TTS> 和 <STT>)支持零样本文本到语音(TTS)合成和语音到文本(STT)识别任务,并在LibriSpeech数据集上展示了相比基线方法(如Codec-LM、MELLE、dMel)的优势,特别是在STT性能和联合TTS-STT建模方面。 ...

2026-05-29 · 更新于 2026-07-02 · 1 min · 115 words

语音/音乐/音频论文速递 2026-05-29

语音/音乐/音频论文速递 2026-05-29 共分析 20 篇论文 ⚡ 今日概览 📥 抓取 20 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 5篇 █████ #语音识别 5篇 █████ #音频生成 2篇 ██ #基准测试 1篇 █ #多模态模型 1篇 █ #音频分类 1篇 █ #音频深度伪造检测 1篇 █ #语音情感识别 1篇 █ 📊 论文评分排行榜(20 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 DirectorBench: Diagnosing Long-Form Video Generation wi 9.8分 前25% #基准测试 🥈 Benchmarking Single-Factor Physical Video-to-Audio Gene 9.0分 前25% #音频生成 🥉 Audio Jailbreaks in Large Audio-Language Models: Taxono 8.9分 前25% #多模态模型 4. HoliTok:A Coutinuous Holistic Tokenization with Robust 8.6分 前25% #语音合成 5. Dial HEALTHDIAL for Advice: A Multilingual and Multi-Pa 8.6分 前25% #语音合成 6. Mitigating Stethoscope-Induced Shortcuts in Respiratory 8.5分 前25% #音频分类 7. Audio Deepfake Detection with Half-Truth Localisation U 8.4分 前50% #音频深度伪造检测 8. ChildVox: A Speech, Audio, and Large Audio-Language Mod 8.0分 前25% #语音识别 9. State-Anchored Complete-View Distillation for Robust Co 8.0分 前50% #语音情感识别 10. VideoFDB: Evaluating Full-Duplex Vision-Speech Capabili 7.9分 前25% #语音合成 11. Native Audio-Visual Alignment for Generation 7.8分 前50% #音频生成 12. OmniInteract: Benchmarking Real-World Streaming Interac 7.8分 前50% #语音识别 13. MusTBENCH: Benchmarking and Advancing Temporal Groundin 7.5分 前50% #音乐生成 14. Archon: A Unified Multimodal Model for Holistic Digital 7.5分 前50% #语音合成 15. MELD: Mel-Spectrogram-Based Speech Language Modeling wi 7.3分 前50% #语音合成 16. The WER Trap: Shattering the Illusion of Unified Tokens 7.0分 前50% #语音识别 17. Decoding Strategies for Diffusion-Based ASR: A Systemat 6.8分 前50% #语音识别 18. COMET: Concept Space Dissection of the Modality Gap in 6.5分 前50% #音频检索 19. AgentHijack: Benchmarking Computer Use Agent Robustness 5.6分 前50% - 20. Data-Efficient On-Policy Distillation for Automatic Spe 5.1分 前50% #语音识别 📋 论文列表 🥇 DirectorBench: Diagnosing Long-Form Video Generation with Personalized Multi-Agent Evaluation 🔥 9.8/10 | 前25% | #音视频 | #多智能体评估 | #视频生成 #多模态生成评估 | arxiv ...

2026-05-29 · 更新于 2026-07-02 · 10 min · 2103 words

Fitting Large Nonlinear Mixed Effects Models Using Variational Expectation Maximization

📄 Fitting Large Nonlinear Mixed Effects Models Using Variational Expectation Maximization #统计计算 #变分推断 #生物统计 #计算药理学 ✅ 6.5/10 | 前50% | #统计计算 | #变分推断 | #生物统计 #计算药理学 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:未说明 通讯作者:未说明 作者列表:Mohamed Tarek(未说明),Pedro Afonso(未说明) 💡 毒舌点评 这篇论文将一种在机器学习中已成熟的变分推断方法(VEM)引入到传统上由EM和数值积分主导的药代动力学(NLME)建模领域,展现了处理超大规模(1.5万参数)模型的潜力,这是一个有价值的工程化探索。然而,其摘要缺乏与现有主流NLME拟合算法(如NONMEM中的FOCE)在相同问题上的直接性能对比,仅用两个案例演示,说服力不足,让人怀疑其宣称的“可扩展性”是否具有普遍性而非仅针对特定实验设置。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及。 数据集:未提及。 Demo:未提及。 复现材料:摘要中未提供训练细节、配置文件、检查点或附录说明以支持复现。 论文中引用的开源项目:提到了Pumas统计软件(是一个用于药代动力学建模和模拟的开源/商业平台),但未明确说明是作为依赖还是作为实现平台。 📌 核心摘要 本文旨在解决非线性混合效应(NLME)模型在参数和随机效应数量增多时,传统极大边际似然计算方法面临的计算瓶颈问题。方法核心是采用变分期望最大化(VEM)算法,利用灵活的变分分布族近似难以计算的真实后验,并通过反向模式自动微分高效优化目标函数。与传统方法相比,其新颖之处在于首次将VEM系统性地应用于NLME建模,并声称能扩展到拥有超过15,000个群体参数的超大模型。实验上,论文使用Pumas软件构建并初步测试了两个模型:一个用于验证算法正确性的标准华法林模型(未提供具体拟合数值),以及一个用于展示计算可扩展性的DeepNLME Friberg模型(具有15,410个群体参数和16个随机效应),后者仅进行了有限次迭代以测量单次迭代时间。实际意义是为药学研究和临床药理学中日益复杂的层级纵向数据建模提供了一种新的、潜在可扩展的计算工具。主要局限性在于摘要中缺乏详尽的计算效率对比(如与FOCE等方法的实际耗时对比),且对VEM在统计准确性和偏差方面的讨论深度未知。 🏗️ 模型架构 论文摘要未提供模型架构图或详细描述。根据方法描述,VEM的整体架构可概括为迭代优化过程: E步(变分推断):为每个个体(或群组)的随机效应指定一个参数化的变分分布族(例如,高斯分布)。目标是调整该分布的参数,使其尽可能接近难以计算的、给定观测数据下的真实随机效应后验分布。这通常通过最大化证据下界(ELBO)来完成。 M步(参数更新):固定所有个体的变分分布近似,然后调整模型中的固定效应(群体参数)。这一步可以通过对ELBO关于群体参数的期望进行最大化来实现,并可利用自动微分高效计算梯度。 迭代:重复E步和M步,直到模型收敛(如ELBO不再显著变化)。 关键设计选择是使用灵活的变分分布和自动微分,这使得算法可以处理传统数值积分方法难以应对的高维随机效应空间。 💡 核心创新点 将VEM算法引入NLME建模:这是本文的主要方法论贡献。VEM在概率图模型和变分自编码器中常见,但在经典的药代动力学NLME领域应用尚不广泛,本文旨在填补这一空白。 针对超大规模NLME模型的可扩展性验证:通过构建一个包含15,410个群体参数和16个随机效应的DeepNLME Friberg模型,展示了VEM算法在参数规模上突破传统方法瓶颈的潜力。这表明该方法可能适用于更复杂、更精细的生理模型。 利用现代计算工具(自动微分):强调通过反向模式自动微分来实现目标函数的高效梯度计算,这是VEM能够扩展到大模型的关键技术支撑。 🔬 细节详述 训练数据:论文未说明具体使用了哪些公开数据集或临床数据。提到的“华法林模型”和“Friberg模型”是药代动力学领域的标准/示例模型,但具体数据来源、规模、预处理方式均未说明。 损失函数:核心优化目标是边际似然(或其近似)。在VEM框架中,具体优化的是证据下界(ELBO),它是真实边际对数似然的一个下界。ELBO由两部分组成:对数似然的期望和变分后验与先验的KL散度。未提供具体公式。 训练策略:学习率、优化器、batch size、总训练步数等关键训练超参数在摘要中未提供。 关键超参数:变分分布族的具体选择(如均值场、全协方差高斯等)、自动微分库的具体配置等未说明。唯一给出的模型规模参数是DeepNLME Friberg模型的15,410个群体参数和16个随机效应。 训练硬件:进行计算实验所使用的GPU/CPU型号、数量、内存等硬件配置未提供。 推理细节:在NLME上下文中,“推理”通常指拟合后的个体参数预测(Empirical Bayes Estimates)。VEM的变分分布本身即可提供随机效应的近似后验,其均值可作为EBE。具体如何提取和使用未说明。 正则化或稳定训练技巧:未说明。可能涉及变分下界的稳定性技巧或对固定效应施加的先验约束。 📊 实验结果 由于摘要未提供具体的性能对比表格或数字,以下仅根据文字描述总结: ...

2026-04-30 · 更新于 2026-07-02 · 1 min · 103 words

语音/音乐/音频论文速递 2026-04-30

语音/音乐/音频论文速递 2026-04-30 共分析 25 篇论文 ⚡ 今日概览 📥 抓取 25 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 4篇 ████ #音频深度伪造检测 2篇 ██ #声源定位 2篇 ██ #音视频 1篇 █ #语音克隆 1篇 █ #说话人验证 1篇 █ #语音匿名化 1篇 █ #语音情感识别 1篇 █ 📊 论文评分排行榜(25 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 PSP: An Interpretable Per-Dimension Accent Benchmark fo 9.0分 前25% #语音合成 🥈 Hallo-Live: Real-Time Streaming Joint Audio-Video Avata 8.5分 前25% #音视频 🥉 One Voice, Many Tongues: Cross-Lingual Voice Cloning fo 8.0分 前25% #语音克隆 4. Similarity Choice and Negative Scaling in Supervised Co 8.0分 前25% #音频深度伪造检测 5. Praxy Voice: Voice-Prompt Recovery + BUPS for Commercia 8.0分 前25% #语音合成 6. Dual-LoRA: Parameter-Efficient Adversarial Disentanglem 7.5分 前25% #说话人验证 7. SPG-Codec: Exploring the Role and Boundaries of Semanti 7.5分 前25% #语音合成 8. DiffAnon: Diffusion-based Prosody Control for Voice Ano 7.5分 前25% #语音匿名化 9. Diffusion Reconstruction towards Generalizable Audio De 7.5分 前25% #音频深度伪造检测 10. EmoTransCap: Dataset and Pipeline for Emotion Transitio 7.5分 前25% #语音情感识别 11. Hankel and Toeplitz Rank-1 Decomposition of Arbitrary M 7.5分 前50% #声源定位 12. A New Location Estimator for Mixed LOS & NLOS scena 7.5分 前25% #声源定位 13. Multimodal LLMs are not all you need for Pediatric Spee 7.5分 前25% #语音分类 14. StarDrinks: An English and Korean Test Set for SLU Eval 7.5分 前25% #数据集 15. Tatemae: Detecting Alignment Faking via Tool Selection 7.5分 前25% #大语言模型 16. Step-Audio-R1.5 Technical Report 7.5分 前25% #语音对话系统 17. Preferences of a Voice-First Nation: Large-Scale Pairwi 7.5分 前25% #语音合成 18. The False Resonance: A Critical Examination of Emotion 7.0分 前25% #语音情感识别 #模型评估 19. A Toolkit for Detecting Spurious Correlations in Speech 7.0分 前50% #模型评估 20. Multiple Additive Neural Networks for Structured and Un 7.0分 前50% #表格数据预测 21. Random Cloud: Finding Minimal Neural Architectures With 7.0分 前50% #模型架构搜索 22. Recurrence-Based Nonlinear Vocal Dynamics as Digital Bi 6.5分 前50% #语音生物标志物 23. Full band denoising of room impulse response in the wav 6.5分 前50% #音频信号处理 24. Text-Utilization for Encoder-dominated Speech Recogniti 6.5分 前50% #语音识别 25. Fitting Large Nonlinear Mixed Effects Models Using Vari 6.5分 前50% #统计计算 📋 论文列表 🥇 PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech 🔥 9.0/10 | 前25% | #语音合成 | #模型评估 | #自监督学习 #多语言 | arxiv ...

2026-04-30 · 更新于 2026-07-02 · 16 min · 3385 words

Improving Audio Question Answering with Variational Inference

📄 Improving Audio Question Answering with Variational Inference #音频问答 #变分推断 #音频大模型 #模型校准 #选择性预测 ✅ 7.5/10 | 前25% | #音频问答 | #变分推断 | #音频大模型 #模型校准 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Haolin Chen(Idiap Research Institute, Martigny, Switzerland; EPFL, Lausanne, Switzerland) 通讯作者:未说明 作者列表:Haolin Chen(Idiap Research Institute, EPFL) 💡 毒舌点评 论文亮点在于成功地将高效的变分推断优化器(IVON)应用于音频问答任务,不仅略微提升了准确率,更显著改善了模型的校准特性和选择性预测能力,这对构建可信赖的AI系统非常实用。但略显单薄的是,其核心贡献本质上是“把一个已知的好工具用在一个新场景”,而非提出针对音频问答特性设计的新方法,创新维度稍显单一。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及公开的模型权重(包括基线模型和微调后模型)。基线模型Qwen2.5-Omni本身可能是开源的(论文未确认)。 数据集:使用了DCASE 2025 AQA数据集,论文未明确说明其是否公开以及如何获取,但DCASE挑战赛数据集通常公开。 Demo:未提及。 复现材料:提供了非常充分的训练细节、配置和超参数设置,有利于复现。 论文中引用的开源项目:主要引用了作为基础模型的 Qwen2.5-Omni [6] 和作为微调方法的 LoRA [25]。优化器 IVON [14] 本身也是一项开源工作。 📌 核心摘要 要解决的问题:多模态大模型(如音频问答模型)在微调后常常过于自信(overconfident),预测置信度不能反映真实准确率(校准差),导致在需要可靠判断的风险敏感应用中不可信。 方法核心:采用变分推断(VI)框架,使用高效的优化器IVON替代传统的AdamW,对大型音频语言模型Qwen2.5-Omni进行参数高效微调(LoRA)。IVON在训练中对模型权重的后验分布进行建模,从而捕获参数不确定性。 与已有方法相比新在哪里:区别于传统优化器(如Adam)提供点估计,以及Monte Carlo Dropout等事后不确定性估计方法,IVON在训练过程中即内建了不确定性建模,且计算成本接近Adam。本文首次将其系统地应用于多模态音频问答任务。 主要实验结果:在DCASE 2025 AQA数据集(BQA, TSQA, CQA三个子集)上,与AdamW基线相比: 准确率(ACC):IVON(均值或MC-8)平均从80.45%提升至80.97%。 校准:ECE(越低越好)从16.2显著降至10.0(IVON MC-8),NLL和Brier分数同样改善。 选择性预测:在拒答1%最不确定样本时(C@1%),覆盖准确率从3.8%(AdamW)大幅提升至19.5%(IVON MC-8),风险-覆盖曲线下面积(AUC)从7.4降至5.8。 消融实验表明,增加蒙特卡洛(MC)采样数能持续改善校准,而调整后验分布的温度则在准确率和校准间存在权衡。 实际意义:为多模态模型提供了更可靠的置信度估计,使其能在不确定时主动拒绝回答(选择性预测),从而提升系统在医疗、安防等风险敏感领域的应用安全性。 主要局限性:研究仅限于多选题形式的音频问答(单次令牌预测),未验证在开放式生成任务(如自由问答、语音合成)中的效果。 🏗️ 模型架构 本文未提出新的模型架构,而是将变分推断优化器应用于现有的大型音频语言模型(LALM)进行微调。 ...

2026-04-29 · 更新于 2026-07-02 · 2 min · 377 words