多模态模型

语音/音乐/音频论文速递 2026-05-26

语音/音乐/音频论文速递 2026-05-26 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 5篇 █████ #语音识别 3篇 ███ #音乐转录 2篇 ██ #语音情感识别 2篇 ██ #多模态模型 1篇 █ #语音编码 1篇 █ #交叉验证 1篇 █ #语音编辑 1篇 █ 📊 论文评分排行榜（27 篇，按分数降序）排名论文评分分档主任务 🥇 Music Transcription with (Almost) No Supervision 10.0分前50% #音乐转录 🥈 Toward Native Multimodal Modeling: A Roadmap 10.0分前25% #多模态模型 🥉 Ultra-Low-Bitrate Mel-Spectrogram-based Neural Speech C 9.9分前25% #语音编码 4. Proactive for Uncertainty: Cause-Aware Error Diagnosis 9.6分前25% #语音识别 5. WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Re 9.4分前25% #语音合成 6. Decoding Stimulus Reconstruction-Based Auditory Attenti 8.9分前50% #交叉验证 7. Exploration of Perceptual Speech Features for Clinical 8.9分前50% #语音情感识别 8. Continual Speaker Identity Unlearning with Minimal Inte 8.6分前25% #语音合成 9. SpongeBob: Sync-Aware Harmonious Audio-Visual Generativ 8.6分前25% #语音编辑 10. FC-TTS: Style and Timbre Control in Zero-Shot Text-to-S 8.4分前50% #语音合成 11. CosyEdit2: Speech-Editing-Oriented Reinforcement Learni 8.0分前50% #语音合成 12. cSTMM: A Unified Complex Spherical Student’s \(t\) Mixtur 7.9分前50% #语音分离 13. Time Segmented Beamforming via Dynamic Programming: The 7.7分前25% #实时处理 14. Multilingual Phonological Feature Recognition with Self 7.7分前25% #语音识别 15. Rubato: Transcribing Piano Music with Timestamps 7.5分前25% #音乐转录 16. A Multimodal Framework for Dementia Detection via Lingu 7.0分前50% #语音情感识别 17. AVBench: Human-Aligned and Automated Evaluation Benchma 7.0分前50% #音频生成 18. Test-Time Self-Adaptive Conditioning for Stable Audio-D 7.0分前50% - 19. The Symmetric Location Problem: a Song of Efficiency an 6.5分前25% - 20. Hidden in Plain Tokens: Simply Robust, Gradient-Free Wa 6.2分前25% #音频水印 21. Rethinking Continual Learning for Speech and Audio: A R 6.0分前50% #语音识别 22. Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for 5.5分前50% #语音增强 23. Subspace Track-before-Detect for Passive Multi-Target T 5.5分后50% #声源定位 24. Toward Natural Emotional Text-To-Speech System with Fin 5.0分前50% #语音合成 25. Zero-Shot Parkinson’s Disease Detection from Speech: Co 5.0分前50% #大语言模型 26. Score-Agnostic Structure Analysis in Large-Scale Perfor 4.1分前50% #音乐信息检索 27. StrTransformer: Source-Wise Structured Transformers for 3.3分后50% - 📋 论文列表 🥇 Music Transcription with (Almost) No Supervision 🔥 10.0/10 | 前50% | #音乐转录 | #循环一致性 | #半监督学习 #领域自适应 | arxiv ...

EvalVerse: Pipeline-Aware and Expert-Calibrated Benchmarking for Professional Cinematic Video Generation

📄 EvalVerse: Pipeline-Aware and Expert-Calibrated Benchmarking for Professional Cinematic Video Generation #音视频 #基准测试 #模型评估 #多模态模型 ✅ 7.1/10 | 前50% | #音视频 | #专家校准VLM评分 | #基准测试 #模型评估 | arxiv 学术质量 5.9/7 | 影响力 1/2 | 可复现性 0.2/2 | 置信度 High 👥 作者与机构作者：Songlin Yang, Haobin Zhong, Ruilin Zhang, Xiaotong Zhao, Shuai Li, Kai Zheng, Xuyi Yang, Zhe Wang, Zhenchen Tang, Yang Li, Bohai Gu, Zhengwei Peng, Yidan Huang, Mengzhou Luo, Yihang Bo, Dalu Feng, Yujia Zhang, Juntao Ma, Ruiqi Wang, Lvmin Zhang, Yuwei Guo, Frank Guan, Maneesh Agrawala, Hongbo Fu, Alan Zhao, Anyi Rao. 机构：香港科技大学，腾讯，清华大学，中国科学院自动化研究所，北京电影学院，斯坦福大学，香港中文大学，新加坡技术设计大学。 ...

Frame-Aligned Fusion of Canary and WavLM for Non-Intrusive Intelligibility Prediction of Hearing-Aid-Processed Speech

📄 Frame-Aligned Fusion of Canary and WavLM for Non-Intrusive Intelligibility Prediction of Hearing-Aid-Processed Speech #语音质量评估 #多模态模型 #预训练 🔥 10/10 | 前10% | #语音质量评估 | #帧对齐融合 | #多模态模型 #预训练 | arxiv 学术质量 7/7 | 影响力 2/2 | 可复现性 2/2 | 置信度 0.9 👥 作者与机构作者：Kazushi Nakazawa 机构：未明确提及（论文中仅显示作者姓名） 💡 毒舌点评这篇论文像是在一个精心布置的实验跑马场里，用两匹性能差异明显的马（Canary和WavLM）测试不同的并驾齐驱姿势。它得出的核心结论——“让快马先减步频，再与慢马步伐对齐比直接赛后平均成绩更有效”——虽然符合直觉，但整个实验的“赛道”过于单一（仅CPC3数据集），而且“骑手”（融合模块）的调教空间（训练数据、参数规模）非常有限。作者非常诚实地罗列了所有“无法确保马匹完全同品种”（编码器计算量不匹配）、“没做统计检验”等限制，这种学术态度值得称赞，但也削弱了结论的冲击力。总的来说，这是一篇方法清晰、实验细致、但创新高度和普适性存疑的“小而美”的工作，更像是为一个特定场景提供了不错的工程方案，而非开辟了新方向。 📌 核心摘要本文针对非侵入式助听器处理语音可懂度预测任务，在第三届清晰度预测挑战赛（CPC3）的框架下，研究了如何有效融合两个冻结的、具有不同归纳偏置的预训练语音编码器（Canary和WavLM）的表征。论文的核心问题是：互补的预训练表征应在何处进行交互？是在句级池化之后，还是在帧级交互？在统一的保持左右声道的双耳框架下，作者系统比较了单编码器基线、均匀分数平均、池后融合、交叉注意力、帧对齐融合以及反向对齐等方法。实验结果表明，通过可学习的跨步卷积对WavLM特征进行时间准备，然后在更粗的Canary时间轴上进行帧级融合（即帧对齐融合）是最佳策略，在评估集上取得了24.96±0.06的RMSE和0.796±0.001的相关性。一系列消融分析（包括听力损失严重程度、助听系统、WavLM层选择和时移控制）表明，性能提升更合理地归因于池化前粗粒度的局部时间对应关系，而非严格的帧同步或简单的标量集成。论文明确指出了研究范围（单一编码器对、单一数据集）和统计检验缺失等局限性。 🔗 开源详情代码：论文中未提及提供代码。模型权重：论文中使用了 nvidia/canary-1b-flash 和 microsoft/wavlm-large，但未提供针对本任务适配后的模型权重下载链接。数据集：所有实验使用CPC3数据集，论文中未提供该数据集的获取链接或说明其开源协议。 Demo：论文中未提及。复现材料：论文提供了部分训练配置细节（如优化器、学习率、批大小等），但未提及是否提供完整的配置文件、预处理脚本或详细的复现指南。论文中引用的开源项目： STOI, ESTOI, MBSTOI, HASPI：论文中未提供这些客观清晰度指标的项目链接。 SUPERB基准测试：论文中未提供链接。 wav2vec 2.0：论文中未提供项目链接。 WavLM：论文中提到了 microsoft/wavlm-large，但未提供项目主页链接。 🏗️ 方法概述和架构本文提出并系统评估了一组基于冻结预训练编码器的端到端可懂度预测架构。整个方法框架遵循一个核心设计理念：在模型的大部分阶段保持左、右耳的双耳信息分离，仅在最后进行合并，以避免过早引入空间模型或平均化不对称信息。 ...

语音/音乐/音频论文速递 2026-05-25

语音/音乐/音频论文速递 2026-05-25 共分析 19 篇论文 ⚡ 今日概览 📥 抓取 19 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音质量评估 3篇 ███ #语音识别 3篇 ███ #信号处理 3篇 ███ #音频分类 1篇 █ #语音编码 1篇 █ #音频深度伪造检测 1篇 █ #统一音频模型 1篇 █ #医疗音频 1篇 █ 📊 论文评分排行榜（19 篇，按分数降序）排名论文评分分档主任务 🥇 Frame-Aligned Fusion of Canary and WavLM for Non-Intrus 10.0分前10% #语音质量评估 🥈 Evaluating the Temporal Detection Capability of Integra 10.0分前10% #音频分类 🥉 UniSRM: A Unified Speech Reward Model for Reasoning-Bas 10.0分前10% #语音质量评估 4. AffectCodec: Emotion-Preserving Neural Speech Codec wit 10.0分前10% #语音编码 5. MixFake: Benchmarking and Enhancing Audio Deepfake Dete 10.0分前10% #音频深度伪造检测 6. A study on weakly-supervised training approaches for ph 9.7分前10% #语音识别 7. Broad learning system with robust adaptive kernel 8.7分前25% #信号处理 8. Articulatory strategy as a source of variation in acous 8.5分前25% #语音识别 9. StepAudio 2.5 Technical Report 8.3分前25% #统一音频模型 10. Comprehensive Dataset and Signal Processing Framework f 8.0分前25% #医疗音频 11. Word-Level Modeling with Alignment-Aware Acoustic Fusio 7.7分前25% #语音质量评估 12. Convex Low-resource Accent-Robust Language Detection in 7.5分前25% #语音识别 13. Diffusion Domain Expansion: Learning to Coordinate Pre- 7.4分前50% #扩散模型 14. EvalVerse: Pipeline-Aware and Expert-Calibrated Benchma 7.1分前50% #音视频 15. Copula-Induced Correntropy for Robust Conjugate Gradien 7.0分前50% #信号处理 16. Cost-Effective Model Evaluation with Meta-Learning 5.4分后50% #迁移学习 17. Natural Yet Challenging to Detect: Robust In-the-Wild T 5.2分后50% #语音合成 18. Self-Calibration DOA Estimation for Movable Antenna Sys 4.0分后50% #声源定位 19. 6G Communication Networks Enabling Embodied Agents: Arc 2.7分后50% #信号处理 📋 论文列表 🥇 Frame-Aligned Fusion of Canary and WavLM for Non-Intrusive Intelligibility Prediction of Hearing-Aid-Processed Speech 🔥 10.0/10 | 前10% | #语音质量评估 | #模型融合 | #多模态模型 #预训练 | arxiv ...

A Survey of Audio Reasoning in Multimodal Foundation Models

📄 A Survey of Audio Reasoning in Multimodal Foundation Models #音频推理 #音频问答 #多模态模型 #强化学习 #基准测试 #语音对话 ✅ 7.7/10 | 前50% | #音频推理 | #综述 | #音频问答 #多模态模型 | arxiv 学术质量 6.0/7 | 影响力 1.7/2 | 可复现性 0.0/2 | 置信度高 👥 作者与机构第一作者：Zhihan Guo（香港中文大学计算机科学与工程系）与Wenqian Cui（香港中文大学计算机科学与工程系）共同一作。通讯作者：Irwin King（香港中文大学计算机科学与工程系）作者列表：Zhihan Guo（香港中文大学计算机科学与工程系）、Wenqian Cui（香港中文大学计算机科学与工程系）、Guan-Ting Lin（国立台湾大学通信工程研究所）、Daxin Tan（香港中文大学电子工程系）、Jingyao Li（香港中文大学计算机科学与工程系）、Qiyong Zheng（香港中文大学计算机科学与工程系）、Dingdong Wang（香港中文大学系统工程与工程管理系）、Jing Xiong（香港大学电气与计算机工程系）、Han Shi（华为基础模型部门，香港科技大学计算机科学与工程系）、Jiaya Jia（香港科技大学计算机科学与工程系）、Irwin King（香港中文大学计算机科学与工程系）。 💡 毒舌点评亮点：作为首篇专注于“音频推理”的系统性综述，它成功地将一个新兴、碎片化但至关重要的领域进行了概念化和结构化。其提出的统一形式化框架和四大范式（音频到文本、音频到语音、音视频、智能体）分类体系，为该领域的研究者提供了极有价值的导航图和共同语言。论文对音频推理独特挑战（如声学接地、延迟权衡）的深刻洞察，直接切中了当前音频AI发展的核心瓶颈。短板：作为一篇旨在定义领域的综述，其在批判性深度上仍有提升空间。部分章节对现有方法的罗列多于剖析，对不同技术路线优劣的对比分析不够系统，且未能就其提出的分类框架和未来方向提供更具体、可操作的技术路径蓝图，削弱了其作为“路线图”的锐度和指导性。 📌 核心摘要问题：尽管音频基础模型（AFM）发展迅速，但其推理能力（基于声学信号进行多步逻辑推导）仍落后于文本和视觉模型。音频的连续性、时间密集性以及包含语言、副语言和环境信息的多维特性，使其面临独特挑战，如声学-语义对齐、数据稀缺、捷径学习和模态幻觉。方法核心：本文是一篇系统性综述，核心是构建一个统一的分类和形式化框架。它将音频推理问题统一定义为基于多模态证据的条件生成过程（公式1），并将其划分为四大范式：音频到文本、音频到语音（含实时交互）、音视频推理和智能体音频推理。论文系统梳理了每个范式下的模型架构基础（编码器-投影器-LLM骨干）、训练技术（对齐预训练、SFT、RL）和具体方法。新在哪里：首次将“音频推理”作为独立核心主题进行专门综述，而非将其作为多模态或语音大模型的附属能力。提出了一个涵盖问题形式化、模型基础、推理范式、评估和未来方向的统一路线图。特别强调了音频推理独有的挑战，如实时交互中的延迟权衡、声学接地的真实性以及捷径学习问题。主要结果：作为综述论文，本文不提出新模型或新实验结果，而是对现有文献进行归纳总结。关键发现包括：1) CoT在音频推理中的效果并非总是正面（在某些RL训练或复杂任务中可能失效）；2) 基于RL的音频推理需要精心设计奖励（准确性、一致性、格式、长度、质量）并解决模态幻觉问题；3) 实时音频到语音推理存在“边听边想”与“边说边想”两类策略，各有延迟与准确性的权衡。论文系统总结了现有工作在MMAU、AVQA等基准上的表现及训练数据构建方法（表III）。实际意义：为音频/语音领域的研究者提供了清晰的领域全景图和研究方向指引，有助于推动音频推理从简单感知走向复杂认知，对构建能在真实、交互环境中可靠推理的下一代音频AI系统具有重要参考价值。主要局限性：1) 作为综述，其深度受限于篇幅，对某些复杂方法的剖析可能不够深入；2) 领域发展迅速，综述的时效性面临挑战；3) 主要聚焦于方法学讨论，缺乏对实际部署挑战的深入分析；4) 论文明确指出，其总结的训练数据合成方法存在可靠性存疑的问题（Section IX-A）。 🔗 开源详情代码：论文中未提及代码链接。本文为综述论文，未提供自身的代码仓库。 ...

CRAFT: Critic-Refined Adaptive Key-Frame Targeting for Multimodal Video Question Answering

📄 CRAFT: Critic-Refined Adaptive Key-Frame Targeting for Multimodal Video Question Answering #多模态问答 #多模态模型 #大语言模型 #基准测试 #视频理解 ✅ 6.6/10 | 前50% | #多模态问答 | #多模态模型 | #大语言模型 #基准测试 | arxiv 学术质量 5.0/7 | 影响力 0.3/2 | 可复现性 1.3/2 | 置信度高 👥 作者与机构第一作者：Mahesh Bhosale（University at Buffalo）通讯作者：Mahesh Bhosale（University at Buffalo）作者列表：Mahesh Bhosale（University at Buffalo）， Abdul Wasi（University at Buffalo）， Vishvesh Trivedi（New York University）， Pengyu Yan（University at Buffalo）， Akhil Gorugantu（University at Buffalo）， David Doermann（University at Buffalo） 📌 核心摘要这篇论文旨在解决真实世界新闻事件背景下，基于多视频的问答与报告生成任务，要求生成的内容不仅事实准确，还需精确引用视频证据。其核心方法CRAFT是一个多阶段流水线，包含动态关键帧选择（DKS）、ASR转录增强、基于原子声明的提取，以及一个由UNLI、DeBERTa-NLI和小型LLM构成的混合评论循环，用于迭代地验证和修复声明，最终通过引用合并生成报告。与之前方法相比，CRAFT的新颖之处在于将声明级别的验证循环深度集成到证据提取阶段，而非仅用于最终答案聚合，并强调了原子声明格式对引用对齐的重要性。实验在MAGMaR 2026（19个查询）和自建的WikiVideo转换集（52个查询）上进行，CRAFT在MAGMaR-Test上取得了最佳整体平均分（0.739）、参考召回率（0.810）和引用F1（0.635），在WikiVideo上也表现强劲（Avg 0.823）。消融研究证明了原子声明、ASR和评论循环的关键作用。该工作的实际意义是为需要高证据密度的多源视频问答（如事实核查、事件报道）提供了一个可行的系统架构。主要局限性是其评估数据集规模较小（19和52个查询），且系统流程复杂，依赖多个外部模型和组件，推理成本较高。 ...

DuplexSLA: A Full-Duplex Spoken Language Model with Synchronized Speech, Language, and Action

📄 DuplexSLA: A Full-Duplex Spoken Language Model with Synchronized Speech, Language, and Action #语音对话系统 #多模态模型 #大语言模型 #端到端 #基准测试 ✅ 7.8/10 | 前25% | #语音对话系统 | #多模态模型 | #大语言模型 #端到端 | arxiv 学术质量 5.2/7 | 影响力 1.6/2 | 可复现性 1.0/2 | 置信度高 👥 作者与机构第一作者：Haoyang Zhang (StepFun, Peking University, Nanyang Technological University) 通讯作者：Fei Tian (StepFun) 作者列表：Haoyang Zhang*（StepFun，北京大学，南洋理工大学），Jun Chen*（StepFun），Donghang Wu（南洋理工大学），Yuxin Li（StepFun，南洋理工大学），Yuxin Zhang（StepFun，上海交通大学），Xiangyu Tony Zhang（StepFun，新南威尔士大学），Che Liu（StepFun，帝国理工学院），Qingjian Lin（StepFun），Yizhou Peng（南洋理工大学），Hexin Liu（南洋理工大学），Eng Siong Chng（南洋理工大学），Chao Yan（StepFun），Boyong Wu（StepFun），Yechang Huang（StepFun），Xuerui Yang（StepFun），Fei Tian†（StepFun）（*表示同等贡献，†表示通讯作者） 💡 毒舌点评亮点：论文的“双流三通道”架构设计优雅，通过引入速率受限的文本动作通道，将规划、工具调用与语音生成解耦到独立的时钟同步通道，直观地解决了全双工对话中“边说边做”的核心矛盾。同时，构建了专用的DuplexSLA-Bench基准，弥补了现有评测体系对联合评估轮次控制和在线工具调用能力的空白。短板：尽管系统设计完整，但关键的训练细节（如损失权重、硬件、解码策略）和部分超参数（如优化器、学习率）缺失，使得一个77B参数大模型的复现门槛极高。此外，所有评估均在自建的合成基准上进行，缺乏在真实世界或通用对话基准上的验证，结论的泛化性存疑。 ...

MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation

📄 MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation #基准测试 #模型评估 #音视频生成 #多模态模型 #评测协议 🔥 8.1/10 | 前25% | #基准测试 | #模型评估 | #音视频生成 #多模态模型 | arxiv 学术质量 5.5/7 | 影响力 1.5/2 | 可复现性 1.1/2 | 置信度高 👥 作者与机构第一作者：Yujie Wei（复旦大学）通讯作者：Hongming Shan（复旦大学），Xihui Liu（香港大学）作者列表：Yujie Wei（复旦大学），Yujin Han（香港大学），Zhekai Chen（香港大学），Yongming Li（复旦大学），Kaixun Jiang（复旦大学），Zhihang Liu（阿里巴巴通义实验室），Quanhao Li（复旦大学），Zhiwu Qing（阿里巴巴通义实验室），Xiang Wang（阿里巴巴通义实验室），Zhen Xing（阿里巴巴通义实验室），Ruihang Chu（阿里巴巴通义实验室），Lingyi Hong（复旦大学），Yefei He（浙江大学），Junjie Zhou（阿里巴巴通义实验室），Junqiu Yu（复旦大学），Yang Shi（北京大学），Difan Zou（香港大学），Kai Zhu（阿里巴巴通义实验室），Shiwei Zhang（阿里巴巴通义实验室），Yingya Zhang（阿里巴巴通义实验室），Yu Liu（阿里巴巴通义实验室），Xihui Liu（香港大学），Hongming Shan（复旦大学） 💡 毒舌点评这篇工作精准切入了多镜头音视频（MSAV）生成这一前沿任务的核心评估痛点——现有工具链在范围、多样性和评估流程上的全面缺失。其贡献在于首次构建了覆盖四维数据（视频、音频、镜头、参考条件）的系统基准，并设计了一套旨在提升鲁棒性的自适应混合评估框架，成果扎实。然而，其本质是为一个新兴领域制定“考试大纲”和“评分标准”，而非提出新的“解题思路”或“知识”，在推动生成模型核心架构创新上作用间接。更关键的是，整套评估体系严重依赖多个强大的商业/闭源基础模型（如GPT-5.4, Qwen3.5, Gemini）作为裁判或工具，这不仅抬高了使用门槛，更引入了难以量化和复现的系统性偏差风险，其评估的“元可靠性”值得商榷。 ...

Stage-adaptive Token Selection for Efficient Omni-modal LLMs

📄 Stage-adaptive Token Selection for Efficient Omni-modal LLMs #多模态模型 #高效推理 #音频视觉 #大语言模型 ✅ 7.7/10 | 前25% | #多模态模型 | #高效推理 | #音频视觉 #大语言模型 | arxiv 学术质量 5.5/7 | 影响力 0.5/2 | 可复现性 1.7/2 | 置信度高 👥 作者与机构第一作者：Zijie Xin (Renmin University of China) 通讯作者：Xirong Li (Renmin University of China), Jie Yang (WeChat Vision, Tencent Inc.) 作者列表：Zijie Xin (Renmin University of China), Jie Yang (WeChat Vision, Tencent Inc.), Ruixiang Zhao (Renmin University of China), Tianyi Wang (WeChat Vision, Tencent Inc.), Fengyun Rao (WeChat Vision, Tencent Inc.), Jing Lyu (WeChat Vision, Tencent Inc.), Xirong Li (Renmin University of China) 注：论文脚注说明 Zijie Xin 和 Ruixiang Zhao 在腾讯实习期间完成了这项工作。 💡 毒舌点评该工作的核心洞察——om-LLM中跨模态token的依赖性随深度衰减——清晰且有说服力，实验设计也足够扎实（跨模型、多基准、消融分析）。然而，其提出的“阶段自适应”策略在实现上高度依赖于精心调参的启发式规则（如层级划分、衰减函数），这既限制了方法的泛化性（需为每个新模型重新调参），也使得其“自适应”的声称略显薄弱，本质上更像是一种精心设计的、分阶段的启发式调度，而非真正能动态适应输入内容的机制。 ...

CounterFlow: A Two-Phase Inference-Time Sampling for Counterfactual Video Foley Generation

📄 CounterFlow: A Two-Phase Inference-Time Sampling for Counterfactual Video Foley Generation #音频生成 #流匹配 #多模态模型 #音视频 ✅ 6/10 | 前25% | #音频生成 | #流匹配 | #多模态模型 #音视频 | arxiv 学术质量 4.9/8 | 影响力 0.5/1 | 可复现性 0.6/1 | 置信度高 👥 作者与机构第一作者：Gyubin Lee（Kim Jaechul Graduate School of AI, KAIST）通讯作者：Juhan Nam（Kim Jaechul Graduate School of AI, KAIST; Graduate School of Cultural Technology, KAIST）[注：论文未明确标注，但基于惯例与贡献推断] 作者列表：Gyubin Lee（Kim Jaechul Graduate School of AI, KAIST），Junwon Lee（Kim Jaechul Graduate School of AI, KAIST），Juhan Nam（Kim Jaechul Graduate School of AI, KAIST; Graduate School of Cultural Technology, KAIST） 💡 毒舌点评论文精准地捕捉到了VT2A模型在视频与文本条件冲突时“视觉优先”的痛点，并提出了一个简洁且有效的推理时解决方案（两阶段采样+分解引导），在反事实音频生成这一细分任务上展示了明确的改进。然而，其核心方法本质上是对已有CFG、负提示和对采样过程洞察的工程化组合与调参，属于方法论层面的精巧设计而非底层算法突破。此外，所提的ΔFLAM评估指标虽然新颖，但对“听感正确性”的验证仍显间接，且评估仅在一个定制数据集上进行。 ...