Native Audio-Visual Alignment for Generation

📄 Native Audio-Visual Alignment for Generation #音频生成 #多模态模型 #扩散模型 ✅ 7.8/10 | 前50% | #音频生成 | #多模态模型 | #扩散模型 | arxiv 学术质量 8.0/7 | 影响力 7.0/2 | 可复现性 0.2/2 | 置信度 高 👥 作者与机构 作者:Longbin Ji, Guan Wang, Xuan Wei, Chenye Yang, Xiangrui Liu, Zhenyu Zhang, Shuohuan Wang, Yu Sun, Jingzhou He 单位:ERNIE Team, Baidu Inc. 💡 毒舌点评 这篇论文的工作是扎实的,但在某些关键细节的阐述上如同雾里看花。所谓“原生对齐”和“上下文条件解耦”听起来很美,但具体的模态交互机制(自注意力的具体实现、位置编码的细节)和“对齐”是如何通过优化目标学习到的,描述得不够透明,这让方法的可复现性和理论深度打了折扣。评估部分,尽管指标全面,但自家提出的指标(如IB-Score)和自家模型拿最优,而通用指标(如FD)并非最佳,这种选择性最优需要更审慎的解读。此外,声称“显著优于”基线,但在部分关键指标(如TI2AV任务下的总体质量)上优势并不明显,结论稍显强势。开源方面,除了一个项目主页,代码、权重、数据均未见踪影,这对于一篇声称复现重要性的论文来说是重大减分项。总体而言,这是一篇工程完成度高、有一定启发性的工作,但距离“完美”或“无可辩驳的优越”还有距离,其“严苛”之处在于对技术黑箱和评估话术的审视。 📌 核心摘要 本文针对音视频联合生成中同步性与语义条件控制耦合的问题,提出了NAVA(Native Audio-Visual Alignment)框架。该框架的核心思想是将音频-视频的同步对齐与外部文本/音色条件的注入解耦:首先在一个专用的“对齐空间”内让音频和视频令牌通过自注意力交互,建立原生的事件级对应关系;随后,通过交叉注意力注入文本和音色等上下文条件,指导去噪过程。这一解耦由“Align-then-Fuse MMDiT”架构实现,前10层为分层对齐层(HAL),后20层为统一融合层(UFL)。为实现可控的多说话人生成,论文提出了“Timbre-in-Context Conditioning”机制,将参考音色表示为上下文令牌并绑定到对应的语音片段。训练采用三阶段渐进式多任务策略。实验在Verse-Bench和Seed-TTS基准上进行,结果表明,NAVA以6.3B参数在音视频同步性(Sync-C)和视频质量(IB-Score)上达到了最优水平,并在音色控制任务中取得了最佳的说话人相似度,同时保持了有竞争力的音频质量。 🔗 开源详情 代码:论文中未提供代码仓库链接。仅给出项目主页 ernie-research.github.io/NAVA,通常此类主页会链接到代码,但当前页面未直接提供开源代码地址。 模型权重:论文中未提供模型权重的下载链接。虽提及从Wan2.2-5B初始化,但未说明Wan2.2系列模型的具体获取方式。 数据集:论文中未提供训练数据集的下载链接。详细描述了构建约1500万片段的训练语料库的流程,但未提供这些数据的公开获取地址。 复现材料:附录详细描述了数据构建流程、数据统计信息、提示词工程模板以及训练基础设施与成本(约107,520 H100 GPU小时)。但未提供具体的训练超参数配置文件、中间检查点或最终模型的下载。 🏗️ 方法概述和架构 NAVA框架旨在实现“原生音视频对齐”(Native Audio-Visual Alignment),即在生成过程中直接建立音频和视频的同步对应,同时将外部条件(如文本、音色)作为独立于同步过程的引导信号。 ...

2026-05-29 · 更新于 2026-06-19 · 2 min · 386 words

OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants

📄 OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants #多模态模型 #基准测试 #语音识别 #语音合成 ✅ 7.8/10 | 前50% | #语音识别 | #多模态模型 | #基准测试 #语音合成 | arxiv 学术质量 4.9/7 | 影响力 1.2/2 | 可复现性 1.7/2 | 置信度 高 👥 作者与机构 作者:Xudong Lu, Xueying Li, Annan Wang, Yang Bo, Jinpeng Chen, Zengliang Li, Nianzu Yang, Rui Liu, Xue Yang, Jingwen Hou, Hongsheng Li 机构:CUHK MMLab (香港中文大学多媒体实验室), SJTU (上海交通大学), NTU (南洋理工大学), McMaster (麦克马斯特大学), CityUHK (香港城市大学), JUFE (江西财经大学) ...

2026-05-29 · 更新于 2026-06-19 · 2 min · 416 words

State-Anchored Complete-View Distillation for Robust Conversational Multimodal Emotion Recognition

📄 State-Anchored Complete-View Distillation for Robust Conversational Multimodal Emotion Recognition #语音情感识别 #多模态模型 #知识蒸馏 🔥 8/10 | 前50% | #语音情感识别 | #知识蒸馏 | #多模态模型 | arxiv 学术质量 6/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 作者:Zhaoyan Pan, Xiangdong Li, Wenke Wu*, Mengting Ma, Ye Lou, Ji Zhou, Jiatong Pan, Wei Zhang† 机构:1 浙江大学软件技术学院,2 浙江大学计算机科学与技术学院 表示同等贡献,† 表示通讯作者。 💡 毒舌点评 这篇论文的工作是扎实的,但包装得过于完美,以至于一些内在的脆弱性被精心掩盖了。作者提出的“高斯启发状态”像是在概率模型和确定性匹配之间走钢丝,理论根基略显模糊。NCE组件用batch内的“捐赠者”来模拟现实世界中复杂多变的非语言冲突,这种简化虽然聪明,但也像是在用理想化的实验室条件去预测混沌的真实对话场景。整篇论文的“贡献”部分像一份完美的产品说明书,但审稿人需要的是对科学发现本质的探讨,而不仅仅是功能的罗列。实验很全面,但当一个方法在所有指标上都“显著”优于基线时,我们更应该警惕这是否是实验设计或评估指标本身的局限,而非方法的绝对优越性。成本效益分析的缺失也让人质疑,在资源敏感的应用中,这额外的183%训练成本是否真的值得。 📌 核心摘要 本文针对对话多模态情感识别(MER)在模态缺失或不可靠场景下的鲁棒性问题,提出了一个名为CoRe-KD(完整视图参考引导的知识蒸馏)的新框架。核心思想是避免对缺失模态进行直接重建,而是利用一个在完整视图数据上训练并冻结的教师模型,为学生模型提供结构化的参考信号。该框架包含两个关键组件:1)完整视图状态锚定(CSA),通过预测层、融合状态层和模态特定状态层三个层级的对齐,将学生模型的不完整视图预测和状态与教师参考进行匹配;2)非语言冲突暴露(NCE),在训练时构造保持目标标签但替换非语言模态的冲突视图,以增强模型对误导性非语言线索的鲁棒性。在IEMOCAP(4类和6类)、MELD-7数据集上的实验,以及CMU-MOSEI上的补充检查表明,CoRe-KD在固定缺失和随机缺失协议下均显著优于现有的重建、蒸馏和适配等基线方法。消融研究验证了CSA和NCE各组件的贡献。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集:论文使用了以下公开基准数据集,并说明了获取方式: IEMOCAP:通过官方申请程序获取,仅用于许可的学术研究。链接:https://www.sci.usc.edu/software/iemocap/ MELD:公开发布的研究基准。链接:https://github.com/declare-lab/MELD CMU-MOSEI:公开发布的研究基准。链接:https://github.com/CMU-MultiComp/CMU-MultimodalSDK Demo:论文中未提及。 复现材料:论文在附录中提供了详细的复现信息,包括: 实验设置与协议:详见附录A,包括数据集划分(表A.1)、特征维度(表A.2)、缺失模态评估协议、训练视角构建和非冲突视角构建。 超参数与优化:详见附录A.6,优化器为Adam,学习率为\(1e-5\),权重衰减\(1e-5\),批大小16。IEMOCAP和MELD训练150个epoch,CMU-MOSEI训练100个epoch。KD温度\(\tau=2\),损失权重\(\lambda_{\text{kd}}=1.0, \lambda_{\text{state}}=0.5, \lambda_{\text{mstate}}=0.5, \lambda_{\text{NCE}}=1.0\)。NCE视角采样概率为0.2。 教师模型架构:详见附录C,包括完整的Transformer编码器结构、高斯启发状态头实现(式C.1-C.12)和PoE融合公式。 基线公平性控制:详见附录B,说明了复现设置、特征和教师控制以及训练稳定性(表B.1)。 硬件环境:所有实验在四块NVIDIA RTX A5000 24GB GPU上运行。 推理:推理时仅使用学生模型,教师模型和训练组件被丢弃。 论文中引用的开源项目: openSMILE:用于提取声学特征。论文链接:https://ieeexplore.ieee.org/document/5745357 RoBERTa:用于提取文本特征。论文链接:https://arxiv.org/abs/1907.11692 DenseNet:用于提取视觉特征。论文链接:https://arxiv.org/abs/1608.06993 data2vec:用于MELD声学特征提取。论文链接:https://arxiv.org/abs/2202.03555 TimeSformer:用于MELD视觉特征提取。论文链接:https://arxiv.org/abs/2102.05095 Wav2Vec:用于CMU-MOSEI声学特征提取。论文链接:https://arxiv.org/abs/2006.11477 DeBERTa:用于CMU-MOSEI文本特征提取。论文链接:https://arxiv.org/abs/2006.03650 MA-Net:用于CMU-MOSEI视觉特征提取。论文链接:https://arxiv.org/abs/2104.14200 MulT:作为教师骨架之一。论文链接:https://arxiv.org/abs/1905.09283 MISA:作为教师骨架之一。论文链接:https://arxiv.org/abs/2002.09854 Corr-KD:作为对比基线。论文链接:https://arxiv.org/abs/2405.11685 MoMKE:作为对比基线。论文链接:https://arxiv.org/abs/2401.11938 MCULoRA:作为对比基线。论文链接:https://arxiv.org/abs/2502.13076 ComP:作为对比基线。论文链接:https://arxiv.org/abs/2506.01573 IMDer:作为对比基线。论文链接:https://arxiv.org/abs/2312.15040 LNLN:作为对比基线。论文链接:https://arxiv.org/abs/2407.01474 🏗️ 方法概述和架构 本文提出的CoRe-KD框架采用教师-学生架构进行训练,旨在提升对话多模态情感识别模型在模态缺失条件下的鲁棒性。其核心流程与组件如下: ...

2026-05-29 · 更新于 2026-06-19 · 5 min · 986 words

VideoFDB: Evaluating Full-Duplex Vision-Speech Capabilities in Conversational Agents

📄 VideoFDB: Evaluating Full-Duplex Vision-Speech Capabilities in Conversational Agents #语音合成 #语音识别 #多模态模型 ✅ 7.9/10 | 前25% | #语音合成 | #语音识别 | #多模态模型 | arxiv 学术质量 5.9/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 Amrita Mazumdar, Seonwook Park, Rajarshi Roy, Nikhil Srihari, Shengze Wang, Yuhao Zhou, Julia Wang, Koki Nagano, Shalini De Mello. 机构:NVIDIA, David AI. 论文为arXiv预印本(ID: 2605.30256),未说明投稿会议。 💡 毒舌点评 这篇论文做了一件“正确但不够性感”的事:它为新兴的全双工音视觉对话代理领域建立了一个急需的评估基准。这就像给一群刚学会跑的婴儿做体能测试——很有必要,但别指望能测出马拉松冠军。其核心贡献在于“定义问题”而非“解决问题”,这在学术上是合法的,但也意味着其影响力上限在论文发表时就已被锁定。实验设计严谨,分析也很到位,尤其是对级联系统局限性的剖析。然而,数据集规模(237片段)和语言单一性(英语)是其阿喀琉斯之踵,严重限制了结论的普适性。用它来评判现有模型可以,但若想用它指导下一代模型的设计,那证据就稍显薄弱了。 📌 核心摘要 本文提出了VideoFDB,首个用于评估全双工音视觉到音视觉(AV2AV)对话代理的基准。现有基准无法评估代理同时听、说、观察并产生非语言线索(如点头、微笑)的能力。VideoFDB包含:1)一个基于非语言交流科学的分类法,涵盖11种对话动态;2)一个包含237个人类标注双人视频通话片段的数据集;3)一个基于评分标准和语言模型裁判的评估框架,从“感知”(流利度、对话流、语义关联)和“生成”(情感匹配、非语言线索恰当性)两个维度评估代理。实验评估了闭源(Gemini, OpenAI)和开源(MiniCPM-o等)模型,以及级联语音-头像系统。主要发现是:所有模型均远低于人类水平;视觉输入常被用于显式问答而非提升对话动态;级联系统无法生成实时、独立的非语言线索。这揭示了当前系统在利用视觉信息进行自然对话方面的根本局限。 🔗 开源详情 代码:论文中提及将发布评估代码至公开的HuggingFace,但未提供具体URL或代码仓库链接。复现所需的评估流程、Prompt模板(附录F.5与F.6)、评分标准(Rubric)详细说明见于论文附录F。 模型权重:论文评估了多个开源模型(MiniCPM-o 4.5, MiniOmni2, VITA-1.5),但未在论文中提供其模型权重的具体下载链接。这些模型的权重通常可在其各自的GitHub仓库中获取。 数据集:论文提供了VideoFDB评估数据集的匿名访问地址及访问方式。 匿名访问页面:https://anonvfdb.github.io/ 访问密码:sH6A+P12qMaJWtyMJ2vIx9Oi 承诺在论文发表前,将数据集发布至公开的HuggingFace,但未提供具体链接。匿名页面包含两个验证片段、分类法和元数据模式,完整数据集约5GB。 复现材料:论文附录详细描述了评测流程、Prompt模板(Appendix F.5 与 F.6)、评分准则(Rubric)以及数据集构建细节(Appendix A),这些构成复现评测的关键材料。 论文中引用的开源项目: 模型/方法:论文引用了Moshi, dGSLM, OmniFlatten, SyncLLM, SALM, PersonaPlex, Qwen2.5/Qwen3-Omni, MiniCPM-o, MiniOmni2, VITA-1.5等开源项目。 工具/平台:LiveKit, Anam, Keyframe, Silero VAD, Parakeet ASR。 补充链接(自动提取): 代码仓库:https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf 代码仓库:https://github.com/snakers4/silero-vad HuggingFace:https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2 🏗️ 方法概述和架构 VideoFDB的核心方法是构建一个全面的评估体系,包含三个相互关联的组件:评估数据集、评估框架和评估指标。 ...

2026-05-29 · 更新于 2026-06-19 · 2 min · 425 words

语音/音乐/音频论文速递 2026-05-29

语音/音乐/音频论文速递 2026-05-29 共分析 20 篇论文 ⚡ 今日概览 📥 抓取 20 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 5篇 █████ #语音识别 5篇 █████ #音频生成 2篇 ██ #基准测试 1篇 █ #多模态模型 1篇 █ #音频分类 1篇 █ #音频深度伪造检测 1篇 █ #语音情感识别 1篇 █ 📊 论文评分排行榜(20 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 DirectorBench: Diagnosing Long-Form Video Generation wi 9.8分 前25% #基准测试 🥈 Benchmarking Single-Factor Physical Video-to-Audio Gene 9.0分 前25% #音频生成 🥉 Audio Jailbreaks in Large Audio-Language Models: Taxono 8.9分 前25% #多模态模型 4. HoliTok:A Coutinuous Holistic Tokenization with Robust 8.6分 前25% #语音合成 5. Dial HEALTHDIAL for Advice: A Multilingual and Multi-Pa 8.6分 前25% #语音合成 6. Mitigating Stethoscope-Induced Shortcuts in Respiratory 8.5分 前25% #音频分类 7. Audio Deepfake Detection with Half-Truth Localisation U 8.4分 前50% #音频深度伪造检测 8. ChildVox: A Speech, Audio, and Large Audio-Language Mod 8.0分 前25% #语音识别 9. State-Anchored Complete-View Distillation for Robust Co 8.0分 前50% #语音情感识别 10. VideoFDB: Evaluating Full-Duplex Vision-Speech Capabili 7.9分 前25% #语音合成 11. Native Audio-Visual Alignment for Generation 7.8分 前50% #音频生成 12. OmniInteract: Benchmarking Real-World Streaming Interac 7.8分 前50% #语音识别 13. MusTBENCH: Benchmarking and Advancing Temporal Groundin 7.5分 前50% #音乐生成 14. Archon: A Unified Multimodal Model for Holistic Digital 7.5分 前50% #语音合成 15. MELD: Mel-Spectrogram-Based Speech Language Modeling wi 7.3分 前50% #语音合成 16. The WER Trap: Shattering the Illusion of Unified Tokens 7.0分 前50% #语音识别 17. Decoding Strategies for Diffusion-Based ASR: A Systemat 6.8分 前50% #语音识别 18. COMET: Concept Space Dissection of the Modality Gap in 6.5分 前50% #音频检索 19. AgentHijack: Benchmarking Computer Use Agent Robustness 5.6分 前50% - 20. Data-Efficient On-Policy Distillation for Automatic Spe 5.1分 前50% #语音识别 📋 论文列表 🥇 DirectorBench: Diagnosing Long-Form Video Generation with Personalized Multi-Agent Evaluation 🔥 9.8/10 | 前25% | #音视频 | #多智能体评估 | #视频生成 #多模态生成评估 | arxiv ...

2026-05-29 · 更新于 2026-06-19 · 10 min · 2103 words

A Conflict-Aware Penalty and Statistical Loss Framework for Balancing Modalities and Enhancing Stability in Multimodal Sentiment Analysis

📄 A Conflict-Aware Penalty and Statistical Loss Framework for Balancing Modalities and Enhancing Stability in Multimodal Sentiment Analysis #多模态模型 ✅ 6.8/10 | 前50% | #多模态模型 | #多模态模型 | arxiv 学术质量 6.8/7 | 影响力 6.5/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 Dai, Liang, Mai (三位作者,具体全名未在提供的原文片段中列出)。机构:华南师范大学计算机科学学院。 💡 毒舌点评 这篇论文试图解决多模态学习中一个真实且重要的问题——模态不平衡与训练不稳定。作者提出的冲突感知惩罚(CP)动机清晰,直击现有梯度调制方法(如OGM)仅依赖性能比率、无法处理梯度范数冲突的痛点。将统计损失(SL)作为正则化器并与CP结合,思路也合理。消融实验(Table 2)是本文的亮点之一,通过详尽的组合对比(A0-A6, B1-B5, C1-C5),清晰地展示了各组件的作用与相互依赖,尤其是CP防止SL崩溃的协同效应(A5 vs. A6),论证有力。然而,论文的弱点也十分明显:1)创新性有限:核心方法本质上是对现有梯度调制(GM)框架的补充性改进(加入冲突检测与惩罚项),且AME、GE、门控融合等均为已有技术,框架整合性质较强。2)理论深度不足:对“梯度范数冲突”的形式化定义较为简单(公式6),缺乏更深入的理论分析来解释为何这种冲突会导致性能崩溃,以及CP为何能有效缓解。3)实验局限:虽然声称SOTA,但在CMU-MOSEI上,其Acc-2和F1与UniMSE、ITHP差距极小甚至落后(如Acc-2: 87.32% vs. UniMSE 85.9%? 此处原文表格数据需核实),优势主要体现在Corr指标上,通用性和鲁棒性有待更大规模数据集验证。4)开源缺失:声称将发布代码但未提供,严重削弱了可复现性承诺的价值。 📌 核心摘要 该论文研究多模态情感分析(MSA)中的模态不平衡与训练不稳定问题。针对文本模态主导优化导致的“梯度范数冲突”(即预测误差小的模态可能仍施加过大的梯度范数),以及分布正则化(统计损失)与梯度调制耦合导致的性能崩溃,提出了一个统一框架。核心创新包括:1)冲突感知惩罚(CP),在训练中显式检测并惩罚发生梯度范数冲突的模态;2)统计损失(SL),通过对齐编码器输出的分布统计量(均值、方差)与输入经验统计量进行正则化。CP通过平衡梯度压力,既直接解决了梯度范数冲突,又防止了主导模态干扰SL目标,实现了协同稳定的训练。框架还整合了自适应模态编码(AME)、门控跨模态融合和单模态辅助头等组件。实验在CMU-MOSI上取得所有指标的最优结果(如Acc-2: 89.31%, MAE: 0.638),在CMU-MOSEI上获得最高的皮尔逊相关系数(0.820)。消融研究验证了各组件,特别是CP与SL协同的有效性。 🔗 开源详情 代码:论文中承诺“Code and hyperparameter configurations will be released upon publication”,但未提供具体的代码仓库链接。因此,目前代码不可用。 模型权重:论文中未提及发布预训练模型权重。 数据集:论文使用了CMU-MOSI和CMU-MOSEI公开数据集,并引用了原始论文。未提供数据集的直接下载链接,但这两个数据集在社区内广泛可获取。 Demo:论文中未提及。 复现材料:论文未提供可下载的检查点、配置文件或脚本。复现依赖于论文中描述的实验设置细节。 🏗️ 方法概述和架构 本文提出的多模态情感分析框架旨在解决模态不平衡与训练不稳定问题,其整体流程如图1所示,主要包含以下四个关键步骤: ...

2026-05-28 · 更新于 2026-06-19 · 3 min · 586 words

AgenticVBench: Can AI Agents Complete Real-World Post-Production Tasks?

📄 AgenticVBench: Can AI Agents Complete Real-World Post-Production Tasks? #基准测试 #多模态模型 ✅ 7.0/10 | 前50% | #基准测试 | #多模态模型 | arxiv 👥 作者与机构 作者:Zongheng Cao, Yi Zheng, Rui Song, Xinyu Hu 机构:Philo Labs Research (research@philolabs.ai) 💡 毒舌点评 这篇论文做了一个视频后期制作的AI智能体评测基准,这事儿挺有意思,因为之前的评测要么是问答,要么是写代码,没人认真搞过这种“从剪辑到成片”的全流程活儿。作者拉了20个行业专家来设计任务,看起来挺像那么回事。但是,顶会审稿人会一眼看穿:这本质上是一个工程驱动的评测集构建工作,而非方法创新。论文最大的价值在于“发现”和“定义”了当前AI智能体在视频制作领域的无能——最佳模型组合得分才31%,人类能到90%左右,这差距大得令人尴尬。然而,这种发现本身并不令人意外,更像是对现状的一次确认。论文在框架(harness)上的分析(如图4)是亮点,指出了“框架作为一等公民变量”这个被忽视的点。但分析深度有限,更多是现象描述而非机制挖掘。最大的槽点在于,作为一个评测基准,其可复现性和生态构建严重不足——没有公开的代码、模型权重、数据集包,只有一个官网链接。这在2025年的顶会是难以接受的。此外,对“过程智能”评估的缺失,使得这个基准更像一个“黑箱输出评分器”,而非理解AI行为的透镜。总结:一篇合格但不出彩的系统工作,适合作为行业参考,但离顶会追求的“深刻洞见”或“可复用框架”尚有距离。 📌 核心摘要 本文提出了AgenticVBench,一个用于评估AI智能体在真实世界视频后期制作工作流中能力的基准测试。该基准包含100个任务,涵盖组装(Assembly)、修复(Repair)、排序(Sequencing)和再利用(Repurpose)四个任务家族,任务由20位平均拥有6年专业经验的行业专家设计并提供评估标准。对7个前沿视觉语言模型(VLM)和5种工具框架(harness)的评估表明,当前最先进的智能体系统在这些复杂、长时程的多模态任务上表现远未达到人类专家水平,最佳智能体组合的平均得分仅为31%,而人类专家得分在81%-95%之间,存在43-65个百分点的差距。研究进一步揭示,智能体框架的设计对最终性能有显著影响,甚至能决定模型能力的发挥程度。 🔗 开源详情 代码:论文中未提及 AgenticVBench 基准测试代码本身的具体仓库链接(如 GitHub)。论文仅提供了一个项目主页:https://agenticvbench.com。 模型权重:论文中未提及。论文评估的模型(如 Claude Opus 4.7, GPT-5.5, Gemini 3.1 Pro, Qwen3-VL-235B-A22B-Instruct)均为商业模型或通过 API 访问的开源模型,未提供其权重文件的直接下载链接。 数据集:论文中未提及独立的可下载数据集包链接。论文说明任务构建所用的源视频均来自公开渠道(例如:2025 Runway AI Film Festival 提交作品、电影、动画、新闻、YouTube 内容等),但未提供这些原始素材或处理后的基准测试数据的打包下载地址(如 HuggingFace 数据集页面)。论文声称在发布时提供源视频、任务提示和评估脚本,但未指明具体托管位置。 Demo:论文中未提及在线演示链接。仅提供了项目主页:https://agenticvbench.com。 复现材料:论文中未提及单独的复现材料包(如检查点、配置文件)。论文在附录中详细描述了实验设置(模型、硬件、工具链版本、评估配置等),但未提供复现所需的代码和数据。 论文中引用的开源项目: OpenClaw:论文中评估的开源 harness,未给出具体 URL。 OpenCode:论文中评估的开源 harness,未给出具体 URL。 Claude Code CLI:Anthropic 提供的原生 CLI 工具,未给出具体 URL。 Codex CLI:OpenAI 提供的原生 CLI 工具,未给出具体 URL。 Gemini CLI:Google 提供的原生 CLI 工具,未给出具体 URL。 ffmpeg/ffprobe:用于视频/音频处理的知名开源工具,官网链接:https://ffmpeg.org/。 Whisper:OpenAI 开源的语音识别模型,GitHub 链接:https://github.com/openai/whisper。 gTTS (Google Text-to-Speech):Python 文本转语音库,PyPI 链接:https://pypi.org/project/gTTS/。 Nano Banana Pro:用于生成干扰项的图像生成模型,论文中未给出具体链接。 Seedance 2.0:用于生成干扰项的视频生成模型,论文中未给出具体链接。 🏗️ 方法概述和架构 本文提出的方法是一个基于专家经验的视频后期制作智能体评测基准(Benchmark)的构建与评估流程,而非一个新的AI模型或算法。其核心架构是构建一个能系统测试AI智能体在多步骤、多模态生产任务中表现的标准化环境。 ...

2026-05-28 · 更新于 2026-06-19 · 2 min · 373 words

Dasheng AudioGen: A Unified Model for Generating Coherent Audio Scenes from Text

📄 Dasheng AudioGen: A Unified Model for Generating Coherent Audio Scenes from Text #音频生成 #语音合成 #音乐生成 #多模态模型 #扩散模型 #流匹配 #模型评估 #数据增强 🔥 8.6/10 | 前25% | #音频生成 | #数据增强 | #语音合成 #音乐生成 | arxiv 学术质量 6.6/7 | 影响力 1.6/2 | 可复现性 0.4/2 👥 作者与机构 作者: Jiahao Mei (1, 2), Heinrich Dinkel (2), Yadong Niu (2), Xingwei Sun (2), Gang Li (2), Yifan Liao (2), Jiahao Zhou (2), Junbo Zhang (2), Jian Luan (2), Mengyue Wu (1) 机构: 1: X-LANCE Lab, Shanghai Jiao Tong University, Shanghai, China 2: MiLM Plus, Xiaomi Inc., Beijing, China ...

2026-05-28 · 更新于 2026-06-19 · 3 min · 581 words

Do Audio LLMs Listen or Read? Analyzing and Mitigating Paralinguistic Failures with VoxParadox

📄 Do Audio LLMs Listen or Read? Analyzing and Mitigating Paralinguistic Failures with VoxParadox #语音情感识别 #语音识别 #多模态模型 ✅ 6.8/10 | 前50% | #语音情感识别 | #语音识别 | #多模态模型 | arxiv 学术质量 4.5/7 | 影响力 1.8/2 | 可复现性 0.5/2 | 置信度 中 👥 作者与机构 作者:Jiacheng Pang (南加州大学 USC),Ashutosh Chaubey (MIT),Mohammad Soleymani (南加州大学 USC) 机构:信息科学研究所 (USC),计算机科学与人工智能实验室 (CSAIL, MIT) 💡 毒舌点评 合成数据的“温室花朵”效应:VoxParadox 基准虽然精巧,但完全依赖 TTS 合成数据。论文声称其设计“由构造保证”,但这恰恰是它最大的软肋。模型在这个精心控制的对抗性环境中取得的任何提升,在面对真实世界中充满噪声、歧义、文化背景和微小语气变化的“言不由衷”时,可能都只是镜花水月。生态效度(ecological validity)的短板,使得方法的实用价值大打折扣。 “灵丹妙药”式的改进声明:论文将 PCLM+DPO 描述为解决瓶颈的有效方案,但证据链并不完整。在一个模型(Audio Flamingo 3)上取得巨大成功,远不足以证明该方案的普适性。论文未报告其他被评估模型(如 SALMONN, Qwen-Audio 等)的改进情况,这使得方法的“通用性”声明显得仓促。是方法真的巧妙,还是仅仅在 Audio Flamingo 3 的特定架构上“过拟合”了? “黑箱”模块缺乏透视:PCLM 被描述为“自适应地组合多层信息”,但其内部机制如同黑箱。论文没有提供任何可视化或定量分析,展示在不同任务或输入下,模型究竟如何、以及为何选择了特定的音频层组合。这种“Prompt-Conditioned”的承诺,在缺乏可解释性分析的情况下,说服力有限。 消融研究的缺失:将 PCLM 和 DPO 打包提出,却没有进行充分的消融实验,这是方法论上的重大遗漏。我们不知道性能提升有多少归功于表征质量的改善(PCLM),有多少归功于偏好引导(DPO),两者的协同效应究竟如何。这使得方法的贡献难以被准确归因和理解。 实验对比的模糊性:虽然声称评估了“多种”Audio LLMs,但 Table 1 的细节在提供的文本中不完整。审稿人需要清晰地看到所有基线模型在所有任务上的具体数字,以判断 VoxParadox 是否真的暴露了模型的共性问题,以及所提方法是否在所有情况下都有效。泛泛的“显著提升”结论,缺乏足够的数据支撑。 📌 核心摘要 本文针对 Audio LLMs 在副语言信息理解上的不足(过度依赖文本转录而非声学线索),提出了系统性的分析、评估与改进方案。首先,设计了对抗性基准 VoxParadox(2000 样本,10 类任务),通过控制语音合成制造转录与声学风格的矛盾,以量化模型的模态偏见。实验表明,模型普遍在声学真值上准确率低(AccGT),却对文本暗示的错误标签高度一致(ALA)。其次,通过层级探测(layer-wise probing)分析瓶颈,发现副语言信息在编码器深层及编码器-LLM 接口处可能退化,且即使信息存在于音频 token 中,LLM 也常忽略。为解决此问题,提出 Prompt-Conditioned Layer Mixer(PCLM)以自适应融合多层音频表征,并结合 Direct Preference Optimization(DPO)训练模型偏好声学证据。在 Audio Flamingo 3 上,该方法将 VoxParadox 准确率从 17.40% 提升至 65.20%,MMSU 副语言子集从 37.74% 提升至 54.78%。 ...

2026-05-28 · 更新于 2026-06-19 · 3 min · 554 words

EigeNet: Geometry-Informed Multi-Modal Learning for Few-shot Novel View RIR Prediction

📄 EigeNet: Geometry-Informed Multi-Modal Learning for Few-shot Novel View RIR Prediction #多模态模型 #多任务学习 🔥 8/10 | 前50% | #多模态模型 | #多任务学习 | arxiv 学术质量 5.1/7 | 影响力 1.4/2 | 可复现性 1.5/2 | 置信度 高 👥 作者与机构 作者:Chong Jing, Zitong Lan, Junan Zhang, Zhizheng Wu 机构:香港中文大学(深圳)(Chong Jing, Junan Zhang, Zhizheng Wu),宾夕法尼亚大学(Zitong Lan) 💡 毒舌点评 这篇工作在工程应用上做得扎实,但理论原创性的天花板清晰可见。它成功地将视觉领域的“交替注意力”机制“移植”到了音频这个新场景,并辅以一个动机良好的物理调制模块,最终在特定任务上取得了SOTA。这种“旧瓶装新酒”的范式在应用层屡试不爽,但作为顶会论文,其核心贡献的“新颖性”需要打折。更令人遗憾的是,作为一篇同时期的工作,却完全回避了与最直接竞争对手FLAC的正面比较(仅以“并发工作”一笔带过),这在实验对比的完整性上留下了无法回避的短板。论文的强项在于细致的消融实验,特别是掩码探针实验设计巧妙,试图解释模型行为,这比单纯刷分更有价值。然而,写作上的细节疏忽(图表引用混乱)和某些技术描述的含糊(如DiT块的具体操作)拉低了整体的精致感。总的来说,这是一篇扎实的系统工作(systems paper),而非一篇具有颠覆性思想的理论突破。 📌 核心摘要 本文针对从稀疏观测预测新视角房间脉冲响应(RIR)的逆问题,提出了EigeNet框架。该框架旨在解决现有方法在多视角时空关系建模不足和物理可解释性缺失两大瓶颈。核心创新包括:1)提出交叉视角交替注意力Transformer(CVAT),交替进行视角内局部和跨视角全局注意力,以显式建模局部声学结构和全局空间关系;2)设计几何信息调制模块与基于7倍频带功率谱的辅助损失,显式建立几何特征与RIR功率谱的关联,将单任务转化为多任务学习。在模拟数据集AcousticRooms和真实数据集HAA上的实验表明,EigeNet在EDT、C50、T60等指标上显著优于xRIR等基线,并展现出良好的跨模态泛化性和物理可解释性。 🔗 开源详情 代码:https://github.com/FEAfeatherTHER/EigeNet 模型权重:https://github.com/FEAfeatherTHER/EigeNet 数据集: AcousticRooms:论文中声明通过Treble平台获取(https://www.treble.tech/),但未提供直接���预处理数据下载链接。 Hearing-Anything-Anywhere (HAA):论文中未提供任何公开获取链接。 Demo:论文中未提及。 复现材料:未提供单独的复现材料包(如训练脚本、配置文件)。复现依赖于上述GitHub仓库的代码以及自行获取的数据集。 🏗️ 方法概述和架构 EigeNet框架旨在利用稀疏的参考视角RIR及其对应的几何信息,预测目标新视角的RIR。其整体架构如图1所示,包含编码、调制、核心Transformer处理和解码预测四个主要阶段。 问题形式化与输入: 给定\(N\)个参考视角,每个视角\(i\)包含:源位置\(tx_i \in \mathbb{R}^3\),接收器位置(设为坐标原点)\(rx_i \in \mathbb{R}^3\),以及对应的RIR信号\(h_i \in \mathbb{R}^{1 \times L}\)。同时,为目标视角(索引为0)提供接收器位置处的全景深度图\(D\)。目标是估计目标视角在\(tx_0\)处的RIR \(h_0\)。 ...

2026-05-28 · 更新于 2026-06-19 · 2 min · 403 words