OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants

📄 OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants #多模态模型 #基准测试 #语音识别 #语音合成 ✅ 7.8/10 | 前50% | #语音识别 | #多模态模型 | #基准测试 #语音合成 | arxiv 学术质量 4.9/7 | 影响力 1.2/2 | 可复现性 1.7/2 | 置信度 高 👥 作者与机构 作者:Xudong Lu, Xueying Li, Annan Wang, Yang Bo, Jinpeng Chen, Zengliang Li, Nianzu Yang, Rui Liu, Xue Yang, Jingwen Hou, Hongsheng Li 机构:CUHK MMLab (香港中文大学多媒体实验室), SJTU (上海交通大学), NTU (南洋理工大学), McMaster (麦克马斯特大学), CityUHK (香港城市大学), JUFE (江西财经大学) ...

2026-05-29 · 更新于 2026-06-19 · 2 min · 416 words

State-Anchored Complete-View Distillation for Robust Conversational Multimodal Emotion Recognition

📄 State-Anchored Complete-View Distillation for Robust Conversational Multimodal Emotion Recognition #语音情感识别 #多模态模型 #知识蒸馏 🔥 8/10 | 前50% | #语音情感识别 | #知识蒸馏 | #多模态模型 | arxiv 学术质量 6/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 作者:Zhaoyan Pan, Xiangdong Li, Wenke Wu*, Mengting Ma, Ye Lou, Ji Zhou, Jiatong Pan, Wei Zhang† 机构:1 浙江大学软件技术学院,2 浙江大学计算机科学与技术学院 表示同等贡献,† 表示通讯作者。 💡 毒舌点评 这篇论文的工作是扎实的,但包装得过于完美,以至于一些内在的脆弱性被精心掩盖了。作者提出的“高斯启发状态”像是在概率模型和确定性匹配之间走钢丝,理论根基略显模糊。NCE组件用batch内的“捐赠者”来模拟现实世界中复杂多变的非语言冲突,这种简化虽然聪明,但也像是在用理想化的实验室条件去预测混沌的真实对话场景。整篇论文的“贡献”部分像一份完美的产品说明书,但审稿人需要的是对科学发现本质的探讨,而不仅仅是功能的罗列。实验很全面,但当一个方法在所有指标上都“显著”优于基线时,我们更应该警惕这是否是实验设计或评估指标本身的局限,而非方法的绝对优越性。成本效益分析的缺失也让人质疑,在资源敏感的应用中,这额外的183%训练成本是否真的值得。 📌 核心摘要 本文针对对话多模态情感识别(MER)在模态缺失或不可靠场景下的鲁棒性问题,提出了一个名为CoRe-KD(完整视图参考引导的知识蒸馏)的新框架。核心思想是避免对缺失模态进行直接重建,而是利用一个在完整视图数据上训练并冻结的教师模型,为学生模型提供结构化的参考信号。该框架包含两个关键组件:1)完整视图状态锚定(CSA),通过预测层、融合状态层和模态特定状态层三个层级的对齐,将学生模型的不完整视图预测和状态与教师参考进行匹配;2)非语言冲突暴露(NCE),在训练时构造保持目标标签但替换非语言模态的冲突视图,以增强模型对误导性非语言线索的鲁棒性。在IEMOCAP(4类和6类)、MELD-7数据集上的实验,以及CMU-MOSEI上的补充检查表明,CoRe-KD在固定缺失和随机缺失协议下均显著优于现有的重建、蒸馏和适配等基线方法。消融研究验证了CSA和NCE各组件的贡献。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集:论文使用了以下公开基准数据集,并说明了获取方式: IEMOCAP:通过官方申请程序获取,仅用于许可的学术研究。链接:https://www.sci.usc.edu/software/iemocap/ MELD:公开发布的研究基准。链接:https://github.com/declare-lab/MELD CMU-MOSEI:公开发布的研究基准。链接:https://github.com/CMU-MultiComp/CMU-MultimodalSDK Demo:论文中未提及。 复现材料:论文在附录中提供了详细的复现信息,包括: 实验设置与协议:详见附录A,包括数据集划分(表A.1)、特征维度(表A.2)、缺失模态评估协议、训练视角构建和非冲突视角构建。 超参数与优化:详见附录A.6,优化器为Adam,学习率为\(1e-5\),权重衰减\(1e-5\),批大小16。IEMOCAP和MELD训练150个epoch,CMU-MOSEI训练100个epoch。KD温度\(\tau=2\),损失权重\(\lambda_{\text{kd}}=1.0, \lambda_{\text{state}}=0.5, \lambda_{\text{mstate}}=0.5, \lambda_{\text{NCE}}=1.0\)。NCE视角采样概率为0.2。 教师模型架构:详见附录C,包括完整的Transformer编码器结构、高斯启发状态头实现(式C.1-C.12)和PoE融合公式。 基线公平性控制:详见附录B,说明了复现设置、特征和教师控制以及训练稳定性(表B.1)。 硬件环境:所有实验在四块NVIDIA RTX A5000 24GB GPU上运行。 推理:推理时仅使用学生模型,教师模型和训练组件被丢弃。 论文中引用的开源项目: openSMILE:用于提取声学特征。论文链接:https://ieeexplore.ieee.org/document/5745357 RoBERTa:用于提取文本特征。论文链接:https://arxiv.org/abs/1907.11692 DenseNet:用于提取视觉特征。论文链接:https://arxiv.org/abs/1608.06993 data2vec:用于MELD声学特征提取。论文链接:https://arxiv.org/abs/2202.03555 TimeSformer:用于MELD视觉特征提取。论文链接:https://arxiv.org/abs/2102.05095 Wav2Vec:用于CMU-MOSEI声学特征提取。论文链接:https://arxiv.org/abs/2006.11477 DeBERTa:用于CMU-MOSEI文本特征提取。论文链接:https://arxiv.org/abs/2006.03650 MA-Net:用于CMU-MOSEI视觉特征提取。论文链接:https://arxiv.org/abs/2104.14200 MulT:作为教师骨架之一。论文链接:https://arxiv.org/abs/1905.09283 MISA:作为教师骨架之一。论文链接:https://arxiv.org/abs/2002.09854 Corr-KD:作为对比基线。论文链接:https://arxiv.org/abs/2405.11685 MoMKE:作为对比基线。论文链接:https://arxiv.org/abs/2401.11938 MCULoRA:作为对比基线。论文链接:https://arxiv.org/abs/2502.13076 ComP:作为对比基线。论文链接:https://arxiv.org/abs/2506.01573 IMDer:作为对比基线。论文链接:https://arxiv.org/abs/2312.15040 LNLN:作为对比基线。论文链接:https://arxiv.org/abs/2407.01474 🏗️ 方法概述和架构 本文提出的CoRe-KD框架采用教师-学生架构进行训练,旨在提升对话多模态情感识别模型在模态缺失条件下的鲁棒性。其核心流程与组件如下: ...

2026-05-29 · 更新于 2026-06-19 · 5 min · 986 words

The WER Trap: Shattering the Illusion of Unified Tokens in Speech Language Models

📄 The WER Trap: Shattering the Illusion of Unified Tokens in Speech Language Models #语音识别 #语音合成 #自监督学习 ✅ 7/10 | 前50% | #语音识别 | #自监督学习 | #语音合成 | arxiv 学术质量 5.2/7 | 影响力 1.5/2 | 可复现性 0.3/2 | 置信度 高 👥 作者与机构 Xiangyu Zhang (The University of New South Wales), Yuxin Li (Nanyang Technological University), Haoyang Zhang (Nanyang Technological University), Shiqi Han (The University of New South Wales), Hexin Liu (Nanyang Technological University), Qiquan Zhang (The University of New South Wales), Beena Ahmed (The University of New South Wales), Julien Epps (The University of New South Wales) ...

2026-05-29 · 更新于 2026-06-19 · 3 min · 500 words

VideoFDB: Evaluating Full-Duplex Vision-Speech Capabilities in Conversational Agents

📄 VideoFDB: Evaluating Full-Duplex Vision-Speech Capabilities in Conversational Agents #语音合成 #语音识别 #多模态模型 ✅ 7.9/10 | 前25% | #语音合成 | #语音识别 | #多模态模型 | arxiv 学术质量 5.9/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 Amrita Mazumdar, Seonwook Park, Rajarshi Roy, Nikhil Srihari, Shengze Wang, Yuhao Zhou, Julia Wang, Koki Nagano, Shalini De Mello. 机构:NVIDIA, David AI. 论文为arXiv预印本(ID: 2605.30256),未说明投稿会议。 💡 毒舌点评 这篇论文做了一件“正确但不够性感”的事:它为新兴的全双工音视觉对话代理领域建立了一个急需的评估基准。这就像给一群刚学会跑的婴儿做体能测试——很有必要,但别指望能测出马拉松冠军。其核心贡献在于“定义问题”而非“解决问题”,这在学术上是合法的,但也意味着其影响力上限在论文发表时就已被锁定。实验设计严谨,分析也很到位,尤其是对级联系统局限性的剖析。然而,数据集规模(237片段)和语言单一性(英语)是其阿喀琉斯之踵,严重限制了结论的普适性。用它来评判现有模型可以,但若想用它指导下一代模型的设计,那证据就稍显薄弱了。 📌 核心摘要 本文提出了VideoFDB,首个用于评估全双工音视觉到音视觉(AV2AV)对话代理的基准。现有基准无法评估代理同时听、说、观察并产生非语言线索(如点头、微笑)的能力。VideoFDB包含:1)一个基于非语言交流科学的分类法,涵盖11种对话动态;2)一个包含237个人类标注双人视频通话片段的数据集;3)一个基于评分标准和语言模型裁判的评估框架,从“感知”(流利度、对话流、语义关联)和“生成”(情感匹配、非语言线索恰当性)两个维度评估代理。实验评估了闭源(Gemini, OpenAI)和开源(MiniCPM-o等)模型,以及级联语音-头像系统。主要发现是:所有模型均远低于人类水平;视觉输入常被用于显式问答而非提升对话动态;级联系统无法生成实时、独立的非语言线索。这揭示了当前系统在利用视觉信息进行自然对话方面的根本局限。 🔗 开源详情 代码:论文中提及将发布评估代码至公开的HuggingFace,但未提供具体URL或代码仓库链接。复现所需的评估流程、Prompt模板(附录F.5与F.6)、评分标准(Rubric)详细说明见于论文附录F。 模型权重:论文评估了多个开源模型(MiniCPM-o 4.5, MiniOmni2, VITA-1.5),但未在论文中提供其模型权重的具体下载链接。这些模型的权重通常可在其各自的GitHub仓库中获取。 数据集:论文提供了VideoFDB评估数据集的匿名访问地址及访问方式。 匿名访问页面:https://anonvfdb.github.io/ 访问密码:sH6A+P12qMaJWtyMJ2vIx9Oi 承诺在论文发表前,将数据集发布至公开的HuggingFace,但未提供具体链接。匿名页面包含两个验证片段、分类法和元数据模式,完整数据集约5GB。 复现材料:论文附录详细描述了评测流程、Prompt模板(Appendix F.5 与 F.6)、评分准则(Rubric)以及数据集构建细节(Appendix A),这些构成复现评测的关键材料。 论文中引用的开源项目: 模型/方法:论文引用了Moshi, dGSLM, OmniFlatten, SyncLLM, SALM, PersonaPlex, Qwen2.5/Qwen3-Omni, MiniCPM-o, MiniOmni2, VITA-1.5等开源项目。 工具/平台:LiveKit, Anam, Keyframe, Silero VAD, Parakeet ASR。 补充链接(自动提取): 代码仓库:https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf 代码仓库:https://github.com/snakers4/silero-vad HuggingFace:https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2 🏗️ 方法概述和架构 VideoFDB的核心方法是构建一个全面的评估体系,包含三个相互关联的组件:评估数据集、评估框架和评估指标。 ...

2026-05-29 · 更新于 2026-06-19 · 2 min · 425 words

语音/音乐/音频论文速递 2026-05-29

语音/音乐/音频论文速递 2026-05-29 共分析 20 篇论文 ⚡ 今日概览 📥 抓取 20 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 5篇 █████ #语音识别 5篇 █████ #音频生成 2篇 ██ #基准测试 1篇 █ #多模态模型 1篇 █ #音频分类 1篇 █ #音频深度伪造检测 1篇 █ #语音情感识别 1篇 █ 📊 论文评分排行榜(20 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 DirectorBench: Diagnosing Long-Form Video Generation wi 9.8分 前25% #基准测试 🥈 Benchmarking Single-Factor Physical Video-to-Audio Gene 9.0分 前25% #音频生成 🥉 Audio Jailbreaks in Large Audio-Language Models: Taxono 8.9分 前25% #多模态模型 4. HoliTok:A Coutinuous Holistic Tokenization with Robust 8.6分 前25% #语音合成 5. Dial HEALTHDIAL for Advice: A Multilingual and Multi-Pa 8.6分 前25% #语音合成 6. Mitigating Stethoscope-Induced Shortcuts in Respiratory 8.5分 前25% #音频分类 7. Audio Deepfake Detection with Half-Truth Localisation U 8.4分 前50% #音频深度伪造检测 8. ChildVox: A Speech, Audio, and Large Audio-Language Mod 8.0分 前25% #语音识别 9. State-Anchored Complete-View Distillation for Robust Co 8.0分 前50% #语音情感识别 10. VideoFDB: Evaluating Full-Duplex Vision-Speech Capabili 7.9分 前25% #语音合成 11. Native Audio-Visual Alignment for Generation 7.8分 前50% #音频生成 12. OmniInteract: Benchmarking Real-World Streaming Interac 7.8分 前50% #语音识别 13. MusTBENCH: Benchmarking and Advancing Temporal Groundin 7.5分 前50% #音乐生成 14. Archon: A Unified Multimodal Model for Holistic Digital 7.5分 前50% #语音合成 15. MELD: Mel-Spectrogram-Based Speech Language Modeling wi 7.3分 前50% #语音合成 16. The WER Trap: Shattering the Illusion of Unified Tokens 7.0分 前50% #语音识别 17. Decoding Strategies for Diffusion-Based ASR: A Systemat 6.8分 前50% #语音识别 18. COMET: Concept Space Dissection of the Modality Gap in 6.5分 前50% #音频检索 19. AgentHijack: Benchmarking Computer Use Agent Robustness 5.6分 前50% - 20. Data-Efficient On-Policy Distillation for Automatic Spe 5.1分 前50% #语音识别 📋 论文列表 🥇 DirectorBench: Diagnosing Long-Form Video Generation with Personalized Multi-Agent Evaluation 🔥 9.8/10 | 前25% | #音视频 | #多智能体评估 | #视频生成 #多模态生成评估 | arxiv ...

2026-05-29 · 更新于 2026-06-19 · 10 min · 2103 words

A Conflict-Aware Penalty and Statistical Loss Framework for Balancing Modalities and Enhancing Stability in Multimodal Sentiment Analysis

📄 A Conflict-Aware Penalty and Statistical Loss Framework for Balancing Modalities and Enhancing Stability in Multimodal Sentiment Analysis #多模态模型 ✅ 6.8/10 | 前50% | #多模态模型 | #多模态模型 | arxiv 学术质量 6.8/7 | 影响力 6.5/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 Dai, Liang, Mai (三位作者,具体全名未在提供的原文片段中列出)。机构:华南师范大学计算机科学学院。 💡 毒舌点评 这篇论文试图解决多模态学习中一个真实且重要的问题——模态不平衡与训练不稳定。作者提出的冲突感知惩罚(CP)动机清晰,直击现有梯度调制方法(如OGM)仅依赖性能比率、无法处理梯度范数冲突的痛点。将统计损失(SL)作为正则化器并与CP结合,思路也合理。消融实验(Table 2)是本文的亮点之一,通过详尽的组合对比(A0-A6, B1-B5, C1-C5),清晰地展示了各组件的作用与相互依赖,尤其是CP防止SL崩溃的协同效应(A5 vs. A6),论证有力。然而,论文的弱点也十分明显:1)创新性有限:核心方法本质上是对现有梯度调制(GM)框架的补充性改进(加入冲突检测与惩罚项),且AME、GE、门控融合等均为已有技术,框架整合性质较强。2)理论深度不足:对“梯度范数冲突”的形式化定义较为简单(公式6),缺乏更深入的理论分析来解释为何这种冲突会导致性能崩溃,以及CP为何能有效缓解。3)实验局限:虽然声称SOTA,但在CMU-MOSEI上,其Acc-2和F1与UniMSE、ITHP差距极小甚至落后(如Acc-2: 87.32% vs. UniMSE 85.9%? 此处原文表格数据需核实),优势主要体现在Corr指标上,通用性和鲁棒性有待更大规模数据集验证。4)开源缺失:声称将发布代码但未提供,严重削弱了可复现性承诺的价值。 📌 核心摘要 该论文研究多模态情感分析(MSA)中的模态不平衡与训练不稳定问题。针对文本模态主导优化导致的“梯度范数冲突”(即预测误差小的模态可能仍施加过大的梯度范数),以及分布正则化(统计损失)与梯度调制耦合导致的性能崩溃,提出了一个统一框架。核心创新包括:1)冲突感知惩罚(CP),在训练中显式检测并惩罚发生梯度范数冲突的模态;2)统计损失(SL),通过对齐编码器输出的分布统计量(均值、方差)与输入经验统计量进行正则化。CP通过平衡梯度压力,既直接解决了梯度范数冲突,又防止了主导模态干扰SL目标,实现了协同稳定的训练。框架还整合了自适应模态编码(AME)、门控跨模态融合和单模态辅助头等组件。实验在CMU-MOSI上取得所有指标的最优结果(如Acc-2: 89.31%, MAE: 0.638),在CMU-MOSEI上获得最高的皮尔逊相关系数(0.820)。消融研究验证了各组件,特别是CP与SL协同的有效性。 🔗 开源详情 代码:论文中承诺“Code and hyperparameter configurations will be released upon publication”,但未提供具体的代码仓库链接。因此,目前代码不可用。 模型权重:论文中未提及发布预训练模型权重。 数据集:论文使用了CMU-MOSI和CMU-MOSEI公开数据集,并引用了原始论文。未提供数据集的直接下载链接,但这两个数据集在社区内广泛可获取。 Demo:论文中未提及。 复现材料:论文未提供可下载的检查点、配置文件或脚本。复现依赖于论文中描述的实验设置细节。 🏗️ 方法概述和架构 本文提出的多模态情感分析框架旨在解决模态不平衡与训练不稳定问题,其整体流程如图1所示,主要包含以下四个关键步骤: ...

2026-05-28 · 更新于 2026-06-19 · 3 min · 586 words

Affective Music Recommendation: A Rollout-Based World Model for Offline Preference Optimization

📄 Affective Music Recommendation: A Rollout-Based World Model for Offline Preference Optimization #音乐推荐 #冷启动 ✅ 7/10 | 前50% | #音乐推荐 | #冷启动 | arxiv 学术质量 5.1/7 | 影响力 1.5/2 | 可复现性 0.4/2 | 置信度 高 👥 作者与机构 论文作者共7位,分属两家机构: Audrey Chan (LUCID Inc., Toronto, Canada) Aaron Labbé (LUCID Inc., Montréal, Canada) Jacob Lavoie (Mila — Québec AI Institute, Montréal, Canada) Jordan Bannister (Mila — Québec AI Institute, Montréal, Canada) Arsène Fansi Tchango (Mila — Québec AI Institute, Montréal, Canada) Guillaume Lajoie (Mila — Québec AI Institute, Montréal, Canada) Laurent Charlin (Mila — Québec AI Institute, Montréal, Canada) 💡 毒舌点评 本文动机明确且具有重要的社会价值(为临床用户提供安全的情感音乐推荐),但作为一篇顶会论文,其技术贡献和实验验证显得过于“温和”与“内部”。世界模型的核心是标准的因果Transformer,其创新点更多在于将现有组件(行为克隆、DPO、世界模型)进行组合以解决一个特定应用问题,而非提出全新的模型架构或理论。最大的软肋在于“自指验证”:整个离线策略(DPO)是在世界模型上训练和评估的,而世界模型本身的预测能力(\(R^2\)约40%)只能说尚可,这导致所有下游结论(如DPO的增益)都建立在“如果世界模型是准确的,那么…”的假设之上,缺乏与真实世界交互的闭环验证。论文对此有明确讨论,但这确实削弱了其结论的强度。此外,完全不公开的代码、数据和模型权重,使得这项在伦理约束场景下的“早期部署验证”几乎无法被同行复现或扩展,其“验证”价值打了很大折扣。实验设计相对完整,但部分关键对比(如与Moodify)因对方未开源而缺失,且情感预测任务的基线(如MER基准)比较显得有些笼统。 ...

2026-05-28 · 更新于 2026-06-19 · 3 min · 434 words

AgenticVBench: Can AI Agents Complete Real-World Post-Production Tasks?

📄 AgenticVBench: Can AI Agents Complete Real-World Post-Production Tasks? #基准测试 #多模态模型 ✅ 7.0/10 | 前50% | #基准测试 | #多模态模型 | arxiv 👥 作者与机构 作者:Zongheng Cao, Yi Zheng, Rui Song, Xinyu Hu 机构:Philo Labs Research (research@philolabs.ai) 💡 毒舌点评 这篇论文做了一个视频后期制作的AI智能体评测基准,这事儿挺有意思,因为之前的评测要么是问答,要么是写代码,没人认真搞过这种“从剪辑到成片”的全流程活儿。作者拉了20个行业专家来设计任务,看起来挺像那么回事。但是,顶会审稿人会一眼看穿:这本质上是一个工程驱动的评测集构建工作,而非方法创新。论文最大的价值在于“发现”和“定义”了当前AI智能体在视频制作领域的无能——最佳模型组合得分才31%,人类能到90%左右,这差距大得令人尴尬。然而,这种发现本身并不令人意外,更像是对现状的一次确认。论文在框架(harness)上的分析(如图4)是亮点,指出了“框架作为一等公民变量”这个被忽视的点。但分析深度有限,更多是现象描述而非机制挖掘。最大的槽点在于,作为一个评测基准,其可复现性和生态构建严重不足——没有公开的代码、模型权重、数据集包,只有一个官网链接。这在2025年的顶会是难以接受的。此外,对“过程智能”评估的缺失,使得这个基准更像一个“黑箱输出评分器”,而非理解AI行为的透镜。总结:一篇合格但不出彩的系统工作,适合作为行业参考,但离顶会追求的“深刻洞见”或“可复用框架”尚有距离。 📌 核心摘要 本文提出了AgenticVBench,一个用于评估AI智能体在真实世界视频后期制作工作流中能力的基准测试。该基准包含100个任务,涵盖组装(Assembly)、修复(Repair)、排序(Sequencing)和再利用(Repurpose)四个任务家族,任务由20位平均拥有6年专业经验的行业专家设计并提供评估标准。对7个前沿视觉语言模型(VLM)和5种工具框架(harness)的评估表明,当前最先进的智能体系统在这些复杂、长时程的多模态任务上表现远未达到人类专家水平,最佳智能体组合的平均得分仅为31%,而人类专家得分在81%-95%之间,存在43-65个百分点的差距。研究进一步揭示,智能体框架的设计对最终性能有显著影响,甚至能决定模型能力的发挥程度。 🔗 开源详情 代码:论文中未提及 AgenticVBench 基准测试代码本身的具体仓库链接(如 GitHub)。论文仅提供了一个项目主页:https://agenticvbench.com。 模型权重:论文中未提及。论文评估的模型(如 Claude Opus 4.7, GPT-5.5, Gemini 3.1 Pro, Qwen3-VL-235B-A22B-Instruct)均为商业模型或通过 API 访问的开源模型,未提供其权重文件的直接下载链接。 数据集:论文中未提及独立的可下载数据集包链接。论文说明任务构建所用的源视频均来自公开渠道(例如:2025 Runway AI Film Festival 提交作品、电影、动画、新闻、YouTube 内容等),但未提供这些原始素材或处理后的基准测试数据的打包下载地址(如 HuggingFace 数据集页面)。论文声称在发布时提供源视频、任务提示和评估脚本,但未指明具体托管位置。 Demo:论文中未提及在线演示链接。仅提供了项目主页:https://agenticvbench.com。 复现材料:论文中未提及单独的复现材料包(如检查点、配置文件)。论文在附录中详细描述了实验设置(模型、硬件、工具链版本、评估配置等),但未提供复现所需的代码和数据。 论文中引用的开源项目: OpenClaw:论文中评估的开源 harness,未给出具体 URL。 OpenCode:论文中评估的开源 harness,未给出具体 URL。 Claude Code CLI:Anthropic 提供的原生 CLI 工具,未给出具体 URL。 Codex CLI:OpenAI 提供的原生 CLI 工具,未给出具体 URL。 Gemini CLI:Google 提供的原生 CLI 工具,未给出具体 URL。 ffmpeg/ffprobe:用于视频/音频处理的知名开源工具,官网链接:https://ffmpeg.org/。 Whisper:OpenAI 开源的语音识别模型,GitHub 链接:https://github.com/openai/whisper。 gTTS (Google Text-to-Speech):Python 文本转语音库,PyPI 链接:https://pypi.org/project/gTTS/。 Nano Banana Pro:用于生成干扰项的图像生成模型,论文中未给出具体链接。 Seedance 2.0:用于生成干扰项的视频生成模型,论文中未给出具体链接。 🏗️ 方法概述和架构 本文提出的方法是一个基于专家经验的视频后期制作智能体评测基准(Benchmark)的构建与评估流程,而非一个新的AI模型或算法。其核心架构是构建一个能系统测试AI智能体在多步骤、多模态生产任务中表现的标准化环境。 ...

2026-05-28 · 更新于 2026-06-19 · 2 min · 373 words

Audio-Mind: An Auditable Agentic Framework for Audio Understanding

📄 Audio-Mind: An Auditable Agentic Framework for Audio Understanding #音频问答 🔥 8.7/10 | 前50% | #音频问答 | #音频问答 | arxiv 学术质量 5.7/7 | 影响力 1.5/2 | 可复现性 1.5/2 | 置信度 高 👥 作者与机构 论文作者包括:Yucheng Wang (南京大学,ETH Zurich),Jing Peng (上海交通大学),Hanqi Li (上海交通大学),Chenghao Wang (西安交通大学),Wenming Tu (上海交通大学),Yu Xi (上海交通大学),Zhaokai Sun (西北工业大学),Kai Yu (上海交通大学),Shuai Wang (南京大学,通讯作者)。机构涵盖南京大学、ETH Zurich、上海交通大学、西安交通大学和西北工业大学。 💡 毒舌点评 本文提出了一个思想清晰、设计工整的音频智能体框架 Audio-Mind,核心立意——在强 LALM 前端下,智能体分解不应是自动改进,而应是“条件证据获取”——抓住了当前多模态智能体研究的一个关键痛点。框架设计如“有界工具接口”、“显式证据状态”等概念有一定启发性,实验也显示了其在特定任务上的优势。然而,作为一篇投向顶会的论文,其贡献深度和实验充分性仍有差距。首先,“条件性”的实证主要通过工具调用数量与难度的相关性来体现,但这更多是设计的结果而非对“何时调用工具更优”这一根本问题的深入建模。其次,实验评估局限于两个基准,且在某些子类别(如空间分析、音频差异分析)上性能下降,暴露了框架的脆弱性,并未展示其普适的优越性。此外,与强基线(Gemini 2.5 Pro)的增益(MMAR: 78.9% -> 80.4%)相对有限,且未提供充分的消融实验来证明每个设计组件(如感知/变换工具分类、证据状态、重听机制)的独立贡献。论文更像是一个集成良好、工程扎实的系统,而非提出根本性新算法或带来突破性性能跃升的工作。 📌 核心摘要 本文提出了 Audio-Mind,一个可审计的、可插拔的音频理解智能体框架。其核心动机是,在强大的大型音频语言模型(LALM)作为前端感知器的背景下,智能体对外部工具的调用不应该是无条件的自动改进,而应是基于具体证据缺口的有条件获取。Audio-Mind 通过一个文本 LLM 规划器和一个共享的“证据状态”来协调工作流程:规划器首先生成感知提示,让前端 LALM 获取初步证据;随后进入证据获取循环,根据当前证据状态和工具的有界能力,决定是调用外部工具、进行针对性重新聆听,还是直接生成答案。工具被明确划分为感知工具和变换工具,并定义了其证据支持边界。最终,基于原始音频和累积证据,由前端生成可审计的最终答案。在 MMAR 和 MSU-Bench 基准测试上,Audio-Mind 在使用匹配骨干模型时,性能优于先前的音频智能体基线(如 AudioGenie-Reasoner)以及直接的 LALM 推理。行为分析表明,其工具调用深度与问题难度相关,且性能优势集中在需要深度证据获取的问题上。此外,Audio-Mind 生成的推理轨迹质量更高,更便于审计和错误分析。 ...

2026-05-28 · 更新于 2026-06-19 · 2 min · 350 words

Bandwidth-Efficient and Privacy-Preserving Edge-Cloud Many-to-Many Speech Translation

📄 Bandwidth-Efficient and Privacy-Preserving Edge-Cloud Many-to-Many Speech Translation #语音翻译 #多语言 #大语言模型 #课程学习 #参数高效微调 🔥 8.1/10 | 前25% | #语音翻译 | #课程学习 | #多语言 #大语言模型 | arxiv 学术质量 5.1/7 | 影响力 1.5/2 | 可复现性 1.5/2 | 置信度 高 👥 作者与机构 作者:Yexing Du, Kaiyuan Liu, Youcheng Pan, Bo Yang, Ming Liu, Bing Qin, Yang Xiang 机构:哈尔滨工业大学(深圳),鹏城实验室 💡 毒舌点评 这篇论文试图在一个“不可能三角”——隐私、带宽、性能——上找到一个实用的平衡点,其工程野心和目标是值得肯定的。ESRT框架通过将推理拆分,将重量级的LLM留在云端,仅在边缘传输压缩的特征,这是一个直观且有效的工程解决方案。论文在FLEURS数据集上展示了强大的实验结果,尤其是ESRT-4B模型以较小的参数量超越了之前许多更大的模型,证明了其训练策略的有效性。开源代码和模型也值得鼓励。 然而,其核心创新点——边缘-云分割和特征压缩——在概念上并非开创性的,更偏向于系统优化和工程实现。论文声称的“隐私保护”主要基于信息压缩导致的重建困难(见图10),这是一种弱化的安全假设,而非经过严格密码学或对抗攻击验证的保障。对于顶会论文而言,这种论证略显单薄。实验虽然全面,但缺少在真实、动态的网络环境和多样化的边缘硬件上进行端到端延迟和功耗测试,这使得“边缘计算”的宣称有些理想化。整体而言,这是一篇扎实的系统论文,但理论深度和安全验证的严谨性有待加强。 📌 核心摘要 本文提出了ESRT(Edge-cloud Speech Recognition and Translation),一个隐私保护且带宽高效的边缘-云协同多方语音转文本翻译(S2TT)框架。该框架采用分割推理架构:在边缘设备部署轻量级的Whisper语音编码器和基于Q-Former的语音适配器,仅将高度压缩的声学特征(40或80个token)传输至云端,由云端大型语言模型(LLM,基于MiLMMT/Gemma-3)完成翻译解码。为支持45种语言的多方翻译并克服英语中心偏见,论文引入了改进的多任务加权课程学习策略(分三阶段,动态整合ASR、SMT、SRT任务)。在FLEURS数据集上的实验表明,ESRT-4B和ESRT-12B在45×44个翻译方向上达到了当时的最先进(SOTA)性能,显著优于多种基线模型,并证明了框架在隐私(防止声纹泄露)和带宽(高达15.6倍压缩)方面的有效性。 🔗 开源详情 代码:https://github.com/yxduir/esrt 模型权重:论文中承诺开源模型,并指向同一GitHub仓库(https://github.com/yxduir/esrt),但未单独列出HuggingFace或ModelScope等托管平台的权重下载链接。 数据集: FLEURS: https://huggingface.co/datasets/google/fleurs CommonVoice 24: https://datacollective.mozillafoundation.org/datasets?q=common+voice CoVoST-2: https://github.com/facebookresearch/covost Demo:论文中未提及。 复现材料:论文中提供了详细的训练配置(表I, II, III, V),并声称开源训练和推理框架。完整的训练脚本、依赖环境及详细文档可能包含在代码仓库中,但未提供独立的复现指南链接。 论文中引用的开源项目: Whisper: 来自OpenAI,论文中未提供GitHub链接。 NLLB-200: 作为对比基线,论文中未提供项目链接。 LLaMAX3: 作为对比基线,论文中未提供项目链接。 SeamlessM4T-V2: 作为对比基线,论文中未提供项目链接。 MiLMMT: 作为基础LLM,源自Gemma-3,论文中未提供MiLMMT的具体代码链接。 Gemma-3: 作为基础模型,论文中未提供其具体链接。 LoRA: 作为微调方法,论文中未提供具体实现仓库链接。 Q-Former: 作为语音适配器的核心组件,论文中未提供其原始实现仓库链接。 🏗️ 方法概述和架构 ESRT的核心是边缘-云协同的分割推理架构(如图3所示),旨在平衡性能、隐私和带宽。 ...

2026-05-28 · 更新于 2026-06-19 · 2 min · 257 words