JenBridge: Adaptive Long-Form Video Soundtracking across Scene Transitions

📄 JenBridge: Adaptive Long-Form Video Soundtracking across Scene Transitions #音乐生成 #多模态模型 #大语言模型 #基准测试 7.3/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7.3/10 | 前25% | #音乐生成 | #多模态模型 | #大语言模型 #基准测试 | arxiv 👥 作者与机构 作者:Jiashuo Yu, Yao Yao, Boyu Chen, Alex Wang 机构:Jen Music AI 💡 毒舌点评 这篇论文试图解决一个实际且重要的问题——长视频的连贯配乐,并提出了一个模块化的框架。其核心创意“LLM导演自适应过渡”确实新颖且吸引眼球,构建新基准的贡献也值得肯定。然而,论文在将这一创意落实为坚实技术贡献时,暴露出明显的短板。首先,对核心的LLM Agent决策能力的评估过于粗糙,缺乏对其鲁棒性和失败案例的深入剖析,仅凭几个精心挑选的定性案例和整体分数提升,难以证明其在复杂现实场景下的有效性。其次,作为技术核心的“生成式过渡模型”,其具体实现细节(如何将ControlNet用于音乐修补、‘无训练适配’的具体含义)语焉不详,这直接影响了方法的可复现性和技术深度。再者,完全忽略视频中已存在的音频信息(如对话),使得这个号称“端到端”的框架在面对真实世界复杂内容时显得天真和不完整。最后,对视频分割这一起始步骤的潜在影响缺乏任何敏感性分析,这是一个不可忽视的系统漏洞。总的来说,论文提出了一个有趣的系统框架,但未能充分证明其核心组件的鲁棒性和全面性,技术细节的缺失也削弱了其严谨性。 📌 核心摘要 针对长视频配乐中场景切换时音乐连贯性差的挑战,本文提出了JenBridge框架。该框架采用模块化设计,首先将长视频分割为语义片段,然后为每个片段独立生成音乐,最后通过一个自适应过渡机制将音乐片段连接成连贯的长片段。其核心创新点在于设计了一种新颖的自适应过渡机制:该机制包含一个提供四种过渡风格(突变、静音、淡入淡出、生成式过渡)的“工具包”,并独特地利用一个大语言模型(LLM)作为“导演”,根据前后片段的视觉和音乐上下文智能选择最合适的过渡方式。此外,为评估该任务,论文提出了首个专门的长视频配乐基准测试集(LVS Benchmark),包含精心策划的数据和新的评估范式。实验证明,JenBridge在客观指标和主观评估上均显著优于现有方法,尤其在“过渡自然度”和“制作复杂度”上优势明显。 ...

2026-06-02 · 更新于 2026-06-12 · 2 min · 357 words

RRP-Voice: A Longitudinal Dataset and Benchmark for Recurrent Respiratory Papillomatosis Detection

📄 RRP-Voice: A Longitudinal Dataset and Benchmark for Recurrent Respiratory Papillomatosis Detection #数据集 #基准测试 8.3/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8.3/10 | 前50% | #数据集 | #自监督学习 | #基准测试 | arxiv 👥 作者与机构 Wenze Ren¹, Ke-Han Lu¹, Kai-Wei Chang⁴, Tiantian Feng⁷, Ching Fang⁸, Zhi-Chi Liao², Dao Thi Hai Yen², Syu-Siang Wang⁶, Yu Tsao³, Chi-Te Wang⁵, Shih-Hau Fang² ¹ National Taiwan University, ² National Taiwan Normal University, ³ Academia Sinica, ⁴ Massachusetts Institute of Technology, ⁵ Far Eastern Memorial Hospital, ⁶ Yuan Ze University, ⁷ University of Southern California, ⁸ Taipei Municipal Zhongshan Girls High School ...

2026-06-02 · 更新于 2026-06-12 · 5 min · 854 words

语音/音乐/音频论文速递 2026-06-02

语音/音乐/音频论文速递 2026-06-02 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 9篇 █████████ #语音合成 5篇 █████ #自监督学习 2篇 ██ #多模态模型 2篇 ██ #音频分类 2篇 ██ #计算机视觉 1篇 █ #音乐推荐 1篇 █ #语音编辑 1篇 █ 📊 论文评分排行榜(35 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Project SPARROW and the Future of Conservation Technolo 10.0分 前50% #计算机视觉 🥈 Multimodal Music Recommendation System using LLMs 10.0分 前50% #音乐推荐 🥉 Sympatheia: Emotionally Adaptive Voice Assistant with C 9.6分 前25% #语音合成 4. MOSS-Audio Technical Report 9.2分 前25% #语音识别 5. UniVocal: Unified Speech-Singing Code-Switching Synthes 8.9分 前25% #语音合成 6. PolySpeech-100: A Large-Scale Benchmark for Speech Unde 8.8分 前50% #语音识别 7. SpeechEditBench: A Bilingual Multi-Attribute Benchmark 8.7分 前25% #语音编辑 8. Context-aware child-directed speech detection from long 8.5分 前25% #自监督学习 9. RRP-Voice: A Longitudinal Dataset and Benchmark for Rec 8.3分 前50% #数据集 10. MURMUR: An Efficient Inference System for Long-Form ASR 8.3分 前50% #语音识别 11. Local Diagnostics of Continuous Normalizing Flow for Ou 8.1分 前50% #语音合成 12. WAXAL-NET: Finetuned Edge ASR Across 19 African Languag 8.0分 前25% #语音识别 13. Dynamic Interaction-Aware and Causality-Disentangled Fr 7.8分 前25% #多模态模型 14. Temporally-Aligned Evaluation for Audio-Driven Talking 7.6分 前25% #语音合成 15. HAIM: Human-AI Music Datasets for AI Music Production T 7.5分 前50% - 16. Spiking and Event-driven Neuromorphic Mamba Models for 7.5分 前50% #语音识别 17. JenBridge: Adaptive Long-Form Video Soundtracking acros 7.3分 前25% #音乐生成 18. MelT: GEMM-Native NDFT for Efficient Single-Stage Audio 7.3分 前50% #信号处理基础 19. Description and Discussion on DCASE 2026 Challenge Task 7.2分 前50% #无监督学习 20. SALSA: Speech Aware LLM Adaptation via Learned Steering 7.2分 前25% #语音识别 21. Advancing Electrolaryngeal Speech Enhancement Through S 7.1分 前50% #语音增强 22. DUET: Unified Dual-Space Emotion Control for Diffusion 7.1分 前25% #语音合成 23. When Tabular Foundation Models Transfer Across Modaliti 7.1分 前50% #音频分类 24. Echo: A Joint-Embedding Predictive Architecture for Spe 7.0分 前50% #语音识别 25. AnyMo: Scaling Any-Modality Conditional Motion Generati 7.0分 前50% #多模态模型 26. Kinship Verification Using Voice 6.9分 前50% #声纹识别 27. Quality Audio Prototyping: a prototype system for unifi 6.9分 前50% #音频检索 28. A Lightweight Slot-Attention Framework for Multi-Instru 6.7分 前50% #音乐信息检索 29. A 1000-hour EEG-EMG-audio dataset of Japanese speech pr 6.5分 前50% - 30. DAStatFormer: A Hybrid Multibranch Transformer with Sta 6.4分 前50% #音频事件检测 31. Parameter-efficient Dual-encoder Architecture with Diff 6.4分 前25% #音频分类 32. Beyond the Mouth: Upper-Face Affective Cues in Audiovis 5.5分 前50% #语音识别 33. SN-WER: Script-Normalized WER for Multi-Script Indic AS 5.3分 前50% #语音识别 34. Privacy-preserving Prosody Representation Learning 4.9分 前50% #自监督学习 35. AI Slop or AI-enhancement? Student perceptions of AI-ge 3.7分 后50% - 📋 论文列表 🥇 Project SPARROW and the Future of Conservation Technology 10.0/10 | 创新 2.0/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1.0/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-02 · 更新于 2026-06-12 · 21 min · 4469 words

3DAE: Binaural Quality Assessment for Audio Novel View Synthesis with Spatial Maps and Benchmark

📄 3DAE: Binaural Quality Assessment for Audio Novel View Synthesis with Spatial Maps and Benchmark #音频质量评估 #基准测试 ✅ 6.5/10 | 前50% | #音频质量评估 | #基准测试 | arxiv 学术质量 6.5/7 | 影响力 6.0/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 作者:Jialu Xu, Yifan Zhou (共同一作) 机构:滑铁卢大学 💡 毒舌点评 这篇论文解决了一个真实存在的痛点:现有全局指标(如 RMSE)掩盖了错误来源,让模型调优如同盲人摸象。提出的框架在诊断性和可视化上做得不错,尤其是“警告感知”的逻辑是个贴心设计,避免将时间偏移误诊为频谱问题。然而,作为一篇工具论文,其技术深度和实验广度都稍显不足。框架的核心是多个误差指标的“打包”与一个启发式的归因规则,缺乏理论上的突破。实验部分仅在一个模型(ViGAS)和两个数据集上进行了演示,虽然展示了问题,但说服力有限。最大的遗憾是未开源代码,这让一个以“基准测试”为名的工作大打折扣——谁来用你的基准?此外,讨论部分有些自说自话,与传统指标的对比停留在定性层面,缺乏定量的对比实验。总的来说,它是一个有用的工具雏形,但距离成为一个被广泛采纳的“标准”还有相当距离。 📌 核心摘要 本文针对音频新视角合成(Audio Novel View Synthesis)模型评估中全局指标(如波形 RMSE、STFT 误差)无法定位和解释双耳预测误差具体来源的问题,提出了一个全参考的诊断框架。该框架包含两个核心组件:1)3DAE Map:一个交互式的三维时频诊断工具,可生成包括幅度、ILD、IPD、时间对齐、响度、高频损失在内的多种误差图。2)3DAE Bench:一个模型无关的基准测试系统,可自动计算多维误差分数向量,识别主导故障模式(如时间偏移、ILD 失配),并输出包含“警告”的分析报告,以避免将严重的时间或响度偏差错误归因于频谱误差。实验使用 ViGAS 模型在 Replay-NVAS(真实场景)和 SoundSpaces-NVAS(合成场景)数据集上进行评估,揭示了同一模型在不同数据集上主导故障模式的差异(时间偏移 vs. ILD 失配),证明了单一全局指标的不足。 🔗 开源详情 代码:论文中未提供任何代码链接或仓库。尽管详细描述了 3DAE Bench 的设计和流程,但未提供可执行代码。 模型权重:论文中未提及提供 ViGAS 或其他模型的权重下载链接。实验使用的是开源模型 ViGAS 的输出。 数据集:论文中引用了两个开源数据集,但未在文中提供直接的下载链接。获取这些数据集需要查阅对应的原始论文。 Replay-NVAS [17] SoundSpaces-NVAS [6] Demo:论文中未提及在线演示或本地可运行的 Demo。 复现材料:论文中未提供。尽管方法部分足够详细,理论上可以复现核心算法,但未提供训练配置、检查点、环境配置或可直接运行的脚本。可视化界面(附录 A)的具体实现代码也未提供。 论文中引用的开源项目: ViGAS [5]:论文使用了该模型的输出进行评估,但未提供其代码或主页链接。 Replay-NVAS [17]:论文引用了该数据集,但未提供链接。 SoundSpaces-NVAS [6]:论文引用了该数据集,但未提供链接。 3D Gaussian splatting [10]:仅作为类比提及,未提供链接。 其他在相关工作中引用的项目(如文献 [2], [3], [4], [7], [8], [11], [12], [13], [14], [16]),论文中均未提供对应的开源项目链接。 🏗️ 方法概述和架构 本文提出的方法是一个由诊断可视化工具(3DAE Map)和基准测试系统(3DAE Bench)构成的全参考评估框架。其核心设计遵循“验证-诊断-评分-归因”的流程,旨在系统性地揭示双耳预测错误的具体来源。 ...

2026-06-01 · 更新于 2026-06-12 · 3 min · 464 words

A Unified and Reproducible Experimentation Framework for Speech Understanding

📄 A Unified and Reproducible Experimentation Framework for Speech Understanding #语音识别 #语音合成 #语音情感识别 #语音翻译 #低资源 #基准测试 📝 5.5/10 | 前50% | #语音识别 | #语音合成 | #语音情感识别 #语音翻译 | arxiv 学术质量 5.5/7 | 影响力 5.0/2 | 可复现性 1.5/2 | 置信度 中 👥 作者与机构 论文作者来自上海交通大学X-LANCE实验室、南京大学、杭州电子科技大学、香港中文大学(深圳)以及AISpeech Ltd。主要联系人为上海交通大学的Peng Du和Kai Yu。 💡 毒舌点评 这篇工作本质上是一份详尽的“实验工具使用说明”和“初步评测报告”,而非一篇技术方法论或系统性突破的论文。它正确地指出了语音理解领域评测标准不统一、结果不可比和训练难复现的痛点,但给出的解决方案——一个评测框架和一套转换脚本——更像是一个工程团队或社区维护的“基础设施”,而非NeurIPS级别论文应有的理论或算法贡献。核心“创新”在于“统一”和“标准化”,但这些都是朴素且早该做的事情。最大的亮点是那个“智能体辅助转换流水线”,这听起来很时髦,但论文里只用了两个模型做了个“概念验证”,说服力严重不足。整篇论文读起来像是一个大型项目README的学术化版本,充满了链接、格式说明和“我们发布了…”的宣告。给5.5分,是对其指出正确问题并迈出第一步的鼓励,但其学术贡献的深度和广度远未达到顶会论文的标准。 📌 核心摘要 针对语音理解领域模型评估标准不统一、结果不可比以及训练过程难以复现的问题,本文提出了一个名为SURE的统一实验框架。该框架通过三个核心赛道进行设计:1) 面向真实场景的前端语音任务压力测试(Track I);2) 全栈语音理解能力的横向对比评估(Track II);3) 通过智能体辅助的代码转换流程,实现基于统一协议和开源数据的受控从头训练初步探索(Track III)。框架提供了统一的预测格式、归一化方法、评分脚本及动态的相对性能评分(RPS)指标。实验发现,在干净条件下级联管道在核心感知任务上仍有竞争力,情感识别是普遍挑战,且初步的受控训练结果显示不同模型在各任务上表现与其设计重点相关。 🔗 开源详情 代码: 项目主页:https://sure-eval-framework.github.io/speechllm_series/ 统一评估流水线:https://anonymous.4open.science/r/evaluation-pipeline-839C 代理辅助训练转换流水线:https://anonymous.4open.science/r/ReproAgent-9898 模型权重:论文中未提及开源模型权重。 数据集:论文中提及了多个开源数据集(VoxPopuli-en, AISHELL-5, AMI, AliMeeting, CS-Dialogue, KeSpeech, ContextASR, LibriSpeech, AISHELL-1, CoVoST2, IEMOCAP, MELD, SLURP, MMSU-Reason),并指出测试和训练套件已发布在ModelScope:https://modelscope.cn/datasets/SUREBenchmark/SURE_Test_Suites。 Demo:论文中未提及。 复现材料:论文未提供具体的训练配置、检查点或附录链接。但论文详细描述了代理辅助转换流程,该流程可将论文和代码转换为可运行的swift训练流程,并提供版本化的转换计划和验证报告。 论文中引用的开源项目: meeteval:用于计算DER和cpWER的后端工具。 sacrebleu:用于计算BLEU和chrF2的工具。 swift:用于可控训练的开源框架。 (注:以上工具在论文脚注中提供了链接) 🏗️ 方法概述和架构 SURE是一个端到端的实验套件,其核心架构分为统一评估流水线和智能体辅助训练转换流水线两大部分。 ...

2026-06-01 · 更新于 2026-06-12 · 3 min · 535 words

语音/音乐/音频论文速递 2026-06-01

语音/音乐/音频论文速递 2026-06-01 共分析 23 篇论文 ⚡ 今日概览 📥 抓取 23 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 6篇 ██████ #音乐生成 3篇 ███ #语音翻译 2篇 ██ #语音识别 2篇 ██ #自监督学习 1篇 █ #口音识别 1篇 █ #生成对抗网络 1篇 █ #音频事件检测 1篇 █ 📊 论文评分排行榜(23 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Chatterbox-Flash: Prior-Calibrated Block Diffusion for 10.0分 前25% #语音合成 🥈 UniAudio-Token: Empowering Semantic Speech Tokenizers w 10.0分 前25% #语音合成 🥉 Escaping the Linearity Trap: Manifold Detours for Black 9.7分 前25% #自监督学习 4. ImmersiveTTS: Environment-Aware Text-to-Speech with Mul 9.3分 前25% #语音合成 5. SwanVoice: Expressive Long-Form Zero-Shot Speech Synthe 8.9分 前50% #语音合成 6. AnchorSteer: Self-Discovered Concept Injection for Stru 8.6分 前50% #音乐生成 7. MindVoice: Reconstructing Intelligible Speech from Non- 8.5分 前25% #语音合成 8. Extracting accent features in spoken Brazilian Portugue 8.3分 前50% #口音识别 9. UNISON: A Unified Sound Generation and Editing Framewor 8.2分 前25% #语音合成 10. FiPA-SR – FiLM-Conditioned Perceptually Informed Audio 8.1分 前25% #生成对抗网络 11. DOA: Training-Free Decoder-Only Attention Policy for Lo 7.8分 前25% #语音翻译 12. GaMi: Geometry-Agnostic Material Identification via Cro 7.8分 前50% - 13. Improving acoustic drone detection generalization throu 7.7分 前50% #音频事件检测 14. Audio Pirates: Black-box Audio Watermark Removal via Di 7.4分 前25% #扩散模型 15. Latent Space Disentanglement via Activation Steering fo 7.3分 后50% #音乐生成 16. Scaling Conversational Hungarian ASR: The BEA-Dialogue+ 7.2分 前50% #语音识别 17. On the Use of Dereverberation for Acoustic Feedback Can 6.7分 前50% #语音增强 18. Towards Streaming Synchronized Spatial Audio Generation 6.5分 前50% #自回归模型 19. 3DAE: Binaural Quality Assessment for Audio Novel View 6.5分 前50% #音频质量评估 20. OpenSTBench: Beyond Semantic Evaluation for Speech Tran 6.0分 前50% #语音翻译 21. Sound effects in media:A comparative analysis of record 5.7分 前50% #音频生成 22. Mental Damage: Caption Poisoning Attacks on Retrieval-A 5.6分 前50% #音乐生成 23. A Unified and Reproducible Experimentation Framework fo 5.5分 前50% #语音识别 📋 论文列表 🥇 Chatterbox-Flash: Prior-Calibrated Block Diffusion for Streaming Zero-Shot TTS 🔥 10.0/10 | 前25% | #零样本语音合成 | #Transformer | #块扩散解码 #流式处理 | arxiv ...

2026-06-01 · 更新于 2026-06-12 · 12 min · 2552 words

DirectorBench: Diagnosing Long-Form Video Generation with Personalized Multi-Agent Evaluation

📄 DirectorBench: Diagnosing Long-Form Video Generation with Personalized Multi-Agent Evaluation #基准测试 #大语言模型 🔥 9.8/10 | 前25% | #基准测试 | #大语言模型 | arxiv 学术质量 6.4/7 | 影响力 1.7/2 | 可复现性 1.7/2 | 置信度 高 👥 作者与机构 第一作者:Jiamin Chen 机构:ByteDance Inc., City University of Hong Kong 通讯作者:Wangchunshu Zhou (chunshu@bytedance.com) arXiv ID: 2605.30090 💡 毒舌点评 这篇论文精准地戳中了当前长视频生成评估的痛点——大家都在卷单帧质量或短片,但长视频真正的败笔往往在镜头间的“缝合”和“转场”,以及千人千面的用户偏好被粗暴地平均化。DirectorBench 提供了一个系统、可诊断且个性化的评估框架,这比给出一个单一的、看起来很漂亮但毫无解释力的总分要有用得多。作者的实验设计逻辑清晰,三个RQ层层递进,得出了关于工作流设计比模型选择更重要、瓶颈在“单元间”等具有指导意义的结论。然而,该基准自身的可靠性验证(评估者间一致性、工具准确性)尚未充分展示,且个性化评估的深度(如何影响瓶颈识别)还有挖掘空间。总的来说,这是一个扎实且及时的工作,为长视频生成的迭代改进提供了关键的诊断工具。 📌 核心摘要 本文提出了DirectorBench,一个用于诊断长视频生成的个性化多智能体评估基准。该基准旨在克服现有评估方法聚焦短片视觉质量、忽略工作流故障诊断和用户偏好差异的局限。核心设计是将评估形式化为 \(f(\mathbf{m}, \mathbf{u}, \mathcal{G}) \rightarrow \mathcal{R}\),即根据结构化元数据(\(\mathbf{m}\))和用户配置(\(\mathbf{u}\))来评估生成系统(\(\mathcal{G}\))并产出诊断报告(\(\mathcal{R}\))。Benchmark由80个结构化元数据条目、7个用户配置文件和40个检查点标准构成,涵盖脚本、视觉、音频、跨模态和稳定性五大维度。其核心创新在于:1) 诊断式评估:通过动态激活适用的检查点,定位具体的失败瓶颈(如镜头间过渡质量差),而非仅输出聚合分数;2) 个性化评估:引入用户配置文件,表明同一生成内容在不同用户偏好下质量评分存在显著差异,单一通用分数无法捕捉这种变化。通过对4种工作流、6个基础LLM和7个用户配置的实验,发现:工作流架构是生成质量的主要决定因素;当前各工作流的共同瓶颈在于单元间的过渡和跨模态一致性,而非单帧质量;基础LLM的选择主要影响叙事推理和跨模态对齐;个性化评估揭示了显著的用户依赖型质量差异。人工评估验证了DirectorBench在维度层面与人类判断的对齐。 🔗 开源详情 代码:https://github.com/jiaminchen-1031/DirectorBench 模型权重:未提供(评估使用的基座大语言模型均为闭源模型,如GPT-5.4等)。 数据集:https://huggingface.co/datasets/Jiamin1031/DirectorBench Demo:未提及 复现材料:论文提供了详细的复现材料,包括: 元数据条目:80个结构化元数据条目(完整示例见附录A)。 用户配置文件:7个详细的用户配置文件规范(见附录B,包含优先级权重、硬约束和用户品味描述)。 检查点分类法:40个检查点的完整分类注册表(见附录C,组织为维度、子指标、检查点)。 内容分析属性:用于动态检查点激活的18个内容分析属性列表(见附录D)。 评估流水线:基于LangGraph的多智能体评估流水线的详细描述(DAG结构、四个阶段)。 论文中引用的开源项目(未提供具体GitHub链接): ViMax:一个开源的“分解-拼接”视频生成流水线。 MovieAgent:一个开源的角色感知视频生成规划器。 PySceneDetect:用于镜头分割。 OpenCV:用于视频处理和边界度量计算。 Librosa:用于音频特征提取。 MobileViCLIP-Small:用于文本-视频相似度计算。 Sentence-BERT:用于文本-音频语义相似度计算。 LangGraph:用于构建评估流水线的有向无环图(DAG)。 ffprobe/ffmpeg:用于视频探测和音频提取。 🏗️ 方法概述和架构 DirectorBench的评估框架(如图1所示)是一个分层、多阶段的系统,其核心是将“生成-评估”循环形式化。框架的核心组件和流程如下: ...

2026-05-29 · 更新于 2026-06-12 · 1 min · 209 words

OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants

📄 OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants #多模态模型 #基准测试 #语音识别 #语音合成 ✅ 7.8/10 | 前50% | #语音识别 | #多模态模型 | #基准测试 #语音合成 | arxiv 学术质量 4.9/7 | 影响力 1.2/2 | 可复现性 1.7/2 | 置信度 高 👥 作者与机构 作者:Xudong Lu, Xueying Li, Annan Wang, Yang Bo, Jinpeng Chen, Zengliang Li, Nianzu Yang, Rui Liu, Xue Yang, Jingwen Hou, Hongsheng Li 机构:CUHK MMLab (香港中文大学多媒体实验室), SJTU (上海交通大学), NTU (南洋理工大学), McMaster (麦克马斯特大学), CityUHK (香港城市大学), JUFE (江西财经大学) ...

2026-05-29 · 更新于 2026-06-12 · 2 min · 416 words

语音/音乐/音频论文速递 2026-05-29

语音/音乐/音频论文速递 2026-05-29 共分析 20 篇论文 ⚡ 今日概览 📥 抓取 20 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 5篇 █████ #语音识别 5篇 █████ #音频生成 2篇 ██ #基准测试 1篇 █ #多模态模型 1篇 █ #音频分类 1篇 █ #音频深度伪造检测 1篇 █ #语音情感识别 1篇 █ 📊 论文评分排行榜(20 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 DirectorBench: Diagnosing Long-Form Video Generation wi 9.8分 前25% #基准测试 🥈 Benchmarking Single-Factor Physical Video-to-Audio Gene 9.0分 前25% #音频生成 🥉 Audio Jailbreaks in Large Audio-Language Models: Taxono 8.9分 前25% #多模态模型 4. HoliTok:A Coutinuous Holistic Tokenization with Robust 8.6分 前25% #语音合成 5. Dial HEALTHDIAL for Advice: A Multilingual and Multi-Pa 8.6分 前25% #语音合成 6. Mitigating Stethoscope-Induced Shortcuts in Respiratory 8.5分 前25% #音频分类 7. Audio Deepfake Detection with Half-Truth Localisation U 8.4分 前50% #音频深度伪造检测 8. ChildVox: A Speech, Audio, and Large Audio-Language Mod 8.0分 前25% #语音识别 9. State-Anchored Complete-View Distillation for Robust Co 8.0分 前50% #语音情感识别 10. VideoFDB: Evaluating Full-Duplex Vision-Speech Capabili 7.9分 前25% #语音合成 11. Native Audio-Visual Alignment for Generation 7.8分 前50% #音频生成 12. OmniInteract: Benchmarking Real-World Streaming Interac 7.8分 前50% #语音识别 13. MusTBENCH: Benchmarking and Advancing Temporal Groundin 7.5分 前50% #音乐生成 14. Archon: A Unified Multimodal Model for Holistic Digital 7.5分 前50% #语音合成 15. MELD: Mel-Spectrogram-Based Speech Language Modeling wi 7.3分 前50% #语音合成 16. The WER Trap: Shattering the Illusion of Unified Tokens 7.0分 前50% #语音识别 17. Decoding Strategies for Diffusion-Based ASR: A Systemat 6.8分 前50% #语音识别 18. COMET: Concept Space Dissection of the Modality Gap in 6.5分 前50% #音频检索 19. AgentHijack: Benchmarking Computer Use Agent Robustness 5.6分 前50% - 20. Data-Efficient On-Policy Distillation for Automatic Spe 5.1分 前50% #语音识别 📋 论文列表 🥇 DirectorBench: Diagnosing Long-Form Video Generation with Personalized Multi-Agent Evaluation 🔥 9.8/10 | 前25% | #音视频 | #多智能体评估 | #视频生成 #多模态生成评估 | arxiv ...

2026-05-29 · 更新于 2026-06-12 · 10 min · 2103 words

AgenticVBench: Can AI Agents Complete Real-World Post-Production Tasks?

📄 AgenticVBench: Can AI Agents Complete Real-World Post-Production Tasks? #基准测试 #多模态模型 ✅ 7.0/10 | 前50% | #基准测试 | #多模态模型 | arxiv 👥 作者与机构 作者:Zongheng Cao, Yi Zheng, Rui Song, Xinyu Hu 机构:Philo Labs Research (research@philolabs.ai) 💡 毒舌点评 这篇论文做了一个视频后期制作的AI智能体评测基准,这事儿挺有意思,因为之前的评测要么是问答,要么是写代码,没人认真搞过这种“从剪辑到成片”的全流程活儿。作者拉了20个行业专家来设计任务,看起来挺像那么回事。但是,顶会审稿人会一眼看穿:这本质上是一个工程驱动的评测集构建工作,而非方法创新。论文最大的价值在于“发现”和“定义”了当前AI智能体在视频制作领域的无能——最佳模型组合得分才31%,人类能到90%左右,这差距大得令人尴尬。然而,这种发现本身并不令人意外,更像是对现状的一次确认。论文在框架(harness)上的分析(如图4)是亮点,指出了“框架作为一等公民变量”这个被忽视的点。但分析深度有限,更多是现象描述而非机制挖掘。最大的槽点在于,作为一个评测基准,其可复现性和生态构建严重不足——没有公开的代码、模型权重、数据集包,只有一个官网链接。这在2025年的顶会是难以接受的。此外,对“过程智能”评估的缺失,使得这个基准更像一个“黑箱输出评分器”,而非理解AI行为的透镜。总结:一篇合格但不出彩的系统工作,适合作为行业参考,但离顶会追求的“深刻洞见”或“可复用框架”尚有距离。 📌 核心摘要 本文提出了AgenticVBench,一个用于评估AI智能体在真实世界视频后期制作工作流中能力的基准测试。该基准包含100个任务,涵盖组装(Assembly)、修复(Repair)、排序(Sequencing)和再利用(Repurpose)四个任务家族,任务由20位平均拥有6年专业经验的行业专家设计并提供评估标准。对7个前沿视觉语言模型(VLM)和5种工具框架(harness)的评估表明,当前最先进的智能体系统在这些复杂、长时程的多模态任务上表现远未达到人类专家水平,最佳智能体组合的平均得分仅为31%,而人类专家得分在81%-95%之间,存在43-65个百分点的差距。研究进一步揭示,智能体框架的设计对最终性能有显著影响,甚至能决定模型能力的发挥程度。 🔗 开源详情 代码:论文中未提及 AgenticVBench 基准测试代码本身的具体仓库链接(如 GitHub)。论文仅提供了一个项目主页:https://agenticvbench.com。 模型权重:论文中未提及。论文评估的模型(如 Claude Opus 4.7, GPT-5.5, Gemini 3.1 Pro, Qwen3-VL-235B-A22B-Instruct)均为商业模型或通过 API 访问的开源模型,未提供其权重文件的直接下载链接。 数据集:论文中未提及独立的可下载数据集包链接。论文说明任务构建所用的源视频均来自公开渠道(例如:2025 Runway AI Film Festival 提交作品、电影、动画、新闻、YouTube 内容等),但未提供这些原始素材或处理后的基准测试数据的打包下载地址(如 HuggingFace 数据集页面)。论文声称在发布时提供源视频、任务提示和评估脚本,但未指明具体托管位置。 Demo:论文中未提及在线演示链接。仅提供了项目主页:https://agenticvbench.com。 复现材料:论文中未提及单独的复现材料包(如检查点、配置文件)。论文在附录中详细描述了实验设置(模型、硬件、工具链版本、评估配置等),但未提供复现所需的代码和数据。 论文中引用的开源项目: OpenClaw:论文中评估的开源 harness,未给出具体 URL。 OpenCode:论文中评估的开源 harness,未给出具体 URL。 Claude Code CLI:Anthropic 提供的原生 CLI 工具,未给出具体 URL。 Codex CLI:OpenAI 提供的原生 CLI 工具,未给出具体 URL。 Gemini CLI:Google 提供的原生 CLI 工具,未给出具体 URL。 ffmpeg/ffprobe:用于视频/音频处理的知名开源工具,官网链接:https://ffmpeg.org/。 Whisper:OpenAI 开源的语音识别模型,GitHub 链接:https://github.com/openai/whisper。 gTTS (Google Text-to-Speech):Python 文本转语音库,PyPI 链接:https://pypi.org/project/gTTS/。 Nano Banana Pro:用于生成干扰项的图像生成模型,论文中未给出具体链接。 Seedance 2.0:用于生成干扰项的视频生成模型,论文中未给出具体链接。 🏗️ 方法概述和架构 本文提出的方法是一个基于专家经验的视频后期制作智能体评测基准(Benchmark)的构建与评估流程,而非一个新的AI模型或算法。其核心架构是构建一个能系统测试AI智能体在多步骤、多模态生产任务中表现的标准化环境。 ...

2026-05-28 · 更新于 2026-06-12 · 2 min · 373 words