SVHalluc: Benchmarking Speech-Vision Hallucination in Audio-Visual Large Language Models

📄 SVHalluc: Benchmarking Speech-Vision Hallucination in Audio-Visual Large Language Models #语音识别 #多模态模型 8.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.7/10 | 前25% | #语音识别 | #多模态模型 | arxiv 👥 作者与机构 作者:Chenshuang Zhang, Kyeong Seon Kim, Chengxin Liu, Tae-Hyun Oh 机构:KAIST 💡 毒舌点评 这篇论文填补了一个明显但重要的空白:当前的音频-视觉幻觉基准大多盯着狗叫警笛,而忽略了更复杂、更日常的语音内容本身可能引发的“胡说八道”。作者很敏锐地抓住了这一点。然而,作为一个基准测试论文,它的“方法”本质上是一套精心设计的问卷和数据构建流水线,技术深度有上限。最大的槽点在于数据集完全依赖YouCook2,这意味着评测场景被锁定在“厨房教学解说”这一高度同质化的模式上,对现实世界中多变的语音风格(对话、旁白、嘈杂环境)和视频内容的泛化能力存疑。所有任务都用选择题,这更像是在测“辨别力”而非真正的“生成式幻觉”,可能高估了模型在实际对话场景中的可靠性。尽管如此,它系统性地揭示了开源模型在语音-视觉对齐上的无能,以及与商业模型的巨大鸿沟,这点功劳必须认可。 📌 核心摘要 本文指出,现有的音频-视觉大语言模型(AV-LLMs)幻觉基准主要评估环境声音(如狗叫)引发的幻觉,忽略了人类语音内容本身蕴含的丰富语义和时间结构可能导致的、更根本的跨模态对齐失败。为此,作者提出了SVHalluc,这是首个专门评估AV-LLMs中语音-视觉幻觉的综合基准。该基准从“语义幻觉”和“时间幻觉”两个互补维度进行诊断,并分别为每个维度设计了三个由粗到细的任务(共六个)。在六个开源及商业AV-LLMs上的零样本评估表明,开源模型在多个任务上表现接近随机猜测,而Gemini 2.5 Pro显著优于所有开源模型,揭示了巨大差距。深入分析表明,模型失败的根源在于有限的跨模态信息整合与推理能力,而非单模态感知(如语音识别)的不足。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及具体模型权重的下载链接。论文评估了多个开源模型(Qwen3-Omni, Qwen2.5-Omni, video-SALMONN 2, VideoLLaMA 2)和商业模型(Gemini 2.5 Pro),但未提供它们的HuggingFace或ModelScope链接。 数据集:论文构建了名为 SVHalluc 的基准数据集。该数据集基于公开的 YouCook2 数据集构建,使用了其验证集,并通过自动化流程(使用Whisper模型进行语音转写,GPT模型辅助生成负样本)进行增强。论文中未提供SVHalluc数据集本身的直接下载链接,但提供了项目主页:https://chenshuang-zhang.github.io/projects/svhalluc/,可能包含获取信息。 Demo:论文中未提及。 复现材料: 数据集构建细节:论文详细描述了SVHalluc数据集的自动构建流程,包括使用GPT模型提取动作和对象的提示词(见附录B)、数据集质量控制策略(见附录C)。 评估指标:对于二分类任务,报告了准确率、精确率、召回率和F1分数;对于多分类任务,报告了准确率。 实验设置:论文明确指出所有评估均在零样本(zero-shot)设置下进行,无需额外训练。 论文中引用的开源项目: YouCook2: 数据集。论文中用于构建SVHalluc基准。未提供直接链接。 Whisper: 自动语音识别模型。论文中用于获取视频的语音转录文本。项目链接:https://github.com/openai/whisper Silero-VAD: 语音活动检测模型。论文中用于生成语音活动检测的伪标签,以评估模型的时间定位能力。项目链接:https://github.com/snakers4/silero-vad 🏗️ 方法概述和架构 本文提出的方法是构建名为SVHalluc的基准测试,用于诊断AV-LLMs中的语音-视觉幻觉。其核心架构与流程可分为两个主要部分:基准任务设计和数据集构建流水线。 ...

2026-06-03 · 更新于 2026-06-19 · 2 min · 375 words

The DeepSpeak-Agentic Dataset

📄 The DeepSpeak-Agentic Dataset #语音合成 #语音识别 #多模态模型 8.7/10 | 创新 1.6/2 | 严谨 1/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.7/10 | 前50% | #语音合成 | #语音识别 | #多模态模型 | arxiv 👥 作者与机构 Sarah Barrington (University of California, Berkeley), Maty Bohacek (Stanford University), Hany Farid (University of California, Berkeley). *表示共同第一作者。 💡 毒舌点评 这篇论文做了一件重要且及时的事:为快速兴起的实时交互式AI代理建立一个大规模、多模态的数据集。数据集本身(37小时视听对话)和为构建它而设计的自动化系统是主要贡献。然而,审稿人必须指出几个显著的短板。首先,论文的核心技术挑战——代理的响应延迟(平均3.79秒)——只是被报告了,却没有进行任何优化尝试或深入分析其对交互质量和检测的影响,这使其“基准”意义打折扣。其次,实验评估部分虽全面,但对数据集特性的挖掘不够深入。例如,论文提到了人类判断的线索,但未深入分析不同线索(如视觉、听觉、对话模式)在不同代理配置或场景下的出现频率差异。再者,论文自称解决了“实时交互”的记录问题,但方法概述部分对系统架构的描述过于简略,缺乏关键组件(如会话同步、错误处理、延迟补偿)的细节,使得“可扩展自动化系统”的 claim 缺乏足够的技术支撑。最后,关于隐私、伦理的讨论仅停留在“IRB批准”和“内容审核”层面,对于公开发布包含人脸、声音的对话数据可能引发的长期风险(如声音克隆、行为模仿)的深入探讨缺失。总体而言,这是一个好的资源论文,但在技术深度和反思性上仍有不足。 📌 核心摘要 本文介绍了DeepSpeak-Agentic数据集,这是一个包含200个、超过37小时实时交互式人机对话的视听数据集,旨在为研究快速发展的具身AI代理提供一个基准。作者构建了一个可扩展的自动化数据采集系统,该系统能随机组合不同的LLM(如Llama-4, GPT-4o)、合成语音(ElevenLabs等)和视觉形象(Tavus, HeyGen)来创建AI代理,并与通过Prolific招募的人类参与者进行随机配对对话。对话内容涵盖四种场景。基于该数据集的分析表明:1)人类能快速识别AI代理(80.5%在10秒内),主要线索是不自然的动作和声音;2)现有取证检测器表现不佳,最佳音频和视频检测器的等错误率(EER)分别高达23%和33%,仅文本检测器(Desklib)表现良好(EER 8%)。该数据集公开发布,可用于多模态取证评估、人机交互研究以及未来AI代理的基准测试。 ...

2026-06-03 · 更新于 2026-06-19 · 2 min · 333 words

Wavelet as Tokenizer: Preliminary Results on a Shared Wavelet Token Schema for Natural Signals

📄 Wavelet as Tokenizer: Preliminary Results on a Shared Wavelet Token Schema for Natural Signals #多模态模型 5.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0.6/1.5 | 清晰 0.9/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.2/1.5 📝 5.4/10 | 后50% | #多模态模型 | #多模态模型 | arxiv 👥 作者与机构 作者:Shenghao Ding 机构:Yet Another AI 💡 毒舌点评 这是一篇典型的“想法很有趣,但离实用还很远”的初步探索论文。作者试图为音频、图像、视频这三种模态寻找一个基于小波的统一令牌语法,这个动机本身是有价值的。然而,论文的局限性过于明显,以至于其核心贡献被实验的玩具性质所削弱。使用\(64\times64\)的图像和\(8\)帧视频,在极小的数据集上只做自编码重建,然后声称看到了“跨模态的希望”,这说服力不足。更关键的是,作为一个“令牌化”方案,它完全没有进行离散化、熵编码,也没有任何下游生成任务的验证,这使其本质上只是一篇关于“共享小波系数表示”的技术报告,而非一个完整的令牌化解决方案。写作清晰,自我定位诚实(自称“初步结果”),但这也意味着它离顶会要求的完整贡献和扎实验证相去甚远。 📌 核心摘要 本文提出了一个称为“Wavelet as Tokenizer (WAT)”的框架,旨在探索能否为音频、图像和视频定义一种基于小波系数的统一令牌语法。论文采用了一级Haar离散小波变换(DWT)作为前端,将不同模态信号转换为系数令牌,每个令牌包含值和显式元数据(模态、等级、尺度、子带、位置)。模型使用一个共享的、无注意力机制的令牌级连续潜在编码器/解码器(仅含LayerNorm-MLP)进行处理,并通过模态特定的逆变换重建信号。 主要实验发现包括:1)在小型自编码任务中,共享的波系数令牌方案对三种模态均可行;2)对音频系数进行缩放(\(s_{\mathrm{audio}}=4\))对于平衡各模态表现至关重要;3)基于波系数能量的非参数稀疏令牌选择是一种有效的跨模态分配信号;4)简单的加性元数据嵌入并非总是有益,其效果模态依赖且不一致。在匹配的连续潜在标量预算下,共享模型在图像和视频重建上优于独立模型。 然而,该工作明确被定位为早期实证研究,存在根本性局限:实验在极低分辨率和小数据集上进行,结果为单次运行;采用连续令牌而非离散化,因此无法评估真正的比特率或进行率失真比较;模型架构简单;完全缺乏下游生成任务的验证。论文支持统一波形令牌模式和稀疏接口的可行性,但尚未建立通用的离散词汇表。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集:论文中提及使用以下公开数据集,但未提供具体获取链接: Speech Commands (v0.02) EuroSAT RGB DAVIS 2017 Demo:论文中未提及。 复现材料:论文在附录A中提供了详细的实验配置,包括数据预处理方式、共享自编码器架构参数(token宽度32,潜在维度16,隐藏维度64)、优化器设置(AdamW,学习率\(10^{-3}\))、批量大小(2)、训练步数(300)以及评估细节。这些信息可用于复现实验,但论文中未提供预训练权重或完整代码。 论文中引用的开源项目:论文在相关工作和背景部分引用了多个开源项目(如Cosmos Tokenizer, VQ-VAE, VQGAN, OmniTokenizer, MAGVIT, SoundStream, EnCodec, WavTokenizer, JPEG 2000),但均未提供具体链接。 🏗️ 方法概述和架构 WAT框架的核心是定义一个跨模态(1D音频、2D图像、3D视频)的统一、结构化的小波系数令牌,并证明一个共享的神经网络可以处理这些令牌以实现信号重建。其方法可分解为以下关键组件和步骤: ...

2026-06-03 · 更新于 2026-06-19 · 3 min · 437 words

WavTTS: Towards High-Quality Zero-Shot TTS via Direct Raw Waveform Modeling

📄 WavTTS: Towards High-Quality Zero-Shot TTS via Direct Raw Waveform Modeling #语音合成 #端到端 #扩散模型 #流匹配 #语音生成 #多模态模型 9.2/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 🔥 9.2/10 | 前25% | #语音合成 | #端到端 | #扩散模型 #流匹配 | arxiv 👥 作者与机构 作者: Wenxi Chen, Dongya Jia, Yushen Chen, Zhikang Niu, Yuzhe Liang, Xiquan Li, Ruiqi Yan, Ziyang Ma, Guanrou Yang, Sanyuan Chen, Yue Wang, Zhuo Chen, Kai Yu, Xie Chen. 机构: 1) 上海交通大学, 2) 上海创新研究院, 3) 字节跳动 Seed. ...

2026-06-03 · 更新于 2026-06-19 · 3 min · 598 words

语音/音乐/音频论文速递 2026-06-03

语音/音乐/音频论文速递 2026-06-03 共分析 40 篇论文 ⚡ 今日概览 📥 抓取 40 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 7篇 ███████ #语音识别 7篇 ███████ #音乐生成 3篇 ███ #音频生成 2篇 ██ #语音增强 2篇 ██ #多模态模型 2篇 ██ #语音情感识别 2篇 ██ #语音翻译 2篇 ██ 📊 论文评分排行榜(40 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 AnyAudio-Judge: A Dynamic Rubric-Based Benchmark and Ev 10.0分 前10% #语音合成 🥈 Cosmos 3: Omnimodal World Models for Physical AI 10.0分 前10% #音频生成 🥉 WavTTS: Towards High-Quality Zero-Shot TTS via Direct R 9.2分 前25% #语音合成 4. CoughSense: Five-Class Respiratory Disease Classificati 9.1分 前25% #数据增强 5. SoulX-Transcriber: A Robust End-to-End Framework for Mu 8.8分 前50% #语音识别 6. SVHalluc: Benchmarking Speech-Vision Hallucination in A 8.7分 前25% #语音识别 7. Benchmarking Speech-to-Speech Translation Models 8.7分 前25% #语音合成 8. The DeepSpeak-Agentic Dataset 8.7分 前50% #语音合成 9. EntangleCodec: A Unified Discrete Audio Tokenizer via S 8.6分 前10% #语音合成 10. SketchSong: Hierarchical Song Generation with Sketch Pl 8.6分 前25% #音乐生成 11. SegTune: Structured and Fine-Grained Control for Song G 8.5分 前25% #音乐生成 12. Exploiting Noise Inseparability for Weakly-Supervised D 8.5分 前50% #语音增强 13. A Comparison of Generative and Discriminative Methods f 8.3分 前25% #语音增强 14. FSA-GRPO: Teaching Auditory LLMs to Use Few-shot Demons 8.1分 前50% #语音识别 15. Tonal parsimony in chord-sequence analysis: combining m 8.1分 前25% #音乐信息检索 16. Efficient ASR Training with Conversations that Never Ha 8.0分 前50% #语音识别 17. LiveBand: Live Accompaniment Generation in the Audio Do 8.0分 前25% #音乐生成 18. Sandboxed Coding Agents are Competitive Omni-modal Task 7.9分 前25% #强化学习 19. OmniHalluc-L: Counterfactual Benchmarking and Modality- 7.8分 前25% #多模态模型 20. BaltiVoice: A Speech Corpus and Fine-tuned Whisper ASR 7.8分 前25% #语音识别 21. Speech Emotion Recognition using Attention-based LSTM-N 7.5分 前50% #语音情感识别 22. SpeakerCard-1M: An Evidence-Grounded Speaker Card Corpu 7.4分 前25% #说话人验证 23. C2GA: A Class-Controllable Generative Augmentation Fram 7.3分 前50% #音频分类 24. AlignAtt4LLM: Fast AlignAtt for Decoder-Only LLMs at IW 7.3分 前50% #语音翻译 25. Before Fusion, Ask What to Keep: Contextual Calibration 7.2分 前50% #语音情感识别 26. Diffusion-Based Heart Sound Generation: Evaluation with 7.1分 前50% #语音合成 27. SiamCTC: Learning Speech Representations through Monoto 7.0分 前50% #语音识别 28. Foley-Omni: A Unified Multimodal Generation Model from 7.0分 前25% #音频生成 29. Inference-Time Scaling for Joint Audio-Video Generation 6.9分 前50% #语音合成 30. Breaking the Pair: Evaluating Dyadic Interaction via Sp 6.9分 前50% - 31. Localizing broadband noise sources using the Loève spec 6.9分 前50% #声源定位 32. A Pocket Offline Model for Simultaneous Speech Translat 6.8分 前50% #语音翻译 33. Stable Hybrid Cross-Attention Fusion for Audio-Visual E 6.7分 后50% #自监督学习 34. A Training-Efficient Transformer-Based Anti-Spoofing Ne 6.7分 后50% #Transformer 35. MoDAl: Self-Supervised Neural Modality Discovery via De 6.6分 前25% #自监督学习 36. Audio Spotforming via Post-Filtering Using Cross-Array 6.6分 前50% #维纳滤波 37. Logit Distillation on Manifolds: Mapping by Learning 6.5分 前50% #语音识别 38. Domain-Agnostic Incremental Learning for Sound Classifi 6.1分 前50% - 39. Wavelet as Tokenizer: Preliminary Results on a Shared W 5.4分 后50% #多模态模型 40. In-the-Loop Training of Deep Feedback Cancellation for 5.3分 前50% #自适应滤波 📋 论文列表 🥇 AnyAudio-Judge: A Dynamic Rubric-Based Benchmark and Evaluator for Audio Instruction Following 10.0/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

2026-06-03 · 更新于 2026-06-19 · 26 min · 5337 words

Advancing Electrolaryngeal Speech Enhancement Through Speech-Text Representation Learning

📄 Advancing Electrolaryngeal Speech Enhancement Through Speech-Text Representation Learning #语音增强 #多模态模型 #低资源 #数据增强 7.1/10 | 创新 1.5/2 | 严谨 1.1/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.4/1.5 ✅ 7.1/10 | 前50% | #语音增强 | #数据增强 | #多模态模型 #低资源 | arxiv 👥 作者与机构 Ding Ma, Jinyi Mi, Fengji Li, Lester Phillip Violeta, Jiajun He, Wenchin Huang, Kazuhiro Kobayashi, Tomoki Toda. 主要机构:名古屋大学 (Nagoya University) 信息科学研究生院及信息技术中心,北京航空航天大学 (Beihang University) 生物与医学工程学院,TARVO, Inc.。通讯作者为 Ding Ma。 ...

2026-06-02 · 更新于 2026-06-19 · 3 min · 598 words

AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling

📄 AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling #多模态模型 #自回归模型 #数据增强 7/10 | 创新 2/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0/1.5 ✅ 7/10 | 前50% | #多模态模型 | #数据增强 | #自回归模型 | arxiv 👥 作者与机构 作者:Yiheng Li (中国科学院计算技术研究所, 中国科学院大学),Zhuo Li (独立作者),Ruibing Hou (中国科学院计算技术研究所),Yingjie Chen (北京大学),Hong Chang (中国科学院计算技术研究所, 中国科学院大学),Hao Liu (独立作者),Shiguang Shan (中国科学院计算技术研究所, 中国科学院大学) 通讯作者:Hao Liu (lewes6369@gmail.com) 💡 毒舌点评 这篇论文试图解决运动生成领域的一个“贪心”问题:想要一个模型吃下所有条件(文本、语音、音乐、轨迹),还想要数据足够大、模型能缩放。野心不小,也确实做出了些东西。数据集OmniHuMo规模号称最大,这算是个实在的工程贡献,对社区后续研究有价值。AnyMo框架的设计思路清晰,把R-FSQ和并行掩码建模结合起来处理多流token,算是一个合理的技术集成。缩放研究展示了从111M到3B参数的效果趋势,尤其是文本任务上FID的显著下降,验证了 scaling law 在这个任务上的有效性。 ...

2026-06-02 · 更新于 2026-06-19 · 3 min · 618 words

Beyond the Mouth: Upper-Face Affective Cues in Audiovisual Sentence Recognition under Acoustic Uncertainty

📄 Beyond the Mouth: Upper-Face Affective Cues in Audiovisual Sentence Recognition under Acoustic Uncertainty #多模态模型 #语音识别 #鲁棒性 5.5/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.1/1.5 | 复现 0.5/0.5 | 工程 0.4/1.5 📝 5.5/10 | 前50% | #语音识别 | #多模态模型 | #鲁棒性 | arxiv 👥 作者与机构 Zhou Yang: Faculty of Education and Psychology, University of Oulu, Finland Yueyi Yang: Center for Machine Vision and Signal Analysis, University of Oulu, Finland ...

2026-06-02 · 更新于 2026-06-19 · 3 min · 448 words

Dynamic Interaction-Aware and Causality-Disentangled Framework for Multimodal Sentiment Analysis

📄 Dynamic Interaction-Aware and Causality-Disentangled Framework for Multimodal Sentiment Analysis #多模态模型 #对比学习 7.8/10 | 创新 2/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 0.9/1 | 影响 1.2/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 0.6/1.5 ✅ 7.8/10 | 前25% | #多模态模型 | #对比学习 | arxiv 👥 作者与机构 Guangyuan Dong (NUS), Ziwei Hong (UPenn), Shenghao Liu (CUC), Chenyu Wu (Duke), Yuanyuan Fang (BU), Zihao Li (Liverpool), Xudong Zhang (PKU), Bingchen Liu (SDU), Yuchen Zhang (SeeWay.ai), Haitao Ding (JLU), Zhenzhou Zhou (NEU), Ziyu Song (JLU) ...

2026-06-02 · 更新于 2026-06-19 · 3 min · 496 words

JenBridge: Adaptive Long-Form Video Soundtracking across Scene Transitions

📄 JenBridge: Adaptive Long-Form Video Soundtracking across Scene Transitions #音乐生成 #多模态模型 #大语言模型 #基准测试 7.3/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7.3/10 | 前25% | #音乐生成 | #多模态模型 | #大语言模型 #基准测试 | arxiv 👥 作者与机构 作者:Jiashuo Yu, Yao Yao, Boyu Chen, Alex Wang 机构:Jen Music AI 💡 毒舌点评 这篇论文试图解决一个实际且重要的问题——长视频的连贯配乐,并提出了一个模块化的框架。其核心创意“LLM导演自适应过渡”确实新颖且吸引眼球,构建新基准的贡献也值得肯定。然而,论文在将这一创意落实为坚实技术贡献时,暴露出明显的短板。首先,对核心的LLM Agent决策能力的评估过于粗糙,缺乏对其鲁棒性和失败案例的深入剖析,仅凭几个精心挑选的定性案例和整体分数提升,难以证明其在复杂现实场景下的有效性。其次,作为技术核心的“生成式过渡模型”,其具体实现细节(如何将ControlNet用于音乐修补、‘无训练适配’的具体含义)语焉不详,这直接影响了方法的可复现性和技术深度。再者,完全忽略视频中已存在的音频信息(如对话),使得这个号称“端到端”的框架在面对真实世界复杂内容时显得天真和不完整。最后,对视频分割这一起始步骤的潜在影响缺乏任何敏感性分析,这是一个不可忽视的系统漏洞。总的来说,论文提出了一个有趣的系统框架,但未能充分证明其核心组件的鲁棒性和全面性,技术细节的缺失也削弱了其严谨性。 📌 核心摘要 针对长视频配乐中场景切换时音乐连贯性差的挑战,本文提出了JenBridge框架。该框架采用模块化设计,首先将长视频分割为语义片段,然后为每个片段独立生成音乐,最后通过一个自适应过渡机制将音乐片段连接成连贯的长片段。其核心创新点在于设计了一种新颖的自适应过渡机制:该机制包含一个提供四种过渡风格(突变、静音、淡入淡出、生成式过渡)的“工具包”,并独特地利用一个大语言模型(LLM)作为“导演”,根据前后片段的视觉和音乐上下文智能选择最合适的过渡方式。此外,为评估该任务,论文提出了首个专门的长视频配乐基准测试集(LVS Benchmark),包含精心策划的数据和新的评估范式。实验证明,JenBridge在客观指标和主观评估上均显著优于现有方法,尤其在“过渡自然度”和“制作复杂度”上优势明显。 ...

2026-06-02 · 更新于 2026-06-19 · 2 min · 357 words