APRVOS: 1st Place Winner of 5th PVUW MeViS-Audio Track

📄 APRVOS: 1st Place Winner of 5th PVUW MeViS-Audio Track #视频对象分割 #多模态模型 #语音识别 #音视频 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Deshui Miao (鹏城实验室) 通讯作者:Xin Li (鹏城实验室) - 论文中作者列表“Xin Li”后标有星号(*),通常表示通讯作者。 其他作者: Yameng Gu (鹏城实验室) Chao Yang (鹏城实验室) Haijun Zhang (哈尔滨工业大学) Ming-Hsuan Yang (加州大学美熹德分校) 💡 毒舌点评 这篇论文的亮点是“把大象装冰箱”的工程思维:把一个看似复杂的音视频分割问题,拆解成“听语音、找东西、画轮廓、精修边”四步走,流程清晰得像一份高级菜谱,让模型各司其职,有效避免了端到端模型在噪声面前的“胡言乱语”。槽点也很明显:作为一篇学术论文,它更像是一份“竞赛冠军秘籍”或“系统集成报告”,创新主要体现在对现有顶尖模型(VibeVoice, Sa2VA, SAM3)的巧妙编排和调度上,而非提出全新的核心算法,学术深度略有欠缺。 📌 核心摘要 这篇论文报告了APRVOS系统,一个专为MEVIS_Audio(音频条件下的指代视频对象分割)任务设计的冠军方案。要解决的问题是传统文本指代分割模型无法直接处理包含噪声、不完整且可能描述视频中不存在物体的语音输入。采用的方法是一个四阶段流水线:首先使用VibeVoice-ASR将语音转为文本;然后用一个基于Qwen3-VL的视觉判断模块(Omni Judger)验证转写文本描述的目标是否在视频中存在,若不存在则直接输出空掩码;若存在,则将文本转化为提示词,输入Sa2VA模型生成粗略的分割轨迹;最后,引入一个“代理验证”层来评估粗分割结果的可靠性,并调用SAM3模型对可信锚点帧进行边界精修和时序传播。取得的效果在第五届PVUW MeViS-Audio赛道上排名第一,J&F分数达到0.6700,消融实验证明每个阶段(尤其是存在性判断和代理精修)都带来了显著的性能提升。局限性在于该报告侧重于系统描述,对各组件内部(如ASR、视觉判断模块)的训练细节和超参数披露有限,且整体性能高度依赖于几个大型预训练模型的组合。 🏗️ 模型架构 模型整体是一个串联式多阶段处理流水线,其完整输入输出流程如下: 输入:视频 V = {I_t} 和音频指代表达 A。 Stage -1: 语音转文本 (VibeVoice-ASR):输入音频 A,输出转写文本 q_asr。此阶段专注于长语音识别,提取语义内容。 Stage 2: 视觉存在性判断 (Omni Judger):输入视频采样帧和转写文本 q_asr,输出二元判断 e ∈ {0,1}。若 e=0,流程终止,输出全零掩码序列;若 e=1,流程继续。 Stage 3: 提示构建:将 q_asr 填入固定模板(如“\nPlease segment {exp}.”),生成适用于Sa2VA的分割提示。 Stage 4: 粗语义分割 (Sa2VA):输入视频 V 和构建好的提示,通过Sa2VA的 predict_forward 方法,输出粗掩码轨迹 ℳ~ = {m~_t}。 Stage 5: 代理验证 (Agentic Verification):这是一个推理决策层,而非传统神经网络。它分析粗掩码轨迹 ℳ~ 的可靠性,包括:检查非空掩码帧、掩码面积时序平滑度、语义与描述的一致性、是否存在干扰物等。其核心功能是识别出最可信的“锚点帧”。 Stage 6: 锚点精修 (Refinement from Trusted Anchors):对于代理层选定的锚点帧 a,从其粗掩码 m~_a 中提取几何提示(边界框 b_a、中心点 p_a)。以这些提示为输入,调用SAM3模型,在时序上向前和向后传播,生成最终的高精度、时序一致的分割掩码序列 ℳ。 输出:最终的二值掩码序列 ℳ。 关键设计选择理由: ...

2026-04-22

UAF: A Unified Audio Front-end LLM for Full-Duplex Speech Interaction

📄 UAF: A Unified Audio Front-end LLM for Full-Duplex Speech Interaction #语音对话系统 #统一音频模型 #流式处理 #音视频 🔥 评分:9.0/10 | arxiv 👥 作者与机构 第一作者:Yadong Li (adonlee.lyd@alibaba-inc.com) 通讯作者:Biye Li (libiye.lby@alibaba-inc.com) 其他作者:Guoxin Wu (guoxin.wgx@taobao.com), Haiping Hou (houhaiping.hhp@taobao.com) 所属机构:阿里巴巴集团 (Alibaba Inc.) 💡 毒舌点评 亮点:这篇论文最“性感”的地方在于它极具野心的“大一统”思想——把语音交互前端那些乱七八糟的独立模块(VAD、ASR、说话人识别…)全部塞进一个LLM里,还用个参考音频当“声纹钥匙”,想法非常超前且直击级联系统的痛点。 槽点:工程“黑盒”感有点强,比如那个600ms的音频块具体怎么切分、参考音频的注册和注意力机制如何在流式推理中高效运作,细节不够透明,让人担心实际部署时的复杂度和计算开销。 📌 核心摘要 核心贡献:本文提出了首个专为全双工语音交互设计的统一音频前端大模型(UAF)。它打破了传统级联式前端处理的范式,将语音活动检测(VAD)、说话人识别(SR)、自动语音识别(ASR)、轮次检测(TD)和问答(QA)等多个任务,统一建模为一个自回归序列预测问题。 关键方法:模型采用“音频编码器-投影器-LLM”架构。输入为流式的固定时长(600ms)音频块和一个用于锁定目标说话人的参考音频提示。输出为两类离散令牌:状态令牌(如<TALK>, <SIL>, <Complete>, <Interrupt>)用于交互控制;语义令牌(ASR文本和模型回复)。通过多阶段对齐训练策略,模型学会了在噪声和混叠语音环境中,基于参考音频隐式地抑制干扰、聚焦目标说话人,并联合预测语义内容和交互状态。 主要发现:实验表明,UAF在多项独立前端任务上达到SOTA水平。其最大优势体现在说话人感知ASR上:在极低信噪比(2dB)条件下,WER相比强大的基线模型(Qwen3-Omni)降低了7倍以上(5.34 vs 38.6)。在轮次检测任务上,对<Interrupt>和<Backchannel>等关键交互状态的识别准确率显著优于专用模型,证明了统一建模对理解对话动态的有效性。 实际意义与局限性:UAF为构建低延迟、高鲁棒性、交互自然的全双工语音系统提供了全新的、一体化的解决方案,有望简化系统架构并提升用户体验。其局限性包括:模型参数量较大(30B-A3B),对计算资源要求高;训练严重依赖大规模的合成数据管道,其真实世界泛化能力需进一步验证;论文未开源,限制了社区的复现与跟进。 🏗️ 模型架构 UAF的整体架构是一个适配了音频能力的“编码器-投影器-大语言模型”框架,核心是将音频流与文本生成统一在自回归解码过程中。 完整输入输出流程: 输入: 参考音频 (A_ref):一段3-5秒的目标说话人纯净语音,用于注册说话人身份。 系统提示 (System Prompt):定义任务和输出格式的文本指令。 流式音频块 (A_stream):连续的、固定时长为600毫秒的音频片段序列 {a_1, a_2, ..., a_t}。这些音频块可能包含目标说话人语音、噪声、混响、其他说话人语音以及系统回声。 编码与投影: 参考音频和每一个流式音频块都通过同一个音频编码器(文中未指定具体结构,但应为预训练模型)转换为高维声学特征向量。 这些声学特征向量随后通过一个音频投影器(一个可训练的神经网络层)映射到LLM的语义嵌入空间,得到对齐后的音频令牌 a_ref 和 a_t。 自回归解码: LLM骨干网络(基于Qwen3-Omni-30B-A3B-Instruct)接收一个拼接的序列作为输入:[System Prompt, a_ref, a_1, [x_1; s_1], a_2, [x_2; s_2], ..., a_t]。其中 [x_i; s_i] 表示第i个时间步生成的语义令牌和状态令牌。 LLM根据历史上下文(所有之前的音频令牌和生成的令牌)进行解码,在当前时间步t,它需要预测两部分: 状态令牌 (s_t):由两个独立的轻量级任务头从LLM的隐藏状态h_t中预测。 VAD头:输出 <SIL> 或 <TALK>,表示当前音频块是否包含目标说话人的有效语音活动。 轮次头 (Turn Head):输出 <Complete>, <InComplete>, <Interrupt>, <Backchannel> 中的一个,表示对话轮次状态。 语义令牌 (x_t):由LLM主干的语言模型头 (LM Head) 预测。仅当轮次状态为<Complete>或<Interrupt>时,模型才会生成包含<AsrStart>…<AsrEnd>的ASR结果,以及可能的<AnswerStart>…<AnswerEnd>的回复。 输出:在每个时间步t,模型输出一个包含状态令牌和(可能的)语义令牌的序列,用于驱动下游的对话管理系统和语音合成系统。 关键组件与设计理由: ...

2026-04-22

AVRT: Audio-Visual Reasoning Transfer through Single-Modality Teachers

📄 AVRT: Audio-Visual Reasoning Transfer through Single-Modality Teachers #音视频 #知识蒸馏 #强化学习 #数据集 #多模态模型 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Edson Araujo(德国图宾根大学,图宾根AI中心) 通讯作者:根据论文格式和机构排序,推测为 Hilde Kuehne(德国图宾根大学,图宾根AI中心)或 James R. Glass(MIT-IBM Watson AI Lab) 其他作者: Saurabhchand Bhati(MIT-IBM Watson AI Lab) M. Jehanzeb Mirza(IBM Research, USA; MIT-IBM Watson AI Lab) Brian Kingsbury(IBM Research, USA; MIT-IBM Watson AI Lab) Samuel Thomas(IBM Research, USA; MIT-IBM Watson AI Lab) Rogerio Feris(MIT-IBM Watson AI Lab) James R. Glass(MIT CSAIL; MIT-IBM Watson AI Lab) Hilde Kuehne(德国图宾根大学,图宾根AI中心; MIT-IBM Watson AI Lab) 💡 毒舌点评 亮点:这篇论文最聪明的地方在于“借力打力”——自己没有强大的多模态推理模型?没关系,找两个顶尖的单模态“专家”(视觉和音频模型)分别写解题思路,再让一个“文书专家”(纯文本LLM)把它们整合成一份完美的跨模态推理报告,然后用这份报告去“教”学生模型。这招“分而治之,再合而为一”在数据稀缺的领域堪称优雅。 槽点:整个流程的“天花板”被那两个单模态教师牢牢卡住了,如果教师自己就是“睁眼瞎”(幻觉),那合并出来的推理链就是“一本正经地胡说八道”。论文也承认了,大部分幻觉源自教师。此外,SFT数据基本来自AVQA一个数据集,多样性上可能有点“偏科”。 ...

2026-04-21

Video-Robin: Autoregressive Diffusion Planning for Intent-Grounded Video-to-Music Generation

📄 Video-Robin: Autoregressive Diffusion Planning for Intent-Grounded Video-to-Music Generation #音乐生成 #自回归模型 #多模态模型 #基准测试 #音视频 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Vaibhavi Lokegaonkar(University of Maryland College Park, USA) 通讯作者:Aryan Vijay Bhosale, Vishnu Raj(根据“Corresponding authors”及邮箱 {vlokegao,aryanvib}@umd.edu 推断,均来自 University of Maryland College Park, USA) 其他作者: Gouthaman KV(University of Maryland College Park, USA) Ramani Duraiswami(University of Maryland College Park, USA) Lie Lu(Dolby Laboratories, USA) Sreyan Ghosh(University of Maryland College Park, USA) Dinesh Manocha(University of Maryland College Park, USA) 💡 毒舌点评 亮点在于巧妙地将自回归模型的“宏观规划”能力和扩散模型的“细节雕刻”能力缝合在一起,解决了视频配乐中“既要懂视频又要听指挥”的痛点,还顺手做了个挺专业的评测基准ReelBench。槽点是缝合的“线”(如FSQ, RITE)都是现成的,而且目前只能给10秒短片配乐,离给一部电影完整配乐的“终极梦想”还有不小的距离,更像是个精致的概念验证版。 ...

2026-04-21

Beyond Monologue: Interactive Talking-Listening Avatar Generation with Conversational Audio Context-Aware Kernels

📄 Beyond Monologue: Interactive Talking-Listening Avatar Generation with Conversational Audio Context-Aware Kernels #音视频 #扩散模型 #多模态模型 #数据集 #全双工交互 🔥 评分:9.0/10 | arxiv 👥 作者与机构 第一作者:Yuzhe Weng (翁宇哲),中国科学技术大学 (USTC) 通讯作者:Jun Du (杜俊),中国科学技术大学 (USTC),邮箱:jundu@ustc.edu.cn 其他作者: Haotian Wang (王浩天),中国科学技术大学 (USTC) Xinyi Yu (余欣怿),中国科学技术大学 (USTC) Xiaoyan Wu (吴晓燕),科大讯飞 (iFLYTEK) Haoran Xu (徐浩然),科大讯飞 (iFLYTEK) Shan He (何山),科大讯飞 (iFLYTEK) 💡 毒舌点评 亮点:用“多尺度高斯核注意力”这个优雅的数学工具,把“看口型”和“懂语境”这两个打架的脑区给整合到一个模型里了,思路清晰又有效。槽点:虽然建模了上半身反应,但离生成真正富有表现力的、带手势的全身交互动作还有距离,算是给未来挖了个大坑。 📌 核心摘要 本文旨在解决从单向“独白”式虚拟人生成迈向自然“全双工”交互式生成的核心挑战。核心问题在于,现有方法要么因严格的帧对齐而反应僵硬,要么因引入全局注意力而破坏唇同步。关键方法是提出一个基于多头高斯核(MHGK)的统一注意力架构,该机制通过为不同的注意力头分配从窄到宽的高斯分布感受野,使模型能同时学习精细的唇形对齐(窄感受野)和长程的对话上下文(宽感受野)。此外,论文构建了双流架构以处理同步的说话与聆听音频,并引入任意位置引导训练策略以提升长视频生成的稳定性。为支撑研究,还构建了大规模、音视频解耦的对话数据集VoxHear(1206小时)。主要发现表明,该方法在唇同步精度、身份保持、视觉质量和用户感知自然度等多个维度上均显著优于现有技术。实际意义在于为构建能理解对话上下文并做出自然反应的下一代交互式数字人提供了坚实的技术框架和数据基础。局限性在于目前主要聚焦于上半身反应,对更复杂全身姿态和手势的生成能力有待探索。 🏗️ 模型架构 本模型是一个基于流匹配(Flow Matching) 和扩散Transformer(DiT) 的端到端视频生成框架,旨在根据一张参考肖像图、一段说话音频和一段聆听音频,生成对应的交互式视频。 整体流程: 输入:参考图像 I_ref,说话音频序列 A_talk,聆听音频序列 A_listen。 音频编码与注入: 使用预训练的Wav2Vec 2.0编码器提取两路音频的多层特征。 设计独立的自适应音频Q-Former(Talking和Listening分支各一个)对音频特征进行压缩和跨模态对齐。每个Q-Former在时间窗口内使用可学习的查询(Queries)通过交叉注意力聚合音频特征。这允许两路音频自适应地融合不同层次的语义信息,并为分类器自由引导(CFG)生成更平滑的无条件嵌入。 编码后的音频特征通过3D时空交叉注意力注入到视频潜在表示中,使用1D旋转位置编码(RoPE) 保持时序对齐。 核心注意力机制 - 多头高斯核(MHGK): 在计算视频与音频的交叉注意力时,为每个注意力头 h 引入一个高斯时序偏置矩阵 B^(h)。 该矩阵 B^(h)(i, j) = α_h * (1 - exp(-(i-j)^2 / (2σ_h^2))) 作为距离惩罚项加入注意力分数中。其中 σ_h 控制感受野宽度,α_h 控制惩罚强度。 通过为不同头设置不同的 σ_h,模型能动态分配感受野:σ_h → 0 时,退化为严格局部注意力,确保唇同步;σ_h → ∞ 时,偏置趋近于0,变为全局注意力,用于捕捉上下文语义和情感。 视频生成与解码: 模型基于Wan2.2-5B DiT骨干网络,使用其VAE将视频压缩为潜在表示。 训练目标是最小化流匹配损失:L_FM = E[||v_θ(x_t, t, c) - (x_1 - x_0)||^2],其中 c 包含参考图像和双路音频条件。 推理时,从噪声 x_0 出发,通过求解常微分方程(ODE)逐步去噪得到生成视频 x_1。 训练策略 - 两阶段增量训练: 阶段一(说话优先):仅使用说话音频适配器,在大规模单人说话数据上训练,让模型先掌握精确的唇同步和自然的说话行为。 阶段二(聆听融合):引入聆听音频适配器,在VoxHear数据集上微调,使模型学会在保持说话能力的同时,对聆听音频做出自然的交互反应。 💡 核心创新点 多头高斯核(MHGK)注意力机制: ...

2026-04-20

Generalizable Audio-Visual Navigation via Binaural Difference Attention and Action Transition Prediction

📄 Generalizable Audio-Visual Navigation via Binaural Difference Attention and Action Transition Prediction #音视频 #声源定位 #强化学习 #多任务学习 #零样本 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Jia Li(新疆大学,计算机科学与技术学院,联合研究实验室 for Embodied Intelligence) 通讯作者:Yinfeng Yu(新疆大学,计算机科学与技术学院,联合研究实验室 for Embodied Intelligence;邮箱:yuyinfeng@xju.edu.cn) 其他作者:根据署名顺序,论文仅列出了两位作者,Jia Li和Yinfeng Yu。他们共同隶属于以下机构: 新疆大学,联合研究实验室 for Embodied Intelligence 新疆大学,丝绸之路多语种认知计算联合国际研究实验室 新疆大学,计算机科学与技术学院,乌鲁木齐 830017,中国 💡 毒舌点评 亮点:这论文把“听声辨位”这件事整明白了!BDA模块不搞虚的,直接让左右耳特征“打架”(算差值),逼着模型关注声音从哪边来,而不是这是什么声音,这对没见过的声音特别管用。ATP任务像给导航策略上了个“行为矫正器”,让动作更连贯,减少在陌生环境里原地转圈的傻行为。 槽点:方法组合拳虽然有效,但每个拳法(BDA, ATP)本身都不算开宗立派,更像是给现有强力基线(AV-WaN)打了个高效的“补丁”。另外,论文里那些“ Hear Sharper, Act Smarter”的口号,比技术细节更让人印象深刻。 📌 核心摘要 本文旨在解决音频-视觉导航(AVN)智能体在未见环境和未闻声音类别下泛化能力差的核心问题。作者指出,现有方法性能下降主要源于两个因素:一是音频表征混淆了语义与空间信息,导致对未闻声��定位不准;二是强化学习策略过拟合于训练环境的动态和布局。为此,本文提出了一个名为BDATP的即插即用框架。在感知层面,设计了双耳差分注意力模块,通过显式建模和利用左右声道特征的差异,强化模型对空间方位线索的提取,降低对声音语义的依赖。在策略层面,引入了动作转移预测辅助任务,通过预测轨迹中下一步的动作来增加策略学习的时序一致性约束,鼓励模型学习跨环境的通用导航规律。在Replica和Matterport3D数据集上的大量实验表明,将BDATP集成到AV-NaV和AV-WaN等主流基线中,能带来一致且显著的性能提升,尤其在最具挑战性的未闻声音设置下,成功率最高可提升超过21个百分点,证明了其优越的泛化能力和鲁棒性。 🏗️ 模型架构 BDATP框架整体是一个端到端的强化学习系统,以深度图像和双耳声谱图为输入,输出导航动作。其核心流程和组件如下: 输入与编码: 视觉输入:智能体的第一人称深度图像,通过一个独立的CNN编码器(三个卷积层+线性层+ReLU)编码为512维的视觉特征 f_v。 音频输入:双耳声谱图(左右声道)。首先沿声道维度分离为左、右两个单声道声谱图。然后,通过一个权重共享的CNN编码器(结构与视觉编码器相同)分别编码,得到中间特征图 f_al 和 f_ar。 双耳差分注意力模块: 差分计算:对共享CNN输出的左右声道特征图,计算逐元素绝对差值 diff = |f_ar - f_al|,作为显式的空间差异信号。 特征拼接与权重生成:将 f_al 和 f_ar 在通道维度拼接,通过一个1x1卷积降维回原始通道数C,再经过Sigmoid激活,得到通道注意力权重 w ∈ (0,1)。 差异加权融合:利用 w 和 diff 生成左右通道的加权系数:w_r = w ⊙ diff, w_l = (1-w) ⊙ diff。最终融合的音频特征为 f_a = f_al ⊙ w_l + f_ar ⊙ w_r。此设计强制注意力机制聚焦于存在显著差异(即包含方向信息)的特征区域。 策略学习: ...

2026-04-20

PS-TTS: Phonetic Synchronization in Text-to-Speech for Achieving Natural Automated Dubbing

📄 PS-TTS: Phonetic Synchronization in Text-to-Speech for Achieving Natural Automated Dubbing #语音合成 #音视频 #动态时间规整 #大语言模型 #多语言 ✅ 评分:6.0/10 | arxiv 👥 作者与机构 第一作者:Changi Hong(根据姓名顺序和论文常规推断) 通讯作者:Hong Kook Kim(根据论文常规,资深作者通常为通讯作者) 其他作者:Yoonah Song, Yoonah Song, Chaewoon Bang, Dayeon Gu, Do Hyun Lee 机构信息:论文摘要未提供明确的机构信息。根据arXiv常见模式和作者姓名,推断他们可能来自韩国某大学或研究机构(如光云大学等,因作者姓名为韩文)。具体实验室/课题组级别信息未在摘要中给出。 💡 毒舌点评 亮点:把配音的“对口型”难题,用DTW和音素距离这种信号处理+语音学的经典组合拳来解,思路清晰且工程上有效,比纯端到端黑箱更可解释。槽点:实验数据规模听起来不大(几个数据集),且在多语言实验中声称“表现最佳”却未与专门的多语言配音SOTA对比,有点“关起门来当第一”的味道。 📌 核心摘要 这篇论文旨在解决自动配音(AD)中目标语音与源语音在时长和唇形上的同步难题。其核心贡献是提出了一套两阶段的文本改写方法,并集成到TTS系统中:首先通过语言模型进行等时性改写,确保目标语音时长匹配源语音;其次引入音素同步(PS),使用动态时间规整(DTW)和从训练数据中学习的元音距离,使目标文本的元音发音尽可能接近源语音元音,以提升唇形同步效果。进一步地,论文提出了PSComet,在音素相似性的基础上联合考虑语义相似性,以更好地保留原文含义。实验表明,该方法(PS-TTS和PS-Comet TTS)在韩-英、英-韩的唇读数据集和配音演员数据集上,多项客观指标优于无PS的TTS,并在某些指标上超越人类配音演员。跨语言实验(涉及法语)也验证了PSComet在平衡唇形同步与语义保留方面的优越性。该工作为提升自动配音的自然度和观感提供了实用且可解释的技术路径,但其效果高度依赖于源-目标语言对的音素映射质量和训练数据。 🏗️ 模型架构 PS-TTS系统是一个流程化的管线,而非单一的端到端模型。其整体流程如下: 输入:源视频(含源语音)和翻译后的目标语文本。 第一阶段:等时性文本改写 组件:一个预训练的语言模型(LM),如T5或BART。 功能:接收翻译文本,并在不改变其核心语义的前提下,通过增删、替换词汇或调整句式,生成一个新版本的目标文本,使得该文本用目标语言TTS系统合成的语音时长,与源语音时长尽可能一致。 设计理由:直接控制时长是配音同步的基础,利用LM进行改写比规则方法更灵活自然。 第二阶段:音素同步(PS) 组件:动态时间规整(DTW)算法,其局部代价函数基于元音距离。 功能:对源语音和第一阶段输出的目标文本(已转为音素序列)进行对齐。对齐的依据不是文本本身,而是元音的声学或发音特征相似度。论文提到使用从训练数据中学习到的“元音距离”作为DTW的局部代价。这意味着,在改写时,算法倾向于选择那些发音与对应源语音元音更相似的目标语元音,从而在发音时嘴型更接近,提升唇形同步(lip-sync)效果。 扩展 - PSComet:在PS的基础上,引入一个名为Comet的模型(可能是一个多语言预训练模型),它能够同时计算语义相似度和音素相似度。PSComet在DTW对齐或文本选择时,综合权衡这两个因素,避免为了极致的唇形同步而严重扭曲语义。 输出:经过两阶段优化的目标语文本。 TTS合成:将优化后的文本输入标准的TTS系统(如基于VITS、FastSpeech2等),生成最终的目标语音。 整体数据流:源语音 + 翻译文本 -> LM(等时性改写) -> 中间文本 -> DTW+PSComet(音素/语义同步改写) -> 优化文本 -> TTS引擎 -> 目标语音。 💡 核心创新点 将配音同步问题解耦为文本改写问题:创新性地将复杂的音视频同步挑战,转化为对翻译后文本进行两阶段(时长、音素)改写的自然语言处理任务,使得问题更结构化、可解释。 基于音素距离的DTW对齐机制:不同于传统的基于文本或语义的对齐,本方法创新地使用目标语与源语元音之间的发音相似度作为DTW对齐的驱动力,直接针对“唇形”这一物理属性进行优化,是提升lip-sync的关键。 语义-音素联合优化的PSComet:认识到单纯追求音素同步可能损害语义,提出了PSComet框架,在目标文本选择时联合优化语义保真度和音素相似度,实现了两者间的更好平衡,这是对单纯PS方法的重要改进。 🔬 细节详述 训练数据: 用于学习“元音距离”的数据:论文提及使用“训练数据”,但未明确具体名称。推测是用于训练底层TTS系统的多语言语音-文本对齐数据,从中可以提取元音的声学特征(如MFCC、F0)或发音特征(如Vowel Space)来计算距离。 用于评估的数据集:Korean and English lip-reading datasets(可能指LRS2/LRS3等)、a voice-actor dubbing dataset(自建或特定数据集)、以及French数据用于跨语言测试。 损失函数:论文主要描述的是流程方法而非可端到端训练的模型,因此未明确提及统一的损失函数。各阶段目标独立:等时性阶段目标为时长匹配;PS阶段目标为最小化DTW总代价(即累积的元音距离);PSComet阶段目标为最大化语义与音素联合得分。 训练策略: 语言模型(LM):使用预训练模型进行微调或直接提示工程(Prompting)进行文本改写。 元音距离模型:可能使用一个简单的神经网络或度量学习方法,在语音数据上训练,以区分不同元音的发音。 TTS系统:使用现成的预训练TTS模型(如VITS),在目标语言数据上微调或直接使用。 关键超参数:DTW中语义相似度和音素相似度的权重(在PSComet中),用于平衡两者的重要性。论文中应通过实验确定最佳权重。 推理细节:推理过程是一个确定性的流程:输入源语音和文本,依次经过LM改写、DTW对齐与文本优化,最后送入TTS生成语音。无随机采样。 数据增强/正则化:未明确提及。可能依赖于预训练LM和TTS模型自身的能力。 📊 实验结果 主要指标对比: 论文指出,PS-TTS和PS-Comet TTS在多个客观指标上优于不使用PS的TTS基线。 在韩-英和英-韩配音中,系统在某些指标上超越了人类配音演员。但摘要未给出具体数值(如LSE-D, LSE-C, SyncScore等唇形同步指标,或MOS、MOSNet等语音质量指标)。 跨语言实验(含法语)中,PSComet在所有语言对中表现最佳,在唇形同步精度和语义保留之间取得了最佳平衡。 消融实验:摘要隐含了消融对比:TTS (无PS) vs PS-TTS vs PS-Comet TTS。结果表明,加入PS能提升同步性,而进一步加入语义约束(PSComet)能在保持或提升同步性的同时,获得更好的语义保留。 与SOTA方法的对比:未在摘要中体现。这是主要缺陷之一。 用户研究/主观评价:摘要未提及是否有MOS等主观评价实验。 ⚖️ 评分理由 创新性:6.5/10。将语音合成与唇形同步通过文本改写和音素对齐相结合的思路具有启发性,PSComet的联合优化也是有价值的改进。但核心组件(LM, DTW, TTS)均为成熟技术,创新在于巧妙的流程设计和组合。 实验充分性:6.0/10。实验设计了多语言、多数据集验证,并与人类对比,有一定说服力。但缺乏与领域内已有SOTA方法的直接对比,且未提供具体实验数据数字,削弱了结论的强度。数据规模未知。 实用价值:7.5/10。直接针对影视、视频本地化中的自动配音痛点,提出的流程清晰,有望直接集成到现有配音工作流中,实用导向明确。 灌水程度:3.0/10(越低越好)。论文问题聚焦,方法描述清晰,无明显的冗余内容或夸大表述。主要不足在于实验对比不够全面。 🔗 开源详情 论文摘要中未提及任何关于代码、模型权重、数据集或预训练权重的开源计划。因此,推断相关资源未开源。 ...

2026-04-20

AVID: A Benchmark for Omni-Modal Audio-Visual Inconsistency Understanding via Agent-Driven Construction

📄 AVID: A Benchmark for Omni-Modal Audio-Visual Inconsistency Understanding via Agent-Driven Construction #多模态模型 #基准测试 #音视频 #音频大模型 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Zixuan Chen(上海交通大学) 通讯作者:Tanfeng Sun,Xinghao Jiang(上海交通大学,根据论文作者顺序及常见通讯作者标注习惯推断) 其他作者: Depeng Wang(蚂蚁集团) Hao Lin(香港中文大学) Li Luo(上海交通大学) Ke Xu(上海交通大学) Ya Guo(蚂蚁集团) Huijia Zhu(蚂蚁集团) 💡 毒舌点评 这篇论文的亮点在于它敏锐地抓住了当前多模态大模型在“理解矛盾”而非“理解对齐”上的短板,并为此量身打造了一个大规模、系统化的测试基准,堪称给模型们做了一次“大家来找茬”的专项体检。槽点在于其“构造”不一致性的方法虽然巧妙且可控,但过于依赖外部大模型(Gemini)进行策略规划,且注入的“矛盾”在自然度上可能与真实世界的复杂矛盾仍有差距,有点像在实验室里精心布置的“找茬游戏”考场。 📌 核心摘要 这篇论文旨在解决当前全模态大模型在音视频不一致性理解能力上缺乏系统性评估的问题。现有基准要么只关注音视频对齐事件,要么局限于检测深度伪造中的低级伪影,无法评估模型对长视频中语义级矛盾的理解。为此,作者提出了AVID,首个大规模音视频不一致性理解基准。其核心方法是构建了一个可扩展的流水线:首先将视频按“有声有脸”、“有声无脸”、“无声有景”进行时序分割,然后利用一个由Gemini驱动的策略智能体为每个片段规划最合适的矛盾注入类型(共8类),最后通过五个专门的注入器(如时间偏移、语义矛盾、身份修改等)生成不一致视频。基于此,他们构建了包含11.2K长视频(平均235.5秒)、39.4K个已标注矛盾事件和78.7K个片段的数据集。实验表明,现有顶尖模型(包括Gemini 3.1 Pro)在时间定位和细粒度推理上存在显著不足。作者还微调了一个基线模型AVID-Qwen,其在时间定位(mIoU: 36.1% vs 26.2%)和整体理解(SODA-m: 7.47 vs 6.15)上超越了所有对比模型,验证了该基准的有效性。 🏗️ 模型架构 论文中提出的基线模型是 AVID-Qwen,其核心架构基于 Qwen3-Omni-30B-A3B-Instruct。 整体输入输出流程: 输入:原始视频文件(包含视频帧和音频流)以及一个文本指令(Prompt)。 预处理: 视觉:视频以12 FPS采样,帧被调整至最大50,176像素(保持宽高比),形成视觉token序列。 音频:直接从视频文件中提取音频流,由音频编码器处理。 模型推理:预处理后的视觉token、音频token与文本指令的token被拼接,输入到一个自回归的大型语言模型(LLM)骨干网络中。 输出:模型自回归地生成文本响应,格式根据任务而定(如检测结果、分类、时间戳、推理文本)。 主要组件: 视觉编码器:一个预训练的视觉特征提取器,将视频帧转换为视觉token。在微调期间被冻结。 音频编码器:一个预训练的音频特征提取器,处理音频流。在微调期间被冻结。 对齐模块:将视觉编码器的输出映射到LLM嵌入空间的适配器。在微调期间被冻结。 LLM骨干:一个约300亿参数(激活30亿)的解码器Transformer。这是微调的主要对象,负责跨模态推理和文本生成。 连接方式与数据流:视觉和音频编码器独立处理各自模态的原始输入,生成特征序列。这些特征序列通过各自的对齐模块(视觉需要,音频可能直接适配)转换为与LLM词嵌入空间兼容的token。这些多模态token与文本指令token拼接成一个长序列,输入LLM。LLM基于这个混合序列进行自回归解码,生成最终文本。 ...

2026-04-19

Listening Deepfake Detection: A New Perspective Beyond Speaking-Centric Forgery Analysis

📄 Listening Deepfake Detection: A New Perspective Beyond Speaking-Centric Forgery Analysis #语音伪造检测 #数据集 #多模态 #音视频 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Miao Liu(根据arXiv常见格式推断,可能来自某高校或研究机构,原文未提供具体机构信息) 通讯作者:Fangda Wei(根据arXiv常见格式推断,可能来自同一机构,原文未提供具体机构信息) 其他作者:Jing Wang, Xinyuan Qian(根据arXiv常见格式推断,可能来自同一机构,原文未提供具体机构信息) (注:提供的论文摘要中未包含作者所属机构信息,以上为基于arXiv论文常见格式的推断。完整论文全文通常在标题页或脚注中包含机构信息。) 💡 毒舌点评 亮点在于敏锐地捕捉到了现有深度伪造检测研究的“盲区”——只盯着“说谎的嘴”,却忽略了“倾听的脸”,这个视角的转换很有启发性,为领域打开了新方向。槽点则是新创的“ListenForge”数据集规模可能有限(基于5种生成方法),且提出的MANet模型虽然有效,但其复杂度和在真实世界海量、多变的“聆听”场景下的泛化能力,恐怕还有待更严苛的考验。 📌 核心摘要 本文首次提出了“聆听深度伪造检测”这一新任务,旨在识别视频中人物在倾听状态下(非说话时)的伪造反应,弥补了现有研究主要集中于“说话”场景的不足。为解决此任务数据稀缺的问题,作者构建了首个专门数据集ListenForge,包含由五种不同头部生成方法合成的伪造聆听视频。针对聆听伪造中细微的运动不一致性,作者设计了一个名为MANet的运动感知与音频引导网络,该网络通过捕捉听众视频的细微运动,并利用说话者的音频语义来引导跨模态特征融合,从而有效检测伪造。实验表明,现有的说话深度伪造检测模型在聆听场景下性能显著下降(AUC约60%),而MANet在ListenForge数据集上取得了优越性能(AUC达94.5%)。该工作强调了超越传统“说话中心”范式进行深度伪造检测的必要性,并为交互场景下的多模态伪造分析开辟了新方向。 🏗️ 模型架构 MANet是一个用于二分类(真实/伪造)的双流网络,其核心思想是联合分析听众的视觉运动和说话者的音频语义。 整体流程: 输入:一段包含听众反应的视频片段(视觉流V)和对应的说话者音频片段(音频流A)。 特征提取: 视觉流:使用预训练的3D CNN(如I3D)提取视频片段的时空特征,得到视频特征 V。同时,通过计算相邻帧差异或使用光流网络,提取听众面部/头部的运动特征 M。 音频流:使用预训练的音频网络(如VGGish)提取说话者音频的语义特征 A。 跨模态融合与检测(核心模块 - Motion-aware and Audio-guided Network): 运动特征处理:运动特征 M 首先通过一个由卷积层、批归一化(BN)和ReLU激活组成的模块进行编码。 音频引导的通道注意力(CHA):将编码后的运动特征 M 与音频特征 A 结合。具体地,对 M 进行跨空间平均池化,得到一个通道描述符。然后,将该描述符与音频特征 A 拼接(或进行其他融合),通过全连接层(FC)、ReLU和另一个FC层,再经过Sigmoid函数生成通道注意力权重 W_c。这个权重 W_c 用于对中间视觉特征 V'(可能来自视觉流或运动特征)进行通道维度的重新加权,强调那些与当前说话内容更相关的视觉通道。 空间注意力(SPA):将经过通道加权的特征与运动特征 M 再次结合,通过跨通道平均池化,然后经过卷积层和Sigmoid函数,生成空间注意力图 W_s。这个权重 W_s 用于对原始视频特征 V 进行空间维度的重新加权,引导模型关注听众面部/头部中运动最不一致或最可疑的区域。 分类:将经过双重注意力(空间和通道)精炼后的视频特征 V' 送入分类器(如全连接层),输出伪造概率。 关键设计理由: ...

2026-04-19

Tora3: Trajectory-Guided Audio-Video Generation with Physical Coherence

📄 Tora3: Trajectory-Guided Audio-Video Generation with Physical Coherence #音频生成 #音视频 #多模态模型 #扩散模型 ✅ 评分:7.8/10 | arxiv 👥 作者与机构 第一作者:Junchao Liao (阿里巴巴云计算) 通讯作者:Long Qin (阿里巴巴云计算,复旦大学),Weizhi Wang (阿里巴巴云计算) 其他作者: Zhenghao Zhang (阿里巴巴云计算) Xiangyu Meng (阿里巴巴云计算) Litao Li (阿里巴巴云计算) Ziying Zhang (阿里巴巴云计算) Siyu Zhu (复旦大学) 机构信息:主要来自阿里巴巴云计算(具体为阿里云智能集团)和复旦大学。论文未明确标注具体实验室。 💡 毒舌点评 亮点:论文的核心洞察——将稀疏的物体轨迹从单纯的视频控制信号,提升为跨模态共享的“运动学先验”,并以此统一约束视频中的物体运动与音频中的事件时序和强度,这个切入点非常聪明且具有物理直觉,是解决音画不同步“老大难”问题的一次优雅尝试。 槽点:论文在方法描述上过于“学术八股”,把一个直观的想法包裹在复杂的公式和模块命名里(比如“Hybrid Flow Matching”本质上就是区域自适应的噪声调度)。另外,新构建的PAV数据集号称有46万条,但数据清洗和轨迹提取的细节(如CoTracker3在复杂场景下的失败案例)对结果可靠性的影响被一笔带过,有“大力出奇迹”之嫌。 📌 核心摘要 本文针对现有音视频(AV)生成模型中存在的运动不真实、声音与运动事件不同步、声音强度与运动强度不匹配等问题,提出了Tora3框架。其核心创新在于将物体轨迹视为连接视觉与听觉模态的共享运动学先验,而非仅用于控制视频。为实现这一目标,Tora3包含三个关键技术组件:1)轨迹对齐的运动表示,通过在视频潜在空间中直接沿轨迹传播首帧特征来注入运动线索,避免了额外运动编码器的引入;2)运动学-音频对齐模块,从轨迹中推导出位置、速度、加速度等二阶运动学状态,并通过交叉注意力注入音频扩散模型,为声音生成提供精确的事件时序和强度提示;3)混合流匹配机制,对轨迹区域和非轨迹区域采用不同的概率流,以在保持轨迹保真度的同时维持局部外观一致性。此外,论文构建了一个大规模、以运动为中心的PAV数据集(46万片段)。实验表明,Tora3在视频质量(FVD 784.1)、轨迹跟随精度(TE 12.13)、音视频同步(FGAS 0.234)以及运动-声音相关性(MAIC 0.63)上均优于强基线模型。局限性在于其效果高度依赖于输入轨迹的质量与准确性,且对复杂物理交互(如材质、3D声学)的建模能力有限。 🏗️ 模型架构 Tora3基于一个双流扩散Transformer(DiT)架构(继承自Ovi),包含独立的视频和音频主干网络。其整体输入输出流程及核心组件如下: 输入:文本提示(Prompt)、可选的初始图像、以及物体轨迹(一系列物体在每帧的2D坐标)。 视频分支流程: VAE编码:初始图像通过预训练的VAE编码器得到潜在表示 z。 轨迹对齐运动表示:这是核心创新之一。不引入额外编码器,而是直接将轨迹映射到潜在空间坐标。对于每个物体的轨迹,在视频潜在序列的每一帧中,将该轨迹点对应的潜在位置特征,替换为初始图像在该物体起始位置的特征 z。非轨迹区域初始化为零(首帧除外)。这相当于在潜在空间“绘制”了运动的物体。 注入与生成:上述构建的 x_traj 作为条件,与噪声潜在变量 x_t 一起输入视频DiT主干。主干由N个Fusion Block组成,内部包含自注意力、跨注意力(用于融合文本嵌入)和前馈网络。 音频分支流程: VAE编码:目标音频波形通过音频VAE编码器得到音频潜在表示。 运动学特征提取:从轨迹中计算每个物体在每一帧的8维运动学特征向量 ϕ,包括:归一化位置 (r)、速度向量 (v)、加速度向量 (a)、速度模长 ||v||、加速度模长 ||a||。这些特征经过归一化和对数压缩后,通过一个3层MLP编码器 ℰ_k 映射为运动学令牌 H_kin。 运动学-音频融合:在音频DiT的每个Transformer块中,在自注意力层之后、原有的文本跨注意力层之前,插入一个辅助的跨注意力层。该层以音频潜在状态为查询(Query),以运动学令牌 H_kin 为键(Key)和值(Value),并应用RoPE保持时间对齐。输出通过一个可学习的门控机制(参数 γ,初始化为-10)与原始音频状态残差相加,从而自适应地平衡语义条件与运动学条件。 混合流匹配(视频训练目标): 这是另一个核心创新。在训练时,对视频潜在空间的不同区域采用不同的流匹配目标。 定义区域:根据轨迹坐标定义二值掩码 M,标识出轨迹经过的时空位置 Ω_traj。 混合目标: 在非轨迹区域 (M=0):采用标准流匹配目标,即从干净潜变量 x_0 到高斯噪声 ϵ 的线性插值。 在轨迹区域 (M=1):将噪声终点替换为之前构建的轨迹条件潜变量 x_traj,即从 x_0 到 x_traj 的插值。这迫使模型在这些区域学习保留轨迹注入的运动先验。 损失函数:视频损失被分解为轨迹区域损失 L_traj 和非轨迹区域损失 L_out 的加权和(权重均为0.5),以防止稀疏的轨迹区域被主导。音频损失沿用Ovi的原始损失。 输出:视频DiT和音频DiT分别去噪后,通过对应的VAE解码器生成视频帧序列和音频波形。 设计理由: ...

2026-04-19