音视频 | 语音/音乐/音频论文速递

Misinformation Span Detection in Videos via Audio Transcripts

📄 Misinformation Span Detection in Videos via Audio Transcripts #音频安全 #预训练 #多语言 #音视频 ✅ 7.5/10 | 前25% | #音频安全 | #预训练 | #多语言 #音视频 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Breno Matos (联邦米纳斯吉拉斯大学，工作完成时) 通讯作者：未说明作者列表： Breno Matos (联邦米纳斯吉拉斯大学) Rennan C. Lima (未说明具体机构) Savvas Zannettou (未说明具体机构) Fabrício Benevenuto (未说明具体机构) Rodrygo L.T. Santos (未说明具体机构) 💡 毒舌点评这篇论文的亮点在于敏锐地捕捉到了“视频虚假信息片段检测”这一空白任务，并提供了首个公开、标注的数据集，为后续研究铺平了道路。然而，其短板也十分明显：方法上缺乏实质创新，仅仅是现有语音转录模型（Whisper）和语言模型（BERTimbau/PTT5）的串联使用，更像是一个“数据集构建与初步验证”的工作，而非一个提出突破性算法的论文。 🔗 开源详情代码：提供代码仓库链接（https://github.com/brenomatos/msd）。模型权重：提及发布了训练好的模型权重，可通过HuggingFace获取。数据集：公开发布。BOL4Y和EI22数据集（包括虚假声明、转录文本、标注）在Zenodo仓库（https://zenodo.org/records/19097541）。音频和视频文件托管在HuggingFace（https://huggingface.co/datasets/brenomatos/msd），需申请访问。 Demo：未提及。复现材料：提供了数据集构建和模型训练的代码。论文附录详细说明了数据集的字段结构。引用的开源项目： Whisper：用于语音转录。 BERTimbau：用于生成文本嵌入和作为分类器。 PTT5：用于作为分类器。 SentenceTransformers：用于获取嵌入。 Doccano：用于文本标注。 HuggingFace Transformers：用于模型实现。 📌 核心摘要问题：现有视频虚假信息检测多停留在视频级别的二分类，无法定位视频中具体哪一段内容（即虚假声明）是问题所在，这给事实核查和内容审核带来了困难。方法核心：提出“虚假信息片段检测”任务。方法流程为：使用Whisper将视频音频转录为文本片段；利用BERTimbau模型将片段和已知的虚假声明转换为向量，通过余弦相似度匹配可能包含虚假信息的片段；最后，使用BERTimbau或PTT5作为分类器，对转录片段进行二分类（是否为虚假信息）。创新点：首次定义并研究该任务；构建并公开了两个包含时间戳标注的葡萄牙语虚假视频数据集（BOL4Y和EI22）；进行了包括时间窗口分析、跨数据集评估在内的系统性基准实验。主要实验结果：在BOL4Y数据集上，使用BERTimbau分类器在1:75的下采样比例下取得了最佳的Macro F1分数0.68。在“编辑版”数据集（使用记者润色后的声明）上，性能有所提升，最佳F1达到0.81。跨数据集实验（BOL4Y训练，EI22测试）取得了0.71的F1分数，表明模型具有一定的泛化能力。时间分析显示，模型性能在不同月份间存在波动。实际意义：为自动化辅助事实核查人员定位视频中的虚假内容、为社交平台在虚假声明出现时精准添加警告标签提供了技术可能和数据基础。主要局限性：依赖于音频转录质量，Whisper的自动分段可能不够精确；数据仅限于葡萄牙语和巴西政治语境，泛化性未知；分类性能（F1=0.68）仍有较大提升空间。 🏗️ 模型架构本文没有提出新的模型架构，而是构建了一个基于现有预训练模型的处理流水线。整体流程如下： ...

Video-Robin: Autoregressive Diffusion Planning for Intent-Grounded Video-to-Music Generation

📄 Video-Robin: Autoregressive Diffusion Planning for Intent-Grounded Video-to-Music Generation #音乐生成 #扩散模型 #自回归模型 #音视频 #基准测试 ✅ 7.0/10 | 前25% | #音乐生成 | #扩散模型 #自回归模型 | #扩散模型 #自回归模型 | arxiv 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Vaibhavi Lokegaonkar（University of Maryland College Park, USA）通讯作者：Vaibhavi Lokegaonkar, Aryan Vijay Bhosale（论文中标注为Corresponding authors，邮箱为{vlokegao,aryanvib}@umd.edu）作者列表： Vaibhavi Lokegaonkar（University of Maryland College Park, USA） Aryan Vijay Bhosale（University of Maryland College Park, USA） Vishnu Raj（University of Maryland College Park, USA） Gouthaman KV（University of Maryland College Park, USA） Ramani Duraiswami（University of Maryland College Park, USA） Lie Lu（Dolby Laboratories, USA） Sreyan Ghosh（NVIDIA, USA） Dinesh Manocha（University of Maryland College Park, USA） 💡 毒舌点评亮点：该工作将语音合成领域已验证有效的“自回归规划+扩散细化”混合范式，成功迁移到视频音乐生成任务，并通过引入文本条件控制解决了该领域长期存在的“创作者意图表达”短板，工程实现和实验验证都做得非常扎实。短板：其核心架构思想并非首创（如DiTAR），且评估主要集中在10秒短片段，对于真正考验音乐结构连贯性的长视频配乐场景缺乏验证，使得其“里程碑”成色稍显不足。 ...

APRVOS: 1st Place Winner of 5th PVUW MeViS-Audio Track

📄 APRVOS: 1st Place Winner of 5th PVUW MeViS-Audio Track #视频对象分割 #多模态模型 #语音识别 #音视频 ✅ 评分：7.5/10 | arxiv 👥 作者与机构第一作者：Deshui Miao (鹏城实验室) 通讯作者：Xin Li (鹏城实验室) - 论文中作者列表“Xin Li”后标有星号(*)，通常表示通讯作者。其他作者： Yameng Gu (鹏城实验室) Chao Yang (鹏城实验室) Haijun Zhang (哈尔滨工业大学) Ming-Hsuan Yang (加州大学美熹德分校) 💡 毒舌点评这篇论文的亮点是“把大象装冰箱”的工程思维：把一个看似复杂的音视频分割问题，拆解成“听语音、找东西、画轮廓、精修边”四步走，流程清晰得像一份高级菜谱，让模型各司其职，有效避免了端到端模型在噪声面前的“胡言乱语”。槽点也很明显：作为一篇学术论文，它更像是一份“竞赛冠军秘籍”或“系统集成报告”，创新主要体现在对现有顶尖模型（VibeVoice, Sa2VA, SAM3）的巧妙编排和调度上，而非提出全新的核心算法，学术深度略有欠缺。 🔗 开源详情代码：论文中提到“Submit in GitHub”，暗示代码可能在GitHub上提交或开源，但未提供具体的仓库地址。因此，无法确认是否已开源。模型权重：APRVOS本身不包含新训练的模型权重。它依赖于以下开源或已发表的预训练模型： VibeVoice-ASR：论文引用为[18]，技术报告为arXiv:2601.18184。 Qwen3-VL：论文引用为[1]，技术报告为arXiv:2502.13923。 Sa2VA：论文引用为[25]，技术报告为arXiv:2501.04001。 SAM3：论文引用为[4]，技术报告为arXiv:2511.16719。数据集：方法在MEVIS_Audio数据集上进行评估和竞赛。在线 Demo：未提及。论文中引用的开源项目：如上所列，VibeVoice-ASR, Qwen3-VL, Sa2VA, SAM3。 📌 核心摘要这篇论文报告了APRVOS系统，一个专为MEVIS_Audio（音频条件下的指代视频对象分割）任务设计的冠军方案。要解决的问题是传统文本指代分割模型无法直接处理包含噪声、不完整且可能描述视频中不存在物体的语音输入。采用的方法是一个四阶段流水线：首先使用VibeVoice-ASR将语音转为文本；然后用一个基于Qwen3-VL的视觉判断模块（Omni Judger）验证转写文本描述的目标是否在视频中存在，若不存在则直接输出空掩码；若存在，则将文本转化为提示词，输入Sa2VA模型生成粗略的分割轨迹；最后，引入一个“代理验证”层来评估粗分割结果的可靠性，并调用SAM3模型对可信锚点帧进行边界精修和时序传播。取得的效果在第五届PVUW MeViS-Audio赛道上排名第一，J&F分数达到0.6700，消融实验证明每个阶段（尤其是存在性判断和代理精修）都带来了显著的性能提升。局限性在于该报告侧重于系统描述，对各组件内部（如ASR、视觉判断模块）的训练细节和超参数披露有限，且整体性能高度依赖于几个大型预训练模型的组合。 🏗️ 模型架构模型整体是一个串联式多阶段处理流水线，其完整输入输出流程如下： ...

UAF: A Unified Audio Front-end LLM for Full-Duplex Speech Interaction

📄 UAF: A Unified Audio Front-end LLM for Full-Duplex Speech Interaction #语音对话系统 #统一音频模型 #流式处理 #音视频 🔥 评分：9.0/10 | arxiv 👥 作者与机构第一作者：Yadong Li (adonlee.lyd@alibaba-inc.com) 通讯作者：Biye Li (libiye.lby@alibaba-inc.com) 其他作者：Guoxin Wu (guoxin.wgx@taobao.com), Haiping Hou (houhaiping.hhp@taobao.com) 所属机构：阿里巴巴集团 (Alibaba Inc.) 💡 毒舌点评亮点：这篇论文最“性感”的地方在于它极具野心的“大一统”思想——把语音交互前端那些乱七八糟的独立模块（VAD、ASR、说话人识别…）全部塞进一个LLM里，还用个参考音频当“声纹钥匙”，想法非常超前且直击级联系统的痛点。槽点：工程“黑盒”感有点强，比如那个600ms的音频块具体怎么切分、参考音频的注册和注意力机制如何在流式推理中高效运作，细节不够透明，让人担心实际部署时的复杂度和计算开销。 🔗 开源详情论文中未提及任何开源计划。全文未提供代码、模型权重、数据集或在线Demo的获取方式。虽然引用了GitHub Issue模板，但明确说明“Submit without GitHub”，表明论文发表本身不伴随开源动作。 📌 核心摘要核心贡献：本文提出了首个专为全双工语音交互设计的统一音频前端大模型（UAF）。它打破了传统级联式前端处理的范式，将语音活动检测（VAD）、说话人识别（SR）、自动语音识别（ASR）、轮次检测（TD）和问答（QA）等多个任务，统一建模为一个自回归序列预测问题。关键方法：模型采用“音频编码器-投影器-LLM”架构。输入为流式的固定时长（600ms）音频块和一个用于锁定目标说话人的参考音频提示。输出为两类离散令牌：状态令牌（如<TALK>, <SIL>, <Complete>, <Interrupt>）用于交互控制；语义令牌（ASR文本和模型回复）。通过多阶段对齐训练策略，模型学会了在噪声和混叠语音环境中，基于参考音频隐式地抑制干扰、聚焦目标说话人，并联合预测语义内容和交互状态。主要发现：实验表明，UAF在多项独立前端任务上达到SOTA水平。其最大优势体现在说话人感知ASR上：在极低信噪比（2dB）条件下，WER相比强大的基线模型（Qwen3-Omni）降低了7倍以上（5.34 vs 38.6）。在轮次检测任务上，对<Interrupt>和<Backchannel>等关键交互状态的识别准确率显著优于专用模型，证明了统一建模对理解对话动态的有效性。实际意义与局限性：UAF为构建低延迟、高鲁棒性、交互自然的全双工语音系统提供了全新的、一体化的解决方案，有望简化系统架构并提升用户体验。其局限性包括：模型参数量较大（30B-A3B），对计算资源要求高；训练严重依赖大规模的合成数据管道，其真实世界泛化能力需进一步验证；论文未开源，限制了社区的复现与跟进。 🏗️ 模型架构 UAF的整体架构是一个适配了音频能力的“编码器-投影器-大语言模型”框架，核心是将音频流与文本生成统一在自回归解码过程中。完整输入输出流程：输入：参考音频 (A_ref)：一段3-5秒的目标说话人纯净语音，用于注册说话人身份。系统提示 (System Prompt)：定义任务和输出格式的文本指令。流式音频块 (A_stream)：连续的、固定时长为600毫秒的音频片段序列 {a_1, a_2, ..., a_t}。这些音频块可能包含目标说话人语音、噪声、混响、其他说话人语音以及系统回声。编码与投影：参考音频和每一个流式音频块都通过同一个音频编码器（文中未指定具体结构，但应为预训练模型）转换为高维声学特征向量。这些声学特征向量随后通过一个音频投影器（一个可训练的神经网络层）映射到LLM的语义嵌入空间，得到对齐后的音频令牌 a_ref 和 a_t。自回归解码： LLM骨干网络（基于Qwen3-Omni-30B-A3B-Instruct）接收一个拼接的序列作为输入：[System Prompt, a_ref, a_1, [x_1; s_1], a_2, [x_2; s_2], ..., a_t]。其中 [x_i; s_i] 表示第i个时间步生成的语义令牌和状态令牌。 LLM根据历史上下文（所有之前的音频令牌和生成的令牌）进行解码，在当前时间步t，它需要预测两部分：状态令牌 (s_t)：由两个独立的轻量级任务头从LLM的隐藏状态h_t中预测。 VAD头：输出 <SIL> 或 <TALK>，表示当前音频块是否包含目标说话人的有效语音活动。轮次头 (Turn Head)：输出 <Complete>, <InComplete>, <Interrupt>, <Backchannel> 中的一个，表示对话轮次状态。语义令牌 (x_t)：由LLM主干的语言模型头 (LM Head) 预测。仅当轮次状态为<Complete>或<Interrupt>时，模型才会生成包含<AsrStart>…<AsrEnd>的ASR结果，以及可能的<AnswerStart>…<AnswerEnd>的回复。输出：在每个时间步t，模型输出一个包含状态令牌和（可能的）语义令牌的序列，用于驱动下游的对话管理系统和语音合成系统。关键组件与设计理由： ...

AVRT: Audio-Visual Reasoning Transfer through Single-Modality Teachers

📄 AVRT: Audio-Visual Reasoning Transfer through Single-Modality Teachers #音视频 #知识蒸馏 #强化学习 #数据集 #多模态模型 🔥 评分：8.0/10 | arxiv 👥 作者与机构第一作者：Edson Araujo（德国图宾根大学，图宾根AI中心）通讯作者：根据论文格式和机构排序，推测为 Hilde Kuehne（德国图宾根大学，图宾根AI中心）或 James R. Glass（MIT-IBM Watson AI Lab）其他作者： Saurabhchand Bhati（MIT-IBM Watson AI Lab） M. Jehanzeb Mirza（IBM Research， USA； MIT-IBM Watson AI Lab） Brian Kingsbury（IBM Research， USA； MIT-IBM Watson AI Lab） Samuel Thomas（IBM Research， USA； MIT-IBM Watson AI Lab） Rogerio Feris（MIT-IBM Watson AI Lab） James R. Glass（MIT CSAIL； MIT-IBM Watson AI Lab） Hilde Kuehne（德国图宾根大学，图宾根AI中心； MIT-IBM Watson AI Lab） 💡 毒舌点评亮点：这篇论文最聪明的地方在于“借力打力”——自己没有强大的多模态推理模型？没关系，找两个顶尖的单模态“专家”（视觉和音频模型）分别写解题思路，再让一个“文书专家”（纯文本LLM）把它们整合成一份完美的跨模态推理报告，然后用这份报告去“教”学生模型。这招“分而治之，再合而为一”在数据稀缺的领域堪称优雅。槽点：整个流程的“天花板”被那两个单模态教师牢牢卡住了，如果教师自己就是“睁眼瞎”（幻觉），那合并出来的推理链就是“一本正经地胡说八道”。论文也承认了，大部分幻觉源自教师。此外，SFT数据基本来自AVQA一个数据集，多样性上可能有点“偏科”。 ...

Video-Robin: Autoregressive Diffusion Planning for Intent-Grounded Video-to-Music Generation

📄 Video-Robin: Autoregressive Diffusion Planning for Intent-Grounded Video-to-Music Generation #音乐生成 #自回归模型 #多模态模型 #基准测试 #音视频 🔥 评分：8.0/10 | arxiv 👥 作者与机构第一作者：Vaibhavi Lokegaonkar（University of Maryland College Park, USA）通讯作者：Aryan Vijay Bhosale, Vishnu Raj（根据“Corresponding authors”及邮箱 {vlokegao,aryanvib}@umd.edu 推断，均来自 University of Maryland College Park, USA）其他作者： Gouthaman KV（University of Maryland College Park, USA） Ramani Duraiswami（University of Maryland College Park, USA） Lie Lu（Dolby Laboratories, USA） Sreyan Ghosh（University of Maryland College Park, USA） Dinesh Manocha（University of Maryland College Park, USA） 💡 毒舌点评亮点在于巧妙地将自回归模型的“宏观规划”能力和扩散模型的“细节雕刻”能力缝合在一起，解决了视频配乐中“既要懂视频又要听指挥”的痛点，还顺手做了个挺专业的评测基准ReelBench。槽点是缝合的“线”（如FSQ, RITE）都是现成的，而且目前只能给10秒短片配乐，离给一部电影完整配乐的“终极梦想”还有不小的距离，更像是个精致的概念验证版。 ...

Beyond Monologue: Interactive Talking-Listening Avatar Generation with Conversational Audio Context-Aware Kernels

📄 Beyond Monologue: Interactive Talking-Listening Avatar Generation with Conversational Audio Context-Aware Kernels #音视频 #扩散模型 #多模态模型 #数据集 #全双工交互 🔥 评分：9.0/10 | arxiv 👥 作者与机构第一作者：Yuzhe Weng (翁宇哲)，中国科学技术大学 (USTC) 通讯作者：Jun Du (杜俊)，中国科学技术大学 (USTC)，邮箱：jundu@ustc.edu.cn 其他作者： Haotian Wang (王浩天)，中国科学技术大学 (USTC) Xinyi Yu (余欣怿)，中国科学技术大学 (USTC) Xiaoyan Wu (吴晓燕)，科大讯飞 (iFLYTEK) Haoran Xu (徐浩然)，科大讯飞 (iFLYTEK) Shan He (何山)，科大讯飞 (iFLYTEK) 💡 毒舌点评亮点：用“多尺度高斯核注意力”这个优雅的数学工具，把“看口型”和“懂语境”这两个打架的脑区给整合到一个模型里了，思路清晰又有效。槽点：虽然建模了上半身反应，但离生成真正富有表现力的、带手势的全身交互动作还有距离，算是给未来挖了个大坑。 🔗 开源详情代码：论文提到了GitHub仓库（Report GitHub Issue ×），表明代码部分开源（可能指推理代码或核心模块）。项目主页：提供了BeyondMonologue-Page链接，用于展示更多结果和信息。模型权重：论文中未明确说明是否公开预训练模型权重。数据集：构建了大规模数据集VoxHear（1206小时），论文中未明确说明是否完全公开，但通常此类工作会部分公开或提供获取方式。在线Demo：论文中未提及在线Demo。依赖的开源项目：论文中明确提及的开源工具/模型包括：Wan2.2（视频生成骨干）、Wav2Vec 2.0（音频编码）、MossFormer2（语音分离，来自ClearVoice工具包）、SyncNet（唇同步验证）、DWPose（姿态估计）、IP-Adapter（适配器范式）。 📌 核心摘要本文旨在解决从单向“独白”式虚拟人生成迈向自然“全双工”交互式生成的核心挑战。核心问题在于，现有方法要么因严格的帧对齐而反应僵硬，要么因引入全局注意力而破坏唇同步。关键方法是提出一个基于多头高斯核（MHGK）的统一注意力架构，该机制通过为不同的注意力头分配从窄到宽的高斯分布感受野，使模型能同时学习精细的唇形对齐（窄感受野）和长程的对话上下文（宽感受野）。此外，论文构建了双流架构以处理同步的说话与聆听音频，并引入任意位置引导训练策略以提升长视频生成的稳定性。为支撑研究，还构建了大规模、音视频解耦的对话数据集VoxHear（1206小时）。主要发现表明，该方法在唇同步精度、身份保持、视觉质量和用户感知自然度等多个维度上均显著优于现有技术。实际意义在于为构建能理解对话上下文并做出自然反应的下一代交互式数字人提供了坚实的技术框架和数据基础。局限性在于目前主要聚焦于上半身反应，对更复杂全身姿态和手势的生成能力有待探索。 🏗️ 模型架构本模型是一个基于流匹配（Flow Matching）和扩散Transformer（DiT）的端到端视频生成框架，旨在根据一张参考肖像图、一段说话音频和一段聆听音频，生成对应的交互式视频。 ...

Generalizable Audio-Visual Navigation via Binaural Difference Attention and Action Transition Prediction

📄 Generalizable Audio-Visual Navigation via Binaural Difference Attention and Action Transition Prediction #音视频 #声源定位 #强化学习 #多任务学习 #零样本 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：Jia Li（新疆大学，计算机科学与技术学院，联合研究实验室 for Embodied Intelligence）通讯作者：Yinfeng Yu（新疆大学，计算机科学与技术学院，联合研究实验室 for Embodied Intelligence；邮箱：yuyinfeng@xju.edu.cn）其他作者：根据署名顺序，论文仅列出了两位作者，Jia Li和Yinfeng Yu。他们共同隶属于以下机构：新疆大学，联合研究实验室 for Embodied Intelligence 新疆大学，丝绸之路多语种认知计算联合国际研究实验室新疆大学，计算机科学与技术学院，乌鲁木齐 830017，中国 💡 毒舌点评亮点：这论文把“听声辨位”这件事整明白了！BDA模块不搞虚的，直接让左右耳特征“打架”（算差值），逼着模型关注声音从哪边来，而不是这是什么声音，这对没见过的声音特别管用。ATP任务像给导航策略上了个“行为矫正器”，让动作更连贯，减少在陌生环境里原地转圈的傻行为。槽点：方法组合拳虽然有效，但每个拳法（BDA， ATP）本身都不算开宗立派，更像是给现有强力基线（AV-WaN）打了个高效的“补丁”。另外，论文里那些“ Hear Sharper, Act Smarter”的口号，比技术细节更让人印象深刻。 🔗 开源详情代码：论文在作者信息下方明确提供了GitHub链接（https://github.com/...，具体地址需查看arXiv源文件或点击HTML版本中的链接）。表明代码已开源。模型权重：论文中未明确提及是否公开预训练模型权重。数据集：实验使用的是公开的SoundSpaces仿真平台、Replica和Matterport3D数据集，非本文自建。在线Demo：论文中未提及。依赖的开源项目：论文依赖SoundSpaces仿真环境、以及可能基于PyTorch等深度学习框架。引用的基线方法（如AV-NaV, AV-WaN）的代码可能也是其依赖。 📌 核心摘要本文旨在解决音频-视觉导航（AVN）智能体在未见环境和未闻声音类别下泛化能力差的核心问题。作者指出，现有方法性能下降主要源于两个因素：一是音频表征混淆了语义与空间信息，导致对未闻声��定位不准；二是强化学习策略过拟合于训练环境的动态和布局。为此，本文提出了一个名为BDATP的即插即用框架。在感知层面，设计了双耳差分注意力模块，通过显式建模和利用左右声道特征的差异，强化模型对空间方位线索的提取，降低对声音语义的依赖。在策略层面，引入了动作转移预测辅助任务，通过预测轨迹中下一步的动作来增加策略学习的时序一致性约束，鼓励模型学习跨环境的通用导航规律。在Replica和Matterport3D数据集上的大量实验表明，将BDATP集成到AV-NaV和AV-WaN等主流基线中，能带来一致且显著的性能提升，尤其在最具挑战性的未闻声音设置下，成功率最高可提升超过21个百分点，证明了其优越的泛化能力和鲁棒性。 🏗️ 模型架构 BDATP框架整体是一个端到端的强化学习系统，以深度图像和双耳声谱图为输入，输出导航动作。其核心流程和组件如下：输入与编码：视觉输入：智能体的第一人称深度图像，通过一个独立的CNN编码器（三个卷积层+线性层+ReLU）编码为512维的视觉特征 f_v。音频输入：双耳声谱图（左右声道）。首先沿声道维度分离为左、右两个单声道声谱图。然后，通过一个权重共享的CNN编码器（结构与视觉编码器相同）分别编码，得到中间特征图 f_al 和 f_ar。双耳差分注意力模块： ...

PS-TTS: Phonetic Synchronization in Text-to-Speech for Achieving Natural Automated Dubbing

📄 PS-TTS: Phonetic Synchronization in Text-to-Speech for Achieving Natural Automated Dubbing #语音合成 #音视频 #动态时间规整 #大语言模型 #多语言 ✅ 评分：6.0/10 | arxiv 👥 作者与机构第一作者：Changi Hong（根据姓名顺序和论文常规推断）通讯作者：Hong Kook Kim（根据论文常规，资深作者通常为通讯作者）其他作者：Yoonah Song, Yoonah Song, Chaewoon Bang, Dayeon Gu, Do Hyun Lee 机构信息：论文摘要未提供明确的机构信息。根据arXiv常见模式和作者姓名，推断他们可能来自韩国某大学或研究机构（如光云大学等，因作者姓名为韩文）。具体实验室/课题组级别信息未在摘要中给出。 💡 毒舌点评亮点：把配音的“对口型”难题，用DTW和音素距离这种信号处理+语音学的经典组合拳来解，思路清晰且工程上有效，比纯端到端黑箱更可解释。槽点：实验数据规模听起来不大（几个数据集），且在多语言实验中声称“表现最佳”却未与专门的多语言配音SOTA对比，有点“关起门来当第一”的味道。 🔗 开源详情论文摘要中未提及任何关于代码、模型权重、数据集或预训练权重的开源计划。因此，推断相关资源未开源。 📌 核心摘要这篇论文旨在解决自动配音（AD）中目标语音与源语音在时长和唇形上的同步难题。其核心贡献是提出了一套两阶段的文本改写方法，并集成到TTS系统中：首先通过语言模型进行等时性改写，确保目标语音时长匹配源语音；其次引入音素同步（PS），使用动态时间规整（DTW）和从训练数据中学习的元音距离，使目标文本的元音发音尽可能接近源语音元音，以提升唇形同步效果。进一步地，论文提出了PSComet，在音素相似性的基础上联合考虑语义相似性，以更好地保留原文含义。实验表明，该方法（PS-TTS和PS-Comet TTS）在韩-英、英-韩的唇读数据集和配音演员数据集上，多项客观指标优于无PS的TTS，并在某些指标上超越人类配音演员。跨语言实验（涉及法语）也验证了PSComet在平衡唇形同步与语义保留方面的优越性。该工作为提升自动配音的自然度和观感提供了实用且可解释的技术路径，但其效果高度依赖于源-目标语言对的音素映射质量和训练数据。 🏗️ 模型架构 PS-TTS系统是一个流程化的管线，而非单一的端到端模型。其整体流程如下：输入：源视频（含源语音）和翻译后的目标语文本。第一阶段：等时性文本改写组件：一个预训练的语言模型（LM），如T5或BART。功能：接收翻译文本，并在不改变其核心语义的前提下，通过增删、替换词汇或调整句式，生成一个新版本的目标文本，使得该文本用目标语言TTS系统合成的语音时长，与源语音时长尽可能一致。设计理由：直接控制时长是配音同步的基础，利用LM进行改写比规则方法更灵活自然。第二阶段：音素同步（PS）组件：动态时间规整（DTW）算法，其局部代价函数基于元音距离。功能：对源语音和第一阶段输出的目标文本（已转为音素序列）进行对齐。对齐的依据不是文本本身，而是元音的声学或发音特征相似度。论文提到使用从训练数据中学习到的“元音距离”作为DTW的局部代价。这意味着，在改写时，算法倾向于选择那些发音与对应源语音元音更相似的目标语元音，从而在发音时嘴型更接近，提升唇形同步（lip-sync）效果。扩展 - PSComet：在PS的基础上，引入一个名为Comet的模型（可能是一个多语言预训练模型），它能够同时计算语义相似度和音素相似度。PSComet在DTW对齐或文本选择时，综合权衡这两个因素，避免为了极致的唇形同步而严重扭曲语义。输出：经过两阶段优化的目标语文本。 TTS合成：将优化后的文本输入标准的TTS系统（如基于VITS、FastSpeech2等），生成最终的目标语音。整体数据流：源语音 + 翻译文本 -> LM（等时性改写） -> 中间文本 -> DTW+PSComet（音素/语义同步改写） -> 优化文本 -> TTS引擎 -> 目标语音。 💡 核心创新点将配音同步问题解耦为文本改写问题：创新性地将复杂的音视频同步挑战，转化为对翻译后文本进行两阶段（时长、音素）改写的自然语言处理任务，使得问题更结构化、可解释。基于音素距离的DTW对齐机制：不同于传统的基于文本或语义的对齐，本方法创新地使用目标语与源语元音之间的发音相似度作为DTW对齐的驱动力，直接针对“唇形”这一物理属性进行优化，是提升lip-sync的关键。语义-音素联合优化的PSComet：认识到单纯追求音素同步可能损害语义，提出了PSComet框架，在目标文本选择时联合优化语义保真度和音素相似度，实现了两者间的更好平衡，这是对单纯PS方法的重要改进。 🔬 细节详述训练数据：用于学习“元音距离”的数据：论文提及使用“训练数据”，但未明确具体名称。推测是用于训练底层TTS系统的多语言语音-文本对齐数据，从中可以提取元音的声学特征（如MFCC、F0）或发音特征（如Vowel Space）来计算距离。用于评估的数据集：Korean and English lip-reading datasets（可能指LRS2/LRS3等）、a voice-actor dubbing dataset（自建或特定数据集）、以及French数据用于跨语言测试。损失函数：论文主要描述的是流程方法而非可端到端训练的模型，因此未明确提及统一的损失函数。各阶段目标独立：等时性阶段目标为时长匹配；PS阶段目标为最小化DTW总代价（即累积的元音距离）；PSComet阶段目标为最大化语义与音素联合得分。训练策略：语言模型（LM）：使用预训练模型进行微调或直接提示工程（Prompting）进行文本改写。元音距离模型：可能使用一个简单的神经网络或度量学习方法，在语音数据上训练，以区分不同元音的发音。 TTS系统：使用现成的预训练TTS模型（如VITS），在目标语言数据上微调或直接使用。关键超参数：DTW中语义相似度和音素相似度的权重（在PSComet中），用于平衡两者的重要性。论文中应通过实验确定最佳权重。推理细节：推理过程是一个确定性的流程：输入源语音和文本，依次经过LM改写、DTW对齐与文本优化，最后送入TTS生成语音。无随机采样。数据增强/正则化：未明确提及。可能依赖于预训练LM和TTS模型自身的能力。 📊 实验结果主要指标对比：论文指出，PS-TTS和PS-Comet TTS在多个客观指标上优于不使用PS的TTS基线。在韩-英和英-韩配音中，系统在某些指标上超越了人类配音演员。但摘要未给出具体数值（如LSE-D, LSE-C, SyncScore等唇形同步指标，或MOS、MOSNet等语音质量指标）。跨语言实验（含法语）中，PSComet在所有语言对中表现最佳，在唇形同步精度和语义保留之间取得了最佳平衡。消融实验：摘要隐含了消融对比：TTS (无PS) vs PS-TTS vs PS-Comet TTS。结果表明，加入PS能提升同步性，而进一步加入语义约束（PSComet）能在保持或提升同步性的同时，获得更好的语义保留。与SOTA方法的对比：未在摘要中体现。这是主要缺陷之一。用户研究/主观评价：摘要未提及是否有MOS等主观评价实验。 ⚖️ 评分理由创新性：6.5/10。将语音合成与唇形同步通过文本改写和音素对齐相结合的思路具有启发性，PSComet的联合优化也是有价值的改进。但核心组件（LM， DTW， TTS）均为成熟技术，创新在于巧妙的流程设计和组合。实验充分性：6.0/10。实验设计了多语言、多数据集验证，并与人类对比，有一定说服力。但缺乏与领域内已有SOTA方法的直接对比，且未提供具体实验数据数字，削弱了结论的强度。数据规模未知。实用价值：7.5/10。直接针对影视、视频本地化中的自动配音痛点，提出的流程清晰，有望直接集成到现有配音工作流中，实用导向明确。灌水程度：3.0/10（越低越好）。论文问题聚焦，方法描述清晰，无明显的冗余内容或夸大表述。主要不足在于实验对比不够全面。 🖼️ 图片与表格由于用户未提供论文原文的图片和表格，仅基于摘要进行分析。 ...

AVID: A Benchmark for Omni-Modal Audio-Visual Inconsistency Understanding via Agent-Driven Construction

📄 AVID: A Benchmark for Omni-Modal Audio-Visual Inconsistency Understanding via Agent-Driven Construction #多模态模型 #基准测试 #音视频 #音频大模型 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：Zixuan Chen（上海交通大学）通讯作者：Tanfeng Sun，Xinghao Jiang（上海交通大学，根据论文作者顺序及常见通讯作者标注习惯推断）其他作者： Depeng Wang（蚂蚁集团） Hao Lin（香港中文大学） Li Luo（上海交通大学） Ke Xu（上海交通大学） Ya Guo（蚂蚁集团） Huijia Zhu（蚂蚁集团） 💡 毒舌点评这篇论文的亮点在于它敏锐地抓住了当前多模态大模型在“理解矛盾”而非“理解对齐”上的短板，并为此量身打造了一个大规模、系统化的测试基准，堪称给模型们做了一次“大家来找茬”的专项体检。槽点在于其“构造”不一致性的方法虽然巧妙且可控，但过于依赖外部大模型（Gemini）进行策略规划，且注入的“矛盾”在自然度上可能与真实世界的复杂矛盾仍有差距，有点像在实验室里精心布置的“找茬游戏”考场。 🔗 开源详情代码：论文中提到GitHub仓库（https://github.com/），但未给出完整链接。计划开源。模型权重：AVID-Qwen基于Qwen3-Omni-30B-A3B-Instruct微调。论文提到将在HuggingFace上发布模型权重。数据集：AVID基准计划公开，包含全视频和片段级子集。预训练权重：使用公开的Qwen3-Omni-30B-A3B-Instruct作为骨干。在线Demo：论文中未提及。引用的开源项目：策略智能体：Gemini 3.1 Pro (Google)。注入器工具：FFmpeg, Demucs (音频分离), Silero VAD, MediaPipe。基座模型：Qwen3-Omni。微调框架：SWIFT。数据来源：LongVALE数据集。 📌 核心摘要这篇论文旨在解决当前全模态大模型在音视频不一致性理解能力上缺乏系统性评估的问题。现有基准要么只关注音视频对齐事件，要么局限于检测深度伪造中的低级伪影，无法评估模型对长视频中语义级矛盾的理解。为此，作者提出了AVID，首个大规模音视频不一致性理解基准。其核心方法是构建了一个可扩展的流水线：首先将视频按“有声有脸”、“有声无脸”、“无声有景”进行时序分割，然后利用一个由Gemini驱动的策略智能体为每个片段规划最合适的矛盾注入类型（共8类），最后通过五个专门的注入器（如时间偏移、语义矛盾、身份修改等）生成不一致视频。基于此，他们构建了包含11.2K长视频（平均235.5秒）、39.4K个已标注矛盾事件和78.7K个片段的数据集。实验表明，现有顶尖模型（包括Gemini 3.1 Pro）在时间定位和细粒度推理上存在显著不足。作者还微调了一个基线模型AVID-Qwen，其在时间定位（mIoU: 36.1% vs 26.2%）和整体理解（SODA-m: 7.47 vs 6.15）上超越了所有对比模型，验证了该基准的有效性。 ...