Audio-Cogito: Towards Deep Audio Reasoning in Large Audio Language Models

📄 Audio-Cogito: Towards Deep Audio Reasoning in Large Audio Language Models #音频大模型 #多模态模型 #自监督学习 #知识蒸馏 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Longhao Li (西北工业大学,计算机科学学院,音频、语音与语言处理组 (ASLP@NPU)) 通讯作者:Lei Xie (西北工业大学,计算机科学学院,ASLP@NPU),Yongxiang Li (西北工业大学,计算机科学学院,ASLP@NPU) (根据论文中提供的联系邮箱推断) 其他作者: Hongjie Chen (中国电信人工智能研究院 (TeleAI)) Zehan Li (西北工业大学,计算机科学学院,ASLP@NPU) Qihan Hu (西北工业大学,计算机科学学院,ASLP@NPU) Jian Kang (西北工业大学,计算机科学学院,ASLP@NPU) Jie Li (中国电信人工智能研究院 (TeleAI)) 💡 毒舌点评 亮点:这篇论文最亮眼的是其“全开源”的承诺和“自蒸馏”策略,构建了一个从数据到模型的完整音频推理解决方案,直接挑战了依赖闭源API(如Gemini)的“捷径”做法,为社区提供了宝贵的可复现基准。槽点:然而,讽刺的是,其评估体系的核心——MMAR基准测试的“评分细则(rubric)”——仍然依赖闭源的Gemini 2.5 Pro生成,这使得其“超越闭源模型”的结论在评估公正性上存在一丝“用对手的尺子量自己”的微妙尴尬。 📌 核心摘要 这篇论文旨在解决大型音频语言模型(LALMs)在复杂音频推理任务上能力不足且依赖昂贵闭源数据的问题。作者提出了一个名为Audio-Cogito的全开源解决方案,其核心是Cogito-Pipe——一个四阶段自动化数据构建流水线,用于生成高质量、多样化的音频推理链(CoT)数据。该流水线通过整合多源音频元数据、利用模型自身进行自蒸馏生成推理轨迹,并辅以质量验证,最终构建了一个包含54.5万个样本的大规模开源数据集。基于此数据集,作者采用自蒸馏策略对基座模型(Qwen3-Omni-Thinking)进行微调。实验表明,Audio-Cogito在专门评估推理过程的MMAR基准测试上,取得了开源模型中的最佳性能,平均准确率达71.70%,甚至在部分指标上超越了Gemini 2.0 Flash等闭源系统,同时其推理链的质量(Rubrics Score 62.22%, CRS 0.87)也得到显著提升。该工作为推动音频模态的深度、可解释推理提供了重要的开源资源和方法论参考。 🏗️ 模型架构 Audio-Cogito的模型架构并非全新设计,而是基于现有的强大基座模型Qwen3-Omni-Thinking(一个30B参数、支持音频-文本多模态输入与思考链输出的模型)进行微调而来。其核心创新在于训练数据和训练策略,而非模型结构本身。 完整输入输出流程: 输入:模型接收一个**音频信号(A)和一个文本查询(Q)**作为联合输入。 内部表示:模型内部的多模态编码器(具体结构未在本文详述,继承自Qwen3-Omni-Thinking)将音频和文本转换为统一的特征表示。 生成过程:模型被显式地训练为生成一个两部分的序列: 第一部分:思维链(C):这是一个结构化的、逐步推理的文本轨迹,记录了模型如何分析音频线索、进行逻辑推导以得出结论的过程。 第二部分:最终回答(R):基于前面的推理,给出的简洁、明确的答案。 输出:最终输出是思维链(C)和最终回答(R)的拼接序列 (C, R)。 关键设计选择的理由: ...

2026-04-19

AVID: A Benchmark for Omni-Modal Audio-Visual Inconsistency Understanding via Agent-Driven Construction

📄 AVID: A Benchmark for Omni-Modal Audio-Visual Inconsistency Understanding via Agent-Driven Construction #多模态模型 #基准测试 #音视频 #音频大模型 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Zixuan Chen(上海交通大学) 通讯作者:Tanfeng Sun,Xinghao Jiang(上海交通大学,根据论文作者顺序及常见通讯作者标注习惯推断) 其他作者: Depeng Wang(蚂蚁集团) Hao Lin(香港中文大学) Li Luo(上海交通大学) Ke Xu(上海交通大学) Ya Guo(蚂蚁集团) Huijia Zhu(蚂蚁集团) 💡 毒舌点评 这篇论文的亮点在于它敏锐地抓住了当前多模态大模型在“理解矛盾”而非“理解对齐”上的短板,并为此量身打造了一个大规模、系统化的测试基准,堪称给模型们做了一次“大家来找茬”的专项体检。槽点在于其“构造”不一致性的方法虽然巧妙且可控,但过于依赖外部大模型(Gemini)进行策略规划,且注入的“矛盾”在自然度上可能与真实世界的复杂矛盾仍有差距,有点像在实验室里精心布置的“找茬游戏”考场。 📌 核心摘要 这篇论文旨在解决当前全模态大模型在音视频不一致性理解能力上缺乏系统性评估的问题。现有基准要么只关注音视频对齐事件,要么局限于检测深度伪造中的低级伪影,无法评估模型对长视频中语义级矛盾的理解。为此,作者提出了AVID,首个大规模音视频不一致性理解基准。其核心方法是构建了一个可扩展的流水线:首先将视频按“有声有脸”、“有声无脸”、“无声有景”进行时序分割,然后利用一个由Gemini驱动的策略智能体为每个片段规划最合适的矛盾注入类型(共8类),最后通过五个专门的注入器(如时间偏移、语义矛盾、身份修改等)生成不一致视频。基于此,他们构建了包含11.2K长视频(平均235.5秒)、39.4K个已标注矛盾事件和78.7K个片段的数据集。实验表明,现有顶尖模型(包括Gemini 3.1 Pro)在时间定位和细粒度推理上存在显著不足。作者还微调了一个基线模型AVID-Qwen,其在时间定位(mIoU: 36.1% vs 26.2%)和整体理解(SODA-m: 7.47 vs 6.15)上超越了所有对比模型,验证了该基准的有效性。 🏗️ 模型架构 论文中提出的基线模型是 AVID-Qwen,其核心架构基于 Qwen3-Omni-30B-A3B-Instruct。 整体输入输出流程: 输入:原始视频文件(包含视频帧和音频流)以及一个文本指令(Prompt)。 预处理: 视觉:视频以12 FPS采样,帧被调整至最大50,176像素(保持宽高比),形成视觉token序列。 音频:直接从视频文件中提取音频流,由音频编码器处理。 模型推理:预处理后的视觉token、音频token与文本指令的token被拼接,输入到一个自回归的大型语言模型(LLM)骨干网络中。 输出:模型自回归地生成文本响应,格式根据任务而定(如检测结果、分类、时间戳、推理文本)。 主要组件: 视觉编码器:一个预训练的视觉特征提取器,将视频帧转换为视觉token。在微调期间被冻结。 音频编码器:一个预训练的音频特征提取器,处理音频流。在微调期间被冻结。 对齐模块:将视觉编码器的输出映射到LLM嵌入空间的适配器。在微调期间被冻结。 LLM骨干:一个约300亿参数(激活30亿)的解码器Transformer。这是微调的主要对象,负责跨模态推理和文本生成。 连接方式与数据流:视觉和音频编码器独立处理各自模态的原始输入,生成特征序列。这些特征序列通过各自的对齐模块(视觉需要,音频可能直接适配)转换为与LLM词嵌入空间兼容的token。这些多模态token与文本指令token拼接成一个长序列,输入LLM。LLM基于这个混合序列进行自回归解码,生成最终文本。 ...

2026-04-19

ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling

📄 ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling #音频生成 #多模态模型 #扩散模型 #基准测试 🔥 评分:9.2/10 | arxiv 👥 作者与机构 第一作者:Jianxuan Yang(小米 MiLM Plus) 通讯作者:Jian Luan(小米 MiLM Plus) 其他作者: Xinyue Guo(小米 MiLM Plus) Zhi Cheng(小米 MiLM Plus,武汉大学) Kai Wang(小米 MiLM Plus,武汉大学) Lipan Zhang(小米 MiLM Plus) Jinjie Hu(小米 MiLM Plus) Qiang Ji(小米 MiLM Plus) Yihua Cao(小米 MiLM Plus) Yihao Meng(小米 MiLM Plus,武汉大学) Zhaoyue Cui(小米 MiLM Plus,武汉大学) Mengmei Liu(小米 MiLM Plus) Meng Meng(小米 MiLM Plus) (所有作者均来自“Xiaomi LLM Core Team”或“MiLM Plus, Xiaomi Inc.”,部分作者有武汉大学的联合署名) 💡 毒舌点评 亮点:这篇论文精准地抓住了当前视频到音频生成领域的两大痛点——“文本说啥视频不听”和“参考音频带节奏还抢戏”,并给出了系统性的解决方案,尤其是提出的VGGSound-TVC基准,简直是给“视觉霸权”模型们准备的“照妖镜”。 槽点:方法虽然精巧,但本质上是“堆料”的艺术——双视觉编码器、多模态对齐损失、复杂的训练策略,对算力和数据的需求不低,感觉是在用“钞能力”解决“控制力”问题,小团队复现起来可能要掉头发。 ...

2026-04-19

Geo2Sound: A Scalable Geo-Aligned Framework for Soundscape Generation from Satellite Imagery

📄 Geo2Sound: A Scalable Geo-Aligned Framework for Soundscape Generation from Satellite Imagery #音频生成 #多模态模型 #基准测试 #数据集 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Kunlin Wu(香港科技大学(广州)) 通讯作者:根据论文署名和致谢信息,推测通讯作者可能为 Xiaofeng Liu(香港科技大学(广州)),论文中未明确标注。 其他作者: Yanning Wang(香港科技大学(广州)) Haofeng Tan(南卡罗来纳大学,美国) Boyi Chen(香港科技大学(广州)) Teng Fei(坎特伯雷大学,新西兰) Xianping Ma(西南交通大学,中国) Yang Yue(香港科技大学(广州)) Zan Zhou(北京邮电大学,中国) Xiaofeng Liu(香港科技大学(广州)) 💡 毒舌点评 亮点:这篇论文想象力爆棚,硬是把“看卫星图猜声音”这个看似不着边际的想法,做成了一个有模有样的系统任务,还搭了个大规模数据集,属实是“跨模态整活”的典范。槽点:方法上有点“拼积木”的意思,依赖现成的视觉模型、语言模型和音频生成模型,自己核心的“对齐”模块虽然巧妙但略显单薄,像是在给一堆大佬打补丁,创新性更多体现在任务定义和工程整合上。 📌 核心摘要 这篇论文提出了一个名为 Geo2Sound 的新任务和框架,旨在从卫星图像生成地理上一致且逼真的声音景观。要解决的问题是现有图像到音频模型在处理自上而下的卫星视图时面临三大挑战:缺乏结构化地理语义、一对多的声学歧义以及缺乏更广泛的地理空间上下文。方法上,它设计了一个三阶段流水线:首先通过轻量级分类器将卫星图像聚类并总结为紧凑的地理属性(如植被覆盖率、建筑密度);然后利用大语言模型为同一场景生成多个声学上合理的文本描述(语义假设扩展),并用文本到音频模型生成对应的候选音频;最后训练一个地理-声学对齐模块,将地理属性投影到音频嵌入空间,从候选集中选择与地理环境最匹配的音频。主要发现是,该框架在自建的 SatSound-Bench 基准(包含超过2万对数据)上取得了SOTA性能,FAD指标达到1.765,比最强基线提升50%,并在人类评估的真实性、语义对齐和沉浸感方面均获得显著提升。实际意义在于为城市规划、数字孪生和虚拟现实等应用提供了一种可扩展的、从视觉数据生成环境声音的新方法。局限性在于方法依赖外部预训练模型(VLM, T2A),且数据收集和对齐的有效性高度依赖于地理属性与声音关联的假设。 🏗️ 模型架构 Geo2Sound的整体架构是一个三阶段流水线,将卫星图像最终转化为一个与地理环境最匹配的音频文件。 输入:一张512x512像素的卫星图像。 阶段一:结构地理空间属性建模 功能:将原始图像转化为结构化的、对声学推理有用的地理属性描述符。 流程: 使用固定的预训练视觉主干网络(DINOv3)提取密集的、 patch级别的图像特征。 对这些特征进行K-means聚类(k=8),将图像分割成空间上连贯的区域。 对每个聚类区域,计算一组视觉统计特征(RGB/HSV均值、纹理、边缘密度),并与该区域的平均特征拼接,形成该区域的描述。 通过启发式打分生成伪标签,并用这些伪标签训练一个两阶段随机森林分类器。第一阶段过滤低置信度样本,第二阶段在高质量样本上重训,作为最终分类器,输出每个区域属于不同类别(植被、水体、建筑区、道路等)的概率。 最后,将所有区域的分类概率按面积加权聚合,得到整幅图像的地理属性向量(5维:植被覆盖率、水体比例、建筑比例、道路密度、土地利用混合度),并计算香农熵作为场景多样性度量。 输出:一个紧凑的、图像级别的地理描述符(6维向量)。 阶段二:语义假设扩展 功能:解决卫星图像对应多种可能声音场景的歧义问题。 流程: 将卫星图像输入视觉语言模型(GPT-5.2),生成一个基础场景描述文本(C0)。 设计特定的提示词,要求模型基于C0生成两个在声学条件上明显不同(如繁忙vs安静、有自然声vs无自然声)但视觉上仍一致的替代描述(C1, C2)。 将这三个文本描述(C0, C1, C2)分别输入一个文本到音频(T2A)生成模型(如Make-An-Audio 2),每个描述生成2个音频样本,总计得到6个候选音频。 输出:一个包含6个候选音频片段的集合,每个都与原始卫星图像在语义上兼容,但声学氛围不同。 阶段三:地理-声学对齐模块 功能:从多个候选音频中,选择与该地点地理环境最匹配的一个。 流程: 使用一个轻量级的投影网络(两层MLP),将阶段一输出的地理属性向量映射到音频嵌入空间,得到一个“地理查询向量”。 使用预训练的音频模型(CLAP)对所有6个候选音频进行编码,得到它们的音频嵌入向量。 计算“地理查询向量”与每个候选音频嵌入向量之间的余弦相似度。 选择相似度最高的候选音频作为最终输出。 输出:最终生成的、地理对齐的声音景观音频。 整体数据流:卫星图像 -> 地理属性向量 & 文本描述 -> 候选音频集合 -> 选出最佳音频。核心思想是“先发散(生成多样候选),后收敛(基于地理信息筛选)”。 💡 核心创新点 定义新任务与基准:首次明确提出“从卫星图像生成声音景观”这一跨模态生成任务,并建立了首个大规模配对基准数据集 SatSound-Bench。这为该领域的研究奠定了基础,开辟了遥感与音频生成交叉的新方向。 语义假设扩展策略:针对卫星图像的“一对多”声学歧义,创新性地提出不依赖单一描述,而是为同一图像生成多个声学条件不同的文本假设,再通过T2A模型生成候选集。这显式地建模了不确定性,并为后续的地理对齐提供了选择空间,比直接生成单一音频更合理。 地理-声学对齐模块:设计了一个轻量级模块,将从图像中提取的宏观地理属性(如建筑密度)投影到音频特征空间,作为先验来选择候选音频。这巧妙地引入了更广泛的地理上下文约束,确保了生成声音的地理合理性,而无需在生成模型内部进行复杂改造。 可扩展的框架设计:整个框架是模块化的,可以灵活替换不同的视觉编码器、T2A生成器和音频编码器。其“属性提取-假设生成-对齐选择”的范式具有通用性,为处理其他具有语义模糊性的跨模态生成问题提供了新思路。 🔬 细节详述 训练数据: SatSound-Bench:总计28,630个卫星-文本-音频三元组。其中24,400用于训练,4,230用于测试。 来源:a) 实地录制:在中国、斯里兰卡、泰国等10多个国家多个城市使用车载设备(Zoom F6录音机、定向/全向麦克风、Insta360相机)录制。音频为10秒单声道片段,48kHz采样率。b) 公共数据集:SoundingEarth, iNaturalist Sounds, Freesound。 对齐与过滤:卫星图像来自Google Maps,与音频时间窗口对齐(±3个月)。文本描述:实地录制部分由人工标注后经LLM(GPT-5.2)扩展,公共数据集部分直接由LLM生成。使用CLAP相似度>0.5过滤低质量音文对。 损失函数: 地理-声学对齐模块训练:使用余弦回归损失。目标是让投影后的地理嵌入与参考音频的CLAP嵌入(经PCA降维到32维)在嵌入空间中的余弦相似度最大化。损失函数为:Loss = 1 - cosine_similarity(MLP(geo_descriptor), audio_embedding_PCA)。 训练策略: 优化器:AdamW。 学习率:1e-3,权重衰减1e-4。 Batch Size:64。 训练轮数:最多80轮,使用早停策略(耐心值12)。 学习率衰减:未明确提及,但早停策略隐含了训练过程的终止。 验证集:15%的训练数据,随机种子固定为42。 关键超参数: 聚类数K-means:k=8。 随机森林树数量:300。 伪标签置信度阈值:0.70。 最小聚类面积比:0.01。 地理描述符维度:5(加上多样性熵为6)。 音频嵌入PCA降维后维度:32。 对齐MLP结构:5 -> 256 (GELU) -> 256 (GELU) -> 32, dropout率0.1。 候选音频数量N:6(主实验设置)。 训练硬件:8块NVIDIA RTX Pro 6000 Blackwell GPU(96GB显存)。 推理细节: 每个场景生成6个候选音频(3个文本假设 x 2个样本)。 通过计算地理查询向量与6个候选音频嵌入的余弦相似度进行排序,选择最高分者输出。 数据增强/正则化: 在对齐模块的MLP中使用了dropout(率0.1)。 输入地理特征进行z-score标准化。 输出嵌入进行L2归一化。 📊 实验结果 主要指标对比表(部分关键数据): ...

2026-04-19

Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection

📄 Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection #音频安全 #音频大模型 #对抗样本 #多模态模型 🔥 评分:8.8/10 | arxiv 👥 作者与机构 第一作者:Meng Chen(浙江大学,ZJU-MUSLAB) 通讯作者:Tianwei Zhang(新加坡国立大学,School of Computing) 其他作者: Kun Wang(浙江大学,ZJU-MUSLAB) Li Lu(浙江大学,ZJU-MUSLAB) Jiaheng Zhang(香港中文大学,Department of Computer Science & Engineering) Kun Wang(阿里云,Alibaba Cloud)(注:论文PDF中作者列表有两位Kun Wang,根据机构推断一位来自ZJU-MUSLAB,另一位来自阿里云) 💡 毒舌点评 亮点:论文首次系统性地研究了针对音频大语言模型(LALM)的“间接”音频提示注入攻击,问题定义精准(数据-only访问、用户在环),并提出了一个通用且有效的攻击框架AudioHijack。槽点:攻击框架严重依赖对目标模型的白盒访问(知道架构和参数),这在现实世界中可能是一个重大限制;此外,虽然提出了多种防御策略,但它们的有效性有限,论文在“如何有效防御”这一更关键的问题上着墨相对较少。 📌 核心摘要 这篇论文揭示了针对音频大语言模型(LALM)的一种新型安全威胁:上下文无关且不可感知的音频提示注入攻击。攻击者仅需篡改输入音频数据(如会议录音、音乐片段),即可在用户不知情的情况下,劫持模型行为,使其执行恶意指令(如发送邮件、下载文件、传播错误信息)。为实现这一目标,作者提出了AudioHijack框架,它通过基于采样的梯度估计解决了音频分词不可微的问题,实现了端到端的对抗音频优化;通过注意力引导的上下文泛化技术,使攻击能泛化到未知的用户指令上下文;并设计了卷积扰动混合方法,将对抗扰动模拟为自然的混响效果,极大提升了攻击的隐蔽性。实验表明,AudioHijack在13个主流LALM上平均攻击成功率高达79%-96%,并成功对Mistral AI和Microsoft Azure的商业语音代理实施了攻击。该研究暴露了音频-文本模态融合中的根本性安全漏洞,为LALM的安全设计提供了重要警示。 🏗️ 模型架构 论文本身并未提出新的模型架构,而是针对现有的、架构各异的大型音频语言模型(LALM) 进行攻击研究。因此,本节将详细描述被攻击的LALM的通用架构流程,以及AudioHijack攻击框架如何与之交互。 1. 被攻击LALM的通用输入输出流程: 现代LALM通常采用端到端架构,直接处理音频输入并生成文本/语音响应。其核心流程如下: 输入:一个组合提示,通常包含: 音频数据:用户上传或参考的音频内容(如录音、音乐)。 用户指令:可以是文本(如“总结这段录音”)或语音(直接说出指令)。 系统提示:模型预设的角色和任务指令。 处理流程: 音频编码:原始音频信号 x 通过一个音频编码器 E(·)(如Whisper的编码器、BEATs等)提取连续声学特征 e = E(x)。 音频-文本对齐:这是架构异构的关键。根据论文分类,有三种主要方案: 离散标记方案:声学特征 e 通过向量量化(VQ)层映射为离散音频标记序列 z,然后通过嵌入矩阵 Φ 查表得到嵌入向量 ẽ = Φ(z),与文本标记嵌入拼接。 连续特征方案:声学特征 e 通过一个模态适配器(如MLP、交叉注意力层)直接投影到文本嵌入空间,得到与文本嵌入维度一致的向量,再与文本嵌入拼接。 混合方案:同时使用离散标记和连续特征,将两者与文本嵌入融合。 大语言模型处理:拼接后的嵌入序列被送入LLM主干(如LLaMA、Qwen等)。LLM以自回归方式生成响应。 输出:生成文本响应,部分全双工模型还会并行生成语音。 2. AudioHijack攻击框架的介入点: AudioHijack的目标是生成对抗音频 x̂,使得当 x̂ 作为“音频数据”输入时,模型的输出行为被劫持。 ...

2026-04-19

Tora3: Trajectory-Guided Audio-Video Generation with Physical Coherence

📄 Tora3: Trajectory-Guided Audio-Video Generation with Physical Coherence #音频生成 #音视频 #多模态模型 #扩散模型 ✅ 评分:7.8/10 | arxiv 👥 作者与机构 第一作者:Junchao Liao (阿里巴巴云计算) 通讯作者:Long Qin (阿里巴巴云计算,复旦大学),Weizhi Wang (阿里巴巴云计算) 其他作者: Zhenghao Zhang (阿里巴巴云计算) Xiangyu Meng (阿里巴巴云计算) Litao Li (阿里巴巴云计算) Ziying Zhang (阿里巴巴云计算) Siyu Zhu (复旦大学) 机构信息:主要来自阿里巴巴云计算(具体为阿里云智能集团)和复旦大学。论文未明确标注具体实验室。 💡 毒舌点评 亮点:论文的核心洞察——将稀疏的物体轨迹从单纯的视频控制信号,提升为跨模态共享的“运动学先验”,并以此统一约束视频中的物体运动与音频中的事件时序和强度,这个切入点非常聪明且具有物理直觉,是解决音画不同步“老大难”问题的一次优雅尝试。 槽点:论文在方法描述上过于“学术八股”,把一个直观的想法包裹在复杂的公式和模块命名里(比如“Hybrid Flow Matching”本质上就是区域自适应的噪声调度)。另外,新构建的PAV数据集号称有46万条,但数据清洗和轨迹提取的细节(如CoTracker3在复杂场景下的失败案例)对结果可靠性的影响被一笔带过,有“大力出奇迹”之嫌。 📌 核心摘要 本文针对现有音视频(AV)生成模型中存在的运动不真实、声音与运动事件不同步、声音强度与运动强度不匹配等问题,提出了Tora3框架。其核心创新在于将物体轨迹视为连接视觉与听觉模态的共享运动学先验,而非仅用于控制视频。为实现这一目标,Tora3包含三个关键技术组件:1)轨迹对齐的运动表示,通过在视频潜在空间中直接沿轨迹传播首帧特征来注入运动线索,避免了额外运动编码器的引入;2)运动学-音频对齐模块,从轨迹中推导出位置、速度、加速度等二阶运动学状态,并通过交叉注意力注入音频扩散模型,为声音生成提供精确的事件时序和强度提示;3)混合流匹配机制,对轨迹区域和非轨迹区域采用不同的概率流,以在保持轨迹保真度的同时维持局部外观一致性。此外,论文构建了一个大规模、以运动为中心的PAV数据集(46万片段)。实验表明,Tora3在视频质量(FVD 784.1)、轨迹跟随精度(TE 12.13)、音视频同步(FGAS 0.234)以及运动-声音相关性(MAIC 0.63)上均优于强基线模型。局限性在于其效果高度依赖于输入轨迹的质量与准确性,且对复杂物理交互(如材质、3D声学)的建模能力有限。 🏗️ 模型架构 Tora3基于一个双流扩散Transformer(DiT)架构(继承自Ovi),包含独立的视频和音频主干网络。其整体输入输出流程及核心组件如下: 输入:文本提示(Prompt)、可选的初始图像、以及物体轨迹(一系列物体在每帧的2D坐标)。 视频分支流程: VAE编码:初始图像通过预训练的VAE编码器得到潜在表示 z。 轨迹对齐运动表示:这是核心创新之一。不引入额外编码器,而是直接将轨迹映射到潜在空间坐标。对于每个物体的轨迹,在视频潜在序列的每一帧中,将该轨迹点对应的潜在位置特征,替换为初始图像在该物体起始位置的特征 z。非轨迹区域初始化为零(首帧除外)。这相当于在潜在空间“绘制”了运动的物体。 注入与生成:上述构建的 x_traj 作为条件,与噪声潜在变量 x_t 一起输入视频DiT主干。主干由N个Fusion Block组成,内部包含自注意力、跨注意力(用于融合文本嵌入)和前馈网络。 音频分支流程: VAE编码:目标音频波形通过音频VAE编码器得到音频潜在表示。 运动学特征提取:从轨迹中计算每个物体在每一帧的8维运动学特征向量 ϕ,包括:归一化位置 (r)、速度向量 (v)、加速度向量 (a)、速度模长 ||v||、加速度模长 ||a||。这些特征经过归一化和对数压缩后,通过一个3层MLP编码器 ℰ_k 映射为运动学令牌 H_kin。 运动学-音频融合:在音频DiT的每个Transformer块中,在自注意力层之后、原有的文本跨注意力层之前,插入一个辅助的跨注意力层。该层以音频潜在状态为查询(Query),以运动学令牌 H_kin 为键(Key)和值(Value),并应用RoPE保持时间对齐。输出通过一个可学习的门控机制(参数 γ,初始化为-10)与原始音频状态残差相加,从而自适应地平衡语义条件与运动学条件。 混合流匹配(视频训练目标): 这是另一个核心创新。在训练时,对视频潜在空间的不同区域采用不同的流匹配目标。 定义区域:根据轨迹坐标定义二值掩码 M,标识出轨迹经过的时空位置 Ω_traj。 混合目标: 在非轨迹区域 (M=0):采用标准流匹配目标,即从干净潜变量 x_0 到高斯噪声 ϵ 的线性插值。 在轨迹区域 (M=1):将噪声终点替换为之前构建的轨迹条件潜变量 x_traj,即从 x_0 到 x_traj 的插值。这迫使模型在这些区域学习保留轨迹注入的运动先验。 损失函数:视频损失被分解为轨迹区域损失 L_traj 和非轨迹区域损失 L_out 的加权和(权重均为0.5),以防止稀疏的轨迹区域被主导。音频损失沿用Ovi的原始损失。 输出:视频DiT和音频DiT分别去噪后,通过对应的VAE解码器生成视频帧序列和音频波形。 设计理由: ...

2026-04-19

WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training

📄 WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training #语音对话系统 #强化学习 #端到端 #多模态模型 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Yifu Chen(浙江大学) 通讯作者:Zhou Zhao(浙江大学) 其他作者:Shengpeng Ji(浙江大学),Qian Chen(阿里巴巴通义团队),Tianle Liang(浙江大学),Yangzhuo Li(浙江大学),Ziqing Wang(北京工业大学),Wen Wang(阿里巴巴通义团队),Jingyu Lu(浙江大学),Haoxiao Wang(浙江大学),Xueyi Pu(浙江大学),Fan Zhuo(浙江大学) 备注:论文注明 Yifu Chen 和 Shengpeng Ji 贡献相等(These authors contributed equally)。所有作者单位包括:浙江大学、阿里巴巴通义团队、北京工业大学。 💡 毒舌点评 亮点:这篇论文精准地“诊断”出了当前端到端语音对话模型在应用强化学习时“水土不服”的核心病灶——语义和声学的优化目标在统一序列层面相互冲突、梯度能量严重失衡,并开出了一剂“模态分离、动态混合”的有效“处方”。槽点:方法虽然巧妙,但严重依赖一个外部、强大的奖励模型(Gemini-2.5-Pro)来提供信号,这不仅成本高昂,其稳定性和泛化能力本身也存疑,相当于把自家模型的“指挥权”交给了别人。此外,代码和模型权重未开源,让“复现”变成了一个玄学问题。 📌 核心摘要 这篇论文旨在解决端到端语音对话模型在智能(IQ)和表达力(EQ)上难以同时提升的核心挑战。作者发现,直接对混合文本-语音序列应用统一的偏好优化(如DPO、GRPO)会导致问题:稀疏的偏好信号被淹没在密集的语音token中,造成梯度能量失衡(文本梯度主导),并引发声学分布漂移和自然度下降。为此,论文提出了一种自适应混合后训练框架(WavAlign)。其核心思想是分工协作:使用监督微调(SFT)作为“锚”来稳定和维持语音的自然度与可行性;同时,仅对文本token应用偏好优化(GRPO)来精炼语义智能。更进一步,设计了一个轻量级动态门控机制,根据rollout样本的质量(是否存在可接受样本)和区分度(奖励方差)自适应地调整SFT与偏好优化的混合权重,确保只在偏好信号可靠时进行更新。实验在VITA和KimiAudio两种架构上进行,跨越多个基准测试,结果表明该方法在语义质量和语音表达力上均取得了一致且显著的提升。 🏗️ 模型架构 论文本身不提出新的模型架构,而是提出一种后训练方法,可应用于不同的现有端到端语音对话模型架构。论文研究的模型需具备生成文本和语音两种token的能力。作者概括了三种主流架构: 交织式(Interleaving):模型生成一个单一的、文本与语音token交织的序列。 并行式(Parallel):模型并行生成文本和语音流,两者状态耦合。 思考者-说话者式(Thinker-Talker):将生成过程分解为“思考”(生成文本语义)和“说话”(生成语音)两个阶段。 为了保持方法与架构无关,论文将模型的输出抽象为两个token序列:文本序列 y^T 和语音序列 y^S。模型定义了一个联合条件概率 P_θ(y^T, y^S | x),其对数似然可以按token类型进行分解(公式1)。这个分解是后续进行模态感知优化的理论基础。 WavAlign 方法的整体流程(如图6所示)是一个单阶段的动态混合训练循环: ...

2026-04-19

语音/音频论文速递 2026-04-19

语音/音频论文速递 2026-04-19 共分析 42 篇论文 ⚡ 今日概览 📥 抓取 42 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音频理解 12篇 ████████████ #基准测试 10篇 ██████████ #音频大模型 9篇 █████████ #多模态模型 7篇 ███████ #信号处理 6篇 ██████ #强化学习 6篇 ██████ #自监督学习 6篇 ██████ #大语言模型 5篇 █████ 📊 论文评分排行榜(42 篇,按分数降序) 排名 论文 评分 🥇 ControlFoley: Unified and Controllable Video-to-Audio G 9.2分 🥈 ClariCodec: Optimising Neural Speech Codes for 200bps C 9.0分 🥉 X-VC: Zero-shot Streaming Voice Conversion in Codec Spa 9.0分 4 Why Your Tokenizer Fails in Information Fusion: A Timin 9.0分 5 Hijacking Large Audio-Language Models via Context-Agnos 8.8分 6 UniPASE: A Generative Model for Universal Speech Enhanc 8.5分 7 VoxSafeBench: Not Just What Is Said, but Who, How, and 8.5分 8 Who is Speaking or Who is Depressed? A Controlled Study 8.5分 9 ProSDD: Learning Prosodic Representations for Speech De 8.5分 10 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 8.5分 11 Four Decades of Digital Waveguides 8.5分 12 Audio-Cogito: Towards Deep Audio Reasoning in Large Aud 8.5分 13 An Ultra-Low Latency, End-to-End Streaming Speech Synth 8.5分 14 Listen, Pause, and Reason: Toward Perception-Grounded H 8.5分 15 Geo2Sound: A Scalable Geo-Aligned Framework for Soundsc 8.5分 16 SpotSound: Enhancing Large Audio-Language Models with F 8.5分 17 Beyond Transcription: Unified Audio Schema for Percepti 8.5分 18 CoSyncDiT: Cognitive Synchronous Diffusion Transformer 8.5分 19 Diffusion Language Models for Speech Recognition 8.5分 20 WavAlign: Enhancing Intelligence and Expressiveness in 8.5分 21 AVID: A Benchmark for Omni-Modal Audio-Visual Inconsist 8.5分 22 SpeakerRPL v2: Robust Open-set Speaker Identification t 8.3分 23 Towards Fine-grained Temporal Perception: Post-Training 8.3分 24 Room compensation for loudspeaker reproduction using a 8.2分 25 StreamMark: A Deep Learning-Based Semi-Fragile Audio Wa 8.2分 26 From Reactive to Proactive: Assessing the Proactivity o 8.2分 27 Elastic Net Regularization and Gabor Dictionary for Cla 8.2分 28 Sky-Ear: An Unmanned Aerial Vehicle-Enabled Victim Soun 8.0分 29 Contextual Biasing for ASR in Speech LLM with Common Wo 8.0分 30 A Manual Bar-by-Bar Tempo Measurement Protocol for Poly 7.8分 31 Classical Machine Learning Baselines for Deepfake Audio 7.8分 32 Adaptive Test-Time Scaling for Zero-Shot Respiratory Au 7.8分 33 Dual-Axis Generative Reward Model Toward Semantic and T 7.8分 34 Tora3: Trajectory-Guided Audio-Video Generation with Ph 7.8分 35 Few-Shot and Pseudo-Label Guided Speech Quality Evaluat 7.5分 36 VoxEffects: A Speech-Oriented Audio Effects Dataset and 7.5分 37 TokenSE: a Mamba-based discrete token speech enhancemen 7.5分 38 Audio Source Separation in Reverberant Environments usi 7.5分 39 On the Distillation Loss Functions of Speech VAE for Un 7.5分 40 Listening Deepfake Detection: A New Perspective Beyond 7.5分 41 Comparison of window shapes and lengths in short-time f 6.5分 42 Transformer Based Machine Fault Detection From Audio In 6.5分 📋 论文列表 🥇 ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling 🔥 9.2分 | #音频生成 #多模态模型 #扩散模型 #基准测试 | arxiv ...

2026-04-19

语音/音频论文速递 2026-04-18

语音/音频论文速递 2026-04-18 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #基准测试 11篇 ███████████ #音频理解 10篇 ██████████ #数据集 7篇 ███████ #音频大模型 7篇 ███████ #大语言模型 6篇 ██████ #信号处理 6篇 ██████ #音频生成 5篇 █████ #音频分类 5篇 █████ 🏆 高分论文 TOP 10 排名 论文 评分 🥇 StreamMark: A Deep Learning-Based Semi-Fragile Audio Wa 9.2分 🥈 A Manual Bar-by-Bar Tempo Measurement Protocol for Poly 8.5分 🥉 ClariCodec: Optimising Neural Speech Codes for 200bps C 8.5分 4 UniPASE: A Generative Model for Universal Speech Enhanc 8.5分 5 Who is Speaking or Who is Depressed? A Controlled Study 8.5分 6 SpeakerRPL v2: Robust Open-set Speaker Identification t 8.5分 7 ProSDD: Learning Prosodic Representations for Speech De 8.5分 8 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 8.5分 9 X-VC: Zero-shot Streaming Voice Conversion in Codec Spa 8.5分 10 An Ultra-Low Latency, End-to-End Streaming Speech Synth 8.5分 📄 StreamMark: A Deep Learning-Based Semi-Fragile Audio Watermarking for Proactive Deepfake Detection #音频安全 #音频深度伪造检测 #语音伪造检测 #基准测试 ...

2026-04-18