Beyond Monologue: Interactive Talking-Listening Avatar Generation with Conversational Audio Context-Aware Kernels

📄 Beyond Monologue: Interactive Talking-Listening Avatar Generation with Conversational Audio Context-Aware Kernels #音视频 #扩散模型 #多模态模型 #数据集 #全双工交互 🔥 评分:9.0/10 | arxiv 👥 作者与机构 第一作者:Yuzhe Weng (翁宇哲),中国科学技术大学 (USTC) 通讯作者:Jun Du (杜俊),中国科学技术大学 (USTC),邮箱:jundu@ustc.edu.cn 其他作者: Haotian Wang (王浩天),中国科学技术大学 (USTC) Xinyi Yu (余欣怿),中国科学技术大学 (USTC) Xiaoyan Wu (吴晓燕),科大讯飞 (iFLYTEK) Haoran Xu (徐浩然),科大讯飞 (iFLYTEK) Shan He (何山),科大讯飞 (iFLYTEK) 💡 毒舌点评 亮点:用“多尺度高斯核注意力”这个优雅的数学工具,把“看口型”和“懂语境”这两个打架的脑区给整合到一个模型里了,思路清晰又有效。槽点:虽然建模了上半身反应,但离生成真正富有表现力的、带手势的全身交互动作还有距离,算是给未来挖了个大坑。 🔗 开源详情 代码:论文提到了GitHub仓库(Report GitHub Issue ×),表明代码部分开源(可能指推理代码或核心模块)。 项目主页:提供了BeyondMonologue-Page链接,用于展示更多结果和信息。 模型权重:论文中未明确说明是否公开预训练模型权重。 数据集:构建了大规模数据集VoxHear(1206小时),论文中未明确说明是否完全公开,但通常此类工作会部分公开或提供获取方式。 在线Demo:论文中未提及在线Demo。 依赖的开源项目:论文中明确提及的开源工具/模型包括:Wan2.2(视频生成骨干)、Wav2Vec 2.0(音频编码)、MossFormer2(语音分离,来自ClearVoice工具包)、SyncNet(唇同步验证)、DWPose(姿态估计)、IP-Adapter(适配器范式)。 📌 核心摘要 本文旨在解决从单向“独白”式虚拟人生成迈向自然“全双工”交互式生成的核心挑战。核心问题在于,现有方法要么因严格的帧对齐而反应僵硬,要么因引入全局注意力而破坏唇同步。关键方法是提出一个基于多头高斯核(MHGK)的统一注意力架构,该机制通过为不同的注意力头分配从窄到宽的高斯分布感受野,使模型能同时学习精细的唇形对齐(窄感受野)和长程的对话上下文(宽感受野)。此外,论文构建了双流架构以处理同步的说话与聆听音频,并引入任意位置引导训练策略以提升长视频生成的稳定性。为支撑研究,还构建了大规模、音视频解耦的对话数据集VoxHear(1206小时)。主要发现表明,该方法在唇同步精度、身份保持、视觉质量和用户感知自然度等多个维度上均显著优于现有技术。实际意义在于为构建能理解对话上下文并做出自然反应的下一代交互式数字人提供了坚实的技术框架和数据基础。局限性在于目前主要聚焦于上半身反应,对更复杂全身姿态和手势的生成能力有待探索。 🏗️ 模型架构 本模型是一个基于流匹配(Flow Matching) 和扩散Transformer(DiT) 的端到端视频生成框架,旨在根据一张参考肖像图、一段说话音频和一段聆听音频,生成对应的交互式视频。 ...

2026-04-20 · 更新于 2026-05-20 · 3 min · 528 words

TinyMU: A Compact Audio-Language Model for Music Understanding

📄 TinyMU: A Compact Audio-Language Model for Music Understanding #音乐理解 #音频大模型 #多模态模型 #数据集 ✅ 评分:6.5/10 | arxiv 👥 作者与机构 作者:Xiquan Li, Aurian Quelennec, Slim Essid 论文中未明确标注作者所属机构(无机构名称、邮箱或地址信息)。 💡 毒舌点评 亮点:用 229M 参数的“小不点”在乐器识别上干翻了 8B 参数的巨无霸,堪称音乐 AI 界的“蚁人”——小而强悍。槽点:模型架构基本是“MATPAC++ 和 SmolLM2 的包办婚姻”,9M 的投影器充当媒婆,核心工作量似乎全花在造 350 万条 QA 数据上了;而且既然叫 TinyMU,能不能把 135M 的 LLM 也再压缩压缩? 🔗 开源详情 代码:论文中未提及是否开源。 模型权重:论文中未提及是否公开。 数据集:论文中未提及是否公开获取方式。 预训练权重:论文中未提及。 在线 Demo:论文中未提及。 依赖开源项目:MATPAC++、SmolLM2、CLAP、ChatGPT(用于数据生成)。 📌 核心摘要 本文针对现有大型音频语言模型(LALM)参数庞大(数十亿级)、训练推理成本高、难以部署在边缘设备的问题,提出了 TinyMU——一个仅有 229M 参数的紧凑音乐语言模型。为此,作者构建了 MusicSkills-3.5M 数据集,包含 350 万个涵盖多选、二元判断和开放式格式的音乐问答样本,结合基于规则与 LLM 辅助的数据合成方法,覆盖流派、乐器、情绪、结构等多维度音乐知识。TinyMU 采用 MATPAC++(85M)作为自监督音频编码器提取细粒度特征,通过仅含两层线性层的轻量投影器(9M)与 SmolLM2-135M 语言模型对齐,并在训练时冻结编码器。实验表明,TinyMU 在乐器识别(Medley-Solos-DB)上甚至超过 8B 模型,在 MuChoMusic 推理基准上达到 SOTA 模型的 82%,同时体积缩小 35 倍。然而,论文在训练超参数、硬件开销等方面披露不足,且未开源。 ...

2026-04-20 · 更新于 2026-05-20 · 3 min · 611 words

VoxMind: An End-to-End Agentic Spoken Dialogue System

📄 VoxMind: An End-to-End Agentic Spoken Dialogue System #语音对话系统 #语音大模型 #端到端 #数据集 🔥 评分:8.5/10 | arxiv 👥 作者与机构 共同第一作者:Tianle Liang(浙江大学;China University of Petroleum-Beijing at Karamay),Yifu Chen(浙江大学),Shengpeng Ji(浙江大学) 通讯作者:Zhou Zhao(浙江大学,zhaozhou@zju.edu.cn) 其他作者:Yijun Chen(China University of Petroleum-Beijing at Karamay),Zhiyang Jia(China University of Petroleum-Beijing at Karamay),Jingyu Lu(浙江大学),Fan Zhuo(浙江大学),Xueyi Pu(浙江大学),Yangzhuo Li(厦门大学) 💡 毒舌点评 亮点:VoxMind把文本Agent那套"先想后说"的套路成功塞进了端到端语音模型里,还顺手用"辅助LLM异步捞工具"治好了工具一多就卡顿的绝症,实验硬到能把Gemini-2.5-Pro按在地上摩擦。 槽点:470小时的训练数据全靠TTS合成,遇到真人说话时的"嗯…那个…"、结巴和背景噪音立刻掉7个点;所谓"Think-before-Speak"本质上就是在语音流里硬插了一段文本CoT,延迟该高还是高,作者自己也承认这是"必要的 trade-off"——翻译一下就是"我知道慢,但先忍着"。 🔗 开源详情 代码:完全开源,GitHub地址为 https://github.com/MM-Speech/VoxMind。论文未给出具体stars数量与框架版本依赖细节。 模型权重:基于开源模型StepAudio2进行监督微调。论文未明确说明是否将微调后的权重上传至HuggingFace等平台,但代码仓库公开通常暗示可复现。 数据集:开源AgentChat数据集,总规模约470小时。包含: AgentChat-Tool(约109小时,14,805条):覆盖单工具选择、多工具选择、参数填充、并行调用、主动检索、环境反馈观察等场景。 AgentChat-Normal(约361小时,38,681条):覆盖常识推理(ARC/SciQ)、数学推理(GSM8K)、课本知识与开放域对话。 补充数据:No-Tool跨模态数据(5.09小时)、Security安全数据、Text纯文本数据。 预训练权重:基于StepAudio2基座模型。 在线Demo:论文中未提及在线体验地址。 依赖工具/模型:PyTorch, DeepSpeed, CosyVoice2(语音合成), SeedTTS(音色多样化), Qwen-plus(数据清洗、CoT生成与质量评估), Gemini-2.5-Flash(自动评估器)。 📌 核心摘要 端到端语音对话模型在自然交互上进步迅速,但普遍缺乏处理复杂任务的agent能力(工具调用、规划、推理)。本文首先形式化定义了"端到端语音智能体"的四大维度——画像(Profile)、记忆(Memory)、规划(Planning)与执行(Action Execution),填补了该领域理论标准的空白。在此基础上提出VoxMind框架,引入"Think-before-Speak"机制,使模型在生成语音响应前显式产出结构化推理链(Chain-of-Thought);并构建470小时的AgentChat数据集,包含工具交互与通用对话数据,且全部标注了推理轨迹与工具调用标签。为解决大规模工具库带来的推理延迟爆炸问题,VoxMind设计了多智能体动态工具管理架构:主agent专注于推理与行动,辅助LLM异步从全局工具池中检索候选工具,仅当主agent判定本地工具不足时才动态扩容局部工具集,从而将推理延迟与工具库规模解耦。实验表明,VoxMind的任务总体完成率达74.57%,较基线StepAudio2(34.88%)相对提升113.79%,并超越闭源模型Gemini-2.5-Pro(71.51%);同时在VoiceBench通用对话评测上保持了与基线相当的能力。局限在于显式推理引入了额外的推理延迟,且AgentChat数据依赖TTS合成,与真实口语的自发性和不流畅性存在差距。 ...

2026-04-20 · 更新于 2026-05-20 · 5 min · 909 words

From Reactive to Proactive: Assessing the Proactivity of Voice Agents via ProVoice-Bench

📄 From Reactive to Proactive: Assessing the Proactivity of Voice Agents via ProVoice-Bench #语音对话系统 #基准测试 #多模态 #数据集 🔥 评分:8.2/10 | arxiv 👥 作者与机构 第一作者:Ke Xu (推断) 通讯作者:Yu Wang (推断) 其他作者:Yuhao Wang (推断) (注:论文摘要中未明确列出作者所属机构。根据常见的学术论文作者署名惯例,以上推断基于作者姓名顺序和通讯作者的通常角色。如需准确信息,需查阅论文全文的作者 affiliations 部分。) 💡 毒舌点评 亮点:在“AI会抢话”这个未来人机交互的核心痛点上,率先搭了个擂台(ProVoice-Bench),把“主动性”这个模糊概念拆解成可量化的四个任务,研究方向很有前瞻性。 槽点:实验部分像请了三位武林高手(几个多模态LLM)来打擂,结果发现大家都有点“反应过度”和“想太多”,但论文没深入剖析为啥会这样,也没开源“擂台”本身,让后续挑战者有点无从下手。 🔗 开源详情 论文中未提及开源计划。目前无法得知ProVoice-Bench数据集、评估代码或相关模型权重是否会公开。 📌 核心摘要 本文旨在解决当前语音代理评估中过度关注被动响应,而忽视其主动交互能力的问题。为此,作者提出了首个专门评估主动语音代理的基准测试框架 ProVoice-Bench。该框架包含四个新颖的任务,用以衡量代理在不同场景下的主动介入和监控能力。通过设计一个多阶段数据合成管道,研究团队构建了一个包含1,182个高质量样本的评测数据集。对多个前沿多模态大语言模型的评估结果显示,当前模型在主动语音交互方面存在显著性能差距,主要体现在过度触发(在不必要时主动发言)和推理能力不足两个方面。这项工作不仅揭示了现有模型的局限,也为开发更自然、具备上下文感知能力的主动语音代理指明了具体改进方向。 🏗️ 模型架构 本论文的核心贡献是提出了一个评估框架(Benchmark),而非一个新的模型架构。因此,其“模型架构”指的是被评估的现有先进多模态大语言模型以及评估框架本身的设计。 被评估模型架构(以通用多模态LLM为例): 输入:通常为音频流(语音)和可能的文本上下文。音频通过音频编码器(如Whisper、Qwen-Audio的编码器)转换为音频特征向量。 核心处理:特征向量被输入到一个统一的大语言模型(如Qwen2.5、LLaMA等架构)中。该LLM经过多模态对齐训练,能够同时理解文本、音频(有时包括视觉)信息。 输出:模型根据输入和内部推理,生成文本响应或决定保持沉默。在主动代理任务中,模型需要自主判断是否以及何时需要主动发起对话或干预。 连接方式:音频特征与文本token在LLM的嵌入空间或通过交叉注意力机制进行融合。模型的“主动性”体现在其自回归生成过程中,基于对上下文的理解,预测出应该输出响应还是特殊的“静默”或“等待”标记。 评估框架(ProVoice-Bench)架构: 整体流程:框架输入是设计好的多模态场景(包含语音对话、环境音频事件等),输出是被评估模型在该场景下的行为序列(如:何时说话、说了什么),最后通过预设的评估指标进行打分。 四个核心任务: 情境感知对话发起(Context-Aware Conversation Initiation, CACI):判断在特定环境声音(如敲门声、微波炉“叮”声)后,代理是否应主动发起相关询问。 任务导向型主动干预(Task-Oriented Proactive Intervention, TOPI):在用户执行任务(如做饭)遇到困难(如步骤错误、遗漏)时,代理是否应主动提供帮助。 情感状态主动关怀(Emotional State Proactive Care, ESPC):检测用户语音中的情感变化(如沮丧、困惑),并判断是否应主动表达关怀或提供支持。 持续监控与适时提醒(Continuous Monitoring and Timely Reminder, CMTR):在长时间交互中,监控用户状态(如长时间未操作、偏离目标),并在恰当时机进行提醒。 数据合成管道:这是一个关键组件,用于生成评测数据。它可能包含:a) 场景设计:人工或规则定义交互剧本;b) 语音合成:使用TTS生成对话语音;c) 音频事件合成:添加环境音效;d) 标注:由人工标注“正确”的主动行为时间点和内容。这个管道确保了数据的可控性和评估的客观性。 💡 核心创新点 首次定义并系统评估语音代理的“主动性”:之前的研究和基准(如Spoken-CQA、SD-Eval)主要评估模型对用户查询的被动响应能力。本文明确提出了“主动语音代理”的概念,并将其操作化为四个可衡量的具体任务,填补了该领域的评估空白。 构建了首个主动语音代理评测基准 ProVoice-Bench:这不是一个简单的数据集,而是一个包含多任务、多场景、高质量合成数据的完整评估框架。其创新在于任务设计的全面性(覆盖了发起、干预、关怀、提醒等主动行为的关键维度)。 设计了多阶段数据合成管道以生成高质量评测数据:主动行为的“正确答案”在真实世界中难以大规模、一致地获取。本文创新性地采用合成方法,通过可控的流程生成了1,182个带有明确评估标准(何时该主动、说什么)的样本,解决了主动交互评估数据稀缺的难题。 揭示了当前SOTA多模态LLM在主动交互上的具体缺陷:通过在ProVoice-Bench上的实验,论文不仅证明了性能差距,更具体地指出了“过度触发”(False Triggering)和“推理能力不足”是两大核心问题。这为未来的研究提供了明确的优化目标,而不仅仅是笼统的“性能提升”。 🔬 细节详述 训练数据:论文主要工作是构建评测数据集,而非训练新模型。评测数据集 ProVoice-Bench 包含 1,182 个样本,通过多阶段数据合成管道生成。该管道可能整合了剧本设计、文本转语音(TTS)、音频事件混合和人工校验等步骤,以确保数据质量和评估标准的一致性。 损失函数:不适用。本文为评估论文,未涉及模型训练。 训练策略:不适用。 关键超参数:论文未提及训练超参数。在评估中,可能涉及模型推理时的参数,如采样温度(temperature)、top-k/top-p等,但摘要中未说明。 训练硬件:不适用。 推理细节:论文未详细说明评估时模型的推理策略(如是否使用beam search)。通常,对于对话生成任务,可能使用核采样(nucleus sampling)以生成自然响应。 数据增强/正则化:不适用。 📊 实验结果 主要指标对比:根据提供的柱状图(图1),论文评估了多个模型在 CFC(可能指Context-aware Conversation Initiation相关任务)和 PIC(可能指Proactive Intervention and Care相关任务)两大类任务上的表现。每个任务下有Recall (Rec)、Accuracy (Acc) 和 $R_{acc}$(可能是Recall和Accuracy的调和平均或加权平均)三个指标。 CFC任务: Recall (Rec): Qwen3-Omni (w/ DC) 约为0.43,Qwen3-Omni (T) (w/ DC) 和 Step-Audio-R1 (T) (w/ DC) 均约为0.74。 Accuracy (Acc): Qwen3-Omni (w/ DC) 约为0.54,Qwen3-Omni (T) (w/ DC) 约为0.84,Step-Audio-R1 (T) (w/ DC) 约为0.83。 $R_{acc}$: Qwen3-Omni (w/ DC) 约为0.46,Qwen3-Omni (T) (w/ DC) 约为0.83,Step-Audio-R1 (T) (w/ DC) 约为0.80。 PIC任务: Recall (Rec): Qwen3-Omni (w/ DC) 约为0.76,Qwen3-Omni (T) (w/ DC) 约为0.58,Step-Audio-R1 (T) (w/ DC) 约为0.91。 Accuracy (Acc): Qwen3-Omni (w/ DC) 约为0.78,Qwen3-Omni (T) (w/ DC) 约为0.78,Step-Audio-R1 (T) (w/ DC) 约为0.82。 $R_{acc}$: Qwen3-Omni (w/ DC) 约为0.69,Qwen3-Omni (T) (w/ DC) 约为0.74,Step-Audio-R1 (T) (w/ DC) 约为0.72。 关键发现:1) 模型性能在不同类型任务上差异显著(如Step-Audio-R1在PIC的Rec上极高,但在CFC的Rec上极低)。2) “w/ DC”(可能指使用了某种对话上下文或解码策略)与“w/o DC”的对比显示,上下文信息对主动行为的准确性有复杂影响。3) 所有模型的Recall和Accuracy都远未达到完美(1.0),尤其在CFC任务上Recall普遍偏低,印证了“推理能力不足”和“过度触发”(可能对应高Recall但低Accuracy的情况)的问题。 消融实验:图中“w/ DC”与“w/o DC”的对比可视为一种消融,表明特定组件(如对话上下文)对模型主动性能有显著影响。 与SOTA方法的对比:论文评估的本身就是当前的多模态LLM SOTA(如Qwen3-Omni, Step-Audio-R1)。结果显示,即使在这些最强模型上,主动交互能力仍是短板。 用户研究/主观评价:摘要和图中未提及。 ⚖️ 评分理由 创新性:8.5/10 - 开创性地定义了“主动语音代理”的评估范式,并构建了首个专用基准。从“被动应答”到“主动交互”的视角转换具有重要学术价值,为领域发展设立了新的路标。 实验充分性:7.5/10 - 实验设计合理,对比了多个有代表性的SOTA模型,并使用了多维度指标。但评测模型数量可以更多(如包含更多开源和商业模型),且缺乏对模型失败案例的深入分析(如为什么会在某些场景过度触发)。 实用价值:9.0/10 - 直接指向未来语音助手发展的核心需求——更自然、更主动的交互。研究成果(Benchmark和发现的缺陷)能有效指导工业界优化产品,避免“人工智障”式的打扰,实用导向非常明确。 灌水程度:2.0/10 - 论文内容扎实,问题定义清晰,方法新颖,实验结论明确。没有明显的冗余内容或夸大表述,是一篇高质量的AI评估研究论文。 🖼️ 图片与表格 图1: 不同模型在CFC和PIC任务上各指标的表现 | 保留: 是 - 理由:这是论文的核心实验结果图,直观展示了不同模型在主动语音交互关键任务上的性能差异和存在的问题(如Recall和Accuracy的不平衡),是支撑论文结论的关键证据。 关键数据表格(根据图1文字化): 模型 任务 Recall (Rec) Accuracy (Acc) $R_{acc}$ Qwen3-Omni (w/ DC) CFC ~0.43 ~0.54 ~0.46 PIC ~0.76 ~0.78 ~0.69 Qwen3-Omni (T) (w/ DC) CFC ~0.74 ~0.84 ~0.83 PIC ~0.58 ~0.78 ~0.74 Step-Audio-R1 (T) (w/ DC) CFC ~0.74 ~0.83 ~0.80 PIC ~0.91 ~0.82 ~0.72 注:数据为根据柱状图高度估算的近似值。 📸 论文图片 ...

2026-04-19 · 更新于 2026-05-20 · 2 min · 289 words

Geo2Sound: A Scalable Geo-Aligned Framework for Soundscape Generation from Satellite Imagery

📄 Geo2Sound: A Scalable Geo-Aligned Framework for Soundscape Generation from Satellite Imagery #音频生成 #多模态模型 #基准测试 #数据集 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Kunlin Wu(香港科技大学(广州)) 通讯作者:根据论文署名和致谢信息,推测通讯作者可能为 Xiaofeng Liu(香港科技大学(广州)),论文中未明确标注。 其他作者: Yanning Wang(香港科技大学(广州)) Haofeng Tan(南卡罗来纳大学,美国) Boyi Chen(香港科技大学(广州)) Teng Fei(坎特伯雷大学,新西兰) Xianping Ma(西南交通大学,中国) Yang Yue(香港科技大学(广州)) Zan Zhou(北京邮电大学,中国) Xiaofeng Liu(香港科技大学(广州)) 💡 毒舌点评 亮点:这篇论文想象力爆棚,硬是把“看卫星图猜声音”这个看似不着边际的想法,做成了一个有模有样的系统任务,还搭了个大规模数据集,属实是“跨模态整活”的典范。槽点:方法上有点“拼积木”的意思,依赖现成的视觉模型、语言模型和音频生成模型,自己核心的“对齐”模块虽然巧妙但略显单薄,像是在给一堆大佬打补丁,创新性更多体现在任务定义和工程整合上。 🔗 开源详情 代码:论文中明确提到项目主页和源代码地址为:https://github.com/Blanketzzz/Geo2Sound。代码已开源。 模型权重:论文中未明确说明是否公开预训练模型权重(如对齐模块的MLP权重)。 数据集:论文中构建的 SatSound-Bench 数据集是核心贡献之一,但文中未明确说明该数据集是否公开提供下载。从描述看,它整合了实地录制数据和多个公共数据集,其分发可能涉及版权和许可问题。 预训练权重:方法依赖多个外部预训练模型,包括:DINOv3(视觉)、GPT-5.2(文本生成)、Make-An-Audio 2(音频生成)、CLAP(音频编码)。论文中未提供这些模型的权重。 在线 Demo:论文中未提及是否有在线演示。 依赖的开源项目:论文中明确引用的开源项目/模型包括:DINOv3, GPT-5.2(推测), Make-An-Audio 2, CLAP, AudioLDM/LDM2, Auffusion, Tango2, EzAudio, AudioX, MeanAudio, Freesound, iNaturalist Sounds, SoundingEarth。 📌 核心摘要 这篇论文提出了一个名为 Geo2Sound 的新任务和框架,旨在从卫星图像生成地理上一致且逼真的声音景观。要解决的问题是现有图像到音频模型在处理自上而下的卫星视图时面临三大挑战:缺乏结构化地理语义、一对多的声学歧义以及缺乏更广泛的地理空间上下文。方法上,它设计了一个三阶段流水线:首先通过轻量级分类器将卫星图像聚类并总结为紧凑的地理属性(如植被覆盖率、建筑密度);然后利用大语言模型为同一场景生成多个声学上合理的文本描述(语义假设扩展),并用文本到音频模型生成对应的候选音频;最后训练一个地理-声学对齐模块,将地理属性投影到音频嵌入空间,从候选集中选择与地理环境最匹配的音频。主要发现是,该框架在自建的 SatSound-Bench 基准(包含超过2万对数据)上取得了SOTA性能,FAD指标达到1.765,比最强基线提升50%,并在人类评估的真实性、语义对齐和沉浸感方面均获得显著提升。实际意义在于为城市规划、数字孪生和虚拟现实等应用提供了一种可扩展的、从视觉数据生成环境声音的新方法。局限性在于方法依赖外部预训练模型(VLM, T2A),且数据收集和对齐的有效性高度依赖于地理属性与声音关联的假设。 ...

2026-04-19 · 更新于 2026-05-20 · 3 min · 525 words

Listening Deepfake Detection: A New Perspective Beyond Speaking-Centric Forgery Analysis

📄 Listening Deepfake Detection: A New Perspective Beyond Speaking-Centric Forgery Analysis #语音伪造检测 #数据集 #多模态 #音视频 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Miao Liu(根据arXiv常见格式推断,可能来自某高校或研究机构,原文未提供具体机构信息) 通讯作者:Fangda Wei(根据arXiv常见格式推断,可能来自同一机构,原文未提供具体机构信息) 其他作者:Jing Wang, Xinyuan Qian(根据arXiv常见格式推断,可能来自同一机构,原文未提供具体机构信息) (注:提供的论文摘要中未包含作者所属机构信息,以上为基于arXiv论文常见格式的推断。完整论文全文通常在标题页或脚注中包含机构信息。) 💡 毒舌点评 亮点在于敏锐地捕捉到了现有深度伪造检测研究的“盲区”——只盯着“说谎的嘴”,却忽略了“倾听的脸”,这个视角的转换很有启发性,为领域打开了新方向。槽点则是新创的“ListenForge”数据集规模可能有限(基于5种生成方法),且提出的MANet模型虽然有效,但其复杂度和在真实世界海量、多变的“聆听”场景下的泛化能力,恐怕还有待更严苛的考验。 🔗 开源详情 代码:论文中提到“数据集和代码已开源”,并提供了匿名链接 https://anonymous.4open.science/r/LDD-B4CB。预计在论文被接收后会公开至GitHub等平台。 模型权重:论文摘要未提及是否公开预训练权重。 数据集:ListenForge数据集通过上述匿名链接提供。 预训练权重:所使用的视觉(如I3D)和音频(如VGGish)特征提取器为公开的预训练模型。 在线Demo:论文摘要未提及。 引用的开源项目:论文可能依赖于PyTorch/TensorFlow深度学习框架,以及MMDetection、FaceAlignment等用于人脸检测和关键点定位的开源工具。 📌 核心摘要 本文首次提出了“聆听深度伪造检测”这一新任务,旨在识别视频中人物在倾听状态下(非说话时)的伪造反应,弥补了现有研究主要集中于“说话”场景的不足。为解决此任务数据稀缺的问题,作者构建了首个专门数据集ListenForge,包含由五种不同头部生成方法合成的伪造聆听视频。针对聆听伪造中细微的运动不一致性,作者设计了一个名为MANet的运动感知与音频引导网络,该网络通过捕捉听众视频的细微运动,并利用说话者的音频语义来引导跨模态特征融合,从而有效检测伪造。实验表明,现有的说话深度伪造检测模型在聆听场景下性能显著下降(AUC约60%),而MANet在ListenForge数据集上取得了优越性能(AUC达94.5%)。该工作强调了超越传统“说话中心”范式进行深度伪造检测的必要性,并为交互场景下的多模态伪造分析开辟了新方向。 🏗️ 模型架构 MANet是一个用于二分类(真实/伪造)的双流网络,其核心思想是联合分析听众的视觉运动和说话者的音频语义。 整体流程: 输入:一段包含听众反应的视频片段(视觉流V)和对应的说话者音频片段(音频流A)。 特征提取: 视觉流:使用预训练的3D CNN(如I3D)提取视频片段的时空特征,得到视频特征 V。同时,通过计算相邻帧差异或使用光流网络,提取听众面部/头部的运动特征 M。 音频流:使用预训练的音频网络(如VGGish)提取说话者音频的语义特征 A。 跨模态融合与检测(核心模块 - Motion-aware and Audio-guided Network): 运动特征处理:运动特征 M 首先通过一个由卷积层、批归一化(BN)和ReLU激活组成的模块进行编码。 音频引导的通道注意力(CHA):将编码后的运动特征 M 与音频特征 A 结合。具体地,对 M 进行跨空间平均池化,得到一个通道描述符。然后,将该描述符与音频特征 A 拼接(或进行其他融合),通过全连接层(FC)、ReLU和另一个FC层,再经过Sigmoid函数生成通道注意力权重 W_c。这个权重 W_c 用于对中间视觉特征 V'(可能来自视觉流或运动特征)进行通道维度的重新加权,强调那些与当前说话内容更相关的视觉通道。 空间注意力(SPA):将经过通道加权的特征与运动特征 M 再次结合,通过跨通道平均池化,然后经过卷积层和Sigmoid函数,生成空间注意力图 W_s。这个权重 W_s 用于对原始视频特征 V 进行空间维度的重新加权,引导模型关注听众面部/头部中运动最不一致或最可疑的区域。 分类:将经过双重注意力(空间和通道)精炼后的视频特征 V' 送入分类器(如全连接层),输出伪造概率。 关键设计理由: ...

2026-04-19 · 更新于 2026-05-20 · 2 min · 258 words

VoxEffects: A Speech-Oriented Audio Effects Dataset and Benchmark

📄 VoxEffects: A Speech-Oriented Audio Effects Dataset and Benchmark #音频理解 #音频编辑 #基准测试 #数据集 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Zhe Zhang(日本国立信息学研究所,语音与音频研究组) 通讯作者:Junichi Yamagishi(日本国立信息学研究所,语音与音频研究组) 其他作者:Yigitcan Özer(日本国立信息学研究所,语音与音频研究组) 机构:National Institute of Informatics (NII), Tokyo, Japan 💡 毒舌点评 亮点:在语音领域“硬核”填补了一个关键空白——为“音频效果识别”这个被忽视但无处不在的任务,提供了首个标准化的合成数据集和评估基准,还煞有介事地考虑了真实世界的信号损伤(加噪、压缩),这很务实。槽点:数据完全靠“配方”合成,像在无菌实验室里研究野外生存,缺乏真实后期处理的复杂性和“脏数据”;评估子集只有120条音频(60 ID + 60 OOD),规模过小,结论的说服力打了个折扣。 🔗 开源详情 代码:已开源。GitHub地址:https://github.com/nii-yamagishilab/VoxEffects (论文中提及)。使用框架未明确说明,但渲染依赖于Pedalboard库。 模型权重:论文中未明确提及是否公开预训练的AudioMAE-Fx权重。 数据集:VoxEffects数据集已发布。包含基于DAPS, EARS, TSP合成的音频及其多粒度标注。规模为2520种预设组合应用于多个源语料库的音频。获取方式需参考GitHub仓库。 预训练权重:基线模型AudioMAE-Fx基于在AudioSet上预训练的AudioMAE,该AudioMAE权重应为公开资源。 在线Demo:论文中未提及。 引用的开源项目:Pedalboard(音频效果库),AudioMAE(预训练模型)。 📌 核心摘要 本文旨在解决语音处理中一个基础但被忽视的问题:如何系统化地识别语音音频所经过的后期处理效果及其参数。现实中,语音几乎都经过了降噪、压缩等效果处理,但现有数据集缺乏此类精确标注,阻碍了相关研究。为此,作者提出了VoxEffects,一个从干净语音出发、基于固定效果链和预设库合成的多粒度标注数据集与基准。它支持效果存在性检测、预设分类、效果数量统计和强度回归等多任务评估,并创新性地设计了包含采集端和平台端失真的鲁棒性评估协议。作者提供了一个基于AudioMAE的多任务基线模型(AudioMAE-Fx),实验表明,虽然该任务具有挑战性(尤其是细粒度预设分类),但通过包含失真数据进行鲁棒性训练能显著提升模型在跨语料库和失真条件下的性能。该工作为音频取证、语音理解等应用提供了新的研究方向和评估工具。 🏗️ 模型架构 模型名称:AudioMAE-Fx 整体流程: 输入:原始音频波形(16kHz采样)。 特征提取:将波形转换为对数梅尔滤波器组(log-mel filterbank)特征。 骨干网络:将特征输入预训练的AudioMAE模型。AudioMAE是一个基于Transformer的掩码自编码器,已在大规模音频数据集AudioSet上预训练,用于学习通用的音频表示。 多任务预测头:从AudioMAE输出的共享表示中,并行引出五个轻量级预测头,每个头对应一个子任务: 存在性检测头:一个线性分类器,输出6个效果的二元存在概率(多标签分类)。 预设分类头:一个线性分类器,输出2520个预设组合的分类概率(单标签分类)。 效果数量头:一个线性分类器,预测激活效果的数量(0到6的分类)。 标量强度头:一个线性回归器,预测一个0到1之间的标量强度值。 向量强度头:一个线性回归器,预测一个6维向量,每个维度对应一个效果的强度(0到1)。 输出:五个任务的预测结果。 关键设计理由: 采用预训练AudioMAE:利用在大规模无标注数据上学到的丰富音频特征,缓解了专用数据集(VoxEffects)规模有限的问题,提供了强大的特征提取基础。 多任务学习:所有任务共享同一个AudioMAE骨干,仅使用不同的轻量级头部。这鼓励模型学习对多种效果属性都通用的表示,提高参数效率,并可能通过任务间的正则化效应提升泛化能力。 固定效果链顺序:模型输入是经过固定顺序(DN→DRC→EQ→DS→RVB→LIM)处理后的音频,这简化了问题,符合常见语音后期处理流程。 💡 核心创新点 首个面向语音的音频效果数据集与渲染管线: ...

2026-04-19 · 更新于 2026-05-20 · 3 min · 444 words