数据集 | 语音/音频论文速递

Tell me Habibi, is it Real or Fake?

📄 Tell me Habibi, is it Real or Fake? #音视频深度伪造检测 #数据集 #多语言 #零样本 🔥 8.5/10 | 前25% | #音视频深度伪造检测 | #数据集 | #多语言 #零样本学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Kartik Kuckreja (MBZUAI) 通讯作者：未明确标注，但通讯邮箱主要为 kartik.kuckreja@mbzuai.ac.ae 和 parul@monash.edu 作者列表：Kartik Kuckreja (MBZUAI)、Parul Gupta (Monash University)、Injy Hamed (MBZUAI)、Thamar Solorio (MBZUAI)、Muhammad Haris Khan (MBZUAI)、Abhinav Dhall (Monash University) 💡 毒舌点评亮点：该论文精准地击中了当前深度伪造检测领域的一个重大盲点——对多语言，尤其是像阿拉伯语这样广泛使用“代码切换”的语言场景的忽视，并为此构建了迄今规模最大、最复杂的专用数据集，为社区提供了极具价值的“练兵场”。短板：论文的重点在于“提出问题”和“提供工具”，而在于“解决问题”（即提出更先进的检测模型）方面着墨较少，其提出的检测方法仅为现有模型的基准测试。数据集生成依赖于GPT-4.1-mini等模型，其指令跟随的局限性可能导致部分“语义+翻译”模式的伪造文本语义变化不足，作者也承认了这一点。 🔗 开源详情代码：论文中未提及具体的代码仓库链接，但声明“Data-generation code and evaluation scripts will be made public”。模型权重：论文中未提及公开生成管道所用的TTS和唇形同步模型的具体权重链接，这些模型均为第三方已发表模型。数据集：论文明确声明“The dataset is public.”，并提供了访问需要签署的EULA协议图示。 Demo：未提及。复现材料：论文提供了生成管道的详细描述、文本篡改的提示示例（附录A.6）、数据分布图表、以及评估协议。但超参数、具体配置文件等未在文中给出。论文中引用的开源项目：XTTS-v2, OpenVoice-v2, Fairseq, Diff2Lip, LatentSync, Whisper, YOLO-v5, wav2vec2, Jais-3B, Qwen-2.5-7B等。 📌 核心摘要这篇论文旨在解决深度伪造检测研究中对多语言，特别是阿拉伯语-英语“代码切换”（在同一次话语中混合使用两种语言）场景严重忽视的问题。为解决此问题，论文提出了一个全新的核心贡献：构建并开源了首个大规模的阿拉伯语-英语音视频深度伪造数据集 ArEnAV。该数据集包含约38.7万个视频（超过765小时），通过一个创新的生成管道创建，该管道整合了多个文本转语音（TTS）和唇形同步模型，并利用GPT-4.1-mini进行8种不同规则的文本篡改，以模拟真实世界的代码切换和方言变体。与现有的多语言数据集（如PolyGlotFake）相比，ArEnAV首次专注于并显式生成“句内代码切换”的伪造内容。实验表明，当前最先进的深度伪造检测模型在ArEnAV上的性能出现断崖式下跌（例如，BA-TFD+模型的AP@0.5从AV-1M上的44.42%降至3.74%），甚至人类参与者的检测准确率也仅为60%，这证明了该数据集的挑战性和新场景的真实性。该工作的实际意义在于为开发更鲁棒、适用于全球多语言环境的深度伪造检测系统提供了必需的基准资源。主要局限性包括：数据生成管线依赖现有ASR和LLM，可能导致转录噪声和语义变化不足；数据集目前仅覆盖阿拉伯语和英语两种语言。 ...

Timing is Everything: Temporal Scaffolding of Semantic Surprise in Humor

📄 Timing is Everything: Temporal Scaffolding of Semantic Surprise in Humor #音频事件检测 #模型评估 #数据集 ✅ 6.5/10 | 前50% | #音频事件检测 | #模型评估 | #数据集 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yuxi Ma (共同第一), Yongqian Peng (共同第一) (Peking University) 通讯作者：Chi Zhang (Peking University), Yixin Zhu (Peking University) 作者列表： Yuxi Ma (Peking University, Institute for Artificial Intelligence; School of Psychological and Cognitive Sciences; School of Intelligence Science and Technology; Yuanpei College; State Key Laboratory of General Artificial Intelligence; Beijing Key Laboratory of Behavior and Mental Health) Yongqian Peng (Peking University, Institute for Artificial Intelligence; School of Psychological and Cognitive Sciences; Yuanpei College; State Key Laboratory of General Artificial Intelligence; Beijing Key Laboratory of Behavior and Mental Health) Junchen Lyu (Peking University, Institute for Artificial Intelligence; Yuanpei College) Chi Zhang (Peking University, School of Intelligence Science and Technology; State Key Laboratory of General Artificial Intelligence) Yixin Zhu (Peking University, Institute for Artificial Intelligence; School of Psychological and Cognitive Sciences; School of Intelligence Science and Technology; State Key Laboratory of General Artificial Intelligence; Beijing Key Laboratory of Behavior and Mental Health) 💡 毒舌点评亮点：论文用828个真实脱口秀表演的大数据，硬生生把“抖包袱的节奏”从艺术直觉变成了可量化的认知科学问题，并发现“停得久”比“说得怪”对搞笑更重要，这比很多堆砌BERT变体的幽默计算研究更接地气。短板：作为一项观察性研究，它只能证明“成功的喜剧人停顿更长且更会挑时机”，却无法证明“是停顿让观众更觉得好笑”，这种因果倒置的风险在解读时需要非常小心。 ...

VoxPrivacy: A Benchmark for Evaluating Interactional Privacy of Speech Language Models

📄 VoxPrivacy: A Benchmark for Evaluating Interactional Privacy of Speech Language Models #模型评估 #基准测试 #语音大模型 #数据集 #开源工具 🔥 9.5/10 | 前10% | #模型评估 | #基准测试 | #语音大模型 #数据集学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Yuxiang Wang（香港中文大学（深圳））通讯作者：未明确说明（根据惯例和贡献推断，Zhizheng Wu可能性较大）作者列表：Yuxiang Wang¹, Hongyu Liu¹, Dekun Chen¹, Xueyao Zhang¹, Zhizheng Wu¹,²,³,⁴ ¹ 香港中文大学（深圳） ² 深圳大数据研究院 ³ 澳门城市大学 ⁴ Amphion Technology Co., Ltd.（星尘智能科技有限公司） 💡 毒舌点评这篇论文精准地刺中了当前语音大模型（SLM）在走向多用户共享场景时一个被严重忽视的“阿喀琉斯之踵”——交互隐私。其最大亮点在于不仅诊断了“病症”（模型无法将语音身份与隐私规则关联），更通过精心设计的三层评估体系“量化了病情”，并指出了“病理”（是上下文推理能力不足，而非基础对话能力问题）。短板在于，目前提出的“药方”（监督微调）虽有效但相对传统，未来如何让模型在更复杂的社交场景中自主、灵活地做出符合伦理的隐私决策，而非仅机械遵循规则，仍是开放挑战。 🔗 开源详情代码：论文中未提及代码仓库链接。但根据论文末尾的声明“we are releasing the VoxPrivacy benchmark, the large-scale training set, and the fine-tuned model”，预计相关资源会通过项目页面（https://myflashbarry.github.io/VoxPrivacy.github.io/）或代码托管平台发布。模型权重：是。论文明确声明将公开其微调后的模型（Ours: Kimi-Audio-sft）。数据集：是。论文明确声明将公开VoxPrivacy基准测试（32小时数据）和4000小时的大规模训练集。 Demo：是。提供了在线演示页面：https://myflashbarry.github.io/VoxPrivacy.github.io/ 复现材料：论文提供了丰富的复现信息，包括：完整的数据构建流程（附录A给出了生成提示词）、评估标准与LLM评委提示词（附录F、G）、训练超参数（8xA800 GPU，lr=1e-5等）、以及详细的实验设置。论文中引用的开源项目：模型：Kimi-Audio, Qwen2.5-Omni, MiniCPM2.6-o, Gemini系列, Deepseek系列, Qwen2Audio, Voxtral3B, Baichuan-Omni-1.5, GLM4Voice。工具/数据集：CosyVoice2 (TTS), Whisper-large-v3 (ASR), AISHELL-2, WenetSpeech, LibriSpeech, CommonVoice, Fleurs, SAVEE, IEMOCAP, ESD, RAVDESS, MELD, CREMA-D, ESC50, AudioSet, FSD50K, VocalSound, UrbanSound8K, ClothoAQA, MusicAVQA, AVQA等。 📌 核心摘要解决的问题：本文针对语音语言模型（SLM）从个人设备走向智能家居、车载等共享多用户环境时面临的新挑战——“交互隐私”问题，即模型需要区分不同用户，防止将一个用户的私人信息泄露给另一个用户。现有基准测试忽略了这种基于说话人身份的条件隐私保护能力评估。方法核心：提出首个评估交互隐私的基准测试VoxPrivacy。它设计了三个难度递增的层级：Tier 1（直接命令保密）、Tier 2（基于说话人验证的保密）、Tier 3（主动隐私保护）。基于此构建了一个包含7107个样本、32.86小时的双语（中/英）合成数据集，并包含一个由18人录制的真实语音验证子集（Real-VoxPrivacy）。创新点：首次系统定义和评估SLM的“交互隐私”能力；设计了分层的评估任务以衡量从指令跟随到自主推理的完整能力谱；通过合成数据与真实语音的对齐验证，证明了评估结论的可靠性。主要实验结果：对9个SLM的评估显示，大多数开源模型在Tier 2/3任务上的准确率接近随机猜测（~50%），表明其根本无法将说话人声音与隐私规则关联。即使是强大的闭源模型（如Gemini-2.5-Pro）在Tier 3（主动推断）上也有明显性能下降。通过对比实验，证明失败根源是“对话上下文处理能力的缺失”，而非基础对话能力。通过微调，本文提出的模型在所有层级上显著优于其他开源模型，达到了与顶级闭源模型相当的水平。关键性能数据对比见下表： Tier 1 任务准确率（%） ...

AppTek Call-Center Dialogues: A Multi-Accent Long-Form Benchmark for English ASR

📄 AppTek Call-Center Dialogues: A Multi-Accent Long-Form Benchmark for English ASR #语音识别 #基准测试 #多语言 #数据集 #鲁棒性 ✅ 6.5/10 | 前50% | #语音识别 | #基准测试 | #多语言 #数据集 | arxiv 学术质量 5.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Eugen Beck（AppTek.ai）通讯作者：未说明作者列表：Eugen Beck（AppTek.ai）， Sarah Beranek（AppTek.ai）， Uma Moothiringote（AppTek.ai）， Daniel Mann（未说明）， Wilfried Michel（未说明）， Katie Nguyen（未说明）， Taylor Tragemann（未说明） 💡 毒舌点评这篇论文最大的亮点在于“以身作则”地解决了一个评测领域的老大难问题——创建了一个干净、无污染、多口音的长对话评测集，堪称ASR评测界的“良心工程”。但硬币的另一面是，它本质上是一个“靶子”而非“箭”，作为纯数据集和基准论文，缺乏算法上的惊艳创新，且角色扮演的数据获取方式终究让其在“真实性”上打了折扣，难以完全替代真实世界数据的价值。 🔗 开源详情代码：论文中未提及具体代码仓库链接。模型权重：论文中提及了多个开源ASR模型进行基准测试（如NVIDIA Canary-1B v2, Parakeet 0.6B TDT, Whisper Large, Qwen3-ASR, Granite Speech, Phi-4 Multimodal等），但未在文中提供这些模型权重的直接下载链接。数据集：AppTek Call-Center Dialogues 名称：apptek-com/apptek_callcenter_dialogues 链接：https://huggingface.co/datasets/apptek-com/apptek_callcenter_dialogues 开源协议：Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) Demo：论文中未提及在线演示链接。复现材料：论文中未提供训练配置、检查点或附录等用于完全复现的材料。文中详细描述了评估设置（分割策略、评分协议等），但未提供用于复现其评分归一化脚本或评估环境的具体代码或配置文件链接。论文中引用的开源项目： Silero VAD: https://github.com/snakers4/silero-vad Hugging Face OpenASR Leaderboard: https://huggingface.co/spaces/speech-io/open_asr_leaderboard 补充信息 [核心摘要] 补充：在“与已有方法相比新在哪里”部分，论文在Related Work中明确指出了其数据集相较于最接近的同类工作（Earnings-22）的多项具体优势：(a) 数据完全非公开来源，降低了被大型模型训练集污染的风险；(b) 口音标签基于说话人自我认同和验证，而非基于公司所在地，标注更直接；(c) 内容为任务导向的、自发的双人对话，与包含大量朗读内容和有限互动的财报电话不同。这些对比是论文定位自身贡献的关键。 [实验结果] 补充：论文在第4.2节Results中明确给出了一个具体实例来说明“平均性能与鲁棒性不相关”的观点：对于Canary-1B模型，其最佳与最差口音间的WER相对差距为26%，平均WER为11.2%；而对于平均WER更低（9.2%）的Parakeet V3模型，该相对差距却高达48%。这一具体数据对比强化了论文的核心发现之一。 [开源详情] 补充：论文在第3.6节提到了数据集的一个“多语言扩展”用途：一个子集（约5小时）已被专业翻译成中文、德语、日语和西班牙语，将用于未来的机器翻译评测。这是数据集潜在应用价值的补充。 📌 核心摘要要解决什么问题：现有英语ASR公开基准测试集大多为短时、朗读式语音，或缺乏明确的方言标注，难以评估ASR系统在真实、长时对话场景下（如呼叫中心）对多种英语口音的鲁棒性。此外，基准数据可能泄露至大型模型的预训练语料中，影响评估有效性。方法核心是什么：本文创建并开源了“AppTek Call-Center Dialogues”数据集。这是一个专门为评估而收集的自发、角色扮演式呼叫中心对话语料库，覆盖14种英语口音和16个服务场景，总计128.6小时。收集过程确保音频和文本非公开来源。同时，论文使用该数据集对多种开源ASR模型在不同语音分割策略下进行了基准测试。与已有方法相比新在哪里：相比Earnings-22等现有对话数据集，本文数据集：(a) 完全为评估而生，数据非公开来源，降低与训练集重叠风险；(b) 系统性地覆盖了14种英语口音，且每类口音样本量充足；(c) 完全由角色扮演的、自发的双人对话构成，更贴近呼叫中心交互模式。主要实验结果如何：分割策略影响：手动分割通常能取得最佳WER，自动分割策略（如Silero VAD、固定分段）性能稍差，表明准确的语音边界检测对长对话ASR至关重要。部分模型（如Qwen3-ASR）对长段输入更鲁棒。模型 (尺寸) 手动分割 RD分割 Silero分割固定30s 固定60s Parakeet v3 (0.6B) 8.8 9.0 9.2 9.9 12.1 Qwen3-ASR (1.7B) 7.9 8.0 8.3 7.8 7.4 Canary-1B v2 (1B) 10.6 11.2 11.2 10.9 13.3 Whisper Large v3 (1.6B) 10.7 18.9 15.0 42.9 - Granite Speech (8B) 10.5 10.9 11.9 12.2 13.8 表2：不同模型在不同分割策略下的平均WER（%） * 口音差异巨大：模型在不同口音上的表现差异显著。例如，使用Silero分割时，多数模型在 `en_US_General`（通用美音）和 `en_AU`（澳洲英语）上表现最好，而在 `en_SG`（新加坡英语）、 `en_CN`（中式英语）和 `en_GB_SCT`（苏格兰英语）上错误率明显偏高。最佳与最差口音间的WER绝对差距可超过10%。 * 性能与鲁棒性不完全相关：平均WER更低的模型（如Parakeet v3, 9.2%）其口音间相对差异（48%）反而大于某些平均WER较高的模型（如Canary-1B, 11.2%），表明提升平均性能不自动保证口音鲁棒性。口音 Parakeet v2 Parakeet v3 Qwen3-ASR (1.7B) Canary-1B Whisper v2 平均 en_AU 5.6 5.2 4.7 6.6 9.3 6.2 en_US_General 6.2 5.5 5.0 7.6 11.0 7.1 en_IN 9.9 9.7 10.3 12.9 33.0 13.9 en_SG 12.4 12.4 10.9 14.9 15.9 14.8 所有口音平均 9.6 9.2 8.3 11.2 16.0 - 表3：使用Silero分割时，各模型在不同口音上的WER（%）实际意义是什么：为ASR社区，特别是对话AI领域，提供了一个高质量、无污染、针对多口音长对话场景的标准评估基准。这有助于更公平、更真实地比较和推动ASR模型在实际应用中的鲁棒性发展。主要局限性是什么：(a) 数据为角色扮演而非真实呼叫中心对话，其语言风格和场景复杂度可能与真实数据有差异；(b) 尽管鼓励人口多样性，但部分口音组内性别分布不平衡；(c) 口音标签基于自我认同和验证，类别内部变异性和边界未严格定义；(d) 针对自发语音的逐字标注存在固有挑战，可能存在少量标注错误。 🏗️ 模型架构本文是一篇基准测试和数据集论文，并未提出新的ASR模型架构。其核心工作围绕数据集构建和对现有模型的评估展开。因此，没有适用于本文的“模型架构”图或描述。论文评估的模型包括Parakeet, Canary, Qwen3-ASR, Whisper, Granite Speech等，均为已发表的开源ASR模型，其架构细节非本文贡献。 ...

AudioX: A Unified Framework for Anything-to-Audio Generation

📄 AudioX: A Unified Framework for Anything-to-Audio Generation #音频生成 #音乐生成 #多模态模型 #扩散模型 #数据集 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #音乐生成 #多模态模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zeyue Tian（香港科技大学）通讯作者：Wei Xue†（香港科技大学），Yike Guo†（香港科技大学）作者列表：Zeyue Tian（香港科技大学），Zhaoyang Liu（香港科技大学），Yizhu Jin（香港科技大学），Ruibin Yuan（香港科技大学），Liumeng Xue（香港科技大学），Xu Tan（独立研究者），Qifeng Chen（香港科技大学），Wei Xue†（香港科技大学），Yike Guo†（香港科技大学） 💡 毒舌点评该工作在“大力出奇迹”的道路上又进了一步：用精心设计的结构化标注管线喂出了七百万条高质量音频-文本对，配合一个设计得当的多模态融合模块，最终在各大榜单上刷出了SOTA，这证明了数据工程与模型工程的双重重要性。然而，论文中将指令跟随能力归因于MAF模块和数据集的论断，部分证据（如T2A-bench的评估）严重依赖外部强大的多模态大模型作为标注器和裁判，这引发了评估闭环是否过于依赖商业API的疑问。 🔗 开源详情代码：论文中提供了代码仓库链接（https://zeyuet.github.io/AudioX/），并承诺将开源。模型权重：论文提及将开源预训练模型检查点。数据集：论文承诺将完整开源IF-caps数据集。 Demo：论文中未提及在线演示链接。复现材料：论文提供了详细的模型架构、训练超参数、数据集统计信息、评估指标定义和基准测试细节（见附录）。附录中进一步详述了数据标注样例和评估流程。引用的开源项目：CLIP (Radford et al., 2021), Synchformer (Iashin et al., 2024), T5 (Raffel et al., 2020), Stable Audio Open (Evans et al., 2024b), Gemini 2.5 Pro (Google), Qwen2-Audio (Chu et al., 2024)。 📌 核心摘要问题：当前音频生成模型大多为单模态输入（如仅文本或仅视频）、单任务输出（如仅音效或仅音乐）的“专家”模型，缺乏一个能灵活组合多种控制信号并生成高质量音频/音乐的统一框架，且高质量的多模态训练数据稀缺。方法核心：提出AudioX统一框架，以扩散Transformer（DiT）为骨干。核心创新是设计了一个轻量级的多模态自适应融合（MAF）模块，用于在条件信号输入DiT前，对来自文本、视频和音频的特征进行门控、交叉注意力聚合和自注意力精炼，以增强跨模态对齐和融合。新意与对比：相较于已有方法，AudioX的新意在于：(1) 架构上，通过MAF模块在统一框架内处理任意模态组合的条件输入；(2) 数据上，设计了结构化标注与增强管线，构建了包含超700万样本的IF-caps大规模细粒度数据集。实验结果：在多个任务（T2A， V2A， T2M， V2M等）和基准上，AudioX达到或超过SOTA水平。关键结果见下表（数据摘自论文Table 1）：任务数据集方法 KL ↓ IS ↑ FAD ↓ T2A VGGSound AudioX 1.74 19.58 1.33 MMAudio 2.17 17.83 2.50 Stable Audio Open 2.36 14.45 2.60 T2M MusicCaps AudioX 0.96 3.55 1.53 TangoMusic 1.13 2.86 1.88 Stable Audio Open 1.51 2.94 3.23 V2M V2M-bench AudioX 0.70 1.37 1.67 VidMuse 0.73 1.32 2.46 在新提出的指令跟随基准T2A-bench上，AudioX大幅领先（如Ord-acc: 23.6 vs 次高19.8）。实际意义：该框架和数据集为需要多模态灵活控制音频生成的应用（如视频后期制作、游戏开发、辅助创作）提供了强大的基础工具，其数据标注方法对构建多模态数据集有借鉴意义。主要局限：论文未明确讨论模型的计算效率与实时性；统一框架的参数量（2.4B）和训练成本（约4k GPU小时）可能限制其在资源受限场景的应用；其“Anything-to-Audio”的泛化能力主要在文本、视频、音频三种模态内验证，对于更异质模态（如传感器数据、图像）的处理能力未探讨。 🏗️ 模型架构图4：AudioX框架。专用编码器处理不同模态，MAF模块将这些信号统一为条件嵌入Hc。DiT骨干网络处理噪声潜在输入zt，通过交叉注意力以Hc为条件，生成高质量音频和音乐。 ...

Aurelius: Relation Aware Text-to-Audio Generation At Scale

📄 Aurelius: Relation Aware Text-to-Audio Generation At Scale #音频生成 #基准测试 #流匹配 #数据集 #模型评估 🔥 8.0/10 | 前25% | #音频生成 | #基准测试 #流匹配 | #基准测试 #流匹配学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yuhang He（微软研究院 Microsoft Research）通讯作者：Yuhang He（微软研究院 Microsoft Research）作者列表：Yuhang He（微软研究院 Microsoft Research），He Liang（未说明），Yash Jain（牛津大学计算机系），Andrew Markham（牛津大学计算机系），Vibhav Vineet（微软研究院 Microsoft Research） 💡 毒舌点评这篇论文的亮点在于它没有追逐提出又一个“全新”的生成模型，而是系统性地构建了大规模、高质量的基准数据集（AudioEventSet, AudioRelSet）和评估体系，直指当前文本到音频生成领域在关系建模上的系统性短板。其短板在于，论文本身提出的AudioRelGen框架核心创新相对有限，更多是基于现有最强模型（如TangoFlux）的微调和评估，缺乏一个能够从根本上解决关系建模难题的、具有强原创性的生成架构。 🔗 开源详情代码：提供代码仓库链接：https://github.com/yuhanghe01/Aurelius 模型权重：论文中未提及公开微调后或专门训练的模型权重。基准测试中使用的是各基线模型的官方公开权重。数据集：AudioEventSet和AudioRelSet已公开，可通过项目主页或代码仓库获取。论文描述了数据集获取和构建方式。 Demo：未提及在线演示。复现材料：提供了训练数据集构建策略、评估协议（MSR）、基线模型的推理设置（表III）以及代码。但关键训练超参数（微调/从头训练的学习率、batch size等）未在论文中说明。论文中引用的开源项目：依赖的开源模型/工具包括：PANNs（用于特征提取和微调）、VGGish、Qwen2系列大语言模型（用于智能体实验）、各基准TTA模型的官方代码库（如AudioLDM, TangoFlux等）。数据来源包括freesound.org和FSD50K。 📌 核心摘要问题：现有的文本到音频（TTA）生成模型在处理需要理解音频事件间复杂关系（如空间、时间、逻辑关系）的文本描述时能力严重不足，这限制了TTA技术向更复杂、更真实的应用场景发展。方法核心：本文提出Aurelius框架，其核心是构建两个大规模、结构化的语料库：包含110个事件类别的AudioEventSet和包含100种关系的AudioRelSet。通过解耦的事件-关系组合策略，可系统性地生成海量的<text, audio>训练对，用于评估和提升模型的“关系感知”生成能力。创新点：与之前工作（如RiTTA）相比，本文的新在于：a) 将事件和关系语料库规模提升了数量级（事件从~25到110，关系从11到100）；b) 提出了一个更全面、可扩展的关系分类法（包括嵌套组合）；c) 提供了基于解耦策略的、可大规模生成训练数据的流水线；d) 对多种主流TTA模型进行了前所未有的系统性基准测试。主要实验结果：基准测试了9个主流TTA模型。结果显示，即使是最好的模型（AudioGen， mAMSR=2.22%； TangoFlux， mAMSR=1.77%），其在关系感知指标（Presence, Relation Correctness, Parsimony）上的表现也极差（均低于15%）。微调实验表明，在Aurelius数据集上微调能显著提升模型的关系建模能力（如TangoFlux的mAMSR从1.77%提升至5.58%）。具体关键结果见下表。模型参数量 FAD ↓ mAPre (%) mARel (%) mAPar (%) mAMSR (%) AudioGen 1.5B 7.97 11.3 2.84 9.13 2.22 TangoFlux 576M 6.01 12.38 3.34 7.28 1.77 TangoFlux (微调) 576M 1.29 28.57 8.02 20.84 5.58 表：零样本基准测试（上）与微调实验（下）关键结果对比实际意义：本工作为“关系感知TTA”这一重要但被忽视的研究方向，首次提供了标准化的大规模基准数据集、评估协议和基线方法，系统地揭示了当前技术的瓶颈，为未来研究指明了方向（如需要设计能显式建模事件-关系依赖的架构）。主要局限性：a) 论文主要贡献是构建基准和揭示问题，提出的AudioRelGen框架本身（解耦生成再混合）并非解决该问题的终极方案；b) 训练数据规模（100小时）虽然远超之前相关工作，但对于真正的大规模生成模型训练可能仍显不足；c) 关系评估依赖的自动检测模型（事件分类器、关系分类器）的性能上限，可能影响评估结果的绝对准确性。 🏗️ 模型架构论文提出的AudioRelGen框架（图4）核心思想是解耦建模，其流程并非一个端到端的单一生成模型，而是一个数据生成与评估的范式： ...

Can Vision-Language Models Answer Face to Face Questions in the Real-World?

📄 Can Vision-Language Models Answer Face to Face Questions in the Real-World? #音频问答 #基准测试 #数据集 #流式处理 ✅ 7.5/10 | 前25% | #音频问答 | #基准测试 | #数据集 #流式处理学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Reza Pourreza（Qualcomm AI Research）通讯作者：未说明作者列表：Reza Pourreza（Qualcomm AI Research），Rishit Dagli（University of Toronto，实习于Qualcomm AI Research），Apratim Bhattacharyya（Qualcomm AI Research），Sunny Panchal（Qualcomm AI Research），Guillaume Berger（Qualcomm AI Research），Roland Memisevic（Qualcomm AI Research） 💡 毒舌点评这篇论文犀利地戳破了“多模态模型已懂交流”的泡沫，用精心设计的QIVD数据集证明，让AI像人一样“边看边听边聊”还差得远，尤其是在把握“回答时机”和理解动态动作上。遗憾的是，其提出的流式处理基线（拼接ASR和视频LLM）更像是权宜之计，而非优雅的端到端解决方案，这或许暗示了当前模型架构的根本性局限。 🔗 开源详情代码：论文中未提及公开的代码仓库链接。模型权重：评估中使用了多个公开的预训练模型权重（如VideoLLaMA系列、Qwen系列、GPT-4o等）。论文本身贡献的微调模型权重（如微调后的VideoLLaMA2.1-7B-FT-AV， Stream-Qwen-Omni）未明确说明是否公开。数据集：QIVD数据集已提供访问链接（qualcomm.com/developer/software/qualcomm-interactive-video-dataset-qivd），应为公开可用。 Demo：论文中未提及在线演示。复现材料：提供了详尽的附录，包含训练超参数（表D.2）、模型模块冻结/训练状态（表D.1）、评估用的LLM裁判提示词（表D.3, D.4）、GPT-4o的提示词（表D.5）以及对数据集语义分类的详细定义，复现材料非常充分。引用的开源项目：引用了Whisper, Whisper-Streaming, Cosmos-Tokenizer, BEATs, SigLIP等开源工具或模型作为技术组件。开源计划：论文中未明确提及后续开源代码的计划。 📌 核心摘要解决的问题：现有大型多模态模型（LMM）虽然能描述图片、回答静态问题，但在需要结合实时视频和音频流进行情境化问答时表现不佳。它们难以整合多模态信息来理解指代（如“这个”）、判断动态事件，并且最关键的是，不知道“何时”回答。方法核心：提出了一个全新的数据集和基准——Qualcomm Interactive Video Dataset (QIVD)。该数据集通过众包收集，参与者用手机边拍视频边提出开放性问题，数据集包含原始视频、音频、问题的文字转录、答案以及至关重要的“最佳回答时机”时间戳。与已有方法的对比新意：与现有离线视频问答数据集不同，QIVD强制模型处理在线、实时、自包含的问答场景。它不仅评估模型能否“答对”，更评估其能否在动态场景中“听懂”问题并在信息充分时“恰当地”作答，这是对模型情境理解和时序推理能力的直接测试。主要实验结果：人类表现：在子集上人类正确率约为87.3%。模型表现：最强的开源模型（如VideoLLaMA3-7B）在提供完美问题和时机的离线设置下正确率仅为56.4%；最强闭源模型（GPT-4o）正确率为58.8%，远低于人类。时机至关重要：使用模型自身预测的“最佳回答时机”（Stream-Qwen-Omni）会比使用固定时机（如问题结束时）显著提升性能，但仍然存在误差。音频的作用：直接使用音频信息并不总是能提升性能，但经过在QIVD上微调后，模型能有效利用音频，特别是在主观、动作计数等任务上提升巨大（如主观任务+23.26%，动作计数+16.96%）。关键差距：模型在“动作计数”、“音视频理解”、“物体指代”等需要时序推理和跨模态理解的任务上，与人类差距最大。实际意义：为构建能够与人类进行实时视频通话的AI助手、人形机器人或远程协作系统提供了关键的评估基准和瓶颈分析，明确了未来模型需要突破的方向。主要局限性：数据集规模（2900个视频）和类别多样性有限；数据主要来自众包的日常场景，可能缺乏专业或复杂场景；研究的“流式基线”方法本质上是模块化拼接，而非真正的端到端实时系统。 🏗️ 模型架构本文主要贡献是数据集和评估框架，而非一个全新的端到端模型。论文提出的模型架构是用于评估的基线系统，其设计体现了对当前技术路径的分析： ...

Echo: Towards Advanced Audio Comprehension via Audio-Interleaved Reasoning

📄 Echo: Towards Advanced Audio Comprehension via Audio-Interleaved Reasoning #音频问答 #音频场景理解 #强化学习 #数据集 🔥 8.5/10 | 前25% | #音频问答 | #强化学习 | #音频场景理解 #数据集学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Daiqing Wu（中国科学院信息工程研究所；字节跳动）通讯作者：Yangyang Kang（字节跳动），Yu Zhou（南开大学）作者列表： Daiqing Wu（中国科学院信息工程研究所；字节跳动；中国科学院大学） Xuan Zhang（字节跳动） Dongbao Yang（中国科学院信息工程研究所） Jiashu Yao（字节跳动） Longfei Chen（上海科技大学） Qingsong Liu（字节跳动） Sicheng Zhao（清华大学） Can Ma（中国科学院信息工程研究所） Yangyang Kang（浙江大学；字节跳动） Yu Zhou（南开大学） 💡 毒舌点评亮点：论文清晰地指出了现有“音频条件化文本推理”的信息瓶颈问题，并受人类听觉认知启发，提出了“音频交错推理”这一新颖且合理的范式，通过两阶段训练框架（SFT+RL）使其落地，并在多个专家级音频理解基准上取得了SOTA性能，验证了范式的有效性。短板：训练数据完全依赖LLM（DeepSeek-R1）基于音频描述自动生成，其质量和与真实音频的匹配度可能存在噪声，且数据筛选过程引入了额外的不确定性；虽然提供了代码，但模型权重未公开，限制了复现和直接比较的便利性。 🔗 开源详情代码：提供代码仓库链接：https://github.com/wdqqdw/Echo，包含训练代码和脚本。模型权重：论文中未提及公开模型权重。数据集：论文中提及构建了EAQA-SFT和EAQA-RL数据集，但未明确说明是否公开下载。训练中使用的其他数据集（AudioSet-Strong, MusicBench, AVQA）为公开数据集。 Demo：论文中未提及在线演示。复现材料：论文提供了详细的训练超参数、数据统计（附录F）、伪代码（附录D）、提示词模板（附录E）和评估设置，复现细节较为充分。引用的开源项目：模型基座为Qwen2.5-Omni，数据合成使用了DeepSeek-R1，训练使用了ms-swift、VERL和vLLM框架。 📌 核心摘要解决的问题：现有大音频语言模型（LALMs）在推理时普遍采用“一次性编码”的音频条件化文本推理，将连续音频信号压缩为静态嵌入，导致关键细节信息丢失，形成“信息瓶颈”，限制了模型处理复杂、多源音频的能力。方法核心：提出“音频交错推理”范式，将音频作为主动推理组件。模型在推理过程中动态定位并回听关键音频片段（通过<seg>标签），将原始音频token插入推理上下文，形成多模态推理过程。为实现此范式，设计了两阶段训练框架：(1) 监督微调（SFT）使模型学会生成包含时间戳的音频定位推理链；(2) 强化学习（RL）通过设计的奖励函数（准确度、格式、一致性、片段奖励）优化模型的回听策略。同时，构建了一个利用LLM自动生成高质量音频问答及思维链（CoT）的数据生产流水线。创新之处：核心创新在于提出了“音频交错推理”这一新的推理格式，改变了模型与音频交互的方式，从“思考音频”转向“用音频思考”。这与之前主要复制文本推理范式的方法有本质区别。配套的两阶段训练框架和自动化数据生成流水线也是重要贡献。主要结果： Echo模型在MMAR（平均69.99%）、MMAU-mini（平均80.41%）和MMAU（平均76.61%）等强调高级推理的音频理解基准上，取得了开源模型中的最优性能，并超越了GPT-4o-Audio和Gemini-2.0-Flash等先进商业模型。消融实验表明，音频交错推理格式、SFT数据、RL数据质量以及各奖励组件对性能提升均有贡献。下表总结了主要实验结果：模型类别 MMAR Avg Acc (%) MMAU-mini Avg Acc (%) MMAU Avg Acc (%) Qwen2.5-Omni (基线) 开源基础模型 57.33 71.53 71.00 GPT-4o-Audio 专有模型 64.09 62.51 60.82 Gemini-2.0-Flash 专有模型 67.90 70.51 67.03 Echo (本文) 自适应模型 69.99 80.41 76.61 实际意义：为提升LALMs的复杂音频理解能力提供了一种符合认知科学、且实证有效的技术路径，特别是在需要精细时序分析和多轮音频感知的任务中（如多说话人角色映射、事件推理）。所提出的数据生成流水线对构建高质量音频训练数据也有参考价值。主要局限性： (1) 训练数据依赖于LLM的合成，其“听觉”基于文本描述而非原始音频，可能存在语义偏差和幻觉，尽管有交叉验证和过滤机制。(2) 当前的回听机制仅支持直接访问原始音频片段，未探索如慢速播放、频谱分析等更高级的“听觉”操作。(3) 模型在长音频上的泛化能力虽被提及但有待更深入验证。 🏗️ 模型架构 Echo模型整体架构基于一个预训练的多模态大模型（Qwen2.5-Omni），并通过两阶段训练使其具备“音频交错推理”能力。其核心不在于全新的神经网络模块设计，而在于推理流程和训练范式的创新。 ...

EmotionThinker: Prosody-Aware Reinforcement Learning for Explainable Speech Emotion Reasoning

📄 EmotionThinker: Prosody-Aware Reinforcement Learning for Explainable Speech Emotion Reasoning #语音情感识别 #强化学习 #语音大模型 #数据集 🔥 8.0/10 | 前25% | #语音情感识别 | #强化学习 | #语音大模型 #数据集学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Dingdong WANG (1, 2*) (1: 香港中文大学; 2: 微软) 通讯作者：Helen M. Meng (1) (香港中文大学) 作者列表：Dingdong WANG (香港中文大学，微软), Shujie LIU (微软), Tianhua Zhang (香港中文大学), Youjun Chen (香港中文大学), Jinyu Li (微软), Helen M. Meng (香港中文大学) 💡 毒舌点评论文将语音情感识别从“贴标签”重构为“讲道理”，引入强化学习监督推理过程，思路清晰且新颖，提出的GRPO-PTR方法有效缓解了奖励黑客问题。然而，其核心的“情感CoT-35K”数据集高度依赖GPT-4o合成与自动化标注管线，情感推理的“真实性”与“泛化性”存疑；此外，强化学习训练的稳定性与超参数敏感性也是一大挑战，论文中的消融实验虽已说明，但实际落地调参难度可能被低估。 ...

From Natural Alignment to Conditional Controllability in Multimodal Dialogue

📄 From Natural Alignment to Conditional Controllability in Multimodal Dialogue #语音合成 #多模态模型 #基准测试 #数据集 ✅ 6.5/10 | 前25% | #语音合成 | #数据集 | #多模态模型 #基准测试学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Zeyu Jin（清华大学计算机科学与技术系）通讯作者：Xiaoyu Qin（清华大学计算机科学与技术系）、Jia Jia（清华大学计算机科学与技术系 / BNRist，清华大学）作者列表： Zeyu Jin（清华大学计算机科学与技术系） Songtao Zhou（清华大学计算机科学与技术系） Haoyu Wang（清华大学计算机科学与技术系） Minghao Tian（Rice University） Kaifeng Yun（清华大学深圳国际研究生院） Zhuo Chen（ByteDance） Xiaoyu Qin（清华大学计算机科学与技术系） Jia Jia（清华大学计算机科学与技术系 / BNRist，清华大学） 💡 毒舌点评亮点在于其“基建”思维，为多模态对话生成这个嘈杂的领域，搭建了一套清晰的“路标”（任务定义）、“高速公路”（大规模标注数据集）和“考题”（跨模态一致性基准）。短板则是论文止步于“出题”和“阅卷”，并未提出一个能在这条新路上跑得更快的“新车”（统一的端到端生成模型），实验部分更多地是在证明现有模型“考不及格”。 🔗 开源详情代码：论文在“ETHICS STATEMENT”中承诺：“Our experimental code and data curation pipeline will be made publicly available upon acceptance of the paper.” 但未提供具体仓库链接。模型权重：论文中提到的基线模型（如Higgs-Audio-V2, Dia）是外部开源项目��但本文未贡献新的生成模型权重。数据集：论文承诺开源MM-DIA和MM-DIA-BENCH。获取方式应是根据提供的标注（时间戳、转录、风格标签等）自行对齐公开的影视内容。 Demo：未提及（论文中未提及在线演示链接）。复现材料：论文提供了详尽的附录，包括数据处理细节、验证结果、指标解释等，有利于复现。论文中引用的开源项目：生成模型基线：Higgs-Audio-V2 (Boson AI), Dia (Nari Labs), CosyVoice, Zero-Shot Dialogue Generation (ZSDG), MoonCast, Har-moniVox。视频生成基线：FLOAT, MultiTalk, Sonic, Wan-2.2, HunyuanVideo。工具/模型：Gemini 2.5-pro (Google), Qwen2.5-VL-7B, GPT-5 (OpenAI), Insightface (用于人脸识别)，以及语音质量评估工具（如UTMOS）。开源情况总结：论文承诺将在接受后开源核心数据集和处理代码，但目前尚未提供。论文本身严重依赖上述引用的开源模型和工具进行实验和标注。 📌 核心摘要问题：当前多模态对话生成研究主要关注单模态（如语音或视觉）的内容真实性，而忽略了跨模态（语音、视觉、文本）在交互风格（如情感、关系、互动模式）上的系统性对齐与精细可控性，导致生成内容的表达力和可控性不足。方法核心：提出了一套从电影/电视剧中自动提取对话、并进行细粒度交互风格标注的数据处理流水线。基于此构建了大规模多模态对话数据集MM-DIA，并定义了可控多模态对话生成（MDG）任务，将其形式化为带显式/隐式条件变量的条件生成问题。同时，建立了专门评估跨模态风格一致性的基准MM-DIA-BENCH。创新点：首次针对“对话表达力”而非“对话内容”构建大规模多模态数据集。提出两种互补的表达力标注范式：结构化“情感三元组”和自由风格描述。建立了首个专门评估音频-视频风格一致性的对话生成基准MM-DIA-BENCH。实验结果：在风格可控语音合成（Task 1）上，使用MM-DIA微调基线模型（如Higgs-Audio-V2）能显著提升性能。例如，WER从31.25降至4.45，指令遵循度（Human-MOS）从3.11提升至4.13（见表4）。在视觉条件语音合成（Task 2）和语音驱动对话视频生成（Task 3）上，现有模型（如HarmoniVox、Wan-2.2）在MM-DIA-BENCH上暴露出明显的跨模态风格对齐不足（如指令遵循度、自发性得分较低），揭示了现有技术的局限（见表5，表6）。实际意义：为可控多模态对话生成提供了标准化的定义、高质量的数据基础和严格的评估工具，有望推动该领域从“内容生成”向“可控交互生成”演进，对电影配音、虚拟人交互等应用有潜在价值。局限性：工作重心在于数据集和评估框架的构建，未提出一个能统一处理多模态输入输出的端到端生成模型；数据集来源于影视作品，与真实日常对话可能存在域差距；部分依赖Gemini等大型多模态模型进行标注，引入了潜在偏差。 🏗️ 模型架构本文并非提出一个新的神经网络模型架构，而是定义了多模态对话生成（MDG）的任务框架和数据处理流水线。其“架构”体现在： ...