Posts

WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM

📄 WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM #多模态模型 #音频检索 #视频检索 #对比学习 #多任务学习 🔥 8.5/10 | 前10% | #音频检索 #视频检索 | #对比学习 #多任务学习 | #多模态模型 #音频检索学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Changli Tang (清华大学) 通讯作者：Chao Zhang (清华大学) 作者列表：Changli Tang (清华大学)， Qinfan Xiao (清华大学)， Ke Mei (腾讯微信视觉)， Tianyi Wang (腾讯微信视觉)， Fengyun Rao (腾讯微信视觉)， Chao Zhang (清华大学) 💡 毒舌点评亮点：该工作勇敢地填补了基于LLM的统一音频-视觉嵌入的空白，其提出的分层特征融合与联合训练策略在多项检索和QA任务上取得了令人信服的SOTA结果，显示了强大的跨模态理解与对齐能力。短板：模型的通用性在一定程度上受限于其基础架构（Qwen2.5-Omni），且论文中提出的“versatile audio-visual learning”新基准未在附录或实验部分详细说明其构成与评估方式，略显缺失。 ...

WearVox: An Egocentric Multichannel Voice Assistant Benchmark for Wearables

📄 WearVox: An Egocentric Multichannel Voice Assistant Benchmark for Wearables #语音对话系统 #基准测试 #多通道 #语音大模型 #鲁棒性 ✅ 7.5/10 | 前25% | #语音对话系统 | #基准测试 | #多通道 #语音大模型学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Zhaojiang Lin（Meta，标记为联合第一作者）通讯作者：未说明（论文未明确指定通讯作者，但提供了邮箱zhaojiang@meta.com, sunkaicn@meta.com, yongxu@meta.com, lunadong@meta.com）作者列表：Zhaojiang Lin（Meta）、Yong Xu（Meta，联合第一作者）、Kai Sun（Meta，联合第一作者）、Jing Zheng（Meta）、Yin Huang（Meta）、Surya Teja Appini（Meta）、Krish Narang（Meta）、Renjie Tao（Meta）、Ishan Kapil Jain（Meta）、Siddhant Arora（Carnegie Mellon University，工作于Meta）、Ruizhi Li（Meta）、Yiteng Huang（Meta）、Kaushik Patnaik（Meta）、Wenfang Xu（Meta）、Suwon Shon（Meta）、Yue Liu（Meta）、Ahmed A Aly（Meta）、Anuj Kumar（Meta）、Florian Metze（Meta）、Xin Luna Dong（Meta） 💡 毒舌点评亮点在于它精准地定义了可穿戴语音助手独有的“坑”（自我中心音频、多通道、运动噪声、旁听对话），并用一个设计精良、场景丰富的测试集（WearVox）把这些坑量化了，直接戳穿了当前所谓“先进”语音大模型在真实世界中的脆弱性。短板则是案例研究部分提出的多通道模型（MC WearLlama）虽然验证了方向，但更像是一个概念验证（PoC）而非一套完整的解决方案，模型本身未开源，且多通道处理方式（仅拼接两个通道）相对简单，离真正的端到端多模态融合还有距离。 ...

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

📄 WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs #基准测试 #多模态模型 #音视频 #模型评估 #模型比较 🔥 8.5/10 | 前25% | #基准测试 | #多模态模型 | #音视频 #模型评估学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jack Hong（小红书）通讯作者：Shilin Yan（小红书）作者列表：Jack Hong（小红书）、Shilin Yan†（小红书）、Jiayin Cai（小红书）、Xiaolong Jiang（小红书）、Yao Hu（小红书）、Weidi Xie‡（上海交通大学） 💡 毒舌点评这篇论文的价值在于它像一盆冷水，明确指出了当前多模态大模型在“听懂并看懂真实世界”这件事上还差得很远（最佳开源模型约25%，最强商用模型仅65.1%），而音频模态是普遍短板。不过，其评估形式局限于多选题，可能无法完全评估模型生成式理解和复杂推理的真实水平。 🔗 开源详情代码：论文提供了项目主页链接（https://jaaackhongggg.github.io/WorldSense），但未明确提及评估代码或数据处理脚本的开源仓库。模型权重：未提及。本文为评估基准，未提出新模型。数据集：已公开。WorldSense数据集可通过项目主页获取，采用CC BY-NC-SA 4.0许可证。 Demo：论文中未提及在线演示。复现材料：论文提供了详细的评估提示词模板（附录A.4）、标注协议描述（3.3节和附录A.2）以及模型评估设置说明（4.1节和附录A.3），为复现评估结果提供了充分信息。论文中引用的开源项目：主要引用了作为数据源的FineVideo和MusicAVQA数据集，以及用于数据质量控制的Qwen2-VL、VideoLLaMA2和OneLLM等模型。论文中未提及开源计划：评估代码、质量控制自动化脚本。 📌 核心摘要问题：现有针对多模态大语言模型的评估基准大多忽略音频模态，或仅处理弱耦合的音视频信息，无法全面评估模型在真实世界中同时理解和推理视觉与听觉信息的能力。方法核心：提出了WorldSense，首个专注于评估多模态视频理解中音视频模态强耦合能力的基准。该基准包含1,662个音视频同步视频，设计了3,172个多选问答对，覆盖8大领域、67个子类和26种任务。新在哪里：与已有基准相比，WorldSense的创新在于：(i) 强调音视频模态的强耦合性，回答问题必须同时依赖两者；(ii) 覆盖真实世界多样化场景和音频类型（语音、环境声、音乐）；(iii) 采用高质量人工标注和严格的多重质量控制流程。主要实验结果：实验评估了多种主流多模态模型。结果显示，最佳开源多模态视频模型准确率仅为54.0%（Qwen3-Omni），而多数开源音视频模型表现接近随机猜测（约25%）。最强商用模型Gemini 2.5 Pro准确率也仅为65.1%。消融实验表明，加入原始音频相比仅用字幕能带来更大性能提升。实际意义：该基准为评估和推动多模态模型向更鲁棒、更接近人类的真实世界理解能力发展提供了重要平台，并揭示了当前模型在音频理解、跨模态融合和复杂推理方面的关键不足。主要局限性：基准采用多选题形式，在一定程度上限制了对模型生成式能力和开放性推理的评估；此外，尽管覆盖广泛，但视频和问题的分布可能仍无法完全代表所有真实世界场景。 🏗️ 模型架构本文的核心贡献是提出了一个评估基准（Benchmark），而非一个新的模型。因此，其“架构”指的是基准的设计框架。该框架主要由两部分构成：数据构建流水线和评估范式。 ...

XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models

📄 XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models #基准测试 #多模态模型 #跨模态 #音频问答 #模型评估 🔥 9.0/10 | 前25% | #基准测试 | #多模态模型 | #跨模态 #音频问答学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Xingrui Wang (1, 2) - 1. Advanced Micro Devices (AMD)， 2. Johns Hopkins University 通讯作者：Jiang Liu (1) - Advanced Micro Devices (AMD) 作者列表：Xingrui Wang (AMD, Johns Hopkins University)、Jiang Liu (AMD，通讯作者)、Chao Huang (AMD, University of Rochester)、Xiaodong Yu (AMD)、Ze Wang (AMD)、Ximeng Sun (AMD)、Jialian Wu (AMD)、Alan Yuille (Johns Hopkins University)、Emad Barsoum (AMD)、Zicheng Liu (AMD) 💡 毒舌点评亮点：该论文精准打击了当前多模态大模型“看似通用，实则偏科”的痛点，其系统性地通过“模态置换”来测试模型是否真正在理解语义而非记忆模态关联，这种诊断思路比单纯刷分的基准更具洞察力。短板：论文像一份极其详尽的“体检报告”，清晰指出了模型的“病灶”（如音频理解弱、方向不平衡），但并未提供任何“治疗方案”（即如何构建更一致的模型），其价值完全依赖于后续研究者如何利用这份诊断报告。 ...

YuE: Scaling Open Foundation Models for Long-Form Music Generation

📄 YuE: Scaling Open Foundation Models for Long-Form Music Generation #音乐生成 #预训练 #歌唱语音合成 #自回归模型 ✅ 7.5/10 | 前10% | #音乐生成 | #预训练 | #歌唱语音合成 #自回归模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Ruibin Yuan（香港科技大学，MAP）通讯作者：未说明（论文列出了多位通讯作者，按字母排序：Jiaheng Liu, Jian Yang, Wenhao Huang, Wei Xue, Xu Tan, Yike Guo）作者列表：Ruibin Yuan（香港科技大学，MAP）， Hanfeng Lin（香港科技大学，MAP）， Shuyue Guo（MAP）， Ge Zhang（MAP，密歇根大学）， Jiahao Pan（香港科技大学，MAP）， Yongyi Zang（独立）， Haohe Liu（萨里大学，MAP）， Yiming Liang（MAP）， Wenye Ma（MBZUAI，MAP）， Xingjian Du（罗切斯特大学，MAP）， Xeron Du（MAP）， Zhen Ye（香港科技大学）， Tianyu Zheng（MAP）， Zhengxuan Jiang（MAP）， Yinghao Ma（MAP，伦敦玛丽女王大学）， Minghao Liu（2077AI，MAP）， Zeyue Tian（香港科技大学，MAP）， Ziya Zhou（香港科技大学，MAP）， Liumeng Xue（香港科技大学，MAP）， Xingwei Qu（MAP）， Yizhi Li（MAP，曼彻斯特大学）， Shangda Wu（中央音乐学院，MAP）， Tianhao Shen（MAP）， Ziyang Ma（MAP，上海交通大学，南洋理工大学）， Jun Zhan（复旦大学）， Chunhui Wang（吉利汽车）， Yatian Wang（香港科技大学）， Xiaowei Chi（香港科技大学）， Xinyue Zhang（香港科技大学）， Zhenzhu Yang（香港科技大学）， Xiangzhou Wang（MAP）， Shansong Liu（美团）， Lingrui Mei（美团）， Peng Li（香港科技大学）， Junjie Wang（清华大学）， Jianwei Yu（月之暗面）， Guojian Pang（MAP）， Xu Li（小红书）， Zihao Wang（浙江大学，卡内基梅隆大学）， Xiaohuan Zhou（MAP）， Lijun Yu（卡内基梅隆大学）， Emmanouil Benetos（伦敦玛丽女王大学，MAP）， Yong Chen（吉利汽车）， Chenghua Lin（曼彻斯特大学，MAP）， Xie Chen（上海交通大学）， Gus Xia（MBZUAI，MAP）， Zhaoxiang Zhang（中国科学院）， Chao Zhang（清华大学）， Wenhu Chen（滑铁卢大学，MAP）， Xinyu Zhou（月之暗面）， Xipeng Qiu（复旦大学）， Roger Dannenberg（卡内基梅隆大学，MAP）。（注：“MAP”指Multimodal Art Projection团队） 💡 毒舌点评亮点：首个开源且能生成长达五分钟、歌词对齐的完整歌曲的基础模型系列，其双轨分离预测和结构化渐进条件等技术，为解决长时序、多信号音乐生成提供了坚实且可扩展的方案。短板：尽管在结构控制和音域广度上与商业模型持平甚至超越，但其主观音质评估（人声与伴奏质感）与Suno V4仍有清晰可见的差距，且论文中未提供其超大模型（7B）在完整训练集上所需的、惊人的计算资源细节。 ...

语音/音频论文速递 2026-05-02

语音/音频论文速递 2026-05-02 共分析 4 篇论文 ⚡ 今日概览 📥 抓取 4 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音对话系统 1篇 █ #语音合成 1篇 █ #基准测试 1篇 █ #语音识别 1篇 █ 📊 论文评分排行榜（4 篇，按分数降序）排名论文评分分档主任务 🥇 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal 8.5分前25% #语音对话系统 🥈 JaiTTS: A Thai Voice Cloning Model 8.0分前25% #语音合成 🥉 InteractWeb-Bench: Can Multimodal Agent Escape Blind Ex 7.5分前25% #基准测试 4. AppTek Call-Center Dialogues: A Multi-Accent Long-Form 6.5分前50% #语音识别 📋 论文列表 🥇 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction 🔥 8.5/10 | 前25% | #语音对话系统 | #端到端 | #多模态模型 #流式处理 | arxiv ...

A Knowledge-Driven Approach to Target Speech Extraction in the Presence of Background Sound Effects for Cinematic Audio Source Separation (CASS)

📄 A Knowledge-Driven Approach to Target Speech Extraction in the Presence of Background Sound Effects for Cinematic Audio Source Separation (CASS) #语音分离 #知识蒸馏 #数据增强 #音频场景理解 ✅ 7.0/10 | 前50% | #语音分离 | #知识蒸馏 | #数据增强 #音频场景理解 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Chun-wei Ho (Georgia Institute of Technology, USA) 通讯作者：未说明 (论文未明确指定通讯作者，但通常第一作者承担主要联系责任) 作者列表：Chun-wei Ho (Georgia Institute of Technology, USA)， Sabato Marco Siniscalchi (University of Palermo, Italy)， Kai Li (Dolby Laboratory, China)， Chin-Hui Lee (Dolby Laboratory, China) 💡 毒舌点评亮点：论文开创性地将语言学中的“发音方式”（Manner of Articulation）知识作为辅助信号引入到电影音频语音分离任务中，为解决背景音效干扰下的短语音提取提供了新颖且可解释的思路。短板：尽管思路巧妙，但实验说服力略显不足，提升幅度有限（约1dB），且所有实验仅在一个为该挑战赛定制的数据集上完成，未能证明该方法在更复杂、更多样的真实电影场景中的普适性和鲁棒性。 ...

ABC: Any-Subset Autoregression via Non-Markovian Diffusion Bridges in Continuous Time and Space

📄 ABC: Any-Subset Autoregression via Non-Markovian Diffusion Bridges in Continuous Time and Space #生成模型 #扩散模型 #连续时间 #随机过程 #自回归模型 🔥 8.0/10 | 前25% | #条件生成 | #扩散模型 | #生成模型 #连续时间 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：未说明通讯作者：未说明作者列表：Gabe Guo（未说明）、Thanawat Sornwanee（未说明）、Lutong Hao（未说明）、Elon Litman（未说明）、Stefano Ermon（未说明）、Jose Blanchet（未说明） 💡 毒舌点评亮点：直击现有扩散模型用于条件生成随机过程时的核心痛点（起点噪声、时间感知、条件灵活性），并提出了一个理论上更优的统一框架，逻辑清晰且有理论支撑。短板：摘要中完全没有任何定量实验结果来支撑“superiority”的结论，让一个方法论看起来很漂亮的论文说服力大打折扣——没有数字的优越性宣称，在顶会顶刊里等于空谈。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及数据集：论文中未提及 Demo：论文中未提及复现材料：论文中未提及论文中引用的开源项目：未提及补充信息 [模型架构] 补充：论文标题和核心方法名“Any-Subset Autoregression via Non-Markovian Diffusion Bridges in Continuous Time and Space”明确指出了其模型的两个关键设计理念：1）非马尔可夫 (Non-Markovian)：强调该过程不依赖于马尔可夫性，这与通过“路径依赖”的变分测度进行条件建模直接相关。2）扩散桥 (Diffusion Bridges)：暗示该SDE不仅是一个简单的扩散过程，更是一个“桥”，连接已知的条件状态（如起始帧和结束帧），从而在给定条件下生成两端被约束的路径。这在模型架构描述中虽被“连续SDE”和“路径依赖”所涵盖，但明确点出“非马尔可夫扩散桥”这一核心概念有助于更精准地理解其理论定位。 ...

Accent Conversion: A Problem-Driven Survey of Sociolinguistic and Technical Constraints

📄 Accent Conversion: A Problem-Driven Survey of Sociolinguistic and Technical Constraints #语音转换 #语音合成 #综述 #跨语言 ✅ 7.5/10 | 前50% | #语音转换 | #综述 | #语音合成 #跨语言 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Yurii Halychanskyi（伊利诺伊大学厄巴纳-香槟分校，西贝尔计算与数据科学学院，国家超级计算应用中心）通讯作者：Yurii Halychanskyi（同上）作者列表：Yurii Halychanskyi（伊利诺伊大学厄巴纳-香槟分校，西贝尔计算与数据科学学院，国家超级计算应用中心）、Jianfeng Steven Guo（伊利诺伊大学厄巴纳-香槟分校，西贝尔计算与数据科学学院，国家超级计算应用中心）、Volodymyr Kindratenko（伊利诺伊大学厄巴纳-香槟分校，西贝尔计算与数据科学学院，国家超级计算应用中心，东亚语言文化系） 💡 毒舌点评亮点：成功地将口音转换这一技术问题，嵌入到社会语言学约束（偏见、公平）和技术瓶颈（对齐、解耦、低资源）的双重框架中进行系统性梳理，视角比传统工程综述更深刻。短板：本质上是对现有工作的“重新包装”和“排序”，缺乏算法层面的新见解或对某一具体问题的深度技术突破，对于寻求具体模型设计灵感的读者帮助有限。 🔗 开源详情代码：论文中未提及代码链接。该论文是一篇综述文章，未提出新的算法或开源代码仓库。模型权重：论文中未提及。数据集：论文在第7节“Datasets”和表1中总结并引用了多个常用于口音转换研究的英语语音数据集。这些数据集为第三方公开数据集，论文本身未提供新的数据集或直接下载链接。具体引用的数据集及其获取途径（根据论文引用推断）如下： VCTK: https://datashare.ed.ac.uk/handle/10283/3443 (论文引用 [VCTK]) Common Voice: https://commonvoice.mozilla.org/ (论文引用 [CommonVoice]) Speech Accent Archive (SAA): https://accent.gmu.edu/ (论文引用中对应为 [47]，指向A.C. Cohn的论文) CMU Arctic: http://www.festvox.org/cmu_arctic/ (论文引用 [CMU-Arctic]) L2-Arctic: https://btsync.csl.illinois.edu/BTSync/publicpage/publicprojects/L2-ARCTIC.html (论文引用 [L2-Arctic]) AccentDB: https://github.com/rahuly1/AccentDB (论文引用 [AccentDB]) UME-ERJ: 论文中提及但未给出明确链接，通常需通过原论文获取。 LibriLight, LibriSpeech, LibriTTS, LibriTTS-R, LJSpeech: 这些是常用于语音合成与识别的通用数据集，并非为口音转换专门设计，但论文指出AC研究常借用它们。获取链接如 LibriSpeech 等，但论文本身未给出。 Demo：论文中未提及。复现材料：论文中未提及。该论文为综述，未提供自身的实验细节、训练配置或检查点。论文中引用的开源项目：论文主要引用了数据集和方法（如DTW、PSOLA等），并未明确引用除数据集外的其他独立开源项目或工具。因此，此部分标记为“未提及”。补充信息 [核心摘要/细节详述] 补充：论文第5节明确阐述了口音转换（AC）与其他语音处理任务的具体关系，指出： ...

Advancing automatic speech recognition using feature fusion with self-supervised learning features: A case study on Fearless Steps Apollo corpus

📄 Advancing automatic speech recognition using feature fusion with self-supervised learning features: A case study on Fearless Steps Apollo corpus #语音识别 #自监督学习 #特征融合 #鲁棒性 ✅ 7.0/10 | 前25% | #语音识别 | #自监督学习 | #特征融合 #鲁棒性 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Szu-Jui Chen (Center for Robust Speech Systems, Erik Jonsson School of Engineering & Computer Science, University of Texas at Dallas) 通讯作者：未明确标注（根据作者顺序和致谢，推测John H. L. Hansen为项目负责人）作者列表：Szu-Jui Chen (Center for Robust Speech Systems, Erik Jonsson School of Engineering & Computer Science, University of Texas at Dallas)、John H. L. Hansen (Center for Robust Speech Systems, Erik Jonsson School of Engineering & Computer Science, University of Texas at Dallas) 💡 毒舌点评本文的核心亮点在于提出了一个设计精巧、动机明确的深度交叉注意力（DCA）融合方法，并首次对极具挑战性的FSC Phase-4数据集进行了系统性的ASR分析和基线建立。然而，其短板在于计算复杂度显著高于简单的线性投影方法，但最终带来的绝对性能提升（在FSC Phase-4上为1.1% WER）相对温和，且缺乏开源代码限制了其即时的可复现性和社区影响力。 ...