VIBE: Voice-Induced open-ended Bias Evaluation for Large Audio-Language Models via Real-World Speech

📄 VIBE: Voice-Induced open-ended Bias Evaluation for Large Audio-Language Models via Real-World Speech #模型评估 #音频大模型 #基准测试 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Yi-Cheng Lin (台湾大学 通信工程研究所) 通讯作者:Hung-yi Lee (台湾大学 通信工程研究所, 人工智能卓越研究中心) 其他作者: Yusuke Hirota (NVIDIA,台湾) Sung-Feng Huang (台湾大学 通信工程研究所) 机构: 国立台湾大学 通信工程研究所 (Graduate Institute of Communication Engineering, National Taiwan University) NVIDIA,台湾 国立台湾大学 人工智能卓越研究中心 (Artificial Intelligence Center of Research Excellence, National Taiwan University) 💡 毒舌点评 亮点:这篇论文最巧妙的地方在于“让模型自由发挥”——用开放生成任务代替选择题,就像撤掉考场的栅栏,让模型在真实场景下的“偏见本能”无处遁形。结合真实人声录音,评估框架的设计非常贴近实际应用,比那些用合成语音做选择题的“象牙塔测试”高明不少。 槽点:但它的“考场”只设在了英语世界(两个英文数据集),对于口音偏差的评估也仅限于非母语英语者,全球化视角稍显局限。另外,偏差的定义仍集中在“分布差异”上,对于更复杂的个体公平、交叉性公平(如同时考虑性别和口音)探讨不足,算是开了个好头,但远未终结话题。 🔗 开源详情 代码与工具:论文明确说明“The VIBE benchmark code and evaluation prompts will be released under an open-source license for reproducibility.” 但未在文中提供具体的GitHub链接。 模型权重:VIBE是评估框架,不涉及训练新模型。它评估的是现有的11个LALM,这些模型的权重(如Qwen2-Audio, Phi-4)大多已在Hugging Face等平台公开。 数据集:使用了两个公开数据集: CREMA-D:开放数据库许可证(ODbL v1.0)。 L2-ARCTIC:CC BY-NC 4.0许可证。 预训练权重:不适用。 在线Demo:论文中未提及。 引用的开源项目:论文中提到了使用的推理框架vLLM,以及作为提取器的Qwen3-8B模型。 📌 核心摘要 这篇论文旨在解决大型音频语言模型(LALM)在开放生成任务中社会偏见评估不足的问题。现有基准多依赖合成语音和选择题(MCQ),无法捕捉模型在真实交互中自然流露的刻板印象。为此,作者提出了VIBE框架,其核心是使用真实人声录音输入模型,并通过开放生成任务(如故事创作、个性化推荐)来激发模型的潜在偏见。框架采用“输入音频+任务提示 → LALM生成自由文本 → LLM提取器结构化属性 → 计算组间分布差异(nTVD)”的流程进行量化。通过对11个主流LALM在5个任务上的评估,论文揭示了三个关键发现:1) 偏见具有高度任务依赖性,叙事和推荐类任务更容易引发偏见;2) 没有模型能在所有任务上都保持低偏见;3) 性别线索通常比口音线索引发更显著的输出分布偏移,表明模型复制了社会性别刻板印象。该工作为LALM的公平性评估提供了一个更真实、可扩展的新基准。 ...

2026-04-21 · 更新于 2026-06-16 · 2 min · 276 words

Video-Robin: Autoregressive Diffusion Planning for Intent-Grounded Video-to-Music Generation

📄 Video-Robin: Autoregressive Diffusion Planning for Intent-Grounded Video-to-Music Generation #音乐生成 #自回归模型 #多模态模型 #基准测试 #音视频 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Vaibhavi Lokegaonkar(University of Maryland College Park, USA) 通讯作者:Aryan Vijay Bhosale, Vishnu Raj(根据“Corresponding authors”及邮箱 {vlokegao,aryanvib}@umd.edu 推断,均来自 University of Maryland College Park, USA) 其他作者: Gouthaman KV(University of Maryland College Park, USA) Ramani Duraiswami(University of Maryland College Park, USA) Lie Lu(Dolby Laboratories, USA) Sreyan Ghosh(University of Maryland College Park, USA) Dinesh Manocha(University of Maryland College Park, USA) 💡 毒舌点评 亮点在于巧妙地将自回归模型的“宏观规划”能力和扩散模型的“细节雕刻”能力缝合在一起,解决了视频配乐中“既要懂视频又要听指挥”的痛点,还顺手做了个挺专业的评测基准ReelBench。槽点是缝合的“线”(如FSQ, RITE)都是现成的,而且目前只能给10秒短片配乐,离给一部电影完整配乐的“终极梦想”还有不小的距离,更像是个精致的概念验证版。 ...

2026-04-21 · 更新于 2026-06-16 · 2 min · 421 words

语音/音乐/音频论文速递 2026-04-21

语音/音乐/音频论文速递 2026-04-21 共分析 34 篇论文 ⚡ 今日概览 📥 抓取 34 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 模型评估 13篇 █████████████ 基准测试 9篇 █████████ 音频大模型 8篇 ████████ 数据集 7篇 ███████ 多语言 7篇 ███████ 多模态模型 5篇 █████ 强化学习 5篇 █████ 语音对话系统 4篇 ████ 📊 论文评分排行榜(34 篇,按分数降序) 排名 论文 评分 🥇 FreezeEmpath: Efficient Training for Empathetic Spoken 10.0分 🥈 Audio-DeepThinker: Progressive Reasoning-Aware Reinforc 9.5分 🥉 VoxSafeBench: Not Just What Is Said, but Who, How, and 9.5分 4 Benign Fine-Tuning Breaks Safety Alignment in Audio LLM 9.0分 5 Prosody as Supervision: Bridging the Non-Verbal–Verbal 9.0分 6 Anonymization, Not Elimination: Utility-Preserved Speec 8.5分 7 MimicLM: Zero-Shot Voice Imitation through Autoregressi 8.5分 8 ArtifactNet: Detecting AI-Generated Music via Forensic 8.5分 9 Audio-Cogito: Towards Deep Audio Reasoning in Large Aud 8.5分 10 LLM-Codec: Neural Audio Codec Meets Language Model Obje 8.5分 11 NIM4-ASR: Towards Efficient, Robust, and Customizable R 8.5分 12 Video-Robin: Autoregressive Diffusion Planning for Inte 8.0分 13 A state-space representation of the boundary integral e 8.0分 14 AVRT: Audio-Visual Reasoning Transfer through Single-Mo 8.0分 15 MoVE: Translating Laughter and Tears via Mixture of Voc 8.0分 16 SELF-EMO: Emotional Self-Evolution from Recognition to 8.0分 17 BhashaSutra: A Task-Centric Unified Survey of Indian NL 8.0分 18 MINT-Bench: A Comprehensive Multilingual Benchmark for 8.0分 19 ICLAD: In-Context Learning with Comparison-Guidance for 7.5分 20 Still Between Us? Evaluating and Improving Voice Assist 7.5分 21 Where Do Self-Supervised Speech Models Become Unfair? 7.5分 22 Neural Encoding Detection is Not All You Need for Synth 7.5分 23 Omni-Embed-Audio: Leveraging Multimodal LLMs for Robust 7.5分 24 Latent Fourier Transform 7.5分 25 Hard to Be Heard: Phoneme-Level ASR Analysis of Phonolo 7.5分 26 VIBE: Voice-Induced open-ended Bias Evaluation for Larg 7.5分 27 Aligning Language Models for Lyric-to-Melody Generation 7.5分 28 ClariCodec: Optimising Neural Speech Codes for 200bps C 7.0分 29 From Reactive to Proactive: Assessing the Proactivity o 7.0分 30 A novel LSTM music generator based on the fractional ti 6.5分 31 Incremental learning for audio classification with Hebb 6.5分 32 Coexisting Tempo Traditions in Beethoven’s Piano and Ce 6.0分 33 FLiP: Towards understanding and interpreting multimodal 5.5分 34 HCFD: A Benchmark for Audio Deepfake Detection in Healt 5.0分 📋 论文列表 🥇 FreezeEmpath: Efficient Training for Empathetic Spoken Chatbots with Frozen LLMs 🔥 10.0分 | #语音对话系统 #多模态模型 #迁移学习 #语音情感识别 | arxiv ...

2026-04-21 · 更新于 2026-06-16 · 13 min · 2659 words

ActorMind: Emulating Human Actor Reasoning for Speech Role-Playing

📄 ActorMind: Emulating Human Actor Reasoning for Speech Role-Playing #语音对话系统 #大语言模型 #多智能体 #基准测试 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Xi Chen (陈曦) (香港科技大学,联系邮箱:chenxi.mail.1005@gmail.com) 通讯作者:Wei Xue (薛巍) (香港科技大学,weixue@ust.hk) 其他作者:Yike Guo (郭毅可) (香港科技大学) 💡 毒舌点评 亮点:论文巧妙地将“演员表演方法论”转化为一个可计算的“眼-耳-脑-口”多智能体框架,为冷冰冰的语音合成注入了“角色灵魂”,在概念和系统设计上颇具巧思。槽点:整个系统像个“工具箱大杂烩”,依赖一堆现成的ASR、情感识别、LLM和TTS模块拼装而成,创新更多体现在“编剧和导演”层面,而非“演员”本身的演技突破。实验数据只用了《老友记》第一季,让人担心这套方法演不了莎士比亚。 🔗 开源详情 代码:论文明确指出代码将开源,并提供了GitHub仓库地址:https://github.com/OzymandiasChen/ActorMind。 模型权重:论文中使用的模型(LLaMA3, IndexTTS, SECAP等)均为公开可用的模型。ActorMind框架本身不训练新模型,因此不涉及发布新的模型权重。 数据集:ActorMindBench的标注文件(角色档案、场景描述、话语对齐等)将公开发布。原始音频数据因版权原因不直接分发,研究者需自行通过合法渠道获取《老友记》剧集。 预训练权重:不适用,框架集成的是现有预训练模型。 在线 Demo:论文中未提及。 依赖的开源项目:论文明确提到了多个依赖工具:resemble-enhance(语音增强),pyannote-audio(说话人日志),Whisper(语音识别),LLaMA3(推理),OpenAI text-embedding-3-large(检索),IndexTTS(语音合成)。 📌 核心摘要 这篇论文旨在解决现有角色扮演研究局限于文本模态,而忽视了日常交流中主导的语音模态的问题。为此,作者首先定义了“语音角色扮演”任务,要求模型能根据角色、场景和对话历史,生成带有个性化语音特征(如特定情感、语调)的自发性回应。为此,他们构建了ActorMindBench,这是一个基于《老友记》第一季的三层级(话语级、场景级、角色级)基准测试,包含7653条话语。核心贡献是提出了ActorMind,一个受演员表演流程启发的多智能体链式推理框架。该框架通过四个协同工作的智能体模拟表演过程:Eye Agent读取角色和场景描述,Ear Agent从对话语音中感知情感线索,Brain Agent推理出下一句台词应具有的情感状态,最后Mouth Agent通过检索情感相似的语音样本,驱动TTS模型合成目标台词。实验表明,ActorMind在角色一致性和情感表达上显著优于多个基线LLAM和TTS模型,并展现出良好的模型无关泛化性。其局限性在于基准数据领域单一,且框架性能依赖于所集成外部工具的水平。 🏗️ 模型架构 ActorMind是一个多智能体链式推理框架,其整体流程模拟人类演员的表演过程,从接收剧本到最终演绎出台词。具体输入输出流程如下: 输入:当前场景描述(S_j^desc)、当前角色的档案(R_k)、历史对话的文本(U_p^t, ..., U_{q-1}^t)和语音(U_p^s, ..., U_{q-1}^s),以及目标台词的文本(U_q^t)。 处理流程: Eye Agent(阅读):这是一个记忆模块,负责读取并存储角色档案(R_k)、场景描述(S_j^desc)和历史对话文本。它不进行复杂计算,仅为后续智能体提供上下文文本信息。 Ear Agent(倾听):这是一个感知模块。它接收历史对话的语音信号(U_p^s, ..., U_{q-1}^s),调用一个外部的语音情感描述工具(SECAP),将每段语音转化为文本形式的情感描述(E_p, ..., E_{q-1})。其核心功能是将非结构化的语音情感信息结构化为文本。 Brain Agent(思考):这是整个框架的核心推理大脑。它接收来自Eye Agent的所有文本信息(角色、场景、历史对话文本)和来自Ear Agent的历史情感描述,以及目标台词文本(U_q^t)。然后,它调用一个大语言模型(LLM,论文中使用LLaMA3),通过精心设计的提示词,推理出当前角色在说出目标台词时应处的情感状态描述(E_q~)。这个过程相当于演员结合内外部信息,决定“我该用什么情绪来说下一句台词”。 Mouth Agent(演绎):这是语音生成模块。它接收Brain Agent输出的情感状态描述(E_q~)和目标台词文本(U_q^t)。首先,它通过一个检索增强生成(RAG) 机制,在一个为当前角色(R_k)构建的语音数据库(Database_Uk) 中,检索出一条情感描述与E_q~最相似的历史语音片段(U_x^s)。这个数据库中的每条语音都关联了其由SECAP生成的情感描述。然后,它以检索到的语音(U_x^s)作为“情感和音色提示”,以目标文本(U_q^t)作为内容,驱动一个零样本语音合成模型(论文中使用IndexTTS) 生成最终的语音输出(U_q^s~)。 输出:带有特定角色音色和情感状态的语音U_q^s~。 ...

2026-04-20 · 更新于 2026-06-16 · 2 min · 386 words

Full-Duplex-Bench-v3: Benchmarking Tool Use for Full-Duplex Voice Agents Under Real-World Disfluency

📄 Full-Duplex-Bench-v3: Benchmarking Tool Use for Full-Duplex Voice Agents Under Real-World Disfluency #语音对话系统 #基准测试 #实时处理 #大语言模型 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Guan-Ting Lin (台湾大学) 通讯作者:Hung-yi Lee (台湾大学) 其他作者:Chen Chen (英伟达), Zhehuai Chen (英伟达) 💡 毒舌点评 亮点:终于有人用真实的、结结巴巴的人话来拷问那些号称“实时对话”的语音AI了,而不是用完美的TTS自欺欺人。特别是对“自我纠正”(“去纽约…啊不,波士顿”)这种致命场景的测试,直击当前系统的软肋。 槽点:论文本身是个“裁判”而非“运动员”,它很尽责地指出了选手们(GPT-Realtime, Gemini等)的弱点,但并没有给出如何训练出更好选手的秘方。此外,100条语音的测试集对于覆盖复杂现实场景可能还是略显单薄。 🔗 开源详情 代码与数据集:论文提供了 GitHub 仓库链接(https://daniellin94144.github.io/FDB-v3-demo/)和 CC BY-SA 4.0 许可证,强烈暗示基准的数据集、评估脚本和可能的Demo代码已开源。 在线Demo:提供了在线演示链接(https://daniellin94144.github.io/FDB-v3-demo/)。 模型:评估的模型(GPT-Realtime, Gemini Live等)均为第三方API或开源模型(如Ultravox),论文未发布新模型权重。 引用开源项目:论文依赖 LiveKit 实时语音代理框架进行系统部署和评估。 📌 核心摘要 这篇论文针对当前全双工语音代理评估缺乏真实性(依赖合成语音)和任务简单性(单步调用)的问题,提出了Full-Duplex-Bench-v3 (FDB-v3) 基准。该基准的核心创新在于使用100条真实人类录音(含五种不流畅性注释),在四个任务域中设计了需要多步API链式调用的场景,并特别包含了21个测试意图中途自我纠正的案例。通过对GPT-Realtime、Gemini Live等六个主流系统(包括一个级联基线)的评估,论文发现:1)在任务完成率上,GPT-Realtime领先;2)Gemini Live 3.1延迟最低但“静默工作”(只调用工具不说话)比例高;3)自我纠正和多步推理在复杂场景下仍是所有系统的最普遍失败模式。该工作为语音代理的研发提供了贴近现实的评估标尺,并指明了平衡响应速度与对话灵活性的未来方向。 🏗️ 模型架构 本文不提出新模型,而是评估现有模型。 其评估框架的整体流程如下: 输入:来自真实人类录音的音频流,其中包含自然产生的不流畅现象(填充词、停顿、错误开头、自我纠正等)。 系统处理:音频流被送入待评估的语音代理系统。论文评估了六种配置: 端到端语音到语音模型:GPT-Realtime, Gemini Live 2.5/3.1, Grok, Ultravox v0.7。这些模型内部集成语音识别、语言理解和语音生成。 级联流水线基线:Whisper (ASR) -> GPT-4o (LLM,负责推理和工具调用) -> OpenAI TTS (语音合成)。 工具执行:所有系统均通过 LiveKit 实时语音代理框架 连接到本地模拟的API。这些Mock API(如search_flights, book_ticket)具有确定性、零延迟的响应,以隔离模型本身的推理和参数传递性能。 输出与评估:系统输出包括生成的语音和工具调用日志。评估从四个维度进行: 工具使用准确性:工具选择F1值、参数语义准确性、任务完成率(Pass@1)。 对话质量:由GPT-4o评判的响应质量。 轮流发言动态:轮流发言率、基础延迟(用户说完到系统开始响应)、打断率、填充句率。 延迟分解:首词延迟、首次工具调用延迟、任务完成延迟(通过GPT-4o分析ASR片段,分离填充语句和关键信息句)。 💡 核心创新点 真实不流畅语音基准:构建了首个完全由真实人类语音组成、并系统性标注了五种不流畅类别(填充词、停顿、犹豫、错误开头、自我纠正)的工具使用评估集,极大提升了评估的生态效度。 自我纠正与状态回滚测试:专门设计了21个场景,测试语音代理能否识别用户在单次发言中改变意图(如更改目的地、日期),并正确更新下游API参数,这是对动态状态管理的直接考验。 多步函数链式调用:每个场景都需要跨四个任务域(旅行身份、金融账单、住房位置、电商支持)进行多步API调用,评估了模型在真实语音条件下进行复杂推理和规划的能力。 全面的多维度评估体系:不仅评估工具调用准确性,还深入分析了延迟构成、轮流发言行为(如“静默工作者”现象)、以及不同不流畅类型对性能的影响,揭示了速度、准确性与对话流畅性之间的核心权衡。 🔬 细节详述 训练数据:不涉及模型训练。基准数据集包含100条录音,来自12位说话者(含母语及非母语者),在非受控环境下使用日常麦克风录制。每个说话者被分配10个跨域场景,其中21个包含自我纠正事件。 评估指标: 工具选择F1:精确率与召回率的调和平均。 参数准确性:由GPT-4o评判语义正确性,允许日期格式、缩写等合理变体。 任务完成率 (Pass@1):二元指标,要求工具选择、参数准确性、响应质量全部完美。 响应质量:由GPT-4o评判是否自然且完整地满足了用户意图。 轮流发言指标:包括轮流发言率、基础延迟(Δt)、打断率(Δt < 0)、填充句率。 延迟分解:首词延迟、工具调用延迟、任务完成延迟(通过GPT-4o识别关键信息句起始时间)。 关键超参数/设置: Mock API:本地执行,确定性输出,零延迟。 评估模型:使用GPT-4o作为评判器(用于参数准确性、响应质量、关键信息识别)。 难度分级:Easy(单步)、Medium(两步,中等歧义)、Hard(多步,约束冲突)。 实验硬件/推理:所有云端模型评估在单一固定服务器区域执行,以确保延迟比较公平。未提及具体GPU型号和训练细节,因为本文是评估工作。 📊 实验结果 主要指标对比(表2): ...

2026-04-20 · 更新于 2026-06-16 · 2 min · 372 words

HARNESS: Lightweight Distilled Arabic Speech Foundation Models

📄 HARNESS: Lightweight Distilled Arabic Speech Foundation Models #语音识别 #知识蒸馏 #自监督学习 #多语言 #基准测试 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Vrunda N. Sukhadia(Amazon India;推断其完成该工作时隶属于 Qatar Computing Research Institute, HBKU, Qatar) 其他作者:Shammur Absar Chowdhury(Qatar Computing Research Institute, HBKU, Qatar) 注:论文未明确标注通讯作者,未使用通信作者标记(如 * 或 †)。脚注表明“This work was carried out at QCRI”。 💡 毒舌点评 亮点:在阿拉伯语这个“方言万花筒”上从头炼出了能打的轻量级 SSL 模型,28M 参数的 HArnESS-ST 居然能在方言识别上把 300M 参数的 XLS-R 按在地上摩擦,部署党的福音。槽点:都写到 2026 年了(arXiv 日期疑似穿越),下游任务居然还停留在 frozen encoder 阶段,连端到端微调都不敢跑,是怕小模型露馅还是舍不得 H100 的算力?至于 PCA 压缩监督信号,本质上就是给老师的高维 embedding 做个降维再聚类,包装得像是发现了新大陆。 ...

2026-04-20 · 更新于 2026-06-16 · 4 min · 779 words

MUSCAT: MUltilingual, SCientific ConversATion Benchmark

📄 MUSCAT: MUltilingual, SCientific ConversATion Benchmark #语音识别 #端到端 #多语言 #基准测试 ✅ 评分:6.0/10 | arxiv 👥 作者与机构 第一作者:Supriti Sinhamahapatra(Karlsruhe Institute of Technology) 通讯作者:未明确标注(推断为 Jan Niehues 或 Alexander Waibel) 其他作者: Thai-Binh Nguyen(Karlsruhe Institute of Technology) Yiğit Oğuz(Karlsruhe Institute of Technology) Enes Ugan(Karlsruhe Institute of Technology) Jan Niehues(Karlsruhe Institute of Technology) Alexander Waibel(Karlsruhe Institute of Technology;Carnegie Mellon University) 💡 毒舌点评 这篇论文把“两位学者用母语唠论文”这个场景拍出了科幻片的质感——360°摄像头、麦克风阵列、Meta智能眼镜全副武装,结果剪出来正片只有65分钟,比一集《老友记》还短。虽然确实精准戳中了当前ASR在语言切换和科学术语上的软肋,但这体量敢叫Benchmark,多少有点“小样本科普”的豪迈。 🔗 开源详情 数据集:已开源,托管于 HuggingFace,地址为 https://huggingface.co/datasets/goodpiku/muscat-eval。包含音频录音、人工转录文本、语码转换标注及分段信息。 代码:论文中未提及开源处理代码或评估脚本。 模型权重:未开源新模型;被测模型均使用公开预训练权重(Whisper、SALMONN、Phi-4-multimodal、HuggingFace 社区上的 wav2vec2 微调版本)。 预训练权重:Wav2Vec2 各语言版本的具体 HuggingFace 链接在论文参考文献/脚注中给出(jonatasgrosman、ozcangundes、not-tanh 等社区权重)。 在线 Demo:论文中未提及。 依赖的开源工具:Label Studio(数据标注)、Audacity(音频对齐)、OBS Studio(录制)、jieba(中文分词)、WhisperX(PyanNet 后处理参考)、SHAS(流媒体分段)、PyanNet(说话人分割)。 📌 核心摘要 本文提出了 MUSCAT,一个用于评估多语言科学对话场景下自动语音识别(ASR)性能的新基准。数据集包含 6 组双语对话录音(共约 65 分钟,9,066 词),涉及英语与德语、土耳其语、中文、越南语的配对对话;每组对话使用 Meeting Owl 3、ReSpeaker USB 麦克风阵列和 Meta Aria 智能眼镜三种设备同步录制,并手工对齐。论文除标准 WER 外,还引入了针对领域特定术语的 reference-centric / hypothesis-centric WER 以及针对语码转换的 PIER 指标,系统评估了 Whisper、SALMONN、Phi-4-multimodal 和 Wav2Vec2 四种端到端 ASR 系统。实验表明,当前 SOTA 模型在语言切换检测、科学术语识别、自动分段及远场/可穿戴录音条件下均存在显著缺陷(如 SHAS 自动分段可使 WER 翻倍)。局限性在于数据规模极小、语言分布严重向英语倾斜,且仅覆盖以英语为核心的四种语言对。 ...

2026-04-20 · 更新于 2026-06-16 · 6 min · 1114 words

NaijaS2ST: A Multi-Accent Benchmark for Speech-to-Speech Translation in Low-Resource Nigerian Languages

📄 NaijaS2ST: A Multi-Accent Benchmark for Speech-to-Speech Translation in Low-Resource Nigerian Languages #语音翻译 #音频大模型 #低资源 #基准测试 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Marie Maltais (Mila - Quebec AI Institute, McGill University) 通讯作者:David Ifeoluwa Adelani (Mila - Quebec AI Institute, McGill University, Canada CIFAR AI Chair) (根据作者列表末尾和机构推断) 其他作者: Yejin Jeon (Mila - Quebec AI Institute, McGill University) Min Ma (Google DeepMind) Shamsuddeen Hassan Muhammad (Hausa NLP, Imperial College London) Idris Abdulmumin (Hausa NLP, University of Pretoria) Maryam Ibrahim Mukhtar (Hausa NLP) Daud Abolade (Masakhane NLP) Joel Okepefi, Johnson Sewedo (Naija Wikipedia Community) 💡 毒舌点评 亮点:这篇论文是“数据正义”的典范,为长期被忽视的非洲语言搭建了一个坚实、多口音的语音翻译擂台,并拉来了所有主流方法(级联、端到端、AudioLLM)进行了一场公开、细致的比武大会,数据收集流程堪称教科书级别。槽点:创新主要集中在数据构建和基准测试本身,模型方法上基本是“拿来主义”进行评测,缺乏针对低资源场景的原创性模型设计或训练策略突破,读起来有点像一份豪华版的数据收集与模型测评报告。 ...

2026-04-20 · 更新于 2026-06-16 · 2 min · 377 words

Spatial-Aware Conditioned Fusion for Audio-Visual Navigation

📄 Spatial-Aware Conditioned Fusion for Audio-Visual Navigation #声源定位 #多模态模型 #强化学习 #基准测试 ✅ 评分:7.0/10 | arxiv 👥 作者与机构 第一作者:Shaohang Wu(新疆大学计算机科学与技术学院,具身智能联合实验室,丝绸之路多语言认知计算联合国际实验室) 通讯作者:Yinfeng Yu(新疆大学计算机科学与技术学院,具身智能联合实验室,丝绸之路多语言认知计算联合国际实验室;邮箱:yuyinfeng@xju.edu.cn) 其他作者:无其他作者 💡 毒舌点评 这篇论文把 FiLM 这瓶“旧酒”装进了音频-视觉导航的“新瓶”,效果居然出奇地好——只增加了 0.15M 参数就把 unheard 场景的 SR 拉高了 28 个百分点,堪称“少即是多”的典范。但槽点在于 SDLD 的 20 个离散区间完全靠拍脑袋(“30米除以20约等于1.5米步长”),连个区间数消融都没有;且整篇论文对 FiLM 的引用和改造堪称“教科书级搬运”,说成“建立新范式”多少有点给自己加戏。 🔗 开源详情 代码:论文中未提及开源计划,未提供 GitHub/GitLab 地址。 模型权重:未公开。 数据集:使用公开基准 SoundSpaces(Replica + Matterport3D),未发布新数据集。 预训练权重:未提供。 在线 Demo:未提及。 依赖开源项目:论文引用了 SoundSpaces、Habitat、PPO、GRU、LSTM 等公开框架/算法,但未明确列出代码依赖。 📌 核心摘要 本论文针对音频-视觉导航(AVN)中目标空间意图模糊、视觉特征缺乏听觉条件引导两大问题,提出了 Spatial-Aware Conditioned Fusion(SACF)框架。该框架首先设计了 Spatially Discretized Localization Descriptor(SDLD),将声源相对方向与距离离散化为 20 个区间并预测其概率分布,通过期望计算与 LSTM 时序精炼得到紧凑空间描述符;其次提出了 Audio-Descriptor Conditioned Visual Fusion(ACVF),基于音频嵌入与空间描述符生成 FiLM 通道调制参数(γ, β),对视觉特征图进行轻量化线性变换,从而抑制背景噪声、增强目标导向视觉表示。在 SoundSpaces 的 Replica 与 Matterport3D 数据集上,SACF 在深度输入设置下显著超越 SoundSpaces 基线,尤其在 Unheard 场景(未听过目标声音)下 Replica 的 SR 提升 28.2%、Matterport3D 的 SPL 提升 20.5%。整体模型参数量仅约 4.5M,以较低计算开销实现了强泛化性。局限性在于 RGB 输入下部分指标(如 SNA)仍略低于对比方法 AGSA,且未进行真实世界迁移验证。 ...

2026-04-20 · 更新于 2026-06-16 · 4 min · 761 words

语音/音乐/音频论文速递 2026-04-20

语音/音乐/音频论文速递 2026-04-20 共分析 24 篇论文 ⚡ 今日概览 📥 抓取 24 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 基准测试 6篇 ██████ 多模态模型 5篇 █████ 语音对话系统 4篇 ████ 大语言模型 4篇 ████ 多语言 4篇 ████ 数据集 4篇 ████ 跨模态 3篇 ███ 模型评估 3篇 ███ 📊 论文评分排行榜(24 篇,按分数降序) 排名 论文 评分 🥇 Qwen3.5-Omni Technical Report 9.5分 🥈 Beyond Monologue: Interactive Talking-Listening Avatar 9.0分 🥉 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 8.5分 4 Generalizable Audio-Visual Navigation via Binaural Diff 8.5分 5 Hierarchical Codec Diffusion for Video-to-Speech Genera 8.5分 6 VoxMind: An End-to-End Agentic Spoken Dialogue System 8.5分 7 ArtifactNet: Detecting AI-Generated Music via Forensic 8.0分 8 Full-Duplex-Bench-v3: Benchmarking Tool Use for Full-Du 8.0分 9 ActorMind: Emulating Human Actor Reasoning for Speech R 8.0分 10 Elucidating the SNR-t Bias of Diffusion Probabilistic M 8.0分 11 HARNESS: Lightweight Distilled Arabic Speech Foundation 7.5分 12 NaijaS2ST: A Multi-Accent Benchmark for Speech-to-Speec 7.5分 13 NVBench: A Benchmark for Speech Synthesis with Non-Verb 7.5分 14 AST: Adaptive, Seamless, and Training-Free Precise Spee 7.5分 15 Temporal Contrastive Decoding: A Training-Free Method f 7.5分 16 Joint-Centric Dual Contrastive Alignment with Structure 7.5分 17 Discrete Token Modeling for Multi-Stem Music Source Sep 7.0分 18 Spatial-Aware Conditioned Fusion for Audio-Visual Navig 7.0分 19 BlasBench: An Open Benchmark for Irish Speech Recogniti 7.0分 20 TinyMU: A Compact Audio-Language Model for Music Unders 6.5分 21 Interactive ASR: Towards Human-Like Interaction and Sem 6.5分 22 PS-TTS: Phonetic Synchronization in Text-to-Speech for 6.0分 23 MUSCAT: MUltilingual, SCientific ConversATion Benchmark 6.0分 24 The Acoustic Camouflage Phenomenon: Re-evaluating Speec 2.5分 📋 论文列表 🥇 Qwen3.5-Omni Technical Report 🔥 9.5分 | #语音对话系统, #音频大模型, #多模态模型, #预训练, | arxiv ...

2026-04-20 · 更新于 2026-06-16 · 10 min · 2068 words