BlasBench: An Open Benchmark for Irish Speech Recognition

📄 BlasBench: An Open Benchmark for Irish Speech Recognition #语音识别,#基准测试,#低资源,#多语言 ✅ 评分:7.0/10 | arxiv 👥 作者与机构 第一作者:Jyoutir Raj(独立研究者) 通讯作者:John Conway(独立研究者) 其他作者:无 (注:论文中作者均标注为“Independent Researcher”,机构信息未明确给出,根据联系邮箱推断为独立研究者。) 💡 毒舌点评 这篇论文像个严谨的“基准测试工人”,默默给爱尔兰语ASR社区搭好了可复现的评估脚手架,并顺手揭露了Whisper在爱尔兰语上“张嘴就来”的尴尬事实。亮点是工具和数据全开源、分析一针见血;槽点是它本质是个评估框架,离“解决”爱尔兰语ASR问题还差得远,更像是在说“看,问题有多严重,我给你们标出来了”。 🔗 开源详情 代码:完全开源。评估工具(harness)和爱尔兰语规范化器发布在GitHub:github.com/jyoutir/blasbench。 模型权重:论文本身不发布新模型,但评估的所有开源模型(如wav2vec2微调版、MMS、omniASR)均来自HuggingFace等公共平台,论文中给出了具体模型标识。 数据集:评估使用的数据是公开的Common Voice 25.0和FLEURS的特定切片。论文发布了每个模型在这些切片上的逐句预测结果(作为v0.1.0发布),这意味着研究者无需重新运行模型即可与BlasBench结果对比。 预训练权重:不适用。 在线 Demo:论文未提及。 引用的开源项目:论文依赖并评估了多个开源项目,包括OpenAI Whisper、Meta的MMS、Omnilingual ASR、以及多个HuggingFace社区模型。 📌 核心摘要 这篇论文旨在解决爱尔兰语语音识别(ASR)领域缺乏统一、可靠评估标准的问题。现有工作或基准要么忽略爱尔兰语特有的文本规范(如保留fada变音符号、初始辅音突变),要么在不同数据集和归一化方法下进行,导致结果无法比较。为此,作者提出了BlasBench,一个开放的评估框架,其核心是一个爱尔兰语感知的文本规范化工具,确保评分时保留语言学意义。通过该框架,作者在Common Voice和FLEURS两个爱尔兰语数据集上系统评估了12个涵盖不同架构(Whisper、wav2vec2 CTC、多语言大模型、商业API)的系统。主要发现包括:1)所有测试的Whisper变体均产生超过100%的词错率(WER),表现为严重的插入型幻觉;2)仅在Common Voice上评估会高估模型性能,模型在跨数据集(从Common Voice到FLEURS)时表现出显著的泛化差距;3)当前最佳开源模型(Omnilingual ASR 7B)与商业系统(Azure)及专用系统(ABAIR)之间仍有差距,但主要瓶颈在于数据而非架构。BlasBench通过完全开源工具和数据,为爱尔兰语ASR研究提供了可复现的评估基础。 🏗️ 模型架构 本论文不提出新的模型架构,而是构建一个评估现有模型的框架。 因此,其“架构”指的是评估流程。 整体输入输出流程: 输入:16kHz的爱尔兰语音频。 模型推理:音频被送入待评估的ASR模型(如Whisper, wav2vec2, Azure API),模型输出原始文本(hypothesis)。 爱尔兰语规范化:将模型输出的原始文本和数据集提供的参考文本(reference)同时送入爱尔兰语感知的规范化器。该规范化器是框架的核心组件,其内部逻辑为:首先应用NFC规范化以确保元音上的尖角符(fada)不被移除;然后保留文本中的初始辅音突变(lenition)和鼻化(eclipsis)标记,这些是语法的关键信息。 评分:对规范化后的参考文本和假设文本计算全局词错率(WER)和字符错率(CER),通过汇总所有句子的替换、插入、删除错误总数除以参考文本总词数得到。 置信区间:通过自助法(bootstrap)重采样(1000次,固定种子42)计算WER的95%置信区间。 关键设计选择:采用全局聚合(corpus-level)WER计算而非句子平均,以避免短句偏差;提供逐句预测结果和详细元数据,确保评估完全可审计和可复现。 💡 核心创新点 爱尔兰语感知的文本规范化工具:是什么:一个首次发布的、独立的开源工具,专门用于爱尔兰语ASR评估,在文本规范化过程中保留fada、初始辅音突变和鼻化等语言学关键特征。之前的方法:通用多语言规范化器会剥离这些特征,导致错误率被人为扭曲。如何解决问题:通过定制的NFC优先处理和保留特定语法标记的规则,确保评分反映真实的识别错误。效果:为爱尔兰语ASR提供了可靠、可复现的评分基础。 跨数据集、跨架构的标准化评估框架:是什么:一个包含双数据集(Common Voice, FLEURS)、多模型(12个系统,4个家族)、统一评估流程的开放基准。之前的方法:各研究使用不同数据版本、不同规范化器、不同模型子集,结果无法比较。如何解决问题:固定评估切片、统一规范化、发布所有预测结果,使任何新模型都能直接对比。效果:首次在相同条件下量化了不同技术路线的性能差距和泛化能力。 揭示Whisper在爱尔兰语上的灾难性失败与幻觉问题:是什么:通过实验明确证明所有测试的Whisper变体在爱尔兰语上WER超过100%,错误主要由大量与输入无关的插入(如输出英语、威尔士语或重复循环)构成。之前的方法:可能仅报告高WER,未系统分析错误类型。如何解决问题:通过详细的错误类型分解(S/I/D)和输出样例分析(见附录C),揭示这是解码器“幻觉”而非简单的声学误识别。效果:警示社区不能盲目依赖大型多语言模型,并指出了模型语言偏好先验过强的严重问题。 量化单数据集评估的误导性与泛化差距:是什么:通过对比模型在Common Voice(分布内)和FLEURS(分布外)上的表现,发现仅在Common Voice上微调的模型在FLEURS上性能暴跌33-43个百分点,而大规模多语言预训练模型仅下降7-10点。之前的方法:多数工作仅在单一数据集上报告结果。如何解决问题:强制使用双数据集评估,直接暴露模型泛化能力的差异。效果:证明了“Common Voice分数高估实际部署性能”,强调了跨数据集评估的必要性。 🔬 细节详述 评估数据集: Common Voice 25.0 ga-IE:874条社区录制的朗读语音测试语句。 FLEURS ga-IE:842条专业录制的母语者朗读语音测试语句。 两个数据集的评估切片已固定并发布。 评估流程细节: 规范化:核心是爱尔兰语规范化器。流程为:原始文本 -> NFC规范化(保留fada) -> 保留初始辅音突变和鼻化标记 -> 小写化、去除标点、合并空白(通用步骤)。 评分:使用全局WER/CER。公式:WER = (S + I + D) / N_ref,其中S, I, D分别为总替换、插入、删除错误数,N_ref为参考文本总词数。 置信区间:自助法,1000次重采样,种子42。 被评估系统详情: Whisper系列:medium (769M), large-v2 (1.5B), large-v3 (1.5B), large-v3-turbo (809M)。均为零样本(未声称包含爱尔兰语训练数据)。 wav2vec2 CTC系列:4个在Common Voice上微调的社区模型(如Aditya3107/xls-r-1b, jimregan/xlsr-53等),参数量315M-1B。 Meta多语言系列:MMS-1B-All (1107语言),Omnilingual ASR (omniASR) 300M和7B参数版本(覆盖1600+语言)。 商业系统:Microsoft Azure Speech Services (ga-IE locale)。 运行环境:开源模型在单张NVIDIA H100 80GB SXM上运行,约6 GPU小时。Azure通过API调用。 📊 实验结果 主要指标对比(Common Voice ga-IE): ...

2026-04-20 · 更新于 2026-06-24 · 3 min · 435 words

Discrete Token Modeling for Multi-Stem Music Source Separation with Language Models

📄 Discrete Token Modeling for Multi-Stem Music Source Separation with Language Models #音乐分离, #自回归模型, #大语言模型, #音频大模型 ✅ 评分:7.0/10 | arxiv 👥 作者与机构 第一作者/通讯作者:彭博吕 (Pengbo Lyu) (阿里巴巴通义应用业务组,中国) 其他作者: 赵翔宇 (Xiangyu Zhao) (阿里巴巴通义应用业务组,中国) 刘成伟 (Chengwei Liu) (阿里巴巴通义应用业务组,中国) 闫浩音 (Haoyin Yan) (阿里巴巴通义应用业务组,中国) 梁晓涛 (Xiaotao Liang) (阿里巴巴通义应用业务组,中国) 王宏宇 (Hongyu Wang) (阿里巴巴通义应用业务组,中国) 薛少飞 (Shaofei Xue) (推断,根据邮箱mullerxue@126.com,可能为独立研究者或与阿里巴巴合作) 💡 毒舌点评 亮点:成功把“分离”这个传统的“信号复原”问题,包装成了“生成”问题,用上了时髦的大语言模型,思路清奇,算是在音频领域给LLM找到了一个新“乐子”。 槽点:处理鼓点这种“快准狠”的声音还是不行,暴露了自回归模型“慢工出细活”的本质短板;更尴尬的是,训练用的“标准答案”(伪标签)还是隔壁BS-RoFormer模型生成的,有种“用老师教学生,还怪学生超不过老师”的黑色幽默。 🔗 开源详情 代码:论文中提供了GitHub链接(https://anonymous.4open.science/w/mss-demo-page-2F80/),表明代码已开源。 模型权重:论文中未明确说明是否公开预训练模型权重。 数据集:训练使用内部大规模数据集(未公开),评估使用公开的MUSDB18-HQ数据集。 在线Demo:论文提供了演示页面链接(https://anonymous.4open.science/w/mss-demo-page-2F80/)。 依赖的开源工具/模型: BS-RoFormer:用于生成伪标签的SOTA分离模型。 HCodec:用于音频令牌化和重构的双路径编解码器。 HuBERT:用于提取语义特征的预训练语音模型。 Silero VAD:用于语音活动检测。 LLaMA:作为解码器-only语言模型的架构基础。 MUSDB18-HQ:公开的评估数据集。 📌 核心摘要 本文提出了一种用于多轨音乐源分离的生成式框架,其核心创新在于将分离任务重新定义为条件离散令牌生成问题。传统方法直接在时频域估计连续信号,而本文方法首先利用HCodec神经音频编解码器将音频波形转换为离散的声学与语义令牌序列。然后,一个基于Conformer的条件编码器从混合音频中提取特征,作为解码器-only大语言模型(LLaMA架构) 的条件前缀。该语言模型以自回归的方式,按照固定顺序(人声、鼓、贝斯、其他)依次生成四个目标轨道的令牌序列,最后由HCodec解码器重构为波形。在MUSDB18-HQ基准上的实验表明,该生成方法在整体感知质量(ViSQOL)上接近顶尖的判别式方法(如BS-RoFormer),并且在人声轨道的NISQA感知质量评分上取得了最高分(2.50)。消融研究证实了可学习Conformer编码器和顺序跨轨道生成策略的有效性。然而,该方法在处理具有尖锐瞬态的鼓组时性能存在差距,且依赖于其他模型的伪标签进行训练,这限制了其性能上限。 ...

2026-04-20 · 更新于 2026-06-24 · 2 min · 388 words

Elucidating the SNR-t Bias of Diffusion Probabilistic Models

📄 Elucidating the SNR-t Bias of Diffusion Probabilistic Models #扩散模型 #生成模型 #模型评估 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Meng Yu (兰州大学,AMAP阿里巴巴集团) 通讯作者:Kun Zhan (兰州大学) 其他作者:Lei Sun (AMAP阿里巴巴集团), Jianhao Zeng (AMAP阿里巴巴集团), Xiangxiang Chu (AMAP阿里巴巴集团) 注:论文说明工作是在AMAP阿里巴巴集团实习期间完成的。 💡 毒舌点评 亮点在于,它像一个侦探,揪出了扩散模型里一个藏得很深的“内鬼”——SNR-t偏差,并给出了“犯罪动机”(理论证明)和“抓捕方案”(DCW校正)。槽点是,这个“抓捕方案”虽然有效,但更像是对现有工具(小波变换、差分引导)的精巧组装,而不是发明了全新的武器,理论深度和方法的新颖性相比其提出的问题深度略有逊色。 🔗 开源详情 代码:已开源。GitHub地址:https://github.com/AMAP-ML/DCW。论文中提到“The code is at …”。 模型权重:论文中未提及公开预训练的扩散模型权重。DCW是推理方法,无需特定权重。 数据集:实验使用标准公开学术数据集(CIFAR-10, CelebA, ImageNet, LSUN),未提供新数据集。 在线Demo:论文中未提及。 依赖开源项目:论文中引用的开源模型/框架包括:IDDPM, ADM, DDIM, A-DPM, EA-DPM, EDM, DiT, PFGM++, FLUX, Qwen-Image等。DCW的实现可能依赖于这些模型的官方代码库。 📌 核心摘要 这篇论文的核心贡献是识别并系统分析了扩散概率模型(DPMs)中一个基础性问题——信噪比-时间步(SNR-t)偏差。该偏差指推理时去噪样本的实际SNR与其所分配时间步t所理论对应的SNR不匹配,这种错位源于训练时的严格耦合在推理时被累积误差打破。作者通过详实的实验(滑动窗口测试、前向与反向过程对比)揭示了网络对SNR不匹配样本的预测规律,并提供了理论证明。为缓解此偏差,论文提出了一种无需训练、即插即用的动态差分校正方法(DCW),它在小波域对不同频率分量进行校正,以对齐反向样本分布与前向扰动分布。实验表明,DCW能显著提升包括IDDPM、ADM、EDM、FLUX等在内的多种DPMs在CIFAR-10、ImageNet等数据集上的生成质量(如FID降低),且计算开销可忽略不计。 🏗️ 模型架构 本文的核心并非提出一个全新的扩散模型架构,而是对现有DPMs(如DDPM、ADM、EDM等)的推理过程进行分析并提出一个即插即用的校正模块。整体流程如下: 输入:标准高斯噪声 x_T。 标准扩散推理过程:使用任意现有的DPM(如ADM)及其采样器(如DDIM),进行T步迭代去噪。在每一步t,网络 ε_θ(·, t) 根据当前样本 x_t 和时间步t预测噪声,并据此计算去噪样本 x_{t-1} 和重建样本 x_θ^0(x_t, t)。 SNR-t偏差分析:论文发现,由于误差累积,反向过程得到的样本 x̂_t 的实际SNR低于其时间步t对应的理论SNR(Key Finding 2),这导致网络预测出现系统性偏差(Key Finding 1:低SNR输入导致噪声预测高估)。 DCW校正模块(核心贡献):在每一步去噪后,不直接使用 x_{t-1} 作为下一步输入,而是对其进行校正。 a. 差分校正信号生成:计算当前步的去噪结果 x̂_{t-1} 与重建样本 x_θ^0(x̂_t, t) 之间的差值信号 d = x̂_{t-1} - x_θ^0(x̂_t, t)。理论分析(Eq. 16)表明,该差值信号包含了指向理想扰动样本 x_{t-1} 的梯度信息。 b. 小波域分解:为对齐DPM“先低频后高频”的去噪特性并减少噪声干扰,将 x̂_{t-1} 和 x_θ^0(x̂_t, t) 通过离散小波变换(DWT)分解为四个子带:低频(ll)和三个高频(lh, hl, hh)。 c. 分频率校正:对每个子带 f 分别应用差分校正:x̃_{t-1}^f = x̂_{t-1}^f + λ_t^f * (x̂_{t-1}^f - x_θ^0_f(x̂_t, t))。其中 λ_t^f 是动态权重。 d. 动态权重策略:权重 λ_t^f 根据时间步和频率分量动态调整。利用反向过程方差 σ_t 作为去噪进度指示器。低频权重 λ_t^l = λ_l * σ_t(早期去噪阶段权重高),高频权重 λ_t^h = (1 - λ_h) * σ_t(后期去噪阶段权重高)。 e. 重构:将校正后的各子带通过逆离散小波变换(iDWT)合并,得到校正后的样本 x̃_{t-1},作为下一步迭代的输入。 输出:经过T步(包含DCW校正)后,得到最终生成的干净样本 x_0。 关键设计理由: ...

2026-04-20 · 更新于 2026-06-24 · 3 min · 439 words

Full-Duplex-Bench-v3: Benchmarking Tool Use for Full-Duplex Voice Agents Under Real-World Disfluency

📄 Full-Duplex-Bench-v3: Benchmarking Tool Use for Full-Duplex Voice Agents Under Real-World Disfluency #语音对话系统 #基准测试 #实时处理 #大语言模型 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Guan-Ting Lin (台湾大学) 通讯作者:Hung-yi Lee (台湾大学) 其他作者:Chen Chen (英伟达), Zhehuai Chen (英伟达) 💡 毒舌点评 亮点:终于有人用真实的、结结巴巴的人话来拷问那些号称“实时对话”的语音AI了,而不是用完美的TTS自欺欺人。特别是对“自我纠正”(“去纽约…啊不,波士顿”)这种致命场景的测试,直击当前系统的软肋。 槽点:论文本身是个“裁判”而非“运动员”,它很尽责地指出了选手们(GPT-Realtime, Gemini等)的弱点,但并没有给出如何训练出更好选手的秘方。此外,100条语音的测试集对于覆盖复杂现实场景可能还是略显单薄。 🔗 开源详情 代码与数据集:论文提供了 GitHub 仓库链接(https://daniellin94144.github.io/FDB-v3-demo/)和 CC BY-SA 4.0 许可证,强烈暗示基准的数据集、评估脚本和可能的Demo代码已开源。 在线Demo:提供了在线演示链接(https://daniellin94144.github.io/FDB-v3-demo/)。 模型:评估的模型(GPT-Realtime, Gemini Live等)均为第三方API或开源模型(如Ultravox),论文未发布新模型权重。 引用开源项目:论文依赖 LiveKit 实时语音代理框架进行系统部署和评估。 📌 核心摘要 这篇论文针对当前全双工语音代理评估缺乏真实性(依赖合成语音)和任务简单性(单步调用)的问题,提出了Full-Duplex-Bench-v3 (FDB-v3) 基准。该基准的核心创新在于使用100条真实人类录音(含五种不流畅性注释),在四个任务域中设计了需要多步API链式调用的场景,并特别包含了21个测试意图中途自我纠正的案例。通过对GPT-Realtime、Gemini Live等六个主流系统(包括一个级联基线)的评估,论文发现:1)在任务完成率上,GPT-Realtime领先;2)Gemini Live 3.1延迟最低但“静默工作”(只调用工具不说话)比例高;3)自我纠正和多步推理在复杂场景下仍是所有系统的最普遍失败模式。该工作为语音代理的研发提供了贴近现实的评估标尺,并指明了平衡响应速度与对话灵活性的未来方向。 🏗️ 模型架构 本文不提出新模型,而是评估现有模型。 其评估框架的整体流程如下: 输入:来自真实人类录音的音频流,其中包含自然产生的不流畅现象(填充词、停顿、错误开头、自我纠正等)。 系统处理:音频流被送入待评估的语音代理系统。论文评估了六种配置: 端到端语音到语音模型:GPT-Realtime, Gemini Live 2.5/3.1, Grok, Ultravox v0.7。这些模型内部集成语音识别、语言理解和语音生成。 级联流水线基线:Whisper (ASR) -> GPT-4o (LLM,负责推理和工具调用) -> OpenAI TTS (语音合成)。 工具执行:所有系统均通过 LiveKit 实时语音代理框架 连接到本地模拟的API。这些Mock API(如search_flights, book_ticket)具有确定性、零延迟的响应,以隔离模型本身的推理和参数传递性能。 输出与评估:系统输出包括生成的语音和工具调用日志。评估从四个维度进行: 工具使用准确性:工具选择F1值、参数语义准确性、任务完成率(Pass@1)。 对话质量:由GPT-4o评判的响应质量。 轮流发言动态:轮流发言率、基础延迟(用户说完到系统开始响应)、打断率、填充句率。 延迟分解:首词延迟、首次工具调用延迟、任务完成延迟(通过GPT-4o分析ASR片段,分离填充语句和关键信息句)。 💡 核心创新点 真实不流畅语音基准:构建了首个完全由真实人类语音组成、并系统性标注了五种不流畅类别(填充词、停顿、犹豫、错误开头、自我纠正)的工具使用评估集,极大提升了评估的生态效度。 自我纠正与状态回滚测试:专门设计了21个场景,测试语音代理能否识别用户在单次发言中改变意图(如更改目的地、日期),并正确更新下游API参数,这是对动态状态管理的直接考验。 多步函数链式调用:每个场景都需要跨四个任务域(旅行身份、金融账单、住房位置、电商支持)进行多步API调用,评估了模型在真实语音条件下进行复杂推理和规划的能力。 全面的多维度评估体系:不仅评估工具调用准确性,还深入分析了延迟构成、轮流发言行为(如“静默工作者”现象)、以及不同不流畅类型对性能的影响,揭示了速度、准确性与对话流畅性之间的核心权衡。 🔬 细节详述 训练数据:不涉及模型训练。基准数据集包含100条录音,来自12位说话者(含母语及非母语者),在非受控环境下使用日常麦克风录制。每个说话者被分配10个跨域场景,其中21个包含自我纠正事件。 评估指标: 工具选择F1:精确率与召回率的调和平均。 参数准确性:由GPT-4o评判语义正确性,允许日期格式、缩写等合理变体。 任务完成率 (Pass@1):二元指标,要求工具选择、参数准确性、响应质量全部完美。 响应质量:由GPT-4o评判是否自然且完整地满足了用户意图。 轮流发言指标:包括轮流发言率、基础延迟(Δt)、打断率(Δt < 0)、填充句率。 延迟分解:首词延迟、工具调用延迟、任务完成延迟(通过GPT-4o识别关键信息句起始时间)。 关键超参数/设置: Mock API:本地执行,确定性输出,零延迟。 评估模型:使用GPT-4o作为评判器(用于参数准确性、响应质量、关键信息识别)。 难度分级:Easy(单步)、Medium(两步,中等歧义)、Hard(多步,约束冲突)。 实验硬件/推理:所有云端模型评估在单一固定服务器区域执行,以确保延迟比较公平。未提及具体GPU型号和训练细节,因为本文是评估工作。 📊 实验结果 主要指标对比(表2): ...

2026-04-20 · 更新于 2026-06-24 · 2 min · 372 words

Generalizable Audio-Visual Navigation via Binaural Difference Attention and Action Transition Prediction

📄 Generalizable Audio-Visual Navigation via Binaural Difference Attention and Action Transition Prediction #音视频 #声源定位 #强化学习 #多任务学习 #零样本 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Jia Li(新疆大学,计算机科学与技术学院,联合研究实验室 for Embodied Intelligence) 通讯作者:Yinfeng Yu(新疆大学,计算机科学与技术学院,联合研究实验室 for Embodied Intelligence;邮箱:yuyinfeng@xju.edu.cn) 其他作者:根据署名顺序,论文仅列出了两位作者,Jia Li和Yinfeng Yu。他们共同隶属于以下机构: 新疆大学,联合研究实验室 for Embodied Intelligence 新疆大学,丝绸之路多语种认知计算联合国际研究实验室 新疆大学,计算机科学与技术学院,乌鲁木齐 830017,中国 💡 毒舌点评 亮点:这论文把“听声辨位”这件事整明白了!BDA模块不搞虚的,直接让左右耳特征“打架”(算差值),逼着模型关注声音从哪边来,而不是这是什么声音,这对没见过的声音特别管用。ATP任务像给导航策略上了个“行为矫正器”,让动作更连贯,减少在陌生环境里原地转圈的傻行为。 槽点:方法组合拳虽然有效,但每个拳法(BDA, ATP)本身都不算开宗立派,更像是给现有强力基线(AV-WaN)打了个高效的“补丁”。另外,论文里那些“ Hear Sharper, Act Smarter”的口号,比技术细节更让人印象深刻。 🔗 开源详情 代码:论文在作者信息下方明确提供了GitHub链接(https://github.com/...,具体地址需查看arXiv源文件或点击HTML版本中的链接)。表明代码已开源。 模型权重:论文中未明确提及是否公开预训练模型权重。 数据集:实验使用的是公开的SoundSpaces仿真平台、Replica和Matterport3D数据集,非本文自建。 在线Demo:论文中未提及。 依赖的开源项目:论文依赖SoundSpaces仿真环境、以及可能基于PyTorch等深度学习框架。引用的基线方法(如AV-NaV, AV-WaN)的代码可能也是其依赖。 📌 核心摘要 本文旨在解决音频-视觉导航(AVN)智能体在未见环境和未闻声音类别下泛化能力差的核心问题。作者指出,现有方法性能下降主要源于两个因素:一是音频表征混淆了语义与空间信息,导致对未闻声��定位不准;二是强化学习策略过拟合于训练环境的动态和布局。为此,本文提出了一个名为BDATP的即插即用框架。在感知层面,设计了双耳差分注意力模块,通过显式建模和利用左右声道特征的差异,强化模型对空间方位线索的提取,降低对声音语义的依赖。在策略层面,引入了动作转移预测辅助任务,通过预测轨迹中下一步的动作来增加策略学习的时序一致性约束,鼓励模型学习跨环境的通用导航规律。在Replica和Matterport3D数据集上的大量实验表明,将BDATP集成到AV-NaV和AV-WaN等主流基线中,能带来一致且显著的性能提升,尤其在最具挑战性的未闻声音设置下,成功率最高可提升超过21个百分点,证明了其优越的泛化能力和鲁棒性。 🏗️ 模型架构 BDATP框架整体是一个端到端的强化学习系统,以深度图像和双耳声谱图为输入,输出导航动作。其核心流程和组件如下: 输入与编码: 视觉输入:智能体的第一人称深度图像,通过一个独立的CNN编码器(三个卷积层+线性层+ReLU)编码为512维的视觉特征 f_v。 音频输入:双耳声谱图(左右声道)。首先沿声道维度分离为左、右两个单声道声谱图。然后,通过一个权重共享的CNN编码器(结构与视觉编码器相同)分别编码,得到中间特征图 f_al 和 f_ar。 双耳差分注意力模块: ...

2026-04-20 · 更新于 2026-06-24 · 3 min · 526 words

HARNESS: Lightweight Distilled Arabic Speech Foundation Models

📄 HARNESS: Lightweight Distilled Arabic Speech Foundation Models #语音识别 #知识蒸馏 #自监督学习 #多语言 #基准测试 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Vrunda N. Sukhadia(Amazon India;推断其完成该工作时隶属于 Qatar Computing Research Institute, HBKU, Qatar) 其他作者:Shammur Absar Chowdhury(Qatar Computing Research Institute, HBKU, Qatar) 注:论文未明确标注通讯作者,未使用通信作者标记(如 * 或 †)。脚注表明“This work was carried out at QCRI”。 💡 毒舌点评 亮点:在阿拉伯语这个“方言万花筒”上从头炼出了能打的轻量级 SSL 模型,28M 参数的 HArnESS-ST 居然能在方言识别上把 300M 参数的 XLS-R 按在地上摩擦,部署党的福音。槽点:都写到 2026 年了(arXiv 日期疑似穿越),下游任务居然还停留在 frozen encoder 阶段,连端到端微调都不敢跑,是怕小模型露馅还是舍不得 H100 的算力?至于 PCA 压缩监督信号,本质上就是给老师的高维 embedding 做个降维再聚类,包装得像是发现了新大陆。 ...

2026-04-20 · 更新于 2026-06-24 · 4 min · 779 words

Hierarchical Codec Diffusion for Video-to-Speech Generation

📄 Hierarchical Codec Diffusion for Video-to-Speech Generation #语音合成 #扩散模型 #多模态模型 #零样本 #跨模态 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Jiaxin Ye(Fudan University) 通讯作者:Hongming Shan(Fudan University,hmshan@fudan.edu.cn) 其他作者: Gaoxiang Cong(Institute of Computing Technology, Chinese Academy of Sciences;University of Chinese Academy of Sciences) Chenhui Wang(Fudan University) Xin-Cheng Wen(Harbin Institute of Technology (Shenzhen)) Zhaoyang Li(Fudan University) Boyuan Cao(Fudan University) 💡 毒舌点评 亮点:这篇论文像个严谨的“交通协管员”,终于把 RVQ 不同层级当成了不同的车道——让嘴唇和身份去底层飙内容,让表情去高层管情绪,治好了 VTS 领域长期存在的“视觉条件瞎注入”的拥堵病。 槽点:虽然口口声声“首个”层次化离散扩散,但骨子里是 SEDD + MaskGCT Codec + DiT AdaLN 的“学术拼好饭”;更妙的是训练时偷偷用真实音频的 GE2E 特征来 stabilize 模型,推理时却只能看脸硬撑,这算不算一种“开卷考试练出的学霸”? ...

2026-04-20 · 更新于 2026-06-24 · 6 min · 1219 words

Interactive ASR: Towards Human-Like Interaction and Semantic Coherence Evaluation for Agentic Speech Recognition

📄 Interactive ASR: Towards Human-Like Interaction and Semantic Coherence Evaluation for Agentic Speech Recognition #语音识别 #大语言模型 #多语言 #模型评估 ✅ 评分:6.5/10 | arxiv 👥 作者与机构 第一作者:Peng Wang(上海交通大学 X-LANCE Lab) 通讯作者:未明确标注(推测为 Kai Yu 或 Xie Chen) 其他作者: Yanqiao Zhu(香港中文大学(深圳)) Zixuan Jiang(西安交通大学) Qinyuan Chen(复旦大学) Xingjian Zhao(复旦大学) Xipeng Qiu(复旦大学) Wupeng Wang(阿里巴巴通义Fun团队) Zhifu Gao(阿里巴巴通义Fun团队) Xiangang Li(阿里巴巴通义Fun团队) Kai Yu(上海交通大学 X-LANCE Lab) Xie Chen(上海交通大学 X-LANCE Lab) 💡 毒舌点评 这篇论文把LLM的“打工人”属性开发到了极致:让同一个32B大模型同时兼任裁判、戏精用户和外科医生,硬生生凑出了一套“交互ASR”流水线。S²ER指标确实比WER更懂人话,但这个“交互”本质上是大模型prompt engineering的高级套壳——仿真里的User Simulator比真实用户配合一万倍,10轮纠错上限更像是实验室里的自我感动,真放到车载或音箱场景里,用户可能在第二轮就开始骂娘了。 🔗 开源详情 代码:论文中声明“We will release the code to facilitate future research in interactive and agentic ASR”,但未提供具体的GitHub/GitLab仓库地址、stars数量或代码框架。 模型权重:未公开。实验使用的Qwen3-ASR-1.7B、Qwen3-32B、Index-TTS-1.5均为阿里通义系列已发布的预训练模型,但论文自身未释放新的微调权重。 数据集:未公开新构建的数据集。测试使用的GigaSpeech、WenetSpeech、ASRU2019均为已有公开benchmark。 预训练权重:未提供(推理框架不涉及新预训练权重)。 在线Demo:有。Live demo地址为 https://i-asr.sjtuxlance.com/;项目主页为 https://interactiveasr.github.io/。 依赖的开源项目:Qwen3-ASR-1.7B、Qwen3-32B、Index-TTS-1.5(均属阿里巴巴通义系列)。 结论:论文承诺未来开源,但目前仅提供在线体验Demo和项目主页,尚未公开具体代码仓库。 📌 核心摘要 这篇论文针对传统ASR的两大盲区——WER指标对语义错误不敏感、以及系统无法通过自然交互进行纠错——提出了Interactive ASR框架。首先,作者引入S²ER(Sentence-level Semantic Error Rate),利用LLM-as-a-Judge二元判断识别结果与参考文本是否在句子级别语义等价,人工对齐实验显示LLM评分与人类共识的Pearson相关系数达0.828,甚至超过平均领域专家水平。其次,作者设计了一套LLM驱动的Agentic框架:通过Intent Router判断用户新输入是“继续对话”还是“纠正上一句”,若是后者,则触发基于Chain-of-Thought的Reasoning Corrector,执行“定位-推理-替换”三步手术式修正。为了系统评测,作者还构建了自动化仿真流程,利用语音克隆TTS和LLM模拟用户纠错行为。在GigaSpeech(英语)、WenetSpeech(中文)和ASRU2019(汉英码切换)上的实验表明,仅需1-2轮交互,S²ER即可从约15%-27%骤降至3%-8%,而传统WER/CER几乎纹丝不动,证明语义级指标才是衡量交互收益的关键。当前局限在于系统依赖32B大模型进行推理,实时性与部署成本仍是落地瓶颈。 ...

2026-04-20 · 更新于 2026-06-24 · 3 min · 588 words

Joint-Centric Dual Contrastive Alignment with Structure-Preserving and Information-Balanced Regularization

📄 Joint-Centric Dual Contrastive Alignment with Structure-Preserving and Information-Balanced Regularization #语音情感识别, #对比学习, #多模态模型, #低资源, #跨模态 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者/通讯作者:Habibeh Naderi (Dalhousie University, Halifax NS, Canada, email: habibeh.naderi@dal.ca) 其他作者: Behrouz Haji Soleimani (Dalhousie University, Halifax NS, Canada) Stan Matwin (Dalhousie University, Halifax NS, Canada) 💡 毒舌点评 亮点:方法设计很“周全”,像一个精密的瑞士军刀——双对比学习防止模态塌缩,CKA损失保持结构,MI损失平衡信息流,最后用MoE做下游任务,环环相扣,针对性很强。实验部分更是“火力覆盖”,30种骨干组合、25折交叉验证、消融研究穷举所有损失组合,堪称教科书级别的严谨。 槽点:应用场景(心理健康预测)有点“曲高和寡”,数据收集和标注难度大,限制了方法的广泛验证和影响力。另外,核心架构本质上是“冻结大模型+精心设计的损失函数”,创新深度可能不及那些从头构建全新架构的工作。 🔗 开源详情 代码:论文中多次提及“Report GitHub Issue”,并在结尾附上了详细的GitHub Issue模板,明确指向代码开源计划。但未在论文中提供具体的GitHub仓库URL。因此,可推断代码将开源,但当前状态为“部分开源”(意图明确,链接未公开)。 模型权重:未提及是否公开预训练或训练好的模型权重。 数据集:使用的FORBOW数据集是临床数据,涉及隐私,未公开。论文中详细描述了数据统计信息。 预训练权重:使用了公开的预训练模型(如HuBERT, Whisper, T5, RoBERTa等),这些模型权重来自HuggingFace等平台。 在线Demo:未提及。 依赖的开源项目:论文中明确引用了多个开源模型和框架,如SimCLR, CLIP, CKA实现等。 📌 核心摘要 这篇论文旨在解决音频-文本多模态表示学习中的一个关键挑战:如何在低资源、长序列且模态维度严重不平衡(音频高维、文本低维)的情况下,实现有效的跨模态对齐,同时保留各自的特异性信息。为此,作者提出了HILBERT框架。该方法首先利用冻结的预训练音频(如HuBERT)和文本(如T5)编码器提取片段级特征,然后通过多头自注意力和跨模态注意力机制聚合生成模态特定的文档级表示和一个联合的跨模态嵌入。核心创新在于一个双对比对齐目标,它不直接对比音频和文本,而是分别对齐“音频-联合”和“文本-联合”表示,以缓解维度不平衡带来的主导问题。此外,引入了两个辅助正则项:CKA损失用于保持每个模态与联合嵌入间的结构一致性,互信息(MI)损失用于均衡两种模态对联合表示的信息贡献。下游任务采用混合专家(MoE) 分类器。在FORBOW心理健康数据集上的实验表明,HILBERT在多项文档级情感和心理谱系预测任务上显著优于CLAP等基线方法,特别是在最具挑战性的多类别心理障碍预测任务上取得了领先性能,证明了其在长序列、不平衡多模态学习中的有效性。 🏗️ 模型架构 HILBERT是一个四阶段的层次化框架,专为处理长序列音频-文本对设计。 ...

2026-04-20 · 更新于 2026-06-24 · 2 min · 374 words

MoshiRAG: Asynchronous Knowledge Retrieval for Full-Duplex Speech Language Models

📄 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Duplex Speech Language Models #语音对话系统 #语音大模型 #流式处理 #实时处理 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Chung-Ming Chien(推断,基于论文作者顺序) 通讯作者:Alexandre Défossez(推断,作为Moshi原始模型的主要作者及本研究的资深作者) 其他作者:Manu Orsini, Eugene Kharitonov, Neil Zeghidour, Karen Livescu 机构:论文未在提供节选中明确列出所有作者机构。根据领域常识和致谢推断,主要作者可能来自 Meta FAIR(Alexandre Défossez, Manu Orsini, Eugene Kharitonov, Neil Zeghidour)和 Google(Karen Livescu)。Chung-Ming Chien可能为学生或合作研究员。 💡 毒舌点评 亮点:巧妙地利用了语音对话中“开口说废话”到“讲重点”之间的时间差(关键词延迟),塞进了一个异步检索过程,让全双工模型能“一边应付你一边查资料”,这个工程巧思是本文最大的智慧。槽点:整个系统严重依赖合成的“完美”对话数据来训练检索触发和整合,到了真实世界用户结结巴巴、ASR错误百出的场景,那个精巧的时间差和触发机制会不会立刻失灵?这可能是未来最大的挑战。 🔗 开源详情 代码:论文提到代码在GitHub开源,地址为 https://github.com/kyutai-labs/moshi-rag。 模型权重:论文未明确说明是否开源MoshiRAG的模型权重。原始Moshi模型权重可能已开源。 数据集:论文详细描述了合成数据生成流程,但未提及是否公开生成的语音或文本数据集。 在线Demo:论文提到“Moshi RAG demo”,但未提供具体链接。 依赖的开源工具:论文引用了多个开源项目,包括Moshi模型、Mimi编码器、ARC-Encoder、Gemma模型、Tavily搜索API(商业)、HaluEval数据集、CommonVoice数据集等。 📌 核心摘要 本文旨在解决全双工语音语言模型(如Moshi)事实性不足的核心问题,同时不牺牲其高交互性。问题:全双工模型能实时打断和回应,但因训练数据规模远小于文本,其知识储备和事实准确性较弱。方法:提出了MoshiRAG,一个模块化框架。它在Moshi模型中引入一个特殊的<ret>检索触发令牌。当模型预测到用户提出知识密集型问题时,会生成<ret>,并异步调用外部检索后端(如LLM或搜索引擎)。利用模型生成回答时从“开场白”到“核心信息”之间的自然延迟(关键词延迟),在后台完成检索,并将检索到的文本参考信息编码后注入模型,用于生成后续基于事实的回答。效果:在多个语音问答基准上,MoshiRAG的事实性显著超越原始Moshi及其他多数公开的语音语言模型,接近GPT-4o Audio的水平,同时其端到端关键词延迟(E2EKD)保持较低水平,并在全双工交互基准上表现优异。局限性:系统性能依赖于流式ASR的准确性和检索延迟;当前检索触发完全基于训练数据模式,缺乏动态决策能力;主要使用合成数据训练,真实场景泛化性待验证。 🏗️ 模型架构 MoshiRAG是一个由三个主要组件构成的模块化系统: 前端:增强的Moshi全双工模型 (7B参数) - 输入:用户语音(经Mimi编码器编码为语音令牌 s^u)。 - 输出:自回归地生成两个并行流:模型语音令牌 s^m 和模型文本转写令牌 t^m(带填充)。 - 核心修改: - 引入特殊文本令牌 <ret> 作为检索触发信号。 - 增加了一个参考文本编码器(采用预训练的ARC-Encoder,压缩比4:1),用于将检索到的文本参考文档编码为嵌入序列 emb^ref。 - 信息注入机制(加法注入):当<ret>在时间步 i_ret 被预测后,等待检索延迟 d 秒。之后,参考文档的编码嵌入通过一个可训练的线性层投影,并以流式方式(逐时间步)加到Moshi主干Transformer的输入嵌入 h_i 上,形成 h'_i。公式为:h'_i = h_i + proj(emb^ref_{i-(i_ret + d/f_r)}),其中 f_r 是Moshi的帧率(12.5Hz)。 前端:流式ASR模型 (1B参数) - 功能:独立于Moshi,实时接收用户语音流并转写为文本,为检索后端提供对话上下文。 - 特点:低延迟(0.5秒),参数量小,计算开销低。 后端:异步检索系统 - 触发:在<ret>被预测后,系统收集ASR和Moshi输出的文本转写,形成对话上下文。 - 处理:将上下文发送给检索后端。后端可以是基于LLM的检索(如Gemma 3 27B,根据上下文生成参考文本)或基于搜索的检索(如Tavily API,获取网页摘要)。 - 输出:返回一段文本参考文档。 - 时序:设计目标是在2秒内完成检索,以确保在Moshi说出关键词(核心信息)前将信息注入。 ...

2026-04-20 · 更新于 2026-06-24 · 2 min · 388 words