OWL : Geometry-Aware Spatial Reasoning for Audio Large Language Models

📄 OWL : Geometry-Aware Spatial Reasoning for Audio Large Language Models #空间音频 #声源定位 #音频大模型 #链式思维 #数据集 ✅ 7.0/10 | 前25% | #空间音频 | #音频大模型 | #声源定位 #链式思维 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Subrata Biswas(Worcester Polytechnic Institute 电气与计算机工程系) 通讯作者:未说明 作者列表:Subrata Biswas(Worcester Polytechnic Institute 电气与计算机工程系)、Mohammad Nur Hossain Khan(Worcester Polytechnic Institute 电气与计算机工程系)、Bashima Islam(Worcester Polytechnic Institute 电气与计算机工程系) 💡 毒舌点评 这篇论文在音频大语言模型的空间推理能力上迈出了重要一步,其核心亮点在于巧妙地将环境几何信息作为辅助监督注入到音频编码器中,从而在推理时无需几何输入就能获得几何感知的表征,这是一个既实用又优雅的设计。然而,整个系统的基石——BiDepth数据集完全依赖于合成数据,尽管论文通过在真实世界数据集上的零样本测试部分缓解了这一担忧,但模拟环境与复杂真实声场之间的鸿沟仍是其走向大规模应用的首要挑战。 🔗 开源详情 代码:提供代码仓库链接:https://github.com/BASHLab/OWL。 模型权重:论文中未提及公开已训练好的模型权重。 数据集:论文宣布将发布BiDepth数据集,但当前提供的文本中未说明具体发布平台和获取方式。 Demo:论文中未提及在线演示。 复现材料:论文在附录中详细提供了SAGE和OWL的训练超参数、硬件配置、优化器设置等复现所需的关键信息。明确指出使用了LLaMA-2-7B和AudioMAE作为初始化。 引用的开源项目:论文中明确使用了SoundSpaces v2.0、Matterport3D、AudioSet、LLaMA-2-7B、AudioMAE、Q-Former等开源工具或模型。 📌 核心摘要 问题:现有的音频大语言模型在空间推理上能力不足,主要依赖粗糙的二元线索(左/右)和单步推理,缺乏对声学环境几何结构(如房间布局、混响)的显式建模,导致方向和距离估计精度低,且推理过程不可解释。 方法核心:提出OWL模型,它由一个几何感知的音频编码器SAGE和一个集成了空间感知链式思维(CoT) 的大语言模型组成。SAGE在训练时利用全景深度图和模拟房间冲激响应(RIR)来学习声学-几何对齐特征,但推理时仅需音频。OWL则通过从感知QA到多步推理的课程学习,支持细粒度的12扇区方向(DoA)估计和可解释的推理。 新意:与之前的工作(如BAT)相比,OWL的创新在于:a) SAGE编码器首次引入几何感知监督,将音频特征与3D空间结构对齐;b) 空间感知CoT,使中间推理步骤锚定于声源位置,提供可解释的推理路径;c) 构建并发布了首个大规模、包含{双耳音频、RIR、深度图、QA}四元组的BiDepth数据集(约110万个QA对)。 主要结果:在BiDepth和SpatialSoundQA两个基准上,SAGE将平均DoA误差降低了11°,OWL在空间推理QA准确率上比BAT最高提升了25%。具体地,在BiDepth上,OWL w CoT在单源/双源事件检测mAP为33.37/17.26,12扇区DoA准确率为46.17,空间推理(Type III)二分类准确率(BA)为77.89,CoT推理(Type IV)BA为76.53,全面超越包括Gemini在内的基线。 实际意义:为构建能理解三维声学场景、进行细粒度空间推理的AI听觉智能体奠定了基础,对机器人导航、智能家居、人机交互等应用有潜在价值。 主要局限性:核心训练数据集BiDepth是合成的,虽然通过了部分真实世界数据的零样本验证,但其在极端混响、复杂遮挡等真实场景下的泛化能力仍需进一步验证。推理任务目前限于单轮QA。 🏗️ 模型架构 OWL系统包含两个核心模块:SAGE编码器和OWL语言模型管道。 ...

2026-05-02 · 更新于 2026-05-22 · 2 min · 406 words

PACE: Pretrained Audio Continual Learning

📄 PACE: Pretrained Audio Continual Learning #音频分类 #持续学习 #预训练 #参数高效微调 🔥 8.5/10 | 前25% | #音频分类 | #持续学习 | #预训练 #参数高效微调 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Chang Li*(清华大学心理与认知科学系) 通讯作者:Liyuan Wang†(清华大学心理与认知科学系) 作者列表:Chang Li(清华大学心理与认知科学系)、Kanglei Zhou(清华大学心理与认知科学系)、Liyuan Wang†(清华大学心理与认知科学系) 💡 毒舌点评 亮点在于其开创性地为预训练音频模型的持续学习建立了首个系统性基准,并深刻剖析了音频域区别于视觉域的独特挑战(如严重的表示偏移),问题定位准、分析透彻。短板则是所提出的PACE方法涉及多个阶段和组件(如FSA、MSA、边界正则化),整体框架略显复杂,其在更极端的跨域(如从音乐到语音)或超大规模任务序列下的泛化能力和计算开销有待进一步验证。 🔗 开源详情 代码:论文在“Reproducibility statement”中承诺“upon acceptance”发布代码库,但未提供具体链接。论文中未提及当前可用的代码链接。 模型权重:未提及公开的预训练或适配后的模型权重。 数据集:论文中使用的6个CL基准均为公开数据集(ESC-50, UrbanSound8K, SC2, TIMIT, VocalSet),但论文中未说明是否提供了额外的划分或处理脚本。 Demo:未提及在线演示。 复现材料:提供了极其详细的训练细节(附录D)、超参数敏感性分析(附录E.6)、算法伪代码(附录B)和数据集统计(表5),为复现提供了充分信息。 论文中引用的开源项目:引用了多个开源工具和模型,包括预训练音频模型EAT(Chen et al., 2024)、SSLAM(Alex et al., 2025),以及持续学习方法RanPAC(McDonnell et al., 2023)、ACL(Zhuang et al., 2022)、LoRASub(Liu & Chang, 2025)等。 总结:论文中提及了明确的开源计划,并提供了详实的复现指南,但具体的代码和权重发布需等待论文接收。 📌 核心摘要 问题:预训练音频模型(PTMs)在现实世界中数据分布持续变化的场景下,直接应用现有的视觉域持续学习(CL)方法(如PEFT)性能会严重下降。根本原因在于音频骨干网络更强调低层频谱细节而非结构化语义,导致严重的“上游-下游表示不对齐”,引发跨会话的剧烈表示偏移和灾难性遗忘。 方法核心:提出PACE框架,分三阶段解决上述问题。阶段1:改进的首次适应(FSA),通过限制头部学习率、后期层LoRA适配和替换解析分类器,稳定地适配第一个任务,避免表示饱和。阶段2:自适应多会话子空间正交PEFT,允许骨干网络在后续会话中进行受控适应,同时通过梯度投影到先前表示的零空间来约束表示漂移。阶段3:骨干网络固定,进入稳定期。 新在何处:首次系统构建了音频CL基准;首次深入分析了音频CL特有的挑战(表示饱和与偏移);提出了首个专门针对音频PTMs特性的、兼顾可塑性与稳定性的统一CL框架PACE,融合了音频特定的PEFT策略、子空间投影和基于时频掩码的边界感知正则化。 实验结果:在3个粗粒度(ESC-50, US8K, SC2)和3个细粒度(TIMIT-2, TIMIT-3, VocalSet)共6个音频CL基准上,PACE大幅超越所有基线方法。在细粒度任务上优势尤为明显,如在TIMIT-2上比次优基线RanPAC高5.32%,在VocalSet上高6.26%。PACE将性能与联合训练上界的差距显著缩小(例如,在ESC-50上差距仅0.75%,在VocalSet上差距从13.8%降至7.57%)。关键消融实验验证了FSA、MSA、梯度投影和边界正则化的必要性。 实际意义:为构建能够持续适应新环境、新说话人、新声音的健壮、可扩展的音频智能系统(如语音助手、智能环境监测)提供了理论基础和有效方法。 主要局限性:框架的多阶段设计和多个超参数(如Nstop, ρlayer)增加了部署和调优的复杂性。方法对计算资源(特别是早期阶段的骨干网络适应)有一定要求。对于领域差距极大(如从环境声到音乐)的超复杂CL序列的有效性有待验证。 🏗️ 模型架构 PACE是一个分阶段的统一框架,旨在重新对齐预训练音频骨干网络的表示以适应持续学习目标。 ...

2026-05-02 · 更新于 2026-05-22 · 2 min · 384 words

ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction

📄 ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction #语音对话系统 #强化学习 #知识蒸馏 #基准测试 #语音合成 🔥 8.5/10 | 前25% | #语音对话系统 | #强化学习 | #知识蒸馏 #基准测试 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Shu-wen Yang (台湾大学电气工程学系研究生院 / 字节跳动 Seed) 通讯作者:Lu Lu (字节跳动 Seed), Hung-yi Lee (台湾大学电气工程学系) 作者列表: Shu-wen Yang (台湾大学电气工程学系研究生院, 字节跳动 Seed) Ming Tu (字节跳动 Seed) Andy T. Liu (字节跳动 Seed) Xinghua Qu (字节跳动 Seed) Hung-yi Lee (台湾大学电气工程学系) Lu Lu (字节跳动 Seed) Yuxuan Wang (字节跳动 Seed) Yonghui Wu (字节跳动 Seed) 💡 毒舌点评 这篇论文最大的亮点在于精准定义了“语音对话模型听不懂弦外之音”这一痛点,并系统性地设计了从评估基准(ParaS2SBench)到强化学习训练(ParaS2SAlign)的完整解决方案,堪称“对症下药”的范例。但其短板也明显:核心的强化学习框架(GRPO)和奖励模型蒸馏技术并非首次提出,创新更多体现在将这些技术成功适配到一个全新的、定义良好的问题域中,而非算法本身的突破;此外,自动评估器虽与人类评分高度相关,但其“风格幻觉”问题可能并未完全根除,依然依赖于其精心构建的特征提取流水线。 ...

2026-05-02 · 更新于 2026-05-22 · 2 min · 361 words

Pay Attention to CTC: Fast and Robust Pseudo-Labelling for Unified Speech Recognition

📄 Pay Attention to CTC: Fast and Robust Pseudo-Labelling for Unified Speech Recognition #语音识别 #音视频 #自回归模型 #低资源 #预训练 🔥 8.5/10 | 前25% | #语音识别 | #自回归模型 | #音视频 #低资源 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Alexandros Haliassos(NatWest AI Research & Imperial College London) 通讯作者:未明确说明 作者列表:Alexandros Haliassos(NatWest AI Research & Imperial College London),Rodrigo Mira(NatWest AI Research),Stavros Petridis(NatWest AI Research & Imperial College London) 💡 毒舌点评 这篇论文把CTC这个“老实人”的稳健和注意力“艺术家”的表达力在伪标签阶段强行撮合,用“老师傅带路”的方式训练学生,既省了计算又抗了噪,想法相当机灵。但可惜的是,这种“撮合”在分布外场景下也暴露了局限性,当CTC预测本身出错时,错误的传导依然存在,且论文对更极端的分布偏移(如完全不同的语言或方言)验证不足。 ...

2026-05-02 · 更新于 2026-05-22 · 2 min · 371 words

Physics-Informed Audio-Geometry-Grid Representation Learning for Universal Sound Source Localization

📄 Physics-Informed Audio-Geometry-Grid Representation Learning for Universal Sound Source Localization #声源定位 #物理信息 #麦克风阵列 #鲁棒性 🔥 8.0/10 | 前25% | #声源定位 | #物理信息 | #麦克风阵列 #鲁棒性 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Min-Sang Baek (韩国汉阳大学 电子工程系) 通讯作者:Joon-Hyuk Chang* (韩国汉阳大学 电子工程系) 作者列表:Min-Sang Baek (韩国汉阳大学 电子工程系), Gyeong-Su Kim (韩国汉阳大学 电子工程系), Donghyun Kim (韩国汉阳大学 电子工程系), Joon-Hyuk Chang* (韩国汉阳大学 电子工程系) 💡 毒舌点评 亮点:将表示学习与物理信息先验(如频率非均匀采样、相对位置编码)巧妙结合,提出的LNuDFT和rMPE组件有扎实的理论支撑且在实验中效果显著。 短板:框架引入了额外的Gridnet,尽管声称计算开销可控,但在实时性要求极高的边缘设备部署场景下,其推理延迟与资源消耗是否可接受,论文未做深入讨论与分析。 🔗 开源详情 代码:论文明确提供了源代码仓库链接:https://github.com/BaekMS/Audio-Geometry-Grid_Representation-Learning。 模型权重:论文未提及是否公开预训练模型权重。 数据集:论文使用了公开数据集(LOCATA用于评估, LibriSpeech/TIMIT/MS-SNSD/ESC-50用于训练和部分评估)。合成数据集的生成方法已在算法3和附录A.10中详细描述,可依此复现。 Demo:未提及。 复现材料:非常充分。论文正文和附录提供了所有关键实现细节,包括:LNuDFT和rMPE的精确公式与初始化;AuGeonet和Gridnet的详细架构图(图4, 图5);多阶段几何学习和深度监督课程学习的超参数表(表6);合��数据生成算法(算法3);损失函数、评估指标和推理算法的完整描述。 论文中引用的开源项目:论文提到了以下开源工具/代码:gpuRIR(用于RIR模拟), py-webrtcvad(用于生成语音活动检测标签), 以及基线方法Neural-SRP和GI-DOAEnet的公开代码仓库。 📌 核心摘要 本文针对现有深度神经网络声源定位(SSL)方法受限于固定麦克风阵列几何形状和预定义方向网格的问题,提出了一个通用框架——音频-几何-网格表示学习(AGG-RL)。该方法核心是通过一个双网络结构,联合学习源自音频信号和阵列几何的音频-几何表征(AGRs),以及编码候选方向的网格表征(GRs),两者通过内积相似性生成概率性空间谱,从而实现对任意网格和几何结构的泛化。与已有方法相比,其新意在于:1)首次将SSL任务解耦为互补的表示学习;2)引入可学习非均匀离散傅里叶变换(LNuDFT),自适应地将频率bin密集分配在富含相位信息的区域;3)提出相对麦克风位置编码(rMPE),直接编码符合TDOA物理特性的相对坐标。在合成数据集(Dynamic-S/U)和真实数据集(NAO机器人、Eigenmike)上的实验表明,所提方法在未见过的阵列几何(如Eigenmike)和通道数(如Dynamic-U)上均取得了最优性能。例如,在未见过的Eigenmike数据集上,所提方法的平均绝对误差(MAE)为11.24°,显著优于次优基线GI-DOAEnet的77.09°。该研究的意义在于为构建跨多种场景的通用空间声学场景理解系统提供了有效方案。其主要局限性在于,尽管设计了高效组件,但整体框架的计算开销相比一些轻量级基线有所增加,且未在动态声源场景下进行验证。 ...

2026-05-02 · 更新于 2026-05-22 · 2 min · 277 words

PrismAudio: Decomposed Chain-of-Thought and Multi-dimensional Rewards for Video-to-Audio Generation

📄 PrismAudio: Decomposed Chain-of-Thought and Multi-dimensional Rewards for Video-to-Audio Generation #音频生成 #强化学习 #扩散模型 #多模态模型 #基准测试 ✅ 7.0/10 | 前25% | #音频生成 | #强化学习 | #扩散模型 #多模态模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Huadai Liu(香港科技大学、阿里巴巴集团通义实验室) 通讯作者:Wei Xue(香港科技大学) 作者列表:Huadai Liu(香港科技大学、阿里巴巴集团通义实验室)、Kaicheng Luo(阿里巴巴集团通义实验室)、Wen Wang(阿里巴巴集团通义实验室)、Qian Chen(阿里巴巴集团通义实验室)、Peiwen Sun(香港中文大学)、Rongjie Huang(香港中文大学)、Xiangang Li(阿里巴巴集团通义实验室)、Jieping Ye(阿里巴巴集团通义实验室)、Wei Xue(香港科技大学) 💡 毒舌点评 亮点在于将“分解的链式思维”与“多维强化学习奖励”进行耦合的框架设计思路,清晰且有效,为解决多目标生成中的“目标纠缠”提供了新颖且可解释的方案。短板是,其提出的全新AudioCanvas基准数据集虽然是必要的,但作为“裁判员”的同时,自己也是“运动员”,这使得核心结论的公信力部分依赖于数据集构建的客观性,且报告的部分指标(如在某些空间或美学指标上超越了真实音频)需要更谨慎的解释。 🔗 开源详情 代码:论文承诺将开源完整训练脚本和配置文件,但当前未提供代码仓库链接。 模型权重:论文承诺将公开所有模型权重(音频基础模型、微调后的VideoLLaMA2等),但未提供下载地址。 数据集:论文承诺将公开AudioCanvas基准数据集,但未说明具体获取方式。 Demo:论文未提及在线演示。 复现材料:附录D提供了极其详细的实现细节,包括训练各阶段的GPU型号、数量、时长、批大小、学习率等超参数,以及CoT生成和微调的提示词模板,复现信息非常充分。 论文中引用的开源项目:VideoPrism, T5-Gemma, VideoLLaMA2, Gemini 2.5 Pro(API), MS-CLAP, Synchformer, Meta Audiobox Aesthetics, StereoCRW, Stability AI的音频工具。 📌 核心摘要 要解决什么问题:视频到音频生成需要同时优化语义一致性、时间同步性、美学质量和空间准确性四个维度,但现有方法使用单一损失函数导致目标相互纠缠,且缺乏与人类偏好对齐。 方法核心是什么:提出PrismAudio框架,首次将强化学习引入视频到音频生成。其核心是将生成前的推理过程分解为四个专门的链式思维模块(语义、时间、美学、空间),并为每个模块设计对应的奖励函数,通过多维强化学习进行联合优化。 与已有方法相比新在哪里:1) 首次在V2A中使用分解式CoT与多维RL奖励对应,解决目标纠缠并提升可解释性。2) 提出Fast-GRPO算法,通过随机窗口的混合ODE-SDE采样,在保证性能的同时大幅降低RL训练开销。3) 构建了更严谨、场景更多样的AudioCanvas基准数据集。 主要实验结果如何:在自建的AudioCanvas基准和VGGSound测试集上,PrismAudio在所有四个感知维度上均达到了SOTA水平。例如,在AudioCanvas上,与基线ThinkSound相比,语义对齐度(CLAP)从0.48提升至0.52,时间同步性(DeSync)从0.80大幅改善至0.36,美学质量(CE)从4.10提升至4.26,空间误差(CRW)从22.82降低至12.87。消融实验证明分解式CoT优于单体式CoT,多维度奖励优于单维度奖励。 实际意义是什么:为生成高质量、可控且与人类感知对齐的视频配音提供了一个新范式。其分解式推理框架和高效RL训练方法对其他多模态生成任务也有参考价值。 主要局限性是什么:框架复杂度较高,依赖于多个预训练模型(如VideoLLaMA2、各种奖励模型)。实验中报告的部分客观指标(如空间/美学)超越了真实音频,这可能源于对不完美代理指标的过度优化,其实际感知质量需结合主观评估看。新提出的AudioCanvas基准的有效性和广泛接受度有待社区检验。 🏗️ 模型架构 PrismAudio的整体架构可分为三个主要阶段,建立在一个基于流匹配的扩散Transformer音频基础模型之上。 ...

2026-05-02 · 更新于 2026-05-22 · 2 min · 397 words

Query-Guided Spatial–Temporal–Frequency Interaction for Music Audio–Visual Question Answering

📄 Query-Guided Spatial–Temporal–Frequency Interaction for Music Audio–Visual Question Answering #音频问答 #多模态模型 #时频分析 #跨模态 ✅ 7.0/10 | 前25% | #音频问答 | #多模态模型 | #时频分析 #跨模态 学术质量 6.0/7 | 选题价值 0.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Kun Li (University of Twente, Netherlands; 工作完成于 IT University of Copenhagen, Denmark) 通讯作者:Sami Sebastian Brandt (IT University of Copenhagen, Denmark) 作者列表:Kun Li(University of Twente, IT University of Copenhagen)、Michael Ying Yang(University of Bath)、Sami Sebastian Brandt(IT University of Copenhagen) 💡 毒舌点评 亮点:本文最大的优点在于“系统性”和“针对性”——它没有孤立地提出一个模块,而是构建了一个从早期查询引导到中期时空频交互、再到后期上下文推理的完整流水线,并且为每个阶段都找到了扎实的动机(例如,用频率特征解决视觉模糊问题)。短板:尽管在总分上超越了前作,但在Visual QA(特别是位置相关问题)子任务上仍略逊于使用了对象检测器等先验知识的方法(如QA-TIGER),这暗示其“纯频率视角”在需要精细空间推理的场景中可能存在天花板,创新性更多体现在对已知技术的巧妙整合与优化上。 ...

2026-05-02 · 更新于 2026-05-22 · 2 min · 286 words

Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis

📄 Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis #音频分类 #音频生成 #多模态模型 #流匹配 #大语言模型 🔥 8.5/10 | 前25% | #音频分类 | #多模态模型 | #音频生成 #流匹配 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Pengfei Zhang (香港科技大学(广州)) 通讯作者:Li Liu (香港科技大学(广州),邮箱:avrillliu@hkust-gz.edu.cn) 作者列表:Pengfei Zhang(香港科技大学(广州)),Tianxin Xie(未说明),Minghao Yang(未说明),Li Liu(香港科技大学(广州)) 💡 毒舌点评 这篇论文最大的亮点是系统设计的“闭环”思想——用LLM规划器(Thinker)主动识别诊断弱点并指导生成器合成针对性数据,这比简单的过采样或数据增强要高明得多,且在数据集稀缺的医疗场景下思路很对路。短板则在于,虽然名为“Agent”,但其中的LLM规划器更多扮演了静态调度器的角色,论文对其“自主性”(如在线从诊断反馈中学习并调整策略)的展示和验证不足,削弱了Agent这一概念的冲击力;另外,多模态融合中,文本临床叙事的加入虽然带来了提升,但其具体贡献的“可解释性”与医生直觉的关联可以挖掘得更深。 🔗 开源详情 代码:提供。论文中给出了GitHub仓库链接:https://github.com/zpforlove/Resp-Agent 模型权重:提供。论文中给出了HuggingFace模型权重链接:https://huggingface.co/AustinZhang/resp-agent-models 数据集:提供。论文中给出了HuggingFace数据集链接:https://huggingface.co/datasets/AustinZhang/resp-agent-dataset Demo:论文中未提及在线演示。 复现材料:提供了训练和推理脚本、配置文件、完整的超参数设置(附录C)、训练细节和检查点,复现信息非常充分。 论文中引用的开源项目:依赖的开源工具/模型包括:DeepSeek系列模型(V3.2-Exp, R1-Distill-Qwen-7B)、Qwen3-0.6B-Base、BEATs、Longformer、Vocos声码器、Conformer、AST、Whisper等。 📌 核心摘要 这篇论文旨在解决深度学习在呼吸音听诊分析中面临的两个根本挑战:单模态表示的信息损失和标注数据的稀缺与不均衡。为此,论文提出了Resp-Agent,一个由中央规划器(Thinker-A2CA)编排的多智能体闭环系统。核心方法包括:1)一个可控生成器(Resp-MLLM),通过模态注入将大语言模型改造为多模态生成器,并结合流匹配解码器合成指定病理内容和声学风格的呼吸音;2)一个融合诊断器,通过模态编织将临床文本与音频嵌入在输入层融合,并利用稀疏全局注意力(音频锚点)捕捉瞬态声学事件。作为基础,论文构建了大规模多模态基准数据集Resp-229k(22.9万条记录)。主要实验结果表明,Resp-Agent在ICBHI数据集上以72.7的Score刷新了官方榜单记录,在Resp-229k跨域测试集上,其生成器配合规划器可将诊断器的宏F1分数从基线的0.212大幅提升至0.598。该工作为数据稀缺的医疗音频分析提供了整合生成与诊断的新范式,但其Agent的自主适应能力及系统在真实临床环境中的部署复杂度是其主要局限。 模型/设置 数据集 指标 数值 备注 ICBHI 官方排行榜 (表2) 最佳先前方法 (Dong et al.) ICBHI Score (%) 67.55 SOTA Resp-Agent [Ours] ICBHI Score (%) 72.70 (+5.15) Resp-229k 跨域测试集 (表3, 表8) 音频基线 (Conformer) Test-CD Accuracy / Macro-F1 0.720 / 0.1935 仅音频,原始不平衡 Resp-Agent (无合成) Test-CD Accuracy / Macro-F1 0.849 / 0.212 多模态诊断器 Resp-Agent (Thinker-A2CA 合成) Test-CD Accuracy / Macro-F1 0.887 / 0.598 生成数据平衡后 主要创新在于:1)首次提出并实现了针对呼吸音分析的“分析-生成”闭环Agent系统;2)创建了Resp-229k大规模、带临床文本的呼吸音基准,填补了数据空白;3)设计了融合文本与音频的模态编织诊断器,通过音频锚点机制提升了对瞬态病理性声音的捕捉能力。 ...

2026-05-02 · 更新于 2026-05-22 · 2 min · 346 words

RoboOmni: Proactive Robot Manipulation in Omni-modal Context

📄 RoboOmni: Proactive Robot Manipulation in Omni-modal Context #语音对话系统 #多模态模型 #端到端 #数据集 #机器人 🔥 8.5/10 | 前10% | #语音对话系统 | #多模态模型 | #端到端 #数据集 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Siyin Wang(复旦大学,上海创新研究院) 通讯作者:Jinlan Fu (N/A), Xipeng Qiu (复旦大学,上海创新研究院)(论文标注†为共同通讯作者) 作者列表:Siyin Wang(复旦大学,上海创新研究院)、Jinlan Fu(新加坡国立大学)、Feihong Liu(复旦大学)、Xinzhe He(复旦大学)、Huangxuan Wu(复旦大学)、Junhao Shi(复旦大学,上海创新研究院)、Kexin Huang(复旦大学)、Zhaoye Fei(复旦大学)、Jingjing Gong(上海创新研究院)、Zuxuan Wu(复旦大学,上海创新研究院)、Yu-Gang Jiang(复旦大学)、See-Kiong Ng(新加坡国立大学)、Tat-Seng Chua(新加坡国立大学)、Xipeng Qiu(复旦大学,上海创新研究院) 💡 毒舌点评 亮点:这篇论文真正让机器人“听懂”了对话的弦外之音(比如“嗯…橙汁”的嫌弃语气)并主动发起询问确认,而不是傻等一句“把可乐放桌上”的明确指令,这在人机交互的自然性上是个重要进步。短板:虽然构建了庞大的合成数据集,但真实世界交互的复杂性(比如多人同时说话、声音重叠、远场噪声)与合成数据之间的差距可能仍然存在,论文在应对这些极端边缘案例时的鲁棒性上限有待进一步验证。 🔗 开源详情 代码:提供GitHub仓库链接:https://github.com/OpenMOSS/RoboOmni 模型权重:未提及是否公开预训练权重,但论文中提到将“开源模型检查点”。 数据集:公开OmniAction数据集,承诺将开源获取。 Demo:未提及在线演示。 复现材料:提供了非常详细的训练细节(硬件、超参数、优化器设置)、数据集构建流程(三阶段)、实验设置(基线模型描述)和附录中的更多示例。 引用的开源项目:论文中引用的开源项目包括OpenVLA、OpenVLA-OFT、π0、NORA、LIBERO、Whisper、FAST+分词器、Qwen2.5-VL/Omni、DINOv2、SigLIP等。 📌 核心摘要 问题:现有的视觉-语言-动作(VLA)模型严重依赖用户发出的显式、直接的指令(如文本命令),但在真实场景中,人类意图常通过对话上下文、语气、环境音等隐式线索表达,机器人缺乏主动推断和确认意图的能力。 方法核心:提出RoboOmni,一个基于端到端全模态大语言模型(如Qwen2.5-Omni)的Perceiver-Thinker-Talker-Executor框架。该模型能同时处理视觉、音频(包含语音和副语言线索、环境声)和文本对话历史,统一进行意图推理、生成确认性语音回复和执行机器人动作。 新意:a) 定义了“跨模态上下文指令”新范式。b) 提出了统一感知、推理、交互和执行的端到端框架,无需ASR管道,保留了副语言信息。c) 构建了首个大规模、专用于此任务的数据集OmniAction(14万 episodes),包含6种上下文指令类型。 主要实验结果:在模拟基准OmniAction-LIBERO上,RoboOmni平均成功率85.6%,大幅超越最强文本基线NORA(25.9%)。在真实人类语音测试(OmniAction-LIBERO-Real)中,成功率76.6%,优于π0(73.8%)。真实机器人实验成功率73.9%,远超ASR+VLA基线(52.2%)。消融实验证明,移除音频后意图识别准确率从88.89%暴跌至11.11%。 实际意义:推动了机器人从“命令执行者”向“主动协作者”的转变,为下一代更自然、智能的人机交互提供了可行的技术路径和评估基准。 主要局限性:a) 依赖大规模合成数据,虽然通过真人录音补充,但数据与真实交互的鸿沟可能依然存在。b) 模型的成功高度依赖预训练的全模态LLM基座(Qwen2.5-Omni)的能力。c) 在非常复杂的、需要深层社会认知推理的意图识别上仍有提升空间。 🏗️ 模型架构 RoboOmni采用Perceiver-Thinker-Talker-Executor四阶段端到端架构,所有组件通过自回归语言模型骨干统一。 ...

2026-05-02 · 更新于 2026-05-22 · 2 min · 246 words

Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion

📄 Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion #多模态模型 #语音翻译 #大语言模型 #多语言 #数据增强 🔥 8.0/10 | 前25% | #语音翻译 | #多模态模型 | #大语言模型 #多语言 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yexing Du(哈尔滨工业大学、鹏城实验室) 通讯作者:Youcheng Pan(鹏城实验室), Yang Xiang(鹏城实验室), Ming Liu(哈尔滨工业大学、鹏城实验室) (论文中明确标注{panych,xiangy}@pcl.ac.cn, mliu@ir.hit.edu.cn) 作者列表:Yexing Du(哈尔滨工业大学,鹏城实验室), Youcheng Pan(鹏城实验室), Zekun Wang(哈尔滨工业大学), Zheng Chu(哈尔滨工业大学), Yichong Huang(哈尔滨工业大学), Kaiyuan Liu(哈尔滨工业大学,鹏城实验室), Bo Yang(鹏城实验室), Yang Xiang(鹏城实验室), Ming Liu(哈尔滨工业大学,鹏城实验室), Bing Qin(哈尔滨工业大学,鹏城实验室) 💡 毒舌点评 本文巧妙地将语音合成(TTS)和多模态大语言模型(MLLM)结合,提出了“语音引导机器翻译(SMT)”框架,并创新性地引入自监督进化机制来缓解数据稀缺问题,最终在多个基准上取得显著成绩。不过,其自监督进化机制中用于筛选“正负样本”的核心标准(COMET分数差异)略显简单粗暴,且迭代过程可能陷入局部最优,对“语音韵律信息如何具体帮助翻译”的深层机理剖析仍显不足。 ...

2026-05-02 · 更新于 2026-05-22 · 3 min · 599 words