Audio-Cogito: Towards Deep Audio Reasoning in Large Audio Language Models

📄 Audio-Cogito: Towards Deep Audio Reasoning in Large Audio Language Models #音频大模型 #多模态模型 #自监督学习 #知识蒸馏 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Longhao Li (西北工业大学,计算机科学学院,音频、语音与语言处理组 (ASLP@NPU)) 通讯作者:Lei Xie (西北工业大学,计算机科学学院,ASLP@NPU),Yongxiang Li (西北工业大学,计算机科学学院,ASLP@NPU) (根据论文中提供的联系邮箱推断) 其他作者: Hongjie Chen (中国电信人工智能研究院 (TeleAI)) Zehan Li (西北工业大学,计算机科学学院,ASLP@NPU) Qihan Hu (西北工业大学,计算机科学学院,ASLP@NPU) Jian Kang (西北工业大学,计算机科学学院,ASLP@NPU) Jie Li (中国电信人工智能研究院 (TeleAI)) 💡 毒舌点评 亮点:这篇论文最亮眼的是其“全开源”的承诺和“自蒸馏”策略,构建了一个从数据到模型的完整音频推理解决方案,直接挑战了依赖闭源API(如Gemini)的“捷径”做法,为社区提供了宝贵的可复现基准。槽点:然而,讽刺的是,其评估体系的核心——MMAR基准测试的“评分细则(rubric)”——仍然依赖闭源的Gemini 2.5 Pro生成,这使得其“超越闭源模型”的结论在评估公正性上存在一丝“用对手的尺子量自己”的微妙尴尬。 🔗 开源详情 代码:论文中提到代码将开源,并提供了匿名GitHub链接:https://anonymous.4open.science/r/Audio-Cogito-0E6E。使用了ms-swift训练框架。 模型权重:论文中提到Audio-Cogito基于Qwen3-Omni-Thinking,但未明确说明是否会单独发布微调后的模型权重。通常此类工作会随论文发布。 数据集:明确承诺开源。包含54.5万个高质样本,覆盖多音频域。获取地址同上述GitHub链接。 预训练权重:基于开源的Qwen3-Omni-Thinking模型。 在线Demo:论文中未提及。 引用的开源项目:主要依赖ms-swift框架,以及基座模型Qwen3-Omni-Thinking。数据来源均为公开数据集(AudioSet, Clotho等)。 📌 核心摘要 这篇论文旨在解决大型音频语言模型(LALMs)在复杂音频推理任务上能力不足且依赖昂贵闭源数据的问题。作者提出了一个名为Audio-Cogito的全开源解决方案,其核心是Cogito-Pipe——一个四阶段自动化数据构建流水线,用于生成高质量、多样化的音频推理链(CoT)数据。该流水线通过整合多源音频元数据、利用模型自身进行自蒸馏生成推理轨迹,并辅以质量验证,最终构建了一个包含54.5万个样本的大规模开源数据集。基于此数据集,作者采用自蒸馏策略对基座模型(Qwen3-Omni-Thinking)进行微调。实验表明,Audio-Cogito在专门评估推理过程的MMAR基准测试上,取得了开源模型中的最佳性能,平均准确率达71.70%,甚至在部分指标上超越了Gemini 2.0 Flash等闭源系统,同时其推理链的质量(Rubrics Score 62.22%, CRS 0.87)也得到显著提升。该工作为推动音频模态的深度、可解释推理提供了重要的开源资源和方法论参考。 ...

2026-04-19 · 更新于 2026-05-21 · 2 min · 314 words

AVID: A Benchmark for Omni-Modal Audio-Visual Inconsistency Understanding via Agent-Driven Construction

📄 AVID: A Benchmark for Omni-Modal Audio-Visual Inconsistency Understanding via Agent-Driven Construction #多模态模型 #基准测试 #音视频 #音频大模型 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Zixuan Chen(上海交通大学) 通讯作者:Tanfeng Sun,Xinghao Jiang(上海交通大学,根据论文作者顺序及常见通讯作者标注习惯推断) 其他作者: Depeng Wang(蚂蚁集团) Hao Lin(香港中文大学) Li Luo(上海交通大学) Ke Xu(上海交通大学) Ya Guo(蚂蚁集团) Huijia Zhu(蚂蚁集团) 💡 毒舌点评 这篇论文的亮点在于它敏锐地抓住了当前多模态大模型在“理解矛盾”而非“理解对齐”上的短板,并为此量身打造了一个大规模、系统化的测试基准,堪称给模型们做了一次“大家来找茬”的专项体检。槽点在于其“构造”不一致性的方法虽然巧妙且可控,但过于依赖外部大模型(Gemini)进行策略规划,且注入的“矛盾”在自然度上可能与真实世界的复杂矛盾仍有差距,有点像在实验室里精心布置的“找茬游戏”考场。 🔗 开源详情 代码:论文中提到GitHub仓库(https://github.com/),但未给出完整链接。计划开源。 模型权重:AVID-Qwen基于Qwen3-Omni-30B-A3B-Instruct微调。论文提到将在HuggingFace上发布模型权重。 数据集:AVID基准计划公开,包含全视频和片段级子集。 预训练权重:使用公开的Qwen3-Omni-30B-A3B-Instruct作为骨干。 在线Demo:论文中未提及。 引用的开源项目: 策略智能体:Gemini 3.1 Pro (Google)。 注入器工具:FFmpeg, Demucs (音频分离), Silero VAD, MediaPipe。 基座模型:Qwen3-Omni。 微调框架:SWIFT。 数据来源:LongVALE数据集。 📌 核心摘要 这篇论文旨在解决当前全模态大模型在音视频不一致性理解能力上缺乏系统性评估的问题。现有基准要么只关注音视频对齐事件,要么局限于检测深度伪造中的低级伪影,无法评估模型对长视频中语义级矛盾的理解。为此,作者提出了AVID,首个大规模音视频不一致性理解基准。其核心方法是构建了一个可扩展的流水线:首先将视频按“有声有脸”、“有声无脸”、“无声有景”进行时序分割,然后利用一个由Gemini驱动的策略智能体为每个片段规划最合适的矛盾注入类型(共8类),最后通过五个专门的注入器(如时间偏移、语义矛盾、身份修改等)生成不一致视频。基于此,他们构建了包含11.2K长视频(平均235.5秒)、39.4K个已标注矛盾事件和78.7K个片段的数据集。实验表明,现有顶尖模型(包括Gemini 3.1 Pro)在时间定位和细粒度推理上存在显著不足。作者还微调了一个基线模型AVID-Qwen,其在时间定位(mIoU: 36.1% vs 26.2%)和整体理解(SODA-m: 7.47 vs 6.15)上超越了所有对比模型,验证了该基准的有效性。 ...

2026-04-19 · 更新于 2026-05-21 · 2 min · 300 words

ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling

📄 ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling #音频生成 #多模态模型 #扩散模型 #基准测试 🔥 评分:9.2/10 | arxiv 👥 作者与机构 第一作者:Jianxuan Yang(小米 MiLM Plus) 通讯作者:Jian Luan(小米 MiLM Plus) 其他作者: Xinyue Guo(小米 MiLM Plus) Zhi Cheng(小米 MiLM Plus,武汉大学) Kai Wang(小米 MiLM Plus,武汉大学) Lipan Zhang(小米 MiLM Plus) Jinjie Hu(小米 MiLM Plus) Qiang Ji(小米 MiLM Plus) Yihua Cao(小米 MiLM Plus) Yihao Meng(小米 MiLM Plus,武汉大学) Zhaoyue Cui(小米 MiLM Plus,武汉大学) Mengmei Liu(小米 MiLM Plus) Meng Meng(小米 MiLM Plus) (所有作者均来自“Xiaomi LLM Core Team”或“MiLM Plus, Xiaomi Inc.”,部分作者有武汉大学的联合署名) 💡 毒舌点评 亮点:这篇论文精准地抓住了当前视频到音频生成领域的两大痛点——“文本说啥视频不听”和“参考音频带节奏还抢戏”,并给出了系统性的解决方案,尤其是提出的VGGSound-TVC基准,简直是给“视觉霸权”模型们准备的“照妖镜”。 槽点:方法虽然精巧,但本质上是“堆料”的艺术——双视觉编码器、多模态对齐损失、复杂的训练策略,对算力和数据的需求不低,感觉是在用“钞能力”解决“控制力”问题,小团队复现起来可能要掉头发。 ...

2026-04-19 · 更新于 2026-05-21 · 2 min · 370 words

Geo2Sound: A Scalable Geo-Aligned Framework for Soundscape Generation from Satellite Imagery

📄 Geo2Sound: A Scalable Geo-Aligned Framework for Soundscape Generation from Satellite Imagery #音频生成 #多模态模型 #基准测试 #数据集 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Kunlin Wu(香港科技大学(广州)) 通讯作者:根据论文署名和致谢信息,推测通讯作者可能为 Xiaofeng Liu(香港科技大学(广州)),论文中未明确标注。 其他作者: Yanning Wang(香港科技大学(广州)) Haofeng Tan(南卡罗来纳大学,美国) Boyi Chen(香港科技大学(广州)) Teng Fei(坎特伯雷大学,新西兰) Xianping Ma(西南交通大学,中国) Yang Yue(香港科技大学(广州)) Zan Zhou(北京邮电大学,中国) Xiaofeng Liu(香港科技大学(广州)) 💡 毒舌点评 亮点:这篇论文想象力爆棚,硬是把“看卫星图猜声音”这个看似不着边际的想法,做成了一个有模有样的系统任务,还搭了个大规模数据集,属实是“跨模态整活”的典范。槽点:方法上有点“拼积木”的意思,依赖现成的视觉模型、语言模型和音频生成模型,自己核心的“对齐”模块虽然巧妙但略显单薄,像是在给一堆大佬打补丁,创新性更多体现在任务定义和工程整合上。 🔗 开源详情 代码:论文中明确提到项目主页和源代码地址为:https://github.com/Blanketzzz/Geo2Sound。代码已开源。 模型权重:论文中未明确说明是否公开预训练模型权重(如对齐模块的MLP权重)。 数据集:论文中构建的 SatSound-Bench 数据集是核心贡献之一,但文中未明确说明该数据集是否公开提供下载。从描述看,它整合了实地录制数据和多个公共数据集,其分发可能涉及版权和许可问题。 预训练权重:方法依赖多个外部预训练模型,包括:DINOv3(视觉)、GPT-5.2(文本生成)、Make-An-Audio 2(音频生成)、CLAP(音频编码)。论文中未提供这些模型的权重。 在线 Demo:论文中未提及是否有在线演示。 依赖的开源项目:论文中明确引用的开源项目/模型包括:DINOv3, GPT-5.2(推测), Make-An-Audio 2, CLAP, AudioLDM/LDM2, Auffusion, Tango2, EzAudio, AudioX, MeanAudio, Freesound, iNaturalist Sounds, SoundingEarth。 📌 核心摘要 这篇论文提出了一个名为 Geo2Sound 的新任务和框架,旨在从卫星图像生成地理上一致且逼真的声音景观。要解决的问题是现有图像到音频模型在处理自上而下的卫星视图时面临三大挑战:缺乏结构化地理语义、一对多的声学歧义以及缺乏更广泛的地理空间上下文。方法上,它设计了一个三阶段流水线:首先通过轻量级分类器将卫星图像聚类并总结为紧凑的地理属性(如植被覆盖率、建筑密度);然后利用大语言模型为同一场景生成多个声学上合理的文本描述(语义假设扩展),并用文本到音频模型生成对应的候选音频;最后训练一个地理-声学对齐模块,将地理属性投影到音频嵌入空间,从候选集中选择与地理环境最匹配的音频。主要发现是,该框架在自建的 SatSound-Bench 基准(包含超过2万对数据)上取得了SOTA性能,FAD指标达到1.765,比最强基线提升50%,并在人类评估的真实性、语义对齐和沉浸感方面均获得显著提升。实际意义在于为城市规划、数字孪生和虚拟现实等应用提供了一种可扩展的、从视觉数据生成环境声音的新方法。局限性在于方法依赖外部预训练模型(VLM, T2A),且数据收集和对齐的有效性高度依赖于地理属性与声音关联的假设。 ...

2026-04-19 · 更新于 2026-05-21 · 3 min · 525 words

Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection

📄 Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection #音频安全 #音频大模型 #对抗样本 #多模态模型 🔥 评分:8.8/10 | arxiv 👥 作者与机构 第一作者:Meng Chen(浙江大学,ZJU-MUSLAB) 通讯作者:Tianwei Zhang(新加坡国立大学,School of Computing) 其他作者: Kun Wang(浙江大学,ZJU-MUSLAB) Li Lu(浙江大学,ZJU-MUSLAB) Jiaheng Zhang(香港中文大学,Department of Computer Science & Engineering) Kun Wang(阿里云,Alibaba Cloud)(注:论文PDF中作者列表有两位Kun Wang,根据机构推断一位来自ZJU-MUSLAB,另一位来自阿里云) 💡 毒舌点评 亮点:论文首次系统性地研究了针对音频大语言模型(LALM)的“间接”音频提示注入攻击,问题定义精准(数据-only访问、用户在环),并提出了一个通用且有效的攻击框架AudioHijack。槽点:攻击框架严重依赖对目标模型的白盒访问(知道架构和参数),这在现实世界中可能是一个重大限制;此外,虽然提出了多种防御策略,但它们的有效性有限,论文在“如何有效防御”这一更关键的问题上着墨相对较少。 🔗 开源详情 代码:论文中明确提到“We release our code and data at https://github.com/zju-muslab/AudioHijack”。GitHub仓库已创建,但截至论文发布时可能尚未完全公开。 模型权重:未提及发布攻击模型权重。攻击针对的是现有的开源LALM。 数据集:论文中使用的音频数据来自公开基准(AirBench, VoiceBench)。用于训练攻击的辅助用户指令数据集可能随代码一起发布。 音频样本:提供在线试听链接:https://audiohijack.github.io。 在线Demo:未提及。 依赖的开源项目:攻击实现依赖于PyTorch等框架,以及被攻击的各个开源LALM的官方代码库(如Qwen2-Audio, GLM-4-Voice等)。 📌 核心摘要 这篇论文揭示了针对音频大语言模型(LALM)的一种新型安全威胁:上下文无关且不可感知的音频提示注入攻击。攻击者仅需篡改输入音频数据(如会议录音、音乐片段),即可在用户不知情的情况下,劫持模型行为,使其执行恶意指令(如发送邮件、下载文件、传播错误信息)。为实现这一目标,作者提出了AudioHijack框架,它通过基于采样的梯度估计解决了音频分词不可微的问题,实现了端到端的对抗音频优化;通过注意力引导的上下文泛化技术,使攻击能泛化到未知的用户指令上下文;并设计了卷积扰动混合方法,将对抗扰动模拟为自然的混响效果,极大提升了攻击的隐蔽性。实验表明,AudioHijack在13个主流LALM上平均攻击成功率高达79%-96%,并成功对Mistral AI和Microsoft Azure的商业语音代理实施了攻击。该研究暴露了音频-文本模态融合中的根本性安全漏洞,为LALM的安全设计提供了重要警示。 🏗️ 模型架构 论文本身并未提出新的模型架构,而是针对现有的、架构各异的大型音频语言模型(LALM) 进行攻击研究。因此,本节将详细描述被攻击的LALM的通用架构流程,以及AudioHijack攻击框架如何与之交互。 ...

2026-04-19 · 更新于 2026-05-21 · 3 min · 430 words

Tora3: Trajectory-Guided Audio-Video Generation with Physical Coherence

📄 Tora3: Trajectory-Guided Audio-Video Generation with Physical Coherence #音频生成 #音视频 #多模态模型 #扩散模型 ✅ 评分:7.8/10 | arxiv 👥 作者与机构 第一作者:Junchao Liao (阿里巴巴云计算) 通讯作者:Long Qin (阿里巴巴云计算,复旦大学),Weizhi Wang (阿里巴巴云计算) 其他作者: Zhenghao Zhang (阿里巴巴云计算) Xiangyu Meng (阿里巴巴云计算) Litao Li (阿里巴巴云计算) Ziying Zhang (阿里巴巴云计算) Siyu Zhu (复旦大学) 机构信息:主要来自阿里巴巴云计算(具体为阿里云智能集团)和复旦大学。论文未明确标注具体实验室。 💡 毒舌点评 亮点:论文的核心洞察——将稀疏的物体轨迹从单纯的视频控制信号,提升为跨模态共享的“运动学先验”,并以此统一约束视频中的物体运动与音频中的事件时序和强度,这个切入点非常聪明且具有物理直觉,是解决音画不同步“老大难”问题的一次优雅尝试。 槽点:论文在方法描述上过于“学术八股”,把一个直观的想法包裹在复杂的公式和模块命名里(比如“Hybrid Flow Matching”本质上就是区域自适应的噪声调度)。另外,新构建的PAV数据集号称有46万条,但数据清洗和轨迹提取的细节(如CoTracker3在复杂场景下的失败案例)对结果可靠性的影响被一笔带过,有“大力出奇迹”之嫌。 🔗 开源详情 代码:论文中提到“Please view the build logs for errors. Generated by L A T E xml.” 并指向一个GitHub issue页面,暗示代码可能计划开源或部分开源,但未提供明确的GitHub仓库地址。论文中未明确提供开源代码链接。 模型权重:论文未提及是否公开预训练模型权重。 数据集:论文构建了PAV数据集(46万片段),但未提及是否公开该数据集。 预训练权重:模型从预训练的Ovi检查点初始化。 在线Demo:论文中未提及在线演示地址。 引用的开源项目:论文引用了多个开源工具和模型,包括:Qwen3-VL、SAM2、CoTracker3、Ovi、CLIP、CLAP、AudioBox-Aesthetics、MANIQA、MUSIQ、CAV-MAE Sync等。 📌 核心摘要 本文针对现有音视频(AV)生成模型中存在的运动不真实、声音与运动事件不同步、声音强度与运动强度不匹配等问题,提出了Tora3框架。其核心创新在于将物体轨迹视为连接视觉与听觉模态的共享运动学先验,而非仅用于控制视频。为实现这一目标,Tora3包含三个关键技术组件:1)轨迹对齐的运动表示,通过在视频潜在空间中直接沿轨迹传播首帧特征来注入运动线索,避免了额外运动编码器的引入;2)运动学-音频对齐模块,从轨迹中推导出位置、速度、加速度等二阶运动学状态,并通过交叉注意力注入音频扩散模型,为声音生成提供精确的事件时序和强度提示;3)混合流匹配机制,对轨迹区域和非轨迹区域采用不同的概率流,以在保持轨迹保真度的同时维持局部外观一致性。此外,论文构建了一个大规模、以运动为中心的PAV数据集(46万片段)。实验表明,Tora3在视频质量(FVD 784.1)、轨迹跟随精度(TE 12.13)、音视频同步(FGAS 0.234)以及运动-声音相关性(MAIC 0.63)上均优于强基线模型。局限性在于其效果高度依赖于输入轨迹的质量与准确性,且对复杂物理交互(如材质、3D声学)的建模能力有限。 ...

2026-04-19 · 更新于 2026-05-21 · 3 min · 531 words

WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training

📄 WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training #语音对话系统 #强化学习 #端到端 #多模态模型 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Yifu Chen(浙江大学) 通讯作者:Zhou Zhao(浙江大学) 其他作者:Shengpeng Ji(浙江大学),Qian Chen(阿里巴巴通义团队),Tianle Liang(浙江大学),Yangzhuo Li(浙江大学),Ziqing Wang(北京工业大学),Wen Wang(阿里巴巴通义团队),Jingyu Lu(浙江大学),Haoxiao Wang(浙江大学),Xueyi Pu(浙江大学),Fan Zhuo(浙江大学) 备注:论文注明 Yifu Chen 和 Shengpeng Ji 贡献相等(These authors contributed equally)。所有作者单位包括:浙江大学、阿里巴巴通义团队、北京工业大学。 💡 毒舌点评 亮点:这篇论文精准地“诊断”出了当前端到端语音对话模型在应用强化学习时“水土不服”的核心病灶——语义和声学的优化目标在统一序列层面相互冲突、梯度能量严重失衡,并开出了一剂“模态分离、动态混合”的有效“处方”。槽点:方法虽然巧妙,但严重依赖一个外部、强大的奖励模型(Gemini-2.5-Pro)来提供信号,这不仅成本高昂,其稳定性和泛化能力本身也存疑,相当于把自家模型的“指挥权”交给了别人。此外,代码和模型权重未开源,让“复现”变成了一个玄学问题。 🔗 开源详情 代码:论文提到项目主页为 https://github.com/MM-Speech/WavAlign,但截至分析时,该链接可能尚未生效或内容未公开。论文中未明确说明代码是否已开源。 模型权重:论文中未提及是否会公开训练后的模型权重。 数据集:论文详细描述了自建数据集的构建方法(附录E),并说明所有训练数据来自公开或自建来源,无内部专有数据。但未提及是否会公开这些处理后的数据集。 预训练权重:方法应用于现有的公开模型(如VITA-Audio, KimiAudio),但未提及是否会发布基于这些模型微调后的权重。 在线Demo:论文中未提及。 依赖的开源项目:论文引用了多个开源数据集和模型(如UltraChat, Llama, Alpaca等)。 📌 核心摘要 这篇论文旨在解决端到端语音对话模型在智能(IQ)和表达力(EQ)上难以同时提升的核心挑战。作者发现,直接对混合文本-语音序列应用统一的偏好优化(如DPO、GRPO)会导致问题:稀疏的偏好信号被淹没在密集的语音token中,造成梯度能量失衡(文本梯度主导),并引发声学分布漂移和自然度下降。为此,论文提出了一种自适应混合后训练框架(WavAlign)。其核心思想是分工协作:使用监督微调(SFT)作为“锚”来稳定和维持语音的自然度与可行性;同时,仅对文本token应用偏好优化(GRPO)来精炼语义智能。更进一步,设计了一个轻量级动态门控机制,根据rollout样本的质量(是否存在可接受样本)和区分度(奖励方差)自适应地调整SFT与偏好优化的混合权重,确保只在偏好信号可靠时进行更新。实验在VITA和KimiAudio两种架构上进行,跨越多个基准测试,结果表明该方法在语义质量和语音表达力上均取得了一致且显著的提升。 🏗️ 模型架构 论文本身不提出新的模型架构,而是提出一种后训练方法,可应用于不同的现有端到端语音对话模型架构。论文研究的模型需具备生成文本和语音两种token的能力。作者概括了三种主流架构: 交织式(Interleaving):模型生成一个单一的、文本与语音token交织的序列。 并行式(Parallel):模型并行生成文本和语音流,两者状态耦合。 思考者-说话者式(Thinker-Talker):将生成过程分解为“思考”(生成文本语义)和“说话”(生成语音)两个阶段。 为了保持方法与架构无关,论文将模型的输出抽象为两个token序列:文本序列 y^T 和语音序列 y^S。模型定义了一个联合条件概率 P_θ(y^T, y^S | x),其对数似然可以按token类型进行分解(公式1)。这个分解是后续进行模态感知优化的理论基础。 ...

2026-04-19 · 更新于 2026-05-21 · 2 min · 284 words

语音/音频论文速递 2026-04-19

语音/音频论文速递 2026-04-19 共分析 42 篇论文 ⚡ 今日概览 📥 抓取 42 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音频理解 12篇 ████████████ #基准测试 10篇 ██████████ #音频大模型 9篇 █████████ #多模态模型 7篇 ███████ #信号处理 6篇 ██████ #强化学习 6篇 ██████ #自监督学习 6篇 ██████ #大语言模型 5篇 █████ 📊 论文评分排行榜(42 篇,按分数降序) 排名 论文 评分 🥇 ControlFoley: Unified and Controllable Video-to-Audio G 9.2分 🥈 ClariCodec: Optimising Neural Speech Codes for 200bps C 9.0分 🥉 X-VC: Zero-shot Streaming Voice Conversion in Codec Spa 9.0分 4 Why Your Tokenizer Fails in Information Fusion: A Timin 9.0分 5 Hijacking Large Audio-Language Models via Context-Agnos 8.8分 6 UniPASE: A Generative Model for Universal Speech Enhanc 8.5分 7 VoxSafeBench: Not Just What Is Said, but Who, How, and 8.5分 8 Who is Speaking or Who is Depressed? A Controlled Study 8.5分 9 ProSDD: Learning Prosodic Representations for Speech De 8.5分 10 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 8.5分 11 Four Decades of Digital Waveguides 8.5分 12 Audio-Cogito: Towards Deep Audio Reasoning in Large Aud 8.5分 13 An Ultra-Low Latency, End-to-End Streaming Speech Synth 8.5分 14 Listen, Pause, and Reason: Toward Perception-Grounded H 8.5分 15 Geo2Sound: A Scalable Geo-Aligned Framework for Soundsc 8.5分 16 SpotSound: Enhancing Large Audio-Language Models with F 8.5分 17 Beyond Transcription: Unified Audio Schema for Percepti 8.5分 18 CoSyncDiT: Cognitive Synchronous Diffusion Transformer 8.5分 19 Diffusion Language Models for Speech Recognition 8.5分 20 WavAlign: Enhancing Intelligence and Expressiveness in 8.5分 21 AVID: A Benchmark for Omni-Modal Audio-Visual Inconsist 8.5分 22 SpeakerRPL v2: Robust Open-set Speaker Identification t 8.3分 23 Towards Fine-grained Temporal Perception: Post-Training 8.3分 24 Room compensation for loudspeaker reproduction using a 8.2分 25 StreamMark: A Deep Learning-Based Semi-Fragile Audio Wa 8.2分 26 From Reactive to Proactive: Assessing the Proactivity o 8.2分 27 Elastic Net Regularization and Gabor Dictionary for Cla 8.2分 28 Sky-Ear: An Unmanned Aerial Vehicle-Enabled Victim Soun 8.0分 29 Contextual Biasing for ASR in Speech LLM with Common Wo 8.0分 30 A Manual Bar-by-Bar Tempo Measurement Protocol for Poly 7.8分 31 Classical Machine Learning Baselines for Deepfake Audio 7.8分 32 Adaptive Test-Time Scaling for Zero-Shot Respiratory Au 7.8分 33 Dual-Axis Generative Reward Model Toward Semantic and T 7.8分 34 Tora3: Trajectory-Guided Audio-Video Generation with Ph 7.8分 35 Few-Shot and Pseudo-Label Guided Speech Quality Evaluat 7.5分 36 VoxEffects: A Speech-Oriented Audio Effects Dataset and 7.5分 37 TokenSE: a Mamba-based discrete token speech enhancemen 7.5分 38 Audio Source Separation in Reverberant Environments usi 7.5分 39 On the Distillation Loss Functions of Speech VAE for Un 7.5分 40 Listening Deepfake Detection: A New Perspective Beyond 7.5分 41 Comparison of window shapes and lengths in short-time f 6.5分 42 Transformer Based Machine Fault Detection From Audio In 6.5分 📋 论文列表 🥇 ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling 🔥 9.2分 | #音频生成 #多模态模型 #扩散模型 #基准测试 | arxiv ...

2026-04-19 · 更新于 2026-05-21 · 15 min · 3104 words

语音/音频论文速递 2026-04-18

语音/音频论文速递 2026-04-18 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #基准测试 11篇 ███████████ #音频理解 10篇 ██████████ #数据集 7篇 ███████ #音频大模型 7篇 ███████ #大语言模型 6篇 ██████ #信号处理 6篇 ██████ #音频生成 5篇 █████ #音频分类 5篇 █████ 🏆 高分论文 TOP 10 排名 论文 评分 🥇 StreamMark: A Deep Learning-Based Semi-Fragile Audio Wa 9.2分 🥈 A Manual Bar-by-Bar Tempo Measurement Protocol for Poly 8.5分 🥉 ClariCodec: Optimising Neural Speech Codes for 200bps C 8.5分 4 UniPASE: A Generative Model for Universal Speech Enhanc 8.5分 5 Who is Speaking or Who is Depressed? A Controlled Study 8.5分 6 SpeakerRPL v2: Robust Open-set Speaker Identification t 8.5分 7 ProSDD: Learning Prosodic Representations for Speech De 8.5分 8 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 8.5分 9 X-VC: Zero-shot Streaming Voice Conversion in Codec Spa 8.5分 10 An Ultra-Low Latency, End-to-End Streaming Speech Synth 8.5分 📄 StreamMark: A Deep Learning-Based Semi-Fragile Audio Watermarking for Proactive Deepfake Detection #音频安全 #音频深度伪造检测 #语音伪造检测 #基准测试 ...

2026-04-18 · 更新于 2026-05-21 · 43 min · 9080 words