Raon-Speech Technical Report

📄 Raon-Speech Technical Report #语音合成 #语音识别 #知识蒸馏 #多模态模型 #数据增强 ✅ 6.5/10 | 前25% | #语音识别 | #知识蒸馏 | #语音合成 #多模态模型 | arxiv 学术质量 3.5/7 | 影响力 1.5/2 | 可复现性 1.5/2 | 置信度 高 👥 作者与机构 核心贡献者来自KRAFTON。论文作者列表按角色划分,核心贡献者包括:建模(Ethan Ewer等)、数据(Beomsoo Kim等)、评估(Haechan Kim等)、服务与工程(Hyeonghwan Kim等)、基础设施(Jiyun Kim等)。项目负责人为Kangwook Lee和Jaewoong Cho。致谢部分还提到了多位提供支持的个人。 💡 毒舌点评 这是一份扎实但缺乏惊喜的工业级技术报告。模型在韩语上的性能提升确实显著,但论文在论证“最强整体表现”时,巧妙地选择了对自家有利的8个基线模型,并在多轮对话(FDB v2.0)上露出了短板。所谓“开源一切”的承诺,在正文中连代码仓库和模型权重的具体链接都找不到,实在不够诚恳。全双工模型设计了不少“状态建模”技巧,却没有任何消融实验来证明其有效性,这让贡献打了折扣。整体来看,它更像一份详尽的模型发布说明书,而非一篇经得起严格推敲的学术论文,顶会门槛确实还没到。 📌 核心摘要 本文介绍了Raon-Speech,一个针对英语和韩语优化的9B参数语音语言模型,以及其全双工对话扩展Raon-SpeechChat。Raon-Speech通过三阶段训练(对齐、端到端预训练+知识蒸馏、偏好优化后训练)将预训练LLM转化为兼具语音理解和生成能力的模型,并在42个基准测试中展示了其在语音相关任务上的优越性能,尤其是在韩语任务上。Raon-SpeechChat引入了因果编码器、交错的文本-语音序列和交互状态建模(SIL, BOW, BC),以支持实时对话。该模型在FDB v1.0的转接行为上表现出色,但在更复杂的多轮对话场景(FDB v2.0)中并非最优。论文声称开源了模型、代码和演示,但未提供具体链接。 🔗 开源详情 代码:论文中未提及具体的代码仓库链接(如GitHub地址)。 模型权重:论文中未提及具体的模型权重下载链接(如HuggingFace/ModelScope页面)。 数据集: KVoiceBench: https://huggingface.co/datasets/KRAFTON/KVoiceBench KOpenAudioBench: https://huggingface.co/datasets/KRAFTON/KOpenAudioBench KMMAU: https://huggingface.co/datasets/KRAFTON/KMMAU Demo:论文中未提及在线交互式演示的具体链接。 复现材料:论文未提供独立的复现材料包。论文详细说明了模型架构(附录B、C)、训练流程与超参数(表2、第3节)、数据处理流程(第4节、附录D),这些信息构成了复现所需的核心材料,但部分细节仍需参考附录。 论文中引用的开源项目: 骨干LLM: Qwen3-VL-8B-Instruct 语音编码器(理解对齐): AuT模型 语音编解码器: Mimi 说话人编码器: speechbrain/spkrec-ecapa-voxceleb 因果语音编码器(全双工): Voxtral-Mini-4B-Realtime-2602 RCP初始化: Qwen3-Omni-30B-A3B-Instruct TTS: Qwen3-TTS ASR: Whisper, 内部基于Zipformer的ASR模型 偏好优化方法: SimPO 全双工基准测试: Full-Duplex-Bench (FDB) v1.0, v1.5, v2.0 全双工对话模型基线: Moshi, Freeze-Omni, PersonaPlex, OmniFlatten 🏗️ 方法概述和架构 Raon-Speech的核心是将预训练LLM(Qwen3-VL-8B-Instruct)作为骨干,通过添加模块扩展其语音能力。架构分为理解与生成两侧。理解侧:输入语音经由一个预训练的非因果语音编码器(AuT)提取特征(12.5Hz),再通过一个随机初始化的2层MLP输入适配器投影至LLM嵌入空间。适配器后使用缩放为0.02的RMSNorm以稳定对齐。处理后的语音嵌入与文本嵌入拼接后送入LLM。生成侧:使用Mimi编解码器(保留前16个残差码本)。生成过程是自回归的:上一帧的编解码器嵌入经输出适配器映射至LLM输入空间,LLM的隐藏状态被一个4层解码器-仅Transformer语音生成专家(SGE)用于预测语义token(第一层码本)。随后,一个15层的残差码本预测器(RCP,初始化自Qwen3-Omni-30B-A3B-Instruct)自回归地预测剩余15层的声学token。最终所有层的token反量化、求和得到编解码器嵌入,输入编解码器解码器合成语音,并反馈至输出适配器用于下一帧生成。说话人控制:通过一个预训练的说话人编码器(speechbrain/spkrec-ecapa-voxceleb)从目标语音中提取2-8秒的片段,其嵌入被插入LLM输入序列以条件化生成语音的说话人身份。 ...

2026-05-30 · 更新于 2026-06-19 · 4 min · 730 words

语音/音乐/音频论文速递 2026-05-30

语音/音乐/音频论文速递 2026-05-30 共分析 6 篇论文 ⚡ 今日概览 📥 抓取 6 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 2篇 ██ #语音情感识别 1篇 █ #强化学习 1篇 █ #Transformer 1篇 █ 📊 论文评分排行榜(6 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 A Multi-Probe Audit of Clinical-Interview Depression De 9.6分 前10% #语音情感识别 🥈 EchoDistill:Alignment Noisy-to-Clean Self-Distillation 9.1分 前50% #强化学习 🥉 MIRAGE: Adaptive Multimodal Gating for Whole-Brain fMRI 8.2分 前50% #Transformer 4. Direct Preference Optimization for English-Mandarin Cod 7.2分 前50% #语音识别 5. Raon-Speech Technical Report 6.5分 前25% #语音识别 6. PiAnnotate: A Web Annotation Tool for Piano Fingering, 6.0分 前50% - 📋 论文列表 🥇 A Multi-Probe Audit of Clinical-Interview Depression Detection Benchmarks 🔥 9.6/10 | 前10% | #语音情感识别 | #迁移学习 | #音频信号处理 #预训练语言模型 | arxiv ...

2026-05-30 · 更新于 2026-06-19 · 3 min · 583 words

AgentHijack: Benchmarking Computer Use Agent Robustness to Common Environment Corruptions

📄 AgentHijack: Benchmarking Computer Use Agent Robustness to Common Environment Corruptions 📝 5.6/10 | 前50% | arxiv 学术质量 3.7/7 | 影响力 0.3/2 | 可复现性 1.6/2 | 置信度 中 👥 作者与机构 未在提供的全文中明确列出所有作者的所属单位。论文致谢部分列出了部分作者(JWS, BH, TLL)获得的资金支持,包括香港研究资助局(RGC)、国家自然科学基金(NSFC)和澳大利亚研究理事会(ARC)项目。 💡 毒舌点评 这篇论文的工作动机清晰,直指当前GUI智能体在理想化测试集上表现良好但在真实杂乱环境中脆弱的“皇帝新衣”问题,这一点值得肯定。提出的AgentHijack基准测试本身有一定工程价值,填补了“非对抗性”鲁棒性评估的空白。然而,作为一篇投向ICML的论文,其方法部分的深度和创新性严重不足。“观察者”模块的概念过于朴素,本质上是将环境状态变化显式文本化的外挂模块,缺乏理论上的新颖性。所谓的DA-GRPO算法,其核心创新(在多环境rollout)在正文中公式(1)里几乎没有体现,创新点隐藏在附录的描述性文字中,这在顶会论文中是不可接受的写作方式。更关键的是,论文的领域相关性非常弱。作为一个针对通用GUI智能体的鲁棒性测试与简单模块增强工作,它与ICML核心关注的机器学习理论、算法或根本性模型突破关联甚微。对于语音/音乐/音频领域的读者而言,本文几乎没有直接启发或技术迁移价值。实验中仅使用UI-TARS-1.5-7B作为基座模型进行微调和观察者构建,限制了结论的普适性。整体感觉像是一篇扎实的系统工程报告(benchmark + hack),而非一篇有深度的机器学习研究论文。 📌 核心摘要 本文针对多模态大语言模型驱动的计算机使用智能体在真实环境中易受常见非对抗性干扰影响的脆弱性问题,提出了首个可配置的基准测试AgentHijack。该基准在OSWorld平台上构建了包含9类干扰(如弹窗、分辨率变更、意外触控等)的3321个任务。实验评估发现,即便是先进的UI-TARS系列智能体,在干扰下的平均成功率也显著下降。为提升鲁棒性,作者提出了AgentHijack-Agent框架,其核心包括一个采用数据增强群体相对策略优化(DA-GRPO)训练、具有增强定位能力的动作生成器,以及一个负责行为总结与初始环境检查的观察者模块。消融实验验证了各组件的有效性,该框架在所有干扰类型上均优于基准模型。 🔗 开源详情 代码:https://AgentHijack.github.io 模型权重:论文中未提及提供微调后的AgentHijack-Agent或观察者模型权重。 数据集:AgentHijack基准基于OSWorld构建,数据集链接通过代码仓库提供。 Demo:论文中未提及。 复现材料:论文提供了非常详细的复现材料,包括:1) 训练配置(Section 5.1,附录F);2) 所有实验中使用的系统提示词(附录F.3);3) 每类干扰的具体配置参数(表5);4) 消融实验的设置(附录F.2);5) 评估所用的基线模型及统一推理参数。复现环境基于OSWorld提供的虚拟机。 论文中引用的开源项目: VERL:用于强化学习微调的框架。 pyautogui:用于程序化控制鼠标和键盘的Python库。 UI-TARS:论文评估的基线GUI智能体模型系列。 OSWorld:作为基准构建基础的计算机任务评估环境。 🏗️ 方法概述和架构 论文提出的AgentHijack-Agent框架(如图3所示)旨在增强GUI智能体对常见环境干扰的鲁棒性,其设计基于对现有智能体在干扰下表现的三项关键观察:1) 视觉干扰破坏定位能力;2) 意外操作干扰决策;3) 智能体无法感知初始环境错误。框架由两个核心组件构成,协同工作以提升鲁棒性。 动作生成器与数据增强群体相对策略优化(DA-GRPO): 功能与实现:动作生成器负责根据用户指令、历史轨迹和观察者的总结,输出下一步操作。其核心能力的提升源于DA-GRPO训练算法。DA-GRPO是标准群体相对策略优化(GRPO)的扩展,关键在于“数据增强”。在标准GRPO中,模型从单一(通常是清洁)环境中采集多条轨迹进行策略更新。而DA-GRPO在为一个任务进行策略更新时,会同时从多个不同的随机化干扰环境中采集轨迹\(\{o_{i}^{c}|i\in[1,G],c\in\mathcal{C}\}\)(\(c\)代表不同的干扰环境)。目标函数如公式(1)所示,旨在最大化这些来自多样干扰环境下的轨迹的累积优势。这强迫策略在优化过程中就适应多样化的环境扰动,从而学习到更鲁棒的行动策略。 奖励设计:奖励函数\(r_{i}\)(公式(2))结合了任务成功奖励\(r_{i}^{\text{success}}\)(成功为1,失败为0)和格式奖励\(r_{i}^{\text{format}}\)(格式错误为-1,正确为0)。为应对稀疏的成功奖励,训练过程中引入了经验回放缓冲区,用于存储成功的轨迹。当一个批次内所有采样轨迹的奖励均为零时,会从缓冲区中随机替换一条,以确保优化过程始终有正向信号。 基座模型:实验中采用UI-TARS-1.5-7B作为基座模型进行DA-GRPO微调。 观察者(Onlooker)模块: 功能:观察者是一个额外的、环境聚焦的辅助智能体,其职责有两个: 行为总结:在动作生成器执行每一步动作后,观察者对比动作前后的屏幕截图,将环境发生的变化(尤其是由意外操作引起的非预期变化)总结成简洁的描述\(d_{t}\)。这使得历史上下文从传统的\(\{o_{1},a_{1},...,o_{t},a_{t}\}\)扩展为\(\{o_{1},d_{1},...,o_{k},d_{k},...o_{t},d_{t}\}\),帮助动作生成器更准确地归因状态变化,避免被意外操作触发的内容分散注意力。 初始环境检查:在任务执行前,观察者检查初始环境状态。通过对比屏幕截图和预设的错误信息仓库(如网络断开、需要登录验证),若检测到初始化异常(如网络错误、锁屏状态),则会报告错误并提示重新初始化环境,防止智能体在故障环境中进行无意义的尝试。 实现:在实验中,默认使用另一个经过微调的UI-TARS-1.5-7B实例作为观察者。论文也探索了使用更强大的模型(如Qwen3-VL-235B)作为观察者的可能性。 框架流程与交互:如图3所示,在任务开始前,观察者先执行环境检查,确保环境就绪。任务执行时,动作生成器接收用户指令、当前截图和包含历史截图及观察者总结的历史记忆,输出动作。观察者持续监控每一步后的环境变化,更新行为总结并将其追加到历史记忆中,供动作生成器在下一步决策时参考。通过这种显式记录环境变化的方式,框架增强了智能体对动态环境的感知和抗干扰能力。 ...

2026-05-29 · 更新于 2026-06-19 · 2 min · 298 words

Archon: A Unified Multimodal Model for Holistic Digital Human Generation

📄 Archon: A Unified Multimodal Model for Holistic Digital Human Generation #多模态模型 #扩散模型 #无监督学习 #生成对抗网络 #数据增强 #语音识别 ✅ 7.5/10 | 前50% | #语音合成 | #生成对抗网络 | #多模态模型 #扩散模型 | arxiv 学术质量 5.5/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度 中 👥 作者与机构 论文作者: Chong Bao, Shichen Liu, Lijun Yu, David Futschik, Stylianos Moschoglou, Shefali Srivastava, Ziqian Bai, Feitong Tan, Guofeng Zhang, Zhaopeng Cui, Sean Fanello, Yinda Zhang 发表场合/期刊: arXiv: 2605.30311 研究领域: 计算机视觉、多模态学习、数字人生成 💡 毒舌点评 这篇论文的野心足以撑爆一个顶会,试图用一个模型吞下数字人的所有模态——文本、语音、动画、视频。架构图和“模态思维”的概念确实画了一张好饼,让人眼前一亮。然而,现实很骨感。最硬的伤在可复现性:核心组件依赖闭源的PaLM2和未公开的海量私有数据集,这对于绝大多数研究者而言意味着“看得到,摸不着”。其次,实验评估严重偏科,号称支持72个任务,但主要定量评估只集中在语音驱动视频生成这一两个任务上,其他几十个任务的能力更像是“口头支票”。那个听起来高大上的“模态思维”策略,本质上是一种推理时的链式分解,却缺乏理论解释其为何有效,更像是一种工程上的trick。总体而言,这是一篇方向正确、架构有想法的系统论文,但其科学贡献被工程壁垒和不充分的验证所削弱,难以被认定为一个扎实的里程碑工作。 ...

2026-05-29 · 更新于 2026-06-19 · 2 min · 344 words

Audio Deepfake Detection with Half-Truth Localisation Using Cross-Attentive Feature Fusion

📄 Audio Deepfake Detection with Half-Truth Localisation Using Cross-Attentive Feature Fusion #音频深度伪造检测 🔥 8.4/10 | 前50% | #音频深度伪造检测 | #音频深度伪造检测 | arxiv 学术质量 5.4/7 | 影响力 1.2/2 | 可复现性 1.8/2 | 置信度 高 👥 作者与机构 作者:S. Sutharya, Remya K. Sasi 机构:Cochin University of Science and Technology (CUSAT), Kochi, India 💡 毒舌点评 这篇论文就像在自助餐厅里开了一家新店,招牌菜是“三合一”检测(真实/全伪造/半伪造)。它确实第一个吃螃蟹,在MLADDC T3这个新赛道上建立了第一个能同时分类和定位的基线,这值得肯定。模型设计上,把MFAAN的2D CNN换成1D DSConv并加上交叉注意力,思路清晰。然而,这“第一”的含金量需要审视:T3任务本身(1秒拼接在4秒音频中)是否过于简化,能否代表现实世界中更隐蔽的伪造?实验部分,最引人注目(也最令人头疼)的是跨数据集泛化研究——论文花了很大篇幅展示模型在跨域上的惨败,但给出的分析和潜在解决方案却非常薄弱,仅停留在“发现问题”和引用“灾难性遗忘”。这就像医生明确诊断了疑难杂症,却只会开阿司匹林。此外,与大型预训练模型(XLS-R, AST)的对比在资源受限设定下进行,虽然能凸显本模型的轻量高效,但声称“优于”可能不够全面,因为这些大模型在充分微调下的潜力未被探索。论文写作流畅,但结论部分的部分表述(如“解决了两个开放问题”)稍显过度宣称。 📌 核心摘要 本文针对音频深度伪造检测中的一个实际且更难的问题——“半真”音频(即部分伪造)检测与定位,提出了CAFNet模型。该模型通过并行分支提取MFCC、LFCC和Chroma-STFT特征,利用交叉注意力进行融合,并在一个前向传播中同时完成三分类(真实/全伪造/半真)和拼接边界回归。在首个公开的三分类+定位基准MLADDC T3上,CAFNet建立了基线,实现了92.71%的整体准确率和0.075秒的边界定位平均绝对误差(MAE)。在二分类任务上,模型以仅576k参数超越了经过微调的大型预训练模型。然而,研究也发现,标准的预训练-微调范式会导致跨数据集表示崩溃,模型在跨域场景下的泛化能力极差。 🔗 开源详情 代码:https://github.com/ssutharya/Audio_Deepfake_Detection 模型权重:代码仓库中包含训练好的模型。 数据集: MLADDC T2: https://www.kaggle.com/datasets/artharking/mladdc-t2 MLADDC T3: https://www.kaggle.com/datasets/artharking/mladdc-t3 Demo:未提及。 复现材料:论文在第3节详细描述了模型架构、特征提取、损失函数和超参数(表2)。具体的训练代码、配置及预训练权重指向上述GitHub代码仓库。论文未提及单独的复现手册或附录。 论文中引用的开源项目: MFAAN:论文重新实现了该模型作为基线,未提供其原始代码链接。 HiFi-GAN, BigVGAN:论文提及为语音合成器,未提供具体项目链接。 XLS-R 300M, AST 87M:论文提及为预训练模型,未提供具体项目链接。 librosa:论文在讨论LFCC实现时提及,作为常用音频处理库被引用。 其他研究工具或数据集(如FoR, WaveFake, ASVspoof, In-the-Wild):论文在实验中作为对比或测试集引用,未提供其官方链接。 🏗️ 方法概述和架构 CAFNet是一个统一的、端到端的轻量级架构,旨在同时解决三分类和拼接边界定位两个任务。其核心设计是并行的特征提取、基于交叉注意力的特征融合以及共享的多任务输出头。架构详见论文图2(Fig. 2)。 ...

2026-05-29 · 更新于 2026-06-19 · 2 min · 323 words

Audio Jailbreaks in Large Audio-Language Models: Taxonomy, Attack-Defense Analysis, and Cost-Aware Evaluation

📄 Audio Jailbreaks in Large Audio-Language Models: Taxonomy, Attack-Defense Analysis, and Cost-Aware Evaluation #多模态模型 #数据增强 🔥 8.9/10 | 前25% | #多模态模型 | #数据增强 | arxiv 学术质量 5.7/7 | 影响力 1.7/2 | 可复现性 1.5/2 | 置信度 高 👥 作者与机构 Bo-Han Feng, Yu-Hsuan Li Liang, Chien-Feng Liu, You-Hsuan Chang, Yun-Nung Chen. 台湾大学(National Taiwan University)。注:论文中明确标注了共同第一作者(*)。 💡 毒舌点评 这篇论文的出发点是好的,试图为混乱的LALM越狱攻击研究建立秩序,像给一群瞎摸大象的盲人递上了一份详细的解剖图谱。分类学部分做得扎实,将语义、声学、信号、嵌入层攻击,以及护盾、训练无关、训练相关防御梳理得井井有条,这是其主要贡献。然而,作为一篇声称提供“统一评估”的论文,其实验部分却显得颇为“保守”甚至“取巧”。评估仅覆盖10个开源模型、仅使用黑盒API访问、仅测试两种防御(一个输入护盾和一个提示),这距离真正全面的“实证研究”还有不小差距。更关键的是,所谓的“成本感知评估”虽然提出了延迟指标,但其分析深度有限,例如对TTS成本、多次查询的累积财务开销、以及防御部署的实际算力成本都未做量化,使得“成本”这一核心论点显得有些浮于表面。论文更像是一个精心设计的、有限范围内的“示范性评估”,而非一个普适的基准。结论中“未来方向”部分写得比实验本身更能激发兴趣,这暗示了当前工作的探索性多于结论性。 📌 核心摘要 本文旨在解决大型音频语言模型(LALMs)越狱攻击研究领域缺乏统一评估框架和标准的问题,特别是忽略了攻击的实际可行性与成本。作者提出了一套涵盖攻击(语义、声学、信号、嵌入层)、防御(基于护盾模型、免训练、基于训练)和基准(跨模态、音频原生、交互式)的统一分类体系(Taxonomy)。通过在十个开源LALMs上进行受控实验,系统评估了代表性攻击(如语义改写、最佳-N搜索)和防御(护盾模型、防御提示)的有效性、良性拒绝率(BRR)和延迟开销。实验结果表明,声学最佳-N(Acoustic BoN)攻击揭示了最强的音频空间漏洞,但需要极高的延迟;叙事框架(Narrative Framing)是有效的低延迟语义威胁。防御方法普遍存在稳健性与可用性(良性拒绝率)之间的权衡:护盾模型精确但对声学搜索脆弱,防御提示更稳健但导致更高的良性拒绝率。论文强调LALM安全评估应是一个多目标问题,需要综合考量攻击成功率(ASR)、良性拒绝率、延迟、成本和隐蔽性。 🔗 开源详情 代码:论文中未提供具体的代码仓库链接。但附录C.5承诺将在论文发表后发布评估代码、攻击配置文件、声学/信号特征向量生成脚本、延迟测量脚本、评判员提示和聚合结果文件。 模型权重:论文评估了10个开源大型音频语言模型,具体权重链接如下: Audio Flamingo 3: https://huggingface.co/GoelVaibhav/audio-flamingo-3-hf DeSTA2.5-Audio: https://github.com/desta-team/DeSTA2.5-audio Fun-Audio-Chat-8B: https://huggingface.co/InclusionAI/Fun-Audio-Chat-8B midashenglm-7b-1021-bf16: https://huggingface.co/MiMo-midashenglm/midashenglm-7b-1021-bf16 MOSS-Audio-4B-Instruct: https://huggingface.co/OpenMOSS/MOSS-Audio-4B-Instruct MOSS-Audio-8B-Instruct: https://huggingface.co/OpenMOSS/MOSS-Audio-8B-Instruct Phi-4-multimodal-instruct: https://huggingface.co/microsoft/Phi-4-multimodal-instruct Qwen3-Omni-30B-A3B-Instruct: https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct Voxtral-Mini-3B-2507: https://huggingface.co/mistralai/Voxtral-Mini-3B-2507 Voxtral-Small-24B-2507: https://huggingface.co/mistralai/Voxtral-Small-24B-2507 数据集: JailbreakBench (JBB-Behaviors): https://huggingface.co/datasets/JailbreakBench/JBB-Behaviors (MIT 许可证) Demo:论文中未提及。 复现材料:论文中承诺发布支持复现的评估代码和配置文件(附录C.5),但未说明具体时间。 论文中引用的开源项目: Qwen3-TTS: https://huggingface.co/Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign (用于语音合成) VoiceShield (voiceSHIELD-small): https://huggingface.co/Emvo-ai/voiceSHIELD-small (用作输入防御) gpt-oss-safeguard-20b: https://huggingface.co/openai/gpt-oss-safeguard-20b (用作 LLM 评判员) whisper-large-v3: https://huggingface.co/openai/whisper-large-v3 (用于可懂度测试) JailbreakBench: https://huggingface.co/datasets/JailbreakBench/JBB-Behaviors (基准数据集) AdvBench:论文中提及,为被转换为语音的基础文本安全基准。 Llama-Guard:论文中提及,为文本/视觉领域外部防御模型。 ShieldVLM:论文中提及,为文本/视觉领域外部防御模型。 🏗️ 方法概述和架构 本文的方法核心是构建一个统一的分类框架(Taxonomy)并在此框架下进行受控的实证评估。 ...

2026-05-29 · 更新于 2026-06-19 · 2 min · 239 words

Benchmarking Single-Factor Physical Video-to-Audio Generation

📄 Benchmarking Single-Factor Physical Video-to-Audio Generation #音频生成 #多模态模型 🔥 9/10 | 前25% | #音频生成 | #多模态模型 | arxiv 学术质量 6.4/7 | 影响力 1.5/2 | 可复现性 1.1/2 | 置信度 高 👥 作者与机构 作者:Tingle Li (UC Berkeley, NVIDIA), Siddharth Gururani (NVIDIA), Kevin J. Shih (NVIDIA), Gantavya Bhatt (University of Washington), Sang-gil Lee (NVIDIA), Zhifeng Kong (NVIDIA), Arushi Goel (NVIDIA), Gopala Anumanchipalli (UC Berkeley), Ming-Yu Liu (NVIDIA)。注意:Tingle Li, Siddharth Gururani, Kevin J. Shih 为共同第一作者(Equal contribution)。 机构:UC Berkeley, NVIDIA, University of Washington。 项目主页:https://research.nvidia.com/labs/cosmos-lab/flatsounds/ ...

2026-05-29 · 更新于 2026-06-19 · 3 min · 504 words

ChildVox: A Speech, Audio, and Large Audio-Language Model Benchmark in Understanding and Characterizing Sound across Childhood

📄 ChildVox: A Speech, Audio, and Large Audio-Language Model Benchmark in Understanding and Characterizing Sound across Childhood #自监督学习 #参数高效微调 #语音识别 #音频分类 #说话人日志 #数据集 🔥 8/10 | 前25% | #语音识别 | #自监督学习 | #参数高效微调 #音频分类 | arxiv 学术质量 5.3/7 | 影响力 1.8/2 | 可复现性 0.9/2 | 置信度 中 👥 作者与机构 作者:Tiantian Feng, Anfeng Xu, Xuan Shi, Aditya Kommineni, Shakhrul Iman Siam, Megan Micheletti, Zhonghao Shi, Helen Tager-Flusberg, Mi Zhang, Lynn K. Perry, Catherine Lord, Daniel Messinger, Shrikanth Narayanan 机构:南加州大学,俄亥俄州立大学,加州大学洛杉矶分校,哈佛大学,波士顿大学,迈阿密大学 ...

2026-05-29 · 更新于 2026-06-19 · 2 min · 264 words

COMET: Concept Space Dissection of the Modality Gap in Audio-Text Multimodal Contrastive Embeddings

📄 COMET: Concept Space Dissection of the Modality Gap in Audio-Text Multimodal Contrastive Embeddings #多模态模型 #对比学习 ✅ 6.5/10 | 前50% | #音频检索 | #对比学习 | #多模态模型 | arxiv 学术质量 5/7 | 影响力 1/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 论文标题:COMET: Concept Space Dissection of the Modality Gap in Audio-Text Multimodal Contrastive Embeddings 作者:Yonggang Zhu, Liting Gao, Aidong Men, Wenwu Wang 机构: 北京邮电大学 人工智能学院 英国萨里大学 视觉、语音与信号处理中心 (CVSSP) 通讯作者:Wenwu Wang 资助信息:China Scholarship Council (202506470003) 💡 毒舌点评 这篇论文试图为CLAP模型中已知的模态间隙问题提供一个新的“概念分解”视角,并由此提出一个无训练的嵌入压缩方法PLSHead。优点在于它整合分析了嵌入空间结构、相似性计算机制和现有投影解码方法,理论推导有一定新意。然而,作为一篇顶会投稿,其“创新性”需要打折扣:1)核心工具PLS-SVD是成熟的统计方法,其在CLAP上的应用属于工程组合;2)提出的PLSHead方法本质是启发式的截断,关键参数K的选择缺乏理论指导;3)实验部分大量篇幅复现和比较已有的投影解码(PD)方法,并宣称其PLSHead可“替代”PD,但实际上在零样本字幕任务中并未显著超越使用完整记忆库的PD。此外,论文声称“首次提出统一的概念分解框架”,但相关工作列举了多种多模态嵌入分解方法(如SpLiCE, CCA+匹配),对“首次”的claim需更严谨。总体而言,工作扎实但突破性有限,更像是一篇细致的分析性文章。 ...

2026-05-29 · 更新于 2026-06-19 · 4 min · 650 words

Data-Efficient On-Policy Distillation for Automatic Speech Recognition

📄 Data-Efficient On-Policy Distillation for Automatic Speech Recognition #语音识别 #知识蒸馏 #低资源 #模型压缩 📝 5.1/10 | 前50% | #语音识别 | #知识蒸馏 | #低资源 #模型压缩 | arxiv 学术质量 3.1/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度 中 👥 作者与机构 作者:Yu Lin, Yiming Wang, Runyuan Cai, Xiaodong Zeng 机构:AutoArk-AI 💡 毒舌点评 这篇论文像一个精心调校的“数据榨汁机”:用一个强大的教师模型(Qwen-ASR)和一套还算巧妙的蒸馏流水线(TD+OPD),硬生生地从100k小时的数据里榨出了能超越Qwen3-ASR-0.6B(声称用20M小时训练)的性能。这确实很酷,证明了在模型规模受限时,“名师出高徒”这条路走得通。但作者似乎对“榨汁机”本身的创新点有些语焉不详——核心的OPD方法基本是从文本领域搬过来的,而真正起效的“教师数据适应”(TD)阶段为何有效,只给了个VUSS指标当“黑盒诊断”,缺乏深入的机理分析。实验结果虽亮眼,但对比的公平性存疑(Qwen3-ASR-0.6B的训练配方未知),且缺乏多次实验的稳定性报告和更多鲁棒性测试。总的来说,这是一份扎实的“应用报告”和“有效性验证”,但在“机制揭秘”和“方法创新”上还有明显的提升空间。 📌 核心摘要 本文研究了如何在100k小时音频数据预算下,提升一个0.6B参数的ASR模型(Ark-ASR)的性能。核心方法是结合“教师数据适应”(TD)和“在策略蒸馏”(OPD)。TD阶段使用教师生成的2k小时伪标签数据对Ark-Base模型进行初步适应;随后,OPD阶段在原始100k小时数据上,利用冻结的Qwen-ASR教师模型对学生生成的转录序列提供密集反馈,通过匹配师生模型在联合Top-kk支持集上的分布来优化学生模型。主要结果是,Ark-Base+TD+OPD模型在五个中英文ASR基准测试中的四个上,超越了同规模(0.6B)的Qwen3-ASR-0.6B基线模型,且所用的监督音频数据量仅为后者声称的1/200。论文还提出“有效联合支持集大小”(VUSS)作为诊断工具,表明TD阶段提升了师生模型局部支持集的重叠度,使后续的OPD更有效。论文结论指出,SFT结合OPD是提升小型ASR模型数据效率的实用路径。 🔗 开源详情 代码:论文中未提及代码开源计划。 模型权重:论文中未提及。 数据集:论文使用了以下公开数据集,但未提供具体下载链接:AISHELL-1(开源中文语音语料库)、WenetSpeech(大规模多领域中文语料库,含Test_Net和Test_Meeting)、LibriSpeech(标准英文语音识别语料库,含test-clean和test-other)。 Demo:论文中未提及。 复现材料:论文未提供训练配置、检查点或完整复现信息。 引用的开源项目:论文引用了Whisper、Conformer、Deep Speech、Distil-Whisper等项目,但未提供其代码仓库链接。 补充链接(自动提取): 代码仓库:https://github.com/zai-org/GLM-ASR HuggingFace:https://huggingface.co/docs/transformers/model_doc/glmasr 🏗️ 方法概述和架构 Ark-ASR的架构是一个音频条件的因果语言模型,由音频分支和解码器两部分构成。音频分支的设计遵循GLM-ASR编码器:首先使用一个Whisper风格的音频编码器将语音特征(如Log-Mel滤波器组)转换为帧级声学隐状态;接着,通过层归一化和时间合并操作对这些状态进行规整;最后,一个多层感知机(MLP)适配器将声学状态投影到语言模型的隐藏维度。解码器部分是一个Qwen2因果语言模型。在推理和训练时,适配后的音频嵌入会替换ASR提示中占位符位置的嵌入,形成混合的音频-文本嵌入序列,该序列由因果解码器和语言模型头处理,自回归地生成转录令牌。 训练流程(Ark-ASR OPD)如下:对于一个音频批次,1) 学生生成:学生模型在自身音频条件下生成转录,不记录梯度。生成的令牌序列经过清理(去除ASR停止令牌和屏蔽的非ASR令牌范围)后解码为文本。2) 教师评分:冻结的Qwen-ASR教师模型在教师强制模式下,接收相同的音频和学生生成的文本前缀,输出转录位置上的令牌级逻辑值。3) 学生再评分与对齐:学生模型在相同的生成转录下再次前向传播(此次带梯度),使其逻辑值在学生实际访问的状态上与教师反馈对齐。损失函数是联合Top-kk KL损失(公式1): ...

2026-05-29 · 更新于 2026-06-19 · 2 min · 234 words