Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

📄 Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs #语音识别 #语音合成 #多模态模型 #数据增强 #低资源 #参数高效微调 #多语言 ✅ 7.2/10 | 前50% | #语音识别 | #数据增强 | #语音合成 #多模态模型 | arxiv 学术质量 7.5/7 | 影响力 7.0/2 | 可复现性 0.3/2 | 置信度 中 👥 作者与机构 论文作者为 Nguyen Quang Trung, Cheng Yi Lewis Sun, Minh Duc He, Yingxu Shuo, Ai Ti Aw。机构包括 Institute for Infocomm Research (I2R), A*STAR, Singapore 和 Nanyang Technological University, Singapore。 ...

2026-05-30 · 更新于 2026-06-19 · 2 min · 274 words

EchoDistill:Alignment Noisy-to-Clean Self-Distillation for Robust Audio LLMs

📄 EchoDistill:Alignment Noisy-to-Clean Self-Distillation for Robust Audio LLMs #强化学习 #多模态模型 #数据增强 🔥 9.1/10 | 前50% | #强化学习 | #强化学习 | #多模态模型 #数据增强 | arxiv 学术质量 6.1/7 | 影响力 1.7/2 | 可复现性 1.3/2 | 置信度 高 👥 作者与机构 论文共有11位作者,隶属于7个机构。其中,Liang Lin, Chunxi Luo, Kaiwen Luo为共同第一作者(*Equal contribution.)。Kun Wang和Junhao Dong为通讯作者(\(\uparrow\)Corresponding author)。 主要机构包括:南洋理工大学(NTU)、上海大学(SHU)、中国科学院信息工程研究所(ICT, CAS)、杭州电子科技大学(HDU)、北京邮电大学(BUPT)、中国科学技术大学(USTC)、网络与信息安全国家重点实验室(SKL-NST, BUPT)。论文作者机构信息在“已有分析结果”中未提及。 💡 毒舌点评 这论文的“自蒸馏”包装得挺花哨,但核心思想就是拿干净数据的老师傅带带嘈杂数据里的学生,思路不新,但做成了一个相对完整的框架。最大亮点是那个“音频证据稀疏性”的分析,确实点出了问题的关键——模型容易被噪音带跑偏,而不是真正“听懂”了音频。实验做得比较扎实,跨了多个模型和领域,GSR指标提升看起来不错。但仔细一看,实验只在MMAU和MMAR这两个特定数据集上做,泛化性存疑。而且,需要配对噪声/干净音频的训练数据,这在真实世界里可不好搞,局限性不小。代码倒是给了,算是个加分项。总的来说,是一篇工科味道很浓、解决具体工程问题的工作,理论上没什么突破,但实验上花了不少功夫。 📌 核心摘要 音频大语言模型(ALLMs)在真实世界的复杂噪声下非常脆弱,容易产生语义漂移和幻觉。现有方法主要依赖波形级增强或表示抑制,未能从训练层面根本提升模型鲁棒性。本文提出EchoDistill,一种基于对齐的“噪声-清洁”自蒸馏框架。该框架利用一个冻结的、以清洁音频为输入的教师模型,为以噪声音频为输入的学生模型提供语义参考。训练时,学生模型在噪声音频下采样生成候选响应,通过群组相对策略优化(GRPO)结合教师-学生的token级一致性作为奖励,来优化学生的生成轨迹,使其更符合清洁音频的语义证据。此外,引入音频感知的奖励塑造机制,以区分那些仅仅正确和真正基于音频证据的响应。在多个ALLM(Qwen2.5-Omni, MiniCPM-o-2.6, Step-Audio2)和多个音频领域(音乐、声音、语音)上的实验表明,EchoDistill能显著提升以GSR为导向的生成鲁棒性,且不增加额外的推断成本。 🔗 开源详情 代码:论文提供了匿名代码仓库链接:https://anonymous.4open.science/r/echodistill-10DE。 模型权重:论文中未提及提供预训练模型(教师/学生)或最终训练好的模型权重的下载地址。 数据集:论文使用了MMAR和noisy MMAU数据集。训练/验证数据格式有示例(表6),但未提供这些数据集的直接下载链接。 Demo:论文中未提及在线演示(Demo)。 复现材料:论文在附录C详细说明了评估协议、三个指标(Acc, Noisy, GSR)的计算公式和实例化方式,以及一个训练数据格式的示例表格(表6)。但未提供训练超参数配置(如学习率、优化器、训练轮数等)或用于初始化的预训练检查点的下载链接。 引用的开源项目:论文提到了基础模型(Qwen2.5-Omni, MiniCPM-o-2.6, Step-Audio2)和对比方法(DFL, SEEN)的名称,但未给出这些项目对应的官方代码仓库地址。 🏗️ 方法概述和架构 EchoDistill是一个完整的训练框架,旨在提升音频大语言模型在噪声输入下的语义生成鲁棒性。其核心思想是利用训练时可获取的配对噪声/清洁音频数据,通过“噪声-清洁”自蒸馏,引导模型学习从噪声输入中生成更符合清洁音频语义证据的响应。 ...

2026-05-30 · 更新于 2026-06-19 · 3 min · 510 words

Raon-Speech Technical Report

📄 Raon-Speech Technical Report #语音合成 #语音识别 #知识蒸馏 #多模态模型 #数据增强 ✅ 6.5/10 | 前25% | #语音识别 | #知识蒸馏 | #语音合成 #多模态模型 | arxiv 学术质量 3.5/7 | 影响力 1.5/2 | 可复现性 1.5/2 | 置信度 高 👥 作者与机构 核心贡献者来自KRAFTON。论文作者列表按角色划分,核心贡献者包括:建模(Ethan Ewer等)、数据(Beomsoo Kim等)、评估(Haechan Kim等)、服务与工程(Hyeonghwan Kim等)、基础设施(Jiyun Kim等)。项目负责人为Kangwook Lee和Jaewoong Cho。致谢部分还提到了多位提供支持的个人。 💡 毒舌点评 这是一份扎实但缺乏惊喜的工业级技术报告。模型在韩语上的性能提升确实显著,但论文在论证“最强整体表现”时,巧妙地选择了对自家有利的8个基线模型,并在多轮对话(FDB v2.0)上露出了短板。所谓“开源一切”的承诺,在正文中连代码仓库和模型权重的具体链接都找不到,实在不够诚恳。全双工模型设计了不少“状态建模”技巧,却没有任何消融实验来证明其有效性,这让贡献打了折扣。整体来看,它更像一份详尽的模型发布说明书,而非一篇经得起严格推敲的学术论文,顶会门槛确实还没到。 📌 核心摘要 本文介绍了Raon-Speech,一个针对英语和韩语优化的9B参数语音语言模型,以及其全双工对话扩展Raon-SpeechChat。Raon-Speech通过三阶段训练(对齐、端到端预训练+知识蒸馏、偏好优化后训练)将预训练LLM转化为兼具语音理解和生成能力的模型,并在42个基准测试中展示了其在语音相关任务上的优越性能,尤其是在韩语任务上。Raon-SpeechChat引入了因果编码器、交错的文本-语音序列和交互状态建模(SIL, BOW, BC),以支持实时对话。该模型在FDB v1.0的转接行为上表现出色,但在更复杂的多轮对话场景(FDB v2.0)中并非最优。论文声称开源了模型、代码和演示,但未提供具体链接。 🔗 开源详情 代码:论文中未提及具体的代码仓库链接(如GitHub地址)。 模型权重:论文中未提及具体的模型权重下载链接(如HuggingFace/ModelScope页面)。 数据集: KVoiceBench: https://huggingface.co/datasets/KRAFTON/KVoiceBench KOpenAudioBench: https://huggingface.co/datasets/KRAFTON/KOpenAudioBench KMMAU: https://huggingface.co/datasets/KRAFTON/KMMAU Demo:论文中未提及在线交互式演示的具体链接。 复现材料:论文未提供独立的复现材料包。论文详细说明了模型架构(附录B、C)、训练流程与超参数(表2、第3节)、数据处理流程(第4节、附录D),这些信息构成了复现所需的核心材料,但部分细节仍需参考附录。 论文中引用的开源项目: 骨干LLM: Qwen3-VL-8B-Instruct 语音编码器(理解对齐): AuT模型 语音编解码器: Mimi 说话人编码器: speechbrain/spkrec-ecapa-voxceleb 因果语音编码器(全双工): Voxtral-Mini-4B-Realtime-2602 RCP初始化: Qwen3-Omni-30B-A3B-Instruct TTS: Qwen3-TTS ASR: Whisper, 内部基于Zipformer的ASR模型 偏好优化方法: SimPO 全双工基准测试: Full-Duplex-Bench (FDB) v1.0, v1.5, v2.0 全双工对话模型基线: Moshi, Freeze-Omni, PersonaPlex, OmniFlatten 🏗️ 方法概述和架构 Raon-Speech的核心是将预训练LLM(Qwen3-VL-8B-Instruct)作为骨干,通过添加模块扩展其语音能力。架构分为理解与生成两侧。理解侧:输入语音经由一个预训练的非因果语音编码器(AuT)提取特征(12.5Hz),再通过一个随机初始化的2层MLP输入适配器投影至LLM嵌入空间。适配器后使用缩放为0.02的RMSNorm以稳定对齐。处理后的语音嵌入与文本嵌入拼接后送入LLM。生成侧:使用Mimi编解码器(保留前16个残差码本)。生成过程是自回归的:上一帧的编解码器嵌入经输出适配器映射至LLM输入空间,LLM的隐藏状态被一个4层解码器-仅Transformer语音生成专家(SGE)用于预测语义token(第一层码本)。随后,一个15层的残差码本预测器(RCP,初始化自Qwen3-Omni-30B-A3B-Instruct)自回归地预测剩余15层的声学token。最终所有层的token反量化、求和得到编解码器嵌入,输入编解码器解码器合成语音,并反馈至输出适配器用于下一帧生成。说话人控制:通过一个预训练的说话人编码器(speechbrain/spkrec-ecapa-voxceleb)从目标语音中提取2-8秒的片段,其嵌入被插入LLM输入序列以条件化生成语音的说话人身份。 ...

2026-05-30 · 更新于 2026-06-19 · 4 min · 730 words

语音/音乐/音频论文速递 2026-05-30

语音/音乐/音频论文速递 2026-05-30 共分析 6 篇论文 ⚡ 今日概览 📥 抓取 6 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 2篇 ██ #语音情感识别 1篇 █ #强化学习 1篇 █ #Transformer 1篇 █ 📊 论文评分排行榜(6 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 A Multi-Probe Audit of Clinical-Interview Depression De 9.6分 前10% #语音情感识别 🥈 EchoDistill:Alignment Noisy-to-Clean Self-Distillation 9.1分 前50% #强化学习 🥉 MIRAGE: Adaptive Multimodal Gating for Whole-Brain fMRI 8.2分 前50% #Transformer 4. Direct Preference Optimization for English-Mandarin Cod 7.2分 前50% #语音识别 5. Raon-Speech Technical Report 6.5分 前25% #语音识别 6. PiAnnotate: A Web Annotation Tool for Piano Fingering, 6.0分 前50% - 📋 论文列表 🥇 A Multi-Probe Audit of Clinical-Interview Depression Detection Benchmarks 🔥 9.6/10 | 前10% | #语音情感识别 | #迁移学习 | #音频信号处理 #预训练语言模型 | arxiv ...

2026-05-30 · 更新于 2026-06-19 · 3 min · 583 words

Archon: A Unified Multimodal Model for Holistic Digital Human Generation

📄 Archon: A Unified Multimodal Model for Holistic Digital Human Generation #多模态模型 #扩散模型 #无监督学习 #生成对抗网络 #数据增强 #语音识别 ✅ 7.5/10 | 前50% | #语音合成 | #生成对抗网络 | #多模态模型 #扩散模型 | arxiv 学术质量 5.5/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度 中 👥 作者与机构 论文作者: Chong Bao, Shichen Liu, Lijun Yu, David Futschik, Stylianos Moschoglou, Shefali Srivastava, Ziqian Bai, Feitong Tan, Guofeng Zhang, Zhaopeng Cui, Sean Fanello, Yinda Zhang 发表场合/期刊: arXiv: 2605.30311 研究领域: 计算机视觉、多模态学习、数字人生成 💡 毒舌点评 这篇论文的野心足以撑爆一个顶会,试图用一个模型吞下数字人的所有模态——文本、语音、动画、视频。架构图和“模态思维”的概念确实画了一张好饼,让人眼前一亮。然而,现实很骨感。最硬的伤在可复现性:核心组件依赖闭源的PaLM2和未公开的海量私有数据集,这对于绝大多数研究者而言意味着“看得到,摸不着”。其次,实验评估严重偏科,号称支持72个任务,但主要定量评估只集中在语音驱动视频生成这一两个任务上,其他几十个任务的能力更像是“口头支票”。那个听起来高大上的“模态思维”策略,本质上是一种推理时的链式分解,却缺乏理论解释其为何有效,更像是一种工程上的trick。总体而言,这是一篇方向正确、架构有想法的系统论文,但其科学贡献被工程壁垒和不充分的验证所削弱,难以被认定为一个扎实的里程碑工作。 ...

2026-05-29 · 更新于 2026-06-19 · 2 min · 344 words

Audio Jailbreaks in Large Audio-Language Models: Taxonomy, Attack-Defense Analysis, and Cost-Aware Evaluation

📄 Audio Jailbreaks in Large Audio-Language Models: Taxonomy, Attack-Defense Analysis, and Cost-Aware Evaluation #多模态模型 #数据增强 🔥 8.9/10 | 前25% | #多模态模型 | #数据增强 | arxiv 学术质量 5.7/7 | 影响力 1.7/2 | 可复现性 1.5/2 | 置信度 高 👥 作者与机构 Bo-Han Feng, Yu-Hsuan Li Liang, Chien-Feng Liu, You-Hsuan Chang, Yun-Nung Chen. 台湾大学(National Taiwan University)。注:论文中明确标注了共同第一作者(*)。 💡 毒舌点评 这篇论文的出发点是好的,试图为混乱的LALM越狱攻击研究建立秩序,像给一群瞎摸大象的盲人递上了一份详细的解剖图谱。分类学部分做得扎实,将语义、声学、信号、嵌入层攻击,以及护盾、训练无关、训练相关防御梳理得井井有条,这是其主要贡献。然而,作为一篇声称提供“统一评估”的论文,其实验部分却显得颇为“保守”甚至“取巧”。评估仅覆盖10个开源模型、仅使用黑盒API访问、仅测试两种防御(一个输入护盾和一个提示),这距离真正全面的“实证研究”还有不小差距。更关键的是,所谓的“成本感知评估”虽然提出了延迟指标,但其分析深度有限,例如对TTS成本、多次查询的累积财务开销、以及防御部署的实际算力成本都未做量化,使得“成本”这一核心论点显得有些浮于表面。论文更像是一个精心设计的、有限范围内的“示范性评估”,而非一个普适的基准。结论中“未来方向”部分写得比实验本身更能激发兴趣,这暗示了当前工作的探索性多于结论性。 📌 核心摘要 本文旨在解决大型音频语言模型(LALMs)越狱攻击研究领域缺乏统一评估框架和标准的问题,特别是忽略了攻击的实际可行性与成本。作者提出了一套涵盖攻击(语义、声学、信号、嵌入层)、防御(基于护盾模型、免训练、基于训练)和基准(跨模态、音频原生、交互式)的统一分类体系(Taxonomy)。通过在十个开源LALMs上进行受控实验,系统评估了代表性攻击(如语义改写、最佳-N搜索)和防御(护盾模型、防御提示)的有效性、良性拒绝率(BRR)和延迟开销。实验结果表明,声学最佳-N(Acoustic BoN)攻击揭示了最强的音频空间漏洞,但需要极高的延迟;叙事框架(Narrative Framing)是有效的低延迟语义威胁。防御方法普遍存在稳健性与可用性(良性拒绝率)之间的权衡:护盾模型精确但对声学搜索脆弱,防御提示更稳健但导致更高的良性拒绝率。论文强调LALM安全评估应是一个多目标问题,需要综合考量攻击成功率(ASR)、良性拒绝率、延迟、成本和隐蔽性。 🔗 开源详情 代码:论文中未提供具体的代码仓库链接。但附录C.5承诺将在论文发表后发布评估代码、攻击配置文件、声学/信号特征向量生成脚本、延迟测量脚本、评判员提示和聚合结果文件。 模型权重:论文评估了10个开源大型音频语言模型,具体权重链接如下: Audio Flamingo 3: https://huggingface.co/GoelVaibhav/audio-flamingo-3-hf DeSTA2.5-Audio: https://github.com/desta-team/DeSTA2.5-audio Fun-Audio-Chat-8B: https://huggingface.co/InclusionAI/Fun-Audio-Chat-8B midashenglm-7b-1021-bf16: https://huggingface.co/MiMo-midashenglm/midashenglm-7b-1021-bf16 MOSS-Audio-4B-Instruct: https://huggingface.co/OpenMOSS/MOSS-Audio-4B-Instruct MOSS-Audio-8B-Instruct: https://huggingface.co/OpenMOSS/MOSS-Audio-8B-Instruct Phi-4-multimodal-instruct: https://huggingface.co/microsoft/Phi-4-multimodal-instruct Qwen3-Omni-30B-A3B-Instruct: https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct Voxtral-Mini-3B-2507: https://huggingface.co/mistralai/Voxtral-Mini-3B-2507 Voxtral-Small-24B-2507: https://huggingface.co/mistralai/Voxtral-Small-24B-2507 数据集: JailbreakBench (JBB-Behaviors): https://huggingface.co/datasets/JailbreakBench/JBB-Behaviors (MIT 许可证) Demo:论文中未提及。 复现材料:论文中承诺发布支持复现的评估代码和配置文件(附录C.5),但未说明具体时间。 论文中引用的开源项目: Qwen3-TTS: https://huggingface.co/Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign (用于语音合成) VoiceShield (voiceSHIELD-small): https://huggingface.co/Emvo-ai/voiceSHIELD-small (用作输入防御) gpt-oss-safeguard-20b: https://huggingface.co/openai/gpt-oss-safeguard-20b (用作 LLM 评判员) whisper-large-v3: https://huggingface.co/openai/whisper-large-v3 (用于可懂度测试) JailbreakBench: https://huggingface.co/datasets/JailbreakBench/JBB-Behaviors (基准数据集) AdvBench:论文中提及,为被转换为语音的基础文本安全基准。 Llama-Guard:论文中提及,为文本/视觉领域外部防御模型。 ShieldVLM:论文中提及,为文本/视觉领域外部防御模型。 🏗️ 方法概述和架构 本文的方法核心是构建一个统一的分类框架(Taxonomy)并在此框架下进行受控的实证评估。 ...

2026-05-29 · 更新于 2026-06-19 · 2 min · 239 words

Benchmarking Single-Factor Physical Video-to-Audio Generation

📄 Benchmarking Single-Factor Physical Video-to-Audio Generation #音频生成 #多模态模型 🔥 9/10 | 前25% | #音频生成 | #多模态模型 | arxiv 学术质量 6.4/7 | 影响力 1.5/2 | 可复现性 1.1/2 | 置信度 高 👥 作者与机构 作者:Tingle Li (UC Berkeley, NVIDIA), Siddharth Gururani (NVIDIA), Kevin J. Shih (NVIDIA), Gantavya Bhatt (University of Washington), Sang-gil Lee (NVIDIA), Zhifeng Kong (NVIDIA), Arushi Goel (NVIDIA), Gopala Anumanchipalli (UC Berkeley), Ming-Yu Liu (NVIDIA)。注意:Tingle Li, Siddharth Gururani, Kevin J. Shih 为共同第一作者(Equal contribution)。 机构:UC Berkeley, NVIDIA, University of Washington。 项目主页:https://research.nvidia.com/labs/cosmos-lab/flatsounds/ ...

2026-05-29 · 更新于 2026-06-19 · 3 min · 504 words

COMET: Concept Space Dissection of the Modality Gap in Audio-Text Multimodal Contrastive Embeddings

📄 COMET: Concept Space Dissection of the Modality Gap in Audio-Text Multimodal Contrastive Embeddings #多模态模型 #对比学习 ✅ 6.5/10 | 前50% | #音频检索 | #对比学习 | #多模态模型 | arxiv 学术质量 5/7 | 影响力 1/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 论文标题:COMET: Concept Space Dissection of the Modality Gap in Audio-Text Multimodal Contrastive Embeddings 作者:Yonggang Zhu, Liting Gao, Aidong Men, Wenwu Wang 机构: 北京邮电大学 人工智能学院 英国萨里大学 视觉、语音与信号处理中心 (CVSSP) 通讯作者:Wenwu Wang 资助信息:China Scholarship Council (202506470003) 💡 毒舌点评 这篇论文试图为CLAP模型中已知的模态间隙问题提供一个新的“概念分解”视角,并由此提出一个无训练的嵌入压缩方法PLSHead。优点在于它整合分析了嵌入空间结构、相似性计算机制和现有投影解码方法,理论推导有一定新意。然而,作为一篇顶会投稿,其“创新性”需要打折扣:1)核心工具PLS-SVD是成熟的统计方法,其在CLAP上的应用属于工程组合;2)提出的PLSHead方法本质是启发式的截断,关键参数K的选择缺乏理论指导;3)实验部分大量篇幅复现和比较已有的投影解码(PD)方法,并宣称其PLSHead可“替代”PD,但实际上在零样本字幕任务中并未显著超越使用完整记忆库的PD。此外,论文声称“首次提出统一的概念分解框架”,但相关工作列举了多种多模态嵌入分解方法(如SpLiCE, CCA+匹配),对“首次”的claim需更严谨。总体而言,工作扎实但突破性有限,更像是一篇细致的分析性文章。 ...

2026-05-29 · 更新于 2026-06-19 · 4 min · 650 words

Mitigating Stethoscope-Induced Shortcuts in Respiratory Sound Classification under Federated Domain Generalization with Causality-Inspired Interventions

📄 Mitigating Stethoscope-Induced Shortcuts in Respiratory Sound Classification under Federated Domain Generalization with Causality-Inspired Interventions #联邦学习 #数据增强 #多模态模型 #音频分类 🔥 8.5/10 | 前25% | #音频分类 | #联邦学习 | #数据增强 #多模态模型 | arxiv 学术质量 5.5/7 | 影响力 1.5/2 | 可复现性 1.5/2 | 置信度 中 👥 作者与机构 未提及论文作者和机构信息。 💡 毒舌点评 这篇论文试图解决一个实际且重要的问题——呼吸声分类模型在跨听诊器设备时的性能下降,并提出了一个包含因果干预、反事实文本增强和梯度对齐的联邦学习框架(BTS-CAFE)。其核心动机(打破设备风格与病理内容的虚假关联)是合理的。然而,评审感觉论文在几个关键方面存在不足:1) “首次提出”的声明过于绝对,对相关工作的综述和定位不够严谨;2) 实验设置虽模拟了联邦场景,但“单客户端”的评估与实际大规模联邦应用存在差距;3) 作者声称的“最佳”性能有时仅比次优方法高零点几,统计显著性存疑;4) 讨论部分对局限性的挖掘流于表面,未深入探讨方法在更复杂异质场景下的潜在失效模式。总体而言,这是一份扎实的工作,但在深度和说服力上仍有提升空间。 📌 核心摘要 本文针对呼吸声分类(RSC)模型因听诊器设备异质性导致的分布偏移问题,提出了一个联邦域泛化(FedDG)框架BTS-CAFE。其核心观察是,听诊器特有的设备风格(S)与疾病相关内容(C)在表征中高度纠缠,传统的确定性风格移除方法会损害病理信息。为此,BTS-CAFE集成了三个关键组件:1)因果启发式的生成式设备风格干预网络(GIN),通过可控的增益、随机分组卷积和频率掩码进行内容保持的风格扰动,近似于因果干预 do(S);2)反事实文本增强,中和文本元数据中可能携带的设备捷径;3)基于单样本全模型梯度的对齐正则化,鼓励跨客户端的设备不变决策边界。基于CLAP多模态预训练模型,该方法在ICBHI和SPRSound数据集的“留一设备外”(LODO)联邦验证设置下,相比传统数据增强和联邦学习基线,在域外(OOD)性能上取得了一致的提升。 🔗 开源详情 代码:论文中未提及具体代码仓库链接。文中明确声明“Code will be released upon publication”。 模型权重:未提及。 数据集: ICBHI:论文引用了原始数据集 [24],但未提供获取链接。通常可通过PhysioNet获取。 SPRSound:论文引用了数据集 [30],未提供获取链接。 Demo:未提及。 复现材料:提供了关键训练配置(学习率、轮次、硬件)、评估协议(LODO, Score指标)和超参数。但未提供模型权重或完整代码包。 论文中引用的开源项目: CLAP:提供了HuggingFace链接 https://huggingface.co/laion/clap。 AST, BTS, FedAvg, FedSR, FedIIR, PromptFL, FedCAug, CutMix, Mixup, RepAugment, SpecAugment:仅提供了文献引用,未提供代码仓库链接。 🏗️ 方法概述和架构 BTS-CAFE框架构建在BTS多模态音频-语言预训练模型之上,旨在解决联邦学习(FL)场景下,由客户端(每个客户端使用单一听诊器设备)异质性引起的域偏移问题。其核心思想是,通过因果启发式的干预和正则化,使全局模型学习与设备风格S无关、只依赖疾病内容C的表征,从而泛化至未见设备d⋆。整个框架包含以下三个核心组件,它们在本地训练循环中协同作用: ...

2026-05-29 · 更新于 2026-06-19 · 3 min · 481 words

MusTBENCH: Benchmarking and Advancing Temporal Grounding in Music LLMs

📄 MusTBENCH: Benchmarking and Advancing Temporal Grounding in Music LLMs #音乐生成 #音频问答 #强化学习 #多模态模型 #参数高效微调 ✅ 7.5/10 | 前50% | #音乐生成 | #强化学习 | #音频问答 #多模态模型 | arxiv 学术质量 4.9/7 | 影响力 1.8/2 | 可复现性 0.8/2 | 置信度 中 👥 作者与机构 作者:Daeyoung Kwon, Qiyu Wu, Shinobu Kuriya, Junghyun Koo, Shuyang Cui, Zhi Zhong, Wei-Hsiang Liao, Hiromi Wakaki, Yuki Mitsufuji 机构:首尔大学,索尼集团,索尼AI 💡 毒舌点评 这篇工作像一位认真但略显保守的工程师:它发现了一个重要的问题(音乐LLM缺乏时序定位能力),并搭建了一套完整、系统但不够性感的解决方案(构建基准+提出四阶段训练流程)。优点是踏实、全面,消融实验做得像实验报告一样工整。缺点是缺乏令人眼前一亮的“啊哈”时刻:MusTBench的构建严重依赖自动化的、可能存在噪声的管道(用模型预测边界和情绪),这让人对其“专家验证”的成色打个折扣;提出的MusT训练流程本质上是现有技术(LoRA、时间戳描述、SFT、GRPO)在音乐时序任务上的有序组合,创新性有限。最令人不满的是,对于一篇强调“时序定位”重要性的论文,竟然完全没有提供模型计算开销(训练/推理时间、显存)的数据,这在实际应用中是关键考量。此外,强化学习部分使用的奖励函数设计(指数衰减、软F1)参数(如15秒尺度、σ=15)的选择缺乏理论或充分消融支撑,显得有些“拍脑袋”。总的来说,这是一篇扎实的系统性工作,但未能将问题的重要性与解决方案的独创性匹配起来。 📌 核心摘要 本文针对当前大型音频语言模型(LALMs)在音乐理解中缺乏精确时序定位能力的问题,做出了三项贡献:1)识别并明确了“音乐时序定位”这一关键能力缺失;2)提出了MusTBench,一个由音乐专家验证的、包含五个时序定位问答任务的基准;3)提出了MusT,一个包含编码器适应、LLM适应、监督微调和强化学习优化的四阶段训练流程,有效提升了模型的时序定位性能。 🔗 开源详情 代码:论文在摘要结尾提及“Code and benchmark data will be available soon”,但未提供任何具体的代码仓库链接(如GitHub)。 模型权重:论文未提及任何已发布的模型权重下载链接或HuggingFace/ModelScope页面。 数据集:论文详细描述了“MusTBench”基准的构建过程,但正文中仅指出其数据“will be available soon”,未提供具体的下载链接、托管平台或开源协议。 Demo:论文中未提及。 复现材料:论文在附录(§A.4和§A.5.2)提供了详细的训练配置和超参数表格(Table 11),包括各阶段的学习率、批大小、训练数据量、LoRA设置等。此外,附录包含具体的实现细节(如动态采样、损失函数、奖励函数公式)。但这些材料无法替代缺失的代码和数据集。 论文中引用的开源项目: MERT (音频编码器):论文引用 Li et al. (2024),未提供直接项目链接。 LoRA (高效微调):论文引用 Hu et al. (2022),未提供直接项目链接。 Qwen2.5 Omni (基础模型):论文引用 Xu et al. (2025),未提供直接项目链接。 其他工具与数据集:论文提及使用了 librosa, madmom, Essentia (音频分析库)以及 Slakh2100, MTG-Jamendo, OpenMIC-2018, MusicCaps (数据集),但均未提供具体版本或获取链接。 🏗️ 方法概述和架构 本文提出的MusT模型是基于Qwen2.5 Omni架构的扩展。其核心设计是引入了一个新的“时序感知音乐编码器”(MusT encoder)与原有的Qwen音频编码器构成双编码器系统,并通过一个四阶段训练流程来系统性地增强模型的时序定位能力。架构与流程如下: ...

2026-05-29 · 更新于 2026-06-19 · 3 min · 447 words