指令微调 | 语音/音乐/音频论文速递

Improving Text-to-Audio Instruction Following via Fine-Grained Feedback from Audio-Aware Large Language Models

📄 Improving Text-to-Audio Instruction Following via Fine-Grained Feedback from Audio-Aware Large Language Models 标签：#音频生成 #指令微调 #音频大模型 #音频理解 #Transformer 7.2/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 0.9/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 7.2/10 | 前50% | 文档类型：方法研究 | 评分置信度：高 | #音频生成 | #指令微调 | #音频大模型 #音频理解 | arxiv 👥 作者与机构第一作者：Chun-Yi Kuan（台湾大学）通讯作者：Chun-Yi Kuan（论文中标注了联系邮箱）作者列表：Chun-Yi Kuan（台湾大学、亚马逊实习期间完成）、Siwon Kim（亚马逊）、Byeonggeun Kim（亚马逊）、Suyoun Kim（亚马逊）、Bo-Ru Lu（亚马逊）、Qingming Tang（亚马逊）、Ankur Gandhe（亚马逊）、Hung-yi Lee（台湾大学）、Chieh-Chi Kao（亚马逊）、Chao Wang（亚马逊） 💡 毒舌点评论文直击了当前文本到音频生成模型在遵循复杂多事件时序指令时“力不从心”的痛点，利用ALLM作为细粒度裁判来构建偏好数据的思路清晰且实验效果显著，为改善指令遵循能力提供了一条有潜力的新路径。然而，整个框架的成败高度悬于所选ALLM裁判的准确性与推理成本，使其在追求极致可控性的工业场景中“看起来很美”但“用起来肉疼”。论文未能提出一种低成本的替代验证或蒸馏方案来缓解对庞大ALLM的依赖，这极大地限制了其方法的实际可扩展性和落地前景。此外，对时序关系的评估仅限于事件起始顺序的简单排序，回避了对重叠、持续时间等更复杂时序关系的探讨，使得其“时序正确性”的声明在更广泛的意义上略显单薄。 ...

NAVER LABS System Re-implementation for the IWSLT 2026 Instruction-Following Task

📄 NAVER LABS System Re-implementation for the IWSLT 2026 Instruction-Following Task #语音翻译 #语音识别 #指令微调 #多模态模型 #参数高效微调 6.4/10 | 创新 0.5/2 | 严谨 0.8/1.5 | 实验 0.8/1.5 | 清晰 0.8/1 | 影响 0.7/1.5 | 开源 1.2/1.5 | 复现 0.4/0.5 | 工程 1.2/1.5 ✅ 6.4/10 | 前50% | #语音翻译 | #参数高效微调 | #语音识别 #指令微调 | arxiv 👥 作者与机构第一作者：Anand Kamble（Florida State University）第二作者：Aniket Tathe（University of Illinois Urbana-Champaign）通讯作者：未明确说明。 💡 毒舌点评这是一份诚实的系统复现报告，它把NAVER LABS 2025的旧船票勉强贴上了IWSLT 2026的新船，工程上中规中矩。但作为一篇论文，它几乎没有任何方法层面的新贡献：三阶段训练是照搬的，合成数据是Gemma生成的，且最关键的是——这10万条数据造出来了却没被用在主实验结果里，成了一个挂羊头卖狗肉的“未兑现承诺”。开源了代码却没给模型权重，这让“开源”两字的诚意大打折扣。作为共享任务基线尚可一用，作为学术论文则乏善可陈。 ...

FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs

📄 FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs #音视频问答 #指令微调 8/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 0.7/1 | 影响 1.1/1.5 | 开源 1.1/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 🔥 8/10 | 前25% | #音视频问答 | #指令微调 | arxiv 👥 作者与机构第一作者：Qian Chen（复旦大学，上海）通讯作者：Jinlan Fu（复旦大学，上海）作者列表：Qian Chen（复旦大学，上海）、Jinlan Fu（复旦大学，上海）、Changsong Li（复旦大学，上海；上海创新研究院）、Min Zhang（哈尔滨工业大学，深圳）、See-Kiong Ng（新加坡国立大学）、Xipeng Qiu（复旦大学，上海；上海创新研究院） 💡 毒舌点评 FutureOmni 精准地抓住了当前多模态 LLM 评估中“回顾性理解”泛滥而“前瞻性预测”缺失的真实痛处，尤其是首次将音频拉入未来预测评估的核心，这使得它天生比纯视觉的未来预测基准高出一个段位。然而，OFF 训练策略本质是标准指令微调加上因果推理数据，在方法论上缺乏令人惊喜的架构创新，更像是一次精心设计的数据集和评估框架贡献，而非全新的建模范式。 📌 核心摘要要解决的问题：现有多模态大语言模型（MLLM）评估主要聚焦于回顾性理解，忽视了从音视频联合上下文中预测未来事件的能力，尤其是音频模态在预测中的关键作用长期未被系统性地评估。方法核心：构建了首个面向 Omni-modal 未来预测的基准测试 FutureOmni（含 919 个视频、1,034 条多选 QA），并提出 OFF （Omni-Modal Future Forecasting）训练策略。该策略基于 7, 761 条指令微调数据，训练模型基于历史音视频片段进行因果推理和预测。与已有方法的不同：区别于纯视觉（VLEP、IntentQA）或纯文本的未来预测基准，FutureOmni 首次将音频模态作为预测的核心信息来源。引入了四种对抗性干扰项（仅视觉、仅音频、延迟、逆因果），迫使模型进行真正的跨模态因果推理。主要实验结果：在 20 个模型上进行了评估，表现最佳的商用模型 Gemini 3 Flash 准确率仅为 64.8%，而最强开源 Omni 模型 Qwen3-Omni 为 53.05%。OFF 训练策略使得 Qwen2.5-Omni 在语音密集型场景中提升了近 10%（37.83% → 47.75%），video-SALMONN 2 提升了 3.87%。此外，OFF训练还展现了对通用音视频基准的泛化能力提升。模型 Cartoon Edu Emerg Surv Daily Movie Game Doc Avg AVicuna 7B 31.62 39.00 26.09 35.21 32.81 28.19 33.73 20.83 30.37 VideoLLaMA2 7B 43.59 47.00 29.35 53.52 40.62 32.60 57.83 31.94 40.75 Qwen2.5-Omni 3B 37.61 51.00 29.35 57.75 35.94 32.16 51.81 25.00 38.91 video-SALMONN 2 7B 43.59 55.00 39.13 57.04 48.44 40.97 57.83 34.72 46.03 Qwen3-Omni 30B 52.94 68.00 32.88 62.71 59.05 45.60 62.65 49.25 53.05 Gemini 3 Flash 62.71 75.00 58.70 80.28 68.75 59.03 65.06 53.47 64.80 GPT-4o (video-only) 44.06 65.00 34.78 57.74 52.34 50.22 51.80 36.11 49.70 实际意义：为多模态 LLM 的预测推理能力提供了标准化的评估框架，有望推动自动驾驶、人机交互等需要前瞻性感知的应用场景研究。主要局限性：数据集规模相对较小（919个视频），视频时长分布不均，中长视频样本不足导致分析结论可能不稳定。OFF 训练策略创新性有限。评估仅限选择题形式，缺乏开放式生成评估，可能无法完整反映模型的预测能力。 🔗 开源详情代码：提供了 GitHub 链接：https://github.com/OpenMOSS/FutureOmni 模型权重：未提供 OFF 微调后的模型检查点。数据集：FutureOmni 评测基准和 FutureOmni-7K 指令微调数据集可通过上述 GitHub 仓库获取。 Demo：未提及。复现材料：训练和推理配置见附录，代码仓库提供了实现脚本。论文本身未提供可直接运行的完整训练配置文件或详细的数据预处理脚本。 🏗️ 方法概述和架构 FutureOmni 的核心方法包括基准构建流水线、评估框架设计和 OFF 训练策略三大部分。 ...

SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering

📄 SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering #音频修复 #流匹配 #多模态模型 #指令微调 8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5 🔥 8/10 | 前25% | #音频修复 | #流匹配 | #多模态模型 #指令微调 | arxiv 👥 作者与机构第一作者：Jan Melechovsky （Singapore University of Technology and Design）通讯作者：Jan Melechovsky （Singapore University of Technology and Design）作者列表：Jan Melechovsky（Singapore University of Technology and Design）、Ambuj Mehrish（Ca’ Foscari University of Venice）、Abhinaba Roy（Singapore University of Technology and Design）、Dorien Herremans（Singapore University of Technology and Design） 💡 毒舌点评 SonicMaster在"All-in-One"音乐修复上的尝试是勇敢且及时的，用一套流匹配框架统一了19种退化类型的处理，避免了以往的级联错误。但数据生成高度依赖模拟退化，而真实世界录音的退化远比参数化函数复杂和混沌得多，模型对真实复杂混合退化的泛化能力仍是未知数。VAE潜在空间的引入确实提升了效率，但也带来了可闻的编解码伪影——论文自己都承认会出现“机器人嗓音”和清晰度损失，这在一个标榜“专业级”的母带处理场景下显得不够“clean”。与效应移除模型的对比更像是一场不公平的“表演赛”，高得惊人的SI-SDR背后，很可能只是模型学会了把音频“母带化”得更响、更亮，而非真正忠实地修复了信号。 ...

Unlocking Speech–Text Compositional Powers: Instruction-Following Speech Language Models without Instruction Tuning

📄 Unlocking Speech–Text Compositional Powers: Instruction-Following Speech Language Models without Instruction Tuning #语音交互 #语音大模型 #模型融合 #参数高效微调 #指令微调 #语音合成 6.7/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 0.9/1 | 影响 0.9/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 0.7/1.5 ✅ 6.7/10 | 前50% | #语音交互 | #模型融合 | #语音大模型 #参数高效微调 | arxiv 👥 作者与机构第一作者：Congrui Du（University of California, Santa Barbara, USA）通讯作者：Yang Zhang（MIT-IBM Computing Research Lab, IBM Research, USA）其他作者：Kaizhi Qian（MIT-IBM Computing Research Lab, IBM Research）、Shiyu Chang（University of California, Santa Barbara） 💡 毒舌点评这篇论文用一个极其简单的权重算术绕过了SLM领域“卷数据”的军备竞赛，洞察深刻，但成也萧何败也萧何——仅用30k小时数据就达成此性能令人眼前一亮，但其方法的脆弱性同样引人注目：输出格式极度依赖后期强制修正、语音能力上限被韵律分词器锁死、对预训练数据结构的病态依赖，以及依赖外部ASR的pipeline设计，使其离一个实用、鲁棒的SLM新范式尚有距离。它更像一个巧妙的概念验证，而非可直接部署的突破。 ...

Aligning MusicLLM with Emotion using Instruction Tuning and Feedback-Driven Alignment

📄 Aligning MusicLLM with Emotion using Instruction Tuning and Feedback-Driven Alignment #音乐情感识别 #指令微调 #强化学习 4.9/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0.2/1.5 | 复现 0.4/0.5 | 工程 0.2/1.5 📝 4.9/10 | 后50% | #音乐情感识别 | #指令微调 | #强化学习 | arxiv 👥 作者与机构作者：Takuya Hasumi, Welly Naptali 机构：LY Corporation 💡 毒舌点评这篇论文的动机尚可，但执行和论证的深度令人失望。它本质上是一次技术应用的报告，而非方法论上的创新。所谓“反馈驱动对齐”不过是将已有的GRPO算法直接套用到一个新任务上，论文未提供任何为何该算法在此场景有效的深度洞察或实验分析。更糟糕的是，实验结果明确显示，即使应用了这一“对齐”，模型的性能依然被简单的MusicFM probing基线轻松碾压。这不禁让人质疑整个工作的必要性——如果一个专门为情感回归设计的、更简单的模型已经表现更好，我们为何要耗费数倍的资源去训练一个庞大、低效且性能更差的多任务模型？论文反复强调“保持了MusicQA能力”，但这更像是一个为了合理化低回归性能的借口。如果回归是主要目标，那么在主要目标上不及格，而次要目标上“达标”，并不能构成一个强有力的故事。 📌 核心摘要本文探讨了如何通过指令微调和反馈驱动对齐（FDA）来提升音乐大语言模型（MusicLLM）在情感回归任务上的表现。作者基于SLAM-LLM架构，构建了由MusicFM编码器和Vicuna解码器组成的模型。实验对比了仅指令微调、指令微调后接FDA（采用GRPO算法）等策略。结果表明，单独的指令微调对效度（valence）预测提升有限，而引入基于回归误差的数值奖励的FDA后，唤醒度和效度预测均得到显著提升，并且模型的通用音乐问答能力得以维持。然而，该方法最终的回归性能仍低于传统的MusicFM probing基线和部分编码器专用模型。 🔗 开源详情代码：论文中未提及代码链接。模型权重：音乐编码器 (MusicFM): https://huggingface.co/ExponentialML/MusicFM-LMS-256 文本解码器 (Vicuna): https://huggingface.co/lmsys/vicuna-7b-v1.5 作为基线评估的开源模型: Qwen2-Audio: https://huggingface.co/Qwen/Qwen2-Audio-7B-Instruct Phi-4-Multimodal: https://huggingface.co/microsoft/Phi-4-multimodal-instruct 数据集： DEAM: http://cvml.unige.ch/databases/DEAM/ MERGE: https://github.com/wangsixu/MERGE MusicQA: https://github.com/RuslanLukashen/MusicQA （用于评估通用音乐问答能力） Demo：论文中未提及。复现材料：论文中提及了详细的训练配置（如优化器、批次大小、梯度累积步数、LoRA参数、GRPO参数等），但未提供具体的训练脚本、配置文件或预训练检查点。论文中引用的开源项目： SLAM-LLM: https://github.com/fanhuashuo/SLAM-LLM （本工作基于的模型架构） GRPO (Group Relative Policy Optimization): https://github.com/airobotlab-KoGrPO/GRPO （论文中采用的对齐算法） LoRA (Low-Rank Adaptation): https://github.com/microsoft/LoRA （训练时使用的技术）作者与机构作者：Takuya Hasumi, Welly Naptali 机构：LY Corporation ...

OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains

📄 OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains #数据增强 #自监督学习 #预训练 #指令微调 #多模态模型 8.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 🔥 8.2/10 | 前50% | #数据增强 | #数据增强 | #自监督学习 #预训练 | arxiv 👥 作者与机构 Xinyue Cai, Chaoyou Fu, Yi-Fan Zhang, Ran He, Caifeng Shan。南京大学，中国科学院自动化研究所。 💡 毒舌点评这篇论文的出发点很好，瞄准了当前音频-视觉QA数据合成中的“叙事断裂”和“浅层推理”痛点。提出的两阶段管道（实体锚定脚本+线索引导QA）在技术路线上是合理的。论文的实验部分做得相当扎实，在多个基准上展示了微调后的显著增益，且消融实验提供了有力的证据链。然而，其核心贡献更偏向于一个“数据工程”的工作包，而非具有强大理论新颖性或技术突破的方法。创新性在于精心的系统设计和组件的巧妙组合，但单个组件（如实体列表、线索挖掘）并非全新概念。最大的短板在于，其数据合成完全依赖于商用黑盒模型，这使得方法的可复现性和对数据质量的控制存在根本性隐患。论文在影响力上有所妥协，因为其核心贡献（数据集）直接服务的“音频-视觉推理”领域相对狭窄，对广大语音/音乐领域的读者直接助益有限。 ...

TinyGiantALM: A Compact Audio-Language Model for Intent-Aware Reasoning under Resource Constraints

📄 TinyGiantALM: A Compact Audio-Language Model for Intent-Aware Reasoning under Resource Constraints #多模态模型 #指令微调 6.4/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 6.4/10 | 前50% | #多模态模型 | #指令微调 | arxiv 👥 作者与机构 Vinh-Thuan Le 1 University of Science, VNU-HCM, Ho Chi Minh City, Vietnam; 2 Vietnam National University, Ho Chi Minh City, Vietnam 💡 毒舌点评优点： ...

SMILE-Next: Teaching Large Language Models to Detect, Classify, and Reason about Laughter

📄 SMILE-Next: Teaching Large Language Models to Detect, Classify, and Reason about Laughter #多模态模型 #参数高效微调 #语音情感识别 #指令微调 #大语言模型 🔥 8.7/10 | 前25% | #语音情感识别 | #参数高效微调 | #多模态模型 #指令微调 | arxiv 学术质量 6.1/7 | 影响力 1.5/2 | 可复现性 1.1/2 | 置信度高 👥 作者与机构 Lee Jung-Mok, Kim Sung-Bin, Joohyun Chang, Lee Hyun, Tae-Hyun Oh (通讯作者)。机构：1) 韩国高等科学技术院（KAIST）电气工程学院；2) 浦项科技大学（POSTECH）电气工程系；3) 韩国高等科学技术院（KAIST）计算学院。 💡 毒舌点评这篇工作就像给大语言模型装上了一个“笑声解码器”。作者很聪明地避开了处理原始音视频的泥潭，转而将所有多模态信号“翻译”成文本，让LLM用它最擅长的阅读理解来分析笑声。SMILE-Next数据集和MoLE框架都是扎实的工程贡献。然而，审稿人看到“文本化”这招会觉得有点似曾相识（论文自己也承认受Hyun et al., 2024启发），创新深度有限。更关键的是，把笑声这种极度依赖语境和微妙非语言线索的行为完全文本化，可能丢失了大量信息，而论文对此的验证不足。此外，数据集Fleiss’ Kappa仅为0.42（中等一致性），这就像用一把刻度不准的尺子去量东西，最后模型的“优越性”打了多少折扣？7.5分，算是对扎实工作的肯定，但离顶会突破性工作还有距离。 📌 核心摘要本文针对笑声这一复杂社交信号的理解提出了综合性框架。研究者首先构建了SMILE-Next数据集，包含笑声检测、类型分类（愉快、礼貌、讽刺）和推理三项任务，数据来源于多种真实对话场景，并提供了将视觉、声学、关系等多模态信息转换后的文本化表示及问答标注。基于此，他们提出两个核心组件：1) 笑声特定自指令：利用GPT-4合成多样化指令数据以增强泛化能力；2) 混合笑声专家框架：一种基于LoRA的参数高效微调方法，通过动态路由器为不同任务分配专门的专家模块。实验表明，结合自指令和MoLE的纯文本LLM方案在各项指标上均优于直接处理原始音视频的多模态LLM（如Qwen2.5-Omni）和视觉LLM（如Video-LLaVA）。消融研究证实了多模态文本化表示、自指令和MoLE的有效性。论文贡献了首个综合性多任务笑声理解数据集，并证明了将多模态信号文本化后输入LLM是一种有效的笑声分析范式。 🔗 开源详情代码：论文中未提及提供代码仓库。模型权重：论文中未提及提供预训练模型下载链接。数据集：论文中提及了SMILE-Next数据集，并提供了项目主页（https://mok0102.github.io/smile-next/），但未明确说明数据集是否公开发布及具体的下载协议。 Demo：论文中未提及在线演示。复现材料：论文在附录和正文中提供了较多实现细节（如LoRA配置\(r=8, \alpha=16\)，训练使用DeepSpeed ZeRO-3，批次大小，学习率等），但缺少完整的训练代码和预处理脚本，完全复现仍存在障碍。论文中引用的开源项目：主要包括WhisperX, DeepSpeed, LoRA, Self-Instruction框架，以及Vicuna, LLaMA, Qwen系列等模型和MiniCPM-o, Video-LLaVA等基线模型。具体链接已在论文中给出或为众所周知的项目。 🏗️ 方法概述和架构本文提出一个用于笑声理解的统一LLM框架，其核心思想是将多模态信号文本化后，利用LLM的推理能力进行处理。该框架主要包含两个关键组件：笑声特定自指令和混合笑声专家框架。 ...

TTS-PRISM: A Perceptual Reasoning and Interpretable Speech Model for Fine-Grained Diagnosis

📄 TTS-PRISM: A Perceptual Reasoning and Interpretable Speech Model for Fine-Grained Diagnosis #语音质量评估 #指令微调 #基准测试 #开源工具 #语音合成 ✅ 7.5/10 | 前25% | #语音质量评估 | #指令微调 | #基准测试 #开源工具 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：未说明（论文作者列表未明确排序，但根据邮箱 xi-wang24@mails.tsinghua.edu.cn 和作者列表首位推测，第一作者可能为 Xi Wang）。通讯作者：未说明（论文作者列表未明确标注，根据邮箱 zywu@sz.tsinghua.edu.cn 推测，通讯作者可能为 Zhiyong Wu）。作者列表：Xi Wang (1, 2), Jie Wang (3), Xingchen Song (2), Baijun Song (1), Jingran Xie (1), Jiahe Shao (1), Zijian Lin (1), Di Wu (1), Meng Meng (1), Jian Luan (2), Zhiyong Wu (1)。机构列表：1. 清华大学，中国；2. 小米公司 MiLM Plus，中国；3. 东京大学，日本。 💡 毒舌点评这篇论文像一个严谨的“语音体检医生”，为TTS系统量身定做了一套包含12个指标的“体检表”和基于大模型生成数据的“训练集”，确实让评估从“整体印象”走向了“分项诊断”。但尴尬的是，这位“医生”自己在“发音”这个最基础的体检项目上却可能受制于自身的“学术出身”（ASR预训练偏差），体检结论的权威性打了点折扣。 ...