强化学习，

📄 Aligning Language Models for Lyric-to-Melody Generation with Rule-Based Musical Constraints #音乐生成， #大语言模型， #强化学习， #跨模态 ✅ 评分：7.5/10 | arxiv 👥 作者与机构第一作者：Hao Meng（根据论文格式推断）通讯作者：未明确标注。根据论文中“Aligned Lyric2Melody Model”的在线演示域名（arain233.github.io）推断，可能与第一作者或项目负责人相关。其他作者：Siyuan Zheng, Shuran Zhou, Qiangqiang Wang, Yang Song 机构信息：论文全文未明确列出作者所属机构。根据论文内容和常见的学术实践推断，作者可能来自同一研究团队或实验室。论文中提到了“Xiaomi LLM Core Team”，但未明确说明作者是否隶属于此团队。（推断）所有作者可能来自小米公司或与其合作的研究机构。 💡 毒舌点评亮点：这论文最聪明的地方在于，它没去跟人类评委死磕“什么叫好听”，而是把音乐老师敲黑板划的重点（音域别太宽、节奏别太怪、歌词对齐）变成了冷冰冰的代码规则，让模型自己跟自己玩“大家来找茬”，省时省力还效果拔群。槽点：规则是把双刃剑，虽然保证了下限（能唱），但也可能锁死了上限（好听）。模型学会了“不犯错”，但离“写出动人旋律”可能还差着十个贝多芬的灵感。另外，实验里的“主观评分”居然没找专业音乐人，这就像让一群美食家去评判手术缝合技术，专业不对口啊！ 🔗 开源详情代码：已开源。GitHub地址：https://github.com/arain233/AligningMelody 模型权重：论文中未明确提及是否公开预训练或微调后的模型权重。数据集：偏好数据集由论文方法自动生成，论文中未提及是否公开此数据集。SFT训练数据部分来自公开的SongComposer数据集和私有源。在线Demo：提供。地址：https://arain233.github.io/AligningMelody-demo 依赖的开源项目：基于Qwen2.5-0.5B预训练模型。评估中使用了TechSinger架构的声码器（可能未开源）。 📌 核心摘要这篇论文旨在解决大语言模型在歌词到旋律生成任务中，通过监督微调（SFT）训练出的模型常产生音乐上不可行（如节奏怪异、音域超限）的“约束违反”问题。核心贡献是提出了一套无需人工标注、基于规则约束的自动化对齐框架。关键方法分为三步：首先对预训练LLM进行SFT以获得基础生成能力；其次，利用SFT模型生成大量候选旋律，并通过五类预定义的音乐规则（格式、歌词对应、音符重复度、时长合理性、音域）自动评估，构建包含“好-坏”配对和纯“坏”样本的偏好数据集；最后，采用序列对齐策略，先用DPO在配对数据上优化模型偏好，再用KTO在纯负面样本上进一步抑制不良输出。主要发现是该方法在客观指标（音高/时长分布相似度）和主观听感（MOS评分接近真人作品）上均显著优于多个基线，并能大幅减少各类规则违反。实际意义在于为将领域专家知识（以规则形式）高效、可扩展地注入生成模型提供了一种新范式，对音乐、代码等结构化生成任务有重要参考价值。局限性在于规则集可能无法涵盖所有音乐美学维度，生成的旋律在创造性上可能受限。 🏗️ 模型架构论文提出的“Lyric2Melody”模型架构是一个三阶段流程，核心是基于一个预训练的大语言模型（Qwen2.5-0.5B）。第一阶段：监督微调（SFT） - 输入：歌词文本序列。 - 输出：符号化旋律序列。旋律被表示为 | (歌词音节, MIDI音高, 时长毫秒) | ... | 的序列。 - 过程：在约130万（80万中文+50万英文）歌词-旋律对数据上微调预训练LLM，使其学会从歌词到该符号格式的映射。 - 关键设计：采用结构化元组表示，强制模型在生成音高和时长的同时，必须与具体的歌词音节对齐，为后续规则约束提供了清晰的解析基础。 ...

📄 NIM4-ASR: Towards Efficient, Robust, and Customizable Real-Time LLM-Based ASR #语音识别， #语音大模型， #强化学习， #流式处理 🔥 评分：8.5/10 | arxiv 👥 作者与机构作者：Yuan Xie, Jiaqi Song, Guang Qiu, Xianliang Wang, Kai Qiao, Junfeng Yuan, Shengqing Liu, Yi Zhang, Bowen Chen, Ming Lei, Jie Gao, Jie Wu 所属机构：Advanced Intelligent Systems Group, NIO (蔚来汽车) 备注：论文未明确区分第一作者和通讯作者。所有作者均来自同一工业界团队（NIO）。 💡 毒舌点评亮点：这是一篇典型的“工程美学”论文，把一个前沿技术（LLM-based ASR）在落地前可能遇到的坑（轻量化、幻觉、热词）都系统性地填上了，而且填得很扎实、很漂亮。特别是多阶段训练和流式推理的设计，体现了对LLM和语音特性深刻的理解。槽点：理论创新的“性感”程度略逊于其工程实现的“性感”。它更像是一个优化到极致的“解决方案”而非一个颠覆性的“新方法”。另外，开源信息的缺失对于这样一个以实用为导向的工作来说，是个不小的遗憾。 🔗 开源详情论文中未明确提及代码、模型权重或训练数据的开源计划。文末提供的GitHub链接（https://github.com/.../NIM4-ASR）上下文是“Report GitHub Issue”，且论文全文未提及任何关于开源发布的细节。因此，目前��法确认该项目已开源。 📌 核心摘要本文提出了NIM4-ASR，一个面向生产环境的高效、鲁棒且可定制的实时语音识别框架。该工作旨在解决现有LLM-based ASR在实际部署中的三大挑战：1) 轻量化模型性能严重下降（有限的向下扩展性）；2) 在声学挑战条件下产生幻觉；3) 缺乏生产就绪的热词定制机制。为此，作者提出了一套原则性的多阶段训练范式，通过模块感知的预训练、迭代异步监督微调（IA-SFT）和ASR专用强化学习（RL），显式地划分编码器与LLM的功能边界，减少模态差距并抑制表示漂移。在推理端，设计了优化的流式推理管道和基于音素检索增强生成（RAG）的百万级热词定制方案。实验表明，仅2.3B参数的NIM4-ASR在多个公开基准上达到SOTA水平，并在内部实体密集型场景中大幅超越更大规模的模型，同时支持亚毫秒级检索延迟的热词定制。该工作为构建适用于实时语音交互的LLM-based ASR系统提供了实用的解决方案。 🏗️ 模型架构 NIM4-ASR采用模块化的编码器-适配器-LLM架构，整体流程如下： ...