In-Sync: Adaptation of Speech Aware Large Language Models for ASR with Word level timestamp predictions

📄 In-Sync: Adaptation of Speech Aware Large Language Models for ASR with Word level timestamp predictions #语音识别 #语音大模型 #多任务学习 #数据增强 ✅ 7.0/10 | 前50% | #语音识别 | #多任务学习 | #语音大模型 #数据增强 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Xulin Fan(University of Illinois Urbana-Champaign) 通讯作者:未说明 作者列表:Xulin Fan(University of Illinois Urbana-Champaign)、Vishal Sunder(IBM Research)、Samuel Thomas(IBM Research)、Mark Hasegawa-Johnson(University of Illinois Urbana-Champaign)、Brian Kingsbury(IBM Research)、George Saon(IBM Research) 💡 毒舌点评 亮点:论文提出的三个训练策略(长度增强、嵌入正则化、减少教师强制)逻辑清晰,且消融实验设计规范,清晰展示了每个模块的贡献与局限,为SpeechLLM的多任务适配提供了实用的工程经验。 短板:作为一篇ICASSP论文,其核心创新(尤其是高斯先验正则化)更像是一种“调参技巧”的系统化,而非算法层面的突破;此外,论文承认了正则化与减少教师强制“组合不佳”,这削弱了方法作为统一框架的完备性。 ...

2026-04-29

InstructAudio: Unified Speech and Music Generation with Natural Language Instruction

📄 InstructAudio: Unified Speech and Music Generation with Natural Language Instruction #语音合成 #音乐生成 #扩散模型 #多任务学习 #统一音频模型 ✅ 7.5/10 | 前25% | #语音合成 | #扩散模型 | #音乐生成 #多任务学习 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Chunyu Qiang(天津大学,快手科技) 通讯作者:Longbiao Wang(天津大学) 作者列表:Chunyu Qiang(天津大学,快手科技),Kang Yin(快手科技),Xiaopeng Wang(快手科技),Yuzhe Liang(快手科技),Jiahui Zhao(天津大学),Ruibo Fu(中国科学院自动化研究所),Tianrui Wang(天津大学),Cheng Gong(天津大学),Chen Zhang(快手科技),Longbiao Wang†(天津大学),Jianwu Dang(天津大学) 💡 毒舌点评 这篇论文的最大亮点在于其“野心”——试图用一个统一的框架和自然语言指令,同时搞定语音合成(TTS)和音乐生成(TTM)这两个本就差异显著的任务,这在思路上确实领先。但短板也很明显:论文在展示音乐生成对比结果时,坦诚其5-20秒的生成长度可能对长时序模型不公平,这种实验设计的局限性削弱了结论的说服力;更关键的是,论文几乎未提供任何可复现的开源信息,这对于一个宣称“统一框架”的工作而言,是个不小的遗憾。 📌 核心摘要 问题:现有的文本转语音(TTS)和文本转音乐(TTM)系统在基于指令(自然语言描述)的控制方面存在显著局限。TTS模型通常依赖参考音频控制音色,属性控制能力有限;TTM模型则依赖专业标注,且两类任务长期独立开发,难以统一建模。 方法核心:提出InstructAudio,一个基于多模态扩散Transformer(MM-DiT)和条件流匹配的统一框架。它采用标准化的“指令-音素”输入格式,通过联合和单一扩散Transformer层,处理无噪的梅尔VAE潜在表示,从而在统一模型中实现语音和音乐的生成与控制。 新意:这是首个通过自然语言指令统一控制语音和音乐生成的框架。它消除了对参考音频的依赖,能通过文本指令控制音色(性别、年龄)、副语言(情感、风格、口音)和音乐(类型、乐器、节奏、氛围)等多种属性,并支持双说话人对话生成。 主要实验结果: TTS任务:在Seed-TTS基准的WER指标上,InstructAudio在可控条件下达到了最佳的英文(1.52%)和中文(1.35%)错误率(见表1)。在指令控制任务上,其分类控制准确率(如性别100%、年龄86.67%、对话90%)和说话人/情感相似度均优于强基线CosyVoice2,且在LSD、MCD等失真指标上更优(见表2)。 TTM任务:在SongEval音乐评估基准的所有指标(连贯性、音乐性等)上均取得最佳分数。在分类控制准确率上,于歌手性别(98.89%)、年龄(97.22%)和氛围(95.00%)控制上表现突出(见表3)。 综合对比:论文通过图1可视化比较,声称在多项指标上实现了TTS和TTM能力的全面领先。 实际意义:为内容创作(如生成带有特定情感和风格的旁白或背景音乐)、交互式媒体、娱乐等领域提供了一种更通用、交互更自然的音频内容生成工具,降低了专业音频制作的门槛。 主要局限性:1) 统一输入格式(纯文本指令)导致了“一对多”的映射歧义,可能牺牲了生成音频的自然度和质量(NMOS分数低于使用参考音频的基线);2) 为了联合建模,将音乐生成长度限制在5-20秒,限制了其在长时音乐生成场景的应用,并且对基线模型的评估可能不公平;3) 论文未提供开源代码、模型或数据,可复现性低。 InstructAudio整体架构示意图(图2)。 ...

2026-04-29

It Is Personal: The Importance of Personalization for Recognizing Self-Reported Emotion

📄 It Is Personal: The Importance of Personalization for Recognizing Self-Reported Emotion #语音情感识别 #迁移学习 #多任务学习 #零样本 🔥 8.0/10 | 前25% | #语音情感识别 | #迁移学习 | #多任务学习 #零样本 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:James Tavernor (University of Michigan) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表:James Tavernor (University of Michigan), Emily Mower Provost (University of Michigan) 💡 毒舌点评 本文系统性地论证了在语音情感识别任务中,“个性化”对于预测主观性更强的“自报告情感”至关重要,实验设计严谨,消融完整,为解决情感感知的主观性问题提供了一个清晰的技术路线。然而,其核心模型架构(WavLM+BERT+线性层)并无新意,创新主要体现在方法论的组合与验证上;且为每个用户寻找“最相似注释者”再微调的范式,在面对大规模新用户时可能存在计算与适配成本问题。 📌 核心摘要 要解决什么问题:如何利用在第三方标注数据上训练的语音情感识别(SER)模型,来准确预测说话人自身的“自报告情感”。这面临感知不匹配(第三方与自报告标签差异)和领域不匹配(不同数据集差异)两大挑战。 方法核心是什么:提出一种个���化框架:首先在大规模第三方标注数据集(MSP-Podcast)上预训练一个“多任务个体注释者(IA)”模型(为每个第三方注释者分配一个预测头)。对于目标自报告数据集(IEMOCAP, MuSE),为每个自报告者从1998个预训练预测头中选择一个“最相似”的(IA-Similar),作为个性化起点。然后,使用该自报告者自己的少量标签对选中的预测头进行微调(FT-IA-Similar)。 与已有方法相比新在哪里:新在系统性地将“大规模第三方个体注释者建模”与“小规模自报告数据个性化微调”相结合,用于解决自报告情感识别问题。它明确区分并同时处理了感知不匹配(通过相似性选择)和领域不匹配(通过微调)。 主要实验结果如何: 基线(零样本)性能较差,尤其在MuSE数据集上,激活维度的CCC(一致性相关系数)接近0。 仅进行领域适应(微调共识模型)对性能提升有限,有时甚至损害效度(如IEMOCAP效度)。 核心的“相似注释者选择”(IA-Similar)能显著提升性能,尤其在激活维度。 结合“相似选择”与“自报告数据微调”(FT-IA-Similar)取得最佳效果。在MuSE数据集上,激活维度的CCCflat从基线的-0.01提升至0.62,提升了高达0.63。 效果在“激活”维度上比“效度”维度更强。 关键结果表格: 模型/方法 维度 IEMOCAP CCCflat MuSE CCCflat MuSE Monologue CCCflat Consensus (RQ1, 基线) Act 0.58 -0.01 0.01 Val 0.53 0.15 0.17 FT-Consensus (RQ2) Act 0.60 -0.00 0.01 Val 0.44 0.22 0.25 IA-Similar (RQ3) Act 0.64 0.47 0.48 Val 0.48 0.31 0.39 FT-IA-Similar (RQ4) Act 0.64 0.62 0.64 Val 0.42 0.38 0.43 5. 实际意义是什么:表明要准确识别个人的真实情绪状态,必须考虑个体感知的独特性。该框架为利用丰富的第三方标注数据来构建针对个体的、更精准的情绪识别模型提供了可行路径,对心理健康监测、人机交互等应用有直接价值。 6. 主要局限性是什么:1)预训练和适配过程计算成本较高,尤其是为每个用户维护和选择预测头。2)对于效度维度,个性化有时会带来负面效果,表明其与激活维度的特性不同,需要进一步研究。3)实验基于特定的几个数据集,结论的普适性有待验证。 🏗️ 模型架构 整体流程:输入音频文本 -> 特征提取 -> 多模态融合 -> 个性化预测 -> 微调。 主要组件与数据流: 特征提取:使用预训练的冻结的WavLM提取音频嵌入,使用冻结的BERT提取文本(转录)的CLS嵌入。 特征融合与映射:将音频和文本嵌入进行dropout后拼接,通过一个256维的线性层+ReLU激活,得到一个多模态嵌入。 维度专用分支:多模态嵌入分别通过两个独立的、256维的线性层+ReLU激活,生成“激活”和“效度”的专属嵌入。 预测层: 共识模型:每个维度专属嵌入接一个线性层,输出单个预测值。 IA模型:每个维度专属嵌入接N个线性层(N为注释者数量,预训练时为1998),每个线性层对应一个注释者的预测头。对于给定样本,其预测是该样本所有相关注释者对应预测头输出的平均值。 关键设计选择:架构采用双塔(音频+文本)融合,但并非本文创新。核心创新在于预测层的设计:IA模型通过为每个第三方注释者学习一个独立的线性预测头,将传统的“预测共识标签”任务转化为“预测每个注释者标签”的多任务学习问题,从而建模了感知的多样性。这为后续为自报告者寻找相似预测头奠定了基础。 💡 核心创新点 将个体注释者建模应用于自报告情感识别:之前工作主要在第三方标注任务上建模个体注释者。本文首次将其应用于预测更难、数据更稀缺的自报告情感,验证了其有效性。 提出“相似性选择+微调”的轻量级个性化范式:针对自报告数据稀少的特点,提出了两步走策略:首先通过少量目标数据(训练折)从大规模预训练模型中选择一个最相似的注释者预测头(IA-Similar),这是一个轻量级的“适配”步骤;然后进行少量微调。这种方法比从头训练或直接微调整个大模型更高效、更稳定。 系统性对比与消融设计:论文设计了清晰的四个研究问题(RQ1-RQ4),分别对应零样本、领域适应、感知适应、两者结合,并通过严谨的实验和统计检验,量化了每种策略的贡献和组合后的增益,提供了令人信服的证据链。 🔬 细节详述 训练数据: 预训练:MSP-Podcast数据集(发布版1.11),训练集含84,030条语音,1,998个独立第三方注释者。 测试/适配:IEMOCAP(10,039条语音,6位说话人提供自报告标签,平均每人约402条)和MuSE(2,648条语音,28位说话人,每人5-10段独白,约94条语音,平均每人约9.75次自报告)。 损失函数: 共识模型:损失函数为 L = 2 - CCC_act - CCC_val,其中CCC是Lin’s一致性相关系数。 IA模型:损失函数为 L = 2 - CCCflat_act - CCCflat_val。CCCflat是在整个数据集的所有个体标签和预测上计算的CCC,而非对每个注释者单独计算后平均。 训练策略: 预训练使用5个随机种子,采用早停策略(基于验证集损失,耐心10个epoch),选择验证损失最低的模型。 领域微调(RQ2, RQ4) 和 自报告数据微调(RQ4) 均只进行 1个epoch,这可能是为了缓解目标数据稀少带来的过拟合风险。 在选择相似预测头时,使用训练折的数据计算每个预训练头与目标自报告者标签的CCC,选择CCC最高的头。如果自报告者只有1条标签,则选择预测值与真实值距离最小的头。 关键超参数:模型隐藏层维度为256,融合前使用dropout p=0.2。论文未明确说明学习率、优化器、batch size等。 训练硬件:论文中未提及。 评估指标: CCCflat:在整个测试集(所有说话人/所有自报告者)上计算所有标签和预测的CCC,评估整体性能。 CCCind (仅用于IEMOCAP):为每位自报告者单独计算CCC,然后取平均。评估个性化效果。 RMSEind (用于MuSE):为每位自报告者单独计算均方根误差,然后取平均。因为MuSE每位自报告者标签太少,无法可靠计算CCC。 数据处理:标签通过min-max缩放至[-1, 1]范围。交叉验证设计确保说话人独立且单次记录独立(如MuSE的整个独白、IEMOCAP的特定对话场景在同一折),防止数据泄露。 📊 实验结果 主要基线与对比如下表所示(数据来源于论文Table 1 & 2): ...

2026-04-29

Joint Autoregressive Modeling of Multi-Talker Overlapped Speech Recognition and Translation

📄 Joint Autoregressive Modeling of Multi-Talker Overlapped Speech Recognition and Translation #语音识别 #语音翻译 #自回归模型 #多任务学习 #端到端 ✅ 7.0/10 | 前25% | #语音识别 #语音翻译 | #自回归模型 #多任务学习 | #语音识别 #语音翻译 学术质量 0.7/7 | 选题价值 0.75/2 | 复现加成 0.3 | 置信度 中 👥 作者与机构 第一作者:Tomohiro Tanaka(NTT, Inc., Human Informatics Laboratories) 通讯作者:未说明 作者列表:Tomohiro Tanaka(NTT, Inc., Human Informatics Laboratories)、Ryo Masumura(NTT, Inc., Human Informatics Laboratories)、Naoki Makishima(NTT, Inc., Human Informatics Laboratories)、Mana Ihori(NTT, Inc., Human Informatics Laboratories)、Naotaka Kawata(NTT, Inc., Human Informatics Laboratories)、Shota Orihashi(NTT, Inc., Human Informatics Laboratories)、Satoshi Suzuki(NTT, Inc., Human Informatics Laboratories)、Taiga Yamane(NTT, Inc., Human Informatics Laboratories) 💡 毒舌点评 这篇论文的核心贡献是清晰且务实的:将多说话人重叠语音的识别(ASR)和翻译(ST)从两个独立的模型合并为一个联合自回归模型,从而解决了输出时说话人数量不匹配和未对齐的痛点。其序列化输出训练(SOT)的扩展应用自然流畅,实验数据也支撑了方法的有效性。然而,论文最大的短板在于实验部分严重依赖通过混合单人语音合成的“多说话人”数据,这与真实世界中包含回声、不同混响、说话人重叠程度变化的会议或对话场景存在显著差距,削弱了其结论在实际应用中的说服力。 ...

2026-04-29

Joint Estimation of Piano Dynamics and Metrical Structure with a Multi-Task Multi-Scale Network

📄 Joint Estimation of Piano Dynamics and Metrical Structure with a Multi-Task Multi-Scale Network #音乐理解 #多任务学习 #时频分析 #端到端 ✅ 7.5/10 | 前25% | #音乐理解 | #多任务学习 | #时频分析 #端到端 学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zhanhong He(The University of Western Australia, Perth, Australia) 通讯作者:未说明(根据署名顺序,可能是Defeng (David) Huang或Roberto Togneri,但论文未明确指出) 作者列表:Zhanhong He(The University of Western Australia)、Hanyu Meng(The University of New South Wales)、Defeng (David) Huang(The University of Western Australia)、Roberto Togneri(The University of Western Australia) 💡 毒舌点评 亮点:将Bark尺度特征与多任务学习框架巧妙结合,把模型参数量从千万级压缩到50万,在保持竞争力的同时大幅提升了实用性,这种“螺蛳壳里做道场”的工程优化思维值得肯定。 短板:研究完全局限于肖邦玛祖卡这一特定音乐风格和单一数据集(MazurkaBL),其结论能否泛化到其他乐器、风格乃至更复杂的管弦乐场景,存疑。 ...

2026-04-29

Malefa: Multi-Granularity Learning and Effective False Alarm Suppression for Zero-Shot Keyword Spotting

📄 Malefa: Multi-Granularity Learning and Effective False Alarm Suppression for Zero-Shot Keyword Spotting #零样本关键词检测 #对比学习 #多任务学习 #轻量化模型 #误报抑制 ✅ 7.5/10 | 前25% | #零样本关键词检测 | #对比学习 #多任务学习 | #对比学习 #多任务学习 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Lo-Ya Li(台湾师范大学,标记为*) 通讯作者:未明确说明(根据贡献描述和标记,Berlin Chen(*)和Jeih-Weih Hung(†)可能为主要指导者) 作者列表:Lo-Ya Li(台湾师范大学),Tien-Hong Lo(台湾师范大学),Jeih-Weih Hung†(暨南国际大学),Shih-Chieh Huang¶(瑞昱半导体),Berlin Chen*(台湾师范大学) 💡 毒舌点评 这篇论文的亮点在于它没有盲目追求模型规模,而是用轻量级架构(0.7M参数)通过更精细的学习目标(音素级对齐+误报惩罚)在核心指标(特别是误报率)上实现了数量级的改进,这对实际部署极具吸引力。短板是其创新主要是现有技术(CTC、对比学习、注意力机制)的工程化组合,在模型架构原理上缺乏颠覆性,且实验仅限于特定的英文数据集,其泛化能力(如跨语言、复杂声学场景)有待进一步证明。 📌 核心摘要 问题:现有零样本关键词检测(ZSKWS)方法依赖粗粒度的全局表示,难以区分发音相似的关键词(如“call mom”与“come on”),导致较高的误报率(FAR),同时模型复杂度高,不利于资源受限设备上的实时部署。 方法核心:提出MALEFA框架,其核心是通过交叉注意力机制实现音频与音素序列的细粒度对齐,并采用多粒度对比学习目标(全局语句级UCL + 局部音素级PCL)来增强判别能力。同时,设计了一种显式的误报感知损失(LFA),直接优化模型的精确度以抑制假阳性。 新在何处:区别于以往仅优化全局匹配的方法,MALEFA首次在ZSKWS中联合引入了音素级对比学习和精确的误报优化目标,实现了从全局语义到局部发音的多层次对齐与判别,是一种更精细化的建模范式。 主要实验结果:在四个公开基准数据集(LibriPhrase Easy/Hard, Google Speech Commands, Qualcomm)上,MALEFA取得了90%的平均准确率(ACC4),并在AMI数据集上将误报率(FAR)大幅降低至0.007%(相比基线PhonMatchNet的17.879%)。模型仅有0.7M参数和93M FLOPs,满足轻量化要求。消融实验证明,UCL、PCL和LFA三个组件缺一不可,共同贡献了性能提升。 实际意义:MALEFA为在智能手机、IoT设备等资源受限平台上实现低误报、高准确的个性化语音唤醒/命令检测提供了可行的技术方案,有助于提升语音助手的用户体验和可靠性。 主要局限性:研究主要基于英文数据集,未验证跨语言性能;训练数据(LibriPhrase+MUSAN)与真实复杂声学环境(如多人会议、户外嘈杂)可能存在差距;模型在极端低信噪比或方言口音下的鲁棒性未充分评估。 🏗️ 模型架构 MALEFA的架构(如图2所示)包含三个核心组件,旨在将音频信号与文本关键词(及其音素表示)在多层次上进行对齐和判别。 ...

2026-04-29

Matrix-Structured Hierarchical Convolutional Modeling for Pronunciation Assessment and Mispronunciation Detection

📄 Matrix-Structured Hierarchical Convolutional Modeling for Pronunciation Assessment and Mispronunciation Detection #语音评估 #错音检测 #卷积神经网络 #自监督学习 #多任务学习 🔥 8.0/10 | 前25% | #语音评估 | #卷积神经网络 | #错音检测 #自监督学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:David Fernández-García(西班牙巴利亚多利德大学 ECA-SIMM 研究组) 通讯作者:未说明 作者列表:David Fernández-García(西班牙巴利亚多利德大学 ECA-SIMM 研究组)、César González-Ferreras(西班牙巴利亚多利德大学 ECA-SIMM 研究组)、Valentín Cardeñoso-Payo(西班牙巴利亚多利德大学 ECA-SIMM 研究组)、Mario Corrales-Astorgano(西班牙巴利亚多利德大学 ECA-SIMM 研究组) 💡 毒舌点评 这篇论文成功地用CNN的“锤子”敲打了注意力机制的“钉子”,通过精心的矩阵特征工程和层次化卷积设计,在词级评估和错音检测上取得了显著提升,证明了在发音评估任务中,对音素局部上下文的显式建模(如三音素窗口)有时比堆砌更复杂的全局注意力更有效、更直接。然而,与当前最强的SOTA模型(如HMAMBA)相比,其在多个基础指标上(如音素MSE、语句准确率)仍有明显差距,这提示其模型容量或特征融合方式可能存在瓶颈,创新性更多体现在建模范式而非绝对性能的登顶。 📌 核心摘要 问题:现有自动发音评估(APA)和错音检测(MDD)系统大多依赖注意力机制,且对异构特征(如GoP、SSL表征、韵律特征)处理方式简单(直接拼接),忽略了结构化信息,并将不同音位类别(元音/辅音)同等对待,未能充分建模音素级错音与更高层面评分之间的关联。 方法核心:提出M3C框架,核心是将多种异构特征重组为矩阵结构输入(列对齐、行代表不同视角),并设计了紧凑卷积压缩器(CCC) 对矩阵进行跨特征维度的列向卷积压缩。模型采用层次化结构,在音素、词、语句级别堆叠CCC模块,并在各级引入多方面注意力关联不同预测目标,最终与MDD任务联合训练。 创新性:主要创新在于:1)矩阵化特征表示,保留特征间的结构关系;2)设计CCC模块替代主流注意力,专注局部关系建模;3)将元音和辅音的GoP特征分开处理,并在融合时标注类别;4)显式使用三音素上下文窗口。 主要实验结果:在speechocean762数据集上: 在仅使用GoP特征的公平对比中,M3C在词级总分上相对GOPT基线提升+19.4%,相对近期CNN模型提升+7.2%。 使用全部特征时,M3C在词级总分和MDD F1上相比SOTA(HMAMBA)分别提升+15%(绝对值从0.721到0.816)和+15%(绝对值从63.8%到78.8%)。 消融实验表明,移除矩阵特征提取和三音素上下文会导致性能大幅下降,而移除音素级方面注意力影响较小。 关键数据对比表: 类别 模型 Phone Score (MSE↓) Word Score Total (PCC↑) Utterance Score Total (PCC↑) MDD F1↑ Baseline (GoP only) GOPT [1] 0.085 0.549 0.742 - CNN-Based (GoP only) M3C 0.074 0.676 0.779 - SOTA HMAMBA [6] 0.062 0.718 0.829 63.8% SOTA (本文对比) M3C 0.066 0.721 0.816 78.8% 实际意义:为计算机辅助发音训练系统提供了一个新的、有效的建模框架,强调了在语音评估任务中对特征结构和局部音素上下文进行显式建模的重要性。其代码开源有助于后续研究。 主要局限性:虽然与部分基线相比有优势,但与最强的SOTA(如基于状态空间模型的HMAMBA)在音素级MSE、语句级准确率等基础指标上仍有差距,表明其绝对性能上限有待进一步挖掘。论文未提供模型参数量、训练时间等效率信息。 🏗️ 模型架构 M3C是一个用于多方面、多粒度发音评估与错音检测的层次化卷积框架。整体架构如图1所示。 ...

2026-04-29

MC-MRX: Reference- and Midi-Guided Music Source Extraction with Contrastive Learning

📄 MC-MRX: Reference- and Midi-Guided Music Source Extraction with Contrastive Learning #音乐源提取 #对比学习 #多任务学习 #音频引导 ✅ 7.0/10 | 前25% | #音乐源提取 | #对比学习 | #多任务学习 #音频引导 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Xueyan Chen(University of Science and Technology Beijing, China) 通讯作者:Xinyuan Qian(University of Science and Technology Beijing, China) 作者列表:Xueyan Chen(University of Science and Technology Beijing, China)、Zexu Pan(Tongyi Lab, Alibaba Group, Singapore)、Ziyang Jiang(University of Science and Technology Beijing, China)、Jiadong Wang(Technical University of Munich, Germany)、Kainan Chen(Eigenspace GmbH, Germany)、Xinyuan Qian(University of Science and Technology Beijing, China) 💡 毒舌点评 这篇论文的亮点在于将MIDI时序音高锚点和参考音频这两种异构的多模态先验,通过一个精心设计的框架(MC-MRX)融合进音乐源提取任务,实验结果显著,为该领域引入“结构化提示”提供了有力论证。然而,其“自产自销”的短板也很明显:作为核心输入之一的MIDI依赖于外部的MT3模型,论文并未深入探讨该模型性能的波动对最终结果的影响,同时全文没有任何开源信息的披露,对于一篇声称推动SOTA的工作而言,这无疑削弱了其可验证性和社区影响力。 ...

2026-04-29

Melos: Sentence-To-Section Training with Multi-Task Learning for LLM-Driven Song Generation

📄 Melos: Sentence-To-Section Training with Multi-Task Learning for LLM-Driven Song Generation #音乐生成 #多任务学习 #自回归模型 #歌唱语音合成 ✅ 6.5/10 | 前50% | #音乐生成 | #多任务学习 | #自回归模型 #歌唱语音合成 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Dapeng Wu(清华大学深圳国际研究生院) 通讯作者:Zhiyong Wu(清华大学深圳国际研究生院) 作者列表:Dapeng Wu†(清华大学深圳国际研究生院),Jinhong Lu†(Wonderai, Beijing, China),Bin Su(Wonderai, Beijing, China),Shun Lei(清华大学深圳国际研究生院),Xiong Cai(Wonderai, Beijing, China),Zhiyong Wu*(清华大学深圳国际研究生院) †:共同第一作者;*:通讯作者。 💡 毒舌点评 亮点:论文提出的“句子到段落”两阶段训练策略非常务实,有效缓解了长序列建模和数据稀缺问题,让一个0.5B的模型在0.5M数据上就能生成结构相对完整的歌曲,证明了该分治思路的有效性。 短板:在音乐性(MUS)、记忆性(MEM)等主观评价维度上明显落后于Suno、Mureka等工业系统,且未开源代码和模型,其“高质量”结论难以被社区直接复现和验证,削弱了论文的说服力和实用价值。 📌 核心摘要 问题:当前基于大语言模型(LLM)的端到端歌曲生成面临长音频序列建模难、训练数据有限以及歌词与歌声对齐挑战等问题。 方法核心:提出Melos框架,采用两阶段训练策略:首先在句子级别训练模型掌握基本的演唱能力;然后在段落(如主歌、副歌)级别训练以增强整体音乐性。同时,引入多任务学习,将歌词和声带(人声)信息作为辅助训练目标(放在序列末尾),以增强音色可控性和歌词准确性,且不增加推理开销。 与已有方法相比新在哪里:不同于直接在段落级别训练(如YuE),本文的渐进式学习范式使模型先易后难。不同于生成思维链(CoT)会增加推理成本,本文将辅助信息作为后置的监督信号,实现了“训练时多任务,推理时单目标”。 主要实验结果:在0.5M歌曲(约3万小时)上训练。在客观评估中,模型在音色相似性(SECS)和文本控制(CLAP)上表现优异(SECS 0.584, CLAP 0.270),但在FAD和PER上不及最佳基线。主观评估(MOS)显示,其整体质量(OQ 3.54)和歌词准确性(LA 4.21)与LeVo、Mureka等系统相当。消融实验证实了两阶段训练和辅助任务的有效性。 实际意义:为资源受限场景下的高质量歌曲生成提供了一种高效、可扩展的训练范式,证明了通过精细的训练策略可以在小数据集上获得有竞争力的生成效果。 主要局限性:1)未开源,限制了其影响力和可复现性;2)在音乐性、制作复杂度等核心主观指标上仍与领先的工业系统有差距;3)性能高度依赖音乐分离和说话人编码器的质量。 🏗️ 模型架构 Melos采用基于LLM的自回归生成范式,整体架构如图1所示。 ...

2026-04-29

Mixtures of Lightweight Articulatory Experts for Multilingual Asr

📄 Mixtures of Lightweight Articulatory Experts for Multilingual Asr #语音识别 #混合专家模型 #多语言 #低资源 #多任务学习 ✅ 7.0/10 | 前25% | #语音识别 | #混合专家模型 | #多语言 #低资源 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:未说明(论文中Masato Mimura与Jaeyoung Lee并列,但通常作者列表顺序有意义,未明确标注) 通讯作者:未说明 作者列表:Masato Mimura (NTT, Inc., Japan), Jaeyoung Lee (NTT, Inc., Japan), Ryo Magoshi (School of Informatics, Kyoto University, Japan), Tatsuya Kawahara (School of Informatics, Kyoto University, Japan) 💡 毒舌点评 这篇论文巧妙地将MoE架构的“稀疏激活”与语言学中稳定的发音特征结合,用“小专家”解决“大模型”的低效问题,在多种语言上取得了稳定提升,证明了语言学归纳偏置的价值。然而,论文在工程细节上显得“吝啬”,未公开代码与模型,且仅在CommonVoice数据集上验证,缺乏与Whisper等大规模模型的直接对比,使其结论在更广场景下的普适性存疑。 ...

2026-04-29