迁移学习 | 语音/音频论文速递

Exploring Fine-Tuning Of Large Audio Language Models For Spoken Language Understanding Under Limited Speech Data

📄 Exploring Fine-Tuning Of Large Audio Language Models For Spoken Language Understanding Under Limited Speech Data #语音理解 #迁移学习 #低资源 #多语言 🔥 8.0/10 | 前25% | #语音理解 | #迁移学习 | #低资源 #多语言学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Youngwon Choi (MAUM AI Inc., Republic of Korea) 通讯作者：Huu-Kim Nguyen (∗ 作者列表中标注星号，现单位为 Atmanity Inc., USA) 作者列表： Youngwon Choi (MAUM AI Inc., Republic of Korea) Jaeyoon Jung (MAUM AI Inc., Republic of Korea & Soongsil University, Republic of Korea) Hyeonyu Kim (MAUM AI Inc., Republic of Korea) Huu-Kim Nguyen (MAUM AI Inc., Republic of Korea → 现 Atmanity Inc., USA) Hwayeon Kim (MAUM AI Inc., Republic of Korea) 💡 毒舌点评这篇论文像一份非常扎实的“工程实验报告”，系统地厘清了“当语音标注数据很少时，怎么微调音频大模型最划算”这个现实问题，结论（转录文本先行、加少量语音、课程学习）对实践者极具指导性。短板在于，它本质上是方法组合与验证，而非底层算法的原创突破，且所有实验仅基于Qwen2-Audio-7B一个模型，结论的普适性存疑。 ...

Fine-Tuning Large Audio-Language Models with Lora for Precise Temporal Localization of Prolonged Exposure Therapy Elements

📄 Fine-Tuning Large Audio-Language Models with Lora for Precise Temporal Localization of Prolonged Exposure Therapy Elements #音频事件检测 #多模态模型 #语音生物标志物 #迁移学习 ✅ 6.5/10 | 前50% | #音频事件检测 | #多模态模型 | #语音生物标志物 #迁移学习学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Suhas BN (College of Information Sciences & Technology, The Pennsylvania State University, USA) 通讯作者：论文中未明确标注通讯作者信息。作者列表： Suhas BN (College of Information Sciences & Technology, The Pennsylvania State University, USA) Andrew M. Sherrill (Department of Psychiatry & Behavioral Sciences, Emory University, USA) Jyoti Alaparthi (Department of Psychiatry & Behavioral Sciences, Emory University, USA) Dominik Mattioli (School of Interactive Computing, Georgia Institute of Technology, USA) Rosa I. Arriaga (School of Interactive Computing, Georgia Institute of Technology, USA) Chris W. Wiese (School of Psychology, Georgia Institute of Technology, USA) Saeed Abdullah (College of Information Sciences & Technology, The Pennsylvania State University, USA) 💡 毒舌点评亮点：论文精准地切入了一个真实且重要的临床痛点（PE疗法评估），并设计了一套从标注（LLM+人工验证）到建模（多模态微调）再到部署（隐私保护）的完整流水线，展现了扎实的领域应用思维。短板：实验的说服力很大程度上受限于其“自产自销”——用自己定义的任务、自己标注（尽管经过验证）的数据、自己提出的数据划分来评估自己的方法，缺乏与领域内或更通用任务上现有SOTA方法的横向比较，使得“最佳MAE 5.3秒”的优越性难以完全确立。 ...

FlowSE-GRPO: Training Flow Matching Speech Enhancement via Online Reinforcement Learning

📄 FlowSE-GRPO: Training Flow Matching Speech Enhancement via Online Reinforcement Learning #语音增强 #强化学习 #流匹配 #迁移学习 #基准测试 ✅ 7.5/10 | 前25% | #语音增强 | #强化学习 | #流匹配 #迁移学习学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：未说明（论文作者列表按顺序给出，但未明确标注第一作者）通讯作者：未说明（论文中未提供邮箱或通讯作者标识）作者列表：Haoxu Wang, Biao Tian, Yiheng Jiang, Zexu Pan, Shengkui Zhao, Bin Ma, Daren Chen, Xiangang Li（均隶属于 Tongyi Lab, Alibaba Group, China） 💡 毒舌点评亮点：作为将在线强化学习（GRPO）成功应用于流匹配语音增强的开创性工作，其提出的多指标奖励优化策略巧妙地缓解了“奖励黑客”问题，且仅需少量微调步数（5k步）即获得显著提升。短板：尽管技术细节详尽，但论文对代码和模型开源的完全沉默，大大削弱了其结果的可验证性和社区快速跟进的可能性；同时，多指标权重需精细调优也暴露了当前策略的脆弱性。 🔗 开源详情根据论文内容，总结开源情况如下：代码：论文中未提及任何代码仓库链接或开源计划。模型权重：未提及是否公开预训练或后训练的模型权重。数据集：使用了多个公开数据集（DNS2020, LibriTTS, WHAM!等），但论文未提供整合后的训练集获取方式。 Demo：未提及在线演示。复现材料：论文提供了非常详细的训练配置、模型结构、超参数设置（如DiT维度、层数、LoRA参数、学习率、窗口训练设置等）以及消融实验设置，这些信息对复现至关重要。论文中引用的开源项目：明确提到了使用预训练的HiFi-GAN声码器（来自CosyVoice2）和DiT架构。 📌 核心摘要本文旨在解决将在线强化学习（RL）有效应用于生成式语音增强（SE）模型后训练的难题。其方法核心是首次将组相对策略优化（GRPO）成功集成到基于流匹配（Flow Matching）的语音增强框架中，通过将确定性常微分方程（ODE）采样转换为随机微分方程（SDE）采样来引入RL所需的随机性，并设计了针对连续语音信号的损失函数。与以往使用离线方法（如DPO）或仅应用于离散Token的方法相比，本文创新性地实现了在线、无需修改原始架构的GRPO训练。主要实验结果表明，在DNS2020测试集上，与基线模型相比，所提多指标优化模型在无回声测试集上将整体质量（OVRL）从3.373提升至3.549（+0.176），说话人相似度从88.88%提升至90.43%，并显著减少了奖励黑客现象。该研究的实际意义在于为生成式音频模型的后训练提供了高效、实用的在线RL对齐方案。主要局限性在于多指标权重需人工调整，且论文未提供开源代码。 ...

From Human Speech to Ocean Signals: Transferring Speech Large Models for Underwater Acoustic Target Recognition

📄 From Human Speech to Ocean Signals: Transferring Speech Large Models for Underwater Acoustic Target Recognition #水下声学目标识别 #迁移学习 #语音大模型 #跨域泛化 #基准测试 ✅ 7.0/10 | 前25% | #水下声学目标识别 | #迁移学习 | #语音大模型 #跨域泛化学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Mengcheng Huang（哈尔滨工程大学计算机科学与技术学院）通讯作者：Chen Xu*（哈尔滨工程大学计算机科学与技术学院，邮箱：chen.xu@hrbeu.edu.cn）作者列表：Mengcheng Huang（哈尔滨工程大学计算机科学与技术学院）、Xue Zhou（哈尔滨工程大学计算机科学与技术学院）、Chen Xu*（哈尔滨工程大学计算机科学与技术学院）、Dapeng Man（哈尔滨工程大学计算机科学与技术学院） 💡 毒舌点评亮点：这篇论文做了一件很聪明的事——把在大规模人类语音上训练好的“耳朵”（SenseVoice）直接拿去听海洋，结果发现这个“耳朵”不仅能听懂人话，还能精准识别不同船只，甚至在陌生海域也能工作得很好（跨域96.67%），证明了SOTA语音模型作为通用声学编码器的巨大潜力。短板：然而，整个框架就是“预训练模型+平均池化+线性层”的简单拼接，缺乏针对水声特性（如多径传播、海洋噪声）的深入适配和机制解释；更关键的是，论文声称进行了消融实验来验证设计选择，却“因篇幅限制”只字未提，这让其最优性能的结论打了折扣，也影响了工作的透明度和严谨性。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及是否公开SenseVoice微调后的权重。数据集：使用了公开数据集DeepShip和ShipsEar，但论文中未提供获取链接。 Demo：未提及。复现材料：给出了部分训练超参数（优化器、学习率、批大小），但未提供完整的训练配置、脚本、预训练模型下载方式或详细说明。论文中引用的开源项目：主要引用了SenseVoice模型[17]，但未明确说明其获取途径。 📌 核心摘要这篇论文针对水下声学目标识别（UATR）中数据稀缺和环境复杂的两大挑战，探索能否将大规模语音模型（SLM）的知识迁移过来。方法核心是提出UATR-SLM框架：复用语音特征提取流程，将训练好的语音大模型（具体使用SenseVoiceSmall）作为通用声学编码器，并替换其解码器为轻量级分类头（平均池化+线性层）进行微调。与传统方法从头训练或仅使用有限数据增强不同，该工作的创新在于首次系统性地利用SOTA语音基础模型来“跨界”解决水声问题。在DeepShip和ShipsEar两个基准测试中，UATR-SLM的F1分数分别达到99.32%和99.09%，超越了所有对比的ResNet等基线方法；在变长信号测试中表现出强鲁棒性（1秒音频准确率95.87%）；在零样本跨域评估中，从DeepShip迁移到ShipsEar，准确率高达96.67%，而ResNet基线仅53%-70%。这证明了SLM编码的声学表征具有强大的域不变性和可迁移性。其实际意义在于为资源受限的水声应用开辟了新范式，可能大幅降低对大量标注水声数据的依赖。主要局限在于框架设计简单直接，未深入探讨迁移成功的内部机理，且关键实验细节（如消融研究）缺失。 🏗️ 模型架构 UATR-SLM框架整体架构如图1所示，流程清晰，分为三个核心组件： ...

Generalizability of Predictive and Generative Speech Enhancement Models to Pathological Speakers

📄 Generalizability of Predictive and Generative Speech Enhancement Models to Pathological Speakers #语音增强 #迁移学习 #扩散模型 #鲁棒性 #数据集 ✅ 7.0/10 | 前50% | #语音增强 | #迁移学习 | #扩散模型 #鲁棒性学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Mingchi Hou（Idiap Research Institute, Switzerland; École Polytechnique Fédérale de Lausanne, Switzerland）通讯作者：未说明作者列表：Mingchi Hou（Idiap Research Institute, Switzerland; École Polytechnique Fédérale de Lausanne, Switzerland）、Ante Jukić（NVIDIA, USA）、Ina Kodrasi（Idiap Research Institute, Switzerland） 💡 毒舌点评这篇论文填补了SOTA语音增强模型在病理语音上性能评估的关键空白，是领域内一个��实且必要的“体检报告”。但其短板在于结论的深度略显不足——在发现“病理语音特性导致性能下降”和“迁移微调优于其他方案”这些相对符合直觉的结论后，未能进一步挖掘病理类型的异质性或提出更针对性的适配机制，更像是一份扎实的基准测试报告而非一篇有深度的方法论文。 ...

GLUE: Gradient-free Learning to Unify Experts

📄 GLUE: Gradient-free Learning to Unify Experts #迁移学习 #预训练 #知识蒸馏 #多任务学习 ✅ 6.5/10 | 前50% | #迁移学习 | #预训练 | #知识蒸馏 #多任务学习学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Jong-Ik Park (卡内基梅隆大学电气与计算机工程系) 通讯作者：未说明 (论文中未明确指定通讯作者) 作者列表：Jong-Ik Park (卡内基梅隆大学电气与计算机工程系)、Shreyas Chaudhari (卡内基梅隆大学电气与计算机工程系)、Srinivasa Pranav* (卡内基梅隆大学电气与计算机工程系)、Carlee Joe-Wong (卡内基梅隆大学电气与计算机工程系)、Jos´e M. F. Moura (卡内基梅隆大学电气与计算机工程系) *作者贡献相同。 💡 毒舌点评亮点：该研究提出了一种巧妙的“偷懒”方法——用无需反向传播的无梯度优化（SPSA）来学习多专家模型的混合系数，将计算成本从全网络反向传播降至仅需两次前向传播，在保持与全梯度优化方法相当性能的同时，显著提升了效率。短板：论文的实验验证场景较为理想化（使用同构模型在简单CV数据集上的混合），缺乏对真实世界复杂场景（如模型架构不同、训练数据量巨大、或需要在线学习）的验证，且未提供任何代码或复现细节，大大削弱了其实用价值和说服力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：未公开专家模型的具体训练数据集。提到使用基础数据集的原始测试集进行评估，但未提供获取方式。 Demo：未提及。复现材料：给出了部分训练超参数（如学习率、batch size），但关键方法参数（如SPSA的扰动半径μ）和完整的实验配置信息不全。论文中引用的开源项目：未提及依赖的开源工具或模型。 📌 核心摘要要解决的问题：在需要将多个领域专家模型融合成一个适用于新目标域的通用初始化模型时，启发式混合（如按数据量加权）效果不佳，而基于梯度的学习混合系数的方法计算成本高昂（需要完整的反向传播）。方法核心：提出GLUE方法，将目标模型初始化为固定专家模型的凸组合，通过一种称为“同时扰动随机近似”（SPSA）的无梯度优化技术来学习混合系数。每次迭代仅需两次前向传播（对混合参数进行微小扰动），无需反向传播。与已有方法相比新在哪里：传统方法要么使用与目标域无关的启发式（如数据量），要么使用计算昂贵的全梯度优化。GLUE的核心创新在于，它将优化变量从高维的模型参数（P）降低到低维的专家混合系数（K，专家数量），从而使得在低维空间使用无梯度优化方法变得高效且稳定。主要实验结果：在CIFAR-10、SVHN、Imagenette三个数据集和三种网络架构（ResNet-20、MobileNetV2、8层ViT）上的实验表明： GLUE生成的初始化模型在微调后，测试准确率比按数据量加权基线最高提升8.5%，比按代理准确性加权基线最高提升9.1%。 GLUE的性能与需要完整反向传播的全梯度优化方法（Config 3）非常接近，在CIFAR-10上甚至最高高出4.5%，在SVHN和Imagenette上的差异分别在1.4% 和 0.5% 以内。图1展示了在微调过程中，GLUE（Config 4）能从更强的先验开始，并收敛到更高的测试准确率，趋势与全梯度方法（Config 3）高度一致。实际意义：为跨领域模型融合提供了一种轻量级、低成本的部署方案。特别适用于需要快速将多个预训练专家模型适配到新领域，且计算资源受限的场景。主要局限性：方法假设所有专家模型架构兼容；融合结果被限制在专家参数的凸组合内（目标最优解可能在外）；SPSA方法的性能对扰动半径等超参数敏感；实验仅在相对简单和小规模的视觉数据集上验证，未涉及真实复杂任务（如其摘要中提到的多语言ASR）。 🏗️ 模型架构 GLUE本身不是一个神经网络模型架构，而是一种学习专家模型混合系数的方法框架。其整体流程如下： ...

How Far Do SSL Speech Models Listen for Tone? Temporal Focus of Tone Representation under Low-Resource Transfer

📄 How Far Do SSL Speech Models Listen for Tone? Temporal Focus of Tone Representation under Low-Resource Transfer #语音识别 #自监督学习 #迁移学习 #多语言 #低资源 ✅ 6.5/10 | 前50% | #语音识别 | #自监督学习 #迁移学习 | #自监督学习 #迁移学习学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Minu Kim（KAIST电气工程学院）通讯作者：未说明作者列表：Minu Kim（KAIST电气工程学院）、Ji Sub Um（KAIST电气工程学院）、Hoirin Kim（KAIST电气工程学院） 💡 毒舌点评这篇论文系统性地分析了四种复杂声调语言在SSL模型中的表示，并创新性地使用梯度敏感性分析来量化“听”的时间范围，这是其最大的方法学亮点。但其核心贡献更偏向于现象观察与分析，而非提出一个新的、可直接用于提升性能的模型或算法，且实验部分仅限于分析现有模型，缺乏提出新方法或在标准benchmark上与SOTA对比，因此影响力受限。 🔗 开源详情代码：论文中仅提及并引用了一个用于缅甸语文本到音素转换的开源工具（burmese-G2P）。未提及本论文核心实验（模型微调、梯度分析等）的代码仓库链接。模型权重：未提及是否公开微调后的SSL模型权重。数据集：使用的FLEURS, CommonVoice, RAVDESS, LibriSpeech, VoxCeleb1均为公开数据集，论文给出了引用。 Demo：未提及。复现材料：未说明训练细节（如学习率、batch size）、硬件配置、完整的分析脚本或配置文件。仅提供了方法的大致描述和G2P工具链接。论文中引用的开源项目：引用了 burmese-G2P（G2P工具）、Phonemizer [25]（文本转音素工具）。整体开源情况：论文未提及完整的开源计划。仅部分依赖于已有的开源工具，核心研究内容的复现需要大量额外工作。 📌 核心摘要问题：自监督学习（SSL）语音模型在表示词汇声调方面的能力，尤其是在普通话以外的复杂声调语言中尚未得到充分研究，其在低资源条件下的迁移机制也不明确。方法核心：首先利用声学特征（log-Mel）和逻辑回归建立各语言声调识别所需的最佳时间跨度基线；然后，提出一种基于梯度的层间探测方法，通过分析SSL模型（如XLS-R）在微调后对声调分类的梯度能量分布，来量化模型对声调信息的时间关注范围（中心半径 r_com）。新意：研究拓展了普通话以外的声调语言（缅甸语、泰语、老挝语、越南语），并首次系统分析了SSL模型对声调的“时间分辨率”以及不同微调任务（ASR、情绪识别、性别分类等）如何塑造这种分辨率。主要实验结果：声学基线显示，缅甸语/泰语声调需约100ms时间窗口，老挝语/越南语需约180ms。梯度分析表明，在目标语言ASR微调后，SSL模型的梯度能量分布与这些语言特定的时间基线最为匹配（见图3，图5）。相比之下，基于语音韵律或说话人属性的微调任务导致模型关注的时间跨度过长，偏离声调本质。具体宏F1分数图表见图4，但论文未给出所有对比的精确数值。实际意义：为低资源声调语言的语音技术（如ASR）提供了选择预训练模型和微调策略的指导，强调了微调任务与语言声调特性对齐的重要性。主要局限性：研究仅限于分析现有模型，并未提出新的模型架构或训练目标；结论主要基于声调分类的探测任务，对实际ASR或TTS性能的提升效果未直接验证；所分析的模型和任务组合虽全面，但未与其他旨在提升声调表示的特定方法进行对比。 🏗️ 模型架构本文并未提出新的模型架构，而是对现有的自监督语音表征模型进行分析。论文中分析的模型主要包括： ...

Human-1 by Josh Talks: A Full-Duplex Conversational Modeling Framework in Hindi using Real-World Conversations

📄 Human-1 by Josh Talks: A Full-Duplex Conversational Modeling Framework in Hindi using Real-World Conversations #语音对话系统 #迁移学习 #多语言 #语音大模型 #数据集 ✅ 7.5/10 | 前50% | #语音对话系统 | #迁移学习 | #多语言 #语音大模型 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Bhaskar Singh (JoshTalks) 通讯作者：未说明作者列表：Bhaskar Singh (JoshTalks)、Shobhit Banga (JoshTalks)、Pranav Sharma (JoshTalks) 💡 毒舌点评亮点：论文首次为印地语构建了开源、可复现的全双工对话系统，其核心贡献在于收集并利用了一个大规模（2.6万小时）、高质量的真实对话立体声数据集，这直接解决了该领域从零到一的“冷启动”数据难题，为后续所有印度语言的研究奠定了基础。短板：尽管声称“开放”，但论文未公开模型权重、代码或数据集，极大地限制了其可复现性和社区影响力；同时，实验部分缺少与其它基线模型（如Turn-based模型）的直接对比，使得对全双工架构优势的论证不够充分。 📌 核心摘要解决的问题：目前，全双工语音对话系统（能够模拟打断、重叠等自然对话行为）的研究几乎完全集中在英语上，对于拥有数亿使用者的印地语等印度语言存在巨大空白。构建此类系统面临三大挑战：现有架构的英文分词器不适用于天城体文字、替换分词器需重新初始化参数、以及缺乏大规模真实对话立体声训练数据。方法核心：论文采用“迁移学习+领域适配”策略。核心架构是基于英文的Moshi模型，但替换其英文SentencePiece分词器为印地语分词器，并重新初始化了所有与文本词汇相关的参数。训练冻结了Mimi神经音频编解码器（验证其对印地语有足够泛化能力），仅对RQ-Transformer进行两阶段训练：先在2.6万小时数据上预训练，再在精选的约1000小时数据上微调。新在哪里：与已有工作相比，本文是首个针对印地语（及印度语言）的全双工对话系统开源框架；其关键创新在于收集并利用了规模巨大、质量可控的真实对话立体声数据集（26,000小时），而非使用朗读语音或合成数据；同时提出了适配预训练模型的“部分重训练”训练方案。主要实验结果：编解码质量：冻结的Mimi编解码器在印地语上PESQ为2.55±0.37，STOI为0.878±0.027，表明语音可懂度高（见表2）。语言流畅度：生成语音的印地语困惑度（PPL）在温度τ=0.8时为356.9，高于真实语音的237.1，但优于更高温度下的结果（表3）。人类评估：130位母语者评估显示，模型生成语音的自然度评分为4.10（人类为4.55），清晰度为3.04（人类为4.05）。在成对比较中，66.9%的情况被评为与人类无差异，表明质量接近人类水平（表4）。但在“上下文恰当性”（53%）和“回复完整性”（42%）上仍有明显差距。对话轮次动态：分析表明，温度τ=0.9时生成的对话轮次统计（如间歇、停顿、重叠时长）与真实对话最接近（表5）。模型 τ 自然度 (5分制) 清晰度 (5分制) 偏好 (人/模型/平局) 人类式互动通过率恰当性通过率完整性通过率 Ground-truth - 4.55 4.05 - - - - Human-1 - 4.10 3.04 30.0% / 3.1% / 66.9% ≈85% ≈53% ≈42% 实际意义：该工作为印地语乃至其他印度语言的实时、自然全双工对话系统铺平了道路，证明了在缺乏此类数据时，收集高质量真实对话数据是最关键的突破点，对开发符合当地语言习惯的AI助手具有重要价值。主要局限性：1) 开源缺失：未公开代码、模型和数据，削弱了论文的影响力和可复现性。2) 数据同质性：虽然数据量大，但主要来自电话对话场景，可能无法完全代表所有印地语对话场景（如多人讨论、嘈杂环境）。3) 基线对比不足：未与简单的“轮流说话”模型等进行对比，难以量化全双工架构带来的具体增益。4) 长程上下文能力：人类评估显示模型在维持对话连贯性和生成完整回复方面存在不足。 🏗️ 模型架构论文的模型架构直接复用了Moshi，一个端到端的全双工语音对话模型。其核心流程和组件如下： ...

ICASSP 2026 - 迁移学习论文列表

ICASSP 2026 - 迁移学习共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 GLUE: Gradient-free Learning to Unify Experts 6.5分前50% 📋 论文详情 🥇 GLUE: Gradient-free Learning to Unify Experts ✅ 6.5/10 | 前50% | #迁移学习 | #预训练 | #知识蒸馏 #多任务学习 👥 作者与机构第一作者：Jong-Ik Park (卡内基梅隆大学电气与计算机工程系) 通讯作者：未说明 (论文中未明确指定通讯作者) 作者列表：Jong-Ik Park (卡内基梅隆大学电气与计算机工程系)、Shreyas Chaudhari (卡内基梅隆大学电气与计算机工程系)、Srinivasa Pranav* (卡内基梅隆大学电气与计算机工程系)、Carlee Joe-Wong (卡内基梅隆大学电气与计算机工程系)、Jos´e M. F. Moura (卡内基梅隆大学电气与计算机工程系) *作者贡献相同。 💡 毒舌点评亮点：该研究提出了一种巧妙的“偷懒”方法——用无需反向传播的无梯度优化（SPSA）来学习多专家模型的混合系数，将计算成本从全网络反向传播降至仅需两次前向传播，在保持与全梯度优化方法相当性能的同时，显著提升了效率。短板：论文的实验验证场景较为理想化（使用同构模型在简单CV数据集上的混合），缺乏对真实世界复杂场景（如模型架构不同、训练数据量巨大、或需要在线学习）的验证，且未提供任何代码或复现细节，大大削弱了其实用价值和说服力。 🔗 开源详情 ...

Improving Active Learning for Melody Estimation by Disentangling Uncertainties

📄 Improving Active Learning for Melody Estimation by Disentangling Uncertainties #音乐信息检索 #不确定性估计 #迁移学习 #少样本 ✅ 7.5/10 | 前25% | #音乐信息检索 | #不确定性估计 | #迁移学习 #少样本学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：未说明（论文标注“∗Equal contribution”，三位作者贡献相等）通讯作者：未说明作者列表：Aayush Jaiswal（印度理工学院坎普尔分校）、Parampreet Singh（印度理工学院坎普尔分校）、Vipul Arora（印度理工学院坎普尔分校） 💡 毒舌点评亮点：方法框架清晰，将证据深度学习（Evidential Deep Learning）这一不确定性解耦工具系统性地引入旋律估计任务，并通过详实的消融实验证明了回归设置下“认知不确定性”对主动学习的指导价值显著优于“随机不确定性”，为资源受限的跨域适应提供了有效方案。短板：实验规模偏小，仅在三个数据量不大的目标数据集上验证，缺乏在更大规模、更多样化基准（如MIR-1K之外的源域）上的测试，结论的普适性和说服力有待加强；此外，与最新最强的旋律估计SOTA模型（而非基础ResNet）的对比缺失，难以判断其在绝对性能上的竞争力。 🔗 开源详情代码：论文明确提供了代码仓库链接：https://github.com/AayushJaiswal01/melody-extraction-evidential。模型权重：论文中未提及是否公开预训练模型权重。数据集：论文中使用的数据集（MIR-1K, HAR, ADC2004, MIREX-05）为公开数据集，并提供了引用链接。论文未说明是否提供额外的数据处理脚本或工具。 Demo：论文中未提及提供在线演示。复现材料：论文提供了算法描述、损失函数公式和实验设置概要，但未提供详细的训练配置文件、超参数列表、硬件信息或检查点。论文中引用的开源项目： mir_eval：用于评估MIR指标的工具库。论文未明确提及其他依赖的开源模型或框架。 📌 核心摘要这篇论文旨在解决旋律估计任务中，主动学习样本选择策略未能有效利用不同不确定性信息的问题。方法核心是采用证据深度学习（Evidential Deep Learning）框架，分别训练分类（M1）和回归（M2）两种模型，以解耦并独立输出估计音高的“随机不确定性”（Aleatoric Uncertainty，源于数据歧义）和“认知不确定性”（Epistemic Uncertainty，源于模型认知不足）。与已有使用聚合不确定性（如β-NLL）或未解耦不确定性（如TCP置信度）的方法相比，本文的新颖之处在于系统地研究了这两种不确定性在跨域主动学习中的相对效果。主要实验结果表明，在HAR数据集上的域适应任务中，基于认知不确定性的回归模型（M2 (E)）仅使用200个标注样本进行微调，整体准确率（OA）就能达到96.0%，显著优于使用随机不确定性（M2 (A)）的69.2%和其他基线方法（见论文图1及描述）。该工作的实际意义在于，能以极少的标注代价将模型从源域（如MIR-1K中文卡拉OK）高效迁移到新域（如印度古典音乐），降低了标注门槛。其主要局限性是实验验证的数据集规模较小且数量有限，可能限制了结论的普遍性；此外，论文未将所提方法与旋律估计领域已知的最先进（SOTA）模型进行直接对比。 ...