多任务学习

Estimating Respiratory Effort from Nocturnal Breathing Sounds for Obstructive Sleep Apnoea Screening

📄 Estimating Respiratory Effort from Nocturnal Breathing Sounds for Obstructive Sleep Apnoea Screening #音频分类 #CNN-LSTM #多任务学习 #医疗声学 #生物声学 ✅ 6.5/10 | 前25% | #音频分类 | #多任务学习 | #CNN-LSTM #医疗声学学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Xiaolei Xu（谢菲尔德大学计算机科学学院）通讯作者：未说明作者列表：Xiaolei Xu（谢菲尔德大学计算机科学学院）、Chaoyue Niu（谢菲尔德大学计算机科学学院）、Guy J. Brown（谢菲尔德大学计算机科学学院）、Hector Romero（Passion for Life Healthcare）、Ning Ma（谢菲尔德大学计算机科学学院） 💡 毒舌点评这篇论文的亮点在于其开创性思路：首次尝试从夜间呼吸声这一单一模态中，直接估计出通常需要接触式传感器才能获取的“呼吸努力”生理信号，从而为无感的睡眠监测扫清了一个关键障碍。然而，其短板也相当明显：呼吸努力的估计精度（CCC 0.48）仅达到中等相关性，这直接导致了后续融合策略带来的性能提升幅度有限，甚至在某些关键阈值（如AHI≥30）上不如直接使用音频特征，让人对“估计信号”的实际增益打个问号。 🔗 开源详情论文中未提及任何代码、模型权重、数据集的公开链接或在线演示。也未说明是否有公开计划。复现所需的训练细节（如优化器、学习率、超参数搜索范围）和检查点信息均未提供。论文中引用的开源项目主要为前序工作[9, 12]的数据集和基线方法。 📌 核心摘要本文针对阻塞性睡眠呼吸暂停症（OSA）诊断依赖复杂多导睡眠图（PSG）且普及困难的问题，提出一种仅需智能手机音频即可进行OSA筛查的新方法。其核心是设计了一个两阶段框架：首先训练一个模型从夜间呼吸/打鼾声中估计腹部呼吸努力信号，然后冻结该模型，提取其潜在表征作为“呼吸努力嵌入”，与另一个音频编码器提取的声学嵌入在潜在空间进行融合，最终用于OSA事件检测和严重程度分类。与已有方法相比，其新意在于首次实现了从音频直接推断呼吸努力，摆脱了对额外传感器的依赖，维持了纯声学方法的可扩展性。实验在157晚、103名参与者的家庭录音数据集上进行，结果显示：呼吸努力估计器达到0.48的平均CCC；融合估计的呼吸努力后，在AHI阈值5（检测轻度OSA）时，敏感性达到0.88，优于音频基线（0.86）和使用真实努力信号的“Oracle”系统（0.81），AUC为0.86。该方法的实际意义在于为低成本、无感、长期的OSA家庭监测提供了可行的技术路径。其主要局限性包括：呼吸努力的估计精度受限于复杂家庭环境噪声，导致融合收益有限；缺乏充分的消融实验以证明性能提升完全来自呼吸努力表征而非模型容量增加。 🏗️ 模型架构论文提出一个两步走的潜在空间融合框架，用于从夜间音频检测OSA。第一步：音频到呼吸努力的估计器（图1蓝色部分）输入：30秒的音频片段，表示为64维对数梅尔滤波器组特征（1500帧 x 64频段）。组件： CNN特征提取器：使用比音频基线更小的池化核以保留时间分辨率，将输入从1500x64转换为187x128的特征图。 LSTM编码器：处理CNN输出的187帧时序特征，捕获呼吸动力学，产生隐藏状态序列。解码器与插值：一个线性解码器将每个LSTM隐藏状态投影为一个值，生成187点的预测序列。由于参考呼吸努力信号（32Hz采样）在30秒内有960个点，预测序列通过插值上采样至960点，以对齐标签并进行损失计算。输出：预测的归一化呼吸努力信号序列。关键设计：采用“先预测低分辨率序列再插值”的策略，平衡了LSTM训练复杂性和最终信号保真度。优化目标使用一致性相关系数（CCC）损失，以同时优化相关性与偏差。第二步：融合OSA检测（图1橙色部分） ...

From Contrast to Commonality: Audio Commonality Captioning for Enhanced Audio-Text Cross-Modal Understanding in Multimodal LLMS

📄 From Contrast to Commonality: Audio Commonality Captioning for Enhanced Audio-Text Cross-Modal Understanding in Multimodal LLMS #音频场景理解 #跨模态 #多任务学习 #音频大模型 ✅ 7.5/10 | 前25% | #音频场景理解 | #多任务学习 | #跨模态 #音频大模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yuhang Jia（南开大学计算机学院TMCC）通讯作者：Shiwan Zhao（南开大学计算机学院TMCC，Email: zhaosw@gmail.com）作者列表：Yuhang Jia（南开大学计算机学院TMCC）、Xu Zhang（南开大学计算机学院TMCC）、Yujie Guo（南开大学计算机学院TMCC）、Yang Chen（南开大学计算机学院TMCC）、Shiwan Zhao（南开大学计算机学院TMCC） 💡 毒舌点评这篇论文用一个直觉上更“温和”、更符合预训练目标的共性描述任务，漂亮地“击败”了看似更具挑战性但可能“用力过猛”的差异描述任务，证明在多模态大模型微调中，“顺毛捋”有时比“找不同”更有效且稳健。不过，其共性描述的生成规则（尤其是替换操作）依赖于简单的字面重叠，可能在面对更复杂、语义更抽象的音频对时显得脆弱，这限制了该方法向更通用方向发展的潜力。 🔗 开源详情代码：论文中未提及代码链接。模型权��：未提及是否公开微调后的模型权重。数据集：论文中提及构建了148，500对训练数据，但未提供数据集下载链接或公开计划。 Demo：未提及。复现材料：论文给出了训练的关键超参数（LoRA参数、优化器设置、批次大小等），但未提供完整的训练配置文件、数据样本或更详细的生成脚本。论文中引用的开源项目： Qwen2-Audio：作为基座模型（https://huggingface.co/Qwen/Qwen2-Audio-7B）。 Audit：用于数据构造的参考框架。 ms-swift：用于实现LoRA微调的工具库。论文中未提及完整的开源计划。 📌 核心摘要这篇论文旨在解决多模态大语言模型（MLLM）在采用音频差异描述（ADC）任务进行微调时，因输出与预训练目标不匹配而导致的语义差距和灾难性遗忘问题。为此，作者提出了一种新的训练范式——音频共性描述（ACC），该任务引导模型学习并描述成对音频之间的共享语义，而非差异。与基于音频混合的数据构建方法（源自音频编辑任务）相结合，ACC提供了一个与标准音频描述（AC）更一致的训练目标。主要实验结果表明，在Qwen2-Audio模型上，ACC在AudioCaps和Clotho基准测试上的多个指标（如CIDEr-D， SPIDEr）均显著优于仅用AC或ADC微调的方法。同时，ACC在下游语音和音乐任务（如人声分类、情感识别、乐器分类）上表现出更强的通用能力保留，避免了ADC导致的性能下降。该工作的核心意义在于，提出了一个更鲁棒的音频文本跨模态对齐训练策略，平衡了任务专用性能与模型通用性。其主要局限性在于，用于构建共性描述的规则（如替换操作中提取最长连续重叠短语）可能过于简单，无法处理所有复杂的语义对齐情况，且实验评估主要集中在描述任务，对更细粒度的跨模态推理能力验证不足。 ...

From Diet to Free Lunch: Estimating Auxiliary Signal Properties Using Dynamic Pruning Masks in Speech Enhancement Networks

📄 From Diet to Free Lunch: Estimating Auxiliary Signal Properties Using Dynamic Pruning Masks in Speech Enhancement Networks #语音增强 #语音活动检测 #多任务学习 #动态网络 #边缘AI ✅ 7.5/10 | 前25% | #语音增强 | #多任务学习 | #语音活动检测 #动态网络学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Riccardo Miccini (GN Hearing) 通讯作者：未说明作者列表：Riccardo Miccini (GN Hearing)， Clément Laroche (GN Hearing)， Tobias Piechowiak (GN Hearing)， Xenofon Fafoutis (Technical University of Denmark)， Luca Pezzarossa (Technical University of Denmark) 💡 毒舌点评这篇论文巧妙地将动态剪枝机制从“计算节食”的工具，升华为一个能同时“感知”语音活动、噪声类型、音高乃至说话人身份的“免费午餐”特征提取器，思路令人耳目一新。然而，其依赖线性模型和时序平滑的固有局限，使得它在处理瞬息万变的语音信号（如快速变化的SNR或F0）时显得力不从心，最终在SV任务上的平庸表现也暗示了其特征表示的瓶颈。 ...

FUSEMOS: Perceptual Evaluation of Text-to-Music Generation with Dual-Encoder Fusion and Ranking-Aware Composite Loss

📄 FUSEMOS: Perceptual Evaluation of Text-to-Music Generation with Dual-Encoder Fusion and Ranking-Aware Composite Loss #音乐生成 #模型评估 #预训练 #对比学习 #多任务学习 ✅ 7.5/10 | 前25% | #音乐生成 | #多任务学习 | #模型评估 #预训练学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Jing Yang（武汉大学电子信息学院， MiLM Plus (小米)）通讯作者：Ningning Pan（西南财经大学计算机与人工智能学院）， Gongping Huang（武汉大学电子信息学院）作者列表：Jing Yang（武汉大学电子信息学院， MiLM Plus (小米)）， Haoyu Wang（西南财经大学计算机与人工智能学院， MiLM Plus (小米)）， Ningning Pan（西南财经大学计算机与人工智能学院，通讯作者）， Zhao Wang（MiLM Plus (小米)）， Jianxuan Yang（MiLM Plus (小米)）， Gongping Huang（武汉大学电子信息学院，通讯作者） 💡 毒舌点评亮点：非常务实地解决了T2M评估中的一个痛点——单一CLAP编码器“懂语义不懂音乐”，通过双编码器融合显著提升了评估精度，消融实验做得扎实有力。短板：虽然方法有效，但核心创新（融合两个预训练模型+设计一个损失）在深度学习领域属于常见套路，且论文缺乏对模型推理速度或轻量化可能性的讨论，这在实际部署评估系统时是个关键问题。 ...

Fusion of Multimodal Estimations by Extended State Hidden Markov Model: Application to Fetal Heart Rate Monitoring

📄 Fusion of Multimodal Estimations by Extended State Hidden Markov Model: Application to Fetal Heart Rate Monitoring #生物声学 #信号处理 #多任务学习 #医疗 ✅ 7.0/10 | 前50% | #生物声学 | #信号处理 | #多任务学习 #医疗学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Baptiste Rault（Université Grenoble Alpes, CNRS, UMR 5525, VetAgro Sup, Grenoble INP, TIMC）通讯作者：Bertrand Rivet（未明确说明，但提供了邮箱；机构为Université Grenoble Alpes, CNRS, Grenoble INP, GIPSA-lab）作者列表：Baptiste Rault（Université Grenoble Alpes, CNRS, UMR 5525, VetAgro Sup, Grenoble INP, TIMC）、Julie Fontecave-Jallon（Université Grenoble Alpes, CNRS, UMR 5525, VetAgro Sup, Grenoble INP, TIMC）、Bertrand Rivet（Université Grenoble Alpes, CNRS, Grenoble INP, GIPSA-lab） 💡 毒舌点评亮点：扩展HMM状态变量以显式建模“观测是目标信号、混淆信号还是噪声”的思路巧妙且可解释，有效提升了融合算法在真实临床数据上的抗混淆能力（FuSEmHR的RMC中位数降至1.5%）。短板：算法复杂度急剧增加（融合1分钟数据从35ms升至8秒），且最终版本严重依赖可靠的参考信号（mHR），限制了其在未知或不稳定干扰下的应用；更遗憾的是，论文未开源任何代码或数据，让“可复现性”成了一纸空文。 ...

GLUE: Gradient-free Learning to Unify Experts

📄 GLUE: Gradient-free Learning to Unify Experts #迁移学习 #预训练 #知识蒸馏 #多任务学习 ✅ 6.5/10 | 前50% | #迁移学习 | #预训练 | #知识蒸馏 #多任务学习学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Jong-Ik Park (卡内基梅隆大学电气与计算机工程系) 通讯作者：未说明 (论文中未明确指定通讯作者) 作者列表：Jong-Ik Park (卡内基梅隆大学电气与计算机工程系)、Shreyas Chaudhari (卡内基梅隆大学电气与计算机工程系)、Srinivasa Pranav* (卡内基梅隆大学电气与计算机工程系)、Carlee Joe-Wong (卡内基梅隆大学电气与计算机工程系)、Jos´e M. F. Moura (卡内基梅隆大学电气与计算机工程系) *作者贡献相同。 💡 毒舌点评亮点：该研究提出了一种巧妙的“偷懒”方法——用无需反向传播的无梯度优化（SPSA）来学习多专家模型的混合系数，将计算成本从全网络反向传播降至仅需两次前向传播，在保持与全梯度优化方法相当性能的同时，显著提升了效率。短板：论文的实验验证场景较为理想化（使用同构模型在简单CV数据集上的混合），缺乏对真实世界复杂场景（如模型架构不同、训练数据量巨大、或需要在线学习）的验证，且未提供任何代码或复现细节，大大削弱了其实用价值和说服力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：未公开专家模型的具体训练数据集。提到使用基础数据集的原始测试集进行评估，但未提供获取方式。 Demo：未提及。复现材料：给出了部分训练超参数（如学习率、batch size），但关键方法参数（如SPSA的扰动半径μ）和完整的实验配置信息不全。论文中引用的开源项目：未提及依赖的开源工具或模型。 📌 核心摘要要解决的问题：在需要将多个领域专家模型融合成一个适用于新目标域的通用初始化模型时，启发式混合（如按数据量加权）效果不佳，而基于梯度的学习混合系数的方法计算成本高昂（需要完整的反向传播）。方法核心：提出GLUE方法，将目标模型初始化为固定专家模型的凸组合，通过一种称为“同时扰动随机近似”（SPSA）的无梯度优化技术来学习混合系数。每次迭代仅需两次前向传播（对混合参数进行微小扰动），无需反向传播。与已有方法相比新在哪里：传统方法要么使用与目标域无关的启发式（如数据量），要么使用计算昂贵的全梯度优化。GLUE的核心创新在于，它将优化变量从高维的模型参数（P）降低到低维的专家混合系数（K，专家数量），从而使得在低维空间使用无梯度优化方法变得高效且稳定。主要实验结果：在CIFAR-10、SVHN、Imagenette三个数据集和三种网络架构（ResNet-20、MobileNetV2、8层ViT）上的实验表明： GLUE生成的初始化模型在微调后，测试准确率比按数据量加权基线最高提升8.5%，比按代理准确性加权基线最高提升9.1%。 GLUE的性能与需要完整反向传播的全梯度优化方法（Config 3）非常接近，在CIFAR-10上甚至最高高出4.5%，在SVHN和Imagenette上的差异分别在1.4% 和 0.5% 以内。图1展示了在微调过程中，GLUE（Config 4）能从更强的先验开始，并收敛到更高的测试准确率，趋势与全梯度方法（Config 3）高度一致。实际意义：为跨领域模型融合提供了一种轻量级、低成本的部署方案。特别适用于需要快速将多个预训练专家模型适配到新领域，且计算资源受限的场景。主要局限性：方法假设所有专家模型架构兼容；融合结果被限制在专家参数的凸组合内（目标最优解可能在外）；SPSA方法的性能对扰动半径等超参数敏感；实验仅在相对简单和小规模的视觉数据集上验证，未涉及真实复杂任务（如其摘要中提到的多语言ASR）。 🏗️ 模型架构 GLUE本身不是一个神经网络模型架构，而是一种学习专家模型混合系数的方法框架。其整体流程如下： ...

GRNet: Graph Reconstruction Network for Robust Multimodal Sentiment Analysis

📄 GRNet: Graph Reconstruction Network for Robust Multimodal Sentiment Analysis #多模态情感分析 #图神经网络 #鲁棒性 #缺失模态学习 #多任务学习 ✅ 7.5/10 | 前25% | #多模态情感分析 | #图神经网络 | #鲁棒性 #缺失模态学习学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Zhaopan Xu (哈尔滨工业大学) 通讯作者：Hongxun Yao (哈尔滨工业大学) 作者列表：Zhaopan Xu（哈尔滨工业大学）、Lulu Tian（未提供具体机构，邮箱为个人邮箱）、Panpan Zhang（新加坡国立大学 NUS）、Xiaojiang Peng（深圳技术大学）、Hongxun Yao（哈尔滨工业大学） 💡 毒舌点评本文清晰地指出了现有多模态情感分析方法在“重建”缺失信息时忽略了数据内在的时序与跨模态对齐关系，并针对性地提出了两个基于图的模块（TGN/NGN），逻辑自洽且在实验中取得了全面的SOTA，证明其思路有效。不足之处在于，其“图重建”方法仍依赖于启发式设计的图结构（时序边、邻域窗口），这种强假设在更复杂、动态的真实场景下是否依然稳健有待验证，且模型整体框架虽优雅但并未带来根本性的范式变革。 📌 核心摘要问题：现实世界中的多模态情感分析常面临模态数据不完整（如文本、音频、视觉信息缺失）的挑战，而现有方法在重建缺失特征时未能充分利用数据固有的时间关系和跨模态对齐关系。方法核心：提出图重建网络（GRNet），利用两个基于关系图卷积网络（R-GCN）的模块进行重建：(1) 时间图神经网络（TGN）将多模态序列拼接后建模时间依赖关系；(2) 邻居图神经网络（NGN）将每个模态在每个时间步作为独立节点，建模固定窗口内的跨模态邻居对齐关系。同时，采用多路径分类策略，联合优化单模态分类器和最终分类器以增强鲁棒性。新意：与先前独立重建各模态特征的方法不同，GRNet显式地利用图结构对多模态序列的时序上下文和跨模态同步关系进行联合建模与重建，从而获得更符合数据内在规律的恢复特征。主要结果：在三个基准数据集（MOSI、MOSEI、SIMS）上，GRNet在二分类准确率（Acc-2）、F1分数、平均绝对误差（MAE）和相关性（Corr）等指标上全面超越了包括P-RMF、LNLN在内的最新方法。例如，在MOSI数据集上，GRNet的Acc-2为73.45%，F1为73.68%，MAE为1.026，均优于次优方法P-RMF的72.81%、72.93%、1.038。消融实验证明移除TGN或NGN均会导致性能下降。实际意义：为处理现实世界中不可避免的数据缺失问题提供了一种更鲁棒的解决方案，增强了多模态情感分析系统在噪声和干扰下的可靠性，推动了MSA技术向实际应用落地。主要局限性：邻居图神经网络（NGN）依赖于预设的固定窗口大小w，这可能限制了其适应不同场景下动态跨模态对齐关系的能力；论文未探讨该方法在更极端或非随机缺失模式下的表现。 🏗️ 模型架构模型（GRNet）的整体流程如图2所示，包含三个主要阶段：特征提取与不完整数据模拟： ...

Hierarchical Activity Recognition and Captioning from Long-Form Audio

📄 Hierarchical Activity Recognition and Captioning from Long-Form Audio #音频事件检测 #音频分类 #多任务学习 #预训练 #统一音频模型 ✅ 7.5/10 | 前25% | #音频事件检测 | #多任务学习 | #音频分类 #预训练学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Peng Zhang（萨里大学视觉、语音与信号处理中心 CVSSP）通讯作者：未说明作者列表：Peng Zhang（萨里大学CVSSP）、Qingyu Luo（萨里大学CVSSP）、Philip J.B. Jackson（萨里大学CVSSP）、Wenwu Wang（萨里大学CVSSP） 💡 毒舌点评这篇论文的亮点在于它像一个严谨的“包工头”，为“长音频层级理解”这个新工地（MultiAct数据集）和一套标准施工流程（统一层级模型）打了样，实验全面且开源承诺明确。短板则是所用的砖瓦（模型组件）多为现有库存，施工方法（框架创新）更偏向于系统集成而非原创性突破，面对复杂长程依赖时，模型表现仍有明显瓶颈（如序列预测的误差随上下文增长）。 🔗 开源详情代码：提供代码仓库链接 github.com/PennyZhang9/MultiAct。模型权重：论文中未明确说明是否公开预训练模型权重，但提供了开源代码仓库，权重可能包含在其中或后续发布。数据集：MultiAct数据集公开，遵循CC BY许可（音频部分受EPIC-KITCHENS非商业许可约束）。 Demo：论文中未提及。复现材料：提供了主要模型架构图和实验设置描述，但关键训练超参数在正文中未详细列出，复现细节需参考代码仓库。论文中引用的开源项目： Auditory SlowFast (ASF)：音频特征提取骨干网络。 ActionFormer：用于音频活动检测的基线模型。 BART：用于字幕生成的预训练语言模型解码器。 Conformer：用于序列预测任务的编码器。 GPT-4o：用于辅助数据集标注的LLM。 📌 核心摘要要解决的问题：现有音频理解研究大多局限于短片段和孤立事件，缺乏对真实世界长音频中具有层次化（活动-子活动-事件）和序列化结构的复杂人类活动的理解。方法核心：提出MultiAct新数据集，包含带有多层级时间标注和双粒度文本描述的长音频；并设计一个统一的层级模型框架，联合处理层级分类、检测、序列预测和多分辨率字幕生成任务。与已有方法相比新在哪里：主要新在任务定义和数据资源上。MultiAct是首个提供长时程、三层级语义标注及配对描述的音频数据集。模型框架旨在统一解决上述多个层级化任务，而非针对单一任务。主要实验结果：层级分类任务：在评估集上，活动分类Top-1准确率达83.3%，子活动分类最佳Top-1为51.3%。检测任务：子活动检测的平均AP在IoU@0.5时为22.0%，事件检测为12.5%，揭示了边界定位的挑战。序列预测任务：使用CTC的Conformer模型，在训练上下文长度为2时AER最低（验证集66.7%），随上下文变长误差上升。字幕生成任务：层级模型在大多数指标上优于基于规则的基线，例如在评估集的高阶摘要任务中，ROUGE-L从20.7提升至28.3，CIDEr从2.2提升至11.1。实际意义：为长音频的层级结构理解研究建立了基准，推动了从孤立事件识别到复杂活动理解的研究范式转变，其建模思路可应用于监控、智能家居等领域。主要局限性：模型在处理长程依赖（如长序列预测）和精确边界定位（检测任务中高IoU性能下降）方面仍存在挑战；模型架构缺乏核心原创性；数据集规模（~9小时）和场景多样性（厨房）有待扩充。 🏗️ 模型架构论文提出的统一层级框架（见图2）包含三个主要组件，协同工作以处理长音频的层级理解和生成任务。 ...

Improving Binaural Distance Estimation in Reverberant Rooms Through Contrastive And Multi-Task Learning

📄 Improving Binaural Distance Estimation in Reverberant Rooms Through Contrastive And Multi-Task Learning #声源定位 #对比学习 #多任务学习 #鲁棒性 #数据增强 ✅ 7.0/10 | 前25% | #声源定位 | #对比学习 | #多任务学习 #鲁棒性学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -1.0 | 置信度高 👥 作者与机构第一作者：Daniel Neudek（波鸿鲁尔大学通信声学研究所）通讯作者：未明确说明，但根据邮箱和星号标注，Rainer Martin（波鸿鲁尔大学通信声学研究所）和Stephan Getzmann（多特蒙德工业大学IfADo研究所）可能是负责人。作者列表：Daniel Neudek（波鸿鲁尔大学通信声学研究所）、Benjamin Stodt（多特蒙德工业大学IfADo研究所）、Jean Paul Farah（波鸿鲁尔大学通信声学研究所）、Stephan Getzmann（多特蒙德工业大学IfADo研究所）、Rainer Martin（波鸿鲁尔大学通信声学研究所） 💡 毒舌点评亮点在于将对比学习（CL）的“拉近相似、推远不同”思想巧妙地应用于距离感知的潜空间塑造，显著提升了模型在完全未见的真实环境中的鲁棒性，这比在合成数据上刷点更有意义。短板则是其方法的“有效性”高度依赖精心设计的合成数据生成管线和辅助任务的定义，真实世界的复杂声源和接收器多样性可能仍未被完全覆盖，导致VAST等更具挑战的测试集上相关性系数（ρ）仍偏低。 🔗 开源详情论文中未提及任何开源计划，包括代码、模型权重、数据集或训练配置。所有实验细节均在论文中描述，但完全复现依赖未公开的工具和大量计算资源。 📌 核心摘要要解决什么问题：现有双耳声源距离估计模型在训练所用的声学环境（房间、接收器HRTF、声源指向性）下表现良好，但在面对训练时未见过的全新环境时性能显著下降，鲁棒性和泛化能力不足。方法核心是什么：提出一种结合多任务学习与监督对比学习的训练框架。主任务是估计距离，辅助任务是估计直达声响应。通过构造同一配置下略有变化（如不同HRTF、指向性）的BRIR变体作为对比学习的正样本对，强制模型学习一个“距离感知”的潜空间，使相同距离的表征接近，不同距离的表征远离。与已有方法相比新在哪里：以往多任务学习（如联合估计DOA或直达声）仅共享潜空间但未显式约束其结构。本文首次明确地将对比学习整合到双耳距离估计的多任务框架中，直接优化潜空间结构以增强对声学条件变化的鲁棒性。主要实验结果如何：实验表明，在合成数据集（S1/S2）上，所提方法将最佳MAE分别降低了6.2cm和4.3cm。在未见过的VAST数据集和真实录制数据上，对比学习的引入带来了更显著的提升：对于S1训练的模型，VAST的MAE降低了22cm，真实数据降低了16cm；对于更鲁棒的S2训练的模型，MAE也分别降低了22cm和9.8cm。同时，模型预测的距离与真实距离的幂律指数α更接近线性（α≈0.6-0.7），比人类感知（α≈0.4）更线性。实际意义是什么：该工作为在复杂多变的声学环境中（如智能家居、AR/VR空间）部署可靠的声源距离感知系统提供了一种有效的训练范式，减少了对目标场景真实数据的依赖。主要局限性是什么：模型的泛化性能仍严重依赖合成数据生成的质量和多样性。在最具挑战的VAST测试集上，相关系数ρ最高仅约0.54，表明预测与真实值的线性关系仍有很大提升空间。论文未探讨模型在移动声源或复杂噪声干扰下的表现。核心摘要表1：不同训练配置下的平均绝对误差（MAE）和相关系数（ρ）训练集 βCL βrec S1/S2 MAE [m] (ρ) VAST MAE [m] (ρ) 真实数据 MAE [m] (ρ) S1 0 0 0.688 (0.88) 1.62 (0.30) 1.43 (0.84) 5 10 0.626 (0.90) 1.48 (0.45) 1.27 (0.83) S2 0 0 0.904 (0.81) 1.47 (0.34) 0.924 (0.77) 5 10 0.884 (0.83) 1.17 (0.52) 0.863 (0.79) 注：加粗表示在该测试集上最佳结果（对于S2模型的VAST和真实数据）。最佳权衡配置（βCL=5, βrec=10）在所有测试集上均表现最优或接近最优。 ...

In-Sync: Adaptation of Speech Aware Large Language Models for ASR with Word level timestamp predictions

📄 In-Sync: Adaptation of Speech Aware Large Language Models for ASR with Word level timestamp predictions #语音识别 #语音大模型 #多任务学习 #数据增强 ✅ 7.0/10 | 前50% | #语音识别 | #多任务学习 | #语音大模型 #数据增强学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Xulin Fan（University of Illinois Urbana-Champaign）通讯作者：未说明作者列表：Xulin Fan（University of Illinois Urbana-Champaign）、Vishal Sunder（IBM Research）、Samuel Thomas（IBM Research）、Mark Hasegawa-Johnson（University of Illinois Urbana-Champaign）、Brian Kingsbury（IBM Research）、George Saon（IBM Research） 💡 毒舌点评亮点：论文提出的三个训练策略（长度增强、嵌入正则化、减少教师强制）逻辑清晰，且消融实验设计规范，清晰展示了每个模块的贡献与局限，为SpeechLLM的多任务适配提供了实用的工程经验。短板：作为一篇ICASSP论文，其核心创新（尤其是高斯先验正则化）更像是一种“调参技巧”的系统化，而非算法层面的突破；此外，论文承认了正则化与减少教师强制“组合不佳”，这削弱了方法作为统一框架的完备性。 ...