Icassp-2026

Reference-Aware SFM Layers for Intrusive Intelligibility Prediction

📄 Reference-Aware SFM Layers for Intrusive Intelligibility Prediction #语音评估 #语音大模型 #预训练 #模型评估 #多任务学习 ✅ 7.5/10 | 前10% | #语音评估 | #语音大模型 | #预训练 #模型评估学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Hanlin Yu（UBC ECE, Canada）通讯作者：Linkai Li（Stanford EE, USA）、Shan X. Wang（Stanford EE, USA）作者列表：Hanlin Yu（UBC ECE, Canada），Haoshuai Zhou（Orka Labs Inc., China），Boxuan Cao（Orka Labs Inc., China），Changgeng Mo（Orka Labs Inc., China），Linkai Li（Stanford EE, USA），Shan X. Wang（Stanford EE, USA） 💡 毒舌点评亮点：本文在CPC3挑战赛中成功夺冠，证明了系统整合SFM多层特征与显式参考信号对于侵入式可懂度预测任务的有效性，且消融实验设计系统、结论清晰。短板：核心创新点更偏向于对现有组件的精巧组合与工程优化，缺乏在模型原理层面的根本性突破，且论文未开源代码或模型，限制了其作为可复现基准的价值。 ...

Refgen: Reference-Guided Synthetic Data Generation for Anomalous Sound Detection

📄 Refgen: Reference-Guided Synthetic Data Generation for Anomalous Sound Detection #音频事件检测 #流匹配 #数据增强 #工业应用 ✅ 7.5/10 | 前25% | #音频事件检测 | #流匹配 | #数据增强 #工业应用学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Wenrui Liang（清华大学电子工程系）通讯作者：Wei-Qiang Zhang（清华大学电子工程系）作者列表：Wenrui Liang（清华大学电子工程系）、Yihong Qiu（华北电力大学经济与管理学院）、Anbai Jiang（清华大学电子工程系）、Bing Han（上海交通大学计算机科学与工程系）、Tianyu Liu（清华大学电子工程系）、Xinhu Zheng（上海交通大学计算机科学与工程系）、Pingyi Fan（清华大学电子工程系）、Cheng Lu（上海交通大学计算机科学与工程系）、Jia Liu（清华大学电子工程系，Huakong AI Plus）、Wei-Qiang Zhang（清华大学电子工程系） 💡 毒舌点评亮点：该工作将“参考音频”作为声学锚点引入生成式数据增强是一个巧妙且有效的创新，显著优于纯文本驱动的生成方法，实验结果令人信服。短板：论文的亮点高度依赖于所用TangoFlux生成模型的性能天花板，而ASD检测器本身只是采用了现有的BEATs+ArcFace框架，未能展现出更前沿的检测算法探索；同时，生成过程的计算开销（多步ODE求解）可能限制其实际应用效率，但论文未对此进行讨论。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开微调后的TangoFlux或过滤分类器的权重。数据集：使用公开的DCASE 2023 Task 2数据集，论文中未说明是否公开其处理后的数据或生成的合成数据。 Demo：未提及。复现材料：论文给出了一些训练细节（如GPU型号、epoch数、音频参数），但缺失生成模型的关键超参数（如学习率、Steptotal）和过滤器训练的完整细节。论文中引用的开源项目：TangoFlux [18]、BEATs [4]、LoRA [6]、ArcFace [26]、SpecAug [27]。总体开源计划：论文中未提及开源计划。 📌 核心摘要问题：工业异常声音检测面临严重的领域偏移问题，尤其是目标域训练数据稀缺时，模型泛化能力下降。方法核心：提出RefGEN框架，核心是参考引导生成和语义一致性过滤。它利用参考音频在潜在空间中作为“声学锚点”，通过控制噪声注入进行受控插值生成，再利用一个BEATs分类器过滤掉语义不匹配的生成样本。创新：首次将参考音频引入ASD的数据生成增强中，克服了纯文本描述无法捕捉细粒度声学特征的局限；同时引入了显式的质量控制机制（过滤器）确保生成数据的标签保真度。主要实验结果：在DCASE 2023 ASD数据集上，RefGEN的平均谐波平均数（hmean）达到72.12%，超越了当时报告的所有基线方法，包括多个挑战赛顶级方案。消融研究证实了参考引导生成（+0.57%）和过滤机制（+0.44%）各自的贡献。频谱图对比显示，参考引导生成比纯文本生成更好地保留了原始音频的频谱结构。模型开发集 hmean 评估集 hmean 全集 hmean Baseline (真实数据) 67.30 ± 0.88 75.38 ± 1.11 71.11 ± 0.89 +Ref-GEN 67.39 ± 0.91 76.55 ± 0.78 71.68 ± 0.71 +Filter (完整RefGEN) 68.61 ± 1.01 76.03 ± 0.47 72.12 ± 0.43 MSN [33] (强基线) 70.43 - 69.53 RefGEN (Best) 75.33 - 72.68 实际意义：为解决工业场景中标注数据稀缺和领域偏移问题提供了一种有效的生成式数据增强方案，提升了异常检测模型的鲁棒性和泛化能力。主要局限性：生成样本的多样性仍然受限于参考音频库；过滤器的性能依赖于其在原始数据上训练的属性分类器；生成过程的计算成本可能较高。论文未探讨生成音频对最终ASD模型性能的“量-质”权衡关系。 🏗️ 模型架构 RefGEN是一个四阶段框架，整体架构如图1所示。 ...

Regularized Inverse Filter Design for Rigid Spherical Microphone Array Processing: Laplace- And Time-Domain Representations

📄 Regularized Inverse Filter Design for Rigid Spherical Microphone Array Processing: Laplace- And Time-Domain Representations #空间音频 #信号处理 #麦克风阵列 #正则化 #鲁棒性 🔥 8.0/10 | 前25% | #空间音频 | #信号处理 | #麦克风阵列 #正则化学术质量 6.0/7 | 选题价值 1.3/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Nara Hahn（南安普顿大学声学与振动研究所）通讯作者：Filippo Maria Fazi（南安普顿大学声学与振动研究所）作者列表：Nara Hahn（南安普顿大学声学与振动研究所）、Filippo Maria Fazi（南安普顿大学声学与振动研究所） 💡 毒舌点评亮点：本文最大的价值在于为“正则化逆滤波”这一经典问题提供了一个极具解释性的Laplace域理论框架，将Tikhonov正则化清晰地映射为“极点远离虚轴”的物理过程，并推导出了闭式连续时间冲激响应，理论推导严谨且自洽。短板：应用场景高度聚焦于刚性球形阵列的Ambisonic编码，在更广泛的信号处理或声学问题上的通用性未作探讨；实验部分主要以验证理论推导为主，缺乏与当前主流工程化径向滤波器设计方法在性能、效率或鲁棒性上的定量对比，使其“价值主张”更多停留在理论新颖性而非实际优越性。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：未提及。 Demo：未提及。复现材料：论文提供了完整的数学公式（式1-32）、系统参数（R=0.048m, c=343m/s, β值）以及实验设置细节（采样率384kHz，DFT点数2^14），允许读者在数学和信号处理层面复现其推导和验证实验。论文中引用的开源项目：未提及依赖的开源工具或模型。 📌 核心摘要要解决什么问题：刚性球形麦克风阵列在进行Ambisonic编码时，需要设计径向滤波器来均衡球体散射效应。该均衡本质上是一个病态的逆滤波问题，直接求逆会导致滤波器不稳定和噪声放大。方法核心是什么：提出一种在Laplace域（s域）表述的Tikhonov正则化逆滤波设计框架。该框架将正则化过程解析地表达为对原系统极点的重新定位，使其远离虚轴（稳定性边界），从而控制增益和稳定性。与已有方法相比新在哪里：超越了传统仅在频域离散频率点上进行正则化的黑箱方法，提供了对正则化如何改变滤波器极点-零点结构的物理洞察；推导出了正则化逆滤波器的闭式连续时间冲激响应（双向拉普拉斯逆变换），而非仅依赖逆FFT。主要实验结果如何：实验主要验证理论。通过设定最大增益限制（如+30 dB）确定正则化参数β，设计了0-4阶径向滤波器。结果表明：(a) 正则化后滤波器的幅频响应被有效约束在设定限值内（见图1b）；(b) 极点分布验证了正则化使极点对称远离原点的理论预测（见图2b）；(c) 推导出的连续时间冲激响应与传统DFT域正则化得到的结果高度吻合（见图3），但连续时间表示不存在DFT的带限振铃现象。实际意义是什么：为球形麦克风阵列的径向滤波器设计提供了一种原理清晰、可分析的理论工具，有助于深入理解正则化参数选择与滤波器时频特性（如稳定性、瞬态响应）之间的内在联系。主要局限性是什么：论文明确指出了三个局限：(1) 从Laplace域到实际离散时间（z域）实现需要额外的变换（如双线性变换），可能引入畸变；(2) 推导的冲激响应是双向非因果的，无法直接用于实时处理；(3) 未考虑解码阶段常见的模态加权补偿。 🏗️ 模型架构本文并非提出一个传统意义上的“模型”，而是提出一种信号处理方法和分析框架。其整体流程与组件如下： ...

Relative Time Intervals Representation For Word-Level Timestamping With Masked Training

📄 Relative Time Intervals Representation For Word-Level Timestamping With Masked Training #语音识别 #大语言模型 #相对时间表示 #参数高效微调 #语音大模型 🔥 8.0/10 | 前25% | #语音识别 | #大语言模型 | #相对时间表示 #参数高效微调学术质量 8.0/7 | 选题价值 7.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Quanwei Tang（苏州大学）通讯作者：Dong Zhang（苏州大学；江苏语言计算重点实验室）作者列表：Quanwei Tang（苏州大学），Zhiyu Tang（昆士兰大学），Xu Li（AISpeech Ltd），Dong Zhang（苏州大学；江苏语言计算重点实验室），Shoushan Li（苏州大学），Guodong Zhou（苏州大学） 💡 毒舌点评亮点在于用“相对时间间隔”替代“绝对时间戳”这一简单却有效的表示革新，直击现有方法词汇爆炸与误差累积的痛点，设计巧妙且实验收益显著。短板是创新主要停留在表示层面和训练技巧（如掩码概率固定为10%），对于时间建模本身（如动态间隔学习）的探索深度略显不足，更像是一个为特定任务设计的实用工程改进。 🔗 开源详情代码：论文中提供了代码仓库链接：https://github.com/tangquanwei/Timestamp-Aware-Speech-LLM。模型权重：未提及是否公开。数据集：使用了公开数据集（AISHELL-2， Common Voice），但未说明具体获取和预处理方式。 Demo：未提及。复现材料：提供了较详细的训练数据（AISHELL-2， Common Voice英文子集）、训练硬件（24x Ascend 910B NPU）、关键超参数（学习率 5×10^-6，批次时长500秒，时间戳掩码概率10%， λ动态策略）、优化器（AdamW）和调度器（WarmupCosineLR）。这些信息对复现至关重要。论文中引用的开源项目：引用了 LoRA（用于参数高效微调）和 FireRedASR-LLM（作为基础架构）。 📌 核心摘要问题：现有语音大模型在生成带时间戳的转录时，主要使用绝对时间戳，这会导致词汇表膨胀、误差累积传播，并且对超出训练时长范围音频的泛化能力差。方法核心：提出用相对时间间隔（即相邻词之间的时间差）表示时间戳，替代绝对时间戳。同时，采用混合微调策略（对新增模块全参数微调，对骨干解码层使用LoRA）和时间戳掩码训练目标，以高效注入时间预测能力并提升鲁棒性。创新点：首次在语音大模型中系统性地提出并验证了基于相对时间间隔的时间戳表示方法；引入时间戳掩码训练以防止模型过拟合于完美标注；设计了角色感知的混合参数高效微调策略。主要实验结果：在LibriSpeech和Wenet-Meeting两个数据集上，本文方法（Relative Timestamp）在时间戳预测的精确率、召回率和平均时间差指标上均显著优于Qwen2-Audio、WhisperTimestamped、SenseVoiceSmall、Canary等基线模型以及论文内对比的绝对时间戳方法。例如，在Wenet-Meeting数据集上，240ms容差下，本文方法的精确率和召回率分别达到91.13%和86.88%，平均时间差仅30.34ms。消融实验表明，移除时间戳损失或时间戳掩码均会导致性能明显下降。实际意义：使语音大模型从“内容理解机器”升级为“时间感知的内容理解机器”，为需要精确时序对齐的应用（如字幕生成、语音编辑、会议记录）提供了更优解决方案。主要局限性：掩码训练策略相对简单（固定10%概率），未探讨更复杂的掩码或课程学习策略；相对时间间隔的范围（0-5秒）是否普适于所有语音场景有待验证；论文未详细分析模型在不同语速、不同噪声条件下的鲁棒性。 🏗️ 模型架构论文中的架构对比图如下： ...

Reliable AI via Age-Balanced Validation: Fair Model Selection for Parkinson’s Detection from Voice

📄 Reliable AI via Age-Balanced Validation: Fair Model Selection for Parkinson’s Detection from Voice #语音生物标志物 #模型评估 #数据集 #跨模态 #音频分类 ✅ 7.5/10 | 前25% | #语音生物标志物 | #模型评估 | #数据集 #跨模态学术质量 5.5/7 | 选题价值 1.8/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Niloofar Momeni（Centre for Mathematical Sciences, Mathematical Statistics, Lund University, Sweden）通讯作者：未说明作者列表：Niloofar Momeni（Centre for Mathematical Sciences, Mathematical Statistics, Lund University, Sweden）、Susanna Whitling（Department of Logopedics, Phoniatrics, and Audiology, Faculty of Medicine, Lund University, Sweden）、Andreas Jakobsson（Centre for Mathematical Sciences, Mathematical Statistics, Lund University, Sweden） 💡 毒舌点评这篇论文的亮点在于其“简单而有效”：用一个精心设计的年龄平衡验证集，就能显著改善跨数据集、跨语言模型的泛化性能，并且推理时完全不需要敏感的人口统计学信息，这在临床场景下极具吸引力。但短板也很明显：除了提出验证集构建流程，论文对“为何年龄平衡验证集能有效”的机理分析较浅，且新构建的VD数据集规模较小（113人），其作为外部验证基准的普适性有待更广泛数据的检验。 ...

Representation-Based Data Quality Audits for Audio

📄 Representation-Based Data Quality Audits for Audio #数据集 #自监督学习 #对比学习 #音频事件检测 #工业应用 ✅ 7.5/10 | 前25% | #数据集 | #自监督学习 #对比学习 | #自监督学习 #对比学习学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Alvaro Gonzalez-Jimenez (1,3)， Fabian Gröger (1,2) （论文注明“Equal contribution”）通讯作者：未说明作者列表： Alvaro Gonzalez-Jimenez (1 Lucerne University of Applied Sciences and Arts, 3 University Hospital of Basel) Fabian Gröger (1 Lucerne University of Applied Sciences and Arts, 2 University of Basel) Linda Wermelinger (1 Lucerne University of Applied Sciences and Arts, 2 University of Basel) Andrin Bürli (4 CSEM) Iason Kastanis (4 CSEM) Simone Lionetti (1 Lucerne University of Applied Sciences and Arts) Marc Pouly (1 Lucerne University of Applied Sciences and Arts) 💡 毒舌点评亮点：本文成功将针对图像的SelfClean框架迁移至音频领域，并通过详实的实验证明，直接使用预训练的通用音频编码器（如BEATs）比从头训练的“自监督”编码器效果更好，为工业级数据审计提供了一个即插即用、高效统一的解决方案。短板：在核心创新上略显薄弱，更像是一个应用验证和工程适配的工作，缺乏对音频领域特有问题的深度建模或算法层面的原创突破；此外，在小规模工业数据集（CSEM）上的绝对性能有限，凸显了该方法在高度专业化、声学模式单一场景下的泛化挑战。 ...

Representation-Diverse Self-Supervision for Cross-Domain Bioacoustic Learning in Low-Resource Settings

📄 Representation-Diverse Self-Supervision for Cross-Domain Bioacoustic Learning in Low-Resource Settings #生物声学 #对比学习 #自监督学习 #迁移学习 #低资源 ✅ 7.0/10 | 前25% | #生物声学 | #对比学习 | #自监督学习 #迁移学习学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Dimitris N. Makropoulos（HERON - Hellenic Robotics Center of Excellence; 国家技术大学雅典分校电气与计算机工程学院；雅典研究中心机器人研究所；希腊海洋研究中心海洋学研究所）通讯作者：未说明（论文未明确标注）作者列表：Dimitris N. Makropoulos（同上），Christos Garoufis（HERON; 国家技术大学雅典分校; 雅典研究中心），Antigoni Tsiami（雅典研究中心），Panagiotis P. Filntisis（HERON; 雅典研究中心），Petros Maragos（HERON; 国家技术大学雅典分校; 雅典研究中心） 💡 毒舌点评亮点：其核心想法——让模型学习同一段海豚叫声的两种不同“画像”（频谱图与能量图）之间的联系——非常巧妙，不仅有效利用了信号本身的物理特性，还意外地在完全不同的鸟类叫声识别任务上取得了优异效果，展现了生物声学中“调制模式”跨物种共享的有趣洞察。短板：实验验证的“跨域”跨度仅限于海豚与鸟类，且数据集规模偏小（预训练仅15类海豚），论文未提供代码开源计划或预训练模型，极大地限制了其作为通用生物声学预训练方法的即时可用性和影响力。 🔗 开源详情代码：论文中未提及代码链接或开源计划。模型权重：未提及是否公开预训练或微调后的模型权重。数据集：论文使用了公开数据集（WMMSD, RFCx, BirdCLEF），但未在论文中说明具体获取方式或提供处理后的数据脚本。 Demo：未提供在线演示。复现材料：提供了较详细的训练超参数（epoch， batch size，学习率，优化器）、模型架构选择（ResNet18等）、数据处理流程（重采样率，窗长，谱图大小）以及关键算法公式（Gabor滤波， TKEO， InfoNCE loss），为复现提供了必要信息。引用的开源项目：论文引用了SimCLR、COLA等自监督学习方法作为对比基线，但未明确说明其代码依赖。 📌 核心摘要解决的问题：在低资源生物声学领域，跨物种、跨数据集的迁移学习面临挑战，因为不同物种的发声信号虽有共性（如频率调制），但数据分布差异大。传统自监督学习（如SimCLR）依赖数据增强，可能未充分利用信号本身的多种物理表示。方法核心：提出一种“表示多样性”的对比自监督学习框架。在预训练阶段，模型（ResNet18， MobileNetV2， ViT-B/16）学习区分同一段海豚叫声的频谱图和由Teager-Kaiser能量算子（TKEO）派生的能量图。这两种表示分别捕捉信号的功率谱密度和瞬时能量-调制特性。之后，将预训练好的编码器在鸟类叫声数据集上进行微调。与已有方法的新颖之处：不同于SimCLR对同一表示进行随机数据增强，也不同于跨模态学习（如音频-文本），本方法首次利用同一信号的不同物理/数学表示（频谱图 vs. 能量图）构建正样本对进行对比学习。这种跨表示对比迫使模型学习更本质的、跨表示不变的声学特征。主要实验结果：在RFCx和BirdCLEF两个鸟类叫声数据集上，所有模型架构（ResNet18， MobileNetV2， ViT）均显示，从监督学习到SimCLR，再到对比不同窗口频谱图，最后到对比“频谱图-能量图”，性能持续提升。最佳配置（对比频谱图与离散TKEO能量图）显著优于监督基线和SimCLR。模型 RFCx (加权F1) BirdCLEF (加权F1) ResNet18 82.38 ± 1.51% (最佳) 73.72 ± 0.40% (最佳) MobileNetV2 77.95 ± 1.12% 67.40 ± 0.68% ViT-B/16 82.10 ± 1.31% 68.12 ± 0.67% 表1：不同模型在最佳配置（对比频谱图与离散TKEO能量图）下的加权F1分数对比（数据来源于论文Table 1）论文图2展示了虎鲸和旋转海豚的能量图与频谱图对比，直观显示了能量图对调制结构的增强效果。实际意义：为低资源生物声学监测提供了一种有效的预训练策略。通过利用海豚叫声数据（可能相对易获取）预训练，能够提升鸟类（或其他物种）叫声分类的性能，有助于生态保护和生物多样性监测。主要局限性：预训练数据（海豚）和下游任务数据（鸟类）虽然都包含调制成分，但物种差异巨大，框架的泛化能力到更多类群（如昆虫、蛙类）未被验证。数据集规模较小（预训练15类，下游测试集每类50-250样本），在大规模实际场景中的鲁棒性未知。论文未提供代码和预训练模型。 🏗️ 模型架构本文提出的管道架构分为三个阶段（见论文图3）： ...

Residual Tokens Enhance Masked Autoencoders for Speech Modeling

📄 Residual Tokens Enhance Masked Autoencoders for Speech Modeling #语音合成 #掩码自编码器 #自监督学习 #语音增强 ✅ 7.0/10 | 前50% | #语音合成 | #掩码自编码器 | #自监督学习 #语音增强学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Samir Sadok（Inria at Univ. Grenoble Alpes, CNRS, LJK, France）通讯作者：未说明（论文中未明确标注通讯作者）作者列表：Samir Sadok（Inria at Univ. Grenoble Alpes, CNRS, LJK, France）、Stéphane Lathuilière（Inria at Univ. Grenoble Alpes, CNRS, LJK, France）、Xavier Alameda-Pineda（Inria at Univ. Grenoble Alpes, CNRS, LJK, France） 💡 毒舌点评这篇论文提出了一个思路清晰、逻辑自洽的改进（用残差令牌捕获“边角料”信息），并通过在语音去噪任务上的初步应用证明了其有效性，这是其主要亮点。然而，其学术贡献更像在一个已有框架（AnCoGen）上做了一个精致的“补丁”，缺乏颠覆性的架构创新或在大规模基准上的压倒性优势，说服力和影响力因而受限。 ...

Respire-Mamba C-UNet: Consistency-Trained Autoencoder for High-Fidelity Respiratory Sound Compression

📄 Respire-Mamba C-UNet: Consistency-Trained Autoencoder for High-Fidelity Respiratory Sound Compression #音频压缩 #一致性训练 #状态空间模型 #远程医疗 ✅ 7.0/10 | 前25% | #音频压缩 | #一致性训练 | #状态空间模型 #远程医疗学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Rishabh（德里大学计算机科学系）通讯作者：未说明作者列表：Rishabh（德里大学计算机科学系）、Yogendra Meena（德里理工大学应用数学系）、Dhirendra Kumar（贾瓦哈拉尔·尼赫鲁大学计算机与系统科学学院）、Kuldeep Singh（德里大学计算机科学系）、Nidhi（J.C. Bose科学技术大学 YMCA） 💡 毒舌点评论文成功地将多个前沿技术（SincConv、U-Net金字塔、Mamba、一致性模型）缝合在一起，在呼吸音压缩任务上取得了令人印象深刻的保真度（CC=1.0000），这是其显著亮点。然而，其核心短板在于压缩比（CR=3.91）相对温和，且论文主要贡献更偏向于“工程整合”而非“理论突破”，此外，关键的消融实验（如表1）中“去掉方差缩放/频率门控”性能反而略好于完整模型，这略显反常，论文未给出充分解释。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用公开的SPRSound系列数据集，但论文未说明具体获取方式。 Demo：未提供在线演示。复现材料：论文给出了模型架构的文字描述和部分关键参数（如SincConv参数、幂律参数），但缺乏训练细节（优化器、学习率、batch size等），不足以支持完整复现。论文中引用的开源项目：引用了Mamba-SSM（[15]）作为实现依赖。 📌 核心摘要要解决的问题：慢性呼吸疾病诊断中，数字听诊器录音的高效压缩与高保真重建，以支持可扩展的远程医疗。方法核心：提出Respire-Mamba C-UNet，一个统一的自编码器框架。它结合生理感知的SincConv前端进行特征提取，金字塔UNet进行多尺度编码，以及一个由时间Mamba瓶颈增强的一致性训练UNet进行单步解码重建。与已有方法相比新在哪里：不同于先前工作孤立处理前端、编码、解码，或追求极端压缩比，本文首次将SincConv的生理感知前端、金字塔多尺度表示、Mamba的高效长程建模与一致性训练的单步重建能力整合，共同优化以获得临床级保真度。主要实验结果：在SPRSound 2024基准测试上，模型实现了PRD=0.85%， CC=1.0000， CR=3.91，显著优于现有自编码器和压缩感知基线。消融研究证实了各组件的互补增益。关键对比如下表所示：方法 PRD (%) CC CR 压缩感知 [10] 50.1 0.8630 3.5 VAE+Transformer [11] 20.5 0.9800 256 卷积自编码器 [9] 22.3 0.9720 222.1 生成式VAE [9] 7.60 0.9757 42.67 压缩感知 [9] 5.30 0.9311 4 本文方法 0.85 1.0000 3.91 实际意义：为医疗远程听诊提供了一种高质量、低延迟（单次前向传播）的音频压缩解决方案，有助于推动远程呼吸诊断的普及。主要局限性：压缩比相对较低，未在更广泛的音频或疾病类型数据集上验证；消融实验中个别结果的解读需要更多分析；未提供代码与模型以支持复现。 🏗️ 模型架构整体架构是一个端到端的自编码器，包含前端、编码器、瓶颈和解码器。 ...

Rethinking Entity Disambiguation in Complex Modalities

📄 Rethinking Entity Disambiguation in Complex Modalities #多模态模型 #实体消歧 #对比学习 #音视频 #数据集 🔥 8.0/10 | 前25% | #实体消歧 | #多模态模型 | #对比学习 #音视频学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yingyao Ma（东南大学计算机科学与工程学院）通讯作者：Jiasong Wu（*，东南大学计算机科学与工程学院）作者列表：Yingyao Ma（东南大学计算机科学与工程学院），Yifan Xue（东南大学计算机科学与工程学院），Wanqiang Cai（东南大学计算机科学与工程学院），Yuanyuan Zhou（东南大学计算机科学与工程学院），Jiasong Wu（东南大学计算机科学与工程学院），Lotfi Senhadji（法国雷恩大学，INSERM，LTSI-UMR 1099），Huazhong Shu（东南大学计算机科学与工程学院） 💡 毒舌点评亮点：论文系统性地将实体消歧任务从传统文本/静态图像扩展到动态的视频、音频等“复杂模态”，并为此构建了一个专用的多模态数据集，填补了特定场景下的研究空白。短板：音频模态的处理略显“工具化”，主要通过ASR转文本再匹配来利用，对音频波形本身的声学特征（如音色、韵律）利用不足，可能限制了其在语音主导场景下的性能上限。 🔗 开源详情代码：提供了一个匿名代码仓库链接：https://anonymous.open.science/r/CMED-code-B0E8。模型权重：未提及是否公开预训练或最终模型的权重。数据集：构建并公开了Focus数据集（包括Focus-H和Focus-A两个版本），论文中未说明具体获取方式，通常需联系作者或通过提供链接下载。 Demo：未提供在线演示。复现材料：在论文的“Implementation Details”部分提供了训练所用的优化器（Adam）、学习率（1e-3）、batch size（64）、训练轮数（50 epochs）、GPU型号（NVIDIA GTX A6000）以及超参数调优方法（网格搜索）。论文中引用的开源项目：依赖的开源工具/模型包括：CLIP（特征提取）、SBERT（句子编码）、BERT（基线）、BLINK（基线）以及多个多模态基线模型（ALBEF, MaPLe, ClipBERT等）。 📌 核心摘要问题：传统实体消歧方法主要依赖静态的文本或图像信息，难以处理真实世界中日益复杂的、包含动态视频和音频信息的多模态场景。方法核心：提出CMED（Complex-Modality Entity Disambiguation）框架，包含两个关键模块：提及中心特征定位与提取模块（通过关键帧采样、音频定位网络等定位与提及相关的多模态信息）和多级相似度计算模块（计算文本、全局视频、局部视频等多个层面的提及-实体相似度）。框架利用对比学习进行联合训练。新意：与现有仅处理文本或图文的方法相比，CMED首次统一处理文本、视频、音频三种模态。创新点在于设计了针对复杂模态的特征定位机制（如视频帧采样、音频上下文定位）以及多层次（全局/局部）的多模态特征融合与匹配策略。实验结果：论文构建了包含中文新闻视频、音频和文本的Focus数据集。在Focus-H（标题作为上下文）和Focus-A（音频转写作为上下文）两个版本上，CMED显著超越所有基线。例如，在Focus-H数据集上，CMED的Hits@1为74.41%，相比最强视频基线（CLIP4Clip）的64.49%提升近10个百分点，MRR从75.30提升至81.69。消融实验表明，全局特征、局部特征、视频帧采样网络、音频定位网络和上下文增强等所有组件对性能均有贡献。实际意义：为动态、复杂的多模态信息环境（如新闻视频分析）提供了更鲁棒的实体消歧解决方案，有助于提升下游任务（如信息抽取、问答）的准确性。主要局限性：1) Focus数据集规模中等（约7k样本），且来源于特定领域的中文新闻视频��模型的跨领域、跨语言泛化能力有待验证；2) 音频模态的利用方式相对间接（ASR转文本），未深度挖掘原始音频信号的特性；3) 实时性或流式处理能力未被讨论。 🏗️ 模型架构 CMED框架（如图2所示）旨在处理一个包含视频、提及词和辅助上下文（标题或音频转写）的样本，并将其与知识库中的实体进行匹配。整体流程可分为两个核心模块： ...