CNN-LSTM

ICASSP 2026 语音/音频论文详细分析共分析 898 篇 ICASSP 2026 论文 🎯 任务分类点击任务标签查看该方向所有论文：语音识别（102篇）语音增强（75篇）语音合成（63篇）语音情感识别（49篇）音频分类（39篇）音频生成（39篇）音乐生成（31篇）空间音频（31篇）音频深度伪造检测（29篇）音乐信息检索（26篇）语音分离（25篇）语音生物标志物（24篇）音频事件检测（21篇）模型评估（16篇）声源定位（15篇）音频问答（15篇）生物声学（12篇）音频安全（11篇）音频检索（11篇）音乐理解（11篇）语音对话系统（10篇）语音匿名化（10篇）说话人验证（10篇）说话人分离（9篇）语音转换（9篇）语音质量评估（8篇）语音翻译（8篇）语音伪造检测（8篇）多模态模型（6篇）音视频（6篇）语音编码（5篇）基准测试（5篇）语音评估（5篇）语音活动检测（5篇）歌唱语音合成（5篇）语音克隆（4篇）语音问答（3篇）情感分析（3篇）音频场景理解（3篇）音频增强（3篇）语音识别 #语音翻译（3篇）数据集（3篇）音乐检索（3篇）语音大模型（3篇）歌唱语音转换（3篇）视觉语音识别（2篇）多模态情感识别（2篇）信号处理（2篇）语音理解（2篇）领域适应（2篇）听觉注意力解码（2篇）多模态情感分析（2篇）情感识别（2篇）跨模态（2篇）音频压缩（2篇）音乐源分离（2篇）关键词检测（2篇）说话人日志（2篇）跨模态检索（2篇）水下声学目标识别（2篇）视频生成（2篇）听觉注意解码（1篇）视频高光检测（1篇）多音高估计 #音符跟踪（1篇）歌唱语音转录（1篇）异常声音检测（1篇）脑机接口（1篇）脑信号编码（1篇）实体消歧（1篇）音频检索 #音频分类（1篇）目标说话人提取（1篇）语音转换 #语音增强（1篇）音频超分辨率（1篇）基频估计（1篇）语音发现（1篇）语音表示学习（1篇）数据集对齐（1篇）预训练（1篇）医疗AI（1篇）语音解码（1篇）说话人合成（1篇）说话人脸生成（1篇）说话人检测（1篇）多模态对话意图识别（1篇）视频理解（1篇）音乐推荐（1篇）视频设备识别（1篇）说话人识别（1篇）房间脉冲响应去噪（1篇）音频质量评估（1篇）主动降噪（1篇）舞蹈生成（1篇）歌唱旋律提取（1篇）声场估计（1篇）语音编码器（1篇）音频编辑（1篇）零样本关键词检测（1篇）音频分离（1篇）音频无损编码（1篇）语音增强 #对抗防御（1篇）音视频实例分割（1篇）视频到音频生成（1篇）语音摘要（1篇）音频水印（1篇）说话人日志 #语音分离（1篇）联邦学习（1篇）音乐混合（1篇）视频片段检索（1篇）神经解码（1篇）视频检索（1篇）语音驱动动作生成（1篇）视频问答（1篇）音频分类 #零样本学习（1篇）主题建模（1篇）说话人生成（1篇）对抗样本（1篇）音频描述（1篇）主动噪声控制（1篇）音乐分离（1篇）音乐源提取（1篇）音乐转录（1篇）房间脉冲响应（1篇）语音识别 #语音合成（1篇）音频场景分类（1篇）多通道（1篇）音频效果估计（1篇）音频信号处理（1篇）回声消除（1篇）语音生成（1篇）实时处理（1篇）音频大模型（1篇）声学建模（1篇）迁移学习（1篇）课堂阶段分割（1篇）噪声控制（1篇）音频字幕生成（1篇）轻度认知障碍检测（1篇）音乐分类（1篇）槽填充（1篇）多模态学习（1篇） ⚡ 今日概览 📥 898 篇 → 🔬 深度分析完成 ...

📄 Estimating Respiratory Effort from Nocturnal Breathing Sounds for Obstructive Sleep Apnoea Screening #音频分类 #CNN-LSTM #多任务学习 #医疗声学 #生物声学 ✅ 6.5/10 | 前25% | #音频分类 | #多任务学习 | #CNN-LSTM #医疗声学学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Xiaolei Xu（谢菲尔德大学计算机科学学院）通讯作者：未说明作者列表：Xiaolei Xu（谢菲尔德大学计算机科学学院）、Chaoyue Niu（谢菲尔德大学计算机科学学院）、Guy J. Brown（谢菲尔德大学计算机科学学院）、Hector Romero（Passion for Life Healthcare）、Ning Ma（谢菲尔德大学计算机科学学院） 💡 毒舌点评这篇论文的亮点在于其开创性思路：首次尝试从夜间呼吸声这一单一模态中，直接估计出通常需要接触式传感器才能获取的“呼吸努力”生理信号，从而为无感的睡眠监测扫清了一个关键障碍。然而，其短板也相当明显：呼吸努力的估计精度（CCC 0.48）仅达到中等相关性，这直接导致了后续融合策略带来的性能提升幅度有限，甚至在某些关键阈值（如AHI≥30）上不如直接使用音频特征，让人对“估计信号”的实际增益打个问号。 🔗 开源详情论文中未提及任何代码、模型权重、数据集的公开链接或在线演示。也未说明是否有公开计划。复现所需的训练细节（如优化器、学习率、超参数搜索范围）和检查点信息均未提供。论文中引用的开源项目主要为前序工作[9, 12]的数据集和基线方法。 📌 核心摘要本文针对阻塞性睡眠呼吸暂停症（OSA）诊断依赖复杂多导睡眠图（PSG）且普及困难的问题，提出一种仅需智能手机音频即可进行OSA筛查的新方法。其核心是设计了一个两阶段框架：首先训练一个模型从夜间呼吸/打鼾声中估计腹部呼吸努力信号，然后冻结该模型，提取其潜在表征作为“呼吸努力嵌入”，与另一个音频编码器提取的声学嵌入在潜在空间进行融合，最终用于OSA事件检测和严重程度分类。与已有方法相比，其新意在于首次实现了从音频直接推断呼吸努力，摆脱了对额外传感器的依赖，维持了纯声学方法的可扩展性。实验在157晚、103名参与者的家庭录音数据集上进行，结果显示：呼吸努力估计器达到0.48的平均CCC；融合估计的呼吸努力后，在AHI阈值5（检测轻度OSA）时，敏感性达到0.88，优于音频基线（0.86）和使用真实努力信号的“Oracle”系统（0.81），AUC为0.86。该方法的实际意义在于为低成本、无感、长期的OSA家庭监测提供了可行的技术路径。其主要局限性包括：呼吸努力的估计精度受限于复杂家庭环境噪声，导致融合收益有限；缺乏充分的消融实验以证明性能提升完全来自呼吸努力表征而非模型容量增加。 🏗️ 模型架构论文提出一个两步走的潜在空间融合框架，用于从夜间音频检测OSA。第一步：音频到呼吸努力的估计器（图1蓝色部分）输入：30秒的音频片段，表示为64维对数梅尔滤波器组特征（1500帧 x 64频段）。组件： CNN特征提取器：使用比音频基线更小的池化核以保留时间分辨率，将输入从1500x64转换为187x128的特征图。 LSTM编码器：处理CNN输出的187帧时序特征，捕获呼吸动力学，产生隐藏状态序列。解码器与插值：一个线性解码器将每个LSTM隐藏状态投影为一个值，生成187点的预测序列。由于参考呼吸努力信号（32Hz采样）在30秒内有960个点，预测序列通过插值上采样至960点，以对齐标签并进行损失计算。输出：预测的归一化呼吸努力信号序列。关键设计：采用“先预测低分辨率序列再插值”的策略，平衡了LSTM训练复杂性和最终信号保真度。优化目标使用一致性相关系数（CCC）损失，以同时优化相关性与偏差。第二步：融合OSA检测（图1橙色部分） ...