CTC | 语音/音乐/音频论文速递

ICASSP 2026 语音/音频论文详细分析

ICASSP 2026 语音/音频论文详细分析共分析 898 篇 ICASSP 2026 论文 🎯 任务分类点击任务标签查看该方向所有论文：语音识别（102篇）语音增强（75篇）语音合成（63篇）语音情感识别（49篇）音频分类（39篇）音频生成（39篇）音乐生成（31篇）空间音频（31篇）音频深度伪造检测（29篇）音乐信息检索（26篇）语音分离（25篇）语音生物标志物（24篇）音频事件检测（21篇）模型评估（16篇）声源定位（15篇）音频问答（15篇）生物声学（12篇）音频安全（11篇）音频检索（11篇）音乐理解（11篇）语音对话系统（10篇）语音匿名化（10篇）说话人验证（10篇）说话人分离（9篇）语音转换（9篇）语音质量评估（8篇）语音翻译（8篇）语音伪造检测（8篇）多模态模型（6篇）音视频（6篇）语音编码（5篇）基准测试（5篇）语音评估（5篇）语音活动检测（5篇）歌唱语音合成（5篇）语音克隆（4篇）语音问答（3篇）情感分析（3篇）音频场景理解（3篇）音频增强（3篇）语音识别 #语音翻译（3篇）数据集（3篇）音乐检索（3篇）语音大模型（3篇）歌唱语音转换（3篇）视觉语音识别（2篇）多模态情感识别（2篇）信号处理（2篇）语音理解（2篇）领域适应（2篇）听觉注意力解码（2篇）多模态情感分析（2篇）情感识别（2篇）跨模态（2篇）音频压缩（2篇）音乐源分离（2篇）关键词检测（2篇）说话人日志（2篇）跨模态检索（2篇）水下声学目标识别（2篇）视频生成（2篇）听觉注意解码（1篇）视频高光检测（1篇）多音高估计 #音符跟踪（1篇）歌唱语音转录（1篇）异常声音检测（1篇）脑机接口（1篇）脑信号编码（1篇）实体消歧（1篇）音频检索 #音频分类（1篇）目标说话人提取（1篇）语音转换 #语音增强（1篇）音频超分辨率（1篇）基频估计（1篇）语音发现（1篇）语音表示学习（1篇）数据集对齐（1篇）预训练（1篇）医疗AI（1篇）语音解码（1篇）说话人合成（1篇）说话人脸生成（1篇）说话人检测（1篇）多模态对话意图识别（1篇）视频理解（1篇）音乐推荐（1篇）视频设备识别（1篇）说话人识别（1篇）房间脉冲响应去噪（1篇）音频质量评估（1篇）主动降噪（1篇）舞蹈生成（1篇）歌唱旋律提取（1篇）声场估计（1篇）语音编码器（1篇）音频编辑（1篇）零样本关键词检测（1篇）音频分离（1篇）音频无损编码（1篇）语音增强 #对抗防御（1篇）音视频实例分割（1篇）视频到音频生成（1篇）语音摘要（1篇）音频水印（1篇）说话人日志 #语音分离（1篇）联邦学习（1篇）音乐混合（1篇）视频片段检索（1篇）神经解码（1篇）视频检索（1篇）语音驱动动作生成（1篇）视频问答（1篇）音频分类 #零样本学习（1篇）主题建模（1篇）说话人生成（1篇）对抗样本（1篇）音频描述（1篇）主动噪声控制（1篇）音乐分离（1篇）音乐源提取（1篇）音乐转录（1篇）房间脉冲响应（1篇）语音识别 #语音合成（1篇）音频场景分类（1篇）多通道（1篇）音频效果估计（1篇）音频信号处理（1篇）回声消除（1篇）语音生成（1篇）实时处理（1篇）音频大模型（1篇）声学建模（1篇）迁移学习（1篇）课堂阶段分割（1篇）噪声控制（1篇）音频字幕生成（1篇）轻度认知障碍检测（1篇）音乐分类（1篇）槽填充（1篇）多模态学习（1篇） ⚡ 今日概览 📥 898 篇 → 🔬 深度分析完成 ...

ICLR 2026 语音/音频论文详细分析

ICLR 2026 语音/音频论文详细分析共分析 133 篇 ICLR 2026 论文 🎯 任务分类点击任务标签查看该方向所有论文：语音合成（10篇）音频生成（9篇）语音识别（9篇）基准测试（9篇）音乐生成（9篇）语音对话系统（8篇）音频分类（6篇）音频问答（6篇）语音情感识别（5篇）多模态模型（5篇）音视频（4篇）音频检索（4篇）语音分离（3篇）模型评估（2篇）语音翻译（2篇）音乐信息检索（2篇）生成模型（2篇）音乐理解（2篇）视频生成（2篇）跨模态生成（1篇）脑编码（1篇）模型可解释性（1篇）音视频深度伪造检测（1篇）图像生成（1篇）数据集（1篇）语音增强 #对抗样本（1篇）语音大模型（1篇）音频编辑（1篇）音视频事件检测（1篇）生态计算（1篇）视频描述生成（1篇）视频摘要（1篇）语音问答（1篇）基准测试 #数据集（1篇）音频安全（1篇）神经网络架构（1篇）语音转换 #语音匿名化（1篇）声源定位（1篇）序列解耦（1篇）空间音频（1篇）音频分离（1篇）机器人操作（1篇）动作生成（1篇）音频场景理解（1篇）跨模态检索（1篇）语音增强（1篇）多模态推理（1篇）语音合成评估（1篇）语音生成（1篇）生物声学（1篇）模型比较（1篇）音视频联合推理（1篇）语音识别 #语音合成（1篇） ⚡ 今日概览 📥 133 篇 → 🔬 深度分析完成 ...

Contextual Biasing for Streaming ASR via CTC-based Word Spotting

📄 Contextual Biasing for Streaming ASR via CTC-based Word Spotting #语音识别 #关键词检测 #流式处理 #CTC #上下文偏置 ✅ 7.2/10 | 前50% | #语音识别 | #关键词检测 | #流式处理 #CTC | arxiv 学术质量 6.1/8 | 影响力 0.6/1 | 可复现性 0.5/1 | 置信度中 👥 作者与机构第一作者：Kai-Chen Tsai (Department of Computer Science and Information Engineering, National Taiwan Normal University) 通讯作者：柏林（Berlin Chen），未明确标注，但作为资深作者通常默认为通讯作者（原文仅列出机构邮箱）。作者列表：Kai-Chen Tsai, Tien-Hong Lo, Yun-Ting Sun, Berlin Chen (均来自台湾师范大学资讯工程学系) 💡 毒舌点评本文针对一个明确的工程需求（流式ASR的上下文偏置）提出了一个即插即用的后处理解决方案，其工程价值在于将离线CTC-WS无缝扩展到流式场景，且无需模型重训。然而，其核心创新（状态维护与增量提交）是解决流式状态管理问题的直接工程设计，缺乏算法层面的深度。实验仅在两个规模较小、领域特定的英文数据集上验证，且与相对较弱的基线（贪婪解码模式的GPU-PB）对比，其宣称的普适性和优越性说服力不足。 📌 核心摘要本文针对流式语音识别（Streaming ASR）中对特定领域或罕见词汇识别率低的问题，提出了一种基于CTC的流式关键词检测（Streaming CTC-WS）方法。该方法是对离线CTC-WS的流式扩展，其核心在于设计了一个状态化的词检测器，使其能够跨音频块（chunk）保持活跃的关键词匹配路径（记录图节点、累积分数、起始帧），从而检测被块边界分割的关键词。同时，引入了一个增量提交机制（Incremental Commitment Mechanism），通过维护由所有活跃token最小起始帧定义的“提交前沿”（commit frontier），仅输出不受未来音频影响的稳定识别结果，而保持不确定区域待处理，以平衡延迟与准确性。与深度融合或浅融合方法不同，Streaming CTC-WS可以直接应用于已有的流式ASR系统（如CTC或RNN-T解码器），无需修改模型架构或进行额外训练。实验在STOP1（人名）和STOP2（地名）数据集上进行，结果显示，在CTC和RNN-T解码器下，该方法相比无偏置基线和GPU-PB方法，均显著降低了整体词错误率（WER）并提升了关键词F-score。例如，在STOP1上，使用CTC解码时，WER从18.36%降至12.83%，F-score从66.84%提升至89.61%。该方法在增加少量计算开销（平均额外处理占比小于4.1% chunk时长）的情况下，有效提升了流式ASR对关键短语的识别能力。主要局限性在于其性能依赖于CTC概率质量，且在实验规模、对比基线和消融研究上存在不足。 ...

语音/音乐/音频论文速递 2026-05-19

语音/音乐/音频论文速递 2026-05-19 共分析 34 篇论文 ⚡ 今日概览 📥 抓取 34 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 4篇 ████ #音频深度伪造检测 2篇 ██ #音频生成 2篇 ██ #音频安全 1篇 █ #多模态模型 1篇 █ #音频编码 1篇 █ #音频修复 1篇 █ #医疗音频 1篇 █ 📊 论文评分排行榜（34 篇，按分数降序）排名论文评分分档主任务 🥇 Acoustic Interference: A New Paradigm Weaponizing Acous 8.7分前25% #音频安全 🥈 CodeBind: Decoupled Representation Learning for Multimo 8.6分前15% #多模态模型 🥉 SAME: A Semantically-Aligned Music Autoencoder 8.5分前25% #音频编码 4. A Survey of Advancing Audio Super-Resolution and Bandwi 8.1分前25% #音频修复 5. MedASR: An Open-Source Model for High-Accuracy Medical 7.9分前30% #语音识别 6. Speaker-Disentangled Remote Speech Detection of Asthma 7.5分前50% #医疗音频 7. MusicDET: Zero-Shot AI-Generated Music Detection 7.4分前25% #音频深度伪造检测 8. VISAFF: Speaker-Centered Visual Affective Feature Learn 7.4分前25% #对话情感识别 9. Robust Audio Tagging under Class-wise Supervision Unrel 7.3分前25% #音频分类 10. SIREM: Speech-Informed MRI Reconstruction with Learned 7.3分前40% #医学图像重建 11. Sonalyzer-Moz: A Framework for Analyzing the Structure 7.3分前50% #音乐结构分析 12. Omni-Customizer: End-to-End MultiModal Customization fo 7.3分前25% #音视频 13. Contextual Biasing for Streaming ASR via CTC-based Word 7.2分前50% #语音识别 14. Beyond Transcripts: Iterative Peer-Editing with Audio U 7.2分前50% #语音摘要 15. UrduSpeech: A 156-Hour Urdu Speech Corpus with 12-Dimen 7.0分前25% #语音识别 16. Audio-Image Cross-Modal Retrieval with Onomatopoeic Ima 7.0分前50% #音频检索 17. Profiling the Voice: Speaker-Specific Phoneme Fingerpri 7.0分前50% #语音伪造检测 18. Voice ‘‘Cloning’’ is Style Transfer 7.0分前25% #语音克隆 19. SemaVoice: Semantic-Aware Continuous Autoregressive Spe 6.8分前50% #语音合成 20. Stable Audio 3 6.8分前25% #音频生成 21. Taming Audio VAEs via Target-KL Regularization 6.7分前50% #音频生成 #语音合成 22. WavFlow: Audio Generation in Waveform Space 6.7分前25% #音频生成 23. Can Large Audio Language Models Ignore Multilingual Dis 6.5分前50% #音频问答 24. PAREDA: A Multi-Accent Speech Dataset of Natural Langua 6.5分前50% #语音数据集 25. Flexible Multi-Channel Target Speaker Extraction Using 6.3分中等偏上 #说话人提取 26. Sometin Beta Pass Notin (SBPN): Improving Multilingual 6.2分前50% #语音识别 27. A Fast Robust Adaptive filter using Improved Data-Reuse 6.2分前50% #声学回声消除 28. Robust Soft-Constrained Spatially Selective Active Nois 5.7分前25% #音频增强 29. Analyzing Error Propagation in Korean Spoken QA with AS 5.6分前50% #语音问答 30. S2Accompanist: A Semantic-Aware and Structure-Guided Di 5.6分前50% #音乐生成 31. A Distribution Matching Approach to Neural Piano Transc 5.5分前50% #音乐转录 32. EnvTriCascade: An Environment-Aware Tri-Stage Cascaded 5.3分前50% #音频深度伪造检测 33. Fractional-Order Subband p-Norm Adaptive Filter via Tra 5.0分前50% #自适应滤波 34. Bridging the Gap: Converting Read Text to Conversationa 3.1分后50% #语音转换 📋 论文列表 🥇 Acoustic Interference: A New Paradigm Weaponizing Acoustic Latent Semantic for Universal Jailbreak against Large Audio Language Models 🔥 8.7/10 | 前25% | #音频安全 | #对抗样本 | #多模态模型 #基准测试 | arxiv ...

Pay Attention to CTC: Fast and Robust Pseudo-Labelling for Unified Speech Recognition

📄 Pay Attention to CTC: Fast and Robust Pseudo-Labelling for Unified Speech Recognition #语音识别 #CTC #注意力机制 #半监督学习 #音视频 🔥 8.0/10 | 前10% | #语音识别 | #CTC #注意力机制 | #CTC #注意力机制学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Alexandros Haliassos（NatWest AI Research, Imperial College London）通讯作者：未说明作者列表：Alexandros Haliassos（NatWest AI Research, Imperial College London）， Rodrigo Mira（NatWest AI Research）， Stavros Petridis（NatWest AI Research, Imperial College London） 💡 毒舌点评这篇论文通过巧妙地将CTC的快速鲁棒解码与Teacher Forcing结合，一举解决了原USR框架中自回归伪标签生成缓慢且易受分布偏移影响的痛点，同时通过混合采样策略平衡了训练与测试的差异，是典型的“工程智慧”推动方法进步的案例；但其核心贡献更偏向于训练策略的优化而非模型架构的根本性突破，且混合采样策略带来的增益在消融实验中并不总是显著。 ...

UMA-SPLIT: Unimodal Aggregation for Both English and Mandarin Non-Autoregressive Speech Recognition

📄 UMA-SPLIT: Unimodal Aggregation for Both English and Mandarin Non-Autoregressive Speech Recognition #语音识别 #端到端 #多语言 #非自回归模型 #CTC ✅ 7.5/10 | 前25% | #语音识别 | #端到端 | #多语言 #非自回归模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Ying Fang（浙江大学；西湖大学工程学院）通讯作者：Xiaofei Li（西湖大学工程学院；西湖高等研究院）作者列表：Ying Fang（浙江大学；西湖大学工程学院），Xiaofei Li（西湖大学工程学院；西湖高等研究院） 💡 毒舌点评亮点：用一个极其简单（将一个帧特征映射为两个token表示）的分裂模块，就巧妙地解决了UMA方法在英语BPE token上的核心矛盾——即单个聚合帧可能对应多个细粒度token的问题，堪称“四两拨千斤”。短板：论文对“为何大模型在UMA后帧率反而更高、生成更多空白token”这一有趣现象只字未提分析，留下了理论解释的空白；同时，作为宣称匹配AR模型性能的NAR工作，未深入讨论与更强AR解码器（如大型LM集成）在性能天花板上的潜在差距。 🔗 开源详情代码：论文中提供了代码仓库链接：https://github.com/Audio-WestlakeU/UMA-ASR。模型权重：未明确提及是否公开预训练模型权重。数据集：使用的是标准公开数据集LibriSpeech和AISHELL-1，未涉及自建数据集。 Demo：未提供在线演示链接。复现材料：提供了详细的实验设置（数据集、模型配置、优化器参数、训练细节）、超参数表，并指明使用ESPnet工具包，复现指导性较强。论文中引用的开源项目：明确引用了ESPnet作为实验工具包。 📌 核心摘要要解决的问题：原始的UMA（单峰聚合）方法在英语等使用BPE分词的语言上效果不佳，因为单个音节可能被拆分为多个token，或单个token对应的声学帧数过少，无法形成有效的单峰聚合权重。方法核心：提出UMA-SPLIT模型，在原有UMA动态聚合声学帧的基础上，增加一个简单的“分裂模块”，将每个聚合后的特征帧显式地映射到两个可能的文本token表示上，然后计算CTC损失。这使得模型能够灵活处理一个聚合帧对应零个、一个或两个非空token的情况。与已有方法相比新在哪里：这是首次尝试将基于显式帧聚合的UMA框架扩展到英语识别。核心创新点在于设计了分裂模块，突破了原始UMA“一个聚合帧严格对应一个token”的限制，增强了模型对细粒度token的表达能力。主要实验结果：模型在两大基准测试上取得了优异性能。在LibriSpeech上，Large模型（149M参数）达到2.22% / 4.93% 的WER（clean/other），性能匹配甚至超越了同类的AR混合CTC/AED模型（2.14%/4.55%），且推断速度快约10倍。在AISHELL-1上，CER达到4.43%，与最优的AR基线持平，且优于其他NAR模型。模型类型 LibriSpeech WER (clean/other) AISHELL-1 CER (test) 参数量 E-Branchformer (L), hybrid AR 2.14 / 4.55 - 149M UMA-Split (L) (prop.) NAR 2.22 / 4.93 - 149M Branchformer (B), hybrid AR - 4.43 45M UMA-Split (prop.) NAR - 4.43 46M 实际意义：该方法使得非自回归模型在保持高速推断优势的同时，在英语和普通话识别上都能达到与复杂自回归模型相媲美的准确率，为构建实用、高效的多语言语音识别系统提供了有力的技术方案。主要局限性：引入分裂模块略微增加了模型的计算开销；论文未对模型在大参数规模下的某些反常统计现象（如UMA后帧率升高）给出解释；性能上限可能仍受限于CTC框架本身，且未与集成了大型语言模型的解码策略进行对比。 🏗️ 模型架构图1: pdf-image-page3-idx0] ...