Posts

ICASSP 2026 - 音频质量评估论文列表

ICASSP 2026 - 音频质量评估共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Deepaq: A Perceptual Audio Quality Metric Based on Foundatio 7.5分前25% 📋 论文详情 🥇 Deepaq: A Perceptual Audio Quality Metric Based on Foundational Models and Weakly Supervised Learning ✅ 7.5/10 | 前25% | #音频质量评估 | #弱监督学习 | #度量学习 #音频大模型 👥 作者与机构第一作者：Guanxin Jiang (International Audio Laboratories Erlangen†, Germany) 通讯作者：Andreas Brendel* (Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany) 作者列表：Guanxin Jiang (International Audio Laboratories Erlangen†, Germany)、Andreas Brendel* (Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany)、Pablo M. Delgado (Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany)、Jürgen Herre (International Audio Laboratories Erlangen†, Germany; Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany) （†注：International Audio Laboratories Erlangen是Friedrich-Alexander University Erlangen-Nürnberg (FAU)与Fraunhofer IIS的联合机构） 💡 毒舌点评 ...

ICASSP 2026 - 音频超分辨率论文列表

ICASSP 2026 - 音频超分辨率共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Universr: Unified and Versatile Audio Super-Resolution Via V 8.0分前25% 📋 论文详情 🥇 Universr: Unified and Versatile Audio Super-Resolution Via Vocoder-Free Flow Matching 🔥 8.0/10 | 前25% | #音频超分辨率 | #流匹配 | #语音增强 #音频生成 👥 作者与机构第一作者：Woongjib Choi（延世大学电气与电子工程系）通讯作者：未说明作者列表：Woongjib Choi（延世大学电气与电子工程系）、Sangmin Lee（延世大学电气与电子工程系）、Hyungseob Lim（延世大学电气与电子工程系）、Hong-Goo Kang（延世大学电气与电子工程系） 💡 毒舌点评这篇论文最大的亮点是提供了一个优雅且高效的“去vocoder”解决方案，用一个统一的流匹配模型直击频谱，避免了传统两阶段管线的性能天花板，在主观听感上甚至优于vocoded的GT。然而，其核心架构本质是成熟的ConvNeXt V2 U-Net在频域数据上的应用，创新更多体现在任务定义和流程整合上，而非模型架构本身，这使得它更像一个工程上的巧妙优化而非理论上的重大突破。 🔗 开源详情代码：提供代码仓库链接：https://github.com/woongzip1/UniverSR 模型权重：论文中未提及是否公开预训练模型权重。数据集：论文中提及了训练所用的数据集名称和规模，但未说明是否提供这些数据集的下载或处理脚本。 Demo：提供在线演示链接：https://woongzip1.github.io/universr-demo 复现材料：论文中详细说明了模型架构、训练超参数、损失函数、推理设置等，为复现提供了关键信息。论文中引用的开源项目：未明确提及依赖的具体开源代码库。 📌 核心摘要 ...

ICASSP 2026 - 音频问答论文列表

ICASSP 2026 - 音频问答共 15 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Enhancing Audio Question-Answering Performance Through Log-L 8.5分前25% 🥈 DSpAST: Disentangled Representations for Spatial Audio Reaso 8.0分前25% 🥉 Improving Audio Question Answering with Variational Inferenc 7.5分前25% 4. TAU: A Benchmark for Cultural Sound Understanding Beyond Sem 7.5分前25% 5. Efficient Audio-Visual Inference Via Token Clustering And Mo 7.5分前25% 6. SightSound-R1: Cross-Modal Reasoning Distillation from Visio 7.5分前25% 7. Keeping Models Listening: Segment- and time-aware attention 7.5分前25% 8. Benchmarking Humans And Machines On Complex Multilingual Spe 7.5分前25% 9. FastAV: Efficient Token Pruning for Audio-Visual Large Langu 7.0分前25% 10. AUDIOGENIE-Reasoner: A Training-Free Multi-Agent Framework f 7.0分前25% 11. Segmentwise Pruning in Audio-Language Models 7.0分前50% 12. Teaching Audio Models to Reason: A Unified Framework for Sou 7.0分前25% 13. AQUA-Bench: Beyond finding answers to knowing when there are 7.0分前50% 14. Test-Time Scaling for Auditory Cognition in Audio Language M 7.0分前25% 15. Advancing Speech Summarization in Multi-Modal LLMs with Rein 7.0分前50% 📋 论文详情 🥇 Enhancing Audio Question-Answering Performance Through Log-Likelihood Guided Reward Functions 🔥 8.5/10 | 前25% | #音频问答 | #强化学习 | #多模态模型 #基准测试 ...

ICASSP 2026 - 预训练论文列表

ICASSP 2026 - 预训练共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Probing the Hidden Talent of ASR foundation models for L2 En 7.5分前25% 📋 论文详情 🥇 Probing the Hidden Talent of ASR foundation models for L2 English Oral Assessment ✅ 7.5/10 | 前25% | #预训练 | #迁移学习 | #零样本 #语音评估 👥 作者与机构第一作者：Fu-An Chao（台湾师范大学，台北）通讯作者：Berlin Chen（台湾师范大学，台北）作者列表：Fu-An Chao（台湾师范大学，台北）， Bi-Cheng Yan（台湾师范大学，台北）， Berlin Chen（台湾师范大学，台北） 💡 毒舌点评 ...

ICASSP 2026 - 领域适应论文列表

ICASSP 2026 - 领域适应共 2 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Beyond Mapping: Domain-Invariant Representations via Spectra 7.5分前25% 🥈 The Synergistic Role of Audio and Large Video-Language Model 7.0分前25% 📋 论文详情 🥇 Beyond Mapping: Domain-Invariant Representations via Spectral Embedding of Optimal Transport Plans ✅ 7.5/10 | 前25% | #领域适应 | #最优传输 #谱图嵌入 | #最优传输 #谱图嵌入 👥 作者与机构第一作者：未说明通讯作者：未说明作者列表：Abdel Djalil Sad Saoud (Universite Paris-Saclay, CEA, List), Fred Maurice Ngol`e Mboula (Universite Paris-Saclay, CEA, List), Hanane Slimani (Universite Paris-Saclay, CEA, List) 💡 毒舌点评 ...

ICASSP 2026 语音/音频论文详细分析

ICASSP 2026 语音/音频论文详细分析共分析 898 篇 ICASSP 2026 论文 🎯 任务分类点击任务标签查看该方向所有论文：语音识别（102篇）语音增强（75篇）语音合成（63篇）语音情感识别（49篇）音频分类（39篇）音频生成（39篇）音乐生成（31篇）空间音频（31篇）音频深度伪造检测（29篇）音乐信息检索（26篇）语音分离（25篇）语音生物标志物（24篇）音频事件检测（21篇）模型评估（16篇）声源定位（15篇）音频问答（15篇）生物声学（12篇）音频安全（11篇）音频检索（11篇）音乐理解（11篇）语音对话系统（10篇）语音匿名化（10篇）说话人验证（10篇）说话人分离（9篇）语音转换（9篇）语音质量评估（8篇）语音翻译（8篇）语音伪造检测（8篇）多模态模型（6篇）音视频（6篇）语音编码（5篇）基准测试（5篇）语音评估（5篇）语音活动检测（5篇）歌唱语音合成（5篇）语音克隆（4篇）语音问答（3篇）情感分析（3篇）音频场景理解（3篇）音频增强（3篇）语音识别 #语音翻译（3篇）数据集（3篇）音乐检索（3篇）语音大模型（3篇）歌唱语音转换（3篇）视觉语音识别（2篇）多模态情感识别（2篇）信号处理（2篇）语音理解（2篇）领域适应（2篇）听觉注意力解码（2篇）多模态情感分析（2篇）情感识别（2篇）跨模态（2篇）音频压缩（2篇）音乐源分离（2篇）关键词检测（2篇）说话人日志（2篇）跨模态检索（2篇）水下声学目标识别（2篇）视频生成（2篇）听觉注意解码（1篇）视频高光检测（1篇）多音高估计 #音符跟踪（1篇）歌唱语音转录（1篇）异常声音检测（1篇）脑机接口（1篇）脑信号编码（1篇）实体消歧（1篇）音频检索 #音频分类（1篇）目标说话人提取（1篇）语音转换 #语音增强（1篇）音频超分辨率（1篇）基频估计（1篇）语音发现（1篇）语音表示学习（1篇）数据集对齐（1篇）预训练（1篇）医疗AI（1篇）语音解码（1篇）说话人合成（1篇）说话人脸生成（1篇）说话人检测（1篇）多模态对话意图识别（1篇）视频理解（1篇）音乐推荐（1篇）视频设备识别（1篇）说话人识别（1篇）房间脉冲响应去噪（1篇）音频质量评估（1篇）主动降噪（1篇）舞蹈生成（1篇）歌唱旋律提取（1篇）声场估计（1篇）语音编码器（1篇）音频编辑（1篇）零样本关键词检测（1篇）音频分离（1篇）音频无损编码（1篇）语音增强 #对抗防御（1篇）音视频实例分割（1篇）视频到音频生成（1篇）语音摘要（1篇）音频水印（1篇）说话人日志 #语音分离（1篇）联邦学习（1篇）音乐混合（1篇）视频片段检索（1篇）神经解码（1篇）视频检索（1篇）语音驱动动作生成（1篇）视频问答（1篇）音频分类 #零样本学习（1篇）主题建模（1篇）说话人生成（1篇）对抗样本（1篇）音频描述（1篇）主动噪声控制（1篇）音乐分离（1篇）音乐源提取（1篇）音乐转录（1篇）房间脉冲响应（1篇）语音识别 #语音合成（1篇）音频场景分类（1篇）多通道（1篇）音频效果估计（1篇）音频信号处理（1篇）回声消除（1篇）语音生成（1篇）实时处理（1篇）音频大模型（1篇）声学建模（1篇）迁移学习（1篇）课堂阶段分割（1篇）噪声控制（1篇）音频字幕生成（1篇）轻度认知障碍检测（1篇）音乐分类（1篇）槽填充（1篇）多模态学习（1篇） ⚡ 今日概览 📥 898 篇 → 🔬 深度分析完成 ...

Identifying Birdsong Syllables without Labelled Data

📄 Identifying Birdsong Syllables without Labelled Data #生物声学 #无监督学习 #聚类 #信号处理 ✅ 7.0/10 | 前50% | #生物声学 | #无监督学习 | #聚类 #信号处理学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Mélisande Teng (Mila - Quebec AI Institute, Université de Montréal) (共同第一作者) 通讯作者：未说明作者列表：Mélisande Teng (Mila - Quebec AI Institute, Université de Montréal), Julien Boussard (Mila - Quebec AI Institute, McGill University) (共同第一作者), David Rolnick (Mila - Quebec AI Institute, McGill University), Hugo Larochelle (Mila - Quebec AI Institute, Université de Montréal) 💡 毒舌点评亮点：该方法是首个完全无监督的鸟鸣音节分解算法，巧妙地将电生理信号处理中的spike sorting思想迁移到生物声学，避免了对大量标注数据的依赖，实用性强。短板：整个流水线（特别是匹配追求部分）对预设的音节检测阈值和模板质量非常敏感，论文在复杂噪声环境下的表现讨论不足，更像一个优雅的“工程流水线”而非一个可学习的、具有强泛化能力的模型。 ...

Identifying the Minimal and Maximal Phonetic Subspace of Speech Representations

📄 Identifying the Minimal and Maximal Phonetic Subspace of Speech Representations #自监督学习 #语音识别 #模型评估 #语音特征 🔥 8.0/10 | 前25% | #语音识别 | #自监督学习 | #模型评估 #语音特征学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Xingwen Han（爱丁堡大学信息学院）通讯作者：未说明作者列表：Xingwen Han（爱丁堡大学信息学院）、Hao Tang（爱丁堡大学信息学院） 💡 毒舌点评亮点：论文将NLP中“属性编码在低维子空间”的思路成功迁移到语音SSL模型分析，并提出了“最小/最大音素子空间”的互补定义，逻辑自洽且实验验证扎实，特别是发现最小音素子空间（~22维）与说话人子空间近乎正交，这为开发“说话人不变”的紧凑语音表示提供了理论依据。短板：研究的核心发现（如维度冗余、信息正交性）在先前对APC/CPC的分析中已有迹象，本文更多是定义、确认和量化这些现象在更大规模模型上的表现，突破性略显不足，且最大音素子空间的实验方法（PCA残差）存在已知局限（论文自身也提及）。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：使用公开的Hugging Face检查点：wav2vec2-base-960h, hubert-base-ls960, wavlm-base-plus。数据集：使用公开的LibriSpeech数据集，并详细说明了划分方式（dev-clean的5:1:4划分及test-clean的用途）。 Demo：未提及。复现材料：提供了充分的训练细节（优化器、学习率、早停策略）、关键超参数（维度范围、阈值α/β=0.5%）、模型层选择（Layer 9）和探测器架构说明，复现信息较充分。论文中引用的开源项目：Hugging Face Transformers（用于加载模型）、Montreal Forced Aligner（用于生成音素标签）、LibriSpeech数据集。 📌 核心摘要要解决什么问题：澄清自监督学习（SSL）语音模型（如wav2vec 2.0, HuBERT, wavLM）中音素信息编码的几何结构，特别是其所在的子空间维度下限（最小）和上限（最大）。方法核心是什么：正式定义了“最小音素子空间”（在可容忍精度损失α内保持音素分类精度的最低维子空间）和“最大音素子空间”（其正交补中不包含音素信息的最低维子空间）。使用秩约束探测器、PCA、LDA等方法在LibriSpeech数据集上，针对模型第9层768维表示进行识别和分析。与已有方法相比新在哪里：相比先前对APC/CPC模型的固定维度（39维）子空间分析，本文首次形式化定义了最小和最大子空间的概念，并系统性地在更复杂的SSL模型上扫描维度阈值、量化子空间重叠（通过CRV指标）和验证其与说话人子空间的正交性。主要实验结果如何：(1) 最小音素子空间维度极低：wav2vec 2.0为21维，HuBERT和wavLM为22维，此时音素分类准确率与768维原始空间相当（约86.3%）。(2) 这些最小音素子空间非唯一，但彼此有约70%的方差重叠。(3) 最小音素子空间与说话人子空间近乎正交：在其上进行说话人探测，准确率接近随机水平（~5%）。(4) 最大音素子空间维度极高（>753），表明音素信息在表示空间中高度冗余。(5) 关键对比数据见下表：子空间类型维度 HuBERT音素准确率 wav2vec 2.0音素准确率 wavLM音素准确率说明原始空间 768 ~86.35% ~86.27% ~86.35% 基准最小音素子空间（秩约束探测器） 22/21/22 86.29% 86.17% 86.17% 与原始空间性能相当 38维LDA子空间 38 83.41% 82.82% 82.87% 性能下降，优于PCA 39维PCA类中心子空间 39 79.43% 78.66% 78.45% 性能进一步下降最小维度的随机子空间 22/21/22 27.93% 33.05% 29.61% 接近随机水平实际意义是什：研究结论支持两个应用方向：(1) 开发更紧凑的语音表示（降至~22维）以降低下游计算成本；(2) 利用音素与说话人信息的正交性，设计更公平、说话人不变的语音处理系统。主要局限性是什：(1) 最大音素子空间的定义和实验方法（PCA残差）可能高估其维度，论文指出其为上界。(2) 实验仅聚焦于英语（LibriSpeech）和模型的第9层，结论的普遍性有待验证。(3) 未探讨最小音素子空间在更复杂下游任务（如大词汇量ASR）中的有效性。 🏗️ 模型架构本文并未提出新的神经网络模型，而是对三个已有的自监督学习（SSL）语音模型的中间表示进行分析。所分析的模型架构如下： ...

Identity Leakage Through Accent Cues in Voice Anonymisation

📄 Identity Leakage Through Accent Cues in Voice Anonymisation #语音匿名化 #隐私保护 #公平性 #口音识别 #模型评估 ✅ 7.0/10 | 前50% | #语音匿名化 | #模型评估 | #隐私保护 #公平性学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Rayane Bakari（Orange Innovation, France; EURECOM, Sophia Antipolis, France）通讯作者：未说明作者列表：Rayane Bakari (Orange Innovation, EURECOM), Olivier Le Blouch (Orange Innovation), Nicolas Gengembre (Orange Innovation), Nicholas Evans (EURECOM), Michele Panariello (EURECOM) 💡 毒舌点评亮点：论文敏锐地抓住了语音匿名化评估中一个关键盲点——非时域线索（口音）的残留风险，并系统性地利用多种嵌入（时域、非时域、口音相关）和攻击场景进行量化分析，逻辑严谨，论证有力，提出的公平性问题也很有价值。短板：对于其提出的改进方案B4*，分析略显“止步于现象”，缺乏对其内部机制（字符级条件反射如何具体抑制口音线索）的深入解构或对比消融；此外，实验部分因部分参赛系统代码不可用，导致对比不够完整，削弱了结论的普适性。 ...

Impact of Phonetics on Speaker Identity in Adversarial Voice Attack

📄 Impact of Phonetics on Speaker Identity in Adversarial Voice Attack #说话人验证 #对抗样本 #语音识别 #音频安全 ✅ 7.0/10 | 前50% | #说话人验证 | #对抗样本 | #语音识别 #音频安全学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：未说明（论文中作者按字母顺序列出，未明确标注第一作者）通讯作者：未说明（论文中未提供通讯作者信息）作者列表：Daniyal Kabir Dar（密歇根州立大学计算机科学与工程系）、Qiben Yan（密歇根州立大学计算机科学与工程系）、Li Xiao（密歇根州立大学计算机科学与工程系）、Arun Ross（密歇根州立大学计算机科学与工程系） 💡 毒舌点评亮点在于将对抗扰动的分析从单纯的转录错误（WER/CER）提升到了语音学特征（元音、辅音）和说话人身份表征的层面，提出了“身份漂移”这个直观且有意义的概念。短板是整个研究框架（白盒攻击+评估指标）相对常规，对“为什么某些语音结构更容易引发漂移”这一核心问题的分析深度有限，更多是相关性观察而非因果解释。 🔗 开源详情代码：论文在结论部分提供了一个GitHub仓库链接（https://dantyalkabir.github.io/icassp-2026-results/），用于提供额外的图示和可视化结果。但未明确说明该仓库是否包含生成对抗样本、运行评估的完整可执行代码。模型权重：未提及公开攻击生成的对抗样本权重或修改后的说话人模型权重。数据集：实验使用公开数据集VCTK [31]。 Demo：未提供在线演示。复现材料：论文详细描述了攻击框架、目标短语设计思路、评估指标，但缺少具体的训练/优化超参数（如迭代次数、步长、c值）、模型配置细节和完整的脚本，复现存在一定难度。引用的开源项目：引用了DeepSpeech [2]、ECAPA-TDNN [3]等作为基线模型。 📌 核心摘要本文研究了针对自动语音识别（ASR）系统的对抗性语音攻击，如何同时影响说话人身份验证。论文的核心问题是：这些旨在改变转录文本的微小扰动，是否会破坏用于区分说话人的声学指纹？方法上，作者以DeepSpeech为攻击目标，采用基于梯度的白盒攻击方法生成对抗样本，并创新性地从语音学角度（如元音中心化、辅音替换）分析扰动模式。与以往只关注转录准确率的工作不同，本文的核心贡献在于系统评估了对抗攻击对说话人验证系统（使用ECAPA-TDNN和ResNet模型）的影响，提出了“身份漂移”概念。实验结果显示，在VCTK数据集上，攻击的成功率与目标短语的语音复杂度和长度强相关：短元音丰富的短语（如“yes”）身份漂移很小（TMR=100%， d’≈9.6），而长且包含复杂辅音丛的短语（如pangrams）会导致严重的身份漂移（TMR低至44%， d’降至约3.0）。该研究的实际意义在于揭示了语音对抗攻击的双重危害，提示了未来防御系统需要同时考虑转录安全和身份安全。主要局限性在于研究仅限于理想化的白盒攻击设置，未探讨更现实的黑盒或过空气攻击场景。 🏗️ 模型架构本文并未提出一个新的模型架构，而是分析现有系统在对抗攻击下的行为。整体攻击与分析框架如图1所示。 ...