TokenSE: a Mamba-based discrete token speech enhancement framework for cochlear implants
📄 TokenSE: a Mamba-based discrete token speech enhancement framework for cochlear implants #语音增强 #模型类 #Mamba #人工耳蜗 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Hsin-Tien Chiang(根据论文格式推断为第一作者,机构信息需从全文获取,摘要中未明确) 通讯作者:John H. L. Hansen(根据论文格式推断为通讯作者,机构信息需从全文获取,摘要中未明确) 其他作者:无(根据摘要仅列出两位作者) 机构信息:论文摘要中未提供作者所属机构。根据arXiv论文的常见信息,作者可能来自某大学或研究机构的语音与信号处理实验室,但无法从摘要中确认。 💡 毒舌点评 亮点是把最近大火的Mamba模型引入到语音增强领域,并且非常务实地瞄准了人工耳蜗用户这一真实且迫切的场景,还做了主观听音测试,这比单纯刷榜更有意义。槽点是,摘要里对模型细节和实验数据的描述过于“简练”,让人怀疑是不是把详细内容都藏在正文里了,而且“离散令牌”这个概念在摘要里没有展开,有点让人摸不着头脑。 📌 核心摘要 本文针对人工耳蜗用户在噪声和混响环境下语音理解困难的问题,提出了一种名为TokenSE的语音增强框架。该框架的核心创新在于将语音增强任务从传统的时频域或波形域转换到神经音频编解码器的离散令牌空间中进行。具体而言,它使用一个基于Mamba(一种具有线性计算复杂度的状态空间模型)的模型,直接从退化语音对应的受损令牌序列中,预测出最可能的干净语音令牌序列。实验表明,该方法在域内和域外数据集上的客观指标均优于基线方法。更重要的是,针对人工耳蜗用户的主观听力测试证实,在恶劣的噪声和混响环境下,该方法能显著提升语音可懂度。其主要贡献在于将高效的Mamba架构与离散令牌表示相结合,为资源受限且对延迟敏感的人工耳蜗等助听设备提供了一种有前景的实时增强方案。 🏗️ 模型架构 根据摘要描述,TokenSE的整体架构流程如下: 输入:一段退化(含噪声、混响)的语音波形。 编码(离散化):首先,使用一个预训练的神经音频编解码器(如SoundStream、EnCodec等)的编码器,将连续的语音波形转换为离散的令牌(token)序列。这一步将原始音频压缩并映射到一个紧凑的离散表示空间。 核心增强模型(Mamba):将上一步得到的受损令牌序列输入到一个基于Mamba的模型中。该模型的核心是一个选择性状态空间模型(S6),其关键机制是输入依赖的选择:模型会根据当前输入的令牌动态调整其内部状态的更新规则(例如,决定“记忆”哪些信息、“忘记”哪些信息)。这种机制使得Mamba能够以线性计算复杂度处理长序列,避免了Transformer自注意力机制的二次方复杂度瓶颈。模型的目标是学习从受损令牌序列到干净令牌序列的映射。 输出(解码):将Mamba模型预测出的干净令牌序列,送入同一个预训练神经音频编解码器的解码器中,重建出增强后的语音波形。 关键设计选择理由: 离散令牌空间:相比直接在波形或频谱上操作,在离散令牌空间进行增强有几个潜在优势:(1) 与下游语音编解码、传输任务更易结合;(2) 可能简化增强任务,因为离散表示已剥离了部分无关的声学细节;(3) 便于利用在大规模音频数据上预训练的编解码器所学到的通用表示。 Mamba替代Transformer:对于语音这类长序列数据,Mamba的线性复杂度在训练和推理效率上具有理论优势,尤其适合对实时性和计算功耗有严格要求的人工耳蜗或助听器应用场景。 💡 核心创新点 在离散音频令牌空间进行语音增强:这是最核心的范式创新。它将语音增强任务重新定义为“受损离散序列到干净离散序列”的翻译或校正问题,而非传统的信号重建问题。 引入Mamba架构处理语音增强任务:首次将Mamba(选择性状态空间模型)应用于语音增强领域,利用其线性复杂度和强大的序列建模能力,作为Transformer的高效替代方案。 针对人工耳蜗应用的端到端优化与验证:框架设计考虑了人工耳蜗处理链路的特点(使用离散表示),并且通过主观听力实验直接在CI用户群体上验证了其提升语音可懂度的实际效果,这比单纯的客观指标更具说服力。 (潜在创新)跨模态/跨表示学习:如果编解码器和Mamba增强模型是分开训练或联合优化的,那么整个框架可能涉及到在连续波形、离散令牌以及增强目标之间的跨表示学习,这是一个有趣的学习范式。 🔬 细节详述 注意:以下大部分技术细节在提供的摘要中并未给出,需从论文正文中获取。此处基于常见实践和摘要暗示进行合理推测,并明确标注“缺失”。 训练数据:摘要中提及在“in-domain”和“out-of-domain”数据集上进行评估。具体数据集名称、规模、噪声类型、混响条件等信息缺失。推测可能使用如DNS Challenge、WHAM!、或自建的人工耳蜗模拟数据集。 损失函数:缺失。可能包括:1)交叉熵损失:用于衡量预测的令牌索引与干净语音真实令牌索引之间的差异;2)重建损失(如L1/L2 Loss):在波形或特征层面约束增强后语音与干净语音的相似性;3)可能结合了感知损失或对抗损失以提升语音质量。 训练策略:缺失。关键超参数如学习率、batch size、优化器(如AdamW)、训练步数、Mamba模型的具体层数、隐藏状态维度、以及编解码器与增强模型是联合训练还是分阶段训练等,均未提供。 关键超参数:缺失。Mamba模型的状态维度(D)、扩展状态空间维度(N)、以及卷积核大小等。 训练硬件:缺失。 推理细节:缺失。由于是离散令牌预测,可能采用贪婪搜索或束搜索来生成令牌序列。 数据增强/正则化:缺失。可能使用了语音增强中常见的数据增强方法,如随机添加噪声、混响、速度扰动等。 📊 实验结果 注意:以下所有具体数值均未在摘要中提供,需从论文正文的表格和图表中获取。此处仅描述框架。 ...