Zero-Shot Imagined Speech Decoding via Imagined-to-Listened MEG Mapping

📄 Zero-Shot Imagined Speech Decoding via Imagined-to-Listened MEG Mapping #脑机接口 #对比学习 #零样本 #多通道 ✅ 6.5/10 | #脑机接口 #对比学习 | arxiv 👥 作者与机构 第一作者:Maryam Maghsoudi (University of Maryland, College Park, MD 20740) 通讯作者:Maryam Maghsoudi (maryam00@umd.edu) 作者列表:Maryam Maghsoudi (University of Maryland), Shihab Shamma (University of Maryland) 💡 毒舌点评 论文巧妙地绕开了想象语音数据标注困难的核心瓶颈,将问题转化为在“倾听空间”进行解码,思路清晰且具有启发性。然而,实验局限于76个词和4个预设刺激,离“解码自由想象”尚有距离,且MEG设备的高门槛让其应用前景在短期内略显黯淡。 📌 核心摘要 本文提出了一种无需想象语音标签的零样本解码方法。核心问题是如何在想象语音数据稀缺且标注困难的情况下,实现高性能的非侵入式脑语音解码。方法核心是构建一个三阶段的解码流水线:首先,训练一个映射模型将想象时的脑磁图信号映射为对应的倾听脑磁图信号;然后,独立训练一个对比学习解码器,将倾听脑磁图信号与词嵌入对齐;最后,在推理时,将新受试者的想象信号通过冻结的映射模型和解码器,直接获得解码词。与已有方法相比,新意在于实现了完全不依赖想象数据标签的“零样本”跨受试者解码。主要实验结果表明:1)所提六种映射模型均显著优于随机基线(见图2A);2)最终解码性能(在76词词表上)显著高于随机水平,且不同受试者和映射架构下可解码的词汇具有高度一致性(见图4)。该研究为脑机接口(BCI)提供了一种有前景的、可扩展的路径。主要局限性在于实验数据规模较小(17名受试者)、词汇表有限(76词)以及使用的刺激类型单一(诗歌和旋律),限制了结论的泛化性。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及。 数据集:论文中未提及。 Demo:论文中未提及。 复现材料:论文中未提及。 论文中引用的开源项目: MNE-Python:用于MEG数据预处理。链接:https://mne.tools/ WhisperX:用于音频强制对齐以获取单词时间戳。链接:https://github.com/m-bain/whisperX BERT:用作语义词嵌入模型之一。链接:https://huggingface.co/models?search=bert Whisper:用作声学词嵌入模型之一。链接:https://huggingface.co/models?search=whisper Wav2Vec2:用作音素词嵌入模型之一。链接:https://huggingface.co/models?search=wav2vec2 🏗️ 方法概述和架构 图1:论文提出的三阶段解码流水线。(A)展示了实验范式,即对同一刺激(旋律/诗歌)进行“倾听”和“想象”条件的MEG数据采集。(B)展示了核心解码流水线:第一阶段训练想象-倾听映射模型;第二阶段训练对比学习倾听解码器;第三阶段将新受试者的想象MEG通过冻结的映射器和解码器,实现零样本解码。 本文提出了一种三阶段的解码流水线,旨在实现从想象脑磁图信号中零样本解码单词。其整体流程可以描述为:输入一段想象状态下的MEG信号,首先通过一个映射模型将其转换为“预测的倾听MEG”;然后,将这个预测的信号输入一个预先训练好的解码器,最终输出一个与目标词在嵌入空间中最匹配的词向量。 第一阶段:想象到倾听映射 (Imagined-to-Listened Mapping) ...

2026-05-11 · 更新于 2026-06-12 · 2 min · 264 words

语音/音乐/音频论文速递 2026-05-11

语音/音乐/音频论文速递 2026-05-11 共分析 12 篇论文 ⚡ 今日概览 📥 抓取 12 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #基准测试 1篇 █ #跨模态 1篇 █ #语音匿名化 1篇 █ #音频水印 1篇 █ #语音对话系统 1篇 █ #说话人识别 1篇 █ #脑机接口 1篇 █ #生物声学 1篇 █ 📊 论文评分排行榜(12 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Do Joint Audio-Video Generation Models Understand Physi 7.5分 前50%(Accept级) #基准测试 🥈 Anisotropic Modality Align 7.5分 前25%(Strong Accept级) #跨模态 🥉 Evaluating voice anonymisation using similarity rank di 7.0分 前50%(Accept级) #语音匿名化 4. Asymmetric Phase Coding Audio Watermarking 7.0分 前50%(Accept级) #音频水印 5. MIST: Multimodal Interactive Speech-based Tool-calling 7.0分 前50%(Accept级) #语音对话系统 6. TARNet: A Temporal-Aware Multi-Scale Architecture for C 7.0分 前25%(Strong Accept级) #说话人识别 7. Zero-Shot Imagined Speech Decoding via Imagined-to-List 6.5分 前25%(Strong Accept级) #脑机接口 8. BeeVe: Unsupervised Acoustic State Discovery in Honey B 6.5分 前50%(Accept级) #生物声学 9. A Decomposed Retrieval-Edit-Rerank Framework for Chord 6.5分 前50%(Accept级) #音乐生成 10. Adaptive Regularization for Sparsity Control in Bregman 6.5分 后50%(Reject级) #说话人验证 11. Sparse Autoencoders as Plug-and-Play Firewalls for Adve 6.5分 前50%(Accept级) #对抗样本 12. Dependence on Early and Late Reverberation of Single-Ch 6.0分 后50%(Reject级) #说话人距离估计 📋 论文列表 🥇 Do Joint Audio-Video Generation Models Understand Physics? ✅ 7.5/10 | 前50%(Accept级) | #基准测试 | #模型评估 | #音视频 #跨模态 | arxiv ...

2026-05-11 · 更新于 2026-06-12 · 9 min · 1723 words

WearVox: An Egocentric Multichannel Voice Assistant Benchmark for Wearables

📄 WearVox: An Egocentric Multichannel Voice Assistant Benchmark for Wearables #基准测试 #多通道 #语音大模型 #音频问答 🔥 8.0/10 | 前25% | #基准测试 | #麦克风阵列 | #多通道 #语音大模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zhaojiang Lin(Meta),Yong Xu(Meta),Kai Sun(Meta)(论文明确标注三位为共同第一作者:Joint first author) 通讯作者:未明确说明(但Zhaojiang Lin提供了联系邮箱zhaojiang@meta.com) 作者列表:Zhaojiang Lin(Meta),Yong Xu(Meta),Kai Sun(Meta),Jing Zheng(Meta),Yin Huang(Meta),Surya Teja Appini(Meta),Krish Narang(Meta),Renjie Tao(Meta),Ishan Kapil Jain(Meta),Siddhant Arora(Carnegie Mellon University,标注工作在Meta完成),Ruizhi Li(Meta),Yiteng Huang(Meta),Kaushik Patnaik(Meta),Wenfang Xu(Meta),Suwon Shon(Meta),Yue Liu(Meta),Ahmed A Aly(Meta),Anuj Kumar(Meta),Florian Metze(Meta),Xin Luna Dong(Meta) 💡 毒舌点评 亮点在于首次针对可穿戴场景定义了多通道、自我中心语音助手评测标准,数据基于真实AI眼镜采集,任务设计紧贴现实痛点(如侧向对话拒绝)。短板是数据集规模相对有限(3.8k样本),且评估的大部分现有SLLM只能基于波束成形后的单通道音频输入,未能充分验证多通道架构的潜力,论文中提出的MC WearLlama也仅是案例研究,非核心贡献。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 327 words

语音/音乐/音频论文速递 2026-05-03

语音/音乐/音频论文速递 2026-05-03 共分析 13 篇语音/AI 论文 🎯 任务分类 点击任务标签查看该方向所有论文: 音乐信息检索(2篇) 语音识别(2篇) 音频生成(1篇) 发音错误检测(1篇) 说话人识别(1篇) 音乐理解(1篇) 音频场景理解(1篇) 语音质量评估(1篇) 语音对话系统(1篇) 音频问答(1篇) 音频事件检测(1篇) ⚡ 今日概览 📥 抓取 13 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音乐信息检索 2篇 ██ #语音识别 2篇 ██ #音频生成 1篇 █ #发音错误检测 1篇 █ #说话人识别 1篇 █ #音乐理解 1篇 █ #音频场景理解 1篇 █ #语音质量评估 1篇 █ 📊 论文评分排行榜(13 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 UniSonate: A Unified Model for Speech, Music, and Sound 8.5分 前25% #音频生成 🥈 Beyond Acoustic Sparsity and Linguistic Bias: A Prompt- 8.5分 前25% #发音错误检测 🥉 DM-ASR: Diarization-aware Multi-speaker ASR with Large 8.0分 前25% #说话人识别 4. Transformer-Based Rhythm Quantization of Performance MI 8.0分 前25% #音乐信息检索 5. Audio Effect Estimation with DNN-Based Prediction and S 8.0分 前25% #音乐理解 6. Listening with Time: Precise Temporal Awareness for Lon 8.0分 前25% #音频场景理解 7. TTS-PRISM: A Perceptual Reasoning and Interpretable Spe 7.5分 前25% #语音质量评估 8. Spectrographic Portamento Gradient Analysis: A Quantita 7.5分 前25% #音乐信息检索 9. Advancing automatic speech recognition using feature fu 7.0分 前25% #语音识别 10. Identifying and typifying demographic unfairness in pho 7.0分 前50% #语音识别 11. Full-Duplex Interaction in Spoken Dialogue Systems: A C 6.5分 前25% #语音对话系统 12. Audio Video Verbal Analysis (AVVA) for Capturing Classr 6.0分 前50% #音频问答 13. Earable Platform with Integrated Simultaneous EEG Sensi 5.5分 后50% #音频事件检测 📋 论文列表 🥇 UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions 🔥 8.5/10 | 前25% | #音频生成 | #流匹配 | #扩散模型 #统一音频模型 | arxiv ...

2026-05-03 · 更新于 2026-06-12 · 8 min · 1688 words

TINY BUT MIGHTY: A SOFTWARE-HARDWARE CO- DESIGN APPROACH FOR EFFICIENT MULTIMODAL IN- FERENCE ON BATTERY-POWERED SMALL DEVICES

📄 TINY BUT MIGHTY: A SOFTWARE-HARDWARE CO- DESIGN APPROACH FOR EFFICIENT MULTIMODAL IN- FERENCE ON BATTERY-POWERED SMALL DEVICES #多模态模型 #实时处理 #多通道 #开源工具 ✅ 7.0/10 | 前25% | #多模态模型 | #实时处理 | #多通道 #开源工具 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Yilong Li(University of Wisconsin – Madison) 通讯作者:未说明 作者列表:Yilong Li(University of Wisconsin – Madison)、Shuai Zhang(Amazon Web Services AI)、Yijing Zeng(University of Wisconsin – Madison)、Chengpo Yan(University of Wisconsin – Madison)、Hao Zhang(University of Wisconsin – Madison)、Xinmiao Xiong(University of Wisconsin – Madison)、Jingyu Liu(University of Wisconsin – Madison)、Pan Hu(Uber)、Suman Banerjee(University of Wisconsin – Madison) 💡 毒舌点评 这篇论文亮点在于提出了一个完整的、软硬件协同设计的系统框架(NANOMIND),并通过自研硬件原型机验证了其在电池供电设备上运行多模态大模型的可行性,实测的能效比数据(降低42.3%能耗)很有说服力。短板在于其对比实验主要聚焦于自身设计的硬件平台与不同软件框架的对比,缺乏与当前主流商用边缘设备(如最新款旗舰手机)上SOTA框架的公平、全面比较,这削弱了其结论的普适性和说服力。 ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 284 words

WearVox: An Egocentric Multichannel Voice Assistant Benchmark for Wearables

📄 WearVox: An Egocentric Multichannel Voice Assistant Benchmark for Wearables #语音对话系统 #基准测试 #多通道 #语音大模型 #鲁棒性 ✅ 7.5/10 | 前25% | #语音对话系统 | #基准测试 | #多通道 #语音大模型 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Zhaojiang Lin(Meta,标记为联合第一作者) 通讯作者:未说明(论文未明确指定通讯作者,但提供了邮箱zhaojiang@meta.com, sunkaicn@meta.com, yongxu@meta.com, lunadong@meta.com) 作者列表:Zhaojiang Lin(Meta)、Yong Xu(Meta,联合第一作者)、Kai Sun(Meta,联合第一作者)、Jing Zheng(Meta)、Yin Huang(Meta)、Surya Teja Appini(Meta)、Krish Narang(Meta)、Renjie Tao(Meta)、Ishan Kapil Jain(Meta)、Siddhant Arora(Carnegie Mellon University,工作于Meta)、Ruizhi Li(Meta)、Yiteng Huang(Meta)、Kaushik Patnaik(Meta)、Wenfang Xu(Meta)、Suwon Shon(Meta)、Yue Liu(Meta)、Ahmed A Aly(Meta)、Anuj Kumar(Meta)、Florian Metze(Meta)、Xin Luna Dong(Meta) 💡 毒舌点评 亮点在于它精准地定义了可穿戴语音助手独有的“坑”(自我中心音频、多通道、运动噪声、旁听对话),并用一个设计精良、场景丰富的测试集(WearVox)把这些坑量化了,直接戳穿了当前所谓“先进”语音大模型在真实世界中的脆弱性。短板则是案例研究部分提出的多通道模型(MC WearLlama)虽然验证了方向,但更像是一个概念验证(PoC)而非一套完整的解决方案,模型本身未开源,且多通道处理方式(仅拼接两个通道)相对简单,离真正的端到端多模态融合还有距离。 ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 422 words

Earable Platform with Integrated Simultaneous EEG Sensing and Auditory Stimulation

📄 Earable Platform with Integrated Simultaneous EEG Sensing and Auditory Stimulation #音频事件检测 #信号处理 #多通道 #时频分析 📝 5.5/10 | 后50% | #音频事件检测 | #信号处理 | #多通道 #时频分析 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 -1.0 | 置信度 中 👥 作者与机构 第一作者:Min Suk Lee (UC San Diego, Shu Chien-Gene Lay Department of Bioengineering) 通讯作者:Yuchen Xu (yux013@ucsd.edu), Gert Cauwenberghs (gcauwenberghs@ucsd.edu) 作者列表: Min Suk Lee (UC San Diego, Shu Chien-Gene Lay Department of Bioengineering) Abhinav Uppal (UC San Diego, Shu Chien-Gene Lay Department of Bioengineering) Ananya Thota (UC San Diego, Shu Chien-Gene Lay Department of Bioengineering) Chetan Pathrabe (UC San Diego, Shu Chien-Gene Lay Department of Bioengineering) Rommani Mondal (UC San Diego, Shu Chien-Gene Lay Department of Bioengineering) Akshay Paul (UC San Diego, Institute for Neural Computation) Yuchen Xu (UC San Diego, Institute for Neural Computation) Gert Cauwenberghs (UC San Diego, Shu Chien-Gene Lay Department of Bioengineering; Institute for Neural Computation) 💡 毒舌点评 亮点在于其将定制化耳道模型与Ag/AgCl干电极喷涂技术相结合,显著提升了信号质量和佩戴舒适度,为长期脑电监测提供了实用方案。短板是验证仅限于单个受试者,且其中一个对侧通道表现出显著噪声,这使得“稳健”、“长期”等宣称的普适性大打折扣,更像一个精心调校的原型机演示。 ...

2026-05-01 · 更新于 2026-06-12 · 2 min · 271 words

A Learning-Based Automotive Sound Field Reproduction Method Using Plane-Wave Decomposition and Multi-Position Constraint

📄 A Learning-Based Automotive Sound Field Reproduction Method Using Plane-Wave Decomposition and Multi-Position Constraint #空间音频 #波束成形 #深度学习 #多通道 #汽车音频 ✅ 7.5/10 | 前25% | #空间音频 | #波束成形 #深度学习 | #波束成形 #深度学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yufan Qian(北京大学智能科学技术学院,通用人工智能国家重点实验室) 通讯作者:Tianshu Qu(qutianshu@pku.edu.cn, 北京大学智能科学技术学院,通用人工智能国家重点实验室) 作者列表:Yufan Qian(北京大学智能科学技术学院,通用人工智能国家重点实验室)、Xihong Wu(北京大学智能科学技术学院,通用人工智能国家重点实验室)、Tianshu Qu(北京大学智能科学技术学院,通用人工智能国家重点实验室) 💡 毒舌点评 亮点:论文巧妙地将“平面波分解”这一物理概念转化为一个可微的深度学习损失函数,用于约束声场的空间结构,并通过“多位置联合优化”策略显著扩展了有效的听音区域,实验结果扎实,图表(如图3、图6)直观有力。 短板:方法依赖于特定且昂贵的球形麦克风阵列(SMA)来获取空间信息,限制了其实用性和普适性;论文虽然声称是“learning-based”,但核心优化过程(深度优化)更像是用神经网络作为参数化求解器,并未充分利用数据驱动的端到端学习优势。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:未提及公开。论文中使用的RIR数据是在特定汽车座舱内采集的,未说明是否共享。 Demo:未提及在线演示。 复现材料:论文给出了方法的主要原理和实验设置描述,但缺少训练超参数(如学习率、优化器)、神经网络初始化细节、损失函数各项具体权重(λ_ϵ)等关键信息,完整复现存在困难。 论文中引用的开源项目:未提及依赖的特定开源工具或模型。 📌 核心摘要 问题:在汽车座舱内进行高质量的声场重放(SFR)非常困难,原因是复杂的声学反射、不规则的边界以及对扬声器布局的严格限制。传统方法(如波场合成、高阶Ambisonics)在理想条件下有效,但在车内环境中会产生音染和定位不准。 核心方法:提出一种基于深度优化的方法,核心在于将基于平面波分解(PWD)的、具有物理意义的空间功率图(SPM)作为约束,并结合多位置控制策略进行联合优化。 新意:与以往基于延迟求和波束成形(DSB)估计的伪谱不同,PWD提供了一个与测量阵列解耦的、物理上更精确的声场空间分布表示。多位置优化则将约束从单个点扩展到一个区域,以构建健壮的听音区。 主要结果:在真实汽车座舱内的实验表明,该方法在客观指标和主观听测中均显著优于多种基线方法(如频域去卷积、凸优化、SPMnet)。例如,在扩展区域的平均性能上,所提方法的频谱偏差(SD)为1.93 dB,后感知混响量化(nPRQpost)为0.31 dB,均优于基线;基于PWD的SPM相关性(Corr.)平均达到0.77,远高于其他方法。 实际意义:为在汽车等受限空间中实现高保真、高定位精度的沉浸式音频体验提供了有效的解决方案,推动了车载音响系统的发展。 主要局限性:性能验证依赖于特定尺寸和布置的球形麦克风阵列;目前只针对单个座椅位置进行了测试,尚未扩展到多座椅的全车覆盖。 🏗️ 模型架构 本文并非传统的神经网络架构,而是将神经网络作为优化器(深度优化)来求解控制滤波器。核心系统模型与数据流如下图所示: ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 243 words

Advancing LLM-Based Multi-Channel Multi-Speaker Speech Recognition with Global Cross-Channel Attention and Sentence-Ordered First-In First-Out Serialized Output Training

📄 Advancing LLM-Based Multi-Channel Multi-Speaker Speech Recognition with Global Cross-Channel Attention and Sentence-Ordered First-In First-Out Serialized Output Training #语音识别 #语音大模型 #多通道 #预训练 #端到端 ✅ 7.5/10 | 前25% | #语音识别 | #语音大模型 | #多通道 #预训练 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Genshun Wan(中国科学技术大学 & 科大讯飞研究院) 通讯作者:Jia Pan(科大讯飞研究院) 作者列表:Genshun Wan (中国科学技术大学 & 科大讯飞研究院),Lijuan Liu (中国科学技术大学 & 科大讯飞研究院),Changfeng Xi (科大讯飞研究院),Hang Chen (中国科学技术大学),Xindi Yu (科大讯飞研究院),Jia Pan (科大讯飞研究院),Jun Du (中国科学技术大学),Zhongfu Ye (中国科学技术大学) 💡 毒舌点评 亮点: 论文首次将大语言模型(LLM)系统性地引入多通道多说话人语音识别,并针对该任务的独特性(如说话人顺序、多通道输入)设计了“句子有序FIFO SOT”和“全局跨通道注意力(GCCA)”两个关键组件,实现了从基线到最终系统CER超过55%(重叠)的大幅性能飞跃。 短板: 整个评估完全基于未公开的内部会议数据集,缺乏在学术界公认的公开多通道基准上的验证,这使得其宣称的“强泛化性”说服力大打折扣,也让其他研究者难以复现和比较,显著降低了论文的公共价值。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 274 words

Auditory-Inspired Transformer for Binaural Speech Enhancement and Spatial Cue Preservation

📄 Auditory-Inspired Transformer for Binaural Speech Enhancement and Spatial Cue Preservation #语音增强 #端到端 #空间音频 #多通道 ✅ 7.0/10 | 前25% | #语音增强 | #端到端 | #空间音频 #多通道 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Sirawitch Laichatkul(朱拉隆功大学计算机工程系) 通讯作者:未说明 作者列表:Sirawitch Laichatkul(朱拉隆功大学计算机工程系)、Waradon Phokhinanan(巴黎高等师范学校感知系统实验室)、Thanapat Trachu(朱拉隆功大学计算机工程系)、Ekapol Chuangsuwanich(朱拉隆功大学计算机工程系) 💡 毒舌点评 这篇论文最大的亮点在于将听觉皮层的频率选择性(tonotopy)和自上而下注意力这一神经科学概念,成功地转化为了一个有效的计算模块(修改的ViT编码器和频率受限注意力掩码),为解决双耳增强中的空间线索失真问题提供了一个新颖且合理的切入点。但短板同样明显:模型对最具挑战性的相位线索(IPD)保持效果提升有限(∆IPD仅从1.12/1.13微降至1.09),实验仅基于合成数据,其在真实复杂声学环境下的表现和泛化能力有待验证,且缺乏开源代码,让这份“灵感”稍显难以触摸。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及是否公开预训练模型权重。 数据集:训练和评估所用的数据(CSTR, QUT-NOISE-TIMIT, MS-SNSD)均为公开数据集,但论文中未说明具体的下载方式或处理脚本。 Demo:未提供在线演示。 复现材料:论文中提供了较为详细的训练设置(优化器、学习率、批次大小、训练轮数)、模型超参数(层数、维度、patch大小)以及数据预处理流程,这些构成了复现的基本要素。 论文中引用的开源项目:论文引用了HRTF测量数据[17],但未明确表示其代码或数据的可获取性。其他引用多为方法论文或数据集。 总结:论文中未提及开源计划。虽然复现所需的关键技术细节已在文中阐述,但缺乏直接可用的代码和权重,使得完全复现存在一定门槛。 📌 核心摘要 问题:双耳语音增强不仅要在频谱上抑制噪声,更关键的是要保持双耳线索(如耳间时间差ITD和耳间强度差ILD),否则会破坏空间听觉,影响助听器和增强现实等应用效果。现有方法在这一挑战上表现不足。 方法:提出了BinauralViT,一个受听觉神经科学启发的Transformer架构。其核心是引入两个听觉启发层:一个能实现“自上而下”注意力的频率选择性表示层(通过修改ViT编码器和添加频率注意力掩码实现),以及一个用于捕捉时序连贯性的语音处理层。 创新:与已有方法相比,新在:1)受皮层频率拓扑组织启发,设计了允许同一时间帧内频率间注意力但限制跨帧注意力的机制;2)提出了一种双层Transformer结构,第一层进行特征选择与融合,第二层建模时序依赖以保持空间线索。 结果:在合成的非平稳噪声数据集上,BinauralViT在PESQ(2.78 vs 2.54/2.30)、SI-SNR(17.43 vs 16.92/15.30)上优于BiTasNet和BCCTN基线,并在ILD保持(∆ILD 4.20 vs 6.03/5.85)上显著提升,IPD保持(∆IPD 1.09 vs 1.13/1.12)略有改善。MBSTOI(~0.98)在所有模型中已接近饱和。消融实验验证了修改ViT编码器、第二层编码器及IPD/ILD特征的必要性。 意义:为双耳语音处理提供了一种新的、受生物启发的模型设计思路,证明了模拟听觉机制对提升空间线索保持能力的有效性,对助听技术发展有积极参考价值。 局限:实验在模拟数据上进行,可能无法完全反映真实场景的复杂性;对IPD的提升幅度有限;模型计算复杂度和实时性未作讨论。 🏗️ 模型架构 BinauralViT的完整架构如图1所示,是一个端到端的双耳语音增强模型,其目标是从带噪的双耳语音信号中估计出相位敏感掩码(PSM),进而重构出干净语音。整体流程可分为四个主要阶段: ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 271 words