Online Segmented Beamforming via Dynamic Programming

📄 Online Segmented Beamforming via Dynamic Programming #声源定位 #波束成形 #麦克风阵列 #流式处理 #实时处理 ✅ 6.0/10 | 前25% | #声源定位 | #波束成形 | #麦克风阵列 #流式处理 | arxiv 学术质量 6.0/8 | 影响力 1.0/2 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Manan Mittal(论文中未提及具体机构) 通讯作者:未说明 作者列表:Manan Mittal、Ryan M. Corey、Diego Cuji、John R. Buck、Andrew C. Singer(论文中未说明各作者所属机构) 💡 毒舌点评 本文提出的“在线分段波束成形”框架思路清晰,将动态规划思想引入非平稳声学环境中的协方差矩阵估计,试图解决传统固定窗口方法的核心矛盾。论文在仿真和真实实验中展示了其性能优势。然而,其核心在线算法实为对经典OSRLS思想的借鉴与应用,创新性主要体现在工程整合与特定问题的应用上。理论分析严重缺失,对算法近似性能、关键超参数的影响均未提供任何分析,实验部分也未进行消融研究或计算复杂度对比,使得论文更像一项扎实的工程改进,而非具有坚实理论基础的突破。 📌 核心摘要 要解决什么问题:在时变、非平稳的声学环境中,传统自适应波束成形(如Capon/MVDR)依赖固定时间窗口的样本协方差矩阵估计。长窗口导致估计值“涂抹”,无法跟踪环境变化;短窗口则估计方差大,干扰抑制能力弱。这构成了一个根本性的偏差-方差权衡难题。 方法核心是什么:提出“在线分段波束成形”(Online Segmented Beamformer)。核心思想是将观测时间线动态分割为若干个平稳段,在每个段内使用单一的MVDR权值。算法在每个时刻在线评估:是延续当前段(利用更多样本降低方差),还是开始一个新段(避免来自旧环境的偏差)。这被形式化为一个动态规划问题,并通过维护多个候选模型的在线近似求解(类OSRLS算法)。 与已有方法相比新在哪里:与传统固定窗口方法(滑动窗口、指数遗忘)相比,本方法将积分窗口长度从一个静态超参数变为一个由数据驱动的动态变量。它显式地对环境的分段平稳性进行建模,能够自适应地检测变化点并重置协方差估计,从而在无需预设环境平稳时间尺度的情况下,尝试同时实现快速跟踪和统计平滑。 主要实验结果如何:在复杂混响仿真和真实世界高混响实验中,与一系列不同固定窗口长度的MPDR基线相比,所提方法(OSRLS)在关键指标上均取得最优。仿真结果(Table I):OSRLS的SI-SDR增益为5.91 dB,PESQ为1.08,显著优于最佳基线(MPDR Win=20, SI-SDR 3.10 dB, PESQ 1.06)。真实实验结果(Fig. 2):在四个不同目标说话人场景下,OSRLS的SI-SDR和PESQ得分均持续高于或接近所有固定窗口MPDR,尤其在短窗口MPDR表现不佳(SI-SDR低)和长窗口MPDR表现受限(PESQ低)的极端情况下优势明显。 实际意义是什么:为智能设备语音增强、水下声纳/雷达目标跟踪等在动态声学环境中工作的阵列信号处理系统,提供了一种更稳健、自适应性更强的波束成形框架。它有望减少系统对场景先验知识的依赖。 主要局限性是什么:论文未提供代码开源;在线近似算法的理论性能保证(如相对于全局最优的近似比)未做分析;关键超参数(正则化项C, 最小段长τ)的选择依据和影响未充分讨论;实验未涉及计算复杂度分析与对比;作者声称其为“参数无关的替代方案”,但算法仍需设定C和τ,这一声明与事实不符。 🔗 开源详情 代码:论文中未提及代码链接。论文仅提供了算法伪代码(Algorithm 1)。 模型权重:论文中未提及。 数据集: Massive Distributed Microphone Array Dataset:用于真实世界实验,论文引用了文献[3]并说明使用了该数据集,但未提供直接的下载URL。 VCTK corpus:用于生成目标和干扰语音信号,论文引用了该语料库但未提供具体链接。 Demo:论文中未提及。 复现材料:论文中未提及。论文提供了详细的算法描述和实验设置,但未提供完整的复现材料包。 论文中引用的开源项目: pyroomacoustics:论文在模拟实验部分提及(“built upon the pyroomacoustics framework [8]”),这是一个用于声学模拟的开源Python库。其官方GitHub仓库链接为:https://github.com/LCAV/pyroomacoustics。 VCTK corpus:论文在真实世界实验部分提及,用于生成语音信号。其官方主页或数据集获取链接通常为:https://datashare.ed.ac.uk/handle/10283/3443,但论文中未提供此URL。 🏗️ 方法概述和架构 本文提出的“在线分段波束成形”是一个端到端的自适应波束成形框架。其输入为多传感器阵列接收到的时域或短时傅里叶变换(STFT)域信号向量 x[n],以及导向向量(或相对传递函数RTF)ν。核心处理单元是一个在线决策与模型维护模块,该模块在每个时间步接收新数据,并动态决定是延续当前的波束成形模型(即维持协方差矩阵估计),还是启动一个新的模型(即重置协方差矩阵估计)。输出为经过空间滤波、抑制了干扰和噪声的波束成形信号 z[n],以及检测到的分割点集合 I。 ...

2026-05-12 · 更新于 2026-06-12 · 3 min · 448 words

LiVeAction: a Lightweight, Versatile, and Asymmetric Neural Codec Design for Real-time Operation

📄 LiVeAction: a Lightweight, Versatile, and Asymmetric Neural Codec Design for Real-time Operation #多模态压缩 #神经网络编解码器 #实时处理 #边缘计算 #信号处理 🔥 8.5/10 | 前25% | #多模态压缩 | #神经网络编解码器 | #实时处理 #边缘计算 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Dan Jacobellis (University of Texas at Austin) 通讯作者:Neeraja J. Yadwadkar (University of Texas at Austin) 作者列表:Dan Jacobellis (University of Texas at Austin), Neeraja J. Yadwadkar (University of Texas at Austin) 💡 毒舌点评 这篇论文最漂亮的地方是它毫不含糊地实现了承诺:把编解码器塞进低功耗设备里跑,而且还能处理从音频到3D医学图像的“花式”数据。但尴尬的是,它的“通用性”主要体现在对网格化信号的处理上,对于真正的非结构化数据(如点云、图信号)的通用性并未在论文中得到验证,有点“避重就轻”的嫌疑。此外,简化率惩罚依赖于潜变量分布为指数族的假设,在复杂分布下可能次优。 ...

2026-05-08 · 更新于 2026-06-12 · 5 min · 945 words

Hearing the Ocean: Bio-inspired Gammatone-CNN framework for Robust Underwater Acoustic Target Classification

📄 Hearing the Ocean: Bio-inspired Gammatone-CNN framework for Robust Underwater Acoustic Target Classification #音频分类 #信号处理 #时频分析 #实时处理 #水下声学 ✅ 7.5/10 | 前25% | #音频分类 | #信号处理 | #时频分析 #实时处理 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Rajeshwar Tripathi (Central Research Laboratory, Bharat Electronics Limited, Ghaziabad, India) 通讯作者:未说明 作者列表:Rajeshwar Tripathi (Central Research Laboratory, Bharat Electronics Limited, Ghaziabad, India)、Sandeep Kumar (Central Research Laboratory, Bharat Electronics Limited, Ghaziabad, India)、Monika Aggarwal (Centre for Applied Research in Electronics (CARE), IIT Delhi, India)、Neel Kanth Kundu (Centre for Applied Research in Electronics (CARE), IIT Delhi, India) 💡 毒舌点评 亮点:论文清晰地论证并验证了“信号表示质量是决定性能上限的关键”这一观点,其生物启发的Gammatone前端在保持极低计算开销(0.77ms延迟)的前提下,显著优于传统线性和多分辨率特征,为资源受限的边缘声纳部署提供了切实可行的方案。短板:创新性更多体现在技术整合与领域迁移,而非Gammatone滤波器本身的原理突破;虽然在VTUAD数据集上表现优异,但验证仅限于单一公开数据集,其泛化能力至更复杂的真实海洋环境仍需更多证据。 ...

2026-05-07 · 更新于 2026-06-12 · 2 min · 341 words

语音/音乐/音频论文速递 2026-05-07

语音/音乐/音频论文速递 2026-05-07 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音频分类 3篇 ███ #音乐信息检索 2篇 ██ #音乐生成 2篇 ██ #音频质量评估 1篇 █ #语音识别 1篇 █ #语音情感识别 1篇 █ #标签分布学习 1篇 █ #视频编辑 1篇 █ 📊 论文评分排行榜(22 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Ev 8.5分 前10% #音频质量评估 🥈 PHALAR: Phasors for Learned Musical Audio Representatio 8.5分 前10% #音乐信息检索 🥉 The TTS-STT Flywheel: Synthetic Entity-Dense Audio Clos 8.5分 前25% #语音识别 4. To Fuse or to Drop? Dual-Path Learning for Resolving Mo 8.0分 前25% #语音情感识别 5. Trustworthy Federated Label Distribution Learning under 8.0分 前25% #标签分布学习 6. AVI-Edit: Audio-sync Video Instance Editing with Granul 8.0分 前25% #视频编辑 7. Empirical Study of Pop and Jazz Mix Ratios for Genre-Ad 7.5分 前50% #音乐生成 8. Hearing the Ocean: Bio-inspired Gammatone-CNN framework 7.5分 前25% #音频分类 9. Sparse Tokens Suffice: Jailbreaking Audio Language Mode 7.5分 前25% #音频安全 10. SEI-SHIELD: Robust Specific Emitter Identification Unde 7.5分 前25% #信号处理 11. OceanPile: A Large-Scale Multimodal Ocean Corpus for Fo 7.5分 前25% #音频分类 12. MiniMind-O Technical Report: An Open Small-Scale Speech 7.5分 前25% #语音对话系统 13. APEX: Large-scale Multi-task Aesthetic-Informed Popular 7.5分 前25% #音乐评估 14. Spatial-Magnifier: Spatial upsampling for multichannel 7.0分 前25% #语音增强 15. VocalParse: Towards Unified and Scalable Singing Voice 7.0分 前25% #音乐转录 16. Benchmarking LLMs on the Massive Sound Embedding Benchm 7.0分 前50% #音频分类 17. Stage-adaptive audio diffusion modeling 7.0分 前25% #音频生成 18. Adaptive Diagonal Loading for Norm Constrained Beamform 7.0分 前25% #波束成形 19. RenCon 2025: Revival of the Expressive Performance Rend 7.0分 前50% #音乐生成 20. Beyond Seeing Is Believing: On Crowdsourced Detection o 7.0分 前25% #音频深度伪造检测 21. Stage Light is Sequence^2: Multi-Light Control via Imit 7.0分 前25% #舞台技术 22. Library learning with e-graphs on jazz harmony 6.5分 前50% #音乐信息检索 📋 论文列表 🥇 JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Evaluation via Natural Language Instructions 🔥 8.5/10 | 前10% | #音频质量评估 | #大语言模型 | #多模态模型 #零样本 | arxiv ...

2026-05-07 · 更新于 2026-06-12 · 14 min · 2879 words

Can Speech LLMs Think while Listening?

📄 Can Speech LLMs Think while Listening? #语音对话系统 #语音大模型 #微调 #自回归模型 #实时处理 ✅ 7.5/10 | 前25% | #语音对话系统 | #微调 | #语音大模型 #自回归模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yi-Jen Shih(The University of Texas at Austin, Meta Superintelligence Labs) 通讯作者:Michael L. Seltzer(Meta Superintelligence Labs) 作者列表:Yi-Jen Shih(The University of Texas at Austin, Meta Superintelligence Labs)、Desh Raj(Meta Superintelligence Labs)、Chunyang Wu(Meta Superintelligence Labs)、Wei Zhou(Meta Superintelligence Labs)、SK Bong(Meta Superintelligence Labs)、Yashesh Gaur(Meta Superintelligence Labs)、Jay Mahadeokar(Meta Superintelligence Labs)、Ozlem Kalinli(Meta Superintelligence Labs)、Michael L. Seltzer(Meta Superintelligence Labs) 💡 毒舌点评 这篇论文最大的亮点在于将“边听边想”从一个人机交互概念落实为一套可训练、可控制的技术方案,尤其是提出的“问题完整度”指标,巧妙地将语义完备性与生成时机联系起来。然而,一个显眼的短板是,其核心指标“问题完整度”的计算严重依赖于外部LLM(如Llama-3-8B-Chat)的预测概率,这在部署时可能带来额外的计算开销和延迟,且该指标的泛化能力(是否对不同LLM稳定)并未充分验证。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 347 words

Generative Adversarial Post-Training Mitigates Reward Hacking in Live Human-AI Music Interaction

📄 Generative Adversarial Post-Training Mitigates Reward Hacking in Live Human-AI Music Interaction #音乐生成 #强化学习 #对抗训练 #实时处理 #音乐信息检索 ✅ 7.0/10 | 前25% | #音乐生成 | #强化学习 | #对抗训练 #实时处理 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yusong Wu (Mila, Quebec Artificial Intelligence Institute, Université de Montréal) 通讯作者:Natasha Jaques (University of Washington), Cheng-Zhi Anna Huang (Massachusetts Institute of Technology) 作者列表:Yusong Wu (Mila, Université de Montréal), Stephen Brade (Massachusetts Institute of Technology), Aleksandra Teng Ma (Georgia Institute of Technology), Tia-Jane Fowler (University of Washington), Enning Yang (McGill University), Berker Banar (Independent Researcher), Aaron Courville (Mila, Université de Montréal), Natasha Jaques (University of Washington), Cheng-Zhi Anna Huang (Massachusetts Institute of Technology) 💡 毒舌点评 亮点:在强化学习后训练中巧妙引入对抗训练思想来解决“奖励黑客”问题,特别是通过一个自适应更新的判别器来平衡“真实感”与任务目标,方案设计精巧且有实验验证。短板:方法的核心创新是将GAN和RL思想结合用于序列模型,这并非完全原创;研究场景(实时旋律-和弦伴奏)非常垂直,其影响力可能局限于音乐生成领域,对更广泛的序列生成任务(如对话)的普适性未得到充分论证。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 342 words

Knowing When to Quit: Probabilistic Early Exits for Speech Separation Networks

📄 Knowing When to Quit: Probabilistic Early Exits for Speech Separation Networks #语音分离 #语音增强 #概率建模 #提前退出 #实时处理 ✅ 7.0/10 | 前25% | #语音分离 | #概率建模 | #语音增强 #提前退出 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Kenny Falkær Olsen (Technical University of Denmark, WS Audiology) 通讯作者:未说明 作者列表:Kenny Falkær Olsen (Technical University of Denmark, WS Audiology), Mads Østergaard (WS Audiology), Karl Ulbæk (WS Audiology), Søren Føns Nielsen (WS Audiology), Rasmus Malik Høegh Lindrup (WS Audiology), Bjørn Sand Jensen (Technical University of Denmark), Morten Mørup (Technical University of Denmark) 💡 毒舌点评 亮点在于将概率建模与早退机制结合,推导出一套基于置信度的、可解释的SNR退出准则,比传统的启发式或固定损失权衡方法更 principled。短板是框架的实用性高度依赖于模型预测的不确定性(σ²)是否校准良好,论文显示这需要额外的、在全长度数据上的微调,增加了实际部署的复杂性,且核心模型架构(PRESS-Net)本身在绝对性能上并非无懈可击。 ...

2026-05-04 · 更新于 2026-06-12 · 3 min · 439 words

TINY BUT MIGHTY: A SOFTWARE-HARDWARE CO- DESIGN APPROACH FOR EFFICIENT MULTIMODAL IN- FERENCE ON BATTERY-POWERED SMALL DEVICES

📄 TINY BUT MIGHTY: A SOFTWARE-HARDWARE CO- DESIGN APPROACH FOR EFFICIENT MULTIMODAL IN- FERENCE ON BATTERY-POWERED SMALL DEVICES #多模态模型 #大语言模型 #端到端 #实时处理 #系统优化 ✅ 7.0/10 | 前25% | #多模态模型 | #预训练 | #大语言模型 #端到端 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yilong Li(University of Wisconsin – Madison) 通讯作者:未明确说明(论文未标注通讯作者信息) 作者列表:Yilong Li (1), Shuai Zhang (2), Yijing Zeng (1), Chengpo Yan (1), Hao Zhang (1), Xinmiao Xiong (1), Jingyu Liu (1), Pan Hu (3), Suman Banerjee (1)。机构:(1) University of Wisconsin – Madison, (2) Amazon Web Services AI, USA, (3) Uber, USA。 💡 毒舌点评 这篇论文最硬核的地方在于作者真的自己画了PCB、焊了板子、写了底层驱动来验证他们的想法,这种“手工打造端到端系统”的匠心在AI论文里相当少见。但遗憾的是,其核心的“模型分解与动态调度”思想在边缘计算领域已有先例,且论文对模型量化后在特定下游任务上的精度损失分析不够细致,更像是一个优化效果显著的“系统集成报告”。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 227 words

Transformer-based End-to-End Control Filter Generation for Active Noise Control

📄 Transformer-based End-to-End Control Filter Generation for Active Noise Control #主动噪声控制 #Transformer #无监督学习 #实时处理 #模型比较 ✅ 7.0/10 | 前25% | #主动噪声控制 | #Transformer | #无监督学习 #实时处理 | arxiv 学术质量 6.2/7 | 选题价值 1.3/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Ziyi Yang(论文未说明其具体所属机构) 通讯作者:未说明 作者列表:Ziyi Yang(未说明)、Zhengding Luo(未说明)、Yisong Zou(未说明)、Boxiang Wang(未说明)、Qirui Huang(未说明)、Woon-Seng Gan(未说明) 💡 毒舌点评 这篇论文的核心工作是将Transformer“嫁接”到了固定滤波器主动噪声控制的框架中,并且通过巧妙的端到端可微设计,绕开了监督学习需要“标签”的难题,在真实噪声上取得了不错的改进,思路清晰,实验扎实。不过,模型参数量和计算量相比基线方法(CNN)显著增加,这对于追求低延迟、低功耗的嵌入式ANC设备来说是个不小的挑战,论文对此权衡的讨论略显不足,且未提供任何开源代码。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集:论文中提及了训练和测试所用数据集的具体描述(83,977个合成带限噪声样本,用于测试的真实噪声类型包括飞机、压缩机等),但未提供公开下载链接或开源协议。 Demo:论文中未提及Demo链接。 复现材料:论文中提供了详细的训练配置、超参数、模型架构及评估结果,具体信息如下,但未提供额外的检查点文件或附录文档链接。 数据集:83,977个1秒时长、13kHz采样率的合成带限噪声(覆盖20-1900 Hz)。划分:79,977训练样本,2,000验证样本,2,000测试样本。训练时在参考信号上添加了SNR 10dB的高斯噪声。测试用到真实噪声和合成噪声。 声学路径:使用一个覆盖10-3000 Hz的合成声学路径,训练和测试中保持一致。 模型配置: 输入帧长度 L=13,000 样本,控制滤波器长度 N=512。 Conv1d前端:1输入通道,256输出通道,卷积核64,步长4,填充30;后接BatchNorm、ReLU、最大池化(步长4)。 Transformer编码器:d_model=256,8个注意力头,1层编码器,前馈维度1024,dropout 0.1,使用Pre-Norm。 输出头:Linear(256->512),ReLU,Dropout(0.1),Linear(512->512)。 总可训练参数:1,201,152。 训练超参数:优化器Adam,权重衰减10⁻⁴,初始学习率5×10⁻⁴,批大小128,训练40轮。使用StepLR调度器(步长5,衰减因子0.5)。 评估指标:噪声降低(NR)分贝数。每个测试噪声运行5秒,在最后1秒计算NR,报告平均NR。 基线模型:FxNLMS(滤波器长度512,步长0.001);GFANC(CNN co-processor,参数211,215,详见论文)。 论文中引用的开源项目:未提及。 补充信息 [模型架构] 补充:论文明确指出,Transformer编码器采用Pre-Norm(预归一化)设计。这是影响训练稳定性的关键设计选择,但未在分析中强调。同时,分析中提到输入帧L=13,000采样点,但未点明这对应于约1秒的音频(采样率13kHz),这是理解系统实时性的关键。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 316 words

Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

📄 Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention #语音分离 #知识蒸馏 #端到端 #音视频 #实时处理 🔥 9.0/10 | 前10% | #语音分离 | #知识蒸馏 | #端到端 #音视频 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Kai Li(清华大学计算机科学与技术系、清华大学IDG/McGovern脑科学研究院) 通讯作者:Xiaolin Hu(清华大学计算机科学与技术系、清华大学IDG/McGovern脑科学研究院、北京脑科学与类脑研究中心) 作者列表:Kai Li(清华大学计算机科学与技术系、清华大学IDG/McGovern脑科学研究院)、Kejun Gao(清华大学计算机科学与技术系)、Xiaolin Hu(清华大学计算机科学与技术系、清华大学IDG/McGovern脑科学研究院、北京脑科学与类脑研究中心) 注:Kai Li和Kejun Gao贡献均等(*标记),Xiaolin Hu为通讯作者(†标记)。 💡 毒舌点评 Dolphin的双路径视觉编码器设计和基于热扩散方程的局部注意力模块非常聪明,用极低的计算开销(MACs降低2.4倍)实现了SOTA分离性能,为AVSS的实际部署扫清了关键障碍。但其离散视觉token的设计可能丢弃了连续唇部运动中的一些细微发音线索,未来或可探索混合离散-连续表示来进一步提升。 🔗 开源详情 代码:论文中承诺在GitHub上开源代码(Apache-2.0许可证),并提供了一个Demo页面链接(https://cslikai.cn/Dolphin),但未在文中直接给出具体代码仓库URL。因此,具体链接需以论文被接收后的发布为准。 模型权重:论文中提到会公开预训练权重(“pretrained weights for the video backbone”),但未提供具体下载链接。 数据集:使用的LRS2, LRS3, VoxCeleb2为公开数据集,但需根据其出版方规定获取。论文承诺会提供预处理脚本。 Demo:提供了一个在线演示页面链接:https://cslikai.cn/Dolphin。 复现材料:提供了极其详细的复现信息,包括:conda环境规范、完整配置文件、所有超参数(附录E)、评估指标和损失函数的正式定义(附录D)、模型各组件的详细结构(附录A, B)、训练细节(附录A.3)。 引用的开源项目:论文中提到了依赖的开源工具/模型,包括:PyTorch, PyTorch Lightning, VQ实现(vector-quantize-pytorch on PyPI), AV-HuBERT(作为蒸馏教师模型)。 总体:开源意愿强烈,复现支持非常充分,是高质量开源论文的典范。论文中未提及具体的GitHub仓库链接,但根据“我们的代码和演示页面公开可访问于此链接”的表述及Demo链接,可认为代码已或即将公开。 📌 核心摘要 本文旨在解决音频-视觉语音分离(AVSS)模型计算成本过高、难以实际部署的问题。论文提出了一个名为Dolphin的高效AVSS模型。其核心创新包括:1) 设计了一个轻量级双路径视频编码器DP-LipCoder,通过向量量化(VQ)和知识蒸馏将唇部运动映射为与音频对齐的离散语义token;2) 构建了一个基于TDANet的轻量级编解码分离器,并引入全局-局部注意力(GLA)模块,在每个层内同时建模长程依赖和局部特征,从而实现单次迭代的高质量分离。与现有的SOTA方法(如IIANet)相比,Dolphin在三个基准数据集(LRS2, LRS3, VoxCeleb2)上取得了更好的分离性能(例如,在LRS2上SI-SNRi达到16.8dB,比IIANet高0.8dB),同时参数量减少超过50%,计算量(MACs)降低超过2.4倍,GPU推理速度提升超过6倍。这证明了Dolphin是一个兼顾高性能与高效率的实用解决方案。主要局限性在于模型对相对干净、同步的唇部视频有一定依赖,且在极端资源受限设备上的部署仍需进一步优化。 ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 358 words