Towards Data-free and Training-free Compression for Speech Foundation Models Using Parameter Clustering

📄 Towards Data-free and Training-free Compression for Speech Foundation Models Using Parameter Clustering #模型压缩 #语音识别 #无监督学习 6.4/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.4/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.4/10 | 前50% | #语音识别 | #模型压缩 | #无监督学习 | arxiv 👥 作者与机构 作者:Haoning Xu, Zhaoqing Li, Huimeng Wang, Youjun Chen, Chengxi Deng, Mengzhe Geng, Xunying Liu 机构:1 The Chinese University of Hong Kong, Hong Kong SAR, China; 2 National Research Council Canada, Canada 邮箱:hnxu@se.cuhk.edu.hk, xyliu@se.cuhk.edu.hk ...

2026-06-11 · 更新于 2026-06-12 · 3 min · 478 words

Revisiting Lexicon Evaluation in Unsupervised Word Discovery

📄 Revisiting Lexicon Evaluation in Unsupervised Word Discovery #无监督学习 #语音识别 #低资源 #聚类分析 #数据集 1/10 📝 1/10 | 前25% | #语音识别 | #聚类分析 | #无监督学习 #低资源 | arxiv 👥 作者与机构 作者:Simon Malan, Danel Slabbert, Herman Kamper 机构:斯泰伦博斯大学 (Stellenbosch University) 💡 毒舌点评 这篇论文像一个细致但有些“学院派”的工具评测员。它正确地诊断了NED指标的“偏科”问题——过度关注大聚类的表现,而忽略了词类分布的完整性。提出的两套新指标(WNES/PAcc系列)在理论上更严谨,公式推导清晰。然而,最大的槽点在于:1)代码完全黑箱。在2024年,一篇纯方法论的评估论文不开源任何代码,是严重的减分项。读者如何便捷地使用这些新指标?2)实验说服力一般。合成实验设计巧妙但略显理想化;真实实验仅在一个数据集、有限的几个简单聚类基线上进行。声称“更接近真实分布”是好的,但缺乏在大规模、多样化无监督词发现系统(如端到端模型)上的验证。3)工程价值存疑。WNES的\(O(|k_i|^2)\)复杂度在面对海量发现单元时可能不实用。总体来说,这是一篇问题定位准确、理论推导扎实的“分析工具”论文,但离成为领域标准还有距离,主要短板在于实践层面的验证和开放性。 📌 核心摘要 本文针对无监督词发现任务中最常用的评估指标归一化编辑距离(NED)进行批判性分析。作者指出NED存在两个核心缺陷:1) 基于成对比较导致的聚类大小偏见,使得大聚类的质量对整体评分影响过大;2) 仅评估聚类内部同质性,忽略评估真实词类在聚类中的分布完整性(即完整性)。为此,论文提出了两组新的评估指标:加权归一化编辑相似度(WNES)及其逆指标(iWNES),以及计算更快的音素准确率(PAcc)及其逆指标(iPAcc)。通过合成词表和真实世界词发现系统的实验,证明了这些新指标在鲁棒性、以及与真实词类分布匹配度方面均优于NED与比特率的组合。 🔗 开源详情 代码:未提及 模型权重:未提及 数据集:使用了LibriSpeech dev-clean数据集,但未提供直接下载链接。 Demo:未提及 复现材料:未提及具体的复现脚本或配置文件。论文中描述了实验使用的聚类方法和超参数设置依据。 论文中引用的开源项目:未提供具体链接。提及了K-Means++、图聚类等算法,以及用于获取强制对齐的工具(未指明具体软件)、ZeroSpeech重叠转写方法。 🏗️ 方法概述和架构 本文方法围绕提出新的词表评估指标展开,核心架构分为理论分析、指标设计与聚合、实验验证三部分。 问题分析与指标设计基础: 论文首先定义了评估指标应满足的四个聚类性质(见图1):同质性、完整性、布条袋、大小与质量。并指出现有通用聚类指标(如纯度、v-measure)因依赖类别-单元映射,不适用于语音词发现场景。 详细分析了归一化编辑距离(NED)和比特率(Bitrate)。NED使用ZeroSpeech重叠转录法将单元转为音素序列,在簇内进行成对归一化编辑距离平均,它满足同质性和大小与质量性质,但存在聚类大小偏见:因为采用全局平均,簇大小为\(|k_i|\)的簇贡献\(\binom{|k_i|}{2}\)个距离值,大簇影响不成比例地大。比特率从信息论角度评估紧凑性,间接反映完整性,但不直接测量类别分布。 关键洞察:NED仅评估同质性,比特率不直接评估完整性。需要结合评估同质性的正向指标和评估完整性的逆向指标。 提出的新指标: 正向指标(评估同质性): 加权归一化编辑相似度(WNES):核心是消除NED的大小偏见,使每个单元贡献均等。公式为: \[\text{WNES}=1-\frac{\sum_{i=1}^{|K|}\frac{|k_{i}|}{\binom{|k_{i}|}{2}}\sum_{\{t,t^{\prime}\}\subseteq k_{i}}\text{NED}_{i}(t,t^{\prime})}{\sum_{i=1}^{|K|}|k_{i}|}\] 其中\(\text{NED}_{i}(t,t^{\prime})\)是簇内成对音素序列的归一化编辑距离。公式通过除以\(\binom{|k_i|}{2}\)消除簇大小对成对比较数的直接影响,再乘以\(|k_i|\)进行加权,最终归一化到总单元数。这确保了每个单元在最终得分中权重相等。 音素准确率(PAcc):一种基于错误率的更快替代方案。计算每个单元的转录与其簇模态单元转录\(t^{}\)之间的归一化编辑距离(错误率),然后取平均: \[\text{PAcc}=1-\frac{1}{|S|}\sum_{i=1}^{|K|}\sum_{t\in k_{i}}\frac{\text{Lev}(t,t^{})}{|t^{}|}\] 它自然地使每个单元的影响与簇大小对齐(因为求和遍历所有单元),但仅考虑与模态单元的比较,而非成对比较。 逆向指标(评估完整性): ...

2026-06-05 · 更新于 2026-06-12 · 2 min · 214 words

Read What You Hear: Reference-Free Hypotheses Evaluation with Acoustic Discrepancy

📄 Read What You Hear: Reference-Free Hypotheses Evaluation with Acoustic Discrepancy #语音识别 #语音合成 #自回归模型 #无监督学习 #鲁棒性 #多任务学习 8.6/10 | 创新 1.7/2 | 严谨 1.4/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.5/1.5 🔥 8.6/10 | 前25% | #语音识别 | #多任务学习 | #语音合成 #自回归模型 | arxiv 👥 作者与机构 作者:Zhihan Li, Hankun Wang, Yiwei Guo, Bohan Li, Kai Xie, Yu Chen(论文中作者列表顺序与此不同,但姓名与邮箱可对应) 机构:X-LANCE Lab, School of Computer Science, Shanghai Jiao Tong University, China;MoE Key Lab of Artificial Intelligence, Jiangsu Key Lab of Language Computing, China(合作机构) ...

2026-06-04 · 更新于 2026-06-12 · 1 min · 121 words

SURF: Separation via Unsupervised Remixing Flow

📄 SURF: Separation via Unsupervised Remixing Flow #无监督学习 #生成模型 #自监督学习 6.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.4/10 | 前25% | #无监督学习 | #自监督学习 | #生成模型 | arxiv 👥 作者与机构 作者:Henry Li, Robin Scheibler, Efthymios Tzinis, Matt Shannon, Arnaud Doucet, John R. Hershey。 机构:根据作者信息推断,该研究团队可能来自Google Research(基于论文作者常见背景和提供的demo页面域名)。论文本身未在提供的摘要中明确列出机构。 💡 毒舌点评 这篇论文提出了一个看似诱人的无监督音频分离框架,利用“remixing”和流匹配这两个时下热门概念。理论联系Wake-Sleep算法是不错的尝试。然而,审稿人看到的是:1)实验部分严重“偷懒”,没有在更具挑战性或更通用的大规模音频数据集(如MUSDB18, LibriMix)上提供全面的对比和消融研究,使得“state-of-the-art”的宣称显得底气不足。2)“remixing”步骤严重依赖初始教师模型的质量,论文对此潜在缺陷的讨论轻描淡写。3)开源完全缺席,只有一个demo页面,这极大地阻碍了社区验证和方法的实际应用,对于一篇声称有实际应用价值的工作来说是重大扣分项。总体而言,这是一个想法不错但验证不充分、工程实践价值有限的早期工作。 📌 核心摘要 SURF旨在解决无监督单通道源分离问题,即从观测混合信号中恢复源信号,而无需对应的干净源数据。其核心思想是构建一个“教师-学生”自举学习框架。首先,一个教师模型对混合信号进行初步估计,生成伪干净源。接着,通过一个新颖的“remixing”步骤,将这些估计源重新混合,生成新的“伪混合-伪源”对,用于训练学生流模型。学生模型学习从噪声中生成源信号的分布,其训练目标被设计为最大化观测混合信号的似然,并与流匹配框架相结合。论文从理论上分析了该优化过程,并将其与经典的Wake-Sleep算法联系起来,为无监督生成式分离提供了新的视角。在图像(如CelebA)和音频(如WHDWH)基准上的实验显示,SURF优于其他无监督方法。 ...

2026-06-04 · 更新于 2026-06-12 · 2 min · 282 words

Test-Time Compute Scaling for ASR with Depth-Conditioned Looped Transformers

📄 Test-Time Compute Scaling for ASR with Depth-Conditioned Looped Transformers #语音识别 #无监督学习 #Transformer 7.8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 ✅ 7.8/10 | 前25% | #语音识别 | #Transformer | #无监督学习 | arxiv 👥 作者与机构 论文作者:Yacouba Kaloga, Shashi Kumar, Shakeel A. Sheikh, Driss Khalil, Petr Motlicek, Ina Kodrasi。 机构:Idiap Research Institute (瑞士), EPFL (瑞士), BUT (捷克共和国), Novartis Institute of Biomedical Research (瑞士)。 核心贡献者:Yacouba Kaloga 和 Shashi Kumar 被标注为同等贡献。 ...

2026-06-04 · 更新于 2026-06-12 · 2 min · 282 words

Description and Discussion on DCASE 2026 Challenge Task 2: Noise-aware Unsupervised Anomalous Sound Detection for Machine Condition Monitoring

📄 Description and Discussion on DCASE 2026 Challenge Task 2: Noise-aware Unsupervised Anomalous Sound Detection for Machine Condition Monitoring #无监督学习 7.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.2/10 | 前50% | #无监督学习 | #无监督学习 | arxiv 👥 作者与机构 论文中未明确列出作者及所属机构信息。 💡 毒舌点评 这篇论文是DCASE 2026挑战赛的任务描述,本质上是一份“竞赛规则说明书”。其核心贡献在于定义了一个新的、更具现实意义的UASD问题设置——通过引入双通道音频来显式地处理环境噪声。然而,这种贡献是框架性的,而非方法创新性的。文中提供的基线系统(一个沿用往年的简单AE)毫无新意,甚至可以说是“敷衍”,因为它完全没有利用本次任务最关键的双通道信息,这使得基线结果的参考价值大打折扣。论文对技术细节的描述(如基线系统)较为清晰,但整个任务设计是否真的能推动“噪音鲁棒UASD”的发展,还是仅仅增加了一个数据维度让参赛者去“卷”,这一点有待后续挑战结果来验证。目前来看,它更像是一份高质量的“出题公告”。 📌 核心摘要 本文介绍了DCASE 2026挑战赛任务2:面向机器状态监测的噪音感知无监督异常声音检测(UASD)。该任务旨在解决现有UASD系统在噪音环境下性能不足的问题。与以往任务相比,今年的核心创新在于提供由近场和远场麦克风同步录制的双通道音频。远场信号因包含较弱的目标机器声和较强的环境噪声,可作为噪声参考,用以提升系统的噪音鲁棒性。任务设置包含三个关键特征:1) 无监督学习(仅用正常样本训练);2) 域泛化(需同时检测源域和目标域的异常,且域信息未知);3) “一次性”问题(针对全新机器类型,仅提供一个训练部分,无手动调优)。论文提供了基于自编码器(AE)的基线系统及其在开发数据集上的性能,但该基线未使用第二通道。最终官方评分Ω为所有机器类型、部分和域上的AUC与pAUC的调和平均值。 🔗 开源详情 代码:论文中未提及代码链接。论文描述了挑战赛的基线系统架构(基于自编码器),但未提供该基线代码或任何其他相关代码的仓库链接(如GitHub)。 模型权重:论文中未提及。论文未提供任何预训练模型权重的下载链接(如HuggingFace、ModelScope)。 数据集:论文中未提及具体获取链接。论文详细描述了DCASE 2026 Challenge Task 2的数据集(包括开发数据集、附加训练数据集和评估数据集)的结构、内容和制作方法,但未给出数据集的具体下载URL。数据集预计需要通过DCASE Challenge的官方渠道获取。 Demo:论文中未提及。 复现材料:论文中未提及。论文未提供训练配置文件、模型检查点或详细复现步骤的链接或说明。 论文中引用的开源项目:未提及具体项目链接。论文引用了DCASE Challenge Task 2的历史版本(2020 [10], 2021/2022 [6, 2], 2023-2025 [1, 11]),但未给出这些任务对应的官方页面或数据集的直接URL。此外,论文引用的参考文献列表(如[7, 4, 8, 5, 9, 14, 13])中可能包含相关开源工作,但未在正文中具体说明。 🏗️ 方法概述和架构 论文本身未提出新的检测方法,而是定义了任务框架,并给出了一个沿用往年的基线系统。因此,“方法概述”将详细描述此基线系统的具体架构与流程。 ...

2026-06-02 · 更新于 2026-06-12 · 2 min · 331 words

Archon: A Unified Multimodal Model for Holistic Digital Human Generation

📄 Archon: A Unified Multimodal Model for Holistic Digital Human Generation #多模态模型 #扩散模型 #无监督学习 #生成对抗网络 #数据增强 #语音识别 ✅ 7.5/10 | 前50% | #语音合成 | #生成对抗网络 | #多模态模型 #扩散模型 | arxiv 学术质量 5.5/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度 中 👥 作者与机构 论文作者: Chong Bao, Shichen Liu, Lijun Yu, David Futschik, Stylianos Moschoglou, Shefali Srivastava, Ziqian Bai, Feitong Tan, Guofeng Zhang, Zhaopeng Cui, Sean Fanello, Yinda Zhang 发表场合/期刊: arXiv: 2605.30311 研究领域: 计算机视觉、多模态学习、数字人生成 💡 毒舌点评 这篇论文的野心足以撑爆一个顶会,试图用一个模型吞下数字人的所有模态——文本、语音、动画、视频。架构图和“模态思维”的概念确实画了一张好饼,让人眼前一亮。然而,现实很骨感。最硬的伤在可复现性:核心组件依赖闭源的PaLM2和未公开的海量私有数据集,这对于绝大多数研究者而言意味着“看得到,摸不着”。其次,实验评估严重偏科,号称支持72个任务,但主要定量评估只集中在语音驱动视频生成这一两个任务上,其他几十个任务的能力更像是“口头支票”。那个听起来高大上的“模态思维”策略,本质上是一种推理时的链式分解,却缺乏理论解释其为何有效,更像是一种工程上的trick。总体而言,这是一篇方向正确、架构有想法的系统论文,但其科学贡献被工程壁垒和不充分的验证所削弱,难以被认定为一个扎实的里程碑工作。 ...

2026-05-29 · 更新于 2026-06-12 · 2 min · 344 words

Test-Time Self-Adaptive Conditioning for Stable Audio-Driven Talking-Head Generation

📄 Test-Time Self-Adaptive Conditioning for Stable Audio-Driven Talking-Head Generation #语音合成 #生成对抗网络 #测试时自适应 #多模态模型 #无监督学习 ✅ 7.7/10 | 前50% | #语音合成 | #生成对抗网络 | #测试时自适应 #多模态模型 | arxiv 学术质量 4.9/7 | 影响力 1.2/2 | 可复现性 1.6/2 | 置信度 中 👥 作者与机构 第一作者:张之成(Zhicheng Zhang),新南威尔士大学(UNSW)商学院博士生。 第二作者:王磊(Lei Wang),格里菲斯大学工程与建筑环境学院研究员,TIME实验室负责人。 第三作者:张宇(Yu Zhang),新南威尔士大学商学院讲师。 第四作者:高尚生(Yongsheng Gao),格里菲斯大学工程与建筑环境学院教授,ARC研究中心主任。 合著贡献声明:†表示共同第一作者,贡献相等。 💡 毒舌点评 这篇论文解决的问题是明确的:预训练的音频驱动说话头生成模型,因其静态的参考图条件在动态生成过程中会导致身份漂移和时序不一致。作者提出的TT-SAC(测试时自适应条件化)框架,通过一个无需训练的“生成器-编码器”反馈循环来在推理时动态调整条件表示,想法简单直观,且具有不错的即插即用潜力。理论部分试图将这种简单的特征平均操作解释为一种随机定点迭代和偏差-方差权衡,增加了形式化深度。实验覆盖面很广,在五个主流模型和三个数据集上都验证了有效性。 但是,本文的核心问题在于其“贡献”的定位与实际内容的匹配度。作为一篇被投递至NeurIPS/ICML/ICLR级别的顶会,其创新性可能稍显不足。所谓的“测试时自适应”在本次更新中,本质上是将第一遍生成的部分帧(通常是早期帧)的编码特征进行平均,然后用这个平均特征作为第二遍生成的条件。这听起来更像是一个精心设计的、针对特定问题的“推理时增强”或“后处理”技巧,而非一种全新的“适应范式”。理论分析部分虽然严谨,但更像是对已知统计现象(如蒙特卡洛方差缩减、定点迭代)在特定场景下的应用和解释,而非源于对问题本质的突破性洞察。实验中提升最显著的往往是“身份保持”和“感知质量”指标,而“唇音同步”(Sync-C/D)的提升幅度在不同模型上很不一致,有时甚至会下降,这说明该方法对“稳定性”的提升可能以牺牲部分生成动态性为代价。作者声称“模型无关”,但实际效果高度依赖于所应用模型的编码器质量和特征空间的结构。总体而言,这是一篇扎实的、解决实际问题的工程性论文,但距离顶级会议所期望的“重大理论或方法突破”还有距离。 📌 核心摘要 本文针对音频驱动说话头生成中,静态参考图条件导致的身份漂移和时序不一致问题,提出了测试时自适应条件化(TT-SAC)框架。该框架是一个无需训练的推理时优化方法,通过构建“生成器-编码器”反馈循环,将预训练生成器自身产生的初始视频帧重新编码,提取并聚合身份特征,形成一个更自洽的条件表示,用于第二次生成过程。该过程被形式化为一个随机定点迭代,旨在找到生成器-编码器算子的不动点,从而稳定身份和运动。理论分析表明,通过帧特征平均可以减少特征方差,但存在由时序非平稳性引入的偏差-方差权衡。在多个数据集和预训练模型上的实验表明,TT-SAC在大多数情况下能提升唇音同步、时序平滑度、身份保持和感知质量。 🔗 开源详情 代码:提供了GitHub仓库链接(https://github.com/zhangzheng2324/TT-SAC)。 模型权重:论文中未提及是否开源模型权重。 数据集:评估使用了三个公开数据集(Hallo, RAVDESS, CelebV-HQ),但论文未提供具体获取链接或开源协议。 Demo:论文中未提及在线演示。 复现材料:论文提供了算法伪代码(附录)和详细的实验设置描述(片段数量、时长、预处理步骤),但未提供单独的训练/测试配置文件、检查点或可直接下载的复现材料包。 论文中引用的开源项目:论文提到使用了AniTalker, FLOAT, Sonic, SadTalker, JoyVASA, OmniAvatar, SyncNet等项目进行对比或泛化实验,但未在论文中提供它们的代码链接。 🏗️ 方法概述和架构 TT-SAC是一个两阶段、无需训练的推理时优化框架,旨在解决静态条件特征 $ \mathbf{f}_r $ 与动态生成视频序列之间的不匹配问题。其核心思想是利用生成器自身的输出来迭代优化条件特征,使其与生成序列的统计特性自洽。 ...

2026-05-27 · 更新于 2026-06-12 · 4 min · 833 words

Anisotropic Modality Align

📄 Anisotropic Modality Align #跨模态 #几何分析 #对比学习 #预训练 #无监督学习 ✅ 7.5/10 | #跨模态 #几何分析 | arxiv 👥 作者与机构 第一作者:未说明(论文标题页首位作者为 Xiaomin Yu,但未明确标注“第一作者”) 通讯作者:Yue Song, Xiaobin Hu, Chengwei Qin(论文中明确标注“correspondence”) 作者列表:Xiaomin Yu (1, 2, 3, 4, 5), Yijiang Li (1), Yuhui Zhang (1), Hanzhen Zhao (1), Yue Yang (1), Hao Tang (1), Yue Song (6), Xiaobin Hu (1), Chengwei Qin (1), Shuicheng Yan (1, 5), Hui Xiong (1)。其中机构编号对应:1]HKUST(GZ), 2]NUS, 3]UCSD, 4]Stanford, 5]PKU, 6]THU(具体实验室或部门未说明)。 💡 毒舌点评 论文对“模态间隙”这一经验现象进行了非常细致且深刻的几何再分析,其“各向异性残差结构”的洞察超越了简单的质心偏移或全局统计匹配,为无监督对齐提供了坚实的理论动机。然而,方法实现过于繁复(涉及两阶段训练、周期先验、多变量有界校正),其复杂性是否必要,以及在缺乏大量计算资源和调参技巧下能否稳定复现,值得怀疑;同时,所有实验均依赖于一个固定的预训练编码器(LLM2CLIP),这严重限制了结论的普适性。 ...

2026-05-11 · 更新于 2026-06-12 · 3 min · 585 words

Transformer-based End-to-End Control Filter Generation for Active Noise Control

📄 Transformer-based End-to-End Control Filter Generation for Active Noise Control #主动噪声控制 #Transformer #无监督学习 #实时处理 #模型比较 ✅ 7.0/10 | 前25% | #主动噪声控制 | #Transformer | #无监督学习 #实时处理 | arxiv 学术质量 6.2/7 | 选题价值 1.3/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Ziyi Yang(论文未说明其具体所属机构) 通讯作者:未说明 作者列表:Ziyi Yang(未说明)、Zhengding Luo(未说明)、Yisong Zou(未说明)、Boxiang Wang(未说明)、Qirui Huang(未说明)、Woon-Seng Gan(未说明) 💡 毒舌点评 这篇论文的核心工作是将Transformer“嫁接”到了固定滤波器主动噪声控制的框架中,并且通过巧妙的端到端可微设计,绕开了监督学习需要“标签”的难题,在真实噪声上取得了不错的改进,思路清晰,实验扎实。不过,模型参数量和计算量相比基线方法(CNN)显著增加,这对于追求低延迟、低功耗的嵌入式ANC设备来说是个不小的挑战,论文对此权衡的讨论略显不足,且未提供任何开源代码。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集:论文中提及了训练和测试所用数据集的具体描述(83,977个合成带限噪声样本,用于测试的真实噪声类型包括飞机、压缩机等),但未提供公开下载链接或开源协议。 Demo:论文中未提及Demo链接。 复现材料:论文中提供了详细的训练配置、超参数、模型架构及评估结果,具体信息如下,但未提供额外的检查点文件或附录文档链接。 数据集:83,977个1秒时长、13kHz采样率的合成带限噪声(覆盖20-1900 Hz)。划分:79,977训练样本,2,000验证样本,2,000测试样本。训练时在参考信号上添加了SNR 10dB的高斯噪声。测试用到真实噪声和合成噪声。 声学路径:使用一个覆盖10-3000 Hz的合成声学路径,训练和测试中保持一致。 模型配置: 输入帧长度 L=13,000 样本,控制滤波器长度 N=512。 Conv1d前端:1输入通道,256输出通道,卷积核64,步长4,填充30;后接BatchNorm、ReLU、最大池化(步长4)。 Transformer编码器:d_model=256,8个注意力头,1层编码器,前馈维度1024,dropout 0.1,使用Pre-Norm。 输出头:Linear(256->512),ReLU,Dropout(0.1),Linear(512->512)。 总可训练参数:1,201,152。 训练超参数:优化器Adam,权重衰减10⁻⁴,初始学习率5×10⁻⁴,批大小128,训练40轮。使用StepLR调度器(步长5,衰减因子0.5)。 评估指标:噪声降低(NR)分贝数。每个测试噪声运行5秒,在最后1秒计算NR,报告平均NR。 基线模型:FxNLMS(滤波器长度512,步长0.001);GFANC(CNN co-processor,参数211,215,详见论文)。 论文中引用的开源项目:未提及。 补充信息 [模型架构] 补充:论文明确指出,Transformer编码器采用Pre-Norm(预归一化)设计。这是影响训练稳定性的关键设计选择,但未在分析中强调。同时,分析中提到输入帧L=13,000采样点,但未点明这对应于约1秒的音频(采样率13kHz),这是理解系统实时性的关键。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 316 words