MusicDET: Zero-Shot AI-Generated Music Detection

📄 MusicDET: Zero-Shot AI-Generated Music Detection #音频深度伪造检测 #标准化流 #零样本学习 #时频分析 #音乐信息检索 #异常检测 ✅ 7.4/10 | 前25% | #音频深度伪造检测 | #标准化流 | #零样本学习 #时频分析 | arxiv 学术质量 5.9/8 | 影响力 0.7/1 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Chaolei Han 通讯作者:未说明 作者列表:Chaolei Han(未说明所属机构)、Hongsong Wang(未说明所属机构)、Jie Gui(未说明所属机构) 💡 毒舌点评 亮点:首次明确将AI生成音乐检测问题形式化为严格的“零样本”设置,这一设定比传统的闭集或跨生成器评估更贴近实际挑战。所提出的“频率引导的标准化流”框架,将领域知识(音乐信号的频率异质性)与概率生成建模巧妙结合,通过分层结构(频带流+全局流)提升了建模能力。实验设计非常全面,不仅在两个主流基准(FakeMusicCaps, SONICS)上进行了跨生成器评估,还额外在子域泛化、任务迁移和鲁棒性测试上进行了深入分析。 短板:方法的核心假设——真实音乐的潜在分布可用一个简单高斯先验 N(μ_real, I) 建模——对于高度复杂、多模态的音乐数据而言显得过于理想化。论文未与更强大的单类分类/异常检测基线(如基于预训练特征的Deep SVDD、能量模型)进行公平对比,这在一定程度上削弱了方法新颖性和优越性的论证力度。此外,鲁棒性实验显示性能在常见音频处理下急剧下降,作者对此的解释(“强干扰”)略显简单,缺乏对根本原因的深入分析或可行的缓解思路。 📌 核心摘要 问题:现有AI生成音乐(AIGM)检测器大多为特定生成器设计,依赖其生成的样本进行训练,因此在面对未见过的生成器时性能严重下降,限制了实际部署。 核心方法:提出MusicDET,一个零样本检测框架。其核心思想是将AIGM检测定义为对“真实音乐”分布的离群点检测。训练时仅使用真实音乐。方法首先将音频波形转换为能量谱图,通过卷积网络提取特征;然后通过频率分解模块将特征沿频率轴切分为多个子带;每个子带由独立的标准化流(Normalizing Flows)建模其局部统计特性;最后将各子带的潜在表示拼接,输入全局标准化流学习真实音乐的联合概率分布。检测时,计算输入样本在该分布下的似然分数,低似然样本被判定为AI生成。 主要结果:在FakeMusicCaps数据集的跨生成器评估中,零样本MusicDET的平均等错误率(EER)为4.51%,显著优于最佳基线W2V2-AASIST†(11.46%)。在SONICS数据集上,平均EER为2.89%,接近监督的SpecTTTra-β(4.02%)。类条件版本性能进一步提升(FakeMusicCaps: 0.89%, SONICS: 0.00%)。 实际意义:提出了一种生成器无关的、仅依赖真实音乐训练的检测范式,为应对快速迭代的生成模型提供了更实用的解决方案,对版权保护和内容审核具有价值。 主要局限:模型对音频后期处理(如变调、加噪、有损压缩)非常敏感,在这些干扰下性能会急剧恶化(例如,EER可超过40%)。 🔗 开源详情 代码:https://github.com/Chaolei98/MusicDET 模型权重:论文中未提及模型权重下载链接 数据集: FakeMusicCaps (Comanducci et al., 2025):论文中未提供具体下载链接。 SONICS (Rahman et al., 2025):论文中未提供具体下载链接。 ASVspoof 2019 LA (Todisco et al., 2019):公开基准数据集,论文中未提供具体下载链接。 CtrSVDD (Zang et al., 2024):公开基准数据集,论文中未提供具体下载链接。 FMA-medium (Defferrard et al., 2017):用于附录A.2的实验,论文中未提供具体下载链接。 Demo:论文中未提及 复现材料:论文中未提供训练好的模型检查点文件或专门的复现指南文档。具体的超参数和训练设置见正文,例如:音频预处理参数(16kHz采样,4秒长度,STFT参数n_fft=512, hop_length=160, win_length=512),模型结构(频段数=2,流步数K=2),先验均值(μ_real=5, μ_fake=-5),优化器(Adam,初始学习率5e-4),训练轮数(10 epochs),以及使用的数据增强(SpecAugment)。 🏗️ 方法概述和架构 本文提出MusicDET,一个基于概率密度估计的零样本AI生成音乐检测框架。其核心思想是:将AI生成的音乐视为相对于“真实音乐”分布的一种异常或离群点,因此可以通过仅建模真实音乐的概率分布来进行检测。 ...

2026-05-19 · 更新于 2026-05-19 · 3 min · 556 words

Quantum Kernels for Audio Deepfake Detection Using Spectrogram Patch Features

📄 Quantum Kernels for Audio Deepfake Detection Using Spectrogram Patch Features #音频深度伪造检测 #量子内核 #时频分析 #低资源 #音频安全 ✅ 6.5/10 | 前50% | #音频深度伪造检测 | #量子内核 | #时频分析 #低资源 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Lisan Al Amin(论文原文上标“1”指示其所属机构) 通讯作者:未说明 作者列表:Lisan Al Amin^1, Rakib Hossain^1, Mahbubul Islam^2, Faisal Quader^3, Thanh Thi Nguyen^4^5 注意:原文中作者姓名后附有上标数字(如^1, ^2等),通常对应于文末或首页脚注的机构列表,表明每位作者的所属单位。但所提供的论文原文片段未包含具体的机构列表,因此无法明确各作者的具体机构信息。 💡 毒舌点评 本文提出了一种将量子内核与音频频谱图的局部时频补丁结构相结合的新颖框架,其设计动机清晰,且为在NISQ时代构建硬件高效的量子电路提供了务实的思路。然而,其核心论证建立在一个规模极小(仅100个样本)、伪造生成方式极为简单(高斯噪声与频谱失真)且完全基于理想模拟的受控实验之上。这使得其声称的性能提升和实用价值显得非常初步,更像一个在严格控制条件下的概念验证,距离解决真实世界音频伪造检测的复杂性和鲁棒性挑战还非常遥远。 📌 核心摘要 解决的问题:现有的音频深度伪造检测方法常将频谱图视为通用图像,忽略了其独特的时间-频率结构。此外,在数据有限、新攻击频发的低资源场景下,现有检测器的泛化能力面临挑战。 方法核心:提出了Q-Patch框架。该方法首先从音频生成对数梅尔频谱图,然后将其划分为4×4的非重叠“补丁”,每个补丁被压缩为一个四维声学描述向量(平均激活、频谱质心、带宽、帧间相干性)。基于能量(平均激活)选择最显著的两个补丁,其8维特征被直接用作量子电路的旋转角度,通过一个浅层(深度≤3)、具有邻域纠缠的量子电路编码为量子态。最终,通过计算量子态的保真度作为量子内核,输入到量子支持向量机(QSVM)中进行分类。 与已有方法相比新在哪里: 表示层面:首次为量子内核学习设计了明确针对音频频谱图时间-频率结构的“补丁”表示,而非将其视为通用图像。 量子电路层面:设计了轻量级、硬件高效的量子特征映射,限制了量子比特数(8个)和电路深度(≤3层),并引入了模拟空间邻接性的纠缠结构,更适合近期的NISQ设备。 框架层面:提出了一种在低资源音频安全任务中应用量子内核的端到端框架,并系统地与规模匹配的基线进行对比分析。 主要实验结果:在从LJ Speech数据集构建的100个样本的平衡子集(训练集80个样本,开发集20个样本)上,Q-Patch在开发集取得了0.87的AUROC和14.8%的EER,优于使用相同补丁特征的RBF-SVM(0.82 AUROC, 18.2% EER)和一个参数量≤100k(具体为98.4k)的微型CNN(0.85 AUROC, 16.3% EER)。内核分析显示,同类样本间相似度(约0.62-0.68)高于跨类相似度(约0.61-0.62),表明量子内核能捕捉与真实/伪造相关的结构。 方法 AUROC EER (%) 复杂度 RBF-SVM 0.82 18.2 支持向量机 Tiny CNN 0.85 16.3 98.4K参数 Q-Patch 0.87 14.8 8量子比特 图4展示了开发集上量子内核的相似度矩阵。图中样本按类别排序,可见同一类别内(对角线附近块)颜色更亮(相似度更高),不同类别间颜色较暗(相似度更低),直观证实了量子内核能诱导出与真实/伪造类别一致的相似性结构。 ...

2026-05-08 · 更新于 2026-05-19 · 2 min · 399 words

Hearing the Ocean: Bio-inspired Gammatone-CNN framework for Robust Underwater Acoustic Target Classification

📄 Hearing the Ocean: Bio-inspired Gammatone-CNN framework for Robust Underwater Acoustic Target Classification #音频分类 #信号处理 #时频分析 #实时处理 #水下声学 ✅ 7.5/10 | 前25% | #音频分类 | #信号处理 | #时频分析 #实时处理 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Rajeshwar Tripathi (Central Research Laboratory, Bharat Electronics Limited, Ghaziabad, India) 通讯作者:未说明 作者列表:Rajeshwar Tripathi (Central Research Laboratory, Bharat Electronics Limited, Ghaziabad, India)、Sandeep Kumar (Central Research Laboratory, Bharat Electronics Limited, Ghaziabad, India)、Monika Aggarwal (Centre for Applied Research in Electronics (CARE), IIT Delhi, India)、Neel Kanth Kundu (Centre for Applied Research in Electronics (CARE), IIT Delhi, India) 💡 毒舌点评 亮点:论文清晰地论证并验证了“信号表示质量是决定性能上限的关键”这一观点,其生物启发的Gammatone前端在保持极低计算开销(0.77ms延迟)的前提下,显著优于传统线性和多分辨率特征,为资源受限的边缘声纳部署提供了切实可行的方案。短板:创新性更多体现在技术整合与领域迁移,而非Gammatone滤波器本身的原理突破;虽然在VTUAD数据集上表现优异,但验证仅限于单一公开数据集,其泛化能力至更复杂的真实海洋环境仍需更多证据。 ...

2026-05-07 · 更新于 2026-05-19 · 2 min · 341 words

Learnable Fractional Superlets with a Spectro-Temporal Emotion Encoder for Speech Emotion Recognition

📄 Learnable Fractional Superlets with a Spectro-Temporal Emotion Encoder for Speech Emotion Recognition #语音情感识别 #时频分析 #端到端 🔥 8.0/10 | 前25% | #语音情感识别 | #时频分析 | #端到端 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Alaa Nfissi(数据科学实验室(DOT-Lab), Université TÉLUQ;康考迪亚大学信息系统工程学院(Concordia Institute for Information Systems Engineering)) 通讯作者:未明确说明 作者列表:Alaa Nfissi(数据科学实验室(DOT-Lab), Université TÉLUQ;康考迪亚大学信息系统工程学院)、Wassim Bouachir(数据科学实验室(DOT-Lab), Université TÉLUQ)、Nizar Bouguila(康考迪亚大学信息系统工程学院)、Brian Mishara(魁北克大学蒙特利尔分校心理学系;蒙特利尔自杀、伦理问题及临终实践研究与干预中心) 💡 毒舌点评 这篇论文的亮点在于它不满足于简单地使用或微调现有前端,而是试图从数学原理上重新定义一个更灵活、可学习的时频分析框架(LFST),体现了扎实的信号处理功底和理论建模能力。然而,其主要短板在于计算效率:论文附录的复杂度分析显示,LFST+STEE在FLOPs、延迟和内存占用上远超STFT、LEAF等基线,这使得“紧凑”的STEE编码器所节省的参数优势在端到端系统中可能被前端的计算成本抵消,削弱了其实用吸引力。 🔗 开源详情 代码:论文中明确提供了GitHub代码仓库链接:https://github.com/alaaNfissi/LFST-for-SER。 模型权重:论文中未提及公开的模型权重。 数据集:NSPL-CRISE为私有数据集(经IRB批准使用),论文中未提及公开获取方式。IEMOCAP和EMO-DB为公开数据集,论文中提供了引用。 Demo:论文中未提及在线演示。 复现材料:论文提供了详尽的超参数设置(Table 8)、训练细节(Section 4.2)、算法伪代码(Algorithm 1-3)和技术附录,为复现提供了充分信息。 论文中引用的开源项目:论文未明确提及依赖的外部开源工具或模型(除作为基线对比的方法外)。 📌 核心摘要 要解决什么问题:传统语音情感识别(SER)的前端(如STFT、小波变换)存在固定的时间-频率(TF)分辨率权衡,且参数需人工调优,无法自适应任务需求。已有超小波变换(Superlet)局限于整数阶,存在阶跃伪影。 方法核心:提出可学习分数阶超小波变换(LFST)作为全可微的前端。LFST通过学习每个频带上的分数阶阶数(通过对数域几何平均实现)、单调对数频率网格和频率依赖的基频周期,生成TF幅度图S和相位一致性图κ。结合一个可学习非对称硬阈值(LAHT)模块对S去噪。之后,设计了紧凑的频谱时序情感编码器(STEE),利用深度可分离卷积、混合TF块、自适应FiLM门控和轴向自注意力处理S和κ,输出情感分类。 新在哪里:相比固定前端或先前非可学习的超小波,LFST首次将超小波的阶数、频率网格和周期全部设为可学习参数,并进行了端到端训练。同时,引入了物理意义明确的相位一致性κ通道和LAHT去噪模块,形成了一个理论完备、可数据驱动的TF表示学习框架。 主要实验结果:在IEMOCAP(4类)上,准确率87.5%,F1值86.8%;在EMO-DB(7类)上,准确率91.4%,F1值90.4%;在NSPL-CRISE(5类,电话语音)上,准确率76.9%,F1值76.6%。在与相同STEE编码器下的STFT、小波、固定超小波、LEAF前端对比中,LFST在三个数据集上均取得最佳性能。关键消融显示,在NSPL-CRISE上,移除κ导致F1下降9.7个百分点,移除LAHT下降2.5个百分点。 实际意义:为语音及音频分析提供了一种可学习、可解释、数学基础扎实的TF表示学习前端,可替代传统固定设计,并可能应用于其他需要精细时频分析的场景。 主要局限性:系统计算成本较高,LFST前端的FLOPs和内存占用远高于STFT等轻量级前端,限制了部署。此外,研究未在更大规模、更多语言的数据集上验证,也未与强大的预训练SSL模型进行直接性能对比。 🏗️ 模型架构 整个系统(LFST+STEE)处理流程为:原始波形 → LFST前端 → 两通道TF图(幅度S, 相位一致性κ) → STEE编码器 → 情感类别。所有组件端到端可训练。 ...

2026-05-04 · 更新于 2026-05-19 · 2 min · 402 words

Query-Guided Spatial–Temporal–Frequency Interaction for Music Audio–Visual Question Answering

📄 Query-Guided Spatial–Temporal–Frequency Interaction for Music Audio–Visual Question Answering #音频问答 #多模态模型 #音视频 #时频分析 🔥 8.0/10 | 前25% | #音频问答 | #多模态模型 | #音视频 #时频分析 学术质量 7.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Kun Li(University of Twente;IT University of Copenhagen) 通讯作者:Sami Sebastian Brandt(IT University of Copenhagen) 作者列表:Kun Li(University of Twente, IT University of Copenhagen)、Michael Ying Yang(University of Bath)、Sami Sebastian Brandt(IT University of Copenhagen) 💡 毒舌点评 这篇论文的亮点在于它为音乐音视频问答(AVQA)设计了一个从问题引导到最终预测的端到端框架,并创新性地将音频的频率域特征作为一等公民纳入时空交互中,有效解决了视觉线索微弱时(如演奏者动作不明显)的识别难题,消融实验也扎实地证明了各模块的必要性。然而,其主要短板在于提出的框架相对复杂,引入了多个预训练编码器(CLIP, VGGish, AST),整体计算开销和模型复杂度可能限制其在资源受限场景的应用,且实验主要集中在音乐场景这一相对小众的benchmark上。 ...

2026-05-04 · 更新于 2026-05-19 · 2 min · 244 words

SCRAPL: Scattering Transform with Random Paths for Machine Learning

📄 SCRAPL: Scattering Transform with Random Paths for Machine Learning #音频生成 #时频分析 #损失函数 #优化算法 🔥 8.5/10 | 前25% | #音频生成 | #时频分析 | #损失函数 #优化算法 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 +0.8 | 置信度 高 👥 作者与机构 第一作者:Christopher Mitcheltree (伦敦玛丽女王大学数字音乐中心) 通讯作者:未明确指定。根据作者列表和惯例,通常为最后作者或通讯作者列表,论文中为Vincent Lostanlen (Nantes Université, LS2N) 和 Mathieu Lagrange (Nantes Université, LS2N)。 作者列表:Christopher Mitcheltree(伦敦玛丽女王大学数字音乐中心)、Vincent Lostanlen(Nantes Université, LS2N)、Emmanouil Benetos(伦敦玛丽女王大学数字音乐中心)、Mathieu Lagrange(Nantes Université, LS2N) 💡 毒舌点评 亮点:论文精准地解决了“感知损失函数计算太贵”这一工程痛点,通过巧妙的随机采样与优化技巧,在速度和精度之间找到了一个令人满意的平衡点,使得JTFS这类优质但昂贵的损失函数能够真正用于模型训练。 短板:方法对散射路径的采样策略(尤其是低频路径)较为粗放,在TR-808实验中表现出对音频衰减部分建模能力的显著下降,暗示其对长尾、稀疏信息路径的处理策略有待进一步优化。 🔗 开源详情 代码:论文明确指出代码、音频样本和配置文件已发布,并提供了Python包SCRAPL。链接为:https://christhetree.github.io/scrapl/。 模型权重:论文中未提及公开预训练模型权重。 数据集:TR-808任务使用了公开数据集(Samples from Mars TR-808),但论文未提供其独立下载链接。颗粒和啁啾合成器的数据由合成器程序动态生成。 Demo:提供了配套网站展示音频样本:https://christhetree.github.io/scrapl/。 复现材料:提供了完整的训练细节、超参数(附录E)、配置文件和复现说明。 引用的开源项目:论文未明确列出依赖的开源工具/模型库,但代码实现可能依赖PyTorch、nnAudio(CQT工具)等。 📌 核心摘要 这篇论文针对小波散射变换(尤其是联合时频散射变换,JTFS)作为神经网络损失函数时计算成本过高的问题,提出了SCRAPL(Scattering with Random Paths for Learning)。其核心思想是通过在每个训练步骤中随机采样少量(通常为一个)散射路径来近似全路径损失的梯度,从而将计算复杂度从与路径数P成正比降低到常数级。为稳定这一随机近似过程,作者提出了三项技术创新:1)路径自适应矩估计(P-Adam);2)路径随机平均梯度加速法(P-SAGA);3)基于合成器参数敏感性的θ-重要性采样(θ-IS)初始化策略。实验在三个无监督声音匹配任务(颗粒合成器、啁啾合成器、Roland TR-808鼓机)上进行。在颗粒合成任务中,SCRAPL在参数估计误差上仅比全路径JTFS高约1.5倍(65.7‰ vs. 42.4‰),但计算成本降低了约25倍(89.8ms vs. 1730ms),达到了帕累托最优(见图1)。在更复杂的TR-808鼓机匹配中,SCRAPL能稳定地保持声音的瞬态特征,即使在输入音频未对齐(meso设置)时也优于多尺度谱损失(MSS)。本文的主要贡献在于提供了一个实用且开源的框架,使得具有感知保证的散射变换损失能高效地应用于音频生成模型的训练,其局限性在于对部分音频特征(如衰减)的采样代表性不足。 ...

2026-05-04 · 更新于 2026-05-19 · 3 min · 516 words

Learnable Fractional Superlets with a Spectro-Temporal Emotion Encoder for Speech Emotion Recognition

📄 Learnable Fractional Superlets with a Spectro-Temporal Emotion Encoder for Speech Emotion Recognition #语音情感识别 #时频分析 #端到端 #音频分类 ✅ 7.5/10 | 前25% | #语音情感识别 | #时频分析 | #端到端 #音频分类 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Alaa Nfissi (Concordia University, Concordia Institute for Information Systems Engineering; Université TÉLUQ, Data Science Laboratory (DOT-Lab)) 通讯作者:Brian L. Mishara (University of Québec at Montréal, Psychology Department; Center for Research and Intervention on Suicide, Ethical Issues and End-of-Life Practices)(根据作者列表顺序及机构性质推断) 作者列表:Alaa Nfissi(Concordia University, Université TÉLUQ)、Wassim Bouachir(Université TÉLUQ, Data Science Laboratory (DOT-Lab))、Nizar Bouguila(Concordia University, Concordia Institute for Information Systems Engineering)、Brian L. Mishara(University of Québec at Montréal, Psychology Department; Center for Research and Intervention on Suicide, Ethical Issues and End-of-Life Practices) 💡 毒舌点评 这篇论文将经典的信号处理理论(Superlet)与现代可微学习框架结合得堪称教科书级别,数学推导和实验设计都非常严谨扎实,特别是那张展示学习到的分数阶分布与频率关系的可视化图(图5)非常直观地展示了模型的“可解释性”。但其短板在于,以“紧凑”为名的STEE编码器在搭配LFST前端后,实际计算开销(FLOPs、延迟、显存)远高于STFT、LEAF等基线(见附录表5),这使得“高效”二字在实时或资源受限场景下需要打上问号,论文在“效率-性能”权衡的讨论上稍显不足。 ...

2026-05-02 · 更新于 2026-05-19 · 2 min · 329 words

Query-Guided Spatial–Temporal–Frequency Interaction for Music Audio–Visual Question Answering

📄 Query-Guided Spatial–Temporal–Frequency Interaction for Music Audio–Visual Question Answering #音频问答 #多模态模型 #时频分析 #跨模态 ✅ 7.0/10 | 前25% | #音频问答 | #多模态模型 | #时频分析 #跨模态 学术质量 6.0/7 | 选题价值 0.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Kun Li (University of Twente, Netherlands; 工作完成于 IT University of Copenhagen, Denmark) 通讯作者:Sami Sebastian Brandt (IT University of Copenhagen, Denmark) 作者列表:Kun Li(University of Twente, IT University of Copenhagen)、Michael Ying Yang(University of Bath)、Sami Sebastian Brandt(IT University of Copenhagen) 💡 毒舌点评 亮点:本文最大的优点在于“系统性”和“针对性”——它没有孤立地提出一个模块,而是构建了一个从早期查询引导到中期时空频交互、再到后期上下文推理的完整流水线,并且为每个阶段都找到了扎实的动机(例如,用频率特征解决视觉模糊问题)。短板:尽管在总分上超越了前作,但在Visual QA(特别是位置相关问题)子任务上仍略逊于使用了对象检测器等先验知识的方法(如QA-TIGER),这暗示其“纯频率视角”在需要精细空间推理的场景中可能存在天花板,创新性更多体现在对已知技术的巧妙整合与优化上。 ...

2026-05-02 · 更新于 2026-05-19 · 2 min · 286 words

SCRAPL: Scattering Transform with Random Paths for Machine Learning

📄 SCRAPL: Scattering Transform with Random Paths for Machine Learning #音频生成 #信号处理 #时频分析 🔥 8.5/10 | 前25% | #音频生成 | #信号处理 | #时频分析 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Christopher Mitcheltree(Queen Mary University of London, Centre for Digital Music) 通讯作者:未说明(从邮箱推测可能与通讯作者单位一致,但未在文中明确标注) 作者列表:Christopher Mitcheltree(Queen Mary University of London, Centre for Digital Music)、Vincent Lostanlen(Nantes Université, LS2N)、Emmanouil Benetos(Queen Mary University of London, Centre for Digital Music)、Mathieu Lagrange(Nantes Université, LS2N) 💡 毒舌点评 亮点:本文提出SCRAPL算法,巧妙地利用散射变换的树状结构,通过随机路径采样和定制化优化器(P-Adam, P-SAGA),将计算成本高昂的全树散射变换损失,成功转化为一种高效且无偏的随机近似,为在大规模神经网络训练中使用复杂感知损失扫清了障碍。 短板:该方法本质上是一种采样近似,在最终精度上(如表1所示)依然无法超越计算成本高得多的全树散射变换(JTFS),且在处理信号衰减部分(如表9所示)时表现不佳,表明其对稀疏低频路径的捕捉能力有待加强。 ...

2026-05-02 · 更新于 2026-05-19 · 3 min · 487 words

Earable Platform with Integrated Simultaneous EEG Sensing and Auditory Stimulation

📄 Earable Platform with Integrated Simultaneous EEG Sensing and Auditory Stimulation #音频事件检测 #信号处理 #多通道 #时频分析 📝 5.5/10 | 后50% | #音频事件检测 | #信号处理 | #多通道 #时频分析 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 -1.0 | 置信度 中 👥 作者与机构 第一作者:Min Suk Lee (UC San Diego, Shu Chien-Gene Lay Department of Bioengineering) 通讯作者:Yuchen Xu (yux013@ucsd.edu), Gert Cauwenberghs (gcauwenberghs@ucsd.edu) 作者列表: Min Suk Lee (UC San Diego, Shu Chien-Gene Lay Department of Bioengineering) Abhinav Uppal (UC San Diego, Shu Chien-Gene Lay Department of Bioengineering) Ananya Thota (UC San Diego, Shu Chien-Gene Lay Department of Bioengineering) Chetan Pathrabe (UC San Diego, Shu Chien-Gene Lay Department of Bioengineering) Rommani Mondal (UC San Diego, Shu Chien-Gene Lay Department of Bioengineering) Akshay Paul (UC San Diego, Institute for Neural Computation) Yuchen Xu (UC San Diego, Institute for Neural Computation) Gert Cauwenberghs (UC San Diego, Shu Chien-Gene Lay Department of Bioengineering; Institute for Neural Computation) 💡 毒舌点评 亮点在于其将定制化耳道模型与Ag/AgCl干电极喷涂技术相结合,显著提升了信号质量和佩戴舒适度,为长期脑电监测提供了实用方案。短板是验证仅限于单个受试者,且其中一个对侧通道表现出显著噪声,这使得“稳健”、“长期”等宣称的普适性大打折扣,更像一个精心调校的原型机演示。 ...

2026-05-01 · 更新于 2026-05-19 · 2 min · 271 words