Smart Passive Acoustic Monitoring: Embedding a Classifier on AudioMoth Microcontroller

📄 Smart Passive Acoustic Monitoring: Embedding a Classifier on AudioMoth Microcontroller #生物声学 #音频分类 #信号处理 #低资源 ✅ 7.5/10 | 前25% | #生物声学 | #信号处理 | #音频分类 #低资源 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 中 👥 作者与机构 第一作者:未说明 通讯作者:未说明 作者列表:Louis Lerbourg(未说明)、Paul Peyret(未说明)、Juliette Linossier(未说明)、Marielle Malfante(未说明) 💡 毒舌点评 本文直击生态监测中“数据洪水”与“设备贫电”的核心矛盾,将轻量化CNN模型塞进仅有毫瓦功耗的AudioMoth并实现91%的识别率,工程导向的创新非常务实;然而,仅凭摘要无法判断其模型是否真的优于传统数字信号处理方法或更简单的机器学习模型,且“智能”的边界——误报对野外记录的影响——似乎未被充分讨论。 🔗 开源详情 代码:论文中未提及明确的代码仓库链接。但论文全文提到了一个关于模型优化和导出的开源教程,以及修改后的AudioMoth固件代码。具体链接需在完整论文正文中查找。 模型权重:论文中未提及模型权重的公开托管平台(如HuggingFace或ModelScope)链接。模型训练于一个真实世界数据集,并优化后嵌入了设备。 数据集:论文中提及使用“一个真实世界的数据集(a real-world dataset)”进行训练,但未提供数据集的具体名称、获取链接或开源协议信息。 Demo:论文中未提及在线演示(Demo)地址。 复现材料:论文全文提到了一个开源的“教程(tutorial)”,详细说明了模型优化和导出策略,这可作为重要的复现材料。具体链接需在完整论文正文中查找。 论文中引用的开源项目: AudioMoth:一个开源的低成本声学记录仪。论文作者对其固件进行了修改。论文正文中引用的两个相关GitHub仓库为: https://github.com/OpenAcousticDevices/AudioMoth-Firmware https://github.com/OpenAcousticDevices/AudioMoth-Firmware-API (注:以上链接为论文中明确提及的AudioMoth官方开源项目地址,作者基于其进行了开发。) 📌 核心摘要 要解决什么问题:传统的被动声学监测(PAM)虽然高效,但自主录音机会产生海量数据,受限于设备的功耗和存储,限制了监测活动的持续时间与规模。 方法核心是什么:提出一个智能PAM系统,在AudioMoth微控制器上直接嵌入一个优化的1D卷积神经网络(1D-CNN)分类器,实现对音频的原位分析。 与已有方法相比新在哪里:新在“边缘智能”范式:不再先采集所有原始数据再回传处理,而是在采集设备端实时识别目标声学事件(濒危海鸟Scopoli Shearwater的叫声),仅记录有价值的数据或实时输出分类日志。 主要实验结果如何:该优化模型在真实数据集上达到91%的分类准确率(平衡准确率89%),内存占用仅约10kB,单次推理时间约20ms。论文未提供与其他具体基线模型的详细数值对比表格。 实际意义是什么:大幅降低了PAM系统的功耗和数据存储需求,使大规模、长时间、低成本的生态声学监测成为可能,并为其他领域的智能传感器开发提供了开源优化流程。 主要局限性是什么:论文摘要未明确说明,可能包括:模型仅针对单一物种的特定叫声,泛化能力未知;未讨论在复杂声学环境(如风雨声、其他动物声音干扰)下的鲁棒性;未提供完整固件的功耗实测数据。 🏗️ 模型架构 基于摘要描述,模型架构的详细信息有限。 ...

2026-05-06 · 更新于 2026-05-19 · 1 min · 123 words

语音/音频论文速递 2026-05-06

语音/音频论文速递 2026-05-06 共分析 23 篇论文 ⚡ 今日概览 📥 抓取 23 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 5篇 █████ #音乐信息检索 3篇 ███ #生物声学 3篇 ███ #音频深度伪造检测 2篇 ██ #音频事件检测 1篇 █ #音乐理解 1篇 █ #语音生物标志物 1篇 █ #语音对话系统 1篇 █ 📊 论文评分排行榜(23 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Towards Open World Sound Event Detection 8.5分 前25% #音频事件检测 🥈 The TTS-STT Flywheel: Synthetic Entity-Dense Audio Clos 8.5分 前25% #语音识别 🥉 PHALAR: Phasors for Learned Musical Audio Representatio 8.0分 前10% #音乐信息检索 4. Ecologically-Constrained Task Arithmetic for Multi-Taxa 8.0分 前25% #生物声学 5. AfriVox-v2: A Domain-Verticalized Benchmark for In-the- 8.0分 前25% #语音识别 6. APEX: Large-scale Multi-task Aesthetic-Informed Popular 8.0分 前25% #音乐理解 7. Mixed-Precision Information Bottlenecks for On-Device T 8.0分 前25% #语音生物标志物 8. MiniMind-O Technical Report: An Open Small-Scale Speech 7.5分 前25% #语音对话系统 9. Deepfake Audio Detection Using Self-supervised Fusion R 7.5分 前25% #音频深度伪造检测 10. Smart Passive Acoustic Monitoring: Embedding a Classifi 7.5分 前25% #生物声学 11. DECKER: Domain-invariant Embedding for Cross-Keyboard E 7.5分 前25% #音频安全 12. Contrastive Regularization for Accent-Robust ASR 7.5分 前25% #语音识别 13. AsymK-Talker: Real-Time and Long-Horizon Talking Head G 7.5分 前25% #语音合成 14. Learning Generalizable Action Representations via Pre-t 7.5分 前25% #生物声学 15. Stage Light is Sequence$^2$: Multi-Light Control via Im 7.5分 前25% #音乐信息检索 16. Enhancing Self-Supervised Talking Head Forgery Detectio 7.5分 前25% #说话头伪造检测 17. ReasonAudio: A Benchmark for Evaluating Reasoning Beyon 7.5分 前25% #音频检索 18. Assessing the Impact of Noise and Speech Enhancement on 7.0分 前25% #模型评估 19. Phoneme-Level Deepfake Detection Across Emotional Condi 7.0分 前50% #音频深度伪造检测 20. A Comprehensive Analysis of Tokenization and Self-Super 7.0分 前50% #语音识别 21. Toward Structural Multimodal Representations: Specializ 7.0分 前25% #多模态模型 22. Cosmodoit: A Python Package for Adaptive, Efficient Pip 6.5分 前50% #音乐信息检索 23. A Paradigm for Interpreting Metrics and Identifying Cri 6.0分 前50% #语音识别 📋 论文列表 🥇 Towards Open World Sound Event Detection 🔥 8.5/10 | 前25% | #音频事件检测 | #Transformer | #开放世界学习 #增量学习 | arxiv ...

2026-05-06 · 更新于 2026-05-19 · 15 min · 3158 words

Integrating acoustic tapping with a UAV platform for tile condition classification

📄 Integrating acoustic tapping with a UAV platform for tile condition classification #音频分类 #信号处理 #工业应用 #鲁棒性 ✅ 7.5/10 | 前25% | #音频分类 | #信号处理 | #工业应用 #鲁棒性 | arxiv 学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Piedad J. Miranda (新墨西哥大学土木、建筑与环境工程系) 通讯作者:未明确说明 作者列表: Piedad J. Miranda (新墨西哥大学土木、建筑与环境工程系) Ronan Reza (佛罗里达国际大学 Moss建筑管理系) Leonel Lagos (佛罗里达国际大学应用研究中心) Mackenson Telusma (萨凡纳河国家实验室) Christine A. Langton (萨凡纳河国家实验室) Fernando Moreu (新墨西哥大学土木、建筑与环境工程系) 💡 毒舌点评 亮点:论文的实验设计非常巧妙且具有说服力,利用Stewart平台精确复现无人机飞行振动特性,为量化“振动干扰”这一抽象问题提供了物理仿真基准,方法论上具有参考价值。 短板:论文的“核心算法”部分过于依赖基础机器学习(PCA+K-means+决策树),缺乏对更先进或更针对性信号处理/分类模型的探讨,使得技术贡献略显薄弱,更像一个优秀的工程验证实验而非算法创新研究。 ...

2026-05-05 · 更新于 2026-05-19 · 3 min · 472 words

MelShield: Robust Mel-Domain Audio Watermarking for Provenance Attribution of AI Generated Synthesized Speech

📄 MelShield: Robust Mel-Domain Audio Watermarking for Provenance Attribution of AI Generated Synthesized Speech #音频安全 #语音合成 #信号处理 #扩散模型 #生成模型 ✅ 7.0/10 | 前25% | #音频安全 | #信号处理 | #语音合成 #扩散模型 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Yutong Jin(Queen’s University, Department of Electrical and Computer Engineering) 通讯作者:Qi Li(Queen’s University, Department of Electrical and Computer Engineering) 作者列表:Yutong Jin(Queen’s University)、Qi Li(Queen’s University)、Lingshuang Liu(University of Waterloo)、Jianbing Ni(Queen’s University) 💡 毒舌点评 亮点在于巧妙利用了Mel频谱图作为TTS流程的“公共接口”,在不改动扩散或GAN声码器的情况下实现了即插即用的水印嵌入,工程实用性强。短板是验证机制依赖于存储参考Mel谱,这在大规模、分布式部署场景下可能带来存储和管理挑战,且论文对实际部署环境下的攻击模型讨论略显不足。 ...

2026-05-05 · 更新于 2026-05-19 · 3 min · 495 words

Neck-Learn: Attention-Based Multiple Instance Learning and Ensemble Framework for Ecological Momentary Assessment

📄 Neck-Learn: Attention-Based Multiple Instance Learning and Ensemble Framework for Ecological Momentary Assessment #语音生物标志物 #多实例学习 #集成学习 #信号处理 #基准测试 ✅ 7.0/10 | 前25% | #语音生物标志物 | #多实例学习 | #集成学习 #信号处理 | arxiv 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Ahsan Jamal Cheema (哈佛大学) 通讯作者:未说明 作者列表:Ahsan Jamal Cheema(哈佛大学,剑桥;马萨诸塞州眼耳医院,波士顿) 💡 毒舌点评 亮点:论文在声带功能亢进检测中,首次尝试将多实例学习(MIL)引入对变长时间序列(日录音)的处理,有效捕捉了以往被压缩丢弃的日内时序动态,并结合传统梯度提升树模型构建了性能优异的集成框架,在NPVH这一更具挑战的任务上取得了显著提升。短板:深度学习部分(CNN-MIL)的具体细节(如1D卷积的输入通道关系、注意力头的可视化)阐述略显不足,且全文未能充分讨论其与更主流的时序模型(如Transformer)的对比可能性,使得“最优”架构的论证稍显薄弱;此外,该研究强依赖于NeckVibe挑战赛数据集,其泛化性尚需在独立临床场景中进一步验证。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及模型权重链接 数据集:论文中提及数据集为 NeckVibe Challenge,但未提供具体下载链接,仅通过引用 [NeckVibe2026] 说明 Demo:论文中未提及 复现材料:论文在 “2.3 Cross-Validation and Data Splitting” 与 “2.4 Model Architectures” 节中报告了所有超参数与训练细节(如 5 折分组交叉验证、XGBoost/LightGBM 参数、CNN-MIL 结构、集成权重优化方法等),并声明 “All hyperparameters are reported in Section 2.3 to enable full reproducibility.”,但未提供具体配置文件或检查点下载链接 论文中引用的开源项目: XGBoost:https://github.com/dmlc/xgboost LightGBM:https://github.com/microsoft/LightGBM PyTorch:https://github.com/pytorch/pytorch scikit-learn:https://github.com/scikit-learn/scikit-learn SciPy:https://github.com/scipy/scipy NumPy:https://github.com/numpy/numpy pandas:https://github.com/pandas-dev/pandas 补充信息 [细节详述] 补充:论文在特征表示部分明确提到,用于CNN-MIL的窗口级时间序列在输入前使用了稳健缩放器进行归一化,该缩放器是基于30%训练数据的中位数和四分位距(IQR)计算的,目的是减少IBIF(气动力)异常值的影响。这一预处理细节在已有分析的“细节详述”中未提及。 [细节详述] 补充:在损失函数方面,论文明确指出梯度提升树的损失函数同样对正类进行了加权(权重与CNN-MIL使用的类别权重相同:PVH为1.73,NPVH为4.08),而不仅仅是CNN-MIL。此信息在已有分析中仅部分提及。 [实验结果] 补充:论文明确列出了优化后的集成模型中各组件的权重:对于PVH分类任务,权重为CNN-MIL 0.45, XGBoost 0.35, LightGBM 0.20;对于NPVH分类任务,权重为CNN-MIL 0.50, XGBoost 0.15, LightGBM 0.35。权重差异反映了CNN-MIL在NPVH任务上的核心作用。 [模型架构] 补充:论文在方法部分明确指出,除了最终提交的CNN-MIL模型外,还测试并训练了其他模型架构,包括基于RNN的模型和基于对比学习的CNN模型,但论文中只包含了性能最佳的模型。这解释了模型选择过程。 [核心摘要/详细分析] 补充:论文在讨论部分对自身局限性的阐述更系统,除了已提及的CNN-MIL独立处理每日数据、可解释性有限外,还明确指出了另外两个局限:(1)目前仅使用发声段数据,未来可探索利用发声与非发声段之间的过渡信息(如相对基频RFF);(2)当前模型是非因果的(需要在看到整天/多天数据后才能预测),未来可探索仅使用过去时间戳数据进行实时预测的因果模型。 [评分理由] 补充:在“与SOTA的差距”方面,论文通过测试集结果可量化差距:本集成模型在PVH任务上比NeckVibe挑战赛基线高出 0.059 AUC (0.879 vs. 0.82),在NPVH任务上高出 0.068 AUC (0.848 vs. 0.78)。这一具体数值对比在分析中未明确给出。 📌 核心摘要 本文旨在解决生态瞬时评估(EMA)中,利用颈表面加速度计数据进行声带功能亢进(VH)及其亚型(PVH, NPVH)的自动检测问题。已有方法通常将多日数据压缩为固定长度的受试者级特征向量,丢失了日内时序动态信息。本文提出一种新型混合集成框架:一方面,利用梯度提升树(XGBoost, LightGBM)处理从日内数据中提取的受试者级分布特征,以捕捉全局模式;另一方面,创新性地构建了一个基于注意力的多实例学习(CNN-MIL)框架,将每日录音视为一个“包”,包内每个窗口为一个“实例”,从而直接学习日内时序依赖关系和关键时段。在NeckVibe挑战赛的测试集上,该集成模型在PVH分类中达到0.879 AUC,在NPVH分类中达到0.848 AUC,显著超越了赛事基线(0.82, 0.78)。该框架的主要贡献在于证明了保留并学习日内时序动态对于VH检测,特别是对于非损伤性亚型NPH至关重要。其主要局限性包括CNN-MIL模型的可解释性有待提高,以及未能利用更长时间(跨日)的趋势信息。 ...

2026-05-05 · 更新于 2026-05-19 · 2 min · 362 words

Period-conscious Time-series Reconstruction under Local Differential Privacy

📄 Period-conscious Time-series Reconstruction under Local Differential Privacy #差分隐私 #时间序列 #周期性分析 #信号处理 ✅ 7.0/10 | 前25% | #时间序列重构 | #差分隐私 | #时间序列 #周期性分析 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Yaxuan Wang(论文中未说明其具体机构) 通讯作者:Enji Liang(论文中未说明其具体机构), Yanran Wang(论文中未说明其具体机构) 作者列表:Yaxuan Wang(未说明), Tianxin Li(未说明), Enji Liang(未说明), Yue Fu(未说明), Yanran Wang(未说明) 注:论文仅标注了作者贡献和通讯作者,未提供任何作者的所属大学、实验室或公司信息。 💡 毒舌点评 亮点:CPR框架非常“接地气”,它没有追求复杂的理论证明,而是针对LDP噪声破坏周期性信号的两个具体病症(频谱模糊和相位漂移),设计了一套从粗到细、从频域到时域的组合疗法,实验也证实了在“高压”(低ε)环境下确实比传统滤波方法更有效。 短板:方法更像是多个成熟模块(FFT、中位数聚合、EM、KDE)的针对性拼接,缺乏一个统一的、优雅的数学框架来解释其优越性;此外,在仅使用四个数据集且数据构造方式(拼接加抖动)相对人工的情况下宣称SOTA,其结论的泛化能力有待更多复杂真实场景的检验。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集: Darwin (Daily Meridian Longitude): https://archive.ics.uci.edu/dataset/732/darwin Turkish Music Emotion: https://archive.ics.uci.edu/dataset/862/turkish+music+emotion Raisin: https://archive.ics.uci.edu/dataset/850/raisin Crowdsourced Mapping: https://archive.ics.uci.edu/dataset/400/crowdsourced+mapping 注:论文说明,实验使用了上述公开数据集,并提取了其中的数值特征来构建周期性时间流。论文未提供其预处理或加工后的具体数据。 Demo:论文中未提及 复现材料:论文中未提及具体的训练配置、检查点或附录等复现材料。 论文中引用的开源项目: Square Wave (SW) local randomizer:论文中提出了该隐私机制的公式和实现细节,但未提供独立的代码仓库或开源项目链接。 LBD [14]:论文中引用了该方法作为基线比较,并说明其实现遵循原文,但未提供独立的开源项目链接。 Laplace机制 [6]:论文中引用了该方法作为标准基线,未提供独立的开源项目链接。 📌 核心摘要 解决的问题:在本地差分隐私保护下收集周期性时间序列数据(如视频动作、音频节奏、传感器信号)时,LDP机制注入的样本级噪声会破坏信号的频谱峰值,导致周期估计不准,并引发跨周期的相位漂移,严重降低重构质量。 方法核心:提出CPR框架,分为周期恢复与相位恢复两阶段。首先通过多尺度、多共识的周期识别(在不同窗口大小上进行FFT并投票)来稳定地估计主导周期;然后利用估计的周期,通过相位感知聚合(将所有周期的相同相位点分组)和EM-then-KDE去噪(先用EM解码SW机制噪声,再用核密度估计提取鲁棒的相位值)来重构一个干净的周期模板。 与已有方法相比新在何处:不同于通用LDP重构方法(如Laplace、LBD)或简单平滑(SW_moving),CPR首次明确将周期/相位意识置于重构核心。它不是盲目去噪,而是先稳定周期结构,再利用该结构进行跨周期的统计聚合,从而更有效地对抗LDP噪声。 主要实验结果:在四个数据集上,CPR在周期性检测准确率和重构余弦距离上均优于所有基线方法。例如,在Darwin数据集上,当ε=1,w=5时,周期检测准确率(论文表I)为19%,显著高于其他设置;图2显示,在所有隐私预算下,CPR的重构余弦距离(越低越好)始终最小,尤其在低ε区间优势明显。 实际意义:为边缘设备收集周期性敏感数据(如健康监测中的心率/步态、多媒体内容中的节奏特征)提供了一种在强隐私保护下仍能保持数据效用的技术方案,有助于平衡隐私与数据利用。 主要局限性:1) 论文假设信号具有单一主导周期,对多周期叠加或强非平稳周期的处理能力未充分验证;2) 实验数据集构造相对简单(重复拼接加抖动),未在更复杂的真实世界流数据上验证;3) 计算复杂度和实时性分析未给出,可能不适用于资源受限的边缘场景。 🏗️ 模型架构 CPR是一个两阶段的服务器端后处理框架,整体架构如下图所示: ...

2026-05-05 · 更新于 2026-05-19 · 2 min · 255 words

The AECM Algorithm for Deterministic Maximum Likelihood Direction Finding in the Presence of Gaussian Mixture Noise

📄 The AECM Algorithm for Deterministic Maximum Likelihood Direction Finding in the Presence of Gaussian Mixture Noise #声源定位 #麦克风阵列 #信号处理 #鲁棒性 ✅ 7.0/10 | 前50% | #声源定位 | #麦克风阵列 | #信号处理 #鲁棒性 | arxiv 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Mingyan Gong(未说明) 通讯作者:Bin Lyu(未说明) 作者列表:Mingyan Gong(未说明)、Bin Lyu(未说明) 💡 毒舌点评 本文清晰地指出了传统SAGE算法在解决高斯混合噪声下DOA估计问题时的两个痛点(收敛慢、在不等功率信号下失效),并给出了基于AECM和黄金分割搜索的改进方案,逻辑链条完整;但实验部分堪称“简陋”,仅用一个包含两个信号源的简单仿真场景就得出“更快更稳定”的结论,缺乏与多种非高斯噪声模型(如SαS)、不同算法变体(如不同L值)的对比,说服力打了折扣。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及。 数据集:论文中未提及。 Demo:论文中未提及。 复现材料:论文本身包含了算法伪代码(算法1, 2, 3)和详细的数值结果仿真参数(如第5节所述),可作为复现的指南。 论文中引用的开源项目:未提及。 📌 核心摘要 要解决什么问题:在高斯混合噪声(一种能建模脉冲噪声的非高斯模型)环境下,如何高效、稳定地进行确定性最大似然(ML)方向估计(DOA)。 方法核心是什么:将交替期望条件最大化(AECM)算法应用于该问题。AECM通过构建多个信息量较少的“完整数据”版本,顺序更新每个源的DOA估计(一次一个),并采用黄金分割搜索法在每次迭代中寻找接近前次估计的局部最优解,以解决SAGE算法同时更新所有DOA导致的收敛慢和功率不等时失效的问题。 与已有方法相比新在哪里:改进了此前该问题唯一高效方法——SAGE算法。主要区别在于:(1) 采用“EM-周期”而非“EM-对”顺序更新参数;(2) 使用条件最大化步骤(CM-step)而非完全最大化步骤(M-step),减少了迭代间DOA估计的跳变;(3) 引入黄金分割搜索确保收敛稳定性。 主要实验结果如何:论文通过一个仿真案例(N=6阵元,M=2源,不等功率)进行对比。如图1所示,若直接采用最大值搜索更新DOA,两种算法均失效,估计值收敛至强信号的真实DOA。如图2所示,采用黄金分割搜索后,两种算法均能正确收敛,且AECM算法达到稳定收敛所需迭代次数明显少于SAGE算法(例如,约快30%)。论文未给出具体的迭代次数或运行时间数字。 实际意义是什么:为雷达、声纳、无线通信等领域中存在脉冲干扰的环境,提供了一种更稳定、更高效的DOA估计求解算法。 主要局限性是什么:实验验证过于单薄,仅一个场景;未与更多其他抗脉冲噪声DOA估计算法(如FLOM-MUSIC等)对比;未讨论在更多混合分量(L>2)或更复杂噪声环境下的性能;未提供开源代码。 🏗️ 模型架构 本文并非提出一个新的神经网络或深度学习模型,而是针对一个经典的信号处理优化问题(确定性ML方向估计),设计和应用了一种参数估计算法——AECM算法。 ...

2026-05-05 · 更新于 2026-05-19 · 1 min · 188 words

语音/音频论文速递 2026-05-05

语音/音频论文速递 2026-05-05 共分析 33 篇论文 ⚡ 今日概览 📥 抓取 33 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音乐生成 5篇 █████ #音频分类 3篇 ███ #语音识别 2篇 ██ #音视频 2篇 ██ #大语言模型 1篇 █ #多模态讽刺检测 1篇 █ #多模态幻觉缓解 1篇 █ #模型评估 1篇 █ 📊 论文评分排行榜(33 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Flexi-LoRA with Input-Adaptive Ranks: Efficient Finetun 8.5分 前25% #大语言模型 🥈 Dimensionality-Aware Anomaly Detection in Learned Repre 8.0分 前25% #语音识别 🥉 PC-MNet: Dual-Level Congruity Modeling for Multimodal S 8.0分 前25% #多模态讽刺检测 4. HARMES: A Multi-Modal Dataset for Wearable Human Activi 8.0分 前25% #音频分类 5. When Audio-Language Models Fail to Leverage Multimodal 7.5分 前50% #语音识别 6. Mitigating Multimodal LLMs Hallucinations via Relevance 7.5分 前25% #多模态幻觉缓解 7. Toward Fair Speech Technologies: A Comprehensive Survey 7.5分 前25% #模型评估 8. Virtual Speech Therapist: A Clinician-in-the-Loop AI Sp 7.5分 前25% #语音治疗系统 9. Toward Fine-Grained Speech Inpainting Forensics:A Datas 7.5分 前25% #音频深度伪造检测 10. RenCon 2025: Revival of the Expressive Performance Rend 7.5分 前25% #音乐生成 11. Spoken Language Identification with Pre-trained Models 7.5分 前25% #说话人识别 12. TMD-Bench: A Multi-Level Evaluation Paradigm for Music- 7.5分 前25% #音乐生成 13. Khala: Scaling Acoustic Token Language Models Toward Hi 7.5分 前25% #音乐生成 14. Delayed Commitment for Representation Readiness in Stag 7.5分 前25% #音视频 15. MG-Former: A Transformer-Based Framework for Music-Driv 7.5分 前25% #音乐生成 16. Integrating acoustic tapping with a UAV platform for ti 7.5分 前25% #音频分类 17. NH-CROP: Robust Pricing for Governed Language Data Asse 7.5分 前25% #强化学习 18. When Attention Collapses: Residual Evidence Modeling fo 7.5分 前25% #音频分离 19. BRITE: A Benchmark for Reliable and Interpretable T2V E 7.5分 前25% #基准测试 20. Neck-Learn: Attention-Based Multiple Instance Learning 7.0分 前25% #语音生物标志物 21. Tibetan-TTS:Low-Resource Tibetan Speech Synthesis with 7.0分 前50% #语音合成 22. MelShield: Robust Mel-Domain Audio Watermarking for Pro 7.0分 前25% #音频安全 23. MindMelody: A Closed-Loop EEG-Driven System for Persona 7.0分 前50% #音乐生成 24. Multimodal Confidence Modeling in Audio-Visual Quality 7.0分 前25% #音视频 25. The AECM Algorithm for Deterministic Maximum Likelihood 7.0分 前50% #声源定位 26. The 2026 ACII Dyadic Conversations (DaiKon) Workshop &a 7.0分 前50% #语音情感识别 27. Period-conscious Time-series Reconstruction under Local 7.0分 前25% #时间序列重构 28. OceanPile: A Large-Scale Multimodal Ocean Corpus for Fo 7.0分 前25% #数据集 29. Private Speech Classification without Collapse: Stabili 6.5分 前25% #音频分类 30. MedMosaic: A Challenging Large Scale Benchmark of Diver 6.5分 前25% #音频问答 31. Artificial intelligence language technologies in multil 6.5分 前50% #多语言健康沟通 32. MultiSense-Pneumo: A Multimodal Learning Framework for 6.5分 前50% #肺炎筛查 33. Multi-Axis Speech Similarity via Factor-Partitioned Emb 6.0分 前50% #音频检索 📋 论文列表 🥇 Flexi-LoRA with Input-Adaptive Ranks: Efficient Finetuning for Speech and Reasoning Tasks 🔥 8.5/10 | 前25% | #大语言模型 | #参数高效微调 | #问答 #数学推理 | arxiv ...

2026-05-05 · 更新于 2026-05-19 · 19 min · 3988 words

Are Deep Speech Denoising Models Robust to Adversarial Noise?

📄 Are Deep Speech Denoising Models Robust to Adversarial Noise? #语音增强 #对抗样本 #鲁棒性 #心理声学 #信号处理 🔥 8.5/10 | 前25% | #语音增强 #对抗样本 | #信号处理 | #语音增强 #对抗样本 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Will Schwarzer(马萨诸塞大学阿默斯特分校) 通讯作者:Will Schwarzer(马萨诸塞大学阿默斯特分校) 作者列表:Will Schwarzer(马萨诸塞大学阿默斯特分校)、Philip S. Thomas(马萨诸塞大学阿默斯特分校)、Andrea Fanelli(Dolby Laboratories)、Xiaoyu Liu(Meta) 💡 毒舌点评 论文将音频对抗攻击的研究从简单的扰动约束推进到了考虑真实声学环境(模拟过空传播)和严格心理声学掩蔽的实用化设定,这是一项重要且扎实的安全研究。然而,攻击的成功高度依赖于白盒梯度访问,且论文坦承通用对抗扰动和跨模型迁移基本无效,这限制了其直接展示的“威胁”的即时实用性,更像是一份详尽的系统性风险报告。 🔗 开源详情 代码:提供公开代码仓库链接:https://github.com/willschwarzer/adv-dns-public。 模型权重:论文研究的对象是四个已有公开检查点的开源DNS模型(Demucs/Denoiser, Full-SubNet+, FRCRN, MP-SENet),并详细列出了使用的具体版本和提交哈希(见附录G表4)。攻击本身是针对这些模型生成的,未提及公开攻击模型权重。 数据集:使用来自ICASSP 2022 DNS Challenge 4公开数据集的音频(干净语音、噪声、RIR),并注明了引用和许可(CC-BY-4.0 for 数据, MIT for 代码)。 Demo:论文中未提及在线演示。但提供了指向攻击样本在线试听页面的链接(https://sites.google.com/view/adv-dns/),用于评估主观不可感知性和攻击效果。 复现材料:提供了极其详尽的复现信息,包括:所有实验设置(SNR, 混响, 模型)、优化算法及超参数(Adam, 学习率, 梯度裁剪, 迭代次数)、心理声学模型具体参数、STFT参数、人类研究协议、统计检验方法等。代码仓库应包含运行实验所需脚本。 论文中引用的开源项目:OpenAI Whisper(用于ASR评估和过滤数据)、MP-SENet、Denoiser (Demucs)、FRCRN (ClearerVoice-Studio)、FullSubNet-Plus、MaskGCT(用于生成目标攻击语音)、DNS-Challenge数据集与代码、DNSMOS P.835、NISQA、ViSQOL。所有引用的项目及其版本、许可证在附录G的表4中详细列出。 📌 核心摘要 问题:深度语音去噪(DNS)模型在安全关键应用(如助听器、应急通信)中广泛使用,但其对抗鲁棒性尚未被充分研究。论文旨在评估这些模型是否对精心设计的、人耳难以察觉的对抗噪声脆弱。 方法:核心方法是提出一个基于心理声学掩蔽的对抗攻击框架。该框架通过计算掩蔽阈值(包括频率掩蔽和时域前后掩蔽)来约束扰动的功率谱密度,使其在原始语音信号中“隐藏”。优化采用投影梯度下降,损失函数为短时客观可懂度(STOI)。此外,框架通过维纳解卷积和梯度下降投影来模拟和应对扰动在房间脉冲响应(RIR)下的传播,以实现模拟过空攻击。 创新:与已有工作(如使用简单p范数约束或未充分考虑感知掩蔽)相比,该工作的创新在于:a) 集成了增强的、包含时域掩蔽的心理声学模型,并引入偏移量调节掩蔽阈值,更好地平衡攻击成功率与不可感知性;b) 系统性地将攻击扩展到模拟真实声学环境(混响、不同背景噪声水平、过空传播);c) 对多种开源DNS模型在不同设置下的鲁棒性进行了全面的机制分析,揭示了梯度流动(而非模型大小)是关键因素。 主要实验结果:论文测试了Demucs, Full-SubNet+, FRCRN, MP-SENet四个模型。关键发现:a) 所有模型都能在人耳无法察觉的扰动下被驱动输出无意义语音(STOI提升从正值变为负值,见图1);b) 攻击在从极干净(70dB SNR)到嘈杂、混响的环境下均成功;c) Full-SubNet+因梯度爆炸展现出一定“伪鲁棒性”,但此保护机制已知可被绕过;d) 人类研究(15名音频专家)证实攻击后的音频几乎无法转写,且扰动通常不可察觉;e) 模拟过空攻击对除Full-SubNet+外的模型同样有效(见图5);f) 简单的高斯噪声防御仅能部分缓解,但攻击者可能自适应(见图4)。通用扰动和跨模型迁移效果有限。 图1:在不同背景信噪比(SNR)和混响条件下,四个DNS模型在加入不可察觉的对抗扰动前后,其输出相对于干净语音的STOI变化(ΔSTOI)。攻击成功地将ΔSTOI从正值(增强)变为负值(劣化),表明模型输出变得比含噪输入更不可懂。 ...

2026-05-04 · 更新于 2026-05-19 · 2 min · 291 words

Deep Learning with Learnable Product-Structured Activations

📄 Deep Learning with Learnable Product-Structured Activations #神经网络架构 #隐式神经表示 #深度学习理论 #信号处理 #可解释AI 🔥 8.0/10 | 前10% | #神经网络架构 | #神经网络架构 | #隐式神经表示 #深度学习理论 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Saanjali Maharaj(University of Toronto) 通讯作者:Prasanth B. Nair(University of Toronto) 作者列表:Saanjali Maharaj(University of Toronto)、Prasanth B. Nair(University of Toronto) 💡 毒舌点评 亮点在于LRNN架构将低秩函数分解思想巧妙地引入深度学习,其理论分析严谨(证明了通用逼近和维度诅咒缓解),并且实验设计得极为全面,从ImageNet图像到PDE求解,几乎“打穿”了隐式表示领域的主流基准。短板则是,尽管架构思想优美,但其每个“神经元”内部实际嵌套了一个小型MLP(用于参数化一元函数),这无疑显著增加了计算复杂度和训练时间,论文在性能与效率的权衡上讨论稍显不足,可能限制其在大规模实时应用中的部署。 🔗 开源详情 代码:论文明确提供了公开的代码仓库链接:https://github.com/dacelab/lrnn。 模型权重:论文中未提及公开预训练模型权重。 数据集:使用了公开的数据集(ImageNet, DIV2K, GTZAN, LibriSpeech等),但论文中未说明是否提供处理后的特定任务数据集。 Demo:论文中未提及在线演示。 复现材料:论文提供了极其详尽的复现信息,包括: 所有实验的具体超参数设置(学习率、调度器、模型尺寸等)。 架构的实现细节(如组件MLP的结构、LayerNorm的使用、方差控制缩放)。 各类消融研究的设计和结果。 训练硬件信息(单张RTX 4090 GPU)。 论文中引用的开源项目:论文依赖并对比了多个开源基准模型,包括SIREN、SPDER、WIRE、Gaussian Activated Networks等的官方实现。其实现基于PyTorch框架。 📌 核心摘要 问题:现代神经网络受限于固定激活函数,难以自适应地捕捉任务特定的高阶交互结构,且在表示高频信号时存在频谱偏差。 方法核心:提出“深度低秩分离神经网络”(LRNN)。其核心是每个神经元使用一个可学习的乘积结构激活函数,即多个可学习的一元变换的乘积,而非传统的固定标量激活。 新意:与传统MLP和固定激活的INR方法相比,LRNN的激活函数是高度灵活且数据依赖的,能自然地通过乘法合成丰富的频谱成分。该架构是标准MLP的推广,并建立了与低秩函数分解的理论联系。 主要实验结果:LRNN在多个任务上达到SOTA。在图像表示上,对1000张ImageNet图像达到40dB PSNR的成功率为100%,远超SIREN(1.8%)和SPDER(26.4%)。在音频表示上,MSE比基线低3-11倍。在PDE求解上,用SIREN 1/8的参数量实现同等或更低误差。在稀疏视图CT重建中,获得最高PSNR(29.13 dB)和SSIM(0.7455),且无伪影。 实际意义:提供了一种通用、表达能力强且理论清晰的神经网络构建模块,能显著提升信号表示、科学计算和成像任务的性能,有助于减少医疗CT的辐射剂量。 主要局限性:其反向传播需要存储中间乘积项,导致内存占用高于标准MLP;架构增加了每层的计算复杂度;虽然提供了消融实验,但对于如何在不同任务中最优地设置超参数(如分离秩r和投影宽度\(\bar{d}\))的指导不够充分。 🏗️ 模型架构 LRNN(Low-Rank Separated Neural Network)是一种对多层感知机(MLP)的推广。其核心创新在于用可学习的乘积结构激活函数替代了固定激活函数。 ...

2026-05-04 · 更新于 2026-05-19 · 2 min · 298 words