信号处理 | 语音/音乐/音频论文速递

SEI-SHIELD: Robust Specific Emitter Identification Under Label Noise Via Self-Supervised Filtering and Iterative Rescue

📄 SEI-SHIELD: Robust Specific Emitter Identification Under Label Noise Via Self-Supervised Filtering and Iterative Rescue #信号处理 #自监督学习 #对比学习 #鲁棒性 #音频安全 ✅ 7.5/10 | 前25% | #信号处理 | #对比学习 | #自监督学习 #鲁棒性 | arxiv 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Ruixiang Zhang（东南大学仪器科学与工程学院）通讯作者：Xuanpeng Li（东南大学仪器科学与工程学院）作者列表：Ruixiang Zhang（东南大学仪器科学与工程学院），Zinan Zhou（东南大学仪器科学与工程学院），Yezhuo Zhang（东南大学仪器科学与工程学院），Guangyu Li（南京理工大学计算机科学与工程学院），Xuanpeng Li（东南大学仪器科学与工程学院） 💡 毒舌点评这篇论文的亮点在于其“解耦”思想设计得很漂亮，用自监督学习为噪声检测建立了一个不受污染的“纯净”特征空间，逻辑链条完整且实验验证扎实。但短板也很明显：迭代救援机制在类别数少时效果不稳定（POWDER数据集上高噪声率反而变差），且训练开销显著增加（约10倍），虽然作者辩称训练可离线，但这仍是实际部署时需要权衡的成本。 📌 核心摘要问题：深度学习在特定辐射源识别（SEI）中应用广泛，但实际非合作环境中存在的标签噪声（源于信道模糊、标注错误、恶意攻击）会严重破坏模型可靠性。现有方法依赖有噪声的监督信号进行样本选择，导致确认偏差和特征空间污染。方法核心：提出SEI-SHIELD框架，其核心是“解耦”范式。首先使用带有射频定制化增强的Momentum Contrast（MoCo）进行自监督对比预训练，从原始I/Q信号中提取与标签无关的、鲁棒的射频指纹表征。随后，在学到的特征空间中，基于KNN的邻域标签一致性分析来识别噪声样本。最后，通过一个迭代救援机制，联合使用分类器预测置信度和特征空间原型相似度，逐步恢复在初步过滤中被错误丢弃的硬样本。新意：与依赖有噪监督信号的现有范式不同，SEI-SHIELD首次将表征学习（通过自监督）与噪声检测严格解耦，从根本上避免了确认偏差。此外，其迭代救援机制是对一次性过滤方法的改进，能更好地利用训练数据。实验结果：在POWDER和ORACLE两个真实射频数据集上进行了全面实验。结果显示，SEI-SHIELD在各种对称标签噪声率下均达到了最先进的识别准确率。例如，在POWDER数据集上，当噪声率（η）为60%时，SEI-SHIELD的准确率为78.62%，显著高于最强基线SSR的57.37%；在ORACLE数据集上，η=60%时，SEI-SHIELD（55.44%）优于GCE（51.02%）。消融实验证明迭代救援模块至关重要，特别是在类别数多的情况下。实际意义：为物联网和无线通信中的物理层安全提供了一种更鲁棒的设备认证方案，能够有效抵御标签污染攻击和真实世界中的标注错误。主要局限性：迭代救援机制在类别数较少的POWDER数据集高噪声场景下效果不稳定（可能错误救援噪声样本）；训练时间显著高于基线；KNN模块的阈值等超参数对性能有一定影响。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重链接。数据集：论文中使用了两个公开数据集，具体信息如下： ORACLE Dataset: 由16个USRP X310 SDR采集的WiFi帧原始I/Q信号。具体获取方式需参考其原始出处：Sankhe et al., “ORACLE: Optimized Radio clAssification for Low-cost Empirical devices”，在论文中通过引用 [25] 标识。 POWDER Dataset: 由4个USRP X310 SDR采集的WiFi、4G和5G帧原始I/Q信号。具体获取方式需参考其原始出处，在论文中通过引用 [24] 标识。 Demo：论文中未提及。复现材料：论文提供了详细的训练配置，包括：实施细节：使用 PyTorch 1.8.1，在 Ubuntu 20.04.3 LTS 系统，配备 Intel Xeon Gold 6330 CPU 和一块 NVIDIA GeForce RTX 3080 GPU 上实现。超参数设置：论文在 Table I 中详细列出了所有阶段的超参数。算法伪代码：论文在 Algorithm 1 中提供了完整的SEI-SHIELD训练流程。论文中引用的开源项目： Momentum Contrast (MoCo)：论文中采用的对比学习框架。未提供具体项目链接。 Complex-Valued Neural Networks (CVNN)：论文中使用的骨干网络架构。未提供具体项目链接。 K-Nearest Neighbors (KNN)：论文中使用的噪声识别算法。未提供具体项目链接。论文未提供这些引用项目的具体GitHub等代码仓库链接。 🏗️ 模型架构 SEI-SHIELD是一个分阶段的框架，其整体流程如图2所示。主要包含四个模块： ...

Sparse Tokens Suffice: Jailbreaking Audio Language Models via Token-Aware Gradient Optimization

📄 Sparse Tokens Suffice: Jailbreaking Audio Language Models via Token-Aware Gradient Optimization #语音大模型 #音频安全 #对抗样本 #信号处理 ✅ 7.5/10 | 前25% | #音频安全 | #对抗样本 | #语音大模型 #信号处理 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：未说明（论文未明确区分第一作者）通讯作者：未说明（论文未明确标注）作者列表：Zheng Fang, Xiaosen Wang, Shenyi Zhang, Shaokang Wang, Zhijin Ge（论文中未提供任何作者的所属机构信息） 💡 毒舌点评这篇论文的亮点在于通过一个巧妙的观察（梯度能量高度集中于少数token），将看似复杂的音频波形优化问题简化成了“抓关键”，提出了高效的稀疏攻击方法TAGO。但其短板也很明显：研究聚焦于“如何更高效地破坏安全”，视角相对负面；且方法的成功严重依赖于特定的超参数（如token保留率ζ）和早停策略，在真实场景的泛化能力上论证稍显不足。 📌 核心摘要解决的问题：针对音频语言模型（ALM）的越狱攻击通常采用对整个音频波形进行密集梯度更新的方法，这在高维音频输入上计算冗余且效率不高。本文探究了这种密集优化的必要性。方法核心：提出Token-Aware Gradient Optimization (TAGO)。核心思想是分析ALM在越狱优化过程中，梯度能量在音频token层面上的分布，发现其高度非均匀，仅一小部分token贡献了大部分梯度能量。因此，在每次迭代中，TAGO只对梯度能量最高的前ζ比例token所对应的音频区域（receptive field）进行梯度更新，而将其他区域的梯度置零，实现稀疏优化。创新之处：与已有方法（如SpeechGuard、AdvWave）的密集更新不同，TAGO首次将优化粒度从波形样本点提升到与模型内部表示对齐的“音频token”级别，并利用梯度的稀疏性进行自适应、token选择性的更新。此外，TAGO还设计了模型兼容的前缀模板和EOS抑制策略。实验结果：在Qwen3-Omni， Qwen2.5-Omni和LLaMA-Omni三个模型上的实验表明，TAGO在攻击成功率上优于基线。即使将token保留率降至0.25（仅更新25%的token对应区域），在Qwen3-Omni上仍能保持86%的ASR_l（LLM判别成功率），仅比全量更新的87%下降1个百分点。同时，实验否定了“先密集优化再稀疏化”的后处理方法。实际意义：证明了针对ALM的越狱攻击存在大量冗余更新，揭示了模型安全对齐机制在音频模态上的一个潜在脆弱点（梯度信号分布不均）。这为攻击者提供了更高效的攻击思路，也为防御者指出了需要关注的脆弱区域（关键音频token），推动了对音频模型安全机制的深入理解。主要局限性：攻击效果对超参数（如token保留率ζ和早停置信度ρ）较为敏感；虽然构造了模型兼容前缀，但仍属于基于特定文本前缀的约束优化，可能无法覆盖所有拒绝场景；主要评估了白盒攻击，对黑盒场景的迁移性未做探讨。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中评估的三个模型均提供了HuggingFace链接： Qwen3-Omni-30B-A3B-Instruct: https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct Qwen2.5-Omni-7B: https://huggingface.co/Qwen/Qwen2.5-Omni-7B LLaMA-3.1-8B-Omni: https://huggingface.co/ICTNLP/Llama-3.1-8B-Omni 数据集：论文中未提供数据集的直接下载链接。主要使用的数据集为 AdvBench-50（基于 Chao et al. (2025) 的有害指令集）和 HarmBench（Mazeika et al. (2024)）。需参考相应原始论文获取。 Demo：论文中未提及。复现材料：论文提供了详细的复现信息，包括：对话模板（见论文附录A表5）。拒绝词列表（见论文附录A表6）。模型兼容的目标前缀（见论文附录A表7）。优化超参数（如 K=500, η=10⁻³, λ=0.02, λₑₒₛ=0.2, ε=0.1）。评判模型及提示（见论文附录A中“Judge models and judge prompts”部分，包含SorryBench评判器及Gemini提示）。论文中引用的开源项目： Whisper (语音编码器)：https://github.com/openai/whisper Google Cloud Text-to-Speech (用于合成测试音频)：https://cloud.google.com/text-to-speech SorryBench 评判模型 (Mistral-7B-Instruct-v0.2-sorry-bench-202406)：https://huggingface.co/sorry-bench/ft-mistral-7b-instruct-v0.2-sorry-bench-202406 Gemini 3 Flash (用作 LLaMA-Omni 的评判模型)：未提供具体链接。 🏗️ 模型架构 TAGO并非一个传统意义上的神经网络模型，而是一种针对已有ALM的优化攻击算法。其整体架构（流程）如图1所示： ...

语音/音乐/音频论文速递 2026-05-07

语音/音乐/音频论文速递 2026-05-07 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音频分类 3篇 ███ #音乐信息检索 2篇 ██ #音乐生成 2篇 ██ #音频质量评估 1篇 █ #语音识别 1篇 █ #语音情感识别 1篇 █ #标签分布学习 1篇 █ #视频编辑 1篇 █ 📊 论文评分排行榜（22 篇，按分数降序）排名论文评分分档主任务 🥇 JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Ev 8.5分前10% #音频质量评估 🥈 PHALAR: Phasors for Learned Musical Audio Representatio 8.5分前10% #音乐信息检索 🥉 The TTS-STT Flywheel: Synthetic Entity-Dense Audio Clos 8.5分前25% #语音识别 4. To Fuse or to Drop? Dual-Path Learning for Resolving Mo 8.0分前25% #语音情感识别 5. Trustworthy Federated Label Distribution Learning under 8.0分前25% #标签分布学习 6. AVI-Edit: Audio-sync Video Instance Editing with Granul 8.0分前25% #视频编辑 7. Empirical Study of Pop and Jazz Mix Ratios for Genre-Ad 7.5分前50% #音乐生成 8. Hearing the Ocean: Bio-inspired Gammatone-CNN framework 7.5分前25% #音频分类 9. Sparse Tokens Suffice: Jailbreaking Audio Language Mode 7.5分前25% #音频安全 10. SEI-SHIELD: Robust Specific Emitter Identification Unde 7.5分前25% #信号处理 11. OceanPile: A Large-Scale Multimodal Ocean Corpus for Fo 7.5分前25% #音频分类 12. MiniMind-O Technical Report: An Open Small-Scale Speech 7.5分前25% #语音对话系统 13. APEX: Large-scale Multi-task Aesthetic-Informed Popular 7.5分前25% #音乐评估 14. Spatial-Magnifier: Spatial upsampling for multichannel 7.0分前25% #语音增强 15. VocalParse: Towards Unified and Scalable Singing Voice 7.0分前25% #音乐转录 16. Benchmarking LLMs on the Massive Sound Embedding Benchm 7.0分前50% #音频分类 17. Stage-adaptive audio diffusion modeling 7.0分前25% #音频生成 18. Adaptive Diagonal Loading for Norm Constrained Beamform 7.0分前25% #波束成形 19. RenCon 2025: Revival of the Expressive Performance Rend 7.0分前50% #音乐生成 20. Beyond Seeing Is Believing: On Crowdsourced Detection o 7.0分前25% #音频深度伪造检测 21. Stage Light is Sequence^2: Multi-Light Control via Imit 7.0分前25% #舞台技术 22. Library learning with e-graphs on jazz harmony 6.5分前50% #音乐信息检索 📋 论文列表 🥇 JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Evaluation via Natural Language Instructions 🔥 8.5/10 | 前10% | #音频质量评估 | #大语言模型 | #多模态模型 #零样本 | arxiv ...

Cosmodoit: A Python Package for Adaptive, Efficient Pipelining of Feature Extraction from Performed Music

📄 Cosmodoit: A Python Package for Adaptive, Efficient Pipelining of Feature Extraction from Performed Music #音乐信息检索 #信号处理 #开源工具 ✅ 6.5/10 | 前50% | #音乐信息检索 | #信号处理 | #开源工具 | arxiv 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Corentin Guichaoua（STMS Laboratoire (UMR9912) – CNRS, IRCAM, Sorbonne Université, Ministère de la Culture, Paris, France）通讯作者：未说明作者列表： Corentin Guichaoua（STMS Laboratoire (UMR9912) – CNRS, IRCAM, Sorbonne Université, Ministère de la Culture, Paris, France） Daniel Bedoya（STMS Laboratoire (UMR9912) – CNRS, IRCAM, Sorbonne Université, Ministère de la Culture, Paris, France） Elaine Chew（Department of Engineering and School of Biomedical Engineering & Imaging Sciences, King’s College London, United Kingdom） 💡 毒舌点评论文的亮点在于它精准地解决了一个实际且琐碎的领域痛点，像一位细心的管家，把散落在不同房间（Matlab, C++, Python）的工具（响度、对位、和声张力）规整到同一个自动化流水线上，能有效提升特定研究团队的生产力。但短板也同样明显：作为一篇“论文”，它更像一份详尽的软件说明书或技术报告，缺乏支撑其“高效”、“自适应”宣称的定量性能数据和严谨的实验对比，说服力更多依赖于读者对工具的迫切需求。 ...

Learning Generalizable Action Representations via Pre-training AEMG

📄 Learning Generalizable Action Representations via Pre-training AEMG #生物声学 #自监督学习 #预训练 #零样本 #信号处理 ✅ 7.5/10 | 前25% | #生物声学 | #预训练 | #自监督学习 #零样本 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度中 👥 作者与机构第一作者：Zhenghao Huang (华南理工大学) 通讯作者：Lin Shu (华南理工大学) 作者列表：Zhenghao Huang (华南理工大学)、Huilin Yao (华南理工大学)、Kaikai Wang (华南理工大学)、Lin Shu (华南理工大学) 💡 毒舌点评亮点：将EMG信号巧妙类比为“生理语言”并设计了完整的“分词-造句-预训练”管线，在跨被试识别任务上取得了令人信服的性能提升（平均准确率提升近6个百分点），为EMG基础模型研究提供了有价值的范式探索。短板：核心创新更多是工程集成与范式迁移（NLP的VQ-GPT思路到EMG），而非原理性突破；论文声称“首次”大规模预训练，但对“大规模”的量化描述模糊（如预训练token总数、FLOPs），且关键超参数和训练细节在正文中完全缺失，严重损害了工作的可复现性和说服力。 🔗 开源详情代码：https://github.com/AEMG-series/AEMG 模型权重：论文中未提及模型权重的具体下载链接（如 HuggingFace/ModelScope 等）。数据集：论文中提及使用了八个公开的 EMG 数据集（包括 ULB-MLG, EMG-EPN, Ninapro DB4, Toro-Ossaba 等），但未提供这些数据集的统一获取链接。具体数据集名称和来源详见论文附录 B.1 和附录表 2。 Demo：论文中提及“demos”资源与代码一同在 GitHub 仓库提供（见上述代码链接）。复现材料：论文中详细描述了算法（如算法 1：神经收缩分词器）、模型架构（NST）、训练损失（公式 8）以及消融实验的配置，但未提供具体的训练脚本、配置文件或预训练检查点下载方式。相关信息主要在论文正文中。论文中引用的开源项目：论文中未提及任何第三方开源项目/工具的具体名称和链接。论文主要引用了相关学术研究（如 Transformer 架构本身）。补充信息 [训练细节] 补充：论文在附录D.6中提供了预训练的具体训练配置，而非正文中所述完全缺失。包括：优化器为AdamW，学习率为2e-4，批大小为32，训练了100个epoch，硬件环境为4张NVIDIA A100 80GB GPU。这些信息对于完整复现预训练过程至关重要。 [模型架构] 补充：论文在NST骨干网络部分明确说明，为每个收缩词注入的“联合时空条件嵌入”显式编码了三个属性：解剖学来源（电极布局）、激活相位和时序顺序。这一设计是应对异构电极拓扑、增强模型对肌肉协同位置信息理解的关键。 [实验结果] 补充：关于信号切分视角对比实验（表3），论文指出一个有趣现象：使用传统固定窗口方法时，掩码预训练阶段的预测准确率反而更高。作者分析这是因为传统切片包含大量可预测的零填充或静态噪声片段，降低了预训练难度，但这也佐证了NCT分词迫使模型学习更复杂、更有挑战性的生理语义，从而在下游任务中表现更好。 [论文自述的局限性] 补充：论文在摘要和结论中自述的局限性还包括：1）EMG信号本身的高度个性化可能限制通用词汇表对所有用户的完美适用性；2）当前工作专注于手势识别这一特定任务，未来可扩展至其他运动意图解码。 [与SOTA的具体差距数值] 补充：分析中已提及AEMG-Large与SOTA方法的平均准确率差距（5.85%）。此外，在特定数据集上（如Ninapro DB4），AEMG-Large (88.10%) 相比表现最好的SOTA方法SCDEM (82.33%)，提升达到了 5.77%，具体数字可更精确对应。 📌 核心摘要这篇论文旨在解决肌电图（EMG）信号在跨被试、跨设备场景下泛化能力差的核心问题。其方法核心是提出了AEMG框架，首次将大规模自监督预训练范式引入EMG领域，核心创新在于：1）提出“EMG即语言”范式，通过神经收缩分词器（NCT）将连续EMG信号分割为离散的“肌肉收缩词”，再组合成“EMG句子”；2）构建跨设备的统一表示空间，以处理异构数据；3）通过向量量化（VQ）学习一个通用的“EMG词汇表”，并通过掩码预测进行预训练，以捕捉肌肉协同模式。与已有基于特定数据集和有监督学习的方法相比，AEMG的新在于其大规模、无监督的预训练范式以及模拟语言结构的信号处理思路。主要实验结果表明，在严格的跨被试（LOSO）手势分类任务中，AEMG-Large模型在四个数据集上的平均准确率达到89.81%，比六种现有SOTA方法中最好的（84.02%）高出5.85个百分点；在少样本适应中，仅用5%的目标用户数据即可达到约90%的微调性能。其实际意义在于为构建通用、强健的EMG解码基础模型奠定了基础，有望减少对个体校准的依赖。主要局限性包括：框架核心组件（分词、VQ、掩码建模）并非全新；论文未提供预训练的具体数据规模、计算资源和关键训练参数，影响了复现；对比的基线方法并非该领域最新的基础模型工作。 ...

Smart Passive Acoustic Monitoring: Embedding a Classifier on AudioMoth Microcontroller

📄 Smart Passive Acoustic Monitoring: Embedding a Classifier on AudioMoth Microcontroller #生物声学 #音频分类 #信号处理 #低资源 ✅ 7.5/10 | 前25% | #生物声学 | #信号处理 | #音频分类 #低资源 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度中 👥 作者与机构第一作者：未说明通讯作者：未说明作者列表：Louis Lerbourg（未说明）、Paul Peyret（未说明）、Juliette Linossier（未说明）、Marielle Malfante（未说明） 💡 毒舌点评本文直击生态监测中“数据洪水”与“设备贫电”的核心矛盾，将轻量化CNN模型塞进仅有毫瓦功耗的AudioMoth并实现91%的识别率，工程导向的创新非常务实；然而，仅凭摘要无法判断其模型是否真的优于传统数字信号处理方法或更简单的机器学习模型，且“智能”的边界——误报对野外记录的影响——似乎未被充分讨论。 🔗 开源详情代码：论文中未提及明确的代码仓库链接。但论文全文提到了一个关于模型优化和导出的开源教程，以及修改后的AudioMoth固件代码。具体链接需在完整论文正文中查找。模型权重：论文中未提及模型权重的公开托管平台（如HuggingFace或ModelScope）链接。模型训练于一个真实世界数据集，并优化后嵌入了设备。数据集：论文中提及使用“一个真实世界的数据集（a real-world dataset）”进行训练，但未提供数据集的具体名称、获取链接或开源协议信息。 Demo：论文中未提及在线演示（Demo）地址。复现材料：论文全文提到了一个开源的“教程（tutorial）”，详细说明了模型优化和导出策略，这可作为重要的复现材料。具体链接需在完整论文正文中查找。论文中引用的开源项目： AudioMoth：一个开源的低成本声学记录仪。论文作者对其固件进行了修改。论文正文中引用的两个相关GitHub仓库为： https://github.com/OpenAcousticDevices/AudioMoth-Firmware https://github.com/OpenAcousticDevices/AudioMoth-Firmware-API （注：以上链接为论文中明确提及的AudioMoth官方开源项目地址，作者基于其进行了开发。） 📌 核心摘要要解决什么问题：传统的被动声学监测（PAM）虽然高效，但自主录音机会产生海量数据，受限于设备的功耗和存储，限制了监测活动的持续时间与规模。方法核心是什么：提出一个智能PAM系统，在AudioMoth微控制器上直接嵌入一个优化的1D卷积神经网络（1D-CNN）分类器，实现对音频的原位分析。与已有方法相比新在哪里：新在“边缘智能”范式：不再先采集所有原始数据再回传处理，而是在采集设备端实时识别目标声学事件（濒危海鸟Scopoli Shearwater的叫声），仅记录有价值的数据或实时输出分类日志。主要实验结果如何：该优化模型在真实数据集上达到91%的分类准确率（平衡准确率89%），内存占用仅约10kB，单次推理时间约20ms。论文未提供与其他具体基线模型的详细数值对比表格。实际意义是什么：大幅降低了PAM系统的功耗和数据存储需求，使大规模、长时间、低成本的生态声学监测成为可能，并为其他领域的智能传感器开发提供了开源优化流程。主要局限性是什么：论文摘要未明确说明，可能包括：模型仅针对单一物种的特定叫声，泛化能力未知；未讨论在复杂声学环境（如风雨声、其他动物声音干扰）下的鲁棒性；未提供完整固件的功耗实测数据。 🏗️ 模型架构基于摘要描述，模型架构的详细信息有限。 ...

语音/音乐/音频论文速递 2026-05-06

语音/音乐/音频论文速递 2026-05-06 共分析 23 篇论文 ⚡ 今日概览 📥 抓取 23 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 5篇 █████ #音乐信息检索 3篇 ███ #生物声学 3篇 ███ #音频深度伪造检测 2篇 ██ #音频事件检测 1篇 █ #音乐理解 1篇 █ #语音生物标志物 1篇 █ #语音对话系统 1篇 █ 📊 论文评分排行榜（23 篇，按分数降序）排名论文评分分档主任务 🥇 Towards Open World Sound Event Detection 8.5分前25% #音频事件检测 🥈 The TTS-STT Flywheel: Synthetic Entity-Dense Audio Clos 8.5分前25% #语音识别 🥉 PHALAR: Phasors for Learned Musical Audio Representatio 8.0分前10% #音乐信息检索 4. Ecologically-Constrained Task Arithmetic for Multi-Taxa 8.0分前25% #生物声学 5. AfriVox-v2: A Domain-Verticalized Benchmark for In-the- 8.0分前25% #语音识别 6. APEX: Large-scale Multi-task Aesthetic-Informed Popular 8.0分前25% #音乐理解 7. Mixed-Precision Information Bottlenecks for On-Device T 8.0分前25% #语音生物标志物 8. MiniMind-O Technical Report: An Open Small-Scale Speech 7.5分前25% #语音对话系统 9. Deepfake Audio Detection Using Self-supervised Fusion R 7.5分前25% #音频深度伪造检测 10. Smart Passive Acoustic Monitoring: Embedding a Classifi 7.5分前25% #生物声学 11. DECKER: Domain-invariant Embedding for Cross-Keyboard E 7.5分前25% #音频安全 12. Contrastive Regularization for Accent-Robust ASR 7.5分前25% #语音识别 13. AsymK-Talker: Real-Time and Long-Horizon Talking Head G 7.5分前25% #语音合成 14. Learning Generalizable Action Representations via Pre-t 7.5分前25% #生物声学 15. Stage Light is Sequence$^2$: Multi-Light Control via Im 7.5分前25% #音乐信息检索 16. Enhancing Self-Supervised Talking Head Forgery Detectio 7.5分前25% #说话头伪造检测 17. ReasonAudio: A Benchmark for Evaluating Reasoning Beyon 7.5分前25% #音频检索 18. Assessing the Impact of Noise and Speech Enhancement on 7.0分前25% #模型评估 19. Phoneme-Level Deepfake Detection Across Emotional Condi 7.0分前50% #音频深度伪造检测 20. A Comprehensive Analysis of Tokenization and Self-Super 7.0分前50% #语音识别 21. Toward Structural Multimodal Representations: Specializ 7.0分前25% #多模态模型 22. Cosmodoit: A Python Package for Adaptive, Efficient Pip 6.5分前50% #音乐信息检索 23. A Paradigm for Interpreting Metrics and Identifying Cri 6.0分前50% #语音识别 📋 论文列表 🥇 Towards Open World Sound Event Detection 🔥 8.5/10 | 前25% | #音频事件检测 | #Transformer | #开放世界学习 #增量学习 | arxiv ...

Integrating acoustic tapping with a UAV platform for tile condition classification

📄 Integrating acoustic tapping with a UAV platform for tile condition classification #音频分类 #信号处理 #工业应用 #鲁棒性 ✅ 7.5/10 | 前25% | #音频分类 | #信号处理 | #工业应用 #鲁棒性 | arxiv 学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Piedad J. Miranda (新墨西哥大学土木、建筑与环境工程系) 通讯作者：未明确说明作者列表： Piedad J. Miranda (新墨西哥大学土木、建筑与环境工程系) Ronan Reza (佛罗里达国际大学 Moss建筑管理系) Leonel Lagos (佛罗里达国际大学应用研究中心) Mackenson Telusma (萨凡纳河国家实验室) Christine A. Langton (萨凡纳河国家实验室) Fernando Moreu (新墨西哥大学土木、建筑与环境工程系) 💡 毒舌点评亮点：论文的实验设计非常巧妙且具有说服力，利用Stewart平台精确复现无人机飞行振动特性，为量化“振动干扰”这一抽象问题提供了物理仿真基准，方法论上具有参考价值。短板：论文的“核心算法”部分过于依赖基础机器学习（PCA+K-means+决策树），缺乏对更先进或更针对性信号处理/分类模型的探讨，使得技术贡献略显薄弱，更像一个优秀的工程验证实验而非算法创新研究。 ...

MelShield: Robust Mel-Domain Audio Watermarking for Provenance Attribution of AI Generated Synthesized Speech

📄 MelShield: Robust Mel-Domain Audio Watermarking for Provenance Attribution of AI Generated Synthesized Speech #音频安全 #语音合成 #信号处理 #扩散模型 #生成模型 ✅ 7.0/10 | 前25% | #音频安全 | #信号处理 | #语音合成 #扩散模型 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Yutong Jin（Queen’s University, Department of Electrical and Computer Engineering）通讯作者：Qi Li（Queen’s University, Department of Electrical and Computer Engineering）作者列表：Yutong Jin（Queen’s University）、Qi Li（Queen’s University）、Lingshuang Liu（University of Waterloo）、Jianbing Ni（Queen’s University） 💡 毒舌点评亮点在于巧妙利用了Mel频谱图作为TTS流程的“公共接口”，在不改动扩散或GAN声码器的情况下实现了即插即用的水印嵌入，工程实用性强。短板是验证机制依赖于存储参考Mel谱，这在大规模、分布式部署场景下可能带来存储和管理挑战，且论文对实际部署环境下的攻击模型讨论略显不足。 ...

Neck-Learn: Attention-Based Multiple Instance Learning and Ensemble Framework for Ecological Momentary Assessment

📄 Neck-Learn: Attention-Based Multiple Instance Learning and Ensemble Framework for Ecological Momentary Assessment #语音生物标志物 #多实例学习 #集成学习 #信号处理 #基准测试 ✅ 7.0/10 | 前25% | #语音生物标志物 | #多实例学习 | #集成学习 #信号处理 | arxiv 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Ahsan Jamal Cheema (哈佛大学) 通讯作者：未说明作者列表：Ahsan Jamal Cheema（哈佛大学，剑桥；马萨诸塞州眼耳医院，波士顿） 💡 毒舌点评亮点：论文在声带功能亢进检测中，首次尝试将多实例学习（MIL）引入对变长时间序列（日录音）的处理，有效捕捉了以往被压缩丢弃的日内时序动态，并结合传统梯度提升树模型构建了性能优异的集成框架，在NPVH这一更具挑战的任务上取得了显著提升。短板：深度学习部分（CNN-MIL）的具体细节（如1D卷积的输入通道关系、注意力头的可视化）阐述略显不足，且全文未能充分讨论其与更主流的时序模型（如Transformer）的对比可能性，使得“最优”架构的论证稍显薄弱；此外，该研究强依赖于NeckVibe挑战赛数据集，其泛化性尚需在独立临床场景中进一步验证。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及模型权重链接数据集：论文中提及数据集为 NeckVibe Challenge，但未提供具体下载链接，仅通过引用 [NeckVibe2026] 说明 Demo：论文中未提及复现材料：论文在 “2.3 Cross-Validation and Data Splitting” 与 “2.4 Model Architectures” 节中报告了所有超参数与训练细节（如 5 折分组交叉验证、XGBoost/LightGBM 参数、CNN-MIL 结构、集成权重优化方法等），并声明 “All hyperparameters are reported in Section 2.3 to enable full reproducibility.”，但未提供具体配置文件或检查点下载链接论文中引用的开源项目： XGBoost：https://github.com/dmlc/xgboost LightGBM：https://github.com/microsoft/LightGBM PyTorch：https://github.com/pytorch/pytorch scikit-learn：https://github.com/scikit-learn/scikit-learn SciPy：https://github.com/scipy/scipy NumPy：https://github.com/numpy/numpy pandas：https://github.com/pandas-dev/pandas 补充信息 [细节详述] 补充：论文在特征表示部分明确提到，用于CNN-MIL的窗口级时间序列在输入前使用了稳健缩放器进行归一化，该缩放器是基于30%训练数据的中位数和四分位距（IQR）计算的，目的是减少IBIF（气动力）异常值的影响。这一预处理细节在已有分析的“细节详述”中未提及。 [细节详述] 补充：在损失函数方面，论文明确指出梯度提升树的损失函数同样对正类进行了加权（权重与CNN-MIL使用的类别权重相同：PVH为1.73，NPVH为4.08），而不仅仅是CNN-MIL。此信息在已有分析中仅部分提及。 [实验结果] 补充：论文明确列出了优化后的集成模型中各组件的权重：对于PVH分类任务，权重为CNN-MIL 0.45, XGBoost 0.35, LightGBM 0.20；对于NPVH分类任务，权重为CNN-MIL 0.50, XGBoost 0.15, LightGBM 0.35。权重差异反映了CNN-MIL在NPVH任务上的核心作用。 [模型架构] 补充：论文在方法部分明确指出，除了最终提交的CNN-MIL模型外，还测试并训练了其他模型架构，包括基于RNN的模型和基于对比学习的CNN模型，但论文中只包含了性能最佳的模型。这解释了模型选择过程。 [核心摘要/详细分析] 补充：论文在讨论部分对自身局限性的阐述更系统，除了已提及的CNN-MIL独立处理每日数据、可解释性有限外，还明确指出了另外两个局限：（1）目前仅使用发声段数据，未来可探索利用发声与非发声段之间的过渡信息（如相对基频RFF）；（2）当前模型是非因果的（需要在看到整天/多天数据后才能预测），未来可探索仅使用过去时间戳数据进行实时预测的因果模型。 [评分理由] 补充：在“与SOTA的差距”方面，论文通过测试集结果可量化差距：本集成模型在PVH任务上比NeckVibe挑战赛基线高出 0.059 AUC (0.879 vs. 0.82)，在NPVH任务上高出 0.068 AUC (0.848 vs. 0.78)。这一具体数值对比在分析中未明确给出。 📌 核心摘要本文旨在解决生态瞬时评估（EMA）中，利用颈表面加速度计数据进行声带功能亢进（VH）及其亚型（PVH， NPVH）的自动检测问题。已有方法通常将多日数据压缩为固定长度的受试者级特征向量，丢失了日内时序动态信息。本文提出一种新型混合集成框架：一方面，利用梯度提升树（XGBoost， LightGBM）处理从日内数据中提取的受试者级分布特征，以捕捉全局模式；另一方面，创新性地构建了一个基于注意力的多实例学习（CNN-MIL）框架，将每日录音视为一个“包”，包内每个窗口为一个“实例”，从而直接学习日内时序依赖关系和关键时段。在NeckVibe挑战赛的测试集上，该集成模型在PVH分类中达到0.879 AUC，在NPVH分类中达到0.848 AUC，显著超越了赛事基线（0.82， 0.78）。该框架的主要贡献在于证明了保留并学习日内时序动态对于VH检测，特别是对于非损伤性亚型NPH至关重要。其主要局限性包括CNN-MIL模型的可解释性有待提高，以及未能利用更长时间（跨日）的趋势信息。 ...