语音/音频论文速递 2026-05-11

语音/音频论文速递 2026-05-11 共分析 12 篇论文 ⚡ 今日概览 📥 抓取 12 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #基准测试 1篇 █ #跨模态 1篇 █ #语音匿名化 1篇 █ #音频水印 1篇 █ #语音对话系统 1篇 █ #说话人识别 1篇 █ #脑机接口 1篇 █ #生物声学 1篇 █ 📊 论文评分排行榜(12 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Do Joint Audio-Video Generation Models Understand Physi 7.5分 前50%(Accept级) #基准测试 🥈 Anisotropic Modality Align 7.5分 前25%(Strong Accept级) #跨模态 🥉 Evaluating voice anonymisation using similarity rank di 7.0分 前50%(Accept级) #语音匿名化 4. Asymmetric Phase Coding Audio Watermarking 7.0分 前50%(Accept级) #音频水印 5. MIST: Multimodal Interactive Speech-based Tool-calling 7.0分 前50%(Accept级) #语音对话系统 6. TARNet: A Temporal-Aware Multi-Scale Architecture for C 7.0分 前25%(Strong Accept级) #说话人识别 7. Zero-Shot Imagined Speech Decoding via Imagined-to-List 6.5分 前25%(Strong Accept级) #脑机接口 8. BeeVe: Unsupervised Acoustic State Discovery in Honey B 6.5分 前50%(Accept级) #生物声学 9. A Decomposed Retrieval-Edit-Rerank Framework for Chord 6.5分 前50%(Accept级) #音乐生成 10. Adaptive Regularization for Sparsity Control in Bregman 6.5分 后50%(Reject级) #说话人验证 11. Sparse Autoencoders as Plug-and-Play Firewalls for Adve 6.5分 前50%(Accept级) #对抗样本 12. Dependence on Early and Late Reverberation of Single-Ch 6.0分 后50%(Reject级) #说话人距离估计 📋 论文列表 🥇 Do Joint Audio-Video Generation Models Understand Physics? ✅ 7.5/10 | 前50%(Accept级) | #基准测试 | #模型评估 | #音视频 #跨模态 | arxiv ...

2026-05-11 · 更新于 2026-05-19 · 9 min · 1723 words

LiVeAction: a Lightweight, Versatile, and Asymmetric Neural Codec Design for Real-time Operation

📄 LiVeAction: a Lightweight, Versatile, and Asymmetric Neural Codec Design for Real-time Operation #多模态压缩 #神经网络编解码器 #实时处理 #边缘计算 #信号处理 🔥 8.5/10 | 前25% | #多模态压缩 | #神经网络编解码器 | #实时处理 #边缘计算 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Dan Jacobellis (University of Texas at Austin) 通讯作者:Neeraja J. Yadwadkar (University of Texas at Austin) 作者列表:Dan Jacobellis (University of Texas at Austin), Neeraja J. Yadwadkar (University of Texas at Austin) 💡 毒舌点评 这篇论文最漂亮的地方是它毫不含糊地实现了承诺:把编解码器塞进低功耗设备里跑,而且还能处理从音频到3D医学图像的“花式”数据。但尴尬的是,它的“通用性”主要体现在对网格化信号的处理上,对于真正的非结构化数据(如点云、图信号)的通用性并未在论文中得到验证,有点“避重就轻”的嫌疑。此外,简化率惩罚依赖于潜变量分布为指数族的假设,在复杂分布下可能次优。 ...

2026-05-08 · 更新于 2026-05-19 · 5 min · 945 words

语音/音频论文速递 2026-05-08

语音/音频论文速递 2026-05-08 共分析 23 篇论文 ⚡ 今日概览 📥 抓取 23 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #多模态压缩 1篇 █ #语音增强 1篇 █ #音频事件检测 1篇 █ #语音大模型 1篇 █ #语音克隆 1篇 █ #语音情感识别 1篇 █ #语音生成 1篇 █ #数据集 1篇 █ 📊 论文评分排行榜(23 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 LiVeAction: a Lightweight, Versatile, and Asymmetric Ne 8.5分 前25% #多模态压缩 🥈 Predictive-Generative Drift Decomposition for Speech En 8.5分 前25% #语音增强 🥉 MultiLinguahah : A New Unsupervised Multilingual Acoust 8.5分 前25% #音频事件检测 4. Minimizing Modality Gap from the Input Side: Your Speec 8.0分 前25% #语音大模型 5. X-Voice: Enabling Everyone to Speak 30 Languages via Ze 8.0分 前25% #语音克隆 6. Modality-Aware Contrastive and Uncertainty-Regularized 8.0分 前25% #语音情感识别 7. WavCube: Unifying Speech Representation for Understandi 7.5分 前25% #语音生成 8. PianoCoRe: Combined and Refined Piano MIDI Dataset 7.5分 前25% #数据集 9. Do Melody and Rhythm Coevolve? 7.5分 前25% #音乐认知 10. Automated Clinical Report Generation for Remote Cogniti 7.5分 扎实工作,位于前列 #临床报告生成 11. Linear Semantic Segmentation for Low-Resource Spoken Di 7.5分 前25% #语义分割 12. Edge-specific signal propagation on mature chromophore- 7.5分 前25% #蛋白质工程 13. Cross-Modal Navigation with Multi-Agent Reinforcement L 7.5分 前25% #具身导航 14. Pro-KLShampoo: Projected KL-Shampoo with Whitening Reco 7.5分 前25% #大语言模型 15. Optimal Transport Audio Distance with Learned Riemannia 7.0分 前10% #音频质量评估 16. PairAlign: A Framework for Sequence Tokenization via Se 7.0分 前25% #音频编码 17. Topological Signatures of Grokking 7.0分 前25% #模型可解释性 18. Task-Aware Answer Preservation under Audio Compression 6.5分 前25% #音频问答 19. NDF+: Joint Neural Directional Filtering and Diffuse So 6.5分 前30% #空间音频 20. Quantum Kernels for Audio Deepfake Detection Using Spec 6.5分 前50% #音频深度伪造检测 21. More Than Can Be Said: A Benchmark and Framework for Pr 6.5分 前25% #基准测试 22. PersonaKit (PK): A Plug-and-Play Platform for User Test 6.0分 前50% #全双工对话系统评估 23. Preliminary Insights in Chronos Frequency Data Understa 6.0分 前25% #模型评估 📋 论文列表 🥇 LiVeAction: a Lightweight, Versatile, and Asymmetric Neural Codec Design for Real-time Operation 🔥 8.5/10 | 前25% | #多模态压缩 | #神经网络编解码器 | #实时处理 #边缘计算 | arxiv ...

2026-05-08 · 更新于 2026-05-19 · 17 min · 3434 words

Adaptive Diagonal Loading for Norm Constrained Beamforming

📄 Adaptive Diagonal Loading for Norm Constrained Beamforming #波束成形 #信号处理 #麦克风阵列 #鲁棒性 #自适应信号处理 ✅ 7.0/10 | 前25% | #波束成形 | #信号处理 | #麦克风阵列 #鲁棒性 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Manan Mittal(机构未说明) 通讯作者:未说明 作者列表:Manan Mittal(机构未说明)、Ryan M. Corey(机构未说明)、John R. Buck(机构未说明)、Andrew C. Singer(机构未说明) 💡 毒舌点评 亮点在于将经典的对角加载问题提升到了具有严格数学保证的层面,通过Kantorovich不等式为白噪声增益(WNG)提供了确定性的理论边界,工程实用性很强;但计算复杂度从O(M)到O(M³)的谱系虽然覆盖全面,却可能让实时系统在精度和算力间纠结,且仿真场景(15元ULA,1kHz窄带)与论文宣称的“大型麦克风阵列”和“高动态声学环境”相比仍显单薄。 📌 核心摘要 这篇论文旨在解决自适应波束形成在快变干扰和样本不足(snapshot-deficient)场景下,因空间相关矩阵(SCM)病态导致的目标信号自消除问题。其核心方法是提出一种自适应对角加载技术,通过Kantorovich不等式建立白噪声增益(WNG)与SCM条件数之间的严格数学映射,从而将对加载水平μ的选取转化为对矩阵条件数的显式约束。与传统固定或启发式加载方法不同,该方法能保证WNG始终不低于预设阈值,并从理论上推导出所需的最小加载量。论文提出了三种计算复杂度可选(O(M), O(M²), O(M³))的特征值边界估计方法(Trace、Gershgorin、Exact EVD)来实现这一约束。实验在15元均匀线阵的快变“出生-死亡”干扰场景下进行,结果显示,Exact EVD和Gershgorin模式在输出SINR上接近“全知”基准(约比Cox方法高数dB),且所有提出方法均将WNG稳定约束在8.76 dB以上。该方法的意义在于为鲁棒波束形成提供了一个具有可证明性能保证的自适应调节框架。其局限性在于计算开销(尤其是EVD模式)以及仿真验证的场景规模和复杂性有待进一步扩展。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中未提及(模拟中使用的数据为论文作者自行生成,未提供公开链接或数据集名称) Demo:论文中未提及 复现材料:论文中未提及(文中详细描述了仿真设置,包括阵列参数、场景配置、窗长等,但未提供具体的代码、配置文件或检查点) 论文中引用的开源项目:未提及 🏗️ 模型架构 本文并非提出一个神经网络模型,而是提出一种用于改进传统自适应波束形成器(MPDR/GSC)信号处理流程的自适应参数调节算法。其核心数据流与处理流程如下: ...

2026-05-07 · 更新于 2026-05-19 · 1 min · 183 words

Hearing the Ocean: Bio-inspired Gammatone-CNN framework for Robust Underwater Acoustic Target Classification

📄 Hearing the Ocean: Bio-inspired Gammatone-CNN framework for Robust Underwater Acoustic Target Classification #音频分类 #信号处理 #时频分析 #实时处理 #水下声学 ✅ 7.5/10 | 前25% | #音频分类 | #信号处理 | #时频分析 #实时处理 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Rajeshwar Tripathi (Central Research Laboratory, Bharat Electronics Limited, Ghaziabad, India) 通讯作者:未说明 作者列表:Rajeshwar Tripathi (Central Research Laboratory, Bharat Electronics Limited, Ghaziabad, India)、Sandeep Kumar (Central Research Laboratory, Bharat Electronics Limited, Ghaziabad, India)、Monika Aggarwal (Centre for Applied Research in Electronics (CARE), IIT Delhi, India)、Neel Kanth Kundu (Centre for Applied Research in Electronics (CARE), IIT Delhi, India) 💡 毒舌点评 亮点:论文清晰地论证并验证了“信号表示质量是决定性能上限的关键”这一观点,其生物启发的Gammatone前端在保持极低计算开销(0.77ms延迟)的前提下,显著优于传统线性和多分辨率特征,为资源受限的边缘声纳部署提供了切实可行的方案。短板:创新性更多体现在技术整合与领域迁移,而非Gammatone滤波器本身的原理突破;虽然在VTUAD数据集上表现优异,但验证仅限于单一公开数据集,其泛化能力至更复杂的真实海洋环境仍需更多证据。 ...

2026-05-07 · 更新于 2026-05-19 · 2 min · 341 words

SEI-SHIELD: Robust Specific Emitter Identification Under Label Noise Via Self-Supervised Filtering and Iterative Rescue

📄 SEI-SHIELD: Robust Specific Emitter Identification Under Label Noise Via Self-Supervised Filtering and Iterative Rescue #信号处理 #自监督学习 #对比学习 #鲁棒性 #音频安全 ✅ 7.5/10 | 前25% | #信号处理 | #对比学习 | #自监督学习 #鲁棒性 | arxiv 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Ruixiang Zhang(东南大学仪器科学与工程学院) 通讯作者:Xuanpeng Li(东南大学仪器科学与工程学院) 作者列表:Ruixiang Zhang(东南大学仪器科学与工程学院),Zinan Zhou(东南大学仪器科学与工程学院),Yezhuo Zhang(东南大学仪器科学与工程学院),Guangyu Li(南京理工大学计算机科学与工程学院),Xuanpeng Li(东南大学仪器科学与工程学院) 💡 毒舌点评 这篇论文的亮点在于其“解耦”思想设计得很漂亮,用自监督学习为噪声检测建立了一个不受污染的“纯净”特征空间,逻辑链条完整且实验验证扎实。但短板也很明显:迭代救援机制在类别数少时效果不稳定(POWDER数据集上高噪声率反而变差),且训练开销显著增加(约10倍),虽然作者辩称训练可离线,但这仍是实际部署时需要权衡的成本。 📌 核心摘要 问题:深度学习在特定辐射源识别(SEI)中应用广泛,但实际非合作环境中存在的标签噪声(源于信道模糊、标注错误、恶意攻击)会严重破坏模型可靠性。现有方法依赖有噪声的监督信号进行样本选择,导致确认偏差和特征空间污染。 方法核心:提出SEI-SHIELD框架,其核心是“解耦”范式。首先使用带有射频定制化增强的Momentum Contrast(MoCo)进行自监督对比预训练,从原始I/Q信号中提取与标签无关的、鲁棒的射频指纹表征。随后,在学到的特征空间中,基于KNN的邻域标签一致性分析来识别噪声样本。最后,通过一个迭代救援机制,联合使用分类器预测置信度和特征空间原型相似度,逐步恢复在初步过滤中被错误丢弃的硬样本。 新意:与依赖有噪监督信号的现有范式不同,SEI-SHIELD首次将表征学习(通过自监督)与噪声检测严格解耦,从根本上避免了确认偏差。此外,其迭代救援机制是对一次性过滤方法的改进,能更好地利用训练数据。 实验结果:在POWDER和ORACLE两个真实射频数据集上进行了全面实验。结果显示,SEI-SHIELD在各种对称标签噪声率下均达到了最先进的识别准确率。例如,在POWDER数据集上,当噪声率(η)为60%时,SEI-SHIELD的准确率为78.62%,显著高于最强基线SSR的57.37%;在ORACLE数据集上,η=60%时,SEI-SHIELD(55.44%)优于GCE(51.02%)。消融实验证明迭代救援模块至关重要,特别是在类别数多的情况下。 实际意义:为物联网和无线通信中的物理层安全提供了一种更鲁棒的设备认证方案,能够有效抵御标签污染攻击和真实世界中的标注错误。 主要局限性:迭代救援机制在类别数较少的POWDER数据集高噪声场景下效果不稳定(可能错误救援噪声样本);训练时间显著高于基线;KNN模块的阈值等超参数对性能有一定影响。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集:论文中使用了两个公开数据集,具体信息如下: ORACLE Dataset: 由16个USRP X310 SDR采集的WiFi帧原始I/Q信号。具体获取方式需参考其原始出处:Sankhe et al., “ORACLE: Optimized Radio clAssification for Low-cost Empirical devices”,在论文中通过引用 [25] 标识。 POWDER Dataset: 由4个USRP X310 SDR采集的WiFi、4G和5G帧原始I/Q信号。具体获取方式需参考其原始出处,在论文中通过引用 [24] 标识。 Demo:论文中未提及。 复现材料:论文提供了详细的训练配置,包括: 实施细节:使用 PyTorch 1.8.1,在 Ubuntu 20.04.3 LTS 系统,配备 Intel Xeon Gold 6330 CPU 和一块 NVIDIA GeForce RTX 3080 GPU 上实现。 超参数设置:论文在 Table I 中详细列出了所有阶段的超参数。 算法伪代码:论文在 Algorithm 1 中提供了完整的SEI-SHIELD训练流程。 论文中引用的开源项目: Momentum Contrast (MoCo):论文中采用的对比学习框架。未提供具体项目链接。 Complex-Valued Neural Networks (CVNN):论文中使用的骨干网络架构。未提供具体项目链接。 K-Nearest Neighbors (KNN):论文中使用的噪声识别算法。未提供具体项目链接。 论文未提供这些引用项目的具体GitHub等代码仓库链接。 🏗️ 模型架构 SEI-SHIELD是一个分阶段的框架,其整体流程如图2所示。主要包含四个模块: ...

2026-05-07 · 更新于 2026-05-19 · 3 min · 492 words

Sparse Tokens Suffice: Jailbreaking Audio Language Models via Token-Aware Gradient Optimization

📄 Sparse Tokens Suffice: Jailbreaking Audio Language Models via Token-Aware Gradient Optimization #语音大模型 #音频安全 #对抗样本 #信号处理 ✅ 7.5/10 | 前25% | #音频安全 | #对抗样本 | #语音大模型 #信号处理 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:未说明(论文未明确区分第一作者) 通讯作者:未说明(论文未明确标注) 作者列表:Zheng Fang, Xiaosen Wang, Shenyi Zhang, Shaokang Wang, Zhijin Ge(论文中未提供任何作者的所属机构信息) 💡 毒舌点评 这篇论文的亮点在于通过一个巧妙的观察(梯度能量高度集中于少数token),将看似复杂的音频波形优化问题简化成了“抓关键”,提出了高效的稀疏攻击方法TAGO。但其短板也很明显:研究聚焦于“如何更高效地破坏安全”,视角相对负面;且方法的成功严重依赖于特定的超参数(如token保留率ζ)和早停策略,在真实场景的泛化能力上论证稍显不足。 📌 核心摘要 解决的问题:针对音频语言模型(ALM)的越狱攻击通常采用对整个音频波形进行密集梯度更新的方法,这在高维音频输入上计算冗余且效率不高。本文探究了这种密集优化的必要性。 方法核心:提出Token-Aware Gradient Optimization (TAGO)。核心思想是分析ALM在越狱优化过程中,梯度能量在音频token层面上的分布,发现其高度非均匀,仅一小部分token贡献了大部分梯度能量。因此,在每次迭代中,TAGO只对梯度能量最高的前ζ比例token所对应的音频区域(receptive field)进行梯度更新,而将其他区域的梯度置零,实现稀疏优化。 创新之处:与已有方法(如SpeechGuard、AdvWave)的密集更新不同,TAGO首次将优化粒度从波形样本点提升到与模型内部表示对齐的“音频token”级别,并利用梯度的稀疏性进行自适应、token选择性的更新。此外,TAGO还设计了模型兼容的前缀模板和EOS抑制策略。 实验结果:在Qwen3-Omni, Qwen2.5-Omni和LLaMA-Omni三个模型上的实验表明,TAGO在攻击成功率上优于基线。即使将token保留率降至0.25(仅更新25%的token对应区域),在Qwen3-Omni上仍能保持86%的ASR_l(LLM判别成功率),仅比全量更新的87%下降1个百分点。同时,实验否定了“先密集优化再稀疏化”的后处理方法。 实际意义:证明了针对ALM的越狱攻击存在大量冗余更新,揭示了模型安全对齐机制在音频模态上的一个潜在脆弱点(梯度信号分布不均)。这为攻击者提供了更高效的攻击思路,也为防御者指出了需要关注的脆弱区域(关键音频token),推动了对音频模型安全机制的深入理解。 主要局限性:攻击效果对超参数(如token保留率ζ和早停置信度ρ)较为敏感;虽然构造了模型兼容前缀,但仍属于基于特定文本前缀的约束优化,可能无法覆盖所有拒绝场景;主要评估了白盒攻击,对黑盒场景的迁移性未做探讨。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中评估的三个模型均提供了HuggingFace链接: Qwen3-Omni-30B-A3B-Instruct: https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct Qwen2.5-Omni-7B: https://huggingface.co/Qwen/Qwen2.5-Omni-7B LLaMA-3.1-8B-Omni: https://huggingface.co/ICTNLP/Llama-3.1-8B-Omni 数据集:论文中未提供数据集的直接下载链接。主要使用的数据集为 AdvBench-50(基于 Chao et al. (2025) 的有害指令集)和 HarmBench(Mazeika et al. (2024))。需参考相应原始论文获取。 Demo:论文中未提及。 复现材料:论文提供了详细的复现信息,包括: 对话模板(见论文附录A表5)。 拒绝词列表(见论文附录A表6)。 模型兼容的目标前缀(见论文附录A表7)。 优化超参数(如 K=500, η=10⁻³, λ=0.02, λₑₒₛ=0.2, ε=0.1)。 评判模型及提示(见论文附录A中“Judge models and judge prompts”部分,包含SorryBench评判器及Gemini提示)。 论文中引用的开源项目: Whisper (语音编码器):https://github.com/openai/whisper Google Cloud Text-to-Speech (用于合成测试音频):https://cloud.google.com/text-to-speech SorryBench 评判模型 (Mistral-7B-Instruct-v0.2-sorry-bench-202406):https://huggingface.co/sorry-bench/ft-mistral-7b-instruct-v0.2-sorry-bench-202406 Gemini 3 Flash (用作 LLaMA-Omni 的评判模型):未提供具体链接。 🏗️ 模型架构 TAGO并非一个传统意义上的神经网络模型,而是一种针对已有ALM的优化攻击算法。其整体架构(流程)如图1所示: ...

2026-05-07 · 更新于 2026-05-19 · 2 min · 417 words

语音/音频论文速递 2026-05-07

语音/音频论文速递 2026-05-07 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音频分类 3篇 ███ #音乐信息检索 2篇 ██ #音乐生成 2篇 ██ #音频质量评估 1篇 █ #语音识别 1篇 █ #语音情感识别 1篇 █ #标签分布学习 1篇 █ #视频编辑 1篇 █ 📊 论文评分排行榜(22 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Ev 8.5分 前10% #音频质量评估 🥈 PHALAR: Phasors for Learned Musical Audio Representatio 8.5分 前10% #音乐信息检索 🥉 The TTS-STT Flywheel: Synthetic Entity-Dense Audio Clos 8.5分 前25% #语音识别 4. To Fuse or to Drop? Dual-Path Learning for Resolving Mo 8.0分 前25% #语音情感识别 5. Trustworthy Federated Label Distribution Learning under 8.0分 前25% #标签分布学习 6. AVI-Edit: Audio-sync Video Instance Editing with Granul 8.0分 前25% #视频编辑 7. Empirical Study of Pop and Jazz Mix Ratios for Genre-Ad 7.5分 前50% #音乐生成 8. Hearing the Ocean: Bio-inspired Gammatone-CNN framework 7.5分 前25% #音频分类 9. Sparse Tokens Suffice: Jailbreaking Audio Language Mode 7.5分 前25% #音频安全 10. SEI-SHIELD: Robust Specific Emitter Identification Unde 7.5分 前25% #信号处理 11. OceanPile: A Large-Scale Multimodal Ocean Corpus for Fo 7.5分 前25% #音频分类 12. MiniMind-O Technical Report: An Open Small-Scale Speech 7.5分 前25% #语音对话系统 13. APEX: Large-scale Multi-task Aesthetic-Informed Popular 7.5分 前25% #音乐评估 14. Spatial-Magnifier: Spatial upsampling for multichannel 7.0分 前25% #语音增强 15. VocalParse: Towards Unified and Scalable Singing Voice 7.0分 前25% #音乐转录 16. Benchmarking LLMs on the Massive Sound Embedding Benchm 7.0分 前50% #音频分类 17. Stage-adaptive audio diffusion modeling 7.0分 前25% #音频生成 18. Adaptive Diagonal Loading for Norm Constrained Beamform 7.0分 前25% #波束成形 19. RenCon 2025: Revival of the Expressive Performance Rend 7.0分 前50% #音乐生成 20. Beyond Seeing Is Believing: On Crowdsourced Detection o 7.0分 前25% #音频深度伪造检测 21. Stage Light is Sequence^2: Multi-Light Control via Imit 7.0分 前25% #舞台技术 22. Library learning with e-graphs on jazz harmony 6.5分 前50% #音乐信息检索 📋 论文列表 🥇 JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Evaluation via Natural Language Instructions 🔥 8.5/10 | 前10% | #音频质量评估 | #大语言模型 | #多模态模型 #零样本 | arxiv ...

2026-05-07 · 更新于 2026-05-19 · 14 min · 2879 words

Cosmodoit: A Python Package for Adaptive, Efficient Pipelining of Feature Extraction from Performed Music

📄 Cosmodoit: A Python Package for Adaptive, Efficient Pipelining of Feature Extraction from Performed Music #音乐信息检索 #信号处理 #开源工具 ✅ 6.5/10 | 前50% | #音乐信息检索 | #信号处理 | #开源工具 | arxiv 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Corentin Guichaoua(STMS Laboratoire (UMR9912) – CNRS, IRCAM, Sorbonne Université, Ministère de la Culture, Paris, France) 通讯作者:未说明 作者列表: Corentin Guichaoua(STMS Laboratoire (UMR9912) – CNRS, IRCAM, Sorbonne Université, Ministère de la Culture, Paris, France) Daniel Bedoya(STMS Laboratoire (UMR9912) – CNRS, IRCAM, Sorbonne Université, Ministère de la Culture, Paris, France) Elaine Chew(Department of Engineering and School of Biomedical Engineering & Imaging Sciences, King’s College London, United Kingdom) 💡 毒舌点评 论文的亮点在于它精准地解决了一个实际且琐碎的领域痛点,像一位细心的管家,把散落在不同房间(Matlab, C++, Python)的工具(响度、对位、和声张力)规整到同一个自动化流水线上,能有效提升特定研究团队的生产力。但短板也同样明显:作为一篇“论文”,它更像一份详尽的软件说明书或技术报告,缺乏支撑其“高效”、“自适应”宣称的定量性能数据和严谨的实验对比,说服力更多依赖于读者对工具的迫切需求。 ...

2026-05-06 · 更新于 2026-05-19 · 1 min · 207 words

Learning Generalizable Action Representations via Pre-training AEMG

📄 Learning Generalizable Action Representations via Pre-training AEMG #生物声学 #自监督学习 #预训练 #零样本 #信号处理 ✅ 7.5/10 | 前25% | #生物声学 | #预训练 | #自监督学习 #零样本 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度 中 👥 作者与机构 第一作者:Zhenghao Huang (华南理工大学) 通讯作者:Lin Shu (华南理工大学) 作者列表:Zhenghao Huang (华南理工大学)、Huilin Yao (华南理工大学)、Kaikai Wang (华南理工大学)、Lin Shu (华南理工大学) 💡 毒舌点评 亮点:将EMG信号巧妙类比为“生理语言”并设计了完整的“分词-造句-预训练”管线,在跨被试识别任务上取得了令人信服的性能提升(平均准确率提升近6个百分点),为EMG基础模型研究提供了有价值的范式探索。 短板:核心创新更多是工程集成与范式迁移(NLP的VQ-GPT思路到EMG),而非原理性突破;论文声称“首次”大规模预训练,但对“大规模”的量化描述模糊(如预训练token总数、FLOPs),且关键超参数和训练细节在正文中完全缺失,严重损害了工作的可复现性和说服力。 🔗 开源详情 代码:https://github.com/AEMG-series/AEMG 模型权重:论文中未提及模型权重的具体下载链接(如 HuggingFace/ModelScope 等)。 数据集:论文中提及使用了八个公开的 EMG 数据集(包括 ULB-MLG, EMG-EPN, Ninapro DB4, Toro-Ossaba 等),但未提供这些数据集的统一获取链接。具体数据集名称和来源详见论文附录 B.1 和附录表 2。 Demo:论文中提及“demos”资源与代码一同在 GitHub 仓库提供(见上述代码链接)。 复现材料:论文中详细描述了算法(如算法 1:神经收缩分词器)、模型架构(NST)、训练损失(公式 8)以及消融实验的配置,但未提供具体的训练脚本、配置文件或预训练检查点下载方式。相关信息主要在论文正文中。 论文中引用的开源项目:论文中未提及任何第三方开源项目/工具的具体名称和链接。论文主要引用了相关学术研究(如 Transformer 架构本身)。 补充信息 [训练细节] 补充:论文在附录D.6中提供了预训练的具体训练配置,而非正文中所述完全缺失。包括:优化器为AdamW,学习率为2e-4,批大小为32,训练了100个epoch,硬件环境为4张NVIDIA A100 80GB GPU。这些信息对于完整复现预训练过程至关重要。 [模型架构] 补充:论文在NST骨干网络部分明确说明,为每个收缩词注入的“联合时空条件嵌入”显式编码了三个属性:解剖学来源(电极布局)、激活相位和时序顺序。这一设计是应对异构电极拓扑、增强模型对肌肉协同位置信息理解的关键。 [实验结果] 补充:关于信号切分视角对比实验(表3),论文指出一个有趣现象:使用传统固定窗口方法时,掩码预训练阶段的预测准确率反而更高。作者分析这是因为传统切片包含大量可预测的零填充或静态噪声片段,降低了预训练难度,但这也佐证了NCT分词迫使模型学习更复杂、更有挑战性的生理语义,从而在下游任务中表现更好。 [论文自述的局限性] 补充:论文在摘要和结论中自述的局限性还包括:1)EMG信号本身的高度个性化可能限制通用词汇表对所有用户的完美适用性;2)当前工作专注于手势识别这一特定任务,未来可扩展至其他运动意图解码。 [与SOTA的具体差距数值] 补充:分析中已提及AEMG-Large与SOTA方法的平均准确率差距(5.85%)。此外,在特定数据集上(如Ninapro DB4),AEMG-Large (88.10%) 相比表现最好的SOTA方法SCDEM (82.33%),提升达到了 5.77%,具体数字可更精确对应。 📌 核心摘要 这篇论文旨在解决肌电图(EMG)信号在跨被试、跨设备场景下泛化能力差的核心问题。其方法核心是提出了AEMG框架,首次将大规模自监督预训练范式引入EMG领域,核心创新在于:1)提出“EMG即语言”范式,通过神经收缩分词器(NCT)将连续EMG信号分割为离散的“肌肉收缩词”,再组合成“EMG句子”;2)构建跨设备的统一表示空间,以处理异构数据;3)通过向量量化(VQ)学习一个通用的“EMG词汇表”,并通过掩码预测进行预训练,以捕捉肌肉协同模式。与已有基于特定数据集和有监督学习的方法相比,AEMG的新在于其大规模、无监督的预训练范式以及模拟语言结构的信号处理思路。主要实验结果表明,在严格的跨被试(LOSO)手势分类任务中,AEMG-Large模型在四个数据集上的平均准确率达到89.81%,比六种现有SOTA方法中最好的(84.02%)高出5.85个百分点;在少样本适应中,仅用5%的目标用户数据即可达到约90%的微调性能。其实际意义在于为构建通用、强健的EMG解码基础模型奠定了基础,有望减少对个体校准的依赖。主要局限性包括:框架核心组件(分词、VQ、掩码建模)并非全新;论文未提供预训练的具体数据规模、计算资源和关键训练参数,影响了复现;对比的基线方法并非该领域最新的基础模型工作。 ...

2026-05-06 · 更新于 2026-05-19 · 2 min · 338 words