Deep Learning with Learnable Product-Structured Activations

📄 Deep Learning with Learnable Product-Structured Activations #神经网络架构 #隐式神经表示 #深度学习理论 #信号处理 #可解释AI 🔥 8.0/10 | 前10% | #神经网络架构 | #神经网络架构 | #隐式神经表示 #深度学习理论 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Saanjali Maharaj(University of Toronto) 通讯作者:Prasanth B. Nair(University of Toronto) 作者列表:Saanjali Maharaj(University of Toronto)、Prasanth B. Nair(University of Toronto) 💡 毒舌点评 亮点在于LRNN架构将低秩函数分解思想巧妙地引入深度学习,其理论分析严谨(证明了通用逼近和维度诅咒缓解),并且实验设计得极为全面,从ImageNet图像到PDE求解,几乎“打穿”了隐式表示领域的主流基准。短板则是,尽管架构思想优美,但其每个“神经元”内部实际嵌套了一个小型MLP(用于参数化一元函数),这无疑显著增加了计算复杂度和训练时间,论文在性能与效率的权衡上讨论稍显不足,可能限制其在大规模实时应用中的部署。 🔗 开源详情 代码:论文明确提供了公开的代码仓库链接:https://github.com/dacelab/lrnn。 模型权重:论文中未提及公开预训练模型权重。 数据集:使用了公开的数据集(ImageNet, DIV2K, GTZAN, LibriSpeech等),但论文中未说明是否提供处理后的特定任务数据集。 Demo:论文中未提及在线演示。 复现材料:论文提供了极其详尽的复现信息,包括: 所有实验的具体超参数设置(学习率、调度器、模型尺寸等)。 架构的实现细节(如组件MLP的结构、LayerNorm的使用、方差控制缩放)。 各类消融研究的设计和结果。 训练硬件信息(单张RTX 4090 GPU)。 论文中引用的开源项目:论文依赖并对比了多个开源基准模型,包括SIREN、SPDER、WIRE、Gaussian Activated Networks等的官方实现。其实现基于PyTorch框架。 📌 核心摘要 问题:现代神经网络受限于固定激活函数,难以自适应地捕捉任务特定的高阶交互结构,且在表示高频信号时存在频谱偏差。 方法核心:提出“深度低秩分离神经网络”(LRNN)。其核心是每个神经元使用一个可学习的乘积结构激活函数,即多个可学习的一元变换的乘积,而非传统的固定标量激活。 新意:与传统MLP和固定激活的INR方法相比,LRNN的激活函数是高度灵活且数据依赖的,能自然地通过乘法合成丰富的频谱成分。该架构是标准MLP的推广,并建立了与低秩函数分解的理论联系。 主要实验结果:LRNN在多个任务上达到SOTA。在图像表示上,对1000张ImageNet图像达到40dB PSNR的成功率为100%,远超SIREN(1.8%)和SPDER(26.4%)。在音频表示上,MSE比基线低3-11倍。在PDE求解上,用SIREN 1/8的参数量实现同等或更低误差。在稀疏视图CT重建中,获得最高PSNR(29.13 dB)和SSIM(0.7455),且无伪影。 实际意义:提供了一种通用、表达能力强且理论清晰的神经网络构建模块,能显著提升信号表示、科学计算和成像任务的性能,有助于减少医疗CT的辐射剂量。 主要局限性:其反向传播需要存储中间乘积项,导致内存占用高于标准MLP;架构增加了每层的计算复杂度;虽然提供了消融实验,但对于如何在不同任务中最优地设置超参数(如分离秩r和投影宽度\(\bar{d}\))的指导不够充分。 🏗️ 模型架构 LRNN(Low-Rank Separated Neural Network)是一种对多层感知机(MLP)的推广。其核心创新在于用可学习的乘积结构激活函数替代了固定激活函数。 ...

2026-05-04 · 更新于 2026-05-19 · 2 min · 298 words

EmotionThinker: Prosody-Aware Reinforcement Learning for Explainable Speech Emotion Reasoning

📄 EmotionThinker: Prosody-Aware Reinforcement Learning for Explainable Speech Emotion Reasoning #语音情感识别 #强化学习 #语音大模型 #数据集 #可解释AI 🔥 8.0/10 | 前25% | #语音情感识别 | #强化学习 | #语音大模型 #数据集 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Dingdong Wang (香港中文大学、微软) 通讯作者:未明确说明 作者列表:Dingdong Wang (香港中文大学、微软), Shujie Liu (微软), Tianhua Zhang (未说明), Youjun Chen (未说明), Jinyu Li (微软), Helen Meng (香港中文大学) 💡 毒舌点评 亮点在于将RL范式引入语音情感推理,并提出了一个新颖的“渐进式信任感知”奖励机制来约束推理过程,思路清晰且具有启发性。短板在于其核心的“推理质量”高度依赖一个由合成数据训练的奖励模型和GPT-4o的自动评估,这种“用AI评AI”的闭环验证其可靠性和泛化性仍需更多元的外部检验。 🔗 开源详情 代码:论文提供了项目主页和GitHub仓库链接(https://github.com/dingdongwang/EmotionThinker)。 模型权重:论文中未明确说明是否会开源EmotionThinker或EmotionThinker-Base的模型权重。 数据集:论文构建了EmotionCoT-35K数据集,并描述了构建方法,预计会公开。 Demo:未提及。 复现材料:在附录中提供了详细的数据构建流程、模型训练细节(SFT和RL)、奖励模型训练数据构造、评估prompt等,复现信息较为充分。 依赖的开源项目:论文明确依赖并提及的开源项目包括:Qwen2.5-Omni(骨干模型)、WhiStress(重音检测)、wav2vec 2.0(说话人属性分类)、GPT-4o API(数据合成与评估)。 📌 核心摘要 这篇论文旨在解决当前语音大语言模型(SpeechLLMs)在情感理解上仅进行简单分类、缺乏可解释性推理的问题。论文首次尝试将情感识别(SER)重新定义为一个深度推理问题,并提出EmotionThinker框架。该框架的核心方法包括:1)构建了首个面向语音情感推理的Chain-of-Thought数据集EmotionCoT-35K;2)通过韵律感知的监督微调(SFT)构建了基础模型EmotionThinker-Base,显著提升了模型对音高、能量等韵律线索的感知能力;3)设计了GRPO-PTR强化学习策略,该策略在标准规则奖励(结果准确性)基础上,逐步引入并动态调整一个评估推理过程质量的奖励模型。实验表明,EmotionThinker在IEMOCAP、MELD等多个基准上,情感识别平均准确率达68.89%,推理质量(由GPT-4o评估的4个维度平均分)达3.98,均显著优于对比的16个开源SpeechLLM。该工作的实际意义是推动SER从“是什么”走向“为什么”,为构建可解释、可信赖的情感AI迈出了一步。主要局限性在于其推理监督和评估对大型语言模型的合成数据和自动评分依赖较重。 ...

2026-05-04 · 更新于 2026-05-19 · 2 min · 229 words

Investigating Modality Contribution in Audio LLMs for Music

📄 Investigating Modality Contribution in Audio LLMs for Music #音频大模型 #模型评估 #可解释AI #音乐理解 #多模态模型 ✅ 6.5/10 | 前50% | #模型评估 | #可解释AI | #音频大模型 #音乐理解 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Giovana Morais(纽约大学音乐与音频研究实验室) 通讯作者:未说明 作者列表:Giovana Morais(纽约大学音乐与音频研究实验室)、Magdalena Fuentes(纽约大学音乐与音频研究实验室,Integrated Design & Media) 💡 毒舌点评 亮点:首次将严谨的博弈论可解释性工具(MM-SHAP)引入音频大模型分析,量化了音频与文本模态的“功劳簿”,为“模型到底听没听”这个玄学问题提供了硬核分析框架。 短板:整个研究建立在一个被后续工作指出“测试的是LLM推理而非音频感知”的基准(MuChoMusic)上,这好比用一把可能不准的尺子去精确测量,结论的可靠性打了折扣;同时,分析结论停留在“音频贡献低”的现象描述,未能深入揭示音频信息在模型内部是如何被利用或“遗忘”的机制。 🔗 开源详情 代码:提供了代码仓库链接:https://github.com/giovana-morais/2025_investigating_mmshap。 模型权重:论文中未提及提供新的模型权重。分析使用了公开模型Qwen-Audio-Chat和MU-LLaMA。 数据集:分析使用公开的MuChoMusic基准数据集。 Demo:论文提到提供了交互式图表演示页面,但未给出具体链接。 复现材料:论文中提供了代码和基于公开模型与数据的分析框架,但缺乏详细的训练/评估超参数配置文件和分步指南。 引用的开源项目:依赖shap库进行Shapley值计算;依赖Qwen-Audio和MU-LLaMA的官方代码库。 📌 核心摘要 问题:音频大语言模型(Audio LLMs)声称能理解音频,但近期基准测试表明其性能可能过度依赖文本推理,音频模态是否被有效利用存疑。 方法核心:将MM-SHAP(一种基于Shapley值、与性能无关的度量)适配到音频领域,通过掩码音频波形和文本令牌来量化计算每个模态对模型输出的贡献度(A-SHAP, T-SHAP)。 新方法与创新点:首次将MM-SHAP框架应用于音频大模型,提出了针对音频的动态掩码策略,并将分析扩展到生成式任务(通过衡量答案token的对数变化)。 主要实验结果:在MuChoMusic基准上对比了Qwen-Audio和MU-LLaMA。发现性能更好的Qwen-Audio反而更依赖文本(A-SHAP约0.23),而MU-LLaMA模态利用更均衡(A-SHAP约0.50)。定性分析显示,即使整体音频贡献低,模型也能在特定token(如“铃声”)上正确定位相关音频片段。 模型 实验设置 准确率 A-SHAP MU-LLaMA MC-PI 0.30 0.50 ± 0.02 MC-NPI 0.32 0.47 ± 0.02 QwenAudio MC-PI 0.44 0.23 ± 0.02 MC-NPI 0.47 0.21 ± 0.02 表1:两个模型在不同实验设置下的准确率和平均音频模态贡献度(A-SHAP)。 MM-SHAP计算过程示意图 图1:MM-SHAP计算流程示意图。通过掩码所有可能的输入组合(近似为随机排列),并计算基础答案(未掩码推理)的对数变化来平均得到Shapley值。 定性分析示例 图2:QwenAudio定性分析示例。展示了对于输出token“bell”,输入文本和音频各区域的Shapley值贡献,绝对值高的区域(深色)对应模型认为重要的特征。 ...

2026-04-29 · 更新于 2026-05-19 · 1 min · 151 words

Explainable AI in Speaker Recognition -- Making Latent Representations Understandable

📄 Explainable AI in Speaker Recognition – Making Latent Representations Understandable #说话人识别 #层次聚类 #可解释AI #模型评估 ✅ 7.5/10 | 前25% | #说话人识别 | #层次聚类 | #可解释AI #模型评估 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yanze Xu (University of Surrey, Centre for Vision, Speech and Signal Processing) 通讯作者:Yanze Xu (yanze.xu@outlook.com) 作者列表:Yanze Xu (University of Surrey, Centre for Vision, Speech and Signal Processing), Wenwu Wang (University of Surrey, Centre for Vision, Speech and Signal Processing), Mark D. Plumbley (King’s College London, Department of Informatics) 💡 毒舌点评 亮点: 论文提出了一个从“分析层次聚类”到“语义解释层次结构”再到“诊断匹配性能”的完整XAI流水线,特别是L-score指标能直接指出是精度(簇内混杂)还是召回(类别遗漏)限制了匹配,诊断性强于F-score。 短板: 实验的“自我循环”论证较明显:用VoxCeleb1数据训练的模型,再用VoxCeleb1数据的标注(身份、国籍、性别)去评估其表示空间的层次聚类,结论的客观性和泛化能力存疑,且缺乏与传统注意力可视化等XAI方法的对比。 ...

2026-04-28 · 更新于 2026-05-19 · 2 min · 232 words

Psychologically-Grounded Graph Modeling for Interpretable Depression Detection

📄 Psychologically-Grounded Graph Modeling for Interpretable Depression Detection #语音情感识别 #图神经网络 #数据增强 #可解释AI #临床应用 🔥 8.0/10 | 前25% | #语音情感识别 | #图神经网络 | #数据增强 #可解释AI | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Rishitej Reddy Vyalla (与Kritarth Prasad贡献相等) 通讯作者:未说明 作者列表:Rishitej Reddy Vyalla(IIIT Delhi),Kritarth Prasad(IIIT Delhi),Avinash Anand(Singapore Institute of Technology),Erik Cambria(Singapore Institute of Technology;Nanyang Technological University;ELLIS Institute Finland;University of Turku),Shaoxiong Ji(未说明),Faten S. Alamri(Princess Nourah bint Abdulrahman University),Zhengkui Wang(未说明) 💡 毒舌点评 论文的亮点在于其临床心理学理论与图神经网络建模的扎实结合,提出的“心理表达单元”和人格感知上下文为抑郁症检测提供了有临床意义的解释性框架。但其短板也很明显:数据增强的“有效性”和“安全性”高度依赖人工验证(未提供量化结果)与LLM生成质量,且声称“超越GPT-5”的结论在缺乏更严格、更多样化基准测试的情况下,说服力有待商榷。 ...

2026-04-28 · 更新于 2026-05-19 · 3 min · 503 words

语音/音频论文速递 2026-04-28

语音/音频论文速递 2026-04-28 共分析 24 篇论文 ⚡ 今日概览 📥 抓取 24 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 2篇 ██ #语音伪造检测 2篇 ██ #音视频 1篇 █ #音频大模型 1篇 █ #语音生物标志物 1篇 █ #语音生成 1篇 █ #语音情感识别 1篇 █ #图神经网络 1篇 █ 📊 论文评分排行榜(24 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Hallo-Live: Real-Time Streaming Joint Audio-Video Avata 8.5分 前25% #音视频 🥈 HeadRouter: Dynamic Head-Weight Routing for Task-Adapti 8.0分 前25% #音频大模型 🥉 Comparison of sEMG Encoding Accuracy Across Speech Mode 8.0分 前25% #语音生物标志物 4. Scaling Properties of Continuous Diffusion Spoken Langu 8.0分 前25% #语音生成 5. Psychologically-Grounded Graph Modeling for Interpretab 8.0分 前25% #语音情感识别 6. Latent-Hysteresis Graph ODEs: Modeling Coupled Topology 8.0分 前25% #图神经网络 7. Meta-Ensemble Learning with Diverse Data Splits for Imp 8.0分 前25% #音频分类 8. CineAGI: Character-Consistent Movie Creation through LL 8.0分 前25% #跨模态 9. Listening with Time: Precise Temporal Awareness for Lon 8.0分 前25% #音频场景理解 10. An event-based sequence modeling approach to recognizin 7.5分 前25% #音乐理解 11. Speech Enhancement Based on Drifting Models 7.5分 前25% #语音增强 12. Talker-T2AV: Joint Talking Audio-Video Generation with 7.5分 前25% #语音合成 13. Explainable AI in Speaker Recognition – Making Latent 7.5分 前25% #说话人识别 14. Predictive Directional Selective Fixed-Filter Active No 7.5分 前25% #声源定位 15. RAS: a Reliability Oriented Metric for Automatic Speech 7.5分 前25% #语音识别 16. Robust Audio-Text Retrieval via Cross-Modal Attention a 7.5分 前25% #音频检索 17. RTCFake: Speech Deepfake Detection in Real-Time Communi 7.0分 前25% #语音伪造检测 18. MAGIC-TTS: Fine-Grained Controllable Speech Synthesis w 7.0分 前25% #语音合成 19. TTS-PRISM: A Perceptual Reasoning and Interpretable Spe 7.0分 前25% #语音合成评估 20. All That Glitters Is Not Audio: Rethinking Text Priors 6.5分 前50% #音频问答 21. Opening the Design Space: Two Years of Performance with 6.5分 前50% #音乐生成 22. Spectro-Temporal Modulation Representation Framework fo 6.5分 前50% #语音伪造检测 23. Come Together: Analyzing Popular Songs Through Statisti 6.5分 前50% #音乐信息检索 24. A Functorial Formulation of Neighborhood Aggregating De 6.5分 前25% #理论分析 📋 论文列表 🥇 Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation 🔥 8.5/10 | 前25% | #音视频 | #扩散模型 | #知识蒸馏 #流式处理 | arxiv ...

2026-04-28 · 更新于 2026-05-19 · 12 min · 2428 words