Edge-specific signal propagation on mature chromophore-region 3D mechanism graphs for fluorescent protein quantum-yield prediction

📄 Edge-specific signal propagation on mature chromophore-region 3D mechanism graphs for fluorescent protein quantum-yield prediction #蛋白质工程 #图神经网络 #特征工程 #分子属性预测 ✅ 7.5/10 | 前25% | #蛋白质工程 | #图神经网络 | #特征工程 #分子属性预测 | arxiv 学术质量 7.5/7 | 选题价值 6.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yuchen Xiong(厦门大学马来西亚分校,中国-东盟海洋学院) 通讯作者:Swee Keong Yeap(厦门大学马来西亚分校,中国-东盟海洋学院)、Steven Aw Yoong Kit(厦门大学马来西亚分校,中国-东盟海洋学院) 作者列表:Yuchen Xiong(厦门大学马来西亚分校,中国-东盟海洋学院)、Swee Keong Yeap(厦门大学马来西亚分校,中国-东盟海洋学院)、Steven Aw Yoong Kit(厦门大学马来西亚分校,中国-东盟海洋学院) 💡 毒舌点评 这篇论文的亮点在于其“物理直觉先行”的建模思路:不是让模型自己从数据中“黑箱”学习,而是先将荧光蛋白发光的核心——发色团(CRO)及其微环境——拆解成可解释的“通道-信号-区域”传播图,这比直接用通用大模型“炼丹”更有说服力。但短板也同样明显:代码和数据均需“申请获取”,这种“半开源”状态在2024年显得有些保守,极大限制了结果的快速复现和领域内的竞争性验证。 📌 核心摘要 问题:荧光蛋白的量子产率(QY)由成熟发色团及其三维微环境决定,但现有预测方法(如序列相似性、通用蛋白质语言模型)未能显式建模局部物理信号如何作用于发色团的特定区域。 方法核心:提出一种以发色团为中心的“机制图”算法。将蛋白质PDB结构转化为分类型的3D残基图,对成熟发色团进行轻量级规则注册并将其分解为酚盐、桥连、咪唑啉酮三个功能区域,然后通过特定的物理接触通道(本文因结构数据限制,仅激活了立体位阻和疏水接触)将周围残基的物理化学信号(如体积、柔性、电荷、氢键能力等)传播至各区域,形成可解释的富集特征。最终,从121个候选特征中筛选出52个非身份特征池,并训练波段特异性的ExtraTrees回归模型。 创新性:与已有方法相比,其创新在于:① 问题表示从序列/通用图转变为以成熟发色团为锚点的三维机制图;② 引入“边缘特定信号传播”,将物理接触路径(通道)与传递的物化信号解耦,并明确作用区域,使每个特征都成为一个“通道-信号-区域”元组;③ 通过系统移除残基身份特征(如is_Tyr),构建了一个更具迁移性的非身份特征池,以提升对远缘同源蛋白的泛化能力。 主要结果:在包含531个荧光蛋白的基准数据集上,该方法在随机交叉验证中取得了最佳的预测性能,优于Band mean, ESM-C, SaProt等基线。关键优势体现在远缘同源性评估中,其在最困难的远缘区间(序列相似性<50%)性能显著高于所有基线。在需要筛选高/低QY蛋白的Top-K任务中,该方法也表现最佳。稳定选择的特征形成了可解释的波段特异性模式。 ...

2026-05-08 · 更新于 2026-05-19 · 3 min · 449 words

PC-MNet: Dual-Level Congruity Modeling for Multimodal Sarcasm Detection via Polarity-Modulated Attention

📄 PC-MNet: Dual-Level Congruity Modeling for Multimodal Sarcasm Detection via Polarity-Modulated Attention #多模态讽刺检测 #对比学习 #图神经网络 #多模态模型 #语音情感识别 🔥 8.0/10 | 前25% | #多模态讽刺检测 | #对比学习 | #图神经网络 #多模态模型 | arxiv 学术质量 6.2/7 | 选题价值 1.0/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Maoheng Li(澳门科技大学计算机科学与工程学院) 通讯作者:Ling Zhou(澳门科技大学计算机科学与工程学院),Xiaohua Huang(南京工程学院欧路学院) 作者列表: Maoheng Li(澳门科技大学计算机科学与工程学院) Ling Zhou(澳门科技大学计算机科学与工程学院) Xiaohua Huang(南京工程学院欧路学院) Rubing Huang(澳门科技大学计算机科学与工程学院,澳门科技大学珠海研究院) Wenming Zheng(东南大学儿童发展与学习科学教育部重点实验室,东南大学生物科学与医学工程学院) Guoying Zhao(芬兰奥卢大学机器视觉与信号分析中心) 💡 毒舌点评 这篇论文在针对讽刺检测任务的“矛盾建模”思路上做出了精巧的设计,极性调制注意力机制堪称“对症下药”,比简单拼接或计算相似性的方法高明不少。然而,其性能严重依赖于提供的连续情感值(Valence)标签进行冷启动,这在现实场景中往往是稀缺甚至不存在的监督信号,极大地限制了该模型的通用性和可迁移性。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中提及了以下数据集,但未提供具体下载链接。 MUStARD [3] MUStARD++ [22] MUStARD++ Balanced [37] Demo:论文中未提及 复现材料:论文提供了详细的实现细节,包括模型架构、超参数设置(如编码维度 d_enc=512,极性空间维度 d_p=16,图卷积层数 L_mac=2,上下文窗口 J=3 等)以及优化策略(两阶段优化、损失权重 λ_val=1.0, λ_cls=0.2, λ_con=0.8 等),这些信息构成了复现材料。但未提供预训练检查点或完整配置文件的直接链接。 论文中引用的开源项目: BERT:论文中使用了BERT-large模型。主要开源仓库:https://github.com/huggingface/transformers Wav2Vec 2.0:论文中使用了Wav2Vec 2.0-base模型。主要开源仓库:https://github.com/facebookresearch/wav2vec2 和 https://github.com/huggingface/transformers YOLOv8:论文中用于视觉目标检测。主要开源仓库:https://github.com/ultralytics/ultralytics CLIP:论文中使用了CLIP ViT-B/32模型。主要开源仓库:https://github.com/openai/CLIP 和 https://github.com/huggingface/transformers GPT-4o:作为基线模型被比较,但论文未提供其使用代码链接。 Llama 3-8B:作为基线模型被比较。主要开源仓库:https://github.com/meta-llama/llama Qwen 2-7B:作为基线模型被比较。主要开源仓库:https://github.com/QwenLM/Qwen2 论文中提到的其他基线模型(如ESAM [33])的代码,论文作者在文中提到“我们显式复现了最近的ESAM [33]模型”,但未提供具体链接。 补充信息 以下是对已有分析结果的补充,这些信息在原始全文中有明确陈述,但未在深度分析中得到体现。 ...

2026-05-05 · 更新于 2026-05-19 · 3 min · 464 words

语音/音频论文速递 2026-05-05

语音/音频论文速递 2026-05-05 共分析 33 篇论文 ⚡ 今日概览 📥 抓取 33 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音乐生成 5篇 █████ #音频分类 3篇 ███ #语音识别 2篇 ██ #音视频 2篇 ██ #大语言模型 1篇 █ #多模态讽刺检测 1篇 █ #多模态幻觉缓解 1篇 █ #模型评估 1篇 █ 📊 论文评分排行榜(33 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Flexi-LoRA with Input-Adaptive Ranks: Efficient Finetun 8.5分 前25% #大语言模型 🥈 Dimensionality-Aware Anomaly Detection in Learned Repre 8.0分 前25% #语音识别 🥉 PC-MNet: Dual-Level Congruity Modeling for Multimodal S 8.0分 前25% #多模态讽刺检测 4. HARMES: A Multi-Modal Dataset for Wearable Human Activi 8.0分 前25% #音频分类 5. When Audio-Language Models Fail to Leverage Multimodal 7.5分 前50% #语音识别 6. Mitigating Multimodal LLMs Hallucinations via Relevance 7.5分 前25% #多模态幻觉缓解 7. Toward Fair Speech Technologies: A Comprehensive Survey 7.5分 前25% #模型评估 8. Virtual Speech Therapist: A Clinician-in-the-Loop AI Sp 7.5分 前25% #语音治疗系统 9. Toward Fine-Grained Speech Inpainting Forensics:A Datas 7.5分 前25% #音频深度伪造检测 10. RenCon 2025: Revival of the Expressive Performance Rend 7.5分 前25% #音乐生成 11. Spoken Language Identification with Pre-trained Models 7.5分 前25% #说话人识别 12. TMD-Bench: A Multi-Level Evaluation Paradigm for Music- 7.5分 前25% #音乐生成 13. Khala: Scaling Acoustic Token Language Models Toward Hi 7.5分 前25% #音乐生成 14. Delayed Commitment for Representation Readiness in Stag 7.5分 前25% #音视频 15. MG-Former: A Transformer-Based Framework for Music-Driv 7.5分 前25% #音乐生成 16. Integrating acoustic tapping with a UAV platform for ti 7.5分 前25% #音频分类 17. NH-CROP: Robust Pricing for Governed Language Data Asse 7.5分 前25% #强化学习 18. When Attention Collapses: Residual Evidence Modeling fo 7.5分 前25% #音频分离 19. BRITE: A Benchmark for Reliable and Interpretable T2V E 7.5分 前25% #基准测试 20. Neck-Learn: Attention-Based Multiple Instance Learning 7.0分 前25% #语音生物标志物 21. Tibetan-TTS:Low-Resource Tibetan Speech Synthesis with 7.0分 前50% #语音合成 22. MelShield: Robust Mel-Domain Audio Watermarking for Pro 7.0分 前25% #音频安全 23. MindMelody: A Closed-Loop EEG-Driven System for Persona 7.0分 前50% #音乐生成 24. Multimodal Confidence Modeling in Audio-Visual Quality 7.0分 前25% #音视频 25. The AECM Algorithm for Deterministic Maximum Likelihood 7.0分 前50% #声源定位 26. The 2026 ACII Dyadic Conversations (DaiKon) Workshop &a 7.0分 前50% #语音情感识别 27. Period-conscious Time-series Reconstruction under Local 7.0分 前25% #时间序列重构 28. OceanPile: A Large-Scale Multimodal Ocean Corpus for Fo 7.0分 前25% #数据集 29. Private Speech Classification without Collapse: Stabili 6.5分 前25% #音频分类 30. MedMosaic: A Challenging Large Scale Benchmark of Diver 6.5分 前25% #音频问答 31. Artificial intelligence language technologies in multil 6.5分 前50% #多语言健康沟通 32. MultiSense-Pneumo: A Multimodal Learning Framework for 6.5分 前50% #肺炎筛查 33. Multi-Axis Speech Similarity via Factor-Partitioned Emb 6.0分 前50% #音频检索 📋 论文列表 🥇 Flexi-LoRA with Input-Adaptive Ranks: Efficient Finetuning for Speech and Reasoning Tasks 🔥 8.5/10 | 前25% | #大语言模型 | #参数高效微调 | #问答 #数学推理 | arxiv ...

2026-05-05 · 更新于 2026-05-19 · 19 min · 3988 words

A Robust KNN Approach for Multi-Class Laryngeal Disease Detection using MFCC Features

📄 A Robust KNN Approach for Multi-Class Laryngeal Disease Detection using MFCC Features #音频分类 #信号处理 #图神经网络 #医疗AI #鲁棒性 ✅ 7.5/10 | 前25% | #音频分类 | #信号处理 | #图神经网络 #医疗AI 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Pingping Wu(南京审计大学工程审计学院) 通讯作者:未说明 作者列表: Pingping Wu(南京审计大学工程审计学院) Weijie Gao(南京审计大学计算机科学学院) Haibing Chen(江苏省人民医院耳鼻喉科) 💡 毒舌点评 本文将图神经网络(GNN)引入传统的K近邻(KNN)分类框架,为病理语音特征建模提供了一个有趣的视角,这是其最亮眼的创新点。然而,论文对所提出图增强KNN中GNN的具体实现(如层数、聚合器类型、注意力机制)和关键超参数(如K值选择)的讨论严重不足,使得“图”这一核心概念的魔力显得有些“黑箱”,也给复现设置了不必要的障碍。此外,使用一个仅320例、未公开的临床数据集得出的结论,其泛化能力有待未来更大规模数据的验证。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:数据集来自合作医院,论文未提及是否公开或获取方式。 Demo:未提供在线演示。 复现材料:论文详细说明了MFCC提取参数(采样率、帧长、帧移、滤波器组数量)、数据划分比例、交叉验证方法以及实验的软硬件环境(Table 2),这些信息有助于在相同条件下复现实验。 引用的开源工具:论文明确提到了使用 librosa 库(版本0.10)进行音频处理和特征提取。 总结:论文中未提及开源计划(代码、数据、模型均未公开)。 📌 核心摘要 问题:喉部疾病(如癌症、息肉、结节、白斑)的早期无创检测对改善预后至关重要,而传统的内窥镜检查受限于设备和专家。现有研究多集中于简单的二分类,对多种疾病的精细分类探索不足。 方法核心:提出一种图增强的KNN框架。首先从语音信号中提取MFCC特征序列,然后为每个样本构建基于特征相似度的K近邻图,最后利用图神经网络(GNN)在图上进行信息聚合,学习更具判别性的表示,最终进行分类。 创新点:1) 首次将多种非癌症性喉部病变(息肉、结节、白斑)纳入统一的五分类框架进行研究;2) 将图神经网络与KNN结合,通过建模局部拓扑关系来增强传统距离度量的判别能力,这是对标准KNN分类器的一种结构性改进。 主要结果:在自建的320例患者数据集上,该方法在二分类(健康 vs 病变)任务中达到96%的准确率,在五分类(健康、癌症、息肉、结节、白斑)任务中达到88%的准确率,均优于包括CNN和传统KNN在内的基线模型。关键数据对比如下表所示: 模型 二分类准确率 五分类准确率 传统KNN 0.94 0.83 CNN 0.94 0.80 本文方法 (Ours) 0.96 0.88 实际意义:该研究验证了基于语音的、结合图结构的机器学习模型在非侵入式喉部疾病筛查中的潜力,为临床早期诊断提供了新的技术思路。 主要局限性:数据集规模较小(320例)且未公开,模型泛化性存疑;对图神经网络部分的实现细节描述不够深入,技术贡献的清晰度和可复现性有所折扣。 🏗️ 模型架构 本文提出的模型整体流程(如图1所示)可分为四个主要阶段: ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 219 words

DGSDNet: Dual-Graph Spectral Diffusion Network for Incomplete Multimodal Emotion Recognition in Conversations

📄 DGSDNet: Dual-Graph Spectral Diffusion Network for Incomplete Multimodal Emotion Recognition in Conversations #语音情感识别 #扩散模型 #图神经网络 #多模态模型 #缺失模态补全 🔥 8.0/10 | 前25% | #语音情感识别 | #扩散模型 | #图神经网络 #多模态模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Mingjian Yang(电子科技大学,智能协同计算实验室) 通讯作者:Wen Yin(电子科技大学,智能协同计算实验室) 作者列表:Mingjian Yang(电子科技大学,智能协同计算实验室)、Yong Wang(电子科技大学,智能协同计算实验室)、Peng Liu(电子科技大学,智能协同计算实验室)、Wen Yin†(电子科技大学,智能协同计算实验室) 💡 毒舌点评 亮点: 精准抓住了现有方法在“保持对话图谱结构”与“对齐特征分布”之间的核心矛盾,并通过将扩散过程严格约束在谱空间(特征值扩散)来优雅地同时解决这两个问题,设计思路清晰且有理论依据。 短板: 门控谱分类(GSC)模块中的熵加权机制更像是一种启发式的不确定性融合,对于“说话人连续性”和“情感方差”等关键对话动态的显式建模略显不足,可能限制了其在更复杂交互场景下的性能天花板。 🔗 开源详情 代码: 论文提供了开源代码仓库链接:https://github.com/Yyyy-aizhien/DGSDNet。 模型权重: 论文中未提及是否公开预训练模型权重。 数据集: 论文使用的IEMOCAP和CMU-MOSI为公开数据集,但论文中未提供获取或预处理脚本的具体说明。 Demo: 论文中未提及提供在线演示。 复现材料: 论文提供了基础实现细节(优化器、学习率、Dropout率等),但缺少训练步数、批量大小、特征提取模型版本、具体GPU环境等关键复现信息。 论文中引用的开源项目: 论文中未明确列出所依赖的特定开源工具或模型库(如特征提取器)。 📌 核心摘要 要解决的问题: 现实对话场景中,模态(文本、音频、视觉)缺失导致多模态情感识别性能严重下降。现有基于图或扩散的方法存在“语义不连续”(破坏图结构或改变特征分布)和“静态融合”(固定权重无法适应动态变化)两大挑战。 方法核心: 提出DGSDNet框架,包含双谱扩散(DSD)模块和门控谱分类(GSC)模块。DSD将对话图谱(说话人图和时序图)分解为拓扑不变的特征向量和可扩散的特征值,并在特征值空间施加扩散过程以恢复缺失模态,从而同时保持图结构并生成分布对齐的特征。GSC模块基于节点特征的熵进行自适应门控,动态融合双图谱信息。 与已有方法相比新在哪里: 区别于直接在特征空间或邻接矩阵上扩散的方法,本工作首次将扩散过程严格限制在图谱的谱空间(对角特征值矩阵)上进行,理论上避免了扩散过程破坏图的局部拓扑。同时,提出了基于重建不确定性的动态门控融合机制,替代了传统的静态加权。 主要实验结果: 在IEMOCAP和CMU-MOSI两个基准数据集上,当模态缺失率从0.0到0.7变化时,DGSDNet的平均加权F1分数(WAF1)分别达到77.60% 和 79.7%,超过了所有对比的SOTA方法(如GCNet, SDR-GNN, DiCMoR)。消融实验证实了说话人图、时序图、双谱扩散和门控分类模块的有效性,移除DSD模块性能下降最显著。 实际意义: 提升了多模态对话系统在传感器故障、隐私限制等真实复杂环境下的情感理解鲁棒性,对智能客服、人机交互、心理健康监测等应用有潜在价值。 主要局限性: 1) 未处理异步多模态序列和更开放域的对话场景。2) 门控融合模块对对话动态的建模相对简单。3) 仅在两种标准数据集上验证,泛化性有待进一步考察。 🏗️ 模型架构 DGSDNet的架构(如图2所示)分为三个主要阶段: ...

2026-04-29 · 更新于 2026-05-19 · 3 min · 438 words

Dynamic Spectrogram Analysis with Local-Aware Graph Networks for Audio Anti-Spoofing

📄 Dynamic Spectrogram Analysis with Local-Aware Graph Networks for Audio Anti-Spoofing #音频深度伪造检测 #图神经网络 #自监督学习 #动态卷积 🔥 8.5/10 | 前10% | #音频深度伪造检测 | #图神经网络 | #自监督学习 #动态卷积 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yingdong Li(中山大学计算机学院) 通讯作者:Kun Zeng(中山大学计算机学院, zengkun2@mail.sysu.edu.cn) 作者列表:Yingdong Li(中山大学计算机学院)、Chengxin Chen(中国移动互联网公司,中国移动通信集团公司)、Dong Chen(中山大学计算机学院)、Nanli Zeng(中国移动互联网公司,中国移动通信集团公司)、Kun Zeng(中山大学计算机学院) 💡 毒舌点评 亮点在于将动态卷积与物理视角的多视图频谱分析相结合,并为强大的AASIST图网络框架增加了巧妙的局部信息聚合机制(LVM和SRM),技术融合顺畅且针对性强。短板是双分支前端(SSL + 频谱)不可避免地带来了计算开销,论文未对模型效率(如参数量、推理速度)进行分析或讨论,这在实际部署中可能是一个考量点。 🔗 开源详情 代码:论文中提供了代码仓库链接:https://github.com/lydsera/LocalSpoofDetect。 模型权重:论文中未提及是否公开模型权重。 数据集:使用的是公开数据集(ASVspoof 2019 LA, CFSD),论文未提及自行发布新数据集。 Demo:论文中未提及提供在线演示。 复现材料:论文中提供了详尽的实现细节(见3.2节),包括音频采样率、频谱图参数、SSL模型处理方式、训练优化器、学习率、批大小、损失函数、数据增强方法(RawBoost)以及训练硬件(A100 GPU),为复现提供了充分信息。 引用的开源项目: wav2vec 2.0 (XLS-R模型) RawNet2 AASIST (原始架构) RawBoost (数据增强方法) 📌 核心摘要 问题:针对日益多样的语音深度伪造技术,现有音频反欺骗方法在模型复杂度和鲁棒性之间难以取得平衡,且固定的特征提取方式难以自适应地捕获不同尺度的伪造痕迹。 方法核心:提出一个双分支前端与增强图网络后端相结合的模型。前端包含自监督(SSL)分支和新设计的频谱分析分支。频谱分支采用“对称性引导内核选择(SKS)”块,通过物理视角(时间/频谱对称性)分析生成上下文图,动态加权不同尺度的卷积核。后端在AASIST框架上新增了“局部变化主节点(LVM)”和“稀疏残差主节点(SRM)”,以建模精细的局部伪造模式。 创新点:(i) 利用频谱对称性指导动态卷积,自适应捕获多尺度伪造伪影;(ii) 采用残差式快捷连接简化前端特征融合,无需复杂融合模块;(iii) 增强图神经网络后端,引入LVM和SRM节点以聚合局部判别信息。 实验结果:在ASVspoof 2019 LA和中文伪造语音数据集(CFSD)上取得了当前最优性能,EER分别为0.08%和0.10%,min t-DCF为0.0024。消融实验证实了每个提出组件的有效性。 实际意义:该模型能有效、鲁棒地检测合成与伪造语音,可增强语音生物识别等系统的安全性,对抵御日益逼真的语音伪造攻击具有重要价值。 主要局限性:未分析模型的计算效率(参数量、FLOPs、推理延迟),可能限制其在资源受限场景的应用;双分支架构对SSL预训练模型的依赖性较强。 🏗️ 模型架构 模型整体架构为双分支前端 + 增强图网络后端,具体流程如下: ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 333 words

Few-Shot Recognition of Audio Deepfake Generators using Graph-Based Prototype Adaptation

📄 Few-Shot Recognition of Audio Deepfake Generators using Graph-Based Prototype Adaptation #音频深度伪造检测 #少样本学习 #图神经网络 #音频取证 ✅ 7.5/10 | 前25% | #音频深度伪造检测 | #图神经网络 | #少样本学习 #音频取证 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yupeng Tan (广西大学计算机、电子信息学院,广西人工智能学院) 通讯作者:Wei Xie (广西大学计算机、电子信息学院,广西人工智能学院) 作者列表:Yupeng Tan (广西大学计算机、电子信息学院,广西人工智能学院),Wei Xie (广西大学计算机、电子信息学院,广西人工智能学院) 💡 毒舌点评 本文巧妙地将图神经网络与转导学习范式结合,用于解决少样本音频深度伪造生成器识别中因数据稀缺导致的原型估计偏差问题,技术路线完整且实验结果显著优于基线。然而,其核心思想——利用无标签数据(查询集)的结构信息来优化有标签数据的原型表示——在少样本学习领域并非首创(如标签传播等),创新深度有限,且论文未提供任何开源代码或模型权重,对后续研究的可复现性构成障碍。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及公开模型权重。 数据集:使用了公开数据集ASVspoof2019 LA和MLAAD,论文未提及额外数据。 Demo:未提供在线演示。 复现材料:论文提供了一些关键的超参数(如学习率、图top-k值、episode采样数),但缺少训练硬件信息、完整代码配置、权重文件以及Focal Loss和对比损失中的具体超参数(如γ, m)。 依赖的开源项目/模型: CLAP 音频编码器(论文引用[17]) 图卷积网络基础架构(论文引用[18]) Focal Loss(论文引用[19]) 对比学习框架(论文引用[20]) 消融实验中使用的RawNet3(论文引用[29]) 总体评价:论文中未提及完整的开源计划。 📌 核心摘要 问题:在音频取证中,识别深伪造音频的具体生成器类型至关重要,但新兴生成器的有标签样本极少,传统少样本方法因数据稀疏导致原型估计偏差大、特征区分度低。 方法:提出基于图的原型适应框架。在每个少样本任务中,将支持集和查询集样本构建成一个联合图(基于样本间距离的稀疏连接),通过图适应模块进行信息传播和特征精炼,再估计更可靠的原型进行分类。 创新:1)采用转导学习范式,联合利用有标签和支持样本构建任务特定图;2)设计图适应模块,通过图卷积网络精炼特征并校准原型,缓解原型偏差;3)在元测试阶段引入对比损失进行自适应。 实验:在ASVspoof2019 LA和MLAAD数据集上的5-way设置中,GPA方法在所有shot数下均取得最优准确率,例如在ASV2019LA上5-shot相比最强基线提升3.17%,10-shot提升6.12%,20-shot提升8.28%。消融实验验证了各组件的必要性。 意义:为应对新出现的音频深伪造威胁提供了一种有效的少样本识别方案,增强了音频取证系统对未知生成器的适应能力。 局限性:方法依赖预训练的CLAP编码器和特定的图构建策略,计算复杂度随样本数增加;实验仅在两个数据集上进行,对更多样化生成器和真实场景的泛化能力有待验证。 🏗️ 模型架构 模型架构图如图2所示。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 307 words

Graph-Based Emotion Consensus Perception Learning for Multimodal Emotion Recognition in Conversation

📄 Graph-Based Emotion Consensus Perception Learning for Multimodal Emotion Recognition in Conversation #多模态情感识别 #图神经网络 #对比学习 #会话理解 #情感计算 ✅ 7.5/10 | 前25% | #多模态情感识别 | #图神经网络 | #对比学习 #会话理解 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Huan Zhao (论文中作者列表首位,但未明确标注“第一作者”,因此按惯例推断) 通讯作者:Yingxue Gao (论文明确标注“*Corresponding authors: Y. Gao”) 作者列表:Huan Zhao (湖南大学计算机科学与电子工程学院)、Gong Chen (湖南大学计算机科学与电子工程学院)、Zhijie Yu (湖南大学计算机科学与电子工程学院)、Yingxue Gao* (湖南大学计算机科学与电子工程学院) 💡 毒舌点评 该论文的亮点在于其“共识感知学习模块”设计得相当精巧,通过原型学习和说话人对比损失双管齐下,直击多模态情感识别中“模态冲突”这一核心痛点,理论动机清晰且有效。短板在于其创新更多是增量式的改进而非范式突破,且“共识原型”的学习本质上还是依赖于有监督的类别标签,对于完全未知的、细粒度的或混合情感表达,其泛化能力有待进一步验证。 🔗 开源详情 代码:是。论文提供了GitHub代码仓库链接:https://github.com/Clancyy/ConGraNet。 模型权重:未提及。论文未说明是否公开预训练模型权重。 数据集:未提及。论文使用的是公开数据集(IEMOCAP, MELD),但未说明是否提供处理后的数据或额外资源。 Demo:未提及。论文未提供在线演示链接。 复现材料:提供了部分复现材料,包括: 关键的超参数配置表(表1)。 模型架构描述和公式。 代码仓库(假设包含实现)。 但未提供:训练日志、最终检查点、详细的环境配置文档。 论文中引用的开源项目:论文在参考文献中引用了多个开源数据集(如IEMOCAP [17], MELD [18])和基线模型代码(如DialogueRNN [19], DialogueGCN [21]等)。 📌 核心摘要 要解决的问题:现有对话多模态情感识别(MERC)方法常忽略同一情感类别在不同模态(如声音、语言、表情)下所体现的“情感共识”,导致模态间冲突信号影响识别精度,且难以处理类别混淆和样本不均衡问题。 方法核心:提出图基情感共识感知(GECP)框架。其核心是共识感知学习(CAL)模块,包含两阶段:1) 构建多模态传播图以捕获跨模态共享信号与特有差异;2) 通过情感共识学习单元将各模态信号与共同的“情感原型”对齐,提炼类别本质特征。 与已有方法相比新在何处:不同于以往主要关注上下文依赖或简单融合的方法,GECP显式地建模并学习了类别级的情感共识原型,并通过引入说话人引导的对比学习损失,在对齐跨模态语义的同时,保留了个体表达的多样性。 主要实验结果:在IEMOCAP和MELD数据集上,GECP均取得了最佳性能。 IEMOCAP:Weighted-F1 72.85%, Accuracy 72.91%, 较之前最优模型(Frame-SCN)分别提升约1.85%和1.93%。 MELD:Weighted-F1 66.96%, Accuracy 68.08%, 较之前最优模型(FrameERC)分别提升约0.33%和0.46%。消融实验证明,移除CA单元或任一损失函数(Lc, LSpk)都会导致性能下降,其中移除CA单元下降最明显。 实际意义:提升了机器在复杂对话场景中理解人类情感的能力,尤其在处理情感类别易混淆和样本分布不平衡的情况下更为有效,可直接应用于提升智能客服、社交机器人等系统的交互体验。 主要局限性:论文中未深入讨论。潜在局限可能包括:对动态演变的情感共识建模不足(未来工作已提及)、模型复杂度较高、以及在跨文化、跨语言场景下的泛化能力未被验证。 🏗️ 模型架构 图1展示了GECP的总体架构,其处理流程如下: ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 342 words

Graph-Biased EEG Transformers for Silent Speech Decoding

📄 Graph-Biased EEG Transformers for Silent Speech Decoding #语音生物标志物 #预训练 #图神经网络 #脑机接口 #小样本学习 ✅ 6.5/10 | 前25% | #语音生物标志物 | #预训练 | #图神经网络 #脑机接口 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -1.0 | 置信度 中 👥 作者与机构 第一作者:Saravanakumar Duraisamy(University of Luxembourg) 通讯作者:Luis A. Leiva(University of Luxembourg) 作者列表:Saravanakumar Duraisamy(University of Luxembourg), Eug´enie J. M. Delaunay(University of Luxembourg), Luis A. Leiva(University of Luxembourg) 💡 毒舌点评 亮点:论文精准地指出了当前EEG Transformer在静默语音解码任务上“水土不服”的关键原因——缺乏对EEG电极物理布局和频段特异性的先验建模,并提出了一个即插即用的图偏置模块(Graphormer++)来优雅地解决这个问题,思路清晰且有神经科学依据。短板:受试者内解码准确率仅从20%的瞎猜水平提升至约29%,绝对值仍较低;更致命的是,该方法完全无法解决跨受试者泛化的难题(仍为20%),且论文未开源代码,极大限制了其作为可复现基准的价值。 🔗 开源详情 论文中未提及任何开源计划,具体包括: 代码:论文中未提及代码链接。 模型权重:论文中未提及公开的模型权重。 数据集:论文使用了两个公开数据集(BCI Competition 2020 Dataset [19] 和 Overt/Covert Speech Dataset [20]),但未提供获取方式或统一数据加载代码。 Demo:论文中未提及在线演示。 复现材料:论文提供了算法伪代码(Algorithm 1)、详细的超参数表(Table 1)和数据集描述,为复现提供了文本依据。 引用的开源项目:论文未明确列出依赖的开源工具或模型代码库,仅引用了作为对比的预训练模型名称(EEGPT, LaBraM, NeuroLM)。 📌 核心摘要 要解决什么问题:预训练的EEG Transformer(如EEGPT, LaBraM)在应用于静默语音解码任务时,即使经过微调,性能也接近随机猜测(~20%)。根本原因是模型分词方式无法保持电极身份和跨电极关系,导致表示不匹配。 方法核心是什么:提出Graphormer++,一个可插入任何预训练EEG Transformer编码器的模块。它首先将编码器的patch token按电极进行池化对齐,然后构建一个偏置张量,包含基于电极空间邻近度和四个频段(θ, α, β, γ)的相位锁定值(PLV)的先验知识。该偏置被用于调整Graphormer层中注意力头的得分,引导模型关注具有生理合理性的电极交互。 与已有方法相比新在哪里:不同于直接微调或简单添加分类头,该方法显式地将EEG的拓扑结构(空间)和功能连接(频段同步性)作为归纳偏置注入Transformer的注意力机制,实现了对预训练模型的结构化适配。 主要实验结果如何:在两个公开的静默语音数据集上,Graphormer++在受试者内设置下,将基于EEGPT骨干的平均分类准确率从微调后的约22%提升至约29.4%。在受试者间设置下,所有方法性能均停留在随机水平(~20%)。注意力图分析显示,该方法使模型更关注与语音相关的额叶、中央和颞区。关键实验结果表格如下: 表2. Graphormer++在不同骨干和设置下的准确率(%) ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 351 words

Grey-Box Prompt Tuning With Graph Alignment for Speech-Language Models

📄 Grey-Box Prompt Tuning With Graph Alignment for Speech-Language Models #语音识别 #图神经网络 #提示调优 #语音大模型 🔥 8.0/10 | 前25% | #语音识别 | #图神经网络 | #提示调优 #语音大模型 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Yuhang Lu(广西师范大学,教育区块链与智能技术重点实验室) 通讯作者:Li-e Wang*(广西师范大学,教育区块链与智能技术重点实验室);Linghui Meng†(东南大学,计算机科学与工程学院) 作者列表:Yuhang Lu(广西师范大学,教育区块链与智能技术重点实验室)、Li-e Wang*(广西师范大学,教育区块链与智能技术重点实验室)、Xianxian Li(广西师范大学,教育区块链与智能技术重点实验室)、Feng Yu(广西师范大学,教育区块链与智能技术重点实验室)、Linghui Meng†(东南大学,计算机科学与工程学院) 💡 毒舌点评 这篇论文的亮点在于其精巧的系统设计,将图神经网络用于声学-文本的细粒度对齐,并辅以复杂的无梯度优化策略,展现了扎实的工程创新和在“灰色盒”这一受限场景下解决实际问题的能力。但其优化策略(三重损失、Dirichlet先验、CMA-ES)的复杂度较高,且论文未提供任何开源代码,对于想快速复现或验证其优越性的读者而言,这无疑是一道高墙,使得漂亮的实验结果略显“空中楼阁”。 🔗 开源详情 根据论文内容,未提及任何开源计划。具体包括: 代码:论文中未提及代码仓库链接。 模型权重:未提及公开训练好的适配器或提示的权重。 数据集:使用了LLaSO语料子集,但未说明该子集是否公开及获取方式。 Demo:未提供在线演示。 复现材料:给出了部分超参数设置(表1),但缺失了大量关键细节(如CMA-ES参数、损失函数权重初始值、自适应调度具体公式等)。 引用的开源项目:论文中提及并依赖了Llama-3.2-3B-Instruct、HuBERT等开源模型/工具。 📌 核心摘要 本文旨在解决语音-语言模型(SLM)在灰色盒场景下(即模型参数冻结,仅有有限接口可注入提示)适配下游任务时面临的两大挑战:无梯度提示调优的低效不稳定,以及声学-文本对齐不足。为此,作者提出了一个轻量级的提示调优框架,其核心包含两个阶段:1) 图引导的跨模态对齐:利用图注意力网络(GAT)在联合表征空间中构建一个异构图,将声学节点和文本节点通过注意力边动态连接与聚合,实现鲁棒的跨模态对齐与融合,并通过一个对齐损失(公式10)进行监督。2) 渐进式无梯度优化策略:设计了一个两阶段优化目标(公式11),结合任务交叉熵、温度缩放蒸馏(公式12)和自适应高置信度一致性约束(公式14),并利用Dirichlet先验自适应调整各项权重,以稳定地优化提示。提示本身通过CMA-ES在低维子空间中联合生成声学和文本前缀。实验在LLaSO语料库的子集上进行,涉及语音识别(ASR)和多个副语言任务。结果显示,本方法在灰色盒约束下取得了优异性能(例如,ASR的WER为0.09,优于部分主流模型),同时在达到目标WER=0.15时,其时间-计算-内存开销优于基于强化学习的提示调优方法(RL-Prompt),并接近参数高效微调方法LoRA。消融实验证明了图对齐模块能有效提升语义级任务(如NER)的性能。本文的实际意义在于提供了一种在不修改主干参数的前提下,低成本、高效率适配语音-大语言模型的新范式。主要局限性在于优化策略的复杂性,以及论文未开源代码和详细复现信息。 🏗️ 模型架构 本文提出的“Grey-Box Prompt Tuning with Graph Alignment”框架旨在冻结的语音-语言模型(如Llama)中注入可学习的提示,以实现下游任务适配。其整体架构可分为图引导的跨模态对齐阶段和提示调优阶段。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 357 words