Paediatric-HGNN: A Hybrid Heterogeneous Graph Neural Network for Detecting Disfluency in Children's Speech via Multiscale Acoustic Fusion

📄 Paediatric-HGNN: A Hybrid Heterogeneous Graph Neural Network for Detecting Disfluency in Children's Speech via Multiscale Acoustic Fusion #语音合成 #语音增强 #图神经网络 #多模态模型 #数据增强 6.5/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.5/10 | 后50% | #语音合成 | #图神经网络 | #语音增强 #多模态模型 | arxiv 👥 作者与机构 Rashini Liyanarachchi, Rachael Mackay, Alison Short, Aditya Joshi, Erik Meijering 1 University of New South Wales (UNSW), Sydney, Australia 2 Western Sydney University, Sydney, Australia 3 Resourced Music Therapy, Sydney, Australia ...

2026-06-09 · 更新于 2026-06-12 · 3 min · 447 words

语音/音乐/音频论文速递 2026-06-09

语音/音乐/音频论文速递 2026-06-09 共分析 48 篇论文 ⚡ 今日概览 📥 抓取 48 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 10篇 ██████████ #语音识别 9篇 █████████ #自监督学习 3篇 ███ #多模态模型 3篇 ███ #语音增强 2篇 ██ #音频生成 2篇 ██ #说话人验证 2篇 ██ #大语言模型 1篇 █ 📊 论文评分排行榜(48 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 A Finetuned SpeechLLM for Joint Multi-Granular L2 Asses 10.0分 前25% #大语言模型 🥈 G-MaP-SE: Guided Speech Enhancement via GMM-Based Prior 9.3分 前50% #语音增强 🥉 HoliDubber: Holistic Video Dubbing for Complex Acoustic 9.0分 前10% #语音合成 4. Probing Token Spaces under Generator Shift in AI-Genera 9.0分 前10% #音频编码 5. A Comparative Study of Pre-trained Speech Encoders and 8.9分 前50% #自监督学习 6. AVI-Bench: Toward Human-like Audio-Visual Intelligence 8.8分 前25% #语音识别 7. Liberating LLM Capabilities in Full-Duplex Speech Model 8.7分 前25% #多模态模型 8. MeCo: One-Step MeanFlow-based Corrector for Multi-Chann 8.4分 前25% #语音分离 9. Your U-Net Dereverberation Model is Secretly an RIR Enc 8.3分 前50% #对比学习 10. Predictive Fixed-Filter Active Noise Control (PFANC) Us 8.3分 前25% - 11. TLDR: Compressing Audio Tokens for Efficient Autoregres 8.2分 前25% #语音合成 12. Subtitle-Aligned Fine-Tuning of Whisper for Swiss Germa 8.2分 前25% #语音识别 13. Discovering Functionally Selective Brain Regions with a 8.2分 前25% #多模态模型 14. Parameter-Efficient Continual Learning for Automatic Sp 8.1分 前25% #语音识别 15. OmniMem: Perturbation-aware Memory Compression for Stre 8.0分 前25% #高效推理 16. OpenBibleTTS: Large-Scale Speech Resources and TTS Mode 8.0分 前25% #语音合成 17. FlashTTS: Fast Streaming TTS with MTP Acceleration and 7.9分 前25% #语音合成 18. Multi-View Speech Representation Learning for Parkinson 7.9分 前50% #自监督学习 19. Is Text All You Need? Text as a Universal Information B 7.6分 前50% #语音识别 20. End-to-End Training for Discrete Token LLM based TTS Sy 7.6分 前50% #语音合成 21. Conan-embedding-v3: Fusing Modality-Specific Models for 7.6分 前25% #音频检索 22. Cross-Modal Masking for Robust Silent Speech Synthesis 7.5分 前50% #语音合成 23. Rethinking Depth: A study of the Recursive-Transformer 7.5分 前25% #语音识别 24. What Makes Synthetic Speech Sound Sarcastic? A Prosody- 7.5分 前25% #语音合成 25. FXplorer: A Map-Based Interface for Exploratory Audio E 7.5分 前25% #音频生成 26. Assessing the Energy and Carbon Emissions of Neural Spe 7.4分 前50% #说话人验证 27. Exploring the Scale and Diversity of Speech Anti-spoofi 7.4分 前50% #数据增强 28. From A to B to A: Palindromic Zero-Shot Voice Conversio 7.3分 前50% - 29. A study on the impact of region specific data on the pe 7.2分 前50% #语音识别 30. Speaker-Invariant Representation Learning for Spoofing 7.1分 前25% #对抗训练 31. BareWave: Waveform-Native Flow-Matching Text-to-Speech 7.0分 前50% #语音合成 32. SMC-ITA: Sequential Monte Carlo Inference-Time Alignmen 7.0分 前50% #音频生成 33. Quality-Diversity Search in Sound Generation: Investiga 7.0分 前50% - 34. Can LLMs understand LilyPond? A benchmark for symbolic 7.0分 前50% #音乐生成 35. NüshuVoice: Reviving the Voice of Endangered Nüshu with 7.0分 前50% #语音合成 36. Factors affecting ASR performance: A study using state 6.9分 前50% #语音识别 37. MeanVC 2: Robust Low-Latency Streaming Zero-Shot Voice 6.9分 前50% #语音转换 38. Few-shot Class-variable Incremental Audio Classificatio 6.9分 前50% #音频分类 39. A Hierarchical Feature Engineering Framework for Automa 6.8分 前50% - 40. Fast and Robust On-Device Speaker Diarization: Relative 6.6分 前50% #说话人分离 41. On Low-Bit Quantization Errors in Speaker Verification: 6.6分 前50% #说话人验证 42. Paediatric-HGNN: A Hybrid Heterogeneous Graph Neural Ne 6.5分 后50% #语音合成 43. TinyGiantALM: A Compact Audio-Language Model for Intent 6.4分 前50% #多模态模型 44. Overcoming Decoder Inconsistencies in Whisper for Dravi 6.2分 后50% #语音识别 45. Bridging Traditional Explainability Methods and Multimo 5.4分 后50% #语音识别 46. Sound Field Interpolation Using Physics-Informed Extrem 5.3分 后50% #语音增强 47. A Comparison of SSL-Based Feature Extractors and Back-E 5.0分 后50% #自监督学习 48. AeroSpectra Sentinel: An Auditable LLM Prompt-Chaining 4.5分 后50% #音频事件检测 📋 论文列表 🥇 A Finetuned SpeechLLM for Joint Multi-Granular L2 Assessment and Natural-Language Rationales 10.0/10 | 创新 2.0/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-09 · 更新于 2026-06-12 · 29 min · 6000 words

Domain-Aware Mispronunciation Detection and Diagnosis Using Language-Specific Statistical Graphs

📄 Domain-Aware Mispronunciation Detection and Diagnosis Using Language-Specific Statistical Graphs #图神经网络 #自监督学习 6.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.0/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 6.6/10 | 前50% | #图神经网络 | #图神经网络 | #自监督学习 | arxiv 👥 作者与机构 Huu Tuong Tu (1), Hanh Nguyen (1), Thien Van Luong (2), Nguyen Tien Cuong (1), Vu Huan (1), Nguyen Thi Thu Trang (3) ...

2026-06-05 · 更新于 2026-06-12 · 2 min · 340 words

语音/音乐/音频论文速递 2026-06-05

语音/音乐/音频论文速递 2026-06-05 共分析 47 篇论文 ⚡ 今日概览 📥 抓取 47 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 11篇 ███████████ #语音合成 6篇 ██████ #语音情感识别 3篇 ███ #大语言模型 2篇 ██ #语音增强 2篇 ██ #说话人识别 2篇 ██ #流式处理 1篇 █ #音频编码 1篇 █ 📊 论文评分排行榜(47 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Audio Interaction Model 9.8分 前50% #流式处理 🥈 USAD 2.0: Scaling Representation Distillation for Unive 9.0分 前25% #音频编码 🥉 M2S-AVSR: Modality-aware Multi-view Self-supervised Rep 9.0分 前25% #语音识别 4. Vortex: Efficient and Programmable Sparse Attention Ser 8.9分 前25% #大语言模型 5. UniVoice: A Unified Model for Speech and Singing Voice 8.7分 前25% #语音合成 6. Ouvia: A User-centered Framework for Measuring Usabilit 8.6分 前25% #语音翻译 7. Age-Aware Adapter Tuning for Children's Speech Reco 8.4分 前25% #语音识别 8. MCBench: A Multicontext Safety Assessment Benchmark for 8.4分 后50% #语音识别 9. SuperMemory-VQA: An Egocentric Visual Question-Answerin 8.4分 前25% #基准测试 10. GLASS: GRPO-Trained LoRA for Acoustic Style Steering in 8.2分 前25% #语音合成 11. A Model of Multi-turn Human Persuadability Using Probab 8.2分 前50% - 12. Learning Emotion-discriminative Representations for Zer 8.1分 前25% #语音情感识别 13. FORTE: FOL-guided Optimal Refinement for Text-audio rEt 8.1分 前25% #参数高效微调 14. FiLM-Based Speaker Conditioning of a SpeechLLM for Path 8.0分 前50% #语音识别 15. Task-Vector Arithmetic for Emotional Expressivity Contr 7.9分 前25% #语音合成 16. An Ultra-Low-Bitrate Neural Speech Codec with Plain-to- 7.7分 前25% #语音合成 17. Exploring LLMs for South Asian Music Understanding and 7.7分 前50% #音乐生成 18. SB-RF: Schrödinger Bridge Rectified Flow for One-Step R 7.6分 前25% #语音增强 19. nnAudio 2: Overcoming Dynamic Compilation Barriers and 7.5分 前50% #开源工具 20. Beyond Waveform Robustness: Robust Feature-Vocoder Adve 7.5分 前25% #语音识别 21. FoeGlass: Simple In-Context Learning Is Enough for Red 7.5分 前25% #音频生成 22. ProSarc: Prosody-Aware Sarcasm Recognition Framework vi 7.5分 前25% #语音情感识别 23. Probing Spatial Structure in Pretrained Audio Represent 7.4分 前25% - 24. Forgive or forget: Understanding the context of hate in 7.4分 前50% #音频检索 25. SpeechJBB: Probing Safety Alignment and Comprehension i 7.3分 前25% #语音识别 26. VoCodec: A Low-bitrate Streamable Neural Speech Codec w 7.2分 前50% #语音编码 27. F3-Tokenizer: Taming Audio Autoencoder Latents for Unde 7.2分 前25% #语音合成 28. Beyond WER: A Paired Acoustic Stress Test for Ambient C 7.1分 前50% #语音识别 29. InfoShield: Privacy-Preserving Speech Representations f 7.1分 前50% - 30. Multi-task Learning is Not Enough: Representational Ent 6.9分 前50% #语音识别 31. Sound Effects Dataset Unification With the Universal Ca 6.9分 前50% #音频分类 32. To Be Multimodal or Not to Be: Query-Adaptive Audio-Vis 6.8分 前50% #说话人识别 33. SHALA-LLM: Smartly Handling Ambiguous Labels in Alignin 6.8分 前50% #语音情感识别 34. SagnacAssisted Enhanced OTDR for Distributed Acoustic S 6.6分 前50% #信号处理基础 35. Domain-Aware Mispronunciation Detection and Diagnosis U 6.6分 前50% #图神经网络 36. CoSTA: Cognitive-State-Conditioned TTS Data Augmentatio 6.5分 前50% #语音合成 37. Beyond Text Following: Repairable Arbitration Reversals 6.4分 前50% #音频问答 38. Enhancing Audio Captioning with Auxiliary AudioSet Sema 6.3分 前50% - 39. Do speech foundation models perceive speaker similarity 6.3分 前50% #说话人识别 40. Efficient Punctuation Restoration via Weighted Lookahea 6.3分 前50% #大语言模型 41. Automatic Labelling of Speech Translation Errors 6.1分 前50% #语音识别 42. Towards Truly Multilingual ASR: Generalizing Code-Switc 5.9分 前50% #语音识别 43. An ERP Study on Recursive Locative Processing in Mandar 5.9分 前50% - 44. Multilingual Detection of Alzheimer's Disease from 5.7分 后50% #迁移学习 45. DBHN-Net: Dual-Branch Hybrid Neural Network For Low-Com 5.4分 前25% #语音增强 46. Beyond Generative Decoding: Discriminative Hidden-State 5.3分 前50% #多模态模型 47. Revisiting Lexicon Evaluation in Unsupervised Word Disc 1.0分 前25% #语音识别 📋 论文列表 🥇 Audio Interaction Model 9.8/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1.0/1 | 影响 1.5/1.5 | 开源 1.1/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-05 · 更新于 2026-06-12 · 28 min · 5851 words

Edge-specific signal propagation on mature chromophore-region 3D mechanism graphs for fluorescent protein quantum-yield prediction

📄 Edge-specific signal propagation on mature chromophore-region 3D mechanism graphs for fluorescent protein quantum-yield prediction #蛋白质工程 #图神经网络 #特征工程 #分子属性预测 ✅ 7.5/10 | 前25% | #蛋白质工程 | #图神经网络 | #特征工程 #分子属性预测 | arxiv 学术质量 7.5/7 | 选题价值 6.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yuchen Xiong(厦门大学马来西亚分校,中国-东盟海洋学院) 通讯作者:Swee Keong Yeap(厦门大学马来西亚分校,中国-东盟海洋学院)、Steven Aw Yoong Kit(厦门大学马来西亚分校,中国-东盟海洋学院) 作者列表:Yuchen Xiong(厦门大学马来西亚分校,中国-东盟海洋学院)、Swee Keong Yeap(厦门大学马来西亚分校,中国-东盟海洋学院)、Steven Aw Yoong Kit(厦门大学马来西亚分校,中国-东盟海洋学院) 💡 毒舌点评 这篇论文的亮点在于其“物理直觉先行”的建模思路:不是让模型自己从数据中“黑箱”学习,而是先将荧光蛋白发光的核心——发色团(CRO)及其微环境——拆解成可解释的“通道-信号-区域”传播图,这比直接用通用大模型“炼丹”更有说服力。但短板也同样明显:代码和数据均需“申请获取”,这种“半开源”状态在2024年显得有些保守,极大限制了结果的快速复现和领域内的竞争性验证。 📌 核心摘要 问题:荧光蛋白的量子产率(QY)由成熟发色团及其三维微环境决定,但现有预测方法(如序列相似性、通用蛋白质语言模型)未能显式建模局部物理信号如何作用于发色团的特定区域。 方法核心:提出一种以发色团为中心的“机制图”算法。将蛋白质PDB结构转化为分类型的3D残基图,对成熟发色团进行轻量级规则注册并将其分解为酚盐、桥连、咪唑啉酮三个功能区域,然后通过特定的物理接触通道(本文因结构数据限制,仅激活了立体位阻和疏水接触)将周围残基的物理化学信号(如体积、柔性、电荷、氢键能力等)传播至各区域,形成可解释的富集特征。最终,从121个候选特征中筛选出52个非身份特征池,并训练波段特异性的ExtraTrees回归模型。 创新性:与已有方法相比,其创新在于:① 问题表示从序列/通用图转变为以成熟发色团为锚点的三维机制图;② 引入“边缘特定信号传播”,将物理接触路径(通道)与传递的物化信号解耦,并明确作用区域,使每个特征都成为一个“通道-信号-区域”元组;③ 通过系统移除残基身份特征(如is_Tyr),构建了一个更具迁移性的非身份特征池,以提升对远缘同源蛋白的泛化能力。 主要结果:在包含531个荧光蛋白的基准数据集上,该方法在随机交叉验证中取得了最佳的预测性能,优于Band mean, ESM-C, SaProt等基线。关键优势体现在远缘同源性评估中,其在最困难的远缘区间(序列相似性<50%)性能显著高于所有基线。在需要筛选高/低QY蛋白的Top-K任务中,该方法也表现最佳。稳定选择的特征形成了可解释的波段特异性模式。 ...

2026-05-08 · 更新于 2026-06-12 · 3 min · 449 words

PC-MNet: Dual-Level Congruity Modeling for Multimodal Sarcasm Detection via Polarity-Modulated Attention

📄 PC-MNet: Dual-Level Congruity Modeling for Multimodal Sarcasm Detection via Polarity-Modulated Attention #多模态讽刺检测 #对比学习 #图神经网络 #多模态模型 #语音情感识别 🔥 8.0/10 | 前25% | #多模态讽刺检测 | #对比学习 | #图神经网络 #多模态模型 | arxiv 学术质量 6.2/7 | 选题价值 1.0/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Maoheng Li(澳门科技大学计算机科学与工程学院) 通讯作者:Ling Zhou(澳门科技大学计算机科学与工程学院),Xiaohua Huang(南京工程学院欧路学院) 作者列表: Maoheng Li(澳门科技大学计算机科学与工程学院) Ling Zhou(澳门科技大学计算机科学与工程学院) Xiaohua Huang(南京工程学院欧路学院) Rubing Huang(澳门科技大学计算机科学与工程学院,澳门科技大学珠海研究院) Wenming Zheng(东南大学儿童发展与学习科学教育部重点实验室,东南大学生物科学与医学工程学院) Guoying Zhao(芬兰奥卢大学机器视觉与信号分析中心) 💡 毒舌点评 这篇论文在针对讽刺检测任务的“矛盾建模”思路上做出了精巧的设计,极性调制注意力机制堪称“对症下药”,比简单拼接或计算相似性的方法高明不少。然而,其性能严重依赖于提供的连续情感值(Valence)标签进行冷启动,这在现实场景中往往是稀缺甚至不存在的监督信号,极大地限制了该模型的通用性和可迁移性。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中提及了以下数据集,但未提供具体下载链接。 MUStARD [3] MUStARD++ [22] MUStARD++ Balanced [37] Demo:论文中未提及 复现材料:论文提供了详细的实现细节,包括模型架构、超参数设置(如编码维度 d_enc=512,极性空间维度 d_p=16,图卷积层数 L_mac=2,上下文窗口 J=3 等)以及优化策略(两阶段优化、损失权重 λ_val=1.0, λ_cls=0.2, λ_con=0.8 等),这些信息构成了复现材料。但未提供预训练检查点或完整配置文件的直接链接。 论文中引用的开源项目: BERT:论文中使用了BERT-large模型。主要开源仓库:https://github.com/huggingface/transformers Wav2Vec 2.0:论文中使用了Wav2Vec 2.0-base模型。主要开源仓库:https://github.com/facebookresearch/wav2vec2 和 https://github.com/huggingface/transformers YOLOv8:论文中用于视觉目标检测。主要开源仓库:https://github.com/ultralytics/ultralytics CLIP:论文中使用了CLIP ViT-B/32模型。主要开源仓库:https://github.com/openai/CLIP 和 https://github.com/huggingface/transformers GPT-4o:作为基线模型被比较,但论文未提供其使用代码链接。 Llama 3-8B:作为基线模型被比较。主要开源仓库:https://github.com/meta-llama/llama Qwen 2-7B:作为基线模型被比较。主要开源仓库:https://github.com/QwenLM/Qwen2 论文中提到的其他基线模型(如ESAM [33])的代码,论文作者在文中提到“我们显式复现了最近的ESAM [33]模型”,但未提供具体链接。 补充信息 以下是对已有分析结果的补充,这些信息在原始全文中有明确陈述,但未在深度分析中得到体现。 ...

2026-05-05 · 更新于 2026-06-12 · 3 min · 464 words

语音/音乐/音频论文速递 2026-05-05

语音/音乐/音频论文速递 2026-05-05 共分析 33 篇论文 ⚡ 今日概览 📥 抓取 33 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音乐生成 5篇 █████ #音频分类 3篇 ███ #语音识别 2篇 ██ #音视频 2篇 ██ #大语言模型 1篇 █ #多模态讽刺检测 1篇 █ #多模态幻觉缓解 1篇 █ #模型评估 1篇 █ 📊 论文评分排行榜(33 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Flexi-LoRA with Input-Adaptive Ranks: Efficient Finetun 8.5分 前25% #大语言模型 🥈 Dimensionality-Aware Anomaly Detection in Learned Repre 8.0分 前25% #语音识别 🥉 PC-MNet: Dual-Level Congruity Modeling for Multimodal S 8.0分 前25% #多模态讽刺检测 4. HARMES: A Multi-Modal Dataset for Wearable Human Activi 8.0分 前25% #音频分类 5. When Audio-Language Models Fail to Leverage Multimodal 7.5分 前50% #语音识别 6. Mitigating Multimodal LLMs Hallucinations via Relevance 7.5分 前25% #多模态幻觉缓解 7. Toward Fair Speech Technologies: A Comprehensive Survey 7.5分 前25% #模型评估 8. Virtual Speech Therapist: A Clinician-in-the-Loop AI Sp 7.5分 前25% #语音治疗系统 9. Toward Fine-Grained Speech Inpainting Forensics:A Datas 7.5分 前25% #音频深度伪造检测 10. RenCon 2025: Revival of the Expressive Performance Rend 7.5分 前25% #音乐生成 11. Spoken Language Identification with Pre-trained Models 7.5分 前25% #说话人识别 12. TMD-Bench: A Multi-Level Evaluation Paradigm for Music- 7.5分 前25% #音乐生成 13. Khala: Scaling Acoustic Token Language Models Toward Hi 7.5分 前25% #音乐生成 14. Delayed Commitment for Representation Readiness in Stag 7.5分 前25% #音视频 15. MG-Former: A Transformer-Based Framework for Music-Driv 7.5分 前25% #音乐生成 16. Integrating acoustic tapping with a UAV platform for ti 7.5分 前25% #音频分类 17. NH-CROP: Robust Pricing for Governed Language Data Asse 7.5分 前25% #强化学习 18. When Attention Collapses: Residual Evidence Modeling fo 7.5分 前25% #音频分离 19. BRITE: A Benchmark for Reliable and Interpretable T2V E 7.5分 前25% #基准测试 20. Neck-Learn: Attention-Based Multiple Instance Learning 7.0分 前25% #语音生物标志物 21. Tibetan-TTS:Low-Resource Tibetan Speech Synthesis with 7.0分 前50% #语音合成 22. MelShield: Robust Mel-Domain Audio Watermarking for Pro 7.0分 前25% #音频安全 23. MindMelody: A Closed-Loop EEG-Driven System for Persona 7.0分 前50% #音乐生成 24. Multimodal Confidence Modeling in Audio-Visual Quality 7.0分 前25% #音视频 25. The AECM Algorithm for Deterministic Maximum Likelihood 7.0分 前50% #声源定位 26. The 2026 ACII Dyadic Conversations (DaiKon) Workshop &a 7.0分 前50% #语音情感识别 27. Period-conscious Time-series Reconstruction under Local 7.0分 前25% #时间序列重构 28. OceanPile: A Large-Scale Multimodal Ocean Corpus for Fo 7.0分 前25% #数据集 29. Private Speech Classification without Collapse: Stabili 6.5分 前25% #音频分类 30. MedMosaic: A Challenging Large Scale Benchmark of Diver 6.5分 前25% #音频问答 31. Artificial intelligence language technologies in multil 6.5分 前50% #多语言健康沟通 32. MultiSense-Pneumo: A Multimodal Learning Framework for 6.5分 前50% #肺炎筛查 33. Multi-Axis Speech Similarity via Factor-Partitioned Emb 6.0分 前50% #音频检索 📋 论文列表 🥇 Flexi-LoRA with Input-Adaptive Ranks: Efficient Finetuning for Speech and Reasoning Tasks 🔥 8.5/10 | 前25% | #大语言模型 | #参数高效微调 | #问答 #数学推理 | arxiv ...

2026-05-05 · 更新于 2026-06-12 · 19 min · 3988 words

A Robust KNN Approach for Multi-Class Laryngeal Disease Detection using MFCC Features

📄 A Robust KNN Approach for Multi-Class Laryngeal Disease Detection using MFCC Features #音频分类 #信号处理 #图神经网络 #医疗AI #鲁棒性 ✅ 7.5/10 | 前25% | #音频分类 | #信号处理 | #图神经网络 #医疗AI 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Pingping Wu(南京审计大学工程审计学院) 通讯作者:未说明 作者列表: Pingping Wu(南京审计大学工程审计学院) Weijie Gao(南京审计大学计算机科学学院) Haibing Chen(江苏省人民医院耳鼻喉科) 💡 毒舌点评 本文将图神经网络(GNN)引入传统的K近邻(KNN)分类框架,为病理语音特征建模提供了一个有趣的视角,这是其最亮眼的创新点。然而,论文对所提出图增强KNN中GNN的具体实现(如层数、聚合器类型、注意力机制)和关键超参数(如K值选择)的讨论严重不足,使得“图”这一核心概念的魔力显得有些“黑箱”,也给复现设置了不必要的障碍。此外,使用一个仅320例、未公开的临床数据集得出的结论,其泛化能力有待未来更大规模数据的验证。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:数据集来自合作医院,论文未提及是否公开或获取方式。 Demo:未提供在线演示。 复现材料:论文详细说明了MFCC提取参数(采样率、帧长、帧移、滤波器组数量)、数据划分比例、交叉验证方法以及实验的软硬件环境(Table 2),这些信息有助于在相同条件下复现实验。 引用的开源工具:论文明确提到了使用 librosa 库(版本0.10)进行音频处理和特征提取。 总结:论文中未提及开源计划(代码、数据、模型均未公开)。 📌 核心摘要 问题:喉部疾病(如癌症、息肉、结节、白斑)的早期无创检测对改善预后至关重要,而传统的内窥镜检查受限于设备和专家。现有研究多集中于简单的二分类,对多种疾病的精细分类探索不足。 方法核心:提出一种图增强的KNN框架。首先从语音信号中提取MFCC特征序列,然后为每个样本构建基于特征相似度的K近邻图,最后利用图神经网络(GNN)在图上进行信息聚合,学习更具判别性的表示,最终进行分类。 创新点:1) 首次将多种非癌症性喉部病变(息肉、结节、白斑)纳入统一的五分类框架进行研究;2) 将图神经网络与KNN结合,通过建模局部拓扑关系来增强传统距离度量的判别能力,这是对标准KNN分类器的一种结构性改进。 主要结果:在自建的320例患者数据集上,该方法在二分类(健康 vs 病变)任务中达到96%的准确率,在五分类(健康、癌症、息肉、结节、白斑)任务中达到88%的准确率,均优于包括CNN和传统KNN在内的基线模型。关键数据对比如下表所示: 模型 二分类准确率 五分类准确率 传统KNN 0.94 0.83 CNN 0.94 0.80 本文方法 (Ours) 0.96 0.88 实际意义:该研究验证了基于语音的、结合图结构的机器学习模型在非侵入式喉部疾病筛查中的潜力,为临床早期诊断提供了新的技术思路。 主要局限性:数据集规模较小(320例)且未公开,模型泛化性存疑;对图神经网络部分的实现细节描述不够深入,技术贡献的清晰度和可复现性有所折扣。 🏗️ 模型架构 本文提出的模型整体流程(如图1所示)可分为四个主要阶段: ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 219 words

DGSDNet: Dual-Graph Spectral Diffusion Network for Incomplete Multimodal Emotion Recognition in Conversations

📄 DGSDNet: Dual-Graph Spectral Diffusion Network for Incomplete Multimodal Emotion Recognition in Conversations #语音情感识别 #扩散模型 #图神经网络 #多模态模型 #缺失模态补全 🔥 8.0/10 | 前25% | #语音情感识别 | #扩散模型 | #图神经网络 #多模态模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Mingjian Yang(电子科技大学,智能协同计算实验室) 通讯作者:Wen Yin(电子科技大学,智能协同计算实验室) 作者列表:Mingjian Yang(电子科技大学,智能协同计算实验室)、Yong Wang(电子科技大学,智能协同计算实验室)、Peng Liu(电子科技大学,智能协同计算实验室)、Wen Yin†(电子科技大学,智能协同计算实验室) 💡 毒舌点评 亮点: 精准抓住了现有方法在“保持对话图谱结构”与“对齐特征分布”之间的核心矛盾,并通过将扩散过程严格约束在谱空间(特征值扩散)来优雅地同时解决这两个问题,设计思路清晰且有理论依据。 短板: 门控谱分类(GSC)模块中的熵加权机制更像是一种启发式的不确定性融合,对于“说话人连续性”和“情感方差”等关键对话动态的显式建模略显不足,可能限制了其在更复杂交互场景下的性能天花板。 🔗 开源详情 代码: 论文提供了开源代码仓库链接:https://github.com/Yyyy-aizhien/DGSDNet。 模型权重: 论文中未提及是否公开预训练模型权重。 数据集: 论文使用的IEMOCAP和CMU-MOSI为公开数据集,但论文中未提供获取或预处理脚本的具体说明。 Demo: 论文中未提及提供在线演示。 复现材料: 论文提供了基础实现细节(优化器、学习率、Dropout率等),但缺少训练步数、批量大小、特征提取模型版本、具体GPU环境等关键复现信息。 论文中引用的开源项目: 论文中未明确列出所依赖的特定开源工具或模型库(如特征提取器)。 📌 核心摘要 要解决的问题: 现实对话场景中,模态(文本、音频、视觉)缺失导致多模态情感识别性能严重下降。现有基于图或扩散的方法存在“语义不连续”(破坏图结构或改变特征分布)和“静态融合”(固定权重无法适应动态变化)两大挑战。 方法核心: 提出DGSDNet框架,包含双谱扩散(DSD)模块和门控谱分类(GSC)模块。DSD将对话图谱(说话人图和时序图)分解为拓扑不变的特征向量和可扩散的特征值,并在特征值空间施加扩散过程以恢复缺失模态,从而同时保持图结构并生成分布对齐的特征。GSC模块基于节点特征的熵进行自适应门控,动态融合双图谱信息。 与已有方法相比新在哪里: 区别于直接在特征空间或邻接矩阵上扩散的方法,本工作首次将扩散过程严格限制在图谱的谱空间(对角特征值矩阵)上进行,理论上避免了扩散过程破坏图的局部拓扑。同时,提出了基于重建不确定性的动态门控融合机制,替代了传统的静态加权。 主要实验结果: 在IEMOCAP和CMU-MOSI两个基准数据集上,当模态缺失率从0.0到0.7变化时,DGSDNet的平均加权F1分数(WAF1)分别达到77.60% 和 79.7%,超过了所有对比的SOTA方法(如GCNet, SDR-GNN, DiCMoR)。消融实验证实了说话人图、时序图、双谱扩散和门控分类模块的有效性,移除DSD模块性能下降最显著。 实际意义: 提升了多模态对话系统在传感器故障、隐私限制等真实复杂环境下的情感理解鲁棒性,对智能客服、人机交互、心理健康监测等应用有潜在价值。 主要局限性: 1) 未处理异步多模态序列和更开放域的对话场景。2) 门控融合模块对对话动态的建模相对简单。3) 仅在两种标准数据集上验证,泛化性有待进一步考察。 🏗️ 模型架构 DGSDNet的架构(如图2所示)分为三个主要阶段: ...

2026-04-29 · 更新于 2026-06-12 · 3 min · 438 words

Dynamic Spectrogram Analysis with Local-Aware Graph Networks for Audio Anti-Spoofing

📄 Dynamic Spectrogram Analysis with Local-Aware Graph Networks for Audio Anti-Spoofing #音频深度伪造检测 #图神经网络 #自监督学习 #动态卷积 🔥 8.5/10 | 前10% | #音频深度伪造检测 | #图神经网络 | #自监督学习 #动态卷积 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yingdong Li(中山大学计算机学院) 通讯作者:Kun Zeng(中山大学计算机学院, zengkun2@mail.sysu.edu.cn) 作者列表:Yingdong Li(中山大学计算机学院)、Chengxin Chen(中国移动互联网公司,中国移动通信集团公司)、Dong Chen(中山大学计算机学院)、Nanli Zeng(中国移动互联网公司,中国移动通信集团公司)、Kun Zeng(中山大学计算机学院) 💡 毒舌点评 亮点在于将动态卷积与物理视角的多视图频谱分析相结合,并为强大的AASIST图网络框架增加了巧妙的局部信息聚合机制(LVM和SRM),技术融合顺畅且针对性强。短板是双分支前端(SSL + 频谱)不可避免地带来了计算开销,论文未对模型效率(如参数量、推理速度)进行分析或讨论,这在实际部署中可能是一个考量点。 🔗 开源详情 代码:论文中提供了代码仓库链接:https://github.com/lydsera/LocalSpoofDetect。 模型权重:论文中未提及是否公开模型权重。 数据集:使用的是公开数据集(ASVspoof 2019 LA, CFSD),论文未提及自行发布新数据集。 Demo:论文中未提及提供在线演示。 复现材料:论文中提供了详尽的实现细节(见3.2节),包括音频采样率、频谱图参数、SSL模型处理方式、训练优化器、学习率、批大小、损失函数、数据增强方法(RawBoost)以及训练硬件(A100 GPU),为复现提供了充分信息。 引用的开源项目: wav2vec 2.0 (XLS-R模型) RawNet2 AASIST (原始架构) RawBoost (数据增强方法) 📌 核心摘要 问题:针对日益多样的语音深度伪造技术,现有音频反欺骗方法在模型复杂度和鲁棒性之间难以取得平衡,且固定的特征提取方式难以自适应地捕获不同尺度的伪造痕迹。 方法核心:提出一个双分支前端与增强图网络后端相结合的模型。前端包含自监督(SSL)分支和新设计的频谱分析分支。频谱分支采用“对称性引导内核选择(SKS)”块,通过物理视角(时间/频谱对称性)分析生成上下文图,动态加权不同尺度的卷积核。后端在AASIST框架上新增了“局部变化主节点(LVM)”和“稀疏残差主节点(SRM)”,以建模精细的局部伪造模式。 创新点:(i) 利用频谱对称性指导动态卷积,自适应捕获多尺度伪造伪影;(ii) 采用残差式快捷连接简化前端特征融合,无需复杂融合模块;(iii) 增强图神经网络后端,引入LVM和SRM节点以聚合局部判别信息。 实验结果:在ASVspoof 2019 LA和中文伪造语音数据集(CFSD)上取得了当前最优性能,EER分别为0.08%和0.10%,min t-DCF为0.0024。消融实验证实了每个提出组件的有效性。 实际意义:该模型能有效、鲁棒地检测合成与伪造语音,可增强语音生物识别等系统的安全性,对抵御日益逼真的语音伪造攻击具有重要价值。 主要局限性:未分析模型的计算效率(参数量、FLOPs、推理延迟),可能限制其在资源受限场景的应用;双分支架构对SSL预训练模型的依赖性较强。 🏗️ 模型架构 模型整体架构为双分支前端 + 增强图网络后端,具体流程如下: ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 333 words