医疗应用 | 语音/音乐/音频论文速递

MultiSense-Pneumo: A Multimodal Learning Framework for Pneumonia Screening in Resource-Constrained Settings

📄 MultiSense-Pneumo: A Multimodal Learning Framework for Pneumonia Screening in Resource-Constrained Settings #多模态模型 #领域适应 #医疗应用 #低资源 #音频分类 ✅ 6.5/10 | 前50% | #肺炎筛查 | #多模态融合 | #多模态模型 #领域适应 | arxiv 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Dineth Jayakody（Old Dominion University, Department of Computer Science）通讯作者：未说明作者列表：Dineth Jayakody（Old Dominion University, Department of Computer Science）、Pasindu Thenahandi（Old Dominion University, Department of Computer Science）、Chameli Dommanige（Old Dominion University, Department of Computer Science） 💡 毒舌点评亮点在于其务实的“工程师思维”——将多种异构模态（症状、咳嗽、语音、影像）整合成一个可解释、可离线运行的端到端筛查管线，非常契合题目所强调的“资源受限”部署场景。短板是部分核心模块（如咳嗽分析）性能较弱，且整体框架缺乏在真实配对多模态数据集上的端到端联合训练与评估，更像一个精心设计的原型演示，而非在方法论或性能上具有突破性的研究。 ...

语音/音乐/音频论文速递 2026-05-05

语音/音乐/音频论文速递 2026-05-05 共分析 33 篇论文 ⚡ 今日概览 📥 抓取 33 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音乐生成 5篇 █████ #音频分类 3篇 ███ #语音识别 2篇 ██ #音视频 2篇 ██ #大语言模型 1篇 █ #多模态讽刺检测 1篇 █ #多模态幻觉缓解 1篇 █ #模型评估 1篇 █ 📊 论文评分排行榜（33 篇，按分数降序）排名论文评分分档主任务 🥇 Flexi-LoRA with Input-Adaptive Ranks: Efficient Finetun 8.5分前25% #大语言模型 🥈 Dimensionality-Aware Anomaly Detection in Learned Repre 8.0分前25% #语音识别 🥉 PC-MNet: Dual-Level Congruity Modeling for Multimodal S 8.0分前25% #多模态讽刺检测 4. HARMES: A Multi-Modal Dataset for Wearable Human Activi 8.0分前25% #音频分类 5. When Audio-Language Models Fail to Leverage Multimodal 7.5分前50% #语音识别 6. Mitigating Multimodal LLMs Hallucinations via Relevance 7.5分前25% #多模态幻觉缓解 7. Toward Fair Speech Technologies: A Comprehensive Survey 7.5分前25% #模型评估 8. Virtual Speech Therapist: A Clinician-in-the-Loop AI Sp 7.5分前25% #语音治疗系统 9. Toward Fine-Grained Speech Inpainting Forensics:A Datas 7.5分前25% #音频深度伪造检测 10. RenCon 2025: Revival of the Expressive Performance Rend 7.5分前25% #音乐生成 11. Spoken Language Identification with Pre-trained Models 7.5分前25% #说话人识别 12. TMD-Bench: A Multi-Level Evaluation Paradigm for Music- 7.5分前25% #音乐生成 13. Khala: Scaling Acoustic Token Language Models Toward Hi 7.5分前25% #音乐生成 14. Delayed Commitment for Representation Readiness in Stag 7.5分前25% #音视频 15. MG-Former: A Transformer-Based Framework for Music-Driv 7.5分前25% #音乐生成 16. Integrating acoustic tapping with a UAV platform for ti 7.5分前25% #音频分类 17. NH-CROP: Robust Pricing for Governed Language Data Asse 7.5分前25% #强化学习 18. When Attention Collapses: Residual Evidence Modeling fo 7.5分前25% #音频分离 19. BRITE: A Benchmark for Reliable and Interpretable T2V E 7.5分前25% #基准测试 20. Neck-Learn: Attention-Based Multiple Instance Learning 7.0分前25% #语音生物标志物 21. Tibetan-TTS:Low-Resource Tibetan Speech Synthesis with 7.0分前50% #语音合成 22. MelShield: Robust Mel-Domain Audio Watermarking for Pro 7.0分前25% #音频安全 23. MindMelody: A Closed-Loop EEG-Driven System for Persona 7.0分前50% #音乐生成 24. Multimodal Confidence Modeling in Audio-Visual Quality 7.0分前25% #音视频 25. The AECM Algorithm for Deterministic Maximum Likelihood 7.0分前50% #声源定位 26. The 2026 ACII Dyadic Conversations (DaiKon) Workshop &a 7.0分前50% #语音情感识别 27. Period-conscious Time-series Reconstruction under Local 7.0分前25% #时间序列重构 28. OceanPile: A Large-Scale Multimodal Ocean Corpus for Fo 7.0分前25% #数据集 29. Private Speech Classification without Collapse: Stabili 6.5分前25% #音频分类 30. MedMosaic: A Challenging Large Scale Benchmark of Diver 6.5分前25% #音频问答 31. Artificial intelligence language technologies in multil 6.5分前50% #多语言健康沟通 32. MultiSense-Pneumo: A Multimodal Learning Framework for 6.5分前50% #肺炎筛查 33. Multi-Axis Speech Similarity via Factor-Partitioned Emb 6.0分前50% #音频检索 📋 论文列表 🥇 Flexi-LoRA with Input-Adaptive Ranks: Efficient Finetuning for Speech and Reasoning Tasks 🔥 8.5/10 | 前25% | #大语言模型 | #参数高效微调 | #问答 #数学推理 | arxiv ...

Multimodal LLMs are not all you need for Pediatric Speech Language Pathology

📄 Multimodal LLMs are not all you need for Pediatric Speech Language Pathology #语音分类 #预训练 #数据增强 #医疗应用 #儿童语音 ✅ 7.5/10 | 前25% | #语音分类 | #预训练 | #数据增强 #医疗应用 | arxiv 学术质量 7.2/7 | 选题价值 7.0/2 | 复现加成 0.9 | 置信度高 👥 作者与机构第一作者：Darren Fürst（Ostbayerische Technische Hochschule Amberg-Weiden）通讯作者：Darren Fürst（Ostbayerische Technische Hochschule Amberg-Weiden，邮箱d.fuerst@oth-aw.de）作者列表：Darren Fürst（Ostbayerische Technische Hochschule Amberg-Weiden）、Sebastian Steindl（Ostbayerische Technische Hochschule Amberg-Weiden）、Ulrich Schäfer（Ostbayerische Technische Hochschule Amberg-Weiden） 💡 毒舌点评这篇论文用扎实的实验给“多模态大模型是银弹”的盲目乐观泼了一盆冷水，证明在特定垂直医疗任务上，精调专用语音模型依然完胜通用大模型。不过，其基于的SLPHelmUltraSuitePlus数据集总样本量不足千个，使得所有结果的泛化性和临床说服力打了折扣，像是在一个精致的沙盒里打赢了一场漂亮的防守战。 🔗 开源详情代码：提供了完整的代码仓库链接：https://github.com/N0tAScooby/Multimodal-LLMs-are-not-all-you-need-for-Pediatric-Speech-Language-Pathology。模型权重：提供了训练好的模型权重，托管在Hugging Face：https://huggingface.co/N0tAScooby/Multimodal-LLMs-are-not-all-you-need-for-Pediatric-Speech-Language-Pathology。数据集：论文使用第三方公开基准SLPHelmUltraSuitePlus，未提及自行发布新数据集。 Demo：论文中未提及在线演示。复现材料：论文详细列出了超参数搜索范围（如学习率、LoRA参数、增强参数概率等），并注明“最佳超参数随代码发布”。给出了数据划分比例（64/16/20）、音频处理方式（截断12秒）、训练轮数等关键细节。引用的开源项目：论文中使用的模型和库均基于公开研究，主要包括：WavLM, wav2vec2, Hubert, Whisper, LoRA。这些项目的具体版本或实现细节在代码库中应有体现。 📌 核心摘要该论文旨在解决儿童言语障碍（SSD）诊断中专业人员短缺的问题，并评估在该任务上使用最新的多模态大语言模型（LLM）是否比传统专用语音表示模型（SRM）更优。方法核心是提出一个分层分类框架（T1:是否障碍 -> T2:障碍类型 -> T3:具体症状），并利用针对性的数据增强（高斯噪声、音高偏移）来减轻数据不平衡和性别偏差。与之前使用通用LLM的研究相比，本文发现：在SLPHelmUltraSuitePlus基准测试的所有四项任务（三项分类+ASR）上，经过微调的专用SRM（如WavLM）性能均大幅超越基于LLM的SOTA。例如，在二分类任务T1上，最佳SRM的F1分数为0.956，而最佳LLM仅为0.535；在更细粒度的T2任务上，分层SRM达到0.697，远超LLM的0.318。分层设计有效提升了细粒度分类性能，消融实验证明SRM在有无分层情况下均优于LLM。本研究的实际意义在于为临床辅助诊断提供了更可靠、高效的模型选择，并指出了在特定领域盲目应用大模型的局限性。主要局限性包括：仅在单一基准数据集上进行评估；为节省计算资源将音频截断为12秒，可能损失信息。 ...

语音/音乐/音频论文速递 2026-04-30

语音/音乐/音频论文速递 2026-04-30 共分析 25 篇论文 ⚡ 今日概览 📥 抓取 25 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 4篇 ████ #音频深度伪造检测 2篇 ██ #声源定位 2篇 ██ #音视频 1篇 █ #语音克隆 1篇 █ #说话人验证 1篇 █ #语音匿名化 1篇 █ #语音情感识别 1篇 █ 📊 论文评分排行榜（25 篇，按分数降序）排名论文评分分档主任务 🥇 PSP: An Interpretable Per-Dimension Accent Benchmark fo 9.0分前25% #语音合成 🥈 Hallo-Live: Real-Time Streaming Joint Audio-Video Avata 8.5分前25% #音视频 🥉 One Voice, Many Tongues: Cross-Lingual Voice Cloning fo 8.0分前25% #语音克隆 4. Similarity Choice and Negative Scaling in Supervised Co 8.0分前25% #音频深度伪造检测 5. Praxy Voice: Voice-Prompt Recovery + BUPS for Commercia 8.0分前25% #语音合成 6. Dual-LoRA: Parameter-Efficient Adversarial Disentanglem 7.5分前25% #说话人验证 7. SPG-Codec: Exploring the Role and Boundaries of Semanti 7.5分前25% #语音合成 8. DiffAnon: Diffusion-based Prosody Control for Voice Ano 7.5分前25% #语音匿名化 9. Diffusion Reconstruction towards Generalizable Audio De 7.5分前25% #音频深度伪造检测 10. EmoTransCap: Dataset and Pipeline for Emotion Transitio 7.5分前25% #语音情感识别 11. Hankel and Toeplitz Rank-1 Decomposition of Arbitrary M 7.5分前50% #声源定位 12. A New Location Estimator for Mixed LOS & NLOS scena 7.5分前25% #声源定位 13. Multimodal LLMs are not all you need for Pediatric Spee 7.5分前25% #语音分类 14. StarDrinks: An English and Korean Test Set for SLU Eval 7.5分前25% #数据集 15. Tatemae: Detecting Alignment Faking via Tool Selection 7.5分前25% #大语言模型 16. Step-Audio-R1.5 Technical Report 7.5分前25% #语音对话系统 17. Preferences of a Voice-First Nation: Large-Scale Pairwi 7.5分前25% #语音合成 18. The False Resonance: A Critical Examination of Emotion 7.0分前25% #语音情感识别 #模型评估 19. A Toolkit for Detecting Spurious Correlations in Speech 7.0分前50% #模型评估 20. Multiple Additive Neural Networks for Structured and Un 7.0分前50% #表格数据预测 21. Random Cloud: Finding Minimal Neural Architectures With 7.0分前50% #模型架构搜索 22. Recurrence-Based Nonlinear Vocal Dynamics as Digital Bi 6.5分前50% #语音生物标志物 23. Full band denoising of room impulse response in the wav 6.5分前50% #音频信号处理 24. Text-Utilization for Encoder-dominated Speech Recogniti 6.5分前50% #语音识别 25. Fitting Large Nonlinear Mixed Effects Models Using Vari 6.5分前50% #统计计算 📋 论文列表 🥇 PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech 🔥 9.0/10 | 前25% | #语音合成 | #模型评估 | #自监督学习 #多语言 | arxiv ...

UTI-LLM: A Personalized Articulatory-Speech Therapy Assistance System Based on Multimodal Large Language Model

📄 UTI-LLM: A Personalized Articulatory-Speech Therapy Assistance System Based on Multimodal Large Language Model #语音对话系统 #多模态模型 #医疗应用 #数据集 ✅ 7.5/10 | 前25% | #语音对话系统 | #多模态模型 | #医疗应用 #数据集学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：未说明（论文首页列有多个作者，但未明确标注第一作者。根据作者列表顺序推测为Yudong Yang或Xiaokang Liu，但不明确）通讯作者：Nan Yan, Lan Wang（论文中明确标注为“Corresponding authors”）作者列表： Yudong Yang (1, 2) Xiaokang Liu (1) Shaofeng Zhao (3) Rongfeng Su (1) Nan Yan (1, 2, *) Lan Wang (1, 2, *) 单位1：Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences, China (中国科学院深圳先进技术研究院) 单位2：Key Laboratory of Biomedical Imaging Science and System, Chinese Academy of Sciences, China (中国科学院生物医学成像科学与系统重点实验室) 单位3：Department of Rehabilitation Medicine, The Eighth Affiliated Hospital of Sun Yat-sen University, China (中山大学附属第八医院康复医学科) 💡 毒舌点评亮点：系统性地解决了从领域数据构建（创新性的双智能体协作生成）、模型设计（针对UTI特性的时空特征融合）到多维度评估的完整流程，是一套“交钥匙”式的解决方案，对于想在医疗垂直领域应用MLLM的研究者有很好的示范作用。短板：核心的“多模态融合”方法（图2）实质上是将语音特征与UTI的时空特征简单拼接后输入LLM，缺乏更精巧的跨模态交互机制；更重要的是，整个系统的“个性化”和“治疗辅助”效果目前仅通过离线数据集上的分析准确率和文本生成质量来间接证明，缺乏真实医患交互场景的验证和用户研究，离临床实用尚有距离。 ...