医学音频 | 语音/音频论文速递

MedMosaic: A Challenging Large Scale Benchmark of Diverse Medical Audio

📄 MedMosaic: A Challenging Large Scale Benchmark of Diverse Medical Audio #音频问答 #数据集 #多模态模型 #医学音频 #基准测试 ✅ 6.5/10 | 前25% | #音频问答 | #数据集 | #多模态模型 #医学音频 | arxiv 学术质量 5.5/7 | 选题价值 0.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Harshit Rajgarhia（未说明所属机构）通讯作者：论文中未提及作者列表：Harshit Rajgarhia（未说明）、Shuubham Ojha（未说明）、Asif Shaik（未说明）、Akhil Pothanapalli（未说明）、Rachuri Lokesh（未说明）、Abhishek Mukherji（未说明）、Prasanna Desikan（未说明） 💡 毒舌点评亮点：论文正视了医学音频领域数据获取难的痛点，并通过结合合成语音与真实临床对话的方式，构建了一个任务类型丰富、规模可观（46,701 QA对）的基准测试集，填补了该领域的评估空白。短板：摘要仅展示了评测结果（如Gemini 2.5 Pro仅68.1%），但对数据集构建过程中的关键技术（如合成语音如何“精心构造”以模拟伪影）、详细的实验对比分析（与其他音频QA或医学QA基准的对比）着墨甚少，使得其作为“基准”的深度和说服力略显不足。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及。数据集：论文中未提及具体的下载链接或开源协议。 Demo：论文中未提及。复现材料：论文中未提及。论文中引用的开源项目：未提及。补充信息 [实验结果] 补充：论文中明确指出，对13个音频和多模态推理模型进行了评测，并观察到“性能在不同问题类型上存在显著差异”（substantial performance variation across question types）。尽管分析报告中提到“摘要未提供其他模型的具体性能数字”，这与原文信息一致，但原文中强调的“13个模型”这一具体数量和对“问题类型间差异”的观察是明确存在的事实，可以作为更完整的背景信息。（注：经仔细比对，提供的“深度分析结果”已全面且准确地覆盖了“论文原文”中所有实质性信息，包括模型架构（未提及）、实验结果核心数据（Gemini-2.5-pro约68.1%）、训练细节（不适用）、消融实验（未提及）、自我声明的局限性（分析中已推断）以及SOTA差距（仅提及单一模型结果）。原文本身为摘要性质，未提供更详细的实验数据、对比表格或消融分析，因此分析报告无法基于现有信息补充更多具体数值或细节。） ...

语音/音频论文速递 2026-05-05

语音/音频论文速递 2026-05-05 共分析 33 篇论文 ⚡ 今日概览 📥 抓取 33 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音乐生成 5篇 █████ #音频分类 3篇 ███ #语音识别 2篇 ██ #音视频 2篇 ██ #大语言模型 1篇 █ #多模态讽刺检测 1篇 █ #多模态幻觉缓解 1篇 █ #模型评估 1篇 █ 📊 论文评分排行榜（33 篇，按分数降序）排名论文评分分档主任务 🥇 Flexi-LoRA with Input-Adaptive Ranks: Efficient Finetun 8.5分前25% #大语言模型 🥈 Dimensionality-Aware Anomaly Detection in Learned Repre 8.0分前25% #语音识别 🥉 PC-MNet: Dual-Level Congruity Modeling for Multimodal S 8.0分前25% #多模态讽刺检测 4. HARMES: A Multi-Modal Dataset for Wearable Human Activi 8.0分前25% #音频分类 5. When Audio-Language Models Fail to Leverage Multimodal 7.5分前50% #语音识别 6. Mitigating Multimodal LLMs Hallucinations via Relevance 7.5分前25% #多模态幻觉缓解 7. Toward Fair Speech Technologies: A Comprehensive Survey 7.5分前25% #模型评估 8. Virtual Speech Therapist: A Clinician-in-the-Loop AI Sp 7.5分前25% #语音治疗系统 9. Toward Fine-Grained Speech Inpainting Forensics:A Datas 7.5分前25% #音频深度伪造检测 10. RenCon 2025: Revival of the Expressive Performance Rend 7.5分前25% #音乐生成 11. Spoken Language Identification with Pre-trained Models 7.5分前25% #说话人识别 12. TMD-Bench: A Multi-Level Evaluation Paradigm for Music- 7.5分前25% #音乐生成 13. Khala: Scaling Acoustic Token Language Models Toward Hi 7.5分前25% #音乐生成 14. Delayed Commitment for Representation Readiness in Stag 7.5分前25% #音视频 15. MG-Former: A Transformer-Based Framework for Music-Driv 7.5分前25% #音乐生成 16. Integrating acoustic tapping with a UAV platform for ti 7.5分前25% #音频分类 17. NH-CROP: Robust Pricing for Governed Language Data Asse 7.5分前25% #强化学习 18. When Attention Collapses: Residual Evidence Modeling fo 7.5分前25% #音频分离 19. BRITE: A Benchmark for Reliable and Interpretable T2V E 7.5分前25% #基准测试 20. Neck-Learn: Attention-Based Multiple Instance Learning 7.0分前25% #语音生物标志物 21. Tibetan-TTS:Low-Resource Tibetan Speech Synthesis with 7.0分前50% #语音合成 22. MelShield: Robust Mel-Domain Audio Watermarking for Pro 7.0分前25% #音频安全 23. MindMelody: A Closed-Loop EEG-Driven System for Persona 7.0分前50% #音乐生成 24. Multimodal Confidence Modeling in Audio-Visual Quality 7.0分前25% #音视频 25. The AECM Algorithm for Deterministic Maximum Likelihood 7.0分前50% #声源定位 26. The 2026 ACII Dyadic Conversations (DaiKon) Workshop &a 7.0分前50% #语音情感识别 27. Period-conscious Time-series Reconstruction under Local 7.0分前25% #时间序列重构 28. OceanPile: A Large-Scale Multimodal Ocean Corpus for Fo 7.0分前25% #数据集 29. Private Speech Classification without Collapse: Stabili 6.5分前25% #音频分类 30. MedMosaic: A Challenging Large Scale Benchmark of Diver 6.5分前25% #音频问答 31. Artificial intelligence language technologies in multil 6.5分前50% #多语言健康沟通 32. MultiSense-Pneumo: A Multimodal Learning Framework for 6.5分前50% #肺炎筛查 33. Multi-Axis Speech Similarity via Factor-Partitioned Emb 6.0分前50% #音频检索 📋 论文列表 🥇 Flexi-LoRA with Input-Adaptive Ranks: Efficient Finetuning for Speech and Reasoning Tasks 🔥 8.5/10 | 前25% | #大语言模型 | #参数高效微调 | #问答 #数学推理 | arxiv ...

Attentive Masked Self-Distillation for Respiratory Sound Classification

📄 Attentive Masked Self-Distillation for Respiratory Sound Classification #音频分类 #知识蒸馏 #数据增强 #医学音频 ✅ 7.5/10 | 前25% | #音频分类 | #知识蒸馏 | #数据增强 #医学音频学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Nuo Chen（浙江大学集成电路学院）通讯作者：Mingsheng Xu（浙江大学集成电路学院）作者列表：Nuo Chen（浙江大学集成电路学院）、Mingsheng Xu（浙江大学集成电路学院） 💡 毒舌点评亮点：论文针对呼吸声分类中数据预处理（循环填充）引入的捷径学习问题，设计了一个巧妙的“注意力掩码”机制，能动态地屏蔽模型容易过度依赖的声谱图区域，这比随机掩码更具针对性，且可视化结果令人信服。短板：尽管在ICBHI上取得了SOTA级别的性能，但实验仅在一个中等规模的数据集上进行，且模型骨架（AST）的参数量巨大（~90M），对于实际的医疗边缘部署可能并不友好，论文对此的讨论不足。 🔗 开源详情代码：论文中提供了代码仓库链接：https://github.com/CcnNnn/AMS-D。模型权重：论文中未提及是否公开预训练或训练好的模型权重。数据集：使用公开的ICBHI 2017数据集，但未在论文中说明具体获取方式（通常需自行申请）。 Demo：论文中未提及在线演示。复现材料：论文给出了主要训练细节：优化器（Adam）、学习率（5e-5及衰减策略）、Batch size（24）、训练轮数（50）、损失函数权重（α=1.0, β=0.03, γ=0.3）、掩码比例（39%）。但未提供完整的配置文件、检查点或环境依赖说明。论文中引用的开源项目：核心骨干模型：Audio Spectrogram Transformer (AST) [3]。数据集：ICBHI 2017呼吸声数据库 [17]。对比方法：Patch-Mix [4], LungAdapter [18], MVST [20], Gap-Aug [6] 等。训练工具：Adam优化器 [19]。 📌 核心摘要这篇论文旨在解决基于Transformer的呼吸声分类模型因参数量大、训练数据少而导致的过拟合，以及因音频预处理（循环填充）引入的冗余信息导致的捷径学习问题。方法核心是提出一个名为“注意力掩码自蒸馏”的框架，它结合了渐进式自蒸馏（将前一epoch模型作为教师，用KL散度对齐logits）和一种创新的注意力掩码策略：利用教师模型的特征通过Token权重模块计算每个token的重要性，并在当前epoch的学生模型中掩蔽掉最显著（即最可能成为捷径特征）的token。此外，模型还引入了一个重建任务，以掩蔽的token为目标进行重建，作为正则化项增强表示的鲁棒性。与已有方法相比，其新意在于将知识蒸馏、针对捷径特征的主动掩蔽以及重建正则化三者有机结合。在ICBHI数据集上的实验表明，该方法取得了具有竞争力的结果，敏感性达到60.92%，ICBHI综合得分为67.54%，优于Gap-Aug等强基线。消融实验和可视化分析证实了各组件的有效性以及模型关注临床相关声学区域的能力。该工作的实际意义在于为医疗音频分析提供了一种更鲁棒、泛化能力更强的建模思路，但其局限性在于主要验证集中在一个公开数据集，且使用了参数量庞大的预训练模型，计算效率未做深入探讨。 ...