Multimodal LLMs are not all you need for Pediatric Speech Language Pathology

📄 Multimodal LLMs are not all you need for Pediatric Speech Language Pathology #语音分类 #预训练 #数据增强 #医疗应用 #儿童语音 ✅ 7.5/10 | 前25% | #语音分类 | #预训练 | #数据增强 #医疗应用 | arxiv 学术质量 7.2/7 | 选题价值 7.0/2 | 复现加成 0.9 | 置信度 高 👥 作者与机构 第一作者:Darren Fürst(Ostbayerische Technische Hochschule Amberg-Weiden) 通讯作者:Darren Fürst(Ostbayerische Technische Hochschule Amberg-Weiden,邮箱d.fuerst@oth-aw.de) 作者列表:Darren Fürst(Ostbayerische Technische Hochschule Amberg-Weiden)、Sebastian Steindl(Ostbayerische Technische Hochschule Amberg-Weiden)、Ulrich Schäfer(Ostbayerische Technische Hochschule Amberg-Weiden) 💡 毒舌点评 这篇论文用扎实的实验给“多模态大模型是银弹”的盲目乐观泼了一盆冷水,证明在特定垂直医疗任务上,精调专用语音模型依然完胜通用大模型。不过,其基于的SLPHelmUltraSuitePlus数据集总样本量不足千个,使得所有结果的泛化性和临床说服力打了折扣,像是在一个精致的沙盒里打赢了一场漂亮的防守战。 🔗 开源详情 代码:提供了完整的代码仓库链接:https://github.com/N0tAScooby/Multimodal-LLMs-are-not-all-you-need-for-Pediatric-Speech-Language-Pathology。 模型权重:提供了训练好的模型权重,托管在Hugging Face:https://huggingface.co/N0tAScooby/Multimodal-LLMs-are-not-all-you-need-for-Pediatric-Speech-Language-Pathology。 数据集:论文使用第三方公开基准SLPHelmUltraSuitePlus,未提及自行发布新数据集。 Demo:论文中未提及在线演示。 复现材料:论文详细列出了超参数搜索范围(如学习率、LoRA参数、增强参数概率等),并注明“最佳超参数随代码发布”。给出了数据划分比例(64/16/20)、音频处理方式(截断12秒)、训练轮数等关键细节。 引用的开源项目:论文中使用的模型和库均基于公开研究,主要包括:WavLM, wav2vec2, Hubert, Whisper, LoRA。这些项目的具体版本或实现细节在代码库中应有体现。 📌 核心摘要 该论文旨在解决儿童言语障碍(SSD)诊断中专业人员短缺的问题,并评估在该任务上使用最新的多模态大语言模型(LLM)是否比传统专用语音表示模型(SRM)更优。方法核心是提出一个分层分类框架(T1:是否障碍 -> T2:障碍类型 -> T3:具体症状),并利用针对性的数据增强(高斯噪声、音高偏移)来减轻数据不平衡和性别偏差。与之前使用通用LLM的研究相比,本文发现:在SLPHelmUltraSuitePlus基准测试的所有四项任务(三项分类+ASR)上,经过微调的专用SRM(如WavLM)性能均大幅超越基于LLM的SOTA。例如,在二分类任务T1上,最佳SRM的F1分数为0.956,而最佳LLM仅为0.535;在更细粒度的T2任务上,分层SRM达到0.697,远超LLM的0.318。分层设计有效提升了细粒度分类性能,消融实验证明SRM在有无分层情况下均优于LLM。本研究的实际意义在于为临床辅助诊断提供了更可靠、高效的模型选择,并指出了在特定领域盲目应用大模型的局限性。主要局限性包括:仅在单一基准数据集上进行评估;为节省计算资源将音频截断为12秒,可能损失信息。 ...

2026-04-30 · 更新于 2026-05-19 · 2 min · 405 words

语音/音频论文速递 2026-04-30

语音/音频论文速递 2026-04-30 共分析 25 篇论文 ⚡ 今日概览 📥 抓取 25 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 4篇 ████ #音频深度伪造检测 2篇 ██ #声源定位 2篇 ██ #音视频 1篇 █ #语音克隆 1篇 █ #说话人验证 1篇 █ #语音匿名化 1篇 █ #语音情感识别 1篇 █ 📊 论文评分排行榜(25 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 PSP: An Interpretable Per-Dimension Accent Benchmark fo 9.0分 前25% #语音合成 🥈 Hallo-Live: Real-Time Streaming Joint Audio-Video Avata 8.5分 前25% #音视频 🥉 One Voice, Many Tongues: Cross-Lingual Voice Cloning fo 8.0分 前25% #语音克隆 4. Similarity Choice and Negative Scaling in Supervised Co 8.0分 前25% #音频深度伪造检测 5. Praxy Voice: Voice-Prompt Recovery + BUPS for Commercia 8.0分 前25% #语音合成 6. Dual-LoRA: Parameter-Efficient Adversarial Disentanglem 7.5分 前25% #说话人验证 7. SPG-Codec: Exploring the Role and Boundaries of Semanti 7.5分 前25% #语音合成 8. DiffAnon: Diffusion-based Prosody Control for Voice Ano 7.5分 前25% #语音匿名化 9. Diffusion Reconstruction towards Generalizable Audio De 7.5分 前25% #音频深度伪造检测 10. EmoTransCap: Dataset and Pipeline for Emotion Transitio 7.5分 前25% #语音情感识别 11. Hankel and Toeplitz Rank-1 Decomposition of Arbitrary M 7.5分 前50% #声源定位 12. A New Location Estimator for Mixed LOS & NLOS scena 7.5分 前25% #声源定位 13. Multimodal LLMs are not all you need for Pediatric Spee 7.5分 前25% #语音分类 14. StarDrinks: An English and Korean Test Set for SLU Eval 7.5分 前25% #数据集 15. Tatemae: Detecting Alignment Faking via Tool Selection 7.5分 前25% #大语言模型 16. Step-Audio-R1.5 Technical Report 7.5分 前25% #语音对话系统 17. Preferences of a Voice-First Nation: Large-Scale Pairwi 7.5分 前25% #语音合成 18. The False Resonance: A Critical Examination of Emotion 7.0分 前25% #语音情感识别 #模型评估 19. A Toolkit for Detecting Spurious Correlations in Speech 7.0分 前50% #模型评估 20. Multiple Additive Neural Networks for Structured and Un 7.0分 前50% #表格数据预测 21. Random Cloud: Finding Minimal Neural Architectures With 7.0分 前50% #模型架构搜索 22. Recurrence-Based Nonlinear Vocal Dynamics as Digital Bi 6.5分 前50% #语音生物标志物 23. Full band denoising of room impulse response in the wav 6.5分 前50% #音频信号处理 24. Text-Utilization for Encoder-dominated Speech Recogniti 6.5分 前50% #语音识别 25. Fitting Large Nonlinear Mixed Effects Models Using Vari 6.5分 前50% #统计计算 📋 论文列表 🥇 PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech 🔥 9.0/10 | 前25% | #语音合成 | #模型评估 | #自监督学习 #多语言 | arxiv ...

2026-04-30 · 更新于 2026-05-19 · 16 min · 3385 words

Utterance-Level Methods for Identifying Reliable ASR-Output for Child Speech

📄 Utterance-Level Methods for Identifying Reliable ASR-Output for Child Speech #语音识别 #模型评估 #儿童语音 #多语言 ✅ 7.5/10 | 前25% | #语音识别 | #模型评估 | #儿童语音 #多语言 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Gus Lathouwers (guslathouwers@gmail.com) 通讯作者:未说明(论文中未明确指定通讯作者,但提供了所有作者邮箱) 作者列表: Gus Lathouwers (Centre for Language Studies, Radboud University, Netherlands) Lingyun Gao (Centre for Language Studies, Radboud University, Netherlands) Catia Cucchiarini (Centre for Language Studies, Radboud University, Netherlands) Helmer Strik (Department of Language and Communication, Radboud University, Netherlands) 💡 毒舌点评 亮点在于方法设计非常务实,针对朗读和对话场景分别提出“与原文匹配”和“LLM分类”两种可解释性强的启发式规则,且“模型一致性过滤”策略能以较低的召回率换取极高的精确率(>97.4%),为自动筛选可靠转录提供了可靠工具。短板是开源精神不足,论文中提到的GitHub链接为无效占位符,且关键的对话文本分割流程(英文CSLU数据)依赖外部标点工具,细节未充分公开,严重影响了结果的可复现性。 ...

2026-04-23 · 更新于 2026-05-19 · 2 min · 223 words

语音/音频论文速递 2026-04-23

语音/音频论文速递 2026-04-23 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 语音识别 5篇 █████ 基准测试 2篇 ██ 音频深度伪造检测 2篇 ██ 语音对话系统 2篇 ██ 音频分类 2篇 ██ 音乐信息检索 1篇 █ 语音合成 1篇 █ 麦克风阵列 1篇 █ 📊 论文评分排行榜(27 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Indic-CodecFake meets SATYAM: Towards Detecting Neural 8.5分 前25% #音频深度伪造检测 🥈 Qwen3.5-Omni Technical Report 8.5分 前25% #语音对话系统 🥉 Towards Streaming Target Speaker Extraction via Chunk-w 8.5分 前25% #语音分离 4 Aligning Stuttered-Speech Research with End-User Needs: 8.5分 前25% #语音识别 5 ONOTE: Benchmarking Omnimodal Notation Processing for E 8.0分 前25% #基准测试 6 FastTurn: Unifying Acoustic and Streaming Semantic Cues 8.0分 前25% #语音对话系统 7 Environmental Sound Deepfake Detection Using Deep-Learn 8.0分 前25% #音频深度伪造检测 8 Embedding-Based Intrusive Evaluation Metrics for Musica 7.5分 前25% #音乐信息检索 9 Self-Noise Reduction for Capacitive Sensors via Photoel 7.5分 前25% #麦克风阵列 10 Utterance-Level Methods for Identifying Reliable ASR-Ou 7.5分 前25% #语音识别 11 Enhancing ASR Performance in the Medical Domain for Dra 7.5分 前25% #语音识别 12 Deep Hierarchical Knowledge Loss for Fault Intensity Di 7.5分 前25% #音频分类 13 SpeechParaling-Bench: A Comprehensive Benchmark for Par 7.5分 前25% #基准测试 14 ATIR: Towards Audio-Text Interleaved Contextual Retriev 7.5分 前25% #音频检索 15 Before the Mic: Physical-Layer Voiceprint Anonymization 7.5分 前25% #语音匿名化 16 MOMO: A framework for seamless physical, verbal, and gr 7.5分 前25% #机器人控制 17 CoInteract: Physically-Consistent Human-Object Interact 7.5分 前25% #视频生成 18 MoVE: Translating Laughter and Tears via Mixture of Voc 7.5分 前25% #语音翻译 19 Reducing the Offline-Streaming Gap for Unified ASR Tran 7.5分 前25% #语音识别 20 Tadabur: A Large-Scale Quran Audio Dataset 7.5分 前25% #语音识别 21 FLiP: Towards understanding and interpreting multimodal 7.5分 前50% #模型评估 22 Text-To-Speech with Chain-of-Details: modeling temporal 7.0分 前25% #语音合成 23 SAND: The Challenge on Speech Analysis for Neurodegener 7.0分 前50% #语音生物标志物 24 Explicit Dropout: Deterministic Regularization for Tran 7.0分 前25% #音频分类 25 X-VC: Zero-shot Streaming Voice Conversion in Codec Spa 6.5分 前25% #语音转换 26 Enhancing Speaker Verification with Whispered Speech vi 6.5分 前50% #说话人验证 27 Centering Ecological Goals in Automated Identification 6.5分 前25% #生物声学 📋 论文列表 🥇 Indic-CodecFake meets SATYAM: Towards Detecting Neural Audio Codec Synthesized Speech Deepfakes in Indic Languages 🔥 8.5/10 | 前25% | #音频深度伪造检测 | #预训练 | #多语言 #语音大模型 | arxiv ...

2026-04-23 · 更新于 2026-05-19 · 13 min · 2679 words