Leveraging Multimodal Self-Consistency Reasoning in Coding Motivational Interviewing for Alcohol Use Reduction

📄 Leveraging Multimodal Self-Consistency Reasoning in Coding Motivational Interviewing for Alcohol Use Reduction #多模态模型 #医疗音频 #自洽学习 #提示工程 #动机访谈编码 ✅ 6.0/10 | 前50% | #动机访谈编码 | #自洽学习 | #多模态模型 #医疗音频 | arxiv 学术质量 5.3/8 | 影响力 0.6/2 | 可复现性 0.4/1 | 置信度 中 👥 作者与机构 第一作者:Guangzeng Han (University of Memphis, Department of Computer Science) 通讯作者:Xiaolei Huang (Department of Psychology, Washington State University Vancouver; 论文发表时隶属于University of Memphis) 作者列表:Guangzeng Han (University of Memphis), James G. Murphy (Veterans Affairs Health Care System; University of California San Francisco), Benjamin O. Ladd (University of Memphis), Xiaolei Huang (Washington State University Vancouver), Brian Borsari (Washington State University Vancouver) 💡 毒舌点评 本文将自洽推理从纯文本扩展至多模态临床编码,并设计了四种具有临床动机(内容、韵律、证据评分、对比)的提示策略,展现了在垂直领域应用大模型的工程巧思;然而,在一个仅含5个会话、898个话语的小规模数据集上,仅与两个简单的提示基线(Direct, COT)对比,且绝对性能(宏F1 < 51%)较低,严重削弱了方法“优越性”的证明力度和普适性结论,更像是一次概念验证(proof-of-concept)。 ...

2026-05-14 · 更新于 2026-05-19 · 2 min · 381 words

语音/音频论文速递 2026-05-14

语音/音频论文速递 2026-05-14 共分析 16 篇论文 ⚡ 今日概览 📥 抓取 16 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 2篇 ██ #音频分类 2篇 ██ #语音对话系统 1篇 █ #模型评估 1篇 █ #多智能体协同 1篇 █ #音频事件检测 1篇 █ #乐谱生成 1篇 █ #音频生成 1篇 █ 📊 论文评分排行榜(16 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 EVA-Bench: A New End-to-end Framework for Evaluating Vo 8.0分 前25% #语音对话系统 🥈 Senses Wide Shut: A Representation-Action Gap in Omnimo 8.0分 前50% #模型评估 🥉 EVOCHAMBER: Test-Time Co-evolution of Multi-Agent Syste 8.0分 前25% #多智能体协同 4. NAACA: Training-Free NeuroAuditory Attentive Cognitive 7.0分 前25% #音频事件检测 5. Text2Score: Generating Sheet Music From Textual Prompts 7.0分 前25% #乐谱生成 6. Seconds-Aligned PCA-DAC Latent Diffusion for Symbolic-t 7.0分 前50% #音频生成 7. Bypassing Direct Reconstruction: Speech Detection from 7.0分 前25% #语音活动检测 8. Decoupled Azimuth Elevation AoA Estimation Exploiting K 7.0分 前25% #声源定位 9. WARDEN: Endangered Indigenous Language Transcription an 7.0分 前25% #语音识别 10. Vividh-ASR: A Complexity-Tiered Benchmark and Optimizat 7.0分 前50% #语音识别 11. Scaling few-shot spoken word classification with genera 7.0分 前50% #音频分类 12. GeoBuildBench: A Benchmark for Interactive and Executab 7.0分 前25% #几何推理 13. Keep What Audio Cannot Say: Context-Preserving Token Pr 7.0分 前25% #音视频 14. PresentAgent-2: Towards Generalist Multimodal Presentat 6.5分 前25% #生成模型 15. Does language matter for spoken word classification? A 6.0分 前50% #音频分类 16. Leveraging Multimodal Self-Consistency Reasoning in Cod 6.0分 前50% #动机访谈编码 📋 论文列表 🥇 EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents 🔥 8.0/10 | 前25% | #语音对话系统 | #基准测试 | #语音质量评估 #端到端 | arxiv ...

2026-05-14 · 更新于 2026-05-19 · 11 min · 2240 words