Speaker-Disentangled Remote Speech Detection of Asthma and COPD Exacerbations

📄 Speaker-Disentangled Remote Speech Detection of Asthma and COPD Exacerbations #医疗音频 #对抗学习 #语音生物标志物 #多任务学习 #隐私保护 ✅ 7.5/10 | 前50% | #医疗音频 | #对抗学习 | #语音生物标志物 #多任务学习 | arxiv 学术质量 6.2/8 | 影响力 0.8/1 | 可复现性 0.5/1 | 置信度 中 👥 作者与机构 第一作者:Yuyang Yan (马斯特里赫特大学数据科学研究所) 通讯作者:Yuyang Yan (马斯特里赫特大学数据科学研究所) 作者列表:Yuyang Yan (马斯特里赫特大学数据科学研究所)、Sami O. Simons (马斯特里赫特大学医学中心呼吸内科 / NUTRIM营养、转化与代谢研究所)、Visara Urovi (马斯特里赫特大学数据科学研究所) 💡 毒舌点评 亮点:论文切中了一个重要但常被忽视的问题——医疗语音诊断模型可能严重依赖说话人身份这一“伪特征”。其提出的对抗解耦框架思路清晰,并将临床可解释性(SHAP)与隐私保护目标相结合,在垂直医疗领域具有实际价值。通过实验证明,去除说话人偏差后模型反而更关注病理特征,这种“隐私促进性能”的发现很有启发性。短板:核心验证存在明显软肋。外部验证集Bridge2AI-Voice仅用了22名患者(每类11人),样本量过小,统计效力严重不足,难以支撑“跨数据集泛化”的强力结论。此外,研究完全基于预提取的声学特征,未与端到端从原始音频学习的方法进行对比,方法的优越性范围受限。 📌 核心摘要 要解决什么问题:基于语音的远程呼吸疾病监测模型,其预测性能可能高度依赖说话人的可识别属性(如年龄、性别、口音),这既损害了模型在未知患者上的泛化能力,也带来了严重的患者隐私泄露风险。同时,病理特征与说话人特征的混杂使得特征可解释性变差。 方法核心是什么:提出一个基于对抗学习的多任务框架。框架包含一个共享的上游编码器(LeFF Transformer + BiLSTM),其下游连接两个分类头:一个用于预测呼吸状态(稳定/加重)或加重类型(哮喘/COPD),另一个用于预测说话人身份。在说话人分类头之前插入梯度反转层(GRL),在反向传播时反转梯度,迫使上游编码器学习对病理分类有用但对说话人识别无用的特征表示。总训练目标为 \(\mathcal{L}_{\text{total}}=\mathcal{L}_{\text{res}}-\lambda\mathcal{L}_{\text{spk}}\)。 与已有方法相比新在哪里:首次将对抗解耦技术系统性地应用于医疗语音分析领域,专门解决说话人偏差问题。与简单的语音转换预处理(如FreeVC)相比,该方法是端到端的、可训练的,并能同时优化临床任务性能和隐私保护目标。此外,框架整合了多任务学习和基于SHAP的特征重要性分析,以提升模型的区分度和可解释性。 主要实验结果如何:在TACTICAS数据集(荷兰语)上,对于“稳定/加重”分类,AUC从基线的0.897提升至0.909;对于“哮喘/COPD加重”分类,AUC从0.647显著提升至0.739。同时,衡量说话人可分离度的J-ratio在两项任务中均下降(任务1:1.541→1.515;任务2:1.034→0.869)。外部验证(Bridge2AI-Voice,英语)也显示了性能提升和J-ratio下降(AUC 0.801→0.822, J-ratio 2.146→1.763)。SHAP分析显示,对抗训练后模型抑制了与说话人强相关的特征(如基频标准差、共振峰频率标准差),增强了与病理相关的特征(如抖动、响度标准差、连续静音时长)。 实际意义是什么:该工作为构建更公平、更隐私、更可靠的语音医疗诊断模型提供了方法论基础。它表明,通过主动消除无关的说话人偏差,不仅可以保护隐私,还能迫使模型关注真正的病理生物标志物,从而可能提升模型的临床泛化能力。 主要局限性是什么:研究使用的两个数据集规模均较小(TACTICAS: 56人;Bridge2AI-Voice验证集: 22人),且验证集语言不同但病理类别有限。模型性能虽有提升,但绝对提升幅度有限(Task 1 AUC提升仅0.012),且缺乏与临床重要终点(如住院率、肺功能)的关联分析。对抗训练的关键超参数λ的选择过程和最终值未明确说明,也未进行敏感性分析。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集: TACTICAS:该数据集用于本研究,由研究团队通过移动应用收集。论文中未提供公开获取的直接链接。 Bridge2AI-Voice:用于外部验证的公开数据集。论文中提供了其项目主页链接:www.bridge2ai-voice.org。 Demo:论文中未提及 复现材料:论文中未提及 论文中引用的开源项目: openSMILE:一种用于从语音和音频中提取声学特征的工具包。 eGeMAPS:扩展的日内瓦最小化声学描述符集。 FreeVC:用于语音转换的无文本、单次学习系统。其 GitHub 仓库链接为:https://github.com/amaurial/FreeVC。 🏗️ 方法概述和架构 整体流程概述:这是一个端到端的对抗学习框架。输入是手工提取的多域声学特征(频谱、频率、能量、时域),经过一个共享的上游编码器(Locally-enhanced Feed-Forward Network Transformer + BiLSTM)提取高级表征。该表征随后被同时送入两个下游任务头:一个病理分类头(MLP)和一个说话人分类头(MLP)。在说话人分类头之前插入梯度反转层(GRL),构成对抗训练的核心,最终输出两个任务的预测概率。训练目标是联合最小化病理分类损失和最大化说话人分类损失(通过GRL和损失函数设计实现)。 ...

2026-05-19 · 更新于 2026-05-19 · 3 min · 445 words

Can Large Language Models Imitate Human Speech for Clinical Assessment? LLM-Driven Data Augmentation for Cognitive Score Prediction

📄 Can Large Language Models Imitate Human Speech for Clinical Assessment? LLM-Driven Data Augmentation for Cognitive Score Prediction #语音生物标志物 #数据增强 #大语言模型 #医疗音频 #低资源 ✅ 6/10 | 前50% | #语音生物标志物 | #数据增强 | #大语言模型 #医疗音频 | arxiv 学术质量 5.4/8 | 影响力 0.6/1 | 可复现性 0/1 | 置信度 中 👥 作者与机构 第一作者:Si-Belkacem Yamine Ketir (Télécom SudParis, France) 通讯作者:未说明 作者列表:Si-Belkacem Yamine Ketir (Télécom SudParis, France)、Lenard Paulo Tamayo (Nara Institute of Science and Technology, Japan)、Shohei Hisada (Nara Institute of Science and Technology, Japan)、Shaowen Peng (Nara Institute of Science and Technology, Japan)、Shoko Wakamiya (Nara Institute of Science and Technology, Japan)、Eiji Aramaki (Nara Institute of Science and Technology, Japan) 💡 毒舌点评 本文提出了一个逻辑清晰、临床动机明确的数据增强框架,其核心亮点在于“书面锚定+风格转换”的受控生成范式,并创新性地引入相似性引导策略以提升合成数据的语义保真度。然而,其说服力严重受限于实验规模:在一个仅30人、分布极不平衡且未公开的特定语料库上得出结论,且基线选择过于薄弱(仅对比无增强和高斯噪声),未与领域内更相关的文本增强方法(如EDA、回译)或更强大的预测模型进行对比,使得方法优越性的声称显得证据不足。此外,论文依赖于闭源的GPT-5模型,严重损害了工作的可复现性与普适性。 ...

2026-05-18 · 更新于 2026-05-19 · 2 min · 330 words

Improving Automatic Speech Recognition for Speakers Treated for Oral Cancer using Data Augmentation and LLM Error Correction

📄 Improving Automatic Speech Recognition for Speakers Treated for Oral Cancer using Data Augmentation and LLM Error Correction #语音识别 #数据增强 #大语言模型 #医疗音频 #低资源 #语音转换 #文本转语音 ✅ 6/10 | 前50% | #语音识别 | #数据增强 | #大语言模型 #医疗音频 | arxiv 学术质量 5/8 | 影响力 0.8/1 | 可复现性 0.2/1 | 置信度 高 👥 作者与机构 第一作者:Hidde Folkertsma(论文作者列表首位,通常为第一作者) 通讯作者:未明确说明 作者列表:Hidde Folkertsma, Thomas B. Tienkamp, Sebastiaan A.H.J. de Visscher, Max J.H. Witjes, Rob J.J.H. van Son, Jiapan Guo, Bence Mark Halpern 作者与机构:论文正文及致谢部分未明确列出所有作者所属的完整机构信息。仅在致谢中提及数据收集获得了格罗宁根大学医学中心研究伦理委员会的批准,表明研究可能与该机构有关联。 💡 毒舌点评 本文系统性地将多种数据增强技术(从传统信号处理到生成式模型)和LLM纠错应用于一个数据极度稀缺、具有重要临床意义的垂直领域——口腔癌术后患者的语音识别。实验设计全面,对比了不同的ASR模型、微调策略和LLM,并进行了消融分析,实证部分扎实。然而,论文的核心方法创新性有限,本质是现有技术的组合与应用验证。更关键的是,受限于仅11名患者的小数据集,所有结论的统计显著性和泛化能力存疑,部分分析(如将TTS的成功归因于语言多样性)缺乏严格验证。此外,依赖闭源LLM API带来的隐私与部署矛盾,是其从“有效”走向“实用”难以绕过的障碍。 ...

2026-05-18 · 更新于 2026-05-19 · 2 min · 426 words

语音/音频论文速递 2026-05-18

语音/音频论文速递 2026-05-18 共分析 13 篇论文 ⚡ 今日概览 📥 抓取 13 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音乐生成 2篇 ██ #音频分类 2篇 ██ #音频修复 1篇 █ #语音识别 #说话人分离 1篇 █ #语音翻译 1篇 █ #语音识别 1篇 █ #生理信号预测 1篇 █ #语音生物标志物 1篇 █ 📊 论文评分排行榜(13 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Modeling Music as a Time-Frequency Image: A 2D Tokenize 8.1分 前25% #音乐生成 🥈 Scalable neuromorphic computing from autonomous spiking 7.8分 前25% #音频分类 🥉 Real-time Speech Restoration using Data Prediction Mean 7.5分 前25% #音频修复 4. Mind the Gap: Impact of Synthetic Conversational Data o 7.2分 前25% #语音识别 #说话人分离 5. From Flat Language Labels to Typological Priors: Struct 6.9分 前50% #语音翻译 6. Beyond Content: A Comprehensive Speech Toxicity Dataset 6.5分 前25% #音频分类 7. ARIA: A Diagnostic Framework for Music Training Data At 6.1分 前25% #音乐生成 8. Improving Automatic Speech Recognition for Speakers Tre 6.0分 前50% #语音识别 9. Toward World Modeling of Physiological Signals with Cha 6.0分 前50% #生理信号预测 10. Can Large Language Models Imitate Human Speech for Clin 6.0分 前50% #语音生物标志物 11. Can We Trust AI-Inferred User States. A Psychometric Fr 6.0分 前50% #模型评估 12. Sound Sparks Motion: Audio and Text Tuning for Video Ed 5.5分 前25% #视频编辑 13. Perforated Neural Networks for Keyword Spotting 5.0分 前60% #关键词检测 📋 论文列表 🥇 Modeling Music as a Time-Frequency Image: A 2D Tokenizer for Music Generation 🔥 8.1/10 | 前25% | #音乐生成 | #自回归模型 | arxiv ...

2026-05-18 · 更新于 2026-05-19 · 11 min · 2305 words

A Benchmark for Early-stage Parkinson's Disease Detection from Speech

📄 A Benchmark for Early-stage Parkinson’s Disease Detection from Speech #语音生物标志物 #基准测试 #医疗音频 #模型评估 ✅ 7.2/10 | 前30% | #语音生物标志物 | #基准测试 | #医疗音频 #模型评估 | arxiv 学术质量 5.6/8 | 影响力 0.7/1 | 可复现性 0.9/1 | 置信度 高 👥 作者与机构 第一作者:Terry Yi Zhong (Centre for Language Studies, Radboud University, Nijmegen, the Netherlands) 通讯作者:论文中未明确指定通讯作者。作者列表及邮箱显示,通讯联系可能为第一作者或资深作者 Bastiaan R. Bloem。 作者列表:Terry Yi Zhong, Cristian Tejedor-Garcia, Khiet P. Truong (Centre for Language Studies, Radboud University, the Netherlands), Janna Maas, Bastiaan R. Bloem (Center of Expertise for Parkinson and Movement Disorders, Radboud University Medical Center, the Netherlands), Louis ten Bosch (Centre for Language Studies, Radboud University, the Netherlands) 💡 毒舌点评 在语音PD检测领域众说纷纭的“巴别塔”困境中,本文试图建立一座通用的“基准高塔”。其系统性整合和临床考量令人钦佩,但作为高塔地基的公开语料库(仅两个数据集)却略显单薄,可能使其宣称的普适性在面对更复杂的现实世界“地基”时产生动摇。 ...

2026-05-15 · 更新于 2026-05-19 · 3 min · 531 words

Physics-Based iOCT Sonification for Real-time Interaction Awareness in Subretinal Injection

📄 Physics-Based iOCT Sonification for Real-time Interaction Awareness in Subretinal Injection #医疗音频 #信号处理 #实时处理 #音频事件检测 #跨模态 ✅ 6.5/10 | 前40% | #医疗音频 | #信号处理 | #实时处理 #音频事件检测 | arxiv 学术质量 5.4/8 | 影响力 0.6/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Luis D. Reyes Vargas (Technical University of Munich, Computer Aided Medical Procedures) 通讯作者:Luis D. Reyes Vargas (邮箱 luis.reyes@tum.de 明确标识为通讯作者) 作者列表:Luis D. Reyes Vargas (Technical University of Munich, Computer Aided Medical Procedures),Veronica Ruozzi (未说明机构),Andrea K. M. Ross (Rotterdam Eye Hospital),Shervin Dehghani (Technical University of Munich, TUM Klinikum Rechts der Isar),Michael Sommersperger (Technical University of Munich, Computer Aided Medical Procedures),Koorosh Faridpooya (未说明机构),Mohammad Ali Nasseri (Technical University of Dresden, Centre for Tactile Internet with Human-in-the-Loop),Merle Fairhurst (Technical University of Dresden, Chair for Social Affective Touch),Nassir Navab (Technical University of Munich, Computer Aided Medical Procedures; Munich Center for Machine Learning),Sasan Matinfar (Technical University of Munich, Computer Aided Medical Procedures) 💡 毒舌点评 这篇论文精准地抓住了视网膜下注射手术中一个真实且关键的痛点:iOCT数据的视觉认知过载。其提出的解决方案——将实时分割的解剖结构映射到一个物理声音模型——在工程逻辑上清晰且具有临床洞察力。用户研究的结果也确实表明,这种听觉反馈在传递“水泡形成”这类动态事件上显著优于简单参数映射。然而,这篇论文的创新性上限被其“系统集成”的本质所限制:核心的声音生成模型(质量-弹簧-阻尼器)和驱动它所需的分割技术均非新创。论文更像是一次精心设计的、面向特定场景的“管道集成”和应用验证,其贡献在于证明了这种集成方式在临床任务上的有效性,而非在音频合成、物理建模或分割算法本身上提出新原理。实验完全基于模拟环境和有限的专家反馈,与真实的、高风险的手术室应用之间,仍隔着一道名为“临床验证”的深水区。 ...

2026-05-15 · 更新于 2026-05-19 · 2 min · 407 words

PROCESS-2: A Benchmark Speech Corpus for Early Cognitive Impairment Detection

📄 PROCESS-2: A Benchmark Speech Corpus for Early Cognitive Impairment Detection #语音生物标志物 #数据集 #基准测试 #医疗音频 📝 5.4/10 | 前50% | #语音生物标志物 | #基准测试 | #数据集 #医疗音频 | arxiv 学术质量 4.2/8 | 影响力 0.7/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Madhurananda Pahar(谢菲尔德大学计算机系) 通讯作者:未明确说明(论文未明确标注通讯作者。根据作者贡献描述,Heidi Christensen负责监督研究、贡献研究设计、解释结果并提供整体项目指导)。 作者列表:Madhurananda Pahar(谢菲尔德大学计算机系),Caitlin H. Illingworth(谢菲尔德大学计算机系),Bahman Mirheidari(谢菲尔德大学计算机系),Hend Elghazaly(谢菲尔德大学计算机系),Fritz Peters(谢菲尔德大学计算机系),Sophie Young(谢菲尔德大学计算机系),Wing-Zin Leung(谢菲尔德大学计算机系),Labhpreet Kaur(谢菲尔德大学计算机系),Daniel Blackburn(谢菲尔德大学SITraN研究所),Heidi Christensen(谢菲尔德大学计算机系) 💡 毒舌点评 亮点:该数据集在真实世界远程评估场景下进行了全面、严谨的技术验证(包括统计分析、嵌入空间分析和基准建模),其设计(如多任务、保留环境噪声)旨在解决当前数据集生态效度不足的核心痛点,为领域提供了宝贵的标准化评估资源。短板:其创新性更多体现在“工程集成”和“数据规模提升”上,而非方法论或核心认知科学上的突破;此外,作为一个“基准”数据集,其提供的基线模型(LR, MLP, DistilBERT等)相对简单且已过时,未能展示更先进或针对该任务定制化的建模策略,削弱了其作为“挑战”推动技术进步的潜力。 📌 核心摘要 要解决什么问题:现有用于通过语音自动检测早期认知障碍(如轻度认知障碍MCI、痴呆症)的临床验证数据集存在规模小、多在控制环境下采集、任务单一、数据共享受限等问题,阻碍了可复现的机器学习研究和临床转化。 方法核心是什么:论文提出并发布了PROCESS-2数据集,这是一个通过远程数字评估平台(CognoMemory)在真实世界环境中采集的大规模语音语料库,包含200名健康对照(HC)、150名MCI和50名痴呆症患者,共约21小时语音。数据涵盖三种认知任务:语义流畅性任务(SFT)、语音流畅性任务(PFT)和Cookie Theft图片描述任务(CTD),并附带人工转录本和临床元数据(如MMSE)。 与已有方法相比新在哪里:与早期数据集(如DementiaBank)相比,PROCESS-2在生态效度(远程、真实环境)、任务多样性(三种任务)、参与者规模(400人)上显著提升。与近期工作相比,它旨在提供一个更平衡、更标准化且数据丰富的基准,同时包含详尽的技术验证(统计、嵌入空间几何、基线建模)以证明其作为基准的质量和可用性。 主要实验结果如何:技术验证表明,数据集在人口统计学(年龄、性别)和记录质量(时长、信噪比)上各组间可比,临床标签(MMSE)在组间有显著区分。嵌入空间分析显示语言特征能较好地区分疾病组。基准实验(表7)表明,基于语言模型的分类器(如DistilBERT)在2分类任务上F1最高达0.85,3分类最高达0.59,回归RMSE最低达3.87,优于经典模型,且使用自动转录本性能下降可控。 实际意义是什么:PROCESS-2提供了一个标准化、可复现的基准,可加速语音生物标志物、多模态融合、跨环境鲁棒性等方向的研究。其真实世界数据特性有助于开发更具临床部署潜力的模型。 主要局限性是什么:数据集中痴呆症组样本量相对较小(50人);仅使用英国英语,跨语言适用性未验证;部分参与者缺少MMSE评分;所提供的基线模型较为基础,未探索更先进的建模方法;ASR转录本错误率较高(40%-60%)。 🔗 开源详情 代码:https://github.com/CognoSpeak/PROCESS-2。所有复现统计分析、嵌入生成和基线建模实验所需的代码及环境均在此仓库发布,并存档于 Zenodo: https://doi.org/10.5281/zenodo.19900225。 模型权重:论文中未提及模型权重的具体链接或获取方式。论文中评估的模型(如DistilBERT, RoBERTa, Wav2Vec 2.0)为公开可用的预训练模型,但本文未提供特定微调后的权重。 数据集:PROCESS-2。托管于 Hugging Face: https://huggingface.co/datasets/CognoSpeak/PROCESS-2。访问为受控模式,需提交申请并签署数据使用协议(Data Use Agreement),申请链接即为上述 Hugging Face 仓库页面。 Demo:论文中未提及在线演示或交互式 Demo 链接。 复现材料:论文中未提及具体的训练配置文件、超参数设置或模型检查点下载链接。复现基线实验所需的代码、依赖环境及数据集划分已在代码仓库中提供。 论文中引用的开源项目: FFmpeg:用于音频格式转换,论文中未提供具体链接。 Silero VAD:用于语音活动检测和信噪比计算,论文中未提供具体链接。 Wav2Vec 2.0:用于语音转文本,论文中未提供具体链接。 Whisper:用于语音转文本,论文中未提供具体链接。 DistilBERT 和 RoBERTa:用作语言模型的Transformer架构,论文中未提供具体链接。 🏗️ 方法概述和架构 该论文的核心贡献并非一个新提出的模型架构,而是一个旨在解决关键数据瓶颈的数据集创建、验证与基准化框架。其方法论核心是构建一个大规模、多任务、真实世界的语音数据采集、处理与标准化评估流水线。 ...

2026-05-15 · 更新于 2026-05-19 · 3 min · 439 words

语音/音频论文速递 2026-05-15

语音/音频论文速递 2026-05-15 共分析 20 篇论文 ⚡ 今日概览 📥 抓取 20 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 2篇 ██ #音频分类 2篇 ██ #语音生物标志物 2篇 ██ #说话人验证 2篇 ██ #基准测试 1篇 █ #语音翻译 1篇 █ #音频生成 1篇 █ #基础模型 1篇 █ 📊 论文评分排行榜(20 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 FutureSim: Replaying World Events to Evaluate Adaptive 7.6分 前25% #基准测试 🥈 Refining Pseudo-Audio Prompts with Speech-Text Alignmen 7.5分 前50% #语音识别 🥉 AudioMosaic: Contrastive Masked Audio Representation Le 7.3分 前50% #音频分类 4. A Benchmark for Early-stage Parkinson’s Disease Detecti 7.2分 前30% #语音生物标志物 5. SpeakerLLM: A Speaker-Specialized Audio-LLM for Speaker 7.0分 前25% #说话人验证 6. Streaming Speech-to-Text Translation with a SpeechLLM 6.8分 前25% #语音翻译 7. Break-the-Beat! Controllable MIDI-to-Drum Audio Synthes 6.8分 前50% #音频生成 8. Mini-JEPA Foundation Model Fleet Enables Agentic Hydrol 6.8分 前50% #基础模型 9. Persian MusicGen: A Large-Scale Dataset and Culturally- 6.7分 前50% #音乐生成 10. Physics-Based iOCT Sonification for Real-time Interacti 6.5分 前40% #医疗音频 11. From Text to Voice: A Reproducible and Verifiable Frame 6.3分 前50% #模型评估 12. IsoNet: Spatially-aware audio-visual target speech extr 6.0分 前50% #语音提取 13. FSD50K-Solo: Automated Curation of Single-Source Sound 5.5分 前50% #数据清洗 14. UMo: Unified Sparse Motion Modeling for Real-Time Co-Sp 5.5分 前25% #语音合成 15. Masked Autoencoders with Limited Data: Does It Work? A 5.5分 前50% #音频分类 16. Text-Dependent Speaker Verification (TdSV) Challenge 20 5.5分 前40% #说话人验证 17. PROCESS-2: A Benchmark Speech Corpus for Early Cognitiv 5.4分 前50% #语音生物标志物 18. Transmit Beamforming for High-Rate Underwater Acoustic 5.3分 前50% #水声通信 19. A Calculus-Based Framework for Determining Vocabulary S 3.9分 后50% #语音识别 20. MediaClaw: Multimodal Intelligent-Agent Platform Techni 3.3分 后50% #多模态模型 📋 论文列表 🥇 FutureSim: Replaying World Events to Evaluate Adaptive Agents ✅ 7.6/10 | 前25% | #基准测试 | #大语言模型 | #自适应代理 #测试时适应 | arxiv ...

2026-05-15 · 更新于 2026-05-19 · 15 min · 3187 words

Leveraging Multimodal Self-Consistency Reasoning in Coding Motivational Interviewing for Alcohol Use Reduction

📄 Leveraging Multimodal Self-Consistency Reasoning in Coding Motivational Interviewing for Alcohol Use Reduction #多模态模型 #医疗音频 #自洽学习 #提示工程 #动机访谈编码 ✅ 6.0/10 | 前50% | #动机访谈编码 | #自洽学习 | #多模态模型 #医疗音频 | arxiv 学术质量 5.3/8 | 影响力 0.6/2 | 可复现性 0.4/1 | 置信度 中 👥 作者与机构 第一作者:Guangzeng Han (University of Memphis, Department of Computer Science) 通讯作者:Xiaolei Huang (Department of Psychology, Washington State University Vancouver; 论文发表时隶属于University of Memphis) 作者列表:Guangzeng Han (University of Memphis), James G. Murphy (Veterans Affairs Health Care System; University of California San Francisco), Benjamin O. Ladd (University of Memphis), Xiaolei Huang (Washington State University Vancouver), Brian Borsari (Washington State University Vancouver) 💡 毒舌点评 本文将自洽推理从纯文本扩展至多模态临床编码,并设计了四种具有临床动机(内容、韵律、证据评分、对比)的提示策略,展现了在垂直领域应用大模型的工程巧思;然而,在一个仅含5个会话、898个话语的小规模数据集上,仅与两个简单的提示基线(Direct, COT)对比,且绝对性能(宏F1 < 51%)较低,严重削弱了方法“优越性”的证明力度和普适性结论,更像是一次概念验证(proof-of-concept)。 ...

2026-05-14 · 更新于 2026-05-19 · 2 min · 381 words

语音/音频论文速递 2026-05-14

语音/音频论文速递 2026-05-14 共分析 16 篇论文 ⚡ 今日概览 📥 抓取 16 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 2篇 ██ #音频分类 2篇 ██ #语音对话系统 1篇 █ #模型评估 1篇 █ #多智能体协同 1篇 █ #音频事件检测 1篇 █ #乐谱生成 1篇 █ #音频生成 1篇 █ 📊 论文评分排行榜(16 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 EVA-Bench: A New End-to-end Framework for Evaluating Vo 8.0分 前25% #语音对话系统 🥈 Senses Wide Shut: A Representation-Action Gap in Omnimo 8.0分 前50% #模型评估 🥉 EVOCHAMBER: Test-Time Co-evolution of Multi-Agent Syste 8.0分 前25% #多智能体协同 4. NAACA: Training-Free NeuroAuditory Attentive Cognitive 7.0分 前25% #音频事件检测 5. Text2Score: Generating Sheet Music From Textual Prompts 7.0分 前25% #乐谱生成 6. Seconds-Aligned PCA-DAC Latent Diffusion for Symbolic-t 7.0分 前50% #音频生成 7. Bypassing Direct Reconstruction: Speech Detection from 7.0分 前25% #语音活动检测 8. Decoupled Azimuth Elevation AoA Estimation Exploiting K 7.0分 前25% #声源定位 9. WARDEN: Endangered Indigenous Language Transcription an 7.0分 前25% #语音识别 10. Vividh-ASR: A Complexity-Tiered Benchmark and Optimizat 7.0分 前50% #语音识别 11. Scaling few-shot spoken word classification with genera 7.0分 前50% #音频分类 12. GeoBuildBench: A Benchmark for Interactive and Executab 7.0分 前25% #几何推理 13. Keep What Audio Cannot Say: Context-Preserving Token Pr 7.0分 前25% #音视频 14. PresentAgent-2: Towards Generalist Multimodal Presentat 6.5分 前25% #生成模型 15. Does language matter for spoken word classification? A 6.0分 前50% #音频分类 16. Leveraging Multimodal Self-Consistency Reasoning in Cod 6.0分 前50% #动机访谈编码 📋 论文列表 🥇 EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents 🔥 8.0/10 | 前25% | #语音对话系统 | #基准测试 | #语音质量评估 #端到端 | arxiv ...

2026-05-14 · 更新于 2026-05-19 · 11 min · 2240 words