Interval-Aware Retrieval Framework For Speech-Based Automatic Alzheimer’s Detection

📄 Interval-Aware Retrieval Framework For Speech-Based Automatic Alzheimer’s Detection #语音生物标志物 #检索增强生成 #多模态模型 #迁移学习 🔥 8.5/10 | 前25% | #语音生物标志物 | #检索增强生成 | #多模态模型 #迁移学习 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Mingyang Gu(天津大学智能与计算学院;中国科学院深圳先进技术研究院) 通讯作者:Gaoyan Zhang(天津大学智能与计算学院)、Jianwu Dang(中国科学院深圳先进技术研究院) 作者列表: Mingyang Gu(天津大学智能与计算学院, 中国科学院深圳先进技术研究院) Zunsheng Tan(中国科学院深圳先进技术研究院) Kai Li(中国科学院深圳先进技术研究院) Xiaobao Wang(天津大学智能与计算学院) Bin Wen(天津大学智能与计算学院) Tianrui Wang(天津大学智能与计算学院) Gaoyan Zhang(天津大学智能与计算学院, 通讯作者) Jianwu Dang(中国科学院深圳先进技术研究院, 通讯作者) 💡 毒舌点评 亮点:本文的核心思想“用健康人的说话时序作为参考标尺来衡量患者语音的异常程度”非常巧妙且符合临床直觉,RAG与CTC的结合为实现这一思想提供了有效且工程化的路径,实验也证明了其有效性。短板:论文未提供代码,对于一个依赖特定预训练模型(Whisper, HuBERT)和外部构建的健康语音时序记忆库的框架,这在一定程度上削弱了其可复现性和即时可用性,对于想快速验证或应用的读者不太友好。 📌 核心摘要 本文旨在解决基于自发语音的阿尔茨海默病(AD)自动检测中,现有方法未能充分建模和利用患者语音中特有的“时间节律异常”(如停顿、拖音、不流畅)的问题。论文提出了一种区间感知的检索增强框架,其核心包含三个部分:1)一个RAG模块,从健康人的语音数据中检索词级别的时序先验,作为判断异常与否的“归一化参考”;2)一个CTC引导的跨模态对齐模块,在无需语音-文本精确对齐标注的情况下,实现文本表示与语音帧的软对齐;3)一个区间感知增强器,通过对比当前语音的实际时序与检索到的健康先验,将偏差转化为残差权重,以突出异常的语音片段。与已有方法相比,该框架的新颖之处在于引入外部健康时序知识作为基准、采用无监督对齐技术、以及显式地将时序偏差融入特征表示。在ADReSS和ADReSSo两个基准测试集上,本文方法分别取得了94.79%和88.73%的准确率,相比此前最优方法错误率降低了13.4%和11.1%,并在所有评估指标上均达到最佳。该工作的实际意义在于提供了一种可扩展、非侵入的AD早期筛查工具,其可解释的权重可视化也能辅助临床医生进行审查。主要局限性是其性能依赖于所构建的健康语音时序记忆库的覆盖度和质量,且可能存在跨数据集、录音条件的领域偏移。 ...

2026-04-29

SceneRAG: Scene-Level Retrieval-Augmented Generation for Video Understanding

📄 SceneRAG: Scene-Level Retrieval-Augmented Generation for Video Understanding #长视频理解 #检索增强生成 #场景分割 #知识图谱 ✅ 7.5/10 | 前25% | #视频理解 | #检索增强生成 | #长视频理解 #场景分割 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Nianbo Zeng(广东人工智能与数字经济实验室(SZ),深圳;深圳大学计算机科学与软件工程学院) 通讯作者:Si Shi(广东人工智能与数字经济实验室(SZ),深圳) 作者列表: Nianbo Zeng(广东人工智能与数字经济实验室(SZ),深圳;深圳大学计算机科学与软件工程学院) Haowen Hou(广东人工智能与数字经济实验室(SZ),深圳) F. Richard Yu(卡尔顿大学信息技术学院) Si Shi(广东人工智能与数字经济实验室(SZ),深圳) Ying Tiffany He(深圳大学计算机科学与软件工程学院) 💡 毒舌点评 亮点:它将视频理解从机械的“分块切割”提升到了拟人的“场景感知”,并通过动态知识图谱串联起碎片化的证据,在134小时的长视频测试中取得了最高达70.8%的胜率,证明了场景级单元对于长程推理的关键价值。短板:整个框架高度依赖LLM/VLM进行场景划分与描述,其准确性是上限,而论文对这一核心环节的误差传播与鲁棒性讨论略显不足;另外,未提供代码和模型权重,大大削弱了其可复现性。 📌 核心摘要 本文针对长视频理解中现有RAG方法采用固定长度分块导致语境断裂、忽略真实场景边界的问题,提出了SceneRAG框架。其核心是模仿人类认知,利用LLM结合ASR文本与时间元数据,将视频分割成语义一致的“场景”,并通过启发式规则进行细化。然后,为每个场景构建融合视觉与文本信息的动态知识图谱,支持跨场景的多跳检索与长程推理。实验在134小时的LongerVideos基准和Video-MME数据集上进行,结果显示,SceneRAG在生成任务上的胜率从基线的53.26%提升至65.5%,在特定领域最高达70.8%(如图1所示);在Video-MME的长视频子集上准确率达到62.7%,超越了GPT-4V(56.9%)。该工作的实际意义在于提供了一种更符合人类观看习惯的长视频处理范式,能够更好地捕捉叙事连续性和长程依赖。主要局限性在于其对LLM进行场景分割和VLM进行场景描述的质量高度敏感,且框架的计算开销未做深入分析。 🏗️ 模型架构 SceneRAG的整体架构(如图2所示)是一个包含离线构建与在线检索两个阶段的多阶段流水线。 第一阶段:场景分割与知识图谱构建 输入与分块:输入长视频V,首先被分割成重叠的时间片段Chunks(公式1)。 ASR转写:每个片段由Distil-Whisper进行语音识别,得到带时间戳的转录文本Tk。 LLM驱动场景分割:对每个片段,构建包含全局摘要(Summarize(T))、片段文本Tk和约束条件(如最小/最大场景长度)的提示Pk。一个LLM(具体模型未说明)扮演Planner角色,提议场景边界和描述,生成Π。Verifier会检查Π是否满足覆盖完整、无重叠、时间单调等条件。如果不满足,Debugger会根据诊断结果修改提示并迭代(最多rmax轮)。若迭代失败,则使用基于静音或等宽的备选方案(FallbackProposal)。最终通过AlignAndMerge操作得到该片段的场景集S_k。 场景合并与图谱构建:将所有片段的结果合并得到全局场景集S。对每个场景j,均匀采样关键帧,将关键帧与场景转录文本Tj输入VLM(如MiniCPM-V),生成视觉-文本描述Cj(公式4)。从Cj和Tj中提取实体和关系,并通过LLM辅助的融合过程(公式5),得到统一的场景知识集(Nj, Ej)。这些知识被增量式地插入一个图数据库,构建动态知识图谱G = (N, E),节点N代表场景和实体,边E编码共现、时间相邻等关系。 第二阶段:场景检索与生成 5. 编码与检索:对于用户查询q,分别计算查询嵌入eq和所有场景嵌入ej = TEnc([Cj; Tj])。系统在全局token预算τ约束下,通过最大化相似度(公式6)选择一组候选场景R*。 6. 上下文组装与生成:对于每个选中的场景,生成查询相关的视觉描述,并检索其在知识图谱中的局部邻域。所有检索到的片段和图谱信息被拼接成紧凑上下文,输入LLM生成最终答案。 ...

2026-04-29