多模态模型

Frozen Multimodal Embeddings for Personality and Cognitive Ability Assessment in Asynchronous Video Interviews

📄 Frozen Multimodal Embeddings for Personality and Cognitive Ability Assessment in Asynchronous Video Interviews #多模态模型 #集成学习 #正则化微调 #模型评估 6.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.7/10 | 前50% | #语音情感识别 | #集成学习 | #多模态模型 #正则化微调 | arxiv 👥 作者与机构 Kuo-En Hung: 台湾师范大学科技应用与人力资源发展学系，HRDA.pro（台湾） Hung-Yue Suen: 台湾师范大学科技应用与人力资源发展学系 Shih-Ching Yeh: 中央大学计算机资讯工程学系 Hsiang-Wen Wang: 阳明交通大学光电系统研究所 💡 毒舌点评赛道选择巧妙，但深度有限：论文选择参加ACM Multimedia AVI Challenge 2026，这是一个明确的赛道。其核心创新点在于针对人格预测任务提出“特质特异性建模”和“冻结嵌入”策略，这在给定数据约束下（小样本）是务实且有效的工程优化。然而，这种“拼接”式创新（使用现有预训练模型+简单下游模型）在学术深度上略显不足，更像一份出色的竞赛技术报告，而非一篇具有深刻理论或方法突破的研究论文。诊断性分析是亮点，但略显单薄：对Track 2认知能力分类任务的分析是本文最大的亮点。作者诚实地指出，一个仅使用主体属性（如年龄、教育）的简单基线模型性能优于复杂的多模态模型，从而揭示了验证集可能存在的“捷径”问题。这种批判性思维值得称赞。但分析本身不够深入，例如，没有量化主体属性与认知标签的相关性，也没有提出具体的“捷径”是什么，使得这一发现更像是一个警示而非一个扎实的结论。实验部分扎实，但泛化性存疑：消融实验设计清晰，一步步展示了从全局模型到特质特异性模型再到晚期融合的改进路径，逻辑严谨。然而，所有性能提升（如19.1%的MSE降低）均在官方提供的、小规模的验证集（n=64）上评估，且关键的校准参数也在其上优化。这极大地增加了结果过拟合到该特定验证集的风险。作者在局限性中提到了这一点，但实验设计本身未能缓解这一担忧。对于一个声称要解决“小样本”问题的研究，其结论的泛化性证据是薄弱的。领域相关性与影响力评估：虽然论文方法涉及了音频特征（Whisper）和文本特征，但其核心任务——从视频面试预测人格和认知能力——更偏向于计算机视觉、多模态学习和计算心理学的交叉领域，而非传统的核心语音/音频处理（如语音合成、识别、增强）。因此，对于专注于语音技术的读者，其直接技术借鉴价值有限。其影响力主要在于为“AI赋能的招聘评估”这一特定应用场景提供了一个可行的技术方案和一份诚实的错误分析。完全缺乏可复现性：论文未提供任何代码、模型权重或数据集的公开链接。这在顶会论文中是一个显著的缺陷，严重阻碍了同行验证和方法的后续发展。尽管引用了多个开源模型，但其具体的特征提取流程、下游模型配置、融合策略的实现细节完全黑箱，无法复现。 📌 核心摘要本文提出了一种用于ACM Multimedia AVI Challenge 2026的冻结多模态嵌入框架，以解决异步视频面试（AVI）中人格特质预测（Track 1）和认知能力评估（Track 2）任务中标签数据有限、多模态信号高维的挑战。核心方法是不进行大模型微调，而是采用冻结的视觉（CLIP）、声学（Whisper）和文本（RoBERTa, E5, DeBERTaV3）编码器提取多模态嵌入，并连接低容量下游模型。对于Track 1，通过特质特异性建模和晚期融合，将验证集平均MSE从官方基线0.3334降至0.2696，相对降低19.1%。消融实验证明该提升主要归因于特质特异性设计。对于Track 2，研究发现仅使用主体属性（如性别、年龄）的简单分类器性能优于复杂的多模态模型，作者将此解读为验证集存在主体属性-认知标签的“捷径”关联，而非模型真正从AVI内容中推理出认知能力，因此将其视为一项诊断性分析。论文的主要贡献是展示了在数据受限的AVI评估场景中，冻结多模态管道与特质特异性下游设计结合的有效性，并强调了对基准测试中潜在捷径进行诊断的重要性。 ...

RAIL: Rethinking Auditory Intelligence in Large Audio-Language Models with a CHC-Grounded Benchmark

📄 RAIL: Rethinking Auditory Intelligence in Large Audio-Language Models with a CHC-Grounded Benchmark #基准测试 #多模态模型 9.6/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 0.9/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 9.6/10 | 前10% | #音频问答 | #基准测试 | #多模态模型 | arxiv 👥 作者与机构论文作者来自多个机构，包括：墨尔本大学（The University of Melbourne）：Hongyu Jin, Siyi Wang, Yang Xiao, Jiaheng Dong, Kaiyuan Peng, Eun-Jung Holden, Ting Dang (通讯作者) 亚历山大·约安·库扎大学（Alexandru Ioan Cuza University of Iași）：Georgiana Juravle 武汉大学（Wuhan University）：Shihong Tan, Gongping Huang 香港大学（The University of Hong Kong）：Shanquan Chen 奥克兰大学（The University of Auckland）：Hong Jia 莫纳什大学（Monash University）：James Bailey 💡 毒舌点评这篇论文就像给音频AI做了一次全面的“认知体检”，而不是只看它会不会听写或分类。作者们很聪明地借用了心理学中成熟的CHC理论框架，把评估维度从简单的任务表现拆解成了感知、推理、记忆、效率、知识五大能力，这比市面上那些七拼八凑的基准要科学得多。26个模型的大规模“体检报告”确实揭示了当前LALM们的“偏科”问题：背课文（知识）还行，但真要听懂复杂场景、记住长对话、又快又好地思考，还差得远。特别是发现了推理和记忆强相关、效率跟模型大小没啥关系这些点，挺有意思。 ...

语音/音乐/音频论文速递 2026-06-11

语音/音乐/音频论文速递 2026-06-11 共分析 36 篇论文 ⚡ 今日概览 📥 抓取 36 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 7篇 ███████ #语音合成 7篇 ███████ #基准测试 2篇 ██ #音乐信息检索 2篇 ██ #语音情感识别 2篇 ██ #低资源 1篇 █ #音频问答 1篇 █ #音频质量评估 1篇 █ 📊 论文评分排行榜（36 篇，按分数降序）排名论文总分分档主任务 🥇 Massive Open-Vocabulary Keyword Spotting 9.8分前50% #语音识别 🥈 Tight Boundary Prediction in Speaker Diarization Using 9.6分前25% #低资源 🥉 RAIL: Rethinking Auditory Intelligence in Large Audio-L 9.6分前10% #音频问答 4. Quality Adaptive Angular Margin Learning for Respirator 9.5分前50% #音频质量评估 5. CS-YODAS: A Mined Dataset of In-the-Wild Code-Switched 9.2分前50% #多语言 6. Gumbel-BEARD: Automatic Layer Selection for Self-Superv 9.1分前25% #语音识别 7. PianoKontext: Expressive Performance Rendering from Dea 9.1分前50% #音乐生成 8. Benchmarking Neural Speech Compression from a Rate-Dist 9.0分前25% #基准测试 9. Fast-SDE: Efficient Single-Microphone Sound Source Dist 8.8分前50% - 10. Evaluating Bias in Phoneme-Based Automatic Speech Recog 8.8分前50% #语音识别 11. Real-Time Language Model Jamming: A Case Study for Live 8.7分前25% #音乐信息检索 12. HALO: Half-Frame-Rate Adaptive Learnable Operator for L 8.4分前50% #语音增强 13. The Dynamics of Human and AI-Generated Language: How Se 8.1分前25% #语音合成 14. UR-BERT: Scaling Text Encoders for Massively Multilingu 8.1分前25% #语音合成 15. SARA: A Dual-Stream VAE for High-Fidelity Speech Genera 7.9分前25% #语音合成 16. SpAArSIST: Sparsified AASIST for Efficient and Reliable 7.7分前50% #模型压缩 17. Interpreting and Steering a Text-to-Speech Language Mod 7.7分前25% #语音合成 18. Which Speech Representation Better Matches Text-Native 7.5分前50% #语音识别 19. MA-DLE: Speech-based Automatic Depression Level Estimat 7.5分前25% #语音情感识别 20. The Hidden Cost of Pairwise Verification in Synthetic S 7.5分前50% #语音合成 21. Sensitivity Analysis of Generative Spatial Audio Metric 7.2分前50% #音频生成 22. Snapping Matters: Context-Aware Onset Refinement for Au 7.1分前25% #音乐信息检索 23. Feature-Aligned Speech Watermarking for Robustness to R 7.1分前25% #鲁棒性 24. Context-Aware Multimodal Claim Verification in Spoken D 7.1分前50% #多模态模型 25. Afrispeech Semantics: Evaluating Audio Semantic Reasoni 7.0分前50% #数据集 26. Lung-SRAD: Spectral-Aware Regularized Audio DASS with D 6.8分前50% #对比学习 27. Lip Forcing: Few-Step Autoregressive Diffusion for Real 6.8分前50% #语音合成 28. Frozen Multimodal Embeddings for Personality and Cognit 6.7分前50% #语音情感识别 29. Fast Speech Foundation Model Distillation Using Interle 6.6分前50% #知识蒸馏 30. Steering Where to Listen: Instruction-Based Activation 6.5分前50% - 31. Pretrained self-supervised speech models can recognize 6.5分前50% #语音识别 32. Towards Data-free and Training-free Compression for Spe 6.4分前50% #语音识别 33. Additive Noise, Shift Recovery, and Signed Signals in t 6.1分前50% #信号处理基础 34. I Understand How You Feel: Enhancing Deeper Emotional S 5.8分前50% #语音识别 35. Overcoming State Inertia in Full-Duplex Spoken Language 5.5分前50% #基准测试 36. BadRobot: Jailbreaking Embodied LLM Agents in the Physi 5.2分后50% #语音合成 📋 论文列表 🥇 Massive Open-Vocabulary Keyword Spotting 9.8/10 | 创新 1.6/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

AuRA: Internalizing Audio Understanding into LLMs as LoRA

📄 AuRA: Internalizing Audio Understanding into LLMs as LoRA #语音问答 #参数高效微调 #知识蒸馏 #语音识别 #多模态模型 7.5/10 ✅ 7.5/10 | 前25% | #语音问答 | #参数高效微调 | #知识蒸馏 #语音识别 | arxiv 👥 作者与机构作者：Bo Cheng, Lei Shi, Zhanyu Ma, Yuan Wu, Jun Xu, Jiuchong Gao, Jinghua Hao, Renqing He 机构：Meituan, Jilin University 💡 毒舌点评这篇论文精准地切中了当前语音-LLM集成的一个痛点：要么重（端到端训练），要么慢（级联推理），要么不够紧密（桥接方法）。AuRA提出的“内化”思路确实巧妙，像给LLM装了个隐藏的“语音耳朵”，推理时还能把这个“外挂”拆了，效率拉满。消融实验做得相当扎实，把各组件的作用都讲清楚了。不过，这位“耳朵”目前只能听懂“字面意思”（ASR），对于弦外之音（情感、语调）怕是无能为力，论文也老实承认了。实验范围有点保守，只在英语语音问答上打转，更广泛的语音理解任务（比如情感识别、对话）还没试水，这让“通用音频理解”的宣称稍微打了点折扣。总的来说，是一篇工程实现很扎实、想法很实用的扎实工作，但离“全面理解音频”还差那么一口气。 📌 核心摘要 AuRA 是一种轻量级的语音-LLM适配方法，其核心思想是将音频理解能力“内化”到大语言模型（LLM）的内部。该方法采用教师-学生蒸馏框架：训练时，一个冻结的ASR编码器（教师）与一个插入了LoRA适配器的冻结LLM（学生）并行处理相同的语音输入。通过设计的层间蒸馏损失，将教师模型的中间表示对齐到学生LLM的浅层隐藏状态中。推理时，移除庞大的ASR教师编码器，仅保留轻量的音频嵌入模块和LoRA适配的LLM，从而实现高效的端到端推理。在SDQA和HeySquad基准测试中，AuRA在准确率上超越了级联、适配和大规模端到端基线，同时显著降低了推理延迟和内存占用。 🔗 开源详情代码：论文中未提供AuRA的官方代码仓库链接。模型权重： AuRA 模型权重：论文中未提及。使用的基础模型： Qwen2.5-7B-Instruct / Qwen2.5-3B-Instruct: https://huggingface.co/Qwen/Qwen2.5-7B-Instruct 和 https://huggingface.co/Qwen/Qwen2.5-3B-Instruct。 Whisper-large-v3: https://huggingface.co/openai/whisper-large-v3。数据集： HeySquad: https://huggingface.co/datasets/yijingwu/HeySQuAD_human。 SDQA: https://huggingface.co/datasets/WillHeld/SD-QA。 CommonVoice (用于适配训练的语音部分)：论文提及使用英文子集，但未提供特定链接。该项目主站为 https://commonvoice.mozilla.org/。 VoRA-TextQA-Mixed (用于适配训练的文本部分)：论文未提供链接，仅提及名称。复现材料：论文附录 A 提供了详细的复现信息，包括训练数据（10K CommonVoice 和 10K VoRA-TextQA-Mixed）、音频预处理方法、LoRA 适配配置（前4层，秩256）、优化器设置（学习率 2e-4，批大小128，训练3个epoch）以及计算资源（8块 NVIDIA H20 GPU 训练约1.5小时）。论文中引用的开源项目： Whisper: https://github.com/openai/whisper。 Qwen (包括 Qwen2, Qwen2.5, Qwen2.5-Omni): https://github.com/QwenLM/Qwen (具体模型权重见上方模型权重部分)。 BLSP: https://github.com/microsoft/BLSP。 DiVA: https://github.com/declare-lab/DiVA。 Qwen2-Audio: 模型权重链接见上文，论文未提供独立代码库链接。 Qwen2.5-Omni: 模型权重链接见上文，论文未提供独立代码库链接。 CommonVoice: https://commonvoice.mozilla.org/。 🏗️ 方法概述和架构 AuRA 的整体架构遵循教师-学生蒸馏范式（如图2所示），旨在将ASR教师的能力转移到LLM学生中，并在推理时移除教师。其核心流程包含三个关键组件：音频补丁嵌入、LoRA适配的LLM学生以及层间蒸馏机制。 ...

DeRA-MOS: Optimizing Text-to-Music Evaluation via Decoupled Listwise Ranking and Modality Alignment

📄 DeRA-MOS: Optimizing Text-to-Music Evaluation via Decoupled Listwise Ranking and Modality Alignment #音乐评估 #多模态模型 8.2/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 🔥 8.2/10 | 前25% | #音乐评估 | #多模态模型 | arxiv 👥 作者与机构第一作者：Chien-Chun Wang (E.SUN Financial Holding Co., Ltd.) 通讯作者：Hung-Shin Lee (United Link Co., Ltd.)， Berlin Chen (National Taiwan Normal University) 其他作者：Hsin-Min Wang (Institute of Information Science, Academia Sinica) ...

From Senses to Decisions: The Information Flow of Auditory and Visual Perception in Multimodal LLMs

📄 From Senses to Decisions: The Information Flow of Auditory and Visual Perception in Multimodal LLMs #语音识别 #多模态模型 6.5/10 ✅ 6.5/10 | 前50% | #语音识别 | #多模态模型 | arxiv 👥 作者与机构 Wish Suharitdamrong, Muhammad Awais, Xiatian Zhu, Sara Atito。机构：Surrey Institute for People-Centred AI (PAI), University of Surrey, UK；Centre for Vision, Speech and Signal Processing (CVSSP), University of Surrey, UK。 💡 毒舌点评这篇论文在机械可解释性领域做了一个扎实的、系统性的工作，把针对视觉语言模型（VLM）和视频语言模型（VideoLLM）的信息流分析方法扩展到了音频-视觉语言模型（AVLLM）。文章结构清晰，从观察到不可靠的注意力模式入手，到使用因果干预追踪信息流，再到利用新发现提升效率，逻辑链条完整。主要贡献在于填补了AVLLM信息流动机分析的空白，并发现了任务依赖的路由机制。然而，这项工作的“音频”属性略显薄弱。虽然研究对象是多模态，但核心分析方法（注意力消除、token丢弃）和主要发现（顺序流、并行流、汇聚点）在之前的VLM/VideoLLM研究中已有类似报道。论文的增量创新更多体现在应用场景的扩展和验证上，而非方法或理论上的重大突破。此外，结论的普适性受限于所选模型和任务，作者自己也承认开放生成任务可能不同。对于寻求音频领域独有洞见的读者，本文的启发可能有限，其价值更多体现在通用多模态模型的可解释性和效率优化方向上。 📌 核心摘要本文首次系统研究了音频-视觉大语言模型（AVLLM）内部的信息流动机制。研究者通过注意力消除这一因果干预手段，追踪了音频和视觉信号如何在网络中路由、整合以形成最终预测。主要发现包括：1) 在音频-视觉视频输入中，信息遵循单一的顺序路径：模态信息首先在早中期层进行交互并汇聚到问题token（作为聚合点），随后问题token将信息传递至最后一个token以生成预测，且各模态的贡献比例由任务需求动态调节。2) 在多个交错音视频输入的配置中，信息流动转变为两条并行路径：一条是“候选项+问题->参考项->最后一个token”，另一条是“候选项->选项字母->最后一个token”。3) 后期层的视频注意力尖峰实为由巨大激活值驱动的“视觉注意力池”工件，不传输有用信息。4) 音频、视频及非选项文本token在完成信息传递后，可被丢弃而几乎不影响模型精度，甚至略有提升。这些发现在多个模型（Qwen2.5-Omni, Video-SALMONN2 Plus）和多个数据集（AV-SpeakerBench, WorldSense, AV-Odyssey）上得到验证。基于此，论文提出了一种新的AVLLM效率优化思路：在模型中间层丢弃已传递信息的冗余token。 ...

GlobeAudio: A Multilingual Multicultural Benchmark for Naturalistic Evaluation of Large Audio-Language Models

📄 GlobeAudio: A Multilingual Multicultural Benchmark for Naturalistic Evaluation of Large Audio-Language Models #数据集 #基准测试 #多语言 #多模态模型 #低资源 7.9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ✅ 7.9/10 | 前25% | #语音识别 | #数据集 | #基准测试 #多语言 | arxiv 👥 作者与机构作者：Ryner Tan, Wenxuan Zhang 机构：Singapore University of Technology and Design (新加坡科技设计大学) 💡 毒舌点评审稿人：一位匿名的顶会审稿人。这论文瞄准了LALM评估中一个真实存在的痛点——缺乏自然、多语言、多文化的测试场景，这个动机值得肯定。作者们收集数据、设计问题、进行质量控制的工作看起来也相当扎实。然而，这终究是一个“评测集”工作，而非提出新的模型或算法。在当前这个“Benchmark疲劳”的时代，如果只是提供一个新的数据集，其边际贡献需要仔细掂量。论文的最大亮点或许在于“自然发生音频”和“文化根基问题”的结合，但实验分析部分（尤其是错误案例分析）的缺失，使得这种结合的优势没能被充分证明。整体而言，这是一篇稳妥的、必要的工作，但距离“令人兴奋”或“突破性”还有差距。 ...

KFC-KWS: Keyframe Fusion with CTC for User-Defined Keyword Spotting

📄 KFC-KWS: Keyframe Fusion with CTC for User-Defined Keyword Spotting #关键词检测 #多模态模型 7.6/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.6/10 | 前25% | #关键词检测 | #多模态模型 | arxiv 👥 作者与机构作者：Jin Li, Wenbin Jiang, Ji Hu 机构：杭州电子科技大学信息工程学院，杭州电子科技大学通信工程学院 💡 毒舌点评这篇论文的idea挺直接：CTC不是输出概率分布很稀疏嘛，干脆拿来当关键帧选择器，把最“硬”的音素帧抠出来做匹配。想法不错，属于“老工具新用”。但问题是，这个关键帧选择策略（公式4）就是个固定窗口的平均池化，简单得像课程作业，作者却觉得这就能搞定混淆音素？另外，所有实验都在一个基于LibriSpeech构建的合成短语数据集（LibriPhrase）上跑，这数据集干净得像实验室环境，拿到真实嘈杂环境里能顶用？论文里连句“在实际场景中的鲁棒性有待验证”都说得小心翼翼。结论部分更是客气，把“创新点相对集中”说成“未来工作探索自适应选择”，翻译一下就是：我们知道这个方法核心创新点有点薄。总之，一篇中规中矩、实验结果不错但深度和广度都欠缺的工作，像一道摆盘精致的家常菜，远没到满汉全席的级别。 📌 核心摘要针对用户自定义关键词检测（UD-KWS）中音素高度混淆关键词对难以区分的问题，本文提出了KFC-KWS多模态框架。其核心创新在于利用CTC训练后模型输出的“尖峰”后验分布，自动识别并提取高置信度的音素对齐关键帧。模型架构包含两个并行分支：1）QbyOmni分支，对查询音频与各模态注册表征（音频、音素、文本）的完整序列进行拼接和自注意力匹配；2）QbyKeyframe分支，将提取的关键帧序列与全序列上下文表征通过交叉注意力进行融合。为增强鲁棒性，训练时对注册模态进行随机丢弃。在LibriPhrase基准测试中，KFC-KWS在无需复杂增强的情况下，在平衡AUC指标上（98.06%）超越所有对比方法；在使用模态丢弃增强后，其平衡AUC进一步提升至98.73%（最佳），并在最具挑战性的困难子集（LPH）上取得97.65% AUC和7.75% EER，显著优于PLCL等强基线，证明了该方法在区分混淆关键词上的有效性。 🔗 开源详情代码：论文未提供自身模型的开源代码链接。模型权重：论文未提供预训练模型权重下载链接。数据集：论文引用了LibriPhrase数据集，并提供了其GitHub仓库链接：https://github.com/gusrud1103/LibriPhrase.git。复现材料：论文详细列出了实现细节，包括：预训练编码器：XLS-R (0.3B)， G2P（64维音素嵌入），多语言DistilBERT。可训练模型参数：约2.0M（不包括冻结的预训练编码器）。特征维度：统一投影至128维。关键帧上下文窗口：\(w=2\)（即5帧窗口）。 QbyOmni模块：2层Transformer编码器，前馈维度512。 GRU：隐藏层大小64。训练超参数：CTC损失权重 \(\lambda=0.2\)，模态丢弃率 \(p=0.5\)，单NVIDIA 4080 Super GPU，批次大小512，Adam优化器（lr=0.001），训练50个epoch。论文中引用的其他开源项目： XLS-R (0.3B): 链接为 https://huggingface.co/facebook/wav2vec2-xls-r-300m 多语言DistilBERT: 链接为 https://huggingface.co/distilbert-base-multilingual-cased G2P、SpecAugment等：为通用工具/方法，论文未提供具体链接。 🏗️ 方法概述和架构 KFC-KWS是一个多模态用户自定义关键词检测框架，其核心设计思想是利用CTC训练的副作用（“尖峰”后验）来指导关键帧选择，从而在音素层面实现精细的跨模态匹配。 ...

Optimizing 2D Input Representations and Sub-phase Fusion Strategies for Differential Diagnosis of Asthma and COPD Using CNN- and GRU-Based Networks

📄 Optimizing 2D Input Representations and Sub-phase Fusion Strategies for Differential Diagnosis of Asthma and COPD Using CNN- and GRU-Based Networks #数据增强 #多模态模型 6.8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 6.8/10 | 前50% | #数据增强 | #数据增强 | #多模态模型 | arxiv 👥 作者与机构 İpek Şen (伊斯坦布尔比尔吉大学电气与电子工程系), Özgür Özdemir (伊斯坦布尔比尔吉大学计算机工程系), Elena Battini Sönmez (伊斯坦布尔比尔吉大学计算机工程系) ...

Profy: Interpretable Visualization of Expertise-Dependent Motor Skills Toward Supporting Piano Practice

📄 Profy: Interpretable Visualization of Expertise-Dependent Motor Skills Toward Supporting Piano Practice #多模态模型 #正则化微调 #音乐信息检索 #音乐理解 6.9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.9/10 | 前50% | #音乐信息检索 | #多模态模型 | #正则化微调 #音乐理解 | arxiv 👥 作者与机构 Kazuki Kawamura (东京大学，索尼计算机科学实验室), Fujiki Nakamura (东京大学), Hayato Nishioka (索尼计算机科学实验室， NeuroPiano研究所), Momoko Shioki (索尼计算机科学实验室， NeuroPiano研究所), Shinichi Furuya (索尼计算机科学实验室， NeuroPiano研究所), Jun Rekimoto (东京大学，索尼计算机科学实验室) ...