计算机视觉

AMR: Adaptive Modality Routing for Multimodal Polyglot Speaker Identification

📄 AMR: Adaptive Modality Routing for Multimodal Polyglot Speaker Identification #说话人识别 #多模态模型 #自监督学习 #数据增强 #语音识别 #计算机视觉 7.8/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ✅ 7.8/10 | 前25% | #说话人识别 | #自监督学习 | #多模态模型 #数据增强 | arxiv 👥 作者与机构论文作者为 Chuxiao Zuo, Yao Zhu, Minqiang Xu, Manhong Wang, Yunke Zhang, 和 Fei Huang。所有作者均隶属于 Honor Device Co., Ltd.，单位地点包括南京和上海。 ...

Frequency-Aware Self-Supervised Music Representation Learning

📄 Frequency-Aware Self-Supervised Music Representation Learning #自监督学习 #音乐信息检索 #计算机视觉 6.8/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 6.8/10 | 前50% | #音乐信息检索 | #自监督学习 | #计算机视觉 | arxiv 👥 作者与机构作者：Yicheng Gu (学生会员，IEEE), Junan Zhang, Jerry Li, Zhizheng Wu (高级会员，IEEE), Lauri Juvela (会员，IEEE)。机构：Jerry Li, Yicheng Gu 与 Spellbrush (东京)；Lauri Juvela 与阿尔托大学声学实验室；Junan Zhang, Zhizheng Wu 与香港中文大学（深圳）数据科学学院；Yicheng Gu 同时隶属以上三个机构。 ...

Native Active Perception as Reasoning for Omni-Modal Understanding

📄 Native Active Perception as Reasoning for Omni-Modal Understanding #强化学习 #多模态模型 #Transformer #大语言模型 #计算机视觉 #语音识别 9.1/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 🔥 9.1/10 | 前10% | #语音识别 | #强化学习 | #多模态模型 #Transformer | arxiv 👥 作者与机构 Zhenghao Xing (香港中文大学), Ruiyang Xu (香港中文大学), Yuxuan Wang (香港中文大学), Jinzheng He (香港中文大学), Ziyang Ma (香港中文大学), Qize Yang (香港中文大学), Yunfei Chu (阿里巴巴Qwen团队), Jin Xu (阿里巴巴Qwen团队), Junyang Lin (阿里巴巴Qwen团队), Chi-Wing Fu (香港中文大学), Pheng-Ann Heng (香港中文大学)。注：论文首页标注了香港中文大学、上海交通大学、阿里巴巴Qwen团队和南洋理工大学。 ...

Project SPARROW and the Future of Conservation Technology

📄 Project SPARROW and the Future of Conservation Technology #计算机视觉 10/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 10/10 | 前50% | #计算机视觉 | #计算机视觉 | arxiv 👥 作者与机构共同第一作者：Juan M. Lavista Ferres, Carl Chalmers, Bruno Demuro Segundo, Zhongqi Miao 合作作者：Andres Hernandez Celis, Federico Alves Torres, Isai Daniel Chacon Silva, Anthony Cintron Roman, Allen Kim, Meygha Machado, Luana Marotti, Amy Michaels, Daniela Ruiz Lopez, Catherine Romero, Rahul Dodhia, Inbal Becker-Reshef, Pablo Arbelaez 机构： ...

Benchmarking AI for low-resource contexts: Thinking beyond leaderboards

📄 Benchmarking AI for low-resource contexts: Thinking beyond leaderboards #语音识别 #语音合成 #语音增强 #计算机视觉 #低资源 📝 5.1/10 | 后50% | #语音识别 | #语音合成 | #语音增强 #计算机视觉 | arxiv 学术质量 4.5/7 | 影响力 0.3/2 | 可复现性 0.3/2 👥 作者与机构 Aakash Pant, Kavya Shah, Apoorv Agnihotri, Sneha Nikam, Prasaanth Balraj, Nakul Jain. ( 表示同等贡献). 机构：Wadhwani AI Global. 日期：2026年5月. 💡 毒舌点评这篇论文像一份写给捐赠机构和政策制定者的“高级产品说明书”。其核心诉求（别只看排行榜，要看实际部署）在AI领域确实是个老生常谈但至关重要的痛点，尤其是在医疗、农业等低资源场景。优点是逻辑清晰、目标明确，且贴心地附上了“基准卡”这种傻瓜式工具，试图弥合技术社区与非技术决策者之间的鸿沟。然而，它的弱点也异常明显：这是一份纯粹的“倡议书”或“愿景文档”。全文没有提出任何新颖的算法、模型或实验方法，而是对现有基准（FLEURS, HELM, ImageNet-C等）进行了一次梳理和重新包装。它的“创新”更多体现在视角和倡导上，而非技术贡献。对于寻求具体技术突破的读者（如NeurIPS/ICML的典型审稿人）来说，这可能显得“干货不足”。论文最大的硬伤是缺乏任何形式的实证验证：它提出的框架是否有效？基准卡在实际采购中是否真的能帮助决策？读者无从知晓。它更像是一个设计精良的提案，而非一篇完整的科研论文。 📌 核心摘要本文是一篇系统性白皮书，旨在批判当前AI基准测试（以排行榜为代表）在评估面向低资源环境（如网络不稳、设备低端、多语言代码转换）部署的系统时的不足。作者指出，现有评估通常孤立地测试模型性能，而忽略了由数据捕获、预处理、工作流和运行条件构成的完整系统。论文提出了一种新的评估范式：1）将“部署系统”而非“孤立模型”作为评估的基本单元；2）采用三层评估框架（组件层、工作流层、运行条件层）分别报告性能；3）为语音、对话/RAG、视觉三类应用定义包含压力测试和核心指标的标准化“基准卡”。最终目标是提供一个对部署上下文敏感、可操作的标准化报告框架，以真正支持低资源环境下的AI系统选型与部署决策。 🔗 开源详情代码：论文中未提及任何新开发的代码或框架实现。模型权重：论文中未提及任何模型权重。数据集：论文未提供新数据集。文中提及了多个现有基准数据集用于说明，具体如下： FLEURS: 用于多语言语音任务评估。链接：https://doi.org/10.1109/SLT54892.2023.10023141 Speech Robust Bench: 用于ASR鲁棒性评估。链接：https://openreview.net/forum?id=D0LuQNZfEl HELM / HELM Instruct: 用于大语言模型综合评估。链接：https://crfm.stanford.edu/helm/ 和 https://crfm.stanford.edu/helm/instruct/latest/ RAGAs: 用于RAG管道评估。链接：https://doi.org/10.18653/v1/2024.eacl-demo.16 CRAG: 用于检索增强生成评估。链接：https://github.com/facebookresearch/CRAG ImageNet-C / ImageNet-P: 用于图像鲁棒性（损坏和扰动）评估。链接：https://doi.org/10.48550/arXiv.1903.12261 WILDS: 用于野外分布偏移评估。链接：https://doi.org/10.48550/arXiv.2012.07421 COCO-C, PASCAL-C, Cityscapes-C: 用于目标检测/分割的鲁棒性评估，具体链接未在论文中提供，参考文献[14]。其他提及的本地多语言测试集、领域特定评估集等，均未提供统一获取链接。 Demo：论文中未提及。复现材料：论文中未提及。 🏗️ 方法概述和架构本文的方法论核心是提出一个用于设计和评估低资源AI部署系统的框架，而非具体的算法实现。该框架的核心架构包括以下几个关键组成部分： ...