AMR: Adaptive Modality Routing for Multimodal Polyglot Speaker Identification

📄 AMR: Adaptive Modality Routing for Multimodal Polyglot Speaker Identification #说话人识别 #多模态模型 #自监督学习 #数据增强 #语音识别 #计算机视觉 7.8/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ✅ 7.8/10 | 前25% | #说话人识别 | #自监督学习 | #多模态模型 #数据增强 | arxiv 👥 作者与机构 论文作者为 Chuxiao Zuo, Yao Zhu, Minqiang Xu, Manhong Wang, Yunke Zhang, 和 Fei Huang。所有作者均隶属于 Honor Device Co., Ltd.,单位地点包括南京和上海。 ...

2026-06-30 · 更新于 2026-07-02 · 2 min · 315 words

Frequency-Aware Self-Supervised Music Representation Learning

📄 Frequency-Aware Self-Supervised Music Representation Learning #自监督学习 #音乐信息检索 #计算机视觉 6.8/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 6.8/10 | 前50% | #音乐信息检索 | #自监督学习 | #计算机视觉 | arxiv 👥 作者与机构 作者:Yicheng Gu (学生会员,IEEE), Junan Zhang, Jerry Li, Zhizheng Wu (高级会员,IEEE), Lauri Juvela (会员,IEEE)。机构:Jerry Li, Yicheng Gu 与 Spellbrush (东京);Lauri Juvela 与阿尔托大学声学实验室;Junan Zhang, Zhizheng Wu 与香港中文大学(深圳)数据科学学院;Yicheng Gu 同时隶属以上三个机构。 ...

2026-06-25 · 更新于 2026-07-02 · 3 min · 556 words

Native Active Perception as Reasoning for Omni-Modal Understanding

📄 Native Active Perception as Reasoning for Omni-Modal Understanding #强化学习 #多模态模型 #Transformer #大语言模型 #计算机视觉 #语音识别 9.1/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 🔥 9.1/10 | 前10% | #语音识别 | #强化学习 | #多模态模型 #Transformer | arxiv 👥 作者与机构 Zhenghao Xing (香港中文大学), Ruiyang Xu (香港中文大学), Yuxuan Wang (香港中文大学), Jinzheng He (香港中文大学), Ziyang Ma (香港中文大学), Qize Yang (香港中文大学), Yunfei Chu (阿里巴巴Qwen团队), Jin Xu (阿里巴巴Qwen团队), Junyang Lin (阿里巴巴Qwen团队), Chi-Wing Fu (香港中文大学), Pheng-Ann Heng (香港中文大学)。注:论文首页标注了香港中文大学、上海交通大学、阿里巴巴Qwen团队和南洋理工大学。 ...

2026-06-18 · 更新于 2026-07-02 · 3 min · 428 words

Project SPARROW and the Future of Conservation Technology

📄 Project SPARROW and the Future of Conservation Technology #计算机视觉 10/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 10/10 | 前50% | #计算机视觉 | #计算机视觉 | arxiv 👥 作者与机构 共同第一作者:Juan M. Lavista Ferres, Carl Chalmers, Bruno Demuro Segundo, Zhongqi Miao 合作作者:Andres Hernandez Celis, Federico Alves Torres, Isai Daniel Chacon Silva, Anthony Cintron Roman, Allen Kim, Meygha Machado, Luana Marotti, Amy Michaels, Daniela Ruiz Lopez, Catherine Romero, Rahul Dodhia, Inbal Becker-Reshef, Pablo Arbelaez 机构: ...

2026-06-02 · 更新于 2026-07-02 · 2 min · 356 words

Benchmarking AI for low-resource contexts: Thinking beyond leaderboards

📄 Benchmarking AI for low-resource contexts: Thinking beyond leaderboards #语音识别 #语音合成 #语音增强 #计算机视觉 #低资源 📝 5.1/10 | 后50% | #语音识别 | #语音合成 | #语音增强 #计算机视觉 | arxiv 学术质量 4.5/7 | 影响力 0.3/2 | 可复现性 0.3/2 👥 作者与机构 Aakash Pant, Kavya Shah, Apoorv Agnihotri, Sneha Nikam, Prasaanth Balraj, Nakul Jain. ( 表示同等贡献). 机构:Wadhwani AI Global. 日期:2026年5月. 💡 毒舌点评 这篇论文像一份写给捐赠机构和政策制定者的“高级产品说明书”。其核心诉求(别只看排行榜,要看实际部署)在AI领域确实是个老生常谈但至关重要的痛点,尤其是在医疗、农业等低资源场景。优点是逻辑清晰、目标明确,且贴心地附上了“基准卡”这种傻瓜式工具,试图弥合技术社区与非技术决策者之间的鸿沟。然而,它的弱点也异常明显:这是一份纯粹的“倡议书”或“愿景文档”。全文没有提出任何新颖的算法、模型或实验方法,而是对现有基准(FLEURS, HELM, ImageNet-C等)进行了一次梳理和重新包装。它的“创新”更多体现在视角和倡导上,而非技术贡献。对于寻求具体技术突破的读者(如NeurIPS/ICML的典型审稿人)来说,这可能显得“干货不足”。论文最大的硬伤是缺乏任何形式的实证验证:它提出的框架是否有效?基准卡在实际采购中是否真的能帮助决策?读者无从知晓。它更像是一个设计精良的提案,而非一篇完整的科研论文。 📌 核心摘要 本文是一篇系统性白皮书,旨在批判当前AI基准测试(以排行榜为代表)在评估面向低资源环境(如网络不稳、设备低端、多语言代码转换)部署的系统时的不足。作者指出,现有评估通常孤立地测试模型性能,而忽略了由数据捕获、预处理、工作流和运行条件构成的完整系统。论文提出了一种新的评估范式:1)将“部署系统”而非“孤立模型”作为评估的基本单元;2)采用三层评估框架(组件层、工作流层、运行条件层)分别报告性能;3)为语音、对话/RAG、视觉三类应用定义包含压力测试和核心指标的标准化“基准卡”。最终目标是提供一个对部署上下文敏感、可操作的标准化报告框架,以真正支持低资源环境下的AI系统选型与部署决策。 🔗 开源详情 代码:论文中未提及任何新开发的代码或框架实现。 模型权重:论文中未提及任何模型权重。 数据集:论文未提供新数据集。文中提及了多个现有基准数据集用于说明,具体如下: FLEURS: 用于多语言语音任务评估。链接:https://doi.org/10.1109/SLT54892.2023.10023141 Speech Robust Bench: 用于ASR鲁棒性评估。链接:https://openreview.net/forum?id=D0LuQNZfEl HELM / HELM Instruct: 用于大语言模型综合评估。链接:https://crfm.stanford.edu/helm/ 和 https://crfm.stanford.edu/helm/instruct/latest/ RAGAs: 用于RAG管道评估。链接:https://doi.org/10.18653/v1/2024.eacl-demo.16 CRAG: 用于检索增强生成评估。链接:https://github.com/facebookresearch/CRAG ImageNet-C / ImageNet-P: 用于图像鲁棒性(损坏和扰动)评估。链接:https://doi.org/10.48550/arXiv.1903.12261 WILDS: 用于野外分布偏移评估。链接:https://doi.org/10.48550/arXiv.2012.07421 COCO-C, PASCAL-C, Cityscapes-C: 用于目标检测/分割的鲁棒性评估,具体链接未在论文中提供,参考文献[14]。 其他提及的本地多语言测试集、领域特定评估集等,均未提供统一获取链接。 Demo:论文中未提及。 复现材料:论文中未提及。 🏗️ 方法概述和架构 本文的方法论核心是提出一个用于设计和评估低资源AI部署系统的框架,而非具体的算法实现。该框架的核心架构包括以下几个关键组成部分: ...

2026-05-28 · 更新于 2026-07-02 · 2 min · 239 words