AudioTrust: Benchmarking The Multifaceted Trustworthiness of Audio Large Language Models
📄 AudioTrust: Benchmarking The Multifaceted Trustworthiness of Audio Large Language Models #基准测试 #模型评估 #音频安全 #音频大模型 🔥 8.5/10 | 前25% | #模型评估 | #基准测试 | #音频安全 #音频大模型 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Kai Li(南洋理工大学, 与清华大学计算机系、AI研究院、BNRist相关) 通讯作者:Xinfeng Li(南洋理工大学) 作者列表:Kai Li(南洋理工大学), Can Shen(北京师范大学-香港浸会大学联合国际学院), Yile Liu(早稻田大学), Jirui Han(独立研究者), Kelong Zheng(华中科技大学), Xuechao Zou(北京交通大学), Lionel Z. Wang(南洋理工大学), Shun Zhang(火箭军工程大学), Xingjian Du(罗切斯特大学), Hanjun Luo(浙江大学), Yingbin Jin(香港理工大学), Xinxin Xing(独立研究者), Ziyang Ma(南洋理工大学, 上海交通大学), Yue Liu(新加坡国立大学), YiFan Zhang(中国科学院), Junfeng Fang(新加坡国立大学), Kun Wang(南洋理工大学), Yibo Yan(香港科技大学广州), Gelei Deng(南洋理工大学), Haoyang Li(香港理工大学), Yiming Li(南洋理工大学), Xiaobin Zhuang(字节跳动), Tianlong Chen(北卡罗来纳大学教堂山分校), Qingsong Wen(松鼠AI学习), Tianwei Zhang(南洋理工大学), Yang Liu(南洋理工大学), Haibo Hu(香港理工大学), Zhizheng Wu(香港中文大学深圳), Xiaolin Hu(清华大学计算机系), Eng Siong Chng(南洋理工大学), Wenyuan Xu(浙江大学), XiaoFeng Wang(南洋理工大学), Wei Dong(南洋理工大学), Xinfeng Li(南洋理工大学) 💡 毒舌点评 亮点:堪称音频大模型“安全审计”的瑞士军刀,首次系统性地为ALLMs量身定制了六大可信度维度与评估工具集,填补了该领域至关重要的评估空白。 短板:评估流程高度依赖GPT-4o等LLM作为“法官”,其判定本身可能引入与音频模型相似的偏差,形成“用AI评估AI”的循环论证风险。 ...