Posts

AG-REPA: Causal Layer Selection for Representation Alignment in Audio Flow Matching

📄 AG-REPA: Causal Layer Selection for Representation Alignment in Audio Flow Matching #语音合成 #音频生成 #可解释性 7.6/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1.1/1.5 | 清晰 0.8/1 | 影响 0.9/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 7.6/10 | 前25% | #语音合成 | #知识蒸馏 | #音频生成 #可解释性 | arxiv 👥 作者与机构第一作者：Pengfei Zhang（香港科技大学（广州）信息枢纽人工智能学域）通讯作者：Li Liu（香港科技大学（广州）信息枢纽人工智能学域）作者列表：Pengfei Zhang、Tianxin Xie、Minghao Yang、Li Liu（均来自香港科技大学（广州）信息枢纽人工智能学域） 💡 毒舌点评这篇论文最大的亮点是发现并实证了“存储-贡献分离”（SCD）现象，然后巧妙地用一个因果归因工具（FoG-A）来指导层选择，把REPA从“凭经验瞎猜”升级成了“看谁真干活”。动机清晰，intuition很有说服力。但话说回来，实验规模偏小（总步数仅500k，两个数据集），跨架构验证虽然做了但深度不够——只给了几个FAD/WER/MOS数字，缺少更系统的分析（如动态、消融等），无法确定增益是否只是某种隐式正则化的结果。虽然FoG-A排名看起来稳定，但在更长/更大规模训练下的行为完全是未知数。此外，从Jacobian链式传播直接跳到一个强烈的“蝴蝶效应”论断有些牵强，没有严谨讨论梯度衰减或中间层Jacobian性质对结论的影响。方法整体仍停留在原型验证阶段。 📌 核心摘要问题定义：在token-conditioned音频流匹配（Flow Matching）模型中，现有的表示对齐（REPA）策略通常凭经验固定中间层（如第8层）进行监督，忽略了“存储语义最丰富的层”与“对生成速度场v_θ贡献最大的层”可能不一致，导致训练效率低下。方法核心：提出归因引导的REPA（AG-REPA）。首先，利用前向门控消融（FoG-A）作为因果探针，量化DiT每一层对最终预测速度场的因果贡献；然后，自动选出贡献最大的Top-K层，并按贡献大小进行加权对齐，从而将对齐目标从“语义储层”转向“因果驱动层”。与已有工作的不同：不同于固定层REPA或基于梯度范数的选择，AG-REPA首次将因果干预度量引入音频流匹配的表示对齐，明确区分“表示存储”与“函数贡献”，并据此设计了一种全新的层选择与损失加权策略。主要实验结果（Config B, 500k步）：在LibriSpeech和AudioSet的统一音频生成任务上，AG-REPA相比于固定中层REPA（Layer 4, 8, 12），语音FAD从1.45降至1.29，音效FAD从2.88降至2.56，语音MOS从3.92升至4.12。跨架构（Voicebox, CosyVoice, F5-TTS）实验也取得一致改进，例如在F5-TTS上FAD从1.45降至1.15。关键消融显示，对齐FoG-A选出的“因果驱动层”相比对齐LASP选出的“表示丰富层”，FAD改善幅度提升约3.4倍，且收敛加速约3.3倍。实际意义与普适性：为扩散/流匹配模型的训练加速提供了一种轻量、可移植的归因引导范式。其诊断工具集（BiT-C, LASP, FoG-A）不仅服务于AG-REPA，也为理解其他生成架构的内部行为提供了可操作的工具。主要局限性：实验在有限训练规模（500k步）下进行；FoG-A排名虽短程稳定，但在更长训练或模型显著漂移后是否依然有效未知；方法依赖双教师蒸馏，增加了部署依赖；未在更泛化的音频/视觉任务上进行验证。 🔗 开源详情代码：https://github.com/zpforlove/AG-REPA 模型权重：未提供。数据集：LibriSpeech 与 AudioSet，论文未直接提供下载链接，但LibriSpeech可通过https://www.openslr.org/12 获取，AudioSet通过https://research.google.com/audioset/ 获取。 Demo：未提供。复现材料：论文附录提供了部分架构和诊断协议细节，但未提供完整的训练配置文件、预训练检查点或独立复现脚本。论文中引用的相关开源项目： Whisper (large‑v3): https://github.com/openai/whisper BEATs: https://github.com/microsoft/unilm/tree/master/beats RepCodec: 引用自 Huang et al. (2024) Vocos: https://github.com/gemelo‑ai/vocos Qwen3‑0.6B‑Base: https://huggingface.co/Qwen/Qwen3‑0.6B CosyVoice: https://github.com/FunAudioLLM/CosyVoice F5‑TTS: https://github.com/swivid/F5‑TTS Matcha‑TTS: https://github.com/shivammehta25/Matcha‑TTS DINOv2: https://github.com/facebookresearch/dinov2 🏗️ 方法概述和架构整个工作围绕一个两阶段的统一音频生成流水线展开：第一阶段是自回归大语言模型（LLM）预测离散声学token；第二阶段是基于DiT的流匹配模型将这些token生成为连续mel谱，再经由神经声码器合成波形。本文的核心贡献并不在该流水线设计，而在于第二阶段DiT训练过程中的表示对齐策略。作者引入了一套“先诊断、后干预”的机制，包含三个互补的探测工具和一个归因引导的训练算法。 ...

AgentSteerTTS: A Multi-Agent Closed-Loop Framework for Composite-Instruction Text-to-Speech

📄 AgentSteerTTS: A Multi-Agent Closed-Loop Framework for Composite-Instruction Text-to-Speech #语音合成 #语音情感识别 #语音属性识别 #语音克隆 #多模态模型 7.9/10 | 创新 1.4/2 | 严谨 1/1.5 | 实验 1.3/1.5 | 清晰 0.5/1 | 影响 1.1/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7.9/10 | 前25% | #语音合成 | #多模态模型 | #语音情感识别 #语音属性识别 | arxiv 👥 作者与机构第一作者：Bin Kang（University of Chinese Academy of Sciences, Shenzhen Loop Area Institute, Tencent Turinglab）通讯作者：Zhuotao Tian（Shenzhen Loop Area Institute）作者列表：Bin Kang（University of Chinese Academy of Sciences, Shenzhen Loop Area Institute, Tencent Turinglab）、Shaoguo Wen（Tencent Turinglab）、Yang Fan（Shenzhen Loop Area Institute）、Shunlong Wu（Tsinghua University）、Junjie Wang（Shenzhen Loop Area Institute）、Yulin Li（Shenzhen Loop Area Institute）、Junzhi Zhao（Southwest Jiaotong University）、Junle Wang（Tencent Turinglab）、Zhuotao Tian（Shenzhen Loop Area Institute） 💡 毒舌点评这篇论文清晰地定义并攻击了TTS领域中一个真实且棘手的“复合情感指令”控制问题，提出的多智能体闭环框架从“解耦-锚定-反馈”逻辑链条完整，实验设计扎实，提升显著。但各子模块虽协同良好，本质上仍是对已有技术的精巧系统集成，缺乏单一方法论上的根本性突破。对MLLM评估器的强依赖构成了其实时性和鲁棒性的阿喀琉斯之踵，而论文对此关键限制的讨论，尤其是在MLLM提示设计、输出格式、评估偏见及错误影响机制方面，几乎是完全的黑盒，这削弱了方法的可复现性和严谨性。 ...

Alethia: a Foundational Encoder for Voice Deepfakes

📄 Alethia: a Foundational Encoder for Voice Deepfakes #语音伪造检测 #预训练 #自监督学习 #流匹配 #知识蒸馏 #生成模型 7.6/10 | 创新 1.3/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 0.8/1 | 影响 1.1/1.5 | 开源 0/1.5 | 复现 0.4/0.5 | 工程 1.3/1.5 ✅ 7.6/10 | 前25% | #语音伪造检测 | #自监督学习 | #预训练 #流匹配 | arxiv 👥 作者与机构第一作者：Yi Zhu（Reality Defender）通讯作者：Yi Zhu（Reality Defender，邮箱 yi.zhu@inrs.ca）作者列表：Yi Zhu（Reality Defender）、Brahmi Dwivedi（Reality Defender）、Jayaram Raghuram（Reality Defender）、Surya Koppisetti（Reality Defender） 💡 毒舌点评本文在预训练配方上做出了巧妙且富有洞察的设计，通过互信息分析精准判了离散量化目标的“死刑”，并以连续嵌入预测结合流匹配生成式预训练，在56个数据集上打造了目前最抗打的语音伪造检测基础模型。但声称“首个基础编码器”略有水分，且完全没有开源任何代码、权重或数据集，这种“只发论文不交枪”的做法在安全领域尤为令人遗憾，对学术界的实质性推进构成阻碍。 ...

An Exterior Method for Nonnegative Matrix Factorization

📄 An Exterior Method for Nonnegative Matrix Factorization #语音识别 6.8/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1.2/1.5 | 清晰 0.7/1 | 影响 0.3/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 1.1/1.5 ✅ 6.8/10 | 前50% | #音频分类 | #语音识别 | arxiv 👥 作者与机构第一作者：Qiujing Lu（UCLA ECE，共同一作）第二作者：Tonmoy Monsoor（UCLA ECE，共同一作）其他作者：Ehsan Ebrahimzadeh（eBay Search Science Team）、Kartik Sharma（UCLA ECE）通讯作者：Vwani Roychowdhury（UCLA ECE，vwani@g.ucla.edu） 💡 毒舌点评这篇论文提出了一个相当有趣的几何视角——将NMF问题从“在可行域内迭代”的内部方法，颠覆为“从无约束最优解外部逼近”的外部方法。在合成数据上展示出的“降维打击”式加速效果令人印象深刻。然而，作者过于沉醉于SVD与全局最优解之间“一步旋转”的几何洞察，却对真实高噪声、高稀疏场景下可行性修正阶段的脆弱性轻描淡写——该阶段本质上是一个对惩罚参数极其敏感的外罚函数法，且缺乏任何收敛性保证或灵敏度分析。写作上，主文对SOTA优势的强调显得有些急切，而大量关键实验细节、消融研究和超参数设置被沉入附录，组织结构有待优化。 📌 核心摘要问题：论文试图解决非负矩阵分解（NMF）中，传统的“内部方法”（如乘性更新、HALS）在非凸目标地貌中从可行域内部出发，容易陷入次优局部最小值或收敛缓慢的问题。方法核心：提出了外部方法eNMF。其核心思想是将NMF问题解耦为三个阶段：(i) 通过截断SVD高效计算无约束低秩分解的全局最优解；(ii) 在正交流形上寻找一个旋转矩阵，将无约束最优解“旋转”到最接近非负象限的外部点；(iii) 通过一个结合了行投影坐标下降（PBCD）和外罚函数法的可行性修正阶段，再使用HALS下降到满足KKT条件的局部极小值。创新点：将NMF问题解耦为“低秩逼近”和“非负性约束满足”两个独立阶段。利用正交旋转矩阵显式地操作无约束最优解的等价流形，从外部直接瞄准潜在的最优非负解。这与所有在可行域内迭代的“内部方法”有根本性的思维差异。主要实验结果：在超过400次NMF实验中，eNMF在99%的情况下与其他基线算法收敛到置换或缩放等价的因子矩阵，仅发现4个非等价局部最小值的实例。合成数据（SNR=20dB, r=500）：eNMF在106秒内达到全局最小值，而对比算法如HALS需约5595秒，AO-ADMM需约1865秒。真实数据（Audio, Face, Verb）：在等时间预算下，eNMF的重构误差最低；在等误差目标下，eNMF实现最高约150%的加速。例如： Dataset r eNMF HALS AO-ADMM NeNMF FPGM Face 20 7234.27 7939.04 7960.50 7899.33 7936.88 Verb 100 8.97 9.74 9.77 9.70 9.70 Audio 40 8936.93 9290.37 9082.16 9066.1 9201.87 下游任务：在音频MNIST分类、人脸识别和电影推荐任务中，使用eNMF特征性能有显著提升。例如，在AudioMNIST (r=100)上，eNMF特征分类准确率为96.5%，远超基线NeNMF的84.0%。实际意义：显著加速了NMF的收敛速度并提高了求解质量，其学习到的特征在下游任务中具有更好的判别性。对于依赖NMF进行特征提取的工业应用（如推荐系统、音频处理）有直接的效率提升和效果改进价值。主要局限性：核心的可行性修正阶段（外罚函数法）缺乏理论收敛性保证；算法整体性能对最终解的质量高度敏感于SVD初始化是否接近真实解空间；在真实世界高稀疏、高噪声数据上“一步到位”的特性减弱；写作清晰度和技术细节呈现方面有提升空间（如附录组织稍显庞杂）。 🔗 开源详情代码：https://github.com/roychowdhuryresearch/eNMF 模型权重：论文中未提及数据集：使用了合成数据集及公开数据集（Verb, AudioMNIST, Yale Face Database B, MovieLens 1M），但未提供直接下载链接，需参考对应参考文献获取。 Demo：论文中未提及复现材料：论文给出了算法伪代码及附录实验细节，但未提供独立的复现脚本或Docker环境。 🏗️ 方法概述和架构 eNMF的核心思想是将传统的约束优化问题分解为三个解耦的阶段：寻找无约束全局最优解 → 外部点逼近 → 可行域内局部下降。 ...

Ariadne's Thread of LipSync: Unraveling Forgeries via Inconsistency between Lip Motions and Head Poses

📄 Ariadne’s Thread of LipSync: Unraveling Forgeries via Inconsistency between Lip Motions and Head Poses 7.8/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 0.9/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.8/10 | 前25% | #音视频理解 | #对比学习 | arxiv 👥 作者与机构第一作者：Tianyi She（中国科学技术大学，University of Science and Technology of China）通讯作者：Kejiang Chen（中国科学技术大学，University of Science and Technology of China）作者列表：Tianyi She（中国科学技术大学）、Jiawei Liu（上海交通大学）、Weifeng Liu（北京大学）、Hanqing Zhao（南洋理工大学）、Weiming Zhang（中国科学技术大学）、Kejiang Chen（中国科学技术大学） 💡 毒舌点评论文提出利用唇动-头姿生理耦合不一致来检测 LipSync 伪造，思路有新意且动机分析充分，统一检测+归因的两阶段设计也比较完整。但所有辉煌结论都建立在自建的 LipSync-A 数据集上——该数据集目前无任何下载链接，代码和模型也未公开，将外部独立验证的门彻底关死，极大地削弱了可信度。此外，归因仅做到生成器架构族级别，离真正的细粒度模型溯源尚有距离。两阶段分开训练且 Stage II 依赖 Stage I 编码器冻结，这种设计是否最优也值得商榷。 ...

Attend to Anything: Foundation Model for Unified Human Attention Modeling

📄 Attend to Anything: Foundation Model for Unified Human Attention Modeling 8.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 0.8/1 | 影响 0.5/1.5 | 开源 1.5/1.5 | 复现 0.4/0.5 | 工程 1/1.5 🔥 8.2/10 | 前25% | #音视频理解 | #多模态模型 | arxiv 👥 作者与机构第一作者：Wenzhuo Zhao（四川大学计算机学院）通讯作者：Keren Fu（四川大学计算机学院，国家合成视觉重点实验室）作者列表：Wenzhuo Zhao（四川大学计算机学院）、Ronghao Xian（四川大学计算机学院）、Keren Fu（四川大学计算机学院，国家合成视觉重点实验室）、Qijun Zhao（四川大学计算机学院，国家合成视觉重点实验室） 💡 毒舌点评本文以双曲空间层级蕴含与Fokker-Planck动力学统一图像、视频、音视频注意力建模，思路新颖且物理可解释性较强，在16个基准上刷出均6%的提升，并承诺开源代码和数据集，为该领域首个统一基础模型做出了有意义的尝试。然而，音频-视觉融合模块本质上是一个“视觉特工”，仅在语义相关时对视觉特征进行调制，对纯音频领域的借鉴价值极其有限；尽管有聪明的条件交换实验，但文本条件的设计仍依赖人工构建的数据集级提示，模型对真实开放世界中未见文本组合的泛化能力仍缺少系统压测，整体离“Attend to Anything” 的宏大叙事还有距离。 📌 核心摘要论文旨在解决人类注意力建模（saliency prediction）因场景、模态、任务割裂而缺乏通用基础模型的问题。核心方法是将注意力差异定义为一种从通用倾向到具体任务的层级蕴含关系，并在双曲空间（Lorentz模型）中通过文本提示实现层级嵌入约束；视频动态则用Fokker-Planck方程统一为静态注意力的扩散演化，以物理驱动取代传统滑窗时空建模。相比现有参数隔离或多头微调方案，AAM在几何空间中显式编码层次语义，并通过算子分裂实现逐帧高效推断。实验在16个数据集上覆盖图像、视频、音视频，平均相对提升约6%，视频推理速度提升约4倍。主要实验结果如下： Dataset Method CC↑ KLD↓ AUC↑ SIM↑ NSS↑ MIT1003（图像） AAM 0.831 0.446 0.923 0.674 — CAT2000（图像） AAM 0.906 0.235 0.890 0.769 — SALICON（图像） AAM 0.925 0.163 0.876 0.819 — DIEM（音视频） AAM 0.710 — 0.919 — 2.88 Coutrot2（音视频） AAM 0.887 — 0.971 — 7.46 DHF1K（视频） AAM 0.563 — 0.919 0.421 3.272 Hollywood2（视频） AAM 0.742 — 0.944 0.599 4.055 实际意义在于为注意力预测提供了第一个能跨模态、跨场景、跨任务统一迁移的基础模型，且推理高效。主要局限性是音频输入在模型中仅为轻量调制，未深度挖掘复杂声学场景，且文本条件依赖数据集级描述，对通用情况的泛化能力有待验证。训练数据存在显著的静态图像占比过高（88%）及由此可能引入的数据集偏差。 ...

AudioChat: Unified Audio Storytelling, Editing, and Understanding with Transfusion Forcing

📄 AudioChat: Unified Audio Storytelling, Editing, and Understanding with Transfusion Forcing #多模态模型 #音频生成 #音频理解 #语音合成 #说话人日志 5.8/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.7/1.5 | 清晰 0.6/1 | 影响 0.9/1.5 | 开源 0.1/1.5 | 复现 0.2/0.5 | 工程 1.1/1.5 📝 5.8/10 | 前50% | #音频生成 | #扩散模型 | #多模态模型 #音频理解 | arxiv 👥 作者与机构第一作者：William Chen（Adobe Research, Carnegie Mellon University）通讯作者：William Chen williamchen@cmu.edu, Prem Seetharaman pseeth@adobe.com 作者列表：William Chen（Adobe Research, Carnegie Mellon University）、Prem Seetharaman（Adobe Research）、Rithesh Kumar（Adobe Research, OpenAI）、Oriol Nieto（Adobe Research）、Shinji Watanabe（Carnegie Mellon University）、Justin Salamon（Adobe Research）、Zeyu Jin（Adobe Research） 💡 毒舌点评这是一篇工程味很重的工作，为统一处理复杂多源音频场景提供了一个端到端的解决方案，pipeline设计完整。但核心创新很有限，本质是将视觉领域的Transfusion和Diffusion Forcing技术结合后迁移到音频，并强依赖于一个用专有模型合成的数据集。评测高度内循环，在域外真实音频上的泛化性存疑，且模型不公开，更像是Adobe内部技术实力的展示而非推动社区开放研究的产物。 ...

AudioMosaic: Contrastive Masked Audio Representation Learning

📄 AudioMosaic: Contrastive Masked Audio Representation Learning #音频分类 7.7/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1.5/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 ✅ 7.7/10 | 前25% | #音频分类 | #对比学习 | arxiv 👥 作者与机构第一作者：Hanxun Huang（School of Computing and Information Systems, The University of Melbourne, Australia）通讯作者：Hanxun Huang（The University of Melbourne）、Christopher Leckie（The University of Melbourne）作者列表：Hanxun Huang（The University of Melbourne）、Qizhou Wang（The University of Melbourne）、Xingjun Ma（Institute of Trustworthy Embodied AI, Fudan University）、Cihang Xie（Baskin School of Engineering, University of California, Santa Cruz）、Christopher Leckie（The University of Melbourne）、Sarah Monazam Erfani（The University of Melbourne） 💡 毒舌点评这篇工作把 SpecAugment 的灵魂塞进了对比学习的壳子里，用结构化时频掩码造正样本，配上有效秩分析来解释为何此法能缓解维度崩塌，逻辑自洽、实验详实、效果亮眼。但本质上仍是"结构化掩码+SimCLR"的工程重组，理论新颖度有限，与 Audio‑LLM 的对接仅停留在替换编码器的层面，缺乏深入的协同优化，收益虽稳但未惊艳。 ...

AuTAgent: A Reinforcement Learning Framework for Tool-Augmented Audio Reasoning

📄 AuTAgent: A Reinforcement Learning Framework for Tool-Augmented Audio Reasoning #音频理解 #音频大模型 #强化学习 #低资源 6.2/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.9/1.5 | 清晰 0.8/1 | 影响 0.9/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 0.9/1.5 ✅ 6.2/10 | 前50% | #音频理解 | #强化学习 | #音频大模型 #低资源 | arxiv 👥 作者与机构第一作者：Siqian Tong（中国科学院声学研究所，中国科学院大学）通讯作者：Siqian Tong（中国科学院声学研究所，中国科学院大学）、Xuan Li（中国科学院声学研究所，中国科学院大学）作者列表：Siqian Tong（中国科学院声学研究所）、Xuan Li（中国科学院声学研究所）、Yiwei Wang（加州大学默塞德分校）、Baolong Bi（中国科学院计算技术研究所）、Yujun Cai（昆士兰大学）、Shenghua Liu（中国科学院计算技术研究所）、Yuchen He（中国科学院计算技术研究所）、Chengpeng Hao（中国科学院声学研究所） 💡 毒舌点评这篇论文在音频工具增强推理上的探索方向值得肯定，差分奖励机制的设计也算巧妙。但话说回来，仅在2000样本上训练的RL策略、6个固定工具的微缩库，再加上对ReAct等成熟工具调度框架的刻意回避，让“范式转移”的宣称显得过于膨胀。整体工作更像是在已知的RL+Tool框架上，于音频领域完成了一次精巧但有限的适配验证，深度和广度都还欠火候。 ...

AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation

📄 AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation 7.6/10 | 创新 1.1/2 | 严谨 0.9/1.5 | 实验 1/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 1.2/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 7.6/10 | 前25% | #音视频生成 | #多模态模型 | arxiv 👥 作者与机构第一作者：Ziwei Zhou（复旦大学）、Zeyuan Lai（中国科学技术大学）（共同一作）通讯作者：Yifan Yang（Microsoft Research Asia）其他作者：Rui Wang（复旦大学）、Yuqing Yang（Microsoft Research Asia）、Qi Dai（Microsoft Research Asia）、Lili Qiu（Microsoft Research Asia）、Chong Luo（Microsoft Research Asia） 💡 毒舌点评这篇工作用一个设计良好的任务驱动基准和混合评估框架，把当前 T2AV 模型在音乐音高、文本渲染、物理推理等方面的“车祸现场”系统地曝光了出来，对领域极具诊断价值。然而，评测在音高维度因模型全面崩盘而存在地板效应，区分度与人类一致性均较低；对闭源 MLLM 的过度依赖和对评估模块自身的敏感性分析缺失，让这一精细指标的长期可靠性存疑。 ...