Teaching Audio Models to Reason: A Unified Framework for Source- and Layer-Wise Distillation

📄 Teaching Audio Models to Reason: A Unified Framework for Source- and Layer-Wise Distillation #音频大模型 #知识蒸馏 #音频问答 #音频场景理解 ✅ 7.0/10 | 前25% | #音频问答 | #知识蒸馏 | #音频大模型 #音频场景理解 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Runyan Yang、Yuke Si、Yingying Gao(三人并列第一作者,论文中标注† Equal contribution) 通讯作者:Shilei Zhang(论文中标注* Corresponding author) 作者列表:Runyan Yang(JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室)、Yuke Si(JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室)、Yingying Gao(JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室)、Junlan Feng(JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室)、Chao Deng(JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室)、Shilei Zhang(JIUTIAN Research, China Mobile & 北京大学多媒体信息处理国家重点实验室) 💡 毒舌点评 该论文提出的“源维度”与“层维度”双轨蒸馏框架,在理论上为跨模态推理能力的迁移提供了一个清晰且有一定新意的视角,特别是将声学教师作为冻结快照来保持音频能力的做法有巧思。然而,实验规模和范围严重受限,仅在Qwen系列模型的师生配置下进行了验证,缺乏跨架构、跨数据规模的普适性证明,其“统一框架”的宣称说服力因此大打折扣。 ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 278 words

Teaching the Teachers: Boosting Unsupervised Domain Adaptation In Speech Recognition By Ensemble Update

📄 Teaching the Teachers: Boosting Unsupervised Domain Adaptation In Speech Recognition By Ensemble Update #语音识别 #领域适应 #知识蒸馏 #半监督学习 #教师-学生模型 ✅ 7.0/10 | 前25% | #语音识别 | #领域适应 | #知识蒸馏 #半监督学习 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Rehan Ahmad(谢菲尔德大学) 通讯作者:未说明 作者列表: Rehan Ahmad¹² (¹University of Sheffield, UK; ²Emotech Ltd.) Muhammad Umar Farooq² (²Emotech Ltd.) Qihang Feng¹ (¹University of Sheffield, UK) Thomas Hain¹ (¹University of Sheffield, UK) 💡 毒舌点评 亮点:该工作直击多教师-学生训练范式中“教师模型更新滞后”这一痛点,提出了一个轻量(EMA更新)、高效(同时训练)且有效的同步更新机制,在多个基准上取得了显著WER提升,证明了其方法的实用性。 短板:创新本质是对现有“教师-学生”和“集成学习”方法的精巧组合与工程优化,缺乏理论上的深度突破。此外,所有实验均围绕英语语音识别展开,方法在其他语言或更复杂的声学环境下的有效性尚未可知,存在一定的泛化性质疑。 ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 400 words

Temporal Distillation for Music Representation Learning

📄 Temporal Distillation for Music Representation Learning #音乐信息检索 #自监督学习 #知识蒸馏 #音频大模型 ✅ 7.5/10 | 前25% | #音乐信息检索 | #知识蒸馏 | #自监督学习 #音频大模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:未说明 通讯作者:未说明 作者列表:Shiqi Wei(ByteDance)、Bilei Zhu(ByteDance) 💡 毒舌点评 亮点:论文精准地指出了传统蒸馏在序列任务上的“逐帧匹配”缺陷,并提出了“时间分布对齐”这一优雅且有效的替代方案,其在多个任务上超越了教师模型的表现,证明了“时间先验”传递的有效性。短板:实验结论中“Harmonia作为正则化器能稳定深层模型训练”的宣称,其实验支撑相对单薄,仅有“Deeper Arch.”一组结果,且未对比无正则化时的训练曲线或失败案例,说服力不足。同时,完全缺乏代码和模型开源,对于一个声称“加速和稳定大规模训练”的框架,其实用价值在社区中将大打折扣。 🔗 开源详情 论文中未提及代码仓库、模型权重、数据集的任何开源计划或链接。训练细节(如优化器、学习率、batch size)在论文中有说明,但完整的训练脚本、配置文件和预训练检查点均未提供。因此,论文中未提及开源计划。 📌 核心摘要 问题:训练音乐基础模型面临数据需求大、方法效率低、难以捕捉长程时间依赖的挑战。传统自监督学习和知识蒸馏方法(如逐帧匹配)缺乏有效的“时间归纳偏置”,导致模型无法学习音乐的动态演进过程,尤其在数据有限时易过拟合或训练不稳定。 核心方法:提出Harmonia,一种时间蒸馏框架。其核心是设计了“时间KL损失”(LTemporal-KL),该损失要求学生模型对齐教师模型输出表征序列在时间维度上的概率分布(即学习每个特征维度上的时间激活模式),而非传统逐帧匹配。这显式地注入了时间一致性的先验知识。 创新点:a) 明确识别并解决了音乐表示学习中时间偏置缺失的问题;b) 提出基于完整输出序列分布对齐的蒸馏目标(时间KL损失),以传递时间动态知识;c) 验证了该框架在知识迁移(模型压缩/自蒸馏)和训练正则化(长上下文编码器)两种场景下的双重优势。 主要实验结果: 在音乐信息检索(MIR)的9项任务上,Harmonia在多数指标上超越了教师模型(如MusicFM)和帧式蒸馏基线。例如,在330M模型上,GTZAN分类准确率比教师高4.1%,和弦识别准确率高2.6%。 消融实验表明,即使仅使用30%训练数据,Harmonia(81.8%)也优于同数据量下不蒸馏的基线(80.1%)。 模型压缩实验:用Harmonia蒸馏出的190M学生模型,在多项任务上性能接近或达到330M教师模型的水平。 可扩展性:成功应用于训练更深的650M模型,性能良好。 关键实验结果表格如下: 配置 数据 架构 α/β GTZAN ACC MTT ROC MTT AP Beat F1 Downbeat F1 Chord ACC Structure HR.5 Key ACC 参考 & 基线 Teacher Model (fT) In-house 330M – 82.7 90.1 40.39 86.4 80.4 72.6 69.9 69.4 Frame-wise Distill. In-house 330M – 58.6 78.4 32.4 34.5 66.4 67.4 64.2 54.2 Data Compression (30%) 0.3 In-house 330M – 80.1 88.1 38.5 84.6 78.7 71.4 66.9 62.3 Harmonia (本文) Harmonia In-house 330M 0.2 86.8 91.4 40.8 86.7 80.9 75.2 73.1 70.4 Finetuned Teacher In-house 330M – – – – 86.5 80.1 80.5 74.2 71.1 Harmonia (Fine-tuned) In-house 330M 0.2 – – – 87.1 81.5 83.1 74.9 73.1 消融研究 Data Ablation (30%) 0.3 In-house 330M 0.2 81.8 89.7 39.2 86.1 79.4 71.7 71.3 69.2 Experiment α1 In-house 330M 0.5 85.1 92.0 40.2 87.6 80.3 74.3 73.1 70.6 Experiment α2 In-house 330M 0.7 86.0 91.9 41.4 86.1 80.5 75.9 73.2 71.3 Compression In-house 190M 0.2 83.2 90.0 37.2 86.8 79.1 71.4 71.1 64.2 可扩展性研究 Deeper Arch. In-house 650M 0.2 85.4 92.4 41.6 86.7 80.6 75.2 73.2 68.2 Long Context In-house 330M 0.2 86.8 91.2 40.4 84.9 80.2 74.7 74.4 69.6 SOTA [21-26] – – – 85.6 92.0 41.4 88.7 81.0 80.7 74.2 74.4 实际意义:为高效训练音乐基础模型提供了一种新思路。通过时间蒸馏,可以提升小模型性能、实现模型压缩、并稳定训练更大更深的模型,有助于降低音乐AI的研发门槛。 主要局限性:a) 理论分析不足,缺乏对时间KL损失优化几何的深入探讨;b) 实验主要基于单一的MusicFM架构和一家公司的内部数据(“In-house”),结论的普适性有待验证;c) 完全未开源,严重影响可复现性和社区影响力;d) 对长上下文正则化的具体实现和优势阐述不够细致。 🏗️ 模型架构 Harmonia本身并非一个独立的模型架构,而是一个应用于已有编码器(如MusicFM)的知识蒸馏框架。 ...

2026-04-29 · 更新于 2026-06-15 · 3 min · 433 words

The Impact of Audio Watermarking on Audio Anti-Spoofing Countermeasures

📄 The Impact of Audio Watermarking on Audio Anti-Spoofing Countermeasures #音频深度伪造检测 #领域适应 #知识蒸馏 #音频水印 #音频安全 🔥 8.5/10 | 前25% | #音频深度伪造检测 | #领域适应 | #知识蒸馏 #音频水印 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Zhenshan Zhang(杜克昆山大学多模态智能系统苏州重点实验室, 数字创新研究中心) 通讯作者:Ming Li(杜克昆山大学多模态智能系统苏州重点实验室, 数字创新研究中心, ming.li369@dukekunshan.edu.cn) 作者列表:Zhenshan Zhang(杜克昆山大学多模态智能系统苏州重点实验室, 数字创新研究中心)、Xueping Zhang(杜克昆山大学多模态智能系统苏州重点实验室, 数字创新研究中心)、Yechen Wang(OfSpectrum, Inc.)、Liwei Jin(OfSpectrum, Inc.)、Ming Li(杜克昆山大学多模态智能系统苏州重点实验室, 数字创新研究中心) 💡 毒舌点评 亮点:选题填补了一个重要的认知空白——系统量化了“水印”这种合法但普遍存在的人为扰动对反欺骗系统的“无差别攻击”效果,实验设计严谨(控制水印比例、类型分布),结论可靠。提出的KPWL框架在“已知水印”适应上取得了立竿见影的效果,思路清晰实用。 短板:在“未见水印”场景下的性能反而下降,暴露了当前方法对水印特异性的过拟合,极大限制了其在真实世界(水印类型未知且多样)中的应用价值,也说明“领域适应”的本质挑战并未被彻底解决。 🔗 开源详情 代码:论文明确提供了代码仓库链接:https://github.com/Alphawarheads/Watermark_Spoofing.git。 模型权重:论文未提及是否公开预训练的模型权重(如基线XLSR+SLS或KPWL适应后的模型)。 数据集:论文指出构建了“Watermark-Spoofing”数据集,并提供了获取方式(通过上述GitHub仓库),表明数据集是公开的。 Demo:论文中未提及在线演示。 复现材料:论文详细说明了数据集构建协议(水印方法、比例)、训练配置(优化器、学习率、轮数、损失函数超参数)、评估设置,复现信息充分。 论文中引用的开源项目:引用了ASVspoof 2019/2021数据集[12,20]、In-the-Wild数据集[21]、多种水印方法(WavMark[4], Timbre[5], AudioSeal[13]等)、反欺骗模型(XLSR[6], SLS[9], Nes2Net[10])以及数据增强工具RawBoost[28]。 📌 核心摘要 问题:本文首次研究了广泛使用的音频水印技术(为版权保护设计)对语音反欺骗(深度伪造检测)系统性能的影响,发现这种影响之前被完全忽视。 方法核心:构建了包含多种手工和DNN水印的“Watermark-Spoofing”数据集,并系统评估了现有模型性能下降的程度。提出名为“知识保留水印学习”(KPWL)的适应框架,通过在冻结前端(XLSR)和分类器的情况下微调中间层,并结合对称知识蒸馏与参数锚定,使模型能适应水印引入的分布偏移。 创新:首次揭示了音频水印是反欺骗系统面临的一种新的、未被研究的领域偏移源;首次构建了用于评估和缓解此问题的专用数据集与基准;提出了首个旨在同时适应水印并保留原始域检测能力的专用框架。 实验结果:在ASVspoof 2021 LA数据集上,当75%的样本被水印时,基线模型(XLSR+SLS)的EER从3.02%上升至3.68%。KPWL模型在相同条件下将EER降至3.21%,同时在干净数据上保持3.06%(与基线3.02%接近)。然而,在“未见水印”评估中,基线模型在75%水印(LA21)下EER为9.94%,而KPWL模型恶化至11.22%。 实际意义:提醒反欺骗系统开发者需考虑水印带来的鲁棒性挑战;为构建抗水印污染的反欺骗系统提供了首个基准和初步解决方案;揭示了水印技术可能对语音安全生态产生的意外副作用。 主要局限性:KPWL框架在应对未见过的水印类型时效果不佳甚至有害,表明当前方法的适应能力局限于训练时接触过的特定水印,泛化能力有待突破。 🏗️ 模型架构 本文的核心模型架构并非提出一种全新的端到端神经网络,而是提出了一种训练策略与框架(KPWL),用于适应现有的反欺骗模型以应对水印干扰。以论文中作为骨干的 XLSR+SLS 模型为例,其整体流程与KPWL框架的适配如下: ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 390 words

The Synergistic Role of Audio and Large Video-Language Model in Source-Free Video Domain Adaptation

📄 The Synergistic Role of Audio and Large Video-Language Model in Source-Free Video Domain Adaptation #领域适应 #多模态模型 #预训练 #知识蒸馏 #音视频 ✅ 7.0/10 | 前25% | #领域适应 | #多模态模型 | #预训练 #知识蒸馏 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Tzu Ling Liu(University of Saskatchewan, Department of Computer Science) 通讯作者:未说明 作者列表:Tzu Ling Liu(University of Saskatchewan, Department of Computer Science)、Ian Stavness(University of Saskatchewan, Department of Computer Science)、Mrigank Rochan(University of Saskatchewan, Department of Computer Science) 💡 毒舌点评 这篇论文巧妙地将“大”(LVLM)和“稳”(音频)两种特性融合,在SOTA已经很高的任务上又挤出了几个百分点的性能提升,工程整合能力值得肯定。然而,其“多模态”的核心贡献中,音频模态的“协同作用”在消融实验中只带来了约1.7%的平均增益(从54.2%到55.9%),显得有些雷声大雨点小,更像是为用音频而用音频,缺乏对音频为何有效以及在何种情况下可能失效的深入机制分析。 ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 360 words

Triage Knowledge Distillation for Speaker Verification

📄 Triage Knowledge Distillation for Speaker Verification #说话人验证 #知识蒸馏 #模型压缩 #课程学习 #语音 ✅ 7.5/10 | 前25% | #说话人验证 | #知识蒸馏 | #模型压缩 #课程学习 学术质量 6.8/7 | 选题价值 1.5/2 | 复现加成 -0.3 | 置信度 高 👥 作者与机构 第一作者:Ju-ho Kim(Samsung Research, AI Solution Team) 通讯作者:未说明 作者列表:Ju-ho Kim(Samsung Research, AI Solution Team)、Youngmoon Jung(Samsung Research, AI Solution Team)、Joon-Young Yang(Samsung Research, AI Solution Team)、Jaeyoung Roh(Samsung Research, AI Solution Team)、Chang Woo Han(Samsung Research, AI Solution Team)、Hoon-Young Cho(Samsung Research, AI Solution Team) 💡 毒舌点评 亮点:TRKD方法设计直观有效,将“评估-优先-关注”的分诊思想系统地应用于知识蒸馏,并通过动态τ课程调度巧妙地平衡了训练稳定性与后期聚焦难度,实验结果在各种架构组合上的一致性提升很有说服力。短板:论文对方法的局限性探讨不足,例如,累积概率阈值τ的最终值(0.05)和调度曲线(γ=0.001)是经验选择,其对不同数据集和任务规模的敏感性与最优性缺乏理论分析或更广泛的实验验证。 ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 329 words

What the student learns in knowledge distillation: A subspace view and evidence on Convolutional Recurrent Network

📄 What the student learns in knowledge distillation: A subspace view and evidence on Convolutional Recurrent Network #知识蒸馏 #语音增强 #模型压缩 #子空间学习 ✅ 6.5/10 | 前50% | #语音增强 | #知识蒸馏 | #模型压缩 #子空间学习 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Bo Jin(清华大学电子工程系) 通讯作者:Dongmei Li(清华大学电子工程系) 作者列表:Bo Jin(清华大学电子工程系),Timin Li(清华大学电子工程系),Guhan Chen(清华大学统计与数据科学系),Dongmei Li(清华大学电子工程系) 💡 毒舌点评 论文的理论推导部分将卷积层线性化并建立统一的子空间损失形式,确实为理解知识蒸馏提供了一个优雅的数学视角,这是其核心亮点。但遗憾的是,所有实验都局限于DCCRN这一特定模型在语音增强任务上的表现,缺乏在其他经典架构(如ResNet、Transformer)或任务(如图像分类)上的跨域验证,大大削弱了其“统一视角”宣称的说服力。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用了公开的Interspeech 2021 DNS Challenge数据集和DNS2020片段,论文中未提供数据集下载链接,但指明了数据集名称。 Demo:未提及。 复现材料:提供了较详细的实现细节(如数据集预处理、模型配置、优化器设置、训练轮数对应关系),但缺乏完整的脚本和配置文件。 论文中引用的开源项目:引用了DCCRN模型的原始论文 [12]。 📌 核心摘要 这篇论文旨在从统一的子空间视角解释知识蒸馏的工作原理。其核心方法是将卷积神经网络局部线性化,证明在该表示下,一大类知识蒸馏损失可统一为投影残差目标,进而等价于一个迹最大化问题,即学生的有限容量被引导去对齐教师模型的主能量子空间。与已有研究相比,该工作提出了一种更形式化、更统一的解释框架,并能够解释在语音增强实验中观察到的三个稳健现象:1) 多阶段蒸馏优于单阶段蒸馏;2) 多层特征蒸馏通常优于等层匹配蒸馏;3) 样本级别的教师-学生一致性会涌现。实验在DNS Challenge数据集上使用DCCRN模型进行,结果显示,相比无蒸馏基线,所测试的知识蒸馏方法均能提升学生模型性能(例如,1/16学生模型在CLSKD方法下STOI达到0.886,WB-PESQ达到2.732)。该论文的实际意义在于为知识蒸馏的机制提供了新的理论解释,并可指导蒸馏策略的设计。主要局限性是理论验证仅在单一架构(DCCRN)和单一任务(语音增强)上进行,普适性有待进一步检验。 ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 298 words

Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation

📄 Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation #音视频 #扩散模型 #知识蒸馏 #流式处理 #实时处理 🔥 8.5/10 | 前25% | #音视频 | #扩散模型 | #知识蒸馏 #流式处理 | arxiv 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Chunyu Li(上海创新研究院, 复旦大学) , Jiaye Li(复旦大学) *并列第一 通讯作者:Siyu Zhu(复旦大学) 作者列表: Chunyu Li(上海创新研究院, 复旦大学) Jiaye Li(复旦大学) Ruiqiao Mei(复旦大学) Haoyuan Xia(复旦大学, 中国科学技术大学) Hao Zhu(南京大学) Jingdong Wang(百度) Siyu Zhu(复旦大学) 💡 毒舌点评 亮点:论文精准瞄准了当前音视频数字人模型“慢”和“蒸馏后变糊”的两大痛点,用“未来扩展注意力”这个巧妙设计让模型“偷看”未来几帧音频来预判唇形,同时用多模态奖励加权的蒸馏方法“择优录取”,最终在H200上跑出了20 FPS、延迟不足1秒的惊人速度,且质量损失可控。短板:尽管速度飞起,但在同步性(Sync-C)和语音识别准确率(WER)等绝对指标上,依然能看到与教师模型Ovi的明显差距,而且论文并未与另一个强劲的实时竞争者OmniForcing进行正面比较,说服力稍打折扣。 ...

2026-04-28 · 更新于 2026-06-15 · 3 min · 491 words

Beyond Acoustic Sparsity and Linguistic Bias: A Prompt-Free Paradigm for Mispronunciation Detection and Diagnosis

📄 Beyond Acoustic Sparsity and Linguistic Bias: A Prompt-Free Paradigm for Mispronunciation Detection and Diagnosis #发音错误检测 #自监督学习 #知识蒸馏 #数据增强 #零样本 🔥 8.5/10 | 前25% | #发音错误检测 | #自监督学习 #知识蒸馏 | #自监督学习 #知识蒸馏 | arxiv 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Haopeng Geng (The University of Tokyo, Graduate School of Engineering) 通讯作者:未说明(论文未明确指定通讯作者) 作者列表:Haopeng Geng (The University of Tokyo, Graduate School of Engineering), Longfei Yang (The University of Tokyo, Graduate School of Engineering), Xi Chen (The University of Tokyo, Graduate School of Engineering), Haitong Sun (The University of Tokyo, Graduate School of Engineering), Daisuke Saito (The University of Tokyo, Graduate School of Engineering), Nobuaki Minematsu (The University of Tokyo, Graduate School of Engineering) 💡 毒舌点评 论文精准地将当前MDD方法的不足归纳为“声学陷阱”和“语言学陷阱”,并给出了一个逻辑自洽且有效的解决方案CROTTC-IF,最终在多个数据集上取得了SOTA或极具竞争力的性能,展现了扎实的工程能力和清晰的学术思考。然而,论文对“声学权重λ”在真实场景中的最佳取值(如非实验环境、自发语音)缺乏讨论,且最终框架对λ的敏感性也暗示了“解耦”的理想与“融合”的现实之间仍存在张力。 ...

2026-04-27 · 更新于 2026-06-15 · 3 min · 592 words

ATRIE: Adaptive Tuning for Robust Inference and Emotion in Persona-Driven Speech Synthesis

📄 ATRIE: Adaptive Tuning for Robust Inference and Emotion in Persona-Driven Speech Synthesis #语音合成 #知识蒸馏 #流匹配 #大语言模型 #对比学习 ✅ 7.0/10 | 前25% | #语音合成 | #知识蒸馏 | #流匹配 #大语言模型 | arxiv 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Aoduo Li(Guangdong University of Technology) 通讯作者:未说明 作者列表:Aoduo Li(Guangdong University of Technology),Haoran Lv(Guangdong University of Technology),Hongjian Xu(Guangdong University of Technology),Shengmin Li(South China University of Technology),Sihao Qin(South China University of Technology),Zimeng Li(Shenzhen Polytechnic University),Chi Man Pun(University of Macau),Xuhang Chen(Huizhou University) 💡 毒舌点评 亮点:论文提出的“Persona-Prosody Dual-Track (P2-DT)”架构思路清晰,将静态身份与动态韵律显式解耦,并通过蒸馏14B LLM的推理能力来指导韵律生成,为解决“角色一致性”与“情感表达”之间的矛盾提供了一个有潜力的技术路径。短板:论文最大的软肋在于其核心贡献之一——AnimeTTS-Bench数据集——规模极小(仅4.2小时,3个角色)且未开源,导致其报告的SOTA结果(如CCS: 0.86, mAP: 0.75)缺乏在更大规模、更多样化数据上的验证,说服力大打折扣。此外,代码和模型均未开源,严重阻碍了学术界的复现与跟进。 ...

2026-04-24 · 更新于 2026-06-15 · 3 min · 428 words