📄 Enhancing Multilingual LLM-based ASR with Mixture of Experts and Dynamic Downsampling

7/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 0.9/1.5 | 清晰 0.9/1 | 影响 0.5/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5

✅ 7/10 | 前50% | arxiv

👥 作者与机构

未提及

💡 毒舌点评

这篇论文在解决LLM-ASR中多语言与模态对齐问题的动机是清晰的，但整体给人的感觉像是一个扎实但缺乏足够洞察力的系统工程。将MoE和CIF引入投影器的组合思路直接，但论文对CIF引入后“过度压缩”的具体机制和改进策略（n=4的松弛策略）的理论分析几乎为零，更像是一种试错后的经验值。实验设计有消融，但关键基线对比不足：仅与Whisper-large-v3和自身基础框架对比，缺乏与近期其他多语言或高效LLM-ASR方法的直接比较，使得“显著提升”的结论说服力打了折扣。此外，将MLC-SLM竞赛的baseline代码作为自己工作的基线并声称改进，这种定位略显取巧，未能充分凸显其作为独立学术研究的增量贡献。论文写作部分表述冗余且存在笔误（如“mixutre”），对CIF预测器训练的描述（frozen Whisper-encoder与MSE损失）也过于简略，影响了方法的可复现性深度。

📌 核心摘要

本文针对将大语言模型（LLM）集成到多语言自动语音识别（ASR）系统时面临的两大挑战——多语言泛化和声学-文本模态对齐——提出了一种基于投影器的改进框架。核心贡献在于：1）设计了一个混合专家（MoE）投影器，通过门控机制动态选择专家子网络，以更好地处理跨语言的声学-文本映射；2）采用改进的连续积分放电（CIF）机制替代固定的下采样策略，实现动态模态对齐，并通过设置松弛目标（n=4）来平衡信息压缩与保留。在MLC-SLM挑战赛数据集及多个外部测试集上的实验表明，所提方法（MoE + 改进CIF）相比基础LLM-ASR框架和单独使用MoE或标准CIF的版本，在域内和域外数据上均取得了显著的词错误率（WER）降低，验证了其有效性和泛化能力。

🔗 开源详情

代码：https://github.com/mubingshen/MLC-SLM-Baseline (论文中明确使用此开源代码库作为基线，并在方法描述中引用)。
模型权重：
- Whisper-large-v3 编码器：论文未提供直接链接，但该模型在Hugging Face官方发布 (https://huggingface.co/openai/whisper-large-v3)。
- Qwen-2.5 7B 语言模型：论文未提供直接链接，但该模型在ModelScope公开发布 (https://modelscope.cn/models/Qwen/Qwen2.5-7B)。
数据集：
- MLC-SLM 训练集/开发集：由Nexdata提供，链接至竞赛页面 (https://www.nexdata.ai/competition/mlc-slm)。
- FLEURS测试集：公开数据集 (https://huggingface.co/datasets/google/fleurs)。
- CommonVoice测试集：公开数据集 (https://commonvoice.mozilla.org/)。
- 其他扩展数据集（GigaSpeech2, LibriSpeech, MLS, VoxPopuli）：均为公开数据集。
Demo：论文未提及。
复现材料：论文未提供具体的CIF预测器预训练检查点、完整训练配置文件或详细附录。
论文中引用的开源项目：
- MLC-SLM-Baseline: https://github.com/mubingshen/MLC-SLM-Baseline
- Whisper (模型): https://github.com/openai/whisper
- Qwen (模型): https://github.com/QwenLM/Qwen

作者与机构

未提及

毒舌点评

核心摘要

方法概述和架构

本文所提方法是对现有基于投影器的LLM-ASR框架的增强。整体架构遵循“语音编码器-投影器-大语言模型”的范式。

基线框架：采用Whisper-large-v3作为语音编码器，从音频输入中提取声学特征；采用Qwen-2.5 7B作为冻结的LLM核心解码器。两者之间由一个投影器桥接，负责将声学特征映射为LLM可处理的离散令牌序列。基线投影器由两个卷积层后接两个线性层构成，并采用固定下采样因子（通常为4）来压缩声学特征序列长度。
MoE增强投影器：为解决基线投影器对复杂多语言映射建模能力不足的问题，本文将其线性层替换为MoE层。具体地，保留原始的卷积层作为共享骨干网络，增加一组专家子网络，其数量与训练语言数量相同。一个门控网络根据输入的声学特征为每个专家子网络计算激活权重。最终投影器输出为所有专家输出的加权和：\(\mathbf{y}=\sum_{k=1}^{K}g_{k}(\mathbf{x})E_{k}(\mathbf{x})\)，其中\(g_{k}(\mathbf{x})\)是门控权重，\(E_{k}(\mathbf{x})\)是第\(k\)个专家的输出。此设计使模型能动态地将不同语言的输入路由到最相关的专家，从而提升跨语言适应性。
基于CIF的模态对齐：为解决固定下采样对语音速率变化敏感且缺乏显式对齐建模的问题，本文引入了CIF机制。CIF为每个声学特征帧分配一个权重（0到1之间），并顺序累加。当累计和超过阈值（如1）时，“触发”生成一个新的令牌。一个训练好的CIF预测器能估算语音对应的令牌数量，从而动态地将声学特征序列压缩至与目标令牌序列长度相匹配。然而，标准CIF可能导致过度压缩和信息损失。因此，本文采用了一个松弛变体：在训练CIF预测器时，其目标不是输出长度与目标令牌序列长度相等，而是其\(n\)倍（实验中\(n=4\)）。这使得CIF在保持动态适应性的同时，实现了与基线框架相当的有效下采样率（约4倍），从而兼顾了对齐灵活性和信息保留。
整体流程：在最终系统中，语音编码器输出的特征首先经过MoE投影器进行跨语言映射，然后通过改进的CIF模块进行动态长度调整，生成令牌序列，最后送入冻结的LLM进行解码。CIF预测器在预训练阶段独立训练（使用MSE损失学习预测目标长度），之后固定参数并集成到投影器中，与投影器的其他部分一同微调。

核心创新点

MoE投影器：将混合专家架构引入LLM-ASR的投影器模块，通过动态门控路由机制，增强了投影器对多种语言声学模式的建模能力。
改进的CIF模态对齐：针对标准CIF在LLM-ASR中可能导致过度压缩的问题，提出通过修改训练目标（松弛因子\(n\)）来控制其输出长度，在保留动态对齐优势的同时，避免了信息损失。

实验结果

实验在多个数据集上验证了方法的有效性，结果汇总如下表（表1）：

方法	训练数据时长 (h)	MLCSLM-dev	CommonVoice-test	FLEURS-test
Whisper-large-v3	-	21.48	12.53	9.59
LLM-ASR Baseline	1500	23.26	19.57	13.05
+ MoE Projector	1500	16.10	14.48	11.06
+ CIF Downsampler	1500	18.95	18.45	12.89
Proposed (MoE + modified CIF)	1500	15.27	13.87	10.46
	8000	15.45	9.86	8.65

关键发现：

组件有效性：MoE投影器显著降低了所有测试集上的WER，证明了其处理多语言能力的有效性。单独使用标准CIF则导致性能下降，表明在LLM-ASR中存在信息压缩过度的问题。
协同效果：结合MoE投影器与改进的CIF（即本文提出方法）取得了最佳的整体性能，在1500小时训练数据下，在三个测试集上均达到最低WER。
数据扩展影响：将训练数据扩展到8000小时后，模型在域外测试集（CommonVoice-test, FLEURS-test）上获得了大幅提升（WER分别降至9.86%和8.65%），而在域内的MLCSLM-dev上性能略有下降。这表明大规模数据扩展主要增强了模型的跨域泛化能力。

细节详述

动机：论文明确指出将LLM集成到ASR中的两大挑战：1) 多语言泛化：需要投影器能灵活适应不同语言的音韵和语言模式；2) 模态对齐：需要将可变长的声学特征映射到离散的文本令牌，现有固定下采样对此敏感且缺乏显式对齐。
技术细节：
- CIF预测器结构：由一个卷积层和一个线性层组成。
- CIF预测器训练：预训练阶段，与冻结的Whisper编码器联合训练，使用参考文本（经Qwen-2.5分词）计算目标长度。损失函数为预测长度与目标长度的均方误差（MSE）。对于松弛CIF，目标长度设为\(n \times L_{ref}\)（\(L_{ref}\)为参考令牌序列长度）。
- 训练设置：使用Adam优化器，学习率1e-3，经2500步预热后按逆平方根衰减。训练最多20轮，采用早停。为处理变长输入，使用动态批次策略，限制每批最多5000帧。
评估设置：MLC-SLM开发集作为域内（ID）评估基准。FLEURS和CommonVoice测试集作为域外（OOD）评估。数据扩展实验中，CommonVoice-test也被视为ID基准。

局限与问题

CIF机制分析不足：论文指出了标准CIF的过度压缩问题并给出了解决方案，但对“过度压缩”在LLM-ASR框架下具体如何导致性能下降的机制缺乏深入分析。改进的松弛因子\(n=4\)的选择更像是经验值，未探讨其与其他因素（如语言特性、模型容量）的关系。
基线对比局限性：主要基线为Whisper-large-v3和自身的LLM-ASR框架。缺乏与其他近期提出的多语言ASR方法或高效LLM-ASR方法的对比，使得“显著超越强基线”的声明缺乏更全面的定位。
可复现性深度：虽然引用了开源代码库和预训练模型链接，但论文未提供CIF预测器预训练的具体检查点、完整超参数配置或数据采样策略的细节，这可能会影响他人精确复现其“改进的CIF”部分。
性能与基线关系：LLM-ASR基线在所有数据集上均劣于Whisper-large-v3，这引发了对将冻结LLM直接用于解码是否真正有效的疑问。论文未深入探讨该基线性能不佳的根本原因。
部分结论强度：例如，“大尺度数据扩展主要增强跨域泛化，域内性能轻微下降”的结论基于单一实验，其普遍性有待验证。8000小时训练中MLCSLM-dev性能略升（15.27->15.45）的幅度极小，可能在统计噪声范围内，解读需谨慎。
写作与表述：存在个别笔误（如摘要中的“mixutre”），部分章节描述过于简略（如CIF预测器的训练细节、MoE门控网络的具体设计）。

评分理由

创新性 (1.3/2)：将MoE和改进CIF引入LLM-ASR投影器是一个合理的组合创新，但两个组件本身并非原创。改进CIF的“松弛”技巧简单直接，但缺乏理论支撑，整体创新性属于增量式改进。
技术严谨性 (1.1/1.5)：方法描述基本清晰，实验设计包含了必要的消融研究。但对关键改进点（CIF松弛策略）的分析深度不足，未探讨其潜在缺陷或替代方案，技术严谨性有提升空间。
实验充分性 (0.9/1.5)：在指定数据集上进行了系统实验和消融，验证了每个组件的有效性。但缺乏与领域内其他最先进方法的对比，削弱了贡献的突出性。数据扩展实验有一定价值。
清晰度 (0.9/1.0)：论文结构基本清晰，但部分方法描述（如CIF训练）和结果分析可以更详尽。存在少量笔误。
影响力 (0.5/1.0)：工作针对多语言ASR的实际问题，提出的方法有潜在应用价值。但对LLM-ASR社区的理论或方法论启发有限，影响力预计中等。
开源 (1.0/1.5)：提供了基线代码库链接和主要预训练模型来源（Whisper, Qwen），但未开源其提出方法的完整实现或预训练好的CIF预测器。开源程度中等。
可复现性 (0.7/1.0)：提供了关键模型组件信息和主要训练超参数，但缺少CIF预训练细节和完整代码，完全复现提出的方法存在一定障碍。
工程/实践价值 (0.8/1.0)：方法直接针对LLM-ASR系统的实际构建问题（多语言、对齐），给出的解决方案易于工程实现，具有明确的实践指导意义。

开源详情

代码：https://github.com/mubingshen/MLC-SLM-Baseline (论文明确基于此代码库工作)。
模型权重：
- Whisper-large-v3 编码器：https://huggingface.co/openai/whisper-large-v3 (官方发布)。
- Qwen-2.5 7B 语言模型：https://modelscope.cn/models/Qwen/Qwen.5-7B (官方发布)。
数据集：
- MLC-SLM数据集：https://www.nexdata.ai/competition/mlc-slm。
- FLEURS测试集：https://huggingface.co/datasets/google/fleurs。
- CommonVoice测试集：https://commonvoice.mozilla.org/。
- 其他扩展数据集均为公开资源。
Demo：未提及。
复现材料：未提供。
论文中引用的开源项目：
- MLC-SLM-Baseline: https://github.com/mubingshen/MLC-SLM-Baseline
- Whisper: https://github.com/openai/whisper
- Qwen: https://github.com/QwenLM/Qwen

🏗️ 方法概述和架构

本文所提方法是对现有基于投影器的LLM-ASR框架的增强。整体架构遵循“语音编码器-投影器-大语言模型”的范式。

基线框架：采用Whisper-large-v3作为语音编码器，从音频输入中提取声学特征；采用Qwen-2.5 7B作为冻结的LLM核心解码器。两者之间由一个投影器桥接，负责将声学特征映射为LLM可处理的离散令牌序列。基线投影器由两个卷积层后接两个线性层构成，并采用固定下采样因子（通常为4）来压缩声学特征序列长度。
MoE增强投影器：为解决基线投影器对复杂多语言映射建模能力不足的问题，本文将其线性层替换为MoE层。具体地，保留原始的卷积层作为共享骨干网络，增加一组专家子网络，其数量与训练语言数量相同。一个门控网络根据输入的声学特征为每个专家子网络计算激活权重。最终投影器输出为所有专家输出的加权和：\(\mathbf{y}=\sum_{k=1}^{K}g_{k}(\mathbf{x})E_{k}(\mathbf{x})\)，其中\(g_{k}(\mathbf{x})\)是门控权重，\(E_{k}(\mathbf{x})\)是第\(k\)个专家的输出。此设计使模型能动态地将不同语言的输入路由到最相关的专家，从而提升跨语言适应性。
基于CIF的模态对齐：为解决固定下采样对语音速率变化敏感且缺乏显式对齐建模的问题，本文引入了CIF机制。CIF为每个声学特征帧分配一个权重（0到1之间），并顺序累加。当累计和超过阈值（如1）时，“触发”生成一个新的令牌。一个训练好的CIF预测器能估算语音对应的令牌数量，从而动态地将声学特征序列压缩至与目标令牌序列长度相匹配。然而，标准CIF可能导致过度压缩和信息损失。因此，本文采用了一个松弛变体：在训练CIF预测器时，其目标不是输出长度与目标令牌序列长度相等，而是其\(n\)倍（实验中\(n=4\)）。这使得CIF在保持动态适应性的同时，实现了与基线框架相当的有效下采样率（约4倍），从而兼顾了对齐灵活性和信息保留。
整体流程：在最终系统中，语音编码器输出的特征首先经过MoE投影器进行跨语言映射，然后通过改进的CIF模块进行动态长度调整，生成令牌序列，最后送入冻结的LLM进行解码。CIF预测器在预训练阶段独立训练（使用MSE损失学习预测目标长度），之后固定参数并集成到投影器中，与投影器的其他部分一同微调。

💡 核心创新点

MoE投影器：将混合专家架构引入LLM-ASR的投影器模块，通过动态门控路由机制，增强了投影器对多种语言声学模式的建模能力。
改进的CIF模态对齐：针对标准CIF在LLM-ASR中可能导致过度压缩的问题，提出通过修改训练目标（松弛因子\(n\)）来控制其输出长度，在保留动态对齐优势的同时，避免了信息损失。

📊 实验结果

实验在多个数据集上验证了方法的有效性，结果汇总如下表（表1）：

方法	训练数据时长 (h)	MLCSLM-dev	CommonVoice-test	FLEURS-test
Whisper-large-v3	-	21.48	12.53	9.59
LLM-ASR Baseline	1500	23.26	19.57	13.05
+ MoE Projector	1500	16.10	14.48	11.06
+ CIF Downsampler	1500	18.95	18.45	12.89
Proposed (MoE + modified CIF)	1500	15.27	13.87	10.46
	8000	15.45	9.86	8.65

关键发现：

组件有效性：MoE投影器显著降低了所有测试集上的WER，证明了其处理多语言能力的有效性。单独使用标准CIF则导致性能下降，表明在LLM-ASR中存在信息压缩过度的问题。
协同效果：结合MoE投影器与改进的CIF（即本文提出方法）取得了最佳的整体性能，在1500小时训练数据下，在三个测试集上均达到最低WER。
数据扩展影响：将训练数据扩展到8000小时后，模型在域外测试集（CommonVoice-test, FLEURS-test）上获得了大幅提升（WER分别降至9.86%和8.65%），而在域内的MLCSLM-dev上性能略有下降。这表明大规模数据扩展主要增强了模型的跨域泛化能力。

🔬 细节详述

动机：论文明确指出将LLM集成到ASR中的两大挑战：1) 多语言泛化：需要投影器能灵活适应不同语言的音韵和语言模式；2) 模态对齐：需要将可变长的声学特征映射到离散的文本令牌，现有固定下采样对此敏感且缺乏显式对齐。
技术细节：
- CIF预测器结构：由一个卷积层和一个线性层组成。
- CIF预测器训练：预训练阶段，与冻结的Whisper编码器联合训练，使用参考文本（经Qwen-2.5分词）计算目标长度。损失函数为预测长度与目标长度的均方误差（MSE）。对于松弛CIF，目标长度设为\(n \times L_{ref}\)（\(L_{ref}\)为参考令牌序列长度）。
- 训练设置：使用Adam优化器，学习率1e-3，经2500步预热后按逆平方根衰减。训练最多20轮，采用早停。为处理变长输入，使用动态批次策略，限制每批最多5000帧。
评估设置：MLC-SLM开发集作为域内（ID）评估基准。FLEURS和CommonVoice测试集作为域外（OOD）评估。数据扩展实验中，CommonVoice-test也被视为ID基准。

局限与问题

CIF机制分析不足：论文指出了标准CIF的过度压缩问题并给出了解决方案，但对“过度压缩”在LLM-ASR框架下具体如何导致性能下降的机制缺乏深入分析。改进的松弛因子\(n=4\)的选择更像是经验值，未探讨其与其他因素（如语言特性、模型容量）的关系。
基线对比局限性：主要基线为Whisper-large-v3和自身的LLM-ASR框架。缺乏与其他近期提出的多语言ASR方法或高效LLM-ASR方法的对比，使得“显著超越强基线”的声明缺乏更全面的定位。
可复现性深度：虽然引用了开源代码库和预训练模型链接，但论文未提供CIF预测器预训练的具体检查点、完整超参数配置或数据采样策略的细节，这可能会影响他人精确复现其“改进的CIF”部分。
性能与基线关系：LLM-ASR基线在所有数据集上均劣于Whisper-large-v3，这引发了对将冻结LLM直接用于解码是否真正有效的疑问。论文未深入探讨该基线性能不佳的根本原因。
部分结论强度：例如，“大尺度数据扩展主要增强跨域泛化，域内性能轻微下降”的结论基于单一实验，其普遍性有待验证。8000小时训练中MLCSLM-dev性能略升（15.27->15.45）的幅度极小，可能在统计噪声范围内，解读需谨慎。
写作与表述：存在个别笔误（如摘要中的“mixutre”），部分章节描述过于简略（如CIF预测器的训练细节、MoE门控网络的具体设计）。

⚖️ 评分理由

创新性 (1.3/2)：将MoE和改进CIF引入LLM-ASR投影器是一个合理的组合创新，但两个组件本身并非原创。改进CIF的“松弛”技巧简单直接，但缺乏理论支撑，整体创新性属于增量式改进。
技术严谨性 (1.1/1.5)：方法描述基本清晰，实验设计包含了必要的消融研究。但对关键改进点（CIF松弛策略）的分析深度不足，未探讨其潜在缺陷或替代方案，技术严谨性有提升空间。
实验充分性 (0.9/1.5)：在指定数据集上进行了系统实验和消融，验证了每个组件的有效性。但缺乏与领域内其他最先进方法的对比，削弱了贡献的突出性。数据扩展实验有一定价值。
清晰度 (0.9/1.0)：论文结构基本清晰，但部分方法描述（如CIF训练）和结果分析可以更详尽。存在少量笔误。
影响力 (0.5/1.0)：工作针对多语言ASR的实际问题，提出的方法有潜在应用价值。但对LLM-ASR社区的理论或方法论启发有限，影响力预计中等。
开源 (1.0/1.5)：提供了基线代码库链接和主要预训练模型来源（Whisper, Qwen），但未开源其提出方法的完整实现或预训练好的CIF预测器。开源程度中等。
可复现性 (0.7/1.0)：提供了关键模型组件信息和主要训练超参数，但缺少CIF预训练细节和完整代码，完全复现提出的方法存在一定障碍。
工程/实践价值 (0.8/1.0)：方法直接针对LLM-ASR系统的实际构建问题（多语言、对齐），给出的解决方案易于工程实现，具有明确的实践指导意义。

🚨 局限与问题

CIF机制分析不足：论文指出了标准CIF的过度压缩问题并给出了解决方案，但对“过度压缩”在LLM-ASR框架下具体如何导致性能下降的机制缺乏深入分析。改进的松弛因子\(n=4\)的选择更像是经验值，未探讨其与其他因素（如语言特性、模型容量）的关系。
基线对比局限性：主要基线为Whisper-large-v3和自身的LLM-ASR框架。缺乏与其他近期提出的多语言ASR方法或高效LLM-ASR方法的对比，使得“显著超越强基线”的声明缺乏更全面的定位。
可复现性深度：虽然引用了开源代码库和预训练模型链接，但论文未提供CIF预测器预训练的具体检查点、完整超参数配置或数据采样策略的细节，这可能会影响他人精确复现其“改进的CIF”部分。
性能与基线关系：LLM-ASR基线在所有数据集上均劣于Whisper-large-v3，这引发了对将冻结LLM直接用于解码是否真正有效的疑问。论文未深入探讨该基线性能不佳的根本原因。
部分结论强度：例如，“大尺度数据扩展主要增强跨域泛化，域内性能轻微下降”的结论基于单一实验，其普遍性有待验证。8000小时训练中MLCSLM-dev性能略升（15.27->15.45）的幅度极小，可能在统计噪声范围内，解读需谨慎。
写作与表述：存在个别笔误（如摘要中的“mixutre”），部分章节描述过于简略（如CIF预测器的训练细节、MoE门控网络的具体设计）。

评分理由

创新性 (1.3/2)：将MoE和改进CIF引入LLM-ASR投影器是一个合理的组合创新，但两个组件本身并非原创。改进CIF的“松弛”技巧简单直接，但缺乏理论支撑，整体创新性属于增量式改进。
技术严谨性 (1.1/1.5)：方法描述基本清晰，实验设计包含了必要的消融研究。但对关键改进点（CIF松弛策略）的分析深度不足，未探讨其潜在缺陷或替代方案，技术严谨性有提升空间。
实验充分性 (0.9/1.5)：在指定数据集上进行了系统实验和消融，验证了每个组件的有效性。但缺乏与领域内其他最先进方法的对比，削弱了贡献的突出性。数据扩展实验有一定价值。
清晰度 (0.9/1.0)：论文结构基本清晰，但部分方法描述（如CIF训练）和结果分析可以更详尽。存在少量笔误。
影响力 (0.5/1.0)：工作针对多语言ASR的实际问题，提出的方法有潜在应用价值。但对LLM-ASR社区的理论或方法论启发有限，影响力预计中等。
开源 (1.0/1.5)：提供了基线代码库链接和主要预训练模型来源（Whisper, Qwen），但未开源其提出方法的完整实现或预训练好的CIF预测器。开源程度中等。
可复现性 (0.7/1.0)：提供了关键模型组件信息和主要训练超参数，但缺少CIF预训练细节和完整代码，完全复现提出的方法存在一定障碍。
工程/实践价值 (0.8/1.0)：方法直接针对LLM-ASR系统的实际构建问题（多语言、对齐），给出的解决方案易于工程实现，具有明确的实践指导意义。

← 返回 2026-06-10 语音/音乐/音频论文速递

📄 Enhancing Multilingual LLM-based ASR with Mixture of Experts and Dynamic Downsampling#

👥 作者与机构#

💡 毒舌点评#

📌 核心摘要#

🔗 开源详情#

作者与机构#

毒舌点评#

核心摘要#

方法概述和架构#

核心创新点#

实验结果#

细节详述#

局限与问题#

评分理由#

开源详情#

🏗️ 方法概述和架构#

💡 核心创新点#

📊 实验结果#

🔬 细节详述#

局限与问题#

⚖️ 评分理由#

🚨 局限与问题#

评分理由#

📄 Enhancing Multilingual LLM-based ASR with Mixture of Experts and Dynamic Downsampling

👥 作者与机构

💡 毒舌点评

📌 核心摘要

🔗 开源详情

作者与机构

毒舌点评

核心摘要

方法概述和架构

核心创新点

实验结果

细节详述

局限与问题

评分理由

开源详情

🏗️ 方法概述和架构

💡 核心创新点

📊 实验结果

🔬 细节详述

局限与问题

⚖️ 评分理由

🚨 局限与问题

评分理由