Cutscene Agent: An LLM Agent Framework for Automated 3D Cutscene Generation

📄 Cutscene Agent: An LLM Agent Framework for Automated 3D Cutscene Generation #大语言模型 #生成模型 #多模态 #模型评估 #工业应用 🔥 8.5/10 | 前25% | #生成模型 | #大语言模型 | #多模态 #模型评估 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文提及“See Contributions section for a full author list”,但未在当前文本中提供完整列表及机构分配详情) 通讯作者:未说明 作者列表:Lanshan He, Haozhou Pang, Qi Gan, Xin Shen, Ziwei Zhang, Yibo Liu, Gang Fang, Bo Liu, Kai Sheng, Shengfeng Zeng, Chaofan Li, Zhen Hui, Keer Zhou, Lan Zhou, Shujun Dai(所属机构均为:Kuaishou GameMind Lab) 💡 毒舌点评 这篇论文最大的亮点在于它跳出了“生成像素视频”的范式,直接面向游戏工业生产的实际痛点,构建了一个能生成可编辑、可迭代的UE引擎原生资产的智能体框架,系统性很强;但其核心创新更多是巧妙的工程集成与系统设计,而非底层模型或算法的突破,且当前能力边界清晰(主要针对对话驱动的过场动画),离“通用3D叙事生成”还有距离。 ...

2026-04-29 · 更新于 2026-06-26 · 3 min · 458 words

D3PIA: A Discrete Denoising Diffusion Model for Piano Accompaniment Generation from Lead Sheet

📄 D3PIA: A Discrete Denoising Diffusion Model for Piano Accompaniment Generation from Lead Sheet #音乐生成 #扩散模型 #邻域注意力 #钢琴伴奏 #符号音乐生成 ✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #邻域注意力 #钢琴伴奏 学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Eunjin Choi(KAIST, Graduate School of Culture Technology) 通讯作者:未说明(论文未明确指定通讯作者) 作者列表:Eunjin Choi(KAIST, Graduate School of Culture Technology)、Hounsu Kim(KAIST, Graduate School of Culture Technology)、Hayeon Bang(KAIST, Graduate School of Culture Technology)、Taegyun Kwon(KAIST, Graduate School of Culture Technology)、Juhan Nam(KAIST, Graduate School of Culture Technology) 💡 毒舌点评 亮点:巧妙地将离散扩散模型应用于钢琴伴奏生成,结合邻域注意力高效捕捉局部和弦-旋律对齐,在仅2.2M参数下实现了远超基线的和弦保真度与推理速度。短板:彻底放弃了力度(velocity)建模,虽简化了问题但也限制了音乐表现力,且对长程结构与风格多样性的探索不足。 ...

2026-04-29 · 更新于 2026-06-26 · 2 min · 305 words

DAIEN-TTS: Disentangled Audio Infilling for Environment-Aware Text-to-Speech Synthesis

📄 DAIEN-TTS: Disentangled Audio Infilling for Environment-Aware Text-to-Speech Synthesis #语音合成 #流匹配 #零样本 🔥 8.0/10 | 前25% | #语音合成 | #流匹配 | #零样本 学术质量 7.5/7 | 选题价值 6.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Ye-Xin Lu(中国科学技术大学 国家语音与语言信息处理工程研究中心) 通讯作者:Yang Ai(中国科学技术大学 国家语音与语言信息处理工程研究中心) 作者列表:Ye-Xin Lu(中国科学技术大学 国家语音与语言信息处理工程研究中心)、Yu Gu(未说明)、Kun Wei(未说明)、Hui-Peng Du(中国科学技术大学 国家语音与语言信息处理工程研究中心)、Yang Ai(中国科学技术大学 国家语音与语言信息处理工程研究中心)、Zhen-Hua Ling(中国科学技术大学 国家语音与语言信息处理工程研究中心) 💡 毒舌点评 亮点在于将语音-环境分离与流匹配音频填充相结合,首次在零样本框架下实现了对时间变化背景环境的独立控制,思路清晰且实验验证充分。短板是高度依赖预训练的语音-环境分离(SES)模块的性能,且推理时要求提供“纯”环境提示音频的假设在真实场景中可能较难满足,限制了其通用性。 🔗 开源详情 代码:论文中未提供明确的代码仓库链接。仅提供了一个用于试听音频样本的示例页面。 模型权重:未提及是否公开模型权重。 数据集:训练使用了公开的LibriTTS和DNS-Challenge数据集。评估集使用了公开的SeedTTS test-en集并添加了SoundBible的环境音频。 Demo:提供了在线演示页面:https://yxlu-0102.github.io/DAIEN-TTS。 复现材料:论文提供了一定的训练细节(数据集、步骤、硬件、批大小、模型部分参数),但缺少完整的训练脚本、优化器配置、声码器训练细节等,信息不算充分。 论文中引用的开源项目:论文基于F5-TTS框架,并引用了Whisper-large-v3用于WER评估,WavLM-large用于说话人嵌入提取。 📌 核心摘要 问题:现有的零样本语音合成(TTS)系统难以在合成语音时,独立且可控地改变背景声学环境(如从安静房间切换到嘈杂街道),特别是对于时间变化的环境。 方法核心:本文提出DAIEN-TTS,一个基于解纠缠音频填充的环境感知零样本TTS框架。其核心是引入一个预训练的语音-环境分离(SES)模块,将带环境音的语音分解为干净语音和环境音频的梅尔谱。在训练时,对两者分别进行随机掩码,以干净语音谱、环境谱(部分掩码)和文本为条件,通过流匹配模型填充被掩码的完整环境语音梅尔谱。推理时,可使用任意说话人提示和任意环境提示进行合成。 创新点:a) 首次提出一个能独立控制音色和时间变化背景环境的零样本TTS框架。b) 设计了基于交叉注意力的环境条件注入方案,并在推理时采用双无分类器指导(DCFG)和信噪比(SNR)自适应策略来增强可控性。c) 实验表明该方法在自然度、说话人相似度和环境保真度上均表现良好。 主要实验结果:在SeedTTS测试集上,当使用静音环境提示时,DAIEN-TTS的词错率(WER)为1.93%,说话人相似度(SIM-o)为0.60,自然度(MOS)达3.84。当使用背景环境提示合成环境语音时,WER为2.83%,SIM-o为0.55,MOS为3.78,环境相似度(ESMOS)为3.65,均接近或达到人类录音水平。关键结果如下表所示(摘自论文Table 1): 模型 WER(%) ↓ SIM-o ↑ MOS ↑ SSMOS ↑ ESMOS ↑ 场景:静音环境提示 Human (上界) 2.14 0.73 3.91 3.72 - F5-TTS (Clean Spk. Prompt) 2.30 0.58 3.80 3.60 - F5-TTS (Env. Spk. Prompt) 2.87 0.49 3.09 2.92 - DAIEN-TTS 1.93 0.60 3.84 3.64 - 场景:背景环境提示 Human + Environment (上界) 2.80 0.70 3.86 3.81 3.72 DAIEN-TTS 2.83 0.55 3.78 3.73 3.65 实际意义:该技术为有声读物、虚拟现实、游戏等需要生成特定背景环境语音的场景提供了新的解决方案,增强了合成语音的表现力和沉浸感。 主要局限性:a) 框架性能严重依赖预训练SES模块的分离质量,若分离不佳会直接影响合成效果。b) 训练和评估均基于预设的“干净语音-环境音频”配对数据,对于现实世界中无法获得纯净环境音的复杂场景,其适用性有待验证。c) 推理时要求提供纯环境音频提示,这在实际应用中可能不便获取。 🏗️ 模型架构 DAIEN-TTS的整体架构如图1所示,包含训练(左)和推理(右)两个流程。 ...

2026-04-29 · 更新于 2026-06-26 · 2 min · 408 words

DAMO: A Data-Efficient Multimodal Orchestrator for Temporal Reasoning with Video LLMS

📄 DAMO: A Data-Efficient Multimodal Orchestrator for Temporal Reasoning with Video LLMS #视频问答 #多模态模型 #时间定位 #渐进训练 ✅ 7.0/10 | 前25% | #视频问答 | #多模态模型 | #时间定位 #渐进训练 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Bo-Cheng Chiu (国立阳明交通大学人工智能学院) 通讯作者:未明确标注。根据贡献和机构排序,推测可能为通讯作者的是:Jen-Jee Chen (国立阳明交通大学人工智能学院), Yu-Chee Tseng (国立阳明交通大学人工智能学院), 或 An-Zi Yen (国立阳明交通大学计算机科学系)。论文中未明确指定。 作者列表:Bo-Cheng Chiu (国立阳明交通大学人工智能学院), Jen-Jee Chen (国立阳明交通大学人工智能学院), Yu-Chee Tseng (国立阳明交通大学人工智能学院), Feng-Chi Chen (国家卫生研究院人口健康科学研究所), An-Zi Yen (国立阳明交通大学计算机科学系) 💡 毒舌点评 这篇论文在“用有限数据做好时间推理”这个问题上给出了一个工程上漂亮的答卷,其四阶段训练策略和针对时间性的架构设计确实能提升模型对视频时间线的理解力,实验也证明了其在特定benchmark上的有效性。但说实话,它的核心组件如双流融合、可学习查询、LoRA微调等都不是独创,更像是针对视频任务的一次精心的“乐高组装”;另外,其宣称的“数据高效”优势,在论文比较表中与部分基线使用的数据规模差异巨大,这种对比的公平性值得进一步考量。 ...

2026-04-29 · 更新于 2026-06-26 · 3 min · 446 words

DAT-CFTNet: Speech Enhancement for Cochlear Implant Recipients using Attention-based Dual-Path Recurrent Neural Network

📄 DAT-CFTNet: Speech Enhancement for Cochlear Implant Recipients using Attention-based Dual-Path Recurrent Neural Network #语音增强 #注意力机制 #双路径RNN #复数值网络 #人工耳蜗 ✅ 7.0/10 | 前50% | #语音增强 | #注意力机制 | #双路径RNN #复数值网络 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Nursadul Mamun(Chittagong University of Engineering and Technology, Chittagong, Bangladesh) 通讯作者:未明确标注,根据实验室归属推测为John H.L. Hansen(University of Texas at Dallas, USA) 作者列表:Nursadul Mamun (Chittagong University of Engineering and Technology), John H. L. Hansen (University of Texas at Dallas; CRSS: Center for Robust Speech Systems; Cochlear Implant Processing Laboratory) 💡 毒舌点评 论文针对人工耳蜗用户这一垂直领域进行了扎实的工程优化,将注意力机制融入双路径RNN瓶颈层,确实看到了性能提升,且提供了轻量化变体的思考。但核心方法更偏向于“拿来主义”的组合(DPRNN + Attention + CFTNet),且实验验证主要局限于自身的变体对比和自建数据集,缺乏在业界公认的大型基准(如VoiceBank-DEMAND)上的横向比对来确立其绝对竞争力。 ...

2026-04-29 · 更新于 2026-06-26 · 2 min · 381 words

DBFT-SD: Weakly Supervised Multimodal Detection of Sensitive Audio-Visual Content

📄 DBFT-SD: Weakly Supervised Multimodal Detection of Sensitive Audio-Visual Content #多模态模型 #音频事件检测 #对比学习 #知识蒸馏 #弱监督学习 🔥 8.0/10 | 前25% | #音频事件检测 | #对比学习 #知识蒸馏 | #多模态模型 #对比学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Song Xiao (中国科学技术大学, 北京电子科学和技术学院) 通讯作者:Xu Ji (中国科学技术大学) 作者列表:Song Xiao(中国科学技术大学, 北京电子科学和技术学院)、Xu Ji(中国科学技术大学, 北京电子科学和技术学院)、Haodong Yan(西安电子科技大学)、Xinyue Yu(中国科学技术大学) 💡 毒舌点评 论文的核心亮点在于其双分支自蒸馏架构,巧妙地利用一个更稳定的视觉分支来“教导”多模态分支,有效缓解了弱监督场景下音频噪声和模态不平衡问题。然而,作为一篇顶会论文,其核心方法(瓶颈融合、混合头部注意力)的理论深度和新意略显不足,更多是工程技巧的有效组合与验证,对比学习部分的马氏距离度量也相对常规。 🔗 开源详情 代码:论文提供了代码仓库链接:https://github.com/Sphnix-box/DBFT-SD。 模型权重:论文中未提及是否提供预训练模型权重下载。 数据集:论文中使用了XD-Violence数据集,但未说明其获取方式或是否公开提供。 Demo:论文中未提及提供在线演示。 复现材料:论文提供了部分训练细节(优化器、学习率、批大小、epoch数、硬件、Dropout率、关键自蒸馏超参数)。 论文中引用的开源项目:未明确列出依赖的开源工具或模型,但特征提取使用了I3D/CLIP (视觉) 和 VGGish (音频)。 📌 核心摘要 本文针对弱监督下大规模在线音视频敏感内容(如暴力、色情)检测的挑战,提出了动态瓶颈融合Transformer(DBFT)及其自蒸馏变体DBFT-SD。要解决的核心问题是现有方法中多模态信息融合效率低、弱监督标签噪声大以及模态间不平衡导致性能受限。方法核心是:1)在DBFT中,设计了包含动态路由的混合头部注意力机制和瓶颈融合Transformer,实现自适应的模态内与模态间特征聚合;2)在DBFT-SD中,引入一个仅使用视觉特征的辅助分支,通过基于余弦调度器的权重移动平均自蒸馏,将视觉分支的稳定知识迁移至多模态分支,并结合基于马氏距离的对比学习来增强关键帧的判别力。与已有方法相比,新在提出了整合动态注意力、瓶颈融合和自蒸馏的端到端多模态检测框架,能更好地处理噪声和模态不平衡。主要实验在XD-Violence数据集上进行,DBFT-SD达到了85.9%的平均精度(AP),超越了之前最优的多模态方法BN-WVAD(85.26% AP)和视觉方法VadCLIP(84.51% AP)。实际意义在于为社交媒体、视频平台的内容安全审核提供了更高效准确的自动化工具。主要局限性是对比实验仅在一个标准数据集上进行,缺乏更多样化或更具挑战性场景的验证。 ...

2026-04-29 · 更新于 2026-06-26 · 2 min · 215 words

DDSC: Dynamic Dual-Signal Curriculum for Data-Efficient Acoustic Scene Classification Under Domain Shift

📄 DDSC: Dynamic Dual-Signal Curriculum for Data-Efficient Acoustic Scene Classification Under Domain Shift #音频场景分类 #课程学习 #领域适应 #低资源 ✅ 7.0/10 | 前25% | #音频场景分类 | #课程学习 | #领域适应 #低资源 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Peihong Zhang(School of Advanced Technology, Xi’an Jiaotong-Liverpool University, Suzhou, China) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表:Peihong Zhang(School of Advanced Technology, Xi’an Jiaotong-Liverpool University, Suzhou, China)、Yuxuan Liu(同上)、Rui Sang(同上)、Zhixin Li(同上)、Yiqiang Cai(同上)、Yizhou Tan(同上)、Shengchen Li(同上) 💡 毒舌点评 亮点在于巧妙地将“领域不变性”和“学习进度”两个动态信号融合成自适应的课程权重,避免了传统课程学习静态排序的僵化,设计轻量且即插即用。短板则是其动态调整高度依赖已知的设备标签进行原型计算,一旦面对完全无标签或设备信息未知的真实场景,该方法的适用性将面临直接挑战。 ...

2026-04-29 · 更新于 2026-06-26 · 2 min · 355 words

DDSR-Net: Robust Multimodal Sentiment Analysis via Dynamic Modality Reliability Assessment

📄 DDSR-Net: Robust Multimodal Sentiment Analysis via Dynamic Modality Reliability Assessment #语音情感识别 #多模态模型 #对比学习 #特征分解 ✅ 6.5/10 | 前50% | #语音情感识别 | #对比学习 | #多模态模型 #特征分解 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Jianwen Hou (新疆大学计算机科学与技术学院) 通讯作者:Kurban Ubul (新疆大学计算机科学与技术学院) 作者列表:Jianwen Hou (新疆大学计算机科学与技术学院), Enguang Zuo (新疆大学智能科学与技术学院, 清华大学电子工程系), Chaorui Shi (新疆大学计算机科学与技术学院), Kurban Ubul (新疆大学计算机科学与技术学院) 💡 毒舌点评 该论文的“评估-修复-聚焦”闭环设计思路巧妙,为处理多模态数据中的质量不均衡问题提供了一个系统性框架,且在主流基准测试上取得了不错的成绩。然而,其核心组件之一“协同重建”的生成器(QGME-Net)内部结构细节在正文和附图中均未清晰展示,这为理解其工作原理和复现带来了障碍。 🔗 开源详情 代码:论文中未提及代码链接或开源仓库。 模型权重:未提及公开权重。 数据集:使用公开的CMU-MOSI和CMU-MOSEI数据集,但未说明具体获取方式或预处理脚本。 Demo:未提供在线演示。 复现材料:论文未提供训练细节(如优化器、学习率、batch size)、超参数配置、检查点或附录说明。 论文中引用的开源项目:论文中引用了多个基线模型(如TFN, MulT, Self-MM等)的官方代码仓库([6]-[22]),但未明确说明DDSR-Net���身是否基于或依赖这些项目。 总结:论文中未提及任何关于开源计划、代码发布或模型共享的信息。 📌 核心摘要 这篇论文旨在解决多模态情感分析中,现实场景下非对齐数据存在的模态质量动态不均和噪声问题。其核心方法DDSR-Net提出了一种“动态质量感知”的框架,包含四个主要模块:模态质量评估模块(为每个样本的每个模态计算可靠性分数)、特征分解模块(将特征分解为共享和模态特定部分)、协同重建模块(利用高质量模态信息修复低质量模态的特定特征)以及动态聚焦注意力模块(根据质量分数自适应融合特征)。该方法通过“评估-修复-聚焦”的闭环流程,动态处理噪声和不对称性。实验结果在CMU-MOSI和CMU-MOSEI两个基准数据集上,DDSR-Net在多数指标(如MOSI的MAE、Corr、Acc-5)上超越了已有的最先进方法。其实际意义在于提升了多模态情感分析模型在非理想数据下的鲁棒性。主要局限性在于协同重建模块的具体生成器架构描述不够详细,可能影响理解和复现。 ...

2026-04-29 · 更新于 2026-06-26 · 5 min · 864 words

DECAF: Dynamic Envelope Context-Aware Fusion for Speech-Envelope Reconstruction from EEG

📄 DECAF: Dynamic Envelope Context-Aware Fusion for Speech-Envelope Reconstruction from EEG #语音增强 #状态空间模型 #跨模态 #信号处理 ✅ 7.0/10 | 前25% | #语音增强 | #状态空间模型 | #跨模态 #信号处理 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 中 👥 作者与机构 第一作者:未说明(论文作者列表仅提供“Karan Thakkar”,但未明确标注其为第一作者) 通讯作者:未说明 作者列表:Karan Thakkar (Johns Hopkins University, USA), Mounya Elhilali (Johns Hopkins University, USA) 机构:约翰霍普金斯大学,计算音频感知实验室 (Laboratory for Computational Audio Perception) 💡 毒舌点评 亮点:该论文的核心思想——将语音包络重建从静态映射问题重新定义为结合时序先验的动态状态估计问题——非常清晰且富有启发性,为相关领域提供了有价值的范式参考;实验设计严谨,严格遵循公开挑战赛协议,并通过消融、频谱分析和鲁棒性测试多角度验证了方法的合理性。短板:在绝对性能上,尽管超越了先前SOTA,但提升幅度相对有限(从0.162到0.170),且与“理想上限”(DECAF-Oracle)差距依然明显,这削弱了其“突破性”的观感;论文中未提供完整的作者贡献与通讯信息,略显不规范。 🔗 开源详情 代码:是,提供了代码仓库链接:https://github.com/JHU-LCAP/DECAF 模型权重:论文中未提及公开预训练模型权重。 数据集:使用的是公开的ICASSP 2023 EEG解码挑战赛数据集(SPARrk-ULeE,需按协议获取)。论文中提供了相关引用和获取说明。 Demo:论文中未提及在线演示。 复现材料:论文详细提供了训练细节(损失函数、优���器、学习率、训练轮次、早停)、模型架构描述、数据划分和评估指标,足以支持复现。 论文中引用的开源项目:HappyQuokka系统([13]), VLAAI模型([21]),以及用于EEG处理的mTRF工具箱([12])。 开源计划:论文明确提供了代码仓库链接,表明了开源意图。 📌 核心摘要 本文针对从脑电图(EEG)信号重建语音包络这一任务,提出了一种新的动态框架DECAF。1. 要解决的问题:现有深度学习方法将此任务视为静态回归,忽略了语音信号本身丰富的时序结构,导致重建保真度和鲁棒性受限。2. 方法核心:提出一种状态空间融合模型,它包含三个模块:直接从EEG估计当前包络的“EEG解码器”、从过去预测值自回归预测当前包络的“包络预测器”,以及一个学习到的门控网络,用于自适应地融合神经证据和时序先验。3. 与已有方法相比新在哪里:首次将此问题明确重构为动态状态估计任务,而非无状态的静态映射。模型完全因果且递归,能利用自身历史预测构建时序上下文。4. 主要实验结果:在ICASSP 2023 EEG解码挑战赛(任务2)的测试集上,DECAF的平均皮尔逊相关系数达到0.170±0.061,显著优于此前的最佳模型HappyQuokka(0.162±0.061,p=0.000483)。消融实验证明了两个分支的互补性:单独的EEG分支性能为0.117,单独的预测器分支接近随机。频谱分析表明,模型能协同利用EEG分支的低频信息和预测器的高频细节。5. 实际意义:该工作为听觉注意力解码和神经调控助听器等应用提供了更准确、连贯且适合在线处理的神经解码新方向。6. 主要局限性:模型绝对性能仍有提升空间(与Oracle上限差距大);在EEG信号极度嘈杂时(SNR低),性能优势消失;作者信息在提供的文本中不完整。 ...

2026-04-29 · 更新于 2026-06-26 · 2 min · 221 words

Decoder-Only Conformer with Modality-Aware Sparse Mixtures of Experts for ASR

📄 Decoder-Only Conformer with Modality-Aware Sparse Mixtures of Experts for ASR #语音识别 #混合专家模型 #多任务学习 #多语言 ✅ 7.5/10 | 前25% | #语音识别 | #混合专家模型 | #多任务学习 #多语言 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度 高 👥 作者与机构 第一作者:未说明 通讯作者:未说明 作者列表:Jaeyoung Lee (NTT, Inc., Japan), Masato Mimura (NTT, Inc., Japan) 💡 毒舌点评 这篇论文巧妙地将模态感知的稀疏MoE融入解码器端Conformer,用一个统一模型处理语音和文本,在参数更少(113M vs. 139M)的情况下超越了传统AED基线,展现了架构简化与效率提升的潜力。然而,其“统一”处理的前提是已知模态边界(语音/文本位置固定),这限制了模型在更灵活的交错输入场景下的应用;此外,依赖CTC辅助损失和标签平滑才达到竞争力,也暗示了该架构自身在稳定训练上的短板。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及公开模型权重。 数据集:使用了公开的LibriSpeech和CommonVoice数据集,并描述了子集构建方式。 Demo:论文中未提及在线演示。 复现材料:提供了较为详细的模型架构、训练超参数、损失函数权重和数据处理方法。但未提供检查点或训练配置文件。 引用的开源项目:论文中引用了Adam优化器、SpecAugment等常见开源工具/方法,但未提及依赖的具体代码库。 总结:论文提供了足够的方法细节以指导复现,但未明确开源代码或模型。 📌 核心摘要 本文针对自动语音识别(ASR)任务,提出了一种仅使用解码器端的Conformer架构,旨在无需外部语音编码器或预训练大语言模型(LLM)的前提下,统一处理语音特征和文本标记。其核心创新在于引入了模态感知的稀疏混合专家模型(MoE),为语音和文本设置了不相交的专家池并采用硬路由和top-1选择机制,并与混合因果性Conformer块(语音双向,文本因果)相结合。与现有方法相比,本文是首次在随机初始化的解码器架构中,通过模态感知路由和稀疏MoE,实现了无需显式对齐模块且超越强编码器-解码器(AED)基线的性能。实验表明,在LibriSpeech数据集上,该113M参数模型在test-clean和test-other上的词错误率(WER)分别为2.8%和5.6%,优于139M参数的AED基线(3.2% vs. 6.0%)。在CommonVoice 16.1的五语言多语言任务中,平均WER从12.2%降低至10.6%。该工作的实际意义在于证明了解码器端统一架构在ASR中的可行性,为简化ASR系统流水线提供了新思路。主要局限性包括:目前仅支持离线推理,尚未探索流式处理;模型依赖预设的模态边界,缺乏对模态间灵活交互的探索;未来工作可扩展至流式ASR及跨模态专家共享机制。 ...

2026-04-29 · 更新于 2026-06-26 · 2 min · 379 words