端到端 | 语音/音频论文速递

TINY BUT MIGHTY: A SOFTWARE-HARDWARE CO- DESIGN APPROACH FOR EFFICIENT MULTIMODAL IN- FERENCE ON BATTERY-POWERED SMALL DEVICES

📄 TINY BUT MIGHTY: A SOFTWARE-HARDWARE CO- DESIGN APPROACH FOR EFFICIENT MULTIMODAL IN- FERENCE ON BATTERY-POWERED SMALL DEVICES #多模态模型 #大语言模型 #端到端 #实时处理 #系统优化 ✅ 7.0/10 | 前25% | #多模态模型 | #预训练 | #大语言模型 #端到端学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yilong Li（University of Wisconsin – Madison）通讯作者：未明确说明（论文未标注通讯作者信息）作者列表：Yilong Li (1), Shuai Zhang (2), Yijing Zeng (1), Chengpo Yan (1), Hao Zhang (1), Xinmiao Xiong (1), Jingyu Liu (1), Pan Hu (3), Suman Banerjee (1)。机构：(1) University of Wisconsin – Madison, (2) Amazon Web Services AI, USA, (3) Uber, USA。 💡 毒舌点评这篇论文最硬核的地方在于作者真的自己画了PCB、焊了板子、写了底层驱动来验证他们的想法，这种“手工打造端到端系统”的匠心在AI论文里相当少见。但遗憾的是，其核心的“模型分解与动态调度”思想在边缘计算领域已有先例，且论文对模型量化后在特定下游任务上的精度损失分析不够细致，更像是一个优化效果显著的“系统集成报告”。 ...

Towards True Speech-to-Speech Models Without Text Guidance

📄 Towards True Speech-to-Speech Models Without Text Guidance #语音对话系统 #端到端 #大语言模型 #预训练 #流式处理 ✅ 7.5/10 | 前25% | #语音对话系统 | #端到端 | #大语言模型 #预训练学术质量 7.0/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Xingjoint Zhao（复旦大学）通讯作者：Xipeng Qiu（复旦大学）作者列表：Xingjoint Zhao¹³（1.复旦大学，2.上海创新研究院，3.MOSI.AI），Zhe Xu¹²³，Luozhijie Jin¹²³，Yang Wang¹³，Hanfu Chen¹³，Yaozhou Jiang¹³，Ke Chen¹²³，Ruixiao Li¹²³，Mingshu Chen¹³，Ruiming Wang¹³，Wenbo Zhang¹²³，Qinyuan Cheng¹³，Zhaoye Fei¹³，Shimin Li³，Xipeng Qiu¹²³† 💡 毒舌点评亮点：论文直击当前语音对话模型“伪端到端”（依赖文本指导）的痛点，提出的模态分层架构和冻结预训练策略，为在LLM中集成原生语音能力并保留文本智能提供了一个有原理性支撑且实验有效的解决方案。短板：尽管自称为“真”语音到语音模型，但其语音理解与生成的底层仍严重依赖于强大的文本LLM骨干和高质量的文本-语音配对数据，其“无文本指导”更多体现在生成阶段，训练阶段对文本的依赖并未摆脱；此外，对于更复杂的、富含副语言信息的开放式对话场景，模型的表现力有待进一步验证。 📌 核心摘要本文旨在解决现有语音对话系统依赖文本中间环节导致的延迟增加、副语言信息丢失和表达力受限的问题。核心方法是构建一个真正的、无需文本指导的语音到语音大语言模型，其技术核心是模态分层架构（在Transformer顶层为文本和语音设置独立分支）与冻结预训练策略（第一阶段冻结预训练文本LLM，仅训练语音相关模块；第二阶段再联合微调）。与已有方法相比，其创新在于明确观察并利用了跨模态表示在模型深度上的演变规律（先融合后分化），并设计了对应的架构进行适配，同时通过冻结策略有效防止了文本能力的灾难性遗忘。主要实验结果表明：1）在口语问答任务上（如LlamaQA），模型的语音到语音（S→S）性能（63.67%）达到了与文本指导系统（GLM-4-Voice*：65.67%）可比的水平，并在WebQA上（36.71%）超越了后者（38.34%），在部分任务上取得SOTA；2）模型在文本能力基准（MMLU: 67.19， CMMLU: 69.53）上相比引入语音前的文本LLM（Qwen3-8B: MMLU 76.6， CMMLU 77.35）的下降幅度远小于SpiritLM等模型；3）语音编码器/解码器在WER、SIM等指标上具备竞争力。该工作为构建高效、富有表现力的端到端语音交互系统建立了新的范式。主要局限性在于训练依赖大规模、高质量的语音-文本数据（包括合成数据），且模型在复杂对话、长时交互和极端副语言场景下的能力尚未充分评估。 ...

TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization

📄 TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization #多模态模型 #音视频 #自注意力 #端到端 #基准测试 🔥 8.5/10 | 前25% | #视频摘要 | #多模态模型 | #音视频 #自注意力学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Sumin Kim（首尔大学）， Hyemin Jeong（首尔大学）， Mingu Kang（首尔大学）（表示同等贡献）通讯作者：Yoori Oh†（首尔大学）， Joonseok Lee†（首尔大学）（†表示通讯作者）作者列表：Sumin Kim（首尔大学）， Hyemin Jeong（首尔大学）， Mingu Kang（首尔大学）， Yejin Kim（首尔大学）， Yoori Oh（首尔大学）， Joonseok Lee（首尔大学） 💡 毒舌点评论文提出了一个设计精巧的多模态视频摘要模型TripleSumm，其自适应帧级融合机制和引入的大规模三模态数据集MoSu是扎实的贡献，显著推动了视频摘要领域的多模态研究。然而，其核心创新点（自适应注意力融合）在多模态学习中并非前所未见，且在标准小数据集（SumMe/TVSum）上的绝对性能提升幅度有限，新数据集的“Most Replayed”监督信号本身的普适性也有待更广泛验证。 🔗 开源详情代码：论文提供了GitHub代码仓库链接：https://github.com/smkim37/TripleSumm。模型权重：论文中未明确提及是否公开预训练模型权重。数据集：MoSu数据集已公开，论文提供了获取方式。 Demo：论文中未提及在线演示。复现材料：论文在附录中提供了非常详细的超参数设置（表I）、摘要生成算法、数据预处理细节、评估协议说明以及各种消融实验的配置，复现信息充分。论文中引用的开源项目：依赖了预训练模型CLIP、RoBERTa、AST以及用于生成文本描述的Qwen2.5-VL。 📌 核心摘要要解决什么问题？现有视频摘要方法通常采用静态或模态无关的融合策略，无法动态捕捉不同视频帧中视觉、文本和音频模态重要性的变化，导致理解复杂视频能力不足。同时，缺乏包含三模态特征的大规模基准数据集也阻碍了该领域的发展。方法核心是什么？论文提出了TripleSumm架构，其核心包括：a) 多尺度时间块，采用层次化的滑动窗口自注意力，从局部到全局捕捉视频的时序模式；b) 跨模态融合块，使用一个中性的“融合令牌”作为查询，动态地对三种模态的特征进行加权聚合，实现帧级别的自适应融合。与已有方法相比新在哪里？相比于现有模态静态或简单融合的方法，TripleSumm在帧级别动态地学习并分配各模态的权重。此外，论文首次提出了大规模、三模态的视频摘要基准数据集MoSu。主要实验结果如何？ TripleSumm在四个基准测试上均达到了SOTA性能。在提出的MoSu数据集上，其Kendall‘s τ和Spearman’s ρ分别达到0.351和0.472，大幅超越次优方法CFSum（0.277/0.374）。在Mr. HiSum，SumMe（TVT）和TVSum（TVT）数据集上，其全模型版本也均取得最优或并列最优的相关性指标。消融实验证实了三模态输入、层次化窗口和自适应融合机制的有效性。实际意义是什么？该工作推动了视频摘要向更符合人类多模态感知的方向发展，提出的MoSu数据集和TripleSumm模型为未来研究提供了可靠的基础和强大的基线，有助于从海量视频中高效提取关键信息。主要局限性是什么？论文指出，当前遵循的“帧重要性评分-分割-选择”流程并非端到端可训练，未来可探索直接学习选择连贯摘要片段的端到端模型。此外，数据集的监督信号基于聚合的“Most Replayed”数据，可能无法完全反映个体或多样化的用户需求。 🏗️ 模型架构 TripleSumm是一个用于视频摘要的端到端多模态模型，其整体架构如图2所示。其设计核心是将时序建模与跨模态融合解耦，并逐层进行“精炼-融合”的迭代处理。 ...

UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice

📄 UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice #语音翻译 #大语言模型 #语音合成 #端到端 #多语言 🔥 8.0/10 | 前25% | #语音翻译 | #大语言模型 | #语音合成 #端到端学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Sitong Cheng（香港科技大学）通讯作者：Yike Guo（香港科技大学），Wei Xue（香港科技大学）作者列表：Sitong Cheng（香港科技大学）、Weizhen Bian（香港科技大学）、Xinsheng Wang（Soul AI Lab）、Ruibin Yuan（香港科技大学）、Jianyi Chen（香港科技大学）、Shunshun Yin（Soul AI Lab）、Yike Guo（香港科技大学）、Wei Xue（香港科技大学） 💡 毒舌点评该论文的亮点在于其“大道至简”的哲学，用一个基于标准LLM的单阶段模型同时解决了翻译、声音和情感保持的复杂问题，性能数据非常亮眼。然而，其核心竞争力部分建立在自建的、通过TTS合成的超大规模数据集UniST之上，这使得结果的说服力打了些折扣——毕竟，如果给其他SOTA模型同样规模的定制数据，结果差距可能会缩小。此外，其多标记符的复杂分词策略在工程实现和通用性上是否是最优解，也值得商榷。 🔗 开源详情代码：论文中未提及代码仓库链接。仅提供了演示网站。模型权重：基于Qwen2.5-1.5B-Instruct，论文未明确说明是否提供训练后的UniSS模型权重下载。但演示网站可能托管了模型。数据集：UniST数据集已构建，论文提到“公开”（release），但未提供具体的获取方式链接。数据构建流程和数据源已详细说明。 Demo：提供了在线演示网站：https://cmots.github.io/uniss-demo/ 复现材料：在附录B.1中提供了极其详细的训练配置（阶段、数据、学习率、批次大小等），在附录C和E中提供了评估指标和数据构建细节。复现信息相当充分，主要缺省是官方代码仓库。论文中引用的开源项目：Qwen2.5-1.5B-Instruct (LLM骨干), BiCodec (语音分词/解码器), GLM-4 (语音分词器), Paraformer (数据清洗ASR), SparkTTS (合成TTS), Whisper (评估ASR), vLLM (推理加速), Megatron-LM (训练框架), webMUSHRA (主观评估) 等。 📌 核心摘要这篇论文要解决的是表达式语音到语音翻译（S2ST）中的三大挑战：保留说话人声音和情感的配对数据稀缺、处理流程复杂、以及难以迁移文本LLM的翻译能力。方法核心是提出一个名为UniSS的单阶段、统一的文本-语音语言模型，它基于预训练的Qwen2.5-1.5B-Instruct构建，使用三种语音标记（说话人标记、语言标记、语义标记）来分别编码风格、内容和生成目标。其关键创新是引入了跨模态思维链（CoT）提示，在推理时将复杂的S2ST任务分解为“听、译、说”三个顺序步骤，从而显式地利用LLM强大的文本翻译能力来指导语音生成。为了训练该模型，论文还构建了一个大规模、高质量的合成数据集UniST（44.8k小时）。实验结果（主要见表1）表明，在CVSS-T数据集上，UniSS（质量模式）在翻译保真度（Speech-BLEU: EN-ZH 32.20, ZH-EN 24.28）、时长一致性（SLC 0.2: 0.98/0.87）和语音质量（UTMOS: 3.76/3.86）上均显著优于现有的端到端和级联系统。主观评估（表2）也证实其在情感相似度（MOS 4.51）和说话人相似度（4.42）上的优势。该工作的实际意义在于提供了一种更简洁、有效的下一代表达式S2ST系统构建范式。主要局限性是目前仅支持中英双语，且其分词器来自不同模型，导致词表膨胀。 ...

A cross-species neural foundation model for end-to-end speech decoding

📄 A cross-species neural foundation model for end-to-end speech decoding #语音识别 #脑机接口 #预训练 #端到端 #跨模态 🔥 8.0/10 | 前25% | #语音识别 | #预训练 | #脑机接口 #端到端学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yizi Zhang（哥伦比亚大学），Linyang He（哥伦比亚大学）（*共同第一作者）通讯作者：未说明（论文中未明确标注通讯作者）作者列表：Yizi Zhang（哥伦比亚大学），Linyang He（哥伦比亚大学），Chaofei Fan（斯坦福大学），Tingkai Liu（微软），Han Yu（哥伦比亚大学），Trung Le（华盛顿大学），Jingyuan Li（亚马逊），Scott Linderman（斯坦福大学），Lea Duncker（哥伦比亚大学），Francis R Willett（斯坦福大学），Nima Mesgarani（哥伦比亚大学），Liam Paninski（哥伦比亚大学） 💡 毒舌点评这篇论文的核心亮点是首次将跨物种、跨任务的自监督预训练成功应用于神经语音解码，并在竞赛基准上取得了双料第一，展示了在低数据场景（想象语音）下的强大迁移能力。然而，其短板在于端到端解码的实时性严重受限（单句需0.95秒），且推理依赖大型LLM，离真正的“实时、可穿戴、可部署”的临床应用还有很长的路要走，更像是一个概念验证的“实验室最优解”。 🔗 开源详情代码：论文中未提及代码链接。未说明是否会开源。模型权重：未提及公开模型权重。数据集：明确使用了多个公开数据集（Brain-to-Text Benchmark ‘24/‘25， Kunz et al. 2025，以及多个猴/人运动神经数据集），并提供了数据获取渠道（DRYAD, DANDI, Zenodo）。 Demo：未提及在线演示。复现材料：非常充分。论文附录（从A到R）详细描述了数据集详情、预处理、模型架构（所有超参数）、训练细节（优化器、硬件、时间）、评估指标、级联/端到端解码器细节、集成方法、消融实验设置、可解释性分析方法等。这是本文的一大优点。论文中引用的开源项目：Ray Tune (Liaw et al., 2018) 用于超参数搜索；DeepSpeed ZeRO-3 用于大模型训练；AdamW 优化器；scikit-learn 用于LDA分析。 📌 核心摘要问题：现有语音脑机接口（BCI）多采用级联框架（先解码音素，再用语言模型组句），导致各阶段无法联合优化，性能受限。端到端方法此前性能不佳。方法核心：提出端到端脑-文本框架（BIT）。其核心是一个在人类和猴子多任务（语音、运动）Utah阵列数据上进行跨物种自监督预训练的Transformer神经编码器。该编码器与一个音频大语言模型（Audio-LLM）解码器端到端连接，并使用对比学习对齐神经与文本嵌入空间。创新：首次在神经解码中实现跨物种预训练；首次将神经信号作为“音频”模态输入Audio-LLM；使用对比学习进行模态对齐，提升跨任务（尝试/想象语音）泛化能力。主要结果：在级联设置下，使用预训练编码器在Brain-to-Text ‘24和'25竞赛中取得最佳性能（WER：6.35% / 4.06%）。在端到端设置下，将字错率（WER）从先前最佳的24.69%大幅降低至10.22%（集成后）。在低资源的想象语音任务上，预训练带来巨大性能提升（WER降低39-45%），且跨物种预训练优于同任务监督预训练。方法基准类型 WER Feng et al. (2024) Brain-to-Text ‘24 端到端 24.69% BIT End-to-End Brain-to-Text ‘24 端到端 15.67% BIT End-to-End + Ensemble Brain-to-Text ‘24 端到端 10.22% BIT Cascaded Brain-to-Text ‘24 级联 6.35% BIT Cascaded + Ensemble Brain-to-Text ‘24 级联 5.10% Feghhi et al. (2025) + Ensemble Brain-to-Text ‘24 级联 5.68% 图2展示了预训练（BIT-Human, BIT-All）相比从头训练（BIT-TFS）和RNN基线在两种任务和两种解码框架下的显著优势，尤其在想象语音任务上提升巨大。 ...

Automatic Stage Lighting Control: Is it a Rule-Driven Process or Generative Task?

📄 Automatic Stage Lighting Control: Is it a Rule-Driven Process or Generative Task? #音乐生成 #自回归模型 #端到端 #多模态模型 #生成模型 🔥 8.5/10 | 前25% | #音乐生成 | #自回归模型 | #端到端 #多模态模型学术质量 8.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Zijian Zhao（The Hong Kong University of Science and Technology）通讯作者：Xiaoyu Zhang（City University of Hong Kong）作者列表：Zijian Zhao（The Hong Kong University of Science and Technology），Dian Jin（The Hong Kong Polytechnic University），Zijing Zhou（The University of Hong Kong），Xiaoyu Zhang（City University of Hong Kong） 💡 毒舌点评亮点：论文最具价值之处在于开创性地将“自动舞台灯光控制”从传统的分类-映射范式重新定义为端到端的生成任务，并提供了从数据集构建到模型设计、评估的完整解决方案，思路清晰，闭环完整。短板：模型架构的核心（Skip-BART）是对现有BART模型的适配与改进，而非全新架构设计；“生成”的概念虽新，但任务本身的复杂度和数据规模（699个样本）使其技术深度相较于文本或图像生成领域的突破性工作仍有距离。 ...

Closing the Gap Between Text and Speech Understanding in LLMs

📄 Closing the Gap Between Text and Speech Understanding in LLMs #语音对话系统 #知识蒸馏 #端到端 #大语言模型 #跨模态 ✅ 7.5/10 | 前25% | #语音对话系统 | #知识蒸馏 | #端到端 #大语言模型学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Santiago Cuervo（Université de Toulon, Aix Marseille Université, CNRS, LIS；论文注释表明工作在Apple实习期间完成）通讯作者：未明确说明作者列表：Santiago Cuervo（Université de Toulon, Aix Marseille Université, CNRS, LIS），Skyler Seto（Apple），Maureen de Seyssel（Apple），Richard He Bai（Apple），Zijin Gu（Apple），Tatiana Likhomanenko（Apple），Navdeep Jaitly（Apple），Zakaria Aldeneh（Apple） 💡 毒舌点评这篇论文最大的亮点是把“语音LLM为什么不如文本LLM”这个模糊问题，清晰地拆解成了“遗忘”和“跨模态错位”两个可测量的指标，并据此设计了高效的两阶段训练策略，在数据量远小于同行的情况下取得了有竞争力的结果。但不足之处也很明显：方法验证严重依赖特定的合成语音（Kokoro TTS），其生成的语音质量与自然语音的差异，以及对非英语内容、复杂领域的覆盖，可能被低估了，而这些恰恰是真实场景中的关键挑战；此外，Stage II的主动选择策略虽然有效，但提升幅度有限，且需要预先为大量文本生成语音进行“探针”测量，其实际部署的成本效益比值得商榷。 ...

Deep Learning with Learnable Product-Structured Activations

📄 Deep Learning with Learnable Product-Structured Activations #端到端 #音频分类 #模型评估 #开源工具 ✅ 7.5/10 | 前25% | #音频分类 | #端到端 | #模型评估 #开源工具学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Saanjali Maharaj（University of Toronto）通讯作者：未明确标注，根据署名顺序推断为Prasanth B. Nair（University of Toronto）作者列表：Saanjali Maharaj（University of Toronto）、Prasanth B. Nair（University of Toronto） 💡 毒舌点评 LRNNs通过将乘积结构激活函数“可学习化”，确实为表示高阶交互提供了一个理论上优雅、实验上高效的框架，特别是在信号表示任务上超越了SIREN等知名方法。然而，其每层的计算开销（涉及大量小MLP）和内存占用（中间乘积项）不容小觑，论文对此的优化策略（如核融合）仅停留在概念层面，并未给出实际性能数据，这在实际部署时可能成为瓶颈。 🔗 开源详情代码：论文提供了代码仓库链接：https://github.com/dacelab/lrnn。模型权重：论文中未提及是否公开预训练模型权重。数据集：论文中使用的图像（Cameraman, Retina, ImageNet, DIV2K, Kodak, Parrot）、音频、PDE数据集和CT数据集，未说明是否公开或如何获取。 Demo：论文中未提及在线演示。复现材料：论文在附录B和各实验章节提供了详细的架构规格、超参数和训练流程。复现材料主要依赖这些文本描述和提供的代码仓库。论文中引用的开源项目：PyTorch深度学习框架。 📌 核心摘要要解决什么问题：现代神经网络受限于固定的激活函数，难以自适应地学习任务相关的表示，尤其在捕捉高阶特征交互和控制频谱偏差（如对高频信号的表示）方面存在不足。方法核心是什么：提出深层低秩分离神经网络（LRNNs），其核心是为每个神经元设计“可学习的乘积结构激活函数”。具体地，输入先经过线性投影，然后通过多个可学习的、参数化的小型单变量函数变换，最后将这些变换结果相乘，形成一个高度灵活的非线性激活。与已有方法相比新在哪里：与固定激活函数（ReLU, SIREN）相比，LRNN的激活函数本身是可学习的，并且其乘积结构天然擅长建模特征间的乘性/高阶交互。与同样使用可学习激活函数的KANs相比，LRNN通过结构化的乘积形式，在理论上能以更少的参数缓解维数灾难，并在实践中训练更稳定。主要实验结果如何：在多个基准测试上达到或超越SOTA。图像表示：在1000张ImageNet图像上，LRNN-SPDER在40dB PSNR目标上达到100%成功率，远超SIREN（1.8%）和SPDER（26.4%）。音频表示：MSE比基线低3-11倍。PDE求解：误差比SIREN低两个数量级，且参数减少8倍。稀疏CT重建：PSNR（29.13 dB）和SSIM（0.7455）均为最优。实际意义是什么：为构建更高效、表达能力更强的神经网络提供了一种新的通用构建块。在需要高精度信号表示（如医学成像、科学计算）和处理高维数据交互的任务中具有显著优势。主要局限性是什么：计算和内存开销相对较高，特别是反向传播时需要存储大量中间乘积项；虽然提供了优化思路（如核融合、混合精度），但未给出具体实现和验证；架构的有效性高度依赖于单变量组件函数的设计（如使用周期激活函数）。 🏗️ 模型架构 LRNN是对MLP的推广，其核心是引入了“乘积结构激活函数”的神经元。 ...

DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations

📄 DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations #语音对话系统 #大语言模型 #端到端 #自回归模型 #语音合成 🔥 8.5/10 | 前25% | #语音对话系统 | #大语言模型 | #端到端 #自回归模型学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Chao-Hong Tan (未明确标注，但作者列表首名) 通讯作者：论文中未明确指定通讯作者。作者列表：Chao-Hong Tan, Qian Chen, Wen Wang, Chong Deng, Qinglin Zhang, Luyao Cheng, Hai Yu, Xin Zhang, Xiang Lv, Tianyu Zhao, Chong Zhang, Yukun Ma, Yafeng Chen, Hui Wang, Jiaqing Liu, Xiangang Li, Jieping Ye (Tongyi Fun Team, Alibaba Group) 💡 毒舌点评亮点：DrVoice 提出的双分辨率语音表示（DRSR）设计精巧，通过分组将输入帧率降至5Hz，大幅降低了计算成本（训练时间减少近50%），并成功缓解了语音与文本token的频率失配问题，在保持甚至超越SOTA性能的同时提升了效率。短板：模型在语音质量（UTMOS）上与最强基线（如Qwen2.5-Omni）持平，但在语音与文本对齐（ASR-WER）上仍有差距，说明其生成的语音在精确还原文本内容上还有提升空间，且全双工交互能力未实现。 ...

Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

📄 Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention #语音分离 #知识蒸馏 #端到端 #音视频 #实时处理 🔥 9.0/10 | 前10% | #语音分离 | #知识蒸馏 | #端到端 #音视频学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Kai Li（清华大学计算机科学与技术系、清华大学IDG/McGovern脑科学研究院）通讯作者：Xiaolin Hu（清华大学计算机科学与技术系、清华大学IDG/McGovern脑科学研究院、北京脑科学与类脑研究中心）作者列表：Kai Li（清华大学计算机科学与技术系、清华大学IDG/McGovern脑科学研究院）、Kejun Gao（清华大学计算机科学与技术系）、Xiaolin Hu（清华大学计算机科学与技术系、清华大学IDG/McGovern脑科学研究院、北京脑科学与类脑研究中心）注：Kai Li和Kejun Gao贡献均等（*标记），Xiaolin Hu为通讯作者（†标记）。 💡 毒舌点评 Dolphin的双路径视觉编码器设计和基于热扩散方程的局部注意力模块非常聪明，用极低的计算开销（MACs降低2.4倍）实现了SOTA分离性能，为AVSS的实际部署扫清了关键障碍。但其离散视觉token的设计可能丢弃了连续唇部运动中的一些细微发音线索，未来或可探索混合离散-连续表示来进一步提升。 🔗 开源详情代码：论文中承诺在GitHub上开源代码（Apache-2.0许可证），并提供了一个Demo页面链接（https://cslikai.cn/Dolphin），但未在文中直接给出具体代码仓库URL。因此，具体链接需以论文被接收后的发布为准。模型权重：论文中提到会公开预训练权重（“pretrained weights for the video backbone”），但未提供具体下载链接。数据集：使用的LRS2, LRS3, VoxCeleb2为公开数据集，但需根据其出版方规定获取。论文承诺会提供预处理脚本。 Demo：提供了一个在线演示页面链接：https://cslikai.cn/Dolphin。复现材料：提供了极其详细的复现信息，包括：conda环境规范、完整配置文件、所有超参数（附录E）、评估指标和损失函数的正式定义（附录D）、模型各组件的详细结构（附录A, B）、训练细节（附录A.3）。引用的开源项目：论文中提到了依赖的开源工具/模型，包括：PyTorch, PyTorch Lightning, VQ实现（vector-quantize-pytorch on PyPI）, AV-HuBERT（作为蒸馏教师模型）。总体：开源意愿强烈，复现支持非常充分，是高质量开源论文的典范。论文中未提及具体的GitHub仓库链接，但根据“我们的代码和演示页面公开可访问于此链接”的表述及Demo链接，可认为代码已或即将公开。 📌 核心摘要本文旨在解决音频-视觉语音分离（AVSS）模型计算成本过高、难以实际部署的问题。论文提出了一个名为Dolphin的高效AVSS模型。其核心创新包括：1) 设计了一个轻量级双路径视频编码器DP-LipCoder，通过向量量化（VQ）和知识蒸馏将唇部运动映射为与音频对齐的离散语义token；2) 构建了一个基于TDANet的轻量级编解码分离器，并引入全局-局部注意力（GLA）模块，在每个层内同时建模长程依赖和局部特征，从而实现单次迭代的高质量分离。与现有的SOTA方法（如IIANet）相比，Dolphin在三个基准数据集（LRS2, LRS3, VoxCeleb2）上取得了更好的分离性能（例如，在LRS2上SI-SNRi达到16.8dB，比IIANet高0.8dB），同时参数量减少超过50%，计算量（MACs）降低超过2.4倍，GPU推理速度提升超过6倍。这证明了Dolphin是一个兼顾高性能与高效率的实用解决方案。主要局限性在于模型对相对干净、同步的唇部视频有一定依赖，且在极端资源受限设备上的部署仍需进一步优化。 ...