MiniMax Sparse Attention

📄 MiniMax Sparse Attention #高效推理 #多模态模型 7.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.7/10 | 前25% | #高效推理 | #多模态模型 | arxiv 👥 作者与机构 Xunhao Lai (MiniMax, Peking University), Weiqi Xu (MiniMax), Yufeng Yang (MiniMax), Qiaorui Chen (NVIDIA), Yang Xu (MiniMax, Zhejiang University), Lunbin Zeng (MiniMax, Huazhong University of Science and Technology), Xiaolong Li (MiniMax, Zhejiang University), Haohai Sun (MiniMax), Haichao Zhu (MiniMax), Vito Zhang (MiniMax, Peking University), Pengyu Zhao (MiniMax) ...

2026-06-12 · 更新于 2026-06-12 · 5 min · 1003 words

OmniMem: Perturbation-aware Memory Compression for Streaming Audio-Visual LLMs

📄 OmniMem: Perturbation-aware Memory Compression for Streaming Audio-Visual LLMs #高效推理 8/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.6/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8/10 | 前25% | #高效推理 | #高效推理 | arxiv 👥 作者与机构 Guangzhi Sun, Yixuan Li, Yudong Yang, Chao Zhang; Tsinghua University, ByteDance, University of Cambridge 💡 毒舌点评 这篇论文像个扎实的工程师作品:精准定位了一个真实的痛点(音视频LLM长视频推理的内存瓶颈),并给出了一个巧妙且有效的工程解决方案。核心的“扰动感知+模态感知预算分配”组合拳逻辑自洽,实验也足够“暴力”,在多个基准上压倒性地击败了现有训练时基线。然而,它缺乏令人眼前一亮的理论深度,更像是一次出色的系统优化而非范式突破。其开源承诺(代码+模型权重)目前仍停留在“空头支票”阶段,这对于顶会论文的完整性是个减分项。总体而言,这是一篇在特定领域(音视频高效推理)内扎实、有用、但不算革命性的工作。 📌 核心摘要 本文针对音频-视觉大语言模型(av-LLMs)在流式处理长视频时面临的KV缓存内存线性增长瓶颈,提出了OmniMem压缩框架。该方法包含三个核心组件:1) 扰动感知的KV缓存选择机制,通过综合考虑注意力权重(重要性)和余弦相似度(冗余性)来最小化驱逐KV对对模型输出的影响;2) 首个音频-视觉预算分配模块,为音频和视觉模态的KV缓存分配独立的、可动态调整的预算,以解决两者token数量严重不平衡的问题;3) 基于离线校准的层间预算分配策略。此外,论文探索了预算感知微调以进一步提升性能。在video-SALMONN 2+和Qwen2.5-Omni模型上,于VideoMME Long、LVBench等基准的实验表明,OmniMem在相同内存预算下比强基线方法一致提升了2-4%的绝对精度,微调后可再获1-2%的提升。 ...

2026-06-09 · 更新于 2026-06-12 · 2 min · 393 words

Toward Native Multimodal Modeling: A Roadmap

📄 Toward Native Multimodal Modeling: A Roadmap #多模态模型 #模型压缩 #高效推理 #强化学习 #自回归模型 🔥 10/10 | 前25% | #多模态模型 | #模型压缩 | #高效推理 #强化学习 | arxiv 学术质量 7/7 | 影响力 2/2 | 可复现性 2/2 | 置信度 高 👥 作者与机构 Siyu An (Equal Contribution, Corresponding Author) [1], Junru Lu (Equal Contribution) [1], Junnan Dong (Equal Contribution, Corresponding Author) [1], Qiufeng Wang [1], Yinghui Li [1], Weizhi Fei [2], Zichao Yu [3], Zheng Yuan [1], Biao Liu [1], Haopeng Wang [1], Renzhao Liang [1], Yixuan Yang [4], Yunhang Shen [1], Bo Ke [1], Keyu Chen [1], Linhao Luo [5], Difan Zou [3], Xiao Huang [6], Di Yin [1], Ruizhi Qiao [1], Xing Sun [1] 机构: [1] 腾讯优图实验室 [2] 清华大学 [3] 香港大学 [4] 华威大学 [5] 莫纳什大学 [6] 香港理工大学 ...

2026-05-26 · 更新于 2026-06-12 · 4 min · 803 words

Fast Multichannel NMF with Block-Diagonal Spatial Covariance Matrices for Efficient Blind Source Separation Using Distributed Microphone Arrays

📄 Fast Multichannel NMF with Block-Diagonal Spatial Covariance Matrices for Efficient Blind Source Separation Using Distributed Microphone Arrays #语音分离 #非负矩阵分解 #麦克风阵列 #多通道 #高效推理 ✅ 7.5/10 | 前50% | #语音分离 | #非负矩阵分解 | #麦克风阵列 #多通道 | arxiv 学术质量 5.0/7 | 影响力 1.0/2 | 可复现性 1.5/2 | 置信度 高 👥 作者与机构 第一作者:Hirotaka Nishikori(东京大学) 通讯作者:未说明 作者列表:Hirotaka Nishikori(东京大学)、Nobutaka Ito(日本产业技术综合研究所 AIST)、Kouei Yamaoka(东京大学)、Norihiro Takamune(东京大学)、Hiroshi Saruwatari(东京大学) 💡 毒舌点评 这篇论文在分布式麦克风阵列的盲源分离场景中,对FastMNMF进行了一个直接但有效的工程化改进:通过对源空间协方差矩阵施加块对角约束,将大规模矩阵运算分解为子阵列内的小问题,从而在牺牲一定性能的前提下实现了约3倍的加速。然而,其实验完全是在“同步、无噪”的高度理想化仿真环境中进行的,对实际部署中无法回避的异步、噪声、混响及模型假设失效等问题未做任何验证,使得该方法的实际应用价值仍是一个巨大的未知数,其贡献更像是一次理论复杂度降低的验证。 📌 核心摘要 本文提出了一种名为**分布式快速多通道非负矩阵分解(Distributed FastMNMF)**的盲源分离方法,专为由多个空间分离的子阵列组成的分布式麦克风阵列设计。针对传统FastMNMF在联合处理所有子阵列时因需要求逆和联合对角化的矩阵尺寸随总麦克风数增长而导致计算成本急剧上升的问题,该方法对源的空间协方差矩阵施加了块对角结构约束。此约束使得矩阵求逆和联合对角化操作被限制在每个子阵列内部进行,从而大幅降低了计算复杂度。同时,该方法跨子阵列共享由NMF建模的源频谱图,以聚合源活动信息。 主要实验在模拟的房间环境中进行(RT60=300ms)。结果表明,对于3个源的情况,所提方法的平均源失真比(SDR)改善为13.4 dB,高于仅使用一个子阵列的基线(12.5 dB),但低于使用所有子阵列的传统FastMNMF(15.7 dB)。在5个源的欠定条件下也表现出类似的性能折衷。在计算效率上,所提方法的运行时间(235.3秒)仅为传统FastMNMF(694.0秒)的33.9%,实现了约2.95倍的加速。该方法为在分布式阵列中实现高效盲源分离提供了一种计算上可行的中间方案。其主要局限性在于,评估完全基于同步、无噪的理想仿真,未考虑实际部署中的关键挑战。 🔗 开源详情 代码:https://github.com/fakufaku/fast_bss_eval (注:此为评估工具代码,非所提方法本身的实现代码) 模型权重:未提及 数据集:未提及(实验中使用了JNAS语料库中的语音信号作为干声源,但未提供其具体的开源获取链接或协议信息) Demo:未提及 复现材料:论文在第4.1节详细描述了实验条件、参数设置、初始化流程及评估方法,提供了复现论文中实验所需的全部技术细节,但未提供所提方法“Distributed FastMNMF”的独立代码仓库、配置文件或检查点文件。 论文中引用的开源项目: fast_bss_eval:https://github.com/fakufaku/fast_bss_eval pyroomacoustics:论文中提及用于生成房间脉冲响应,未提供链接。 scikit-learn:论文中提及使用其NMF实现进行初始化,未提供链接。 JNAS:论文中提及作为干声源语料库,未提供链接。 🏗️ 方法概述和架构 图1展示了论文实验所用的房间与分布式阵列配置。该图说明了方法的应用场景:三个空间分离的四麦克风子阵列(红色方块)布置在一个房间内,用于对五个声源(彩色圆点)进行盲源分离。 ...

2026-05-21 · 更新于 2026-06-12 · 2 min · 362 words

Stage-adaptive Token Selection for Efficient Omni-modal LLMs

📄 Stage-adaptive Token Selection for Efficient Omni-modal LLMs #多模态模型 #高效推理 #音频视觉 #大语言模型 ✅ 7.7/10 | 前25% | #多模态模型 | #高效推理 | #音频视觉 #大语言模型 | arxiv 学术质量 5.5/7 | 影响力 0.5/2 | 可复现性 1.7/2 | 置信度 高 👥 作者与机构 第一作者:Zijie Xin (Renmin University of China) 通讯作者:Xirong Li (Renmin University of China), Jie Yang (WeChat Vision, Tencent Inc.) 作者列表:Zijie Xin (Renmin University of China), Jie Yang (WeChat Vision, Tencent Inc.), Ruixiang Zhao (Renmin University of China), Tianyi Wang (WeChat Vision, Tencent Inc.), Fengyun Rao (WeChat Vision, Tencent Inc.), Jing Lyu (WeChat Vision, Tencent Inc.), Xirong Li (Renmin University of China) 注:论文脚注说明 Zijie Xin 和 Ruixiang Zhao 在腾讯实习期间完成了这项工作。 💡 毒舌点评 该工作的核心洞察——om-LLM中跨模态token的依赖性随深度衰减——清晰且有说服力,实验设计也足够扎实(跨模型、多基准、消融分析)。然而,其提出的“阶段自适应”策略在实现上高度依赖于精心调参的启发式规则(如层级划分、衰减函数),这既限制了方法的泛化性(需为每个新模型重新调参),也使得其“自适应”的声称略显薄弱,本质上更像是一种精心设计的、分阶段的启发式调度,而非真正能动态适应输入内容的机制。 ...

2026-05-21 · 更新于 2026-06-12 · 3 min · 527 words

Fast Multichannel NMF with Block-Diagonal Spatial Covariance Matrices for Efficient Blind Source Separation Using Distributed Microphone Arrays

📄 Fast Multichannel NMF with Block-Diagonal Spatial Covariance Matrices for Efficient Blind Source Separation Using Distributed Microphone Arrays #语音分离 #麦克风阵列 #信号处理 #多通道 #高效推理 #分布式阵列 ✅ 6.5/10 | 前50% | #语音分离 | #麦克风阵列 #信号处理 | #麦克风阵列 #信号处理 | arxiv 学术质量 5/8 | 影响力 0.5/1 | 可复现性 1/1 | 置信度 高 👥 作者与机构 第一作者:Hirotaka Nishikori (东京大学) 通讯作者:论文中未明确指定,但第一作者隶属于东京大学 作者列表:Hirotaka Nishikori (东京大学),Nobutaka Ito (日本产业技术综合研究所 AIST),Kouei Yamaoka (东京大学),Norihiro Takamune (东京大学),Hiroshi Saruwatari (东京大学) 💡 毒舌点评 这篇论文为成熟的FastMNMF框架引入了一个针对分布式阵列的“块对角”结构约束,其工程动机明确,理论支撑(附录定理1)严谨,旨在为全阵列处理和单子阵列处理之间提供一个高效的中间选项。然而,其实验验证如同一场精心控制的温室实验——所有条件(同步、无噪、固定几何)都被完美设定,且基线选择仅限于自身变体,这严重限制了其结论在充满噪声、异步和动态的真实世界部署中的适用性。 📌 核心摘要 本文旨在解决将快速多通道非负矩阵分解(FastMNMF)应用于由多个子阵列组成的分布式麦克风阵列时的计算效率瓶颈。核心方法是为源的空间协方差矩阵(SCM)施加一个块对角结构约束,每个块对应一个子阵列。该约束使得矩阵求逆等昂贵操作仅在子阵列内部进行,同时通过在所有子阵列间共享源频谱图的NMF模型来聚合源活动信息。其目标不是超越全阵列FastMNMF,而是在其与单子阵列FastMNMF之间取得计算效率与分离性能的平衡。实验表明,与使用全部麦克风的全阵列方法相比,该方法计算时间减少至33.9%(快约2.95倍);与使用单个子阵列的方法相比,其源-失真比改善量(SDR improvement)在3源和5源情况下分别提升0.8 dB和0.5 dB。该方法的主要意义在于为分布式阵列BSS提供了高效的计算方案,其主要局限性在于所有评估均在同步、无噪、固定几何的理想模拟环境中进行。 ...

2026-05-20 · 更新于 2026-06-12 · 2 min · 378 words

SIREM: Speech-Informed MRI Reconstruction with Learned Sampling

📄 SIREM: Speech-Informed MRI Reconstruction with Learned Sampling #医学图像重建 #多模态模型 #实时处理 #高效推理 #语音信号 #可学习采样 ✅ 7.3/10 | 前40% | #医学图像重建 | #多模态模型 | #实时处理 #高效推理 | arxiv 学术质量 6.1/8 | 影响力 0.7/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Md Hasan(Friedrich-Alexander-Universität Erlangen-Nürnberg, Pattern Recognition Lab) 通讯作者:Paula A. Pérez-Toro(Friedrich-Alexander-Universität Erlangen-Nürnberg, Pattern Recognition Lab) 作者列表:Md Hasan(Pattern Recognition Lab, FAU),Nyvenn Castro(Institute of Radiology, University Hospital Erlangen),Daiqi Liu(Pattern Recognition Lab, FAU),Lukas Mulzer(Pattern Recognition Lab, FAU),Jana Hutter(Institut für Informationsverarbeitung, Leibniz Universität Hannover),Jonghye Woo(Department of Radiology, Harvard Medical School and Massachusetts General Hospital),Moritz Zaiss(Institute of Radiology, University Hospital Erlangen),Andreas Maier(Pattern Recognition Lab, FAU),Paula A. Pérez-Toro(Pattern Recognition Lab, FAU) 💡 毒舌点评 论文提出了一个极具洞察力的跨模态融合思路,将语音信号作为实时MRI重建的显式先验,概念新颖且物理动机扎实。然而,其核心验证存在“自证”困境:关键的“语音解释性”空间权重图(w_EbA)由手动分割掩码提供,这相当于用解剖学知识预先定义了语音的有效区域,极大地削弱了模型“学习”跨模态关联的创新性,并导致方法在更通用或数据有限的场景下的有效性存疑。实验基线选择偏弱,缺乏与现代深度学习重建方法的对比,使得其“速度优势”的宣称说服力不足。尽管如此,该工作首次系统性地探索了多模态融合在rtMRI重建中的可行性,其开创性价值值得肯定。 ...

2026-05-19 · 更新于 2026-06-12 · 3 min · 515 words

Stable Audio 3

📄 Stable Audio 3 #音频生成 #音乐生成 #扩散模型 #高效推理 #长音频处理 #音效生成 #编辑 ✅ 6.8/10 | 前25% | #音频生成 | #扩散模型 | #音乐生成 #高效推理 | arxiv 学术质量 5.3/8 | 影响力 0.7/1 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Zach Evans(来自Stability AI) 通讯作者:未明确标注(论文中未提供邮箱或明确标注通讯作者) 作者列表:Zach Evans, Julian D. Parker, Matthew Rice, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons(所有作者均来自Stability AI) 💡 毒舌点评 亮点:该工作是一项扎实的工程系统集成,成功地将一个极高压缩率的语义-声学自编码器、基于流匹配的扩散Transformer、三阶段训练流水线以及变量长度生成和编辑功能整合到一个框架中。其宣称的极快推理速度(H200上生成6分20秒音频<2秒)和在消费硬件上的可部署性具有显著的实际价值,开源小/中模型权重也体现了对社区的贡献。 短板:论文的核心方法论创新有限,更多是对现有技术的针对性优化和组合(如变量长度注意力、对抗性后训练在音频领域的应用)。关键设计选择(如4096倍压缩比)缺乏消融研究支撑,对“首个”等宣称的严谨性有待商榷。部分实验对比存在潜在不公平性(如与专为短音频设计的模型比较长生成),且消融实验的缺失严重削弱了技术贡献的深度分析。 📌 核心摘要 要解决什么问题:当前基于潜在扩散的音频生成模型通常采用固定长度序列,导致生成短音频时计算资源浪费。同时,如何在保持高保真度和语义一致性的前提下,实现快速、可变长度的生成及灵活的音频编辑(修复、续写)是重要挑战。 方法核心是什么:Stable Audio 3是一个基于流匹配的潜在扩散模型家族(包含small, medium, large三个版本)。其核心架构包含两个部分:1)一个压缩率高达4096倍的语义-声学自编码器(SAME),能将音频编码为紧凑的潜在表示,同时保留声学保真度和语义结构;2)一个增强的扩散Transformer,支持可变长度生成和基于掩码的修复/续写编辑。训练采用三阶段流水线:流匹配预训练、ODE暖机蒸馏和对抗性后训练。 与已有方法相比新在哪里:主要创新点在于:a) 提出了极高压缩率(4096x)的语义-声学自编码器,使得在消费级硬件上生成长音频成为可能;b) 实现了潜在扩散模型中真正意义上的可变长度生成,避免了固定长度模型对短音频的无效计算;c) 设计了结合流匹配、蒸馏和对抗性后训练的三阶段训练流程,实现了极少步数下的高质量生成;d) 将修复和续写功能统一为一个基于掩码的编辑框架。 主要实验结果如何:在SDD音乐基准和BBC音效基准上,Stable Audio 3(medium/large)在FAD和CLAP等指标上取得了与当前最强开源模型可比或更优的结果(例如,在SDD 120s音乐生成上,large模型FAD为0.101,CLAP为0.393)。模型推理速度极快,在H200 GPU上生成6分20秒音频耗时不到2秒。模型(small/medium)支持在消费级GPU甚至MacBook Pro CPU上运行。 实际意义是什么:该工作推动了高质量、高实用性音频生成模型的发展。其开源的small和medium模型降低了使用门槛。极快的推理速度和灵活的生成长度/编辑能力使其非常适合集成到实时创意工具和应用中,尤其是在资源受限的设备上。 主要局限性是什么:论文明确指出,对于超长生成(如380秒),模型的提示遵循度(CLAP分数)会显著下降,因为训练数据中长音频多为特定类型(如环境、古典音乐)。此外,所有设计选择(如特定压缩比、训练阶段的具体组合)缺乏全面的消融实验来验证其必要性和最优性。单步生成(ε→x̂₀)仍然困难,导致实际使用了8步“乒乓”采样。 🔗 开源详情 代码: https://github.com/Stability-AI/stable-audio-tools http://github.com/Stability-AI/stable-audio-3 模型权重:论文中提及发布了 small 和 medium 模型的权重,权重可通过上述代码仓库获取。large模型未开源。 数据集: 训练数据:使用来自 AudioSparx(许可数据)和 Freesound(CC-0, CC-BY, CC-Sampling+ 许可)的数据。Freesound 数据子集归属声明链接:https://info.stability.ai/attributions 评估数据集: Song Describer Dataset (SDD):论文中未提供获取链接。 BBC Sound Effects Dataset:论文中未提供获取链接。 Demo:论文中未提及在线演示链接。 复现材料:训练和实现细节在论文第3节和附录中有描述,具体代码和配置包含在上述代码仓库中。 论文中引用的开源项目: SAME (Semantically-Aligned Music autoEncoder):https://github.com/Stability-AI/stable-audio-tools (基于SAME的实现) T5Gemma (用于文本编码):论文中未提供具体链接(google/t5gemma-b-b-ul2)。 PANNs (用于数据过滤):https://github.com/qiuqiangkong/PANNs CLAP (用于评估和训练):论文中未提供具体链接。 Freesound:https://freesound.org/ AudioSparx:https://www.audiosparx.com/ 🏗️ 方法概述和架构 整体流程概述:Stable Audio 3是一个端到端的文本到音频生成与编辑系统,基于潜在扩散模型。其流程为:输入立体声音频(44.1kHz),通过预训练且冻结的语义-声学自编码器(SAME)编码为紧凑的潜在序列(256维,帧率约10.76Hz);生成时,扩散Transformer在文本嵌入(T5Gemma编码)、时长、扩散时间步t和可选的修复掩码等条件的引导下,从高斯噪声中逐步去噪出目标潜在序列;最后,由SAME的解码器将潜在序列重建为波形。整个生成过程(从噪声到波形)在H200 GPU上仅需少于2秒。 ...

2026-05-19 · 更新于 2026-06-12 · 3 min · 621 words

Real-time Speech Restoration using Data Prediction Mean Flows

📄 Real-time Speech Restoration using Data Prediction Mean Flows #音频修复 #流匹配 #实时处理 #高效推理 #均值流 #数据预测 ✅ 7.5/10 | 前25% | #音频修复 | #流匹配 | #实时处理 #高效推理 | arxiv 学术质量 6.3/8 | 影响力 0.7/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Sebastian Braun(论文未说明其所属机构) 通讯作者:论文中未明确标注通讯作者 作者列表:Sebastian Braun(论文中仅列出此一位作者,未说明其机构) 💡 毒舌点评 这篇论文定位明确,直击实时生成式语音修复中“高质量”与“低延迟、低算力”的矛盾,并通过组合技术(DP-IMF)和精心设计的新架构(RMFSR)给出了一个工程上极具吸引力的解决方案(120倍算力节省)。然而,其主观测试结果(Overall MOS 2.91)与自称“接近”的非因果上界(3.20)存在统计显著性未明的差距,且WER随NFE上升暴露了生成幻觉的风险;加之关键训练细节的缺失,使得这篇面向实用的工作在复现和全面评估上打了折扣。 📌 核心摘要 本文旨在解决生成式语音修复模型(如扩散/流匹配)因计算量大、延迟高而无法实时部署的问题。核心方法是提出一个结合数据预测(DP)损失与改进均值流(IMF) 训练的流匹配框架,并设计了一个新型低延迟卷积U-net架构(RMFSR)。相比已有工作,其主要贡献在于:1)首次将DP-IMF组合应用于音频流匹配,通过直接预测干净数据并训练大步长,减少推理步数;2)提出了针对性的训练调度(r=t比例与r-t跨度)以及流匹配分布设计(logit-normal时间采样、粉红噪声先验);3)设计了RMFSR架构,通过因果卷积、TCN瓶颈等,在将MACs/s降低120倍(从142.78G降至1.22G)的同时,仅引入STFT窗长(20ms)的算法延迟。实验在SIG2024测试集上表明,RMFSR-DP-IMF模型在多步推理(NFE>1)下,客观指标接近强大的非因果基线,主观整体MOS(2.91)相比未处理信号(2.72)有显著提升,但仍低于非因果基线(3.20)。该工作为资源受限的实时音频应用(如通信、助听器)提供了一种高效的解决方案,但其一步推理质量不佳,且与SOTA在主观感知上仍有可察觉的差距。 🔗 开源详情 代码:论文中提供了代码仓库链接:https://github.com/sebraun-msr/realtimemeanflowspeechrestoration 模型权重:论文中未提及是否开源模型权重。 数据集: 训练数据使用了 EARS 数据集 (项目页面: https://github.com/facebookresearch/EARS)、DNS Challenge 背景噪声 (项目页面: https://github.com/microsoft/DNS-Challenge) 和 DAPS 数据集 (获取方式: https://zenodo.org/record/2594445)。 测试评估使用了 Signal Improvement Challenge 2024 (SIG2024) 测试集 (相关挑战页面: https://github.com/microsoft/Signal-Improvement-2024)。 Demo:论文中提供了音频示例页面:https://sebraun-msr.github.io/realtimemeanflowspeechrestoration/ 复现材料:论文中未提及训练配置、检查点等复现材料的具体链接或获取方式。 论文中引用的开源项目: Whisper (用于WER评估): https://github.com/openai/whisper DNS Challenge 工具包 (用于生成数据): https://github.com/microsoft/DNS-Challenge EARS 数据集: https://github.com/facebookresearch/EARS DAPS 数据集: https://zenodo.org/record/2594445 Signal Improvement Challenge 2024 (SIG2024): https://github.com/microsoft/Signal-Improvement-2024 🏗️ 方法概述和架构 整体流程概述 本文提出一个端到端的语音修复系统。输入为带失真的语音信号,首先通过短时傅里叶变换(STFT)并进行幅度压缩(系数c=0.3),得到复数压缩谱域表示X^c。该表示y与当前带噪状态xt拼接作为条件,输入到一个基于流匹配的生成模型(RMFSR)中。该模型通过迭代求解普通微分方程(ODE),从带噪的先验分布p_init逐步恢复出干净的语音谱表示x0。最终,对输出谱进行逆操作(解压缩、逆STFT),得到修复后的时域语音信号。整个流程的核心是训练一个能够高效、少步数地执行这一生成过程的神经网络。 ...

2026-05-18 · 更新于 2026-06-12 · 3 min · 466 words

UMo: Unified Sparse Motion Modeling for Real-Time Co-Speech Avatars

📄 UMo: Unified Sparse Motion Modeling for Real-Time Co-Speech Avatars #语音合成 #多模态模型 #高效推理 #稀疏建模 📝 5.5/10 | 前25% | #语音合成 | #多模态模型 | #高效推理 #稀疏建模 | arxiv 学术质量 4.1/8 | 影响力 0.7/1 | 可复现性 0.7/1 | 置信度 高 👥 作者与机构 第一作者:Xiaoyu Zhan(南京大学)、Xinyu Fu(南京大学)(共同第一作者) 通讯作者:Yanwen Guo(南京大学)、Dongjie Fu(南京大学) 作者列表: Xiaoyu Zhan(南京大学) Xinyu Fu(南京大学) Chenghao Yang(南京大学) Xiaohong Zhang(南京大学) Dongjie Fu(南京大学) Pengcheng Fang(南京大学) Tengjiao Sun(南京大学) Xiaohao Cai(南京大学) Hansung Kim(南京大学) Yuanqi Li(南京大学) Jie Guo(南京大学) Yanwen Guo(南京大学) 💡 毒舌点评 这篇论文的核心贡献是将“空间稀疏MoE”和“时间稀疏关键帧+插值”两种技术,整合进一个基于LLM的统一自回归框架,以解决共同语音动画生成中“高质量”与“实时性”的矛盾。其工程设计思路清晰,且在实时性指标(FPS)上较LOM有显著提升。然而,论文的致命伤在于,其“统一建模”的优越性论证极其薄弱。实验明确显示,在纯音频驱动任务上,专用模型(SynTalker)的FGD指标显著优于UMo(4.687 vs. 5.107),而UMo在其他统一模型中也并未取得压倒性优势。这使得论文声称的“统一框架”能带来整体性能提升的说法站不住脚,更像是一种为整合而整合的架构设计,其必要性和有效性存疑。 ...

2026-05-15 · 更新于 2026-06-12 · 3 min · 590 words