VoXtream: Full-Stream Text-To-Speech With Extremely Low Latency

📄 VoXtream: Full-Stream Text-To-Speech With Extremely Low Latency #语音合成 #自回归模型 #流式处理 #零样本 🔥 8.5/10 | 前25% | #语音合成 | #自回归模型 | #流式处理 #零样本 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Nikita Torgashov(KTH皇家理工学院,语音、音乐与听觉系) 通讯作者:未说明 作者列表:Nikita Torgashov(KTH皇家理工学院,语音、音乐与听觉系)、Gustav Eje Henter(KTH皇家理工学院,语音、音乐与听觉系)、Gabriel Skantze(KTH皇家理工学院,语音、音乐与听觉系) 💡 毒舌点评 亮点:这篇论文最精妙的地方在于,它通过将文本编码器(Phoneme Transformer)设计为增量式,并限制了前瞻长度,巧妙地实现了“收到一个词就开口说”的极低延迟,同时利用单调对齐和分层预测保证了合成质量的连贯性。短板:尽管模型效率很高,但训练数据规模(9k小时)在当下这个“数据为王”的大模型时代只能算中等,这可能限制了其在超大规模、多语言或更复杂说话风格下的泛化能力上限,论文也承认了数据规模是未来工作之一。 🔗 开源详情 代码:提供代码仓库链接:https://herimor.github.io/voxtream 模型权重:论文中未明确提及是否公开训练好的VoXtream模型权重。仅提到引用了开源的CSM模型和ReDimNet。 数据集:使用了Emilia和HiFiTTS-2数据集,这两个都是公开数据集。但论文中未提供其预处理后的具体获取方式。 Demo:提供在线演示链接:https://herimor.github.io/voxtream 复现材料:论文给出了模型架构的详细描述、主要的训练超参数(学习率、batch size、优化器、epoch数)、硬件环境(A100 GPU)。但未提供完整的训练脚本、配置文件或检查点。 引用的开源项目:g2p(音素转换)、Mimi编解码器、Montreal Forced Aligner (MFA)、CSM模型、ReDimNet说话人编码器、Llama架构。 总体开源情况:论文提供了核心的推理代码和演示,但训练所需的完整复现材料(如预处理数据、详细训练配置、预训练模型权重)并未完全公开。 📌 核心摘要 问题:当前流式文本转语音(TTS)系统存在较高的初始延迟(从输入文本到发出第一个音素的时间),或需要复杂的多阶段流水线,影响了实时交互体验。 方法核心:提出VoXtream,一个完全自回归的零样本流式TTS模型。其核心是一个三层Transformer架构:(1) 增量音素Transformer(PT)逐步编码输入文本并允许有限前瞻;(2) 时间Transformer(TT)基于音素和过去音频预测语义令牌和时长令牌;(3) 深度Transformer(DT)基于前两者生成声学令牌。关键设计是基于“停留/切换”标志的单调音素对齐预测。 创新点:与先前工作相比,VoXtream首次实现了从接收到第一个词就开始生成语音的增量处理模式,无需等待整个句子或固定数量的未来词。它将文本编码、时序预测和声学生成解耦到三个专用模块中,平衡了延迟与质量。 实验结果:在公开流式TTS模型中达到了最低的首次分组延迟(FPL):102ms(使用torch.compile加速后)。在9k小时数据上训练,其质量(WER, SPK-SIM, UTMOS)可与甚至超越许多使用更大规模数据训练的非流式和流式基线模型。在主观MUSHRA评测中,其流式版本的自然度与部分非流式模型相当。在长文本流式场景下,其自然度显著优于CosyVoice2。 实际意义:为需要极低延迟响应的实时语音应用(如语音助手、同步翻译、对话AI)提供了一个高效且高质量的解决方案,推动了流式语音合成技术的实用化。 主要局限性:训练数据规模(9k小时)中等;在零样本说话人相似度上,仍低于使用更大规模数据和非自回归解码器(如流匹配)的顶级模型(如CosyVoice2);长文本流式合成的稳定性有待进一步验证。 🏗️ 模型架构 VoXtream的架构(见图1)旨在实现从文本流到音频流的端到端、低延迟转换。它由三个核心Transformer模块组成,数据流如下: ...

2026-04-29 · 更新于 2026-06-15 · 3 min · 482 words

When Noise Lowers the Loss: Rethinking Likelihood-Based Evaluation in Music Large Language Models

📄 When Noise Lowers the Loss: Rethinking Likelihood-Based Evaluation in Music Large Language Models #音乐生成 #模型评估 #自回归模型 #音频大模型 #对抗样本 ✅ 7.0/10 | 前25% | #音乐生成 | #模型评估 | #自回归模型 #音频大模型 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Xiaosha Li (Georgia Institute of Technology) 通讯作者:未说明(根据惯例,最后一位作者Ziyu Wang可能为通讯作者,但论文中未明确标注) 作者列表:Xiaosha Li (Georgia Institute of Technology), Chun Liu (ByteDance Inc.), Ziyu Wang (Courant Institute of Mathematical Sciences, New York University; Mohamed bin Zayed University of Artificial Intelligence (MBZUAI)) 💡 毒舌点评 亮点在于发现了一个反直觉但可重复验证的现象(“噪声降低损失”),并据此提出了一个新颖的、基于损失曲线形状的评估视角,而非简单否定损失指标,这为音乐生成评估提供了具体的诊断工具和改进方向。短板在于,论文的核心论证主要基于“噪声注入”和“顺序打乱”两种人工扰动,其与真实音乐质量(如乐感、结构、情感表达)的关联性仍需更多元、更贴近实际场景的验证,且提出的“基于曲线形状”的评估框架目前更多是定性描述,缺乏可直接应用的定量标准。 ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 306 words

An event-based sequence modeling approach to recognizing non-triad chords with oversegmentation minimization

📄 An event-based sequence modeling approach to recognizing non-triad chords with oversegmentation minimization #音乐理解 #音乐信息检索 #自回归模型 #预训练 ✅ 7.5/10 | 前25% | #音乐理解 | #自回归模型 | #音乐信息检索 #预训练 | arxiv 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Leekyung Kim(论文中未提及机构) 通讯作者:Jonghun Park(论文中未提及机构) 作者列表:Leekyung Kim(未说明)、Jonghun Park(未说明) 💡 毒舌点评 亮点在于,作者巧妙地将逐帧分类任务重构为段级自回归预测,从根源上缓解了和弦识别中最头疼的“碎片化”过度分割问题,SPLIT token设计对处理长尾和弦也颇具巧思。短板则是,整个方法高度依赖于一个中等规模且较为陈旧的数据集(471首歌),虽然报告了SOTA,但在更大、更现代的音乐数据集上的泛化能力未得到验证,说服力稍打折扣。 🔗 开源详情 代码:提供代码仓库链接:https://github.com/KimLeekyung/ACR_seq2seq。 模型权重:论文中未提及公开预训练或训练好的模型权重。 数据集:使用的是BTC数据集,论文中未提供独立的公开链接,但该数据集为MIR领域已知数据集。 Demo:未提供在线演示。 复现材料:提供了较为详细的训练细节、实现细节(数据增强、优化器、掩码策略),但未提供完整的训练配置文件(如超参数列表)、检查点或附录补充说明。 引用的开源项目:论文中提到了对比基线模型BTC的开源实现(https://github.com/jayg996/BTC-ISMIR19),并在复现其结果时使用了其公开的检查点。此外,模型基于Transformer架构,隐含依赖了如PyTorch等深度学习框架。 📌 核心摘要 要解决的问题:自动和弦识别(ACR)任务面临三大挑战:1)传统逐帧预测方法易导致预测结果“过度分割”,边界不稳定;2)高质量标注数据稀缺;3)和弦类型分布不平衡,复杂/罕见和弦(如非三和弦)识别效果差。 方法核心:将ACR问题重新定义为段级序列到序列(seq2seq)预测任务。使用Transformer编码器-解码器架构,编码器处理音频,解码器自回归地预测由“时间token”和“和弦token”组成的序列。提出了两种token表示(MERGE和SPLIT)以及一种基于和弦相似性的编码器预训练策略。 与已有方法相比新在哪里:a) 建模范式新:首次将ACR建模为段级自回归序列预测,而非逐帧分类,从根本上改变了分割-识别流程。b) 表示方法新:设计了MERGE(整体预测)和SPLIT(分解为根音和性质)两种时间对齐的token表示,以更好地建模和弦结构并缓解数据不平衡。c) 预训练策略新:提出利用和弦相似性度量(WCSR)监督编码器进行预训练,使其学习到有音乐意义的音频嵌入。 主要实验结果:在包含471首歌曲的BTC数据集上,提出的方法(pTE-DS)在WCSR(加权和弦符号召回率)和SQ(分段质量)指标上均优于基线模型(TE)和现有SOTA模型(BTC)。关键数据如下表所示: 模型 WCSR (mirex) SQ (mean) BTC (SOTA baseline) 80.8 84.6 TE (frame-level baseline) 79.6 80.3 TE-DM (MERGE) 83.9 87.4 TE-DS (SPLIT) 84.9 88.0 pTE-DS (our final model) 85.7 88.6 论文指出,性能提升在更严格的评估标准(如“tetrads”)下更为明显,证明了方法对复杂和弦识别的有效性。 实际意义:该工作为音乐信息检索领域提供了一个更鲁棒、分段更稳定的ACR新框架。它推动了自回归模型在音频时序任务中的应用,并为解决数据不平衡问题提供了新的tokenization和表示学习思路。 主要局限性:a) 实验仅在一个规模中等(471首)的特定数据集上进行,数据集的代表性和规模限制了结论的普适性。b) 方法虽然改善了复杂和弦的识别,但从混淆矩阵(图3)看,仍存在将其简化为常见和弦的偏差。c) 自回归预测的推理速度可能慢于并行的逐帧分类模型。 🏗️ 模型架构 ...

2026-04-28 · 更新于 2026-06-15 · 2 min · 276 words

Opening the Design Space: Two Years of Performance with Intelligent Musical Instruments

📄 Opening the Design Space: Two Years of Performance with Intelligent Musical Instruments #音乐生成 #自回归模型 #少样本 #开源工具 #实时处理 ✅ 6.5/10 | 前50% | #音乐生成 | #自回归模型 | #少样本 #开源工具 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Charles Patrick Martin(澳大利亚国立大学) 通讯作者:Charles Patrick Martin(charles.martin@anu.edu.au,澳大利亚国立大学) 作者列表:Charles Patrick Martin(澳大利亚国立大学,堪培拉,ACT,澳大利亚) 💡 毒舌点评 本文最大亮点在于其“平民化”立场和扎实的艺术实践:它用15美元的硬件和艺术家自己收集的数据,证明了生成式AI可以脱离巨型实验室,成为乐手手中可玩、可折腾的“电子乐器模块”。然而,短板也同样明显:它本质上是一篇以“艺术创作”为名的系统设计报告,其核心模型(MDRNN)和硬件(树莓派)都是现成的技术,论文的创新更侧重于“如何组合与应用”而非技术突破,且所有“实验结果”都是主观的音乐表演描述,缺乏客观的性能评估与对比,学术硬度稍显不足。 🔗 开源详情 代码:提供。论文明确给出了GitHub源代码仓库链接:https://github.com/cpmpercussion/impsy。 模型权重:未提供。论文未提及公开训练好的模型权重文件。用户需使用自己收集的数据自行训练。 数据集:未公开。论文强调数据是艺术家自收集的,并称将日志文件用于训练新模型,但未提供公开下载这些原始数据或预处理数据集的渠道。 Demo:提供。论文提供了在线视频示例,链接为:https://doi.org/10.5281/zenodo.19550146。 复现材料:部分提供。提供了软件安装说明、预装系统镜像(https://github.com/cpmpercussion/impsy-pi)、以及配置接口说明。但缺乏详细的训练超参数、模型具体配置文件、数据处理脚本等深度复现细节。 论文中引用的开源项目: Keras-MDN-Layer:用于实现混合密度网络层的Keras库。 TensorFlow Lite:用于模型优化和加速推理。 Poetry 或 pip:用于Python依赖管理。 预构建的 Raspberry Pi OS 镜像。 整体评估:项目本身是开源的,且提供了便捷的部署方式(系统镜像),友好度高。但由于核心的“小型数据”AI模型未开放,其作为“可移植设计组件”的复现价值受限。论文中未提及进一步的开源计划。 📌 核心摘要 本文旨在解决生成式AI工具在音乐领域“艺术家不友好”、难以集成到现有硬件乐器与现场实践中的问题。作者提出了一个基于树莓派和MIDI通信的低成本、便携式生成式AI乐器平台(IMPSY),并采用“第一人称艺术研究”方法,通过设计、使用五款原型乐器(如Intelligent Volca, Intelligent MicroFreak等)在两年间的15场演出中进行探索。与已有方法相比,其新在于:1)强调“小型数据”与艺术家自主训练模型,而非依赖工业级大数据;2)平台设计高度依赖灵活的MIDI映射而非频繁重训练模型;3)探索了极快速的“呼叫-响应”式人机控制交替作为新的协同创作策略。主要实验结果是定性的艺术体验描述:如AI能同时控制多个合成器参数产生“非人类”音色变化(图5、7),快速控制权切换带来有趣的协作感,以及廉价硬件降低了准入门槛(表1显示最便宜的Zero 2 W启动需114秒)。实际意义是为音乐科技社区提供了一个可负担的、可扩展的AI乐器原型设计与实验工具包,推动以艺术家为中心的可持续AI音乐实践。主要局限性包括:研究基于作者单人视角,缺乏更广泛的用户研究;模型训练与迭代的长期影响未系统探讨;所有评估基于主观艺术判断,缺乏客观性能指标。 ...

2026-04-28 · 更新于 2026-06-15 · 1 min · 194 words

Talker-T2AV: Joint Talking Audio-Video Generation with Autoregressive Diffusion Modeling

📄 Talker-T2AV: Joint Talking Audio-Video Generation with Autoregressive Diffusion Modeling #语音合成 #音视频 #自回归模型 #扩散模型 #流匹配 ✅ 7.5/10 | 前25% | #语音合成 | #自回归模型 | #音视频 #扩散模型 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zhen Ye(根据作者列表顺序推断,论文中未明确标注“第一作者”) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表:Zhen Ye, Xu Tan, Aoxiong Yin, Hongzhan Lin, Guangyan Zhang, Peiwen Sun, Yiming Li, Chi-Min Chan, Wei Ye, Shikun Zhang, Wei Xue(所有作者所属机构均未在论文正文中明确说明,仅提供了个人姓名。机构信息可能在论文PDF的其他部分或补充材料中,但未在所提供的全文文本中提及。) 💡 毒舌点评 亮点: 论文提出的“解耦”设计哲学很聪明——把高层次的跨模态语义对齐(自回归骨干网络负责)和低层次的信号渲染(独立的扩散头负责)分开,不仅逻辑清晰,而且实验证明在同步性和质量上都优于全流程纠缠的Dual-DiT方案,同时用一个模型统一了三种任务。短板: 视频生成质量的天花板明显受限于所选的LIA-X运动自编码器,论文也坦承了这一点;此外,自回归模型在长序列上误差累积的问题可能导致生成超长语音时质量下降,这在实际应用中是个潜在痛点。 🔗 开源详情 代码: 论文明确承诺提供代码仓库链接:https://github.com/zhenye234/Talker-T2AV。 模型权重: 论文明确承诺提供预训练模型权重。 数据集: 提到了构建的约100万条说话头数据(来源公开)和使用的Emilia TTS数据集,但未说明是否公开其构建的数据集。 Demo: 提供了在线演示链接:https://talker-t2av.github.io/。 复现材料: 论文详细提供了训练细节(优化器、学习率、batch size、步数)、模型配置(各组件层数、维度、补丁大小)、损失函数权重、推理参数(采样步数、温度、CFG尺度)等。附录详细说明了两个自编码器(LIA-X, WhisperX-VAE)的选择理由和架构。 论文中引用的开源项目: 论文中提及并依赖了以下开源项目/模型:Qwen3-0.6B(骨干初始化)、LIA-X(视频运动自编码器)、Whisper Large-v3(音频自编码器中的语义特征提取器)、Descript Audio Codec (DAC)(音频自编码器架构基础)、Emilia数据集(TTS训练数据)。 📌 核心摘要 要解决什么问题: 现有联合音视频生成模型(如Dual-DiT)在整个去噪过程中通过密集的跨模态注意力耦合音频和视频,将高层语义和底层信号细节混为一体,导致建模效率低下。同时,这些模型通常输出固定长度,无法适应文本长度和说话节奏的变化。 方法核心是什么: 提出Talker-T2AV,一个两阶段的自回归扩散框架。第一阶段(跨模态建模):将音频和视频编码为时间对齐的潜在序列(25Hz),通过元素级求和融合后,输入到一个共享的自回归语言模型骨干网络中,以补丁级进行自回归生成,捕捉高层跨模态时序结构。第二阶段(模态特定渲染):使用两个独立的轻量级扩散Transformer头,分别将共享的隐状态解码为音频和视频的潜在补丁。 与已有方法相比新在哪里: ① 架构解耦: 首次将联合生成解耦为“高层语义对齐”与“底层信号渲染”两个明确阶段,避免了不必要的全过程跨模态纠缠。② 灵活性: 通过元素级求和设计,一个模型无需修改即可支持文本到音视频、音频到视频(说话头生成)、视频到音频(配音)三种任务。③ 可变长度输出: 基于自回归范式和停止预测器,支持生成任意长度的输出。 主要实验结果如何: 联合生成 (T2AV): 在中英文测试集上,与5个Dual-DiT基线(MoVA, Ovi, LTX-2, UniVerse-1, UniAVGen)相比,本文方法在语音可懂度(CER/WER最低)、视频保真度(FVD最佳)和唇音同步(SyncNet C最高, D最低)上均取得最佳或并列最佳结果。 音频驱动 (A2V): 在中英文测试集上,与5个专用方法(FLOAT, EchoMimic, Sonic, Ditto, AniPortrait)相比,本文方法在视频质量和同步性上综合表现最优(例如,英文Sync-C为5.85,最高)。 视频配音 (V2A): 在Chem数据集上,与5个专用配音系统相比,本文方法在情感相似度(EMO-SIM)、语音可懂度(WER)和自然度(UTMOS)三项指标上均达到最佳,时长对齐(DD)接近最佳。 消融实验: 验证了“元素级求和”融合方式在同步性和效率上优于“交错”或“延迟”排列。 (详细结果表格见“详细分析”部分) 实际意义是什么: 该工作推动了更自然、同步且灵活的虚拟人交互技术的发展。统一的框架降低了构建和部署多模态生成系统的复杂度,为实时对话、虚拟主播、多模态翻译等应用提供了新的技术路径。 主要局限性是什么: ① 自回归骨干在连续潜在空间上的预测误差会随序列增长而累积,影响长音频生成质量。② 视频的最终保真度受限于所采用的LIA-X运动自编码器的表达能力。③ 论文未提及训练所使用的具体硬件和时长,硬件消耗未知。 🏗️ 模型架构 论文整体架构如图1所示,采用“自回归扩散”的两阶段解耦设计。 ...

2026-04-28 · 更新于 2026-06-15 · 3 min · 612 words

Video-Robin: Autoregressive Diffusion Planning for Intent-Grounded Video-to-Music Generation

📄 Video-Robin: Autoregressive Diffusion Planning for Intent-Grounded Video-to-Music Generation #音乐生成 #扩散模型 #自回归模型 #音视频 #基准测试 ✅ 7.0/10 | 前25% | #音乐生成 | #扩散模型 #自回归模型 | #扩散模型 #自回归模型 | arxiv 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Vaibhavi Lokegaonkar(University of Maryland College Park, USA) 通讯作者:Vaibhavi Lokegaonkar, Aryan Vijay Bhosale(论文中标注为Corresponding authors,邮箱为{vlokegao,aryanvib}@umd.edu) 作者列表: Vaibhavi Lokegaonkar(University of Maryland College Park, USA) Aryan Vijay Bhosale(University of Maryland College Park, USA) Vishnu Raj(University of Maryland College Park, USA) Gouthaman KV(University of Maryland College Park, USA) Ramani Duraiswami(University of Maryland College Park, USA) Lie Lu(Dolby Laboratories, USA) Sreyan Ghosh(NVIDIA, USA) Dinesh Manocha(University of Maryland College Park, USA) 💡 毒舌点评 亮点:该工作将语音合成领域已验证有效的“自回归规划+扩散细化”混合范式,成功迁移到视频音乐生成任务,并通过引入文本条件控制解决了该领域长期存在的“创作者意图表达”短板,工程实现和实验验证都做得非常扎实。短板:其核心架构思想并非首创(如DiTAR),且评估主要集中在10秒短片段,对于真正考验音乐结构连贯性的长视频配乐场景缺乏验证,使得其“里程碑”成色稍显不足。 ...

2026-04-24 · 更新于 2026-06-15 · 3 min · 483 words

Text-To-Speech with Chain-of-Details: modeling temporal dynamics in speech generation

📄 Text-To-Speech with Chain-of-Details: modeling temporal dynamics in speech generation #语音合成 #掩码生成建模 #自回归模型 ✅ 7.0/10 | 前25% | #语音合成 | #掩码生成建模 | #自回归模型 | arxiv 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 中 👥 作者与机构 第一作者:Jianbo Ma(论文工作完成于Dolby Laboratories;现任职于Canva Research) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表: Jianbo Ma(论文工作完成于Dolby Laboratories;现任职于Canva Research) Richard Cartwright(论文工作完成于Dolby Laboratories;现任职于Canva Research) 💡 毒舌点评 亮点:论文巧妙地将“粗到细”的生成思想从传统的语义-声学token维度,拓展到了时间分辨率维度,提出了一个逻辑自洽且实验有效的CoD框架,为TTS建模提供了新视角。短板:实验评估过于依赖WER这一客观指标,完全缺失了MOS等主观听感评价,而语音合成的终极标准是“好不好听”,这使得其“更自然”的结论说服力大打折扣。 🔗 开源详情 代码:论文提供了GitHub仓库链接(https://github.com/…,具体链接在论文HTML版本的“GitHub Issue”部分可见)。 模型权重:论文中未提及是否公开预训练模型权重。 数据集:使用的是公开数据集(LibriTTS, MLS),但论文未提供其处理后的具体版本或下载指引。 Demo:论文中未提及在线演示。 复现材料:提供了较详细的训练超参数、模型配置、数据处理描述,有利于复现。 论文中引用的开源项目:SoundChoice G2P (SpeechBrain), Wespeaker, DAC, Brouhaha, MaskGIT。 📌 核心摘要 问题:现有基于离散token的TTS模型,其“粗到细”的生成范式主要体现在从语义token到声学token的转换,而对语音固有的时间动态(temporal dynamics)缺乏显式建模。 方法核心:提出Chain-of-Details (CoD)框架,将语音生成分解为多个渐进的时间层级。每个层级对应不同的时间分辨率(token率),从最粗糙(低时间分辨率、捕获宏观结构)到最精细(高时间分辨率、添加细节)。所有层级共享一个统一的码本和一个双向Transformer解码器。 创新点:与已有方法相比,CoD首次将时间维度的粗到细建模显式引入TTS生成过程。它不依赖独立的音素时长预测器,而是让最低时间层级自然完成音素规划。同时,采用共享解码器的设计提升了参数效率。 实验结果:在LibriSpeech test-clean上,CoD-Base(263M参数)WER为3.09%,优于同等数据量下的KD-NARSIS(5.9%)和StyleTTS 2(4.0%)。在SeedTTS测试集上,CoD-Base(263M参数)WER为2.89%,与参数量近4倍的MaskGCT(1B,2.62%)性能相当。消融研究证实,增加时间层级数能显著降低WER。 实际意义:CoD框架以更少的参数实现了具有竞争力的合成质量,证明了显式时间动态建模的有效性,为构建更高效、更自然的TTS系统提供了新思路。 主要局限性:评估体系不完整,缺乏MOS等主观评价指标,无法全面评估语音自然度和韵律质量;未报告推理速度等效率指标;对更长时间层级(如4级)的效果未深入探索。 🏗️ 模型架构 CoD框架遵循一个两阶段流程:1)音频离散化,2)基于掩码的生成建模。核心创新在于第二阶段采用了级联的多时间层级结构。 ...

2026-04-23 · 更新于 2026-06-15 · 2 min · 266 words

Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model

📄 Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model #语音分离 #自回归模型 #流式处理 #实时处理 #语音大模型 🔥 8.5/10 | 前25% | #语音分离 | #自回归模型 | #流式处理 #实时处理 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Shuhai Peng (1) 通讯作者:Zhiyong Wu (1,†) 作者列表: Shuhai Peng (1) Hui Lu (2) Jinjiang Liu (1) Liyang Chen (1) Guiping Zhong (3) Jiakui Li (3) Huimeng Wang (2) Haiyun Li (1) Liang Cao (1) Shiyin Kang (3) Zhiyong Wu (1,†) 机构信息:论文中未明确给出机构1、2、3的具体名称。根据作者上标标注,作者分属三个不同机构。 💡 毒舌点评 这篇论文的亮点在于首次将自回归生成模型成功适配到流式目标说话人提取任务中,并通过“分块交错拼接”这一工程上优雅的设计解决了训练与推理的不匹配问题,实现了100%的推理稳定性,且性能在低延迟下超越了传统判别式模型。然而,其短板也十分明显:所有实验均在单一的Libri2Mix数据集上进行,对于更复杂、噪声更多样的真实场景(如远场、强混响)的泛化能力未得到验证,这使得其“超越离线基线”的结论显得有些封闭和乐观。 ...

2026-04-23 · 更新于 2026-06-15 · 2 min · 316 words

BEAT: Tokenizing and Generating Symbolic Music by Uniform Temporal Steps

📄 BEAT: Tokenizing and Generating Symbolic Music by Uniform Temporal Steps #音乐生成 #自回归模型 #实时处理 #数据集 #音频生成 🔥 评分:8.5/10 | arxiv 👥 作者与机构 根据论文标题页信息,作者为: 第一作者:Lekai Qian 通讯作者:Ziyu Wang (根据常规学术论文作者排序惯例推断,论文未明确标注) 其他作者:Haoyu Gu, Jingwei Zhao 论文未明确标注作者所属机构。根据arXiv论文的常见情况及作者姓名推测,作者可能来自中国的高校或研究机构(如清华大学、北京大学、中国科学院等),但论文正文中未提供明确信息。 💡 毒舌点评 亮点:把钢琴卷帘(Piano-roll)这种“笨重”的2D表示,巧妙地“压扁”成按拍(beat)分组的稀疏token序列,既保留了时间网格的规整性,又获得了堪比事件序列的紧凑性,这个“鱼与熊掌兼得”的思路非常优雅。 槽点:模型规模(150M)相对保守,在当今大模型时代略显“迷你”,限制了其性能上限和作为通用音乐表示的潜力;此外,实验主要集中在西方音乐传统(MIDI, 4/4拍),对其他音乐文化的普适性有待验证。 🔗 开源详情 代码:论文明确提供了GitHub仓库链接 (https://anonymous.4open.science/w/BEAT-349F/),表明代码将开源。 模型权重:论文提及了在线Demo页面,暗示预训练模型权重可能随代码一同发布。 数据集:使用了公开的Lakh MIDI Dataset和MuseScore Collection,但经过了特定的过滤和处理。论文未提及发布新的数据集。 在线 Demo:提供了匿名Demo页面 (https://anonymous.4open.science/w/BEAT-349F/) 供体验。 依赖的开源项目:论文中提及了MusPy(用于评估)、LLaMA(作为模型架构参考)等开源工具。 📌 核心摘要 本文针对符号音乐生成中主流的事件序列(event-based)tokenization方法隐含处理时间规律、导致模型需额外学习时间网格的问题,提出了一种名为BEAT的新型网格化tokenization框架。其核心思想是将音乐在时间上均匀离散化为“拍”(beat)作为基本单位,将每拍内每个音高的活动状态(起音、持续、静音)编码为一个“模式”(pattern)令牌,并与音高、力度信息组合,形成按拍组织的稀疏令牌序列。这种方法显式地融入了音乐时间均匀性的归纳偏置。实验表明,在音乐续写和实时伴奏生成任务上,BEAT在节奏一致性(JS GC)、分布相似性(FMD)等客观指标和主观听感评价上均优于REMI、Compound Word等基线方法。进一步分析显示,BEAT表示更紧凑、具有更好的可压缩性,能更有效地捕捉长程结构,并天然支持实时流式生成。该工作为符号音乐表示学习提供了一个兼具理论优雅性和实践有效性的新方向。 🏗️ 模型架构 BEAT的核心并非一个全新的模型架构,而是一种新的音乐表示(tokenization)方案,该方案可无缝接入标准的自回归Transformer语言模型。 完整输入输出流程: 输入:多轨符号音乐(如MIDI),被表示为三维张量 (轨道数 P, 时间步数 T) 的钢琴卷帘矩阵,每个元素取值 {0(静音), 1(起音), 2(持续)},并附带力度信息。 编码阶段(BEAT Encoding): 步骤1(拍内编码):以固定时间步长 τ(默认为4个十六分音符,即一拍)将钢琴卷帘分割为 N 个“拍段” B(i)。对于每个拍段内的每个音高 p,将其 τ 个时间步的状态向量通过三进制转整数编码为一个“模式令牌” PAT_x。同时,计算该音高在此拍内的平均力度,编码为“力度令牌” VEL_x。 步骤2(拍级组装):识别当前拍段内的活跃音高集合,按音高降序排列。第一个音高使用绝对音高索引作为“音高令牌” PIT_d,后续音高使用与前一音高的相对音程差作为音高令牌。这样,一个拍的内容被表示为一组 (PIT_d, PAT_s, VEL_v) 三元组的序列。若该拍全休止,则用一个特殊的 REST 令牌表示。 步骤3(序列构建):在每个拍的序列前插入 BEAT 令牌作为分隔符。在每小节开始处插入 BAR 令牌。对于多轨音乐,在每个拍的轨道内容前插入乐器令牌 INS_x。最终,所有拍的序列按时间顺序拼接,形成完整的令牌序列。 建模阶段:将上述令牌序列输入标准的16层Transformer解码器(150M参数,遵循LLaMA架构),使用自回归方式建模令牌的联合概率分布,训练时最小化交叉熵损失。 输出与解码:模型自回归生成令牌序列。解码器通过识别绝对/相对音高令牌来重建拍段和钢琴卷帘,最终还原为可播放的符号音乐。 关键设计选择理由: ...

2026-04-22 · 更新于 2026-06-15 · 2 min · 335 words

Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model

📄 Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model #语音分离 #自回归模型 #流式处理 #大语言模型 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Shuhai Peng(推断为小米或合作机构) 通讯作者:Zhiyong Wu(推断为小米或合作机构) 其他作者:Hui Lu, Jinjiang Liu, Liyang Chen, Guiping Zhong, Jiakui Li, Huimeng Wang, Haiyun Li, Liang Cao, Shiyin Kang 机构信息:论文未明确标注所有作者的所属机构。根据作者列表和常见合作模式,作者可能来自小米公司(Xiaomi)、香港中文大学(The Chinese University of Hong Kong) 或其他合作研究机构。具体实验室/课题组信息未在提供的文本中说明。 💡 毒舌点评 亮点:精准地抓住了生成式TSE模型流式化时“一跑就崩”的痛点,用“交织拼接”这招巧妙地给模型戴上了“因果紧箍咒”,硬是把一个“离线学霸”改造成了“实时能手”,稳定性拉满。槽点:方法创新更像是针对现有大模型(LauraGPT)的“工程适配”和“流程优化”,理论深度稍显不足;而且说好的开源代码“将在GitHub上”,目前还是一张空头支票。 🔗 开源详情 代码:论文在结论部分声明“我们的代码将在GitHub上开源”,但当前arXiv版本未提供具体URL。状态为承诺开源,暂未发布。 模型权重:未提及是否公开预训练模型权重。 数据集:实验基于公开的LibriSpeech和Libri2Mix数据集生成。 预训练权重:使用了预训练的funcodec作为声学编解码器,以及LauraGPT作为生成主干。 在线Demo:未提及。 依赖的开源项目:明确提到了LauraGPT、funcodec、WavLM、WeSpeaker、Whisper(用于计算WER)等。 📌 核心摘要 这篇论文旨在解决生成式目标说话人提取(TSE)模型在流式实时应用中因依赖全局上下文而导致性能严重下降的核心问题。作者首次提出了一个基于自回归语言模型(LauraGPT)的流式TSE框架。其核心创新是“分块交织拼接范式”,通过将混合音频块与对应的目标语音离散编码块交错排列作为模型输入,严格保证了推理的因果性,防止了未来信息泄露。同时,设计了“历史上下文优化机制”,在声码器解码阶段引入前一音频块的隐藏状态,以缓解块间的相位不连续问题。实验表明,该方法在低延迟(如560ms)下实现了100%的推理成功率,语音质量和可懂度优于基线生成模型,并能匹配甚至超越离线判别式模型的性能,且在消费级GPU上达到了0.248的实时率(RTF)。该工作证明了自回归生成模型适用于低延迟流式应用的可行性。 🏗️ 模型架构 模型整体采用基于LauraGPT的粗到细(coarse-to-fine)分层架构,处理流程如下: 输入:一段包含目标说话人和干扰的混合语音(被切分为连续的音频块 C_mix),以及一段目标说话人的参考语音 E_ref。 共享特征提取:混合语音块和参考语音分别通过两个权重共享、严格因果的Conformer编码器,提取帧级别的连续嵌入表示 E_mix 和 E_ref。这确保了特征提取只依赖当前和历史信息。 语义提取语言模型(SELM): 输入构造:将静态的参考语音嵌入 E_ref 与一个特殊分隔符 v_sep 作为前缀,后面交织拼接历史所有的混合语音块和它们对应的目标语音离散语义令牌(C_mix(1), v_task, u(1), ..., C_mix(t), v_task, u(t))。 功能:这是一个自回归Transformer模型,负责预测当前音频块对应的粗粒度语义离散令牌序列 u(t)。其自注意力机制被限制在交织的序列上,保证了因果性。 声学细化语言模型(ARLM): 输入构造:同样以参考语音为静态前缀,后面交织拼接历史所有的混合语音块和它们对应的、由SELM预测出的语义令牌序列(C_mix(1), U_SELM(1), ..., C_mix(t), U_SELM(t))。 功能:另一个自回归Transformer模型,负责在SELM输出的粗粒度语义令牌基础上,生成细粒度的声学隐藏状态 h(t),以恢复高频细节和提升音质。 声码器解码与历史上下文优化: 输入构造:解码器的输入不仅是当前块的声学隐藏状态 h(t),还拼接了上一时刻优化后的隐藏状态 h(t-1),即 Concat(h(t-1), h(t))。 功能:一个预训练的神经声码器(funcodec的解码器部分),将细粒度的声学隐藏状态重建为最终的语音波形。引入 h(t-1) 的目的是平滑块间过渡,保持相位和语义连贯性。 输出:当前时间块的目标语音波形。 关键设计理由: ...

2026-04-22 · 更新于 2026-06-15 · 2 min · 338 words