VoXtream: Full-Stream Text-To-Speech With Extremely Low Latency

📄 VoXtream: Full-Stream Text-To-Speech With Extremely Low Latency #语音合成 #自回归模型 #流式处理 #零样本 🔥 8.5/10 | 前25% | #语音合成 | #自回归模型 | #流式处理 #零样本 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Nikita Torgashov(KTH皇家理工学院,语音、音乐与听觉系) 通讯作者:未说明 作者列表:Nikita Torgashov(KTH皇家理工学院,语音、音乐与听觉系)、Gustav Eje Henter(KTH皇家理工学院,语音、音乐与听觉系)、Gabriel Skantze(KTH皇家理工学院,语音、音乐与听觉系) 💡 毒舌点评 亮点:这篇论文最精妙的地方在于,它通过将文本编码器(Phoneme Transformer)设计为增量式,并限制了前瞻长度,巧妙地实现了“收到一个词就开口说”的极低延迟,同时利用单调对齐和分层预测保证了合成质量的连贯性。短板:尽管模型效率很高,但训练数据规模(9k小时)在当下这个“数据为王”的大模型时代只能算中等,这可能限制了其在超大规模、多语言或更复杂说话风格下的泛化能力上限,论文也承认了数据规模是未来工作之一。 📌 核心摘要 问题:当前流式文本转语音(TTS)系统存在较高的初始延迟(从输入文本到发出第一个音素的时间),或需要复杂的多阶段流水线,影响了实时交互体验。 方法核心:提出VoXtream,一个完全自回归的零样本流式TTS模型。其核心是一个三层Transformer架构:(1) 增量音素Transformer(PT)逐步编码输入文本并允许有限前瞻;(2) 时间Transformer(TT)基于音素和过去音频预测语义令牌和时长令牌;(3) 深度Transformer(DT)基于前两者生成声学令牌。关键设计是基于“停留/切换”标志的单调音素对齐预测。 创新点:与先前工作相比,VoXtream首次实现了从接收到第一个词就开始生成语音的增量处理模式,无需等待整个句子或固定数量的未来词。它将文本编码、时序预测和声学生成解耦到三个专用模块中,平衡了延迟与质量。 实验结果:在公开流式TTS模型中达到了最低的首次分组延迟(FPL):102ms(使用torch.compile加速后)。在9k小时数据上训练,其质量(WER, SPK-SIM, UTMOS)可与甚至超越许多使用更大规模数据训练的非流式和流式基线模型。在主观MUSHRA评测中,其流式版本的自然度与部分非流式模型相当。在长文本流式场景下,其自然度显著优于CosyVoice2。 实际意义:为需要极低延迟响应的实时语音应用(如语音助手、同步翻译、对话AI)提供了一个高效且高质量的解决方案,推动了流式语音合成技术的实用化。 主要局限性:训练数据规模(9k小时)中等;在零样本说话人相似度上,仍低于使用更大规模数据和非自回归解码器(如流匹配)的顶级模型(如CosyVoice2);长文本流式合成的稳定性有待进一步验证。 🏗️ 模型架构 VoXtream的架构(见图1)旨在实现从文本流到音频流的端到端、低延迟转换。它由三个核心Transformer模块组成,数据流如下: 图1:VoXtream架构概览。输入文本流被增量地送入Phoneme Transformer(PT)。PT结合有限的未来音素(Look-Ahead)进行编码。其输出被送入时间Transformer(TT),TT联合预测语义令牌(来自Mimi编码器的第一码本)和时长令牌(包含“停留/切换”标志及发音速度信息)。TT的输出和语义令牌被送入深度Transformer(DT),DT结合说话人嵌入,自回归地生成剩余的声学令牌(来自Mimi编码器的第2-12码本)。最后,Mimi解码器将每帧的语义和声学令牌转换为波形。 组件详解: 音素Transformer(Phoneme Transformer, PT):这是一个解码器风格的Transformer,负责将输入的音素序列编码为隐藏表示。其核心创新是增量处理:每收到一个新词,就将其音素加入输入序列并更新隐藏状态,而不是等待整个句子。为了提升韵律自然度,允许PT“向前看”最多N个音素(Look-Ahead, LA),但这个前瞻是有限且延迟最小化的——模型在收到第一个词后立即开始输出,前瞻仅影响后续生成,不阻塞启动。 时间Transformer(Temporal Transformer, TT):这是系统的自回归核心,以步进方式工作。在每个时间步(对应Mimi编码器的一个音频帧,12.5Hz),TT接收:a) 过去生成的音频令牌(第一码本,语义令牌);b) 由MFA对齐工具得到的、与当前时间步对齐的音素序列及其隐藏状态(来自PT)。TT输出两个分类结果: 语义令牌:Mimi编码器的第一码本令牌,代表当前帧的语音内容。 时长令牌:一个二元组 (shift_flag, phoneme_count)。shift_flag(1或0)是“停留/切换”标志,指示下一帧是继续发当前音素(0,停留)还是切换到下一个音素(1,切换)。phoneme_count(1或2)表示当前帧对应的音素数量,用于控制语速(1个音素=慢,2个音素=快)。这种设计实现了单调对齐,确保音频和文本的进度严格同步。 深度Transformer(Depth Transformer, DT):在TT预测出当前帧的语义令牌后,DT负责填充该帧的其余声学细节。它是一个更小的自回归Transformer,以TT的输出嵌入、当前的语义令牌以及一个预训练的说话人嵌入(来自ReDimNet)为条件,自回归地生成Mimi编码器的第2至第12码本的声学令牌。这些令牌共同描述了该帧的详细声学特征。 音频编解码器(Mimi):采用预训练的Mimi流式编解码器。编码器将24kHz的波形编码为多码本令牌(12个码本,帧率12.5Hz)。TT预测第一码本(语义),DT预测其余码本(声学)。解码器能以流式方式将每帧的令牌转换为80ms的音频波形。 整体流程:文本流 → 音素流 → PT增量编码 → TT逐帧预测语义+时长令牌 → DT逐帧填充声学令牌 → Mimi解码器流式输出波形。整个过程是纯自回归的,且文本输入和音频输出是交织进行的,因此实现了极低的首次分组延迟。 ...

2026-04-29

WhisperPipe: A Resource-Efficient Streaming Architecture for Real-Time Automatic Speech Recognition

📄 WhisperPipe: A Resource-Efficient Streaming Architecture for Real-Time Automatic Speech Recognition #语音识别 #流式处理 #端到端 #实时处理 #低资源 ✅ 6.5/10 | 前50% | #语音识别 | #流式处理 | #端到端 #实时处理 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Erfan Ramezani(论文中未提及所属机构) 通讯作者:论文中未说明 作者列表:Erfan Ramezani(未说明),Mohammad Mahdi Giahi(未说明),Mohammad Erfan Zarabadipour(未说明),Amir Reza Yosefian(未说明),Hamid Ghadiri(未说明) 💡 毒舌点评 亮点:精准抓住了将Whisper这类离线大模型转为流式应用的核心痛点(内存与延迟),提出的动态缓冲和混合VAD方案有明确的工程价值,实验数据也显示了内存控制方面的显著改善。 短板:论文描述中的创新更多是系统层面的模块组合与优化,缺乏在核心识别模型本身的理论或架构突破;且2.5小时的测试集对于验证“多样性”和“长期稳定性”来说说服力有限。 📌 核心摘要 这篇论文旨在解决将大规模Transformer语音识别模型(如Whisper)应用于实时流式场景时,面临的准确率与计算效率(特别是内存占用)之间的根本矛盾。其核心方法是提出WhisperPipe,一个通过混合VAD、动态重叠缓冲和自适应处理策略来实现的流式架构,目标是在保证转录质量的同时,实现有界内存消耗和低延迟。与现有方法相比,其新在于系统性地将语音端点检测、上下文管理和计算调度三个环节进行联合优化,以平衡实时性与准确性。主要实验结果表明,在2.5小时数据上,WhisperPipe实现了89毫秒的中位端到端延迟,峰值GPU内存减少48%,平均GPU利用率降低80.9%,并在150分钟连续运行中内存使用保持稳定。该工作的实际意义在于为在边缘设备到云基础设施的各类资源受限环境中部署高质量实时ASR提供了可行的工程方案。主要局限性在于评估数据集的规模和多样性可能不足以全面代表所有真实场景,且论文未提供与其他主流流式ASR系统(如基于Conformer的流式模型)在相同基准下的全面对比。 🏗️ 模型架构 论文未提供WhisperPipe的详细架构图或模块化分解。根据摘要描述,其架构是一个针对流式处理的系统级设计,核心是在标准Whisper模型之上构建了一个预处理与调度层。 完整输入输出流程:输入为连续音频流,输出为带时间戳的文本流。音频流首先经过混合VAD模块进行语音/非语音检测,随后进入动态缓冲区,最后送入Whisper模型进行识别。 主要组件: 混合VAD管道:结合Silero VAD(基于神经网络)与能量过滤。功能是减少静音段的误触发,降低无效计算。论文称此方案降低了34%的误激活。 动态缓冲与重叠上下文窗口:这是实现“有界内存”的关键。该机制在将音频分段送入模型时,会在相邻段之间维持一定重叠,以防止在段边界处丢失上下文信息,同时避免了无限制的历史上下文积累所导致的内存增长。 自适应处理策略:根据当前语音片段的特征(如是否为语音、语速等)动态调整处理延迟和准确性之间的权衡。 数据流:音频流 → 混合VAD判断 → 动态分段与缓冲(可能重叠) → 送入Whisper模型识别 → 输出文本。其设计动机是解耦“何时处理”和“处理什么”这两个决策,使系统能灵活应对流式输入。 💡 核心创新点 混合VAD管道(Silero + 能量过滤): ...

2026-04-29

Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation

📄 Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation #音视频 #扩散模型 #知识蒸馏 #流式处理 #实时处理 🔥 8.5/10 | 前25% | #音视频 | #扩散模型 | #知识蒸馏 #流式处理 | arxiv 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Chunyu Li(上海创新研究院, 复旦大学) , Jiaye Li(复旦大学) *并列第一 通讯作者:Siyu Zhu(复旦大学) 作者列表: Chunyu Li(上海创新研究院, 复旦大学) Jiaye Li(复旦大学) Ruiqiao Mei(复旦大学) Haoyuan Xia(复旦大学, 中国科学技术大学) Hao Zhu(南京大学) Jingdong Wang(百度) Siyu Zhu(复旦大学) 💡 毒舌点评 亮点:论文精准瞄准了当前音视频数字人模型“慢”和“蒸馏后变糊”的两大痛点,用“未来扩展注意力”这个巧妙设计让模型“偷看”未来几帧音频来预判唇形,同时用多模态奖励加权的蒸馏方法“择优录取”,最终在H200上跑出了20 FPS、延迟不足1秒的惊人速度,且质量损失可控。短板:尽管速度飞起,但在同步性(Sync-C)和语音识别准确率(WER)等绝对指标上,依然能看到与教师模型Ovi的明显差距,而且论文并未与另一个强劲的实时竞争者OmniForcing进行正面比较,说服力稍打折扣。 ...

2026-04-28

MAGIC-TTS: Fine-Grained Controllable Speech Synthesis with Explicit Local Duration and Pause Control

📄 MAGIC-TTS: Fine-Grained Controllable Speech Synthesis with Explicit Local Duration and Pause Control #语音合成 #流匹配 #零样本 #可控合成 #流式处理 ✅ 7.0/10 | 前25% | #语音合成 | #流匹配 | #零样本 #可控合成 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Jialong Mai(华南理工大学) 通讯作者:Xiaofen Xing(华南理工大学) 作者列表:Jialong Mai(华南理工大学)、Xiaofen Xing(华南理工大学,通讯作者)、Xiangmin Xu(华南理工大学) 💡 毒舌点评 这篇论文精准地瞄准了现代TTS系统中一个被忽视但实际应用中很关键的痛点——缺乏token级别的精细时长和停顿控制,并为此设计了一套从数据准备到训练机制的系统性解决方案,实验也做得很扎实。其短板也很明显:为了获得这种控制能力,模型在无控制的“自发合成”模式下,语音识别错误率(WER/CER)有明显上升,这表明精细控制与生成自然度之间存在一个不容忽视的权衡,而且目前没有任何开源迹象。 📌 核心摘要 解决的问题:现有的文本到语音(TTS)系统通常只能提供句子级的语速或时长控制,缺乏对每个token(音素或字符)内容发音时长和停顿时长的显式、精细控制能力,这限制了需要精确节奏控制的应用场景。 方法核心:提出了MAGIC-TTS,一种基于流匹配(Flow Matching)的零样本TTS模型。其核心是在文本表示中显式注入每个token的内容时长(d_i)和停顿时长(p_i)作为条件。通过精心设计的两阶段训练(大规模时长条件预训练+高置信度时长监督微调)、零值校正(使零时长输入不产生残差)和缺失控制鲁棒性训练(随机丢弃时长条件),使模型既能可靠地遵循时长指令,又能在无时长指令时保持自然合成。 与已有方法相比新在哪里:与现有提供全局语速或风格控制的系统不同,MAGIC-TTS是首个提供显式、token级内容时长和停顿控制的TTS模型。与一些将时长作为内部中间变量的系统不同,它将时长设计为外部可直接操控的高置信度条件,而非需要隐式推断的潜在变量。 主要实验结果: 在时长控制准确性上,提供显式时长条件后,内容时长MAE从36.88ms降至10.56ms,相关性从0.588提升至0.918;停顿MAE从18.92ms降至8.32ms(详见表1)。 在局部编辑基准测试中,模型能根据指令调整局部时长,例如将目标内容时长从170ms编辑为225ms后,实现均值为207.40ms(绝对偏差17.60ms)(详见表2)。 消融实验表明,零值校正和高置信度时长监督对提升内容时长控制精度至关重要(详见表3)。 关键权衡:在无控制模式下,与同等规模持续预训练的基线相比,最终模型的英文WER从1.994升至3.434,中文CER从1.772升至2.215(详见表7)。 实际意义:为需要精确节奏控制的语音生成场景(如导航提示、引导式朗读、无障碍辅助阅读代码/验证码)提供了解决方案,能够实现可复现的均匀节奏基线,并支持局部编辑。 主要局限性:获得精细控制能力的代价是无控制模式下的合成质量(清晰度)有所下降;评估依赖于MFA强制对齐,存在测量误差;论文未提及代码和模型的开源。 🏗️ 模型架构 MAGIC-TTS建立在非自回归的零样本TTS骨干网络(F5-TTS)之上,该骨干基于条件流匹配(Conditional Flow Matching)生成梅尔频谱图。 ...

2026-04-28

Hierarchical Policy Optimization for Simultaneous Translation of Unbounded Speech

📄 Hierarchical Policy Optimization for Simultaneous Translation of Unbounded Speech #语音翻译 #强化学习 #大语言模型 #多语言 #流式处理 ✅ 7.5/10 | 前25% | #语音翻译 | #强化学习 | #大语言模型 #多语言 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:未说明 通讯作者:未说明 作者列表:Siqi Ouyang(未说明)、Shuoyang Ding(未说明)、Oleksii Hrinchuk(未说明)、Vitaly Lavrukhin(未说明)、Brian Yan(未说明)、Boris Ginsburg��未说明)、Lei Li(未说明) 💡 毒舌点评 这篇论文精准地抓住了LLM应用于同声传译时“数据质量差”和“计算开销大”这两个落地痛点,并用一套设计精巧的后训练策略(HPO)给出了有效的解决方案,实验结果也足够亮眼。不过,其核心创新更多是针对特定问题的优化框架组合,而非提出一种全新的模型架构或学习范式,对“如何生成高质量合成数据”这一上游问题本身并未深入探索。 📌 核心摘要 要解决什么问题:大语言模型(LLM)能显著提升同声传译(SST)质量,但计算开销巨大。现有通过将SST重构为多轮对话来复用KV缓存的方法,严重依赖高质量的监督微调(SFT)数据,而这类数据稀缺且合成方法难以保证质量。 方法核心是什么:提出分层策略优化(HPO)框架,用于后训练在不完美SFT数据上训练的模型。核心是引入一个分层奖励函数,同时优化翻译质量(使用COMET等指标)和延迟(如等待时间)这两个相互冲突的目标。 与已有方法相比新在哪里:不同于直接使用SFT或简单的强化学习微调,HPO通过分层奖励设计,更精细地平衡了质量与延迟。它不依赖完美的初始对话数据,而是通过后训练对现有模型进行优化,是一种更实用、鲁棒的训练范式。 主要实验结果如何:在英译中、德、日的任务上,HPO方法在1.5秒的平均延迟下,相比强基线取得了超过+7 COMET分数和+1.25 MetricX分数的显著提升。消融研究验证了不同质量奖励、分层奖励公式和分段策略的有效性。 实际意义是什么:该方法降低了部署高质量LLM-SST系统的门槛和成本,使得在资源受限或需要实时响应的场景下应用先进翻译模型成为可能,推动了SST技术的实用化。 主要局限性是什么:论文中未明确讨论。可能包括:对基础模型质量有一定依赖;分层奖励的设计需要针对具体任务进行调优;在极低延迟或极端语音条件下的表现有待进一步验证。 🏗️ 模型架构 论文的核心是训练框架而非全新的模型架构,它基于一个已有的、用于SST的LLM架构进行后训练优化。 图1展示了将同声传译(SST)任务重新表述为多轮对话的过程。源语音被分段输入,模型在生成翻译片段的同时,可以复用之前计算过的KV缓存,避免了重复计算,从而降低延迟和计算成本。这是本文工作的基础范式。 图2是本文提出的HPO框架的核心示意图。它显示了在基础SST模型之上,引入一个分层奖励(Hierarchical Reward) 机制。该奖励由两部分组成: ...

2026-04-24

FastTurn: Unifying Acoustic and Streaming Semantic Cues for Low-Latency and Robust Turn Detection

📄 FastTurn: Unifying Acoustic and Streaming Semantic Cues for Low-Latency and Robust Turn Detection #语音对话系统 #流式处理 #多任务学习 #大语言模型 #鲁棒性 🔥 8.0/10 | 前25% | #语音对话系统 | #流式处理 | #多任务学习 #大语言模型 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Chengyou Wang(Audio, Speech and Language Processing Group (ASLP@NPU)) 通讯作者:未说明 作者列表: Chengyou Wang(Audio, Speech and Language Processing Group (ASLP@NPU)) Hongfei Xue(Audio, Speech and Language Processing Group (ASLP@NPU)) Chunjiang He(Audio, Speech and Language Processing Group (ASLP@NPU)) Jingbin Hu(Audio, Speech and Language Processing Group (ASLP@NPU)) Shuiyuan Wang(Audio, Speech and Language Processing Group (ASLP@NPU)) Bo Wu(Audio, Speech and Language Processing Group (ASLP@NPU)) Yuyu Ji(Audio, Speech and Language Processing Group (ASLP@NPU)) Jimeng Zheng(Audio, Speech and Language Processing Group (ASLP@NPU)) Ruofei Chen(Audio, Speech and Language Processing Group (ASLP@NPU)) Zhou Zhu(Audio, Speech and Language Processing Group (ASLP@NPU)) Lei Xie(Audio, Speech and Language Processing Group (ASLP@NPU)) 注:作者列表后标注了所属机构“1 Audio, Speech and Language Processing Group (ASLP@NPU) 2 Shengwang 3 QualiaLabs”,但论文正文中未明确将每位作者与具体机构(2, 3)进行一一对应,因此统一按第一作者所在机构列出。 💡 毒舌点评 亮点:论文巧妙地通过“FastTurn-Cascaded -> FastTurn-Semantic -> FastTurn-Unified”的三阶段演进,清晰地展示了如何在低延迟(利用流式CTC)和高鲁棒性(融合声学特征)之间进行工程权衡,并发布了一个标注详实、贴近真实对话的测试集,这对该领域的研究很有价值。 短板:核心创新更多是现有技术(CTC, LLM, Conformer)的系统集成和训练策略设计,而非提出全新的模型架构或理论;此外,论文在英文数据上的效果(表3)并未超越已有基线(Para.+Ten Turn),显示其优势可能更集中于中文场景或特定测试集。 ...

2026-04-23

Reducing the Offline-Streaming Gap for Unified ASR Transducer with Consistency Regularization

📄 Reducing the Offline-Streaming Gap for Unified ASR Transducer with Consistency Regularization #语音识别 #端到端 #流式处理 #统一音频模型 #模型评估 ✅ 7.5/10 | 前25% | #语音识别 | #端到端 | #流式处理 #统一音频模型 | arxiv 学术质量 7.5/7 | 选题价值 0.8/2 | 复现加成 0.2 | 置信度 高 👥 作者与机构 第一作者:Andrei Andrusenko (NVIDIA, Armenia) 通讯作者:未说明 作者列表: Andrei Andrusenko (NVIDIA, Armenia) Vladimir Bataev (NVIDIA, Armenia) Lilit Grigoryan (NVIDIA, Armenia) Nune Tadevosyan (NVIDIA, Armenia) Vitaly Lavrukhin (NVIDIA, Armenia) Boris Ginsburg (NVIDIA, USA) 💡 毒舌点评 亮点:MCR-RNNT正则化方法设计巧妙,通过强制离线和流式模式在RNNT联合网络输出层面保持一致,有效缓解了低延迟下的性能崩塌,且其实现的Triton内核保证了训练效率。短板:尽管在多个延迟点上取得了SOTA,但在极端低延迟(如0.16s)场景下,统一模型仍略逊于专门为流式优化的基线,表明“统一”与“极致性能”之间仍存在根本性张力。 ...

2026-04-23

Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model

📄 Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model #语音分离 #自回归模型 #流式处理 #实时处理 #语音大模型 🔥 8.5/10 | 前25% | #语音分离 | #自回归模型 | #流式处理 #实时处理 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Shuhai Peng (1) 通讯作者:Zhiyong Wu (1,†) 作者列表: Shuhai Peng (1) Hui Lu (2) Jinjiang Liu (1) Liyang Chen (1) Guiping Zhong (3) Jiakui Li (3) Huimeng Wang (2) Haiyun Li (1) Liang Cao (1) Shiyin Kang (3) Zhiyong Wu (1,†) 机构信息:论文中未明确给出机构1、2、3的具体名称。根据作者上标标注,作者分属三个不同机构。 💡 毒舌点评 这篇论文的亮点在于首次将自回归生成模型成功适配到流式目标说话人提取任务中,并通过“分块交错拼接”这一工程上优雅的设计解决了训练与推理的不匹配问题,实现了100%的推理稳定性,且性能在低延迟下超越了传统判别式模型。然而,其短板也十分明显:所有实验均在单一的Libri2Mix数据集上进行,对于更复杂、噪声更多样的真实场景(如远场、强混响)的泛化能力未得到验证,这使得其“超越离线基线”的结论显得有些封闭和乐观。 ...

2026-04-23

X-VC: Zero-shot Streaming Voice Conversion in Codec Space

📄 X-VC: Zero-shot Streaming Voice Conversion in Codec Space #语音转换 #流匹配 #零样本 #流式处理 ✅ 6.5/10 | 前25% | #语音转换 | #流匹配 | #零样本 #流式处理 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Qixi Zheng(上海交通大学) 通讯作者:Xie Chen(上海交通大学,上海创新研究院) 作者列表: Qixi Zheng(上海交通大学) Yuxiang Zhao(上海交通大学) Tianrui Wang(天津大学) Wenxi Chen(上海交通大学,上海创新研究院) Kele Xu(复杂与关键软件环境国家重点实验室) Yikang Li(上海创新研究院) Qinyuan Chen(复旦大学,上海创新研究院) Xipeng Qiu(复旦大学,上海创新研究院) Kai Yu(上海交通大学) Xie Chen(上海交通大学,上海创新研究院) 💡 毒舌点评 亮点:论文的工程实现非常扎实,将预训练编解码器、双条件Transformer和分块推理整合成一个高效的流式系统,在延迟(240ms)和离线效率(RTF 0.014)上达到了实用水平,且开源了代码和模型。 短板:核心创新略显“缝合”,双条件建模和流匹配都是已有技术,论文的主要贡献在于针对特定任务的适配和系统集成,缺乏更根本性的原理突破;同时,与之对比的基线(如MeanVC)可能并非最新或最强,削弱了结论的说服力。 📌 核心摘要 问题:零样本语音转换需要同时实现高质量的说话人特征迁移和低延迟的流式推理,这是一个尚未很好解决的挑战。 方法核心:提出X-VC系统,在预训练的SAC语音编解码器的潜在空间中进行一步转换。核心是一个双条件声学转换器,它联合处理源语音的编解码器潜在表示和目标参考语音的帧级梅尔频谱条件,并通过自适应归一化注入全局说话人嵌入。 创新点:与已有方法相比,新在:(1) 在编解码器潜在空间而非波形或频谱图空间进行转换;(2) 设计了双分支Transformer架构来异构地建模帧级和句级条件;(3) 提出了基于生成对数据和角色分配策略的训练方法;(4) 设计了与编解码器分段训练范式对齐的分块流式推理方案。 实验结果:在Seed-TTS-Eval基准上,流式设置下,X-VC在英语和中文测试集上取得了最佳的WER(英语3.14%,中文2.65%)和领先的说话人相似度(SIM)。离线设置下,其实时因子(RTF)仅为0.014,远低于基线模型(如Seed-VC tiny为0.069)。跨语言评估也表现良好。 实际意义:提供了一种实用的高质量低延迟零样本语音转换方案,适用于需要实时交互的配音、对话等场景。 主要局限性:模型总参数量较大(539M);转换质量高度依赖预训练编解码器(SAC)的性能;论文未提供完整的训练数据集信息。 🏗️ 模型架构 X-VC是一个端到端的语音转换系统,整体流程如图1所示: ...

2026-04-23

Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model

📄 Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model #语音分离 #自回归模型 #流式处理 #大语言模型 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Shuhai Peng(推断为小米或合作机构) 通讯作者:Zhiyong Wu(推断为小米或合作机构) 其他作者:Hui Lu, Jinjiang Liu, Liyang Chen, Guiping Zhong, Jiakui Li, Huimeng Wang, Haiyun Li, Liang Cao, Shiyin Kang 机构信息:论文未明确标注所有作者的所属机构。根据作者列表和常见合作模式,作者可能来自小米公司(Xiaomi)、香港中文大学(The Chinese University of Hong Kong) 或其他合作研究机构。具体实验室/课题组信息未在提供的文本中说明。 💡 毒舌点评 亮点:精准地抓住了生成式TSE模型流式化时“一跑就崩”的痛点,用“交织拼接”这招巧妙地给模型戴上了“因果紧箍咒”,硬是把一个“离线学霸”改造成了“实时能手”,稳定性拉满。槽点:方法创新更像是针对现有大模型(LauraGPT)的“工程适配”和“流程优化”,理论深度稍显不足;而且说好的开源代码“将在GitHub上”,目前还是一张空头支票。 📌 核心摘要 这篇论文旨在解决生成式目标说话人提取(TSE)模型在流式实时应用中因依赖全局上下文而导致性能严重下降的核心问题。作者首次提出了一个基于自回归语言模型(LauraGPT)的流式TSE框架。其核心创新是“分块交织拼接范式”,通过将混合音频块与对应的目标语音离散编码块交错排列作为模型输入,严格保证了推理的因果性,防止了未来信息泄露。同时,设计了“历史上下文优化机制”,在声码器解码阶段引入前一音频块的隐藏状态,以缓解块间的相位不连续问题。实验表明,该方法在低延迟(如560ms)下实现了100%的推理成功率,语音质量和可懂度优于基线生成模型,并能匹配甚至超越离线判别式模型的性能,且在消费级GPU上达到了0.248的实时率(RTF)。该工作证明了自回归生成模型适用于低延迟流式应用的可行性。 🏗️ 模型架构 模型整体采用基于LauraGPT的粗到细(coarse-to-fine)分层架构,处理流程如下: 输入:一段包含目标说话人和干扰的混合语音(被切分为连续的音频块 C_mix),以及一段目标说话人的参考语音 E_ref。 共享特征提取:混合语音块和参考语音分别通过两个权重共享、严格因果的Conformer编码器,提取帧级别的连续嵌入表示 E_mix 和 E_ref。这确保了特征提取只依赖当前和历史信息。 语义提取语言模型(SELM): 输入构造:将静态的参考语音嵌入 E_ref 与一个特殊分隔符 v_sep 作为前缀,后面交织拼接历史所有的混合语音块和它们对应的目标语音离散语义令牌(C_mix(1), v_task, u(1), ..., C_mix(t), v_task, u(t))。 功能:这是一个自回归Transformer模型,负责预测当前音频块对应的粗粒度语义离散令牌序列 u(t)。其自注意力机制被限制在交织的序列上,保证了因果性。 声学细化语言模型(ARLM): 输入构造:同样以参考语音为静态前缀,后面交织拼接历史所有的混合语音块和它们对应的、由SELM预测出的语义令牌序列(C_mix(1), U_SELM(1), ..., C_mix(t), U_SELM(t))。 功能:另一个自回归Transformer模型,负责在SELM输出的粗粒度语义令牌基础上,生成细粒度的声学隐藏状态 h(t),以恢复高频细节和提升音质。 声码器解码与历史上下文优化: 输入构造:解码器的输入不仅是当前块的声学隐藏状态 h(t),还拼接了上一时刻优化后的隐藏状态 h(t-1),即 Concat(h(t-1), h(t))。 功能:一个预训练的神经声码器(funcodec的解码器部分),将细粒度的声学隐藏状态重建为最终的语音波形。引入 h(t-1) 的目的是平滑块间过渡,保持相位和语义连贯性。 输出:当前时间块的目标语音波形。 关键设计理由: ...

2026-04-22