FC-TTS: Style and Timbre Control in Zero-Shot Text-to-Speech with Disentangled Speech Representations

📄 FC-TTS: Style and Timbre Control in Zero-Shot Text-to-Speech with Disentangled Speech Representations #语音合成 #语音编码 ✅ 6.5/10 | 前50% | #语音合成 | #生成对抗网络 | #语音编码 | arxiv 学术质量 7.0/7 | 影响力 6.5/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 作者:Yoonhyung Lee, Hyunsin Park, Jinhwan Park, Jinkyu Lee 机构:Qualcomm AI Research (Qualcomm Technologies, Inc. 的一个倡议) 💡 毒舌点评 这篇工作瞄准了一个实际且重要的问题:如何从两个不同的参考音频中,独立控制零样本TTS的音色和风格。论文提出了一个相对清晰的框架(FC-TTS),并系统地设计了三个创新组件(两阶段生成、VQ-VAE风格编码、条件一致性损失)来解决这个问题,这体现了作者的思考深度。实验也较为全面,不仅在标准基准上评估,还在RAVDESS上专门设计了实验来验证解耦控制能力。然而,论文的“天花板”受限于它所依赖的FACodec解耦质量,这是所有基于解耦表示的TTS系统的共同软肋。更关键的是,论文在零样本TTS核心指标上并未展现出明确超越SOTA(如F5-TTS)的优势(UTMOS 4.22 vs 4.03,但SPK 0.60 vs 0.67),其提出的“独立控制”能力虽然新颖,但实验设计(特别是与VC系统和单参考F5-TTS的对比)在方法论上存在瑕疵,结论的说服力打了折扣。此外,代码和模型权重均未开源,对于一篇依赖外部预训练模型(FACodec)的工作来说,可复现性大打折扣。总体而言,这是一篇动机明确、方法设计有想法的工作,但在关键性能上缺乏突破,且受限于外部组件,整体贡献度中等。 📌 核心摘要 本文针对零样本TTS中从两个不同参考独立控制说话风格(韵律)和音色的挑战,提出了FC-TTS框架。该框架基于FACodec提供的解耦语音表示,通过三个关键设计增强独立控制的可靠性:1) 一个两阶段的谱图生成管道,首先生成锚定音色的模糊谱图,再通过条件流匹配解码器利用风格信息进行细化,以增强对未见过的音色-风格组合的鲁棒性;2) 一个基于VQ-VAE的层次化风格编码器(TCF模块),在音素和帧级别捕获细粒度且句内变化的风格信息;3) 一个条件一致性损失,将正则化扩展至多条件设置,通过预测器间的交叉条件输入来增强生成谱图在音色和风格上的一致性。实验表明,FC-TTS在LibriSpeech上与SOTA模型性能有竞争力,并在RAVDESS上展示了优于基线系统的独立音色和风格控制能力。 🔗 开源详情 代码:论文中未提及FC-TTS自身的代码链接。 模型权重:论文中未提及。 数据集: LibriHeavy:大规模英文语音数据集,遵循 Apache-2.0 许可证。获取链接:https://github.com/k2-fsa/libriheavy LibriSpeech:英文语音识别数据集,遵循 CC-BY 4.0 许可证。论文使用其test-clean子集进行评估。 RAVDESS:情感语音数据集,遵循 CC BY-NC-SA 4.0 许可证。论文用于评估风格与音色可控性。 Demo:https://qualcomm-ai-research.github.io/fc-tts 复现材料:论文在附录中提供了详细的模型架构超参数(Table 7)、训练超参数(Table 6)、训练与推理流程细节。 论文中引用的开源项目: FACodec:https://github.com/open-mmlab/Amphion/tree/main/models/codec/ns3_codec HiFi-GAN:https://github.com/jik876/hifi-gan (论文中提及使用) Gemini 2.5 Pro:https://huggingface.co/google/gemini-2.5-pro-preview (用于评估) UTMOS:https://huggingface.co/spaces/sarulab-speech/UTMOS-demo HuBERT:https://huggingface.co/facebook/hubert-large-ls960-ft UniSpeech-SAT (说话人验证):https://github.com/microsoft/UniSpeech/tree/main/downstreams/speaker_verification 🏗️ 方法概述和架构 FC-TTS的核心是利用预训练的FACodec解耦表示,在零样本TTS任务中实现音色和风格的独立控制。其架构如图1所示,主要包含以下组件和流程: ...

2026-05-27 · 更新于 2026-07-03 · 3 min · 508 words

Ultra-Low-Bitrate Mel-Spectrogram-based Neural Speech Coding with Flow-Matching-based Refinement and Vocoding-driven Reconstruction

📄 Ultra-Low-Bitrate Mel-Spectrogram-based Neural Speech Coding with Flow-Matching-based Refinement and Vocoding-driven Reconstruction #语音编码 🔥 8.1/10 | 前10% | #语音编码 | #语音编码 | arxiv 学术质量 8.1/7 | 影响力 8.5/2 | 可复现性 1.0/2 | 置信度 高 👥 作者与机构 作者:Hui-Peng Du, Yang Ai, Xiao-Hang Jiang, Yuan Tian, Zhen-Hua Ling 机构:中国科学技术大学,语音及语言信息处理国家工程研究中心 邮箱:redmist@mail.ustc.edu.cn, yangai@ustc.edu.cn 通讯作者:Yang Ai 💡 毒舌点评 这篇论文确实是在“卷”比特率的路上又往前迈了一大步,250 bps确实是个令人印象深刻的目标。三阶段CRR框架的思路很清晰:用激进的单码本VQ先压到一个“面目全非”的粗谱,再用CFM这个“画师”去精修细节,最后交给HiFi-GAN这个“化妆师”出片。在线聚类解决码本塌陷、自一致性损失减少ODE步数,这些技术点都是实打实的工程优化,值得肯定。然而,作为顶会审稿人,我不得不指出几个问题:首先,消融实验不够“狠”,没有对比更大码本的性能,也没深入分析OC-VQ中锚点采样策略的具体影响。其次,与FocalCodec的比较存在“田忌赛马”之嫌:FMelCodec是纯声学模型,而FocalCodec依赖预训练SSL模型,两者的设计目标和技术路径不同,单纯比较dWER意义有限,论文对此的讨论不够深入。最后,论文声称“低复杂度”,但HiFi-GAN vocoder占了近89%的计算量,这更像是把复杂度大头“外包”了,整体框架的“轻量”优势需要更辩证地看待。总的来说,论文在特定技术路线上做到了极致,但故事的完整性和深度还有提升空间。 📌 核心摘要 本文提出了FMelCodec,一种运行在mel谱图域、基于三阶段编码-细化-重建(CRR)框架的超低比特率神经语音编码器。该框架旨在解决在极低码率预算(如250 bps)下,如何同时保持语音自然度、说话人身份和内容可懂度的挑战。其核心设计包括:1)一个采用激进640倍压缩、结合在线聚类单码本VQ的ConvNeXt v2编码器-解码器结构,用于生成粗劣mel谱图;2)一个轻量级的基于条件流匹配(CFM)的细化模块,利用自一致性训练方案以少量推理步数修复量化失真;3)一个预训练的HiFi-GAN声码器,用于从细化后的谱图重建最终波形。在16 kHz(250 bps)和48 kHz(750 bps)数据集上的实验表明,FMelCodec在感知质量、说话人相似度和内容保留方面均优于或接近复杂度高得多的基线方法,实现了效率、质量和复杂度之间的有利权衡。 🔗 开源详情 代码:https://github.com/redmist328/FMelCodec 模型权重:论文中未提供FMelCodec的完整模型权重,但提供了用于对比的公开检查点链接(如FocalCodec†, SemantiCodec†)。用于训练的HiFi-GAN vocoder基于其官方实现重新训练。 数据集:论文中使用了以下公开数据集,但未提供直接下载链接: LibriTTS (16 kHz):使用 train-clean-100、train-clean-360、dev-clean、test-clean 子集。 VCTK (48 kHz):遵循标准划分。 Demo:https://redmist328.github.io/FMelCodec (提供了语音样本展示) 复现材料:论文第IV-B节详细公开了三个阶段的所有模型配置、架构尺寸和训练超参数,可直接用于复现。 引用的开源项目:包括HiFi-GAN, DAC, BigCodec, WavTokenizer, FlowDec, FocalCodec, SemantiCodec的GitHub仓库,均已标注链接。 🏗️ 方法概述和架构 FMelCodec的三阶段CRR框架如论文图1所示,所有组件均操作在mel谱图域,形成统一处理流程。 ...

2026-05-27 · 更新于 2026-07-03 · 3 min · 540 words

Ultra-Low-Bitrate Mel-Spectrogram-based Neural Speech Coding with Flow-Matching-based Refinement and Vocoding-driven Reconstruction

📄 Ultra-Low-Bitrate Mel-Spectrogram-based Neural Speech Coding with Flow-Matching-based Refinement and Vocoding-driven Reconstruction #语音编码 #条件流匹配 #生成模型 🔥 9.9/10 | 前25% | #语音编码 | #条件流匹配 | #生成模型 | arxiv 学术质量 6.5/7 | 影响力 1.6/2 | 可复现性 1.8/2 | 置信度 高 👥 作者与机构 作者:Hui-Peng Du, Yang Ai, Xiao-Hang Jiang, Yuan Tian, Zhen-Hua Ling 机构:中国科学技术大学,语音及语言信息处理国家工程研究中心 资助:国家自然科学基金 (Grant 62301521) 通讯作者:Yang Ai 💡 毒舌点评 说声码器轻量,但Table IV里HiFi-GAN吃掉了88.7%的GFLOPs。这就像说自己造的发动机省油,但没提整车油耗大头是轮胎摩擦力。 245小时训练数据 vs. FocalCodec的586小时,然后声称公平比较。这好比用校队训练量去挑战省队,赢了也得打个问号。 论文花大量篇幅论证在250 bps下的“优势”,但Table I中BigCodec在16kHz的NMOS(3.74)其实略高于FMelCodec(3.72),SMOS(3.17)则低于FMelCodec(3.51)。所谓“持平或优于”的结论需要更精确的限定。 48kHz实验中,FMelCodec在几乎所有指标上都优于BigCodec,但后者参数量是其6倍。论文对此“效率-质量”权衡的讨论显得轻描淡写,反而用大篇幅对比更弱的基线。 完全忽略流式处理,却大谈“卫星通信”等应用前景。对于实时通信,延迟是硬约束,这个框架目前根本无法满足。 📌 核心摘要 论文主题:提出FMelCodec,一种基于梅尔频谱图的三阶段(编码-精修-重构)超低比特率神经语音编码框架。 核心方法:在梅尔域进行激进压缩(单码本VQ),通过条件流匹配(CFM)精修被量化的梅尔图,最后用HiFi-GAN声码器重建波形。关键技术包括在线聚类VQ(OC-VQ)和自一致性CFM训练。 主要创新:1)将编码目标推向250 bps(16kHz)的极低水平;2)OC-VQ有效解决单码本VQ的码本坍塌问题;3)提出自一致性损失,使CFM推理仅需4步ODE求解。 实验设置:在16kHz的LibriTTS和48kHz的VCTK数据集上,将FMelCodec与多种代表性基线(波形域、谱域、SSL域)在匹配比特率及更高比特率下进行全面对比。 实验结果:在超低比特率下,FMelCodec在重建质量(NMOS, ViSQOL)和说话人相似性(SMOS)方面均优于或持平于大多数基线,同时保持较低的模型复杂度(27M参数)。在48kHz下,其性能接近或优于复杂度高得多的BigCodec。 潜在用途:适用于带宽受限场景(如卫星、物联网)的语音通信与压缩。论文也指出其作为“语音作为智能体通信接口”中音频编解码器的潜力。 计算复杂度:核心编码与精修模块(\(\phi_{\text{cod}}\) 和 \(\phi_{\text{ref}}\))的总GFLOPs仅占系统约11%,但声码器 \(\phi_{\text{voc}}\) 占据了88.7%的计算量。整体RTF为0.022(约44.8倍实时)。 代码与数据:提供了完整的代码、预训练模型和Demo页面。 🔗 开源详情 代码:https://github.com/redmist328/FMelCodec 模型权重:检查点(Checkpoints)可从上述代码仓库获取。 数据集:LibriTTS(16 kHz)、VCTK(48 kHz)。论文描述了实验中使用的子集和划分方式,但未提供下载链接。 Demo:https://redmist328.github.io/FMelCodec 复现材料:论文中详细描述了三个阶段的模型架构、超参数配置和训练流程(Section III & IV-B),提供了足够的信息进行复现。代码仓库应包含完整实现。 论文中引用的开源项目: HiFi-GAN:https://github.com/jik876/hifi-gan ConvNeXt v2:论文引用文献[44],未提供独立链接。 DAC:https://github.com/descriptinc/descript-audio-codec BigCodec:https://github.com/Aria-K-Alethia/BigCodec WavTokenizer:https://github.com/jishengpeng/WavTokenizer FlowDec:https://github.com/facebookresearch/FlowDec FocalCodec:https://github.com/lucadellalib/focalcodec SemantiCodec:https://github.com/haoheliu/SemantiCodec-inference 🏗️ 方法概述和架构 FMelCodec采用三阶段“编码-精修-重构”(CRR)框架,所有操作均在梅尔频谱图域进行。 ...

2026-05-26 · 更新于 2026-07-03 · 4 min · 688 words

AffectCodec: Emotion-Preserving Neural Speech Codec with Block-Diagonal Residual FSQ

📄 AffectCodec: Emotion-Preserving Neural Speech Codec with Block-Diagonal Residual FSQ #语音编码 🔥 10/10 | 前10% | #语音编码 | #有限标量量化 #块对角投影 | arxiv 学术质量 6.6/7 | 影响力 1.8/2 | 可复现性 1.7/2 | 置信度 0.9 👥 作者与机构 作者:Zhaoyang Meng, Zhengyao Ma, Kecan Mao, Yingming Gao, Ya Li 机构:北京邮电大学 邮箱:{mengzy, mazhyao, mao_kecan, yingming.gao, yli01}@bupt.edu.cn 通讯作者:Ya Li 💡 毒舌点评 这篇工作抓住了神经语音编解码器在情感信息保存上的一个实际痛点,并提出了一个结构上清晰、理论上有一定保证的解决方案(BD-RFSQ)。作者不仅指出了问题(情感信息因重建驱动的比特分配和跨流泄漏而损失),还通过形式化证明(附录B)和精心设计的实验(包括跨流泄漏的线性探测实验,附录C)来支撑其核心论点,这在顶会论文中是值得称赞的严谨。然而,其创新性更多体现在对现有技术(FSQ,残差量化,因子化投影)的巧妙组合与针对性改进上,而非提出全新的量化范式。实验全面,结果令人信服,尤其在低比特率区间优势明显。不足之处在于,方法对超参数(如情感/声学分区维度)的手动选择依赖较强,且评估完全依赖外部SER模型,缺乏对下游语音语言模型的直接验证,这削弱了其声称的“通用属性保护”原则的实际影响力。开源情况也未完全承诺。 📌 核心摘要 AffectCodec 是一种以情感保持为核心目标的神经语音编解码器。其核心创新在于提出了块对角残差有限标量量化(BD-RFSQ)。该量化器通过可学习的块对角输入/输出投影,将情感与声学特征隔离到独立的子空间中进行量化,从而将比特分配从依赖损失函数驱动的隐式过程,转变为由网络结构显式保证的过程。同时,BD-RFSQ 保持了单一的 token 接口,兼容主流的平坦 token 语音语言模型架构。为配合此量化器,AffectCodec 还采用了多粒度情感条件(CEM模块)和一种多速率训练策略(包括多速率重建损失和偏向阶段丢弃),以在低比特率下实现稳健的情感信息保存。实验在多个情感语音基准测试集(IEMOCAP, CREMA-D, ESD)上进行,结果表明,AffectCodec 在低比特率(1.5,3.0 kbps)下的情感退化率(EDR)和V/A/D MSE指标显著优于 EnCodec、DAC、SpeechTokenizer、X-Codec 等现有基线,同时保持了有竞争力的声学质量和可懂度。消融实验验证了各组件的有效性,其中 BD-RFSQ 是性能提升的关键。 ...

2026-05-25 · 更新于 2026-07-03 · 5 min · 962 words

DiVeQ: Differentiable Vector Quantization Using the Reparameterization Trick

📄 DiVeQ: Differentiable Vector Quantization Using the Reparameterization Trick #向量量化 #生成模型 #图像生成 #语音编码 #图像压缩 🔥 8.0/10 | 前25% | #生成模型 | #向量量化 | #图像生成 #语音编码 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Mohammad Hassan Vali(ELLIS Institute Finland & Department of Computer Science, Aalto University, Finland) 通讯作者:未明确说明(论文提供了三位作者的共同邮箱,未指定单独通讯作者) 作者列表:Mohammad Hassan Vali(ELLIS Institute Finland & Department of Computer Science, Aalto University, Finland)、Tom Bäckström(Department of Information and Communications Engineering, Aalto University, Finland)、Arno Solin(ELLIS Institute Finland & Department of Computer Science, Aalto University, Finland) 💡 毒舌点评 这篇论文精准地“修理”了向量量化在深度学习应用中那个著名的老毛病——梯度消失,提出的DiVeQ和SF-DiVeQ方法就像是给量化层装了一个“梯度导管”,既保持了推理时硬编码的离散性,又让训练信号能顺畅回流,实验部分更是“地毯式轰炸”,在多个任务和数据集上全面碾压了包括NSVQ、RT在内的现有花式方案。不足之处在于SF-DiVeQ的初始化有点“娇气”,需要先跑几个epoch“热身”,而且虽然解决了码本错位问题,但本质上仍是在“码本空间”内做文章,对于如何突破固定码本大小的表达能力瓶颈并未触及。 ...

2026-05-04 · 更新于 2026-07-03 · 2 min · 392 words

DiVeQ: Differentiable Vector Quantization Using the Reparameterization Trick

📄 DiVeQ: Differentiable Vector Quantization Using the Reparameterization Trick #向量量化 #语音编码 #模型评估 #开源工具 🔥 8.5/10 | 前25% | #语音编码 | #向量量化 | #模型评估 #开源工具 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Mohammad Hassan Vali(ELLIS Institute Finland & Department of Computer Science, Aalto University, Finland) 通讯作者:未明确指定(论文提供了共同的学术邮箱 {mohammad.vali, tom.backstrom, arno.solin}@aalto.fi,未说明谁是通讯作者) 作者列表:Mohammad Hassan Vali¹,Tom Bäckström²,Arno Solin¹ ¹ ELLIS Institute Finland & Department of Computer Science, Aalto University, Finland ² Department of Information and Communications Engineering, Aalto University, Finland 💡 毒舌点评 本文的亮点在于巧妙地将重参数化技巧应用于VQ,使DiVeQ在保留“硬分配”前向传播的同时实现了可微分,并通过SF-DiVeQ解决了码本坍缩和未充分利用的痛点,设计思路优雅且实验验证扎实。短板在于其“通用性改进”的定位虽强,但计算复杂度(如SF-DiVeQ需要对每条线段计算误差)相比原始VQ有所增加,且论文未深入分析在超大规模模型或极端离线场景下的效率影响。 ...

2026-05-02 · 更新于 2026-07-03 · 3 min · 445 words

SPG-Codec: Exploring the Role and Boundaries of Semantic Priors in Ultra-Low-Bitrate Neural Speech Coding

📄 SPG-Codec: Exploring the Role and Boundaries of Semantic Priors in Ultra-Low-Bitrate Neural Speech Coding #语音合成 #自监督学习 #语音编码 #低资源 ✅ 7.5/10 | 前25% | #语音合成 | #自监督学习 | #语音编码 #低资源 | arxiv 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Mingyu Zhao (未说明具体机构,但标注了*) 通讯作者:Zhiyong Wu (标注†,未说明具体机构) 作者列表:Mingyu Zhao (未说明)、Zijian Lin (未说明)、Kun Wei (未说明)、Zhiyong Wu (未说明) 💡 毒舌点评 亮点:论文系统性地量化了“语义退休”现象,揭示了不同层次先验(HuBERT vs. Whisper)在语音编码中的作用边界,为超低比特率编码提供了清晰的“设计指南”,其分析框架本身就是一个重要贡献。短板:提出的比特率调节策略(α阶梯衰减)过于简单,缺乏自适应或学习机制;实验部分缺少与近期强大的端到端生成式编码器(如Flow-Matching-based)的直接对比,使得“竞争力”的结论有所削弱。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及是否公开训练好的模型权重。 数据集:使用公开的LibriSpeech数据集,但未提供处理脚本或特殊划分。 Demo:未提供在线演示。 复现材料:给出了部分训练细节(数据集、epoch数、GPU型号、batch size),但缺少关键的优化器、学习率、具体网络层数/维度、RVQ码本配置等超参数,不足以完全复现。 引用的开源项目:论文依赖并提到了以下开源模型:HuBERT-base, Whisper-base, Whisper-large-v2(用于评估)。骨干架构参考了SoundStream和EnCodec的设计。 📌 核心摘要 问题:神经语音编码器在超低比特率(如≤1.5 kbps)下,因可用比特不足而导致“语义坍缩”,表现为语音可懂度严重下降。 方法核心:提出SPG-Codec框架,将冻结的预训练语义先验模型(HuBERT/Whisper)作为辅助条件注入到标准神经语音编码器中,并设计了比特率感知的动态权重调节策略。 创新点:首次系统定义并量化了“语义退休”(Semantic Retirement)现象:语义先验在≤3 kbps时至关重要,但在≥6 kbps后变得冗余甚至有害。同时揭示了声学丰富先验(HuBERT)与高级语言先验(Whisper)在保真度与鲁棒性之间的权衡关系。 主要实验结果: 在1.5 kbps下,引入HuBERT先验可将相对词错误率(WER)降低约10%,L1损失改善27.1%。 在≥6.0 kbps时,语义先验对PESQ和WER的提升接近零,证实了“退休”边界。 Whisper先验能将清晰条件下的语音幻觉率降低26%,并将未见说话人(test-other)的WER泛化差距从35.9%缩小至19.7%。 在噪声环境下(SNR 5dB),基线模型WER增加近50%,而带Whisper先验的模型表现稳健。 实际意义:为设计面向语音大模型(SpeechLLMs)和极低带宽通信的下一代语音编解码器提供了原则性指导,强调在特定比特率下必须引入并合理利用外部语义信息。 主要局限性:所提出的权重调节策略较为简单;研究主要基于LibriSpeech数据集和特定基线模型,结论的普适性有待更广泛验证;未开源代码。 🏗️ 模型架构 SPG-Codec是一个统一的分析与编码框架,包含三个核心模块: ...

2026-04-30 · 更新于 2026-07-03 · 2 min · 223 words

CodecSlime: Temporal Redundancy Compression of Neural Speech Codec via Dynamic Frame Rate

📄 CodecSlime: Temporal Redundancy Compression of Neural Speech Codec via Dynamic Frame Rate #语音编码 #动态帧率 #VQ-GAN #插件式方法 #低比特率 ✅ 7.5/10 | 前10% | #语音编码 | #动态帧率 | #VQ-GAN #插件式方法 学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Hankun Wang(上海交通大学计算机科学与技术学院,X-LANCE实验室) 通讯作者:Kai Yu(上海交通大学计算机科学与技术学院,X-LANCE实验室) 作者列表:Hankun Wang(上海交通大学 X-LANCE实验室),Yiwei Guo(上海交通大学 X-LANCE实验室),Chongtian Shao(上海交通大学 X-LANCE实验室),Bohan Li(上海交通大学 X-LANCE实验室),Kai Yu(上海交通大学 X-LANCE实验室) 💡 毒舌点评 亮点:CodecSlime 提出了一种优雅的“动态帧率”压缩方案,通过自适应地合并信息密度低的语音帧(如长元音),在不增加码本容量的前提下显著降低了重建WER(相对降低32%),为低比特率语音编码提供了新思路。 短板:其训练过程需要两阶段的“熔化-冷却”微调,相比直接训练固定帧率模型增加了复杂度;且动态压缩比受限于最大合并窗口(U=4),对于超长冗余段的压缩能力可能有限。 🔗 开源详情 代码:论文中提及训练代码基于BigCodec的官方实现(https://github.com/Aria-K-Alethia/BigCodec),并提供了CodecSlime的示例代码链接(https://x-lance.github.io/codecslime/)。未明确承诺提供CodecSlime独立的完整代码仓库。 模型权重:未提及公开预训练模型权重。 数据集:使用LibriSpeech和LibriTTS,均为公开数据集。评测使用UniCATS测试集B。 Demo:提供了在线音频样本演示页面(https://x-lance.github.io/codecslime/)。 复现材料:论文中详细给出了骨干模型、CodecSlime各阶段的超参数设置、训练步数、硬件配置等,复现信息较为充分。 引用的开源项目:明确引用了BigCodec、EnCodec等项目的代码实现,以及多种评估工具(NeMo ASR, pystoi, PESQ, Resemblyzer等)。 📌 核心摘要 问题:当前主流的固定帧率(FFR)神经语音编码器在编码信息密度不均匀的语音信号(如长元音、静音段)时,会浪费大量token在冗余部分,导致编码效率低于理论极限。 方法核心:提出了一种插件式方法CodecSlime,包含两个核心技术:ScheDFR(可调度动态帧率)在推理时利用动态规划算法自适应地合并特征相似的连续帧;Melt-and-Cool训练方案(包括后训练和微调)将预训练的FFR模型适配到动态帧率(DFR)模式。 创新性:该方法完全无监督,且与编码器骨干架构无关。与此前尝试DFR的方法(如基于层次量化或依赖复杂语义蒸馏)相比,CodecSlime更简单、通用,且实现了端到端的重建质量优化,而非仅用于语义发现。 实验结果:在以80Hz FFR骨干(VQ-GAN架构)为目标、推理时采用40Hz DFR的设定下,CodecSlime在标准测试集上的WER相比同等比特率的40Hz FFR基线降低了最高32%(相对值),其他指标(STOI, PESQ, UTMOS, MUSHRA)也具有竞争力。具体关键数据见下表: 模型 帧率(Hz) 内容码本大小 内容比特率(kbps) WER(%)↓ MUSHRA↑ BigCodec-VQ8k (FFR) 40×1 8192 0.52 4.89 73.45±2.81 CodecSlime-VQ8k (DFR) 40×1 8192 0.52 4.25 84.01±1.59 BigCodec-FSQ18k (FFR) 40×1 18225 0.57 5.59 74.42±2.14 CodecSlime-FSQ18k (DFR) 40×1 18225 0.57 3.80 81.24±1.88 此外,单个CodecSlime模型在40-80Hz的多个目标帧率上进行推理时,性能均优于分别在各目标帧率上训练的FFR模型。 实际意义:为语音编码器提供了更高效的时间压缩方式,能在相同重建质量下降低码率,或在相同码率下提升质量,对语音通信、大语言模型语音接口等低带宽/高效率场景有重要价值。 主要局限性:训练需要两阶段微调,流程相对复杂;压缩能力受限于预设的最大合并窗口U;实验主要在LibriSpeech英文数据集上进行,跨语言泛化性虽有验证但程度有限。 🏗️ 模型架构 整体架构:CodecSlime作为一个插件,附加在现有的固定帧率(FFR)VQ-GAN语音编码器骨干上。骨干模型本身包含编码器(Encoder)、量化器(Quantizer)和解码器(Decoder)三个核心部分,并通常使用判别器进行对抗训练。 ...

2026-04-29 · 更新于 2026-07-03 · 2 min · 251 words

CodeSep: Low-Bitrate Codec-Driven Speech Separation with Base-Token Disentanglement and Auxiliary-Token Serial Prediction

📄 CodeSep: Low-Bitrate Codec-Driven Speech Separation with Base-Token Disentanglement and Auxiliary-Token Serial Prediction #语音分离 #语音编码 #多任务学习 #音频编解码 ✅ 7.5/10 | 前25% | #语音分离 | #多任务学习 | #语音编码 #音频编解码 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Hui-Peng Du(中国科学技术大学,语音及语言信息处理国家工程研究中心) 通讯作者:Yang Ai(中国科学技术大学,语音及语言信息处理国家工程研究中心) 作者列表:Hui-Peng Du(中国科学技术大学)、Yang Ai*(中国科学技术大学)、Xiao-Hang Jiang(中国科学技术大学)、Rui-Chen Zheng(中国科学技术大学)、Zhen-Hua Ling(中国科学技术大学)。所有作者均隶属于“语音及语言信息处理国家工程研究中心,中国科学技术大学,合肥,中国”。 💡 毒舌点评 论文精准地瞄准了“既要分离又要压缩”这个被忽略的实用场景,并设计了逻辑自洽的模型,实验也充分证明了其在极低码率下吊打简单级联方案。然而,模型本质上仍是Transformer、RVQ和LSTM等成熟模块的“拼接乐”,缺乏更底层的方法论创新;且实验仅限于两人说话,面对更复杂的多人鸡尾酒会能否保持住这个“1 kbps”的优势,恐怕要打个问号。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及公开模型权重。 数据集:使用了公开的Libri2Mix数据集,但未提及是否提供了处理后的版本或新的数据集。 Demo:提供了在线语音样本演示:https://redmist328.github.io/CodeSep/ 复现材料:论文给出了主要模型架构和超参数的大致描述,但未提供完整的训练脚本、配置文件或预训练检查点。 论文中引用的开源项目:论文主要依赖了MDCTCodec [19],并引用了Sepformer [10]作为基线,ConvNeXt v2 [20],AdamW [22]等公开方法/工具。 📌 核心摘要 问题:本文针对一个实际但未被充分研究的场景——同时进行语音分离与语音压缩。在在线会议、对话归档等应用中,需要从混合语音中分离出说话人,并将其表示为紧凑的离散token以便高效传输或存储。 ...

2026-04-29 · 更新于 2026-07-03 · 2 min · 351 words

FocalCodec-Stream: Streaming Low-Bitrate Speech Coding via Causal Distillation

📄 FocalCodec-Stream: Streaming Low-Bitrate Speech Coding via Causal Distillation #语音编码 #流式处理 #知识蒸馏 #语音大模型 #低资源 🔥 8.0/10 | 前25% | #语音编码 | #知识蒸馏 | #流式处理 #语音大模型 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Luca Della Libera(Concordia University, Mila-Quebec AI Institute) 通讯作者:未说明 作者列表:Luca Della Libera(Concordia University, Mila-Quebec AI Institute),Cem Subakan(Universit´e Laval, Concordia University, Mila-Quebec AI Institute),Mirco Ravanelli(Concordia University, Mila-Quebec AI Institute) 💡 毒舌点评 本文巧妙地将非流式的WavLM“蒸”成一个能实时处理的语音编码器,通过多阶段训练和一个轻巧的“精修工”模块,在80毫秒的低延迟下实现了比肩甚至超越同类流式编解码器的音质和下游性能,堪称工程实践的典范。不过,为了塞进WavLM这个大块头,模型参数量几乎翻倍(249M vs. 142M),其在资源受限设备上的部署可能是个挑战,且多语言泛化能力虽优于部分基线,但仍有明显下滑。 ...

2026-04-29 · 更新于 2026-07-03 · 3 min · 626 words