语音编码 | 语音/音乐/音频论文速递

Effective Depth in Joint Source-Channel Coding: An Implicit Equilibrium Analysis

📄 Effective Depth in Joint Source-Channel Coding: An Implicit Equilibrium Analysis #语音编码 #多模态模型 #信号处理基础 7.0/10 | 创新 8/2 | 严谨 7/1.5 | 实验 7/1.5 | 清晰 7/1 | 影响 6/1.5 | 开源 0/1.5 | 复现 7/0.5 | 工程 7/1.5 ✅ 7.0/10 | 前50% | #语音编码 | #多模态模型 | #信号处理基础 | arxiv 👥 作者与机构作者: Kaiwen Yu, Gang Wu, Xiaodong Xu, Yi Ma, Rahim Tafazolli 单位: 电子科技大学 (国家无线通信重点实验室)，北京邮电大学 (网络与交换技术国家重点实验室)，鹏城实验室，萨里大学 (5GIC & 6GIC) 邮箱: yukaiwen@uestc.edu.cn; wugang99@uestc.edu.cn; xuxiaodong@bupt.edu.cn; y.ma@surrey.ac.uk; r.tafazolli@surrey.ac.uk 💡 毒舌点评这篇论文的立意是好的，试图解决Deep JSCC中“固定深度”的痛点。但把DEQ和NNGP这套组合拳用在图像JSCC上，就像是用高射炮打蚊子——理论很漂亮，实际收益存疑。作者声称“参数复杂度与有效深度无关”，但实验里的表格显示其参数量远超最简单的DeepJSCC，只是比SwinJSCC小。那个深度-SNR理论模型，校准过程依赖一个特定的验证集，换个数据集恐怕就得重新标定，通用性要打个大问号。最关键是，整篇论文围绕图像传输，跟本领域（语音/音频）的结合点在哪里？一个处理RGB像素的框架，能直接套到梅尔频谱或波形上吗？结论下得太早，影响力有限。 ...

ESPnet3: Infrastructure for Scalable Speech and Audio Research in the Foundation Model Era

📄 ESPnet3: Infrastructure for Scalable Speech and Audio Research in the Foundation Model Era #语音识别 #语音合成 #语音增强 #说话人识别 #语音翻译 #语音分离 #语音编码 #自监督学习 #数据增强 #参数高效微调 #迁移学习 7.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.5/10 | 前25% | #语音识别 | #自监督学习 | #语音合成 #语音增强 | arxiv 👥 作者与机构 Masao Someki (Carnegie Mellon University, Pittsburgh, USA) Alexander Polok (Brno University of Technology, Brno, Czechia) Carlos Carvalho (Instituto Superior Técnico, Lisbon, Portugal) Chyi-Jiunn Lin (Hanyang University, Seoul, South Korea) Da-Hee Yang (Hitachi Astemo, Tokyo, Japan) Jiatong Shi (Shanghai Jiao Tong University, Shanghai, China) Jinchuan Tian (Carnegie Mellon University, Pittsburgh, USA) Nelson Enrique Yalta Soplin (Carnegie Mellon University, Pittsburgh, USA) Samuele Cornell (Carnegie Mellon University, Pittsburgh, USA) Siddhant Arora (Carnegie Mellon University, Pittsburgh, USA) Francisco Teixeira (Instituto Superior Técnico, Lisbon, Portugal) Wei Wang (Shanghai Jiao Tong University, Shanghai, China) William Chen (Carnegie Mellon University, Pittsburgh, USA) Alberto Abad (Instituto Superior Técnico, Lisbon, Portugal) Chenda Li (Carnegie Mellon University, Pittsburgh, USA) Shinji Watanabe (Carnegie Mellon University, Pittsburgh, USA) Wangyou Zhang (Shanghai Jiao Tong University, Shanghai, China) ...

SDP-Codec: A Speaker-Decoupled Speech Codec with Pitch Injection for Low-Bitrate Coding and Zero-Shot Voice Conversion

📄 SDP-Codec: A Speaker-Decoupled Speech Codec with Pitch Injection for Low-Bitrate Coding and Zero-Shot Voice Conversion #语音编码 #自监督学习 7.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7.2/10 | 前50% | #语音编码 | #自监督学习 | arxiv 👥 作者与机构作者：Hounsu Kim, Juhan Nam 机构：Graduate School of Culture Technology, KAIST, Daejeon, South Korea 💡 毒舌点评亮点：终于有人想着别让编解码器把说话人信息都塞进内容token里了。单阶段训练的设计很务实，避免了那些花里胡哨的多阶段对抗训练。把FCPE的soft-label loss拿来做pitch reconstruction，思路清晰。在说话人相似度（SECS）和F0相关性上的提升是实打实的，特别是16kHz的大模型版本，在VC任务上吊打了BiCodec和MSRCodec，这个结果很有说服力。消融实验也做得扎实，把连续特征、pitch loss和F0注入的作用讲得比较明白。 ...

Self-Guidance: Enhancing Neural Codecs via Decoder Manifold Alignment

📄 Self-Guidance: Enhancing Neural Codecs via Decoder Manifold Alignment #语音合成 #语音编码 #自监督学习 #正则化微调 #低资源 #模型压缩 9.7/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9.7/10 | 前25% | #语音合成 | #自监督学习 | #语音编码 #正则化微调 | arxiv 👥 作者与机构作者：Xiang Li, Yixuan Zhou, Jingran Xie, Zhiyong Wu, Hui Wang。论文未明确提及作者所属机构。 💡 毒舌点评这篇工作提出了一个简单有效且即插即用的训练技巧（Self-Guidance），确实能提升编解码器性能并减少码本大小，对下游LLM任务有益。但审稿人普遍会质疑其“新颖性”上限——这本质上是一种特征级别的对齐或正则化手段，在自蒸馏、特征模仿等领域早有类似思想。论文在理论分析上较为薄弱，缺乏对“为何对齐解码器特定层特征就如此有效”的深入数学或信息论解释。下游TTS实验规模太小，像一个仓促的验证，难以充分支撑“显著提升”的结论。整体而言，这是一篇扎实的工程改进工作，但离理论贡献或范式突破尚有距离。 📌 核心摘要本文针对VQ-VAE神经语音编解码器中量化误差限制重建质量的问题，提出了一种轻量级训练机制“自引导”（Self-Guidance, SG）。SG在训练时为解码器引入一个辅助分支，输入连续的预量化潜在向量（teacher路径），并通过一个特征映射损失（\(\\mathcal{L}_{\\text{guide}}\)）对齐该分支与原始量化输入分支（student路径）在解码器最后一个Transformer块输出的隐藏特征。此举旨在提升解码器对量化误差的鲁棒性，使其在推理时仅处理量化token也能生成更高质量的波形。实验表明，SG在XCodec2模型上取得了多项指标的SOTA，并能以1/4码本大小达到基线性能，从而有益于简化下游LLM的语音token建模。该机制泛化性良好，适用于不同的量化器和解码器架构。 ...

Multilingual Multi-Speaker Unit Vocoders: A Systematic Analysis of Discrete Speech Representations

📄 Multilingual Multi-Speaker Unit Vocoders: A Systematic Analysis of Discrete Speech Representations #语音合成 #自监督学习 #多语言 #语音编码 8.4/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.4/10 | 前25% | #语音合成 | #自监督学习 | #多语言 #语音编码 | arxiv 👥 作者与机构作者：Naman Kothari, Arjun Gangwar, Adarsh S, Umesh 机构：National Institute of Technology, Trichy; Indian Institute of Technology, Madras ...

VoCodec: A Low-bitrate Streamable Neural Speech Codec with Voicing-driven Quantization

📄 VoCodec: A Low-bitrate Streamable Neural Speech Codec with Voicing-driven Quantization #语音编码 #流式处理 7.2/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.2/10 | 前50% | #语音编码 | #流式处理 | arxiv 👥 作者与机构第一作者：Xiao-Hang Jiang (江晓航)。机构：中国科学技术大学，清华大学。 💡 毒舌点评这篇工作的核心想法——给浊音多分点比特，清音少分点——本身是合理的，甚至可以说是回归了经典语音处理的一个常识。但问题在于，为了证明这个“显而易见”的道理，论文的实验和论证显得有些“小题大做”。作者用了一套看似复杂的神经网络框架，但核心的决策模块（浊音检测器）却异常简单粗暴（能量阈值），这就像用高射炮打蚊子，而高射炮的瞄准镜还是个固定的。此外，论文在多个关键细节上语焉不详（GAN训练、LSTM状态、IVQ的具体贡献），使得这项工作的可复现性和分析深度打了折扣。它更像是一次对StreamCodec的成功“调参”和“魔改”，而非一次深刻的技术突破。所谓27%的比特率节省，在特定条件下成立，但推广性存疑。 📌 核心摘要 VoCodec是一个面向低比特率场景的可流式神经语音编解码器。其核心创新在于提出“发声驱动量化”策略：通过一个基于基频能量的简单阈值检测器判断每帧是浊音还是清音，然后对感知更重要的浊音帧使用精细的残差标量-向量量化（RSVQ），而对清音帧使用粗糙的单标量量化（SQ）。论文在LibriTTS（16kHz）和VCTK（48kHz）数据集上进行了实验，表明VoCodec在1.1 kbps（16kHz）下的感知质量（MUSHRA）优于同为流式的StreamCodec，并接近计算量大得多的BigCodec。进一步的ABX测试显示，VoCodec以1.1 kbps的码率达到了与SQCodec等模型在1.5 kbps下相当的感知质量，实现了约27%的比特率节省。消融实验（VoCodec-r）通过反转量化策略，验证了为浊音帧分配更多比特的有效性。然而，该方法在理论分析深度、关键实现细节的披露、以及在复杂声学环境下的泛化能力验证方面存在不足。 🔗 开源详情代码：论文中未提及代码开源链接。模型权重：论文中未提及模型权重开源链接。数据集：论文中使用了 LibriTTS 和 VCTK 数据集。获取链接如下： LibriTTS: 通常通过 LibriSpeech 官方工具或 HuggingFace 获得（论文未提供直接链接）。 VCTK: https://datashare.ed.ac.uk/handle/10283/3443。 Demo：论文中提供了语音样本演示页面：https://pb20000090.github.io/VoCodec/。复现材料：论文未提供训练代码、检查点、具体训练脚本或配置文件的下载链接。论文中引用的开源项目： StreamCodec：作为VoCodec的基础架构，论文未提供其代码仓库的具体链接。 HiFi-GAN：被用作解码器的vocoder，其官方代码仓库为 https://github.com/jik876/hifi-gan。 SoundStream 和 Encodec：作为相关工作被引用，提供了官方实现链接。 SQCodec：论文指出其官方发布仅提供了16 kHz下1.5 kbps的实现，未提供完整开源仓库。 🏗️ 方法概述和架构 VoCodec采用全因果的编码器-解码器架构，适用于流式传输。其整体流程如图1所示，包含四个核心组件：编码器、发声检测器、发声驱动量化器和解码器。 ...

CleanCodec: Efficient and Robust Speech Tokenization via Perceptually Guided Encoding

📄 CleanCodec: Efficient and Robust Speech Tokenization via Perceptually Guided Encoding #语音编码 #语音合成 #语音识别 #对比学习 8.8/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 8.8/10 | 前25% | #语音编码 | #自监督学习 | #语音合成 #语音识别 | arxiv 👥 作者与机构 Eugene Kwek (Pennsylvania State University), Feng Liu (Drexel University), Rui Zhang (Pennsylvania State University), Wenpeng Yin (Pennsylvania State University)。 ...

CFMDCTCodec: A Low-Bitrate Neural Speech Codec with Noise-Prior-aware Conditional Flow Matching for MDCT-Spectral Enhancement

📄 CFMDCTCodec: A Low-Bitrate Neural Speech Codec with Noise-Prior-aware Conditional Flow Matching for MDCT-Spectral Enhancement #语音编码 #流匹配 🔥 8.4/10 | 前25% | #语音编码 | #流匹配 | arxiv 学术质量 5.8/7 | 影响力 1.8/2 | 可复现性 0.8/2 | 置信度高 👥 作者与机构作者：Xiao-Hang Jiang, Yang Ai, Hui-Peng Du, Zhen-Hua Ling, Ji Wu 机构：Xiao-Hang Jiang, Yang Ai, Hui-Peng Du 和 Zhen-Hua Ling 隶属于中国科学技术大学语音及语言信息处理国家工程研究中心；Ji Wu 隶属于清华大学电子工程系。 💡 毒舌点评论文聚焦于一个非常具体且具有实用价值的细分问题（极低比特率语音编码），并提出了一个技术上合理、设计上自洽的方案。然而，其核心贡献——将单码本压缩与MDCT域CFM增强相结合——在概念上并非革命性突破，更偏向于工程优化和巧妙的组合。最大的问题在于其通用性存疑：性能优势高度集中在0.65 kbps这一极窄的设定下，比特率稍有提高（1.3 kbps），优势便大幅缩水，与MDCTCodec持平。这让人怀疑该方案是否真的解决了根本问题，还是仅仅在极端场景下榨取了一点边际收益。此外，论文声称避免对抗训练以简化学习，但引入的CFM增强器及其诸多稳定化设计（范围归一化、自适应噪声先验）本身也增加了系统的复杂度和调优难度，这与“更简单高效”的宣称需打个问号。作者明确承认的高算法延迟是一个致命弱点，严重限制了其实际部署潜力。 📌 核心摘要本文提出了CFMDCTCodec，一个完全在MDCT域操作的低比特率神经语音编解码器。该系统由一个轻量级的单码本MDCT谱编解码器和一个噪声先验感知的基于条件流匹配（CFM）的MDCT谱增强器串联组成。编解码器将输入语音的MDCT谱深度压缩为低比特率离散令牌，并解码出粗糙谱。增强器以该粗糙谱为条件，利用由其幅度导出的自适应噪声先验作为CFM的初始状态，通过ODE求解器逐步细化频谱细节。整个系统采用非对抗性的端到端联合优化策略训练。实验表明，在0.65 kbps的极低比特率下，CFMDCTCodec在主观感知质量（MUSHRA）和计算效率（参数量、FLOPs）之间取得了良好平衡，优于或接近多个强基线。消融研究验证了MDCT范围归一化、幅度自适应噪声先验和端到端联合训练的有效性。 🔗 开源详情代码：论文中未提及CFMDCTCodec的代码链接。模型权重：论文中未提及模型权重链接。数据集：论文中使用了两个公开数据集： LibriTTS (16kHz实验)：使用了标准划分，包括train-clean-100、train-clean-360用于训练，dev-clean用于验证，test-clean用于评估。 VCTK (48kHz实验)：使用了40,936条语句用于训练，2,937条语句用于测试。 Demo：https://xhjiang1.github.io/CFMDCTCodec 复现材料：论文中详细描述了实验设置、模型架构细节和所有训练超参数，但未提供模型检查点或训练脚本等具体复现材料。论文中引用的开源项目： DAC: https://github.com/descriptinc/descript-audio-codec BigCodec: https://github.com/Aria-K-Alethia/BigCodec WavTokenizer: https://github.com/jishengpeng/WavTokenizer FlowDec: https://github.com/facebookresearch/FlowDec 🏗️ 方法概述和架构 CFMDCTCodec是一个完全在修改离散余弦变换（MDCT）域工作的两阶段神经语音编解码框架，旨在极低比特率下实现高质量重建。其核心架构如图1所示，包含两个紧密耦合的模块：单码本MDCT谱编解码器和噪声先验感知的CFM-based MDCT谱增强器。 ...

FC-TTS: Style and Timbre Control in Zero-Shot Text-to-Speech with Disentangled Speech Representations

📄 FC-TTS: Style and Timbre Control in Zero-Shot Text-to-Speech with Disentangled Speech Representations #语音合成 #语音编码 ✅ 6.5/10 | 前50% | #语音合成 | #生成对抗网络 | #语音编码 | arxiv 学术质量 7.0/7 | 影响力 6.5/2 | 可复现性 0.5/2 | 置信度高 👥 作者与机构作者：Yoonhyung Lee, Hyunsin Park, Jinhwan Park, Jinkyu Lee 机构：Qualcomm AI Research (Qualcomm Technologies, Inc. 的一个倡议) 💡 毒舌点评这篇工作瞄准了一个实际且重要的问题：如何从两个不同的参考音频中，独立控制零样本TTS的音色和风格。论文提出了一个相对清晰的框架（FC-TTS），并系统地设计了三个创新组件（两阶段生成、VQ-VAE风格编码、条件一致性损失）来解决这个问题，这体现了作者的思考深度。实验也较为全面，不仅在标准基准上评估，还在RAVDESS上专门设计了实验来验证解耦控制能力。然而，论文的“天花板”受限于它所依赖的FACodec解耦质量，这是所有基于解耦表示的TTS系统的共同软肋。更关键的是，论文在零样本TTS核心指标上并未展现出明确超越SOTA（如F5-TTS）的优势（UTMOS 4.22 vs 4.03，但SPK 0.60 vs 0.67），其提出的“独立控制”能力虽然新颖，但实验设计（特别是与VC系统和单参考F5-TTS的对比）在方法论上存在瑕疵，结论的说服力打了折扣。此外，代码和模型权重均未开源，对于一篇依赖外部预训练模型（FACodec）的工作来说，可复现性大打折扣。总体而言，这是一篇动机明确、方法设计有想法的工作，但在关键性能上缺乏突破，且受限于外部组件，整体贡献度中等。 📌 核心摘要本文针对零样本TTS中从两个不同参考独立控制说话风格（韵律）和音色的挑战，提出了FC-TTS框架。该框架基于FACodec提供的解耦语音表示，通过三个关键设计增强独立控制的可靠性：1) 一个两阶段的谱图生成管道，首先生成锚定音色的模糊谱图，再通过条件流匹配解码器利用风格信息进行细化，以增强对未见过的音色-风格组合的鲁棒性；2) 一个基于VQ-VAE的层次化风格编码器（TCF模块），在音素和帧级别捕获细粒度且句内变化的风格信息；3) 一个条件一致性损失，将正则化扩展至多条件设置，通过预测器间的交叉条件输入来增强生成谱图在音色和风格上的一致性。实验表明，FC-TTS在LibriSpeech上与SOTA模型性能有竞争力，并在RAVDESS上展示了优于基线系统的独立音色和风格控制能力。 🔗 开源详情代码：论文中未提及FC-TTS自身的代码链接。模型权重：论文中未提及。数据集： LibriHeavy：大规模英文语音数据集，遵循 Apache-2.0 许可证。获取链接：https://github.com/k2-fsa/libriheavy LibriSpeech：英文语音识别数据集，遵循 CC-BY 4.0 许可证。论文使用其test-clean子集进行评估。 RAVDESS：情感语音数据集，遵循 CC BY-NC-SA 4.0 许可证。论文用于评估风格与音色可控性。 Demo：https://qualcomm-ai-research.github.io/fc-tts 复现材料：论文在附录中提供了详细的模型架构超参数（Table 7）、训练超参数（Table 6）、训练与推理流程细节。论文中引用的开源项目： FACodec：https://github.com/open-mmlab/Amphion/tree/main/models/codec/ns3_codec HiFi-GAN：https://github.com/jik876/hifi-gan （论文中提及使用） Gemini 2.5 Pro：https://huggingface.co/google/gemini-2.5-pro-preview （用于评估） UTMOS：https://huggingface.co/spaces/sarulab-speech/UTMOS-demo HuBERT：https://huggingface.co/facebook/hubert-large-ls960-ft UniSpeech-SAT (说话人验证)：https://github.com/microsoft/UniSpeech/tree/main/downstreams/speaker_verification 🏗️ 方法概述和架构 FC-TTS的核心是利用预训练的FACodec解耦表示，在零样本TTS任务中实现音色和风格的独立控制。其架构如图1所示，主要包含以下组件和流程： ...

Ultra-Low-Bitrate Mel-Spectrogram-based Neural Speech Coding with Flow-Matching-based Refinement and Vocoding-driven Reconstruction

📄 Ultra-Low-Bitrate Mel-Spectrogram-based Neural Speech Coding with Flow-Matching-based Refinement and Vocoding-driven Reconstruction #语音编码 🔥 8.1/10 | 前10% | #语音编码 | #语音编码 | arxiv 学术质量 8.1/7 | 影响力 8.5/2 | 可复现性 1.0/2 | 置信度高 👥 作者与机构作者：Hui-Peng Du, Yang Ai, Xiao-Hang Jiang, Yuan Tian, Zhen-Hua Ling 机构：中国科学技术大学，语音及语言信息处理国家工程研究中心邮箱：redmist@mail.ustc.edu.cn, yangai@ustc.edu.cn 通讯作者：Yang Ai 💡 毒舌点评这篇论文确实是在“卷”比特率的路上又往前迈了一大步，250 bps确实是个令人印象深刻的目标。三阶段CRR框架的思路很清晰：用激进的单码本VQ先压到一个“面目全非”的粗谱，再用CFM这个“画师”去精修细节，最后交给HiFi-GAN这个“化妆师”出片。在线聚类解决码本塌陷、自一致性损失减少ODE步数，这些技术点都是实打实的工程优化，值得肯定。然而，作为顶会审稿人，我不得不指出几个问题：首先，消融实验不够“狠”，没有对比更大码本的性能，也没深入分析OC-VQ中锚点采样策略的具体影响。其次，与FocalCodec的比较存在“田忌赛马”之嫌：FMelCodec是纯声学模型，而FocalCodec依赖预训练SSL模型，两者的设计目标和技术路径不同，单纯比较dWER意义有限，论文对此的讨论不够深入。最后，论文声称“低复杂度”，但HiFi-GAN vocoder占了近89%的计算量，这更像是把复杂度大头“外包”了，整体框架的“轻量”优势需要更辩证地看待。总的来说，论文在特定技术路线上做到了极致，但故事的完整性和深度还有提升空间。 📌 核心摘要本文提出了FMelCodec，一种运行在mel谱图域、基于三阶段编码-细化-重建（CRR）框架的超低比特率神经语音编码器。该框架旨在解决在极低码率预算（如250 bps）下，如何同时保持语音自然度、说话人身份和内容可懂度的挑战。其核心设计包括：1）一个采用激进640倍压缩、结合在线聚类单码本VQ的ConvNeXt v2编码器-解码器结构，用于生成粗劣mel谱图；2）一个轻量级的基于条件流匹配（CFM）的细化模块，利用自一致性训练方案以少量推理步数修复量化失真；3）一个预训练的HiFi-GAN声码器，用于从细化后的谱图重建最终波形。在16 kHz（250 bps）和48 kHz（750 bps）数据集上的实验表明，FMelCodec在感知质量、说话人相似度和内容保留方面均优于或接近复杂度高得多的基线方法，实现了效率、质量和复杂度之间的有利权衡。 🔗 开源详情代码：https://github.com/redmist328/FMelCodec 模型权重：论文中未提供FMelCodec的完整模型权重，但提供了用于对比的公开检查点链接（如FocalCodec†, SemantiCodec†）。用于训练的HiFi-GAN vocoder基于其官方实现重新训练。数据集：论文中使用了以下公开数据集，但未提供直接下载链接： LibriTTS (16 kHz)：使用 train-clean-100、train-clean-360、dev-clean、test-clean 子集。 VCTK (48 kHz)：遵循标准划分。 Demo：https://redmist328.github.io/FMelCodec （提供了语音样本展示）复现材料：论文第IV-B节详细公开了三个阶段的所有模型配置、架构尺寸和训练超参数，可直接用于复现。引用的开源项目：包括HiFi-GAN, DAC, BigCodec, WavTokenizer, FlowDec, FocalCodec, SemantiCodec的GitHub仓库，均已标注链接。 🏗️ 方法概述和架构 FMelCodec的三阶段CRR框架如论文图1所示，所有组件均操作在mel谱图域，形成统一处理流程。 ...