NeuroSonic: Conditional Flow Matching for EEG-to-Speech Reconstruction

📄 NeuroSonic: Conditional Flow Matching for EEG-to-Speech Reconstruction #条件流匹配 #Transformer #多模态模型 7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 7/10 | 前50% | #语音生成 | #条件流匹配 | #Transformer #多模态模型 | arxiv 👥 作者与机构 Wenhao Gao (Equal contribution), Stony Brook University Yifan Wang (Equal contribution), University of Texas Health Center at Houston Yijia Ma, Carl Yang, Wen Li, Chenyu You (Corresponding author), Emory University ...

2026-06-24 · 更新于 2026-07-02 · 3 min · 534 words

Ultra-Low-Bitrate Mel-Spectrogram-based Neural Speech Coding with Flow-Matching-based Refinement and Vocoding-driven Reconstruction

📄 Ultra-Low-Bitrate Mel-Spectrogram-based Neural Speech Coding with Flow-Matching-based Refinement and Vocoding-driven Reconstruction #语音编码 #条件流匹配 #生成模型 🔥 9.9/10 | 前25% | #语音编码 | #条件流匹配 | #生成模型 | arxiv 学术质量 6.5/7 | 影响力 1.6/2 | 可复现性 1.8/2 | 置信度 高 👥 作者与机构 作者:Hui-Peng Du, Yang Ai, Xiao-Hang Jiang, Yuan Tian, Zhen-Hua Ling 机构:中国科学技术大学,语音及语言信息处理国家工程研究中心 资助:国家自然科学基金 (Grant 62301521) 通讯作者:Yang Ai 💡 毒舌点评 说声码器轻量,但Table IV里HiFi-GAN吃掉了88.7%的GFLOPs。这就像说自己造的发动机省油,但没提整车油耗大头是轮胎摩擦力。 245小时训练数据 vs. FocalCodec的586小时,然后声称公平比较。这好比用校队训练量去挑战省队,赢了也得打个问号。 论文花大量篇幅论证在250 bps下的“优势”,但Table I中BigCodec在16kHz的NMOS(3.74)其实略高于FMelCodec(3.72),SMOS(3.17)则低于FMelCodec(3.51)。所谓“持平或优于”的结论需要更精确的限定。 48kHz实验中,FMelCodec在几乎所有指标上都优于BigCodec,但后者参数量是其6倍。论文对此“效率-质量”权衡的讨论显得轻描淡写,反而用大篇幅对比更弱的基线。 完全忽略流式处理,却大谈“卫星通信”等应用前景。对于实时通信,延迟是硬约束,这个框架目前根本无法满足。 📌 核心摘要 论文主题:提出FMelCodec,一种基于梅尔频谱图的三阶段(编码-精修-重构)超低比特率神经语音编码框架。 核心方法:在梅尔域进行激进压缩(单码本VQ),通过条件流匹配(CFM)精修被量化的梅尔图,最后用HiFi-GAN声码器重建波形。关键技术包括在线聚类VQ(OC-VQ)和自一致性CFM训练。 主要创新:1)将编码目标推向250 bps(16kHz)的极低水平;2)OC-VQ有效解决单码本VQ的码本坍塌问题;3)提出自一致性损失,使CFM推理仅需4步ODE求解。 实验设置:在16kHz的LibriTTS和48kHz的VCTK数据集上,将FMelCodec与多种代表性基线(波形域、谱域、SSL域)在匹配比特率及更高比特率下进行全面对比。 实验结果:在超低比特率下,FMelCodec在重建质量(NMOS, ViSQOL)和说话人相似性(SMOS)方面均优于或持平于大多数基线,同时保持较低的模型复杂度(27M参数)。在48kHz下,其性能接近或优于复杂度高得多的BigCodec。 潜在用途:适用于带宽受限场景(如卫星、物联网)的语音通信与压缩。论文也指出其作为“语音作为智能体通信接口”中音频编解码器的潜力。 计算复杂度:核心编码与精修模块(\(\phi_{\text{cod}}\) 和 \(\phi_{\text{ref}}\))的总GFLOPs仅占系统约11%,但声码器 \(\phi_{\text{voc}}\) 占据了88.7%的计算量。整体RTF为0.022(约44.8倍实时)。 代码与数据:提供了完整的代码、预训练模型和Demo页面。 🔗 开源详情 代码:https://github.com/redmist328/FMelCodec 模型权重:检查点(Checkpoints)可从上述代码仓库获取。 数据集:LibriTTS(16 kHz)、VCTK(48 kHz)。论文描述了实验中使用的子集和划分方式,但未提供下载链接。 Demo:https://redmist328.github.io/FMelCodec 复现材料:论文中详细描述了三个阶段的模型架构、超参数配置和训练流程(Section III & IV-B),提供了足够的信息进行复现。代码仓库应包含完整实现。 论文中引用的开源项目: HiFi-GAN:https://github.com/jik876/hifi-gan ConvNeXt v2:论文引用文献[44],未提供独立链接。 DAC:https://github.com/descriptinc/descript-audio-codec BigCodec:https://github.com/Aria-K-Alethia/BigCodec WavTokenizer:https://github.com/jishengpeng/WavTokenizer FlowDec:https://github.com/facebookresearch/FlowDec FocalCodec:https://github.com/lucadellalib/focalcodec SemantiCodec:https://github.com/haoheliu/SemantiCodec-inference 🏗️ 方法概述和架构 FMelCodec采用三阶段“编码-精修-重构”(CRR)框架,所有操作均在梅尔频谱图域进行。 ...

2026-05-26 · 更新于 2026-07-02 · 4 min · 688 words