Ultra-Low-Bitrate Mel-Spectrogram-based Neural Speech Coding with Flow-Matching-based Refinement and Vocoding-driven Reconstruction

📄 Ultra-Low-Bitrate Mel-Spectrogram-based Neural Speech Coding with Flow-Matching-based Refinement and Vocoding-driven Reconstruction #语音编码 #条件流匹配 #生成模型 🔥 9.9/10 | 前25% | #语音编码 | #条件流匹配 | #生成模型 | arxiv 学术质量 6.5/7 | 影响力 1.6/2 | 可复现性 1.8/2 | 置信度 高 👥 作者与机构 作者:Hui-Peng Du, Yang Ai, Xiao-Hang Jiang, Yuan Tian, Zhen-Hua Ling 机构:中国科学技术大学,语音及语言信息处理国家工程研究中心 资助:国家自然科学基金 (Grant 62301521) 通讯作者:Yang Ai 💡 毒舌点评 说声码器轻量,但Table IV里HiFi-GAN吃掉了88.7%的GFLOPs。这就像说自己造的发动机省油,但没提整车油耗大头是轮胎摩擦力。 245小时训练数据 vs. FocalCodec的586小时,然后声称公平比较。这好比用校队训练量去挑战省队,赢了也得打个问号。 论文花大量篇幅论证在250 bps下的“优势”,但Table I中BigCodec在16kHz的NMOS(3.74)其实略高于FMelCodec(3.72),SMOS(3.17)则低于FMelCodec(3.51)。所谓“持平或优于”的结论需要更精确的限定。 48kHz实验中,FMelCodec在几乎所有指标上都优于BigCodec,但后者参数量是其6倍。论文对此“效率-质量”权衡的讨论显得轻描淡写,反而用大篇幅对比更弱的基线。 完全忽略流式处理,却大谈“卫星通信”等应用前景。对于实时通信,延迟是硬约束,这个框架目前根本无法满足。 📌 核心摘要 论文主题:提出FMelCodec,一种基于梅尔频谱图的三阶段(编码-精修-重构)超低比特率神经语音编码框架。 核心方法:在梅尔域进行激进压缩(单码本VQ),通过条件流匹配(CFM)精修被量化的梅尔图,最后用HiFi-GAN声码器重建波形。关键技术包括在线聚类VQ(OC-VQ)和自一致性CFM训练。 主要创新:1)将编码目标推向250 bps(16kHz)的极低水平;2)OC-VQ有效解决单码本VQ的码本坍塌问题;3)提出自一致性损失,使CFM推理仅需4步ODE求解。 实验设置:在16kHz的LibriTTS和48kHz的VCTK数据集上,将FMelCodec与多种代表性基线(波形域、谱域、SSL域)在匹配比特率及更高比特率下进行全面对比。 实验结果:在超低比特率下,FMelCodec在重建质量(NMOS, ViSQOL)和说话人相似性(SMOS)方面均优于或持平于大多数基线,同时保持较低的模型复杂度(27M参数)。在48kHz下,其性能接近或优于复杂度高得多的BigCodec。 潜在用途:适用于带宽受限场景(如卫星、物联网)的语音通信与压缩。论文也指出其作为“语音作为智能体通信接口”中音频编解码器的潜力。 计算复杂度:核心编码与精修模块(\(\phi_{\text{cod}}\) 和 \(\phi_{\text{ref}}\))的总GFLOPs仅占系统约11%,但声码器 \(\phi_{\text{voc}}\) 占据了88.7%的计算量。整体RTF为0.022(约44.8倍实时)。 代码与数据:提供了完整的代码、预训练模型和Demo页面。 🔗 开源详情 代码:https://github.com/redmist328/FMelCodec 模型权重:检查点(Checkpoints)可从上述代码仓库获取。 数据集:LibriTTS(16 kHz)、VCTK(48 kHz)。论文描述了实验中使用的子集和划分方式,但未提供下载链接。 Demo:https://redmist328.github.io/FMelCodec 复现材料:论文中详细描述了三个阶段的模型架构、超参数配置和训练流程(Section III & IV-B),提供了足够的信息进行复现。代码仓库应包含完整实现。 论文中引用的开源项目: HiFi-GAN:https://github.com/jik876/hifi-gan ConvNeXt v2:论文引用文献[44],未提供独立链接。 DAC:https://github.com/descriptinc/descript-audio-codec BigCodec:https://github.com/Aria-K-Alethia/BigCodec WavTokenizer:https://github.com/jishengpeng/WavTokenizer FlowDec:https://github.com/facebookresearch/FlowDec FocalCodec:https://github.com/lucadellalib/focalcodec SemantiCodec:https://github.com/haoheliu/SemantiCodec-inference 🏗️ 方法概述和架构 FMelCodec采用三阶段“编码-精修-重构”(CRR)框架,所有操作均在梅尔频谱图域进行。 ...

2026-05-26 · 更新于 2026-06-19 · 4 min · 688 words

WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Residual Denoising and Sub-Modeling for GAN and Diffusion Models

📄 WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Residual Denoising and Sub-Modeling for GAN and Diffusion Models #语音合成 #生成对抗网络 #模型压缩 🔥 9.4/10 | 前25% | #语音合成 | #生成对抗网络 | #模型压缩 | arxiv 学术质量 6.2/7 | 影响力 1.7/2 | 可复现性 1.5/2 | 置信度 高 👥 作者与机构 未提及具体作者姓名。论文页脚显示该工作部分由JSPS KAKENHI Grants (JP21H05054, JP23K21681, JP24K0296, JP25H01139) 和 JST NEXUS (JPMJNX25C1) 支持,表明研究可能在日本进行。 💡 毒舌点评 这篇论文的核心动机清晰:打破GAN和扩散模型在声码器领域的架构壁垒。其提出的统一ConvNeXt框架在理论上是优雅的,实验也展现了令人印象深刻的推理速度提升,尤其是在CPU上。然而,这种“统一”更像是一种架构复用,而非算法层面的深度融合。将GAN和扩散模型的训练策略强行嫁接到同一个生成器骨架上,虽然高效,但并未提出解决二者根本矛盾的新理论。例如,扩散模型的采样效率问题仅通过子模型和BDDM的噪声调度缓解,并未在生成器架构层面有实质性创新。此外,论文声称解决了“多说话人性能有限”的问题,但实验仅在单一英文数据集LibriTTS-R上进行,说服力有限。作者坦诚了模型尺寸随子模型数量线性增长的问题,但这在资源敏感的场景下是显著的缺点。总体而言,这是一篇扎实的工程优化论文,将现有技术(ConvNeXt、子模型训练、BDDM)巧妙组合,取得了显著的性能提升,但理论创新性稍显不足。 📌 核心摘要 本文提出了WaveNeXt 2,一个基于ConvNeXt架构的统一神经声码器框架,可兼容GAN和扩散模型两种范式。其核心创新在于引入了残差去噪和子模型结构,使每个子模型能在推理过程中逐步优化波形。实验在LibriTTS-R多说话人数据集上进行,结果表明:(1) GAN-WaveNeXt 2在保持与HiFi-GAN、WaveFit相当合成质量的同时,实现了显著更快的推理速度(相比WaveFit,GPU RTF降低70%,CPU降低90%)。(2) Diff-WaveNeXt 2在采用子模型训练后,相比4步FastDiff,具有竞争力的质量和更快的推理速度(CPU RTF降低80%),且训练时间极短(仅32小时),适合资源受限的应用。 🔗 开源详情 代码:论文自身未提供代码仓库链接。但引用了以下第三方开源实现: ParallelWaveGAN (用于实现HiFi-GAN V1): https://github.com/kan-bayashi/ParallelWaveGAN wavefit-pytorch (WaveFit实现): https://github.com/yukara-ikemiya/wavefit-pytorch FastDiff: https://github.com/Rongjiehuang/FastDiff Vocos (ConvNeXt生成器基础): https://github.com/gemelo-ai/vocos 模型权重:未提及任何模型权重的下载链接。 数据集:使用LibriTTS-R数据集。论文未直接提供链接,但该数据集可通过Hugging Face等平台获取,例如:https://huggingface.co/datasets/hf-internal-testing/libritts_r。论文使用的子集为train-clean-100、train-clean-360(训练)和test-clean-100(评估)。 Demo:提供了项目主页和语音样本演示页面:https://37integer.github.io/WAVENEXT-2。 复现材料:未提及具体的训练配置文件、模型检查点或详细的附录文档链接。 🏗️ 方法概述和架构 WaveNeXt 2框架的核心是一个可复用的WaveNeXt-based生成器,其设计目标是通过统一的残差去噪和子模型结构,适配GAN与扩散两种训练范式。 ...

2026-05-26 · 更新于 2026-06-19 · 3 min · 552 words

Zero-Shot Parkinson's Disease Detection from Speech: Comparing Large Audio and Language Models

📄 Zero-Shot Parkinson’s Disease Detection from Speech: Comparing Large Audio and Language Models #大语言模型 #多模态模型 #多语言 📝 5/10 | 前50% | #大语言模型 | #多模态模型 | #多语言 | arxiv 学术质量 3.8/7 | 影响力 1/2 | 可复现性 0.2/2 | 置信度 高 👥 作者与机构 Kabir, M., Munira, M., Sirajam, M. A. (作者姓名与单位未在已有分析中列出,现根据原文补充) School of Computing, Mathematics and Engineering, Charles Sturt University, NSW, Australia Department of Computer Science, Rensselaer Polytechnic Institute, NY, USA 💡 毒舌点评 这篇论文像一位勤奋但缺乏巧思的学生,把所有能找到的大模型都拿来在几个小数据集上跑了一遍,然后仔细比较了成绩。它的工作是扎实的,但就像用锤子、螺丝刀和扳手去敲钉子,然后写一篇关于“敲击工具比较”的报告——我们知道结果会因工具而异,但这个结论本身并不让人意外。最大的问题在于,它试图比较“输入模态”,却让“模型能力”这个混杂变量肆无忌惮地影响结果。一个通用文本LLM(LLaMA 3)和专用音频模型(Qwen2-Audio)本身就不是同一起跑线上的选手。这让整个比较的科学性大打折扣,结论的强度被严重削弱。它更适合出现在一个专注于临床语音处理的Workshop,而非NeurIPS这种追求突破的殿堂。 ...

2026-05-26 · 更新于 2026-06-19 · 3 min · 475 words

语音/音乐/音频论文速递 2026-05-26

语音/音乐/音频论文速递 2026-05-26 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 5篇 █████ #语音识别 3篇 ███ #音乐转录 2篇 ██ #语音情感识别 2篇 ██ #多模态模型 1篇 █ #语音编码 1篇 █ #交叉验证 1篇 █ #语音编辑 1篇 █ 📊 论文评分排行榜(27 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Music Transcription with (Almost) No Supervision 10.0分 前50% #音乐转录 🥈 Toward Native Multimodal Modeling: A Roadmap 10.0分 前25% #多模态模型 🥉 Ultra-Low-Bitrate Mel-Spectrogram-based Neural Speech C 9.9分 前25% #语音编码 4. Proactive for Uncertainty: Cause-Aware Error Diagnosis 9.6分 前25% #语音识别 5. WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Re 9.4分 前25% #语音合成 6. Decoding Stimulus Reconstruction-Based Auditory Attenti 8.9分 前50% #交叉验证 7. Exploration of Perceptual Speech Features for Clinical 8.9分 前50% #语音情感识别 8. Continual Speaker Identity Unlearning with Minimal Inte 8.6分 前25% #语音合成 9. SpongeBob: Sync-Aware Harmonious Audio-Visual Generativ 8.6分 前25% #语音编辑 10. FC-TTS: Style and Timbre Control in Zero-Shot Text-to-S 8.4分 前50% #语音合成 11. CosyEdit2: Speech-Editing-Oriented Reinforcement Learni 8.0分 前50% #语音合成 12. cSTMM: A Unified Complex Spherical Student’s \(t\) Mixtur 7.9分 前50% #语音分离 13. Time Segmented Beamforming via Dynamic Programming: The 7.7分 前25% #实时处理 14. Multilingual Phonological Feature Recognition with Self 7.7分 前25% #语音识别 15. Rubato: Transcribing Piano Music with Timestamps 7.5分 前25% #音乐转录 16. A Multimodal Framework for Dementia Detection via Lingu 7.0分 前50% #语音情感识别 17. AVBench: Human-Aligned and Automated Evaluation Benchma 7.0分 前50% #音频生成 18. Test-Time Self-Adaptive Conditioning for Stable Audio-D 7.0分 前50% - 19. The Symmetric Location Problem: a Song of Efficiency an 6.5分 前25% - 20. Hidden in Plain Tokens: Simply Robust, Gradient-Free Wa 6.2分 前25% #音频水印 21. Rethinking Continual Learning for Speech and Audio: A R 6.0分 前50% #语音识别 22. Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for 5.5分 前50% #语音增强 23. Subspace Track-before-Detect for Passive Multi-Target T 5.5分 后50% #声源定位 24. Toward Natural Emotional Text-To-Speech System with Fin 5.0分 前50% #语音合成 25. Zero-Shot Parkinson’s Disease Detection from Speech: Co 5.0分 前50% #大语言模型 26. Score-Agnostic Structure Analysis in Large-Scale Perfor 4.1分 前50% #音乐信息检索 27. StrTransformer: Source-Wise Structured Transformers for 3.3分 后50% - 📋 论文列表 🥇 Music Transcription with (Almost) No Supervision 🔥 10.0/10 | 前50% | #音乐转录 | #循环一致性 | #半监督学习 #领域自适应 | arxiv ...

2026-05-26 · 更新于 2026-06-19 · 13 min · 2671 words

6G Communication Networks Enabling Embodied Agents: Architecture and Prototype

📄 6G Communication Networks Enabling Embodied Agents: Architecture and Prototype #信号处理 #工业应用 #智能座舱 📝 2.7/10 | 后50% | #信号处理 | #工业应用 | #智能座舱 | arxiv 学术质量 2/7 | 影响力 0.2/2 | 可复现性 0.5/2 👥 作者与机构 作者:Lipeng Dai, Luping Xiang (通讯作者), Kun Yang 机构:南京大学,软件新技术国家重点实验室;南京大学(苏州校区),智能网络与通信研究所 (NINE) 💡 毒舌点评 这篇论文试图在一个宏大且热门的话题(6G与具身智能体)上做贡献,但其实际产出与标题的雄心相比显得相当骨感。论文的核心工作是提出一个概念性的分层通信架构,并在5G O-RAN测试床上实现了一个非常基础的人机控制远程操作原型。这个原型的复杂度和创新性甚至不及许多本科或硕士毕业设计项目(使用现成触觉设备、机械臂和开发软件,搭建一个闭环控制)。所谓的“6G使能”在实验中完全缺席,因为所有实验都是在5G网络下完成的,6G的特性(如亚毫秒时延、原生AI)仅停留在愿景描述层面。文章用大量篇幅讨论了6G赋能具身智能体的共生关系(第III节),但这部分更像是精心组织的综述或前瞻展望,而非本文的原创研究贡献。对于寻求6G网络切片、感知通信一体化或分布式智能体协同控制等方面实质性技术突破的读者来说,本文提供的信息量和启发性非常有限。 📌 核心摘要 本文旨在探讨如何为物理实体智能体(具身智能体)构建满足其严苛通信需求的6G网络系统。研究从概念和工程两个层面展开:首先,文章回顾了具身智能体的概念、价值及其与6G网络的共生关系,指出6G的增强型超可靠低时延通信、多模态协同调度等能力是支持具身智能体的关键,而具身智能体也能通过环境感知和物理理解反哺6G网络。基于此分析,文章提出了一种用于人机远程交互的分层通信架构,该架构以开放无线接入网为传输骨干,并引入智能中介层作为认知中枢。为了验证可行性,作者构建了一个端到端原型系统,整合了Touch触觉设备、工业机械臂、中介平台以及基于OpenAirInterface的5G O-RAN测试床。实验结果表明,该原型在5G网络下的平均传输时延低于8毫秒,中介平台处理时延低于2毫秒,实现了基本的稳定闭环控制,为未来6G使能具身智能体的研究提供了初步的参考框架。 🔗 开源详情 代码:论文中未提及代码链接。论文描述了原型系统的实现细节(如使用MATLAB开发中介平台,使用OpenAirInterface构建5G O-RAN),但未提供任何公开的代码仓库链接。 模型权重:论文中未提及。本文不涉及需要预训练的AI模型。 数据集:论文中未提及。文中未提及用于训练或评估的公开数据集。 Demo:论文中未提及。文中未提供在线演示或交互式Demo的链接。 复现材料:论文中未提供具体的复现材料包(如配置文件、脚本)。论文在IV-B节详细描述了原型系统的硬件组成和软件工作流程,这为复现其“人-机械臂远程交互”原型提供了设计蓝图,但未提供可直接下载和运行的打包材料。 论文中引用的开源项目: OpenAirInterface (OAI):论文中多次提及,并说明其gNB和5GC的实现基于OAI。链接:https://www.openairinterface.org/ A2A 和 ACP 协议:论文在IV-B4节提到,若集成LLM智能体,可使用这些现有的智能体协作协议。文中未提供这些协议的具体开源链接。 🏗️ 方法概述和架构 本文提出的方法包含概念分析与原型实现两大部分。核心架构(如图2所示)是一个为支持人机远程协作而设计的分层通信系统,旨在解耦控制逻辑与物理连接,实现可扩展、安全且智能的协作。 人类意图感知层:这是系统的起点,由“融合体”构成。该层利用智能传感器(如论文原型中的Touch触觉设备)捕捉人类操作意图(例如,通过手写笔的位移表示抓取目标)。随后,利用大语言模型或领域知识库将抽象的意图转化为机械臂等具身智能体能够识别的控制指令,完成操作意图的数字化。 O-RAN层:作为传输骨干,连接操作者与远端智能体。论文强调O-RAN作为6G候选技术,其开放式架构和RAN智能控制器是实现灵活网络管理的关键。通过RIC,该层能够为不同的数据模态(如时延敏感的触觉/控制信号、高带宽的视频流)主动配置网络切片。例如,为高优先级控制信号分配URLLC切片以保证亚毫秒级抖动,为视频流分配eMBB切片,从而防止网络拥塞,在大规模智能体集群中保障系统稳定性。 智能中介层:充当系统的“认知神经中枢”。其功能包括转发指令、执行安全护栏(过滤不合规或危险指令),以及集成LLM以理解复杂任务。为缓解LLM可能带来的开销,该层可采用云-边解耦部署:云端/边缘的LLM异步解析复杂意图,而本地平台直接处理高频的运动学控制。此外,LLM生成的指令可在物理执行前通过本地数字孪生仿真进行预验证。实时视频和数字孪生反馈将人类置于回路中,使操作者能快速检测并纠正任何语义误解。在论文的原型中,此层由基于MATLAB开发的中介平台实现,负责指令合规性验证、转发及延迟测量。 执行层(体现层):作为最后一层,具身智能体响应上层指令并反馈各类数据,不仅包括关键的传感器读数,还包括其自主发现的见解(如局部异常或世界模型更新),确保系统与物理世界保持深度同步。原型中,此层由六轴工业机械臂构成。 ...

2026-05-25 · 更新于 2026-06-19 · 1 min · 158 words

A study on weakly-supervised training approaches for phoneme-level pronunciation scoring

📄 A study on weakly-supervised training approaches for phoneme-level pronunciation scoring #语音识别 🔥 9.7/10 | 前10% | #语音识别 | #Weakly Supervised Learning | arxiv 学术质量 6.2/7 | 影响力 1.6/2 | 可复现性 1.9/2 | 置信度 High 👥 作者与机构 第一作者:Jazmín Vidal,布宜诺斯艾利斯大学(UBA)计算机系,CONICET-UBA研究所。 第二作者:Ferrer,同机构。 邮箱:jvidal@dc.uba.ar, lferrer@dc.uba.ar。 💡 毒舌点评 这篇工作就像一位精打细算的语言老师,试图证明“用学生的作文(句子/单词级标注)也能教好拼音(音素级评分)”。想法很实用,实验也扎实,但创新上有点“旧瓶装新酒”——对GOPT的改动主要是把聚合层从[CLS]换成了池化,两阶段训练也是常见套路。它最大的价值在于用翔实的实验(多粒度标签组合、多种选择策略)系统性地验证了弱监督的可行性边界,特别是“500句音素标注达到全量90%性能”这个结论很实在。但论文也暴露了一个有趣的“反直觉”发现:简单的SVR基线竟与复杂的1S-P模型性能相当,这让后文一系列复杂架构的投入显得有些尴尬,作者也大方承认了这一点。总的来说,是一篇工整、诚实但略显保守的实验性论文。 📌 核心摘要 本研究探讨了在弱监督场景下,如何仅利用单词或句子级的发音标签,训练有效的音素级发音评分模型,以降低对昂贵音素级标注的依赖。核心贡献在于:1) 提出了一种改进的GOPT(Goodness of Pronunciation Transformer)架构,通过将原始架构中基于[CLS]标记的句子级预测,改为对音素级预测分数进行平均池化(MEAN) 或注意力加权池化(ATTN),从而使音素级预测头能够通过高级别标签的损失进行反向训练;2) 设计了一种两阶段训练与主动学习结合的流程:首先用大量句子级标签训练基础模型(1S-U),然后通过平衡采样策略(rand+bal)选择少量样本进行单词或音素级标注,并用这些数据对基础模型进行微调(2S FT)。实验在Speechocean762数据集上进行,主要发现包括:ATTN架构在弱监督下诱导音素级预测的能力最强;两阶段微调策略极其高效,仅用500个经平衡采样的句子进行音素级标注并微调,其性能就能达到全量音素级监督(1S-P)性能的95%以内;研究还意外地发现,简单的SVR基线在测试集上的性能与复杂的全监督GOPT模型(1S-P)相当。 🔗 开源详情 代码:基础GOPT代码库已开源:https://github.com/YuanGongND/gopt 模型权重:论文中未提及是否提供训练好的模型权重。 数据集:Speechocean762数据集可通过HuggingFace获取:https://huggingface.co/datasets/mispeech/speechocean762 Demo:论文中未提及。 复现材料:论文中承诺的本文改进架构代码因匿名评审原因,在当前版本未提供具体链接。声称代码将在论文正式版后公开。 论文中引用的开源项目: Kaldi (GOP计算配方):https://github.com/kaldi-asr/kaldi/tree/master/egs/gop_speechocean762 scikit-learn:论文中仅提及名称,未提供链接。 置信区间计算工具:https://github.com/luferrer/ConfidenceIntervals 🏗️ 方法概述和架构 本论文的核心方法基于对现有GOPT架构的改进,并结合了两阶段训练与主动学习策略。 改进的GOPT架构(Base/MEAN/ATTN) 核心动机:原始GOPT架构中,句子级分数通过一个专用的[CLS]标记的回归头预测。这意味着如果仅使用句子级标签训练,与音素/单词级分数关联的预测头将得不到梯度更新,无法产生音素级输出。作者提出通过聚合音素级预测来生成高级别分数,使得音素级头在仅用高级别标签时也能被训练。 组件与数据流: 输入:语音波形和转录文本。经过Kaldi强制对齐和TDNN-F声学模型,得到每个音素的GOP特征向量(2K维,K=42)。 共享嵌入层:音素级GOP特征被投影到一个共享的24维空间,并与可训练的音素嵌入、位置嵌入相加,形成Transformer编码器的输入序列。 Transformer编码器:处理上述序列,输出每个位置的隐藏状态。 预测头:在Transformer输出之上,针对每个粒度(音素、单词、句子)有一个线性回归头。 关键区别与架构变体: BASE:原始GOPT架构。句子分数直接从处理后的[CLS]标记状态预测。单词分数通过重复单词标签到其每个音素并训练音素头来预测。若未使用音素级损失,则音素头不被训练。 MEAN:句子/单词分数不再使用[CLS]头。而是先由音素头为每个音素预测一个分数。然后,句子分数是该句子所有音素预测分数的算术平均值。单词分数是该单词所有音素预测分数的算术平均值。通过这种方式,计算句子/单词分数的损失会直接回传到音素头,使其即使在没有直接音素标签时也能被训练。 ATTN:与MEAN类似,但聚合方式改为注意力加权平均。增加一个注意力头,其输入是对应单元(句子或单词)内所有音素位置的Transformer隐藏状态,输出一个权重向量,用于对音素预测分数进行加权求和,得到最终的单元级分数。 设计动机:MEAN和ATTN机制使得高级别标签的监督信号能够“流经”聚合层,反向传播到音素级预测头,从而实现了利用弱标签诱导音素级表征学习的目标。 ...

2026-05-25 · 更新于 2026-06-19 · 2 min · 355 words

AffectCodec: Emotion-Preserving Neural Speech Codec with Block-Diagonal Residual FSQ

📄 AffectCodec: Emotion-Preserving Neural Speech Codec with Block-Diagonal Residual FSQ #语音编码 🔥 10/10 | 前10% | #语音编码 | #有限标量量化 #块对角投影 | arxiv 学术质量 6.6/7 | 影响力 1.8/2 | 可复现性 1.7/2 | 置信度 0.9 👥 作者与机构 作者:Zhaoyang Meng, Zhengyao Ma, Kecan Mao, Yingming Gao, Ya Li 机构:北京邮电大学 邮箱:{mengzy, mazhyao, mao_kecan, yingming.gao, yli01}@bupt.edu.cn 通讯作者:Ya Li 💡 毒舌点评 这篇工作抓住了神经语音编解码器在情感信息保存上的一个实际痛点,并提出了一个结构上清晰、理论上有一定保证的解决方案(BD-RFSQ)。作者不仅指出了问题(情感信息因重建驱动的比特分配和跨流泄漏而损失),还通过形式化证明(附录B)和精心设计的实验(包括跨流泄漏的线性探测实验,附录C)来支撑其核心论点,这在顶会论文中是值得称赞的严谨。然而,其创新性更多体现在对现有技术(FSQ,残差量化,因子化投影)的巧妙组合与针对性改进上,而非提出全新的量化范式。实验全面,结果令人信服,尤其在低比特率区间优势明显。不足之处在于,方法对超参数(如情感/声学分区维度)的手动选择依赖较强,且评估完全依赖外部SER模型,缺乏对下游语音语言模型的直接验证,这削弱了其声称的“通用属性保护”原则的实际影响力。开源情况也未完全承诺。 📌 核心摘要 AffectCodec 是一种以情感保持为核心目标的神经语音编解码器。其核心创新在于提出了块对角残差有限标量量化(BD-RFSQ)。该量化器通过可学习的块对角输入/输出投影,将情感与声学特征隔离到独立的子空间中进行量化,从而将比特分配从依赖损失函数驱动的隐式过程,转变为由网络结构显式保证的过程。同时,BD-RFSQ 保持了单一的 token 接口,兼容主流的平坦 token 语音语言模型架构。为配合此量化器,AffectCodec 还采用了多粒度情感条件(CEM模块)和一种多速率训练策略(包括多速率重建损失和偏向阶段丢弃),以在低比特率下实现稳健的情感信息保存。实验在多个情感语音基准测试集(IEMOCAP, CREMA-D, ESD)上进行,结果表明,AffectCodec 在低比特率(1.5,3.0 kbps)下的情感退化率(EDR)和V/A/D MSE指标显著优于 EnCodec、DAC、SpeechTokenizer、X-Codec 等现有基线,同时保持了有竞争力的声学质量和可懂度。消融实验验证了各组件的有效性,其中 BD-RFSQ 是性能提升的关键。 ...

2026-05-25 · 更新于 2026-06-19 · 5 min · 962 words

Articulatory strategy as a source of variation in acoustic vowel dynamics

📄 Articulatory strategy as a source of variation in acoustic vowel dynamics #语音识别 🔥 8.5/10 | 前25% | #语音识别 | #发音-声学建模 | arxiv 学术质量 5/7 | 影响力 1.5/2 | 可复现性 2/2 | 置信度 高 👥 作者与机构 作者: Patrycja Strycharczuk (曼彻斯特大学),Justin J. H. Lo (兰卡斯特大学),Sam Kirkham (兰卡斯特大学) 机构: 曼彻斯特大学语言学与英语语言系;兰卡斯特大学语言学与英语语言系 💡 毒舌点评 这篇论文像一篇优秀的博士生章节:问题清晰、方法扎实、数据公开、结论谨慎。它用超声和声学数据优雅地回答了一个语音学老问题——发音策略如何塑造声音动态。作者巧妙地用说话者在/i/上的习惯舌形作为“策略”代理变量,并通过GAMMs证明其能显著预测双元音轨迹。然而,若以机器学习顶会的标尺衡量,其创新性略显不足。它更像是在既有理论框架(发音补偿、言语个体性)内提供新的、高质量的实证拼图,而非提出全新的计算框架或普适理论。论文的“故事”讲得很好,但“方法”部分的革新性未达到顶级机器学习会议对理论或算法创新的高期待。此外,论文的讨论部分略显冗长,且对机器学习读者的直接吸引力有限。这是一篇扎实的语言学/语音学研究,但若投顶级ML会议,需要更突出其计算建模或理论创新层面的贡献。 📌 核心摘要 本研究使用来自36名英国北部英语说话者的超声舌成像和音频数据,探讨发音策略(以/i/元音的舌形特征为代理变量)如何系统性影响I-双元音的共振峰轨迹。通过Procrustes分析和PCA提取说话者习惯的/i/舌形特征(i-PC1, PC2, PC3),并使用广义加性混合模型(GAMMs)建模四个I-双元音(bead, bade, bide, buoyed)的F1和F2轨迹。结果发现,i-PC1(舌背隆起度)和i-PC2(舌前部隆起及舌根前移)是轨迹形状的显著预测变量。具体而言,具有更隆起(高PC1)或更前部收缩(低PC2)/i/舌形的说话者,其双元音共振峰过渡更早、更陡峭。研究结论,发音策略是声学动态个体差异的一个系统性来源,其机制与发音运动特性相关:更大的发音位移需要更高的速度,从而导致更快的声学过渡。这为理解言语个体性提供了直接证据,并揭示了发音补偿的局限性。 🔗 开源详情 代码:论文中提供了公开的代码链接,位于OSF仓库中:https://osf.io/xtp6q/ 模型权重:论文中未提及 数据集:数据集为 TarDiS,论文中说明了数据和代码已公开发布在同一OSF仓库中:https://osf.io/xtp6q/ Demo:论文中未提及 复现材料:论文中提及了详细的分析方法(如GAMM模型结构)和部分数据处理步骤,但未提供单独的训练配置、检查点或附录文件。所有分析代码与数据一同托管在OSF仓库(https://osf.io/xtp6q/)中,可作为复现的基础。 论文中引用的开源项目: FastTrack: 用于提取共振峰轨迹。论文中未提供独立链接。 DeepLabCut (DLC): 用于自动标注超声舌轮廓。GitHub链接:https://github.com/DeepLabCut/DeepLabCut Montreal Forced Aligner (MFA): 用于声学强制对齐。项目主页链接:https://montreal-forced-aligner.readthedocs.io/ 🏗️ 方法概述和架构 本研究采用多模态(超声+声学)数据分析框架,核心目标是建立说话者在特定元音(/i/)上的发音策略(舌形)与其在相关双元音上的声学动态之间的统计联系。方法架构可分为数据采集与预处理、特征提取、统计建模和后续分析四个主要阶段。 ...

2026-05-25 · 更新于 2026-06-19 · 2 min · 296 words

Broad learning system with robust adaptive kernel

📄 Broad learning system with robust adaptive kernel #信号处理 🔥 8.7/10 | 前25% | #信号处理 | #信号处理 | arxiv 学术质量 6.7/7 | 影响力 1.2/2 | 可复现性 0.8/2 👥 作者与机构 Haiquan Zhao (赵海泉,通讯作者,hqzhao_swjtu@126.com) Jinhui Hu (胡金辉) Xin Lu (卢鑫,通讯作者,17695794976@163.com) 单位:西南交通大学 电气工程学院,成都 611756,中国 💡 毒舌点评 这工作属于典型的“站在巨人肩膀上微调参数”的路线。BLS本身是个很成熟的框架,本文的核心改动就是给它的损失函数加了个自适应旋钮(即形状参数 α)。技术上并不惊艳,但胜在动机明确、实现完整、实验也还算扎实。最大的亮点是把损失函数选择这个“苦力活”自动化了,理论上讲比手动试错各种M-estimator要高效。不过,论文的写作和呈现有些小毛病,比如个别公式编号错误(如公式(10)引用了公式(2)),参考文献列表里混入了几篇看起来不相关的作者早期作品,拉低了整体的严谨感。对于追求“革命性创新”的读者来说,这可能只是又一篇BLS的变体文章;但对于实际应用中饱受噪声和手动调参困扰的工程师而言,它提供了一个开箱即用的鲁棒性解决方案。 📌 核心摘要 本文针对传统宽学习系统(BLS)在非高斯噪声环境下性能下降,以及现有基于固定M-estimator的BLS变体需要耗时人工选择损失函数形式的问题,提出了一种基于自适应鲁棒核的宽学习系统变体(AR-BLS)。其核心思想是将损失函数的选择从人工预设转化为模型优化过程的一部分。AR-BLS通过交替迭代优化模型权重和自适应鲁棒核的形状参数α,使得损失函数形式能够根据数据中的噪声分布自动调整,无需人工干预。论文基于Zangwill全局收敛定理证明了该算法的迭代收敛性。在多个UCI回归数据集和混凝土强度预测任务上的实验表明,AR-BLS在应对不同比例的异常值噪声和α稳定噪声时,其测试RMSE和MAE通常优于传统BLS及基于Huber、Cauchy、Welsch函数的M-BLS变体,验证了所提方法的有效性。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及。 数据集:论文中使用了UCI机器学习数据库中的多个公开回归数据集(Housing, Bodyfat, Clevend, Wine, Abalone, Slump, Strike)以及一个混凝土强度预测数据集(1030个样本)。论文未提供这些数据集的具体下载链接,通常可从其来源(如UCI机器学习仓库)获取。 Demo:论文中未提及。 复现材料:论文详细描述了所提AR-BLS算法的流程(Algorithm 1 & 2)、参数设置(如网络结构参数n, q, m, p的搜索范围,正则化系数λ统一设为\(30^{-2}\),数据划分比例等)以及实验环境(Intel Core i5-6200U CPU, 2.30 GHz, 8GB RAM)。这些信息可作为复现的依据,但未提供具体的训练配置文件、检查点或附录。 论文中引用的开源项目:未提及具体的开源项目名称或链接。论文引用了Barron提出的自适应鲁棒核函数(参考文献[27])和Chebrolu等人对近似分区函数的研究(参考文献[29])等学术工作,但未指向其具体的代码仓库。 🏗️ 方法概述和架构 本文提出的AR-BLS方法在传统BLS的框架上进行了改进,其核心架构包含三个关键部分:BLS基础网络、自适应鲁棒核损失函数、以及交替迭代的权重与参数优化策略。 ...

2026-05-25 · 更新于 2026-06-19 · 3 min · 610 words

Comprehensive Dataset and Signal Processing Framework for Phonocardiogram-Based Heart Rate and Blood Pressure Estimation

📄 Comprehensive Dataset and Signal Processing Framework for Phonocardiogram-Based Heart Rate and Blood Pressure Estimation #医疗音频 #工业应用 🔥 8/10 | 前25% | #医疗音频 | #工业应用 | arxiv 学术质量 5.4/7 | 影响力 1.5/2 | 可复现性 1.1/2 👥 作者与机构 第一作者及通讯作者:Abdul Ahad Mamun,孟加拉国工程技术大学电气与电子工程系。 共同作者:Utsab Saha(同机构及BRAC大学),Md Hasibul Hasan,Shahed Ahmed,MD Jahin Alam(同机构及BRAC大学)。 💡 毒舌点评 这篇论文想用一个麦克风和Arduino板子同时测心率血压,想法很美好,现实很骨感。硬件描述详细得像产品说明书,但核心贡献——那个“半经验模型”——在一个15人的健康男性小样本上跑回归,特征维度比样本数还多,这过拟合的flag立得飞起。作者自己都在supplementary material里承认了,但正文中还是把那组漂亮的相关系数(R=0.891)摆得挺显眼。血压参考值用的是手动测量取平均,这误差引入得也很“朴素”。整篇文章像一份详实的系统验证报告,而不是一篇旨在解决核心科学问题(如何从PCG中可靠推断BP)的方法论文。对语音/音乐领域的读者来说,除了“信号处理”这个宽泛标签,几乎没有直接可借鉴的创新点。 📌 核心摘要 本研究提出了一种名为PhonoTrack的低成本心音图(PCG)监测系统,旨在仅使用单通道PCG信号同时估计心率(HR)和血压(BP)。研究构建了一个包含15名健康成年男性同步PCG、心电图(ECG)及手动血压测量的小型数据集。HR估计采用三种包络检测方法(希尔伯特变换、香农能量、小波能量谱)提取心音峰值,其中香农能量法表现最佳,与ECG参考的HR相关性达0.973,RMSE为1.688 bpm。BP估计基于从PCG包络中提取的时域特征(如心音持续时间、上升/下降时间等),通过一个包含线性、二次项及交互项的半经验多元线性回归模型进行预测,其估计值与手动测量值的收缩压(SBP)和舒张压(DBP)相关性分别为0.891和0.700,误差标准差为2.10和3.20 mmHg。研究通过留一法交叉验证(LOOCV)评估了BP模型的泛化能力,但指出小样本和模型复杂度存在过拟合风险。论文为基于PCG的低成本便携式心血管监测设备提供了概念验证,但强调其结论的推广需要更大、更多样化的数据集和临床验证。 🔗 开源详情 代码: 未提供公开代码仓库或链接。 模型权重: 未提供。论文提出的HR和BP估计算法基于传统信号处理和统计回归模型,无深度学习模型权重。 数据集: 论文提出了一个名为“Comprehensive Dataset for Phonocardiogram-Based Heart Rate and Blood Pressure Estimation”的数据集。获取方式:论文中未提供公开下载链接,在Data Availability部分指出“通讯作者会在合理请求下提供”。开源协议:未提及。 Demo: 未提及。 复现材料: 未提供结构化的复现包。但论文在“Methodology”、“Data Validation”和“Results”部分详细描述了完整的信号处理流程、算法参数(如滤波器截止频率、小波类型与层级、阈值设置)、半经验回归模型的所有系数(Table 1)、以及数据验证指标(NRMSE, SNR)的计算方法(Table 2)。这些文字描述构成了复现研究所必需的关键信息。 论文中引用的开源项目: 未引用特定的开源软件库或项目。论文引用了多个公开数据集(PASCAL HSC, PhysioNet 2016等)进行文献综述和比较,但未提供具体URL。 🏗️ 方法概述和架构 本研究的方法框架是一个端到端的系统,涵盖硬件设计、数据采集、信号处理与建模,旨在验证仅用PCG信号进行HR和BP估计的可行性。其核心架构可分为硬件平台、数据采集流程、信号处理流水线(用于HR估计)和BP估计模型四个主要部分。 ...

2026-05-25 · 更新于 2026-06-19 · 3 min · 469 words