Adapting Foundation ASR Models to Dysarthric Speech: A Case Study

📄 Adapting Foundation ASR Models to Dysarthric Speech: A Case Study #语音识别 #自回归模型 #参数高效微调 #数据增强 6.2/10 ✅ 6.2/10 | 前50% | #语音识别 | #参数高效微调 | #自回归模型 #数据增强 | arxiv 👥 作者与机构 作者:Christian Huber, Laura Kernahan, Alexander Waibel 机构:卡尔·斯鲁普工业大学(KIT,德国)及其卡内基-梅隆大学(CMU,美国)的合作项目 💡 毒舌点评 说白了,这是一篇非常扎实的“工程应用报告”,但离顶会的“科研论文”标准还有不小的距离。优点很明显:选题刚需,流程完整,结果感人(从完全不能用到相当可用),还有真实的部署和用户反馈,这比很多只在数据集上刷分的工作要实在得多。但问题是,它的“学术味儿”太淡了。核心方法就是“拿Whisper微调”,这操作放在语音社区甚至不如“在LibriSpeech上微调”来得有新意。实验设计最大硬伤就是“单人验证”,这直接把结论的普遍性打入冷宫——你的LoRA不行、Qwen3-ASR不行,换个人可能就反过来了。分析也浮于表面,比如只说LoRA效果差是因为“失配”,却没动手验证这个猜想(比如调调rank试试?)。最可惜的是,它本可以提炼出一些关于“极端域下全量微调 vs 参数高效微调”的有趣规律,但论文满足于描述现象,没有深入机理。所以,它很好地解决了一个实际问题,但对科学共同体贡献的新知有限。更适合发表在应用类会议或期刊上。 📌 核心摘要 本文针对基础ASR模型在构音障碍语音上性能差的问题,提出了一个端到端的个性化适配与部署方案。核心工作是使用TEQST工具收集了单一说话者约92小时的朗读语音,并通过部署的移动应用收集了8.8小时的纠正数据。以Whisper (whisper-large-v3) 为基础模型,通过全量微调,仅用1.4小时数据就将WER从基线的128.4%降至15.8%,使用全部数据(含纠正)后达到最佳9.7%。作为对比,LoRA参数高效微调方法效果较差(相对下降15%-39%),而另一个基础模型Qwen3-ASR-1.7B在相同设置下的表现也不及Whisper。最终,微调后的模型被部署为iOS移动应用,提供多种录音模式和实时纠正功能,显著改善了用户的生活质量和沟通信心。论文指出,该工作成功证明了全量微调在应对巨大领域偏移时的有效性,并为解决实际无障碍通信问题提供了一个可行路径。 🔗 开源详情 代码:论文中未提及任何代码仓库链接。 模型权重:论文中未提供作者微调后的模型权重下载链接。论文使用了开源的Whisper (whisper-large-v3) 和 Qwen3-ASR-1.7B作为基础模型,但未提供最终的个性化模型。 数据集:论文中提及“The data set can be accessed here”,暗示数据集可通过链接访问,但在提供的论文全文中未显示具体的URL。数据集包含约100.8小时的构音障碍语音(训练集89.8小时,纠正数据8.8小时,开发集和测试集各1.1小时)。 Demo:论文中未提及在线演示链接或移动应用商店链接。 复现材料:论文中未提及具体的训练配置文件、检查点、环境依赖列表或附录等复现材料。 论文中引用的开源项目: TEQST:论文引用为[4],用于数据收集,未提供具体链接。 Whisper:OpenAI的ASR模型,论文引用为[10],未提供具体链接。 Qwen3-ASR:阿里云的ASR模型,论文引用为[11],未提供具体链接。 Faster Whisper:论文引用为[13],用于模型部署,未提供具体链接。 CTranslate2:论文引用为[5, 6],作为Faster Whisper的实现基础,未提供具体链接。 LoRA:论文引用为[3],参数高效微调方法,未提供具体链接。 补充链接(自动提取): ...

2026-07-01 · 更新于 2026-07-02 · 1 min · 209 words

AVTok: 1D Unified Tokenization for Holistic Audio-Video Generation

📄 AVTok: 1D Unified Tokenization for Holistic Audio-Video Generation #多模态模型 #语音合成 #自回归模型 #模型压缩 6.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0/0.5 | 工程 1/1.5 ✅ 6.5/10 | 前25% | #语音合成 | #模型压缩 | #多模态模型 #自回归模型 | arxiv 👥 作者与机构 作者:Kien T. Pham, I Chieh Chen, Qifeng Chen, Long Chen (通讯作者)。 机构:香港科技大学(The Hong Kong University of Science and Technology)。 ...

2026-07-01 · 更新于 2026-07-02 · 2 min · 380 words

ZONOS2 Technical Report

📄 ZONOS2 Technical Report #语音合成 #多语言 #自回归模型 10/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 10/10 | 前25% | #语音合成 | #多语言 | #自回归模型 | arxiv 👥 作者与机构 作者:Gabriel Clark, Sofian Mejjoute, Mohamed Osman, George Close, Beren Millidge 机构:Zyphra 💡 毒舌点评 这篇技术报告读起来像一份精心包装的产品发布说明书,而非一篇严谨的学术论文。最大的槽点在于“过度声明”与“选择性对比”:摘要中声称“state-of-the-art naturalness, prosody, and voice cloning fidelity”,但结果表(IV, V)显示,在关键指标如WER和UTMOS上,ZONOS2在多个语言上显著落后于闭源模型(如Eleven Labs V3, Gemini 3.1 Flash)和部分开源模型(如Fish S2 Pro, VoxCPM 2)。其所谓“竞争力”高度依赖自家提出的ZTTS1-Eval基准,而在这个基准上,其“Quality Mode”虽提升了一些指标,但往往以牺牲说话人相似度为代价(对比表IV/ V 中“8B”与“Quality Mode”行)。此外,将80%以上的英文训练数据(图3)归因于“公开语音语料库、播客”等,却未提供这些数据集的任何链接或开源协议,使得“开源”光环下的数据透明度大打折扣,存在“数据黑箱”的嫌疑。讨论部分(VII)对MoE训练不稳定性的承认倒是挺实在的。 ...

2026-06-24 · 更新于 2026-07-02 · 7 min · 1346 words

A Generalized Formalism of Auto-Regressive Decoding for Speech Processing

📄 A Generalized Formalism of Auto-Regressive Decoding for Speech Processing #自回归模型 4.1/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 0/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0/0.5 | 工程 0.4/1.5 📝 4.1/10 | 后50% | #自回归模型 | #自监督学习 | arxiv 👥 作者与机构 Julia Gachot, Philipp Allgeuer, Marie S. Bauer, Stefan Wermter Knowledge Technology, Department of Informatics, University of Hamburg, Germany 💡 毒舌点评 一篇典型的“理论先行,实验为零”的宣言式论文。作者试图用一套四步走的通用框架来统一自回归解码这个看似简单却包罗万象的领域。框架本身逻辑自洽,归纳得也挺规整,就像给一堆形状各异的解码算法强行套上了一个统一的乐高底板。问题在于,这个底板到底结不结实?好不好用?能搭出比现有积木城堡更漂亮的东西吗?论文通篇没有回答。它只告诉你“我有个好想法”,但不证明这个想法比别人现有的好。在顶会,光有想法是不够的,你得用扎实的实验(哪怕只是在一个小任务上的消融)来证明这个想法的威力。把“消融研究方法学”当贡献提出来,却自己不做一个示例,这多少有点空手套白狼的意思。对于一篇自称面向“语音处理”的论文,里面关于语音的专属讨论却少得可怜,更像是披着语音外衣的通用序列生成综述。整体来说,是一篇有潜在价值但远未成熟的工作,更像一篇position paper或workshop论文,离正式的contribution paper还有距离。 ...

2026-06-23 · 更新于 2026-07-02 · 2 min · 262 words

AudioCALM: Continuous Autoregressive Language Modeling for Universal Audio Generation

📄 AudioCALM: Continuous Autoregressive Language Modeling for Universal Audio Generation #语音合成 #音频生成 #音乐生成 #自回归模型 #流匹配 7.9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.9/10 | 前25% | #语音合成 | #音频生成 | #音乐生成 #自回归模型 | arxiv 👥 作者与机构 作者:Huadai Liu, Kaicheng Luo, Wen Wang, Qian Chen, Bin Ma, Xiangang Li, Wei Xue 机构:香港科技大学 (HKUST), 通义团队, 阿里巴巴集团 (Tongyi Fun Team, Alibaba Group) ...

2026-06-23 · 更新于 2026-07-02 · 3 min · 436 words

Streaming T5-based Text-to-Speech Synthesis with Limited Lookahead

📄 Streaming T5-based Text-to-Speech Synthesis with Limited Lookahead #语音合成 #知识蒸馏 #自回归模型 6.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.4/0.5 | 工程 0.6/1.5 ✅ 6.7/10 | 前25% | #语音合成 | #知识蒸馏 | #自回归模型 | arxiv 👥 作者与机构 作者:Muyang Du, Jason Roche, Junjie Lai 机构:NVIDIA China, NVIDIA USA 💡 毒舌点评 这篇工作像是给“语音合成流水线”加了个“预读窗口”。想法很直接——别等整句文字吐完再开始发声,看着前面几个词就能动嘴了。技术包装上,T5架构加上精心设计的掩码和对齐模块,看起来挺唬人。但仔细想想,所谓的“有限前瞻”本质上是对注意力机制的硬约束,有点“削足适履”的味道。实验部分倒是花了不少力气,各种消融和对比,但baselines的选择和训练数据的差异(特别是与SOTA对比时)让说服力打了折扣。最让人皱眉的是“开源”部分的空白,这对于一个号称实用且解决了实际问题的工作来说,有点说不过去——你解决了延迟,却不让我们方便地验证和使用,这“实用价值”就悬在半空了。 📌 核心摘要 本文提出了S5-TTS,一个基于T5的流式文本到语音合成模型,旨在解决级联LLM-TTS系统中因TTS需要完整上下文而产生的高端到端延迟问题。S5-TTS通过引入前瞻因果掩码(lookahead-causal masking)机制和基于卷积的辅助注意力模块,实现了在有限前瞻(即每个词合成时仅能看到其自身、前面所有词和k个未来词)下的词级增量语音合成。为了补偿有限前瞻造成的自然度损失,作者采用了交错多源蒸馏(Interleaved Multi-Source Distillation, IMSD)策略,利用全上下文的T5-TTS作为教师模型,同时使用配对的文本-音频数据和经过ASR过滤的合成文本数据进行监督。实验表明,当k=2时,S5-TTS在可懂度(WER)和说话人相似度(SSIM)上与全上下文T5-TTS相当,主观质量(MOS)接近,同时显著降低了端到端语音响应延迟。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集:论文中使用了LibriTTS、HiFiTTS和UltraChat-200k数据集,但未提供这些数据集的具体下载链接、处理脚本或合成数据的详细获取方式。 Demo:https://s5-tts.github.io/ 复现材料:论文中提及了详细的训练配置(GPU型号、批量大小、优化器、学习率等),但未提供完整的训练代码、配置文件或检查点下载链接。 论文中引用的开源项目:T5-TTS, NeMo, phonemizer, Parakeet-TDT, E2-TTS, FireRedTTS, MaskGCT, CosyVoice, Llama 3.3 70B, Ollama。论文引用了这些项目,但未提供直接链接,也未说明S5-TTS的开源实现依赖于其中哪些项目的官方代码库。 🏗️ 方法概述和架构 S5-TTS的核心架构是基于T5的编码器-解码器Transformer,专为流式合成设计。 ...

2026-06-23 · 更新于 2026-07-02 · 3 min · 514 words

One-Step Token-to-Waveform Generation with MeanFlow in Latent Space

📄 One-Step Token-to-Waveform Generation with MeanFlow in Latent Space #语音合成 #生成模型 #自回归模型 #流匹配 #扩散模型 #Transformer 9.3/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 9.3/10 | 前10% | #语音合成 | #Transformer | #生成模型 #自回归模型 | arxiv 👥 作者与机构 作者:Zheqi Dai, Guangyan Zhang, Zhen Ye, Jingyu Li, Haolin He, Chunyat Wu, Yiwen Guo, Qiuqiang Kong 机构:1 The Chinese University of Hong Kong, Hong Kong SAR, China; 2 LIGHTSPEED, Tencent, Hong Kong SAR, China; 3 The Hong Kong University of Science and Technology, Hong Kong SAR, China; 4 Independent Researcher ...

2026-06-17 · 更新于 2026-07-02 · 3 min · 500 words

Towards Robust Generative Speech Enhancement Using Vector Quantisation-Based Neural Audio Codec

📄 Towards Robust Generative Speech Enhancement Using Vector Quantisation-Based Neural Audio Codec #语音增强 #自回归模型 #生成模型 5.9/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.1/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 📝 5.9/10 | 前50% | #语音增强 | #自回归模型 | #生成模型 | arxiv 👥 作者与机构 Haixin Zhao, Nilesh Madhu IDLab, Ghent University - imec, Belgium 💡 毒舌点评 这篇工作就像用精美的瑞士军刀去切黄油。作者搭建了两个结构对称、理论分析看似漂亮的框架(cNAC-SE和dNAC-SE),然后通过详尽的消融实验证明了一件大家其实模模糊糊知道的事:在连续空间预测回归值并套个VQ壳子,通常比预测离散分类值要稳。论文的理论分析部分(第2.4节和图3、4)是其最大亮点,用Voronoi cell和PCA图解释了连续建模为何“漂移”更小,这一点讲得漂亮且直观。然而,实验部分的问题暴露了其野心的边界:所有对比基线要么是几年前的,要么是自己家族的变体(dNAC-SE)。Table 3 中与SOTA的对比中,最好的cNAC-SE模型相对于SELM、StoRM等方法的优势并不明显(例如在Real Recordings的BAK和OVL上),尤其是在被其视为核心创新的“鲁棒性”方面(带混响测试集),优势幅度有限。作者声称取得了“leading performance”,但在没有与最新(2025-2026年)的强力生成模型(如基于Flow Matching或Consistency Model的SE方法)正面较量时,这个宣称显得底气不足。此外,论文将大量篇幅用于解释一个相对直观的现象,而忽略了对计算开销这一明确提到的限制的深入分析或缓解方案。整体感觉是:一个扎实的、分析透彻的中游工作,试图包装成一个突破性的工作,但实验对比的“护城河”挖得太浅。 ...

2026-06-16 · 更新于 2026-07-02 · 4 min · 743 words

BayLing-Duplex: Native Full-Duplex Speech Dialogue with a Single Autoregressive LLM

📄 BayLing-Duplex: Native Full-Duplex Speech Dialogue with a Single Autoregressive LLM #语音合成 #语音识别 #自回归模型 9/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 🔥 9/10 | 前10% | #语音合成 | #语音识别 | #自回归模型 | arxiv 👥 作者与机构 论文有三位作者:Qingkai Fang、Shoutao Guo、Yang Feng。他们都隶属于中国科学院计算技术研究所(ICT/CAS)的智能信息处理重点实验室、中国科学院AI安全重点实验室以及中国科学院大学。 💡 毒舌点评 这篇论文在“如何让LLM学会实时对话”这个问题上给出了一个相当聪明的答案。它没有像Moshi那样另起炉灶搞一套复杂的双流并行架构,而是巧妙地在现有的单工LLM(GLM-4-Voice)上“打补丁”——通过精心设计的多通道交错序列和四个特殊令牌,把“什么时候该说话、什么时候该闭嘴、什么时候该被打断”这些复杂决策,统统变成了LLM最擅长的“下一个词预测”游戏。这个想法非常优雅,工程上也极其友好,40万样本微调就能从单工变全双工,成本控制堪称典范。实验结果也足够亮眼,尤其是在轮流和打断的成功率上碾压了Moshi,证明了“内化决策”的有效性。然而,它的软肋也很明显:所有实验都在干净、无噪、单人的合成语音上进行,这就像在无菌实验室里测试越野车,真正开上马路(复杂现实环境)表现如何,谁也不知道。此外,0.8秒的固有延迟虽然被提及,但分析深度不足,对于追求极致响应速度的应用来说,这可能是一个硬伤。总体而言,这是一篇工程思维出色、架构设计巧妙的工作,但其宣称的“原生全双工”能力,还需要在更“脏”的真实世界数据中经受考验。 📌 核心摘要 本文提出了BayLing-Duplex,一个基于单一自回归大语言模型(LLM)的原生全双工语音对话系统。该系统通过一种创新的多通道交错序列布局,将用户语音、助手文本和助手语音三个流以固定块大小交错组织,并引入[SILENCE]、[ASSISTANT]、[PAD]、[EPAD]四个对话状态特殊令牌。这一设计将全双工对话中的轮流说话和打断决策,完全转化为标准LLM的下一个令牌预测任务,无需任何额外的分类头、状态机或外部语音活动检测(VAD)模块。模型以GLM-4-Voice为骨干,仅通过在40万全双工合成样本上进行有监督微调(SFT)和直接偏好优化(DPO)两阶段训练,便实现了从单工到全双工的能力转换。实验表明,BayLing-Duplex在轮流说话成功率(92.0%)和打断成功率(100%)上大幅超越了基线模型Moshi,并在语音问答等任务上保持了与单工版本相当或更优的性能,验证了全双工建模并未以牺牲回复质量为代价。 🔗 开源详情 代码:https://github.com/BayLing-Models/BayLing-Duplex 模型权重:论文中未直接提供独立的模型权重下载链接,但根据摘要中的信息,代码和模型已发布于上述GitHub仓库。模型基于GLM-4-Voice检查点训练。 数据集:论文中描述的数据集为基于Alpaca和UltraChat数据集,通过Llama-3.3-70B-Instruct改写并使用CosyVoice合成的多轮对话语音语料,后被转换为全双工格式。原始合成数据集的获取链接论文中未提及。 Demo:论文中未提及。 复现材料:论文中提供了详细的训练配置。SFT阶段:在400K全双工样本上训练1个epoch,批量大小32,峰值学习率1e-5,使用带10%预热的余弦学习率调度。DPO阶段:训练200步,峰值学习率3e-7,β=0.5,λ_ftx=0.5,使用带5%预热的余弦学习率调度。训练代码基于LLaMA-Factory。但检查点文件的具体下载链接论文中未提及。 论文中引用的开源项目: GLM-4-Voice: https://github.com/THUDM/GLM-4-Voice Whisper-large-v3: https://github.com/openai/whisper CosyVoice: https://github.com/FunAudioLLM/CosyVoice LLaMA-Factory: https://github.com/hiyouga/LLaMA-Factory 🏗️ 方法概述和架构 BayLing-Duplex的核心架构是在已有的GLM-4-Voice单工语音LLM基础上,通过设计一种新颖的序列布局来赋予其全双工能力,而不引入新的网络模块。 ...

2026-06-15 · 更新于 2026-07-02 · 2 min · 316 words

Lip Forcing: Few-Step Autoregressive Diffusion for Real-time Lip Synchronization

📄 Lip Forcing: Few-Step Autoregressive Diffusion for Real-time Lip Synchronization #自回归模型 #扩散模型 #流式处理 6.8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 6.8/10 | 前50% | #语音合成 | #自回归模型 | #扩散模型 #流式处理 | arxiv 👥 作者与机构 论文标题: Lip Forcing: Few-Step Autoregressive Diffusion for Real-time Lip Synchronization arXiv ID: 2606.11180 作者: Paul Hyunbin Cho, Jinhyuk Jang, SeokYoung Lee, Joungbin Lee, Siyoon Jin, Heeseong Shin, Jung Yi, Yunjin Park, Chulmin Park, Seungryong Kim† 机构: 1KAIST AI, 2AIPARK ...

2026-06-11 · 更新于 2026-07-02 · 3 min · 437 words