论文速递 | 语音/音乐/音频论文速递

Bridging the Age Gap: Towards Detecting Neural Audio Codec Synthesized Elderly Speech Deepfake

📄 Bridging the Age Gap: Towards Detecting Neural Audio Codec Synthesized Elderly Speech Deepfake #语音伪造检测 #多模态模型 #自监督学习 #数据集 8.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 🔥 8.6/10 | 前50% | #语音伪造检测 | #自监督学习 | #多模态模型 #数据集 | arxiv 👥 作者与机构作者: Chetia Phukan, Mujtaba Akhtar, Orchid Girish, Mohd Lee, Chi-Chun Lee 机构: 1 BIIC Lab, NTHU, Taiwan, 2 UPES, India, 3 VBSPU, India 邮箱: orchidchetiaphukan1@gmail.com, cclee@ee.nthu.edu.tw ...

CAAD: Contrastive Audio-Aware Distillation for Efficient Speech Language Models

📄 CAAD: Contrastive Audio-Aware Distillation for Efficient Speech Language Models #语音识别 #模型压缩 #多模态模型 #语音情感识别 #对比学习 8.9/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 🔥 8.9/10 | 前25% | #语音识别 | #知识蒸馏 | #模型压缩 #多模态模型 | arxiv 👥 作者与机构第一作者：Chun-Wei Chen，第二作者：Tzu-Quan Lin，第三作者：Ke-Han Lu，第四作者：Wei-Ping Huang，第五作者：Hung-Yi Lee。机构：台湾大学电机工程学研究所、台湾大学通讯工程学研究所、台湾大学人工智能卓越研究中心（NTU AI-CoRE）。 💡 毒舌点评本文直击了语音语言模型蒸馏中“继承偏差而非克服偏差”的痛点，并提出了一个巧妙且高效的解决方案。其核心洞察——将推理时的对比解码（CD）逻辑训练时内化到学生权重——是清晰且有价值的。同步教师强制策略的设计也确实解决了传统对比蒸馏训练开销大的瓶颈。然而，这种巧妙设计严重依赖一个核心假设：由LLM基于元数据生成的“伪真实标签（Pseudo-GT）”是高质量且无偏的锚点。论文对此论证不足，这使得整个框架的上限存疑。实验虽然扎实，但仅在单一架构和压缩比上验证，普适性存疑。更关键的是，CAAD学生模型性能虽优于Std. KD，但仍不及教师模型的CD解码，这一差距的原因分析缺失。这像是一位学生学会了老师的“内功心法”（对比逻辑），但“内力”（模型容量）仍不及老师本人施展的威力。总的来说，这是一篇技术实现巧妙、实验导向明确的工作，但其核心组件的可靠性和结论的普适性需要更严格的审视。 📌 核心摘要本文针对语音语言模型参数庞大且标准蒸馏会继承语言先验偏差的问题，提出了对比音频感知蒸馏（CAAD）。CAAD的核心是通过同步教师强制策略，利用文本元数据生成的伪真实标签（Pseudo-GT）作为锚点，使教师模型能高效计算“音频感知”和“仅文本”两条路径的对比分布。学生模型通过优化与“音频感知目标”的KL散度，将这种对比推理能力内化到单路径模型中，从而在不增加推理延迟的前提下，提升模型对音频信息的依赖并减轻语言偏差。实验在DeSTA2（8B教师到3B学生）上表明，CAAD在通用任务（Dynamic-SUPERB）上相比标准蒸馏有约8%的性能提升，在模态冲突任务（MCR-BENCH）上显著降低了语言偏见（Shift值从100%降至79.03%）。 🔗 开源详情代码：https://github.com/ChenWils/Contrastive_Audio-Aware_Distillation.git 模型权重：论文中未提及具体链接。数据集：论文中提及了AccentDB、DailyTalk、IEMOCAP、PromptTTS、VCTK、VoxCeleb以及MCR-BENCH中的MELD子集，但未提供具体下载链接。 Demo：论文中未提及。复现材料：论文中提及了训练配置（使用RTX A6000 GPU训练70小时，优化器为FusedAdam，学习率 \(1 \times 10^{-4}\)，\(\lambda=0.7\)，\(\tau=2.0\)），但未提供具体检查点或附录。论文中引用的开源项目：未提及具体开源项目链接。 🏗️ 方法概述和架构 CAAD框架旨在将教师模型在推理时使用的对比解码（CD）能力，高效地蒸馏到单路径的学生模型中，避免推理时双路径计算带来的延迟。该框架分为两个阶段，如图1所示。阶段1：伪真实标签（Pseudo-GT）生成此阶段为后续的同步蒸馏准备统一的锚点序列。给定音频输入 \(X^{A}\)，首先提取文本元数据 \(M\)（如性别、情绪、声学环境等）。然后，利用教师模型的LLM骨干（如Llama3-8B-Instruct），以元数据 \(M\) 为条件，自回归生成一个结构化的描述性文本序列 \(Y^{pseudo} = \{y_1, y_2, ..., y_L\}\)。这个序列 \(Y^{pseudo}\) 被视为一个高质量的、与音频内容对齐的伪真实标签，将作为阶段2中教师模型双路径生成的固定输入序列，以实现训练过程的并行化。论文还探索了另一种直接从连续音频嵌入生成 \(Y^{pseudo}\) 的基线，但消融实验（表3）表明，基于文本元数据的锚点具有更高的保真度。阶段2：对比音频感知蒸馏在此阶段，教师模型 \(\mathcal{T}\) 和学生模型 \(\mathcal{S}\) 同时使用阶段1生成的 \(Y^{pseudo}\) 作为输入序列的一部分，进行同步计算。 ...

CapRiCorn-1K: A Comprehensive Benchmark for Video Captioning and Subject Referential Consistency Across Temporal Scales

📄 CapRiCorn-1K: A Comprehensive Benchmark for Video Captioning and Subject Referential Consistency Across Temporal Scales #数据集 8.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.6/10 | 前50% | #语音识别 | #数据集 | arxiv 👥 作者与机构 Xinlong Chen (NLPR, CASIA; UCAS; Kling Team), Jiafu Tang (NJU), Yue Ding (NLPR, CASIA; UCAS), Yizhuo Jia (FDU), Bozhou Li (PKU), Bohan Zeng (PKU), Yang Shi (PKU), Shihao Li (NJU), Yiyan Ji (NJU), Qiang Liu (NLPR, CASIA; UCAS; 通讯作者), Weihong Lin (Kling Team), Yuanxing Zhang (Kling Team), Pengfei Wan (Kling Team), Liang Wang (NLPR, CASIA; UCAS), Tieniu Tan (NLPR, CASIA; UCAS; NJU)。 ...

Catching Lies Without Sending the Video: Privacy-Preserving Multimodal Deception Detection

📄 Catching Lies Without Sending the Video: Privacy-Preserving Multimodal Deception Detection #多模态模型 6.2/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0.7/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 6.2/10 | 前50% | #多模态模型 | #多模态模型 | arxiv 👥 作者与机构作者：Nikita Sharma (加州大学圣地亚哥分校), Pranav Saran (凯斯西储大学), Karan Singla (WhissleAI，美国) 💡 毒舌点评这篇论文的立意很好——在AI无孔不入的时代讨论隐私保护，尤其是对人脸和声音这种生物特征数据的保护，方向绝对正确。但作为一个顶会级别的研究，它的问题在于“用大炮打蚊子”。你拿一个只有121个片段、且严重不平衡（一个被告贡献32个片段）的数据集，去论证一个复杂的、涉及多个商业组件（Whissle STT/视觉栈、两个前沿LLM）的流程的有效性，说服力天然不足。论文最大的亮点和贡献，其实是那个“诚实审计”——戳破了领域内一个心照不宣的泡沫：之前报告的75%准确率，很大程度上是评估漏洞（说话人泄露）吹出来的。这很有价值。但除此之外，你用一个小型数据集上的AUC从0.741提升到0.755，然后宣称一个“范式转移”，是不是有点用力过猛了？那个“节省7.8倍token”的成本分析，在121个样本上测出来的数字，推广到实际场景有多少参考价值？更讽刺的是，最佳性能（0.755）还是依赖一个封闭的、不透明的商业模型（Claude Opus）。所以，整篇论文读下来，感觉像是WhissleAI公司的一个技术概念展示和隐私宣言，学术上的厚度和普适性结论的强度，差得远。 📌 核心摘要本研究旨在解决多模态欺骗检测中的隐私泄露问题。论文提出一种端到端流程，在设备端将原始视频转换为约250个可解释特征的紧凑摘要，仅摘要被发送至云端用于分析。在Real-life Trial Deception数据集上，采用严格的留一说话人外（LOSO）评估，论文得出三个主要结论：1）一个在摘要上训练的小型梯度提升分类器（AUC 0.741）可匹配一个在原始视频上运行的大型视觉语言模型（Gemini 2.5 Pro， AUC 0.749）；2）将摘要交给前沿LLM（Claude Opus 4.8）进行零样本判断，达到最佳性能（AUC 0.755），且输入token量仅为原始视频的1/7.8；3）文献中广泛报道的75%准确率，是由于使用了会泄露说话人身份的评估协议（留一视频外）所导致的虚高结果。论文通过消融研究分析了特征组贡献，并探讨了LLM提示敏感性和语音意图相关性等问题。 ...

Compiling Differentiable Audio Graphs to Real-Time DSP

📄 Compiling Differentiable Audio Graphs to Real-Time DSP 8.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.5/10 | 前25% | arxiv 👥 作者与机构未明确说明。 💡 毒舌点评这篇论文就像一个精心打造的“翻译器”：你用机器学习的黑话训练了一个混响器，它帮你翻译成音频工程师能用的FAUST语言，并附送一套“安装说明书”（宏观控件和稳定性证明）。核心贡献在于工程实现的完整性和流畅的工作流，而不是提出新的信号处理理论或编译技术。它很实用，但对理论创新要求高的读者（比如NeurIPS）可能会觉得“就这？”。最大的遗憾是缺乏与现有部署方案（哪怕是ONNX到音频插件）的直接对比，这让“我们更好”的说法显得底气不足。论文本身写得清晰，demo演示应该不错。 📌 核心摘要本文提出了ADAC（Automatic Differentiable Audio Compiler），一个用于将可微分音频模型自动编译为实时DSP代码的工具链。其核心流程是：1）从训练框架（如PyTorch）中提取音频计算图的拓扑结构和参数，生成框架无关的JSON中间表示；2）将此表示转换为等价的FAUST代码；3）利用FAUST的编译后端生成可在多种平台（音频插件、Web、嵌入式、FPGA）上运行的实时代码。为保证实用性，系统集成了训练过程的实时听觉化（热重载）、保持稳定性的用户控件（宏观控件）以及编译前的稳定性认证。实验以反馈延迟网络（FDN）和散射延迟网络（SDN）为案例，验证了生成代码的数值等价性（误差在单精度浮点噪声范围内）和运行性能（远超实时要求）。 🔗 开源详情代码：https://github.com/cucuwritescode/adac 模型权重：论文中未提及单独提供，训练脚本和检查点包含在代码仓库中。数据集：论文中未提及公开数据集。 Demo：论文中描述了实时演示，但未提供公开的在线演示URL。复现材料：论文中未提及单独的训练配置、检查点或附录文件。所有相关的代码、训练配置、微调代码和检查点生成过程均包含在上述代码仓库中。论文中引用的开源项目： FLAMO：论文中未提供其具体链接。 FAUST：标准主页为 faust.grame.fr，但文中未明确给出。 Syfala：论文中未提供其具体链接。 dasp：论文中未提供其具体链接。 DDSP：论文中未提供其具体链接。局限与问题方法局限性讨论不充分：作者虽然在结论中指出了LTI限制，但未深入分析将ADAC扩展到非线性/时变处理器的具体挑战，例如，如何对包含waveshaper节点的图进行形式化稳定性分析？这需要不同的理论框架。实验对比缺失：最大的遗憾是未与任何现有替代方案进行对比。例如，与使用PyTorch模型直接导出为ONNX，再通过其他工具链转换为FAUST代码相比，ADAC在编译速度、生成代码的运行时效率、最终插件的功能完整性（如是否自动包含宏观控件）以及易用性上有何具体优势？这种缺失使得论文的价值主张停留在“可行”而非“优越”。实验案例广度不足：实验仅验证了FDN和SDN两种结构，两者都属于线性、递归组合。对于并联组合的复杂拓扑、或者叶节点包含非线性激活函数或时变系数（如包络跟随器）的图，ADAC的提取器和代码生成器是否依然有效，论文未提供任何证据。稳定性分析的保守性：小增益定理是一个充分非必要条件。论文承认其“保守”，但未探讨这会导致多少实际稳定的模型被误判为不稳定而拒绝导出。是否可能因为此保守性，而排除了某些具有更大稳定裕度的有趣设计？性能评估场景有限：性能测试仅在单核CPU上进行。对于FAUST支持的其他重要目标，如WebAssembly（浏览器性能）、嵌入式平台（Bela, Daisy）或FPGA，其代码的实时性能和资源消耗如何？论文未提供数据。 “热重载”机制的细节和开销：虽然描述了热重载的工作流，但未量化ADAC重新发射模型（0.2ms）和FAUST解释器重新编译加载（<10ms）在连续训练步骤中的累积开销。对于需要快速迭代的优化过程，这个开销是否可忽略？对“音频工程实践”的声称需谨慎：论文声称弥合了“研究到部署”的鸿沟。但对于专业的音频插件开发者，他们可能更熟悉手动优化FAUST代码或使用JUCE等框架。ADAC生成的代码是否足够高效和灵活，以满足商业级插件的需求？论文缺乏来自目标用户群体（音频工程师）的反馈或评估。 🏗️ 方法概述和架构 ADAC是一个端到端的编译工具链，其架构分为三个核心阶段：模型提取、中间表示生成与FAUST代码发射，并集成了训练、控制与验证工作流。 ...

CORTIS: Text-Only Adaptation of Spoken Language Models for Task-Oriented Voice Agents

📄 CORTIS: Text-Only Adaptation of Spoken Language Models for Task-Oriented Voice Agents #多模态模型 #正则化微调 #低资源 #鲁棒性 #语音识别 7.7/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ✅ 7.7/10 | 前50% | #语音识别 | #多模态模型 | #正则化微调 #低资源 | arxiv 👥 作者与机构 Youngwon Choi (Maum AI Inc.) Hyeonyu Kim (Maum AI Inc.) Taeyoun Kwon (Maum AI Inc., Seoul National University) Donghyuk Jung (Korea Culture Technology Institute) Myeongkyun Cho (Maum AI Inc., KAIST) 通讯作者：youngwonchoi@maum.ai 💡 毒舌点评创新性有限：论文提出CORTIS框架，核心是“用文本数据微调语音模型”，这是一个直观且合理的思路，并非突破性的技术新颖性。主要贡献在于在特定任务（语音代理）上验证了这一思路的有效性，并与级联系统进行了系统比较。实验范围受限：虽然使用了三个数据集，但两个是公开基准，一个是未公开的内部数据集。关键的消融实验（如has_ablation: 否）缺失，未能深入探讨“冻结语音模块”、“提示格式一致性”等设计选择对性能的具体影响。评估深度不足：论文声称优势在“高阶任务语义”和“噪声鲁棒性”，但缺乏对失败案例（如表2所示的实体错误）的定量分析。未报告置信区间或统计显著性检验，使得“竞争优势”的结论强度打折扣。开源与可复现性差：论文未提供代码、模型权重或内部数据集的任何访问链接（has_code: 否， has_model: 否， has_dataset: 否）。尽管提供了详细训练配置，但缺乏代码使得完全复现困难，违背了顶会鼓励开源的原则。影响力中等：工作为降低任务导向语音模型的标注成本提供了实用方案，但受限于仅在Qwen2.5-Omni架构上的验证（且附录C显示在其他模型上效果不佳），其普适性有待进一步证明。对语音领域的实际产品开发有一定参考价值。 📌 核心摘要本文提出了CORTIS，一个用于任务导向语音代理的文本-only监督适配框架。其核心思想是：仅使用文本形式的任务监督数据（用户指令-结构化输出对）来微调口语语言模型（SLM）的LLM组件，同时冻结其语音编码器和模态适配器。利用SLM预训练时习得的跨模态对齐能力，使得微调后的模型在推理时能够直接处理语音输入，生成结构化任务输出，而无需任务特定的语音-标注对。实验在FSC、SLURP和一个内部产品数据集上进行，将CORTIS与使用相同文本监督数据的ASR-LLM级联系统进行对比。结果表明，CORTIS在性能上与级联系统具有竞争力，并在声学条件恶化时，对于保留高阶任务语义（如意图识别、函数调用）表现出更明显的优势。 ...

CoughPhase-CLR: Designing an acoustics-informed foundation model for coughing sound classification

📄 CoughPhase-CLR: Designing an acoustics-informed foundation model for coughing sound classification #对比学习 #自监督学习 10/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 10/10 | 前10% | #对比学习 | #对比学习 | #自监督学习 | arxiv 👥 作者与机构 Marius Moldovan, Andreas Triantafyllopoulos, Anton Batliner, Björn W. Schuller: CHI – the Chair of Health Informatics at the TUM University Hospital, Munich, Germany; MCML – the Munich Center for Machine Learning and MDSI – the Munich Data Science Institute, Munich, Germany. Björn W. Schuller: GLAM – the Group on Language, Audio, & Music at Imperial College London, London, United Kingdom. Thomas M. Berghaus: University Hospital Augsburg at the University of Augsburg, Augsburg, Germany and Medical Faculty, Ludwig Maximilians University of Munich, Munich, Germany. 💡 毒舌点评这篇论文像一个精心设计但规模有限的临床试验。想法不错——用咳嗽的“物理节奏”来教AI听咳嗽，比随机切片要合理。但现实很骨感：预训练数据量仅为OPERA的十分之一，在最重要的COPD诊断任务上，所有模型都像在扔硬币（最高57%），远低于语音方法的84%。作者很诚实地承认了问题，但“诚实”不能替代“解决”。私有COPD-DE数据集只有48个病人、166条录音，这样的结论在临床意义上非常脆弱。最终，论文更像是一次扎实的、关于“当前咳嗽声学分析天花板”的演示，而非一个能实际落地的诊断工具。代码和模型权重的开源是亮点，为后续研究铺了路，但路还很长。 ...

Cross-lingual Retrieval-Augmented Classification for Dysarthria Severity Assessment

📄 Cross-lingual Retrieval-Augmented Classification for Dysarthria Severity Assessment #对比学习 8.4/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.4/10 | 前25% | #语音识别 | #对比学习 | arxiv 👥 作者与机构作者：Taeyoung Jeong, Insung Lee, Du-Seong Chang, Myoung-Wan Koo 机构：Department of Artificial Intelligence, Sogang University, South Korea 💡 毒舌点评这篇论文的动机很清晰，就是模仿医生看病时的“对比诊断”思路，用一个语言的数据去帮助另一个语言的疾病分级。想法不错，但实现上深度有限。最大的亮点是把检索增强（RAG）从文本领域巧妙地搬到了语音病理分析上，并且用对比学习做跨语言对齐，这算是一个有效的工程组合。消融实验设计得不错，清楚地证明了“对齐”和“检索”缺一不可。但是，论文的“天花板”也很明显：它严重依赖一个强大的预训练模型（Whisper）作为特征提取器，CRAC框架更像是在这个强特征上做了一个精巧的“后期处理”。如果剥离Whisper的功劳，这个框架本身还能剩下多少？此外，实验只在两个语言、两种病因的数据集上做，虽然跨了病因，但样本量（尤其是测试集）太小，结论的普适性要打个问号。作者在“局限性”部分几乎一笔带过，缺乏深入的自我批判。总的来说，是一篇扎实的、有启发性的工作，但离改变领域范式还差得远，更适合发表在应用导向的会议上。 📌 核心摘要针对病理语音数据稀缺导致的构音障碍自动严重程度评估难题，本文提出了一个跨语言检索增强分类（CRAC）框架。该框架受临床医生对比诊断流程启发，包含四个阶段：1) 对比对齐阶段，使用冻结的Whisper-small编码器提取特征，并通过监督对比学习训练一个投影头，将不同语言和任务的特征映射到一个严重程度聚焦的嵌入空间；2) 向量数据库构建阶段，使用目标语言训练集的特征构建一个检索数据库（FAISS），用于从相反语言的语料库中检索相似样本；3) 检索增强分类阶段，在训练和推理时，用目标语言样本的查询向量从数据库中检索出top-k个最相似的跨语言参考样本，并通过多头交叉注意力机制将其与输入特征融合，再送入MLP分类器；4) 主体级推理阶段，对同一受试者的六个语音任务结果进行软投票得到最终预测。在韩国中风后构音障碍和意大利ALS构音障碍数据集上的实验表明，CRAC的平衡准确率分别达到87.3%和86.7%，显著优于单语基线和简单的多语言数据池化基线。消融实验证实了对齐和检索两个组件的互补性和必要性。 ...

Direct Raw Audio Signal Processing via Reservoir Computing: An Investigation into 'Feature-Free' Architectures

📄 Direct Raw Audio Signal Processing via Reservoir Computing: An Investigation into 'Feature-Free' Architectures #对比学习 4.5/10 | 创新 1.5/2 | 严谨 0.6/1.5 | 实验 0.5/1.5 | 清晰 0.4/1 | 影响 0.4/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 📝 4.5/10 | 后50% | #语音识别 | #对比学习 | arxiv 👥 作者与机构作者：Rinku Sebastian, Simon O’Keefe, Martin A Trefzer。机构：英国约克大学物理、工程与技术学院（School of PET, University of York, UK）和计算机科学系（Department of Computer Science, University of York, UK）。 ...

DisSpeech: Low-Resource Controllable Mandarin Stuttered Speech Synthesis for ASR Augmentation

📄 DisSpeech: Low-Resource Controllable Mandarin Stuttered Speech Synthesis for ASR Augmentation #语音合成 #语音识别 #低资源 #数据增强 7.2/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.2/10 | 前25% | #语音合成 | #数据增强 | #语音识别 #低资源 | arxiv 👥 作者与机构作者：Yao Lu 机构：TMCC, College of Computer Science, Nankai University, Tianjin, China (南开大学计算机科学学院智能多媒体计算中心) 邮箱：2211843@mail.nankai.edu.cn 💡 毒舌点评动机与定位清晰，但“低资源”声明需斟酌：针对普通话口吃语音数据稀缺导致ASR性能下降的问题，提出合成增强方案，动机合理。声称“仅需少于50小时数据微调”，这在特定任务下是优势，但需注意AS-70数据集本身就有48小时，且预训练使用了85小时的AISHELL-3，严格意义上“低资源”可能指目标领域的微调数据量。方法设计模块化，有改进但创新性中等：将离散token生成与可控口吃建模结合，并引入非自回归模型缓解误差累积，思路直接有效。然而，核心组件（SpeechTokenizer, MaskGCT, HiFi-GAN, 韵律解码器）均为已有工作，本文主要贡献在于整合与适配，针对口吃合成的原创性架构设计或理论贡献有限。实验充分，但部分评估可深化：在合成质量和ASR增强上做了全面对比，结果显示有效。但缺少关键的消融实验来验证各组件（如非自回归模型、显式音高能量模块、口吃标签）的具体贡献。ASR增强实验虽结果显著，但“state-of-the-art”的声明受限于特定数据集和评估设置，泛化性未知。开源与可复现性严重不足：论文未提供代码、模型权重或合成数据，这极大限制了其可复现性和对社区的贡献。作为一篇应用性较强的论文，不开源使得验证其主张和进行后续研究变得困难。局限性挖掘可更深入：论文提及了未来工作方向，但审稿人认为应更尖锐地指出当前局限，例如：自动插入口吃标签的策略可能过于简单，无法模拟真实口吃的复杂性和上下文依赖性；模型在极严重或罕见口吃类型上的泛化能力未被验证；合成语音与真实口吃语音在自然度和多样性上的差距未被量化讨论。 📌 核心摘要本文针对普通话口吃语音数据稀缺导致自动语音识别（ASR）系统性能下降的问题，提出了DisSpeech框架。该框架是一个基于离散语音token的低资源可控口吃语音合成系统，可用于ASR数据增强。核心思想是将文本和显式口吃事件标签通过非自回归掩码生成Transformer映射为语义token，再通过一个集成显式音高与能量建模的解码器重建声学特征，最终由HiFi-GAN生成波形。实验表明，DisSpeech在合成质量和口吃事件可控性上优于现有方法（如Stutter-TTS）。利用其生成的94小时合成口吃语音增强ASR模型训练后，Qwen3-ASR-0.6B模型在评估的普通话口吃语音识别任务上达到4.19%的最优字符错误率（CER），同时对流利语音识别性能影响轻微。 ...