PhoenixDSR: Phoneme-Guided and LLM-Enhanced Dysarthric Speech Recognition

📄 PhoenixDSR: Phoneme-Guided and LLM-Enhanced Dysarthric Speech Recognition #语音识别 #构音障碍语音 #音素混淆矩阵 #大语言模型 #少样本学习 ✅ 7.0/10 | 前50% | #语音识别 | #音素混淆矩阵 | #构音障碍语音 #大语言模型 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未明确说明(论文作者列表首位为 Yuxuan Wu) 通讯作者:赵杰罗 (Zhaojie Luo)(东南大学生物科学与医学工程学院 / 数字医学工程国家重点实验室;深圳环宇研究院) 作者列表: Yuxuan Wu(东南大学,数字医学工程国家重点实验室 / 生物科学与医学工程学院) Yifan Xu(东南大学,数字医学工程国家重点实验室 / 生物科学与医学工程学院) Junkun Wang(东南大学,数字医学工程国家重点实验室 / 生物科学与医学工程学院) Xin Zhao(东南大学,数字医学工程国家重点实验室 / 生物科学与医学工程学院) Jiayong Jiang(东南大学,数字医学工程国家重点实验室 / 生物科学与医学工程学院) Zhaojie Luo(东南大学,数字医学工程国家重点实验室 / 生物科学与医学工程学院;深圳环宇研究院) 💡 毒舌点评 亮点在于提出了一个清晰、模块化且可解释的“音素中介”框架,将病理语音识别的难题分解为“健康音素识别器+混淆建模+LLM解码”三步,巧妙利用健康数据资源,并通过少量个性化数据即可快速适配,思路非常扎实。短板在于实验仅在单个中文数据集CDSD上进行,缺乏对其他语言、其他疾病类型(如帕金森、中风)或更复杂噪声环境下的验证,其普适性有待商榷;此外,论文声称超越Whisper-FT,但对比的Whisper-FT性能(34.4% CER)似乎异常差,暗示其微调策略或数据处理可能存在未言明的问题,削弱了对比的说服力。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 363 words

Quality Assessment of Noisy and Enhanced Speech with Limited Data: UWB-NTIS System for Voicemos 2024

📄 Quality Assessment of Noisy and Enhanced Speech with Limited Data: UWB-NTIS System for Voicemos 2024 #语音质量评估 #语音增强 #迁移学习 #预训练 #少样本学习 ✅ 7.0/10 | 前25% | #语音质量评估 | #迁移学习 | #语音增强 #预训练 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Marie Kunešová(NTIS Research Centre, Faculty of Applied Sciences, University of West Bohemia in Pilsen, Czechia) 通讯作者:未说明 作者列表:Marie Kunešová(NTIS研究中心,应用科学学院,西波希米亚大学),Aleš Přázák(同上),Jan Lehečka(同上) 💡 毒舌点评 亮点在于其针对极端有限数据(100条标注)场景设计的“两阶段迁移学习+合成数据生成”策略,特别是将BAC预测巧妙地转化为SNR预测,取得了竞赛最佳结果。短板是整体框架属于成熟技术(wav2vec 2.0微调)的工程组合,且对于更困难的SIG预测任务,核心改进依赖于人工定义的“自然/伪造”二元伪标签,其理论依据和泛化能力存疑。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开预训练或微调后的模型权重。 数据集:论文中用于第一阶段微调和预训练的数据均为公开数据集(如LibriSpeech, MS-SNSD, ASVSpoof等)或可自行生成(通过描述的脚本)。但用于wav2vec 2.0预训练的1054小时人工退化数据集本身未公开。 Demo:未提及。 复现材料:提供了极其详细的数据生成规则、预训练和微调流程、关键超参数(学习率、epoch数、输入采样策略等),复现者可根据描述重建数据集并训练模型。论文的arXiv版本(https://doi.org/10.48550/arXiv.2506.00506)可能包含附录,但正文中未直接提供链接。 论文中引用的开源项目:MS-SNSD(数据生成)、Lhotse(数据加载与处理)、ESC-50/MUSAN/AudioSet(噪声数据)、HuggingFace上的多个语音增强模型(用于生成退化数据)。 📌 核心摘要 要解决什么问题? 在仅提供100条主观标注语音的极端数据限制下,实现非侵入式的语音质量评估,具体目标是预测ITU-T P.835标准中的三个指标:SIG(语音质量与失真)、BAK(背景噪声侵入性)和OVRL(整体质量)。 方法核心是什么? 采用两阶段迁移学习策略,基于wav2vec 2.0预训练模型。第一阶段:在自动生成的大规模伪标签数据上微调模型,其中BAK模型学习预测SNR,SIG模型学习区分“自然语音”和“伪造/增强语音”。第二阶段:使用挑战赛提供的100条真实标注数据进行微调。 与已有方法相比新在哪里? 新在针对P.835这一特定评估任务的系统设计,尤其是为小数据场景设计的两阶段数据生成与微调流程。创新性地将BAK预测近似为SNR回归,并将SIG预测与语音伪造检测任务联系起来。赛后进一步提出通过使用人工退化数据进行wav2vec 2.0的预训练,显著提升了SIG预测性能。 主要实验结果如何? 在VoiceMOS 2024挑战赛Track 3官方评估中,该系统在BAK预测上取得最佳性能(LCC=0.867),在OVRL预测上位列第二(LCC=0.711)。赛后通过引入人工退化数据改进的模型,将SIG预测的相关性(LCC)从原始提交的0.207大幅提升至0.516。关键结果如下表所示: 模型组合 VMC 2024 评估集 (LCC) CHiME 7-UDASE (不含VMC数据) (LCC) BAK SIG OVRL (A) BAK SIG OVRL (A) 原始提交 (T04) 0.867 0.207 0.711 0.819 0.684 0.595 ClTRUS (BAK) + w2v2-base (SIG) 0.877 0.516 0.728 0.839 0.726 0.714 w2v2-dgrd (BAK) + ClTRUS (SIG) 0.868 0.296 0.695 0.860 0.766 0.746 w2v2-dgrd (BAK) + w2v2-base (SIG) 0.868 0.516 0.750 0.860 0.726 0.734 团队 T06 (冠军/亚军) 0.827 0.297 0.713 - - - Official results of VMC 2024 Track 3. 图2:VMC 2024 Track 3各团队官方结果(语句级LCC)。本系统为T04团队。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 386 words

TICL: Text-Embedding KNN for Speech in-Context Learning Unlocks Speech Recognition Abilities of Large Multimodal Models

📄 TICL: Text-Embedding KNN for Speech in-Context Learning Unlocks Speech Recognition Abilities of Large Multimodal Models #语音识别 #少样本学习 #多语言 #低资源 #语音大模型 ✅ 7.5/10 | 前25% | #语音识别 | #少样本学习 | #多语言 #低资源 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Haolong Zheng(伊利诺伊大学厄巴纳-香槟分校) 通讯作者:未明确说明(从作者列表和邮箱格式推断三位作者贡献平等,未指定通讯作者) 作者列表:Haolong Zheng(伊利诺伊大学厄巴纳-香槟分校)、Yekaterina Yegorova(伊利诺伊大学厄巴纳-香槟分校)、Mark Hasegawa-Johnson(伊利诺伊大学厄巴纳-香槟分校) 💡 毒舌点评 亮点: 论文以最小的“技术杠杆”(仅用伪标签生成+文本嵌入检索)撬动了大型多模态模型在多种困难语音场景下高达84.7%的性能提升,证明了“好示例”比“多示例”更重要,方法简洁有效且泛化性好。短板: 方法的天花板受限于伪标签质量和检索词典的覆盖度,在处理稀有词汇或复合词时(如中文部分结果恶化)显得力不从心,且对SICL为何有效的深层机制探讨不足,更像一次成功的“炼金术”应用。 🔗 开源详情 代码: 论文中未提及提供TICL方法的官方代码仓库。 模型权重: 未提及。TICL本身不训练模型,使用的是公开的预训练模型(Whisper, Phi-4-MM, Qwen2-Audio, Sentence-Transformers)。 数据集: 论文使用了多个公开数据集(GLOBE-V2, L2-Arctic, Common Voice, MyST, OGI Kids, ENNI, RSR),文中提到了数据集名称和引用,获取方式需参考原始数据集。 Demo: 未提及。 复现材料: 论文提供了实验设置的关键信息(如模型名称、嵌入模型、K值选择),但缺乏具体的代码实现、配置文件或训练/评估脚本。 论文中引用的开源项目: Whisper (通过 Hugging Face Transformers) Phi-4-MultiModal-instruct (Microsoft) Qwen2-Audio-7B-Instruct (Qwen Team) Sentence-Transformers 模型:all-mpnet-base-v2, paraphrase-multilingual-mpnet-base-v2 HuBERT, ECAPA-TDNN, WavLM (用于检索对比) 📌 核心摘要 要解决的问题: 如何为大型多模态模型(LMM)的语音上下文学习(SICL)选择最有效的上下文示例,以提升其在口音英语、多语言和儿童语音等挑战性任务上的语音识别(ASR)性能。现有方法多采用随机采样,未充分利用示例选择的潜力。 方法核心: 提出TICL方法。其核心是一个三阶段管道:首先用预训练ASR(如Whisper)为测试音频生成伪标签;然后用预训练的文本编码器(如all-mpnet-base-v2)对候选集的真实转录文本进行嵌入,并基于伪标签的嵌入向量,通过欧氏距离检索语义最相近的K个候选示例;最后将这些检索到的(音频,文本)对作为上下文示例,与测试音频一起输入LMM(如Phi-4-MM)生成最终转录。 与已有方法相比新在哪里: 已有基于Whisper的SICL工作使用语音嵌入进行检索,且受上下文窗口限制示例数量较少;后续工作虽利用LMM的大上下文窗口,但多采用随机选择示例。TICL的新颖之处在于:首次在SICL中使用文本嵌入进行语义检索,直接匹配转录内容(而非语音特征)来选择示例,且该方法与具体的LMM架构无关。 主要实验结果: 在三个ASR任务上,TICL均显著优于零样本基线: 口音英语(GLOBE-V2): 相对WER降低最高达79.2% (Phi-4-MM) 和84.7% (Qwen2-Audio)。 多语言(Common Voice): 在Phi-4-MM原生支持的语言(如日、葡)上WER大幅下降(如日语从13.00%降至6.17%),并成功解锁了俄、波、土等原不支持语言的识别能力(如俄语WER从122.75%骤降至20.74%)。 儿童语音(OGI等): 在OGI数据集上WER从16.17%降至8.52%(相对降低47.3%)。 消融研究: 伪标签质量越高,性能越好,但即使使用最差的伪标签,TICL仍远优于零样本;上下文示例数K=4时性能最佳,增加更多示例无益甚至有害。 实际意义: 提供了一种轻量、低成本且即插即用的增强现有大型多模态模型语音识别能力的方法,无需模型微调,通过精心选择上下文示例即可快速适应特定领域或人群,具有实际部署价值。 主要局限性: 方法性能依赖于伪标签的质量和候选检索词典的覆盖度与准确性。在遇到罕见词汇、复合词或伪标签错误较大时(如论文中提到的中文案例),检索可能失效甚至引入噪声,导致性能下降。论文未深入分析SICL的内在工作机理。 🏗️ 模型架构 TICL并非一个独立模型,而是一个应用于现有大型多模态模型(LMM)的上下文选择与构造管道。其整体流程如图1所示,可分为以下阶段: ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 380 words