少样本学习

PhoenixDSR: Phoneme-Guided and LLM-Enhanced Dysarthric Speech Recognition

📄 PhoenixDSR: Phoneme-Guided and LLM-Enhanced Dysarthric Speech Recognition #语音识别 #构音障碍语音 #音素混淆矩阵 #大语言模型 #少样本学习 ✅ 7.0/10 | 前50% | #语音识别 | #音素混淆矩阵 | #构音障碍语音 #大语言模型学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：未明确说明（论文作者列表首位为 Yuxuan Wu）通讯作者：赵杰罗 (Zhaojie Luo)（东南大学生物科学与医学工程学院 / 数字医学工程国家重点实验室；深圳环宇研究院）作者列表： Yuxuan Wu（东南大学，数字医学工程国家重点实验室 / 生物科学与医学工程学院） Yifan Xu（东南大学，数字医学工程国家重点实验室 / 生物科学与医学工程学院） Junkun Wang（东南大学，数字医学工程国家重点实验室 / 生物科学与医学工程学院） Xin Zhao（东南大学，数字医学工程国家重点实验室 / 生物科学与医学工程学院） Jiayong Jiang（东南大学，数字医学工程国家重点实验室 / 生物科学与医学工程学院） Zhaojie Luo（东南大学，数字医学工程国家重点实验室 / 生物科学与医学工程学院；深圳环宇研究院） 💡 毒舌点评亮点在于提出了一个清晰、模块化且可解释的“音素中介”框架，将病理语音识别的难题分解为“健康音素识别器+混淆建模+LLM解码”三步，巧妙利用健康数据资源，并通过少量个性化数据即可快速适配，思路非常扎实。短板在于实验仅在单个中文数据集CDSD上进行，缺乏对其他语言、其他疾病类型（如帕金森、中风）或更复杂噪声环境下的验证，其普适性有待商榷；此外，论文声称超越Whisper-FT，但对比的Whisper-FT性能（34.4% CER）似乎异常差，暗示其微调策略或数据处理可能存在未言明的问题，削弱了对比的说服力。 ...

Quality Assessment of Noisy and Enhanced Speech with Limited Data: UWB-NTIS System for Voicemos 2024

📄 Quality Assessment of Noisy and Enhanced Speech with Limited Data: UWB-NTIS System for Voicemos 2024 #语音质量评估 #语音增强 #迁移学习 #预训练 #少样本学习 ✅ 7.0/10 | 前25% | #语音质量评估 | #迁移学习 | #语音增强 #预训练学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Marie Kunešová（NTIS Research Centre, Faculty of Applied Sciences, University of West Bohemia in Pilsen, Czechia）通讯作者：未说明作者列表：Marie Kunešová（NTIS研究中心，应用科学学院，西波希米亚大学），Aleš Přázák（同上），Jan Lehečka（同上） 💡 毒舌点评亮点在于其针对极端有限数据（100条标注）场景设计的“两阶段迁移学习+合成数据生成”策略，特别是将BAC预测巧妙地转化为SNR预测，取得了竞赛最佳结果。短板是整体框架属于成熟技术（wav2vec 2.0微调）的工程组合，且对于更困难的SIG预测任务，核心改进依赖于人工定义的“自然/伪造”二元伪标签，其理论依据和泛化能力存疑。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开预训练或微调后的模型权重。数据集：论文中用于第一阶段微调和预训练的数据均为公开数据集（如LibriSpeech, MS-SNSD, ASVSpoof等）或可自行生成（通过描述的脚本）。但用于wav2vec 2.0预训练的1054小时人工退化数据集本身未公开。 Demo：未提及。复现材料：提供了极其详细的数据生成规则、预训练和微调流程、关键超参数（学习率、epoch数、输入采样策略等），复现者可根据描述重建数据集并训练模型。论文的arXiv版本（https://doi.org/10.48550/arXiv.2506.00506）可能包含附录，但正文中未直接提供链接。论文中引用的开源项目：MS-SNSD（数据生成）、Lhotse（数据加载与处理）、ESC-50/MUSAN/AudioSet（噪声数据）、HuggingFace上的多个语音增强模型（用于生成退化数据）。 📌 核心摘要要解决什么问题？在仅提供100条主观标注语音的极端数据限制下，实现非侵入式的语音质量评估，具体目标是预测ITU-T P.835标准中的三个指标：SIG（语音质量与失真）、BAK（背景噪声侵入性）和OVRL（整体质量）。方法核心是什么？采用两阶段迁移学习策略，基于wav2vec 2.0预训练模型。第一阶段：在自动生成的大规模伪标签数据上微调模型，其中BAK模型学习预测SNR，SIG模型学习区分“自然语音”和“伪造/增强语音”。第二阶段：使用挑战赛提供的100条真实标注数据进行微调。与已有方法相比新在哪里？新在针对P.835这一特定评估任务的系统设计，尤其是为小数据场景设计的两阶段数据生成与微调流程。创新性地将BAK预测近似为SNR回归，并将SIG预测与语音伪造检测任务联系起来。赛后进一步提出通过使用人工退化数据进行wav2vec 2.0的预训练，显著提升了SIG预测性能。主要实验结果如何？在VoiceMOS 2024挑战赛Track 3官方评估中，该系统在BAK预测上取得最佳性能（LCC=0.867），在OVRL预测上位列第二（LCC=0.711）。赛后通过引入人工退化数据改进的模型，将SIG预测的相关性（LCC）从原始提交的0.207大幅提升至0.516。关键结果如下表所示：模型组合 VMC 2024 评估集 (LCC) CHiME 7-UDASE (不含VMC数据) (LCC) BAK SIG OVRL (A) BAK SIG OVRL (A) 原始提交 (T04) 0.867 0.207 0.711 0.819 0.684 0.595 ClTRUS (BAK) + w2v2-base (SIG) 0.877 0.516 0.728 0.839 0.726 0.714 w2v2-dgrd (BAK) + ClTRUS (SIG) 0.868 0.296 0.695 0.860 0.766 0.746 w2v2-dgrd (BAK) + w2v2-base (SIG) 0.868 0.516 0.750 0.860 0.726 0.734 团队 T06 (冠军/亚军) 0.827 0.297 0.713 - - - Official results of VMC 2024 Track 3. 图2：VMC 2024 Track 3各团队官方结果（语句级LCC）。本系统为T04团队。 ...

TICL: Text-Embedding KNN for Speech in-Context Learning Unlocks Speech Recognition Abilities of Large Multimodal Models

📄 TICL: Text-Embedding KNN for Speech in-Context Learning Unlocks Speech Recognition Abilities of Large Multimodal Models #语音识别 #少样本学习 #多语言 #低资源 #语音大模型 ✅ 7.5/10 | 前25% | #语音识别 | #少样本学习 | #多语言 #低资源学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Haolong Zheng（伊利诺伊大学厄巴纳-香槟分校）通讯作者：未明确说明（从作者列表和邮箱格式推断三位作者贡献平等，未指定通讯作者）作者列表：Haolong Zheng（伊利诺伊大学厄巴纳-香槟分校）、Yekaterina Yegorova（伊利诺伊大学厄巴纳-香槟分校）、Mark Hasegawa-Johnson（伊利诺伊大学厄巴纳-香槟分校） 💡 毒舌点评亮点：论文以最小的“技术杠杆”（仅用伪标签生成+文本嵌入检索）撬动了大型多模态模型在多种困难语音场景下高达84.7%的性能提升，证明了“好示例”比“多示例”更重要，方法简洁有效且泛化性好。短板：方法的天花板受限于伪标签质量和检索词典的覆盖度，在处理稀有词汇或复合词时（如中文部分结果恶化）显得力不从心，且对SICL为何有效的深层机制探讨不足，更像一次成功的“炼金术”应用。 🔗 开源详情代码：论文中未提及提供TICL方法的官方代码仓库。模型权重：未提及。TICL本身不训练模型，使用的是公开的预训练模型（Whisper, Phi-4-MM, Qwen2-Audio, Sentence-Transformers）。数据集：论文使用了多个公开数据集（GLOBE-V2, L2-Arctic, Common Voice, MyST, OGI Kids, ENNI, RSR），文中提到了数据集名称和引用，获取方式需参考原始数据集。 Demo：未提及。复现材料：论文提供了实验设置的关键信息（如模型名称、嵌入模型、K值选择），但缺乏具体的代码实现、配置文件或训练/评估脚本。论文中引用的开源项目： Whisper (通过 Hugging Face Transformers) Phi-4-MultiModal-instruct (Microsoft) Qwen2-Audio-7B-Instruct (Qwen Team) Sentence-Transformers 模型：all-mpnet-base-v2, paraphrase-multilingual-mpnet-base-v2 HuBERT, ECAPA-TDNN, WavLM (用于检索对比) 📌 核心摘要要解决的问题：如何为大型多模态模型（LMM）的语音上下文学习（SICL）选择最有效的上下文示例，以提升其在口音英语、多语言和儿童语音等挑战性任务上的语音识别（ASR）性能。现有方法多采用随机采样，未充分利用示例选择的潜力。方法核心：提出TICL方法。其核心是一个三阶段管道：首先用预训练ASR（如Whisper）为测试音频生成伪标签；然后用预训练的文本编码器（如all-mpnet-base-v2）对候选集的真实转录文本进行嵌入，并基于伪标签的嵌入向量，通过欧氏距离检索语义最相近的K个候选示例；最后将这些检索到的（音频，文本）对作为上下文示例，与测试音频一起输入LMM（如Phi-4-MM）生成最终转录。与已有方法相比新在哪里：已有基于Whisper的SICL工作使用语音嵌入进行检索，且受上下文窗口限制示例数量较少；后续工作虽利用LMM的大上下文窗口，但多采用随机选择示例。TICL的新颖之处在于：首次在SICL中使用文本嵌入进行语义检索，直接匹配转录内容（而非语音特征）来选择示例，且该方法与具体的LMM架构无关。主要实验结果：在三个ASR任务上，TICL均显著优于零样本基线：口音英语（GLOBE-V2）：相对WER降低最高达79.2% (Phi-4-MM) 和84.7% (Qwen2-Audio)。多语言（Common Voice）：在Phi-4-MM原生支持的语言（如日、葡）上WER大幅下降（如日语从13.00%降至6.17%），并成功解锁了俄、波、土等原不支持语言的识别能力（如俄语WER从122.75%骤降至20.74%）。儿童语音（OGI等）：在OGI数据集上WER从16.17%降至8.52%（相对降低47.3%）。消融研究：伪标签质量越高，性能越好，但即使使用最差的伪标签，TICL仍远优于零样本；上下文示例数K=4时性能最佳，增加更多示例无益甚至有害。实际意义：提供了一种轻量、低成本且即插即用的增强现有大型多模态模型语音识别能力的方法，无需模型微调，通过精心选择上下文示例即可快速适应特定领域或人群，具有实际部署价值。主要局限性：方法性能依赖于伪标签的质量和候选检索词典的覆盖度与准确性。在遇到罕见词汇、复合词或伪标签错误较大时（如论文中提到的中文案例），检索可能失效甚至引入噪声，导致性能下降。论文未深入分析SICL的内在工作机理。 🏗️ 模型架构 TICL并非一个独立模型，而是一个应用于现有大型多模态模型（LMM）的上下文选择与构造管道。其整体流程如图1所示，可分为以下阶段： ...