Quality Assessment of Noisy and Enhanced Speech with Limited Data: UWB-NTIS System for Voicemos 2024

📄 Quality Assessment of Noisy and Enhanced Speech with Limited Data: UWB-NTIS System for Voicemos 2024 #语音质量评估 #语音增强 #迁移学习 #预训练 #少样本学习 ✅ 7.0/10 | 前25% | #语音质量评估 | #迁移学习 | #语音增强 #预训练 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Marie Kunešová(NTIS Research Centre, Faculty of Applied Sciences, University of West Bohemia in Pilsen, Czechia) 通讯作者:未说明 作者列表:Marie Kunešová(NTIS研究中心,应用科学学院,西波希米亚大学),Aleš Přázák(同上),Jan Lehečka(同上) 💡 毒舌点评 亮点在于其针对极端有限数据(100条标注)场景设计的“两阶段迁移学习+合成数据生成”策略,特别是将BAC预测巧妙地转化为SNR预测,取得了竞赛最佳结果。短板是整体框架属于成熟技术(wav2vec 2.0微调)的工程组合,且对于更困难的SIG预测任务,核心改进依赖于人工定义的“自然/伪造”二元伪标签,其理论依据和泛化能力存疑。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开预训练或微调后的模型权重。 数据集:论文中用于第一阶段微调和预训练的数据均为公开数据集(如LibriSpeech, MS-SNSD, ASVSpoof等)或可自行生成(通过描述的脚本)。但用于wav2vec 2.0预训练的1054小时人工退化数据集本身未公开。 Demo:未提及。 复现材料:提供了极其详细的数据生成规则、预训练和微调流程、关键超参数(学习率、epoch数、输入采样策略等),复现者可根据描述重建数据集并训练模型。论文的arXiv版本(https://doi.org/10.48550/arXiv.2506.00506)可能包含附录,但正文中未直接提供链接。 论文中引用的开源项目:MS-SNSD(数据生成)、Lhotse(数据加载与处理)、ESC-50/MUSAN/AudioSet(噪声数据)、HuggingFace上的多个语音增强模型(用于生成退化数据)。 📌 核心摘要 要解决什么问题? 在仅提供100条主观标注语音的极端数据限制下,实现非侵入式的语音质量评估,具体目标是预测ITU-T P.835标准中的三个指标:SIG(语音质量与失真)、BAK(背景噪声侵入性)和OVRL(整体质量)。 方法核心是什么? 采用两阶段迁移学习策略,基于wav2vec 2.0预训练模型。第一阶段:在自动生成的大规模伪标签数据上微调模型,其中BAK模型学习预测SNR,SIG模型学习区分“自然语音”和“伪造/增强语音”。第二阶段:使用挑战赛提供的100条真实标注数据进行微调。 与已有方法相比新在哪里? 新在针对P.835这一特定评估任务的系统设计,尤其是为小数据场景设计的两阶段数据生成与微调流程。创新性地将BAK预测近似为SNR回归,并将SIG预测与语音伪造检测任务联系起来。赛后进一步提出通过使用人工退化数据进行wav2vec 2.0的预训练,显著提升了SIG预测性能。 主要实验结果如何? 在VoiceMOS 2024挑战赛Track 3官方评估中,该系统在BAK预测上取得最佳性能(LCC=0.867),在OVRL预测上位列第二(LCC=0.711)。赛后通过引入人工退化数据改进的模型,将SIG预测的相关性(LCC)从原始提交的0.207大幅提升至0.516。关键结果如下表所示: 模型组合 VMC 2024 评估集 (LCC) CHiME 7-UDASE (不含VMC数据) (LCC) BAK SIG OVRL (A) BAK SIG OVRL (A) 原始提交 (T04) 0.867 0.207 0.711 0.819 0.684 0.595 ClTRUS (BAK) + w2v2-base (SIG) 0.877 0.516 0.728 0.839 0.726 0.714 w2v2-dgrd (BAK) + ClTRUS (SIG) 0.868 0.296 0.695 0.860 0.766 0.746 w2v2-dgrd (BAK) + w2v2-base (SIG) 0.868 0.516 0.750 0.860 0.726 0.734 团队 T06 (冠军/亚军) 0.827 0.297 0.713 - - - Official results of VMC 2024 Track 3. 图2:VMC 2024 Track 3各团队官方结果(语句级LCC)。本系统为T04团队。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 386 words

SA-SSL-MOS: Self-Supervised Learning MOS Prediction with Spectral Augmentation for Generalized Multi-Rate Speech Assessment

📄 SA-SSL-MOS: Self-Supervised Learning MOS Prediction with Spectral Augmentation for Generalized Multi-Rate Speech Assessment #语音质量评估 #自监督学习 #数据增强 #多语言 #开源工具 ✅ 7.0/10 | 前50% | #语音质量评估 | #自监督学习 | #数据增强 #多语言 学术质量 4.2/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 中 👥 作者与机构 第一作者:Fengyuan Cao(KTH Royal Institute of Technology, Stockholm, Sweden) 通讯作者:未说明 作者列表:Fengyuan Cao(KTH皇家理工学院),Xinyu Liang(KTH皇家理工学院),Fredrik Cumlin(KTH皇家理工学院),Victor Ungureanu(Google LLC),Chandan K. A. Reddy(Google LLC),Christian Sch¨uldt(Google LLC),Saikat Chatterjee(KTH皇家理工学院) 💡 毒舌点评 亮点:论文巧妙地设计了一个并行架构,将受限于16kHz的SSL特征与可处理48kHz的谱图特征相结合,直面并试图解决多速率语音评估中的高频信息丢失问题,两阶段训练策略在有限数据下提升了泛化能力。短板:所提方法在部分外部数据集(如腾讯中文数据集)上的性能反而低于仅使用SSL的基线模型,这表明其“谱图增强”分支可能引入了与语言或域不匹配的偏差,削弱了论文核心论点的一致性,且未与更前沿的多速率评估方法进行对比。 🔗 开源详情 代码:提供代码仓库链接:https://github.com/Dear-xxf/SA_SSL_MOS 模型权重:论文中未提及公开的模型权重文件。 数据集:训练所用的NISQA和AudioMOS数据集均为公开数据集,论文中引用了其来源。评估使用的外部数据集(Tencent, TCD-VoIP等)也多为公开数据集,但论文未提供获取方式的具体说明。 Demo:论文中未提及在线演示。 复现材料:论文给出了关键的模型架构、超参数(学习率、批大小、优化器、损失函数)和训练流程。但未提供具体的检查点、配置文件或环境依赖列表。 论文中引用的开源项目/模型:主要依赖于预训练的SSL模型Wav2vec2-XLSR-2B(引用[7]),以及DNSMOS Pro(引用[16])的架构作为SPM设计的参考。实现代码基于PyTorch(脚注中提到了torchaudio)。 总结:论文提供了核心代码,具备基本的复现基础,但缺乏模型权重和更完备的复现材料,因此开源程度为中等。 📌 核心摘要 问题:现有基于自监督学习(SSL)的语音质量评估(SQA)模型主要在16kHz语音上预训练,无法利用高采样率(24-48kHz)语音中的高频信息,导致对多速率语音的评估性能不佳。同时,公开的多速率MOS标注数据集规模较小,模型易过拟合且泛化能力弱。 方法核心:提出SA-SSL-MOS,一个并行的双分支架构。一个分支将音频下采样至16kHz,使用Wav2vec2-XLSR-2B的第9层特征;另一个分支将音频上采样至48kHz,提取对数谱图特征并由CNN处理。两个分支的特征拼接后预测MOS的均值和方差。此外,采用两阶段训练:先在大规模48kHz单速率数据集(NISQA)上预训练,再在少量多速率数据集(AudioMOS)上微调。 创新点:与已有SSL-Layer-MOS相比,新在通过并行谱图分支显式补充高频特征;并引入了针对多速率SQA的预训练-微调训练范式。 主要实验结果: 在AudioMOS测试集上,两阶段训练的SA-SSL-MOS取得了最佳的UTT SRCC(0.750)和UTT LCC(0.848)。 在泛化能力测试(表3)中,两阶段训练大幅提升了模型在多个外部数据集(如NISQA-Talk, TCD-VoIP)上的相关系数。但在Tencent w/o R(中文)数据集上,SA-SSL-MOS的MSE(1.192)高于基线(0.751),LCC(0.877)低于基线(0.917)。 | 模型 | 训练数据 | 测试集 (Tencent w/o R) | MSE ↓ | LCC ↑ | SRCC ↑ | | :--- | :--- | :--- | :--- | :--- | :--- | | baseline | AudioMOS train | Tencent w/o R | 1.002±0.054 | 0.691±0.023 | 0.687±0.024 | | SA-SSL-MOS (Ours) | AudioMOS train | Tencent w/o R | 1.097±0.057 | 0.669±0.035 | 0.666±0.033 | | baseline | NISQA+AudioMOS train | Tencent w/o R | 0.751±0.043 | 0.917±0.009 | 0.901±0.006 | | SA-SSL-MOS (Ours) | NISQA+AudioMOS train | Tencent w/o R | 1.192±0.124 | 0.877±0.024 | 0.891±0.010 | 实际意义:为处理不同采样率的语音质量评估提供了一种可扩展的框架,特别是在标注数据有限时,通过预训练提升泛化能力,对VoIP、高清通话等应用有潜在价值。 主要局限性:1) 谱图增强分支在跨语言(如中文)场景下可能产生负面迁移,导致性能下降。2) 高频信息提升评估准确性的核心论点在部分实验中(如腾讯数据集)未得到支持。3) 未与当前多速率SQA领域的其他SOTA方法进行对比。 🏗️ 模型架构 SA-SSL-MOS采用并行的双分支架构处理输入语音音频 x,并预测其MOS分数 y。 ...

2026-04-29 · 更新于 2026-05-19 · 3 min · 526 words

Speech Quality-Based Localization of Low-Quality Speech and Text-to-Speech Synthesis Artefacts

📄 Speech Quality-Based Localization of Low-Quality Speech and Text-to-Speech Synthesis Artefacts #语音质量评估 #语音伪造检测 #自监督学习 #语音合成 #模型评估 ✅ 7.0/10 | 前25% | #语音质量评估 | #自监督学习 | #语音伪造检测 #语音合成 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Michael Kuhlmann(Paderborn University, Germany) 通讯作者:未说明 作者列表:Michael Kuhlmann(Paderborn University, Germany)、Alexander Werning(Paderborn University, Germany)、Thilo von Neumann(Paderborn University, Germany)、Reinhold Haeb-Umbach(Paderborn University, Germany) 💡 毒舌点评 这篇论文巧妙地将音频编解码领域的“一致性损失”借鉴到语音质量评估中,有效解决了帧级质量预测因缺乏直接监督而导致的“位置模糊”问题,在局部伪装检测任务上实现了检测精度的翻倍提升。然而,其应用于TTS伪影分析的部分显得有些“虎头蛇尾”:虽然通过听测试图证明检测的“合理性”,但仅对200个片段进行分类统计,且未与现有的语音合成错误检测基线进行定量对比,使得这部分结论的说服力大打折扣。 🔗 开源详情 代码:论文提供了代码仓库链接:https://github.com/fgnt/local_sqa。 模型权重:论文中未提及是否提供预训练模型权重。 数据集:所用训练数据集(BVCC, NISQA)和评测数据集(PartialSpoof, LibriTTS)均为公开数据集,但论文中未特别说明获取方式。TTS生成样本已提供链接:https://go.upb.de/icassp26-sqa-detect。 Demo:论文中未提及在线演示。 复现材料:论文提供了详细的模型配置表(表1)、关键超参数(学习率、训练轮数、切片长度等)和损失函数公式,但未提供训练日志、完整配置文件或硬件信息。 论文中引用的开源项目:明确提到了 SHEET [9] 作为实验设置参考,以及 BAM [22]、sed_scores_eval、replikant [26] 等工具。核心依赖的预训练模型为 WavLM [20]。 📌 核心摘要 问题:现有的自动语音质量评估模型通常只给出句子级别的质量分数,无法解释低分的原因,也无法定位具体的劣质片段。尝试预测帧级分数的模型,其预测值往往因缺乏局部监督而显得不稳定和不一致。 方法核心:提出通过一致性约束来正则化帧级分数的训练。具体而言,在训练SQA模型时,随机截取语音的某个片段,要求该片段独立编码后产生的嵌入向量和帧级分数,与该片段在原始完整语音上下文中编码得到的结果保持一致。 创新点:将音频生成任务中确保离散标记一致性的思想,迁移并应用于判别式的语音质量评估任务,旨在减少帧级分数对长时上下文的依赖,使其更准确地反映局部质量。该方法与编码器/解码器的具体架构(如BLSTM)兼容。 实验结果: 一致性提升:在BVCC测试集上,引入一致性约束显著降低了帧分数的“波动率”(Volatility),例如模型1(无约束)波动率为0.510,而模型7(完整约束)降至0.055,同时保持了句子级质量预测的相关性(SRCC>0.87)。 检测性能:在部分伪造(PartialSpoof)数据集上,在严格评估标准(ρ2)下,检测精度(Precision)从基线模型1的20.9%提升至模型7的55.7%(绝对提升34.8个百分点),F1分数从0.284提升至0.386。其性能接近但略低于使用伪造标签训练的SOTA模型BAM(F1: 0.569)。 TTS伪影分析:对StyleTTS2和F5-TTS生成语音的听测表明,由该模型检测出的低质量片段,被专家听众判定为“非人类自然语音”的比例(StyleTTS2: 79%, F5-TTS: 75%)远高于随机控制样本(StyleTTS2: 34%, F5-TTS: 28%),证明了检测的有效性。 实际意义:为自动化的语音合成错误定位提供了有效工具,可以帮助开发者快速定位系统生成的劣质片段,从而针对性改进。也增强了SQA模型的可解释性。 主要局限性:1) 模型对特定类型的伪影(如笑声、清嗓)敏感,可能在不同应用领域产生假阳性。2) 论文在TTS伪影分析部分未提供与现有语音合成错误检测方法的定量对比。3) 听测规模有限,且仅针对两个特定的TTS系统和有声书场景。 🏗️ 模型架构 论文描述的是一个用于训练帧级语音质量预测器的框架,其核心是基于SSL编码器的SQA模型架构以及为提升帧级分数一致性而设计的训练目标。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 359 words

Time vs. Layer: Locating Predictive Cues for Dysarthric Speech Descriptors in Wav2vec 2.0

📄 Time vs. Layer: Locating Predictive Cues for Dysarthric Speech Descriptors in Wav2vec 2.0 #语音质量评估 #注意力机制 #预训练模型 #病理语音 #数据集 ✅ 7.5/10 | 前50% | #语音质量评估 | #注意力机制 | #预训练模型 #病理语音 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Natalie Engert(Technische Hochschule Nürnberg Georg Simon Ohm, Germany) 通讯作者:未说明 作者列表:Natalie Engert(Technische Hochschule Nürnberg Georg Simon Ohm, Germany)、Dominik Wagner(Technische Hochschule Nürnberg Georg Simon Ohm, Germany)、Korbinian Riedhammer(Technische Hochschule Nürnberg Georg Simon Ohm, Germany)、Tobias Bocklet(Technische Hochschule Nürnberg Georg Simon Ohm, Germany) 💡 毒舌点评 亮点:研究设计非常系统,对“时间 vs. 层”这个核心问题的分析很到位,不仅给出了整体结论,还通过注意力权重可视化揭示了不同严重程度下层重要性的变化,这种临床视角下的可解释性分析是加分项。 短板:作为一篇发表在顶会的论文,方法上的创新显得有些“温和”,更像是对现有工具(Wav2vec 2.0 + ASP)的一次精心设计的应用研究,缺乏一个更强大的、统一的模型架构来同时建模时间与层信息(尽管结论中提到了这是未来工作)。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 341 words

Unseen but Not Unknown: Using Dataset Concealment to Robustly Evaluate Speech Quality Estimation Models

📄 Unseen but Not Unknown: Using Dataset Concealment to Robustly Evaluate Speech Quality Estimation Models #语音质量评估 #模型评估 #鲁棒性 🔥 8.3/10 | 前25% | #语音质量评估 | #模型评估 | #鲁棒性 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Jaden Pieper (Institute for Telecommunication Sciences, Boulder, Colorado, USA) 通讯作者:Stephen D. Voran (Institute for Telecommunication Sciences, Boulder, Colorado, USA) 作者列表:Jaden Pieper (Institute for Telecommunication Sciences, Boulder, Colorado, USA), Stephen D. Voran (Institute for Telecommunication Sciences, Boulder, Colorado, USA) 💡 毒舌点评 本文最亮眼之处在于其“元研究”价值:它不急于提出一个“更好”的语音质量模型,而是先用一套严谨得多的方法(DSC)剖析现有模型的真实能力,结论(如“小Aligner对大模型有显著提升”)对同行极具参考意义。然而,其创新本质上是“评估方法学”的创新,若期待看到新的网络结构或损失函数,可能会失望;且其“泛化能力”的结论依赖于特定的九个训练数据集,对更广泛场景的适用性有待进一步验证。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 279 words

TTS-PRISM: A Perceptual Reasoning and Interpretable Speech Model for Fine-Grained Diagnosis

📄 TTS-PRISM: A Perceptual Reasoning and Interpretable Speech Model for Fine-Grained Diagnosis #语音质量评估 #指令微调 #基准测试 #开源工具 #语音合成 ✅ 7.5/10 | 前25% | #语音质量评估 | #指令微调 | #基准测试 #开源工具 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文作者列表未明确排序,但根据邮箱 xi-wang24@mails.tsinghua.edu.cn 和作者列表首位推测,第一作者可能为 Xi Wang)。 通讯作者:未说明(论文作者列表未明确标注,根据邮箱 zywu@sz.tsinghua.edu.cn 推测,通讯作者可能为 Zhiyong Wu)。 作者列表:Xi Wang (1, 2), Jie Wang (3), Xingchen Song (2), Baijun Song (1), Jingran Xie (1), Jiahe Shao (1), Zijian Lin (1), Di Wu (1), Meng Meng (1), Jian Luan (2), Zhiyong Wu (1)。 机构列表:1. 清华大学,中国;2. 小米公司 MiLM Plus,中国;3. 东京大学,日本。 💡 毒舌点评 这篇论文像一个严谨的“语音体检医生”,为TTS系统量身定做了一套包含12个指标的“体检表”和基于大模型生成数据的“训练集”,确实让评估从“整体印象”走向了“分项诊断”。但尴尬的是,这位“医生”自己在“发音”这个最基础的体检项目上却可能受制于自身的“学术出身”(ASR预训练偏差),体检结论的权威性打了点折扣。 ...

2026-04-27 · 更新于 2026-05-19 · 2 min · 326 words