DiffVQE: Hybrid Diffusion Voice Quality Enhancement Under Acoustic Echo and Noise

📄 DiffVQE: Hybrid Diffusion Voice Quality Enhancement Under Acoustic Echo and Noise #语音增强 #扩散模型 #回声消除 #语音质量评估 #单步扩散 ✅ 6.2/10 | 前30% | #语音增强 | #扩散模型 | #回声消除 #语音质量评估 | arxiv 学术质量 6.2/8 | 影响力 0.9/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Haljan Lugo Girao (Technische Universität Braunschweig, Institute for Communications Technology) 通讯作者:未提及 作者列表:Haljan Lugo Girao (Technische Universität Braunschweig, Institute for Communications Technology), Ernst Seidel (Technische Universität Braunschweig, Institute for Communications Technology), Pejman Mowlaee (GN Advanced Science), Ziyue Zhao (GN Advanced Science), Tim Fingscheidt (Technische Universität Braunschweig, Institute for Communications Technology) 💡 毒舌点评 这篇论文的核心贡献在于尝试将单步条件扩散模型应用于AEC任务,并给出了一个声称可复现的框架。其在部分语音质量指标上超越了重新训练的DeepVQE基线,且模型更轻量,这展示了生成模型在AEC领域的潜力。然而,论文的创新程度有限,其核心单步扩散框架直接借自EffDiffSE,真正的“新意”在于架构调整和数据适配。致命的缺陷在于缺乏关键的消融实验,无法证明Cond DNN、Score DNN以及单步策略各自必要性,使得结论说服力大打折扣。此外,尽管标题和摘要声称“excel”在“echo and noise control performance”,但实验数据显示其在回声抑制(Echo)指标上并未优于甚至略逊于DeepVQE,结论的表述存在过度推广之嫌。 ...

2026-05-12 · 更新于 2026-06-12 · 3 min · 612 words

Evaluating the Expressive Appropriateness of Speech in Rich Contexts

📄 Evaluating the Expressive Appropriateness of Speech in Rich Contexts #语音质量评估 #语音大模型 #强化学习 #知识蒸馏 #基准测试 ✅ 7.2/10 | 前25% | #语音质量评估 | #强化学习 | #语音大模型 #知识蒸馏 | arxiv 学术质量 7.2/8 | 影响力 1.6/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Tianrui Wang(天津大学,南洋理工大学联合培养) 通讯作者:Longbiao Wang(天津大学)和 Xiaobao Wang(天津大学) 作者列表:Tianrui Wang (天津大学, NTU), Ziyang Ma (上海交大, NTU), Yizhou Peng (NTU), Haoyu Wang (天津大学), Zhikang Niu (上海交大), Zikang Huang (天津大学), Yihao Wu (NTU), Yi-Wen Chao (NTU), Yu Jiang (天津大学), Yuheng Lu (天津大学), Guanrou Yang (上海交大), Xuanchen Li (天津大学), Hexin Liu (NTU), Chunyu Qiang (天津大学, 快手), Cheng Gong (TeleAI, 中国电信), Yifan Yang (上海交大), Tianchi Liu (新加坡国立大学), Junyu Wang (天津大学), Nana Hou (NTU), Meng Ge (天津大学), Fuming You (腾讯), Wei Yang (腾讯), Zhongqian Sun (腾讯), Haifeng Hu (腾讯), Xiaobao Wang (天津大学), Eng Siong Chng (NTU), Xie Chen (上海交大), Longbiao Wang (天津大学), Jianwu Dang (天津大学) 💡 毒舌点评 本文最扎实的贡献在于明确提出了“语境丰富性下的表达适当性”这一被忽视的评估任务,并构建了首个高质量中文有声书数据集。然而,其方法论的核心创新——规划器-判断器解耦、注意力偏置等——更多是对现有技术的精巧组合与工程优化,而非提出全新的基础模型或训练范式。此外,评估仅限于中文,其普适性有待验证。 ...

2026-05-12 · 更新于 2026-06-12 · 3 min · 633 words

Low-Cost Detection of Degraded Voice Clones via Source-Output Acoustic Consistency

📄 Low-Cost Detection of Degraded Voice Clones via Source-Output Acoustic Consistency #语音伪造检测 #语音质量评估 #信号处理 #医疗音频 📝 5.3/10 | 前50% | #语音伪造检测 | #信号处理 | #语音质量评估 #医疗音频 | arxiv 学术质量 5.3/8 | 影响力 0.4/2 | 可复现性 0.3/1 | 置信度 高 👥 作者与机构 第一作者:Jana Shokr 通讯作者:论文中未明确说明通讯作者 作者列表:Jana Shokr, Minos Papadopoulos, Jeremy Cooperstock, Pavo Orepic(论文中未提及任何作者机构信息) 💡 毒舌点评 这篇论文精准地瞄准了临床AVATAR疗法中一个真实且关键的痛点:需要快速剔除明显劣质的合成语音以保护治疗沉浸感,并提出了一个逻辑自洽、物理可解释的检测框架。然而,其核心短板在于实验的“小作坊”规模(总共仅94个样本)和与时代脱节的评估方式——在学习型方法层出不穷的今天,仅用两个简单特征和阈值与“人类标签”对比,缺乏与任何现有语音质量评估或伪造检测模型的基准较量,说服力大打折扣。 📌 核心摘要 本文针对临床语音治疗(如AVATAR疗法)中需要快速、自动检测明显劣质的声音克隆输出这一实际问题,提出了一种低成本的检测方法。核心方法是基于语音生成的源-滤波器模型,检验合成输出与输入声源在几个低维、可解释的声学特征上的一致性,具体使用了基频(f0)、谐波噪声比(HNR)和声道长度(VTL)。研究者在人类标注的、由两种不同声码器(WaveRNN和HiFi-GAN)生成的合成语音样本上,采用了一种非对称阈值分类方法进行评估。实验结果显示,在WaveRNN上,f0和HNR均达到85.2%的准确率;在HiFi-GAN上,HNR达到80.0%的准确率,f0为77.5%。分析表明,f0和HNR能捕获部分不同的失效模式,具有互补性。该研究的实际意义在于为高风险应用场景提供了一种快速、可解释的第一道过滤器,以提升系统的可靠性。主要局限性包括数据集规模较小、特征集有限,且未与更复杂的自动化质量预测模型进行直接对比。 特征 声码器 负阈值 正阈值 准确率(%) 敏感性(%) 特异性(%) TP TN FP FN f0 WaveRNN -11.2 32.6 85.2 82.0 89.0 22 24 3 5 HNR WaveRNN -1.7 1.2 85.2 82.0 89.0 22 24 3 5 VTL WaveRNN -1.4 10.7 64.8 60.0 70.0 16 19 8 11 f0 HiFi-GAN -19.3 50.1 77.5 60.0 95.0 12 19 1 8 HNR HiFi-GAN -0.9 3.4 80.0 90.0 70.0 18 14 6 2 VTL HiFi-GAN -1.0 8.7 67.5 65.0 70.0 13 14 6 7 图1展示了f0, HNR, VTL三个特征在输入-输出空间中的分布。图中清晰显示,标记为“Good”的样本(蓝色)紧密围绕在恒等线(y=x)周围,而“Bad”样本(橙色)则更多地分布在优化后的阈值带之外,直观地证明了所选特征区分好坏样本的能力。 ...

2026-05-12 · 更新于 2026-06-12 · 3 min · 444 words

TTS-PRISM: A Perceptual Reasoning and Interpretable Speech Model for Fine-Grained Diagnosis

📄 TTS-PRISM: A Perceptual Reasoning and Interpretable Speech Model for Fine-Grained Diagnosis #语音质量评估 #指令微调 #基准测试 #开源工具 #语音合成 ✅ 7.5/10 | 前25% | #语音质量评估 | #指令微调 | #基准测试 #开源工具 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文作者列表未明确排序,但根据邮箱 xi-wang24@mails.tsinghua.edu.cn 和作者列表首位推测,第一作者可能为 Xi Wang)。 通讯作者:未说明(论文作者列表未明确标注,根据邮箱 zywu@sz.tsinghua.edu.cn 推测,通讯作者可能为 Zhiyong Wu)。 作者列表:Xi Wang (1, 2), Jie Wang (3), Xingchen Song (2), Baijun Song (1), Jingran Xie (1), Jiahe Shao (1), Zijian Lin (1), Di Wu (1), Meng Meng (1), Jian Luan (2), Zhiyong Wu (1)。 机构列表:1. 清华大学,中国;2. 小米公司 MiLM Plus,中国;3. 东京大学,日本。 💡 毒舌点评 这篇论文像一个严谨的“语音体检医生”,为TTS系统量身定做了一套包含12个指标的“体检表”和基于大模型生成数据的“训练集”,确实让评估从“整体印象”走向了“分项诊断”。但尴尬的是,这位“医生”自己在“发音”这个最基础的体检项目上却可能受制于自身的“学术出身”(ASR预训练偏差),体检结论的权威性打了点折扣。 ...

2026-05-01 · 更新于 2026-06-12 · 2 min · 327 words

A Generalization Strategy for Speech Quality Prediction: From Domain-Specific to Unified Datasets

📄 A Generalization Strategy for Speech Quality Prediction: From Domain-Specific to Unified Datasets #语音质量评估 #领域适应 #轻量化模型 #语音增强 ✅ 6.5/10 | 前25% | #语音质量评估 | #领域适应 | #轻量化模型 #语音增强 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Imran E Kibria(俄亥俄州立大学计算机科学与工程系) 通讯作者:Donald S. Williamson(俄亥俄州立大学计算机科学与工程系) 作者列表:Imran E Kibria(俄亥俄州立大学计算机科学与工程系)、Ada Lamba(俄亥俄州立大学计算机科学与工程系)、Donald S. Williamson(俄亥俄州立大学计算机科学与工程系) 💡 毒舌点评 论文抓住了多数据集训练MOS模型时“顾此失彼”的真实痛点,并用一个优雅的优化器(SAM)作为解决方案,思路直接且实验验证充分。然而,整个工作像是用新扳手拧旧螺丝——核心模型和问题都不是新的,且实验对比缺乏与当前更强基线(如基于SSL的SOTA模型)的直接较量,使得结论的冲击力打了折扣。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:训练和测试数据集均为公开数据集,论文中列出了具体名称并说明可通过SHEET工具下载。 Demo:未提及。 复现材料:提供了AttentiveMOS的原始论文引用以及本研究的关键超参数(η, ρ, batch size, epochs)。未提供详细的训练脚本或配置文件。 论文中引用的开源项目: SHEET [16]:用于下载和处理MOS数据集的工具包。 AttentiveMOS [4]:本文实验所使用的基础模型。 其他:论文中未提及开源计划。 📌 核心摘要 要解决的问题:使用多个MOS(平均意见分)数据集统一训练语音质量评估模型时,由于数据集在录制条件、语言、畸变类型等方面存在巨大差异(即“域多样性”)以及“语料库效应”(相同质量系统因引入更优系统而得分下降),导致模型在未见的评测集上泛化性能严重下降。 方法核心:提出使用Sharpness-Aware Minimization(SAM)优化器来训练统一数据集上的MOS预测网络。SAM通过同时最小化损失和损失曲面的锐度(即寻找平坦的最小值),促使模型学习更多样化、互补的特征,从而提高对分布外数据的泛化能力。 与已有方法相比新在哪里:论文首次将SAM优化器系统地应用于解决多数据集MOS预测的泛化问题。与以往关注架构设计(如AlignNet)、损失函数改造(如Bias-aware loss)或使用大型预训练模型(如SSL)的方法不同,本文提出了一种无需修改模型架构或损失函数、只需更换优化器的轻量级泛化增强策略。 主要实验结果:在7个训练集和12个测试集的广泛评估中: 传统的Adam优化器在统一数据集上训练后,相比在单一最佳数据集上训练,在大多数测试集上性能下降显著(如表1所示)。 使用SAM+Adam优化器,在12个测试集中的8个上,降低了MSE并提升了SRCC(如图1、图2所示)。 SAM显著缓解了从单一数据集到统一数据集训练的性能损失(即减小了∆MSE和∆SRCC,如图3所示),但在少数包含训练集中未出现语言(如德语、法语)的测试集上效果不佳。 测试集 Adam (Unified) MSE SAM+Adam (Unified) MSE Adam (Unified) SRCC SAM+Adam (Unified) SRCC BVCC 1.047 (图1显示更低) 0.642 (图2显示更高) SOMOS 0.837 (图1显示更低) 0.305 (图2显示更高) SingMOS 0.273 (图1显示更低) 0.068 (图2显示更高) (其他测试集类似) 注:表1提供了Adam优化器在单一最佳训练集和统一训练集下的具体数值。图1和图2则以柱状图形式对比了Adam与SAM+Adam在统一训练集设置下,各测试集的MSE和SRCC。 实际意义:为构建更鲁棒、通用的语音质量评估系统提供了一种简单有效的优化策略,尤其适用于资源有限、需要快速部署轻量级模型且数据来源多样的场景。 主要局限性:1) 验证使用的模型(AttentiveMOS)非常轻量级(仅86K参数),其结论能否推广到当前主流的、更强大的基于自监督学习(SSL)的大模型尚不明确。2) 实验未与近期针对MOS泛化提出的其他专用方法(如多数据集微调、对比回归等)进行直接性能对比。3) SAM需要额外的计算开销(每步更新需要两次前向/反向传播)。4) 对于训练集中完全缺失的语言或极端分布外数据,方法效果有限。 🏗️ 模型架构 论文中作为验证工具的模型是AttentiveMOS(引用自[4]),其本身不是本文的贡献。架构是一个轻量级的纯注意力网络: ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 274 words

Bridging the Semantic Gap: Cross-Attentive Fusion for Joint Acoustic-Semantic Speech Quality Assessment

📄 Bridging the Semantic Gap: Cross-Attentive Fusion for Joint Acoustic-Semantic Speech Quality Assessment #语音质量评估 #对比学习 #预训练 #交叉注意力 #跨域泛化 🔥 8.5/10 | 前25% | #语音质量评估 | #对比学习 | #预训练 #交叉注意力 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zhaoyang Wang(中国科学院声学研究所) 通讯作者:论文中未明确标注。 作者列表:Zhaoyang Wang(中国科学院声学研究所;中国科学院大学), Chengzhong Wang(中国科学院声学研究所;中国科学院大学), Jiale Zhao(中国科学院声学研究所;中国科学院大学), Dingding Yao(中国科学院声学研究所;中国科学院大学), Jing Wang(北京理工大学), Junfeng Li(中国科学院声学研究所;中国科学院大学)。 💡 毒舌点评 亮点:论文概念清晰,直指“语义鸿沟”这一现有SQA模型的痛点,并通过设计合理的双分支架构和两阶段训练策略进行解决,实验对比充分,结论有说服力。 短板:其核心创新——利用预训练的Whisper和DAC模型通过双向交叉注意力融合——在方法层面更像是一个工程化设计,缺乏理论上的新颖性或对融合机制本身的深入探究。同时,对比方法虽然包括了主流基线,但未能涵盖所有最新的顶尖模型。 🔗 开源详情 代码:提供了GitHub仓库链接:https://github.com/kalenon/JASSQA 模型权重:论文中未提及是否公开预训练模型权重。 数据集:论文中使用的NISQA, VoiceMOS Challenge 2023, Tencent, BVCC等数据集均为公开或比赛提供的数据集,但论文未说明其JASSQA模型是否提供了特定的数据预处理脚本或合并后的数据集。 Demo:论文中未提及在线演示。 复现材料:论文给出了主要超参数(学习率、批量大小、优化器、早停轮数)和两阶段训练策略的描述。模型架构图(图1)也提供了必要的设计细节。但未提供具体的代码注释、配置文件、检查点或更详尽的附录说明。 论文中引用的开源项目:论文依赖以下开源模型/工具:Descript Audio Codec (DAC) [14], Whisper [9]。 总结:论文代码开源,这是复现的重要基础。但完整的端到端复现可能需要研究者自行准备数据集并下载预训练的DAC和Whisper模型,并按照论文描述的策略进行训练。 📌 核心摘要 问题:现有非侵入式语音质量评估(SQA)模型过度依赖语义预训练模型(如Wav2Vec, Whisper),这些模型在训练时追求对声学变异(如噪声、通道效应)的不变性,却忽略了人类感知质量所依赖的精细声学线索,导致“语义鸿沟”,影响模型在多样化场景下的泛化能力。 方法核心:提出JASSQA模型,采用双分支架构。声学分支利用Descript Audio Codec (DAC) 提取离散声学token并通过双路径(直接映射+编码器)生成特征;语义分支利用Whisper提取语言特征。核心融合机制为双向跨注意力,允许两个分支的特征相互查询与增强,随后拼接并通过MLP预测MOS分数。 创新点:与已有简单拼接特征的方法(如MOSA-Net+)相比,JASSQA通过双向跨注意力实现了声学与语义表征的深度交互式融合;提出两阶段训练策略,第一阶段使用对比回归损失预训练声学编码器以构建感知有序的表征空间,第二阶段冻结部分组件进行端到端微调。 主要结果:在NISQA和VoiceMOS Challenge 2023(Track 3)数据集上,JASSQA在SRCC、LCC和MSE三项指标上均优于MOS-SSL, UTMOS, MOSA-Net及MOSA-Net+等基线。例如,在NISQA上,JASSQAlarge的SRCC达到0.904, LCC达到0.907。在跨域泛化测试(腾讯会议数据、BVCC语音转换数据)中,JASSQA同样表现出显著的性能优势。 实际意义:该工作为构建更鲁棒、泛化能力更强的自动化语音质量评估系统提供了一种有效框架,可应用于语音合成、语音增强、在线会议等系统的质量监控与优化。 主要局限性:模型架构是现有组件(Whisper, DAC, 交叉注意力)的组合,缺乏机制层面的根本创新。消融实验显示,仅使用声学分支性能下降明显,表明模型对强大的语义预训练特征仍有较强依赖。 🏗️ 模型架构 JASSQA的整体架构(如图1所示)分为并行特征提取、双向跨注意力融合和分数预测三个核心模块。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 404 words

ICASSP 2026 - 语音质量评估 论文列表

ICASSP 2026 - 语音质量评估 共 8 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Bridging the Semantic Gap: Cross-Attentive Fusion for Joint 8.5分 前25% 🥈 Unseen but Not Unknown: Using Dataset Concealment to Robustl 8.3分 前25% 🥉 Time vs. Layer: Locating Predictive Cues for Dysarthric Spee 7.5分 前50% 4. Multi-Task Learning For Speech Quality Assessment Using ASR- 7.5分 前25% 5. Quality Assessment of Noisy and Enhanced Speech with Limited 7.0分 前25% 6. SA-SSL-MOS: Self-Supervised Learning MOS Prediction with Spe 7.0分 前50% 7. Speech Quality-Based Localization of Low-Quality Speech and 7.0分 前25% 8. A Generalization Strategy for Speech Quality Prediction: Fro 6.5分 前25% 📋 论文详情 🥇 Bridging the Semantic Gap: Cross-Attentive Fusion for Joint Acoustic-Semantic Speech Quality Assessment 🔥 8.5/10 | 前25% | #语音质量评估 | #对比学习 | #预训练 #交叉注意力 ...

2026-04-29 · 更新于 2026-06-12 · 6 min · 1238 words

Multi-Task Learning For Speech Quality Assessment Using ASR-Derived Entropy Features

📄 Multi-Task Learning For Speech Quality Assessment Using ASR-Derived Entropy Features #语音质量评估 #多任务学习 #预训练 #语音增强 #鲁棒性 ✅ 7.5/10 | 前25% | #语音质量评估 | #多任务学习 | #预训练 #语音增强 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Tri Dung Do(Viettel AI, Viettel Group; University of Engineering and Technology – Vietnam National University, Hanoi) 通讯作者:Van Hai Do(Thuyloi University) 作者列表:Tri Dung Do(Viettel AI, Viettel Group; University of Engineering and Technology – Vietnam National University, Hanoi), Bao Thang Ta(Viettel AI, Viettel Group; Hanoi University of Science and Technology), Van Hai Do(Viettel AI, Viettel Group; Thuyloi University) 💡 毒舌点评 亮点在于将ASR模型输出的不确定性(熵)作为一个新颖且可量化信号,与语音质量评估任务进行关联,并通过多任务学习框架显式地利用这一信号,思路巧妙。短板是,尽管在NISQA数据集上取得了改进,但论文未与更多当前先进的无参考评估方法(如基于自监督模型或特定Transformer架构的方法)进行直接、充分的对比,说服力稍显不足;另外,对熵特征的物理意义及其与具体失真类型关系的分析深度有限。 ...

2026-04-29 · 更新于 2026-06-12 · 3 min · 488 words

Quality Assessment of Noisy and Enhanced Speech with Limited Data: UWB-NTIS System for Voicemos 2024

📄 Quality Assessment of Noisy and Enhanced Speech with Limited Data: UWB-NTIS System for Voicemos 2024 #语音质量评估 #语音增强 #迁移学习 #预训练 #少样本学习 ✅ 7.0/10 | 前25% | #语音质量评估 | #迁移学习 | #语音增强 #预训练 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Marie Kunešová(NTIS Research Centre, Faculty of Applied Sciences, University of West Bohemia in Pilsen, Czechia) 通讯作者:未说明 作者列表:Marie Kunešová(NTIS研究中心,应用科学学院,西波希米亚大学),Aleš Přázák(同上),Jan Lehečka(同上) 💡 毒舌点评 亮点在于其针对极端有限数据(100条标注)场景设计的“两阶段迁移学习+合成数据生成”策略,特别是将BAC预测巧妙地转化为SNR预测,取得了竞赛最佳结果。短板是整体框架属于成熟技术(wav2vec 2.0微调)的工程组合,且对于更困难的SIG预测任务,核心改进依赖于人工定义的“自然/伪造”二元伪标签,其理论依据和泛化能力存疑。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开预训练或微调后的模型权重。 数据集:论文中用于第一阶段微调和预训练的数据均为公开数据集(如LibriSpeech, MS-SNSD, ASVSpoof等)或可自行生成(通过描述的脚本)。但用于wav2vec 2.0预训练的1054小时人工退化数据集本身未公开。 Demo:未提及。 复现材料:提供了极其详细的数据生成规则、预训练和微调流程、关键超参数(学习率、epoch数、输入采样策略等),复现者可根据描述重建数据集并训练模型。论文的arXiv版本(https://doi.org/10.48550/arXiv.2506.00506)可能包含附录,但正文中未直接提供链接。 论文中引用的开源项目:MS-SNSD(数据生成)、Lhotse(数据加载与处理)、ESC-50/MUSAN/AudioSet(噪声数据)、HuggingFace上的多个语音增强模型(用于生成退化数据)。 📌 核心摘要 要解决什么问题? 在仅提供100条主观标注语音的极端数据限制下,实现非侵入式的语音质量评估,具体目标是预测ITU-T P.835标准中的三个指标:SIG(语音质量与失真)、BAK(背景噪声侵入性)和OVRL(整体质量)。 方法核心是什么? 采用两阶段迁移学习策略,基于wav2vec 2.0预训练模型。第一阶段:在自动生成的大规模伪标签数据上微调模型,其中BAK模型学习预测SNR,SIG模型学习区分“自然语音”和“伪造/增强语音”。第二阶段:使用挑战赛提供的100条真实标注数据进行微调。 与已有方法相比新在哪里? 新在针对P.835这一特定评估任务的系统设计,尤其是为小数据场景设计的两阶段数据生成与微调流程。创新性地将BAK预测近似为SNR回归,并将SIG预测与语音伪造检测任务联系起来。赛后进一步提出通过使用人工退化数据进行wav2vec 2.0的预训练,显著提升了SIG预测性能。 主要实验结果如何? 在VoiceMOS 2024挑战赛Track 3官方评估中,该系统在BAK预测上取得最佳性能(LCC=0.867),在OVRL预测上位列第二(LCC=0.711)。赛后通过引入人工退化数据改进的模型,将SIG预测的相关性(LCC)从原始提交的0.207大幅提升至0.516。关键结果如下表所示: 模型组合 VMC 2024 评估集 (LCC) CHiME 7-UDASE (不含VMC数据) (LCC) BAK SIG OVRL (A) BAK SIG OVRL (A) 原始提交 (T04) 0.867 0.207 0.711 0.819 0.684 0.595 ClTRUS (BAK) + w2v2-base (SIG) 0.877 0.516 0.728 0.839 0.726 0.714 w2v2-dgrd (BAK) + ClTRUS (SIG) 0.868 0.296 0.695 0.860 0.766 0.746 w2v2-dgrd (BAK) + w2v2-base (SIG) 0.868 0.516 0.750 0.860 0.726 0.734 团队 T06 (冠军/亚军) 0.827 0.297 0.713 - - - Official results of VMC 2024 Track 3. 图2:VMC 2024 Track 3各团队官方结果(语句级LCC)。本系统为T04团队。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 386 words

SA-SSL-MOS: Self-Supervised Learning MOS Prediction with Spectral Augmentation for Generalized Multi-Rate Speech Assessment

📄 SA-SSL-MOS: Self-Supervised Learning MOS Prediction with Spectral Augmentation for Generalized Multi-Rate Speech Assessment #语音质量评估 #自监督学习 #数据增强 #多语言 #开源工具 ✅ 7.0/10 | 前50% | #语音质量评估 | #自监督学习 | #数据增强 #多语言 学术质量 4.2/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 中 👥 作者与机构 第一作者:Fengyuan Cao(KTH Royal Institute of Technology, Stockholm, Sweden) 通讯作者:未说明 作者列表:Fengyuan Cao(KTH皇家理工学院),Xinyu Liang(KTH皇家理工学院),Fredrik Cumlin(KTH皇家理工学院),Victor Ungureanu(Google LLC),Chandan K. A. Reddy(Google LLC),Christian Sch¨uldt(Google LLC),Saikat Chatterjee(KTH皇家理工学院) 💡 毒舌点评 亮点:论文巧妙地设计了一个并行架构,将受限于16kHz的SSL特征与可处理48kHz的谱图特征相结合,直面并试图解决多速率语音评估中的高频信息丢失问题,两阶段训练策略在有限数据下提升了泛化能力。短板:所提方法在部分外部数据集(如腾讯中文数据集)上的性能反而低于仅使用SSL的基线模型,这表明其“谱图增强”分支可能引入了与语言或域不匹配的偏差,削弱了论文核心论点的一致性,且未与更前沿的多速率评估方法进行对比。 🔗 开源详情 代码:提供代码仓库链接:https://github.com/Dear-xxf/SA_SSL_MOS 模型权重:论文中未提及公开的模型权重文件。 数据集:训练所用的NISQA和AudioMOS数据集均为公开数据集,论文中引用了其来源。评估使用的外部数据集(Tencent, TCD-VoIP等)也多为公开数据集,但论文未提供获取方式的具体说明。 Demo:论文中未提及在线演示。 复现材料:论文给出了关键的模型架构、超参数(学习率、批大小、优化器、损失函数)和训练流程。但未提供具体的检查点、配置文件或环境依赖列表。 论文中引用的开源项目/模型:主要依赖于预训练的SSL模型Wav2vec2-XLSR-2B(引用[7]),以及DNSMOS Pro(引用[16])的架构作为SPM设计的参考。实现代码基于PyTorch(脚注中提到了torchaudio)。 总结:论文提供了核心代码,具备基本的复现基础,但缺乏模型权重和更完备的复现材料,因此开源程度为中等。 📌 核心摘要 问题:现有基于自监督学习(SSL)的语音质量评估(SQA)模型主要在16kHz语音上预训练,无法利用高采样率(24-48kHz)语音中的高频信息,导致对多速率语音的评估性能不佳。同时,公开的多速率MOS标注数据集规模较小,模型易过拟合且泛化能力弱。 方法核心:提出SA-SSL-MOS,一个并行的双分支架构。一个分支将音频下采样至16kHz,使用Wav2vec2-XLSR-2B的第9层特征;另一个分支将音频上采样至48kHz,提取对数谱图特征并由CNN处理。两个分支的特征拼接后预测MOS的均值和方差。此外,采用两阶段训练:先在大规模48kHz单速率数据集(NISQA)上预训练,再在少量多速率数据集(AudioMOS)上微调。 创新点:与已有SSL-Layer-MOS相比,新在通过并行谱图分支显式补充高频特征;并引入了针对多速率SQA的预训练-微调训练范式。 主要实验结果: 在AudioMOS测试集上,两阶段训练的SA-SSL-MOS取得了最佳的UTT SRCC(0.750)和UTT LCC(0.848)。 在泛化能力测试(表3)中,两阶段训练大幅提升了模型在多个外部数据集(如NISQA-Talk, TCD-VoIP)上的相关系数。但在Tencent w/o R(中文)数据集上,SA-SSL-MOS的MSE(1.192)高于基线(0.751),LCC(0.877)低于基线(0.917)。 | 模型 | 训练数据 | 测试集 (Tencent w/o R) | MSE ↓ | LCC ↑ | SRCC ↑ | | :--- | :--- | :--- | :--- | :--- | :--- | | baseline | AudioMOS train | Tencent w/o R | 1.002±0.054 | 0.691±0.023 | 0.687±0.024 | | SA-SSL-MOS (Ours) | AudioMOS train | Tencent w/o R | 1.097±0.057 | 0.669±0.035 | 0.666±0.033 | | baseline | NISQA+AudioMOS train | Tencent w/o R | 0.751±0.043 | 0.917±0.009 | 0.901±0.006 | | SA-SSL-MOS (Ours) | NISQA+AudioMOS train | Tencent w/o R | 1.192±0.124 | 0.877±0.024 | 0.891±0.010 | 实际意义:为处理不同采样率的语音质量评估提供了一种可扩展的框架,特别是在标注数据有限时,通过预训练提升泛化能力,对VoIP、高清通话等应用有潜在价值。 主要局限性:1) 谱图增强分支在跨语言(如中文)场景下可能产生负面迁移,导致性能下降。2) 高频信息提升评估准确性的核心论点在部分实验中(如腾讯数据集)未得到支持。3) 未与当前多速率SQA领域的其他SOTA方法进行对比。 🏗️ 模型架构 SA-SSL-MOS采用并行的双分支架构处理输入语音音频 x,并预测其MOS分数 y。 ...

2026-04-29 · 更新于 2026-06-12 · 3 min · 526 words