MaskVCT: Masked Voice Codec Transformer for Zero-Shot Voice Conversion with Increased Controllability via Multiple Guidances

📄 MaskVCT: Masked Voice Codec Transformer for Zero-Shot Voice Conversion with Increased Controllability via Multiple Guidances #语音转换 #掩码建模 #无分类器引导 #零样本 ✅ 6.5/10 | 前50% | #语音转换 | #掩码建模 | #无分类器引导 #零样本 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Junhyeok Lee(Johns Hopkins University, Center for Language and Speech Processing) 通讯作者:Najim Dehak(Johns Hopkins University, Center for Language and Speech Processing) 作者列表: Junhyeok Lee(Johns Hopkins University, Center for Language and Speech Processing) Helin Wang(Johns Hopkins University, Center for Language and Speech Processing) Yaohan Guan(Johns Hopkins University, Center for Language and Speech Processing) Thomas Thebaud(Johns Hopkins University, Center for Language and Speech Processing) Laureano Moro-Velazquez(Johns Hopkins University, Center for Language and Speech Processing) Jesús Villalba(Johns Hopkins University, Center for Language and Speech Processing) Najim Dehak(Johns Hopkins University, Center for Language and Speech Processing) 💡 毒舌点评 这篇论文的亮点在于其前所未有的控制灵活性,通过巧妙设计让用户能在推理时“拧旋钮”来平衡音色、音高和音素,而非被固定在一种模式里。然而,其短板也很明显:MaskVCT-Spk模式为了极致音色模仿,可懂度(WER)比最强基线差了近一倍,且论文对如何系统化地选择那些“旋钮”权重(CFG系数)的讨论略显薄弱,更像是试错后的结果。 ...

2026-04-29 · 更新于 2026-06-29 · 3 min · 477 words

Matching Reverberant Speech Through Learned Acoustic Embeddings

📄 Matching Reverberant Speech Through Learned Acoustic Embeddings #音频生成 #信号处理 #空间音频 #实时处理 🔥 8.0/10 | 前25% | #音频生成 | #信号处理 | #空间音频 #实时处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Philipp Götz(International Audio Laboratories Erlangen†,Germany) 通讯作者:未说明 作者列表:Philipp Götz(International Audio Laboratories Erlangen†,Germany)、Gloria Dal Santo(Acoustics Lab, Dpt. of Information and Communications Engineering, Aalto University,Finland)、Sebastian J. Schlecht(Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU),Germany)、Vesa Välimäki(Acoustics Lab, Dpt. of Information and Communications Engineering, Aalto University,Finland)、Emanuël A. P. Habets(International Audio Laboratories Erlangen†,Germany) †International Audio Laboratories Erlangen是Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU)和Fraunhofer IIS的联合机构。 💡 毒舌点评 亮点在于将混响参数盲估计任务巧妙重构为“信号匹配”问题,并利用一个改进的、可微分的FDN结构(尤其是可学习的正交反馈矩阵)显著提升了合成混响在声学参数(如T30)上的准确性。然而,论文的短板在于其对混响早期反射模式的建模能力有限,且当前评估主要局限于语音信号,对音乐等激励源下的泛化能力以及噪声鲁棒性未做充分验证。 ...

2026-04-29 · 更新于 2026-06-29 · 2 min · 227 words

Matrix-Structured Hierarchical Convolutional Modeling for Pronunciation Assessment and Mispronunciation Detection

📄 Matrix-Structured Hierarchical Convolutional Modeling for Pronunciation Assessment and Mispronunciation Detection #语音评估 #错音检测 #卷积神经网络 #自监督学习 #多任务学习 🔥 8.0/10 | 前25% | #语音评估 | #卷积神经网络 | #错音检测 #自监督学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:David Fernández-García(西班牙巴利亚多利德大学 ECA-SIMM 研究组) 通讯作者:未说明 作者列表:David Fernández-García(西班牙巴利亚多利德大学 ECA-SIMM 研究组)、César González-Ferreras(西班牙巴利亚多利德大学 ECA-SIMM 研究组)、Valentín Cardeñoso-Payo(西班牙巴利亚多利德大学 ECA-SIMM 研究组)、Mario Corrales-Astorgano(西班牙巴利亚多利德大学 ECA-SIMM 研究组) 💡 毒舌点评 这篇论文成功地用CNN的“锤子”敲打了注意力机制的“钉子”,通过精心的矩阵特征工程和层次化卷积设计,在词级评估和错音检测上取得了显著提升,证明了在发音评估任务中,对音素局部上下文的显式建模(如三音素窗口)有时比堆砌更复杂的全局注意力更有效、更直接。然而,与当前最强的SOTA模型(如HMAMBA)相比,其在多个基础指标上(如音素MSE、语句准确率)仍有明显差距,这提示其模型容量或特征融合方式可能存在瓶颈,创新性更多体现在建模范式而非绝对性能的登顶。 🔗 开源详情 代码:论文明确提供了代码仓库链接:https://github.com/davidgor16/M3C.git。 模型权重:未提及公开预训练模型权重。 数据集:使用公开数据集 speechocean762,论文中给出了获取参考文献。 Demo:未提及在线演示。 复现材料:提供了核心实现代码,并在论文中详细说明了特征准备、模型结构、训练配置(优化器、学习率、批大小、Epoch数)等关键细节。 论文中引用的开源项目/模型:依赖了多种开源预训练模型作为特征提取器:HuBERT [12]、Wav2Vec 2.0 [13]、WavLM [14]。 总结:论文提供了较好的开源基础,代码和关键训练信息可得,但完整的复现环境(如特征提取的详细步骤、环境依赖)可能需要进一步配置。 📌 核心摘要 问题:现有自动发音评估(APA)和错音检测(MDD)系统大多依赖注意力机制,且对异构特征(如GoP、SSL表征、韵律特征)处理方式简单(直接拼接),忽略了结构化信息,并将不同音位类别(元音/辅音)同等对待,未能充分建模音素级错音与更高层面评分之间的关联。 方法核心:提出M3C框架,核心是将多种异构特征重组为矩阵结构输入(列对齐、行代表不同视角),并设计了紧凑卷积压缩器(CCC) 对矩阵进行跨特征维度的列向卷积压缩。模型采用层次化结构,在音素、词、语句级别堆叠CCC模块,并在各级引入多方面注意力关联不同预测目标,最终与MDD任务联合训练。 创新性:主要创新在于:1)矩阵化特征表示,保留特征间的结构关系;2)设计CCC模块替代主流注意力,专注局部关系建模;3)将元音和辅音的GoP特征分开处理,并在融合时标注类别;4)显式使用三音素上下文窗口。 主要实验结果:在speechocean762数据集上: 在仅使用GoP特征的公平对比中,M3C在词级总分上相对GOPT基线提升+19.4%,相对近期CNN模型提升+7.2%。 使用全部特征时,M3C在词级总分和MDD F1上相比SOTA(HMAMBA)分别提升+15%(绝对值从0.721到0.816)和+15%(绝对值从63.8%到78.8%)。 消融实验表明,移除矩阵特征提取和三音素上下文会导致性能大幅下降,而移除音素级方面注意力影响较小。 关键数据对比表: 类别 模型 Phone Score (MSE↓) Word Score Total (PCC↑) Utterance Score Total (PCC↑) MDD F1↑ Baseline (GoP only) GOPT [1] 0.085 0.549 0.742 - CNN-Based (GoP only) M3C 0.074 0.676 0.779 - SOTA HMAMBA [6] 0.062 0.718 0.829 63.8% SOTA (本文对比) M3C 0.066 0.721 0.816 78.8% 实际意义:为计算机辅助发音训练系统提供了一个新的、有效的建模框架,强调了在语音评估任务中对特征结构和局部音素上下文进行显式建模的重要性。其代码开源有助于后续研究。 主要局限性:虽然与部分基线相比有优势,但与最强的SOTA(如基于状态空间模型的HMAMBA)在音素级MSE、语句级准确率等基础指标上仍有差距,表明其绝对性能上限有待进一步挖掘。论文未提供模型参数量、训练时间等效率信息。 🏗️ 模型架构 M3C是一个用于多方面、多粒度发音评估与错音检测的层次化卷积框架。整体架构如图1所示。 ...

2026-04-29 · 更新于 2026-06-29 · 3 min · 429 words

Maximum Likelihood Measurement Noise Estimation for Block-Time Domain Kalman Filters

📄 Maximum Likelihood Measurement Noise Estimation for Block-Time Domain Kalman Filters #回声消除 #信号处理 #卡尔曼滤波器 #噪声估计 #自适应滤波 #在线学习 ✅ 7.0/10 | 前50% | #回声消除 | #信号处理 #卡尔曼滤波器 | #信号处理 #卡尔曼滤波器 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Till Hardenbicker (RWTH Aachen University, Institute of Communication Systems) 通讯作者:Till Hardenbicker (邮箱: hardenbicker@iks.rwth-aachen.de) 作者列表:Till Hardenbicker (RWTH Aachen University, Institute of Communication Systems)、Jan Schneider (RWTH Aachen University, Institute of Communication Systems,推测同单位)、Peter Jax (RWTH Aachen University, Institute of Communication Systems,推测同单位) 💡 毒舌点评 这篇论文的亮点在于其务实的工程思维:没有追求天马行空的理论,而是精准定位到BTKF在实际应用中缺失的一环——噪声估计,并巧妙地引入Toeplitz结构假设和起始点检测来稳定估计过程,显示出扎实的信号处理功底。短板则在于实验论证的“闭环”不够紧密,摘要中反复强调BTKF的收敛速度优势,但在实验部分几乎没有提供任何关于收敛速度的定量数据或图表,使得这一核心宣称未能得到充分支撑,说服力打折扣。 ...

2026-04-29 · 更新于 2026-06-29 · 2 min · 233 words

MC-MRX: Reference- and Midi-Guided Music Source Extraction with Contrastive Learning

📄 MC-MRX: Reference- and Midi-Guided Music Source Extraction with Contrastive Learning #音乐源提取 #对比学习 #多任务学习 #音频引导 ✅ 7.0/10 | 前25% | #音乐源提取 | #对比学习 | #多任务学习 #音频引导 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Xueyan Chen(University of Science and Technology Beijing, China) 通讯作者:Xinyuan Qian(University of Science and Technology Beijing, China) 作者列表:Xueyan Chen(University of Science and Technology Beijing, China)、Zexu Pan(Tongyi Lab, Alibaba Group, Singapore)、Ziyang Jiang(University of Science and Technology Beijing, China)、Jiadong Wang(Technical University of Munich, Germany)、Kainan Chen(Eigenspace GmbH, Germany)、Xinyuan Qian(University of Science and Technology Beijing, China) 💡 毒舌点评 这篇论文的亮点在于将MIDI时序音高锚点和参考音频这两种异构的多模态先验,通过一个精心设计的框架(MC-MRX)融合进音乐源提取任务,实验结果显著,为该领域引入“结构化提示”提供了有力论证。然而,其“自产自销”的短板也很明显:作为核心输入之一的MIDI依赖于外部的MT3模型,论文并未深入探讨该模型性能的波动对最终结果的影响,同时全文没有任何开源信息的披露,对于一篇声称推动SOTA的工作而言,这无疑削弱了其可验证性和社区影响力。 ...

2026-04-29 · 更新于 2026-06-29 · 2 min · 388 words

MCF: Text LLMS for Multimodal Emotional Causality

📄 MCF: Text LLMS for Multimodal Emotional Causality #情感分析 #多模态模型 #大语言模型 #数据集 🔥 8.0/10 | 前25% | #情感分析 | #多模态模型 | #大语言模型 #数据集 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yulong Li(西安交通大学-利物浦大学;穆罕默德·本·扎耶德人工智能大学) 通讯作者:Yichen Li(华中科技大学);Chong Li(西安交通大学-利物浦大学);Jionglong Su(西安交通大学-利物浦大学) 作者列表: Yulong Li(西安交通大学-利物浦大学;穆罕默德·本·扎耶德人工智能大学) Yuxuan Zhang(西安交通大学-利物浦大学) Rui Chen(西安交通大学-利物浦大学) Man Lei(西安交通大学-利物浦大学) Yibo Yuan(西安交通大学-利物浦大学) Xiwei Liu(穆罕默德·本·扎耶德人工智能大学) Runyi Lin(西安交通大学-利物浦大学) Tianrui Li(西安交通大学-利物浦大学) Mingze Jiang(西安交通大学-利物浦大学) Anyi Liu(西安交通大学-利物浦大学) Yichen Li(华中科技大学) Chong Li(西安交通大学-利物浦大学) Jionglong Su(西安交通大学-利物浦大学) 💡 毒舌点评 亮点在于其核心思想颇具巧思:与其让笨重的多模态模型学会复杂推理,不如让擅长推理的文本LLM通过一个精巧的“翻译框架”(MCF)来“看懂”和“听懂”视频音频,最终效果甚至超越了原生多模态巨头。短板则在于该框架极度依赖其专门发布的GENESIS数据集和特定组件(如DFER-CLIP, SenseVoice),在完全不同的文化背景、视频风格或对话场景下是否依然有效,是个巨大的问号,论文并未提供跨域泛化的证据。 ...

2026-04-29 · 更新于 2026-06-29 · 2 min · 334 words

MCI-OTFusion: A Multimodal Model for MCI Detection and Cognitive Score Prediction

📄 MCI-OTFusion: A Multimodal Model for MCI Detection and Cognitive Score Prediction #轻度认知障碍检测 #最优传输 #双向交叉注意力 #多模态融合 #跨模态 ✅ 6.5/10 | 前50% | #轻度认知障碍检测 | #多模态融合 | #最优传输 #双向交叉注意力 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Yuqin Lin(福州大学计算机与数据科学学院) 通讯作者:Jianwu Dang(中国科学院深圳先进技术研究院) 作者列表:Yuqin Lin(福州大学计算机与数据科学学院)、Jinsong Zhang(福州大学计算机与数据科学学院)、Xiao Wei(中国科学院深圳先进技术研究院、天津大学智能与计算学院认知计算与应用天津市重点实验室)、Kai Li(中国科学院深圳先进技术研究院)、Bin Wen(天津大学智能与计算学院认知计算与应用天津市重点实验室)、Mingyang Gu(中国科学院深圳先进技术研究院、天津大学智能与计算学院认知计算与应用天津市重点实验室)、Jianwu Dang(中国科学院深圳先进技术研究院) 💡 毒舌点评 这篇论文的亮点在于其方法设计的“物理意义”——用OT来捕捉语音和文本在分布层面的全局对齐,而非仅停留在浅层特征拼接,这在方法论上是一个清晰且合理的改进。然而,其短板同样明显:整个研究都建立在TAUKADIAL这一个较小的、特定挑战赛的数据集上,这极大地限制了其结论的泛化说服力,让人怀疑该模型是否在真实世界、更多样化的人群和语音条件下依然有效。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:实验使用了公开的TAUKADIAL数据集,论文中给出了获取引用。 Demo:未提供在线演示。 复现材料:论文给出了部分训练细节(如优化器、学习率、早停参数、折数),但缺少关键信息如批大小、OT的Sinkhorn迭代次数与熵系数、BiCA的MLP结构、完整的超参数列表、硬件环境和训练时长。 论文中引用的开源项目:引用了开源项目Whisper和BERT作为特征提取器。 论文中未提及开源计划。 📌 核心摘要 这篇论文针对轻度认知障碍(MCI)的早期、非侵入性筛查需求,提出了一种名为MCI-OTFusion的多模态融合框架。该框架的核心是利用最优传输(OT)算法对语音嵌入和文本嵌入的全局分布进行对齐,以克服传统交叉注意力(CA)方法仅关注局部对应关系的局限性;随后使用双向交叉注意力(BiCA)机制进一步捕获对齐后特征间的局部和长程依赖关系。与简单的特征拼接或标准CA基线相比,该方法在MCI分类(UAR达到70.00%,相对基线提升显著)和MMSE分数预测(R²达到0.40,绝对提升0.05)上均取得了更优的性能。此外,论文引入了跨任务聚合策略,模拟临床评估中综合多个语言任务的做法,提升了预测的稳定性。该工作证明了结合全局分布对齐与局部交互建模的多模态语音-文本分析在早期认知筛查中的潜力。其主要局限性在于实验仅在一个规模有限的数据集上进行,缺乏跨数据集、跨语言的验证,且未提供开源代码。 关键实验结果: ...

2026-04-29 · 更新于 2026-06-29 · 2 min · 307 words

Meanflow-Accelerated Multimodal Video-to-Audio Synthesis Via One-Step Generation

📄 Meanflow-Accelerated Multimodal Video-to-Audio Synthesis Via One-Step Generation #音频生成 #流匹配 #音视频 #实时处理 ✅ 7.5/10 | 前25% | #音频生成 | #流匹配 | #音视频 #实时处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Xiaoran Yang(武汉大学电子信息学院) 通讯作者:Gongping Huang(武汉大学电子信息学院) 作者列表:Xiaoran Yang(武汉大学电子信息学院)、Jianxuan Yang(小米MiLM Plus,武汉)、Xinyue Guo(小米MiLM Plus,武汉)、Haoyu Wang(西南财经大学计算机与人工智能学院)、Ningning Pan(西南财经大学计算机与人工智能学院)、Gongping Huang(武汉大学电子信息学院) 💡 毒舌点评 这篇论文的核心亮点是将MeanFlow的一步生成能力成功“移植”到多模态VTA合成任务上,实现了推理速度的数量级提升,这在实际应用中极具吸引力。然而,其短板也相当明显:核心创新组件(MeanFlow和CFG-scaled)均非作者首次提出,论文更偏向于一项有价值的工程集成与任务适配,且消融实验仅探讨了CFG强度和训练配对比例,对于MeanFlow框架如何具体适配多模态条件融合的机制剖析不够深入。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:训练和评估所用数据集(VGGSound, Kling-Audio-Eval, AudioCaps, WavCaps)均为公开数据集,但论文未说明是否提供其处理后的版本。 Demo:未提及。 复现材料:论文提供了详细的训练配置(优化器、学习率、batch size、训练步数)、超参数设置(模型层数、采样率、时间步采样分布)、硬件环境(8x H800 GPU)和评估指标说明,为复现提供了较好的基础。 引用的开源项目/模型:CLIP、Synchformer、VAE(具体模型未说明)、MMAudio、MeanFlow、CFG-Zero。 总结:论文中未提及开源计划。 📌 核心摘要 要解决什么问题:现有的基于流匹配的视频到音频(VTA)合成方法依赖多步迭代采样,导致推理速度慢,难以满足实时应用需求。同时,一步生成场景下应用分类器引导(CFG)容易因缺乏迭代修正而产生过冲和失真。 方法核心是什么:提出MeanFlow加速的多模态联合训练框架(MF-MJT)。核心是在多模态联合训练的骨干网络(基于MMAudio)上,采用MeanFlow公式建模平均速度场,从而支持原生一步生成。为稳定CFG,引入标量缩放机制(CFG-scaled),动态调整无条件预测的权重。 ...

2026-04-29 · 更新于 2026-06-29 · 2 min · 357 words

MeanFlowSE: One-Step Generative Speech Enhancement via Conditional Mean Flow

📄 MeanFlowSE: One-Step Generative Speech Enhancement via Conditional Mean Flow #语音增强 #流匹配 #实时处理 #生成模型 ✅ 7.5/10 | 前10% | #语音增强 | #流匹配 | #实时处理 #生成模型 学术质量 6.5/7 | 选题价值 1.6/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Duojia Li(厦门大学电子科学与工程学院) 通讯作者:Qingyang Hong(厦门大学信息学院)、Lin Li(厦门大学电子科学与工程学院) 作者列表:Duojia Li(厦门大学电子科学与工程学院)、Shenghui Lu(厦门大学信息学院)、Hongchen Pan(厦门大学电子科学与工程学院)、Zongyi Zhan(厦门大学电子科学与工程学院)、Qingyang Hong(厦门大学信息学院)、Lin Li(厦门大学电子科学与工程学院) 💡 毒舌点评 亮点:论文巧妙地将近期提出的“平均速度场”理论(Mean Flow)适配到条件语音增强任务中,通过设计新颖的训练目标,实现了生成模型在语音增强上首次真正意义上的单步高质量推理,将RTF从0.23(FlowSE)降至0.11,效率提升显著且未牺牲性能。 短板:论文的消融实验略显单薄,未能深入探讨“平均速度场”与“瞬时速度场”在语音信号上的具体误差累积差异;同时,其性能高度依赖于所选择的线性-高斯条件路径,对更复杂或非高斯噪声场景下的泛化能力未做讨论,这可能是其实际部署的一个潜在限制。 🔗 开源详情 代码:提供了GitHub仓库链接 https://github.com/liduojia1/MeanFlowSE。 模型权重:论文中提到“the proposed method is open-sourced”,但未明确说明是否公开了预训练模型权重。通常开源仓库会包含,但此处应表述为“论文中未明确提及模型权重是否公开”。 数据集:使用公开的VoiceBank-DEMAND数据集,但未说明如何获取或提供脚本,应为“未提及”。 Demo:未提及在线演示。 复现材料:论文提供了相当详细的训练细节(网络架构、优化器、学习率、训练技巧、硬件环境),这构成了良好的复现基础。但缺少具体的代码实现和检查点。 引用的开源项目:依赖了NCSN++架构(来自[23, 24])和自注意力机制(来自[25])。 📌 核心摘要 解决的问题:传统的基于流匹配或扩散模型的生成式语音增强方法需要多步迭代求解ODE,导致推理速度慢、计算成本高,难以满足实时应用需求。 方法核心:提出MeanFlowSE,一个学习平均速度场而非瞬时速度场的条件生成模型。通过利用MeanFlow恒等式和雅可比-向量积构造局部训练目标,直接监督有限时间区间内的位移。在推理时,仅需单步反向位移即可从噪声估计生成增强语音,无需迭代ODE求解器。 创新之处:首次将Mean Flow理论应用于条件语音增强任务,将其从无条件生成扩展到有条件的条件生成框架。设计的训练目标在对角线(r=t)处自然退化为标准条件流匹配目标,保持了理论一致性。该方法无需知识蒸馏或外部教师模型。 实验结果:在VoiceBank-DEMAND基准测试中,单步MeanFlowSE取得了最优的PESQ (3.207)、ESTOI (0.881)、SI-SDR (19.975 dB) 和DNSMOS BAK (4.073),同时实现了最低的实时因子(RTF=0.11),远优于需要5-200步的多步基线模型。 实际意义:为实时、高保真的生成式语音增强提供了一个高效框架。单步推理特性使其在资源受限的边缘设备(如助听器、通信终端)上具有巨大应用潜力。 主要局限:当前模型依赖于预设的线性-高斯条件路径,其对复杂噪声或非高斯分布的适应性未被验证。一阶导数近似可能限制了模型对高度非线性轨迹的学习能力。 🏗️ 模型架构 MeanFlowSE 的核心是一个用于估计平均速度场 u_θ(x, r, t, y) 的神经网络。 ...

2026-04-29 · 更新于 2026-06-29 · 2 min · 393 words

MeanSE: Efficient Generative Speech Enhancement with Mean Flows

📄 MeanSE: Efficient Generative Speech Enhancement with Mean Flows #语音增强 #流匹配 #生成模型 #实时处理 ✅ 6.5/10 | 前25% | #语音增强 | #流匹配 | #生成模型 #实时处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Jiahe Wang(上海交通大学 计算机科学与学院 听觉认知与计算声学实验室,教育部人工智能重点实验室) 通讯作者:Chenda Li,Yanmin Qian(标注为†,根据论文署名规则推断) 作者列表:Jiahe Wang¹, Hongyu Wang¹, Wei Wang¹, Lei Yang³, Chenda Li¹,⁴†, Wangyou Zhang²,⁴, Lufen Tan³, Yanmin Qian¹,⁴† 上海交通大学 计算机科学与学院 听觉认知与计算声学实验室,教育部人工智能重点实验室 上海交通大学 人工智能学院 三星电子中国研究院-北京 VUI Labs 💡 毒舌点评 本文的亮点在于将生成模型领域的“平均流”概念巧妙地“移植”到语音增强,并通过精心设计的训练策略(时间区间课程学习、流场混合)解决了训练不稳定问题,最终在极低计算量下实现了稳定的性能提升。但短板在于,其核心贡献是已有方法的应用与适配,理论上的突破性有限;此外,论文在展示1-NFE优势时,与基线的对比在域内任务上虽显著但差距未形成量级碾压,且最佳性能仍需2-5 NFE才能达到,其“效率”的边界有待更严苛场景(如极低延迟、边缘设备)的验证。 ...

2026-04-29 · 更新于 2026-06-29 · 2 min · 350 words