LP-CFM: Perceptual Invariance-Aware Conditional Flow Matching for Speech Modeling

📄 LP-CFM: Perceptual Invariance-Aware Conditional Flow Matching for Speech Modeling #语音合成 #流匹配 #低资源 #鲁棒性 #数据增强 ✅ 7.0/10 | 前25% | #语音合成 | #流匹配 | #低资源 #鲁棒性 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Doyeop Kwak(韩国科学技术院,KAIST) 通讯作者:未说明 作者列表:Doyeop Kwak(韩国科学技术院),Youngjoon Jang(韩国科学技术院),Joon Son Chung(韩国科学技术院) 💡 毒舌点评 亮点在于将“感知等价类”这一人类听觉特性形式化为流匹配中的线性投影目标,理论动机清晰且与低资源/少步场景的收益形成合理关联;但短板是实验“安全区”选择得过于小心,在单一的、高度控制的声码器任务上验证,未能展示该方法在更复杂的端到端TTS或语音转换等主流任务中的通用性和竞争力。 🔗 开源详情 代码:论文中未提及代码链接或开源计划。 模型权重:未提及。 数据集:使用了公开的LJ Speech数据集。 Demo:未提及。 复现材料:论文中给出了相对详细的训练超参数、数据划分、硬件信息和评估指标,但未提供预训练模型、完整配置文件或复现脚本。 论文中引用的开源项目:引用了HiFi-GAN(作为对比基线或参考),以及HuggingFace Diffusers库中的UNet2D模型作为解码器骨干。 📌 核心摘要 问题:传统的条件流匹配(CFM)将数据集中每个样本视为目标分布的唯一代表,忽略了人类听觉对幅度缩放和小时间偏移等感知不变性的容忍,导致模型需强制收敛到一个任意实例,可能造成数据与容量的浪费。 核心方法:提出LP-CFM(线性投影条件流匹配),将建模目标从围绕单个数据点的各向同性高斯分布,改为沿感知等效变体(如不同响度或对齐的波形)构成的直线分布的细长高斯。同时引入向量校准采样(VCS)在推理时纠正预测向量,确保其与投影路径对齐。 新意:相比标准OT-CFM,LP-CFM显式地将感知不变性编码到生成模型的目标分布中,使模型学习流向等效集中最近点的路径,而非固定点,从而理论上缩短和稳定了传输路径。 主要实验结果:在神经声码器任务上,LP-CFM在所有评估指标(M-STFT, PESQ, MCD等)上均一致优于OT-CFM。优势在小模型(UNet-16上UTMOS提升0.14)、低数据(使用66%数据训练的LP-CFM在多数指标上优于使用100%数据的OT-CFM)和少步采样(3步时UTMOS优势最明显)场景下尤为显著。消融实验表明,LP-CFM应用于幅度谱贡献了主要性能提升,VCS起到了预期的安全保障作用。 实际意义:为生成式语音建模提供了更符合人类感知的新视角,可能在资源受限的边缘设备部署、快速合成等实际应用中带来收益。 局限性:验证场景相对单一且受控;方法的有效性依赖于能将不变性表达为线性方程,对于更复杂的变换或端到端模型中的隐变量是否普适未知。 🏗️ 模型架构 论文未提供其模型架构的专属图片。其神经声码器架构基于一个简化的设计用于控制实验变量,流程如下: ...

2026-04-29 · 更新于 2026-06-16 · 2 min · 313 words

Marco-Voice: A Unified Framework for Expressive Speech Synthesis with Voice Cloning

📄 Marco-Voice: A Unified Framework for Expressive Speech Synthesis with Voice Cloning #语音合成 #语音克隆 #流匹配 #情感合成 #数据集 🔥 8.0/10 | 前25% | #语音合成 | #流匹配 | #语音克隆 #情感合成 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文作者列表未按顺序注明第一作者) 通讯作者:Chenyang Lyu(标注为) 作者列表:Fengping Tian, Peng Bai, Xuanfan Ni, Haoqin Sun, Qingjuan Li, Zhiqiang Qian, Chenyang Lyu*, Haijun Li, Longyue Wang, Zhao Xu, Weihua Luo, Kaifu Zhang 机构列表:Alibaba International Digital Commerce(阿里巴巴国际数字商业) 💡 毒舌点评 亮点:该工作最大的亮点在于将“说话人身份”与“情感表达”的解耦做到了一个相当精细和可控的程度,通过旋转嵌入、正交约束等系列“组合拳”,不仅理论动机清晰,实验效果(尤其是说话人相似度和情感表达分数)也远超基线,且贡献了宝贵的中文情感语音数据集。短板:其创新更多是模块化组合的“系统工程”优势,对每个单独模块(如对比学习、交叉注意力)的分析深度相对有限,且情感类别的准确率(最高0.75)仍有提升空间,表明对复杂情感的建模仍是难点。 ...

2026-04-29 · 更新于 2026-06-16 · 2 min · 348 words

Measuring Prosody Diversity in Zero-Shot TTS: A New Metric, Benchmark, and Exploration

📄 Measuring Prosody Diversity in Zero-Shot TTS: A New Metric, Benchmark, and Exploration #语音合成 #模型评估 #基准测试 #自监督学习 🔥 8.0/10 | 前25% | #语音合成 | #模型评估 | #基准测试 #自监督学习 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yifan Yang(上海交通大学 X-LANCE实验室,蚂蚁关键人工智能实验室,江苏语言计算重点实验室) 通讯作者:Xie Chen(上海交通大学 X-LANCE实验室,上海创新研究院) 作者列表:Yifan Yang(上海交通大学 X-LANCE实验室,蚂蚁关键人工智能实验室,江苏语言计算重点实验室),Bing Han(上海交通大学 X-LANCE实验室,蚂蚁关键人工智能实验室,江苏语言计算重点实验室),Hui Wang(南开大学),Long Zhou(腾讯混元),Wei Wang(上海交通大学 X-LANCE实验室,蚂蚁关键人工智能实验室,江苏语言计算重点实验室),Mingyu Cui(腾讯混元),Xu Tan(腾讯混元),Xie Chen(上海交通大学 X-LANCE实验室,上海创新研究院) *注:原文作者姓名“Mingyu Cui”在页脚签名中显示为“Mingyu Cui”,但参考文献中显示为“Mingyu Cui”。此处按页脚信息记录。 💡 毒舌点评 这篇论文最大的价值在于为“韵律多样性”这个有点玄学的概念建立了一套扎实的客观评估体系(DS-WED指标+ProsodyEval数据集),让社区有了统一的比较标尺,而不仅仅是依赖主观听感或片面的F0/MCD指标。但必须指出,其构建的“黄金标准”ProsodyEval数据集仅覆盖了7个模型和英语语音,其泛化到更多语言、更嘈杂或更具表现力场景的有效性尚未验证,这是其作为通用基准的主要短板。 🔗 开源详情 代码:是,提供了代码仓库链接:https://github.com/yfyeung/DS-WED。 模型权重:论文未提及公开其训练的任何模型权重(如DS-WED评估流水线中使用的k-means聚类模型)。所评测的各TTS系统为第三方开源模型,论文中提供了其官方链接。 数据集:是,提供了ProsodyEval评测数据集的访问链接:https://prosodyeval.github.io。 Demo:未提及在线演示。 复现材料:论文提供了详细的评测设置(如DS-WED使用的SSL层、聚类数)、基准测试所用的语音来源(LibriSpeech test-clean, Seed-TTS test-en),以及消融实验的具体配置。 论文中引用的开源项目:Silero-VAD (用于语音活动检测)、HuBERT、WavLM (用于语音表示)、以及所评测的TTS系统(XTTS-v2, CosyVoice, MaskGCT, E2 TTS, F5-TTS, ZipVoice)。 📌 核心摘要 问题:零样本语音合成(TTS)中韵律多样性(即同一文本不同合成结果间的语调、节奏等差异)对自然表现力至关重要,但缺乏与人类感知高度相关、且能全面捕捉韵律信息的客观评估指标。 方法核心:提出ProsodyEval人类标注数据集和DS-WED(离散语音加权编辑距离)指标。DS-WED首先使用自监督模型(如HuBERT)对语音进行离散化得到语义token序列,然后通过计算两段语音token序列间的加权编辑距离来量化韵律差异。 创新点:1) DS-WED相比传统声学指标(如log F0 RMSE、MCD)与人类评分相关性显著更高;2) 提供了首个系统性的零样本TTS韵律多样性基准测试;3) 发现了生成范式(AR vs NAR)、持续时间控制、强化学习(DPO)等因素对韵律多样性的关键影响。 实验结果:在ProsodyEval数据集上,DS-WED与人类平均意见分(PMOS)的平均皮尔逊相关系数达0.77,远高于MCD(0.66)和log F0 RMSE(0.30)。基准测试显示,自回归(AR)模型在韵律多样性上普遍优于基于流匹配的非自回归(NAR)模型,但MaskGCT(掩码生成模型)表现突出。此外,DPO对齐会降低韵律多样性(例如CosyVoice 2下降18.8%)。具体数据见下表: 表1:不同指标与人工评分PMOS的相关性对比(平均皮尔逊系数及其95%置信区间) ...

2026-04-29 · 更新于 2026-06-16 · 2 min · 293 words

MELA-TTS: Joint Transformer-Diffusion Model with Representation Alignment for Speech Synthesis

📄 MELA-TTS: Joint Transformer-Diffusion Model with Representation Alignment for Speech Synthesis #语音合成 #扩散模型 #自回归模型 #端到端 #零样本 ✅ 7.0/10 | 前25% | #语音合成 | #扩散模型 | #自回归模型 #端到端 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Keyu An(Alibaba group) 通讯作者:Zhiyu Zhang(National Mobile Communications Research Laboratory, Southeast University) 作者列表:Keyu An⋆(Alibaba group)、Zhiyu Zhang⋆†(Alibaba group, National Mobile Communications Research Laboratory, Southeast University)、Changfeng Gao⋆(Alibaba group)、Yabin Li⋆(Alibaba group)、Zhendong Peng⋆(Alibaba group)、Haoxu Wang⋆(Alibaba group)、Zhihao Du⋆(Alibaba group)、Han Zhao⋆(Alibaba group)、Zhifu Gao⋆(Alibaba group)、Xiangang Li⋆(Alibaba group) 注:⋆表示Alibaba group,†表示National Mobile Communications Research Laboratory, Southeast University。第一作者和通讯作者基于论文标题下方作者列表顺序及贡献说明(“The first two authors contribute equally to this work.”)判断。 💡 毒舌点评 亮点在于用“表示对齐”模块巧妙地借用了预训练ASR编码器的语义知识来指导自回归模型生成更连贯的语义表示,确实显著加速了收敛并提升了内容一致性(WER大幅下降)。但其声称的“端到端”仍依赖预训练的说话人编码器和ASR编码器进行对齐,且声音克隆的说话人相似度(SS)在英文测试集上反而弱于其主要对比基线CosyVoice,暴露了该架构在全局声学上下文利用上的短板。 ...

2026-04-29 · 更新于 2026-06-16 · 2 min · 426 words

Mind Your [m]S, Cross Your [t]S: a Large-Scale Phonetic Analysis of Speech Reproduction in Modern Speech Generators

📄 Mind Your [m]S, Cross Your [t]S: a Large-Scale Phonetic Analysis of Speech Reproduction in Modern Speech Generators #语音伪造检测 #音位分析 #语音合成 #模型比较 ✅ 7.0/10 | 前25% | #语音伪造检测 | #音位分析 | #语音合成 #模型比较 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Boo Fullwood(佐治亚理工学院 ECE & School of Cybersecurity and Privacy) 通讯作者:未说明 作者列表:Boo Fullwood(佐治亚理工学院 ECE & School of Cybersecurity and Privacy)、Fabian Monrose(佐治亚理工学院 ECE & School of Cybersecurity and Privacy) 💡 毒舌点评 本文如同一份详尽的“现代语音合成器体检报告”,首次对如此多种类的生成器进行了大规模“病理学”扫描,发现了鼻音和阻塞音这个普遍存在的“病灶”,并精准定位问题主要出在“文本到频谱”的环节,为后续“治疗”(改进生成器或设计更精准的检测器)提供了清晰的诊断书。其短板在于只开出了“诊断书”,却没有附上“药方”或“手术指南”——即基于这些发现提出具体的、新的检测算法或生成器改进方案,且复现门槛较高。 ...

2026-04-29 · 更新于 2026-06-16 · 1 min · 196 words

MirrorTalk: Forging Personalized Avatars Via Disentangled Style and Hierarchical Motion Control

📄 MirrorTalk: Forging Personalized Avatars Via Disentangled Style and Hierarchical Motion Control #语音合成 #扩散模型 #个性化生成 #多模态 #视频生成 ✅ 7.0/10 | 前25% | #语音合成 | #扩散模型 | #个性化生成 #多模态 学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Renjie Lu(1平安科技(深圳)有限公司, 2中国科学技术大学) 通讯作者:Jianzong Wang(1平安科技(深圳)有限公司), Shangfei Wang(2中国科学技术大学) 作者列表:Renjie Lu(平安科技、中国科学技术大学), Xulong Zhang(平安科技), Xiaoyang Qu(平安科技), Jianzong Wang(平安科技), Shangfei Wang(中国科学技术大学) 💡 毒舌点评 这篇论文的亮点在于明确指出了现有方法“风格与语义纠缠”的痛点,并设计了精巧的两阶段解耦训练和分层调制机制来解决,实验上也取得了不错的指标提升。短板在于论文中部分关键训练细节(如优化器、学习率调度、硬件配置)语焉不详,且核心代码与模型完全未开源,极大地限制了其可复现性和社区验证的价值。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用了公开数据集(VoxCeleb2, HDTF, CREMA-D),但论文本身未提供新的数据集。 Demo:未提及。 复现材料:未提供详细的超参数配置、训练脚本、检查点或附录说明。 引用的开源项目:论文引用并基于以下开源工作:FLAME (3DMM模型)、SMIRK (表情预测)、MICA (形状估计)、3DDFA (姿态估计)、Wav2Lip (运动专家预训练模型)、PIRenderer (神经渲染器)、DiT (扩散模型架构)。 开源计划:论文中未提及开源计划。 📌 核心摘要 问题:现有的音频驱动说话脸生成方法存在“说话风格”与“语义内容”在面部运动中纠缠的问题,导致将一个人的风格迁移到新的语音内容时,唇形同步精度下降,面部运动不自然。 方法核心:提出MirrorTalk,一个基于条件扩散模型的生成框架。其核心是 语义解耦风格编码器 和 分层调制策略。 创新点:1) SDSE通过两阶段训练,从参考视频中提取与语义内容无关的纯粹说话风格表示;2) 在扩散模型的去噪过程中,采用空间-时间分层调制策略,根据面部区域(上/下脸)和去噪时间步,动态平衡音频和风格特征的贡献。 实验结果:在CREMA-D和HDTF数据集上,MirrorTalk在唇形同步(M-LMD, Syncconf)和个性化保持(StyleSim)上均优于Wav2Lip、SadTalker、Echomimic等基线方法。例如,在HDTF上StyleSim达到0.958,远超基线的最高值0.866。 实际意义:能够生成既准确同步音频,又高度还原目标说话人独特面部动态和表情的个性化数字人视频。 主要局限性:1) 对“风格”的定义和解耦依赖于3DMM参数,可能无法捕捉所有微表情;2) 论文中未提供详细的训练配置,如优化器、学习率、batch size等;3) 代码和模型未开源,限制了复现和应用。 🏗️ 模型架构 MirrorTalk的整体流程分为两个主要部分:风格编码和运动合成。 ...

2026-04-29 · 更新于 2026-06-16 · 2 min · 355 words

Mitigating Intra-Speaker Variability in Diarization with Style-Controllable Speech Augmentation

📄 Mitigating Intra-Speaker Variability in Diarization with Style-Controllable Speech Augmentation #说话人日志 #数据增强 #语音合成 #流匹配 ✅ 7.0/10 | 前25% | #说话人日志 | #数据增强 | #语音合成 #流匹配 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Miseul Kim(延世大学电气与电子工程系) 通讯作者:未说明(论文未明确标注通讯作者) 作者列表:Miseul Kim(延世大学电气与电子工程系)、Soo Jin Park(高通技术有限公司)、Kyungguen Byun(高通技术有限公司)、Hyeon-Kyeong Shin(高通技术有限公司)、Sunkuk Moon(高通技术有限公司)、Shuhua Zhang(高通技术有限公司)、Erik Visser(高通技术有限公司) 💡 毒舌点评 亮点:论文巧妙地将“用TTS生成多样风格语音”这一生成任务,嫁接到“解决聚类分裂问题”这一理解任务上,思路清晰且具有实用价值,可视化结果(图4)直观地展示了增强样本如何弥合聚类鸿沟。短板:创新更多是系统层面的巧妙组合而非底层模型突破,且实验设置(对AMI数据集进行人为截断以凸显问题)虽然有效,但也侧面说明该方法在未经“处理”的长对话自然数据上的普适性有待进一步验证,与端到端SOTA的缺席对比是重大遗憾。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开模型权重。 数据集:评估数据集(Concatenated emotional corpus, Truncated AMI corpus)是作者基于公开数据集(ESD, AMI)构建的,论文未说明是否公开构建脚本或处理后的数据。训练数据LibriTTS-R是公开的。 Demo:未提及在线演示。 复现材料:论文提供了部分实现细节(如训练步数、学习率、特征维度),但缺少完整的配置文件、训练日志、预训练检查点或更详尽的超参数列表。 论文中引用的开源项目:GST[11], Vevo[12], ECAPA-TDNN[4], BigVGAN[14], 谱聚类工具[15], dscore评分工具[1]。 开源计划:论文中未提及开源计划。 📌 核心摘要 解决什么问题:说话人日志系统常因同一说话人因情绪、健康状况等产生的内在语音风格差异(说话人内变异性),而将同一人的语音片段错误聚类为不同说话人(分裂错误)。 ...

2026-04-29 · 更新于 2026-06-16 · 1 min · 195 words

NCF-TTS: Enhancing Flow Matching Based Text-To-Speech with Neighborhood Consistency Flow

📄 NCF-TTS: Enhancing Flow Matching Based Text-To-Speech with Neighborhood Consistency Flow #语音合成 #流匹配 #多语言 #实时处理 🔥 8.0/10 | 前25% | #语音合成 | #流匹配 | #多语言 #实时处理 学术质量 7.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Yan Shi(平安科技) 通讯作者:未说明(提供了两个邮箱,但未明确标注通讯作者) 作者列表: Yan Shi*(平安科技) Jin Shi(平安科技) Minchuan Chen*(平安科技) Ziyang Zhuang(平安科技) Peng Qi(上海交通大学重庆人工智能研究院) Shaojun Wang(平安科技) Jing Xiao(平安科技) 💡 毒舌点评 亮点:这篇论文精准地抓住了流匹配TTS在少步推理下的两个痛点——轨迹不稳定性与CFG失效,并给出了数学上自洽、工程上有效的解决方案(NCF损失和嵌入式指导),理论结合实践做得不错。短板:实验部分虽然对比了F5-TTS和CosyVoice,但在多语言基准测试上,与顶尖的自回归模型(如Seed-TTS)在自然度(UTMOS)上仍有差距,论文对此讨论不足,可能影响其在高质量合成领域的说服力。 🔗 开源详情 代码:论文提供了一个项目主页链接 https://moonmore.github.io/ncf-tts,但此链接通常指向演示和论文信息,未明确指向包含完整训练/推理代码的公开仓库。 模型权重:通过项目主页链接,应可获取预训练模型权重用于演示和推理。 数据集:论文使用了公开的Emilia数据集,但未说明是否发布其筛选后的子集。评估集Seed-TTS为公开基准。 Demo:提供在线演示(通过项目主页链接)。 复现材料:论文详细说明了训练数据、预处理、模型架构、训练超参数(学习率、批量、步数)、优化器、损失权重及调度策略。这些信息对复现非常有帮助。 论文中引用的开源项目:F5-TTS, Vocos, Whisper, Paraformer, FunASR, AdamW, ConvNeXt V2, DiT, WavLM。 总结:论文提供了充分的复现技术细节和演示,但未明确公开训练/推理代码的仓库地址,这是复现层面最大的不确定性。 📌 核心摘要 问题:基于流匹配的文本到语音(TTS)模型在实际应用中受制于缓慢的推理速度,且经典的分类器自由引导(CFG)方法与少步采样模型存在理论不兼容,导致在少步推理时难以平衡质量与效率。 方法核心:提出NCF-TTS框架。核心是引入邻域一致性流(NCF)作为局部传输正则化器,强制要求平均速度场满足可加性,从而稳定大步长采样。其次,提出嵌入式指导目标,在训练阶段将条件与无条件监督统一,解决了CFG与少步模型的兼容性问题,使得推理时无需进行两次前向传播。 新颖性:不同于以往的蒸馏(如一致性模型)或离散步长约束(如快捷模型),NCF从连续时间积分的角度建立了一个统一的正则化框架。嵌入式指导将CFG从推理时调整转变为训练时正则化,是实现无CFG推理的关键。 实验结果:在中文和英文多语言数据集上进行评估。NCF-TTS在少步推理下表现优异,例如4步推理时英文WER仅1.82%,中文SIM-o为0.67,接近32步推理的质量(英文WER 1.38%,中文SIM-o 0.76)。相比基线F5-TTS,NCF-TTS在相同步数下质量更优,且在4步推理时推理速度(RTF 0.01)比F5-TTS的16步推理(RTF 0.14)快14倍。消融实验表明移除NCF会导致WER显著上升(从1.67%到6.23%)。 实际意义:实现了高质量、低延迟的TTS,为实时语音助手、交互式应用等场景提供了有力工具。 主要局限性:尽管在客观指标上接近最优,但在主观自然度(UTMOS/MOS)上与顶尖的自回归模型(如Seed-TTS、CosyVoice2)相比仍有一定差距,论文未深入探讨此差异的原因。 🏗️ 模型架构 NCF-TTS的架构(如图1所示)基于F5-TTS,是一个端到端的非自回归模型,主要包含以下组件: ...

2026-04-29 · 更新于 2026-06-16 · 2 min · 333 words

Neuromamba: Adaptive Frequency Filtering with a Pyramid Mamba for sEEG-driven Speech Synthesis

📄 Neuromamba: Adaptive Frequency Filtering with a Pyramid Mamba for sEEG-driven Speech Synthesis #语音合成 #信号处理 #状态空间模型 #脑机接口 #低资源 🔥 8.0/10 | 前25% | #语音合成 | #信号处理 #状态空间模型 | #信号处理 #状态空间模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Jiayue Xie†, Ruicong Wang† (†共同第一作者,单位:香港中文大学(深圳)人工智能学院、数据科学学院、深圳湾实验室) 通讯作者:Siqi Cai⋆ (⋆通讯作者,单位:哈尔滨工业大学(深圳)智能科学与工程学院、深圳湾实验室) 作者列表:Jiayue Xie (香港中文大学(深圳)人工智能学院、数据科学学院、深圳湾实验室), Ruicong Wang (香港中文大学(深圳)人工智能学院、数据科学学院、深圳湾实验室), Xueyi Zhang (香港中文大学(深圳)人工智能学院、数据科学学院、深圳湾实验室), Siqi Cai (哈尔滨工业大学(深圳)智能科学与工程学院、深圳湾实验室), Haizhou Li (香港中文大学(深圳)人工智能学院、数据科学学院、深圳湾实验室; 深圳湾实验室) 💡 毒舌点评 论文的亮点在于其模块设计(AFM与TPM)逻辑清晰,针对sEEG信号特性的动机阐述充分,消融实验和多任务(发声/默念/想象)评估也显得扎实可靠。然而,将实验仅局限于2名被试的sEEG数据,虽然这是领域早期常见情况,但论文并未充分讨论其结论在更广泛人群和非癫痫患者中的潜在泛化性限制,这使得“有效性”的声明略显单薄。 ...

2026-04-29 · 更新于 2026-06-16 · 2 min · 327 words

No Verifiable Reward for Prosody: Toward Preference-Guided Prosody Learning in TTS

📄 No Verifiable Reward for Prosody: Toward Preference-Guided Prosody Learning in TTS #语音合成 #强化学习 #偏好学习 #数据集 🔥 8.0/10 | 前25% | #语音合成 | #强化学习 | #偏好学习 #数据集 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Seungyoun Shin(Channel Corporation, Seoul, South Korea) 通讯作者:Sungwook Jeon(NAVER Cloud, South Korea)† 作者列表:Seungyoun Shin(Channel Corporation),Dongha Ahn(Kernelspace),Jiwoo Kim(成均馆大学, Sungkyunkwan University),Sungwook Jeon(NAVER Cloud) 💡 毒舌点评 论文精准地“诊断”了现有RL训练TTS的通病——用CER/NLL当奖励,模型就只会当“背稿机器”,丢了人说话的腔调。提出的“每轮用200对人类偏好对打补丁”的迭代DPO方案,确实用最小的数据代价把韵律给“救”回来了,ELO分数吊打一众基线,这是其最大亮点。但短板在于,DPO本身已不是新方法,论文的创新更多是“对症下药”的工程应用和验证,而非方法论上的突破,且每轮都要人工标注,扩展性存疑。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及。 数据集:论文发布了新的评测集KoCC-TTS,并给出了HuggingFace链接:https://huggingface.co/datasets/channelcorp/KoCC-TTS-testset。 Demo:提供了演示页面链接:https://tts.ch.dev。 复现材料:论文提供了训练数据的大致规模(36k小时公开数据,18小时专有数据)、模型架构基础(Llasa-1B)、以及关键实验设置(如DPO的迭代流程、偏好对数量)。��未提供完整的训练超参数、配置文件或模型检查点。 论文中引用的开源项目: 模型:Llasa (https://huggingface.co/HKUSTAudio/Llasa-1B) 工具:pyannote.audio (v3.0), Whisper-large-v3 数据:AIHUB (https://aihub.or.kr/) 📌 核心摘要 要解决什么问题:在神经TTS中,使用基于转录错误率(CER)和负对数似然(NLL)的强化学习(如GRPO)优化模型,虽然提升了语音识别准确性,但会导致生成的语音韵律单调、不自然(“韵律坍塌”)。同时,简单加入说话人相似度奖励会破坏训练稳定性。 ...

2026-04-29 · 更新于 2026-06-16 · 2 min · 348 words