Continual Speaker Identity Unlearning with Minimal Interference

📄 Continual Speaker Identity Unlearning with Minimal Interference #语音合成 #自监督学习 #持续学习 🔥 8.3/10 | 前25% | #语音合成 | #自监督学习 | #持续学习 | arxiv 学术质量 6.1/7 | 影响力 1.7/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 Jinju Kim (成均馆大学), Yunsung Kang (成均馆大学), Gyeong-Moon Park (高丽大学), Jong Hwan Ko (成均馆大学)。机构为 Sungkyunkwan University 和 Korea University。 💡 毒舌点评 这篇论文针对“被遗忘权”在零样本语音克隆模型中的实际部署痛点——遗忘请求是顺序到达且数据必须删除——提出了一个精巧的解决方案。优点是问题定义精准且真实,直击先前工作的“一刀切”假设的软肋,并首次定义了“灾难性再学习”这一关键失败模式。方法设计上,CORTIS(对比Fisher信息掩码+累积正交子空间投影)逻辑清晰,两个组件分工明确(定位参数+约束方向),并通过消融实验验证了必要性。实验基线比较合理,展示了方法在3-5次连续请求下的有效性。但必须指出,论文的“新颖性”在一定程度上是“问题新颖性”和“应用新颖性”的结合,而非一个全新的方法论突破。将正则化微调和梯度投影这两个在持续学习中已有的技术进行特定场景的组合应用,工程价值高于理论价值。此外,所有实验都在单一模型(VoiceBox)上进行,声称的“架构无关性”缺乏实证支撑,这在NeurIPS/ICML级别的会议上会被视为一个显著的弱点。 📌 核心摘要 论文正式定义了在现实部署约束(遗忘请求顺序到达且遗忘后数据立即删除)下的零样本文本转语音模型“连续说话人身份遗忘”问题。作者指出,直接顺序应用现有遗忘方法会导致“灾难性再学习”,即新的遗忘操作会使先前已遗忘的说话人身份复活。为解决此问题,提出了CORTIS框架,它包含两个互补组件:1)基于对比Fisher信息的参数掩码,将每个遗忘步骤的更新精确定位到与当前目标说话人最相关的参数子集,同时排除对保留集和先前遗忘说话人重要的参数;2)累积正交子空间投影,将更新梯度投影到先前所有遗忘步骤所用梯度的正交补空间,从方向上阻止参数沿先前遗忘路径漂移。在VoiceBox模型上的实验表明,CORTIS是唯一能在3次(及扩展到5次)连续遗忘请求后,使所有先前遗忘的说话人相似度保持在低位(平均降低75%),同时保持保留集性能具有竞争力的方法。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集:论文中提及使用了LibriHeavy(预训练)、LibriSpeech test-clean(评估)和特定的遗忘说话人子集,但未提供这些数据集的下载链接。 Demo:提供了演示网站 https://cumulativeortis.github.io/。 复现材料:论文在附录中提供了详细的CORTIS实现细节(附录B)、VoiceBox骨干网络实现(附录C)、所有基线的实现细节(附录D)以及评估用的说话人相似度分布(附录E),为复现提供了理论上的细节支持。 论文中引用的关键开源项目:VoiceBox、WavLM-TDCNN、Diffwave vocoder、HuBERT-Large ASR模型,但论文中均未提供这些项目的具体链接。 🏗️ 方法概述和架构 CORTIS框架旨在解决连续遗忘场景下的“灾难性再学习”问题,其核心思想是在参数定位和方向约束两个层面同时施加保护。整体流程如论文图2所示,主要分为两步: ...

2026-05-27 · 更新于 2026-06-19 · 1 min · 126 words

CosyEdit2: Speech-Editing-Oriented Reinforcement Learning Unlocks Better Zero-Shot TTS

📄 CosyEdit2: Speech-Editing-Oriented Reinforcement Learning Unlocks Better Zero-Shot TTS #语音编辑 #强化学习 #多模态模型 #自回归模型 #语音识别 #数据增强 ✅ 7.2/10 | 前25% | #语音编辑 | #强化学习 | #多模态模型 #自回归模型 | arxiv 学术质量 7.2/7 | 影响力 7.5/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 Junyang Chen (陈俊阳), Yuhang Jia (贾宇航), Hui Wang (王辉), Jiaming Zhou (周佳明), Yongchang Gan (甘永昌), Yong Qin (覃勇)。 机构:南开大学计算机科学学院(1),南开大学人工智能学院(2)。通讯作者:chenjunyang@mail.nankai.edu.cn, qinyong@nankai.edu.cn。第一作者与通讯作者标注。 💡 毒舌点评 摘要写得像广告文案,充满了“substantially”、“deeper”、“unlocks”这类形容词。方法部分看似复杂,但核心就是给GRPO换了一套更适合编辑任务的奖励函数。实验结果在多个benchmark上看起来都不错,但仔细一想,和SOTA的差距有时只有零点几个百分点,而且很多baseline其实并不强。最有趣的是,这篇论文发现一个编辑模型居然能提升其基础TTS模型的性能,这到底是编辑任务的特殊性,还是仅仅因为用更多数据(虽然是构造的)和RL微调了一遍LLM?此外,声称“首个编辑导向的奖励组合”需要打上问号,因为相关工作ECPA已经用了GRPO,奖励设计思路有重叠。代码、模型权重均未开源,复现门槛极高。 📌 核心摘要 本文提出了CosyEdit2,一个基于两阶段后训练框架的语音编辑模型。第一阶段使用监督微调(SFT)在配对编辑数据上初始化模型能力。第二阶段引入编辑导向的组相对策略优化(GRPO),核心创新在于使用无需目标语音的构造数据(将任意TTS语料转换为编辑提示)和针对编辑任务设计的多奖励信号(内容正确性、声学保持、说话人一致性)对语言模型进行强化学习。实验表明,该模型在语音编辑任务上达到了与强基线可比或更优的性能,尤其在声学一致性方面表现突出,并且其获得的强化学习优化能力能够意外地提升基础模型的零样本TTS性能,揭示了两个任务间的相互促进关系。 🔗 开源详情 代码:论文未提供CosyEdit2的代码仓库链接。演示页面 https://cjy1018.github.io/CosyEdit2 主要用于展示音频样本,未提及包含代码。 模型权重: CosyEdit2模型:论文中未提供CosyEdit2(包括各阶段微调后的LLM、Flow、BigVGAN)的权重下载链接。 CosyVoice2模型:作为基础模型,其链接为 https://huggingface.co/FunAudioLLM/CosyVoice2-0.5B。 数据集: GigaEdit-S:阶段一训练数据,源自GigaSpeech-S,未提供独立下载链接。 LibriTTS / LibriTTS-R / YODAS2:用于训练BigVGAN的混合数据集。论文引用了LibriTTS,但提供的Hugging Face链接 https://huggingface.co/datasets/keithito/lj_speech 实际是LJ Speech,并非LibriTTS,此处表述有误。YODAS2和Ming-Freeform-Audio-Edit等评估集均未提供链接。 VoiceBank-DEMAND-16k:用于声码器重建实验,链接为 https://huggingface.co/datasets/JacobLinCool/VoiceBank-DEMAND-16k。 SEED-TTS-EVAL:评估基准,链接为 https://github.com/bytedance/Seed-TTS-Eval。 Demo:提供了音频样本演示页面 https://cjy1018.github.io/CosyEdit2。 复现材料: 训练细节与模型配置:附录B-D详细描述了架构、超参数和训练流程,是复现的关键信息。 评估脚本与指标:提及使用了评估脚本和指标(WER, SS, DNSMOS, MCD),但未提供具体评估代码。 论文中引用的开源项目:包括CosyVoice2、Qwen2.5、WhisperX、BigVGAN(提供链接 https://huggingface.co/nvidia/bigvgan_v2_22khz_80band_256x)、nlpaug、RoBERTa、pymcd等。 🏗️ 方法概述和架构 CosyEdit2构建于CosyVoice2的语音-语言建模骨干之上,将其零样本提示式接口重构为语音编辑任务。其架构包含五个核心模块:文本分词器、语音分词器、自回归文本-语音语言模型(LLM)、条件流匹配模型(Flow)和BigVGAN声码器。 ...

2026-05-27 · 更新于 2026-06-19 · 2 min · 425 words

cSTMM: A Unified Complex Spherical Student's Mixture Model for Directional Statistics in Mask-Based Blind Speech Separation

📄 cSTMM: A Unified Complex Spherical Student’s \(t\) Mixture Model for Directional Statistics in Mask-Based Blind Speech Separation #语音分离 #概率图模型 ✅ 7/10 | 前50% | #语音分离 | #概率图模型 | arxiv 学术质量 5/7 | 影响力 1/2 | 可复现性 1/2 | 置信度 高 👥 作者与机构 论文标题为 cSTMM: A Unified Complex Spherical Student's tt Mixture Model for Directional Statistics in Mask-Based Blind Speech Separation。作者为 Nobutaka Ito。论文中未明确说明作者所属机构。 💡 毒舌点评 这篇工作试图用一个统一模型 cSTMM 来整合 cACGMM、cBMM、cWMM 这三个经典的方向统计混合模型,动机是合理的。然而,它的“统一”主要停留在理论公式层面,实验部分却只和一个最强基线 cACGMM 比,而且比赢的方式非常“取巧”——通过在开发集上暴力搜索出一个固定的 \(\nu=1\),然后在干净、无噪、已知混响的特定测试集上获得了微弱的平均提升。这就像宣称发明了一款能变形为轿车、卡车和摩托车的通用载具,但测试只证明了在铺装路面上,它比当前最好的轿车省了那么一点油。核心贡献(统一框架)与核心验证(性能提升)之间存在显著的脱节。对于声称提供“更灵活、统一的模型选择框架”的工作,其本身却没有提出任何自适应的 \(\nu\) 选择策略,这多少有点讽刺。工程细节(如计算复杂度、收敛保证)的缺失,也让这篇理论看起来有些“悬浮”。 ...

2026-05-27 · 更新于 2026-06-19 · 4 min · 716 words

Decoding Stimulus Reconstruction-Based Auditory Attention Robustly in Unbalanced EEG Datasets

📄 Decoding Stimulus Reconstruction-Based Auditory Attention Robustly in Unbalanced EEG Datasets 🔥 8/10 | 前25% | #交叉验证 | arxiv 学术质量 5.2/7 | 影响力 1.2/2 | 可复现性 1.6/2 👥 作者与机构 通讯作者及单位未在分析文本中直接说明。论文作者为Yuanming Zhang, Yayun Liang, Zhibin Lin, Jing Lu,隶属于南京大学现代声学国家重点实验室及南京大学-地平线智能音频实验室。 💡 毒舌点评 这篇论文像个谨慎的实验室技术员,发现了一个大家可能都没太在意但确实存在的“数据卫生”问题——你的数据集偏科(不平衡),可能会让AI模型在“考试”(评估)时作弊,考出虚高的分数。他们定义了“偏科指数”(BI),并设计了一个更严格的“防作弊监考规则”(LOPEO)。问题在于,他们只找了一个“学霸”(VLAAI模型)来测试这套规则,而且只在三场“模拟考”(三个公开数据集)上验证。这就像为了证明新校规有效,只监控了一个尖子班的一次考试。虽然确实抓到了作弊(性能高估),但能否推广到所有学生(其他模型)和所有考试场景(分类范式、线性模型)?未知。另外,对于多说话人的复杂考场(NJU cEEGrid),他们的“防作弊规则”不得不打折(使用LOEO),导致成绩一落千丈,这恰恰暴露了其方法的适用边界。总的来说,这是一项扎实但视野受限的“审计工作”,指出了领域内一个需要正视的问题,但提供的解决方案像一把专配的钥匙,而非通用万能锁。论文本身是领域内一份合格的“评估规范提案”,但离里程碑式的突破还有距离。 📌 核心摘要 本文针对基于刺激重建的脑电图(EEG)听觉注意力解码(AAD)中,数据集平衡性对性能评估影响未知的问题展开研究。作者定义了平衡指数(BI)来量化数据集平衡性,并在KUL、DTU和NJU cEEGrid三个公开数据集上构建了平衡与不平衡条件。通过使用VLAAI模型进行实验,作者验证了其核心假设:在不平衡数据集(BI=1)上,采用常规留一试次(LOTO)交叉验证会导致解码准确率被显著高估,其原因在于模型可能学习了刺激身份的特异性特征而非真正的注意力神经信号。为解决此问题,本文提出了一种更严格的交叉验证策略——留一配对包络(LOPEO),其强制要求测试集中的“被注意-未被注意”刺激对在整个训练和验证集中完全缺席。实验证实,LOPEO能有效抑制高估现象,使不同平衡性数据集上的性能趋于一致。对于刺激对不固定的三说话人数据集,作者采用了约束较弱的留一包络(LOEO)变体。本文的贡献包括定义了EEG-AAD的数据集平衡性指标,实证验证了不平衡数据集导致的性能高估,并提出了LOPEO作为更可靠的评估框架。作者最后对未来EEG-AAD数据集的设计提出了平衡分配刺激等具体建议。 🔗 开源详情 代码:论文中提供了代码仓库链接:https://github.com/SeanZhang99/SuperHugeAAD 。该仓库是基于PyTorch和PyTorch Lightning构建的Python包,用于管理训练和评估。 模型权重:论文中未提及模型权重是否开源。 数据集:论文中引用了三个公开的EEG-AAD数据集,具体链接如下: KUL:原始数据集(Das et al., 2020):https://doi.org/10.5281/zenodo.3997352;大规模数据集(Bollens et al., 2023):https://doi.org/10.48804/K3VSND。 DTU:https://doi.org/10.5281/zenodo.1199011。 NJU cEEGrid:https://doi.org/10.5281/zenodo.17393865。 另一个引用的NJU数据集:https://doi.org/10.5281/zenodo.7253438。 Demo:论文中未提及。 复现材料:论文中提及“完整的训练脚本和日志将在论文被接受后公开”,但未提供具体链接。实验的超参数设置与VLAAI原始配置一致。 论文中引用的开源项目: VLAAI:一种用于从EEG解码语音包络的深度神经网络,引用的论文DOI为:https://doi.org/10.1038/s41598-022-27332-2。 Adam优化器:引用的arXiv论文链接:https://arxiv.org/abs/1412.6980。 🏗️ 方法概述和架构 本文的核心方法框架围绕评估和解决刺激重建型DNN在不平衡EEG-AAD数据集上的性能高估问题展开,主要包含三个关键组件:数据集平衡性量化、数据集构建、以及提出LOPEO交叉验证策略。 ...

2026-05-27 · 更新于 2026-06-19 · 3 min · 516 words

DuoGesture: Neuro-Inspired and Biomechanically Informed Dual-Stream Co-Speech Gesture Generation

📄 DuoGesture: Neuro-Inspired and Biomechanically Informed Dual-Stream Co-Speech Gesture Generation #多模态模型 #变分自编码器 #正则化微调 #自回归模型 ✅ 7.5/10 | 前25% | #语音合成 | #变分自编码器 | #多模态模型 #正则化微调 | arxiv 学术质量 5.1/7 | 影响力 1.2/2 | 可复现性 1.2/2 | 置信度 高 👥 作者与机构 Ferdinand Paar,Max Planck Institute for Psycholinguistics,Radboud University,Nijmegen;Lanmiao Liu,Utrecht University,Max Planck Institute for Psycholinguistics;Aslı Özyürek,Radboud University,Nijmegen,Max Planck Institute for Psycholinguistics;Serge Thill,Radboud University,Nijmegen,Donders Institute;Esam Ghaleb,Max Planck Institute for Psycholinguistics。 💡 毒舌点评 一篇将认知神经科学与生物力学启发的模型应用于协同语音手势生成的扎实工作,提出了一个有趣且合理的双流分解框架。其核心创新在于将手势显式地分解为语义流和节拍流,并为每个流设计了专门的条件化和正则化机制。然而,其贡献主要集中在视觉动画生成领域,对“语音”本身的处理深度有限,本质上是将语音作为条件信号。实验结果在特定指标(FGD)上声称取得最佳,但在其他指标上表现平平,且作者也坦诚了泛化性验证的缺失。代码与权重的未开源,以及对预训练文本到运动(Text-To-Motion)模型的强依赖,严重限制了其可复现性和对社区的直接贡献。总体而言,是一篇不错的视觉/多模态论文,但对纯语音处理领域的读者来说,影响力有限。 📌 核心摘要 DuoGesture 提出了一种受神经科学启发并结合生物力学信息的双流模型,用于协同语音手势生成。该模型将生成过程分解为语义流(负责基于词汇内容的手势)和节拍流(负责与语音韵律对齐的节奏性手势)。语义流通过运动语义条件化(MGSC)进行调节,该模块利用预训练的 Text-To-Motion 模型表示,将语义线索与运动动力学对齐,以改善长尾词汇手势触发的语义表达。节拍流则通过惯性节拍先验(IBP)进行正则化,该先验基于人体测量学数据对关节链速度一致性进行约束,旨在减少抖动并提高节奏连贯性。两个流由语义变分信息瓶颈(S-VIB)协调,这是一个帧级随机门控机制,学习何时激活语义流,并避免门控坍缩为单一路径。在 BEAT2 数据集上的实验表明,DuoGesture 在 Fréchet Gesture Distance (FGD) 这一主要分布度量上取得了最佳结果,同时在节拍对齐(BA)、多样性等辅助指标上保持了竞争力。消融研究证实了三个模块的互补作用。 ...

2026-05-27 · 更新于 2026-06-19 · 4 min · 708 words

Eroding Trust in Real Speech: A Large-Scale Study of Human Audio Deepfake Perception

📄 Eroding Trust in Real Speech: A Large-Scale Study of Human Audio Deepfake Perception 🔥 8.2/10 | 前50% | arxiv 学术质量 4.9/7 | 影响力 1.8/2 | 可复现性 1.5/2 | 置信度 高 👥 作者与机构 Nicolas M. Müller (Fraunhofer AISEC & Resemble AI, Germany), Wei Herng Choong (Fraunhofer AISEC, Germany) 💡 毒舌点评 这是一篇精心设计的用户研究,规模在音频感知领域堪称空前,核心洞察——“怀疑转变”——也足够有趣且及时。它像一面镜子,照出了技术进步带来的讽刺性社会后果:我们花了大力气让伪造更逼真,结果却让真实音频本身变得可疑了。然而,这篇论文的“软肋”也很明显:它本质上是一个相关性观察研究,而非严格控制的因果实验。结论的推导略显跳跃(“怀疑转变”直接归因于TTS技术进步),且方法论存在若干无法忽视的瑕疵(自愿样本、在线实验控制弱)。作者团队在局限性上还算诚实,但作为顶会论文,在如何更严格地验证这一核心主张上,着墨不足。它更像是一份高质量、高规格的“行业报告”或“社会观察”,而非一篇在方法论上无懈可击的科研论文。 📌 核心摘要 本文报告了迄今为止规模最大的关于人类感知音频深度伪造的听力研究。研究者将一项2021年的基线研究(13种攻击,472名参与者)扩展到2026年(138种攻击,1,768名参与者,35,532个判断),核心发现是一个“怀疑转变”:人类对虚假音频的检测准确率基本稳定(72.9% → 71.2%),但对真实音频的准确率显著下降(72.7% → 64.1%)。这表明,随着合成技术的进步,人类对真实语音的信任正在被侵蚀。研究还分析了不同TTS架构(商业API、自回归语言模型最难检测)和人口统计因素的影响,并报告了一个作为参考点的机器学习检测器(准确率94.5%)。论文强调,现代深度伪造的主要社会威胁可能并非单纯的欺骗,而是对真实音频普遍信任的破坏。 🔗 开源详情 代码:论文未提及提供用于数据分析、图表生成或主动学习模拟的代码。 模型权重:论文未提及提供其内部使用的基于Wav2Vec 2.0和AASIST的机器学习检测器的权重或模型结构细节。 数据集: 主数据集:研究发布了匿名化的实验数据集至HuggingFace:https://huggingface.co/datasets/mueller91/human-perception-audio-deepfake-2026。该数据集包含35,532行数据,每行记录了匿名参与者ID、轮次、音频文件名、攻击ID、真实标签、用户判断和ML检测器判断。人口统计信息未包含以防再识别。 构建数据集的来源:真实样本来自LJSpeech、In-The-Wild语料库、ASVspoof 5。伪造样本来自ASVspoof 5、MLAAD(英语子集)。 Demo:提供了在线听力测试平台链接:https://deepfake-total.com/spot_the_audio_deepfake 复现材料:论文未提及提供训练配置、环境依赖或完整的分析脚本以复现所有结果(尤其是涉及ML检测器的部分)。 论文中引用的开源项目: 语音生成模型:Tacotron 2, VITS, F5-TTS, CosyVoice, Grad-TTS, StyleTTS 2, VALL-E, Bark, Chatterbox, OpenVoice V2。 检测模型:RawNet2, Wav2Vec 2.0, AASIST。 数据集与挑战:ASVspoof 2019 LA, ASVspoof 5, MLAAD。 商业与工具:Resemble AI, ElevenLabs。 🏗️ 方法概述和架构 本研究采用大规模在线用户研究方法,核心架构是一个公开可访问的听力游戏平台。其设计旨在系统性地评估人类对音频深度伪造的感知能力,并与机器学习检测器性能进行对比。具体架构和流程如下: ...

2026-05-27 · 更新于 2026-06-19 · 2 min · 298 words

Exploration of Perceptual Speech Features for Clinical Decision-Support in Mental Health Care

📄 Exploration of Perceptual Speech Features for Clinical Decision-Support in Mental Health Care #语音情感识别 📝 5/10 | 前50% | #语音情感识别 | #语音情感识别 | arxiv 学术质量 3/7 | 影响力 1/2 | 可复现性 1/2 | 置信度 中 👥 作者与机构 Vassilis Lyberatos, Edmund G. Dervakos, Eleni Adamidi, Athanasios Voulodimos, Giorgos Stamou。所属机构为雅典国立技术大学(NTUA)和PsychNow。 💡 毒舌点评 一篇典型的“系统集成”式工作,将现有工具箱里的声学(Parselmouth)和语言学(spaCy, Stanza)特征提取器与可解释的XGBoost模型拼接起来,在多个数据集上“广撒网”式地验证了一遍。其核心价值在于提供了一个透明、模块化的分析流水线,而非提出任何新理论或突破性算法。然而,中等的性能数字(AUC 0.6-0.87)和明显的泛化局限性(尤其在真实世界数据集上),使其更像是一份详尽的领域调研和基线报告,而非一篇能推动该领域边界的NeurIPS/ICML论文。最大的软肋是那个自研的讽刺检测模型(准确率~70%)及其生成的特征被直接混入所有分析,其噪声和偏差污染了其他特征评估的可靠性,这是方法上的一个重大隐患。 📌 核心摘要 该论文针对传统心理健康评估的主观性问题,提出了一套系统性的、基于感知语音特征的分析框架,旨在为临床决策提供客观、可解释的支持。研究从语音和转录文本中提取了82个涵盖韵律、音质、词汇、句法、语义和语用(包括讽刺)的可解释特征。在五个涵盖压力、抑郁、焦虑和注意力相关任务的数据集(包括公开和私有数据集)上,应用统计分析(t检验, FDR校正)和可解释机器学习(XGBoost, SHAP, LIME)来分析特征与症状的关联,并进行了特征消融研究。研究发现,特定的语音特征(如shimmer、jitter、停顿模式、词汇丰富度、情感极性、图结构特征)与不同心理症状存在潜在关联,但预测性能在数据集间表现不一。论文强调了该框架的透明性和临床可解释性,同时指出从语音准确预测精神病理仍具挑战性,结果受数据集异质性和测量工具影响。 方法概��和架构 本研究提出一个以“感知特征”为中心、结合传统统计与可解释机器学习的端到端分析框架,用于语音心理健康评估。方法设计核心原则是优先提取临床可解释特征。整体架构可分为两个主要阶段:多模态特征提取与统计-机器学习分析。 特征提取模块: 该模块从原始音频和转录文本中并行提取两大类、共82个可解释特征。 声学特征提取:使用Parselmouth(Praat的Python接口)处理预处理后的语音(转单声道,16kHz重采样,幅度归一化)。提取的特征分为三组: 韵律/流利度特征:包括基频统计量(F0_mean, F0_var等)、强度统计量(Intensity_mean, Intensity_std)、停顿特征(计数、时长、占比)、发音与说话速率、节律变异性指数(PVI)和语音熵等。 嗓音质量特征:包括Jitter_local(频率微扰)、Shimmer_local(振幅微扰)和Harmonics-to-Noise Ratio(谐噪比)等,用于评估声带振动的稳定性。 心理语言学特征:通过预训练的HuBERT情感识别模型(在IEMOCAP上微调)提取情感概率(中性、快乐、愤怒、悲伤)。此外,通过在MUStARD数据集上微调一个多模态讽刺检测模型(结合BERT文本编码器和Wav2Vec2音频编码器,准确率约70%),为每个样本生成一个讽刺概率sarcasm_prob。 语言学特征提取:从转录文本出发,使用spaCy和Stanza进行分词、词性标注、依存句法分析和成分句法分析。特征分为四组: 词汇特征:包括词汇计数、词汇多样性指标(如type_token_ratio, MATTR, brunet_index)、内容词-功能词比率、代词比率、形态丰富度等。 句法特征:包括平均句长、从句比率、依存/成分树深度、被动语态比率,以及基于语言图(将句子中单词或POS标签作为节点,边表示共现或依存关系)的结构特征(如节点/边数量、循环计数、密度、直径、平均最短路径等),用以捕捉话语的重复性和结构模式。 语义特征:使用Sentence-BERT模型计算句子嵌入,进而估计话语连贯性(一阶、二阶余弦相似度)、连贯度(词重叠率)和句子重复率。 心理语言学特征:使用VADER工具分析情感极性(积极、消极、中性分数和综合分)。 分析框架模块: 该模块结合推断统计和可解释机器学习,以探索性建模为导向。 统计分析:首先使用独立样本t检验对参与者亚组(根据PHQ-9, GAD-7, ASRS临床阈值划分)的特征分布进行组间比较,并对p值进行Benjamini-Hochberg错误发现率校正,以识别显著差异特征。 可解释机器学习建模:使用XGBoost分类器建立特征与心理健康类别(二元分类)之间的非线性关联模型。选择XGBoost是因其在表格数据上的良好性能及与特征级解释的兼容性。 事后解释:通过SHAP(基于Shapley值)和LIME(局部可解释模型-不可知解释)对XGBoost模型进行解释。LIME解释跨所有实例聚合以生成全局特征影响模式;SHAP摘要图用于可视化特征效应的整体分布、大小和方向。此外,还生成了部分依赖图(PDP)以展示特征对预测的边际效应。 特征消融研究:为评估不同特征组的相对贡献,系统地使用单个特征组(如仅韵律、仅嗓音质量)训练XGBoost模型,并报告跨数据集的平均AUC-ROC,以识别最具信息量的特征类别。 整个框架的数据流为:原始音频/文本 -> 并行特征提取(声学82个 + 语言学分组特征) -> 特征聚合(跨语段/任务到被试级) -> 统计组间比较 -> XGBoost分类建模 -> SHAP/LIME/PDP解释 -> 特征消融分析。其设计动机在于构建一个透明、模块化、可复用的分析流水线,将传统的信号处理/NLP特征与前沿的可解释AI技术相结合,服务于临床假设生成和模型可解释性需求,而非追求端到端的黑盒预测性能。 ...

2026-05-27 · 更新于 2026-06-19 · 3 min · 564 words

FalAR: A Large-scale Speaker-Annotated European Portuguese Speech Corpus of Parliamentary Sessions

📄 FalAR: A Large-scale Speaker-Annotated European Portuguese Speech Corpus of Parliamentary Sessions #语音识别 #预训练 #低资源 📝 5.5/10 | 后50% | #语音识别 | #预训练 | #低资源 | arxiv 学术质量 5.5/7 | 影响力 7.0/2 | 可复现性 0.0/2 | 置信度 高 👥 作者与机构 作者:Francisco Teixeira, Carlos Carvalho, Mariana Julião, Catarina Botelho, Rubén Solera-Ureña, Sérgio Paulo, Thomas Rolland, Ben Peters, Isabel Trancoso, Alberto Abad 机构:INESC-ID, Lisbon, Portugal; Instituto Superior Técnico, Universidade de Lisboa, Portugal 💡 毒舌点评 这篇工作像是为一场特定比赛精心准备的“家酿”食谱:食材(议会录音)很充足,流程(数据处理)写得很细,最后端出了一个看起来量足(5800小时)的“菜”(语料库)。但问题在于,作者只跟你比较了自己以前用小锅做(425小时)的菜,就宣称新菜能让下游模型性能提升14%——这就像一个马拉松选手只和自己的弟弟赛跑就宣称破了世界纪录。在2025年,你不跟Whisper、XLS-R这些“市面大厨”的作品比一比,怎么说服大家你的“菜”真的有独特价值?更别提你吹了半天“说话人标注”这个“独家秘方”,结果连个像样的说话人识别效果都没展示。论文像一份详细的仓库盘点清单,价值在于“我有这么多货”,而不是“我用这些货做了多厉害的菜”。 ...

2026-05-27 · 更新于 2026-06-19 · 2 min · 281 words

FC-TTS: Style and Timbre Control in Zero-Shot Text-to-Speech with Disentangled Speech Representations

📄 FC-TTS: Style and Timbre Control in Zero-Shot Text-to-Speech with Disentangled Speech Representations #语音合成 #语音编码 ✅ 6.5/10 | 前50% | #语音合成 | #生成对抗网络 | #语音编码 | arxiv 学术质量 7.0/7 | 影响力 6.5/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 作者:Yoonhyung Lee, Hyunsin Park, Jinhwan Park, Jinkyu Lee 机构:Qualcomm AI Research (Qualcomm Technologies, Inc. 的一个倡议) 💡 毒舌点评 这篇工作瞄准了一个实际且重要的问题:如何从两个不同的参考音频中,独立控制零样本TTS的音色和风格。论文提出了一个相对清晰的框架(FC-TTS),并系统地设计了三个创新组件(两阶段生成、VQ-VAE风格编码、条件一致性损失)来解决这个问题,这体现了作者的思考深度。实验也较为全面,不仅在标准基准上评估,还在RAVDESS上专门设计了实验来验证解耦控制能力。然而,论文的“天花板”受限于它所依赖的FACodec解耦质量,这是所有基于解耦表示的TTS系统的共同软肋。更关键的是,论文在零样本TTS核心指标上并未展现出明确超越SOTA(如F5-TTS)的优势(UTMOS 4.22 vs 4.03,但SPK 0.60 vs 0.67),其提出的“独立控制”能力虽然新颖,但实验设计(特别是与VC系统和单参考F5-TTS的对比)在方法论上存在瑕疵,结论的说服力打了折扣。此外,代码和模型权重均未开源,对于一篇依赖外部预训练模型(FACodec)的工作来说,可复现性大打折扣。总体而言,这是一篇动机明确、方法设计有想法的工作,但在关键性能上缺乏突破,且受限于外部组件,整体贡献度中等。 📌 核心摘要 本文针对零样本TTS中从两个不同参考独立控制说话风格(韵律)和音色的挑战,提出了FC-TTS框架。该框架基于FACodec提供的解耦语音表示,通过三个关键设计增强独立控制的可靠性:1) 一个两阶段的谱图生成管道,首先生成锚定音色的模糊谱图,再通过条件流匹配解码器利用风格信息进行细化,以增强对未见过的音色-风格组合的鲁棒性;2) 一个基于VQ-VAE的层次化风格编码器(TCF模块),在音素和帧级别捕获细粒度且句内变化的风格信息;3) 一个条件一致性损失,将正则化扩展至多条件设置,通过预测器间的交叉条件输入来增强生成谱图在音色和风格上的一致性。实验表明,FC-TTS在LibriSpeech上与SOTA模型性能有竞争力,并在RAVDESS上展示了优于基线系统的独立音色和风格控制能力。 🔗 开源详情 代码:论文中未提及FC-TTS自身的代码链接。 模型权重:论文中未提及。 数据集: LibriHeavy:大规模英文语音数据集,遵循 Apache-2.0 许可证。获取链接:https://github.com/k2-fsa/libriheavy LibriSpeech:英文语音识别数据集,遵循 CC-BY 4.0 许可证。论文使用其test-clean子集进行评估。 RAVDESS:情感语音数据集,遵循 CC BY-NC-SA 4.0 许可证。论文用于评估风格与音色可控性。 Demo:https://qualcomm-ai-research.github.io/fc-tts 复现材料:论文在附录中提供了详细的模型架构超参数(Table 7)、训练超参数(Table 6)、训练与推理流程细节。 论文中引用的开源项目: FACodec:https://github.com/open-mmlab/Amphion/tree/main/models/codec/ns3_codec HiFi-GAN:https://github.com/jik876/hifi-gan (论文中提及使用) Gemini 2.5 Pro:https://huggingface.co/google/gemini-2.5-pro-preview (用于评估) UTMOS:https://huggingface.co/spaces/sarulab-speech/UTMOS-demo HuBERT:https://huggingface.co/facebook/hubert-large-ls960-ft UniSpeech-SAT (说话人验证):https://github.com/microsoft/UniSpeech/tree/main/downstreams/speaker_verification 🏗️ 方法概述和架构 FC-TTS的核心是利用预训练的FACodec解耦表示,在零样本TTS任务中实现音色和风格的独立控制。其架构如图1所示,主要包含以下组件和流程: ...

2026-05-27 · 更新于 2026-06-19 · 3 min · 508 words

From Scores to Gibbs Correctors: Accelerating Uniform-Rate Discrete Diffusion Models

📄 From Scores to Gibbs Correctors: Accelerating Uniform-Rate Discrete Diffusion Models #理论分析 #生成模型 #音乐生成 ✅ 6.9/10 | 前50% | #语音合成 | #理论分析 | #生成模型 #音乐生成 | arxiv 学术质量 5.9/7 | 影响力 0.5/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 Yuchen Liang, Ness Shroff, Yingbin Liang The Ohio State University 💡 毒舌点评 一篇理论野心勃勃但实验相对“保守”的论文。核心贡献——将离散扩散模型的采样复杂度从多项式降至对数多项式——无疑是扎实且漂亮的。GADD算法的设计思路(利用分数函数构建Gibbs后验)确实巧妙。然而,作者似乎将大部分精力倾注于理论证明,而在实验验证上略显吝啬:仅用了\(d=128\)的小模型和有限数据集,便急于宣称“practical advantages”。工程上采用的“并行Gibbs”和“选择性更新”等启发式策略,虽然提升了墙钟时间,却缺乏理论依据,让人质疑在更复杂、更大规模的现实场景(如长文本生成)中是否依然有效。此外,与同期更先进的高阶方法(如[18]的Ψ-samplers)对比不足,使得“SOTA”的宣称略显单薄。总的来说,这是一篇理论漂亮的“半成品”,其工程实践潜力仍需更大规模的实验来证伪或证实。 📌 核心摘要 本文针对均匀速率离散扩散模型采样步骤多的问题,提出了首个达到\(O(\mathrm{polylog}(\varepsilon^{-1}))\)采样复杂度的加速算法——Gibbs加速离散扩散(GADD)。GADD的核心是利用已训练的分数函数直接构建Gibbs校正器所需的条件后验分布,无需额外训练。理论分析引入了一个新的归纳框架,用于分析预测-校正方法中的误差传播。实验在合成数据、文本和音乐生成任务上验证了GADD在相同计算预算(NFE)下样本质量更优、墙钟时间更短的优越性,尤其在处理“尖锐”分布时表现突出。论文同时利用该框架分析了CTMC校正器,证明了其收敛率仅为\(O(\mathrm{poly}(\varepsilon^{-1}))\)。 🔗 开源详情 代码:论文未提及代码开源。 模型权重:论文未提及模型权重开源。 数据集: WikiText-103:用于文本实验,论文未提供直接链接。 Lakh pianoroll 数据集:用于音乐实验,论文引用出处[34]并提供DOI:10.1109/AAAI.2018.00837。 Demo:未提及。 复现材料:论文在附录C中详细提供了实验配置,包括合成数据生成细节、文本模型训练参数(SEDD Uniform,\(d=128\), \(S=50257\), 学习率\(3\times10^{-3}\), 训练111K步)、GADD超参数(\(L_k=40\))以及音乐实验的预训练模型来源[44]和评估细节。但未提供预训练检查点或复现脚本的下载链接。 论文中引用的开源项目:未提及。 🏗️ 方法概述和架构 GADD算法(Algorithm 1)采用经典的预测-校正(Predictor-Corrector)两阶段循环框架,针对均匀速率离散扩散模型的逆向采样过程进行加速。 ...

2026-05-27 · 更新于 2026-06-19 · 2 min · 370 words