Can We Hear from Events? Generating Speech from Event Camera

📄 Can We Hear from Events? Generating Speech from Event Camera #语音合成 #数据集 ✅ 7.8/10 | 前25% | #语音合成 | #数据集 | arxiv 学术质量 5.7/7 | 影响力 1.3/2 | 可复现性 0.8/2 | 置信度 中 👥 作者与机构 作者:Jingping Fang, Lin Chen, Chenyang Xu, Tong Zhao, Weidong Cai, Xiaoming Chen† (*并列第一作者,†通讯作者) 机构:北京工商大学(Fang, Chen, Chen),西安电子科技大学(Xu),同济大学(Zhao),悉尼大学(Cai)。论文机构列表顺序与作者顺序对应。 💡 毒舌点评 这篇论文的“初心”很好,试图解决一个真实存在的物理问题——RGB相机的时间分辨率不足导致语音生成中微表情丢失。事件相机(Event Camera)作为解决方案,思路本身具有新颖性。然而,深入阅读后,几个“软肋”暴露无遗:第一,所谓的“真实”数据集EVT-SPK-Real规模极小(仅4小时),且严重依赖一个可微分模拟器V2E来生成大部分训练数据,这极大地削弱了其宣称的“解决RGB传感器根本局限”的力度——本质上还是在模拟数据上训练模型。第二,对比方法的选择有些“拉郎配”,例如将环境音生成模型MMAudio和Diff-Foley通过一个AS后缀转换成语音生成模型来比较,其公平性值得怀疑。第三,方法部分虽详尽,但核心框架(如VITS双流、流匹配解码器)并非独创,创新更多体现在“组合”和“应用”上。作者声称取得了SOTA,但部分优势(如对纯TTS模型的超越)在事件数据条件下是预期中的,而与其他视觉语音生成方法(如VoiceCraft-Dub)的差距在某些指标上并不显著,需要更细致的分析。总的来说,这是一个在新兴传感器数据上做的有意义的探索性工作,但离“成熟可靠”还有距离,且作为顶会论文,其故事性和实验说服力的完整性稍显不足。 📌 核心摘要 本文针对传统基于RGB帧的语音生成模型因固定曝光时间平滑了面部高频微动态而导致生成语音“情感表现力不足”的“时间粒度不匹配”问题,提出了EventSpeech。该框架首次将神经形态事件相机数据引入语音生成任务,利用事件流的高时间分辨率(微秒级)特性来捕捉连续的面部运动学特征。架构上,设计了事件编码器(Event Encoder)和具有分层小波上下文器(HWC)的多尺度音频编码器,并通过双向对齐机制同步文本、视觉事件与音频特征。此外,构建了首个包含大规模合成数据(EVT-SPK-Synth)和真实录制数据(EVT-SPK-Real)的事件语音基准数据集EVT-SPK。实验表明,EventSpeech在保持细粒度情感和抵抗运动模糊方面优于多个基线模型,尤其在真实数据集上展现出优势。 🔗 开源详情 代码:论文中提供了项目主页链接:https://xrfang-0102.github.io/EventSpeechWeb/, 应包含代码和Demo。 模型权重:未提及模型权重的具体下载链接。 数据集:论文中构建并介绍了EVT-SPK数据集,但未提供该数据集的具体下载链接或开源仓库地址。 Demo:在线演示链接随代码一同提供:https://xrfang-0102.github.io/EventSpeechWeb/。 复现材料:论文中提供了部分实现细节(如GPU数量、迭代次数、优化器),但未提供具体的训练脚本、配置文件或模型检查点下载地址。 引用的开源项目: V2E:可微分神经形态事件模拟器,用于将RGB视频转换为事件流。论文引用了文献[15],但未提供具体链接。 OpenFace:用于提取面部动作单元(AU)等特征以提供伪标签监督。论文中提及但未提供具体链接。 HiFi-GAN:预训练的声码器。论文引用了文献[25],但未提供具体链接。 🏗️ 方法概述和架构 EventSpeech框架(如图2所示)旨在建立从异步事件流到连续语音波形的映射,其核心由四个协同模块组成。 ...

2026-05-27 · 更新于 2026-06-19 · 3 min · 449 words

CFMDCTCodec: A Low-Bitrate Neural Speech Codec with Noise-Prior-aware Conditional Flow Matching for MDCT-Spectral Enhancement

📄 CFMDCTCodec: A Low-Bitrate Neural Speech Codec with Noise-Prior-aware Conditional Flow Matching for MDCT-Spectral Enhancement #语音编码 #流匹配 🔥 8.4/10 | 前25% | #语音编码 | #流匹配 | arxiv 学术质量 5.8/7 | 影响力 1.8/2 | 可复现性 0.8/2 | 置信度 高 👥 作者与机构 作者:Xiao-Hang Jiang, Yang Ai, Hui-Peng Du, Zhen-Hua Ling, Ji Wu 机构:Xiao-Hang Jiang, Yang Ai, Hui-Peng Du 和 Zhen-Hua Ling 隶属于中国科学技术大学语音及语言信息处理国家工程研究中心;Ji Wu 隶属于清华大学电子工程系。 💡 毒舌点评 论文聚焦于一个非常具体且具有实用价值的细分问题(极低比特率语音编码),并提出了一个技术上合理、设计上自洽的方案。然而,其核心贡献——将单码本压缩与MDCT域CFM增强相结合——在概念上并非革命性突破,更偏向于工程优化和巧妙的组合。最大的问题在于其通用性存疑:性能优势高度集中在0.65 kbps这一极窄的设定下,比特率稍有提高(1.3 kbps),优势便大幅缩水,与MDCTCodec持平。这让人怀疑该方案是否真的解决了根本问题,还是仅仅在极端场景下榨取了一点边际收益。此外,论文声称避免对抗训练以简化学习,但引入的CFM增强器及其诸多稳定化设计(范围归一化、自适应噪声先验)本身也增加了系统的复杂度和调优难度,这与“更简单高效”的宣称需打个问号。作者明确承认的高算法延迟是一个致命弱点,严重限制了其实际部署潜力。 📌 核心摘要 本文提出了CFMDCTCodec,一个完全在MDCT域操作的低比特率神经语音编解码器。该系统由一个轻量级的单码本MDCT谱编解码器和一个噪声先验感知的基于条件流匹配(CFM)的MDCT谱增强器串联组成。编解码器将输入语音的MDCT谱深度压缩为低比特率离散令牌,并解码出粗糙谱。增强器以该粗糙谱为条件,利用由其幅度导出的自适应噪声先验作为CFM的初始状态,通过ODE求解器逐步细化频谱细节。整个系统采用非对抗性的端到端联合优化策略训练。实验表明,在0.65 kbps的极低比特率下,CFMDCTCodec在主观感知质量(MUSHRA)和计算效率(参数量、FLOPs)之间取得了良好平衡,优于或接近多个强基线。消融研究验证了MDCT范围归一化、幅度自适应噪声先验和端到端联合训练的有效性。 🔗 开源详情 代码:论文中未提及CFMDCTCodec的代码链接。 模型权重:论文中未提及模型权重链接。 数据集:论文中使用了两个公开数据集: LibriTTS (16kHz实验):使用了标准划分,包括train-clean-100、train-clean-360用于训练,dev-clean用于验证,test-clean用于评估。 VCTK (48kHz实验):使用了40,936条语句用于训练,2,937条语句用于测试。 Demo:https://xhjiang1.github.io/CFMDCTCodec 复现材料:论文中详细描述了实验设置、模型架构细节和所有训练超参数,但未提供模型检查点或训练脚本等具体复现材料。 论文中引用的开源项目: DAC: https://github.com/descriptinc/descript-audio-codec BigCodec: https://github.com/Aria-K-Alethia/BigCodec WavTokenizer: https://github.com/jishengpeng/WavTokenizer FlowDec: https://github.com/facebookresearch/FlowDec 🏗️ 方法概述和架构 CFMDCTCodec是一个完全在修改离散余弦变换(MDCT)域工作的两阶段神经语音编解码框架,旨在极低比特率下实现高质量重建。其核心架构如图1所示,包含两个紧密耦合的模块:单码本MDCT谱编解码器和噪声先验感知的CFM-based MDCT谱增强器。 ...

2026-05-27 · 更新于 2026-06-19 · 3 min · 480 words

Continual Speaker Identity Unlearning with Minimal Interference

📄 Continual Speaker Identity Unlearning with Minimal Interference #语音合成 #自监督学习 #持续学习 🔥 8.3/10 | 前25% | #语音合成 | #自监督学习 | #持续学习 | arxiv 学术质量 6.1/7 | 影响力 1.7/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 Jinju Kim (成均馆大学), Yunsung Kang (成均馆大学), Gyeong-Moon Park (高丽大学), Jong Hwan Ko (成均馆大学)。机构为 Sungkyunkwan University 和 Korea University。 💡 毒舌点评 这篇论文针对“被遗忘权”在零样本语音克隆模型中的实际部署痛点——遗忘请求是顺序到达且数据必须删除——提出了一个精巧的解决方案。优点是问题定义精准且真实,直击先前工作的“一刀切”假设的软肋,并首次定义了“灾难性再学习”这一关键失败模式。方法设计上,CORTIS(对比Fisher信息掩码+累积正交子空间投影)逻辑清晰,两个组件分工明确(定位参数+约束方向),并通过消融实验验证了必要性。实验基线比较合理,展示了方法在3-5次连续请求下的有效性。但必须指出,论文的“新颖性”在一定程度上是“问题新颖性”和“应用新颖性”的结合,而非一个全新的方法论突破。将正则化微调和梯度投影这两个在持续学习中已有的技术进行特定场景的组合应用,工程价值高于理论价值。此外,所有实验都在单一模型(VoiceBox)上进行,声称的“架构无关性”缺乏实证支撑,这在NeurIPS/ICML级别的会议上会被视为一个显著的弱点。 📌 核心摘要 论文正式定义了在现实部署约束(遗忘请求顺序到达且遗忘后数据立即删除)下的零样本文本转语音模型“连续说话人身份遗忘”问题。作者指出,直接顺序应用现有遗忘方法会导致“灾难性再学习”,即新的遗忘操作会使先前已遗忘的说话人身份复活。为解决此问题,提出了CORTIS框架,它包含两个互补组件:1)基于对比Fisher信息的参数掩码,将每个遗忘步骤的更新精确定位到与当前目标说话人最相关的参数子集,同时排除对保留集和先前遗忘说话人重要的参数;2)累积正交子空间投影,将更新梯度投影到先前所有遗忘步骤所用梯度的正交补空间,从方向上阻止参数沿先前遗忘路径漂移。在VoiceBox模型上的实验表明,CORTIS是唯一能在3次(及扩展到5次)连续遗忘请求后,使所有先前遗忘的说话人相似度保持在低位(平均降低75%),同时保持保留集性能具有竞争力的方法。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集:论文中提及使用了LibriHeavy(预训练)、LibriSpeech test-clean(评估)和特定的遗忘说话人子集,但未提供这些数据集的下载链接。 Demo:提供了演示网站 https://cumulativeortis.github.io/。 复现材料:论文在附录中提供了详细的CORTIS实现细节(附录B)、VoiceBox骨干网络实现(附录C)、所有基线的实现细节(附录D)以及评估用的说话人相似度分布(附录E),为复现提供了理论上的细节支持。 论文中引用的关键开源项目:VoiceBox、WavLM-TDCNN、Diffwave vocoder、HuBERT-Large ASR模型,但论文中均未提供这些项目的具体链接。 🏗️ 方法概述和架构 CORTIS框架旨在解决连续遗忘场景下的“灾难性再学习”问题,其核心思想是在参数定位和方向约束两个层面同时施加保护。整体流程如论文图2所示,主要分为两步: ...

2026-05-27 · 更新于 2026-06-19 · 1 min · 126 words

CosyEdit2: Speech-Editing-Oriented Reinforcement Learning Unlocks Better Zero-Shot TTS

📄 CosyEdit2: Speech-Editing-Oriented Reinforcement Learning Unlocks Better Zero-Shot TTS #语音编辑 #强化学习 #多模态模型 #自回归模型 #语音识别 #数据增强 ✅ 7.2/10 | 前25% | #语音编辑 | #强化学习 | #多模态模型 #自回归模型 | arxiv 学术质量 7.2/7 | 影响力 7.5/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 Junyang Chen (陈俊阳), Yuhang Jia (贾宇航), Hui Wang (王辉), Jiaming Zhou (周佳明), Yongchang Gan (甘永昌), Yong Qin (覃勇)。 机构:南开大学计算机科学学院(1),南开大学人工智能学院(2)。通讯作者:chenjunyang@mail.nankai.edu.cn, qinyong@nankai.edu.cn。第一作者与通讯作者标注。 💡 毒舌点评 摘要写得像广告文案,充满了“substantially”、“deeper”、“unlocks”这类形容词。方法部分看似复杂,但核心就是给GRPO换了一套更适合编辑任务的奖励函数。实验结果在多个benchmark上看起来都不错,但仔细一想,和SOTA的差距有时只有零点几个百分点,而且很多baseline其实并不强。最有趣的是,这篇论文发现一个编辑模型居然能提升其基础TTS模型的性能,这到底是编辑任务的特殊性,还是仅仅因为用更多数据(虽然是构造的)和RL微调了一遍LLM?此外,声称“首个编辑导向的奖励组合”需要打上问号,因为相关工作ECPA已经用了GRPO,奖励设计思路有重叠。代码、模型权重均未开源,复现门槛极高。 📌 核心摘要 本文提出了CosyEdit2,一个基于两阶段后训练框架的语音编辑模型。第一阶段使用监督微调(SFT)在配对编辑数据上初始化模型能力。第二阶段引入编辑导向的组相对策略优化(GRPO),核心创新在于使用无需目标语音的构造数据(将任意TTS语料转换为编辑提示)和针对编辑任务设计的多奖励信号(内容正确性、声学保持、说话人一致性)对语言模型进行强化学习。实验表明,该模型在语音编辑任务上达到了与强基线可比或更优的性能,尤其在声学一致性方面表现突出,并且其获得的强化学习优化能力能够意外地提升基础模型的零样本TTS性能,揭示了两个任务间的相互促进关系。 🔗 开源详情 代码:论文未提供CosyEdit2的代码仓库链接。演示页面 https://cjy1018.github.io/CosyEdit2 主要用于展示音频样本,未提及包含代码。 模型权重: CosyEdit2模型:论文中未提供CosyEdit2(包括各阶段微调后的LLM、Flow、BigVGAN)的权重下载链接。 CosyVoice2模型:作为基础模型,其链接为 https://huggingface.co/FunAudioLLM/CosyVoice2-0.5B。 数据集: GigaEdit-S:阶段一训练数据,源自GigaSpeech-S,未提供独立下载链接。 LibriTTS / LibriTTS-R / YODAS2:用于训练BigVGAN的混合数据集。论文引用了LibriTTS,但提供的Hugging Face链接 https://huggingface.co/datasets/keithito/lj_speech 实际是LJ Speech,并非LibriTTS,此处表述有误。YODAS2和Ming-Freeform-Audio-Edit等评估集均未提供链接。 VoiceBank-DEMAND-16k:用于声码器重建实验,链接为 https://huggingface.co/datasets/JacobLinCool/VoiceBank-DEMAND-16k。 SEED-TTS-EVAL:评估基准,链接为 https://github.com/bytedance/Seed-TTS-Eval。 Demo:提供了音频样本演示页面 https://cjy1018.github.io/CosyEdit2。 复现材料: 训练细节与模型配置:附录B-D详细描述了架构、超参数和训练流程,是复现的关键信息。 评估脚本与指标:提及使用了评估脚本和指标(WER, SS, DNSMOS, MCD),但未提供具体评估代码。 论文中引用的开源项目:包括CosyVoice2、Qwen2.5、WhisperX、BigVGAN(提供链接 https://huggingface.co/nvidia/bigvgan_v2_22khz_80band_256x)、nlpaug、RoBERTa、pymcd等。 🏗️ 方法概述和架构 CosyEdit2构建于CosyVoice2的语音-语言建模骨干之上,将其零样本提示式接口重构为语音编辑任务。其架构包含五个核心模块:文本分词器、语音分词器、自回归文本-语音语言模型(LLM)、条件流匹配模型(Flow)和BigVGAN声码器。 ...

2026-05-27 · 更新于 2026-06-19 · 2 min · 425 words

cSTMM: A Unified Complex Spherical Student's Mixture Model for Directional Statistics in Mask-Based Blind Speech Separation

📄 cSTMM: A Unified Complex Spherical Student’s \(t\) Mixture Model for Directional Statistics in Mask-Based Blind Speech Separation #语音分离 #概率图模型 ✅ 7/10 | 前50% | #语音分离 | #概率图模型 | arxiv 学术质量 5/7 | 影响力 1/2 | 可复现性 1/2 | 置信度 高 👥 作者与机构 论文标题为 cSTMM: A Unified Complex Spherical Student's tt Mixture Model for Directional Statistics in Mask-Based Blind Speech Separation。作者为 Nobutaka Ito。论文中未明确说明作者所属机构。 💡 毒舌点评 这篇工作试图用一个统一模型 cSTMM 来整合 cACGMM、cBMM、cWMM 这三个经典的方向统计混合模型,动机是合理的。然而,它的“统一”主要停留在理论公式层面,实验部分却只和一个最强基线 cACGMM 比,而且比赢的方式非常“取巧”——通过在开发集上暴力搜索出一个固定的 \(\nu=1\),然后在干净、无噪、已知混响的特定测试集上获得了微弱的平均提升。这就像宣称发明了一款能变形为轿车、卡车和摩托车的通用载具,但测试只证明了在铺装路面上,它比当前最好的轿车省了那么一点油。核心贡献(统一框架)与核心验证(性能提升)之间存在显著的脱节。对于声称提供“更灵活、统一的模型选择框架”的工作,其本身却没有提出任何自适应的 \(\nu\) 选择策略,这多少有点讽刺。工程细节(如计算复杂度、收敛保证)的缺失,也让这篇理论看起来有些“悬浮”。 ...

2026-05-27 · 更新于 2026-06-19 · 4 min · 716 words

Decoding Stimulus Reconstruction-Based Auditory Attention Robustly in Unbalanced EEG Datasets

📄 Decoding Stimulus Reconstruction-Based Auditory Attention Robustly in Unbalanced EEG Datasets 🔥 8/10 | 前25% | #交叉验证 | arxiv 学术质量 5.2/7 | 影响力 1.2/2 | 可复现性 1.6/2 👥 作者与机构 通讯作者及单位未在分析文本中直接说明。论文作者为Yuanming Zhang, Yayun Liang, Zhibin Lin, Jing Lu,隶属于南京大学现代声学国家重点实验室及南京大学-地平线智能音频实验室。 💡 毒舌点评 这篇论文像个谨慎的实验室技术员,发现了一个大家可能都没太在意但确实存在的“数据卫生”问题——你的数据集偏科(不平衡),可能会让AI模型在“考试”(评估)时作弊,考出虚高的分数。他们定义了“偏科指数”(BI),并设计了一个更严格的“防作弊监考规则”(LOPEO)。问题在于,他们只找了一个“学霸”(VLAAI模型)来测试这套规则,而且只在三场“模拟考”(三个公开数据集)上验证。这就像为了证明新校规有效,只监控了一个尖子班的一次考试。虽然确实抓到了作弊(性能高估),但能否推广到所有学生(其他模型)和所有考试场景(分类范式、线性模型)?未知。另外,对于多说话人的复杂考场(NJU cEEGrid),他们的“防作弊规则”不得不打折(使用LOEO),导致成绩一落千丈,这恰恰暴露了其方法的适用边界。总的来说,这是一项扎实但视野受限的“审计工作”,指出了领域内一个需要正视的问题,但提供的解决方案像一把专配的钥匙,而非通用万能锁。论文本身是领域内一份合格的“评估规范提案”,但离里程碑式的突破还有距离。 📌 核心摘要 本文针对基于刺激重建的脑电图(EEG)听觉注意力解码(AAD)中,数据集平衡性对性能评估影响未知的问题展开研究。作者定义了平衡指数(BI)来量化数据集平衡性,并在KUL、DTU和NJU cEEGrid三个公开数据集上构建了平衡与不平衡条件。通过使用VLAAI模型进行实验,作者验证了其核心假设:在不平衡数据集(BI=1)上,采用常规留一试次(LOTO)交叉验证会导致解码准确率被显著高估,其原因在于模型可能学习了刺激身份的特异性特征而非真正的注意力神经信号。为解决此问题,本文提出了一种更严格的交叉验证策略——留一配对包络(LOPEO),其强制要求测试集中的“被注意-未被注意”刺激对在整个训练和验证集中完全缺席。实验证实,LOPEO能有效抑制高估现象,使不同平衡性数据集上的性能趋于一致。对于刺激对不固定的三说话人数据集,作者采用了约束较弱的留一包络(LOEO)变体。本文的贡献包括定义了EEG-AAD的数据集平衡性指标,实证验证了不平衡数据集导致的性能高估,并提出了LOPEO作为更可靠的评估框架。作者最后对未来EEG-AAD数据集的设计提出了平衡分配刺激等具体建议。 🔗 开源详情 代码:论文中提供了代码仓库链接:https://github.com/SeanZhang99/SuperHugeAAD 。该仓库是基于PyTorch和PyTorch Lightning构建的Python包,用于管理训练和评估。 模型权重:论文中未提及模型权重是否开源。 数据集:论文中引用了三个公开的EEG-AAD数据集,具体链接如下: KUL:原始数据集(Das et al., 2020):https://doi.org/10.5281/zenodo.3997352;大规模数据集(Bollens et al., 2023):https://doi.org/10.48804/K3VSND。 DTU:https://doi.org/10.5281/zenodo.1199011。 NJU cEEGrid:https://doi.org/10.5281/zenodo.17393865。 另一个引用的NJU数据集:https://doi.org/10.5281/zenodo.7253438。 Demo:论文中未提及。 复现材料:论文中提及“完整的训练脚本和日志将在论文被接受后公开”,但未提供具体链接。实验的超参数设置与VLAAI原始配置一致。 论文中引用的开源项目: VLAAI:一种用于从EEG解码语音包络的深度神经网络,引用的论文DOI为:https://doi.org/10.1038/s41598-022-27332-2。 Adam优化器:引用的arXiv论文链接:https://arxiv.org/abs/1412.6980。 🏗️ 方法概述和架构 本文的核心方法框架围绕评估和解决刺激重建型DNN在不平衡EEG-AAD数据集上的性能高估问题展开,主要包含三个关键组件:数据集平衡性量化、数据集构建、以及提出LOPEO交叉验证策略。 ...

2026-05-27 · 更新于 2026-06-19 · 3 min · 516 words

DuoGesture: Neuro-Inspired and Biomechanically Informed Dual-Stream Co-Speech Gesture Generation

📄 DuoGesture: Neuro-Inspired and Biomechanically Informed Dual-Stream Co-Speech Gesture Generation #多模态模型 #变分自编码器 #正则化微调 #自回归模型 ✅ 7.5/10 | 前25% | #语音合成 | #变分自编码器 | #多模态模型 #正则化微调 | arxiv 学术质量 5.1/7 | 影响力 1.2/2 | 可复现性 1.2/2 | 置信度 高 👥 作者与机构 Ferdinand Paar,Max Planck Institute for Psycholinguistics,Radboud University,Nijmegen;Lanmiao Liu,Utrecht University,Max Planck Institute for Psycholinguistics;Aslı Özyürek,Radboud University,Nijmegen,Max Planck Institute for Psycholinguistics;Serge Thill,Radboud University,Nijmegen,Donders Institute;Esam Ghaleb,Max Planck Institute for Psycholinguistics。 💡 毒舌点评 一篇将认知神经科学与生物力学启发的模型应用于协同语音手势生成的扎实工作,提出了一个有趣且合理的双流分解框架。其核心创新在于将手势显式地分解为语义流和节拍流,并为每个流设计了专门的条件化和正则化机制。然而,其贡献主要集中在视觉动画生成领域,对“语音”本身的处理深度有限,本质上是将语音作为条件信号。实验结果在特定指标(FGD)上声称取得最佳,但在其他指标上表现平平,且作者也坦诚了泛化性验证的缺失。代码与权重的未开源,以及对预训练文本到运动(Text-To-Motion)模型的强依赖,严重限制了其可复现性和对社区的直接贡献。总体而言,是一篇不错的视觉/多模态论文,但对纯语音处理领域的读者来说,影响力有限。 📌 核心摘要 DuoGesture 提出了一种受神经科学启发并结合生物力学信息的双流模型,用于协同语音手势生成。该模型将生成过程分解为语义流(负责基于词汇内容的手势)和节拍流(负责与语音韵律对齐的节奏性手势)。语义流通过运动语义条件化(MGSC)进行调节,该模块利用预训练的 Text-To-Motion 模型表示,将语义线索与运动动力学对齐,以改善长尾词汇手势触发的语义表达。节拍流则通过惯性节拍先验(IBP)进行正则化,该先验基于人体测量学数据对关节链速度一致性进行约束,旨在减少抖动并提高节奏连贯性。两个流由语义变分信息瓶颈(S-VIB)协调,这是一个帧级随机门控机制,学习何时激活语义流,并避免门控坍缩为单一路径。在 BEAT2 数据集上的实验表明,DuoGesture 在 Fréchet Gesture Distance (FGD) 这一主要分布度量上取得了最佳结果,同时在节拍对齐(BA)、多样性等辅助指标上保持了竞争力。消融研究证实了三个模块的互补作用。 ...

2026-05-27 · 更新于 2026-06-19 · 4 min · 708 words

Eroding Trust in Real Speech: A Large-Scale Study of Human Audio Deepfake Perception

📄 Eroding Trust in Real Speech: A Large-Scale Study of Human Audio Deepfake Perception 🔥 8.2/10 | 前50% | arxiv 学术质量 4.9/7 | 影响力 1.8/2 | 可复现性 1.5/2 | 置信度 高 👥 作者与机构 Nicolas M. Müller (Fraunhofer AISEC & Resemble AI, Germany), Wei Herng Choong (Fraunhofer AISEC, Germany) 💡 毒舌点评 这是一篇精心设计的用户研究,规模在音频感知领域堪称空前,核心洞察——“怀疑转变”——也足够有趣且及时。它像一面镜子,照出了技术进步带来的讽刺性社会后果:我们花了大力气让伪造更逼真,结果却让真实音频本身变得可疑了。然而,这篇论文的“软肋”也很明显:它本质上是一个相关性观察研究,而非严格控制的因果实验。结论的推导略显跳跃(“怀疑转变”直接归因于TTS技术进步),且方法论存在若干无法忽视的瑕疵(自愿样本、在线实验控制弱)。作者团队在局限性上还算诚实,但作为顶会论文,在如何更严格地验证这一核心主张上,着墨不足。它更像是一份高质量、高规格的“行业报告”或“社会观察”,而非一篇在方法论上无懈可击的科研论文。 📌 核心摘要 本文报告了迄今为止规模最大的关于人类感知音频深度伪造的听力研究。研究者将一项2021年的基线研究(13种攻击,472名参与者)扩展到2026年(138种攻击,1,768名参与者,35,532个判断),核心发现是一个“怀疑转变”:人类对虚假音频的检测准确率基本稳定(72.9% → 71.2%),但对真实音频的准确率显著下降(72.7% → 64.1%)。这表明,随着合成技术的进步,人类对真实语音的信任正在被侵蚀。研究还分析了不同TTS架构(商业API、自回归语言模型最难检测)和人口统计因素的影响,并报告了一个作为参考点的机器学习检测器(准确率94.5%)。论文强调,现代深度伪造的主要社会威胁可能并非单纯的欺骗,而是对真实音频普遍信任的破坏。 🔗 开源详情 代码:论文未提及提供用于数据分析、图表生成或主动学习模拟的代码。 模型权重:论文未提及提供其内部使用的基于Wav2Vec 2.0和AASIST的机器学习检测器的权重或模型结构细节。 数据集: 主数据集:研究发布了匿名化的实验数据集至HuggingFace:https://huggingface.co/datasets/mueller91/human-perception-audio-deepfake-2026。该数据集包含35,532行数据,每行记录了匿名参与者ID、轮次、音频文件名、攻击ID、真实标签、用户判断和ML检测器判断。人口统计信息未包含以防再识别。 构建数据集的来源:真实样本来自LJSpeech、In-The-Wild语料库、ASVspoof 5。伪造样本来自ASVspoof 5、MLAAD(英语子集)。 Demo:提供了在线听力测试平台链接:https://deepfake-total.com/spot_the_audio_deepfake 复现材料:论文未提及提供训练配置、环境依赖或完整的分析脚本以复现所有结果(尤其是涉及ML检测器的部分)。 论文中引用的开源项目: 语音生成模型:Tacotron 2, VITS, F5-TTS, CosyVoice, Grad-TTS, StyleTTS 2, VALL-E, Bark, Chatterbox, OpenVoice V2。 检测模型:RawNet2, Wav2Vec 2.0, AASIST。 数据集与挑战:ASVspoof 2019 LA, ASVspoof 5, MLAAD。 商业与工具:Resemble AI, ElevenLabs。 🏗️ 方法概述和架构 本研究采用大规模在线用户研究方法,核心架构是一个公开可访问的听力游戏平台。其设计旨在系统性地评估人类对音频深度伪造的感知能力,并与机器学习检测器性能进行对比。具体架构和流程如下: ...

2026-05-27 · 更新于 2026-06-19 · 2 min · 298 words

Exploration of Perceptual Speech Features for Clinical Decision-Support in Mental Health Care

📄 Exploration of Perceptual Speech Features for Clinical Decision-Support in Mental Health Care #语音情感识别 📝 5/10 | 前50% | #语音情感识别 | #语音情感识别 | arxiv 学术质量 3/7 | 影响力 1/2 | 可复现性 1/2 | 置信度 中 👥 作者与机构 Vassilis Lyberatos, Edmund G. Dervakos, Eleni Adamidi, Athanasios Voulodimos, Giorgos Stamou。所属机构为雅典国立技术大学(NTUA)和PsychNow。 💡 毒舌点评 一篇典型的“系统集成”式工作,将现有工具箱里的声学(Parselmouth)和语言学(spaCy, Stanza)特征提取器与可解释的XGBoost模型拼接起来,在多个数据集上“广撒网”式地验证了一遍。其核心价值在于提供了一个透明、模块化的分析流水线,而非提出任何新理论或突破性算法。然而,中等的性能数字(AUC 0.6-0.87)和明显的泛化局限性(尤其在真实世界数据集上),使其更像是一份详尽的领域调研和基线报告,而非一篇能推动该领域边界的NeurIPS/ICML论文。最大的软肋是那个自研的讽刺检测模型(准确率~70%)及其生成的特征被直接混入所有分析,其噪声和偏差污染了其他特征评估的可靠性,这是方法上的一个重大隐患。 📌 核心摘要 该论文针对传统心理健康评估的主观性问题,提出了一套系统性的、基于感知语音特征的分析框架,旨在为临床决策提供客观、可解释的支持。研究从语音和转录文本中提取了82个涵盖韵律、音质、词汇、句法、语义和语用(包括讽刺)的可解释特征。在五个涵盖压力、抑郁、焦虑和注意力相关任务的数据集(包括公开和私有数据集)上,应用统计分析(t检验, FDR校正)和可解释机器学习(XGBoost, SHAP, LIME)来分析特征与症状的关联,并进行了特征消融研究。研究发现,特定的语音特征(如shimmer、jitter、停顿模式、词汇丰富度、情感极性、图结构特征)与不同心理症状存在潜在关联,但预测性能在数据集间表现不一。论文强调了该框架的透明性和临床可解释性,同时指出从语音准确预测精神病理仍具挑战性,结果受数据集异质性和测量工具影响。 方法概��和架构 本研究提出一个以“感知特征”为中心、结合传统统计与可解释机器学习的端到端分析框架,用于语音心理健康评估。方法设计核心原则是优先提取临床可解释特征。整体架构可分为两个主要阶段:多模态特征提取与统计-机器学习分析。 特征提取模块: 该模块从原始音频和转录文本中并行提取两大类、共82个可解释特征。 声学特征提取:使用Parselmouth(Praat的Python接口)处理预处理后的语音(转单声道,16kHz重采样,幅度归一化)。提取的特征分为三组: 韵律/流利度特征:包括基频统计量(F0_mean, F0_var等)、强度统计量(Intensity_mean, Intensity_std)、停顿特征(计数、时长、占比)、发音与说话速率、节律变异性指数(PVI)和语音熵等。 嗓音质量特征:包括Jitter_local(频率微扰)、Shimmer_local(振幅微扰)和Harmonics-to-Noise Ratio(谐噪比)等,用于评估声带振动的稳定性。 心理语言学特征:通过预训练的HuBERT情感识别模型(在IEMOCAP上微调)提取情感概率(中性、快乐、愤怒、悲伤)。此外,通过在MUStARD数据集上微调一个多模态讽刺检测模型(结合BERT文本编码器和Wav2Vec2音频编码器,准确率约70%),为每个样本生成一个讽刺概率sarcasm_prob。 语言学特征提取:从转录文本出发,使用spaCy和Stanza进行分词、词性标注、依存句法分析和成分句法分析。特征分为四组: 词汇特征:包括词汇计数、词汇多样性指标(如type_token_ratio, MATTR, brunet_index)、内容词-功能词比率、代词比率、形态丰富度等。 句法特征:包括平均句长、从句比率、依存/成分树深度、被动语态比率,以及基于语言图(将句子中单词或POS标签作为节点,边表示共现或依存关系)的结构特征(如节点/边数量、循环计数、密度、直径、平均最短路径等),用以捕捉话语的重复性和结构模式。 语义特征:使用Sentence-BERT模型计算句子嵌入,进而估计话语连贯性(一阶、二阶余弦相似度)、连贯度(词重叠率)和句子重复率。 心理语言学特征:使用VADER工具分析情感极性(积极、消极、中性分数和综合分)。 分析框架模块: 该模块结合推断统计和可解释机器学习,以探索性建模为导向。 统计分析:首先使用独立样本t检验对参与者亚组(根据PHQ-9, GAD-7, ASRS临床阈值划分)的特征分布进行组间比较,并对p值进行Benjamini-Hochberg错误发现率校正,以识别显著差异特征。 可解释机器学习建模:使用XGBoost分类器建立特征与心理健康类别(二元分类)之间的非线性关联模型。选择XGBoost是因其在表格数据上的良好性能及与特征级解释的兼容性。 事后解释:通过SHAP(基于Shapley值)和LIME(局部可解释模型-不可知解释)对XGBoost模型进行解释。LIME解释跨所有实例聚合以生成全局特征影响模式;SHAP摘要图用于可视化特征效应的整体分布、大小和方向。此外,还生成了部分依赖图(PDP)以展示特征对预测的边际效应。 特征消融研究:为评估不同特征组的相对贡献,系统地使用单个特征组(如仅韵律、仅嗓音质量)训练XGBoost模型,并报告跨数据集的平均AUC-ROC,以识别最具信息量的特征类别。 整个框架的数据流为:原始音频/文本 -> 并行特征提取(声学82个 + 语言学分组特征) -> 特征聚合(跨语段/任务到被试级) -> 统计组间比较 -> XGBoost分类建模 -> SHAP/LIME/PDP解释 -> 特征消融分析。其设计动机在于构建一个透明、模块化、可复用的分析流水线,将传统的信号处理/NLP特征与前沿的可解释AI技术相结合,服务于临床假设生成和模型可解释性需求,而非追求端到端的黑盒预测性能。 ...

2026-05-27 · 更新于 2026-06-19 · 3 min · 564 words

FalAR: A Large-scale Speaker-Annotated European Portuguese Speech Corpus of Parliamentary Sessions

📄 FalAR: A Large-scale Speaker-Annotated European Portuguese Speech Corpus of Parliamentary Sessions #语音识别 #预训练 #低资源 📝 5.5/10 | 后50% | #语音识别 | #预训练 | #低资源 | arxiv 学术质量 5.5/7 | 影响力 7.0/2 | 可复现性 0.0/2 | 置信度 高 👥 作者与机构 作者:Francisco Teixeira, Carlos Carvalho, Mariana Julião, Catarina Botelho, Rubén Solera-Ureña, Sérgio Paulo, Thomas Rolland, Ben Peters, Isabel Trancoso, Alberto Abad 机构:INESC-ID, Lisbon, Portugal; Instituto Superior Técnico, Universidade de Lisboa, Portugal 💡 毒舌点评 这篇工作像是为一场特定比赛精心准备的“家酿”食谱:食材(议会录音)很充足,流程(数据处理)写得很细,最后端出了一个看起来量足(5800小时)的“菜”(语料库)。但问题在于,作者只跟你比较了自己以前用小锅做(425小时)的菜,就宣称新菜能让下游模型性能提升14%——这就像一个马拉松选手只和自己的弟弟赛跑就宣称破了世界纪录。在2025年,你不跟Whisper、XLS-R这些“市面大厨”的作品比一比,怎么说服大家你的“菜”真的有独特价值?更别提你吹了半天“说话人标注”这个“独家秘方”,结果连个像样的说话人识别效果都没展示。论文像一份详细的仓库盘点清单,价值在于“我有这么多货”,而不是“我用这些货做了多厉害的菜”。 ...

2026-05-27 · 更新于 2026-06-19 · 2 min · 281 words