Low-Cost Detection of Degraded Voice Clones via Source-Output Acoustic Consistency

📄 Low-Cost Detection of Degraded Voice Clones via Source-Output Acoustic Consistency #语音伪造检测 #语音质量评估 #信号处理 #医疗音频 📝 5.3/10 | 前50% | #语音伪造检测 | #信号处理 | #语音质量评估 #医疗音频 | arxiv 学术质量 5.3/8 | 影响力 0.4/2 | 可复现性 0.3/1 | 置信度 高 👥 作者与机构 第一作者:Jana Shokr 通讯作者:论文中未明确说明通讯作者 作者列表:Jana Shokr, Minos Papadopoulos, Jeremy Cooperstock, Pavo Orepic(论文中未提及任何作者机构信息) 💡 毒舌点评 这篇论文精准地瞄准了临床AVATAR疗法中一个真实且关键的痛点:需要快速剔除明显劣质的合成语音以保护治疗沉浸感,并提出了一个逻辑自洽、物理可解释的检测框架。然而,其核心短板在于实验的“小作坊”规模(总共仅94个样本)和与时代脱节的评估方式——在学习型方法层出不穷的今天,仅用两个简单特征和阈值与“人类标签”对比,缺乏与任何现有语音质量评估或伪造检测模型的基准较量,说服力大打折扣。 📌 核心摘要 本文针对临床语音治疗(如AVATAR疗法)中需要快速、自动检测明显劣质的声音克隆输出这一实际问题,提出了一种低成本的检测方法。核心方法是基于语音生成的源-滤波器模型,检验合成输出与输入声源在几个低维、可解释的声学特征上的一致性,具体使用了基频(f0)、谐波噪声比(HNR)和声道长度(VTL)。研究者在人类标注的、由两种不同声码器(WaveRNN和HiFi-GAN)生成的合成语音样本上,采用了一种非对称阈值分类方法进行评估。实验结果显示,在WaveRNN上,f0和HNR均达到85.2%的准确率;在HiFi-GAN上,HNR达到80.0%的准确率,f0为77.5%。分析表明,f0和HNR能捕获部分不同的失效模式,具有互补性。该研究的实际意义在于为高风险应用场景提供了一种快速、可解释的第一道过滤器,以提升系统的可靠性。主要局限性包括数据集规模较小、特征集有限,且未与更复杂的自动化质量预测模型进行直接对比。 特征 声码器 负阈值 正阈值 准确率(%) 敏感性(%) 特异性(%) TP TN FP FN f0 WaveRNN -11.2 32.6 85.2 82.0 89.0 22 24 3 5 HNR WaveRNN -1.7 1.2 85.2 82.0 89.0 22 24 3 5 VTL WaveRNN -1.4 10.7 64.8 60.0 70.0 16 19 8 11 f0 HiFi-GAN -19.3 50.1 77.5 60.0 95.0 12 19 1 8 HNR HiFi-GAN -0.9 3.4 80.0 90.0 70.0 18 14 6 2 VTL HiFi-GAN -1.0 8.7 67.5 65.0 70.0 13 14 6 7 图1展示了f0, HNR, VTL三个特征在输入-输出空间中的分布。图中清晰显示,标记为“Good”的样本(蓝色)紧密围绕在恒等线(y=x)周围,而“Bad”样本(橙色)则更多地分布在优化后的阈值带之外,直观地证明了所选特征区分好坏样本的能力。 ...

2026-05-12 · 更新于 2026-05-19 · 3 min · 444 words

Speech-based Psychological Crisis Assessment using LLMs

📄 Speech-based Psychological Crisis Assessment using LLMs #语音情感识别 #大语言模型 #数据增强 #多任务学习 #医疗音频 📝 5.8/10 | 前25% | #语音情感识别 | #大语言模型 | #数据增强 #多任务学习 | arxiv 学术质量 5.8/8 | 影响力 1.2/2 | 可复现性 0.7/1 | 置信度 高 👥 作者与机构 第一作者:Terumi Chiba(清华大学) 通讯作者:Ziyun Cui(北京大学回龙观临床医学院),Chao Zhang(清华大学,世界卫生组织自杀预防研究与培训合作中心) 作者列表:Terumi Chiba(清华大学)、Yang Luo(清华大学)、Ziyun Cui(北京大学回龙观临床医学院)、Yongsheng Tong(清华大学)、Chao Zhang(清华大学,世界卫生组织自杀预防研究与培训合作中心) 💡 毒舌点评 论文提出的“副语言注入”方法,试图将语音中的情感线索显式文本化以供LLM处理,思路清晰,且针对临床场景(心理热线)的定位明确。然而,核心方法(语音到文本的描述转换)并非完全新颖,且其实验的最大软肋在于数据集规模极小(154例),这使得所有“显著”的结论都蒙上了一层“小样本巧合”的阴影。在如此有限的数据上,模型的高分有多少是源自方法本身的优越性,又有多少是源于对特定样本的过拟合,论文未能给出足够令人信服的论证。此外,对推理链生成这一辅助任务所依赖的外部教师模型(gpt-oss-120b)的潜在偏差,缺乏深入的风险讨论。 📌 核心摘要 问题:心理支持热线的危机级别评估依赖于人工操作员,存在主观性强、资源有限等问题。现有基于语音的研究多集中于二分类的自杀风险评估,对更细分的三类别心理危机水平评估探索不足,且常忽略语音中的副语言信息(如哭泣、颤抖)。 方法核心:提出一个基于LLM的框架,核心是“副语言注入”和“推理增强训练”。副语言注入利用SpeechLLM(Step-Audio-R1)从语音中提取情感化非语言线索(如“哭泣声”),并遵循临床创伤评估表(TAF)的情感领域标准,将这些线索以结构化文本形式注入ASR转录文本。推理增强训练则让模型在分类的同时,生成符合TAF框架的诊断推理链作为辅助任务,以提升分类性能和可解释性。 创新点:与已有方法相比,新在:(1) 明确地将临床评估框架(TAF)深度融入副语言特征提取(指导SpeechLLM)和推理链构建,使模型行为更贴合临床实践;(2) 提出将副语言信息显式转化为文本描述(“注入”)而非在音频层面端到端建模的策略,并验证其优于直接使用SpeechLLM;(3) 结合数据增强(将长通话切分为连续片段)以缓解小样本问题。 实验结果:在154例真实中文心理热线通话数据集上进行5折交叉验证,进行三项分类(无危机、低危机、中高度危机)。最终系统达到宏F1分数0.802,准确率0.805,显著优于所有基线。关键消融实验显示,移除数据增强、副语言注入、辅助损失分别导致宏F1下降10.0%、4.1%和1.7%。关键对比如下表所示: 方法 准确率 (Mean ± Std) 宏F1分数 (Mean ± Std) Zero-shot LLM 0.455 0.371 OpenSMILE (SVM) 0.486 ± 0.053 0.471 ± 0.062 SpeechLLM (Qwen2.5-Omni-7B) 0.564 ± 0.075 0.551 ± 0.079 本文方法 (Ours) 0.805 ± 0.061 0.802 ± 0.062 实际意义:为利用LLM处理心理热线语音数据提供了一种可解释、可整合临床知识的技术路径,有望辅助操作员进行更一致、客观的危机分级,优化热线资源配置。 主要局限性:数据集规模极小(154例),可能限制了模型泛化性的验证;方法依赖于外部的SpeechLLM(Step-Audio-R1)和用于生成推理链的教师模型(gpt-oss-120b);缺乏在跨机构、跨语言数据上的外部验证;代码和数据集均未开源。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中提供了以下模型的 HuggingFace 链接: ASR模型: Paraformer-zh: https://huggingface.co/funasr/paraformer-zh 语音模型 (用于副语言特征提取): Step-Audio-R1.1: https://huggingface.co/stepfun-ai/Step-Audio-R1.1 基础大语言模型 (微调目标): Qwen2.5-7B-Instruct: https://huggingface.co/Qwen/Qwen2.5-7B-Instruct 基线大语言模型: gpt-oss-120b: https://huggingface.co/openai/gpt-oss-120b 基线语音大语言模型: Qwen2.5-Omni-7B: https://huggingface.co/Qwen/Qwen2.5-Omni-7B 数据集:论文中提及使用了包含 154 个通话录音(总时长约 100 小时)的中国心理支持热线数据集,但论文中未提及该数据集的公开获取链接或开源协议。 Demo:论文中未提及。 复现材料:论文中提供了详细的实验配置信息,可用于复现。具体包括:5折交叉验证设置、使用 LoRA (rank=8, α=64) 对 Qwen2.5-7B-Instruct 进行微调、训练细节(AdamW优化器,学习率 3×10⁻⁵,余弦退火调度,有效批量大小16)、数据增强方法(将通话音频分割为固定时长片段)。但未提供预训练检查点或打包的复现材料。 论文中引用的开源项目: OpenSMILE:用于提取声学特征 (eGeMAPSv02)。 项目链接:https://github.com/audeering/opensmile-python emotion2vec:用于情感嵌入提取。 模型链接:https://huggingface.co/emotion2vec/emotion2vec_plus_large gpt-oss-120b:用于生成诊断推理链的监督信号。 模型链接:https://huggingface.co/openai/gpt-oss-120b Qwen2.5-Omni-7B:作为SpeechLLM基线。 模型链接:https://huggingface.co/Qwen/Qwen2.5-Omni-7B 🏗️ 方法概述和架构 ...

2026-05-12 · 更新于 2026-05-19 · 3 min · 451 words

语音/音频论文速递 2026-05-12

语音/音频论文速递 2026-05-12 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 3篇 ███ #音乐生成 2篇 ██ #语音合成 2篇 ██ #语音增强 2篇 ██ #音频深度伪造检测 2篇 ██ #基准测试 2篇 ██ #语音质量评估 1篇 █ #音频编码 1篇 █ 📊 论文评分排行榜(39 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Polyphonia: Zero-Shot Timbre Transfer in Polyphonic Mus 7.5分 前30% #音乐生成 🥈 PoDAR: Power-Disentangled Audio Representation for Gene 7.3分 前25% #语音合成 🥉 Evaluating the Expressive Appropriateness of Speech in 7.2分 前25% #语音质量评估 4. Reducing Linguistic Hallucination in LM-Based Speech En 7.2分 前25% #语音增强 5. Encoding and Decoding Temporal Signals with Spiking Ban 7.0分 前25% #音频编码 6. Mitigating Multimodal Inconsistency via Cognitive Dual- 7.0分 前50% #意图识别 7. SF-Flow: Sound field magnitude estimation via flow matc 6.8分 前25% #空间音频 8. Probing Cross-modal Information Hubs in Audio-Visual LL 6.5分 前25% #模型分析 9. Towards Trustworthy Audio Deepfake Detection: A Systema 6.5分 前25% #音频深度伪造检测 10. Unison: Harmonizing Motion, Speech, and Sound for Human 6.5分 前30% #音视频生成 11. CORTEG: Foundation Models Enable Cross-Modality Represe 6.5分 前25% #脑机接口 12. Omni-Persona: Systematic Benchmarking and Improving Omn 6.5分 前25% #基准测试 13. DiffVQE: Hybrid Diffusion Voice Quality Enhancement Und 6.2分 前30% #语音增强 14. A Cold Diffusion Approach for Percussive Dereverberatio 6.2分 前35% #音频修复 15. APEX: Audio Prototype EXplanations for Classification T 6.2分 前25% #音频分类 16. How Should LLMs Listen While Speaking? A Study of User- 6.0分 前25% #语音对话系统 17. RADAR Challenge 2026: Robust Audio Deepfake Recognition 6.0分 前50% #音频深度伪造检测 18. ShipEcho – An Interactive Tool for Global Mapping of U 6.0分 前25% #水下声学 19. Rethinking Entropy Minimization in Test-Time Adaptation 6.0分 前40% #语音识别 20. Separate First, Fuse Later: Mitigating Cross-Modal Inte 6.0分 前50% #音视频问答 21. ChladniSonify: A Visual-Acoustic Mapping Method for Chl 6.0分 前50% #音频生成 22. Omni-DeepSearch: A Benchmark for Audio-Driven Omni-Moda 6.0分 前25% #基准测试 23. Online Segmented Beamforming via Dynamic Programming 6.0分 前25% #声源定位 24. FLARE: Full-Modality Long-Video Audiovisual Retrieval B 6.0分 前25% #音频检索 25. Speech-based Psychological Crisis Assessment using LLMs 5.8分 前25% #语音情感识别 26. EAR: Enhancing Uni-Modal Representations for Weakly Sup 5.8分 前25% #音频事件检测 27. Kinetic-Optimal Scheduling with Moment Correction for M 5.5分 前50% #语音合成 28. Dolphin-CN-Dialect: Where Chinese Dialects Matter 5.5分 前50% #语音识别 29. Latent Secret Spin: Keyed Orthogonal Rotations for Blin 5.5分 前50% #音频水印 30. Bangla-WhisperDiar: Fine-Tuning Whisper and PyAnnote fo 5.5分 前50% #语音识别 #说话人日志 31. Remix the Timbre: Diffusion-Based Style Transfer Across 5.5分 前30% #音色迁移 32. Low-Cost Detection of Degraded Voice Clones via Source- 5.3分 前50% #语音伪造检测 33. Single-Microphone Audio Point Source Discriminative Loc 5.0分 前50% #说话人分离 34. Responsible Benchmarking of Fairness for Automatic Spee 5.0分 前50% #语音识别 35. Sub-JEPA: Subspace Gaussian Regularization for Stable E 5.0分 前50% #世界模型 36. AllocMV: Optimal Resource Allocation for Music Video Ge 4.8分 前50% #音乐视频生成 37. Multi-layer attentive probing improves transfer of audi 4.0分 中等偏上 #生物声学 #音频分类 38. Drum Synthesis from Expressive Drum Grids via Neural Au 4.0分 前50% #音乐生成 39. Voice Biomarkers for Depression and Anxiety 1.0分 后50% #语音生物标志物 📋 论文列表 🥇 Polyphonia: Zero-Shot Timbre Transfer in Polyphonic Music with Acoustic-Informed Attention Calibration ✅ 7.5/10 | 前30% | #音乐生成 | #扩散模型 | #注意力机制 #零样本 | arxiv ...

2026-05-12 · 更新于 2026-05-19 · 28 min · 5761 words

AudioFuse: Unified Spectral-Temporal Learning Via A Hybrid VIT-1D CNN Architecture for Phonocardiogram Classification

📄 AudioFuse: Unified Spectral-Temporal Learning Via A Hybrid VIT-1D CNN Architecture for Phonocardiogram Classification #音频分类 #多模态模型 #混合架构 #医疗音频 #鲁棒性 ✅ 7.5/10 | 前25% | #音频分类 | #多模态模型 #混合架构 | #多模态模型 #混合架构 学术质量 7.5/7 | 选题价值 7.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Md. Saiful Bari Siddiqui(BRAC大学计算机科学与工程系) 通讯作者:未说明 作者列表:Md. Saiful Bari Siddiqui(BRAC大学计算机科学与工程系),Utsab Saha(BRAC大学计算机科学与工程系) 💡 毒舌点评 亮点:论文非常清晰地抓住了“心音分析中频谱与波形信息互补”这一核心矛盾,并设计了一个轻量级双分支架构来同时利用两者,实验也证实了该思路的有效性,尤其是在抵抗域偏移方面表现出色。 短板:所谓的“创新”更多是工程设计上的巧妙组合,后期融合策略(拼接)本身毫无新意,论文也未深入探讨更复杂融合机制(如跨注意力)在此场景下失效的原因,使其理论贡献稍显薄弱。 🔗 开源详情 代码:是。论文提供了GitHub代码仓库链接:https://github.com/Saiful185/AudioFuse。 模型权重:未提及是否公开预训练模型权重。 数据集:使用了公开的PhysioNet 2016和PASCAL数据集,并说明了获取和处理方式(移除泄露数据)。 Demo:未提及。 复现材料:论文提供了主要超参数(学习率、权重衰减、轮数、早停设置),但未提供完整的训练配置、环境依赖文件或检查点。 引用的开源项目:论文中未明确列出所依赖的特定开源工具或库(如PyTorch, Hugging Face Transformers等)。 📌 核心摘要 问题:传统心音(PCG)分类方法要么使用2D频谱图(丢失相位和时间精度),要么使用1D波形(难以学习频率关系),二者各有局限。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 293 words