Speaker-Disentangled Remote Speech Detection of Asthma and COPD Exacerbations

📄 Speaker-Disentangled Remote Speech Detection of Asthma and COPD Exacerbations #医疗音频 #对抗学习 #语音生物标志物 #多任务学习 #隐私保护 ✅ 7.5/10 | 前50% | #医疗音频 | #对抗学习 | #语音生物标志物 #多任务学习 | arxiv 学术质量 6.2/8 | 影响力 0.8/1 | 可复现性 0.5/1 | 置信度 中 👥 作者与机构 第一作者:Yuyang Yan (马斯特里赫特大学数据科学研究所) 通讯作者:Yuyang Yan (马斯特里赫特大学数据科学研究所) 作者列表:Yuyang Yan (马斯特里赫特大学数据科学研究所)、Sami O. Simons (马斯特里赫特大学医学中心呼吸内科 / NUTRIM营养、转化与代谢研究所)、Visara Urovi (马斯特里赫特大学数据科学研究所) 💡 毒舌点评 亮点:论文切中了一个重要但常被忽视的问题——医疗语音诊断模型可能严重依赖说话人身份这一“伪特征”。其提出的对抗解耦框架思路清晰,并将临床可解释性(SHAP)与隐私保护目标相结合,在垂直医疗领域具有实际价值。通过实验证明,去除说话人偏差后模型反而更关注病理特征,这种“隐私促进性能”的发现很有启发性。短板:核心验证存在明显软肋。外部验证集Bridge2AI-Voice仅用了22名患者(每类11人),样本量过小,统计效力严重不足,难以支撑“跨数据集泛化”的强力结论。此外,研究完全基于预提取的声学特征,未与端到端从原始音频学习的方法进行对比,方法的优越性范围受限。 📌 核心摘要 要解决什么问题:基于语音的远程呼吸疾病监测模型,其预测性能可能高度依赖说话人的可识别属性(如年龄、性别、口音),这既损害了模型在未知患者上的泛化能力,也带来了严重的患者隐私泄露风险。同时,病理特征与说话人特征的混杂使得特征可解释性变差。 方法核心是什么:提出一个基于对抗学习的多任务框架。框架包含一个共享的上游编码器(LeFF Transformer + BiLSTM),其下游连接两个分类头:一个用于预测呼吸状态(稳定/加重)或加重类型(哮喘/COPD),另一个用于预测说话人身份。在说话人分类头之前插入梯度反转层(GRL),在反向传播时反转梯度,迫使上游编码器学习对病理分类有用但对说话人识别无用的特征表示。总训练目标为 \(\mathcal{L}_{\text{total}}=\mathcal{L}_{\text{res}}-\lambda\mathcal{L}_{\text{spk}}\)。 与已有方法相比新在哪里:首次将对抗解耦技术系统性地应用于医疗语音分析领域,专门解决说话人偏差问题。与简单的语音转换预处理(如FreeVC)相比,该方法是端到端的、可训练的,并能同时优化临床任务性能和隐私保护目标。此外,框架整合了多任务学习和基于SHAP的特征重要性分析,以提升模型的区分度和可解释性。 主要实验结果如何:在TACTICAS数据集(荷兰语)上,对于“稳定/加重”分类,AUC从基线的0.897提升至0.909;对于“哮喘/COPD加重”分类,AUC从0.647显著提升至0.739。同时,衡量说话人可分离度的J-ratio在两项任务中均下降(任务1:1.541→1.515;任务2:1.034→0.869)。外部验证(Bridge2AI-Voice,英语)也显示了性能提升和J-ratio下降(AUC 0.801→0.822, J-ratio 2.146→1.763)。SHAP分析显示,对抗训练后模型抑制了与说话人强相关的特征(如基频标准差、共振峰频率标准差),增强了与病理相关的特征(如抖动、响度标准差、连续静音时长)。 实际意义是什么:该工作为构建更公平、更隐私、更可靠的语音医疗诊断模型提供了方法论基础。它表明,通过主动消除无关的说话人偏差,不仅可以保护隐私,还能迫使模型关注真正的病理生物标志物,从而可能提升模型的临床泛化能力。 主要局限性是什么:研究使用的两个数据集规模均较小(TACTICAS: 56人;Bridge2AI-Voice验证集: 22人),且验证集语言不同但病理类别有限。模型性能虽有提升,但绝对提升幅度有限(Task 1 AUC提升仅0.012),且缺乏与临床重要终点(如住院率、肺功能)的关联分析。对抗训练的关键超参数λ的选择过程和最终值未明确说明,也未进行敏感性分析。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集: TACTICAS:该数据集用于本研究,由研究团队通过移动应用收集。论文中未提供公开获取的直接链接。 Bridge2AI-Voice:用于外部验证的公开数据集。论文中提供了其项目主页链接:www.bridge2ai-voice.org。 Demo:论文中未提及 复现材料:论文中未提及 论文中引用的开源项目: openSMILE:一种用于从语音和音频中提取声学特征的工具包。 eGeMAPS:扩展的日内瓦最小化声学描述符集。 FreeVC:用于语音转换的无文本、单次学习系统。其 GitHub 仓库链接为:https://github.com/amaurial/FreeVC。 🏗️ 方法概述和架构 整体流程概述:这是一个端到端的对抗学习框架。输入是手工提取的多域声学特征(频谱、频率、能量、时域),经过一个共享的上游编码器(Locally-enhanced Feed-Forward Network Transformer + BiLSTM)提取高级表征。该表征随后被同时送入两个下游任务头:一个病理分类头(MLP)和一个说话人分类头(MLP)。在说话人分类头之前插入梯度反转层(GRL),构成对抗训练的核心,最终输出两个任务的预测概率。训练目标是联合最小化病理分类损失和最大化说话人分类损失(通过GRL和损失函数设计实现)。 ...

2026-05-19 · 更新于 2026-05-19 · 3 min · 445 words

Beyond Content: A Comprehensive Speech Toxicity Dataset and Detection Framework Incorporating Paralinguistic Cues

📄 Beyond Content: A Comprehensive Speech Toxicity Dataset and Detection Framework Incorporating Paralinguistic Cues #音频分类 #预训练 #多任务学习 #内容审核 ✅ 6.5/10 | 前25% | #音频分类 | #预训练 | #多任务学习 #内容审核 | arxiv 学术质量 5.5/8 | 影响力 0.6/1 | 可复现性 0.4/1 | 置信度 高 👥 作者与机构 第一作者:Zhongjie Ba(论文作者列表首位,但未明确标注为第一作者) 通讯作者:未明确说明(论文仅标注“The corresponding author”,但未在作者列表旁具体指出是谁) 作者列表:Zhongjie Ba, Liang Yi, Peng Cheng, Qingcao Li, Qinglong Wang, Li Lu 作者机构:论文未在作者列表旁提供具体机构信息,但在致谢部分提及了Zhejiang Provincial Natural Science Foundation等支持机构。 💡 毒舌点评 数据集ToxiAlert-Bench的构建是最大贡献,填补了副语言毒性样本标注的空白。然而,模型(ToxiAlert)的“创新”本质上是将预训练SSL模型与两个标准MLP头进行工程整合,缺乏架构或理论深度。实验中与之对比的部分基线(如DeToxy, YIDUN)性能极低,使得性能提升的宣称需要谨慎看待;与强大的多模态大模型对比更有说服力。论文未明确列出局限性部分,是一个疏漏。 📌 核心摘要 本文旨在解决现有语音毒性检测忽视副语言特征(语调、情绪等)的问题。作者构建了首个大规模、标注毒性来源(文本/副语言/两者兼有)的语音毒性数据集ToxiAlert-Bench,包含超3.2万条音频。其次,提出了基于Wav2Vec 2.0的双头检测框架ToxiAlert:一个头(Source Head)识别毒性来源,另一个头(Category Head)对7类毒性进行分类。该框架采用三阶段训练策略:先分别独立训练两个头,再联合微调。实验表明,ToxiAlert在ToxiAlert-Bench上显著优于包括DeToxy和多个多模态大模型在内的基线,其宏F1分数相比最强基线(Gemini-2.5-Flash)提升了21.1%,准确率提升13.0%,尤其在纯副语言毒性检测上表现突出。该工作为语音内容安全领域提供了重要的数据资源和方法框架,但数据集限于英文,且合成数据可能无法完全代表真实世界分布。 ...

2026-05-18 · 更新于 2026-05-19 · 3 min · 606 words

From Flat Language Labels to Typological Priors: Structured Language Conditioning for Multilingual Speech-to-Speech Translation

📄 From Flat Language Labels to Typological Priors: Structured Language Conditioning for Multilingual Speech-to-Speech Translation #语音翻译 #多任务学习 #多语言 #低资源 #语言学先验 ✅ 6.9/10 | 前50% | #语音翻译 | #多任务学习 | #多语言 #低资源 | arxiv 学术质量 5.9/8 | 影响力 0.6/1 | 可复现性 0.4/1 | 置信度 高 👥 作者与机构 第一作者:Yu Pan(九州大学信息科学与电气工程学院,工作完成时;现Recho Inc.,东京) 通讯作者:Jianjun Zhao(九州大学信息科学与电气工程学院) 作者列表:Yu Pan(九州大学/Recho Inc.)、Yang Hou(国家信息学研究所)、Xiongfei Wu(卢森堡大学SnT中心)、Yves Le Traon(卢森堡大学SnT中心)、Liang Zhang(东华大学)、Lei Ma(东京大学计算机系/阿尔伯塔大学电气与计算机工程系)、Jianjun Zhao(九州大学) 毸舌点评 论文提出一个清晰且动机充分的框架,旨在解决多语言S2ST中“扁平化语言标签”表示能力不足的问题,将语言学类型学知识系统性地注入条件机制。其核心价值在于论证了结构化先验在低资源场景下的显著增益,这为数据稀缺的多语言任务提供了实用思路。然而,该工作的“框架感”有限,本质上是对一个强基线(S2ST-Omni)在条件机制上的精巧改进,而非一个可广泛应用的新架构。实验评估完全局限于CVSS-C这一合成目标语音数据集,且未与最新的一些SpeechLLM工作进行对比,影响了结论的普适性和说服力。创新性尚可,但不足以称之为突破。 核心摘要 问题:现有基于SpeechLLM的多语言语音到语音翻译(S2ST)系统常采用扁平化的语言标签(language-as-label)作为条件,忽略了跨语言共享的系统性语言学结构(如形态、语序、谱系关联),这在低监督数据下限制了模型的多语言适应能力。 核心方法:提出S2ST-Omni 2框架,将语言条件从扁平标签重构为结构化类型学先验,在三个层面进行注入:a) 表示层:类型学启发的层次化语言编码(TI-HLE),将源语言分解为形态、重排、语系和残差特定通道;b) 声学层:动态门控的语言调制Dual-CTC(LA-Dual-CTC),根据内容自适应地调制中间声学特征;c) 解码层:类型学感知的LLM提示,提供翻译导向的语言学指导。 新意:不同于以往仅用独立语言嵌入,本文系统性地将显式的语言学类型学知识融入S2ST模型的条件机制中,旨在提供更有结构的归纳偏置,而非让模型从数据中隐式学习所有语言差异。 主要结果:在CVSS-C数据集上,S2ST-Omni 2在平均BLEU(37.73 vs 35.67)和ASR-BLEU(35.00 vs 33.45)上相比基线S2ST-Omni分别获得5.8%和4.6%的相对提升,并在COMET和BLASER 2.0上也取得最优。消融实验证实了三个层面组件的互补贡献。在仅~3小时监督数据的低资源日语-英语任务上,S2ST-Omni 2同样显著优于基线。数据预算分析显示,随着训练数据减少,S2ST-Omni 2相对于基线的BLEU相对增益从5.8%单调增加至15.1%。 实际意义:该工作为数据稀缺的多语言S2ST任务提供了一种有效的技术路径,即通过引入语言学先验来补偿监督信号的不足,对构建更具语言适应性和数据效率的跨语言语音系统有启发价值。 主要局限性:a) 方法依赖于预先定义的、针对英语翻译任务的特定类型学分类,其泛化性(如到其他目标语言)未验证;b) 框架复杂度增加(引入了多路CTC损失、FiLM调制、动态门控),训练和推理成本未充分分析;c) 主要实验局限于CVSS-C的三个欧洲语言对及合成目标语音,对其他语系、真实场景的覆盖有限;d) 未提供代码或模型权重,可复现性不足。 方法概述和架构 整体流程概述:S2ST-Omni 2是一个基于组件的组合式S2ST框架,分为语音到文本翻译(S2TT)前端和可插拔的文本到语音(TTS)后端。前端核心是一个SpeechLLM,它接收语音输入,并通过多层、多模块的条件调制,最终输出翻译文本。训练分为两阶段:第一阶段稳定语音-文本对齐,第二阶段通过LoRA微调增强LLM翻译能力。整个系统并非严格端到端,因为S2TT和TTS通过显式文本接口解耦。 ...

2026-05-18 · 更新于 2026-05-19 · 8 min · 1698 words

语音/音频论文速递 2026-05-18

语音/音频论文速递 2026-05-18 共分析 13 篇论文 ⚡ 今日概览 📥 抓取 13 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音乐生成 2篇 ██ #音频分类 2篇 ██ #音频修复 1篇 █ #语音识别 #说话人分离 1篇 █ #语音翻译 1篇 █ #语音识别 1篇 █ #生理信号预测 1篇 █ #语音生物标志物 1篇 █ 📊 论文评分排行榜(13 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Modeling Music as a Time-Frequency Image: A 2D Tokenize 8.1分 前25% #音乐生成 🥈 Scalable neuromorphic computing from autonomous spiking 7.8分 前25% #音频分类 🥉 Real-time Speech Restoration using Data Prediction Mean 7.5分 前25% #音频修复 4. Mind the Gap: Impact of Synthetic Conversational Data o 7.2分 前25% #语音识别 #说话人分离 5. From Flat Language Labels to Typological Priors: Struct 6.9分 前50% #语音翻译 6. Beyond Content: A Comprehensive Speech Toxicity Dataset 6.5分 前25% #音频分类 7. ARIA: A Diagnostic Framework for Music Training Data At 6.1分 前25% #音乐生成 8. Improving Automatic Speech Recognition for Speakers Tre 6.0分 前50% #语音识别 9. Toward World Modeling of Physiological Signals with Cha 6.0分 前50% #生理信号预测 10. Can Large Language Models Imitate Human Speech for Clin 6.0分 前50% #语音生物标志物 11. Can We Trust AI-Inferred User States. A Psychometric Fr 6.0分 前50% #模型评估 12. Sound Sparks Motion: Audio and Text Tuning for Video Ed 5.5分 前25% #视频编辑 13. Perforated Neural Networks for Keyword Spotting 5.0分 前60% #关键词检测 📋 论文列表 🥇 Modeling Music as a Time-Frequency Image: A 2D Tokenizer for Music Generation 🔥 8.1/10 | 前25% | #音乐生成 | #自回归模型 | arxiv ...

2026-05-18 · 更新于 2026-05-19 · 11 min · 2305 words

SpeakerLLM: A Speaker-Specialized Audio-LLM for Speaker Understanding and Verification Reasoning

📄 SpeakerLLM: A Speaker-Specialized Audio-LLM for Speaker Understanding and Verification Reasoning #说话人验证 #音频大模型 #音频理解 #多粒度表征 #结构化推理 #多任务学习 ✅ 7/10 | 前25% | #说话人验证 | #音频大模型 | #音频理解 #多粒度表征 | arxiv 学术质量 5.6/8 | 影响力 0.6/1 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:KiHyun Nam (韩国科学技术院 KAIST) 通讯作者:Joon Son Chung (韩国科学技术院 KAIST) 作者列表:KiHyun Nam (韩国科学技术院 KAIST), Jungwoo Heo (首尔大学), Siu Bae (韩国科学技术院 KAIST), Ha-Jin Yu (首尔大学), Joon Son Chung (韩国科学技术院 KAIST, 通讯作者) 💡 毒舌点评 这篇论文的动机清晰,针对音频优先智能体时代通用Audio-LLM在说话人理解上的不足,提出了一个专用的框架。其核心亮点在于通过分层说话人分词器整合了互补的多粒度说话人表征,并设计了结构化、可审计的验证推理目标,将传统二分类问题转化为包含环境、剖面和决策链的自然语言推理过程,这在方法论上是新颖的。然而,其主要短板在于实验的说服力不足:虽然在受控的、规模有限的基线(通用Audio-LLM)上展示了优势,但缺乏与现代端到端说话人验证模型(如基于ECAPA-TDNN或ResNet的模型)在公认的大规模标准测试集(如VoxCeleb2测试集、VoxSRC)上的直接性能对比。这使得其“说话人专用”模型的实际性能水平(是超越还是不及当前SOTA)成疑,更像是一次在特定设定下的方法验证。此外,结构化推理模板的刚性可能限制了其在更复杂、开放场景下的泛化能力。 ...

2026-05-15 · 更新于 2026-05-19 · 3 min · 621 words

语音/音频论文速递 2026-05-15

语音/音频论文速递 2026-05-15 共分析 20 篇论文 ⚡ 今日概览 📥 抓取 20 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 2篇 ██ #音频分类 2篇 ██ #语音生物标志物 2篇 ██ #说话人验证 2篇 ██ #基准测试 1篇 █ #语音翻译 1篇 █ #音频生成 1篇 █ #基础模型 1篇 █ 📊 论文评分排行榜(20 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 FutureSim: Replaying World Events to Evaluate Adaptive 7.6分 前25% #基准测试 🥈 Refining Pseudo-Audio Prompts with Speech-Text Alignmen 7.5分 前50% #语音识别 🥉 AudioMosaic: Contrastive Masked Audio Representation Le 7.3分 前50% #音频分类 4. A Benchmark for Early-stage Parkinson’s Disease Detecti 7.2分 前30% #语音生物标志物 5. SpeakerLLM: A Speaker-Specialized Audio-LLM for Speaker 7.0分 前25% #说话人验证 6. Streaming Speech-to-Text Translation with a SpeechLLM 6.8分 前25% #语音翻译 7. Break-the-Beat! Controllable MIDI-to-Drum Audio Synthes 6.8分 前50% #音频生成 8. Mini-JEPA Foundation Model Fleet Enables Agentic Hydrol 6.8分 前50% #基础模型 9. Persian MusicGen: A Large-Scale Dataset and Culturally- 6.7分 前50% #音乐生成 10. Physics-Based iOCT Sonification for Real-time Interacti 6.5分 前40% #医疗音频 11. From Text to Voice: A Reproducible and Verifiable Frame 6.3分 前50% #模型评估 12. IsoNet: Spatially-aware audio-visual target speech extr 6.0分 前50% #语音提取 13. FSD50K-Solo: Automated Curation of Single-Source Sound 5.5分 前50% #数据清洗 14. UMo: Unified Sparse Motion Modeling for Real-Time Co-Sp 5.5分 前25% #语音合成 15. Masked Autoencoders with Limited Data: Does It Work? A 5.5分 前50% #音频分类 16. Text-Dependent Speaker Verification (TdSV) Challenge 20 5.5分 前40% #说话人验证 17. PROCESS-2: A Benchmark Speech Corpus for Early Cognitiv 5.4分 前50% #语音生物标志物 18. Transmit Beamforming for High-Rate Underwater Acoustic 5.3分 前50% #水声通信 19. A Calculus-Based Framework for Determining Vocabulary S 3.9分 后50% #语音识别 20. MediaClaw: Multimodal Intelligent-Agent Platform Techni 3.3分 后50% #多模态模型 📋 论文列表 🥇 FutureSim: Replaying World Events to Evaluate Adaptive Agents ✅ 7.6/10 | 前25% | #基准测试 | #大语言模型 | #自适应代理 #测试时适应 | arxiv ...

2026-05-15 · 更新于 2026-05-19 · 15 min · 3187 words

AffectCodec: Emotion-Preserving Neural Speech Codec for Expressive Speech Modeling

📄 AffectCodec: Emotion-Preserving Neural Speech Codec for Expressive Speech Modeling #音频编码 #语音情感识别 #知识蒸馏 #对比学习 #多任务学习 ✅ 7.0/10 | 前25% | #音频编码 | #知识蒸馏 | #语音情感识别 #对比学习 | arxiv 学术质量 5.8/8 | 影响力 1.0/2 | 可复现性 0.7/1 | 置信度 高 👥 作者与机构 第一作者:Jiacheng Shi(College of William & Mary) 通讯作者:未明确指定(根据邮箱推测为Ye Gao,但论文未明确标注) 作者列表:Jiacheng Shi(College of William & Mary)、Hongfei Du(College of William & Mary)、Xinyuan Song(Emory University)、Y. Alicia Hong(George Mason University)、Yanfu Zhang(College of William & Mary)、Ye Gao(College of William & Mary) 💡 毒舌点评 亮点:论文明确将“情感保留”从下游评估指标提升为编解码器训练的核心优化目标,这一问题重新定义和建模思路(三阶段框架)具有清晰的学术贡献和实用价值。短板:框架整体是多个成熟技术(交叉注意力、关系蒸馏、对齐损失)的工程化组合,对“情感”这一模糊概念的建模仍高度依赖外部冻结模型,创新深度有限。此外,论文未深入讨论计算效率的权衡。 ...

2026-05-13 · 更新于 2026-05-19 · 3 min · 578 words

Speech-based Psychological Crisis Assessment using LLMs

📄 Speech-based Psychological Crisis Assessment using LLMs #语音情感识别 #大语言模型 #数据增强 #多任务学习 #医疗音频 📝 5.8/10 | 前25% | #语音情感识别 | #大语言模型 | #数据增强 #多任务学习 | arxiv 学术质量 5.8/8 | 影响力 1.2/2 | 可复现性 0.7/1 | 置信度 高 👥 作者与机构 第一作者:Terumi Chiba(清华大学) 通讯作者:Ziyun Cui(北京大学回龙观临床医学院),Chao Zhang(清华大学,世界卫生组织自杀预防研究与培训合作中心) 作者列表:Terumi Chiba(清华大学)、Yang Luo(清华大学)、Ziyun Cui(北京大学回龙观临床医学院)、Yongsheng Tong(清华大学)、Chao Zhang(清华大学,世界卫生组织自杀预防研究与培训合作中心) 💡 毒舌点评 论文提出的“副语言注入”方法,试图将语音中的情感线索显式文本化以供LLM处理,思路清晰,且针对临床场景(心理热线)的定位明确。然而,核心方法(语音到文本的描述转换)并非完全新颖,且其实验的最大软肋在于数据集规模极小(154例),这使得所有“显著”的结论都蒙上了一层“小样本巧合”的阴影。在如此有限的数据上,模型的高分有多少是源自方法本身的优越性,又有多少是源于对特定样本的过拟合,论文未能给出足够令人信服的论证。此外,对推理链生成这一辅助任务所依赖的外部教师模型(gpt-oss-120b)的潜在偏差,缺乏深入的风险讨论。 📌 核心摘要 问题:心理支持热线的危机级别评估依赖于人工操作员,存在主观性强、资源有限等问题。现有基于语音的研究多集中于二分类的自杀风险评估,对更细分的三类别心理危机水平评估探索不足,且常忽略语音中的副语言信息(如哭泣、颤抖)。 方法核心:提出一个基于LLM的框架,核心是“副语言注入”和“推理增强训练”。副语言注入利用SpeechLLM(Step-Audio-R1)从语音中提取情感化非语言线索(如“哭泣声”),并遵循临床创伤评估表(TAF)的情感领域标准,将这些线索以结构化文本形式注入ASR转录文本。推理增强训练则让模型在分类的同时,生成符合TAF框架的诊断推理链作为辅助任务,以提升分类性能和可解释性。 创新点:与已有方法相比,新在:(1) 明确地将临床评估框架(TAF)深度融入副语言特征提取(指导SpeechLLM)和推理链构建,使模型行为更贴合临床实践;(2) 提出将副语言信息显式转化为文本描述(“注入”)而非在音频层面端到端建模的策略,并验证其优于直接使用SpeechLLM;(3) 结合数据增强(将长通话切分为连续片段)以缓解小样本问题。 实验结果:在154例真实中文心理热线通话数据集上进行5折交叉验证,进行三项分类(无危机、低危机、中高度危机)。最终系统达到宏F1分数0.802,准确率0.805,显著优于所有基线。关键消融实验显示,移除数据增强、副语言注入、辅助损失分别导致宏F1下降10.0%、4.1%和1.7%。关键对比如下表所示: 方法 准确率 (Mean ± Std) 宏F1分数 (Mean ± Std) Zero-shot LLM 0.455 0.371 OpenSMILE (SVM) 0.486 ± 0.053 0.471 ± 0.062 SpeechLLM (Qwen2.5-Omni-7B) 0.564 ± 0.075 0.551 ± 0.079 本文方法 (Ours) 0.805 ± 0.061 0.802 ± 0.062 实际意义:为利用LLM处理心理热线语音数据提供了一种可解释、可整合临床知识的技术路径,有望辅助操作员进行更一致、客观的危机分级,优化热线资源配置。 主要局限性:数据集规模极小(154例),可能限制了模型泛化性的验证;方法依赖于外部的SpeechLLM(Step-Audio-R1)和用于生成推理链的教师模型(gpt-oss-120b);缺乏在跨机构、跨语言数据上的外部验证;代码和数据集均未开源。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中提供了以下模型的 HuggingFace 链接: ASR模型: Paraformer-zh: https://huggingface.co/funasr/paraformer-zh 语音模型 (用于副语言特征提取): Step-Audio-R1.1: https://huggingface.co/stepfun-ai/Step-Audio-R1.1 基础大语言模型 (微调目标): Qwen2.5-7B-Instruct: https://huggingface.co/Qwen/Qwen2.5-7B-Instruct 基线大语言模型: gpt-oss-120b: https://huggingface.co/openai/gpt-oss-120b 基线语音大语言模型: Qwen2.5-Omni-7B: https://huggingface.co/Qwen/Qwen2.5-Omni-7B 数据集:论文中提及使用了包含 154 个通话录音(总时长约 100 小时)的中国心理支持热线数据集,但论文中未提及该数据集的公开获取链接或开源协议。 Demo:论文中未提及。 复现材料:论文中提供了详细的实验配置信息,可用于复现。具体包括:5折交叉验证设置、使用 LoRA (rank=8, α=64) 对 Qwen2.5-7B-Instruct 进行微调、训练细节(AdamW优化器,学习率 3×10⁻⁵,余弦退火调度,有效批量大小16)、数据增强方法(将通话音频分割为固定时长片段)。但未提供预训练检查点或打包的复现材料。 论文中引用的开源项目: OpenSMILE:用于提取声学特征 (eGeMAPSv02)。 项目链接:https://github.com/audeering/opensmile-python emotion2vec:用于情感嵌入提取。 模型链接:https://huggingface.co/emotion2vec/emotion2vec_plus_large gpt-oss-120b:用于生成诊断推理链的监督信号。 模型链接:https://huggingface.co/openai/gpt-oss-120b Qwen2.5-Omni-7B:作为SpeechLLM基线。 模型链接:https://huggingface.co/Qwen/Qwen2.5-Omni-7B 🏗️ 方法概述和架构 ...

2026-05-12 · 更新于 2026-05-19 · 3 min · 451 words

NDF+: Joint Neural Directional Filtering and Diffuse Sound Extraction

📄 NDF+: Joint Neural Directional Filtering and Diffuse Sound Extraction #空间音频 #神经网络 #波束成形 #多任务学习 #音频增强 ✅ 6.5/10 | 前30% | #空间音频 | #神经网络 | #波束成形 #多任务学习 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 未提及。论文仅在致谢部分感谢了FAU的HPC资源和DFG资助。 💡 毒舌点评 这篇论文工整地做了一道“拆分重组”的数学题:把估计A,拆成估���A的一部分和另一部分,再加起来。思路清晰,工程上也有其价值——特别是那个能调β的漫射声控制,对于需要精细调节“干湿比”的录音师来说,可能是个不错的玩具。然而,整套验证全在自家后院(合成数据)里完成,没敢拉到真实世界的泥潭里打滚,这让“性能媲美NDF”和“优于传统基线”的结论,听起来有点像在真空环境下的胜利。创新性扎实但有限,像给一辆好车加了个炫酷的控制旋钮,而非发明了新引擎。对于追求原理性突破的读者,可能会觉得不够过瘾;但对于寻求实用工具的工程师,或许值得一瞄。 📌 核心摘要 本文提出了NDF+,一个用于在紧凑麦克风阵列上联合实现定向滤波与漫射声提取的神经网络框架。其核心创新是将传统NDF的单一目标(虚拟定向传声器信号估计)重新表述为两个耦合子任务:去混响VDM重建(相干声估计)与漫射声提取。通过端到端联合训练双掩模网络,NDF+能在保持最终VDM重建质量与原始NDF相当的同时,提供对输出信号中漫射声成分的显式、连续控制。在合成数据上的系统实验表明,NDF+在子任务性能上显著优于级联基线,其可控性在立体声录音应用中得到了验证。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及。 数据集: 训练集和验证集使用了 LibriSpeech 数据库(子集:train-clean-360 和 dev-clean)。获取链接:https://www.openslr.org/12/。 测试集使用了 EARS 数据集。获取链接:https://github.com/facebookresearch/ears (根据论文引用[richter2024ears]推断)。 Demo:论文中未提及。 复现材料:论文中未提及训练配置、检查点等具体复现材料。 论文中引用的开源项目:论文中引用的基线方法或工具如下,但论文中未提供其具体开源链接: FT-JNF (框架):引用 [FT-JNF]。 RIRGenerator (房间脉冲响应生成器):引用 [RIRGenerator]。 AWPE (加权预测误差去混响算法):引用 [4960438]。 DRSwWPE (一种实时去混响算法):引用 [huang2024practical]。 Diffuse BF (漫射声波束成形器):引用 [diffuse_beamformer]。 Dynamic Acoustic Scene Generator (动态声景生成器):引用 [DASGenerator]。 Monte Carlo RIR (蒙特卡洛房间脉冲响应模拟):引用 [MonteCarloRIR]。 作者与机构 未提及。论文仅在致谢部分感谢了FAU的HPC资源和DFG资助。 ...

2026-05-08 · 更新于 2026-05-19 · 2 min · 414 words

APEX: Large-scale Multi-task Aesthetic-Informed Popularity Prediction for AI-Generated Music

📄 APEX: Large-scale Multi-task Aesthetic-Informed Popularity Prediction for AI-Generated Music #音乐评估 #多任务学习 #自监督学习 #预训练模型 ✅ 7.5/10 | 前25% | #音乐评估 | #多任务学习 | #自监督学习 #预训练模型 | arxiv 学术质量 7.0/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jaavid Aktar Husain(AMAAI Lab, Singapore University of Technology and Design) 通讯作者:Dorien Herremans(AMAAI Lab, Singapore University of Technology and Design) 作者列表:Jaavid Aktar Husain(AMAAI Lab, Singapore University of Technology and Design)、Dorien Herremans(AMAAI Lab, Singapore University of Technology and Design) 💡 毒舌点评 这篇论文为AI生成音乐这个“野蛮生长”的领域提供了一个扎实的多任务学习基线,首次将“好听”(美学)和“流行”(数据)放在一起建模,且跨模型的泛化实验证明了学到的美学特征具有普适性。但令人遗憾的是,联合学习“流行度”这个主任务本身并未带来显著提升,似乎美学和流行在特征上互补但并不互促,这削弱了“多任务学习能提升主任务”这一核心动机的说服力。 ...

2026-05-07 · 更新于 2026-05-19 · 3 min · 485 words