Optimizing 2D Input Representations and Sub-phase Fusion Strategies for Differential Diagnosis of Asthma and COPD Using CNN- and GRU-Based Networks

📄 Optimizing 2D Input Representations and Sub-phase Fusion Strategies for Differential Diagnosis of Asthma and COPD Using CNN- and GRU-Based Networks #数据增强 #多模态模型 6.8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 6.8/10 | 前50% | #数据增强 | #数据增强 | #多模态模型 | arxiv 👥 作者与机构 İpek Şen (伊斯坦布尔比尔吉大学电气与电子工程系), Özgür Özdemir (伊斯坦布尔比尔吉大学计算机工程系), Elena Battini Sönmez (伊斯坦布尔比尔吉大学计算机工程系) ...

2026-06-10 · 更新于 2026-06-15 · 15 min · 3178 words

Overview of ESDD2: Environment-Aware Speech and Sound Deepfake Detection Challenge

📄 Overview of ESDD2: Environment-Aware Speech and Sound Deepfake Detection Challenge #数据增强 #自监督学习 6.3/10 | 创新 0.5/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.3/10 | 前50% | #数据增强 | #数据增强 | #自监督学习 | arxiv 👥 作者与机构 Xueping Zhang (Duke Kunshan University), Han Yin (Korea Advanced Institute of Science and Technology), Yang Xiao (The University of Melbourne), Lin Zhang (Johns Hopkins University), Ting Dang (The University of Melbourne), Rohan Kumar Das (Fortemedia Singapore), Ming Li (The Chinese University of Hong Kong, Shenzhen)。 ...

2026-06-10 · 更新于 2026-06-15 · 5 min · 925 words

ParaBridge: Bridging Paralinguistic Perception and Dialogue Behavior in Speech Language Models

📄 ParaBridge: Bridging Paralinguistic Perception and Dialogue Behavior in Speech Language Models #参数高效微调 8.6/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.6/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.6/10 | 前25% | #参数高效微调 | #参数高效微调 | arxiv 👥 作者与机构 作者: Yuxiang Wang, Qinke Ni, Shengbo Cai, Wan Lin, Liqiang Zhang, Zhizheng Wu 机构: 香港中文大学(深圳), 腾讯混元, 深圳前海微众银行研究院, Amphion Technology Co., Ltd., 清华大学 ...

2026-06-10 · 更新于 2026-06-15 · 1 min · 208 words

Phoneme-First Prediction for LLM-Based Speech Recognition

📄 Phoneme-First Prediction for LLM-Based Speech Recognition #语音识别 #大语言模型 #参数高效微调 #低资源 6.9/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.1/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 6.9/10 | 前50% | #语音识别 | #参数高效微调 | #大语言模型 #低资源 | arxiv 👥 作者与机构 论文作者为 Jakob Poncelet 和 Hugo Van hamme。论文未明确列出作者所属机构,但致谢部分表明研究获得了 Research Foundation Flanders (FWO) 和 Flemish Government 的资助。 💡 毒舌点评 这篇论文的核心想法“先读音素再认字”直观且易于实现,实验也做得很全面。但问题在于,它试图解决的“对齐”问题可能被简单化了,而提出的解决方案(音素)虽然有效,却引入了新的外部依赖(强制对齐工具和词典),并且其最核心的机制(联合训练为何有效)没有得到令人信服的解释。论文更像是一次成功的工程实践,而非一次深刻的机制探索。将ASR性能与专用系统直接比较显得底气不足,论文也巧妙地避开了与近期多模态LLM的强基线对比。 📌 核心摘要 针对当前基于LLM的语音识别系统在连接语音编码器特征与文本语义嵌入时存在的对齐差距问题,本文提出了一种简单有效的方法:在训练和推理时,让LLM首先从语音特征中预测音素,然后再生成文本转录。通过引入音素这一细粒度的声学单元作为中间目标,模型能够学习更精细的发音知识,从而减少声学混淆(如同音异形词)。为解决仅使用音素优先提示训练时,LLM可能过度依赖音素序列而忽略原始语音特征的问题,论文提出了一种联合训练策略,即在训练时随机混合使用标准和音素优先的提示-目标对。实验在多个数据集(LibriSpeech, TEDLIUM, Spoken Dutch Corpus)和不同类型的语音编码器(Whisper, HuBERT, CTC正则化编码器)上进行,结果表明,该方法普遍降低了词错误率(WER),尤其在低资源(100小时)和更自然的语音(TEDLIUM)上效果更显著。同时,分析显示模型生成的转录在音素层面也更准确,表明其声学忠实度得到提升。该方法无需额外的人工标注,且为模型决策提供了一定的可解释性。 ...

2026-06-10 · 更新于 2026-06-15 · 3 min · 435 words

Profy: Interpretable Visualization of Expertise-Dependent Motor Skills Toward Supporting Piano Practice

📄 Profy: Interpretable Visualization of Expertise-Dependent Motor Skills Toward Supporting Piano Practice #多模态模型 #正则化微调 #音乐信息检索 #音乐理解 6.9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.9/10 | 前50% | #音乐信息检索 | #多模态模型 | #正则化微调 #音乐理解 | arxiv 👥 作者与机构 Kazuki Kawamura (东京大学, 索尼计算机科学实验室), Fujiki Nakamura (东京大学), Hayato Nishioka (索尼计算机科学实验室, NeuroPiano研究所), Momoko Shioki (索尼计算机科学实验室, NeuroPiano研究所), Shinichi Furuya (索尼计算机科学实验室, NeuroPiano研究所), Jun Rekimoto (东京大学, 索尼计算机科学实验室) ...

2026-06-10 · 更新于 2026-06-15 · 3 min · 525 words

RAT: Reference-Augmented Training for ASV Anti-Spoofing

📄 RAT: Reference-Augmented Training for ASV Anti-Spoofing #数据增强 8.8/10 | 创新 1.5/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.8/10 | 前25% | #数据增强 | #数据增强 | arxiv 👥 作者与机构 Vojtěch Staněk, Anton Firc, Jakub Řeřicha, Kamil Malinka Security@FIT, 布尔诺理工大学,捷克共和国 {istanek, ifirc, iresj, malinka}@fit.vut.cz 💡 毒舌点评 优点:观察到一个非常有趣的现象——训练时用参考,推理时不用也能提升性能,并设计了有效的RAT策略来利用它。实验在强力基准ASVspoof 5上做得很扎实,单模型性能优越,甚至超过了大型融合系统,结果有说服力。分析部分(第5节)做得不错,尝试从功能依赖和内部机制解释这个现象。 缺点:1. 参考信息块(RIB)的设计(如MLP层数、交叉注意力头数为4)是基于“初步实验”,缺乏更充分的设计空间探索或消融来证明其必要性或优越性。2. 论文声称“推理时不需要参考”,但Table 1显示使用配对参考(2.63% EER)比使用零向量(2.57% EER)性能略差,且Table 2中各种退化条件下性能波动很小,这使得“参考主要服务于训练动态”的核心论点在数值上略显矛盾(虽然作者试图解释)。3. 数据增强策略(30%概率应用多种增强)被提及对RAT至关重要,但并未提供对该策略本身的消融研究(例如,去掉某些增强会如何?)。4. 缺乏与其他数据集的交叉验证,结论的泛化性未得到验证。5. 引言中提到的灵感来源(人脸变形检测、ASV反欺骗)与本文方法的实际关联较弱。 ...

2026-06-10 · 更新于 2026-06-15 · 2 min · 356 words

Recovering the Zipfian Distribution in Unsupervised Term Discovery

📄 Recovering the Zipfian Distribution in Unsupervised Term Discovery #自监督学习 #低资源 8.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 🔥 8.7/10 | 前50% | #自监督学习 | #自监督学习 | #低资源 | arxiv 👥 作者与机构 论文作者为 Danel Slabbert, Simon Malan, Herman Kamper。作者所属机构未在论文中明确提及。 💡 毒舌点评 这是一篇动机清晰、实验系统的“工具选型”论文。它有效地挑战了无监督术语发现(UTD)领域中使用K-means等中心化聚类方法的惯性思维,并用扎实的跨语言实验证据表明,基于图的或凝聚式的底部聚类方法能更好地恢复自然语言的Zipf分布。论文的亮点在于其洞察力:聚类的归纳偏置对最终产出(词汇表结构)有决定性影响。然而,论文的“发现”在本质上更接近于一篇全面的实验对比研究,而非提出一种全新的算法或理论框架。其理论深度有限,对“为何底部方法更好”的解释主要停留在“不强制中心”这一层面,缺乏更形式化的分析。实验设计虽然系统,但设置过于保守(使用真实分割作为上限),未能触及更现实的挑战。因此,它是一篇扎实、实用的工作,但离顶级会议中那些开辟新方向的论文还有差距。 📌 核心摘要 本文系统比较了五种聚类方法在无监督术语发现(UTD)任务中对生成词汇表的影响。研究发现,传统的中心化聚类方法(如K-means)由于其偏向于生成均匀大小簇的归纳偏置,会导致生成的词汇表频率分布平坦,无法反映自然语言的长尾Zipf分布。相反,底部聚类方法(图聚类和凝聚聚类)能够更好地恢复符合语言特性的Zipf分布,并在多个评估指标(特别是衡量类型完整性的iNES和F1 NES)上显著优于中心化方法。其中,图聚类方法通过相似度阈值(\(\tau\))和分辨率参数(\(\gamma\))两个可解释超参数,提供了对生成分布形态和粒度的有效控制。该结论在英语、南非荷兰语和法语三种语言以及三种分割条件下均得到验证。 🔗 开源详情 代码:https://github.com/adendorffy/zipf-clus 模型权重:论文中未提及模型权重的具体下载链接。论文使用了预训练的WavLM Large模型提取特征,但未提供其权重获取方式。 数据集: English: LibriSpeech dev-clean (4.5小时,40位说话者)。论文中未提供下载链接。 Afrikaans: 从FLEURS数据集中抽取的2小时语音(5位说话者)。论文中未提供下载链接。 French: 从ZeroSpeech Challenge Track 2中抽取的4.2小时子集(12位说话者)。论文中未提供下载链接。 Demo:论文中未提及。 复现材料:论文中未提及完整的训练配置、检查点或附录。文中描述了部分实现细节,如使用PCA将WavLM特征降至350维,K-means聚类使用FAISS库实现等。 论文中引用的开源项目: igraph: 用于实现图聚类。链接:https://igraph.org/ FAISS: 用于实现K-means聚类。链接:https://github.com/facebookresearch/faiss scikit-learn: 用于实现BIRCH和层次聚类(凝聚聚类)。链接:https://scikit-learn.org/ ZeroSyl: 用于无监督音节边界检测的方法。论文中未提供其官方代码或主页链接。 🏗️ 方法概述和架构 论文遵循标准的无监督术语发现(UTD)流程:分割、表示、聚类。研究固定了表示阶段,旨在隔离并评估不同聚类方法的影响。 ...

2026-06-10 · 更新于 2026-06-15 · 3 min · 427 words

RespiraMFM: A Multimodal Foundation Model with Contrastive Audio-Language Alignment for Respiratory Disease Identification

📄 RespiraMFM: A Multimodal Foundation Model with Contrastive Audio-Language Alignment for Respiratory Disease Identification #对比学习 #多模态模型 #参数高效微调 6.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.0/1.5 | 清晰 1.0/1 | 影响 0.6/1.5 | 开源 0.7/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.5/10 | 前50% | #对比学习 | #对比学习 | #多模态模型 #参数高效微调 | arxiv 👥 作者与机构 Shakhrul Iman Siam¹, Tiantian Feng², Jiankun Zhang³, Shrikanth Narayanan², Mi Zhang¹ ¹The Ohio State University, ²University of Southern California, ³University of Chicago 通讯作者:{siam.5, mizhang.1}@osu.edu ...

2026-06-10 · 更新于 2026-06-15 · 3 min · 464 words

Spatial-Omni: Spatial Audio Understanding Integration in Multimodal LLMs via FOA Encoding

📄 Spatial-Omni: Spatial Audio Understanding Integration in Multimodal LLMs via FOA Encoding #多模态模型 #大语言模型 9.4/10 | 创新 1.7/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9.4/10 | 前25% | #多模态模型 | #大语言模型 | arxiv 👥 作者与机构 作者:Zhiyuan Zhu, Yixuan Chen, Yiwen Shao, Wenxiang Guo, Changhao Pan, Yu Zhang, Yuxiang Wang, Wei Liu, Houhua Zhang, Chengkuan Zeng, Wenbo Cheng, Yunxi Liu, Rui Yang, Steve Yves, Liefeng Bo, Zhou Zhao 机构:浙江大学,腾讯混元 ...

2026-06-10 · 更新于 2026-06-15 · 2 min · 275 words

Speaker Group Encoding in Self-supervised Speech Recognition Models

📄 Speaker Group Encoding in Self-supervised Speech Recognition Models #自监督学习 #语音识别 #说话人识别 6.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.5/10 | 前50% | #语音识别 | #自监督学习 | #说话人识别 | arxiv 👥 作者与机构 Felix Herron1,2, Solange Rossato2, Alexandre Allauzen1, Benoit Favre2,3, François Portet2 MILES Team, LAMSADE, Université Paris Dauphine-PSL, France GETALP Team, LIG, Université Grenoble Alpes, France NLP team, LIS, Aix-Marseille University, France 💡 毒舌点评 这篇论文的野心不小,想搞清楚自监督语音模型里到底藏了多少“刻板印象”(性别、年龄、方言等)。想法挺有意思,也设计了带梯度反转的探针来避免“记人头”,算是个方法上的小创新。实验做得也算系统,横跨了预训练、微调、公平性算法好几个阶段。但问题也很明显:一是对“语音变异”和“语义变异”的划分过于想当然,缺乏硬核的量化标准来验证;二是实验设置有硬伤,用智能音箱命令的测试集去评估在通用语音(CommonVoice)上微调的模型,这领域鸿沟就像让一个在普通话新闻联播上训练的人去听懂四川话点外卖,结论的普适性得打个大问号;三是Meta数据集的伪ID分割堪称“掩耳盗铃”,泄露风险未被严肃评估;四是整篇分析都停留在“探测到信息存在”的层面,至于这些信息到底怎么具体影响ASR的错误率,跟下游任务性能有多大因果关系,基本是“浅尝辄止”。代码、模型、数据全都没开源,让复现成了空中楼阁。 ...

2026-06-10 · 更新于 2026-06-15 · 2 min · 234 words