Icassp-2026

AUDIOCARDS: Structured Metadata Improves Audio Language Models for Sound Design

📄 AUDIOCARDS: Structured Metadata Improves Audio Language Models for Sound Design #音频检索 #对比学习 #音频分类 #数据集 ✅ 7.5/10 | 前50% | #音频检索 | #对比学习 | #音频分类 #数据集学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Sripathi Sridhar（新泽西理工学院，Adobe Research）通讯作者：未说明作者列表：Sripathi Sridhar（新泽西理工学院，Adobe Research）、Prem Seetharaman（Adobe Research）、Oriol Nieto（Adobe Research）、Mark Cartwright（新泽西理工学院）、Justin Salamon（Adobe Research） 💡 毒舌点评论文核心亮点是精准定位声音设计师的实际工作流，将通用大语言模型的知识“蒸馏”成针对性极强的结构化音频描述（AUDIOCARDS），而非追求通用的音频理解。短板在于其创新主要是任务适配与工程化整合，在模型架构和核心算法上缺乏根本性突破，且严重依赖一个未公开的、可能包含专有数据的大型内部数据集。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：论文将公开发布用于评估的ASFx eval数据集（包含500个经人工验证的音效文件及其音频卡）。核心的训练数据集（200万样本的混合集）未提及会公开。 Demo：未提及。复现��料：论文提供了模型训练的关键超参数（如学习率、批大小、步数）和架构选择，但缺乏完整的训练代码、配置文件和检查点。论文中引用的开源项目：依赖了Whisper（音频编码器）、RoBERTa（文本编码器）、HTSAT（音频编码器）、DistilBERT（分类器）、CREPE（音高估计）和LAION-CLAP（对比学习框架）等开源模型和工具。 📌 核心摘要解决的问题：专业音效库的元数据（如声音类别、声学属性、使用场景）通常缺失或不完整，而现有音频描述模型生成的单句描述无法满足声音设计师的精确检索需求。方法核心：提出“音频卡”（AUDIOCARDS），一种结构化的多字段音频元数据。利用大语言模型（LLM）的世界知识，以音频的声学描述符（响度、音高等）和少量元数据为输入，通过少样本提示生成包含名词、动词、UCS分类、视觉上下文、描述性标题等字段的JSON格式输出。与已有方法的新颖之处：不同于训练通用的单句音频描述模型，AUDIOCARDS首先设计了一种面向特定领域（声音设计）的、细粒度的结构化描述格式。随后，将音频描述和检索任务重新定义为基于这种结构化表示的生成和对比学习任务，使模型训练与下游应用更匹配。主要实验结果：在自行构建的专业音效评估集（ASFx eval）和通用数据集（Clotho）上进行了实验。关键结果包括：结构化元数据生成：在生成音频卡字段任务上，所训练的Whisper-Cards模型全面优于作为基线的Audio Flamingo 3（AF3）模型。描述生成：在ASFx eval上，Whisper-Cards生成的描述在SPIDEr和FENSE指标上显著优于基线模型和AF3等大型音频语言模型（如SPIDEr为19.36 vs. 9.61）。检索：Cards-CLAP模型在零样本检索任务上，在内部专业数据集（ID）和Clotho上的R@10均优于仅使用描述性标题训练的Captions-CLAP模型（如ID上为75.40 vs. 73.45）。表 1. 音频描述生成评估结果 ...

AudioFuse: Unified Spectral-Temporal Learning Via A Hybrid VIT-1D CNN Architecture for Phonocardiogram Classification

📄 AudioFuse: Unified Spectral-Temporal Learning Via A Hybrid VIT-1D CNN Architecture for Phonocardiogram Classification #音频分类 #多模态模型 #混合架构 #医疗音频 #鲁棒性 ✅ 7.5/10 | 前25% | #音频分类 | #多模态模型 #混合架构 | #多模态模型 #混合架构学术质量 7.5/7 | 选题价值 7.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Md. Saiful Bari Siddiqui（BRAC大学计算机科学与工程系）通讯作者：未说明作者列表：Md. Saiful Bari Siddiqui（BRAC大学计算机科学与工程系），Utsab Saha（BRAC大学计算机科学与工程系） 💡 毒舌点评亮点：论文非常清晰地抓住了“心音分析中频谱与波形信息互补”这一核心矛盾，并设计了一个轻量级双分支架构来同时利用两者，实验也证实了该思路的有效性，尤其是在抵抗域偏移方面表现出色。短板：所谓的“创新”更多是工程设计上的巧妙组合，后期融合策略（拼接）本身毫无新意，论文也未深入探讨更复杂融合机制（如跨注意力）在此场景下失效的原因，使其理论贡献稍显薄弱。 🔗 开源详情代码：是。论文提供了GitHub代码仓库链接：https://github.com/Saiful185/AudioFuse。模型权重：未提及是否公开预训练模型权重。数据集：使用了公开的PhysioNet 2016和PASCAL数据集，并说明了获取和处理方式（移除泄露数据）。 Demo：未提及。复现材料：论文提供了主要超参数（学习率、权重衰减、轮数、早停设置），但未提供完整的训练配置、环境依赖文件或检查点。引用的开源项目：论文中未明确列出所依赖的特定开源工具或库（如PyTorch, Hugging Face Transformers等）。 📌 核心摘要问题：传统心音（PCG）分类方法要么使用2D频谱图（丢失相位和时间精度），要么使用1D波形（难以学习频率关系），二者各有局限。 ...

AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation

📄 AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation #音频生成 #语音合成 #多模态模型 #扩散模型 #统一音频模型 ✅ 7.5/10 | 前25% | #音频生成 | #多模态模型 | #语音合成 #扩散模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Le Wang（中国矿业大学，徐州）通讯作者：未说明（论文中未明确标注通讯作者）作者列表：Le Wang（中国矿业大学）、Jun Wang（快手科技，Kling AI）、Chunyu Qiang（快手科技，Kling AI）、Feng Deng（快手科技，Kling AI）、Chen Zhang（快手科技，Kling AI）、Kun Gai（快手科技，Kling AI） 💡 毒舌点评亮点：这篇论文的野心很大，试图用一个统一的“全家桶”模型解决视频到音频、语音、歌曲的生成，并且通过全面的实验确实做到了在多个任务上刷榜，证明了其架构设计的有效性。短板：然而，论文对视频输入的强依赖像一根“拐杖”，限制了其在无视频场景下的应用，而号称的“统一”框架在代码和模型完全黑箱的情况下，其宣称的优越性和可复现性都要打上一个问号。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开预训练模型权重。数据集：论文提及了使用的多个数据集名称及大致规模，但未说明这些数据集是否由作者整理发布，或提供具体的下载/访问方式。部分数据集（如VGGSound, AudioCaps）是公开的，但作者处理后的版本未公开。 Demo：提供了在线演示页面链接：https://ciyou2.github.io/AudioGen-Omni/ 。复现材料：给出了模型总参数、层数、优化器、学习率、批次大小、GPU型号和训练时长等关键训练细节。但缺乏具体的网络层配置（如隐藏维度、注意力头数）、数据增强方法、评估脚本等，复现材料不充分。论文中引用的开源项目：论文明确引用了并依赖以下开源模型或工具：F5-TTS [14], ConvNeXt-V2 [10], Synchformer [15], ViT-bigG (MetaCLIP) [31], T5-Base [30], Kling-Foley [32], VQ-CTAP [33], Qwen-Omni [27], Whisper [28], FunASR [29], FLUX [12], SD3 [11]。 📌 核心摘要解决的问题：现有视频到音频（包括音效、语音、音乐）的生成方法大多任务特定、模型碎片化，且跨模态（如唇音同步）对齐效果不佳，限制了通用性和生成质量。方法核心：提出AudioGen-Omni，一个基于多模态扩散变换器（MM-DiT）的统一框架。其核心是引入了“歌词-转录编码器”，将音素/字素映射为帧级稠密表示；并设计了“相位对齐各向异性位置注入（PAAPI）”，在注意力机制中对视频、音频、转录文本等有时序结构的模态选择性地应用旋转位置编码，以实现精细的跨模态同步。创新点：a) 首个能同时处理音频、语音、歌曲生成的统一多模态条件生成框架；b) 提出了无需音素时长监督的歌词转录编码模块；c) PAAPI机制增强了细粒度的时序对齐。与先前工作不同，它解冻了所有模态并采用掩码输入策略，增强了灵活性。主要实验结果：在VGGSound音频生成测试集上，其FD指标（PaSST 58.77, PANNs 6.29）优于MMAudio等基线（见表1）。在LRS3/LRS2语音生成测试中，其UTMOS（3.982/3.842）和DNSMOS（3.782/3.767）得分甚至超过真实语音，WER也大幅降低（17.56%/17.75%）（见表2）。在说话人相似度（SECS）评估中，其GE2E和VoxSim分数均高于其他方法（见表3）。模型能在1.91秒内生成8秒音频。实际意义：为多媒体内容创作提供了一个高效、高质量的统一音频生成工具，有望简化视频后期制作流程，增强虚拟人物、游戏、社交媒体的音频沉浸感。主要局限性：模型依赖视频输入，当无视觉信息时应用受限；论文未开源代码和模型，限制了社区复现和二次开发；虽能生成歌曲，但对复杂音乐结构的控制能力未深入展示。 🏗️ 模型架构 AudioGen-Omni是一个端到端的多模态扩散变换器，旨在根据可选的视频和文本输入，生成同步的音频、语音或歌曲。 ...

AUDIOGENIE-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning

📄 AUDIOGENIE-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning #音频问答 #音频场景理解 #多智能体 #迭代优化 #大语言模型 ✅ 7.0/10 | 前25% | #音频问答 | #多智能体 | #音频场景理解 #迭代优化学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构请基于当前提供的论文内容尽量完整提取作者与机构信息，要求：明确标注第一作者（如论文可判断），否则写“未说明” 明确标注通讯作者（如论文可判断），否则写“未说明” 列出能确认的作者姓名及其所属机构（大学、实验室、公司）机构信息尽量具体到实验室或部门；如果文本里没有，就写到能确认的层级禁止猜测机构信息；无法确认时明确写“未说明” 输出格式示例：第一作者：张三（清华大学计算机系）通讯作者：李四（Google DeepMind）作者列表：张三（清华大学计算机系）、李四（Google DeepMind）、王五（未说明）第一作者：Yan Rong（香港科技大学（广州））通讯作者：Li Liu（香港科技大学（广州））作者列表：Yan Rong（香港科技大学（广州））、Chenxing Li（腾讯AI Lab）、Dong Yu（腾讯AI Lab）、Li Liu（香港科技大学（广州）） 💡 毒舌点评用 2-3 句话做有信息量的点评，必须同时包含至少 1 个亮点和 1 个短板。可以犀利，但不要空泛嘲讽，不要只喊“很强”或“很水”。 ...

Auditory Illusion Benchmark for Large Audio Language Models

📄 Auditory Illusion Benchmark for Large Audio Language Models #模型评估 #基准测试 #音频大模型 #听觉认知 ✅ 7.0/10 | 前50% | #模型评估 | #基准测试 | #音频大模型 #听觉认知学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Hayoon Kim（首尔大学音乐与音频研究组，首尔大学智能信息学系）通讯作者：Kyogu Lee（首尔大学音乐与音频研究组，首尔大学智能信息学系，AIIS，IPAI）作者列表：Hayoon Kim（首尔大学音乐与音频研究组，首尔大学智能信息学系）、Eunice Hong（首尔大学音乐与音频研究组，首尔大学智能信息学系）、Kyogu Lee（首尔大学音乐与音频研究组，首尔大学智能信息学系，AIIS，IPAI） 💡 毒舌点评亮点：论文首次将认知科学中的“听觉错觉”概念系统化为评估大型音频语言模型（LALMs）的基准，方法严谨（包含对照组和人类基线），指出了模型在“感知”层面与人类的关键差距，角度新颖且具有启发性。短板：所有评估任务被压缩为简单的二选一或三选一，这种简化可能无法充分捕捉复杂听觉错觉的微妙体验和动态过程；对模型内部为何产生差异的分析停留在表面，缺乏更深入的机理解释。 🔗 开源详情代码：提供了生成AIB错觉刺激的开源代码仓库：https://github.com/gillosae/aib。模型权重：未提及。论文评估的是已公开的模型（如Qwen2-Audio, MuLLaMa等），未提出或开源新的模型权重。数据集：是，已公开。论文声明AIB基准数据集已通过上述GitHub仓库公开发布。 Demo：未提及。复现材料：提供了数据集和刺激生成代码，复现评估结果需要访问被评估的模型及其权重（这些通常是公开的）。论文未提供详细的评估脚本或配置文件。论文中引用的开源项目：引用了多个被评估模型的开源项目，如Pengi、Audio Flamingo、MuLLaMa、Qwen-Audio等。 📌 核心摘要要解决什么问题：当前对大型音频语言模型（LALMs）的评估主要集中在识别准确性等客观任务上，缺乏评估其是否内化了人类特有的感知偏差（如对听觉错觉的易感性）的方法。本文旨在填补这一空白。方法核心是什么：提出了首个听觉错觉基准（AIB），包含10种代表性听觉错觉（分为基于物理和基于物理+知识两类），涵盖音乐、声音和语音领域。将每个错觉的感知判断转化为多项选择题，并与控制刺激一起，对多款LALMs和人类被试（20名绝对音感者）进行平行测试。与已有方法相比新在哪里：AIB是首个专门为LALMs设计的听觉错觉评估基准。与主要关注准确率或推理的现有音频基准不同，AIB的核心目标是衡量模型的“人类感知对齐度”（通过ISI等指标），即模型是否像人类一样“犯错”。主要实验结果如何：人类被试在各类错觉上均表现出极高的易感性（ISI≈0.8-0.9）。LALMs的表现则系统性地分化：在“基音缺失”等低级声学错觉上，Qwen2-Audio表现出近人类易感性（ISI>0.9）；在需要结合知识的错觉（如谢泼德音调）上，大模型（如MuLLaMa）显示出部分对齐，但整体仍弱于人类；在语音相关错觉（语音转歌曲、音素恢复）上差距最大，仅Qwen2-Audio在音素恢复上达到完美人类对齐，但所有模型在语音转歌曲上均失败。详细结果见下表。实际意义是什么：为评估和开发更具“人感”的音频AI模型提供了新的诊断维度和工具。有助于推动模型从追求信号保真度向模拟人类认知特性发展，并为认知科学提供对比人类与机器感知的实验平台。主要局限性是什么：评估任务被简化为固定的多项选择题，可能无法全面评估错觉感知的丰富性。许多模型在控制条件下性能也不稳定，表明其基础音频理解能力仍有不足。论文未深入探讨模型架构或训练方式导致差异的具体原因。实验结果表格：模型参数量 Physics (幻觉) HLA/RA/ISI Physics (控制) HLA/RA/ISI Physics+Knowledge (幻觉) HLA/RA/ISI Physics+Knowledge (控制) HLA/RA/ISI 总体平均 HLA/RA/ISI Human - 1.000/0.000/1.000 1.000/1.000/0.000 1.000/0.000/1.000 1.000/1.000/0.000 1.000/0.000/1.000 Pengi 323M 0.677/0.323/0.355 0.333/0.389/-0.056 0.715/0.285/0.430 0.083/0.224/0.141 0.408/0.296/0.112 Audio Flamingo Chat 2.2B 0.925/0.075/0.875 0.120/0.139/-0.019 0.963/0.037/0.926 0.245/0.217/0.028 0.901/0.056/0.845 MuLLaMa 7B 0.535/0.465/0.070 0.155/0.167/-0.012 0.856/0.144/0.711 0.084/0.217/0.133 0.519/0.240/0.279 Qwen-Audio-Chat 8.4B 0.305/0.695/-0.389 0.267/0.222/0.045 0.567/0.433/0.133 0.083/0.217/0.134 -0.023/0.512/-0.535 Qwen2-Audio 8.4B 0.985/0.015/0.971 0.015/0.111/-0.096 0.744/0.256/0.489 0.083/0.217/0.134 0.633/0.183/0.450 Qwen2-Audio-Instruct 8.4B 0.182/0.818/-0.636 0.314/0.222/0.092 0.470/0.530/-0.059 0.088/0.217/0.129 -0.232/0.616/-0.848 图1展示了AIB中三个错觉刺激（基音缺失、Zwicker音调、Tartini音调）及其对照刺激的示例，以及用于查询人类和AI模型的提示格式。这直观地说明了如何将听觉错觉感知转化为可评估的任务。 ...

Auditory-Inspired Transformer for Binaural Speech Enhancement and Spatial Cue Preservation

📄 Auditory-Inspired Transformer for Binaural Speech Enhancement and Spatial Cue Preservation #语音增强 #端到端 #空间音频 #多通道 ✅ 7.0/10 | 前25% | #语音增强 | #端到端 | #空间音频 #多通道学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Sirawitch Laichatkul（朱拉隆功大学计算机工程系）通讯作者：未说明作者列表：Sirawitch Laichatkul（朱拉隆功大学计算机工程系）、Waradon Phokhinanan（巴黎高等师范学校感知系统实验室）、Thanapat Trachu（朱拉隆功大学计算机工程系）、Ekapol Chuangsuwanich（朱拉隆功大学计算机工程系） 💡 毒舌点评这篇论文最大的亮点在于将听觉皮层的频率选择性（tonotopy）和自上而下注意力这一神经科学概念，成功地转化为了一个有效的计算模块（修改的ViT编码器和频率受限注意力掩码），为解决双耳增强中的空间线索失真问题提供了一个新颖且合理的切入点。但短板同样明显：模型对最具挑战性的相位线索（IPD）保持效果提升有限（∆IPD仅从1.12/1.13微降至1.09），实验仅基于合成数据，其在真实复杂声学环境下的表现和泛化能力有待验证，且缺乏开源代码，让这份“灵感”稍显难以触摸。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及是否公开预训练模型权重。数据集：训练和评估所用的数据（CSTR， QUT-NOISE-TIMIT， MS-SNSD）均为公开数据集，但论文中未说明具体的下载方式或处理脚本。 Demo：未提供在线演示。复现材料：论文中提供了较为详细的训练设置（优化器、学习率、批次大小、训练轮数）、模型超参数（层数、维度、patch大小）以及数据预处理流程，这些构成了复现的基本要素。论文中引用的开源项目：论文引用了HRTF测量数据[17]，但未明确表示其代码或数据的可获取性。其他引用多为方法论文或数据集。总结：论文中未提及开源计划。虽然复现所需的关键技术细节已在文中阐述，但缺乏直接可用的代码和权重，使得完全复现存在一定门槛。 📌 核心摘要问题：双耳语音增强不仅要在频谱上抑制噪声，更关键的是要保持双耳线索（如耳间时间差ITD和耳间强度差ILD），否则会破坏空间听觉，影响助听器和增强现实等应用效果。现有方法在这一挑战上表现不足。方法：提出了BinauralViT，一个受听觉神经科学启发的Transformer架构。其核心是引入两个听觉启发层：一个能实现“自上而下”注意力的频率选择性表示层（通过修改ViT编码器和添加频率注意力掩码实现），以及一个用于捕捉时序连贯性的语音处理层。创新：与已有方法相比，新在：1）受皮层频率拓扑组织启发，设计了允许同一时间帧内频率间注意力但限制跨帧注意力的机制；2）提出了一种双层Transformer结构，第一层进行特征选择与融合，第二层建模时序依赖以保持空间线索。结果：在合成的非平稳噪声数据集上，BinauralViT在PESQ（2.78 vs 2.54/2.30）、SI-SNR（17.43 vs 16.92/15.30）上优于BiTasNet和BCCTN基线，并在ILD保持（∆ILD 4.20 vs 6.03/5.85）上显著提升，IPD保持（∆IPD 1.09 vs 1.13/1.12）略有改善。MBSTOI（~0.98）在所有模型中已接近饱和。消融实验验证了修改ViT编码器、第二层编码器及IPD/ILD特征的必要性。意义：为双耳语音处理提供了一种新的、受生物启发的模型设计思路，证明了模拟听觉机制对提升空间线索保持能力的有效性，对助听技术发展有积极参考价值。局限：实验在模拟数据上进行，可能无法完全反映真实场景的复杂性；对IPD的提升幅度有限；模型计算复杂度和实时性未作讨论。 🏗️ 模型架构 BinauralViT的完整架构如图1所示，是一个端到端的双耳语音增强模型，其目标是从带噪的双耳语音信号中估计出相位敏感掩码（PSM），进而重构出干净语音。整体流程可分为四个主要阶段： ...

AURA: A Stegaformer-Based Scalable Deep Audio Watermark with Extreme Robustness

📄 AURA: A Stegaformer-Based Scalable Deep Audio Watermark with Extreme Robustness #音频水印 #音频安全 #Conformer #条件模型 #鲁棒性 ✅ 7.5/10 | 前25% | #音频水印 | #条件生成 | #音频安全 #Conformer 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Linxi Li（University of Warwick， OfSpectrum, Inc.）通讯作者：未说明作者列表：Linxi Li（University of Warwick， OfSpectrum, Inc.）、Liwei Jin（OfSpectrum, Inc.）、Yechen Wang（OfSpectrum, Inc.）、Houmin Sun（Duke Kunshan University）、Zi Hu（Duke Kunshan University）、Carsten Maple（University of Warwick） 💡 毒舌点评亮点：论文直面了现有音频水印方法在应对“极端”攻击（如剧烈变速、高损压缩、录音回放）时崩溃的痛点，并用一套设计周密的实验（包括真实环境下的手机录音回放）令人信服地展示了AURA模型在这些极端场景下近乎完美的鲁棒性，其性能提升是数量级的。短板：论文引以为傲的“首个缩放定律研究”，其核心结论（如“宽深”模型最优）缺乏足够的理论支撑和普适性验证，目前更像是一次基于小规模网格搜索的经验性观察。此外，人类评估仅用24人测试40个样本，其统计显著性和代表性存疑，难以为“水印不可感知”的结论提供强有力背书。 ...

Auto-MatchCut: An Audio-Visual Retrieval Framework for Seamless Match Cutting

📄 Auto-MatchCut: An Audio-Visual Retrieval Framework for Seamless Match Cutting #音频检索 #视频检索 #跨模态 ✅ 7.0/10 | 前50% | #跨模态检索 | #音频检索 | #视频检索 #跨模态学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Hongjie Chen (Dolby Laboratories) 通讯作者：未说明作者列表：Hongjie Chen (Dolby Laboratories), Hanyu Meng (The University of New South Wales), Gautam Bhattacharya (Dolby Laboratories), Lie Lu (Dolby Laboratories), Josh Kimball (Dolby Laboratories), Ryan Rossi (未说明) 💡 毒舌点评亮点：框架设计巧妙，通过独立控制音频和视觉距离参数（τ_a, τ_v），为用户提供了在“平滑”与“创意对比”之间灵活调节的杠杆，这是对现有单一模态方法的一个有意义扩展。短板：评估方法过于依赖主观打分（人类和LLM），缺乏如剪切点帧级精确度、跨视频语义连贯性等客观、可量化的指标，使得“超过60%平滑”的结论说服力打折扣；且整个系统严重依赖所选编码器（CLAP/CLIP）的性能，未探讨其边界与失效情况。 ...

Automated Dysphagia Screening Using Noninvasive Neck Acoustic Sensing

📄 Automated Dysphagia Screening Using Noninvasive Neck Acoustic Sensing #音频分类 #信号处理 #数字健康 #生物声学 🔥 8.0/10 | 前25% | #音频分类 | #信号处理 | #数字健康 #生物声学学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Jade Chng（Jacobs School of Engineering, University of California San Diego; Department of Biomedical Engineering, Duke University）（论文中标注了*，且名字在首位）通讯作者：未明确指定。论文中标注Andrew Yousef和Philip A Weissbrod为“Equal Senior Authors”（†）。作者列表： Jade Chng（加州大学圣地亚哥分校 Jacobs 工程学院；杜克大学生物医学工程系） Rong Xing（加州大学圣地亚哥分校 Jacobs 工程学院） Yunfei Luo（加州大学圣地亚哥分校 Halıcıoğlu 数据科学研究所） Kristen Linnemeyer-Risser（加州大学圣地亚哥分校耳鼻喉头颈外科系） Tauhidur Rahman（加州大学圣地亚哥分校 Jacobs 工程学院；Halıcıoğlu 数据科学研究所） Andrew Yousef（加州大学圣地亚哥分校耳鼻喉头颈外科系）（平等资深作者） Philip A Weissbrod（加州大学圣地亚哥分校耳鼻喉头颈外科系）（平等资深作者） 💡 毒舌点评亮点：这篇论文的最大亮点在于其扎实的临床数据采集流程——将声学传感与吞咽评估的“金标准”FEES实时同步进行，确保了标签的准确性，这为医疗声学研究树立了良好的数据基础。短板：然而，其核心模型（随机森林）和自动分割算法（固定参数/滑动窗口）显得相对传统和保守，在模型创新性上略显不足；更重要的是，未提供任何代码或数据，对于一项旨在推动“实用工具”的工作而言，这极大地限制了其快速验证和应用转化的可能性。 ...

Automatic Estimation of Speaker Diarization Error Rate Based on Features of Audio Quality and Speaker Discriminability

📄 Automatic Estimation of Speaker Diarization Error Rate Based on Features of Audio Quality and Speaker Discriminability #说话人分离 #说话人日志 #模型评估 #语音活动检测 #聚类 ✅ 7.5/10 | 前25% | #说话人分离 | #说话人日志 | #模型评估 #语音活动检测学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Kenkichi Ishizuka (RevComm Inc.) 通讯作者：未说明作者列表：Kenkichi Ishizuka (RevComm Inc., Tokyo, Japan), Chang Zeng (RevComm Inc., Tokyo, Japan), Masaki Ono (RevComm Inc., Tokyo, Japan), Taiichi Hashimoto (RevComm Inc., Tokyo, Japan) 💡 毒舌点评本文的亮点在于它精准地识别并填补了“说话人日志误差率（DER）自动估计”这一实用但被忽视的研究空白，并设计了一个逻辑自洽、实验充分的框架来证明其可行性。其短板则在于方法创新性略显不足，核心贡献是启发式地组合了现有特征（VAD差异、DNSMOS、聚类指标）和回归模型，更像一个精心设计的工程解决方案，而非在理论或模型上有深层突破。 ...