Icassp-2026

The Role of Prosodic and Lexical Cues in Turn-Taking with Self-Supervised Speech Representations

📄 The Role of Prosodic and Lexical Cues in Turn-Taking with Self-Supervised Speech Representations #语音对话系统 #自监督学习 #语音活动检测 #语音表示学习 ✅ 7.5/10 | 前25% | #语音对话系统 | #自监督学习 | #语音活动检测 #语音表示学习学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Sam O’Connor Russell（都柏林三一学院工程学院）通讯作者：未说明作者列表：Sam O’Connor Russell（都柏林三一学院工程学院）、Delphine Charuau（都柏林三一学院工程学院）、Naomi Harte（都柏林三一学院工程学院） 💡 毒舌点评本文巧妙地将神经科学中的“声音相关噪声”范式移植到语音轮次预测的可解释性分析中，像做手术一样干净地分离了韵律和词汇线索，方法论上值得称赞。然而，结论“仅韵律就够了”可能过于乐观，毕竟实验中的“韵律匹配噪声”在真实世界的噪声环境下难以复现，且模型在复杂对话场景中是否仍能如此可靠地依赖单一线索存疑。 🔗 开源详情代码：论文中提供了代码仓库链接：github.com/russelsa/noise_generation_ICASSP-。模型权重：未提及是否公开预训练好的VAP模型或S3R权重。数据集：使用CANDOR语料库，论文未提及是否提供处理后的数据版本或获取方式。 Demo：未提及。复现材料：论文详细说明了训练超参数（学习率、batch size、epoch数）、vocoder参数、评估指标和划分方法，提供了充分的复现细节。引用的开源项目：主要依赖WORLD vocoder、Whisper（用于计算WER）、CPC和wav2vec 2.0预训练模型。 📌 核心摘要要解决的问题：基于自监督语音表示（S3R）的轮次预测模型性能优异，但其决策依赖于语音中的哪些线索（韵律 vs. 词汇）尚不清楚，这限制了模型的可解释性、隐私保护和轻量化潜力。方法核心：引入一种基于WORLD vocoder的控制方法，能够干净地生成仅保留韵律（去除词汇可懂度）或仅保留词汇（平滑韵律）的语音，用于系统性地探究S3R模型（主要是VAP模型）的线索依赖关系。与已有方法相比新在哪里：不同于以往通过简单滤波或添加背景噪声（会同时破坏多种线索）的研究，该方法能独立、可控地操纵语音的韵律和词汇成分，提供了更干净的实验条件。研究范围从单一S3R（CPC）扩展到了wav2vec2.0，增强了结论的普适性。主要实验结果：在纯净语音上训练的VAP模型，在测试时面对仅保留韵律的噪声语音（WER>100%），仍能保持较高的轮次预测准确率（S/H-Pred平衡准确率≈70%，见表2），接近纯净语音性能的91%（图4）。相反，去除韵律（平滑音高和强度）后，性能虽下降但仍显著高于随机水平（表2）。当一种线索被破坏时，模型无需重新训练即可利用另一种线索，证明两种线索在S3R编码中相互独立（图2）。这一结论在wav2vec2.0前端上同样成立。实际意义：该发现为设计轻量化、仅依赖韵律的轮次预测模型提供了理论支持，此类模型具有计算高效和保护语音隐私（去除可识别词汇内容）的双重优势。主要局限性：研究仅在英语对话语料库（CANDOR）上进行，跨语言泛化性未验证。所使用的“韵律匹配噪声”是一种受控实验条件，与真实世界的噪声干扰存在差异。 🏗️ 模型架构论文主要分析的对象是语音活动投影（Voice Activity Projection， VAP）模型，一个基于S3R的轮次预测模型。其架构如下： ...

The Singing Voice Conversion Challenge 2025: From Singer Identity Conversion to Singing Style Conversion

📄 The Singing Voice Conversion Challenge 2025: From Singer Identity Conversion to Singing Style Conversion #歌唱语音转换 #基准测试 #数据集 #开源工具 ✅ 7.0/10 | 前50% | #歌唱语音转换 | #基准测试 | #数据集 #开源工具学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Lester Phillip Violeta（Nagoya University, Japan）通讯作者：未说明作者列表：Lester Phillip Violeta（Nagoya University, Japan），Xueyao Zhang（The Chinese University of Hong Kong, Shenzhen, China），Jiatong Shi（Carnegie Mellon University, USA），Yusuke Yasuda（National Institute of Informatics, Japan），Wen-Chin Huang（Nagoya University, Japan），Zhizheng Wu（The Chinese University of Hong Kong, Shenzhen, China），Tomoki Toda（Nagoya University, Japan） 💡 毒舌点评这篇论文的核心价值在于清晰地将“歌唱风格转换”确立为一个独立的、系统性的研究基准，并提供了精心设计的任务和评估框架，这对推动领域从单纯的“歌手克隆”向更精细的控制迈进具有导航意义。然而，作为一项挑战赛报告，其主要贡献在于提出问题、组织比赛和总结现有方法的表现，而非提出一个能显著超越现有技术的新模型或算法，论文中也坦承“歌唱风格转换仍然挑战重重”，未能给出引领性的解决方案。 ...

The Synergistic Role of Audio and Large Video-Language Model in Source-Free Video Domain Adaptation

📄 The Synergistic Role of Audio and Large Video-Language Model in Source-Free Video Domain Adaptation #领域适应 #多模态模型 #预训练 #知识蒸馏 #音视频 ✅ 7.0/10 | 前25% | #领域适应 | #多模态模型 | #预训练 #知识蒸馏学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Tzu Ling Liu（University of Saskatchewan, Department of Computer Science）通讯作者：未说明作者列表：Tzu Ling Liu（University of Saskatchewan, Department of Computer Science）、Ian Stavness（University of Saskatchewan, Department of Computer Science）、Mrigank Rochan（University of Saskatchewan, Department of Computer Science） 💡 毒舌点评这篇论文巧妙地将“大”（LVLM）和“稳”（音频）两种特性融合，在SOTA已经很高的任务上又挤出了几个百分点的性能提升，工程整合能力值得肯定。然而，其“多模态”的核心贡献中，音频模态的“协同作用”在消融实验中只带来了约1.7%的平均增益（从54.2%到55.9%），显得有些雷声大雨点小，更像是为用音频而用音频，缺乏对音频为何有效以及在何种情况下可能失效的深入机制分析。 ...

Theory and Application of Circular Relative Harmonic Coefficients

📄 Theory and Application of Circular Relative Harmonic Coefficients #声源定位 #麦克风阵列 #信号处理 #多通道 ✅ 7.5/10 | 前25% | #声源定位 | #麦克风阵列 | #信号处理 #多通道学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Yonggang Hu（National Key Laboratory on Blind Signal Processing, Chengdu, China）通讯作者：Maoshen Jia（Beijing University of Technology, Beijing, China）作者列表：Yonggang Hu（National Key Laboratory on Blind Signal Processing, Chengdu, China）、Liang Tao（未说明）、Jing Yu（National Key Laboratory on Blind Signal Processing, Chengdu, China）、Tianpeng Mao（National Key Laboratory on Blind Signal Processing, Chengdu, China）、Maoshen Jia（Beijing University of Technology, Beijing, China） 💡 毒舌点评亮点：论文的理论推导部分非常扎实，从圆谐波分解出发，清晰地定义了CRHC特征并严谨地证明了其与频率、源信号无关且与方位角一一对应的优美性质，为后续应用提供了坚实的理论基础。短板：实验部分虽然包含了仿真和真实录音，但缺乏与当前更先进的声源定位算法（如基于深度学习的端到端方法、或更复杂的子空间/稀疏恢复方法）的直接对比，仅与基于RTF的简单基线进行比较，这使得其声称的“有效性”说服力打了折扣。此外，论文未提供任何代码或复现材料，对于一个提出新特征的工作来说，这是个明显的缺失。 ...

Thinking While Listening: Simple Test Time Scaling for Audio Classification

📄 Thinking While Listening: Simple Test Time Scaling for Audio Classification #音频分类 #预训练 #测试时缩放 #大语言模型 #零样本 ✅ 6.5/10 | 前50% | #音频分类 | #测试时缩放 | #预训练 #大语言模型学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Prateek Verma（斯坦福大学电气工程系）通讯作者：未说明作者列表：Prateek Verma（斯坦福大学电气工程系）、Mert Pilanci（斯坦福大学电气工程系） 💡 毒舌点评本文将LLM领域的“测试时缩放”概念移植到音频分类，思路清晰，用轻量级的GPT-2微调击败百亿参数大模型的结果也颇具启发性。但遗憾的是，论文在方法细节的深度打磨和与最新技术的全面比较上显得有些“想得不够深”，比如缺乏不同音频编码器、不同聚合策略的系统消融，更像是一个概念验证报告而非坚实的技术突破。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及是否公开了微调后的嵌入矩阵或任何其他模型权重。数据集：使用了公开数据集ESC-50和FSD-50K，但未提供预处理脚本或划分细节。 Demo：未提及。复现材料：提供了一些关键超参数（如补丁长度、采样次数范围、训练轮数、学习率），但缺少优化器、批量大小、随机种子、完整配置文件等核心复现信息。论文中引用的开源项目：引用了AST[17]， YAMNet[18]， GPT-2[20]， AudioSet[21]， ESC-50[26]， FSD-50K[27]。 📌 核心摘要问题：论文旨在探索如何将大型语言模型中的“推理”和“测试时缩放”能力引入音频分类任务，在模型权重固定的情况下，仅通过增加推理时的计算来提升性能。方法核心：提出“边听边想”框架。首先，利用预训练的音频模型（如AST， YAMNet）对输入音频进行补丁级（如500ms）的因果预测，通过多次采样为每个补丁生成一个包含类别和置信度的“推理轨迹”。然后，将这个轨迹输入一个冻结的大语言模型（如GPT-2， GPT-OSS-20B），利用其推理能力聚合轨迹信息，做出最终分类。与已有方法相比新在哪里：传统音频分类管道（如AST）直接输出单个概率向量。本文方法在推理时构建了动态的、基于证据累积的“推理链”，并将分类任务转化为LLM可以处理的序列推理问题。其创新在于将音频模型的输出（而非原始音频）作为LLM的推理输入，并利用测试时缩放来提升性能。主要实验结果：在ESC-50数据集（单标签）上，冻结的AST模型通过增加采样轨迹长度（从1到32）并用GPT-2聚合，准确率从79.3%提升至88.3%，接近全量微调的88.8%。在FSD-50K数据集（多标签）上，增加采样轨迹长度同样能持续提升AUC。论文中关键实验结果表格如下：表1: ESC-50数据集上，基于YAMNet骨干网络，不同采样长度下零样本文本推理模型的准确率对比 ...

Three Seconds is Sufficient: A Multi-Pronged Framework for Model-Based Speaker Adaptation in ASR Under Data-Scarce Conditions

📄 Three Seconds is Sufficient: A Multi-Pronged Framework for Model-Based Speaker Adaptation in ASR Under Data-Scarce Conditions #语音识别 #迁移学习 #低资源 #数据增强 ✅ 7.0/10 | 前50% | #语音识别 | #迁移学习 | #低资源 #数据增强学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Jiajun Deng（华为中央媒体技术研究所）通讯作者：未说明作者列表：Jiajun Deng（华为中央媒体技术研究所），Guinan Li（香港中文大学），Chunyat Wu（香港中文大学），Tristan Tsoi（华为中央媒体技术研究所），Huimeng Wang（香港中文大学），Tao Zhong（香港中文大学），Zhaoqing Li（香港中文大学），Chengxi Deng（香港中文大学），Youjun Chen（香港中文大学），Shujie Hu（香港中文大学），Xunying Liu（香港中文大学），Simon Lui（华为中央媒体技术研究所） 💡 毒舌点评该论文的最大亮点在于构建了一个全面、系统化的技术框架，将模型、数据、参数三个维度的改进策略集成为一个整体，并在极端数据稀缺（3秒）场景下验证了其有效性，展现了扎实的工程集成能力。然而，其短板也十分明显：框架内各组件（如概率SAT、数据检索、贝叶斯变分推断等）均非最新提出，论文更像是一个“集大成”的工程应用，缺乏单点上的深度理论创新；同时，未提供任何代码或详细的复现指南，使得其“可复现性”大打折扣。 🔗 开源详情论文中未提及任何开源计划。代码、模型权重、合成后的数据集均未提供获取方式。论文引用了开源项目F5-TTS [36]和Cosyvoice2 [35]作为数据合成部分的基线对比模型，但其改进版本F5-TTS-Spk的实现细节未公开。 📌 核心摘要问题：在数据稀缺条件下（例如仅有几秒钟的语音），基于模型的端到端ASR说话人自适应性能严重下降，容易因样本过少而过拟合。方法核心：提出一个“多管齐下”的系统化框架，同时从三个方面进行改进：1) 模型层面，采用低秩子空间分解的LHUC方法（Subspace LHUC）和概率性说话人自适应训练（Probabilistic SAT）来降低参数量并提供更好的初始化；2) 数据层面，通过检索相似说话人数据（基于i-vector）和引导式语音合成（基于F5-TTS-Spk模型）来增强可用数据；3) 参数层面，采用贝叶斯建模和梯度/参数稳定化（MC-Dropout + EMA）来提升参数估计的鲁棒性。创新性：据作者称，这是首次为端到端ASR的模型自适应设计一个全面、系统的框架来解决数据稀疏问题。创新点在于将多种已有技术进行针对性组合，并提出改进的F5-TTS-Spk合成模型。实验结果：在Switchboard（300小时英语）和内部数据集（5000小时中文）上进行了实验。核心结果如下表所示，在极具挑战性的“3秒语音”（Tiny）条件下，完整的多管齐下框架相比标准LHUC-SAT基线，分别实现了1.6%和4.3%的绝对WER降低。数据集方法 Tiny (~3s) Small (~18s) Medium (~84s) Large (~163s) Switchboard SI模型 11.1 - - - LHUC-SAT (基线) 12.2 11.9 11.2 10.5 本文多管齐下框架 10.6 10.1 10.1 9.9 内部数据集 SI模型 15.72 - - - LHUC-SAT (基线) 18.91 16.39 14.97 14.02 本文多管齐下框架 14.61 13.22 12.77 12.62 实际意义：该研究显著提升了极少量目标说话人数据下的自适应性能，对于实现快速、个性化的语音助手、跨领域语音识别等实际应用具有重要价值。主要局限：1) 框架较为复杂，依赖于外部大模型（LLM用于生成文本、F5-TTS用于合成），增加了部署成本；2) 论文属于技术集成创新，单个组件（如子空间LHUC、变分推断）的原创性有限；3) 未提供开源代码，阻碍了后续研究和验证。 🏗️ 模型架构论文提出的整体框架如图1所示，是一个集数据、模型、参数于一体的说话人自适应系统。其核心是基于Conformer ASR模型和LHUC自适应方法。 ...

TICL: Text-Embedding KNN for Speech in-Context Learning Unlocks Speech Recognition Abilities of Large Multimodal Models

📄 TICL: Text-Embedding KNN for Speech in-Context Learning Unlocks Speech Recognition Abilities of Large Multimodal Models #语音识别 #少样本学习 #多语言 #低资源 #语音大模型 ✅ 7.5/10 | 前25% | #语音识别 | #少样本学习 | #多语言 #低资源学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Haolong Zheng（伊利诺伊大学厄巴纳-香槟分校）通讯作者：未明确说明（从作者列表和邮箱格式推断三位作者贡献平等，未指定通讯作者）作者列表：Haolong Zheng（伊利诺伊大学厄巴纳-香槟分校）、Yekaterina Yegorova（伊利诺伊大学厄巴纳-香槟分校）、Mark Hasegawa-Johnson（伊利诺伊大学厄巴纳-香槟分校） 💡 毒舌点评亮点：论文以最小的“技术杠杆”（仅用伪标签生成+文本嵌入检索）撬动了大型多模态模型在多种困难语音场景下高达84.7%的性能提升，证明了“好示例”比“多示例”更重要，方法简洁有效且泛化性好。短板：方法的天花板受限于伪标签质量和检索词典的覆盖度，在处理稀有词汇或复合词时（如中文部分结果恶化）显得力不从心，且对SICL为何有效的深层机制探讨不足，更像一次成功的“炼金术”应用。 🔗 开源详情代码：论文中未提及提供TICL方法的官方代码仓库。模型权重：未提及。TICL本身不训练模型，使用的是公开的预训练模型（Whisper, Phi-4-MM, Qwen2-Audio, Sentence-Transformers）。数据集：论文使用了多个公开数据集（GLOBE-V2, L2-Arctic, Common Voice, MyST, OGI Kids, ENNI, RSR），文中提到了数据集名称和引用，获取方式需参考原始数据集。 Demo：未提及。复现材料：论文提供了实验设置的关键信息（如模型名称、嵌入模型、K值选择），但缺乏具体的代码实现、配置文件或训练/评估脚本。论文中引用的开源项目： Whisper (通过 Hugging Face Transformers) Phi-4-MultiModal-instruct (Microsoft) Qwen2-Audio-7B-Instruct (Qwen Team) Sentence-Transformers 模型：all-mpnet-base-v2, paraphrase-multilingual-mpnet-base-v2 HuBERT, ECAPA-TDNN, WavLM (用于检索对比) 📌 核心摘要要解决的问题：如何为大型多模态模型（LMM）的语音上下文学习（SICL）选择最有效的上下文示例，以提升其在口音英语、多语言和儿童语音等挑战性任务上的语音识别（ASR）性能。现有方法多采用随机采样，未充分利用示例选择的潜力。方法核心：提出TICL方法。其核心是一个三阶段管道：首先用预训练ASR（如Whisper）为测试音频生成伪标签；然后用预训练的文本编码器（如all-mpnet-base-v2）对候选集的真实转录文本进行嵌入，并基于伪标签的嵌入向量，通过欧氏距离检索语义最相近的K个候选示例；最后将这些检索到的（音频，文本）对作为上下文示例，与测试音频一起输入LMM（如Phi-4-MM）生成最终转录。与已有方法相比新在哪里：已有基于Whisper的SICL工作使用语音嵌入进行检索，且受上下文窗口限制示例数量较少；后续工作虽利用LMM的大上下文窗口，但多采用随机选择示例。TICL的新颖之处在于：首次在SICL中使用文本嵌入进行语义检索，直接匹配转录内容（而非语音特征）来选择示例，且该方法与具体的LMM架构无关。主要实验结果：在三个ASR任务上，TICL均显著优于零样本基线：口音英语（GLOBE-V2）：相对WER降低最高达79.2% (Phi-4-MM) 和84.7% (Qwen2-Audio)。多语言（Common Voice）：在Phi-4-MM原生支持的语言（如日、葡）上WER大幅下降（如日语从13.00%降至6.17%），并成功解锁了俄、波、土等原不支持语言的识别能力（如俄语WER从122.75%骤降至20.74%）。儿童语音（OGI等）：在OGI数据集上WER从16.17%降至8.52%（相对降低47.3%）。消融研究：伪标签质量越高，性能越好，但即使使用最差的伪标签，TICL仍远优于零样本；上下文示例数K=4时性能最佳，增加更多示例无益甚至有害。实际意义：提供了一种轻量、低成本且即插即用的增强现有大型多模态模型语音识别能力的方法，无需模型微调，通过精心选择上下文示例即可快速适应特定领域或人群，具有实际部署价值。主要局限性：方法性能依赖于伪标签的质量和候选检索词典的覆盖度与准确性。在遇到罕见词汇、复合词或伪标签错误较大时（如论文中提到的中文案例），检索可能失效甚至引入噪声，导致性能下降。论文未深入分析SICL的内在工作机理。 🏗️ 模型架构 TICL并非一个独立模型，而是一个应用于现有大型多模态模型（LMM）的上下文选择与构造管道。其整体流程如图1所示，可分为以下阶段： ...

Timbre-Aware Audio Difference Captioning for Anomalous Machine Sounds without Paired Training Data via Synthetic Perturbations

📄 Timbre-Aware Audio Difference Captioning for Anomalous Machine Sounds without Paired Training Data via Synthetic Perturbations #音频分类 #数据增强 #音色分析 #异常检测 ✅ 7.5/10 | 前25% | #音频分类 | #数据增强 | #音色分析 #异常检测学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Tomoya Nishida (Hitachi, Ltd., Research and Development Group) 通讯作者：未说明作者列表：Tomoya Nishida (Hitachi, Ltd., Research and Development Group)， Harsh Purohit (Hitachi, Ltd., Research and Development Group)， Kota Dohi (Hitachi, Ltd., Research and Development Group)， Takashi Endo (Hitachi, Ltd., Research and Development Group)， Yohei Kawaguchi (Hitachi, Ltd., Research and Development Group) 💡 毒舌点评本文巧妙地将一个工业界的实际痛点（解释细微异常声音差异）转化为一个可研究的学术问题，并设计了一套无需稀缺配对数据的完整训练管线，这是其最大亮点。然而，模型架构（BEATs + MLP + Transformer + GPT-2）更像是针对特定任务的有效“拼装”，在模型创新性上略显平淡，且“音色感知”的框架虽然有效，但也限定了其只能解释音色类差异，面对其他类型的声音变化时显得力不从心。 ...

Timbre-Based Pretraining with Pseudo-Labels for Multi-Instrument Automatic Music Transcription

📄 Timbre-Based Pretraining with Pseudo-Labels for Multi-Instrument Automatic Music Transcription #音乐信息检索 #自监督学习 #生成模型 #预训练 #音频分类 ✅ 7.0/10 | 前25% | #音乐信息检索 | #预训练 | #自监督学习 #生成模型学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Rin Sato（Waseda University, Tokyo, Japan）通讯作者：未说明作者列表：Rin Sato（Waseda University, Tokyo, Japan）、Keitaro Tanaka（Waseda Research Institute for Science and Engineering, Tokyo, Japan）、Shigeo Morishima（Waseda Research Institute for Science and Engineering, Tokyo, Japan） 💡 毒舌点评这篇论文巧妙地将“音色”从具体的“乐器标签”中解放出来，通过伪标签预训练来教模型听懂声音的本质区别，是缓解多乐器转录数据不平衡问题的一剂良方；然而，方法严重依赖DDSP合成音频，而合成音频的音色多样性与真实世界录音之间的鸿沟（domain gap）可能成为其性能天花板，特别是在对音色敏感的吉他等单乐器任务上出现了性能反降，说明“学音色”在特定场景下可能“学了个寂寞”。 ...

Time vs. Layer: Locating Predictive Cues for Dysarthric Speech Descriptors in Wav2vec 2.0

📄 Time vs. Layer: Locating Predictive Cues for Dysarthric Speech Descriptors in Wav2vec 2.0 #语音质量评估 #注意力机制 #预训练模型 #病理语音 #数据集 ✅ 7.5/10 | 前50% | #语音质量评估 | #注意力机制 | #预训练模型 #病理语音学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Natalie Engert（Technische Hochschule Nürnberg Georg Simon Ohm, Germany）通讯作者：未说明作者列表：Natalie Engert（Technische Hochschule Nürnberg Georg Simon Ohm, Germany）、Dominik Wagner（Technische Hochschule Nürnberg Georg Simon Ohm, Germany）、Korbinian Riedhammer（Technische Hochschule Nürnberg Georg Simon Ohm, Germany）、Tobias Bocklet（Technische Hochschule Nürnberg Georg Simon Ohm, Germany） 💡 毒舌点评亮点：研究设计非常系统，对“时间 vs. 层”这个核心问题的分析很到位，不仅给出了整体结论，还通过注意力权重可视化揭示了不同严重程度下层重要性的变化，这种临床视角下的可解释性分析是加分项。短板：作为一篇发表在顶会的论文，方法上的创新显得有些“温和”，更像是对现有工具（Wav2vec 2.0 + ASP）的一次精心设计的应用研究，缺乏一个更强大的、统一的模型架构来同时建模时间与层信息（尽管结论中提到了这是未来工作）。 ...