Icassp-2026

Easy Turn: Integrating Acoustic and Linguistic Modalities for Robust Turn-Taking in Full-Duplex Spoken Dialogue Systems

📄 Easy Turn: Integrating Acoustic and Linguistic Modalities for Robust Turn-Taking in Full-Duplex Spoken Dialogue Systems #语音对话系统 #多模态模型 #大语言模型 #数据集 #预训练 ✅ 7.0/10 | 前25% | #语音对话系统 | #多模态模型 | #大语言模型 #数据集学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Guojian Li（西北工业大学计算机学院，音频、语音与语言处理组）通讯作者：Zhonghua Fu（西北工业大学计算机学院），Lei Xie（西北工业大学计算机学院）作者列表： Guojian Li，Chengyou Wang，Hongfei Xue，Shuiyuan Wang，Dehui Gao，Zhonghua Fu，Lei Xie（西北工业大学计算机学院，音频、语音与语言处理组） Zihan Zhang，Yuke Lin，Wenjie Li，Longshuai Xiao（华为技术有限公司） 💡 毒舌点评亮点：论文直击全双工对话系统中轮次检测“缺乏开源、数据稀缺”的痛点，不仅提出了一个性能优越的开源模型，还配套发布了超千小时的专项训练集，堪称“送数据送模型”的良心之作，对社区的实用价值很高。短板：模型架构本质上是Whisper和轻量LLM的常规组合，创新更多体现在工程化整合与ASR+检测的串联范式，理论突破有限；合成数据流程复杂，其与真实用户交互数据的分布差异可能影响模型在极端情况下的鲁棒性。 🔗 开源详情代码：提供GitHub仓库链接：https://github.com/ASLP-lab/Easy-Turn 模型权重：论文声明模型权重将公开发布。数据集：论文声明将开源Easy Turn trainset和testset。 Demo：论文未提及在线演示。复现材料：论文提供了详细的训练数据处理流水线（图1）、两阶段训练策略、具体的学习率、批大小、epoch数、硬件环境（8x RTX 4090）以及推理配置（贪心搜索，温度1.0），复现信息较为充分。引用的开源项目/模型：论文明确使用了以下开源工具/模型作为基线或组件：TEN Turn Detection， Smart Turn V2， Whisper， Qwen2.5系列， Wav2Vec2， Paraformer， CosyVoice 2， WeNet toolkit。此外，训练数据构建中使用了MagicData-RAMC， Emilia， AudioQA-1M等开源数据集。 📌 核心摘要问题：在全双工语音对话系统中，需要一个鲁棒的轮次检测模块来判断用户何时说完、未说完、在回应或要求暂停，但现有开源方案或受限于单模态、或模型过大、或需要大量稀缺的全双工数据。方法：提出Easy Turn，一个开源的模块化双模态（声学+语言学）轮次检测模型。它采用“ASR+轮次检测”范式，以Whisper为音频编码器，通过适配器连接轻量级的Qwen2.5-0.5B LLM，先生成语音转录文本，再融合声学与文本特征预测四种对话状态。同时发布了Easy Turn trainset，一个1145小时、覆盖四种状态的大规模训练数据集。创新：主要创新在于：(1) 开源了首个支持四种对话状态、性能领先的轮次检测模型和配套数据集，填补了领域空白；(2) 采用“ASR+检测”范式有效融合声学与语言信息，避免了单模态的局限；(3) 通过模块化设计和轻量级LLM，在性能和效率间取得了平衡。实验结果：在自建的Easy Turn测试集上，Easy Turn在四种状态（完整、不完整、回应、等待）上的准确率（96.33%， 97.67%， 91%， 98%）均显著优于现有开源模型TEN Turn Detection和Smart Turn V2。同时，模型参数量（850MB）、延迟（263ms）和内存占用（2559MB）处于可接受范围。消融实验表明，双模态融合及“ASR+检测”范式对性能提升至关重要（平均准确率从单模态的~86%提升至95.75%）。模型参数量(MB) ↓ 延迟(ms) 内存(MB) 完整(%) ↑ 不完整(%) 回应(%) 等待(%) Paraformer + TEN Turn Detection 7220 204 15419 86.67 89.3 - 91 Smart Turn V2 95 27 370 78.67 62 - - Easy Turn (Proposed) 850 263 2559 96.33 97.67 91 98 实际意义：为全双工语音对话研究提供了即插即用的开源工具和高质量数据，显著降低了研究门槛，有望加速相关技术从实验室走向产品应用。主要局限性：模型在极端真实环境（如极高噪声、多人同时说话）下的鲁棒性尚未充分验证；训练数据中的合成部分可能无法完全覆盖所有自然交互场景；“ASR+检测”的串联设计可能带来一定延迟，且在ASR错误时可能影响检测性能。 🏗️ 模型架构 (注：此为论文描述的架构图，但无法确认其原始URL。上图链接来自论文引用的GitHub仓库，推测为论文中的图2) ...

ECHO: Frequency-Aware Hierarchical Encoding for Variable-Length Signals

📄 ECHO: Frequency-Aware Hierarchical Encoding for Variable-Length Signals #音频大模型 #音频分类 #自监督学习 #工业应用 #开源工具 🔥 9.5/10 | 前10% | #音频分类 | #自监督学习 | #音频大模型 #工业应用学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Yucong Zhang（武汉大学计算机学院；苏州昆山杜克大学多模态智能系统苏州市重点实验室）通讯作者：Juan Liu（武汉大学人工智能学院）， Ming Li（武汉大学人工智能学院；苏州昆山杜克大学）作者列表：Yucong Zhang（武汉大学计算机学院；苏州昆山杜克大学多模态智能系统苏州市重点实验室）， Juan Liu†（武汉大学人工智能学院）， Ming Li†（武汉大学人工智能学院；苏州昆山杜克大学）。†表示共同通讯作者。 💡 毒舌点评亮点：该论文成功地将频率感知和滑动窗口两大思想结合，构建了一个能优雅处理现实世界工业信号（采样率可变、长度可变）的通用基础模型，并通过一个前所未有的全面基准（SIREN）证明了其优越性，做到了“设计解决实际问题”和“实验证明设计有效”的闭环。短板：论文的实验全部基于离线、干净的学术数据集，对于工业界最关心的实时流式推理性能、计算资源消耗以及在嘈杂、非理想工况下的鲁棒性缺乏深入探讨，这使得其“工业应用”的宣称在现阶段更偏向于技术展示而非经过实战检验的方案。 🔗 开源详情代码：提供了完整的代码仓库链接：https://github.com/yucongzh/ECHO。模型权重：论文未明确提及是否公开了预训练模型权重，但提供了代码仓库，权重很可能在其中或后续发布。数据集：公开了SIREN评估基准工具包：https://github.com/yucongzh/SIREN，并说明包含了多个数据集，获取方式应在该仓库中说明。 Demo：论文中未提及在线演示。复现材料：提供了详尽的训练细节（学习率、batch size、优化器、步数、硬件、调度策略等），足以支持复现。训练细节见论文第5.1节。论文中引用的开源项目：论文引用了其对比的多个基础模型（BEATs, CED, EAT, Dasheng, FISHER）的开源实现或论文。此外，SIREN基准中使用的数据集（如DCASE, MAFAULDA, CWRU, IIEE, IICA）均为公开数据集。 📌 核心摘要问题：现有的音频/信号基础模型大多基于视觉Transformer，依赖固定尺寸的频谱图输入和固定的预设采样率。处理可变长度信号需要截断/插值，破坏时序连续性；处理不同采样率信号需要重采样，导致信息损失。这限制了它们在通用机器信号监测（涵盖声学、振动等多模态、多采样率数据）中的应用。方法核心：提出ECHO模型，其核心是“频率感知层级编码”。首先，将频谱图沿频率轴均匀分割为多个子带，并为每个子带计算基于其中心频率的相对位置编码，以适配任意采样率。其次，在每个子带上应用滑动窗口提取重叠的时间补丁，以处理任意长度的输入，无需填充或裁剪。最后，将每个子带的序列送入独立的ViT编码器，再将所有子带的分类令牌拼接成最终的层级化嵌入。新意：与已有的频率分割模型（如FISHER）相比，ECHO创新性地引入了频率位置编码，使模型能显式地感知子带在全频谱中的相对位置，而非独立处理。与传统的固定补丁模型（如BEATs， EAT）相比，滑动补丁设计能更好地保留时序连续性，适应可变长度输入。ECHO旨在统一支持可变长度和可变采样率信号。实验结果：在论文提出的统一评估基准SIREN上，ECHO（Small版）取得了77.65%的整体平均分，超过了最强基线FISHER（76.86%）和Dasheng（76.04%）。在故障分类任务平均准确率达到93.19%，位居第一；在DCASE异常检测任务平均得分62.11%，也达到最佳。相比FISHER，ECHO在所有DCASE年份和大部分故障分类数据集上均有提升。模型规模参数量 SIREN总均分 DCASE任务均分故障分类任务均分 ECHO Small 22M 77.65 62.11 93.19 FISHER Small 22M 76.86 61.00 92.73 Dasheng Base 86M 76.04 59.95 92.12 EAT Base 86M 74.23 60.84 87.62 BEATs Base 90M 71.86 61.86 81.86 实际意义：ECHO为工业设备的状态监测提供了一个强大的通用前端特征提取器。其处理可变采样率和长度的能力，使其能无缝集成来自不同传感器、不同工况的数据，无需预处理重采样或裁剪，简化了部署流程。开源代码和SIREN基准为社区提供了公平比较和推进该领域研究的平台。主要局限：模型虽在学术数据集上表现优异，但缺乏在真实工业场景（高噪声、数据不平衡、极端故障模式）下的验证。论文未探讨模型的推理效率（如延迟、吞吐量），这对实时监测至关重要。此外，滑动窗口带来的计算量增加及其优化策略未做深入分析。 🏗️ 模型架构 ECHO的整体架构如图1所示，是一个端到端的处理流程，包含四个核心组件： ...

EchoFake: A Replay-Aware Dataset For Practical Speech Deepfake Detection

📄 EchoFake: A Replay-Aware Dataset For Practical Speech Deepfake Detection #音频深度伪造检测 #数据集 #语音伪造检测 #重放攻击 #基准测试 🔥 8.5/10 | 前25% | #音频深度伪造检测 | #数据集 | #语音伪造检测 #重放攻击学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Tong Zhang (武汉大学网络空间安全学院) 通讯作者：Yanzhen Ren (武汉大学网络空间安全学院) 作者列表：Tong Zhang (武汉大学网络空间安全学院), Yihuan Huang (武汉大学网络空间安全学院), Yanzhen Ren (武汉大学网络空间安全学院; 教育部空天信息安全与可信计算重点实验室) 💡 毒舌点评亮点：这篇论文如同为反语音欺诈领域量身打造了一套更逼真的“演习靶场”，精准戳中了现有检测模型在真实世界遭遇“物理回放”攻击时不堪一击的痛点，数据集构建的系统性和全面性值得称道。短板：它本质上是一份详尽的“战场报告”和“新式靶标”而非“新式武器”，在检测模型本身并无创新，且基线评估略显常规，距离真正解决“重放攻击”这一顽疾还有距离。 🔗 开源详情代码：提供。论文明确说明数据集、代码和自动化录制工具已开源，链接为：https://github.com/EchoFake/EchoFake/ 模型权重：未提及。论文仅评估了现有基线模型，未提出新模型。数据集：已公开。EchoFake数据集可通过上述GitHub仓库获取。 Demo：未提及。复现材料：提供了详尽的训练细节（学习率、batch size等）、超参数、数据集划分统计、预处理流程，复现基础良好。论文中引用的开源项目：列出了所使用的多种开源TTS模型，如XTTSv2, F5-TTS, SpeechT5, LLaSA-1B等（详见参考文献和数据集构建部分）。论文中未提及开源计划：所��必要的复现材料已在论文发表时一并开源。 📌 核心摘要问题：现有的音频深度伪造检测模型在实验室环境下表现良好，但在面对真实世界中常见的低成本“物理重放攻击”（即将合成语音通过扬声器播放并重新录制）时，性能会急剧下降，严重威胁其实际部署的可靠性。方法：为了解决这一问题，作者构建了EchoFake数据集。其核心在于首次系统地将前沿的零样本文本转语音（TTS）生成的伪造语音与多样化的物理重放录音相结合。数据集包含四种音频类型：真实语音、重放真实语音、伪造语音、重放伪造语音。创新：与已有数据集（如ASVspoof）主要关注单一攻击方式（仅合成或仅重放真实语音）不同，EchoFake的创新在于覆盖了更复杂的复合攻击场景——即“合成+重放”。同时，它采用了多种最新开源的零样本TTS模型，并在采集重放数据时系统化地变化了播放/录音设备、环境、距离等条件。主要实验结果：使用EchoFake训练的三个基线模型（RawNet2， AASIST， Wav2Vec2）在跨数据集评估中表现出更好的泛化能力，平均EER显著低于在传统数据集上训练的模型（见表3）。模型在EchoFake封闭集评估中表现优异（如AASIST的二分类EER为0.46%），但在开放集评估中性能大幅下降（如AASIST的二分类EER升至14.88%），重放样本是主要错误来源（见表4）。消融实验证明，在训练数据中包含重放样本，能显著提升模型在重放攻击场景下的鲁棒性，而在传统基准上性能损失很小。实际意义：EchoFake提供了一个更接近真实威胁模型的评估基准，有助于推动检测算法从实验室走向实际应用，提升对复杂欺诈攻击的防御能力。局限性：尽管模型在EchoFake上得到提升，但在面对未见过的重放条件（开放集）时，性能仍有明显下降，表明在建模复杂信道效应和提高跨设备/环境泛化能力方面仍有挑战。论文未提出新的检测模型。 🏗️ 模型架构未说明。本文是一篇数据集论文，其核心贡献是构建EchoFake数据集并评估现有模型。论文中未提出新的检测模型架构。评估所使用的三个基线模型（RawNet2, AASIST, Wav2Vec2）的详细架构并非本文创新点，故在此不展开描述。 ...

EchoRAG: A Two-Stage Framework for Audio-Text Retrieval and Temporal Grounding

📄 EchoRAG: A Two-Stage Framework for Audio-Text Retrieval and Temporal Grounding #音频检索 #知识蒸馏 #对比学习 ✅ 7.5/10 | 前25% | #音频检索 | #知识蒸馏 | #对比学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度中 👥 作者与机构第一作者：Zilin Wang（厦门大学电影系；厦门大学闽台文化遗产数字化保护与智能处理文化和旅游部重点实验室）通讯作者：Liyan Chen（厦门大学电影系；厦门大学闽台文化遗产数字化保护与智能处理文化和旅游部重点实验室）作者列表：Zilin Wang（厦门大学电影系；厦门大学闽台文化遗产数字化保护与智能处理文化和旅游部重点实验室）， Zheng Huang（厦门大学电影系；厦门大学闽台文化遗产数字化保护与智能处理文化和旅游部重点实验室）， Zibai Ou（厦门大学电影系；厦门大学闽台文化遗产数字化保护与智能处理文化和旅游部重点实验室）， Yuchen Yang（厦门大学电影系）， Liyan Chen（厦门大学电影系；厦门大学闽台文化遗产数字化保护与智能处理文化和旅游部重点实验室） 💡 毒舌点评 EchoRAG 的亮点在于其工程设计的巧妙，将稳定的全局检索（教师）与精确的细粒度对齐（学生）结合，形成了一个有效的“粗筛-精排”范式。然而，其“创新”更多体现在对现有技术（如ColBERT的后期交互、KL蒸馏）的组合与适配上，在理论深度上稍显不足；峰值平滑正则化虽有效，但其设计（熵+全变差）更像是一个启发式的“补丁”，缺乏更深入的理论分析。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及是否公开训练好的EchoRAG模型权重。数据集：实验使用的数据集（SQuAD-Spoken， AudioCaps， VoxPopuli）为公开数据集。论文中未提及是否提供了其处理后的VoxPopuli查询数据。 Demo：未提及在线演示。复现材料：论文提供了较为详细的实现细节（模型架构、训练三阶段、损失函数、优化器设置、硬件环境），但未提供完整的配置文件、训练脚本或检查点。引用的开源项目：论文依赖预训练模型 CLAP，并引用了 Whisper（用于基线ASR）、 BGE-M3、 Qwen3-Embedding（文本嵌入基线）、 Qwen2-Audio（生成模型）等开源项目或模型。开源计划：论文中未提及开源计划。 📌 核心摘要问题：现有的音频RAG方法通常将音频压缩为单一的全局嵌入（如CLS token），丢失了细粒度的帧级信息和时间线索，这限制了其在需要精确定位音频片段的任务中的性能。 ...

ECSA: Dual-Branch Emotion Compensation for Emotion-Consistent Speaker Anonymization

📄 ECSA: Dual-Branch Emotion Compensation for Emotion-Consistent Speaker Anonymization #语音匿名化 #语音情感识别 #自监督学习 #生成模型 #语音合成 🔥 8.5/10 | 前25% | #语音匿名化 | #生成模型 | #语音情感识别 #自监督学习学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Chenghan Lin（天津大学人工智能学院，认知计算与应用天津市重点实验室）通讯作者：Longbiao Wang（天津大学人工智能学院，认知计算与应用天津市重点实验室；苏州智研信息技术有限公司），Kong Aik Lee（香港理工大学）作者列表：Chenghan Lin（天津大学）、Junjie Li（香港理工大学）、Tingting Wang（南京邮电大学通信与信息工程学院）、Meng Ge（天津大学）、Longbiao Wang（天津大学，苏州智研信息技术有限公司）、Kong Aik Lee（香港理工大学）、Jianwu Dang（中国科学院深圳先进技术研究院） 💡 毒舌点评这篇论文的亮点在于其系统性地解构并攻克了“匿名化必然损伤情感”这一核心矛盾，提出的双分支补偿模块设计思路清晰，从数据集先验（静态）和实例残差（动态）两个层面进行修复，实验结果也确实显著优于同类工作。短板则在于其验证范围较为局限，虽然在IEMOCAP上表现优异，但整个系统在非英语环境下的鲁棒性以及面对更复杂情感（如混合情绪）的处理能力，论文未提供任何数据支撑，使得这个“通用解决方案”的宣称打上了折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：论文中使用的VoxCeleb-2, MSP-IMPROV, ESD, LibriSpeech, IEMOCAP均为公开数据集。未提及是否公开了处理后的实验数据或中间产物。 Demo：未提及。复现材料：论文在“实现细节”部分提供了优化器、学习率、损失函数权重等关键超参数，为复现提供了重要信息。未提供训练日志、检查点或附录。论文中引用的开源项目：emotion2vec+, ECAPA-TDNN, HuBERT, OHNN, HiFi-GAN。论文中未提及开源计划。 📌 核心摘要要解决的问题：现有的说话人匿名化技术（如基于OHNN的方案）在有效隐藏说话人身份的同时，会严重破坏语音中的情感信息，限制了其在医疗、人机交互等情感敏感场景中的应用。方法核心：提出一个名为ECSA的情感保留说话人匿名化框架。其核心是双分支情感补偿（D-PEC）模块：一个静态补偿器利用数据集层面的情感原型和软标签进行全局先验补偿；一个动态补偿器通过非线性网络挖掘并增强匿名化嵌入中的残差情感线索。此外，在HiFi-GAN声码器训练中引入了情感一致性损失，确保合成语音与补偿后的嵌入在情感空间对齐。与已有方法相比新在哪里：摒弃了先前方法中易泄露说话人信息的外接情感编码器。首次提出并行处理数据集全局先验（静态分支）和单条语音残差信号（动态分支）的补偿机制。创新性地将情感一致性约束直接集成到声码器训练中，引导生成器利用情感信息。主要实验结果：在VPC 2024基准测试上，ECSA在情感保留（UAR）上取得了最佳性能（测试集64.21%），显著超越了所有基线（如P3的57.93%）和顶级参赛系统（如T10的60.87%），同时保持了具有竞争力的匿名化强度（EER 39.69%）和内容可懂度（WER 2.52%）。消融实验证明，移除动态分支、静态分支或情感一致性损失均会导致UAR显著下降，尤其是对悲伤类情感的识别率。实际意义：该研究为隐私保护技术在实际情感计算应用中的落地提供了可行的解决方案，有望推动语音匿名化技术从“仅保护隐私”向“隐私与效用兼得”的方向发展。主要局限性：实验评估集中于英语数据集（VPC 2024， IEMOCAP），其在其他语言或方言上的有效性未经验证。模型训练依赖多个预训练组件（emotion2vec+, ECAPA-TDNN, HuBERT），其复杂性增加了部署难度。 🏗️ 模型架构 ECSA框架由说话人匿名化前端和情感补偿后端组成，其推理流程如下（参照论文图1）： ...

EdgeSpot: Efficient and High-Performance Few-Shot Model for Keyword Spotting

📄 EdgeSpot: Efficient and High-Performance Few-Shot Model for Keyword Spotting #语音活动检测 #知识蒸馏 #自监督学习 #少样本 #边缘计算 ✅ 7.5/10 | 前25% | #语音活动检测 | #知识蒸馏 | #自监督学习 #少样本学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Oguzhan Buyuksolak (Analog Devices, Istanbul, Turkey) 通讯作者：未说明作者列表：Oguzhan Buyuksolak (Analog Devices, Istanbul, Turkey)、Alican Gok (Analog Devices, Istanbul, Turkey)、Osman Erman Okman (Analog Devices, Istanbul, Turkey) 💡 毒舌点评这篇论文的亮点在于其工程上的“务实”——它没有追求复杂的新奇架构，而是像组装精密仪器一样，将PCEN、Fused Block和轻量级自注意力这三个针对性优化组合在一起，精准地提升了边缘少样本场景下的关键性能（低FAR下的准确率）。但它的短板也同样明显：消融实验严重缺失，读者无法判断这三板斧中哪一斧头最关键，以及它们组合是否真的有“1+1>2”的效果，这在一定程度上削弱了其学术贡献的说服力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了公开的MSWC和GSC数据集，论文中未提供额外数据集。 Demo：未提及。复现材料：论文提供了相对详细的模型架构参数（表1）、损失函数公式、训练超参数（学习率、优化器、数据增强设置等），这为复现提供了重要信息。但缺少训练硬件、batch size等细节。论文中引用的开源项目：主要依赖公开的Wav2Vec2.0预训练模型和MSWC、GSC数据集。 📌 核心摘要这篇论文旨在解决传统关键词识别系统依赖大量数据和计算资源、难以在边缘设备上灵活适应新关键词的问题。其核心方法是提出EdgeSpot模型，一个专为边缘设备设计的高效少样本关键词识别模型。它以BC-ResNet为骨干，并引入了三个关键改进：一个可训练的PCEN前端以提升跨领域泛化能力；融合早期阶段的Fused BC-ResBlock以简化计算并优化训练；以及一个轻量的时序自注意力层以捕捉长程依赖。在训练方法上，采用自监督预训练的Wav2Vec2.0作为教师模型，通过知识蒸馏和子中心ArcFace损失来训练EdgeSpot学生模型。 ...

EEG and Eye-Tracking Driven Dynamic Target Speaker Extraction with Spontaneous Attention Switching

📄 EEG and Eye-Tracking Driven Dynamic Target Speaker Extraction with Spontaneous Attention Switching #语音分离 #多模态模型 #多任务学习 #生物声学 #数据集 ✅ 7.0/10 | 前25% | #语音分离 | #多模态模型 | #多任务学习 #生物声学学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Xuefei Wang（南方科技大学电子与电气工程系）通讯作者：Fei Chen（南方科技大学电子与电气工程系）作者列表：Xuefei Wang（南方科技大学电子与电气工程系）、Ximin Chen（南方科技大学电子与电气工程系）、Yuting Ding（南方科技大学电子与电气工程系）、Yueting Ban（南方科技大学电子与电气工程系）、Siyu Yu（南方科技大学电子与电气工程系）、Yu Tsao（台湾中研院资讯科技创新研究中心）、Fei Chen（南方科技大学电子与电气工程系） 💡 毒舌点评这篇论文首次将EEG引导的目标说话人提取问题从静态场景拓展到更符合真实情况的动态注意力切换场景，并为此构建了一个完整的多模态框架，这是其最大亮点；然而，实验仅在参与者数量有限（18人）的自建数据集上进行，且代码与模型未完全开源，极大限制了其结论的普适性与可复现性。 🔗 开源详情代码：论文中未提及代码链接。数据集链接（https://github.com/XXuefeii/AASD）中可能包含部分代码，但论文正文未说明。模型权重：未提及。数据集：是。提供了专门的数据集仓库链接（https://github.com/XXuefeii/AASD），包含EEG和眼动数据。 Demo：未提及。复现材料：论文提供了部分训练超参数（Adam优化器，lr=1e-4， batch size=16），但未提供完整的训练脚本、配置文件或检查点。代码和完整复现指南缺失。论文中引用的开源项目：论文中提到了使用预训练的Wav2vec2.0模型[17]和基于Conv-TasNet[16]的架构。 📌 核心摘要要解决什么问题？论文旨在解决现有EEG引导的目标说话人提取（TSE）方法通常假设听众注意力静态不变，无法处理现实多说话人环境中听众自发在不同说话人之间切换注意力的动态场景。方法核心是什么？提出了一个多模态动态注意力TSE网络（MDATNet），其核心是：(a) 利用EEG和平均注视坐标（眼动）联合解码注意力是否发生切换；(b) 引入一个动态更新单元，当检测到注意力切换时重置历史信息，否则融合历史语音特征，以保持对同一目标说话人跟踪的连续性。与已有方法相比新在哪里？与之前仅基于EEG或假设静态注意力的方法（如BASEN, NeuroHeed等）相比，本文方法首次明确建模并处理了“注意力切换”这一动态过程，通过引入眼动先验和动态历史语音记忆机制，实现了更自适应、更符合认知过程的提取。主要实验结果如何？在自建的EEG自发注意力切换数据集上，MDATNet在所有指标上显著优于基线方法。相比最强的M3ANet，SDR提升了1.77 dB，STOI提升了3.99%。消融实验表明，眼动信息和动态更新单元分别带来了显著的性能提升，二者结合达到最佳效果（SDR 8.79 dB， STOI 88.17%）。实际意义是什么？该研究推动了脑机接口（BCI）与语音处理的交叉领域发展，为开发未来能更自然理解并跟随用户注意力焦点的助听器、耳机或人机交互系统提供了技术路径。主要局限性是什么？主要局限性在于实验数据集规模有限（18位被试，18小时数据），且均为特定实验室环境下的受控数据，跨被试泛化能力、在复杂声学场景（如背景噪音、混响）下的鲁棒性尚未得到充分验证。 🏗️ 模型架构论文提出了一个名为MDATNet（Multimodal and Dynamic Attention Target Net）的端到端神经网络框架，整体架构见图1。 ...

EEND-SAA: Enrollment-Less Main Speaker Voice Activity Detection Using Self-Attention Attractors

📄 EEND-SAA: Enrollment-Less Main Speaker Voice Activity Detection Using Self-Attention Attractors #语音活动检测 #端到端 #说话人分离 #流式处理 ✅ 7.5/10 | 前25% | #语音活动检测 | #端到端 | #说话人分离 #流式处理学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：未说明（论文按顺序列出 Wen-Yung Wu, Pei-Chin Hsieh, Tai-Shih Chi，但未明确标注）通讯作者：未说明（论文中未提供邮箱或标注通讯作者）作者列表：Wen-Yung Wu（台湾阳明交通大学电气与计算机工程系），Pei-Chin Hsieh（台湾阳明交通大学电气与计算机工程系），Tai-Shih Chi（台湾阳明交通大学电气与计算机工程系） 💡 毒舌点评亮点在于明确提出了“无注册主说话人VAD”这个在实际场景中更可行的任务定义，并通过设计双吸引子机制巧妙地将其融入端到端框架，实现了对背景说话人的抑制。短板在于，该工作的创新主要是对现有EEND架构的“改造”和“特化”，而非提出全新的、更强大的主说话人检测范式，且缺乏开源的模型权重和完整代码，限制了社区的快速跟进与验证。 🔗 开源详情代码：论文中提供了一个数据生成脚本的GitHub仓库链接：https://github.com/UaenaSone-William/EEND-VAD。但论文中未明确说明是否提供模型推理或训练的完整代码。模型权重：论文中未提及公开任何预训练模型权重。数据集：训练数据使用公开的LibriSpeech、MUSAN语料库以及RIR模拟生成。合成脚本已提供（见上）。 Demo：论文中未提及提供在线演示。复现材料：论文详细给出了模型架构参数、训练超参数（学习率、batch size、epoch等）和数据生成方案，为复现提供了文本基础。但缺乏硬件环境、训练时长等关键信息。论文中引用的开源项目：EEND [16]， SA-EEND [18]， EEND-EDA [20]， MUSAN [21]。整体开源情况：论文提供了部分复现线索（数据脚本和参数），但未承诺提供核心模型代码和权重，属于有限开源。 📌 核心摘要问题：传统VAD仅检测有无语音，目标说话人VAD（TS-VAD）虽能检测特定说话人但依赖预先注册语音，这在会议、客服等开放场景中不实用。论文旨在解决“无注册主说话人VAD（MS-VAD）”问题，即在未知说话人和存在背景干扰的场景下，仅凭语音的连续性和音量等线索，实时识别出主要说话人的活动。方法核心：提出EEND-SAA框架。该框架在SA-EEND（基于Transformer的端到端神经说话人日志化）基础上进行扩展，核心创新是引入双自注意力吸引子（Dual Self-Attention Attractors）模块。该模块将Transformer的注意力头分为两组，分别专注于生成主说话人和背景说话人的吸引子表征，通过比较这些吸引子与帧级嵌入来输出说话人活动概率。同时，通过因果掩码和键值缓存实现流式处理。新意：相较于TS-VAD，本方法无需注册语音；相较于SA-EEND等说话人日志化方法，本方法直接输出“主说话人”标签而非所有说话人标签，且通过双吸引子设计增强了主/背景说话人的区分度，并具备了实时处理能力。主要实验结果：在合成的多说话人LibriSpeech混合数据集上，EEND-SAA（双吸引子）将主说话人DER（DERmain）从SA-EEND基线的6.63%降至3.61%，主说话人F1（F1main）从0.9667提升至0.9818。关键对比结果如表3所示：模型 DER (%) DERmain (%) F1main SA-EEND [18] (w/ main speaker labels) N/A 6.63 0.9667 EEND-SAA (dual) 7.46 3.61 0.9818 实际意义：为会议记录、实时转录、智能助手等需要区分主要发言人的应用场景，提供了一种无需预先登记、可实时运行的语音活动检测解决方案。主要局限性：模型性能高度依赖于主说话人相对于背景说话人的“连续性”和“音量”优势（如实验部分所示），在主说话人语音断续或背景音量较大时性能会下降；合成数据与真实复杂场景可能存在差距；未提供开源模型权重和完整代码。 🏗️ 模型架构 EEND-SAA的整体架构如图1所示，是一个端到端的流式处理框架。 ...

Efficient Audio-Visual Inference Via Token Clustering And Modality Fusion

📄 Efficient Audio-Visual Inference Via Token Clustering And Modality Fusion #音频问答 #音视频 #多模态模型 #预训练 #模型评估 ✅ 7.5/10 | 前25% | #音频问答 | #音频大模型 #多模态模型 | #音视频 #多模态模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Chenjie Pan（华南师范大学）通讯作者：Chenyou Fan（华南师范大学）作者列表：Chenjie Pan（华南师范大学）、Yi Zhu（华南师范大学）、Songkai Ning（华南师范大学）、Xiangyang Liu（华南师范大学）、Weiping Zheng（华南师范大学）、Chenyou Fan（华南师范大学） 💡 毒舌点评亮点：论文精准地抓住了当前音视频LLM中音频模态token冗余这一关键痛点，提出的无参动态聚类压缩策略（ATCC）在大幅削减token数量（96%）和计算量（54%）的同时，性能不降反升，这证明其压缩确实保留了有效信息，而非简单丢弃。短板：创新性更多体现在“组合”与“针对特定场景的优化”上，其核心的聚类算法和双向交叉注意力融合均为成熟技术的直接应用；此外，论文声称的性能提升幅度（0.6%-3.7%）相对有限，且绝对数值并未显著超越表中列出的所有最强基线（如PAVE在Music-AVQA上仍略高）。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及是否公开训练好的模型权重。数据集：论文中使用了多个公开数据集（Music-AVQA， VGGSound， AVSD等），但未提供额外的数据处理或获取方式。 Demo：未提供在线演示。复现材料：论文提供了详细的模型架构描述、训练超参数（学习率、批次大小）、硬件环境（4x RTX 3090）以及算法伪代码（算法1），这些是重要的复现信息。但未提供完整的配置文件、检查点或更细致的训练日志。论文中引用的开源项目：明确提到了作为基础架构的VideoLLaMA2，并引用了其使用的组件：视觉编码器SigLIP [22]，音频编码器BEATs [23]，以及语言模型Qwen2-7B [24]。也引用了LoRA [14]等训练技术。 📌 核心摘要解决的问题：多模态大语言模型在处理音视频问答任务时，因音频和视觉token数量庞大导致计算和内存开销高，且现有的融合方法往往忽略了音频token的冗余问题，影响了效率和跨模态对齐效果。方法核心：提出高效音视频推理框架（EAVI），包含两个核心组件：(1) 音频token聚类压缩（ATCC），通过动态阈值聚类在保留时序结构的前提下压缩音频token；(2) 双向模态融合模块，通过交叉注意力让压缩后的音频特征与视觉特征相互增强。与已有方法的新颖之处：不同于以往工作主要压缩视觉token或进行简单拼接，EAVI首次专门针对音频模态设计了一种无需额外训练参数的动态聚类压缩方法，并引入了双向的跨模态注意力机制，使融合更加充分。主要实验结果：在三个AVQA基准数据集上，EAVI相比强基线VideoLLaMA2，准确率提升了0.6%-3.7%。效率方面，音频token数量平均减少96%，总token减少66%，导致FLOPs降低54%，KV缓存使用减少65%，推理延迟降低15%。主要对比结果：模型 Music-AVQA VGGSound AVSD CREMA (2025) 75.6 67 - VideoLLaMA2 (2024) 80.9 71.4 57.2 PAVE (2025) 82.3 - 42.5 EAVI (Ours) 81.5 (+0.6) 75.1 (+3.7) 58.7 (+1.5) 效率对比：模型 Tokens (Audio / Total) FLOPs (T) Latency (S) KV cache (MB) VideoLLaMA2 1496 / 2172 40.3 1.13 120 EAVI (Ours) 66 / 742 15.4 0.96 42 实际意义：为在资源受限的设备上部署实时、高效的音视频问答模型提供了可行的技术路径，通过压缩减少了对计算和内存资源的需求。主要局限性：聚类压缩可能导致细微语义信息的丢失；模型的最终性能仍强依赖于底层预训练的视觉和音频编码器；在对话理解（AVSD）等任务上的提升幅度相对较小。 🏗️ 模型架构 EAVI框架的整体架构如图2（左）所示。它建立在类似VideoLLaMA2的架构之上，主要改进了音频处理和跨模态融合部分。 ...

Efficient Depression Detection from Speech via Language-Independent Prompt-Driven Reprogramming

📄 Efficient Depression Detection from Speech via Language-Independent Prompt-Driven Reprogramming #语音生物标志物 #预训练 #迁移学习 #数据增强 #低资源 ✅ 7.5/10 | 前25% | #语音生物标志物 | #迁移学习 | #预训练 #数据增强学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Hyunseo Kim（Konkuk University, Artificial Intelligence & Computer Vision Lab.）通讯作者：未说明作者列表：Hyunseo Kim（Konkuk University, Artificial Intelligence & Computer Vision Lab.）、Longbin Jin（Konkuk University, Artificial Intelligence & Computer Vision Lab.）、Eun Yi Kim（Konkuk University, Artificial Intelligence & Computer Vision Lab.） 💡 毒舌点评亮点：论文的亮点在于其“四两拨千斤”的设计哲学——通过仅训练极少的提示参数（769个）和利用三种巧妙的音频增强，就驱动庞大的预训练音频模型（如AST）在跨语言抑郁症检测任务上超越了全参数微调，体现了对参数效率和领域适应性的深刻理解。短板：所有验证仅在两个规模有限（DAIC-WoZ训练集仅107人）的公开基准上进行，缺乏在更大、更多样化的真实临床数据中的测试，这使得其宣称的“可扩展”和“临床部署”潜力在论文中缺乏足够证据支撑，更像一个在特定benchmark上表现良好的技术验证。 ...