Explicit Dropout: Deterministic Regularization for Transformer Architectures

📄 Explicit Dropout: Deterministic Regularization for Transformer Architectures #正则化 #音频分类 #多任务学习 #Transformer ✅ 7.0/10 | 前25% | #音频分类 | #正则化 | #多任务学习 #Transformer | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:未说明 通讯作者:未说明 作者列表: Vidhi Agrawal(未说明) Illia Oleksiienko(未说明) Alexandros Iosifidis(未说明) 💡 毒舌点评 亮点在于其理论框架清晰,将“随机扰动”这一黑盒操作转化为可显式优化的损失项,为Transformer正则化提供了更精细的控制粒度。短板是摘要中未提供任何具体的性能提升数字,使得“匹配或超越传统方法”的结论略显空洞,缺乏直观的说服力。 🔗 开源详情 论文中未提及开源计划。具体如下: 代码:未提及代码仓库链接。 模型权重:未提及。 数据集:未提及。 Demo:未提及。 复现材料:未提及训练细节、配置、检查点或附录说明。 引用的开源项目:摘要中未提及。 📌 核心摘要 这篇论文旨在解决传统Dropout方法依赖随机掩码、正则化效果不透明且难以精确控制的问题。其核心方法是提出一种确定性公式,将Dropout重新表述为一个可直接加入训练损失函数的显式正则化项,并推导出了适用于Transformer架构中注意力机制(Q、K、V)和前馈网络的正则化表达式。与已有方法相比,新方法去除了随机性,提供了清晰、细粒度的正则化强度控制。实验在图像分类、时序动作检测和音频分类任务上进行,摘要声称该方法匹配或超越了传统隐式Dropout,尤其在注意力层和前馈层应用时效果稳定。该工作的实际意义是为Transformer训练提供了一种可解释、可控制的正则化替代方案。主要局限性在于摘要未提供具体的量化对比结果,且其在更大规模模型或更复杂任务上的普适性有待验证。 🏗️ 模型架构 论文并未提出一个新的神经网络模型架构,而是提出了一种应用于现有Transformer架构的确定性正则化框架。其核心是将标准Dropout的随机掩码操作,转化为在训练损失函数中增加一个显式的正则化项。 整体流程:在训练过程中,模型的前向传播与标准Transformer一致。但在计算损失时,除了原有的任务损失(如交叉熵损失),会额外计算一个“显式Dropout正则项”。这个正则项的计算基于模型权重(或激活值)与一个确定的掩码模式(由dropout rate决定)的某种运算(具体公式论文中应有推导)。最终的总损失是任务损失与加权后的正则项之和。反向传播则基于这个总损失进行。 关键设计:该框架的关键在于为Transformer的不同组件(注意力查询、键、值矩阵,以及前馈网络的两层权重)分别推导出独立的正则化表达式,并为每个组件的正则化强度分配独立的系数。这使得正则化可以针对模型的不同部分进行精细调控。 与标准Dropout的区别:标准Dropout在训练时随机丢弃神经元,是一种隐式的、基于随机扰动的正则化。本文方法则将这种“丢弃”的效应,通过数学推导等价地表达为一个确定性的损失惩罚项,从而在优化目标上实现了显式化。 💡 核心创新点 确定性正则化公式:将随机Dropout重新表述为一个可直接加入损失函数的显式正则化项。这使得正则化过程变得确定、可解释,并消除了随机性带来的训练波动。 针对Transformer的细粒度控制:为Transformer架构中的不同组件(Attention的Q/K/V、FFN)分别推导正则化项,并允许为每个组件设置独立的正则化强度系数。这比传统Dropout的全局统一丢弃率提供了更灵活、更精准的控制手段。 去除对随机扰动的依赖:通过显式优化目标来实现正则化,理论上可以使训练过程更稳定,超参数(如dropout rate和正则化系数)的调整具有更清晰的物理意义。 理论推导与多任务验证:论文不仅提出了方法,还提供了数学推导,并在图像、时序、音频等多个不同领域的任务上进行了实验验证,展示了方法的通用性。 🔬 细节详述 训练数据:论文中未提及具体的数据集名称、来源、规模及预处理细节。 损失函数:总损失函数 = 任务损失 + λ * 显式Dropout正则项。其中λ是正则化强度系数。正则项的具体形式针对Transformer不同组件有所不同,论文中应有详细公式。 训练策略:论文中未提及学习率、warmup、batch size、优化器、训练步数/轮数、调度策略等具体信息。 关键超参数:核心超参数包括每个组件的dropout rate(控制掩码稀疏度)和对应的正则化强度系数λ。模型大小、层数等具体配置未说明。 训练硬件:论文中未提及GPU/TPU型号、数量及训练时长。 推理细节:该方法主要影响训练过程,推理时通常不使用Dropout或正则项。论文未提及推理阶段的特殊设置。 正则化技巧:本文的核心贡献本身就是一种正则化技巧。 📊 实验结果 主要实验:论文在图像分类、时序动作检测和音频分类三个任务上进行了实验。 性能声明:摘要中声明“显式Dropout匹配或超越了传统隐式方法”,并且“在应用于注意力层和前馈网络层时带来一致的增益”。 消融研究:摘要提到进行了消融研究,证明了通过调整正则化系数和dropout率可以实现“稳定的性能和可控的正则化”。 具体数值:论文摘要中未给出任何具体的性能数值(如准确率、mAP等)。因此,无法量化其与最强基线或SOTA的具体差距。所有关于性能的结论均基于摘要中的定性描述。 ⚖️ 评分理由 学术质量:5.5/7。创新性明确,将经典技术以新的形式重新表述并应用于主流架构,具有理论价值。技术方向正确,推导过程(假设存在)应具有正确性。但实验部分在摘要中缺乏定量支撑,无法判断其优势的显著性和普遍性,因此证据可信度打折。 选题价值:1.5/2。改进基础训练组件(Dropout)对整个深度学习社区具有潜在价值,尤其在追求训练稳定性和可解释性的背景下。与音频读者的相关性中等,因为其通用方法在音频任务上得到了验证。 开源与复现加成:0.0/1。摘要中完全未提及代码、模型、数据集的开源情况,也未提供足够的复现细节(如超参数配置),因此无法给予任何加成。 🖼️ 图片与表格 当前输入中未提供任何图片或表格信息,因此无法进行分析。分析受限。 ...

2026-04-23 · 更新于 2026-06-15 · 1 min · 111 words

FastTurn: Unifying Acoustic and Streaming Semantic Cues for Low-Latency and Robust Turn Detection

📄 FastTurn: Unifying Acoustic and Streaming Semantic Cues for Low-Latency and Robust Turn Detection #语音对话系统 #流式处理 #多任务学习 #大语言模型 #鲁棒性 🔥 8.0/10 | 前25% | #语音对话系统 | #流式处理 | #多任务学习 #大语言模型 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Chengyou Wang(Audio, Speech and Language Processing Group (ASLP@NPU)) 通讯作者:未说明 作者列表: Chengyou Wang(Audio, Speech and Language Processing Group (ASLP@NPU)) Hongfei Xue(Audio, Speech and Language Processing Group (ASLP@NPU)) Chunjiang He(Audio, Speech and Language Processing Group (ASLP@NPU)) Jingbin Hu(Audio, Speech and Language Processing Group (ASLP@NPU)) Shuiyuan Wang(Audio, Speech and Language Processing Group (ASLP@NPU)) Bo Wu(Audio, Speech and Language Processing Group (ASLP@NPU)) Yuyu Ji(Audio, Speech and Language Processing Group (ASLP@NPU)) Jimeng Zheng(Audio, Speech and Language Processing Group (ASLP@NPU)) Ruofei Chen(Audio, Speech and Language Processing Group (ASLP@NPU)) Zhou Zhu(Audio, Speech and Language Processing Group (ASLP@NPU)) Lei Xie(Audio, Speech and Language Processing Group (ASLP@NPU)) 注:作者列表后标注了所属机构“1 Audio, Speech and Language Processing Group (ASLP@NPU) 2 Shengwang 3 QualiaLabs”,但论文正文中未明确将每位作者与具体机构(2, 3)进行一一对应,因此统一按第一作者所在机构列出。 💡 毒舌点评 亮点:论文巧妙地通过“FastTurn-Cascaded -> FastTurn-Semantic -> FastTurn-Unified”的三阶段演进,清晰地展示了如何在低延迟(利用流式CTC)和高鲁棒性(融合声学特征)之间进行工程权衡,并发布了一个标注详实、贴近真实对话的测试集,这对该领域的研究很有价值。 短板:核心创新更多是现有技术(CTC, LLM, Conformer)的系统集成和训练策略设计,而非提出全新的模型架构或理论;此外,论文在英文数据上的效果(表3)并未超越已有基线(Para.+Ten Turn),显示其优势可能更集中于中文场景或特定测试集。 ...

2026-04-23 · 更新于 2026-06-15 · 2 min · 302 words

语音/音乐/音频论文速递 2026-04-23

语音/音乐/音频论文速递 2026-04-23 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 语音识别 5篇 █████ 基准测试 2篇 ██ 音频深度伪造检测 2篇 ██ 语音对话系统 2篇 ██ 音频分类 2篇 ██ 音乐信息检索 1篇 █ 语音合成 1篇 █ 麦克风阵列 1篇 █ 📊 论文评分排行榜(27 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Indic-CodecFake meets SATYAM: Towards Detecting Neural 8.5分 前25% #音频深度伪造检测 🥈 Qwen3.5-Omni Technical Report 8.5分 前25% #语音对话系统 🥉 Towards Streaming Target Speaker Extraction via Chunk-w 8.5分 前25% #语音分离 4 Aligning Stuttered-Speech Research with End-User Needs: 8.5分 前25% #语音识别 5 ONOTE: Benchmarking Omnimodal Notation Processing for E 8.0分 前25% #基准测试 6 FastTurn: Unifying Acoustic and Streaming Semantic Cues 8.0分 前25% #语音对话系统 7 Environmental Sound Deepfake Detection Using Deep-Learn 8.0分 前25% #音频深度伪造检测 8 Embedding-Based Intrusive Evaluation Metrics for Musica 7.5分 前25% #音乐信息检索 9 Self-Noise Reduction for Capacitive Sensors via Photoel 7.5分 前25% #麦克风阵列 10 Utterance-Level Methods for Identifying Reliable ASR-Ou 7.5分 前25% #语音识别 11 Enhancing ASR Performance in the Medical Domain for Dra 7.5分 前25% #语音识别 12 Deep Hierarchical Knowledge Loss for Fault Intensity Di 7.5分 前25% #音频分类 13 SpeechParaling-Bench: A Comprehensive Benchmark for Par 7.5分 前25% #基准测试 14 ATIR: Towards Audio-Text Interleaved Contextual Retriev 7.5分 前25% #音频检索 15 Before the Mic: Physical-Layer Voiceprint Anonymization 7.5分 前25% #语音匿名化 16 MOMO: A framework for seamless physical, verbal, and gr 7.5分 前25% #机器人控制 17 CoInteract: Physically-Consistent Human-Object Interact 7.5分 前25% #视频生成 18 MoVE: Translating Laughter and Tears via Mixture of Voc 7.5分 前25% #语音翻译 19 Reducing the Offline-Streaming Gap for Unified ASR Tran 7.5分 前25% #语音识别 20 Tadabur: A Large-Scale Quran Audio Dataset 7.5分 前25% #语音识别 21 FLiP: Towards understanding and interpreting multimodal 7.5分 前50% #模型评估 22 Text-To-Speech with Chain-of-Details: modeling temporal 7.0分 前25% #语音合成 23 SAND: The Challenge on Speech Analysis for Neurodegener 7.0分 前50% #语音生物标志物 24 Explicit Dropout: Deterministic Regularization for Tran 7.0分 前25% #音频分类 25 X-VC: Zero-shot Streaming Voice Conversion in Codec Spa 6.5分 前25% #语音转换 26 Enhancing Speaker Verification with Whispered Speech vi 6.5分 前50% #说话人验证 27 Centering Ecological Goals in Automated Identification 6.5分 前25% #生物声学 📋 论文列表 🥇 Indic-CodecFake meets SATYAM: Towards Detecting Neural Audio Codec Synthesized Speech Deepfakes in Indic Languages 🔥 8.5/10 | 前25% | #音频深度伪造检测 | #预训练 | #多语言 #语音大模型 | arxiv ...

2026-04-23 · 更新于 2026-06-15 · 13 min · 2679 words

Incremental learning for audio classification with Hebbian Deep Neural Networks

📄 Incremental learning for audio classification with Hebbian Deep Neural Networks #音频分类 #自监督学习 #多任务学习 #模型评估 ✅ 评分:6.5/10 | arxiv 👥 作者与机构 第一作者:Riccardo Casciotti (论文中未明确标注机构,根据arXiv作者列表和研究领域推断可能来自意大利的学术机构,如米兰理工大学等) 通讯作者:Annamaria Mesaros (论文中未明确标注,但作为资深作者和项目负责人,通常为通讯作者。推断来自坦佩雷大学或相关机构) 其他作者:Francesco De Santis, Alberto Antonietti (机构推断同第一作者) 💡 毒舌点评 亮点:把生物脑的“用进废退”哲学(Hebbian学习)和“重点保护”策略(核塑性)搬到音频分类的增量学习上,思路清奇,为摆脱反向传播依赖提供了一个有趣的备选方案。 槽点:绝对性能(联合训练58.4%)在ESC-50上实在不算亮眼,让人怀疑这个“生物脑”是不是有点“健忘”;实验对比略显“关起门来比武”,缺少与当前音频领域强力对手的正面交锋。 🔗 开源详情 代码:已开源。GitHub地址:https://github.com/RiccardoCasciotti/Hebbian-TIL。论文中未说明使用的框架。 模型权重:论文中未提及是否公开预训练模型权重。 数据集:使用的是公开数据集ESC-50和UrbanSound8K,但论文中未提供数据预处理或增强的额外代码。 在线Demo:未提及。 依赖的开源项目:论文中未明确列出,但代码库可能依赖于PyTorch或TensorFlow等常见深度学习框架。 📌 核心摘要 本文针对音频分类中的增量学习(持续学习)问题,提出了一种受生物启发的解决方案。核心是解决深度学习模型在学习新任务时对旧知识的“灾难性遗忘”。作者首次将Hebbian学习(一种基于神经元同步激活的无监督、无反馈学习规则)与增量学习相结合,并设计了一个核塑性机制。该机制通过分析训练过程中卷积核的权重变化和激活值,动态识别对当前任务重要的核,并在学习新任务时,选择性增强非重要核的学习率(提高可塑性),同时抑制重要核的更新(维持稳定性)。在ESC-50数据集上,该方法在五个增量步骤后达到了76.3%的总体准确率,显著优于不使用核塑性的基线(68.7%)和EWC方法(33%)。增量学习指标(如BWT, FM)也证实了该方法在保持可塑性的同时,有效减少了遗忘。工作展示了Hebbian学习作为一种生物合理、无监督的替代范式,在持续学习中的潜力。 🏗️ 模型架构 模型整体是一个用于任务增量学习(Task-Incremental Learning, TIL)的混合架构,结合了无监督的Hebbian特征提取器和监督的分类头。 输入:音频信号的时频表示(如梅尔频谱图)。 特征提取器:由5个卷积层构成,是模型的核心。 学习规则:所有卷积层使用SoftHebb算法进行无监督、前馈式学习。该算法是经典Hebb规则的改进,通过贝叶斯解释和自适应学习率,在单次前向传播中更新权重,无需误差反向传播。 激活函数:使用Triangle激活函数,而非ReLU。 池化层:前4个卷积层后接最大池化层,第5个(最后一个)卷积层后接平均池化层。 归一化:每层后都使用批归一化(Batch Normalization)。 训练方式:在训练每个新任务时,特征提取器首先使用SoftHebb算法进行单轮(one epoch) 的无监督训练,然后被冻结。 分类器:一个全连接层,使用反向传播进行有监督训练。 多头设计:为每个增量任务(T_new)实例化一个新的、独立的分类头(H_new)。训练时只更新当前任务的头,旧的头被冻结并存储。 推理:根据已知的任务标签,选择对应的分类头进行预测。 核塑性模块:一个在特征提取器训练过程中激活的调控模块。它不改变网络结构,而是动态调节每个卷积核的学习率。它维护两个历史记录:1)每个核在以往任务上的平均权重变化量;2)每个核在以往任务上的累积激活值排名(选出Top-K重要的核)。在学习新任务时,如果某个重要核的权重更新超过了其历史平均值,则触发调制:抑制重要核(j∈K)的更新(乘以β<1),同时增强非重要核(j∉K)的更新(乘以α>1),以此平衡稳定性与可塑性。 数据流:输入音频 -> 5层Hebbian卷积特征提取器(由核塑性模块动态调制) -> 冻结的特征向量 -> 当前任务的分类头 -> 预测类别。 💡 核心创新点 首次结合Hebbian学习与增量学习:开辟了使用无监督、生物合理的学习规则解决增量学习中灾难性遗忘问题的新路径,与主流的基于反向传播的解决方案形成对比。 核塑性机制:提出了一种受神经调质(如多巴胺)启发的、基于学习率调制的增量学习方法。其创新在于通过权重变化历史和激活值排名这两个标准来动态识别“重要”卷积核,并在学习新任务时对其实施保护(降低学习率),同时鼓励非重要核的可塑性(提高学习率),从而实现选择性巩固。 Hebbian特征提取器+多头分类器的混合架构:将无监督的特征学习(Hebbian部分)与有监督的任务特定分类(反向传播部分)解耦。这种设计让核塑性机制可以专注于保护特征表示空间的稳定性,而分类头则通过新增的方式避免干扰,两者协同解决遗忘问题。 🔬 细节详述 训练数据:使用ESC-50数据集(2000条5秒环境声音,50类,每类40条)。划分为5个增量任务:第一个任务包含30个随机选择的类别,后续4个任务各包含5个不重叠的类别。使用3折训练,1折验证,1折测试。 训练策略: 两阶段训练:对于每个新任务:1) 特征提取器训练:使用SoftHebb算法,单轮(1 epoch)无监督训练,同时应用核塑性机制。2) 分类头训练:冻结特征提取器,使用反向传播训练当前任务的新分类头,共50个epoch。 优化器与学习率:论文未明确说明反向传播阶段分类头训练的优化器和初始学习率。Hebbian学习阶段的学习率由SoftHebb算法自适应调整,核塑性机制在此基础上进行调制(α=1.15, β=0.9)。 关键超参数: top_k:保护的重要核比例,设为0.6(即60%的核被视为重要)。 α:非重要核的学习率增强因子,设为1.15。 β:重要核的学习率抑制因子,设为0.9。 权重变化跟踪间隔:每5个批次(batch)记录一次权重变化。 数据增强:论文中未提及使用任何数据增强技术。 训练硬件:论文中未提及训练所用的GPU型号、数量和训练时间。 📊 实验结果 主要指标对比(表1数据复述): 方法 KP Task 0 Task 1 Task 2 Task 3 Task 4 Overall EWC Baseline - 9.5 54.5 63.5 82.5 70.5 33.0 TIL (proposed) – 60.4 70.9 72.7 71.2 68.7 68.7 TIL (proposed) ✓ 60.0 71.4 74.6 75.8 76.3 76.3 Joint learning – 60.4 57.9 57.4 57.2 58.4 58.4 Joint learning ✓ 60.0 58.5 56.8 54.9 54.7 54.7 Common head – – – – – – 53.3 注:括号内数字为学习当前任务时的准确率(新任务性能)和对旧任务的平均准确率(旧任务保持性能)。 增量学习指标(表2数据复述): Metric KP Task 1 Task 2 Task 3 Task 4 BWT – -2.33 -4.67 -8.64 -12.63 BWT ✓ -1.98 -1.82 -2.11 -2.36 IM – -25.85 -25.91 -26.11 -24.61 IM ✓ -26.22 -25.83 -27.36 -26.33 FM – 2.33 1.15 1.22 1.04 FM ✓ 1.98 0.88 0.90 0.56 消融实验:核心消融是有无核塑性(KP)。结果表明,KP将最终总体准确率从68.7%提升至76.3%。更重要的是,KP模型在后续任务中对早期任务的保持能力远强于无KP模型(如Task 0最终准确率:KP模型58% vs 无KP模型37%),且BWT和FM指标显著更优。 在其他数据集上的实验:在UrbanSound8K数据集上(5个任务,每个任务2类),KP模型在5个任务上的准确率分别为84%, 87%, 86%, 85%, 92%,在早期任务上比无KP模型最高高出4%。 局限性:联合训练(Joint learning)的绝对准确率(58.4%)较低,表明该Hebbian架构在标准监督学习设置下的性能可能不是最优的。实验缺乏与专门针对音频的增量学习SOTA方法的对比。 ⚖️ 评分理由 创新性:7/10。首次将Hebbian学习引入音频增量学习,并设计了受生物启发的核塑性机制,思路新颖,为领域提供了有价值的替代视角。但创新属于应用型和机制改良型,并非基础理论的突破。 实验充分性:6/10。在单一数据集(ESC-50)上进行了详细的消融实验和增量学习指标分析,并在UrbanSound8K上做了初步验证。但缺少与更多、更强基线(尤其是音频领域的SOTA增量学习方法)的对比,绝对性能基准不高。 实用价值:7/10。增量学习是实际部署中的关键需求,该方法为构建低功耗、生物合理的持续学习音频系统提供了可能。但当前性能和架构复杂度可能限制其直接落地。 灌水程度:8/10(分数越高越水)。论文结构清晰,动机明确,技术细节描述较为完整,实验设计针对核心问题,没有明显的冗余内容或夸大表述。是一篇扎实的研究工作。 🖼️ 图片与表格 图1: 模型架构图 | 保留: 是 - 清晰地展示了5层Hebbian卷积特征提取器、多头分类器以及核塑性机制的作用位置,是理解模型工作原理的核心示意图。 图2: 各任务最终准确率对比柱状图 | 保留: 是 - 直观对比了KP模型与无KP模型在每个增量任务上的最终性能,突出了KP在防止早期任务性能崩溃上的巨大作用,是结果分析的关键图示。 表1: 不同学习变体在各阶段的分类准确率 | 保留: 是 - 核心结果表格,包含了所有对比方法(EWC, TIL w/o KP, TIL w/ KP, Joint, Common head)在五个任务节点上的详细准确率数据,是得出主要结论的依据。 表2: 增量学习指标对比 | 保留: 是 - 提供了BWT, IM, FM三个关键增量学习指标的量化对比,从不同角度证实了KP方法在缓解遗忘和保持可塑性方面的优势。 📸 论文图片 ...

2026-04-21 · 更新于 2026-06-15 · 2 min · 280 words

SELF-EMO: Emotional Self-Evolution from Recognition to Consistent Expression

📄 SELF-EMO: Emotional Self-Evolution from Recognition to Consistent Expression #语音情感识别 #强化学习 #多任务学习 #大语言模型 #语音对话系统 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Shaowei Zhang (商汤科技 SenseTime) 通讯作者:Faqiang Qian, Mengya Gao, Yichao Wu (商汤科技 SenseTime,邮箱:{qianfaqiang, gaomengya, wuyichao}@senseauto.com) 其他作者: Yan Chen (商汤科技 SenseTime,清华大学) Ziliang Wang (商汤科技 SenseTime) Kang An (商汤科技 SenseTime,上海交通大学) Yong Dai (X-Humanoid) 💡 毒舌点评 亮点在于巧妙地将心理学中的“情绪理解驱动情绪表达”理论,包装成了一个AI自我进化的“飞轮”游戏,让模型自己跟自己玩就能变强,理论上很优雅。槽点是整个框架严重依赖另一个LLM(Seed-1.8, DeepSeek-V3.2)来提取人格和生成初始数据,这相当于请了个“家教”来启动“自学循环”,其最终效果的天花板可能受限于这位“家教”的水平,且可能引入隐性偏差。 🔗 开源详情 代码:论文中明确声明“Code and data will be released at GitHub”,并提供了链接占位符(https://github.com/…),但截至论文发布时(2026年4月20日)链接未生效。因此,代码计划开源但尚未发布。 模型权重:未提及是否公开训练后的模型权重。 数据集:论文中使用的三个基准数据集(IEMOCAP, MELD, EmoryNLP)是公开的。自博弈生成的合成数据集预计会随代码一同发布。 预训练权重:基于Qwen3-4B和Qwen3-8B这两个公开的预训练模型。 在线 Demo:未提及。 引用的开源项目:论文中提到了VeRL训练框架,并在实验中使用了它。 📌 核心摘要 本文旨在解决对话系统中情感识别(ERC)与情感表达能力受限于高质量标注数据稀缺且静态的问题。核心贡献是提出了一个心理学动机的自我进化框架 SELF-EMO。关键方法是构建一个角色扮演的自博弈范式,使模型同时充当“情绪识别者”和“对话响应者”,并通过一个“生成-筛选-重用”的数据飞轮机制,利用平滑的基于IOU的奖励函数筛选高质量样本,实现无外部监督的持续自我改进。为此,作者还设计了多情感强化学习算法 SELF-GRPO,通过核心情绪集聚合和组级一致性建模来稳定训练。主要发现是在IEMOCAP、MELD和EmoryNLP三个基准数据集上,该方法在统一的训练设定下取得了SOTA性能,显著提升了模型的泛化能力。实际意义在于为构建数据高效、可自我进化的情感智能体提供了新范式。局限性在于框架的启动依赖外部LLM生成数据,且自我进化过程的长期稳定性和可能产生的偏差需要进一步研究。 ...

2026-04-21 · 更新于 2026-06-15 · 2 min · 370 words

语音/音乐/音频论文速递 2026-04-21

语音/音乐/音频论文速递 2026-04-21 共分析 34 篇论文 ⚡ 今日概览 📥 抓取 34 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 模型评估 13篇 █████████████ 基准测试 9篇 █████████ 音频大模型 8篇 ████████ 数据集 7篇 ███████ 多语言 7篇 ███████ 多模态模型 5篇 █████ 强化学习 5篇 █████ 语音对话系统 4篇 ████ 📊 论文评分排行榜(34 篇,按分数降序) 排名 论文 评分 🥇 FreezeEmpath: Efficient Training for Empathetic Spoken 10.0分 🥈 Audio-DeepThinker: Progressive Reasoning-Aware Reinforc 9.5分 🥉 VoxSafeBench: Not Just What Is Said, but Who, How, and 9.5分 4 Benign Fine-Tuning Breaks Safety Alignment in Audio LLM 9.0分 5 Prosody as Supervision: Bridging the Non-Verbal–Verbal 9.0分 6 Anonymization, Not Elimination: Utility-Preserved Speec 8.5分 7 MimicLM: Zero-Shot Voice Imitation through Autoregressi 8.5分 8 ArtifactNet: Detecting AI-Generated Music via Forensic 8.5分 9 Audio-Cogito: Towards Deep Audio Reasoning in Large Aud 8.5分 10 LLM-Codec: Neural Audio Codec Meets Language Model Obje 8.5分 11 NIM4-ASR: Towards Efficient, Robust, and Customizable R 8.5分 12 Video-Robin: Autoregressive Diffusion Planning for Inte 8.0分 13 A state-space representation of the boundary integral e 8.0分 14 AVRT: Audio-Visual Reasoning Transfer through Single-Mo 8.0分 15 MoVE: Translating Laughter and Tears via Mixture of Voc 8.0分 16 SELF-EMO: Emotional Self-Evolution from Recognition to 8.0分 17 BhashaSutra: A Task-Centric Unified Survey of Indian NL 8.0分 18 MINT-Bench: A Comprehensive Multilingual Benchmark for 8.0分 19 ICLAD: In-Context Learning with Comparison-Guidance for 7.5分 20 Still Between Us? Evaluating and Improving Voice Assist 7.5分 21 Where Do Self-Supervised Speech Models Become Unfair? 7.5分 22 Neural Encoding Detection is Not All You Need for Synth 7.5分 23 Omni-Embed-Audio: Leveraging Multimodal LLMs for Robust 7.5分 24 Latent Fourier Transform 7.5分 25 Hard to Be Heard: Phoneme-Level ASR Analysis of Phonolo 7.5分 26 VIBE: Voice-Induced open-ended Bias Evaluation for Larg 7.5分 27 Aligning Language Models for Lyric-to-Melody Generation 7.5分 28 ClariCodec: Optimising Neural Speech Codes for 200bps C 7.0分 29 From Reactive to Proactive: Assessing the Proactivity o 7.0分 30 A novel LSTM music generator based on the fractional ti 6.5分 31 Incremental learning for audio classification with Hebb 6.5分 32 Coexisting Tempo Traditions in Beethoven’s Piano and Ce 6.0分 33 FLiP: Towards understanding and interpreting multimodal 5.5分 34 HCFD: A Benchmark for Audio Deepfake Detection in Healt 5.0分 📋 论文列表 🥇 FreezeEmpath: Efficient Training for Empathetic Spoken Chatbots with Frozen LLMs 🔥 10.0分 | #语音对话系统 #多模态模型 #迁移学习 #语音情感识别 | arxiv ...

2026-04-21 · 更新于 2026-06-15 · 13 min · 2659 words

Generalizable Audio-Visual Navigation via Binaural Difference Attention and Action Transition Prediction

📄 Generalizable Audio-Visual Navigation via Binaural Difference Attention and Action Transition Prediction #音视频 #声源定位 #强化学习 #多任务学习 #零样本 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Jia Li(新疆大学,计算机科学与技术学院,联合研究实验室 for Embodied Intelligence) 通讯作者:Yinfeng Yu(新疆大学,计算机科学与技术学院,联合研究实验室 for Embodied Intelligence;邮箱:yuyinfeng@xju.edu.cn) 其他作者:根据署名顺序,论文仅列出了两位作者,Jia Li和Yinfeng Yu。他们共同隶属于以下机构: 新疆大学,联合研究实验室 for Embodied Intelligence 新疆大学,丝绸之路多语种认知计算联合国际研究实验室 新疆大学,计算机科学与技术学院,乌鲁木齐 830017,中国 💡 毒舌点评 亮点:这论文把“听声辨位”这件事整明白了!BDA模块不搞虚的,直接让左右耳特征“打架”(算差值),逼着模型关注声音从哪边来,而不是这是什么声音,这对没见过的声音特别管用。ATP任务像给导航策略上了个“行为矫正器”,让动作更连贯,减少在陌生环境里原地转圈的傻行为。 槽点:方法组合拳虽然有效,但每个拳法(BDA, ATP)本身都不算开宗立派,更像是给现有强力基线(AV-WaN)打了个高效的“补丁”。另外,论文里那些“ Hear Sharper, Act Smarter”的口号,比技术细节更让人印象深刻。 🔗 开源详情 代码:论文在作者信息下方明确提供了GitHub链接(https://github.com/...,具体地址需查看arXiv源文件或点击HTML版本中的链接)。表明代码已开源。 模型权重:论文中未明确提及是否公开预训练模型权重。 数据集:实验使用的是公开的SoundSpaces仿真平台、Replica和Matterport3D数据集,非本文自建。 在线Demo:论文中未提及。 依赖的开源项目:论文依赖SoundSpaces仿真环境、以及可能基于PyTorch等深度学习框架。引用的基线方法(如AV-NaV, AV-WaN)的代码可能也是其依赖。 📌 核心摘要 本文旨在解决音频-视觉导航(AVN)智能体在未见环境和未闻声音类别下泛化能力差的核心问题。作者指出,现有方法性能下降主要源于两个因素:一是音频表征混淆了语义与空间信息,导致对未闻声��定位不准;二是强化学习策略过拟合于训练环境的动态和布局。为此,本文提出了一个名为BDATP的即插即用框架。在感知层面,设计了双耳差分注意力模块,通过显式建模和利用左右声道特征的差异,强化模型对空间方位线索的提取,降低对声音语义的依赖。在策略层面,引入了动作转移预测辅助任务,通过预测轨迹中下一步的动作来增加策略学习的时序一致性约束,鼓励模型学习跨环境的通用导航规律。在Replica和Matterport3D数据集上的大量实验表明,将BDATP集成到AV-NaV和AV-WaN等主流基线中,能带来一致且显著的性能提升,尤其在最具挑战性的未闻声音设置下,成功率最高可提升超过21个百分点,证明了其优越的泛化能力和鲁棒性。 🏗️ 模型架构 BDATP框架整体是一个端到端的强化学习系统,以深度图像和双耳声谱图为输入,输出导航动作。其核心流程和组件如下: 输入与编码: 视觉输入:智能体的第一人称深度图像,通过一个独立的CNN编码器(三个卷积层+线性层+ReLU)编码为512维的视觉特征 f_v。 音频输入:双耳声谱图(左右声道)。首先沿声道维度分离为左、右两个单声道声谱图。然后,通过一个权重共享的CNN编码器(结构与视觉编码器相同)分别编码,得到中间特征图 f_al 和 f_ar。 双耳差分注意力模块: ...

2026-04-20 · 更新于 2026-06-15 · 3 min · 526 words

语音/音乐/音频论文速递 2026-04-20

语音/音乐/音频论文速递 2026-04-20 共分析 24 篇论文 ⚡ 今日概览 📥 抓取 24 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 基准测试 6篇 ██████ 多模态模型 5篇 █████ 语音对话系统 4篇 ████ 大语言模型 4篇 ████ 多语言 4篇 ████ 数据集 4篇 ████ 跨模态 3篇 ███ 模型评估 3篇 ███ 📊 论文评分排行榜(24 篇,按分数降序) 排名 论文 评分 🥇 Qwen3.5-Omni Technical Report 9.5分 🥈 Beyond Monologue: Interactive Talking-Listening Avatar 9.0分 🥉 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 8.5分 4 Generalizable Audio-Visual Navigation via Binaural Diff 8.5分 5 Hierarchical Codec Diffusion for Video-to-Speech Genera 8.5分 6 VoxMind: An End-to-End Agentic Spoken Dialogue System 8.5分 7 ArtifactNet: Detecting AI-Generated Music via Forensic 8.0分 8 Full-Duplex-Bench-v3: Benchmarking Tool Use for Full-Du 8.0分 9 ActorMind: Emulating Human Actor Reasoning for Speech R 8.0分 10 Elucidating the SNR-t Bias of Diffusion Probabilistic M 8.0分 11 HARNESS: Lightweight Distilled Arabic Speech Foundation 7.5分 12 NaijaS2ST: A Multi-Accent Benchmark for Speech-to-Speec 7.5分 13 NVBench: A Benchmark for Speech Synthesis with Non-Verb 7.5分 14 AST: Adaptive, Seamless, and Training-Free Precise Spee 7.5分 15 Temporal Contrastive Decoding: A Training-Free Method f 7.5分 16 Joint-Centric Dual Contrastive Alignment with Structure 7.5分 17 Discrete Token Modeling for Multi-Stem Music Source Sep 7.0分 18 Spatial-Aware Conditioned Fusion for Audio-Visual Navig 7.0分 19 BlasBench: An Open Benchmark for Irish Speech Recogniti 7.0分 20 TinyMU: A Compact Audio-Language Model for Music Unders 6.5分 21 Interactive ASR: Towards Human-Like Interaction and Sem 6.5分 22 PS-TTS: Phonetic Synchronization in Text-to-Speech for 6.0分 23 MUSCAT: MUltilingual, SCientific ConversATion Benchmark 6.0分 24 The Acoustic Camouflage Phenomenon: Re-evaluating Speec 2.5分 📋 论文列表 🥇 Qwen3.5-Omni Technical Report 🔥 9.5分 | #语音对话系统, #音频大模型, #多模态模型, #预训练, | arxiv ...

2026-04-20 · 更新于 2026-06-15 · 10 min · 2068 words