Icassp-2026

Assessing The Perceptual Impact of Low-Altitude Aircraft Noise in Cities: An Auralization Framework Using Gaussian Beam Tracing

📄 Assessing The Perceptual Impact of Low-Altitude Aircraft Noise in Cities: An Auralization Framework Using Gaussian Beam Tracing #音频生成 #信号处理 #空间音频 #声源定位 🔥 8.0/10 | 前25% | #音频生成 | #信号处理 | #空间音频 #声源定位学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Qichen Tan（苏州大学未来科学与工程学院，香港科技大学）通讯作者：Kexin Sun（四川大学）作者列表：Qichen Tan（苏州大学未来科学与工程学院，香港科技大学）、Kexin Sun（四川大学）、Xun Jiang（电子科技大学）、Peng Hou（苏州大学未来科学与工程学院）、Jiayu Fan（苏州大学未来科学与工程学院） 💡 毒舌点评这篇论文的亮点在于其扎实的工程系统集成和基于真实物理模型的验证，将高精度声源测量与高效的波束追踪仿真结合，形成一个完整的、可用于实际场景评估的听觉化工具链，实验结果与实测数据吻合度极高。但短板在于创新性更多体现在系统整合而非算法本身的突破，高斯波束追踪等核心方法已有先例，且论文缺乏与现有先进仿真工具或传统航空听觉化方法的直接量化对比，使其“先进性”论述略显单薄。 🔗 开源详情代码：论文中提到项目主页（https://gbtflyovernoise.github.io），但未明确说明是否提供代码仓库链接。模型权重：未提及。数据集：论文中描述了其实验测量过程，但未提及是否公开声源方向性测量数据集或城市场景仿真数据。 Demo：未提及。复现材料：未提供训练细节、配置、检查点、附录说明等详细复现信息。论文中引用的开源项目：未提及。总结：论文提到了一个项目页面，但未提供关于代码、模型或数据开源的具体信息，因此整体开源情况不明确。 📌 核心摘要本文针对低空经济快速发展带来的城市飞行器噪音污染评估难题，提出了一种基于高斯波束追踪（GBT）的听觉化计算框架。该框架通过户外实验获取真实无人机的声源方向性数据，并将其与GPU加速的GBT远场声传播模型相结合，能够高保真地合成考虑城市复杂反射、衍射和大气吸收效应的飞越噪音。与传统假设声源为全向、环境为自由场的航空听觉化模型不同，本方法首次将频谱方向性建模与基于波动的声传播仿真相结合。主要实验结果包括：1）在模拟的香港密集社区场景中，接收器声压级随高度变化符合物理规律，频谱特征与无人机旋翼特征频率一致；2）在真实海边场景的交叉验证中，合成信号与实测信号在整体声压级（OASPL）上高度吻合，平均误差小于0.03 dBA，最大OASPL误差小于0.2 dBA（详见下表）。该框架为航空管理部门提供了用于城市规划、航线设计和噪音管理的实用数据指导工具，有助于平衡低空经济发展与噪音控制。其主要局限性可能在于，目前验证场景（两个案例）相对有限，且框架的计算效率与GPU依赖性可能影响其在超大规模或资源受限场景下的应用。 ...

Asynchrony-Aware Decoupled Multimodal Control for Cued Speech Video Generation

📄 Asynchrony-Aware Decoupled Multimodal Control for Cued Speech Video Generation #语音合成 #扩散模型 #流匹配 #音视频 #低资源 ✅ 7.5/10 | 前10% | #语音合成 | #扩散模型 | #流匹配 #音视频学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Fengji Ma（香港科技大学（广州））通讯作者：Li Liu（香港科技大学（广州），邮箱：avrillliu@hkust-gz.edu.cn）作者列表：Fengji Ma（香港科技大学（广州））、Xiao-Ping Zhang（清华伯克利深圳学院）、Li Liu（香港科技大学（广州）） 💡 毒舌点评这篇论文的亮点在于将“手语视频生成”这个具体任务分解得非常清晰，并针对其中“控制纠缠”、“动作异步”和“长视频漂移”三个痛点分别设计了技术方案（DCL、SAMP、MS-CWD），体现了扎实的工程思维和问题导向。然而，其短板也显而易见：作为一篇强调生成质量的工作，却未提供任何开源代码或预训练模型，甚至训练数据集的公开性也未明确，这极大削弱了其作为学术贡献的可验证性和后续研究价值；此外，长视频一致性的验证仅在500帧左右，对于实际应用可能需要更长序列的表现未做探讨。 🔗 开源详情根据论文全文内容：代码：论文中未提及代码链接或开源仓库。模型权重：未提及公开模型权重。数据集：论文提及使用了扩展版MCCS数据集，但未说明该数据集是否公开、如何获取。 Demo：未提及提供在线演示。复现材料：论文给出了一些实现细节（如基础模型、主要模块、分阶段训练思路、学习率），但缺少关键复现信息，如：完整的超参数配置、具体的数据预处理流程、评估脚本、以及用于推理的MS-CWD的具体参数设置。引用的开源项目：论文在方法中引用了多个开源工具/模型作为组件或基线，包括：Wan2.1 [28]（基础模型），Wav2Vec 2.0 [29]（语音编码器），uMT5 [30]（文本编码器），CLIP [31]（图像编码器），DWPose [22]（姿态提取）。在对比实验中引用了StableAnimator [33] 和 UniAnimate-DiT [20]。开源计划：论文中未提及任何开源计划。 📌 核心摘要要解决的问题：论文旨在解决从语音和姿态信号生成手语视频（Cued Speech Video）时面临的三个关键挑战：(1) 语音与姿态模态间的控制纠缠，导致嘴唇和手部细节模糊；(2) 手语系统固有的手部动作与语音的自然异步性，严格对齐会导致动作不自然；(3) 长视频生成中缺乏长期时序一致性。方法核心：提出一个名为“解耦课程学习”（Decoupled Curriculum Learning, DCL）的三阶段训练框架。该框架先分别训练语音分支（控制嘴唇）和姿态分支（控制上半身和手势），再进行联合微调。同时，引入了区域感知重建损失（RAR）以增强局部细节，设计了语音异步调制（SAMP）机制来建模手势与语音的自然时间偏移，并提出了多尺度上下文窗口去噪（MS-CWD）推理策略以保证长视频的时序连贯性。与已有方法的创新点：与以往通用的人像动画或说话人头部生成方法不同，本文是首个针对“手语视频生成”这一特定任务进行系统性建模的工作。其创新点包括：(1) 明确的解耦训练策略（DCL）以避免模态干扰；(2) 区域感知的精细化损失（RAR）聚焦于嘴唇和手部这两个关键区域；(3) 首次在生成任务中显式建模语音与手势的异步关系（SAMP）；(4) 专为长视频设计的多尺度、加权融合的推理算法（MS-CWD）。主要实验结果：在自建的普通话手语（MCCS）数据集上，本文方法在所有评估指标上均优于StableAnimator (SA) 和 UniAnimate-DiT (UAD) 两个SOTA方法。具体数值见表1。消融实验证明，移除任何一个提出模块（DCL, RAR, SAMP, MS-CWD）都会导致性能下降，其中移除DCL影响最大。图4显示，在500帧长视频中，本文方法的手部关键点置信度（HKC）和语音-嘴唇同步置信度（Sync-C）的衰减率仅为约3%，远低于基线方法（约7%-22%）。实际意义：该技术有望为听障人群生成易于理解的、手语辅助的教学或交流视频，打破沟通壁垒。其提出的技术（如异步建模、长视频生成）也可能迁移至其他需要多模态协调控制的视频生成任务中。主要局限性：论文未提供代码和模型，复现困难；实验仅在普通话手语数据集上进行，未验证其他语言手语的通用性；未分析模型的计算开销和训练成本；长视频测试的最长长度为500帧，对于更长的序列（如分钟级）的稳定性有待进一步验证。 🏗️ 模型架构论文的整体架构基于一个扩散Transformer（DiT）骨干网络，并遵循Rectified Flow（RF）目标进行训练。其核心设计是“解耦课程学习”（DCL），分为三个阶段（如图2所示）： ...

ATOM: Adaptive Token-Level Optimal Transport Mixup for Speech Translation

📄 ATOM: Adaptive Token-Level Optimal Transport Mixup for Speech Translation #语音翻译 #对比学习 #多任务学习 #数据增强 #低资源 🔥 8.0/10 | 前25% | #语音翻译 | #对比学习 | #多任务学习 #数据增强学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度高 👥 作者与机构第一作者：Jialing Wang（1. 教育部民族语言智能分析与安全治理重点实验室，中央民族大学；2. 香港中文大学（深圳））通讯作者：Yue Zhao（教育部民族语言智能分析与安全治理重点实验室，中央民族大学）作者列表：Jialing Wang（教育部民族语言智能分析与安全治理重点实验室，中央民族大学；香港中文大学（深圳））、Yue Zhao（教育部民族语言智能分析与安全治理重点实验室，中央民族大学）、Yuhao Zhang（香港中文大学（深圳））、Haizhou Li（香港中文大学（深圳）） 💡 毒舌点评亮点：ATOM框架巧妙地将最优传输的“硬”对齐、对比学习的“精”对齐以及语义相似度引导的自适应“软”混合结合成一个闭环，在低资源藏汉翻译任务上实现了显著的BLEU提升（+2.43），证明了其在弥合模态鸿沟方面的实际效力。短板：论文对于关键的自适应混合公式（3）解释不够清晰（p、σ、γ未明确定义），且消融实验设计较为简单，未能深入剖析各组件协同工作的具体机制和边界条件，使得方法的“自适应”智能性略显黑盒。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开模型权重。数据集：所使用的MuST-C和TIBMD@MUC是公开或部分公开的学术数据集，论文中说明了其来源。 Demo：未提供在线演示。复现材料：论文给出了详细的实验设置、超参数配置（学习率、批大小、优化器、模型维度等）、评估指标和数据集统计，为复现提供了基础信息，但未提供完整的训练代码或配置文件。论文中引用的开源项目：明确基于 FAIRSEQ 工具包进行实现；使用了 HuBERT 作为语音编码器；使用了 SentencePiece 进行分词；使用了 sacreBLEU 进行评估。 📌 核心摘要要解决的问题：端到端语音翻译（ST）面临训练数据稀缺和源语言语音与目标语言文本之间存在巨大模态鸿沟的双重挑战。方法核心：提出ATOM框架，结合最优传输（OT）进行初始跨模态对齐，利用基于InfoNCE的对比学习迭代优化对齐质量，并设计一种基于语义相似度的自适应模态混合策略，将对齐后的语音和文本token在特征层面进行融合。与已有方法相比新在哪里：相比于之前使用固定概率进行模态混合或仅使用单一对齐机制的方法，ATOM实现了“对齐（OT）-精化（对比学习）-融合（自适应混合）”的闭环，且融合权重由token间的语义相似度动态决定，更具灵活性和语义感知能力。主要实验结果：在MuST-C英德（En-De）和TIBMD藏汉（Ti-Zh）数据集上进行评估。主实验结果对比表模型 En-De BLEU Ti-Zh BLEU XSTNET 20.61 11.56 STEMM 20.82 13.61 ConST 20.77 14.66 CMOT 20.84 14.87 OTST 20.88 13.90 ATOM 22.48 17.30 消融实验（En-De）：移除对比学习（-LCTR）导致BLEU下降0.34；同时移除对比学习和自适应混合（-CTR -Adaptive Mixup）导致BLEU下降1.64，回落至CMOT的水平（20.84）。不同对齐损失对比（En-De）：CTR损失（21.18）优于OT损失（20.75）和CAR损失（20.09）。主要结论：ATOM在两个任务上均取得最优结果，相比最强基线CMOT分别提升1.64（En-De）和2.43（Ti-Zh）个BLEU点，在资源更稀缺的Ti-Zh任务上提升尤为显著。实际意义：为低资源语音翻译提供了一种有效的技术方案，通过挖掘多任务学习中平行文本数据的潜力来提升语音模型性能，对促进欠发达语言的跨语言交流有实用价值。主要局限性：1）实验对比的基线均为2022-2024年的经典方法，未与更新的、可能基于大规模预训练语音-语言模型的SOTA进行对比；2）自适应混合策略的参数设置（p, τ, γ）依赖经验，缺乏更深入的分析或自动化调参机制；3）论文未公开代码，限制了可复现性和直接应用。 🏗️ 模型架构 ...

Atomic Norm Minimization Revisited: Progressive Atom Identification And Refinement

📄 Atomic Norm Minimization Revisited: Progressive Atom Identification And Refinement #声源定位 #信号处理 #麦克风阵列 #实时处理 ✅ 7.5/10 | 前25% | #声源定位 | #信号处理 | #麦克风阵列 #实时处理学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Xiaozhi Liu（北航数学科学学院）通讯作者：Yong Xia（北航数学科学学院）作者列表：Xiaozhi Liu（北航数学科学学院）、Jinjiang Wei（北航数学科学学院）、Yong Xia†（北航数学科学学院） 💡 毒舌点评这篇论文理论功底扎实，通过极限重写了原子范数公式，巧妙地绕开了计算昂贵的SDP，并顺手搭了一座连接贝叶斯估计的桥，理论上有新意；其提出的PAIR算法在无噪声仿真中也展示了惊人的速度和精度提升。然而，论文对噪声场景的处理轻描淡写地用一句“留作未来研究”带过，这对于一个信号处理领域的实际应用算法而言是严重的短板，大大削弱了其实用性和说服力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：未提及。实验数据为随机生成。 Demo：未提供。复现材料：提供了算法描述（PAIR流程）和关键参数设置（β序列，γ=8），但缺乏完整的伪代码和实现细节。引用的开源项目：论文中未提及引用或依赖其他开源项目。开源计划：论文中未提及开源计划。 📌 核心摘要要解决什么问题：原子范数最小化（ANM）是解决线谱估计（如到达方向估计）问题的强力工具，但传统方法依赖于半定规划（SDP），导致计算复杂度过高，限制了实时应用。方法核心是什么：本文提出了一种基于极限的原子范数新公式（定理1-3），避免了SDP。该公式揭示了原子范数与贝叶斯估计目标函数之间的联系。基于此，提出了名为PAIR的低复杂度算法，通过序列化的原子识别与准牛顿法细化来求解。与已有方法相比新在哪里：1）提出了一种不依赖SDP的原子范数等价极限公式，并可推广至一般原子集；2）从理论上桥接了ANM与贝叶斯线谱估计方法；3）设计的PAIR算法是网格无关的，计算效率远高于基于SDP的网格无关方法（如SDP-ANM, EMaC），且能自动估计信号源数量。主要实验结果如何：在无噪声、5个正弦分量的仿真实验中（n=64）：成功率：在采样数m较低时（如m=10），PAIR的成功率显著高于SDP-ANM和EMaC，与SRCS接近（见图1a）。运行时间：在所有m值下，PAIR的运行时间比SDP-ANM和EMaC快两个数量级以上，也比SRCS快一个数量级（见图1b）。频率估计误差：PAIR的估计误差δ(f, ̂f)的均值和方差均小于对比方法（见图1c）。关键数据：论文未提供具体数值，结论基于图表。实际意义是什么：该工作为高精度、低延迟的线谱估计提供了一种新的高效算法框架，尤其适用于对实时性要求高的场景，如实时波束成形和动态频谱感知。主要局限性是什么：论文的核心局限性在于其分析和实验几乎完全基于无噪声场景，而实际应用必然面临噪声干扰。对于噪声下的性能、算法稳定性以及参数选择（如β序列）的鲁棒性缺乏分析。此外，实验仅验证了一维线谱估计场景。 🏗️ 模型架构本文的核心贡献在于理论推导和算法设计，而非传统意义上的“模型架构”。PAIR是一个迭代优化算法，其流程可概括如下： ...

Attention-Based Encoder-Decoder Target-Speaker Voice Activity Detection for Robust Speaker Diarization

📄 Attention-Based Encoder-Decoder Target-Speaker Voice Activity Detection for Robust Speaker Diarization #说话人分离 #自监督学习 #编码器-解码器 #模型评估 🔥 8.0/10 | 前25% | #说话人分离 | #编码器-解码器 | #自监督学习 #模型评估学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zeyan Song（南京大学现代声学实验室；地平线机器人NJU-Horizon智能音频实验室）通讯作者：Jing Lu（南京大学）作者列表：Zeyan Song（南京大学现代声学实验室；地平线机器人NJU-Horizon智能音频实验室）、Tianyi Tan（南京大学现代声学实验室；地平线机器人NJU-Horizon智能音频实验室）、Yushi Wang（南京大学现代声学实验室；地平线机器人NJU-Horizon智能音频实验室）、Zheng Wang（南京大学现代声学实验室；地平线机器人NJU-Horizon智能音频实验室）、Jing Lu（南京大学） 💡 毒舌点评亮点：实验设计堪称“地毯式轰炸”，在10个真实数据集、多种配置下进行横向对比，复现性和可信度极高，为后续研究设立了一个扎实的评估基线。短板：核心创新（AED架构与门控）更多是现有模块的精巧组合与验证，缺乏从第一性原理出发的理论突破或对困难场景（如极高重叠、远场）的针对性解法。 🔗 开源详情代码：提供。论文中给出了GitHub仓库链接：https://github.com/Clovermax/AED-TSVAD。模型权重：提供。论文中明确提到提供预训练检查点（pretrained checkpoints）在上述代码仓库中。数据集：论文中未提及提供私有数据集。所用的10个真实数据集和模拟数据集均为公开数据集，但获取方式需遵循各数据集官方规定。 Demo：论文中未提及在线演示。复现材料：提供了代码和模型权重。论文正文包含详细的模型配置、训练配置和推理配置，但部分细节（如具体batch size、优化器完整参数）未在文中列出，可能需要在代码中查看。论文中引用的开源项目： DiariZen：用于提供初始系统标签的基准系统。 Pyannote.audio：用于说话人特征提取（r-vector）和提供初始系统（Pyannote v3.1 pipeline）。 Kaldi：用于i-vector提取。 jsalt2020-simulate：用于生成部分模拟训练数据。 WavLM：微软的预训练自监督语音模型，用作前端特征提取器。论文中未提及开源计划：未说明。 📌 核心摘要这篇论文针对目标说话人语音活动检测（TS-VAD）在多样真实数据集上缺乏全面评估的问题，提出了一种基于注意力编码器-解码器的网络（AED-TSVAD）。该方法的核心是使用Conformer编码器和标准Transformer解码器，并创新性地引入了一个轻量级门控机制，将解码器的线性投影输出与基于点积的吸引子风格分数进行动态融合。与已有方法相比，其新意在于：1) 设计了一个更简洁、易于复现并与EEND-VC方法公平对比的架构；2) 提出的门控融合增强了模型的表达能力；3) 建立了一套从模拟数据预训练到真实数据微调的复合训练策略。主要实验结果表明，在采用WavLM-Base+前端和强初始化系统的情况下，AED-TSVAD在AliMeeting, AISHELL-4, NOTSOFAR-SC, DIHARD-2和DIHARD-3等5个数据集上达到了报告时（2025年8月）的SOTA水平。例如，在使用r-vector和SP-DiariZen-Base+初始化时，WavLM-Base+前端模型在AliMeeting上的DER为11.1%，在DIHARD-2上为20.7%。论文的实际意义在于推动了TS-VAD方法在复杂、多样化场景下的标准化评估和可复现研究。主要局限性是模型对说话人数超过固定上限（如N=10）的场景（如VoxConverse）泛化能力不足，且其性能高度依赖初始化系统的质量。 ...

Attention-Weighted Centered Kernel Alignment for Knowledge Distillation in Large Audio-Language Models Applied To Speech Emotion Recognition

📄 Attention-Weighted Centered Kernel Alignment for Knowledge Distillation in Large Audio-Language Models Applied To Speech Emotion Recognition #语音情感识别 #知识蒸馏 #语音大模型 #多模态模型 🔥 8.0/10 | 前25% | #语音情感识别 | #知识蒸馏 | #语音大模型 #多模态模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Qingran Yang（未说明具体所属机构，根据作者列表推测可能同时关联平安科技和哈尔滨工业大学）通讯作者：Jianzong Wang（Ping An Technology (Shenzhen) Co., Ltd., Shenzhen, China）作者列表：Qingran Yang（Ping An Technology (Shenzhen) Co., Ltd., / Harbin Institute of Technology, Harbin, China）、Botao Zhao（Ping An Technology (Shenzhen) Co., Ltd.）、Zuheng Kang（Ping An Technology (Shenzhen) Co., Ltd.）、Xue Li（Harbin Institute of Technology, Harbin, China）、Yayun He（Ping An Technology (Shenzhen) Co., Ltd.）、Chuhang Liu（Ping An Technology (Shenzhen) Co., Ltd.）、Xulong Zhang（Ping An Technology (Shenzhen) Co., Ltd.）、Xiaoyang Qu（Ping An Technology (Shenzhen) Co., Ltd.）、Junqing Peng（Ping An Technology (Shenzhen) Co., Ltd.）、Jianzong Wang（Ping An Technology (Shenzhen) Co., Ltd.） 💡 毒舌点评亮点：该工作巧妙地将LLM的自注意力权重作为“指挥棒”，引导知识蒸馏聚焦于音频中的情感关键帧，并干净利落地解决了跨模态蒸馏中顽固的维度失配问题，使得一个1.1B的“小模型”在SER任务上碾压了8.4B的教师模型，令人印象深刻。短板：实验结果虽好，但三个数据集规模都偏小（最大仅5.5k样本），且未提供代码，这让人对其方法的泛化能力和结果的完全可复现性保持谨慎乐观；另外，作为一项应用性研究，论文对“为何学生模型能远超教师”这一核心现象的机理探讨稍显不足。 ...

Attention2Probability: Attention-Driven Terminology Probability Estimation for Robust Speech-to-text System

📄 Attention2Probability: Attention-Driven Terminology Probability Estimation for Robust Speech-to-text System #语音识别 #语音翻译 #语音大模型 #交叉注意力 #课程学习 #数据集 ✅ 7.0/10 | 前25% | #语音识别 | #交叉注意力 | #语音翻译 #语音大模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Yangfan Du（东北大学计算机科学与工程学院，字节跳动）通讯作者：Tong Xiao†（东北大学计算机科学与工程学院，牛津翻译研究院）作者列表： Yangfan Du（东北大学计算机科学与工程学院，字节跳动） Jun Zhang（字节跳动） Bin Wang（字节跳动） Jin Qiu（字节跳动） Lu Huang（字节跳动） Yuan Ge（东北大学计算机科学与工程学院） Xiaoqian Liu（东北大学计算机科学与工程学院） Tong Xiao†（东北大学计算机科学与工程学院，牛津翻译研究院） Jingbo Zhu（东北大学计算机科学与工程学院，牛津翻译研究院） 💡 毒舌点评亮点在于提出了一个物理意义明确、轻量且有效的检索范式（将注意力权重解释为出现概率），实验上确实大幅提升了检索召回率。短板则是“术业有专攻”，检索模型的“高召回”并未完美传递给下游的语音大模型，论文在如何弥合这个“检索-生成”鸿沟上分析和解决方案略显不足，更像是抛出了一个漂亮的阶段性成果。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开检索器或微调后SLM的权重。数据集：论文中提供了公开链接：https://huggingface.co/ByteDance/Attention2Probability。声称将数据集公开于此仓库。 Demo：未提及在线演示。复现材料：论文提供了较为详细的训练设置（学习率、优化器、硬件等）和模型架构参数，但缺少完整的训练脚本、配置文件和预处理代码。课程学习的具体阶段划分和转换条件未说明。论文中引用的开源项目：音频编码器/SLM：Qwen2-Audio-Instruction TTS数据生成：MegaTTS 基础数据集：Wikiann, MSRA-NER, Few-nerd, CMeEE, LibriSpeech, Aishell-2, Rare5k 基线向量数据库方法参考：SEAL (使用SONAR编码器) 训练框架：Hugging Face Accelerator 📌 核心摘要问题：语音大模型在通用场景表现优异，但在医疗、游戏等专业领域准确生成领域术语或新词时存在困难。现有方法依赖耗时的微调或基于向量数据库的检索，后者存在训练成本高、检索准确率不足的问题。方法核心：提出Attention2Probability方法。其核心是用一个轻量的交叉注意力检索器替代向量数据库，通过计算语音特征与候选术语之间的交叉注意力权重，并将该权重池化归一化后，直接作为每个术语在当前音频中“存在”的概率。基于此概率检索Top-k术语，与提示词拼接后输入语音大模型，引导其生成正确术语。创新之处：与已有方法相比，A2P完全舍弃了向量数据库和模态对齐训练，转而利用交叉注意力机制显式优化“检测术语是否在音频中出现”这一目标。同时，引入了课程学习（从单词到短语再到真实术语）策略来缓解数据稀疏问题。实验结果：在自建数据集上，A2P（使用Qwen2-Audio-Instruction编码器）的检索召回率显著优于VectorDB基线。例如，在Top-10检索中，英文召回率达75.55%，中文达83.31%。在下游任务中，术语干预使ASR的术语准确率提升约5-6%，ST提升12-13%，但术语准确率与召回率仍有差距，表明SLM对术语的利用率存在局限。实际意义：为解决语音领域术语生成难题提供了一种轻量、准确且无需模态对齐训练的检索新范式，并公开了一个专用的术语干预语音数据集，有助于推动该领域研究。主要局限性：检索到的术语在SLM（尤其在翻译任务）中未被充分利用，导致最终术语准确率远低于检索召回率；随着检索术语数量增加，SLM性能可能出现波动，反映了其上下文学习能力的不足。论文提出的挑战（如何提升ST术语准确率、如何保持基线性能）尚未完全解决。 🏗️ 模型架构整体架构如图1所示，是一个典型的“检索增强生成”（RAG）流程，但检索器部分被替换。 ...

Attentive AV-Fusionnet: Audio-Visual Quality Prediction with Hybrid Attention

📄 Attentive AV-Fusionnet: Audio-Visual Quality Prediction with Hybrid Attention #音视频 #多模态模型 #注意力机制 #模型评估 #工业应用 ✅ 7.0/10 | 前25% | #音视频 | #注意力机制 | #多模态模型 #模型评估学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Ina Salaj (Dolby Germany GmbH) 通讯作者：未说明（根据作者列表和常规署名，第一作者或第二作者可能为通讯作者，但论文中未明确标注）作者列表：Ina Salaj (Dolby Germany GmbH)， Arijit Biswas (Dolby Germany GmbH) 💡 毒舌点评亮点：论文提出的混合注意力融合框架（结合GML学习特征和VMAF手工特征）设计精巧，实验结果在内部数据集上显著优于基线（Rp提升至0.97），且提供了可解释的模态重要性估计。短板：论文严重依赖于Dolby的“内部数据集”和“内部实现的GML/VMAF特征”，外部可复现性存疑，且在公开基准LIVE-SJTU上的提升（如RMSE从0.47降至0.44）相对有限，未能完全证明其“鲁棒性”声称。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了内部数据集，未公开。外部使用的LIVE-SJTU为公开数据集，但论文中未提供获取链接。 Demo：未提及。复现材料：提供了模型架构描述、损失函数、部分超参数搜索空间，但缺少训练细节（如epoch数、硬件、精确的训练时间）和最终配置。论文中引用的开源项目/模型：引用了GML [14]（未开源）和VMAF [11]（VMAF本身开源，但论文使用其内部特征）。依赖的框架包括AdamW优化器，但未提及具体深度学习框架。总结：论文中未提及开源计划，复现主要依赖论文描述，门槛较高。 📌 核心摘要问题：现有音视频质量评估（AVQ）方法常采用简单的融合策略（如加权求和），无法有效建模内容相关的跨模态动态依赖关系（例如，高质量视频可补偿音频瑕疵），且依赖过时的单模态特征。方法：提出Attentive AV-FusionNet。模型首先提取视频VMAF内部特征（6维）和音频GML深层特征（512维）。通过可学习投影将视频特征对齐到音频空间。核心融合阶段采用双向多头交叉注意力，使音频和视频特征相互关注，生成1024维联合表征；随后使用自注意力进一步精炼该表征，以捕捉模态内依赖。最终通过浅层全连接网络预测质量分数。创新：1) 融合了深度学习（GML）和传统感知模型（VMAF）的异构特征；2) 利用混合注意力机制显式建模跨模态和模态内交互；3) 引入了模态相关性估计器，可量化每个模态对最终预测的贡献。结果：在内部数据集（1500训练，125测试）上，该模型达到 Pearson (Rp) = 0.97, Spearman (Rs) = 0.96, RMSE = 0.22，显著优于加权乘积基线（Rp=0.84）和SVR方法（Rp=0.90）。在外部LIVE-SJTU数据集上，取得 Rp=0.92, Rs=0.92, RMSE=0.44，表现与SVR-8F（Rp=0.90）和Recursive AV-FusionNet（Rp=0.92）相当或略优。意义：该模型为流媒体平台提供了更准确、可解释的音视频联合质量预测工具，其模态重要性估计为实现内容自适应的音视频比特率分配提供了可能。局限：模型依赖于未公开的内部数据集和特定特征提取器（GML、VMAF内部表示），外部验证数据集（LIVE-SJTU）规模有限，且未能提供代码或详细复现指南。 🏗️ 模型架构 Attentive AV-FusionNet 是一个端到端的全参考音视频质量预测模型，包含三个主要阶段：特征提取、注意力融合、质量预测。 ...

Attentive Masked Self-Distillation for Respiratory Sound Classification

📄 Attentive Masked Self-Distillation for Respiratory Sound Classification #音频分类 #知识蒸馏 #数据增强 #医学音频 ✅ 7.5/10 | 前25% | #音频分类 | #知识蒸馏 | #数据增强 #医学音频学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Nuo Chen（浙江大学集成电路学院）通讯作者：Mingsheng Xu（浙江大学集成电路学院）作者列表：Nuo Chen（浙江大学集成电路学院）、Mingsheng Xu（浙江大学集成电路学院） 💡 毒舌点评亮点：论文针对呼吸声分类中数据预处理（循环填充）引入的捷径学习问题，设计了一个巧妙的“注意力掩码”机制，能动态地屏蔽模型容易过度依赖的声谱图区域，这比随机掩码更具针对性，且可视化结果令人信服。短板：尽管在ICBHI上取得了SOTA级别的性能，但实验仅在一个中等规模的数据集上进行，且模型骨架（AST）的参数量巨大（~90M），对于实际的医疗边缘部署可能并不友好，论文对此的讨论不足。 🔗 开源详情代码：论文中提供了代码仓库链接：https://github.com/CcnNnn/AMS-D。模型权重：论文中未提及是否公开预训练或训练好的模型权重。数据集：使用公开的ICBHI 2017数据集，但未在论文中说明具体获取方式（通常需自行申请）。 Demo：论文中未提及在线演示。复现材料：论文给出了主要训练细节：优化器（Adam）、学习率（5e-5及衰减策略）、Batch size（24）、训练轮数（50）、损失函数权重（α=1.0, β=0.03, γ=0.3）、掩码比例（39%）。但未提供完整的配置文件、检查点或环境依赖说明。论文中引用的开源项目：核心骨干模型：Audio Spectrogram Transformer (AST) [3]。数据集：ICBHI 2017呼吸声数据库 [17]。对比方法：Patch-Mix [4], LungAdapter [18], MVST [20], Gap-Aug [6] 等。训练工具：Adam优化器 [19]。 📌 核心摘要这篇论文旨在解决基于Transformer的呼吸声分类模型因参数量大、训练数据少而导致的过拟合，以及因音频预处理（循环填充）引入的冗余信息导致的捷径学习问题。方法核心是提出一个名为“注意力掩码自蒸馏”的框架，它结合了渐进式自蒸馏（将前一epoch模型作为教师，用KL散度对齐logits）和一种创新的注意力掩码策略：利用教师模型的特征通过Token权重模块计算每个token的重要性，并在当前epoch的学生模型中掩蔽掉最显著（即最可能成为捷径特征）的token。此外，模型还引入了一个重建任务，以掩蔽的token为目标进行重建，作为正则化项增强表示的鲁棒性。与已有方法相比，其新意在于将知识蒸馏、针对捷径特征的主动掩蔽以及重建正则化三者有机结合。在ICBHI数据集上的实验表明，该方法取得了具有竞争力的结果，敏感性达到60.92%，ICBHI综合得分为67.54%，优于Gap-Aug等强基线。消融实验和可视化分析证实了各组件的有效性以及模型关注临床相关声学区域的能力。该工作的实际意义在于为医疗音频分析提供了一种更鲁棒、泛化能力更强的建模思路，但其局限性在于主要验证集中在一个公开数据集，且使用了参数量庞大的预训练模型，计算效率未做深入探讨。 ...

Auden-Voice: General-Purpose Voice Encoder for Speech and Language Understanding

📄 Auden-Voice: General-Purpose Voice Encoder for Speech and Language Understanding #语音编码器 #说话人识别 #副语言理解 #多任务学习 #语音大模型 ✅ 7.5/10 | 前25% | #语音编码器 | #多任务学习 | #说话人识别 #副语言理解学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Mingyue Huo（University of Illinois Urbana-Champaign）通讯作者：未说明（论文作者列表为三位，未明确标注通讯作者）作者列表：Mingyue Huo（University of Illinois Urbana-Champaign）、Wei-Cheng Tseng（University of Texas at Austin）、Yiwen Shao（Tencent AI Lab, USA）、Hao Zhang（Tencent AI Lab, USA）、Dong Yu（Tencent AI Lab, USA） 💡 毒舌点评这篇论文的亮点在于其系统性的消融研究，像做实验一样把ASR初始化、单任务监督、多任务学习、CLAP微调挨个试了一遍，用翔实的数据揭示了“多任务学习在平衡性上优于CLAP”这一实用结论，为后续设计指明了方向。但其短板也明显：多任务学习与CLAP的简单叠加（Enc 2.4）在多数任务上性能反而下降，说明二者存在冲突或优化目标不兼容，论文对此的分析和解决方案略显不足；此外，在LLM-QA上的验证较为初级，未能充分展现该编码器在驱动复杂推理方面的潜力。 ...