Icassp-2026

DDSC: Dynamic Dual-Signal Curriculum for Data-Efficient Acoustic Scene Classification Under Domain Shift

📄 DDSC: Dynamic Dual-Signal Curriculum for Data-Efficient Acoustic Scene Classification Under Domain Shift #音频场景分类 #课程学习 #领域适应 #低资源 ✅ 7.0/10 | 前25% | #音频场景分类 | #课程学习 | #领域适应 #低资源学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Peihong Zhang（School of Advanced Technology, Xi’an Jiaotong-Liverpool University, Suzhou, China）通讯作者：未说明（论文中未明确标注通讯作者）作者列表：Peihong Zhang（School of Advanced Technology, Xi’an Jiaotong-Liverpool University, Suzhou, China）、Yuxuan Liu（同上）、Rui Sang（同上）、Zhixin Li（同上）、Yiqiang Cai（同上）、Yizhou Tan（同上）、Shengchen Li（同上） 💡 毒舌点评亮点在于巧妙地将“领域不变性”和“学习进度”两个动态信号融合成自适应的课程权重，避免了传统课程学习静态排序的僵化，设计轻量且即插即用。短板则是其动态调整高度依赖已知的设备标签进行原型计算，一旦面对完全无标签或设备信息未知的真实场景，该方法的适用性将面临直接挑战。 ...

DDSR-Net: Robust Multimodal Sentiment Analysis via Dynamic Modality Reliability Assessment

📄 DDSR-Net: Robust Multimodal Sentiment Analysis via Dynamic Modality Reliability Assessment #语音情感识别 #多模态模型 #对比学习 #特征分解 ✅ 6.5/10 | 前50% | #语音情感识别 | #对比学习 | #多模态模型 #特征分解学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Jianwen Hou (新疆大学计算机科学与技术学院) 通讯作者：Kurban Ubul (新疆大学计算机科学与技术学院) 作者列表：Jianwen Hou (新疆大学计算机科学与技术学院), Enguang Zuo (新疆大学智能科学与技术学院, 清华大学电子工程系), Chaorui Shi (新疆大学计算机科学与技术学院), Kurban Ubul (新疆大学计算机科学与技术学院) 💡 毒舌点评该论文的“评估-修复-聚焦”闭环设计思路巧妙，为处理多模态数据中的质量不均衡问题提供了一个系统性框架，且在主流基准测试上取得了不错的成绩。然而，其核心组件之一“协同重建”的生成器（QGME-Net）内部结构细节在正文和附图中均未清晰展示，这为理解其工作原理和复现带来了障碍。 🔗 开源详情代码：论文中未提及代码链接或开源仓库。模型权重：未提及公开权重。数据集：使用公开的CMU-MOSI和CMU-MOSEI数据集，但未说明具体获取方式或预处理脚本。 Demo：未提供在线演示。复现材料：论文未提供训练细节（如优化器、学习率、batch size）、超参数配置、检查点或附录说明。论文中引用的开源项目：论文中引用了多个基线模型（如TFN, MulT, Self-MM等）的官方代码仓库（[6]-[22]），但未明确说明DDSR-Net��身是否基于或依赖这些项目。总结：论文中未提及任何关于开源计划、代码发布或模型共享的信息。 📌 核心摘要这篇论文旨在解决多模态情感分析中，现实场景下非对齐数据存在的模态质量动态不均和噪声问题。其核心方法DDSR-Net提出了一种“动态质量感知”的框架，包含四个主要模块：模态质量评估模块（为每个样本的每个模态计算可靠性分数）、特征分解模块（将特征分解为共享和模态特定部分）、协同重建模块（利用高质量模态信息修复低质量模态的特定特征）以及动态聚焦注意力模块（根据质量分数自适应融合特征）。该方法通过“评估-修复-聚焦”的闭环流程，动态处理噪声和不对称性。实验结果在CMU-MOSI和CMU-MOSEI两个基准数据集上，DDSR-Net在多数指标（如MOSI的MAE、Corr、Acc-5）上超越了已有的最先进方法。其实际意义在于提升了多模态情感分析模型在非理想数据下的鲁棒性。主要局限性在于协同重建模块的具体生成器架构描述不够详细，可能影响理解和复现。 ...

DECAF: Dynamic Envelope Context-Aware Fusion for Speech-Envelope Reconstruction from EEG

📄 DECAF: Dynamic Envelope Context-Aware Fusion for Speech-Envelope Reconstruction from EEG #语音增强 #状态空间模型 #跨模态 #信号处理 ✅ 7.0/10 | 前25% | #语音增强 | #状态空间模型 | #跨模态 #信号处理学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度中 👥 作者与机构第一作者：未说明（论文作者列表仅提供“Karan Thakkar”，但未明确标注其为第一作者）通讯作者：未说明作者列表：Karan Thakkar (Johns Hopkins University, USA), Mounya Elhilali (Johns Hopkins University, USA) 机构：约翰霍普金斯大学，计算音频感知实验室 (Laboratory for Computational Audio Perception) 💡 毒舌点评亮点：该论文的核心思想——将语音包络重建从静态映射问题重新定义为结合时序先验的动态状态估计问题——非常清晰且富有启发性，为相关领域提供了有价值的范式参考；实验设计严谨，严格遵循公开挑战赛协议，并通过消融、频谱分析和鲁棒性测试多角度验证了方法的合理性。短板：在绝对性能上，尽管超越了先前SOTA，但提升幅度相对有限（从0.162到0.170），且与“理想上限”（DECAF-Oracle）差距依然明显，这削弱了其“突破性”的观感；论文中未提供完整的作者贡献与通讯信息，略显不规范。 🔗 开源详情代码：是，提供了代码仓库链接：https://github.com/JHU-LCAP/DECAF 模型权重：论文中未提及公开预训练模型权重。数据集：使用的是公开的ICASSP 2023 EEG解码挑战赛数据集（SPARrk-ULeE，需按协议获取）。论文中提供了相关引用和获取说明。 Demo：论文中未提及在线演示。复现材料：论文详细提供了训练细节（损失函数、优��器、学习率、训练轮次、早停）、模型架构描述、数据划分和评估指标，足以支持复现。论文中引用的开源项目：HappyQuokka系统（[13]）， VLAAI模型（[21]），以及用于EEG处理的mTRF工具箱（[12]）。开源计划：论文明确提供了代码仓库链接，表明了开源意图。 📌 核心摘要本文针对从脑电图（EEG）信号重建语音包络这一任务，提出了一种新的动态框架DECAF。1. 要解决的问题：现有深度学习方法将此任务视为静态回归，忽略了语音信号本身丰富的时序结构，导致重建保真度和鲁棒性受限。2. 方法核心：提出一种状态空间融合模型，它包含三个模块：直接从EEG估计当前包络的“EEG解码器”、从过去预测值自回归预测当前包络的“包络预测器”，以及一个学习到的门控网络，用于自适应地融合神经证据和时序先验。3. 与已有方法相比新在哪里：首次将此问题明确重构为动态状态估计任务，而非无状态的静态映射。模型完全因果且递归，能利用自身历史预测构建时序上下文。4. 主要实验结果：在ICASSP 2023 EEG解码挑战赛（任务2）的测试集上，DECAF的平均皮尔逊相关系数达到0.170±0.061，显著优于此前的最佳模型HappyQuokka（0.162±0.061，p=0.000483）。消融实验证明了两个分支的互补性：单独的EEG分支性能为0.117，单独的预测器分支接近随机。频谱分析表明，模型能协同利用EEG分支的低频信息和预测器的高频细节。5. 实际意义：该工作为听觉注意力解码和神经调控助听器等应用提供了更准确、连贯且适合在线处理的神经解码新方向。6. 主要局限性：模型绝对性能仍有提升空间（与Oracle上限差距大）；在EEG信号极度嘈杂时（SNR低），性能优势消失；作者信息在提供的文本中不完整。 ...

Decoder-Only Conformer with Modality-Aware Sparse Mixtures of Experts for ASR

📄 Decoder-Only Conformer with Modality-Aware Sparse Mixtures of Experts for ASR #语音识别 #混合专家模型 #多任务学习 #多语言 ✅ 7.5/10 | 前25% | #语音识别 | #混合专家模型 | #多任务学习 #多语言学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度高 👥 作者与机构第一作者：未说明通讯作者：未说明作者列表：Jaeyoung Lee (NTT, Inc., Japan)， Masato Mimura (NTT, Inc., Japan) 💡 毒舌点评这篇论文巧妙地将模态感知的稀疏MoE融入解码器端Conformer，用一个统一模型处理语音和文本，在参数更少（113M vs. 139M）的情况下超越了传统AED基线，展现了架构简化与效率提升的潜力。然而，其“统一”处理的前提是已知模态边界（语音/文本位置固定），这限制了模型在更灵活的交错输入场景下的应用；此外，依赖CTC辅助损失和标签平滑才达到竞争力，也暗示了该架构自身在稳定训练上的短板。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及公开模型权重。数据集：使用了公开的LibriSpeech和CommonVoice数据集，并描述了子集构建方式。 Demo：论文中未提及在线演示。复现材料：提供了较为详细的模型架构、训练超参数、损失函数权重和数据处理方法。但未提供检查点或训练配置文件。引用的开源项目：论文中引用了Adam优化器、SpecAugment等常见开源工具/方法，但未提及依赖的具体代码库。总结：论文提供了足够的方法细节以指导复现，但未明确开源代码或模型。 📌 核心摘要本文针对自动语音识别（ASR）任务，提出了一种仅使用解码器端的Conformer架构，旨在无需外部语音编码器或预训练大语言模型（LLM）的前提下，统一处理语音特征和文本标记。其核心创新在于引入了模态感知的稀疏混合专家模型（MoE），为语音和文本设置了不相交的专家池并采用硬路由和top-1选择机制，并与混合因果性Conformer块（语音双向，文本因果）相结合。与现有方法相比，本文是首次在随机初始化的解码器架构中，通过模态感知路由和稀疏MoE，实现了无需显式对齐模块且超越强编码器-解码器（AED）基线的性能。实验表明，在LibriSpeech数据集上，该113M参数模型在test-clean和test-other上的词错误率（WER）分别为2.8%和5.6%，优于139M参数的AED基线（3.2% vs. 6.0%）。在CommonVoice 16.1的五语言多语言任务中，平均WER从12.2%降低至10.6%。该工作的实际意义在于证明了解码器端统一架构在ASR中的可行性，为简化ASR系统流水线提供了新思路。主要局限性包括：目前仅支持离线推理，尚未探索流式处理；模型依赖预设的模态边界，缺乏对模态间灵活交互的探索；未来工作可扩展至流式ASR及跨模态专家共享机制。 ...

Decorrelation-Enhanced Multiband Subband Adaptive Filtering for RIR Tracking in Sound Field Control

📄 Decorrelation-Enhanced Multiband Subband Adaptive Filtering for RIR Tracking in Sound Field Control #空间音频 #自适应滤波 #信号处理 #麦克风阵列 ✅ 7.0/10 | 前50% | #空间音频 | #自适应滤波 | #信号处理 #麦克风阵列学术质量 6.0/7 | 选题价值 6.0/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Junqing Zhang (CIAIC and Shaanxi Provincial Key Laboratory of Artificial Intelligence, Northwestern Polytechnical University) 通讯作者：未说明 (论文未明确标注，作者列表末尾为Jacob Benesty†) 作者列表：Junqing Zhang⋆ (CIAIC and Shaanxi Provincial Key Laboratory of Artificial Intelligence, Northwestern Polytechnical University)、Jingli Xie⋆ (同上)、Dongyuan Shi⋆ (同上)、Wen Zhang⋆ (同上)、Jingdong Chen⋆ (同上)、Jacob Benesty† (INRS-EMT, University of Quebec) 💡 毒舌点评亮点：论文将子带自适应滤波系统性地引入到声场控制的RIR跟踪环节，并结合了相位调制去相关，理论框架完整，仿真结果明确展示了相比传统时域NLMS的显著优势（~10 dB改善）。短板：应用场景（个人声区控制中的RIR跟踪）相对传统且细分，且作为一篇提出新算法的应用型论文，未提供任何开源代码或详细复现实验的设置，极大地限制了其影响力和可验证性。 ...

Deep Dubbing: End-to-End Auto-Audiobook System with Text-to-Timbre and Context-Aware Instruct-TTS

📄 Deep Dubbing: End-to-End Auto-Audiobook System with Text-to-Timbre and Context-Aware Instruct-TTS #语音合成 #流匹配 #端到端 #有声书生成 ✅ 7.5/10 | 前25% | #语音合成 | #流匹配 | #端到端 #有声书生成学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Ziqi Dai（北京建筑大学智能科学与技术学院，腾讯音乐娱乐Lyra实验室）† 通讯作者：Weifeng Zhao（腾讯音乐娱乐Lyra实验室）⋆， Ruohua Zhou（北京建筑大学智能科学与技术学院）⋆ 作者列表： Ziqi Dai†（北京建筑大学智能科学与技术学院，腾讯音乐娱乐Lyra实验室） Yiting Chen†（腾讯音乐娱乐Lyra实验室） Jiacheng Xu（腾讯音乐娱乐Lyra实验室） Liufei Xie（腾讯音乐娱乐Lyra实验室） Yuchen Wang（腾讯音乐娱乐Lyra实验室） Zhenchuan Yang（腾讯音乐娱乐Lyra实验室） Bingsong Bai（北京邮电大学） Yangsheng Gao（腾讯音乐娱乐Lyra实验室） Wenjiang Zhou（腾讯音乐娱乐Lyra实验室） Weifeng Zhao⋆（腾讯音乐娱乐Lyra实验室） Ruohua Zhou⋆（北京建筑大学智能科学与技术学院） 💡 毒舌点评亮点：该工作将“为角色从文本生成声音”和“根据上下文生成情感语音”这两个有声书制作的关键环节进行了系统性建模，并提出了Text-to-Timbre (TTT) 这一新颖任务及其流匹配解决方案。短板：其“端到端”的声明略显模糊，因为核心的上下文理解与指令生成依赖于一个外部的大语言模型，这限制了系统真正的自动化程度和独立性。 ...

Deep Learning-Based Joint Optimization of Adaptive Feedback Cancellation and Residual Feedback Suppression for Hearing Aids

📄 Deep Learning-Based Joint Optimization of Adaptive Feedback Cancellation and Residual Feedback Suppression for Hearing Aids #语音增强 #信号处理 #深度学习 #实时处理 🔥 8.0/10 | 前25% | #语音增强 | #深度学习 | #信号处理 #实时处理学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Xiaofan Zhan (1,2) 通讯作者：Chengshi Zheng (1,2) 作者列表： Xiaofan Zhan (中国科学院声学研究所噪声与音频研究实验室；中国科学院大学) Brian C. J. Moore (剑桥大学心理学系剑桥听力组) Xiaodong Li (中国科学院声学研究所噪声与音频研究实验室；中国科学院大学) Chengshi Zheng (中国科学院声学研究所噪声与音频研究实验室；中国科学院大学) 💡 毒舌点评亮点是它成功地将信号处理领域的经典思路（先线性对消，再非线性抑制）与深度学习巧妙结合，设计了两阶段框架和针对性的三步训练法，在实验上也确实做到了“1+1>2”的效果。短板在于，论文对闭环训练中两个网络如何具体协调、误差如何反向传播等“脏活累活”的细节描述略显含糊，只给出了宏观步骤，让想复现的人可能卡在调参的细节里；另外，只用了客观指标，缺乏真实的听感测试或临床数据支持，说服力打了点折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了公开的LibriSpeech和DNS Challenge数据集进行训练，测试集来自另一篇文献的公开测量数据。论文未提供自有数据集的下载链接。 Demo：未提及。复现材料：论文提供了极其详细的训练细节、模型结构、超参数配置（见第3、4节），足以作为复现指南。论文中引用的开源项目：引用了LibriSpeech数据集、DNS Challenge数据集，以及[21]（FSB网络）和[23]（重叠相加方法）的工作，但这些是作为方法或数据来源引用，而非本论文依赖的开源工具包。开源计划：论文中未提及开源计划。 📌 核心摘要解决的问题：助听器中固有的声反馈问题（麦克风重拾放大的声音导致啸叫和失真），严重限制了可用增益，尤其在现代小型、开放式设计中更为突出。现有基于深度学习的方法（DeepAFS和DeepAFC）各有局限：前者计算复杂且高增益效果有限，后者在反馈路径快速变化时性能下降。方法核心：提出JointDFC，一个两阶段深度学习框架。第一阶段使用LFCNet（集成预测误差方法的深度自适应反馈取消网络）进行线性反馈对消；第二阶段使用RFSNet（带全局因果时频注意力机制的全子带递归网络）抑制残余反馈和噪声。设计了“单独预训练 -> 数据生成 -> 端到端微调”的三步训练策略以解决闭环系统训练难题。与已有方法相比新在哪里：这是首次将深度学习框架用于整合反馈取消与残余反馈抑制的联合优化，融合了DeepAFC（侧重建模反馈路径）和DeepAFS（侧重直接信号分离）的优势。网络设计上引入了全局时频注意力以精准定位残余反馈，训练策略上专门设计了适配闭环系统的三步法。主要实验结果：在模拟用户内（Set A）和用户间（Set B）反馈路径变化的测试集上，JointDFC在多种高增益（5-11dB）条件下全面优于两个基线（DeepPEM-AFC， DeepAFS）。例如，在Set A的11dB增益条件下，JointDFC的WB-PESQ为4.12，eSTOI为98.01%，SI-SDR为16.14 dB，显著高于DeepPEM-AFC（PESQ 3.11, eSTOI 90.87%, SI-SDR -1.85 dB）和DeepAFS（PESQ 3.53, eSTOI 93.86%, SI-SDR 11.39 dB）。消融实验表明，移除全局注意力或联合训练均会导致性能下降。方法参数量(M) 计算量(G/s) WB-PESQ (5/7/9/11dB) eSTOI(%) (5/7/9/11dB) SI-SDR(dB) (5/7/9/11dB) Set A DeepPEM-AFC 0.240 0.060 4.32/4.23/3.71/3.11 99.24/98.84/93.64/90.87 19.03/17.79/9.80/-1.85 DeepAFS 0.302 0.319 4.28/4.18/3.90/3.53 98.45/97.90/96.11/93.86 17.62/16.22/14.13/11.39 JointDFC (ours) 0.396 0.227 4.30/4.26/4.21/4.12 98.87/98.68/98.40/98.01 18.71/17.95/17.16/16.14 w/o Global cTFA 0.391 0.224 4.23/4.19/4.13/4.02 98.47/98.27/97.90/97.32 17.74/17.07/16.27/14.98 w/o joint training 0.396 0.227 4.17/4.13/4.09/4.09 97.80/97.72/97.58/97.51 13.98/13.28/13.03/13.10 Set B DeepPEM-AFC 0.240 0.060 4.15/4.04/3.85/3.54 98.62/98.36/97.50/96.00 16.01/14.78/11.53/6.71 DeepAFS 0.302 0.319 4.23/4.13/3.93/3.63 98.36/97.81/96.42/93.97 17.33/15.88/13.83/10.86 JointDFC (ours) 0.396 0.227 4.21/4.16/4.11/4.07 98.59/98.39/98.11/97.92 16.91/15.99/15.25/14.66 w/o Global cTFA 0.391 0.224 4.13/4.07/4.02/3.95 98.13/97.90/97.59/97.12 16.19/15.22/14.47/13.18 w/o joint training 0.396 0.227 4.12/4.07/4.01/3.95 97.68/97.50/97.21/96.92 13.96/13.16/12.28/11.67 实际意义：该方法有望显著提升助听器在复杂动态环境下的稳定工作增益，改善中重度听力损失用户的听力补偿效果，同时保持了适合实时助听器芯片部署的计算复杂度（0.227 G MACs/s）。主要局限性：研究主要基于客观指标（PESQ, eSTOI, SI-SDR）评估，未提供主观听感测试或真实用户佩戴实验数据；模型在反馈路径剧变时的瞬态性能有待进一步探究；实际硬件部署的功耗、内存占用等未讨论。 🏗️ 模型架构本文提出的JointDFC系统是一个两阶段的深度学习框架，整体流程如图1(b)所示。 ...

Deep Spatial Clue Informed Ambisonic Encoding for Irregular Microphone Arrays

📄 Deep Spatial Clue Informed Ambisonic Encoding for Irregular Microphone Arrays #空间音频 #麦克风阵列 #RNN #UNet ✅ 7.0/10 | 前25% | #空间音频 | #麦克风阵列 | #RNN #UNet 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Chaoqun Zhuang (三星中国研究院-北京) 通讯作者：未说明作者列表：Chaoqun Zhuang (三星中国研究院-北京)，Xue Wen (三星中国研究院-北京)，Lin Ma (三星中国研究院-北京)，Lizhong Wang (三星中国研究院-北京)，Liang Wen (三星中国研究院-北京)，Jaehyun Kim (三星电子移动体验业务部)，Gangyoul Kim (三星电子移动体验业务部) 💡 毒舌点评亮点：论文提出了一个清晰且合理的范式转变——将Ambisonic编码从传统的时频域混合转移到学习到的潜在特征空间，并通过实验证明了其在性能和效率上的优势。短板：目前的实验验证局限在一阶水平面Ambisonics上，且未能提供任何开源代码、模型或数据，极大地削弱了其在学术社区和工业界的可复现性与直接影响力，使其看起来更像一篇“闭源的工业报告”。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及。数据集：论文中描述了数据生成流程（基于真实DIR测量和Pyroomacoustics模拟），但未提及公开数据集。 Demo：未提及。复现材料：提供了详细的网络架构描述、训练超参数（学习率、优化器、批量大小、训练轮数）、STFT设置等，但未提供完整的配置文件或检查点。论文中引用的开源项目：依赖并提及了Pyroomacoustics用于房间混响模��。总体而言，论文中未提及开源计划。 📌 核心摘要问题：针对手机等设备上不规则麦克风阵列进行Ambisonic编码时，由于空间混叠和声场覆盖有限，传统方法和现有深度学习方法存在性能瓶颈。方法：提出了一种端到端的“深度空间线索引导的Ambisonic编码器”。其核心是设计了“空间感知潜在变换（SALT）”模块，该模块首先通过双路径（空间线索编码器和频谱编码器）从输入信号中提取特征并融合，然后在一个学习到的潜在特征空间中，预测一个信号依赖的混合矩阵来完成到Ambisonic域的映射，最后解码回STFT域。创新：与已有方法相比，新在：1）首次引入了潜在空间变换范式，摆脱了在固定STFT分辨率上操作的限制；2）显式融合了IPD/ILD等空间线索，为模型提供物理一致性指导。实验结果：在基于真实智能手机麦克风阵列DIR测量数据构建的多源混响场景数据集上，该方法（特别是RNN(Full)变体）在空间相似性（Mdir）、频谱误差（Meq）和SI-SDR指标上全面优于最小二乘法（LS）和基线神经网络方法（UNet Base, RNN Base），同时参数量更少。关键数据见下表：模型单声源 Mdir(↑) / Meq(↓) / SI-SDR(↑) 多声源 Mdir(↑) / Meq(↓) / SI-SDR(↑) 多声源+混响 Mdir(↑) / Meq(↓) / SI-SDR(↑) 可训练参数 (M) FLOPS (G) LS 0.866 / 3.905 / 3.967 0.876 / 3.727 / 5.939 0.752 / 5.368 / 0.471 N/A N/A UNet(Base) 0.967 / 2.379 / 10.206 0.947 / 2.637 / 7.742 0.782 / 10.932 / 2.192 1.93M 27.678 UNet(Full) 0.742 / 2.295 / 23.075 0.938 / 1.648 / 19.521 0.795 / 8.982 / 2.557 2.15M 14.089 RNN(Base) 0.902 / 20.230 / 6.280 0.914 / 24.983 / 7.573 0.716 / 11.697 / 0.755 0.65M 36.273 RNN(Full) 0.927 / 1.709 / 31.570 0.938 / 1.467 / 21.492 0.821 / 9.260 / 2.676 0.74M 13.060 图1展示了整体框架：输入多通道麦克风信号，分别经过“空间线索编码器”（处理IPD/ILD）和“频谱编码器”（处理STFT），提取特征后融合，由SALT模块估计潜在混合矩阵并完成变换，最后通过解码器输出Ambisonic信号。 5. 实际意义：为移动设备等受尺寸和功耗限制的平台实现高质量空间音频捕获提供了可行的、高效的解决方案。 6. 主要局限性：当前实验仅验证了使用三个麦克风的二阶一阶Ambisonics（W, X, Y），未涉及更高阶或完整三维编码；此外，未提供开源实现。 ...

Deepaq: A Perceptual Audio Quality Metric Based on Foundational Models and Weakly Supervised Learning

📄 Deepaq: A Perceptual Audio Quality Metric Based on Foundational Models and Weakly Supervised Learning #音频质量评估 #弱监督学习 #度量学习 #音频大模型 #LoRA微调 ✅ 7.5/10 | 前25% | #音频质量评估 | #弱监督学习 | #度量学习 #音频大模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Guanxin Jiang (International Audio Laboratories Erlangen†, Germany) 通讯作者：Andreas Brendel* (Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany) 作者列表：Guanxin Jiang (International Audio Laboratories Erlangen†, Germany)、Andreas Brendel* (Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany)、Pablo M. Delgado (Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany)、Jürgen Herre (International Audio Laboratories Erlangen†, Germany; Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany) （†注：International Audio Laboratories Erlangen是Friedrich-Alexander University Erlangen-Nürnberg (FAU)与Fraunhofer IIS的联合机构） 💡 毒舌点评亮点：成功地将大规模音乐基础模型MERT“跨界”应用到质量评估任务，并证明了其在泛化到音源分离等未见过失真上的强大潜力，结果表明确实比ViSQOL、PEAQ等传统指标更接近人类感知。短板：整个训练完全依赖非公开的内部音乐数据集，复现难度极高；虽然使用了弱监督标签，但核心标签仍来自ViSQOL，本质上是在“蒸馏”一个已有指标的判断，其能否真正超越“老师”在未见场景的极限存疑。 ...

Denoising Of Stochastic Ray Tracing Room Impulse Responses

📄 Denoising Of Stochastic Ray Tracing Room Impulse Responses #空间音频 #信号处理 #数据集 #开源工具 #少样本 ✅ 7.5/10 | 前25% | #空间音频 | #信号处理 | #数据集 #开源工具学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Ricardo Falcón-Pérez（Aalto University, Finland； Tampere University, Finland）通讯作者：未说明作者列表：Ricardo Falcón-Pérez（Aalto University， Tampere University）， Carl Schissler（Meta - Reality Labs Research）， Andrew Francl（Meta - Reality Labs Research）， Ishwarya Ananthabhotla（Meta - Reality Labs Research）， Gregor Mueckl（Meta - Reality Labs Research） 💡 毒舌点评亮点：论文最聪明的一点是避开了直接去噪复杂的RIR波形，转而利用射线追踪仿真过程本身产生的“副产品”——内部状态特征（如能量衰减曲线、路径统计直方图）作为输入，这为神经网络提供了宝贵的“仿真收敛度”先验信息，是解决该特定问题的有效设计。短板：作为一篇音频领域的论文，在提出了新的去噪方法后，却完全缺少了基于人类听音的主观评估实验（如MUSHRA或AB测试），无法直接证明其声称的“更准确”在感知上是否成立，这对于一项以提升听觉体验为目标的工作来说，说服链存在关键缺失。 ...