Icassp-2026

NCF-TTS: Enhancing Flow Matching Based Text-To-Speech with Neighborhood Consistency Flow

📄 NCF-TTS: Enhancing Flow Matching Based Text-To-Speech with Neighborhood Consistency Flow #语音合成 #流匹配 #多语言 #实时处理 🔥 8.0/10 | 前25% | #语音合成 | #流匹配 | #多语言 #实时处理学术质量 7.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Yan Shi（平安科技）通讯作者：未说明（提供了两个邮箱，但未明确标注通讯作者）作者列表： Yan Shi*（平安科技） Jin Shi（平安科技） Minchuan Chen*（平安科技） Ziyang Zhuang（平安科技） Peng Qi（上海交通大学重庆人工智能研究院） Shaojun Wang（平安科技） Jing Xiao（平安科技） 💡 毒舌点评亮点：这篇论文精准地抓住了流匹配TTS在少步推理下的两个痛点——轨迹不稳定性与CFG失效，并给出了数学上自洽、工程上有效的解决方案（NCF损失和嵌入式指导），理论结合实践做得不错。短板：实验部分虽然对比了F5-TTS和CosyVoice，但在多语言基准测试上，与顶尖的自回归模型（如Seed-TTS）在自然度（UTMOS）上仍有差距，论文对此讨论不足，可能影响其在高质量合成领域的说服力。 🔗 开源详情代码：论文提供了一个项目主页链接 https://moonmore.github.io/ncf-tts，但此链接通常指向演示和论文信息，未明确指向包含完整训练/推理代码的公开仓库。模型权重：通过项目主页链接，应可获取预训练模型权重用于演示和推理。数据集：论文使用了公开的Emilia数据集，但未说明是否发布其筛选后的子集。评估集Seed-TTS为公开基准。 Demo：提供在线演示（通过项目主页链接）。复现材料：论文详细说明了训练数据、预处理、模型架构、训练超参数（学习率、批量、步数）、优化器、损失权重及调度策略。这些信息对复现非常有帮助。论文中引用的开源项目：F5-TTS, Vocos, Whisper, Paraformer, FunASR, AdamW, ConvNeXt V2, DiT, WavLM。总结：论文提供了充分的复现技术细节和演示，但未明确公开训练/推理代码的仓库地址，这是复现层面最大的不确定性。 📌 核心摘要问题：基于流匹配的文本到语音（TTS）模型在实际应用中受制于缓慢的推理速度，且经典的分类器自由引导（CFG）方法与少步采样模型存在理论不兼容，导致在少步推理时难以平衡质量与效率。方法核心：提出NCF-TTS框架。核心是引入邻域一致性流（NCF）作为局部传输正则化器，强制要求平均速度场满足可加性，从而稳定大步长采样。其次，提出嵌入式指导目标，在训练阶段将条件与无条件监督统一，解决了CFG与少步模型的兼容性问题，使得推理时无需进行两次前向传播。新颖性：不同于以往的蒸馏（如一致性模型）或离散步长约束（如快捷模型），NCF从连续时间积分的角度建立了一个统一的正则化框架。嵌入式指导将CFG从推理时调整转变为训练时正则化，是实现无CFG推理的关键。实验结果：在中文和英文多语言数据集上进行评估。NCF-TTS在少步推理下表现优异，例如4步推理时英文WER仅1.82%，中文SIM-o为0.67，接近32步推理的质量（英文WER 1.38%，中文SIM-o 0.76）。相比基线F5-TTS，NCF-TTS在相同步数下质量更优，且在4步推理时推理速度（RTF 0.01）比F5-TTS的16步推理（RTF 0.14）快14倍。消融实验表明移除NCF会导致WER显著上升（从1.67%到6.23%）。实际意义：实现了高质量、低延迟的TTS，为实时语音助手、交互式应用等场景提供了有力工具。主要局限性：尽管在客观指标上接近最优，但在主观自然度（UTMOS/MOS）上与顶尖的自回归模型（如Seed-TTS、CosyVoice2）相比仍有一定差距，论文未深入探讨此差异的原因。 🏗️ 模型架构 NCF-TTS的架构（如图1所示）基于F5-TTS，是一个端到端的非自回归模型，主要包含以下组件： ...

Neural Network-Based Time-Frequency-Bin-Wise Linear Combination of Beamformers for Underdetermined Target Source Extraction

📄 Neural Network-Based Time-Frequency-Bin-Wise Linear Combination of Beamformers for Underdetermined Target Source Extraction #语音分离 #波束成形 #神经网络 #多通道 ✅ 7.0/10 | 前25% | #语音分离 | #波束成形 | #神经网络 #多通道学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Changda Chen（早稻田大学）通讯作者：未说明（根据论文署名顺序和常见惯例，Shoji Makino可能是通讯作者，但论文未明确标注）作者列表： Changda Chen（早稻田大学） Yichen Yang（西北工业大学、早稻田大学） Wei Liu（早稻田大学、武汉大学电子信息学院） Shoji Makino（早稻田大学） 💡 毒舌点评亮点：该工作巧妙地利用神经网络的上下文建模能力，解决了传统逐时频点波束成形选择/组合策略导致的频谱不连续和目标自抑制问题，实现了更平滑、更一致的干扰抑制。短板：方法的有效性验证高度依赖于双麦克风这一特定且受限的设置，其在更通用的多麦克风阵列（M>2）下的可扩展性和性能优势有待进一步证明。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：未提及。 Demo：未提及。复现材料：论文提供了详细的模型架构描述、训练策略、超参数设置和基线方法的实现细节（如迭代次数、噪声协方差估计方式），这些信息对复现有重要帮助。论文中引用的开源项目：使用了LibriSpeech数据集[25]，并引用了房间冲激响应生成[26]和扩散噪声生成[27]的方法。总体而言，论文中未提及开源计划。 📌 核心摘要要解决什么问题：在麦克风数量少于同时活跃声源数量的欠定场景下，传统波束成形（如MPDR）无法有效抑制所有干扰。现有的时频单元选择（TFS）或线性组合（TFLC）策略虽利用了信号的稀疏性，但其独立的逐点决策会破坏时频相关性，导致目标信号失真。方法核心：提出NN-TFLC-MPDR框架。该框架使用神经网络编码混合信号和多个候选波束成形器的输出，通过一个基于交叉注意力的“注意力门”，预测出具有时频上下文一致性的线性组合权重。利用这些权重，首先更新一组MPDR波束成形器（无需显式噪声协方差估计），然后再次通过注意力门得到最终权重，组合更新后的波束以提取目标。与已有方法相比新在哪里：决策方式：将传统方法中基于最小输出功率的逐时频点最优（硬/软）选择，替换为由神经网络预测的、上下文感知的组合权重。波束成形器构建：在更新MPDR波束成形器时，避免了需要干扰源先验信息的噪声协方差估计，仅利用加权混合信号的协方差。框架灵活性：设计支持可变数量的输入波束成形器，并通过分阶段训练提升了对多干扰源的泛化能力。主要实验结果：在双麦克风、2-4个干扰源的模拟混响环境中，NN-TFLC-MPDR在SI-SDR指标上一致性地超越了传统的TFS/TFLC-MPDR基线。例如，在2个干扰源下，NN-TFLC-MPDR（w/o Full）的SI-SDR为4.80±1.55 dB，高于TFLC-MPDR的2.86±1.55 dB。其性能甚至能与需要干扰源先验信息的TFS/TFLC-MVDR方法竞争（2I下4.52±1.43 dB），且在3I场景下SI-SIR显著提升（9.82±2.55 dB vs 7.87±1.61 dB）。实际意义：该方法为麦克风数量受限的消费电子产品（如智能音箱、耳机）提供了一种更鲁棒的目标语音提取方案，能够在复杂声学环境中（如多人说话）减少对目标语音的损伤，同时有效抑制干扰。主要局限性：实验验证仅限于双麦克风阵列的特定设置，未探索其在更多麦克风（M>2）这一波束成形更常见场景下的表现；此外，训练和测试均基于模拟数据，缺乏真实世界场景的验证。 🏗️ 模型架构 NN-TFLC-MPDR的整体架构如图1(a)所示。其工作流程为一个两阶段的循环结构，旨在精细化波束组合权重。 ...

Neuromamba: Adaptive Frequency Filtering with a Pyramid Mamba for sEEG-driven Speech Synthesis

📄 Neuromamba: Adaptive Frequency Filtering with a Pyramid Mamba for sEEG-driven Speech Synthesis #语音合成 #信号处理 #状态空间模型 #脑机接口 #低资源 🔥 8.0/10 | 前25% | #语音合成 | #信号处理 #状态空间模型 | #信号处理 #状态空间模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Jiayue Xie†, Ruicong Wang† (†共同第一作者，单位：香港中文大学（深圳）人工智能学院、数据科学学院、深圳湾实验室) 通讯作者：Siqi Cai⋆ (⋆通讯作者，单位：哈尔滨工业大学（深圳）智能科学与工程学院、深圳湾实验室) 作者列表：Jiayue Xie (香港中文大学（深圳）人工智能学院、数据科学学院、深圳湾实验室), Ruicong Wang (香港中文大学（深圳）人工智能学院、数据科学学院、深圳湾实验室), Xueyi Zhang (香港中文大学（深圳）人工智能学院、数据科学学院、深圳湾实验室), Siqi Cai (哈尔滨工业大学（深圳）智能科学与工程学院、深圳湾实验室), Haizhou Li (香港中文大学（深圳）人工智能学院、数据科学学院、深圳湾实验室; 深圳湾实验室) 💡 毒舌点评论文的亮点在于其模块设计（AFM与TPM）逻辑清晰，针对sEEG信号特性的动机阐述充分，消融实验和多任务（发声/默念/想象）评估也显得扎实可靠。然而，将实验仅局限于2名被试的sEEG数据，虽然这是领域早期常见情况，但论文并未充分讨论其结论在更广泛人群和非癫痫患者中的潜在泛化性限制，这使得“有效性”的声明略显单薄。 ...

NeuroSIFT: A Biologically-Inspired Framework with Explicit Signal-Noise Separation for Robust Multimodal Emotion Recognition

📄 NeuroSIFT: A Biologically-Inspired Framework with Explicit Signal-Noise Separation for Robust Multimodal Emotion Recognition #多模态情感识别 #神经形态计算 #多任务学习 #鲁棒性 #跨模态 🔥 8.0/10 | 前25% | #多模态情感识别 | #神经形态计算 | #多任务学习 #鲁棒性学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Gang Xie（杭州电子科技大学计算机学院）通讯作者：Wanzeng Kong（杭州电子科技大学计算机学院）作者列表：Gang Xie（杭州电子科技大学计算机学院）、Jiajia Tang（杭州电子科技大学计算机学院）、Tianyang Qin（杭州电子科技大学计算机学院）、Yiwen Shen（杭州电子科技大学计算机学院）、Wanzeng Kong（杭州电子科技大学计算机学院） 💡 毒舌点评这篇论文最亮眼的地方是它“仿生”不玩虚的，直接模仿海马体神经回路的选择性抑制机制来做信号分离，并在两个主流数据集上取得了显著的性能提升（如CH-SIMSv2上F1值提升5.44%），证明了思路的有效性。但短板也很明显：一是生物启发到计算模型的映射稍显简单化（如将复杂的神经元交互简化为两个门控信号），理论解释有待深化；二是全文未开源任何代码或模型，对于一篇强调“框架”和“复现”的论文来说，这严重削弱了其影响力。 🔗 开源详情论文中未提及开源计划。具体来说：代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了公开的CH-SIMSv2和MUStARD数据集，但论文中未说明具体获取或预处理方式。 Demo：未提及。复现材料：论文提供了部分关键架构和损失函数公式，但缺少完整的超参数配置、训练日志和检查点。论文中引用的开源项目：未提及引用了哪些特定的开源代码库。 📌 核心摘要问题：现有多模态情感识别（MER）方法因无法显式分离真实世界中的复杂噪声（感知、结构、语义噪声）而性能下降，多依赖隐式的噪声适应策略。方法核心：提出NeuroSIFT框架，受海马体-前额叶回路中SST+、PV+和VIP+中间神经元的选择性抑制机制启发。框架包含三个核心组件：语义模拟噪声生成器（生成与输入语义对齐的噪声参考）、神经回路选择性抑制模块（利用噪声参考显式分解输入为情感信号和结构化噪声）、双流对抗训练框架（分别处理并利用分解后的信号与噪声流）。创新点：与已有方法相比，核心创新在于实现了显式的信号-噪声分离，而非隐式适应。具体创新包括：1) 基于批次负采样的语义噪声生成；2) 模仿生物神经抑制与去抑制的分离模块；3) 利用噪声流增强对抗鲁棒性的双流训练。主要实验结果：在CH-SIMSv2和MUStARD数据集上全面超越现有SOTA方法。具体如下表所示：数据集方法主要指标 CH-SIMSv2 NeuroSIFT (Ours) Acc-2: 89.13, F1-2: 89.14, Corr: 0.835 最佳基线 (Coupled Mamba) Acc-2: 83.40, F1-2: 83.50, Corr: 0.758 提升 +5.33% (Acc), +5.44% (F1) MUStARD NeuroSIFT (Ours) Acc: 77.68, F1: 77.51 最佳基线 (CAF-I) Acc: 75.50, F1: 75.20 提升 +1.95% (Acc), +2.12% (F1) 实际意义：为构建对真实世界噪声更鲁棒的多模态情感识别系统提供了一种新的生物启发设计范式，其“分离-再利用”的思路可能对其他多模态感知任务有借鉴意义。主要局限性：1) 生物机制到算法的映射是高度简化的，可能未能完全捕捉真实神经回路的复杂性；2) 论文承认双流设计引入了计算开销；3) 未开源代码与模型，限制了可复现性。 🏗️ 模型架构 NeuroSIFT的整体架构如图1所示，其处理流程是：输入多模态数据（文本、音频、视频） -> 语义模拟噪声生成 -> 神经回路选择性抑制进行显式分解 -> 双流并行处理与对抗训练 -> 输出情感分类。 ...

nGPT as a Scalable Architecture for Speech Recognition and Translation

📄 nGPT as a Scalable Architecture for Speech Recognition and Translation #语音识别 #语音翻译 #nGPT #多语言 #位置编码 ✅ 7.5/10 | 前25% | #语音识别 | #nGPT | #语音翻译 #多语言学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Nune Tadevosyan (NVIDIA, Santa Clara, CA 95051, USA) (论文中注明*贡献相等) 通讯作者：未说明作者列表：Nune Tadevosyan (NVIDIA), Nithin Rao Koluguri (NVIDIA), Monica Sekoyan* (NVIDIA), Piotr Zelasko (NVIDIA), Nikolay Karpov (NVIDIA), Jagadeesh Balam (NVIDIA), Boris Ginsburg (NVIDIA)。所有作者均隶属于NVIDIA公司。 💡 毒舌点评亮点：在将Transformer编码器稳定扩展到3B参数上展现了工程实力，nGPT架构在单阶段训练下即在X→EN翻译任务上展现出强泛化能力，这是一个扎实的架构贡献。短板：论文声称“首次将ALiBi应用于语音”，但核心贡献更像是将NLP领域成熟技术适配到语音任务，创新高度有限；同时，在ASR任务上，费尽心思提出的nGPT-3B在多阶段微调的1B FastConformer面前并未取得全面优势，削弱了其“可扩展性”叙事的部分说服力。 ...

No Verifiable Reward for Prosody: Toward Preference-Guided Prosody Learning in TTS

📄 No Verifiable Reward for Prosody: Toward Preference-Guided Prosody Learning in TTS #语音合成 #强化学习 #偏好学习 #数据集 🔥 8.0/10 | 前25% | #语音合成 | #强化学习 | #偏好学习 #数据集学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Seungyoun Shin（Channel Corporation, Seoul, South Korea）通讯作者：Sungwook Jeon（NAVER Cloud, South Korea）† 作者列表：Seungyoun Shin（Channel Corporation），Dongha Ahn（Kernelspace），Jiwoo Kim（成均馆大学， Sungkyunkwan University），Sungwook Jeon（NAVER Cloud） 💡 毒舌点评论文精准地“诊断”了现有RL训练TTS的通病——用CER/NLL当奖励，模型就只会当“背稿机器”，丢了人说话的腔调。提出的“每轮用200对人类偏好对打补丁”的迭代DPO方案，确实用最小的数据代价把韵律给“救”回来了，ELO分数吊打一众基线，这是其最大亮点。但短板在于，DPO本身已不是新方法，论文的创新更多是“对症下药”的工程应用和验证，而非方法论上的突破，且每轮都要人工标注，扩展性存疑。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及。数据集：论文发布了新的评测集KoCC-TTS，并给出了HuggingFace链接：https://huggingface.co/datasets/channelcorp/KoCC-TTS-testset。 Demo：提供了演示页面链接：https://tts.ch.dev。复现材料：论文提供了训练数据的大致规模（36k小时公开数据，18小时专有数据）、模型架构基础（Llasa-1B）、以及关键实验设置（如DPO的迭代流程、偏好对数量）。��未提供完整的训练超参数、配置文件或模型检查点。论文中引用的开源项目：模型：Llasa (https://huggingface.co/HKUSTAudio/Llasa-1B) 工具：pyannote.audio (v3.0), Whisper-large-v3 数据：AIHUB (https://aihub.or.kr/) 📌 核心摘要要解决什么问题：在神经TTS中，使用基于转录错误率（CER）和负对数似然（NLL）的强化学习（如GRPO）优化模型，虽然提升了语音识别准确性，但会导致生成的语音韵律单调、不自然（“韵律坍塌”）。同时，简单加入说话人相似度奖励会破坏训练稳定性。 ...

Noise-Robust AV-ASR Using Visual Features both in the Whisper Encoder and Decoder

📄 Noise-Robust AV-ASR Using Visual Features both in the Whisper Encoder and Decoder #语音识别 #预训练 #音视频 #鲁棒性 🔥 8.0/10 | 前25% | #语音识别 | #预训练 | #音视频 #鲁棒性学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zhengyang Li（Technische Universität Braunschweig, Institute for Communications Technology）通讯作者：未说明作者列表：Zhengyang Li（Technische Universität Braunschweig, Institute for Communications Technology），Thomas Graave（Technische Universität Braunschweig, Institute for Communications Technology），Björn Möller（Technische Universität Braunschweig, Institute for Communications Technology），Zehang Wu（Technische Universität Braunschweig, Institute for Communications Technology），Matthias Franz（Technische Universität Braunschweig, Institute for Communications Technology），Tim Fingscheidt（Technische Universität Braunschweig, Institute for Communications Technology） 💡 毒舌点评亮点：在LRS3基准的噪声测试（MUSAN babble, 0dB SNR）中，基于Whisper medium的“双用”方法相比强力的中间融合基线（Flamingo）取得了高达57%的相对错误率降低（4.07% vs. 9.53%），噪声鲁棒性提升非常显著且可复现。短板：方法的性能高度依赖于一个独立的、参数量庞大的预训练视觉编码器（AV-HuBERT large， 325M参数），这使得整个AV-ASR系统的总参数量远大于音频单模态Whisper，为实际部署（尤其是资源受限场景）带来了显著的计算开销。 ...

Noise-Robust Contrastive Learning with an MFCC-Conformer for Coronary Artery Disease Detection

📄 Noise-Robust Contrastive Learning with an MFCC-Conformer for Coronary Artery Disease Detection #音频分类 #对比学习 #Conformer #鲁棒性 #医疗AI ✅ 7.0/10 | 前50% | #音频分类 | #对比学习 | #Conformer #鲁棒性学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Milan Marocchi, Matthew Fynn（*表示贡献相等）通讯作者：未说明作者列表：Milan Marocchi（Curtin University），Matthew Fynn（Curtin University），Yue Rong（Curtin University）机构：Curtin University, Bentley 6102, WA, Australia（未说明具体学院或实验室） 💡 毒舌点评论文的亮点在于将相对复杂的Conformer架构成功应用于心音信号，并设计了一个实用的多通道噪声段拒绝流程，在真实噪声数据集上验证了其有效性。短板是，其噪声拒绝核心算法（能量阈值）的创新性较为有限，且消融实验部分缺失，使得我们难以精确评估各个组件（如对比学习、中心损失、噪声拒绝）的具体贡献。 🔗 开源详情代码：提供了完整的代码仓库链接：https://github.com/MilanMarocchi/noise-robust-cad-conformer。模型权重：论文中未提及是否公开预训练模型权重。数据集：数据集来自特定医院的采集，论文中未提及公开该数据集。 Demo：未提供在线演示。复现材料：论文提供了详细的超参数配置（表1）、训练策略、硬件环境、评估指标定义等，有利于复现。代码仓库的提供是最大的复现支持。论文中引用的开源项目：提到了使用的开源工具包括PyTorch、Optuna（用于超参优化）、AdamW优化器（参考文献[14]）。 📌 核心摘要要解决什么问题：在真实临床噪声环境下，提高基于心音图（PCG）信号的冠状动脉疾病（CAD）检测的鲁棒性和准确性。方法核心是什么：提出一个包含噪声感知预处理和深度学习分类的端到端流程。核心包括：(1) 一种基于能量的多通道噪声段拒绝算法，利用听诊器内置的心声麦克风（HM）和噪声参考麦克风（NM）识别并剔除受非平稳噪声污染严重的信号段；(2) 一个将梅尔频率倒谱系数（MFCC）作为输入的Conformer编码器，并结合监督混合对比学习（包含对比损失、分类损失和中心损失）进行训练。与已有方法相比新在哪里：首次将Conformer模型应用于心音分类任务；提出了一种联合利用HM和NM能量信息的噪声段拒绝方法；在同一个框架内集成了多通道MFCC特征提取、Conformer建模和混合对比学习，以应对真实世界噪声数据。主要实验结果如何：在297名受试者的数据集上，所提出的方法（带噪声拒绝）在受试者级别取得了78.4%的准确率和78.2%的平衡准确率（UAR），相比不进行噪声拒绝的基线模型，准确率和UAR分别提升了4.1%和4.3%。与之前基于Wav2Vec 2.0的方法相比，准确率和UAR分别提升了1.3%和3.9%。具体实验数据如下表所示（仅列受试者级别关键指标）：方法准确率 (Acc) 平衡准确率 (UAR) 真阳性率 (TPR) 真阴性率 (TNR) MCC 不带噪声拒绝的MFCC-Conformer 74.3±0.09% 73.9±0.10% 80.9±0.11% 66.9±0.30% 0.490±0.019 本文方法（带噪声拒绝的MFCC-Conformer） 78.4±0.29% 78.2±0.32% 81.9±0.49% 74.5±0.97% 0.570±0.058 Noisy Wav2Vec 2.0 [13] 77.1±1.50% 74.3±1.73% 86.5±1.30% 62.0±2.76% 0.510±0.035 实际意义是什么：为在真实世界噪声条件下（如嘈杂的医院环境）进行无创、低成本的CAD预筛查提供了更鲁棒的深度学习解决方案，有助于推动基于可穿戴设备的心脏病早期预警技术。主要局限性是什么：实验仅在一个来源的特定数据集上进行验证；噪声拒绝算法的阈值（2.5倍中值）是固定的，缺乏自适应性讨论；论文未提供充分的消融实验以区分各技术组件（噪声拒绝、Conformer、对比学习等）的独立贡献。 🏗️ 模型架构论文提出的模型是一个基于Conformer的编码器，用于处理从多通道PCG信号中提取的MFCC特征序列，以实现二分类（CAD vs. 正常）。 ...

Noise-to-Notes: Diffusion-Based Generation and Refinement for Automatic Drum Transcription

📄 Noise-to-Notes: Diffusion-Based Generation and Refinement for Automatic Drum Transcription #音乐信息检索 #扩散模型 #生成模型 #鲁棒性 🔥 8.0/10 | 前10% | #音乐信息检索 | #扩散模型 | #生成模型 #鲁棒性学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：未说明（论文未明确标注）通讯作者：未说明（论文未明确标注）作者列表：Michael Yeung（Sony Group Corporation, Tokyo, Japan）、Keisuke Toyama（Sony Group Corporation, Tokyo, Japan）、Toya Teramoto（Sony Group Corporation, Tokyo, Japan）、Shusuke Takahashi（Sony Group Corporation, Tokyo, Japan）、Tamaki Kojima（Sony Group Corporation, Tokyo, Japan） 💡 毒舌点评亮点：首次将扩散模型作为生成范式应用于自动鼓转录（ADT），不仅在多个基准测试上超越了所有判别模型，还展示了在音频部分缺失情况下的“修复”能力，这在ADT乃至更广的音乐转录领域都是新颖的。短板：论文的核心卖点是“生成模型超越判别模型”，但作为生成模型的代价是推理速度显著慢于同等性能的判别模型（例如，单步推理0.163s vs. 0.086s），这使得其在实时或低延迟应用场景中的实用性大打折扣。 ...

Non-Line-of-Sight Vehicle Detection via Audio-Visual Fusion

📄 Non-Line-of-Sight Vehicle Detection via Audio-Visual Fusion #音频分类 #多模态模型 #时频分析 #Conformer #声源定位 🔥 8.0/10 | 前25% | #音频分类 | #多模态模型 | #时频分析 #Conformer 学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Huaxuan Wang（北京理工大学机械工程学院）通讯作者：Huilong Yu（北京理工大学机械工程学院）；Wei Zhou（Cardiff University, School of Computer Science and Informatics）作者列表：Huaxuan Wang（北京理工大学机械工程学院），Huilong Yu（北京理工大学机械工程学院），Ruizeng Zhang（北京理工大学机械工程学院），Wei Zhou（Cardiff University, School of Computer Science and Informatics），Junqiang Xi（北京理工大学机械工程学院） 💡 毒舌点评亮点：论文思路清晰，将“看不见的场景结构”（通过BEV图像表示）与“听得见的目标线索”（音频多域特征）显式融合，逻辑上自洽，实验也证明在特定场景下性能提升有效。短板：融合方式相对直接（拼接向量），且BEV生成依赖于已有地图和人工标注，限制了该框架在完全未知环境中的泛用性；验证仅限于公开数据集上的T型路口，现实复杂路况的鲁棒性存疑。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了公开数据集OVAD和AOVD，但论文未提供额外数据或获取指南。 Demo：未提及。复现材料：论文给出了一些训练超参数（学习率、batch size、epoch数、优化器），但未提供完整的配置文件、训练脚本或模型检查点。BEV生成的具体算法细节（如特征提取和LoS分析）描述较粗略。论文中引用的开源项目：未明确提及依赖的具体开源工具/模型库（如PyTorch是框架，未特指某开源实现）。 📌 核心摘要问题：自动驾驶车辆在交通盲区（如T型路口）无法直接感知突然出现的障碍物，现有感知手段（摄像头、雷达）受限于视距，而传统音频感知方法忽略了场景结构对声波传播的决定性影响。方法核心：提出一个场景感知的音视频融合网络。核心是引入鸟瞰图（BEV）来显式表征场景空间结构，并从车载麦克风阵列音频中提取时频谱图和DOA能量谱图。网络采用三分支结构处理这些特征，其中音频分支创新性地结合了LSTM、CNN和Conformer模块，以建模音频信号的时序依赖与全局局部特征。新颖性：相较于之前仅依赖音频或未考虑场景结构的方法，本工作的主要创新在于：a) 显式构建并利用BEV图像融入场景结构先验；b) 在音频特征处理中引入Conformer模块，增强了模型对复杂声学特征的建模能力。实验结果：在OVAD和AOVD两个真实世界数据集上，该方法的整体准确率分别达到94.1%和97.0%（移除BEV分支），显著优于SVM（88.2%， 90.8%）和pCRNN（92.6%， 95.4%）等基线方法。消融实验验证了BEV分支和Conformer模块的有效性。实际意义：为智能车辆在交叉路口等视距受限场景提供了新的、更可靠的早期碰撞预警方案，提升了自动驾驶的安全性。主要局限性：系统性能高度依赖于先验的BEV地图生成（需要卫星图像和手动标注），限制了部署的灵活性；研究聚焦于T型路口这一特定场景，未在更复杂或未知环境中验证其泛化能力。 🏗️ 模型架构论文提出的整体框架如图1 (pdf-image-page2-idx0) 所示，是一个用于遮挡车辆分类的音视频融合网络。系统处理流程如下： ...