ICASSP 2026 - 多音高估计 #音符跟踪 论文列表

ICASSP 2026 - 多音高估计 #音符跟踪 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Self-Supervised Note Tracking and Multi-Pitch Estimation Via 8.5分 前25% 📋 论文详情 🥇 Self-Supervised Note Tracking and Multi-Pitch Estimation Via Reconstruction-Based Learning 🔥 8.5/10 | 前25% | #多音高估计 #音符跟踪 | #自监督学习 #重构学习 | #多音高估计 #音符跟踪 👥 作者与机构 第一作者:Heng-Hsiu Hu(中央研究院资讯研究所) 通讯作者:未说明 作者列表:Heng-Hsiu Hu(中央研究院资讯研究所)、Li Su(中央研究院资讯研究所) 💡 毒舌点评 这篇论文的亮点在于其“无缝集成”的思路:将看似独立的MPE和OD模块通过统一的自监督框架和伪标签机制优雅地结合起来,最终构建了一个无需任何人工标签的完整音符跟踪流水线,这在工程实现和方法论上都颇具巧思。然而,其短板也同样明显:尽管在MPE上取得了亮眼成绩,但音符跟踪(POnOff)的整体F1分数相比监督学习的Basic-Pitch仍有显著差距(例如,在MusicNet上为49.1% vs. 46.9%),这暴露了当前纯自监督方法在精准捕捉音符完整时间结构上的局限性,论文对此的解释稍显不足。 🔗 开源详情 代码:论文提供了代码仓库链接:https://github.com/DeReKPIgg/Timbre-Drill。 模型权重:论文中未提及公开预训练模型权重。 数据集:使用了四个公开数据集(NSynth, URMP, MAPS, MusicNet),并说明了划分方式,读者可自行获取。 Demo:论文中未提供在线演示。 复现材料:论文详细说明了模型架构(U-Net,跳跃连接)、输入特征(HCQT)、所有损失函数的公式与权重、优化器(AdamW)、学习率(1e-4)、批量大小(20)、训练步数(30,000)、硬件(单张RTX-3090)和训练时长(约12小时/模块)。这些信息对于复现训练过程足够充分。 论文中引用的开源项目:主要依赖参考文献中提及的Timbre-Trap [9] 和 SS-MPE [10] 的架构与思想,以及Basic-Pitch [12] 的后处理流程和mir_eval [24] 的评估工具。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 实体消歧 论文列表

ICASSP 2026 - 实体消歧 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Rethinking Entity Disambiguation in Complex Modalities 8.0分 前25% 📋 论文详情 🥇 Rethinking Entity Disambiguation in Complex Modalities 🔥 8.0/10 | 前25% | #实体消歧 | #多模态模型 | #对比学习 #音视频 👥 作者与机构 第一作者:Yingyao Ma(东南大学计算机科学与工程学院) 通讯作者:Jiasong Wu(*,东南大学计算机科学与工程学院) 作者列表:Yingyao Ma(东南大学计算机科学与工程学院),Yifan Xue(东南大学计算机科学与工程学院),Wanqiang Cai(东南大学计算机科学与工程学院),Yuanyuan Zhou(东南大学计算机科学与工程学院),Jiasong Wu(东南大学计算机科学与工程学院),Lotfi Senhadji(法国雷恩大学,INSERM,LTSI-UMR 1099),Huazhong Shu(东南大学计算机科学与工程学院) 💡 毒舌点评 亮点:论文系统性地将实体消歧任务从传统文本/静态图像扩展到动态的视频、音频等“复杂模态”,并为此构建了一个专用的多模态数据集,填补了特定场景下的研究空白。短板:音频模态的处理略显“工具化”,主要通过ASR转文本再匹配来利用,对音频波形本身的声学特征(如音色、韵律)利用不足,可能限制了其在语音主导场景下的性能上限。 🔗 开源详情 代码:提供了一个匿名代码仓库链接:https://anonymous.open.science/r/CMED-code-B0E8。 模型权重:未提及是否公开预训练或最终模型的权重。 数据集:构建并公开了Focus数据集(包括Focus-H和Focus-A两个版本),论文中未说明具体获取方式,通常需联系作者或通过提供链接下载。 Demo:未提供在线演示。 复现材料:在论文的“Implementation Details”部分提供了训练所用的优化器(Adam)、学习率(1e-3)、batch size(64)、训练轮数(50 epochs)、GPU型号(NVIDIA GTX A6000)以及超参数调优方法(网格搜索)。 论文中引用的开源项目:依赖的开源工具/模型包括:CLIP(特征提取)、SBERT(句子编码)、BERT(基线)、BLINK(基线)以及多个多模态基线模型(ALBEF, MaPLe, ClipBERT等)。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 实时处理 论文列表

ICASSP 2026 - 实时处理 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 A Personalized Real-Time Proactive Voice Memory Assistant 7.0分 前50% 📋 论文详情 🥇 A Personalized Real-Time Proactive Voice Memory Assistant ✅ 7.0/10 | 前50% | #实时处理 | #大语言模型 | #语音识别 #说话人识别 👥 作者与机构 第一作者:Hao Zhou (Samsung Research America, The Pennsylvania State University) - 根据作者列表顺序和标注“†”判断。 通讯作者:论文中未明确标注通讯作者。 作者列表:Hao Zhou¹²†, Md Mahbubur Rahman¹, Simon A. Lee¹³†, Baiying Lu¹⁴†, Juhyeon Lee¹⁵†, Cyrus Tanade¹, Megha Thukral¹⁶†, Md. Sazzad Hissain Khan⁷, Samsad Ul Islam⁷, Subramaniam Venkatraman¹, Sharanya Arcot Desai¹。 机构信息:¹Samsung Research America, ²The Pennsylvania State University, ³University of California, Los Angeles, ⁴Dartmouth, ⁵University of Massachusetts Amherst, ⁶Georgia Institute of Technology, ⁷Samsung Research Bangladesh。标注“†”表示工作在三星研究美国实习期间完成。 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 对抗样本 论文列表

ICASSP 2026 - 对抗样本 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Style Attack Disguise: When Fonts Become a Camouflage for Ad 7.0分 前25% 📋 论文详情 🥇 Style Attack Disguise: When Fonts Become a Camouflage for Adversarial Intent ✅ 7.0/10 | 前25% | #对抗样本 | #数据增强 | #文本分类 #机器翻译 👥 作者与机构 第一作者:Yangshijie Zhang† (Lanzhou University) 通讯作者:Xingxing Jia⋆ (Lanzhou University, jiaxx@lzu.edu.cn) 作者列表: Yangshijie Zhang† (Lanzhou University) Xinda Wang† (Peking University) Jialin Liu (Peking University) Wenqiang Wang (Sun Yat-sen University) Zhicong Ma (Lanzhou University) Xingxing Jia⋆ (Lanzhou University) 机构:兰州大学、北京大学、中山大学 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 异常声音检测 论文列表

ICASSP 2026 - 异常声音检测 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 RASD-SR: A Robust Anomalous Sound Detection Framework with S 8.5分 前10% 📋 论文详情 🥇 RASD-SR: A Robust Anomalous Sound Detection Framework with Score Recalibration 🔥 8.5/10 | 前10% | #异常声音检测 | #预训练 #自监督学习 | #音频事件检测 #预训练 👥 作者与机构 第一作者:Ting Wu(中国科学院声学研究所噪声与音频研究实验室,中国科学院大学) 通讯作者:Xiaobin Cheng(中国科学院声学研究所噪声与音频研究实验室,中国科学院大学) 作者列表: Ting Wu(中国科学院声学研究所噪声与音频研究实验室,中国科学院大学) Lu Han(中国科学院声学研究所噪声与音频研究实验室,中国科学院大学) Zhaoli Yan(北京化工大学机电工程学院) Xiaobin Cheng(中国科学院声学研究所噪声与音频研究实验室,中国科学院大学) Jun Yang(中国科学院声学研究所噪声与音频研究实验室,中国科学院大学) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 情感分析 论文列表

ICASSP 2026 - 情感分析 共 3 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 MCF: Text LLMS for Multimodal Emotional Causality 8.0分 前25% 🥈 Temporal-Spatial Decouple Before Act: Disentangled Represent 7.5分 前25% 🥉 ACIR-MACL: Effective Multimodal Sentiment Analysis via Atten 7.0分 前25% 📋 论文详情 🥇 MCF: Text LLMS for Multimodal Emotional Causality 🔥 8.0/10 | 前25% | #情感分析 | #多模态模型 | #大语言模型 #数据集 👥 作者与机构 第一作者:Yulong Li(西安交通大学-利物浦大学;穆罕默德·本·扎耶德人工智能大学) 通讯作者:Yichen Li(华中科技大学);Chong Li(西安交通大学-利物浦大学);Jionglong Su(西安交通大学-利物浦大学) 作者列表: Yulong Li(西安交通大学-利物浦大学;穆罕默德·本·扎耶德人工智能大学) Yuxuan Zhang(西安交通大学-利物浦大学) Rui Chen(西安交通大学-利物浦大学) Man Lei(西安交通大学-利物浦大学) Yibo Yuan(西安交通大学-利物浦大学) Xiwei Liu(穆罕默德·本·扎耶德人工智能大学) Runyi Lin(西安交通大学-利物浦大学) Tianrui Li(西安交通大学-利物浦大学) Mingze Jiang(西安交通大学-利物浦大学) Anyi Liu(西安交通大学-利物浦大学) Yichen Li(华中科技大学) Chong Li(西安交通大学-利物浦大学) Jionglong Su(西安交通大学-利物浦大学) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 情感识别 论文列表

ICASSP 2026 - 情感识别 共 2 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 APKD: Aligned And Paced Knowledge Distillation Towards Light 7.5分 前25% 🥈 DSSR: Decoupling Salient and Subtle Representations Under Mi 7.5分 前25% 📋 论文详情 🥇 APKD: Aligned And Paced Knowledge Distillation Towards Lightweight Heterogeneous Multimodal Emotion Recognition ✅ 7.5/10 | 前25% | #情感识别 | #知识蒸馏 | #多模态模型 #语音情感识别 👥 作者与机构 第一作者:Yujian Sun(山东理工大学计算机科学学院) 通讯作者:Shanliang Yang(山东理工大学计算机科学学院,yangshanliang@sdut.edu.cn) 作者列表:Yujian Sun(山东理工大学计算机科学学院),Bingtian Qiao(福州大学莫纳什大学联合国际学院),Yiwen Wang(福州大学莫纳什大学联合国际学院),Shanliang Yang(山东理工大学计算机科学学院) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 房间脉冲响应 论文列表

ICASSP 2026 - 房间脉冲响应 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 RIR-Former: Coordinate-Guided Transformer for Continuous Rec 7.0分 前25% 📋 论文详情 🥇 RIR-Former: Coordinate-Guided Transformer for Continuous Reconstruction of Room Impulse Responses ✅ 7.0/10 | 前25% | #房间脉冲响应 | #Transformer | #麦克风阵列 #空间音频 👥 作者与机构 第一作者:Shaoheng Xu (The Australian National University) 和 Chunyi Sun (The Australian National University)(论文中注明共同第一作者) 通讯作者:未说明 作者列表:Shaoheng Xu (The Australian National University), Chunyi Sun (The Australian National University), Jihui (Aimee) Zhang (The University of Queensland & The Australian National University), Prasanga Samarasinghe (The Australian National University), Thushara Abhayapala (The Australian National University) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 房间脉冲响应去噪 论文列表

ICASSP 2026 - 房间脉冲响应去噪 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Full Band Denoising of Room Impulse Response in the Wavelet 7.5分 前25% 📋 论文详情 🥇 Full Band Denoising of Room Impulse Response in the Wavelet Domain with Dictionary Learning ✅ 7.5/10 | 前25% | #房间脉冲响应去噪 | #小波变换 #字典学习 | #小波变换 #字典学习 👥 作者与机构 第一作者:Théophile Dupré(Trinnov Audio, Neuilly-Plaisance, France) 通讯作者:未说明 作者列表:Théophile Dupré(Trinnov Audio)、Romain Couderc(Trinnov Audio)、Miguel Moleron(Trinnov Audio)、Axel Coulon(Trinnov Audio)、Rémy Bruno(Trinnov Audio)、Arnaud Laborie(Trinnov Audio) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 数据集 论文列表

ICASSP 2026 - 数据集 共 3 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 HiFi-HARP: A High-Fidelity 7th-Order Ambisonic Room Impulse 7.5分 前25% 🥈 Representation-Based Data Quality Audits for Audio 7.5分 前25% 🥉 AMBISONIC-DML: A Benchmark Dataset for Dynamic Higher-Order 7.5分 前25% 📋 论文详情 🥇 HiFi-HARP: A High-Fidelity 7th-Order Ambisonic Room Impulse Response Dataset ✅ 7.5/10 | 前25% | #数据集 | #混合仿真 | #麦克风阵列 #空间音频 👥 作者与机构 ...

2026-04-29