声源定位 | 语音/音乐/音频论文速递

A Hybrid Mamba for Audio-Visual Navigation

📄 A Hybrid Mamba for Audio-Visual Navigation 标签：#声源定位 #强化学习 #多模态模型 #音频理解 #Transformer 6.3/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 6.3/10 | 前50% | 文档类型：方法研究 | 评分置信度：高 | #声源定位 | #强化学习 | #多模态模型 #音频理解 | arxiv 👥 作者与机构第一作者：Yi Wang（新疆大学计算机科学与技术学院；新疆大学联合研究实验室；新疆大学丝绸之路多语言认知计算联合国际研究实验室）通讯作者：Yinfeng Yu（新疆大学计算机科学与技术学院；新疆大学联合研究实验室；新疆大学丝绸之路多语言认知计算联合国际研究实验室）作者列表：Yi Wang（新疆大学）、Yinfeng Yu（新疆大学） 💡 毒舌点评论文精准地抓住了音频视觉导航（AVN）骨干网络长期未更新的痛点，引入当前炙手可热的Mamba架构进行“混合升级”，在Replica和MP3D数据集上均取得了显著的性能提升，展示了新序列建模架构在具身感知任务中的潜力。然而，论文在表述上过于激进，频繁使用“范式转变”、“根本性变化”等宏大词汇，但其核心创新更多是架构组件的有效替换与适配，尚未达到颠覆传统范式的程度。最致命的是，论文对训练细节讳莫如深，且完全未提及开源计划，使其宣称的“高效”和“鲁棒”技术路径难以被社区独立验证和复现，严重削弱了其技术贡献的可信度和影响力。 📌 核心摘要本文针对音频视觉导航（AVN）任务中，以CNN和RNN（如GRU）为核心的骨干网络长期未更新，导致多模态序列表示效率低下、关键声学信号易被稀释的问题，提出了一个名为Samba的混合状态空间模型架构。其核心是设计了两个基于Mamba（选择性状态空间模型）的模块：1）用自适应选择的Mamba状态编码器（M-SE）替代传统的GRU来动态聚合历史状态；2）用双向音频Mamba编码器（AME）替代CNN来提取音频频谱图的全局时频依赖特征。与AV-WaN等现有SOTA方法相比，其新意在于首次将选择性SSM（Mamba）作为AVN的骨干网络组件，并设计了专门处理音频和状态序列的变体。实验结果表明，在最具挑战性的“未见声源、未见场景”设置下，Samba在Matterport3D数据集上将导航成功率（SR）提升了11.3%（从56.7%到68.0%），在Replica数据集上提升了20.0%（从52.8%到72.8%），同时参数量略有下降。该工作的实际意义在于展示了现代序列建模架构对提升具身智能体感知与决策能力的潜力。主要局限在于：论文宣称的“范式转变”证据不足；关键训练细节（如超参数）大量缺失；且完全未公开代码和模型，导致其技术贡献的可复现性和影响力大打折扣。关键实验结果对比表（取自论文 Table I， Unheard Sound, Unseen Scene 条件） ...

From Continuous Deployment to Queryable Dataset: Terabyte-Scale AIS-Aligned Passive Acoustic Labelling

📄 From Continuous Deployment to Queryable Dataset: Terabyte-Scale AIS-Aligned Passive Acoustic Labelling 标签：#音频理解 #数据清洗 #数据集 #声源定位 #长音频处理 6.1/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 0.9/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.4/1.5 ✅ 6.1/10 | 前50% | 文档类型：系统技术报告 | 评分置信度：高 | #音频理解 | #数据清洗 | #数据集 #声源定位 | arxiv 👥 作者与机构第一作者：Wayne Renaud（达尔豪斯大学）通讯作者：未说明作者列表：Wayne Renaud（达尔豪斯大学）、Priyanka Aravindan（达尔豪斯大学）、Gabriel Spadon（达尔豪斯大学） 💡 毒舌点评亮点在于将数据库工程与被动声学监测深度结合，为TB级声学档案的关联查询和弱标签构建提供了可扩展的工业级解决方案，这比许多停留在小数据集的算法论文更贴近实际部署。短板同样明显：论文过于聚焦于系统构建和数据处理，却未能将其数据集与任何现有的声学检测/分类算法进行端到端的对比验证，使得这个精心构建的数据产品的实际机器学习价值尚停留在“可能性”而非“证明”阶段。 ...

Task-Oriented Sensing and Covert Transmissions for Collaborative Multi-AUV Systems

📄 Task-Oriented Sensing and Covert Transmissions for Collaborative Multi-AUV Systems 标签：#声源定位 #强化学习 #音频理解 #Transformer #模型评估 4.9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0.7/1.5 | 清晰 0.7/1 | 影响 0.2/1.5 | 开源 0/1.5 | 复现 0.1/0.5 | 工程 0.5/1.5 📝 4.9/10 | 后50% | 文档类型：方法研究 | 评分置信度：高 | #声源定位 | #Transformer | #强化学习 #音频理解 | arxiv 👥 作者与机构第一作者：Xueyao Zhang，西北工业大学计算机学院。通讯作者：未明确说明。论文作者列表末尾提供了所有作者的通讯邮箱，但未指定通讯作者。作者列表：Xueyao Zhang (西北工业大学计算机学院)、Chenyang Yan (西北工业大学计算机学院)、Bo Yang (西北工业大学计算机学院， guob@nwpu.edu.cn)、Xuelin Cao (西安电子科技大学网络空间安全学院)、Zhiwen Yu (西北工业大学计算机学院、哈尔滨工程大学)、Bin Guo (西北工业大学计算机学院)、George C. Alexandropoulos (雅典国立卡波季斯特里昂大学信息与电信系)、Mérouane Debbah (哈利法大学KU 6G研究中心、巴黎萨克雷大学中央理工学院)、Chau Yuen (南洋理工大学电气与电子工程学院)。 💡 毒舌点评一篇在框架设计上颇有想法的水下协作通信论文，但实验验证的深度和广度严重拖了后腿。它提出了一个将“信息价值”与物理通信现实（衰减、延迟、暴露风险）耦合的强化学习框架，概念新颖，击中了现有理想化MARL通信和链路级优化之间的关键痛点。然而，其说服力被一个过于简化的模拟案例研究和有限的对比基线所削弱。这就像设计了一台理论上能适应复杂地形的新型发动机，却只在自家后院的平坦沙地上跑了几圈，就宣称其越野性能卓越。代码、数据和训练细节的全面缺失，让这份“设计图”的价值大打折扣。 ...

语音/音乐/音频论文速递 2026-07-16

语音/音乐/音频论文速递 2026-07-16 共分析 20 篇论文 ⚡ 今日概览 📥 抓取 20 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音频理解 3篇 ███ #声源定位 2篇 ██ #音乐理解 2篇 ██ #音频分类 2篇 ██ #音频生成 2篇 ██ #语音情感识别 1篇 █ #语音翻译 1篇 █ #语音质量评估 1篇 █ 📊 论文评分排行榜（20 篇，按分数降序）排名论文总分分档文档类型主任务 🥇 AVSCap: Orchestrating Audio-Visual Synergy for Omni-mod 9.2分前10% 方法研究 #音视频理解 🥈 MetaPerch: Learning from metadata for bioacoustics foun 9.0分前10% 方法研究 #音频分类 🥉 Auditing Protocol-Level Shortcuts in Large Audio Langua 8.2分前25% 系统技术报告 #语音质量评估 4. Self-supervised Speech Comparison for L2 Phone, Rhythm, 7.7分前25% 方法研究 #音频理解 5. Efficient Text-to-Audio Generation via Pruning 7.6分前25% 方法研究 #音频生成 6. From Prediction to Collaboration: Interactive Symbolic 7.5分前25% 系统技术报告 #音乐理解 7. Live Gurbani Tracking: A Benchmark and Reference System 7.4分前50% 系统技术报告 #音频字幕生成 8. Music-to-Dance Generation via Atomic Movements 7.4分前50% 方法研究 #音乐生成 9. Improving Text-to-Audio Instruction Following via Fine- 7.2分前50% 方法研究 #音频生成 10. Cover First, Disagree Softly: Rethinking Mismatch-First 6.7分前50% 方法研究 #音频事件检测 11. Rethinking Speech Foundation Model Fine-tuning: Better 6.7分前50% 方法研究 #语音情感识别 12. VIP-MINGLE: A Corpus for Videoconference and In-Person 6.5分前50% 数据集与基准 #音频理解 13. A Hybrid Mamba for Audio-Visual Navigation 6.3分前50% 方法研究 #声源定位 14. Greedy Volume Maximization of Gradient Embeddings for L 6.3分前50% 方法研究 #音频分类 15. From Continuous Deployment to Queryable Dataset: Teraby 6.1分前50% 系统技术报告 #音频理解 16. Adapting a Diffusion-Based Music Synthesis Model to Hum 6.0分前50% 方法研究 #语音转换 17. Genre Bias or Aesthetic Perception? Identifying and Mit 6.0分前50% 方法研究 #音乐理解 18. Do LLMs Need Architectural Changes for Simultaneous Spe 5.7分前50% 方法研究 #语音翻译 19. Bring Music The Horizon: Music-Driven 360\(^\circ\) Video 5.3分后50% 系统技术报告 #音视频生成 20. Task-Oriented Sensing and Covert Transmissions for Coll 4.9分后50% 方法研究 #声源定位 📋 论文列表 🥇 AVSCap: Orchestrating Audio-Visual Synergy for Omni-modal Video Captioning 9.2/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 0.9/1 | 影响 1.2/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 1.5/1.5 ...

DOA Estimation from One-Bit Magnitude-Only Measurements via Sign-Consistency Optimization

📄 DOA Estimation from One-Bit Magnitude-Only Measurements via Sign-Consistency Optimization 标签：#声源定位 #鲁棒性 #音频理解 #模型评估 #Transformer 5.1/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.3/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.3/1.5 📝 5.1/10 | 后50% | 文档类型：方法研究 | 评分置信度：高 | #声源定位 | #Transformer | #鲁棒性 #音频理解 | arxiv 👥 作者与机构第一作者：Xicheng Lu (Queen Mary University of London, School of Electronic Engineering and Computer Science) 通讯作者：Wei Liu (The Hong Kong Polytechnic University, Department of Electrical and Electronic Engineering) 作者列表：Xicheng Lu (Queen Mary University of London), Wei Liu (The Hong Kong Polytechnic University), Akram Alomainy (Queen Mary University of London) 💡 毒舌点评亮点在于问题定义清晰且有实用价值，将低硬件成本（1-bit ADC）与对校准的鲁棒性（仅幅度）结合，填补了一个明确的研究空白。短板在于实验验证局限于仿真环境中的均匀圆阵（19传感器）和简单信号模型（\(K=3\)非相关窄带源），且算法依赖多次随机初始化的非凸优化，使得工程部署复杂度较高。论文声称"为低成本、无需校准的阵列系统提供了一种实用解决方案"，但在真实硬件上完全缺乏验证，这一claim显得过于大胆。 ...

Spatial-Frequency Cued Generative Fixed-Filter Active Noise Control Based on Deep Learning in Reverberant Environments

📄 Spatial-Frequency Cued Generative Fixed-Filter Active Noise Control Based on Deep Learning in Reverberant Environments 标签：#主动降噪 #声源定位 #多任务学习 #音频理解 #Transformer 6.9/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 0.5/1.5 ✅ 6.9/10 | 前50% | 文档类型：方法研究 | 评分置信度：高 | #声源定位 | #多任务学习 | #主动降噪 #音频理解 | arxiv 👥 作者与机构第一作者：Boxiang Wang（南洋理工大学电气与电子工程学院 Smart Nation TRANS Lab）通讯作者：未说明作者列表：Boxiang Wang（南洋理工大学电气与电子工程学院 Smart Nation TRANS Lab）、Haowen Li（西北工业大学智能声学与沉浸式通信中心）、Dongyuan Shi（西北工业大学智能声学与沉浸式通信中心）、Junwei Ji（西北工业大学智能声学与沉浸式通信中心）、Ziyi Yang（西北工业大学智能声学与沉浸式通信中心）、Zhengding Luo（西北工业大学智能声学与沉浸式通信中心）、Woon-Seng Gan（南洋理工大学电气与电子工程学院 Smart Nation TRANS Lab） 💡 毒舌点评论文抓住了传统GFANC忽略声源空间信息这一明确痛点，通过引入3D空间条件化和设计多任务CRNN，在模拟和实测中确实实现了更快的响应和更高的降噪量，其系统框架（离线库+在线双路）的工程思路清晰。然而，其核心价值高度依赖于“预定义网格点+离散分类”这一前提，当声源位置介于网格之间时，系统只能进行最近邻硬选择，空间维度上的连续适应性缺失。实验场景局限于单一、静止噪声源，对声源运动、多声源、设备布局变化等现实复杂性完全回避。0.5秒的帧处理延迟在ANC中已是显著的算法延迟，论文却以“delayless”为卖点，存在概念混淆。总体来看，这是一篇在受限场景下工程表现不错的方案，但离鲁棒、灵活的现实部署还有相当距离。 ...

语音/音乐/音频论文速递 2026-07-15

语音/音乐/音频论文速递 2026-07-15 共分析 25 篇论文 ⚡ 今日概览 📥 抓取 25 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音乐理解 3篇 ███ #声源定位 2篇 ██ #语音伪造检测 2篇 ██ #语音合成 2篇 ██ #语音增强 2篇 ██ #语音识别 2篇 ██ #说话人日志 2篇 ██ #音频事件检测 2篇 ██ 📊 论文评分排行榜（25 篇，按分数降序）排名论文总分分档文档类型主任务 🥇 ChartGenEval: Corruption-Tested Multi-Dimensional Feedb 8.8分前25% 方法研究 #音乐生成 🥈 Contrasting statistical patterns in melodic and molecul 8.7分前25% 方法研究 #音乐理解 🥉 Open-Source Intelligence and Music Information Retrieva 7.9分前25% 应用研究 #音乐理解 4. HSEmotion Team at the 11th ABAW Challenge: Multi-Task L 7.9分前25% 系统技术报告 #音视频 5. Low-Latency Neural Models for Real-Time Music Enhanceme 7.7分前25% 系统技术报告 #音乐源分离 6. Do We Really Need Multimodal Emotion Language Models La 7.4分前50% 方法研究 #语音情感识别 7. ZipL-Dialog: Memory-Efficient Long-Form Spoken Dialog S 7.3分前50% 系统技术报告 #语音合成 8. The Sound of Absence: Audio-Language Embedding Models S 7.1分前50% 系统技术报告 #音频检索 9. Real-time Generation of Listener Nodding via Prediction 6.9分前50% 方法研究 #语音交互 10. Spatial-Frequency Cued Generative Fixed-Filter Active N 6.9分前50% 方法研究 #声源定位 11. UD-ASD: A Unified Diffusion Model for Anomalous Sound D 6.6分前50% 方法研究 #音频事件检测 12. Investigating the Integration of Spatial Information in 6.6分前50% 方法研究 #说话人日志 13. Segregate, Refine, Integrate: Decomposing Multimodal Fu 6.5分前50% 方法研究 #音频事件检测 14. AutoSIFT: Automatic Style Sifting for Controllable Spee 6.5分前50% 方法研究 #语音合成 15. Listen first: Output-based multi-microphone speech enha 6.4分前50% 方法研究 #语音增强 16. Neural Morphing: Sequence-Optimized Token-Level Morphin 6.4分前50% 系统技术报告 #音频编码 17. Hybrid Continual Learning for Low-Resource Australian A 6.3分前50% 方法研究 #语音识别 18. Explainable-by-Design Audio Deepfake Detection via Wien 6.1分前50% 方法研究 #语音伪造检测 19. Traceback Translators Against Forgetting in Continual F 6.0分前50% 方法研究 #语音伪造检测 20. Automated Synthesis of Facial Mechanisms for Conversati 5.9分前50% 系统技术报告 #音频理解 21. PolarBM: Complex-valued Boltzmann Machine for Modeling 5.8分前50% 方法研究 #语音增强 22. Audio-Native Speech Recognition with a Frozen Discrete- 5.7分前50% 方法研究 #语音识别 23. What is a Musical Scale? Regularity and Convention in t 5.6分前50% 理论研究 #音乐理解 24. DOA Estimation from One-Bit Magnitude-Only Measurements 5.1分后50% 方法研究 #声源定位 25. Audio Diarization: A New Paradigm for Exploring Audio R 4.5分后50% 方法研究 #说话人日志 📋 论文列表 🥇 ChartGenEval: Corruption-Tested Multi-Dimensional Feedback for Rhythm-Game Chart Generation 8.8/10 | 创新 1.7/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 0.8/1 | 影响 0.6/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

Perceived Annoyance in Multi-source Electric Vehicle AVAS Environments

📄 Perceived Annoyance in Multi-source Electric Vehicle AVAS Environments 标签：#音频质量评估 #模型评估 #声源定位 #智能座舱 #音频理解 3.5/10 | 创新 0.8/2 | 严谨 0.8/1.5 | 实验 0.6/1.5 | 清晰 0.7/1 | 影响 0.3/1.5 | 开源 0/1.5 | 复现 0.1/0.5 | 工程 0.2/1.5 📝 3.5/10 | 后50% | 文档类型：应用研究 | 评分置信度：高 | #音频质量评估 | #模型评估 | #声源定位 #智能座舱 | arxiv 👥 作者与机构第一作者：Berkay Kullukcu（TU Dresden, Chair of Acoustics and Haptics）通讯作者：论文未明确标注通讯作者。四位作者均隶属于TU Dresden Chair of Acoustics and Haptics，所有作者均提供了邮箱地址（第一作者邮箱：berkay.kullukcu@tu-dresden.de）。作者列表：Berkay Kullukcu（TU Dresden, Chair of Acoustics and Haptics）、Jonas Krautwurm（TU Dresden, Chair of Acoustics and Haptics）、Serkan Atamer（TU Dresden, Chair of Acoustics and Haptics）、Ercan Altinsoy（TU Dresden, Chair of Acoustics and Haptics；Centre for Tactile Internet with Human-in-the-Loop (CeTI), TU Dresden；Research Cluster 6G-life, TU Dresden） 💡 毒舌点评论文聚焦于电动汽车AVAS多声源场景下的烦扰感知，将评估视角从"单个声音"转向"声学场景"，问题意识值得肯定。然而，这更像一个初步的探索性实验而非扎实的研究工作：10名受试者、3种AVAS声音、单一车速、2辆车的简化场景，难以支撑其核心结论的普适性。统计分析中的池化处理掩盖了不同声音组合和时间偏移的差异性，而结论"多声源场景更烦人"在心理学实验中并不令人意外。论文在讨论中援引了"信息掩蔽"和"听觉场景组织"理论作为解释机制，却未设计针对性实验加以验证，使得这些解释停留在推测层面。此外，研究未开源任何实验材料（刺激音频、场景配置、原始数据），严重限制了可复现性和后续研究的价值。 ...

Tight-Frame Reconstruction for Acoustic Intensity Estimation Using Cardioid Microphone Pairs

📄 Tight-Frame Reconstruction for Acoustic Intensity Estimation Using Cardioid Microphone Pairs 标签：#空间音频 #理论分析 #声源定位 #多通道 #鲁棒性 6.8/10 | 创新 1.1/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 0.9/1 | 影响 0.5/1.5 | 开源 1.5/1.5 | 复现 0.2/0.5 | 工程 0.2/1.5 ✅ 6.8/10 | 前50% | 文档类型：理论研究 | 评分置信度：中 | #声源定位 | #空间音频 | #理论分析 #多通道 | arxiv 👥 作者与机构第一作者：Akira Omoto 通讯作者：Akira Omoto（omoto@design.kyushu-u.ac.jp）作者列表：Akira Omoto（Kyushu University, Faculty of Design） 💡 毒舌点评论文的数学框架构建得相当优雅，球谐函数展开误差传播和有效泄漏指标 \(\Lambda(\omega)\) 的设计具有明确的物理可解释性，为声强测量阵列设计提供了一个有力的理论分析工具。然而，其致命的缺陷在于“闭环缺失”——整篇论文是一场精巧的理论推演与仿真游戏，完全没有用哪怕最简单的原型阵列进行实测验证。作者在结论中坦承原型制作“正在开发中”，但这无法掩盖结论可信度的根本性不足。在无任何真实硬件实验闭环的情况下，审稿人难以判断文中假设（如误差模型的线性分解、通道噪声不相关）在实际工程中的有效性，也无法评估该框架相对于成熟商用设备（基于P-P法）的真实性能增益。此外，工作高度聚焦于声强测量这一相对小众的声学测量领域，与当前音频/语音信号处理的主流机器学习范式毫无交集，其影响力天花板非常明显。 ...

语音/音乐/音频论文速递 2026-07-14

语音/音乐/音频论文速递 2026-07-14 共分析 53 篇论文 ⚡ 今日概览 📥 抓取 53 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 5篇 █████ #音乐生成 5篇 █████ #音频理解 5篇 █████ #音频生成 4篇 ████ #多模态模型 3篇 ███ #语音伪造检测 3篇 ███ #语音分离 3篇 ███ #语音质量评估 3篇 ███ 📊 论文评分排行榜（53 篇，按分数降序）排名论文总分分档文档类型主任务 🥇 Simple Features and Honest Calibration for Ambivalence 9.0分前10% 系统技术报告 #模型集成 🥈 PC-Mix: Partial-Component Audio Spoofing Detection unde 8.9分前25% 数据集与基准 #音频伪造检测 🥉 BeatEdit: Symbolic Music Generation as Explicit Editing 8.9分前25% 方法研究 #音乐生成 4. CHARM: Charge Calibration and Acoustic Rescue for LLM-b 8.8分前25% 方法研究 #提示学习 5. FdAudio: MeanFlow-Anchored Fréchet-Distance Post-Traini 8.6分前25% 方法研究 #音频生成 6. Evaluating SSL and ViViT Architectures for Cross-Corpus 8.3分前25% 系统技术报告 #语音质量评估 7. ECHOv2: Two-Level Band-Splitting Representation Learnin 8.2分前25% 方法研究 #音频事件检测 8. GigaAM Multilingual: Foundation Model for Underrepresen 8.1分前25% 系统技术报告 #语音识别 9. Evidence Subspace Projection: Measuring How Much Eviden 8.1分前25% 方法研究 #语音伪造检测 10. VoxENES 2026: Benchmarking Generalization of Speech Spo 8.1分前25% 数据集与基准 #语音伪造检测 11. WaveNet-Style Guitar Amplifier Model Pruning for Real-T 8.0分前25% 系统技术报告 #音频生成 12. TabPFN beyond Tabular Data: Calibration and Accuracy on 7.9分前25% 应用研究 #音频分类 13. ARIMA: Reconstruction-Grounded Predictive Representatio 7.7分前25% 方法研究 #自监督学习 14. Qwen-Audio-VAE Technical Report 7.7分前25% 系统技术报告 #音频编码 15. Local Multimodal Music Alignment from Global Supervisio 7.6分前25% 方法研究 #对比学习 16. MeloBottleneck: Self-Supervised Melody Skeleton Extract 7.5分前25% 方法研究 #音乐理解 17. Dance to Music Generation leveraging Pre-training with 7.5分前25% 方法研究 #音乐生成 18. GigaChat Audio: Time-aware Large Audio Language Model 7.4分前50% 系统技术报告 #音频理解 19. Difference-Driven Gating: Adaptive Feature Fusion for U 7.4分前50% 方法研究 #语音分离 20. BackgroundMellow: A Multi-Modal Cohesive Framework for 7.4分前50% 系统技术报告 #音频生成 21. Qwen-Music Technical Report 7.4分前50% 系统技术报告 #音乐生成 22. CoFi-Lite: Pushing the Limits of Ultra-Lightweight Spee 7.3分前50% 方法研究 #语音增强 23. MusicMark: A Robust Generative Watermarking Framework f 7.3分前50% 方法研究 #音频水印 24. Unified Gradient Projection: Language-Balanced Continua 7.2分前50% 方法研究 #语音识别 25. Data Augmentation for L2 English Speaking Assessment us 7.0分前50% 方法研究 #语音质量评估 26. A Production-Oriented Framework for Evaluation of SFX G 6.9分前50% 系统技术报告 #音频生成 27. Learn2Chat: Rethinking Dyadic Talking Heads via Interac 6.8分前50% 方法研究 #音视频生成 28. Tight-Frame Reconstruction for Acoustic Intensity Estim 6.8分前50% 理论研究 #声源定位 29. The SonicAGI System for the REAL-TSE Challenge 6.8分前50% 系统技术报告 #语音分离 30. Anysynth:Zero-Shot Instrument Cloning via In-Context Le 6.8分前50% 方法研究 #音乐生成 31. Where Speech Enhancement Hurts Recognition: An Inferenc 6.7分前50% 方法研究 #语音识别 32. Teaching Speech Enhancement Models to Sing: Domain Adap 6.7分前50% 方法研究 #音乐源分离 33. What You Train Is What You Get: Gender Bias, Training C 6.6分前50% 应用研究 #语音伪造检测 34. Listen to the Features: Voice Anonymization Driven by C 6.5分前50% 方法研究 #语音克隆 35. Efficiently Adapting Spoken Language Models for the Sin 6.5分前50% 系统技术报告 #语音交互 36. Which Languages Transfer Best to Warlpiri? A Similarity 6.5分前50% 应用研究 #语音识别 37. Encoder-Side Neuron Identification and Amplification fo 6.4分前50% 方法研究 #音频理解 38. Breaking the Quality–Intelligibility Trade-off in Stre 6.3分前50% 方法研究 #语音分离 39. An Objective Intelligibility Metric Evaluation on Spani 6.2分前50% 数据集与基准 #语音质量评估 40. Hearing Like Humans? Sound Symbolism and Perceptual Ali 6.1分前50% 方法研究 #多模态模型 41. Anamnesis: An Open-Source Platform for Large-Scale Back 6.1分前50% 系统技术报告 #提示学习 42. LOGOS: A Living Logic for AI Agent Teams That Evolve Wi 6.1分前50% 系统技术报告 #多模态模型 43. Verifier-Guided Twelve-Tone Composition: A Generate-Ver 6.0分前50% 系统技术报告 #音乐生成 44. MRUF: Multi-granularity Routing with Uncertainty-Aware 5.9分前50% 方法研究 #多模态模型 45. Omni-Decision: A Progressive Evidence-State Agent Syste 5.9分前50% 系统技术报告 #音频理解 46. Graph Representation of RaagBase: A Unique Dataset for 5.7分前50% 数据集与基准 #音乐理解 47. Synchronized Three-Dimensional Vocal-Tract Motion for S 5.7分前50% 系统技术报告 #语音合成 48. LightMem-Ego: Your AI Memory for Everyday Life 5.6分前50% 系统技术报告 #流式处理 49. Casting Everything to Online API Services? A Survey of 5.4分后50% 综述 #语音识别 50. A Closed-Form Noise-Sensitivity Asymmetry for Causal Br 5.3分后50% 理论研究 #音频理解 51. Semantic Sampling via Learnable Observation Front Ends 5.1分后50% 方法研究 #音频理解 52. Transcript-Free Lightweight Detection of Alzheimer’s Di 4.9分后50% 方法研究 #语音属性识别 53. Perceived Annoyance in Multi-source Electric Vehicle AV 3.5分后50% 应用研究 #音频质量评估 📋 论文列表 🥇 Simple Features and Honest Calibration for Ambivalence and Hesitancy Recognition in Video 9.0/10 | 创新 1.2/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 0.9/1 | 影响 0.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...