论文速递 | 语音/音乐/音频论文速递

语音/音乐/音频论文速递 2026-06-16

语音/音乐/音频论文速递 2026-06-16 共分析 62 篇论文 ⚡ 今日概览 📥 抓取 62 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 9篇 █████████ #语音合成 6篇 ██████ #多模态模型 5篇 █████ #自监督学习 4篇 ████ #音频生成 3篇 ███ #生成模型 2篇 ██ #语音生成 2篇 ██ #音乐信息检索 2篇 ██ 📊 论文评分排行榜（62 篇，按分数降序）排名论文总分分档主任务 🥇 TuneJury: An Open Metric for Improving Music Generation 9.7分前25% #多模态模型 🥈 Acoustic, VOC, and Multimodal Stress Source Localizatio 9.7分前50% #声源定位 🥉 VoxWatermark: A Large-Scale Benchmark for Audio Waterma 9.4分前50% #鲁棒性 4. Phonetically Explainable Speech Deepfake Detection 9.0分前50% #语音伪造检测 5. FreeSonic: Training-Free Temporal-Aware Decoupled Atten 9.0分前25% #音频生成 6. MambAdapter: Lightweight Mamba-Based Adapters for Param 8.9分前25% #语音识别 7. XAI-Grounded Explanation Generation for Speech Deepfake 8.9分前25% #多模态模型 8. Unified Audio Generation and Editing via Joint Conditio 8.7分前25% #音频生成 9. AdaTT: Text-Guided Instrument Timbre Transfer with Targ 8.7分前25% #音频生成 10. DuraMark: Duration-Embedded Watermarking in LLM-based T 8.7分前25% #生成模型 11. When the Same Musical Knowledge Forgets Differently: A 8.6分前10% - 12. Probing Low Frame Rate Degradation in Neural Audio Code 8.6分前25% #语音生成 13. Rhythm of the Deep: A Computational-Linguistic Test of 8.5分前25% #自监督学习 14. Beyond Artifacts: Towards Generalizable Synthetic Song 8.4分前25% #音乐信息检索 15. Acoustic Prompting via Stage-wise Modulation for Few-Sh 8.3分前50% #音频分类 16. ArtNet: A JEPA-Like Articulatory Predictive Framework f 8.3分前50% #语音识别 17. MatchLM2Lite: A Scalable MLLM-to-Lite Framework for Rep 8.3分前25% #音频分类 18. Bridging the SEA Gap: An Initial Benchmark for Neural A 8.2分前25% #语音合成 19. An Empirical Study on Learning Latent Representations f 8.2分后50% #语音合成 20. From Physics to Representation: Audio Learning with Syn 8.2分前25% #自监督学习 21. An Asymmetric Formula for Interval Consonance and its R 8.0分前25% #音乐信息检索 22. Universal adaptive beamforming: A Bayesian approach 8.0分前50% #自适应滤波 23. Learning Input-Channel Permutation Equivariance for Mul 7.9分前50% #音乐源分离 24. Stabilizing Short Duration Speaker Verification through 7.9分前50% #说话人验证 25. AUDEDIT: Inversion-Free Text-Guided Editing with Pretra 7.8分前25% #生成模型 26. Interpretable and Frugal Learning Systems Employing Mul 7.8分前25% - 27. MuVAP: Multimodal Multiparty Voice Activity Projection 7.8分前25% #语音对话系统 28. Dynamic Prosody Prediction in LLM-based TTS for Improvi 7.6分前25% #语音合成 29. Scaling Human and G2P Supervision for Robust Phonetic T 7.6分前25% #语音识别 30. SPRI: SVD-Partitioned Residual Initialization for Data- 7.6分前25% #语音翻译 31. CraBERT: Efficient Phoneme Encoder Pre-Training via Cas 7.5分前50% #语音合成 32. Pixel-TTS: Image based Text Rendering for Robust Text-t 7.5分前50% #语音合成 33. AP-GRPO: Anchor-Gated Phonetic Alignment with Policy Op 7.4分前50% #语音识别 34. Spectro-Temporal Interference Confounds Phase Encoding 7.4分前50% #自监督学习 35. Teacher-Student Structure for Domain Adaptation in Ense 7.4分前50% #多模态模型 36. SciText2Eq: Assessing LLMs for Explainable Equation Gen 7.3分前50% #大语言模型 37. Confidence Score Guided Incremental and Speaker Adaptiv 7.2分前50% #语音识别 38. Geometrically Constrained Decentralized Independent Vec 7.2分前50% #语音分离 39. Dual-Granularity Orthogonal Disentanglement for General 7.2分前50% #课程学习 40. Data-Driven Decoding of Russell's Circumplex Model 7.2分前50% #语音情感识别 41. Connecting Speech to Words through Images 7.1分前50% #无监督学习 42. Bridging the Usability Gap: Lessons from Interpreting S 7.1分前50% #语音翻译 43. TMASC: Transmasculine Attitude and Speech Corpus 7.0分前50% - 44. MUNI: Multimodal Unified Latent Diffusion for Coherent 6.9分前50% #语音生成 45. Decoding while Adapting: Zero-Shot Online Speaker Adapt 6.8分前50% #语音识别 46. Joycent: Diffusion-based Accent TTS without Accented Ph 6.8分前50% #语音合成 47. Semi-Supervised Speech Confidence Detection using Pseud 6.8分前50% - 48. Robust Spoofed Speech Detection via Temporal Pyramid Mo 6.7分前50% #音频深度伪造检测 49. From Awareness to Adherence: Bridging the Context Gap i 6.7分前50% #语音识别 50. ArtBoost: Synthetic Articulatory Data Augmentation for 6.5分前50% #语音识别 51. DDPO-VC: Speaker De-Identification via Diffusion Denois 6.5分前50% #语音转换 52. NVMOS: Non-Verbal Vocalization Quality Assessment in Sp 6.2分前50% #自监督学习 53. Unifying Acoustic Features and Text with Multimodal LLM 6.2分前50% #多模态模型 54. ROMPAR: Morphological Completion and Demographic Unlear 6.2分前50% #语音识别 55. EChO-Agent: Evidence Chain Orchestration Agent for Audi 6.1分前50% #音频问答 56. Beyond Classification: A Cough Regression Benchmark for 6.0分前50% #音频事件检测 57. Towards Robust Generative Speech Enhancement Using Vect 5.9分前50% #语音增强 58. Fast When, Careful Who: Dual-Process Multiparty Turn-Ta 5.9分前50% #语音活动检测 59. MAF: Multimodal Adaptive Few-shot Prompting for Sentime 5.9分前50% #多模态模型 60. An auscultation location specific study on the relation 5.8分前50% - 61. Closed-Loop Triplet Synergistic Generation for Long-For 5.5分前50% - 62. LLM-Based Synthetic Ground Truth Generation for Audio-B 5.3分后50% #数据增强 📋 论文列表 🥇 TuneJury: An Open Metric for Improving Music Generation Preference Alignment 9.7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1.0/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.0/1.5 ...

A Deep Zero-Inflated Model of North Atlantic Right Whale Presence To Support Blue Economy Management in the U.S. East Coast

📄 A Deep Zero-Inflated Model of North Atlantic Right Whale Presence To Support Blue Economy Management in the U.S. East Coast #概率图模型 7.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 7.6/10 | 前50% | #概率图模型 | #概率图模型 | arxiv 👥 作者与机构 Jiaxiang Ji (罗格斯大学工业与系统工程系) Laura Nazzaro (罗格斯大学海洋与海岸科学系) Joshua Kohut (罗格斯大学海洋与海岸科学系) Ahmed Aziz Ezzat (罗格斯大学工业与系统工程系) ...

A Multi-Domain Feature Fusion Framework for Generalizable Deepfake Detection Across Different Generators

📄 A Multi-Domain Feature Fusion Framework for Generalizable Deepfake Detection Across Different Generators #多模态模型 #数据增强 7.4/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.4/10 | 前50% | #多模态模型 | #多任务学习 | #数据增强 | arxiv 👥 作者与机构第一作者：Amna Amjid，单位：国家科学技术大学（NUST），巴基斯坦。通讯作者：Sana Qadir，单位：国家科学技术大学（NUST），巴基斯坦。其他作者：Mehwish Fatima（同NUST），Raja Khurram Shahzad（密德瑞典大学及吕勒奥理工大学）。 💡 毒舌点评这篇论文的“多领域融合”听起来挺唬人，但实际上就是把RGB、梯度图和DWT小波系数三个东西拼接在一起，然后丢进一个现成的双路残差网络（DRN）里。这种“融合”缺乏任何新颖的交互或注意力机制，更像是工程上的简单叠加。论文最大的亮点是实验设置比较系统，把跨模型、跨范式、多源和真实世界测试都做了一遍，这值得肯定。但问题在于，所有实验结果都强烈暗示，在这个任务上，数据的多样性（多源训练）和标准的数据增强策略，比你那个“多领域特征融合”的设计本身贡献大得多。看看表VIII，用MIX_ALL加增强就从49%提到75.8%，而模型架构的改进从baseline DRN到SGFF-Net的提升幅度在跨模型测试中（表V）远没有这么明显。所以，这篇论文更像是一份详尽的深度伪造检测实验报告，而不是一个在方法论上有坚实贡献的工作。核心方法部分（III节）描述还算清晰，但理论深度几乎为零。最要命的是，摘要和结论中声称的“显著提升”需要更审慎地限定范围——在最具挑战性的真实世界泛化上，75.8%的准确率离实用还很远，而且这提升很大程度归功于训练数据策略，而非模型架构本身。 📌 核心摘要针对现有深度伪造检测方法（尤其是基于空间或单一频率域的方法）在面对扩散模型生成内容时泛化能力不足的问题，本文提出SGFF-Net（空间-梯度-频率融合网络）。该框架在一个双路残差网络（DRN）架构中，并行提取并融合图像的RGB空间特征、基于预训练ResNet-50的梯度特征以及基于离散小波变换（DWT）的频率特征。论文通过系统性的消融研究确定了DWT（尤其是Symlet小波族和反射边界模式）作为最优的频率表示方法，并验证了三路特征融合的必要性。实验评估涵盖五个场景：数据集内评估、跨模型评估、跨范式评估、多源评估和真实世界评估。结果表明，SGFF-Net在数据集内评估中达到98.95%的准确率。然而，在最具挑战性的跨范式（如用扩散模型训练测试GAN数据）和真实世界测试中，其性能仍显著下降（跨范式约70%，真实世界最高75.8%）。关键发现是，引入多源训练和标准数据增强策略，比单纯改进模型架构对提升泛化能力（尤其是跨模型和真实世界场景）的贡献更为显著。 🔗 开源详情代码：论文中声称代码在GitHub公开，但未提供具体仓库链接。模型权重：论文中未提及。数据集：论文中明确提到了三个公开数据集，其获取链接在论文中已给出： DeepFakeFace (DFF): https://github.com/OpenRL-Lab/DeepFakeFace Diffusion Face (DiffFace): https://github.com/Rapisurazurite/DiffFace Diverse Fake Face Dataset (DFFD): https://cvlab.cse.msu.edu/dffd-dataset.html Demo：论文中未提及。复现材料：论文中提供了详细的训练配置参数（如使用PyTorch框架、AdamW优化器、学习率、批大小、训练轮次等），但未提及是否提供检查点、完整训练脚本或数据预处理/划分脚本。论文中引用的开源项目：未提及除数据集外的其他第三方开源项目。标签 #多模态模型 #数据增强 #领域自适应主任务标签：#图像生成主方法标签：#多任务学习补充标签：#数据增强 #领域自适应 ...

AudioDER: A Deduplication-Enhanced Reasoning Dataset for Post-Training Large Audio-Language Models

📄 AudioDER: A Deduplication-Enhanced Reasoning Dataset for Post-Training Large Audio-Language Models #音频问答 #大语言模型 7.3/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.3/10 | 前50% | #音频问答 | #大语言模型 | arxiv 👥 作者与机构作者：Hui Geng, Yi Su, Han Yin, Tianjiao Wan, Qisheng Xu, Jiaxin Chen, Zijian Gao, Xie Chen, Hengzhu Liu, Kele Xu 机构：国防科技大学计算机学院（Hui Geng, Yi Su, Tianjiao Wan, Qisheng Xu, Jiaxin Chen, Zijian Gao, Hengzhu Liu, Kele Xu）；韩国科学技术院（KAIST）（Han Yin）；上海交通大学（Xie Chen） ...

BayLing-Duplex: Native Full-Duplex Speech Dialogue with a Single Autoregressive LLM

📄 BayLing-Duplex: Native Full-Duplex Speech Dialogue with a Single Autoregressive LLM #语音合成 #语音识别 #自回归模型 9/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 🔥 9/10 | 前10% | #语音合成 | #语音识别 | #自回归模型 | arxiv 👥 作者与机构论文有三位作者：Qingkai Fang、Shoutao Guo、Yang Feng。他们都隶属于中国科学院计算技术研究所（ICT/CAS）的智能信息处理重点实验室、中国科学院AI安全重点实验室以及中国科学院大学。 💡 毒舌点评这篇论文在“如何让LLM学会实时对话”这个问题上给出了一个相当聪明的答案。它没有像Moshi那样另起炉灶搞一套复杂的双流并行架构，而是巧妙地在现有的单工LLM（GLM-4-Voice）上“打补丁”——通过精心设计的多通道交错序列和四个特殊令牌，把“什么时候该说话、什么时候该闭嘴、什么时候该被打断”这些复杂决策，统统变成了LLM最擅长的“下一个词预测”游戏。这个想法非常优雅，工程上也极其友好，40万样本微调就能从单工变全双工，成本控制堪称典范。实验结果也足够亮眼，尤其是在轮流和打断的成功率上碾压了Moshi，证明了“内化决策”的有效性。然而，它的软肋也很明显：所有实验都在干净、无噪、单人的合成语音上进行，这就像在无菌实验室里测试越野车，真正开上马路（复杂现实环境）表现如何，谁也不知道。此外，0.8秒的固有延迟虽然被提及，但分析深度不足，对于追求极致响应速度的应用来说，这可能是一个硬伤。总体而言，这是一篇工程思维出色、架构设计巧妙的工作，但其宣称的“原生全双工”能力，还需要在更“脏”的真实世界数据中经受考验。 📌 核心摘要本文提出了BayLing-Duplex，一个基于单一自回归大语言模型（LLM）的原生全双工语音对话系统。该系统通过一种创新的多通道交错序列布局，将用户语音、助手文本和助手语音三个流以固定块大小交错组织，并引入[SILENCE]、[ASSISTANT]、[PAD]、[EPAD]四个对话状态特殊令牌。这一设计将全双工对话中的轮流说话和打断决策，完全转化为标准LLM的下一个令牌预测任务，无需任何额外的分类头、状态机或外部语音活动检测（VAD）模块。模型以GLM-4-Voice为骨干，仅通过在40万全双工合成样本上进行有监督微调（SFT）和直接偏好优化（DPO）两阶段训练，便实现了从单工到全双工的能力转换。实验表明，BayLing-Duplex在轮流说话成功率（92.0%）和打断成功率（100%）上大幅超越了基线模型Moshi，并在语音问答等任务上保持了与单工版本相当或更优的性能，验证了全双工建模并未以牺牲回复质量为代价。 🔗 开源详情代码：https://github.com/BayLing-Models/BayLing-Duplex 模型权重：论文中未直接提供独立的模型权重下载链接，但根据摘要中的信息，代码和模型已发布于上述GitHub仓库。模型基于GLM-4-Voice检查点训练。数据集：论文中描述的数据集为基于Alpaca和UltraChat数据集，通过Llama-3.3-70B-Instruct改写并使用CosyVoice合成的多轮对话语音语料，后被转换为全双工格式。原始合成数据集的获取链接论文中未提及。 Demo：论文中未提及。复现材料：论文中提供了详细的训练配置。SFT阶段：在400K全双工样本上训练1个epoch，批量大小32，峰值学习率1e-5，使用带10%预热的余弦学习率调度。DPO阶段：训练200步，峰值学习率3e-7，β=0.5，λ_ftx=0.5，使用带5%预热的余弦学习率调度。训练代码基于LLaMA-Factory。但检查点文件的具体下载链接论文中未提及。论文中引用的开源项目： GLM-4-Voice: https://github.com/THUDM/GLM-4-Voice Whisper-large-v3: https://github.com/openai/whisper CosyVoice: https://github.com/FunAudioLLM/CosyVoice LLaMA-Factory: https://github.com/hiyouga/LLaMA-Factory 🏗️ 方法概述和架构 BayLing-Duplex的核心架构是在已有的GLM-4-Voice单工语音LLM基础上，通过设计一种新颖的序列布局来赋予其全双工能力，而不引入新的网络模块。 ...

Beyond task performance: Decoding bioacoustic embeddings with speech features

📄 Beyond task performance: Decoding bioacoustic embeddings with speech features 7.1/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 0.8/1 | 影响 0.7/1.5 | 开源 0.7/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.1/10 | 前50% | arxiv 👥 作者与机构作者：Ines Nolasco, Jules Cauzinille, Marius Miron, Gagan Narula, Milad Alizadeh, Emmanuel Fernandez, Matthieu Geist, Ellen Gilsenan-McMahon, Olivier Pietquin, Emmanuel Chemla, Sara Keen 机构：Earth Species Project 💡 毒舌点评这篇论文的立意很好，想给黑箱的生物声学嵌入模型做个“CT扫描”，看看里面到底编码了哪些声学特征。方法上使用线性/非线性探针搭配NMI，思路清晰。但有几个关键弱点让它无法达到顶会水准：第一，验证特征相关性的因果关系薄弱。NMI衡量的是特征与标签的统计相关性，但模型到底是不是“依靠”这些特征来做分类，论文并没有通过特征重要性分析（如SHAP、注意力图）来证实，存在过度解读的风险。第二，选择eGeMAPS作为“真理”特征集是一个强假设，且作者自己也承认了这一点，但缺乏对其他特征集（如专门的生物声学特征）的对比实验来验证结论的稳健性。第三，关于时间动态的缺失，作者仅作为局限性提及，但未在方法设计上做任何弥补（如尝试分帧探针），使得关于F0等时变特征难解码的结论打了折扣。第四，论文声称“超越任务性能”，但最终未能将特征层面的发现与下游任务性能的提升建立定量关联，使得框架的实用性声明略显空洞。实验结果丰富（多个模型、数据集、特征），但部分结论（如“互补性”）的深度挖掘不足。总的来说，是一篇扎实的工作，但距离深刻改变领域认知还有一步之遥。 ...

Efficiency-Performance Trade-offs in Neural Speaker Diarization via Structured Pruning and Low-Bit Quantization

📄 Efficiency-Performance Trade-offs in Neural Speaker Diarization via Structured Pruning and Low-Bit Quantization #说话人日志 #模型压缩 #流式处理 5.1/10 | 创新 0.5/2 | 严谨 0.9/1.5 | 实验 1.1/1.5 | 清晰 0.9/1 | 影响 0.5/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.4/1.5 📝 5.1/10 | 后50% | #说话人日志 | #模型压缩 | #流式处理 | arxiv 👥 作者与机构 Rishit Chatterjee, Tahiya Chowdhury Department of Computer Science, Colby College, Waterville, Maine, United States 💡 毒舌点评这篇文章就像一份详尽的“产品规格说明书”，而不是一篇提出新思想的科研论文。它非常诚实地告诉你：“别指望剪枝或量化能让你的端到端系统跑得更快，模型小了，但整体速度几乎没变。” 这对于幻想“一键压缩加速”的工程人员来说是一盆冷水，但其价值也仅限于此。论文的贡献在于系统地验证了一个略显悲观的工程现实：在成熟的复杂流水线中，单一组件的优化（分割模型）对端到端性能的提升存在瓶颈。这种“发现”虽然实用，但缺乏学术上的兴奋点。更关键的是，所有结论都基于一个非常特定的、模拟的、仅有两个说话人的数据集（SIMSAMU）和一个固定的BiLSTM管道，其结论的普适性大打折扣。说白了，它是在一个自己搭建的、条件受限的沙盒里做了一套完整的性能测试，然后给出了一个谨慎的结论。作为顶会论文，其技术深度和影响力都显得不足。 ...

Explainable and Trustworthy Speech Emotion Recognition Using Confidence Score and Reinforcement Learning Rectified Speech Emotion Descriptors

📄 Explainable and Trustworthy Speech Emotion Recognition Using Confidence Score and Reinforcement Learning Rectified Speech Emotion Descriptors #语音情感识别 #强化学习 7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7/10 | 前50% | #语音情感识别 | #强化学习 | arxiv 👥 作者与机构 1 The Chinese University of Hong Kong, Hong Kong SAR, China 2 Institute of Software, Chinese Academy of Sciences, China 3 National Research Council Canada, Canada 4 Tsinghua University, China 作者：Youjun Chen, Xurong Li, Mengzhe Geng, Zengrui Jin, Jiajun Deng, Guinan Li, Shujie Hu, Huimeng Wang, Haoning Xu, Chengxi Deng, Bowen Zhang, Xunying Liu ...

FAConformer: Frequency-Aware Convolutional Transformer for Auditory Attention Decoding

📄 FAConformer: Frequency-Aware Convolutional Transformer for Auditory Attention Decoding #Transformer 7.5/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1.3/1 | 影响 0.8/1.5 | 开源 0.4/1.5 | 复现 0.5/0.5 | 工程 0.4/1.5 ✅ 7.5/10 | 前25% | #Transformer | #Transformer | arxiv 👥 作者与机构作者：Ziwei Wang, Xingyi He, Tianwang Jia, Hongbin Wang, and Dongrui Wu。机构：华中科技大学人工智能与自动化学院，脑启发智能系统湖北省重点实验室。 💡 毒舌点评论文在实验上做得扎实，对比了足够多的基线，消融实验和可视化分析也挺充分。但核心创新点——把多个频带的编码器独立开再做个注意力融合——感觉更像是工程上的巧妙组合，而非对AAD问题机理的突破。那个带级辅助监督（BAS）倒是个不错的小技巧，能防止某些分支“躺平”，但算不上革命性。最大的软肋在于，整个架构复杂度（8个并行分支、额外的FAA模块）换来那几个点的提升，在实时性要求高的脑机接口场景里是否真有实用价值，得打个问号。另外，所有实验都只在经典的、被用烂了的双说话人数据集上跑，结论的泛化能力存疑。审稿人最烦看到在“温室环境”里刷点然后大谈意义的工作。 📌 核心摘要本文针对听觉注意力解码（AAD）任务中现有模型对EEG频域信息利用不充分的问题，提出了FAConformer框架。该框架包含三个核心组件：1）多频带分解；2）带内独立编码器（WBE），为每个频带分配独立的CNN-Transformer编码器；3）频率感知注意力（FAA）模块与带级辅助监督（BAS）。FAA将各频带的特征视为序列化的“频带标记”，通过Transformer建模跨频带依赖并进行自适应融合。BAS在训练时为每个频带分支提供独立的分类监督，防止分支优化不足。在DTU和KUL两个公开AAD数据集、三种决策窗口长度下的实验表明，FAConformer在所有设置下均显著优于12种基线模型。消融研究、注意力可视化和特征分布分析进一步验证了各组件的有效性和模型的可解释性。 🔗 开源详情代码：https://github.com/wzwvv/FAConformer （论文提供链接，实际开源状态需验证）模型权重：论文中未提及提供预训练模型权重。数据集：论文使用了两个公开数据集：DTU和KUL。论文未提供直接下载链接，但明确指出了数据集的名称和出处。 Demo：论文中未提及。复现材料：论文提供了详细的算法伪代码（Algorithm 1）和完整的参数设置（例如：批量大小32，最大训练轮数200，早停耐心10，学习率 \(5 \times 10^{-4}\)，权重衰减 \(3 \times 10^{-4}\)，损失权衡 \(\lambda=1\)），但未提及是否提供详细的训练配置文件（如config.yaml）或预训练检查点。论文中引用的开源项目： FAConformer: https://github.com/wzwvv/FAConformer 其余在基线模型中提到的项目（如 EEGNet、SCNN、IFNet 等）论文中未提供具体的代码链接。 🏗️ 方法概述和架构 FAConformer是一个用于AAD的频率感知CNN-Transformer混合框架，其核心设计理念是“先分频带独立建模，再自适应融合”。整体架构（如论文图2所示）可分为三个阶段： ...

FoleyGenEx: Unified Video-to-Audio Generation with Multi-Modal Control, Temporal Alignment, and Semantic Precision

📄 FoleyGenEx: Unified Video-to-Audio Generation with Multi-Modal Control, Temporal Alignment, and Semantic Precision #语音合成 #多模态模型 #扩散模型 #数据增强 7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7/10 | 前50% | #语音合成 | #数据增强 | #多模态模型 #扩散模型 | arxiv 👥 作者与机构作者：Shiyao Wang, Xijuan Zeng, Hui Wang, Shiwan Zhao, Feng Deng, Chen Zhang, Yong Qin。机构：南开大学先进交叉科学研究院，快手科技。论文注明工作于王诗瑶在快手科技实习期间完成。 ...