ICLR 2026 语音/音频论文详细分析

ICLR 2026 语音/音频论文详细分析 共分析 133 篇 ICLR 2026 论文 🎯 任务分类 点击任务标签查看该方向所有论文: 语音合成(10篇) 音频生成(9篇) 语音识别(9篇) 基准测试(9篇) 音乐生成(9篇) 语音对话系统(8篇) 音频分类(6篇) 音频问答(6篇) 语音情感识别(5篇) 多模态模型(5篇) 音视频(4篇) 音频检索(4篇) 语音分离(3篇) 模型评估(2篇) 语音翻译(2篇) 音乐信息检索(2篇) 生成模型(2篇) 音乐理解(2篇) 视频生成(2篇) 跨模态生成(1篇) 脑编码(1篇) 模型可解释性(1篇) 音视频深度伪造检测(1篇) 图像生成(1篇) 数据集(1篇) 语音增强 #对抗样本(1篇) 语音大模型(1篇) 音频编辑(1篇) 音视频事件检测(1篇) 生态计算(1篇) 视频描述生成(1篇) 视频摘要(1篇) 语音问答(1篇) 基准测试 #数据集(1篇) 音频安全(1篇) 神经网络架构(1篇) 语音转换 #语音匿名化(1篇) 声源定位(1篇) 序列解耦(1篇) 空间音频(1篇) 音频分离(1篇) 机器人操作(1篇) 动作生成(1篇) 音频场景理解(1篇) 跨模态检索(1篇) 语音增强(1篇) 多模态推理(1篇) 语音合成评估(1篇) 语音生成(1篇) 生物声学(1篇) 模型比较(1篇) 音视频联合推理(1篇) 语音识别 #语音合成(1篇) ⚡ 今日概览 📥 133 篇 → 🔬 深度分析完成 ...

2026-05-01 · 更新于 2026-07-03 · 72 min · 15177 words

Enhancing Acoustic-to-Articulatory Inversion with Multi-Target Pretraining for Low-Resource Settings

📄 Enhancing Acoustic-to-Articulatory Inversion with Multi-Target Pretraining for Low-Resource Settings #语音交互 #预训练 #多任务学习 #低资源 #迁移学习 #Transformer 7/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 1.1/1.5 ✅ 7/10 | 前50% | #语音交互 | #预训练 | #多任务学习 #低资源 | arxiv 👥 作者与机构 第一作者:Jesuraj Bandekar(印度科学学院电气工程系) 通讯作者:Prasanta Kumar Ghosh(印度科学学院电气工程系) 作者列表:Jesuraj Bandekar、Prasanta Kumar Ghosh(均来自印度科学学院电气工程系) 资助信息:本研究由印度科技部(Department of Science and Technology, DST)资助。 💡 毒舌点评 本文用一套组合式多任务预训练给低资源 AAI 打了针强心剂,用廉价的 MFCC 就敢叫板重量级 SSL 特征,工程实用性看似不错。但方法只是将已知预训练目标拼盘,却未深究多目标间的互补与冗余;消融止于最终性能的罗列,没有一丝表征层面的分析。仅抱紧 TERA 和单一数据集,就敢声称“高效替代”,说服力在审稿人看来仍需更多证据。 ...

2026-07-03 · 更新于 2026-07-03 · 6 min · 1175 words

语音/音乐/音频论文速递 2026-07-03

语音/音乐/音频论文速递 2026-07-03 共分析 31 篇论文 ⚡ 今日概览 📥 抓取 31 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音频分类 4篇 ████ #声源定位 4篇 ████ #语音识别 4篇 ████ #语音交互 3篇 ███ #语音合成 3篇 ███ #音视频理解 2篇 ██ #语音增强 2篇 ██ #音乐理解 1篇 █ 📊 论文评分排行榜(31 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Unlocking Speech-Text Compositional Powers: Instruction 8.5分 前25% #语音交互 🥈 Decomposer: Learning to Decompile Symbolic Music to Pro 8.4分 前25% #音乐理解 🥉 A global predicted-fMRI drive signal from TRIBE does no 7.7分 前25% #音视频理解 4. Cross Domain Few-Shot Class-Incremental Audio Classific 7.4分 前50% #音频分类 5. Self-Supervised Test-Time Tuning for Packet Loss Concea 7.4分 前50% #音频修复 6. Reasoning LLM Improves Speaker Recognition in Long-form 7.2分 前50% #音视频理解 7. SelectTSL: Prompt-Guided Selective Target Sound Localiz 7.1分 前50% #声源定位 8. Enhancing Acoustic-to-Articulatory Inversion with Multi 7.0分 前50% #语音交互 9. TurnNat: Automatic Evaluation of Turn-Taking Naturalnes 7.0分 前50% #语音交互 10. Audio-Based Understanding of Audiobook Narration Appeal 6.9分 前50% #语音属性识别 11. H-SAGE: Holistic Speaker-Aware Guided Experts for MoE-b 6.9分 前50% #语音识别 12. An Efficient vLLM-Based Inference Pipeline for Unified 6.8分 前50% #语音合成 13. Few-Shot Open-Set Audio Classification Using Attention 6.8分 前50% #音频分类 14. Beyond Words: Towards Effective Modeling of Non-Verbal 6.4分 前50% #语音识别 15. LMPAN: A Lightweight Multi-Path Alignment Network for J 6.2分 前50% #语音增强 16. NAVER LABS Europe Submission to the Instruction-followi 6.2分 前50% #语音翻译 17. Pmeta-TLA: Backdoor Attacks for Speech Classification M 6.0分 前50% #语音唤醒 18. Neural Audio Codec with Adjustable Token Temporal Resol 5.8分 前50% - 19. SPARCLE: SPeaker-aware Aligned Representations via Cont 5.8分 前50% #语音合成 20. Speaker head orientation estimation with a single micro 5.8分 前50% #声源定位 21. Towards a Phonology-Informed Evaluation of Multilingual 5.7分 前50% #语音质量评估 22. Rethinking Speech-LLM Integration for ASR: Effective Jo 5.6分 前50% #语音识别 23. RT-Tango: Real-Time Distributed Binaural Speech Enhance 5.5分 前50% #语音增强 24. Quantifying the Uncertainty of Blindly Estimated Room E 5.2分 后50% #音频检索 25. CNN Models for Microphone Array Covariance Matrix Upsam 5.0分 后50% #声源定位 26. A Multi-Branch Hierarchy-Aware Framework for Heterogene 4.9分 后50% #音频分类 27. From Monolingual to Multilingual: Evaluating Mamba for 4.8分 后50% #语音识别 28. DRL-CLBA: A Clean Label Backdoor Attack for Speech Clas 4.7分 后50% #音频分类 29. Spatial Speech Perception Systems: A Survey of Sound So 4.1分 后50% #声源定位 30. UT-AISTimprt submission for ICME 2026 Grand Challenge o 4.1分 后50% #音乐生成 31. Using embeddings to predict spoken word duration and pi 4.0分 后50% #语音合成 📋 论文列表 🥇 Unlocking Speech-Text Compositional Powers: Instruction-Following Speech Language Models without Instruction Tuning 8.5/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1.1/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5 ...

2026-07-03 · 更新于 2026-07-03 · 25 min · 5320 words

CodecSep: Prompt-Driven Universal Sound Separation on Neural Audio Codec Latents

📄 CodecSep: Prompt-Driven Universal Sound Separation on Neural Audio Codec Latents #Transformer #多任务学习 #多模态模型 7.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ✅ 7.7/10 | 前25% | 音频分离 | #Transformer | #多任务学习 #多模态模型 | arxiv 👥 作者与机构 作者:Adhiraj Banerjee, Vipul Arora 机构:印度理工学院坎普尔分校电气工程系 💡 毒舌点评 论文提出了一个想法清��的模型:利用已经训练好的音频压缩模型(DAC)的紧凑表示和一个强大的文本-音频对齐模型(CLAP)的文本特征,通过一个轻量级的Transformer掩码器实现高效的文本引导音频分离。这个思路在计算效率上确实取得了显著优势,尤其是在边缘部署场景下,GMACs大幅降低。然而,“首个”的宣称需要谨慎对待,因为 CodecFormer 等工作已经探索了NAC在分离中的应用,本文的核心是加入了文本引导。实验评估全面,覆盖了多个数据集和不同的提示粒度。主要问题在于:1) 代码和模型权重未开源,严重削弱了可复现性和社区验证的基础;2) 论文第3.3节关于“为什么NAC潜在空间更好”的讨论篇幅过长,部分内容(如与RVQ层级结构的关联)更像是推测而非由严格实验证明的因果结论;3) 核心结论“掩码优于生成”虽然得到表格3的支持,但对照组(CodecFormer)是固定类别分离模型,与文本引导设置不完全对等,使得比较的公平性稍打折扣。总体而言,这是一篇扎实的增量工作,解决了具体且重要的部署效率问题,但缺乏代码开源和更底层的理论分析。 📌 核心摘要 CodecSep是首个将神经音频编解码器(NAC)与文本引导相结合,用于通用音频源分离的模型。它通过将预训练的DAC作为编解码骨干,冻结其参数,并利用CLAP生成的文本嵌入,通过FiLM条件调制一个Transformer掩码器。掩码器在DAC编码的紧凑潜在空间上操作,预测源掩码,从而实现高效的分离。该方法在分离保真度(SI-SDR)上超越了AudioSep,同时保持了有竞争力的感知质量(ViSQOL),并将代码流部署下的计算成本降低了约54倍。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及。 数据集: dnr-v2 (Divide and Remaster v2.0):论文中提及该数据集的引用,但未提供具体下载链接。 AudioCaps:论文中提及该数据集的引用,但未提供具体下载链接。 ESC-50:论文中提及该数据集的引用,但未提供具体下载链接。 Clotho-v2:论文中提及该数据集的引用,但未提供具体下载链接。 AudioSet-eval:论文中提及该数据集的引用,但未提供具体下载链接。 VGGSound:论文中提及该数据集的引用,但未提供具体下载链接。 LibriSpeech, FMA (Free Music Archive), FSD50K:论文中提及作为dnr-v2的组成部分,但未提供具体下载链接。 Demo:论文中未提及。 复现材料:论文中未提及单独的复现材料包(如预训练检查点、完整训练配置文件等)。论文在第4.3节“训练”中详细描述了训练配置(如优化器、学习率、硬件环境等),但未提供可直接使用的材料链接。 论文中引用的开源项目: CLAP (Contrastive Language-Audio Pretraining):论文中引用,但未提供具体代码仓库链接。 DAC (Descript Audio Codec):论文中引用,但未提供具体代码仓库链接。 CodecFormer:论文中引用,但未提供具体代码仓库链接。 SDCodec:论文中引用,但未提供具体代码仓库链接。 AudioSep:论文中引用,但未提供具体代码仓库链接。 Torchprofile:用于计算MACs的工具,论文中提供了其GitHub链接:https://github.com/zhijian-liu/torchprofile。 TDANet:论文中引用,但未提供具体代码仓库链接。 DPTNet, SepFormer, Wave-UNet, Demucs, MM-DenseLSTM, DCCRN, Spleeter:论文中引用,但均未提供具体代码仓库链接。 🏗️ 方法概述和架构 CodecSep采用编码器-掩码器-解码器的架构,在DAC的潜在空间中进行操作。 ...

2026-06-26 · 更新于 2026-07-03 · 3 min · 477 words

语音/音乐/音频论文速递 2026-06-26

语音/音乐/音频论文速递 2026-06-26 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 3篇 ███ #语音质量评估 2篇 ██ #语音合成 2篇 ██ #扩散模型 1篇 █ 歌唱评估 1篇 █ 音频编解码 1篇 █ 音频事件检测 1篇 █ 音频分离 1篇 █ 📊 论文评分排行榜(21 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 DNSMOS-C: Improving End-to-end Speech Quality Models vi 9.3分 前50% #语音质量评估 🥈 UnityShots: Memory-Driven Multi-Shot Audio-Video Genera 8.9分 前25% #扩散模型 🥉 Listening Like a Judge: A Music-Aware Framework for Aut 8.8分 前25% 歌唱评估 4. Elastic Time: Dynamic Frame Rate Bottlenecks for Neural 8.3分 前50% 音频编解码 5. Soroll-IA: A Weakly Labeled Audio Dataset for Real-Worl 8.3分 前25% 音频事件检测 6. A Large-Scale Database and Predictive Model of Listener 8.1分 前25% #语音质量评估 7. SamaVaani: Auditing and Debiasing Multilingual Clinical 7.8分 前25% #语音识别 8. CodecSep: Prompt-Driven Universal Sound Separation on N 7.7分 前25% 音频分离 9. VoiceTTA: Enhancing Zero-Shot Text-to-Speech via Reinfo 7.6分 前50% #语音合成 10. What We are Missing in Multimodal LLM Evaluation? 7.0分 前50% - 11. RedVox: Safety and Fairness Gaps in Speech Models Acros 6.8分 前50% #基准测试 12. WQ-Fusion: Dynamic Gated Attention for Cross-Domain Aud 6.7分 前50% #音频分类 13. Thinking While Speaking: Inference-Time Knowledge Trans 6.7分 后50% #知识蒸馏 14. When Does Quality-Aware Multimodal Fusion Matter? A Lea 6.6分 前50% #语音情感识别 15. voxmap-studio: An open-source speaker diarization annot 6.5分 前50% #说话人日志 16. FBK's Long-form SpeechLLMs for IWSLT 2026 Instructi 6.5分 前50% #语音识别 17. wav2tok 2.0: Scalable Audio Tokenization Maintaining Ex 6.4分 前50% #语音检索 18. Generative AI and Copyright Infringement: A Legal-Techn 6.0分 前50% #音乐生成 19. Closing the Quality Gap in Low-Resource Text-to-Speech: 6.0分 后50% #语音合成 20. Neural Speaker Diarization via Multilingual Training: E 5.5分 前50% #语音分离 21. Low Resource Multimodal Translation of Nepali Spoken Wo 5.3分 后50% #语音识别 22 Phonetic and semantic analyses of spoken corpora of Bei N/A - - 📋 论文列表 🥇 DNSMOS-C: Improving End-to-end Speech Quality Models via Contrastive Learning 9.3/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

2026-06-26 · 更新于 2026-07-03 · 12 min · 2421 words

NeuroSonic: Conditional Flow Matching for EEG-to-Speech Reconstruction

📄 NeuroSonic: Conditional Flow Matching for EEG-to-Speech Reconstruction #条件流匹配 #Transformer #多模态模型 7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 7/10 | 前50% | #语音生成 | #条件流匹配 | #Transformer #多模态模型 | arxiv 👥 作者与机构 Wenhao Gao (Equal contribution), Stony Brook University Yifan Wang (Equal contribution), University of Texas Health Center at Houston Yijia Ma, Carl Yang, Wen Li, Chenyu You (Corresponding author), Emory University ...

2026-06-24 · 更新于 2026-07-03 · 3 min · 534 words

Progressive Alignment Objectives for Aligner-Encoder based ASR

📄 Progressive Alignment Objectives for Aligner-Encoder based ASR #语音识别 #Transformer 7.5/10 | 创新 1.7/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.5/10 | 前25% | #语音识别 | #Transformer | arxiv 👥 作者与机构 Jaeyoung Lee, Masato Mimura, Takafumi Moriya. 机构:NTT, Inc., Japan. 💡 毒舌点评 这篇工作切入了一个具体且实际的问题——Aligner-Encoder中对齐信息的“突然形成”导致训练不稳定和长语音性能下降。方法上,InterAligner和InterCTC的思路清晰,符合渐进式学习的直觉,消融实验也做得比较细致,能说明中间目标和损失权重的重要性。但问题在于,第一,贡献边界有些模糊,InterCTC本身是已有技术,本文的贡献在于将其引入并验证其在新框架下的有效性,以及提出InterAligner,但后者与多粒度/层级监督的区别需要更清晰的阐述。第二,实验虽然充分,但主要在两个英语数据集上进行,且与最强的外部基线(Stooke et al.)相比仍有差距,普适性有待验证。第三,完全不开源代码和模型,对于顶会论文而言是显著的扣分项,严重影响了可复现性和社区贡献。总的来说,是一篇扎实的、解决了特定痛点的系统改进工作,但创新幅度和影响力未达到最高水平。 📌 核心摘要 研究问题:针对Aligner-Encoder ASR模型中清晰的对齐信息在编码器高层突然形成,导致训练敏感、不稳定且在长语音上性能显著下降的问题。 核心方法:提出InterAligner,通过在模型中间层(如第15层)引入一个针对更长、更细粒度序列(BPE词汇量256)的辅助对齐损失,以及一个更早的中间CTC损失(InterCTC,第12层),鼓励对齐信息在模型深度上渐进式形成,从而构建一个从简单到复杂的对齐学习课程。 主要贡献:1) 将InterCTC引入Aligner-Encoder框架并验证其作为优化辅助的有效性;2) 提出InterAligner,这是一种新颖的中间对齐监督方法,通过更细粒度的目标来缓解“对齐瓶颈”;3) 通过系统的实验和分析,证明了所提方法在主流数据集上,尤其是长语音场景下的性能提升。 关键结果:在LibriSpeech test-clean/other上,WER从基线(仅最终对齐)的5.0/7.8%经InterCTC降至3.4/6.0%,再经InterAligner进一步降至3.1/5.6%。在CommonVoice test集上,WER从12.4%降至10.9%。性能提升在长语音(>21秒)上尤为显著,例如在test-clean上WER从23.4%降至11.6%。 实验设置:使用约1.18亿参数的17层Conformer-L编码器。在LibriSpeech 960h和CommonVoice 16.1英语数据集上进行评估。基线为Aligner-Encoder最终层对齐目标。InterCTC设置在第12层,InterAligner设置在第15层。使用BPE分词,最终目标词汇量1024,中间目标词汇量256。优化器采用标准Transformer预热/衰减策略,峰值学习率0.0020-0.0025,有效批大小约2小时音频。解码束宽为6。 局限性/未来工作:论文未明确量化增加中间头带来的额外计算开销(参数量、训练时间)。方法对中间层的选择(第15层)敏感,且需要在设计时预先确定。未来工作将研究该方法在流式和长上下文识别中的应用及其与语言模型的整合。 代码可用性:论文未提供代码、模型权重或训练脚本的链接。 训练细节:提供了详细的超参数配置,包括模型架构、训练轮数(LibriSpeech 100 epoch, CommonVoice 50 epoch)、检查点平均策略(前10个)、批大小、学习率调度(20k预热步)、CTC损失权重固定为0.1,以及InterAligner损失权重通过调优选择。论文声明使用了生成式AI工具辅助代码开发和论文编辑,但内容已由作者审核验证。 ...

2026-06-24 · 更新于 2026-07-03 · 1 min · 118 words

语音/音乐/音频论文速递 2026-06-24

语音/音乐/音频论文速递 2026-06-24 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 6篇 ██████ #语音增强 6篇 ██████ #语音合成 2篇 ██ #多模态模型 2篇 ██ #音乐生成 2篇 ██ #信号处理基础 2篇 ██ #音频深度伪造检测 1篇 █ #对比学习 1篇 █ 📊 论文评分排行榜(39 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 ZONOS2 Technical Report 10.0分 前25% #语音合成 🥈 Layer-wise Probing of wav2vec 2.0 and Whisper for Conso 9.5分 前50% #语音识别 🥉 CN-NewsTTS Bench: a target-level automatic benchmark fo 9.2分 前10% #语音合成 4. BanglaFake: Constructing and Evaluating a Specialized B 9.0分 后50% #音频深度伪造检测 5. Data Scale, Not Latency, Shapes Cross-Lingual Encoder T 9.0分 前25% #语音识别 6. Breaking Shortcut Learning for Cross-Trial EEG-Guided T 8.6分 前50% #对比学习 7. AVOC: Enhancing Hour-Level Audio-Video Understanding in 8.4分 前25% #多模态模型 8. SphereVBx: Spherical Variational Bayes Clustering for S 8.3分 前50% #无监督学习 9. ParaPairAudioBench: Paralinguistic Pairwise Audio Bench 8.2分 前50% #语音质量评估 10. video-SALMONN-R\(^3\): Learning to ReWatch, ReAsk, and Re 8.2分 前10% #多模态模型 11. Audio-visual Contrastive Alignment for Diffusion-based 8.1分 前25% #语音增强 12. Perceptual Evaluation of Higher-Order Ambisonic Codecs 8.0分 前50% #音频编码 13. DTT-BSR+: A Generative-Regression Cascade for Music Sou 8.0分 前25% #生成对抗网络 14. Heterogeneous 2D/1D Signal Representation Fusion for Un 7.6分 前50% - 15. Selective Capability Unlearning in End-to-End Spoken La 7.6分 前25% - 16. A Multi-Stage Separation-and-Classification Framework G 7.5分 前50% #音频分类 17. Progressive Alignment Objectives for Aligner-Encoder ba 7.5分 前25% #语音识别 18. Comparative Reasoning: Making an Audio Language Model B 7.5分 前25% #语音情感识别 19. VieSpeaker: A Large-Scale Vietnamese Speaker Recognitio 7.5分 前25% #说话人识别 20. Suppressing spectral edge effects in Schroeder Harmonic 7.3分 前50% #语音增强 21. Real-Time Interactive Music Generation via Data-Free St 7.1分 前50% #音乐生成 22. A Methodology for Characterizing Underwater Radiated No 7.0分 前50% #信号处理基础 23. A Fusion-Aware Two-Stage Framework for Mispronunciation 7.0分 前25% #语音识别 24. Neuromorphic Speech Enhancement with Dual-Branch Spikin 7.0分 前50% #语音增强 25. NeuroSonic: Conditional Flow Matching for EEG-to-Speech 7.0分 前50% #语音生成 26. The effect of micro-changes in the pluck trajectory on 6.8分 前50% #信号处理基础 27. Evaluation of Headrest-Integrated Loudspeakers for Enha 6.8分 前50% - 28. Statistical validation and full-sphere extension of a B 6.7分 前50% #音频质量评估 29. Beyond U-Net: A Latent-Representation-Aligned Skip-Free 6.6分 前50% #语音增强 30. Measuring User's Mental Models of Speech Translatio 6.6分 前50% #语音翻译 31. Audio–Image Alignment as a Continued-Pretraining Stage 6.2分 前50% #语音识别 32. Poster: Exploring the Limits of Audio-Based Detection o 6.2分 前50% - 33. Joint Learning of Covariance Estimation and White Noise 5.8分 前50% #语音增强 34. Sonus Health: Calibrated Heart-Murmur Detection from Sm 5.7分 前50% #音频事件检测 35. Autoencoder based optimized SSL representations: Comple 5.5分 前50% #语音识别 36. It's Complicated: On the Design and Evaluation of A 5.5分 前50% #大语言模型 37. Digital Revival: Acoustic Documentation and Digital Rea 5.3分 后50% #音乐生成 38. Aligning MusicLLM with Emotion using Instruction Tuning 4.9分 后50% #音乐情感识别 39. A Variational-Flow Analysis of StoRM under Noise-Power 4.4分 前50% #语音增强 📋 论文列表 🥇 ZONOS2 Technical Report 10.0/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

2026-06-24 · 更新于 2026-07-03 · 21 min · 4472 words

Hybrid Diffusion Transformer for Instruction-Guided Audio Editing via Rectified Flow

📄 Hybrid Diffusion Transformer for Instruction-Guided Audio Editing via Rectified Flow #Transformer #流匹配 #多模态模型 #模型压缩 7.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.6/10 | 前50% | #Transformer | #Transformer | #流匹配 #多模态模型 | arxiv 👥 作者与机构 Liting Gao, Yonggang Zhu, Yaru Chen, Dongyu Wang, Shubin Zhang, Zhenbo Li, Jean-Yves Guillemaut, Wenwu Wang* ...

2026-06-19 · 更新于 2026-07-03 · 4 min · 658 words

语音/音乐/音频论文速递 2026-06-19

语音/音乐/音频论文速递 2026-06-19 共分析 40 篇论文 ⚡ 今日概览 📥 抓取 40 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 10篇 ██████████ #语音识别 8篇 ████████ #语音转换 2篇 ██ #语音增强 2篇 ██ #自监督学习 2篇 ██ #说话人验证 1篇 █ #模型压缩 1篇 █ #多模态模型 1篇 █ 📊 论文评分排行榜(40 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 FlowEdit: Associative Memory for Lifelong Pronunciation 10.0分 前25% #语音合成 🥈 Low-Burden Data Augmentation for Dysarthric ASR via Zer 8.7分 前25% #语音识别 🥉 S-JEPA : Soft Clustering Anchors for Self-Supervised Sp 8.7分 前25% #语音识别 4. Personalized Keyword Spotting for User-Defined Keywords 8.6分 前25% #说话人验证 5. FlowFake: Liquid Networks for Audio Deepfake Detection 8.5分 前25% #模型压缩 6. Systematic Study of Dysarthric Speech Recognition: Spec 8.3分 前50% #语音识别 7. PerceptionDLM: Parallel Region Perception with Multimod 8.1分 前25% #多模态模型 8. RIVET: Robust Idempotent Voice Attribute Editing 8.0分 前50% #语音转换 9. Repurposing a Speech Classifier for Guided Diffusion-Ba 7.9分 前50% #语音合成 10. Exploring Feature Extraction Technique Parameters for A 7.9分 前50% #音频事件检测 11. Transcript-Free Flow-Matching Text-to-Speech via Speech 7.7分 前25% #语音合成 12. How Do Instructions Shape Speech? Cross-Attention Attri 7.7分 前50% #语音合成 13. Hybrid Diffusion Transformer for Instruction-Guided Aud 7.6分 前50% #Transformer 14. Improving Code-Switching ASR with Code-Mixing Guided Sy 7.6分 前25% #语音识别 15. PolSeT: Polish Semantics of Timbre Dataset 7.5分 后50% - 16. IHBench: Evaluating Post-Interruption Recovery in Voice 7.5分 前25% #语音对话系统 17. A Survey of Full-Duplex Spoken Dialogue Systems: Archit 7.4分 前50% #语音合成 18. PhysDrift: Bridging the Embodiment Gap in Humanoid Co-S 7.4分 前50% #语音合成 19. PrefSQA: Pairwise Preference Prediction for Speech Qual 7.3分 前50% #语音质量评估 20. Latency-Configurable Streaming Speech Enhancement via A 7.2分 前50% #语音增强 21. A Comparative Study of Pretrained Transformer Models fo 7.2分 前50% #语音识别 22. Pitch Spelling Jazz Lead Sheets, Solo Transcriptions, C 7.2分 前50% - 23. Stuttering Classification and Segmentation with Attenti 7.0分 前50% - 24. Time-Unconditional Generative Speech Enhancement via Au 7.0分 前25% #语音增强 25. Investigating Human-Model Discrepancies in Speech Quali 6.9分 前25% #语音合成 26. Prismriver: Formalization of Music Theory and Algorithm 6.9分 前50% - 27. NEST: Narrative Event Structures in Time for Long Video 6.8分 前50% - 28. Cross-Dataset, Age, and Gender Generalization: A Compre 6.7分 前50% #语音识别 29. Exploring Pre-training Benefits on Phoneme Addition thr 6.7分 前50% - 30. Analyzing Language and Geographical Variation in Speech 6.5分 前50% #语音识别 31. Improving End-to-End Speech Recognition for Dysarthric 6.5分 前50% #语音识别 32. Segment-Level Mandarin Chinese Speech-Based Cognitive I 6.5分 前50% #对比学习 33. Light-weight Pronunciation Assessment via Discrete Spee 6.4分 前50% #自监督学习 34. ReNikud: Audio-Supervised Hebrew Grapheme-to-Phoneme Co 6.2分 前50% #语音合成 35. Zero-VC: Zero-Lookahead Streaming Voice Conversion via 6.1分 前50% #语音转换 36. MixProLAP: Mixture-Induced Uncertainty Modeling for Pro 5.7分 前50% #音频检索 37. MaineCoon: Pursuing A Real-Time Audio-Visual Social Wor 5.7分 前50% #语音合成 38. Leveraging systems' non-linearity to tackle the sca 5.5分 后50% #数据增强 39. Interpreting Content and Speaker Characteristics in Fac 5.0分 后50% #语音合成 40. Beyond Speaker Independence: Evaluating Cross-Lingual A 4.9分 后50% #自监督学习 📋 论文列表 🥇 FlowEdit: Associative Memory for Lifelong Pronunciation Adaptation in Flow-Matching TTS 10.0/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-19 · 更新于 2026-07-03 · 23 min · 4844 words