参数高效微调

video-SALMONN-R: Learning to ReWatch, ReAsk, and ReAnswer for Efficient Video Understanding

📄 video-SALMONN-R\(^3\): Learning to ReWatch, ReAsk, and ReAnswer for Efficient Video Understanding #多模态模型 #强化学习 #参数高效微调 8.2/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.2/10 | 前10% | #多模态模型 | #强化学习 | #参数高效微调 | arxiv 👥 作者与机构一作：Yixuan Li (清华大学 liyixuan25@mails.tsinghua.edu.cn)；通讯作者：Chao Zhang (清华大学 czhang1@tsinghua.edu.cn)；其他作者：Guangzhi Sun (剑桥大学)， Yudong Yang (清华大学)， Wei Li (字节跳动)， Zejun Ma (字节跳动)。机构包括清华大学、字节跳动和剑桥大学。 💡 毒舌点评这篇论文抓住了“视频LLM推理时算力分配不均”这个痛点，提出了一个“先粗后精”的重看范式，核心卖点是跳过了昂贵且可能有害的“链式思维”冷启动，直接通过强化学习（RL）从指令微调基座模型上训练重看策略，这确实是个讨巧且有效的工程思路。重答和重问两个机制设计简单但作用关键，实验也充分证明了其有效性。不过，论文的“首提”声称需要谨慎看待，相关工作已很丰富。整体看是一篇扎实、工程优化到位的工作，但理论新颖性有提升空间，且其成功严重依赖高质量的基座模型和精心设计的奖励函数。 ...

语音/音乐/音频论文速递 2026-06-24

语音/音乐/音频论文速递 2026-06-24 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 6篇 ██████ #语音增强 6篇 ██████ #语音合成 2篇 ██ #多模态模型 2篇 ██ #音乐生成 2篇 ██ #信号处理基础 2篇 ██ #音频深度伪造检测 1篇 █ #对比学习 1篇 █ 📊 论文评分排行榜（39 篇，按分数降序）排名论文总分分档主任务 🥇 ZONOS2 Technical Report 10.0分前25% #语音合成 🥈 Layer-wise Probing of wav2vec 2.0 and Whisper for Conso 9.5分前50% #语音识别 🥉 CN-NewsTTS Bench: a target-level automatic benchmark fo 9.2分前10% #语音合成 4. BanglaFake: Constructing and Evaluating a Specialized B 9.0分后50% #音频深度伪造检测 5. Data Scale, Not Latency, Shapes Cross-Lingual Encoder T 9.0分前25% #语音识别 6. Breaking Shortcut Learning for Cross-Trial EEG-Guided T 8.6分前50% #对比学习 7. AVOC: Enhancing Hour-Level Audio-Video Understanding in 8.4分前25% #多模态模型 8. SphereVBx: Spherical Variational Bayes Clustering for S 8.3分前50% #无监督学习 9. ParaPairAudioBench: Paralinguistic Pairwise Audio Bench 8.2分前50% #语音质量评估 10. video-SALMONN-R\(^3\): Learning to ReWatch, ReAsk, and Re 8.2分前10% #多模态模型 11. Audio-visual Contrastive Alignment for Diffusion-based 8.1分前25% #语音增强 12. Perceptual Evaluation of Higher-Order Ambisonic Codecs 8.0分前50% #音频编码 13. DTT-BSR+: A Generative-Regression Cascade for Music Sou 8.0分前25% #生成对抗网络 14. Heterogeneous 2D/1D Signal Representation Fusion for Un 7.6分前50% - 15. Selective Capability Unlearning in End-to-End Spoken La 7.6分前25% - 16. A Multi-Stage Separation-and-Classification Framework G 7.5分前50% #音频分类 17. Progressive Alignment Objectives for Aligner-Encoder ba 7.5分前25% #语音识别 18. Comparative Reasoning: Making an Audio Language Model B 7.5分前25% #语音情感识别 19. VieSpeaker: A Large-Scale Vietnamese Speaker Recognitio 7.5分前25% #说话人识别 20. Suppressing spectral edge effects in Schroeder Harmonic 7.3分前50% #语音增强 21. Real-Time Interactive Music Generation via Data-Free St 7.1分前50% #音乐生成 22. A Methodology for Characterizing Underwater Radiated No 7.0分前50% #信号处理基础 23. A Fusion-Aware Two-Stage Framework for Mispronunciation 7.0分前25% #语音识别 24. Neuromorphic Speech Enhancement with Dual-Branch Spikin 7.0分前50% #语音增强 25. NeuroSonic: Conditional Flow Matching for EEG-to-Speech 7.0分前50% #语音生成 26. The effect of micro-changes in the pluck trajectory on 6.8分前50% #信号处理基础 27. Evaluation of Headrest-Integrated Loudspeakers for Enha 6.8分前50% - 28. Statistical validation and full-sphere extension of a B 6.7分前50% #音频质量评估 29. Beyond U-Net: A Latent-Representation-Aligned Skip-Free 6.6分前50% #语音增强 30. Measuring User's Mental Models of Speech Translatio 6.6分前50% #语音翻译 31. Audio–Image Alignment as a Continued-Pretraining Stage 6.2分前50% #语音识别 32. Poster: Exploring the Limits of Audio-Based Detection o 6.2分前50% - 33. Joint Learning of Covariance Estimation and White Noise 5.8分前50% #语音增强 34. Sonus Health: Calibrated Heart-Murmur Detection from Sm 5.7分前50% #音频事件检测 35. Autoencoder based optimized SSL representations: Comple 5.5分前50% #语音识别 36. It's Complicated: On the Design and Evaluation of A 5.5分前50% #大语言模型 37. Digital Revival: Acoustic Documentation and Digital Rea 5.3分后50% #音乐生成 38. Aligning MusicLLM with Emotion using Instruction Tuning 4.9分后50% #音乐情感识别 39. A Variational-Flow Analysis of StoRM under Noise-Power 4.4分前50% #语音增强 📋 论文列表 🥇 ZONOS2 Technical Report 10.0/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

Adding Robust Code-Switching Capabilities to High Performance Multilingual ASR

📄 Adding Robust Code-Switching Capabilities to High Performance Multilingual ASR #语音识别 #语音合成 #参数高效微调 #低资源 7/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.9/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7/10 | 前50% | #语音识别 | #参数高效微调 | #语音合成 #低资源 | arxiv 👥 作者与机构 Enes Yavuz Ugan¹², Alexander Waibel¹² ¹Interactive Systems Lab, Karlsruhe Institute of Technology (KIT), Germany ²InterACT, Carnegie Mellon University (CMU), USA ...

ESPnet3: Infrastructure for Scalable Speech and Audio Research in the Foundation Model Era

📄 ESPnet3: Infrastructure for Scalable Speech and Audio Research in the Foundation Model Era #语音识别 #语音合成 #语音增强 #说话人识别 #语音翻译 #语音分离 #语音编码 #自监督学习 #数据增强 #参数高效微调 #迁移学习 7.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.5/10 | 前25% | #语音识别 | #自监督学习 | #语音合成 #语音增强 | arxiv 👥 作者与机构 Masao Someki (Carnegie Mellon University, Pittsburgh, USA) Alexander Polok (Brno University of Technology, Brno, Czechia) Carlos Carvalho (Instituto Superior Técnico, Lisbon, Portugal) Chyi-Jiunn Lin (Hanyang University, Seoul, South Korea) Da-Hee Yang (Hitachi Astemo, Tokyo, Japan) Jiatong Shi (Shanghai Jiao Tong University, Shanghai, China) Jinchuan Tian (Carnegie Mellon University, Pittsburgh, USA) Nelson Enrique Yalta Soplin (Carnegie Mellon University, Pittsburgh, USA) Samuele Cornell (Carnegie Mellon University, Pittsburgh, USA) Siddhant Arora (Carnegie Mellon University, Pittsburgh, USA) Francisco Teixeira (Instituto Superior Técnico, Lisbon, Portugal) Wei Wang (Shanghai Jiao Tong University, Shanghai, China) William Chen (Carnegie Mellon University, Pittsburgh, USA) Alberto Abad (Instituto Superior Técnico, Lisbon, Portugal) Chenda Li (Carnegie Mellon University, Pittsburgh, USA) Shinji Watanabe (Carnegie Mellon University, Pittsburgh, USA) Wangyou Zhang (Shanghai Jiao Tong University, Shanghai, China) ...

Gradient-Based Learning of Parametric Engine Sound Representations for Real-Time Resynthesis and Tuning on Embedded Systems

📄 Gradient-Based Learning of Parametric Engine Sound Representations for Real-Time Resynthesis and Tuning on Embedded Systems #参数高效微调 #正则化微调 7.8/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 1.4/1.5 ✅ 7.8/10 | 前50% | #参数高效微调 | #参数高效微调 | #正则化微调 | arxiv 👥 作者与机构作者：Robin Doerfler, Matthieu Kuntz, Clemens Zimmer。机构：未在论文中明确提及。 💡 毒舌点评一篇典型的、完成度很高的工程应用论文。它解决了一个具体且重要的工业界痛点——如何让引擎声音的参数化建模既逼真又能在低算力硬件上实时跑起来。作者没有发明新的“轮子”，而是很聪明地把深度学习的预训练能力、可微分合成的优化便利性，以及传统DSP的部署需求拧成了一股绳。方法直接、有效，实验也围绕着核心目标（保真度、可调性、可部署性）来设计，结果令人信服。然而，从顶会审稿人的视角看，其科学创新性相对有限，更多是系统层面的巧妙整合与工程优化。核心贡献是“把学习到的参数直接映射回传统查找表”，这一思路虽然实用，但在方法论上的突破性不足。对于追求新范式或理论深度的读者，可能会觉得不够“性感”。 📌 核心摘要针对汽车声音设计中的引擎阶次增强任务，传统方法在分离谐波与噪声、处理RPM-扭矩二维参数歧义性上存在困难。本文提出“引擎阶次与噪声提取”（EONE）模型，通过端到端可微分的分析-合成框架，直接从音频数据学习引擎声音的紧凑参数化表示。该方法将声音建模为谐波阶次与ERB噪声带的合成，其振幅由独立的RPM增益曲线与扭矩增益曲线的逐元素乘积决定。模型分为两阶段训练：首先在大规模多引擎语料库上预训练一个音色编码-解码器，学习通用音色潜在表示；随后在目标引擎数据上冻结编码器，仅优化由解码器初始化的增益曲线参数。所学参数可直接导出为传统DSP框架使用的查找表，实现从训练到嵌入式系统部署的无损迁移。实验表明，该方法在27个测试样本上的平均对数谱距离为4.9 dB，感知测试显示其合成音频在真实感上显著优于传统纯谐波方法，且对于普通听众而言与真实录音无显著差异。 🔗 开源详情代码：论文中未提供代码链接。模型权重：论文中未提供。数据集：论文提及使用了“Procedural Engine Sounds Dataset [27]”进行预训练，但未提供该数据集的具体获取链接或开源协议。预训练所用的其他真实引擎录音语料未说明来源。 Demo：提供了在线音频样例页面 (https://rdoerfler.github.io/eone-model-page/)。复现材料：论文详细描述了训练过程、超参数和损失函数，但未提及是否会公开训练配置、检查点或附录。论文中引用的开源项目：引用了数据集[27]，但未提供其直接链接。其他引用为学术文献。 🏗️ 方法概述和架构本文提出的EONE模型是一个端到端的分析-合成系统，旨在学习可直接部署于嵌入式DSP的引擎声音参数化表示。其核心架构分为四个阶段，如图1所示： ...

Learning from Audio-Dependency Errors: Data Curation Strategies Based on Model Confusion Patterns in Audio Question Answering

📄 Learning from Audio-Dependency Errors: Data Curation Strategies Based on Model Confusion Patterns in Audio Question Answering #音频问答 #大语言模型 #参数高效微调 6.9/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.5/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5 ✅ 6.9/10 | 前50% | #音频问答 | #参数高效微调 | #大语言模型 | arxiv 👥 作者与机构未提及 💡 毒舌点评这篇论文像是给DCASE竞赛交了一份很认真的“赛后总结报告”。作者很诚实，把所有试过的、没用的方法都列出来了（比如各种RL和CoT），这种开源精神值得点赞。但问题是，核心创新点——用反事实输入给数据“分桶”——更像是一个精心设计的工程trick，而非一个能推广的理论。性能从65.9%提到67.3%，在绝对数字上提升甚微，很难让人兴奋。论文花大量篇幅描述各种“失败实验”，固然体现了严谨，但也暴露了主方法在提升上限上的无力。它更像证明了“做减法比做加法更有用”，而不是提供了一个强大的新武器。对于追求突破性进展的顶会来说，这个贡献的“甜度”不够。 📌 核心摘要本文针对音频问答任务，提出一种基于诊断数据整理的微调策略。核心思想是，先利用一个强大的基础模型（Qwen3-Omni）在“正常”、“空音频”和“乱序音频”三种条件下对训练样本进行探针测试，根据模型在不同条件下的正确性模式（\(N, E, S\)），将样本分为“强音频依赖”、“文本先验”、“困难样本”等类别。作者发现，仅使用“强音频依赖”样本（即正常条件下正确，但空音频和乱序音频条件下均失败）进行监督微调，能最有效地提升模型对音频证据的依赖性。进一步，通过加入少量（如5%）的“空音频负样本”（目标回答为“无法确定”）来抑制模型的无根据猜测。最终，该策略在ADQA-Bench开发集上取得了优于基线的准确率。 🔗 开源详情代码：训练和评估代码计划发布于：https://github.com/frednam93/adqa_nam 模型权重：论文中未提及具体模型权重链接（论文使用了 Qwen3-Omni-30B-A3B-Instruct 和 Gemma-4-E4B-it，但未提供其下载链接）。数据集：论文中提及 ADQA-Bench 数据集（DCASE 2026 Task 5），但未提供具体获取链接。 Demo：论文中未提及。复现材料：论文中提供了详细的微调训练配置（基于 LLaMA-Factory，使用 4-bit bitsandbytes 量化和 LoRA），包括具体的超参数设置、训练数据构建变体（如 “Strong”、“Strong+empty 5%” 等）及其比例，以及提交的四个候选系统的详细描述。论文中引用的开源项目： LLaMA-Factory：用于微调（论文引用[15]）。 bitsandbytes：用于 4-bit 量化（论文引用[15]）。 LoRA：用于参数高效微调（论文引用[8]）。 Gemma-4-E4B-it：作为三模型集成的响应正常化器使用。 SimPO：作为偏好优化目标之一进行评估（论文引用[9]）。 DPO：作为偏好优化目标之一进行评估（论文引用[12]）。 GRPO：作为强化学习目标之一进行评估（论文引用[13]）。 DAPO (lite)：作为强化学习目标之一进行评估（论文引用[14]）。 FunAudioChat：作为基线模型之一进行评估（论文引用[2, 1]）。 AudioFlamingo3：作为基线模型之一进行评估（论文引用[5]）。 🏗️ 方法概述和架构本文方法的核心是一个基于模型行为的数据整理与微调流程，主要分为诊断分析、数据选择、微调和推理后处理四个阶段。 ...

MindAlign: Decoding Inner Speech from fMRI Signals via Multimodal Embedding Alignment under Limited Data

📄 MindAlign: Decoding Inner Speech from fMRI Signals via Multimodal Embedding Alignment under Limited Data #语音识别 #低资源 #数据增强 #多模态模型 #自监督学习 #参数高效微调 5.8/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0.1/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 📝 5.8/10 | 前50% | #语音识别 | #数据增强 | #低资源 #多模态模型 | arxiv 👥 作者与机构作者：Muxuan Liu, Ichiro Kobayashi, Satoshi Nishida。第一作者Muxuan Liu和第二作者Ichiro Kobayashi隶属于日本御茶水女子大学（Ochanomizu University）人文与科学研究生院；第三作者Satoshi Nishida隶属于日本国立信息通信技术研究所（NICT）先进ICT研究所信息与神经网络中心（CiNet）。 ...

Scaling Audio Models Efficiently: A Joint Study of Compute Constraints and Optimization Behavior

📄 Scaling Audio Models Efficiently: A Joint Study of Compute Constraints and Optimization Behavior #参数高效微调 #语音识别 #语音情感识别 #模型压缩 #大语言模型 7.2/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.8/1.5 | 复现 0.4/0.5 | 工程 0.4/1.5 ✅ 7.2/10 | 前50% | #语音识别 | #参数高效微调 | #语音情感识别 #模型压缩 | arxiv 👥 作者与机构论文作者为 Vyom Agarwal, Mokshda Gangrade, Siddharth Pal, Jerry Wu。文中未明确提及作者所属机构。 💡 毒舌点评这篇论文像是在用显微镜仔细观察一个众所周知的工程事实：模型越大、输入越多、算的越细，效果一般会越好，但算力不是无限的。其核心贡献“三轴框架”(\(x_N, x_T, x_V\))更像是一种标准化的观察视角，而非突破性的算法或理论。方法上，本质上是“控制变量法”（Star-Sweep）在模型缩放场景下的应用，组合了现成的LoRA和DAMA技术。实验很扎实，表格列得很满，Pareto前沿图也画了，结论基本符合直觉（例如收益递减、存在最优输入长度）。但“创新性”令人尴尬，更像是在ICASSP发的工作硬往顶会挤。审稿人看到“extends this idea to the audio domain”这种话大概会翻白眼。最大的亮点可能是清晰地揭示了ASR和SER任务在缩放特性上的本质差异（平滑前沿 vs. 稀疏前沿），但这更像是一个细致的实证发现，而非方法上的突破。 ...

语音/音乐/音频论文速递 2026-06-23

语音/音乐/音频论文速递 2026-06-23 共分析 83 篇论文 ⚡ 今日概览 📥 抓取 83 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 19篇 ███████████████ #语音合成 14篇 ██████████████ #音乐生成 3篇 ███ #说话人验证 3篇 ███ #语音增强 3篇 ███ #对比学习 2篇 ██ #自监督学习 2篇 ██ #音频水印 2篇 ██ 📊 论文评分排行榜（83 篇，按分数降序）排名论文总分分档主任务 🥇 CoughPhase-CLR: Designing an acoustics-informed foundat 10.0分前10% #对比学习 🥈 Libretto: Giving LLM Agents a Sense of Musical Structur 9.2分前50% #音乐生成 🥉 Speaker Identity in Non-Verbal Vocalizations: Condition 9.1分前25% #说话人验证 4. PHAST-Net: Attention-Guided, Physics-Informed Network f 9.0分前10% #音乐信息检索 5. Domain-incremental audio classification using domain-sp 9.0分前50% #音频分类 6. MSU-Bench: Towards Speaker-Centric Understanding in Con 9.0分前10% - 7. How Well Do Self-Supervised Speech Models Encode Age an 9.0分前50% #自监督学习 8. CAAD: Contrastive Audio-Aware Distillation for Efficien 8.9分前25% #语音识别 9. STAR-VAE: Structured Topology-Aware Regularization for 8.8分前25% #音频生成 10. An Evaluation Framework for Text-to-Speech Voice Recons 8.8分前25% #语音合成 11. An Analysis of Untrained Deep Reservoir Networks for Au 8.8分前50% #音频事件检测 12. Towards Detecting Neural Audio Codec Synthesized Heart 8.7分前50% #自监督学习 13. Bridging the Age Gap: Towards Detecting Neural Audio Co 8.6分前50% #语音伪造检测 14. ATCCaps: A Call-Sign-Aware Speech Dataset for Air Traff 8.6分前25% #语音识别 15. InstructFX2FX: A Multi-turn Text-to-Preset Demo for Ite 8.6分前50% #对比学习 16. When EER Hides Deployment Failure: Auditing Threshold T 8.6分前25% - 17. CapRiCorn-1K: A Comprehensive Benchmark for Video Capti 8.6分前50% #语音识别 18. Compiling Differentiable Audio Graphs to Real-Time DSP 8.5分前25% - 19. Improving Text-to-Music Generation with Human Preferenc 8.5分前50% #音乐生成 20. Don't Listen to Me: A Lightweight, Low-Latency Mode 8.4分前50% #语音增强 21. HALAS: A Human-Annotated Dataset of Hallucinations of M 8.4分前50% #语音识别 22. Benchmarking Large Language Models for Grapheme-to-Phon 8.4分前25% #语音合成 23. Cross-lingual Retrieval-Augmented Classification for Dy 8.4分前25% #语音识别 24. Bagpiper-TTS: Natural Language Guided Universal Speech 8.4分前25% #语音合成 25. Using Phonological-Level Wav2Vec2 for Mandarin Automati 8.3分前25% #语音识别 26. Word Lengthening as a Function of Utterance Position: A 8.1分前25% #语音合成 27. LambdaMark: Semantic Audio Watermarking for Robustness 8.0分前25% #音频水印 28. OpenWER: Improving Cross-Lingual ASR Evaluation and Ena 8.0分前50% #语音识别 29. AudioCALM: Continuous Autoregressive Language Modeling 7.9分前25% #语音合成 30. AOR-Bench: Do Large Audio Language Models Over-Refuse P 7.9分前50% #音频问答 31. Gradient-Based Learning of Parametric Engine Sound Repr 7.8分前50% #参数高效微调 32. Toward Open-Set Speaker Attribute Prediction with Keywo 7.8分前25% #多模态模型 33. Time-Frequency Weighted Losses for Phoneme Reconstructi 7.8分前25% #语音增强 34. An implicitization-based solution to the minimal 4s/6r 7.8分前50% - 35. CORTIS: Text-Only Adaptation of Spoken Language Models 7.7分前50% #语音识别 36. What Do Neural Networks Learn for TDOA Estimation? A Cr 7.7分前50% #声源定位 37. Kiwano: A Cutting-Edge Open-Source Toolkit for Speaker 7.6分前50% #说话人验证 38. Learning to Evade: Adaptive Attacks on Audio Watermarki 7.6分前50% #音频水印 39. Bagpiper-Edit: Zero-Shot Open-Ended Audio Editing via R 7.6分前25% #语音合成 40. From Text Metrics to Model Internals: A Study of Whispe 7.5分前50% #语音识别 41. Bridging Self-Supervised Learning and Speech Enhancemen 7.5分前25% #语音增强 42. Integrating Facial Generation into Full-Duplex Spoken D 7.5分前25% - 43. ESPnet3: Infrastructure for Scalable Speech and Audio R 7.5分前25% #语音识别 44. On the Effect of Segmentation Width and Cluster Size on 7.4分前25% #语音合成 45. The Anatomy of the CTC Oracle Gap: Acoustic Exhaustion 7.3分前50% #语音识别 46. FlowTTS-GRPO: Online Reinforcement Learning with Multi- 7.2分前50% - 47. DisSpeech: Low-Resource Controllable Mandarin Stuttered 7.2分前25% #语音合成 48. SDP-Codec: A Speaker-Decoupled Speech Codec with Pitch 7.2分前50% #语音编码 49. Synthesizing the Lombard Effect: Multi-Level Control of 7.2分前50% #语音合成 50. Scaling Audio Models Efficiently: A Joint Study of Comp 7.2分前50% #语音识别 51. Online Predictive Coding for Dual-Mode Self-Supervised 7.2分前50% #语音识别 52. Exploiting Neural Audio Codec Latents for Adversarial A 7.2分前50% #生成对抗网络 53. Audio Editing in the Era of Foundation Models: A Survey 7.0分前25% - 54. Adding Robust Code-Switching Capabilities to High Perfo 7.0分前50% #语音识别 55. Unlocking In-Context Learning in Audio-Language Models 7.0分前50% #联邦学习 56. Backdoor Attacks on Speech Emotion Recognition via TTS- 7.0分前50% #语音情感识别 57. LK Jam: System Architecture and Implementation of a Rea 7.0分前50% #音乐生成 58. An Acoustic Landmark Database of the English Lexicon vi 6.9分前50% #语音合成 59. Learning from Audio-Dependency Errors: Data Curation St 6.9分前50% #音频问答 60. The Watermark Shortcut: How Provenance Marking Sabotage 6.8分前50% #数据增强 61. LISE : Listenable Interpretable Speaker Embeddings 6.8分前50% #说话人验证 62. PIVOTSBench: Evaluating Fine-Grained Interpersonal Rela 6.8分前50% #基准测试 63. AugCodec: A Low-Bitrate Disentangled Neural Speech Code 6.7分前50% #数据增强 64. Vaani Benchmark V1.0: An Inclusive Multimodal Benchmark 6.7分前50% #语音识别 65. Physics-Informed Neural Operator for Speech Production 6.7分前50% #语音合成 66. Streaming T5-based Text-to-Speech Synthesis with Limite 6.7分前25% #语音合成 67. ProsoCodec: Prosody-Oriented Speech Codec for Voice Con 6.6分前50% #语音转换 68. Beyond ROC-AUC: Operating-Point Performance Reporting f 6.6分前50% - 69. ISCSLP 2026 CoT-TTS Challenge: Chain-of-Thought Reasoni 6.6分前50% #语音合成 70. A DDSP Framework for Adaptive Room Equalization 6.5分前50% #自适应滤波 71. EmoInstruct-TTS: Dual-Path Instruction-Guided Emotional 6.5分前50% - 72. Interleaved Speech Language Models Latently Work In Tex 6.4分前50% #语音识别 73. DSSCNet: A Transfer Learning Framework for Cross-Corpus 6.3分前50% #迁移学习 74. Sea-Scan: High-Accuracy, ML-based Dark Vessel Detection 6.3分前50% - 75. Catching Lies Without Sending the Video: Privacy-Preser 6.2分前50% #多模态模型 76. MindAlign: Decoding Inner Speech from fMRI Signals via 5.8分前50% #语音识别 77. Acoustic Landmark Detector based on Conformer and HuBER 5.5分前50% #语音识别 78. Explainable AI in Speaker Recognition – Attention Map 5.5分前50% #说话人识别 79. Imitation Learning for Elder-Facing Speech Synthesis 5.5分前50% #语音合成 80. Improving Engine Sound Analysis in Hot-Test Environment 4.9分后50% #音频降噪 81. Direct Raw Audio Signal Processing via Reservoir Comput 4.5分后50% #语音识别 82. A Generalized Formalism of Auto-Regressive Decoding for 4.1分后50% #自回归模型 83. Noise-Driven Instrument Based on Coherent Quantum and S 3.8分后50% - 📋 论文列表 🥇 CoughPhase-CLR: Designing an acoustics-informed foundation model for coughing sound classification 10.0/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.0/1.5 ...

FlowEdit: Associative Memory for Lifelong Pronunciation Adaptation in Flow-Matching TTS

📄 FlowEdit: Associative Memory for Lifelong Pronunciation Adaptation in Flow-Matching TTS #语音合成 #语音增强 #参数高效微调 #持续学习 #低资源 #数据增强 #多语言 10/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 10/10 | 前25% | #语音合成 | #参数高效微调 | #语音增强 #持续学习 | arxiv 👥 作者与机构作者：Harshit Singh (1), Ayush Pratap Singh (2), Nityanand Mathur (3) 机构：1 University Of Maryland, 2 TU Darmstadt, 3 Smallest AI 联系邮箱：nityanandmathur@gmail.com ...