论文速递 | 语音/音乐/音频论文速递

AudioX-Turbo: A Unified Framework for Efficient Anything-to-Audio Generation

📄 AudioX-Turbo: A Unified Framework for Efficient Anything-to-Audio Generation #音频生成 #音乐生成 9/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9/10 | 前10% | #音频生成 | #音乐生成 | arxiv 👥 作者与机构 Zeyue Tian (香港科技大学, Noiz AI), Lei Ke (清华大学), Zhaoyang Liu (香港科技大学), Ruibin Yuan (香港科技大学), Liumeng Xue (香港科技大学), Yujiu Yang (清华大学), Weijia Chen (Noiz AI), Xu Tan (独立研究者), Qifeng Chen (香港科技大学), Wei Xue (香港科技大学), Yike Guo (香港科技大学)。 ...

Balancing ASR and diarization in end-to-end LLMs for multi-talker speech recognition

📄 Balancing ASR and diarization in end-to-end LLMs for multi-talker speech recognition #语音识别 #说话人日志 #大语言模型 7.1/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.1/10 | 前50% | #语音识别 | #说话人日志 | #大语言模型 | arxiv 👥 作者与机构论文标题：Balancing ASR and diarization in end-to-end LLMs for multi-talker speech recognition 作者：Zheng Naijun, Lin Yuke, Tian Sanli, Li Mengtian, Lin Zhiwei, Xiao Longshuai, Tu Dandan 机构：华为技术有限公司，中国 ...

BASENet: Band-Adapted Speech Enhancement Network with Cross-Band Attention

📄 BASENet: Band-Adapted Speech Enhancement Network with Cross-Band Attention #语音增强 7.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 ✅ 7.5/10 | 前50% | #语音增强 | #语音增强 | arxiv 👥 作者与机构作者：Damien Martins Gomes, François Capman 机构：Thales SIX GTS, France 💡 毒舌点评这篇论文像一位精心调参的工匠，在标准基准（VoiceBank+DEMAND）上打磨出一个高效的“玩具”。它的主要卖点——基于Bark尺度的编码器深度缩放——是一个直觉上合理但创新深度有限的工程技巧。跨频带注意力的线性复杂度设计值得肯定，但模型整体停留在对MP-SENet范式的修补上。实验严格局限于单一数据集，完全回避了真实世界噪声、多说话人、远场等更具挑战性的场景，结论的泛化性存疑。将“参数最少”作为主要卖点，更像是工程优化而非学术突破。因果版本的验证过于简单，未探讨因果约束对注意力机制本身设计的影响。总体而言，这是一篇扎实的、以工程效率为导向的工作，但距离顶会的创新性和实验全面性标准还有差距。 📌 核心摘要 BASENet是一种面向语音增强的频率自适应神经网络。其核心思想是根据人耳听觉的非均匀频率分辨率（Bark尺度）来分配模型处理资源：低频区域感知灵敏，分配更深的编码器分支；高频区域感知粗糙，分配更浅的分支。这种分配通过一个基于临界带密度的简单闭式公式自动完成。为了整合各频带信息，设计了一个线性复杂度的跨频带注意力模块。该网络建立在轻量的倒残差块和密集连接基础上，整体参数量仅0.83M，计算量7.3G MACs。在VoiceBank+DEMAND基准测试中，其非因果版本达到了与更复杂模型相当的性能（PESQ 3.55），因果版本（PESQ 3.44）也优于部分非因果基线，显示了在资源受限设备上进行实时流处理的潜力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重发布链接。数据集：论文中使用了 VoiceBank+DEMAND 数据集进行评估。该数据集由 Valentini 等人发布（引用 [valentini2016investigating]），但论文中未提供直接的下载链接或官方项目主页。获取方式需参考其原始出处。 Demo：论文中未提及在线演示链接。复现材料：论文中提供了详细的训练配置和实验设置，包括：使用的 STFT 参数（nfft=400，hop length=100，采样率 16kHz）、训练轮次（100 epochs）、优化器（Adam）及其超参数、硬件（NVIDIA Quadro RTX 6000 GPU）以及数据集划分信息。然而，论文中未提供训练好的模型检查点、配置文件或代码附件等完整的复现材料包。论文中引用的开源项目： MP-SENet：论文中引用的基线方法之一（[lu2023mpsenet]），BASENet 的整体架构范式（掩码和相位估计）和损失函数均遵循该工作。论文中未提供该项目的具体链接。 MUSE：论文中引用的基线方法之一（[lin24h_interspeech]）。论文中未提供该项目的具体链接。 Mamba-SEUNet：论文中引用的基线方法之一（[wang2025mambaseunetmambaunetmonaural]），并且论文中的消融研究提及了将其 Mamba 时序模块用于 BASENet 的对比。论文中未提供该项目的具体链接。 DeepFilterNet：论文中引用的相关工作（[schroter2022deepfilternet]）。论文中未提供该项目的具体链接。 FullSubNet 及 InterSubNet：论文中引用的相关工作（[hao2021fullsubnet], [chen2023intersubnet]）。论文中未提供项目链接。 Band-Split RNN (BSRNN)：论文中引用的基线方法（[yu23b_interspeech]）。论文中未提供该项目的具体链接。 Adam 优化器：引用自 [kingma2017adam]。标准优化器，通常通过深度学习框架（如 PyTorch/TensorFlow）的内置实现或官方 GitHub 仓库获取（例如 https://github.com/pytorch/optim）。 🏗️ 方法概述和架构 BASENet的整体流程如图1所示，采用掩码与相位估计范式（同MP-SENet）。输入为含噪语音的短时傅里叶变换（STFT）幅度谱（经\(c=0.3\)的幂律压缩）与相位谱，在通道维度拼接形成输入张量 \(\mathbf{X} \in \mathbb{R}^{2 \times N \times F}\)，其中 \(N\) 为时间帧数，\(F\) 为频率点数。 ...

Decoding Insect Song: A Multitask Semisupervised Orthoptera Bioacoustic Classifier

📄 Decoding Insect Song: A Multitask Semisupervised Orthoptera Bioacoustic Classifier #音频分类 #生物声学 #多任务学习 #知识蒸馏 #自监督学习 #数据集 8.7/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.7/10 | 前50% | #音频分类 | #多任务学习 | #生物声学 #知识蒸馏 | arxiv 👥 作者与机构奥尔加·伊苏波娃（Olga Isupova），丹尼尔·库津（Danil Kuzin），埃拉·布朗宁（Ella Browning），汤姆·米尔斯（Tom Mills），史蒂文·里斯（Steven Reece）。作者团队来自剑桥大学（University of Cambridge）。 💡 毒舌点评这篇论文像一份精心包装的“集成学习套餐”，将多任务、自监督、知识蒸馏等流行技术打包成一个针对特定生态监测问题的解决方案。其优点在于目标明确、工程实现完整，并提供了新的数据集。然而，其主要短板在于方法论创新性不足——本质上是现有技术的组合，缺乏机器学习层面的理论或架构突破。实验对比过于单一，仅与一个通用模型比较，未能充分验证框架内各组件的贡献和必要性。绝对性能（F1=0.34）虽然对比基线有提升，但在实际野外多物种重叠场景下仍然很低，论文对此瓶颈分析不足。此外，关于“迁移能力”的声明（测试集来自未见站点）可能因训练数据来自同一地区（牛津郡）的少量站点而存在潜在偏倚，实际泛化能力有待在更广泛地理和生态条件下验证。 📌 核心摘要针对被动声学监测（PAM）中直翅目昆虫自动分类面临的标注数据稀缺、领域偏移以及现有工具非通用等问题，本文提出了PULSE，一个半监督、多任务学习框架。该框架联合优化三个损失函数：1）基于弱标签数据的监督分类损失（多标签二元交叉熵）；2）通过知识蒸馏与预训练的通用鸟声模型（BirdNET）嵌入对齐的生态先验损失（L2距离）；3）利用大量无标签野外录音进行自监督学习（Bootstrap Your Own Latent, BYOL）以适应本地声景的损失。通过主动学习，从野外数据中获取少量标签，进一步提升了模型性能。实验表明，PULSE在仅使用“物种库”标签时，其宏F1分数（0.21）显著优于直接使用通用模型Perch 2.0（0.07）；当加入少量野外标注数据后，其宏F1达到0.34，性能与使用同样数据微调的Perch 2.0（0.33）持平。论文还展示了学习到的嵌入空间编码了有意义的生态结构，并提供了交互式可视化工具用于生态发现。 ...

Dolph2Vec: Self-Supervised Representations of Dolphin Vocalizations

📄 Dolph2Vec: Self-Supervised Representations of Dolphin Vocalizations #音频分类 #自监督学习 #生物声学 #信号处理基础 7.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.2/10 | 前50% | #音频分类 | #自监督学习 | #生物声学 #信号处理基础 | arxiv 👥 作者与机构作者： Chiara Semenzin (École Normale Supérieure, Paris, France) Faadil Mustun (École Normale Supérieure, Paris, France) Roberto Dessì (Not Diamond, San Francisco, USA) Pierre Orhan (Institut du Cerveau, Paris, France) Alexis Emanuelli (École Normale Supérieure, Paris, France) Yair Lakretz (École Normale Supérieure, Paris, France) Gonzalo de Polavieja (Champalimaud Foundation, Lisbon, Portugal) Germán Sumbre (École Normale Supérieure, Paris, France) 机构：École Normale Supérieure (巴黎高等师范学院)， Not Diamond， Institut du Cerveau， Champalimaud Foundation。 💡 毒舌点评这篇论文的出发点——为特定物种构建自监督学习（SSL）模型——是生物声学中一个有价值且清晰的方向。然而，其“顶会级”的呈现背后存在明显短板。首先，核心宣称的“首个大规模物种特异性SSL模型”和“发布数据集”存在水分。论文仅在一个来源、环境高度特定（半圈养红海宽吻海豚）的种群数据上训练，其“大规模”仅指相对过去的小数据集，但数据的生态多样性和泛化能力存疑。宣称“发布”数据集，但正文和附录均未提供任何实际链接，这削弱了可复现性和影响力声明。其次，实验评估相对基础且避重就轻。仅使用线性探测（逻辑回归）评估冻结表征，这是SSL的初步评估标准，但论文未进行任何微调实验以证明模型潜力，也未在更广泛的海豚声音数据集或与其他物种的交叉评估上验证其主张的“物种特异性优势”。在检测任务上，Dolph2Vec与BioLingual几乎持平（67.8 vs 67.6 mAP），但在分类任务上的提升（82.0% vs 74.5%）虽显著，却未通过统计检验论证其显著性。最后，对代码本（codebook）的可解释性分析流于表面。虽然展示了单元与哨声类别的关联，但未能提供令人信服的证据表明这些单元真正编码了“亚哨声结构”而非仅仅是统计上的高频片段，也未设计实验来验证这些单元的预测性或功能性作用。总而言之，这是一篇扎实的系统论文，但创新声明需更多实质性证据支撑，评估深度有待加强。 ...

Emo-LiPO: Listwise Preference Optimization for Fine-Grained Emotion Intensity Control in LLM-based Text-to-Speech

📄 Emo-LiPO: Listwise Preference Optimization for Fine-Grained Emotion Intensity Control in LLM-based Text-to-Speech #语音合成 #情感语音合成 9.3/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 9.3/10 | 前50% | #语音合成 | #情感语音合成 | arxiv 👥 作者与机构第一作者：Yihang Lin（香港中文大学（深圳））；通讯作者：Li Zhou（香港中文大学（深圳））；共同作者包括Congwei Cao, Dongchu Xie（香港中文大学（深圳））；Xiaoxue Gao（新加坡科技研究局）；Chen Zhang, Haizhou Li（新加坡国立大学、深圳大数据研究院、深圳湾区研究院）。主要单位为中国香港中文大学（深圳）。 💡 毒舌点评这是一篇动机明确、工程性较强的系统论文，但存在以下核心问题：创新性有限：将列表偏好优化（LiPO）应用于情绪强度控制，是一个直接且合理的迁移，但缺乏对LiPO本身或情绪建模的算法层面新贡献。核心创新更偏向“应用新场景”和“构建新数据集”。理论深度不足：论文声称将问题“formulate as a learning-to-rank problem”，但方法描述更像一个启发式的列表构建和损失设计，缺乏对LTR理论在语音生成任务中的适配性分析。实验天花板与claim：在ESD-plus这一自建数据集上进行评估，虽然必要，但难以客观衡量泛化能力。与SOTA的比较局限于有限的自实现基线（如Emo-DPO的几种变体），未与更广泛的非LLM TTS或最新情感TTS系统比较。论文声称“significantly improves”，但绝对指标提升有限（如Recall-ft从37.21到39.54），且人类评估的胜率在面对强基线（如Emo-DPO (I)）时优势减弱。细节可复现性：尽管提供了代码和数据集链接，但论文对核心模型（CosyVoice-300M-Instruct）的具体微调配置、超参数搜索过程、人类评估的具体协议（如标注者间一致性）描述不足，影响严格复现。局限性挖掘浅：论文结论过于乐观，未深入讨论列表偏好监督在生成长语音或更复杂情感（如混合情感）时的潜在问题，也未讨论自建数据集可能引入的偏置（如使用TTS合成监督数据，而非自然语音）。 📌 核心摘要本文针对LLM基TTS系统在利用文本提示进行细粒度情绪强度控制时存在的“语义-声学鸿沟”问题，提出了Emo-LiPO框架。该方法将情绪强度控制任务建模为一个学习排序问题，采用列表偏好优化（LiPO）来对齐文本提示的相对情绪强度与生成的语音。其核心在于通过一个规则构建的、包含同情绪不同强度、中性及反例语音的偏好列表，以及一个距离感知的加权损失函数，显式建模全局强度排序。为支持该任务，论文构建了ESD-plus多说话人数据集，包含45，500个带有明确强度变化（3级）的语音样本。实验表明，在ESD-plus数据集上，Emo-LiPO在情绪相关性指标（特别是Recall-ft）和人类评估胜率上优于监督基线和DPO变体，尤其在高强度水平优势明显，并能保持语音质量。 ...

Endpoint Anticipation for Low-Latency Spoken Dialogue

📄 Endpoint Anticipation for Low-Latency Spoken Dialogue #多任务学习 #流式处理 8.2/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 8.2/10 | 前25% | #多任务学习 | #多任务学习 | #流式处理 | arxiv 👥 作者与机构 Udupa (Sathvik Udupa), Watanabe (Shinji Watanabe), Schwarz (Petr Schwarz), Cernocky (Jan Černocký)。 1 Brno University of Technology, Czechia 2 Carnegie Mellon University, United States 联系邮箱：{udupa, schwarzp, cernocky}@fit.vut.cz, shinjiw@ieee.org ...

From Tokens to Faces: Investigating Discrete Speech Representations for 3D Facial Animation

📄 From Tokens to Faces: Investigating Discrete Speech Representations for 3D Facial Animation #语音合成 #自监督学习 #对比学习 7.9/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.9/10 | 前25% | #语音合成 | #自监督学习 | #对比学习 | arxiv 👥 作者与机构作者：Pedro R. Correa, Olivier Perrotin, Samir Sadok, Paula D. P. Costa, Thomas Hueber 机构： Univ. Estadual de Campinas (UNICAMP), Brazil Univ. Grenoble Alpes, CNRS, Grenoble INP, GIPSA-lab, France Inria at Univ. Grenoble Alpes, CNRS, LJK, France 💡 毒舌点评这篇工作做了一个工整的“排列组合”实验，试图回答“哪种语音表征最适合驱动人脸”这个基本问题。优点在于实验设计清晰，覆盖了主要表征类型，且提出了一个讨巧的AVTTS概念。然而，其核心发现——“编码音素信息的表征效果好”——几乎是一个基于直觉的结论，论文更多是在验证而非突破。探测分析部分试图挖得更深，但方法（线性回归、离散化聚类）略显简单，难以充分揭示复杂的映射关系。解码器架构的选择（GRU vs. 基础Transformer）也落后于当前扩散模型主导的前沿。总的来说，这是一篇扎实的“观测报告”，但离顶会论文所期望的“开创性洞察”或“强大新方法”还有距离。更适合作为一份详尽的baseline分析或技术报告。 ...

Generating Training Targets for Real-World Speech Enhancement via Close-to-Distant Microphone Projection

📄 Generating Training Targets for Real-World Speech Enhancement via Close-to-Distant Microphone Projection #语音增强 6.4/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 0.9/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 0.5/1.5 ✅ 6.4/10 | 前50% | #语音增强 | #语音增强 | arxiv 👥 作者与机构论文中未明确提及作者与机构信息。 💡 毒舌点评这篇论文的核心思想很直接：既然直接用近端麦克风（CM）信号当训练目标效果差，那就用它训练一个滤波器，把它“投影”成和远端麦克风（DM）信号对齐的干净信号。这个想法确实解决了真实数据训练中的一个痛点。然而，技术内核并不新颖，本质上是PMWF/SDW-MWF的一个变体应用。论文最大的贡献在于将这个经典框架在真实、复杂（多说话人、强混响）的CHiME6数据集上系统化地实现并验证了其有效性，超过了强大的GSS基线。但实验局限性明显：评估高度依赖特定的CHiME6/CHiME8数据集、CM/DM硬件配置和Oracle DRR；缺乏对关键设计选择（如\(\mu\)值、统计量估计方法）的消融研究；超参数\(\mu=0\)的选择依据和敏感性未充分讨论。方法并非即插即用，其有效性严重依赖于训练时可用的CM信号质量以及与DM的统计相关性。总体而言，这是一份扎实的系统性工程和方法论验证，但创新性和普适性有限。 📌 核心摘要针对神经网络语音增强在真实场景中缺乏配对训练数据的问题，本文提出了Close-to-Distant microphone Projection (C2D投影)方法。该方法利用训练阶段可用的近端麦克风（CM）信号，估计一个投影矩阵，将CM信号变换为与远端麦克风（DM）信号对齐且去噪的训练目标。该投影矩阵被推导为参数化多通道维纳滤波器（PMWF）的一个变体，其闭式解通过最小化投影误差与噪声抑制的加权代价函数得到。在CHiME6（多人晚餐对话）数据集上，使用C2D生成的目标训练的神经网络在ASR任务（tcpWER）上超越了强基线GSS。在跨场景的CHiME8数据集上，该方法在大部分场景下也表现出优势，展现了对训练-测试条件不匹配的鲁棒性。主要局限是依赖CM信号的存在与质量，且评估局限于特定挑战赛数据集。 🔗 开源详情代码：论文中未提供C2D投影方法或训练流程的完整代码。仅提及DRE中的NCSN++网络实现使用了公开代码：https://github.com/sp-uhh/sgmse。模型权重：未提及。数据集：使用CHiME6和CHiME8数据集。两者均需通过CHiME挑战赛官方渠道申请获取，论文未提供直接下载链接。 Demo：未提及。复现材料：未提供检查点、详细配置文件或完整的复现脚本。论文提供了关键参数（\(\mu=0\)， \(M=4\)）和训练/验证集划分，但复现仍需大量自行实现工作。 🏗️ 方法概述和架构本文提出的C2D投影方法旨在从真实录制的近端（CM）和远端（DM）麦克风信号中生成用于训练语音增强（SE）神经网络的配对数据。其核心思想是估计一个投影矩阵 \(\mathbf{W}_{n}(f)\)，将第 \(n\) 个说话人的CM信号 \(\mathbf{x}^{c}(t,f)\) 投影为该说话人对应于DM位置的源图像信号 \(\hat{\mathbf{x}}_{n}^{d}(t,f)\)，从而生成与DM观测 \(\mathbf{x}^{d}(t,f)\) 对齐的训练目标。 ...

Generative Modeling of Bach-Style Symbolic Music: A Comparative Study of Autoregressive, Latent-Variable, and Adversarial Approaches

📄 Generative Modeling of Bach-Style Symbolic Music: A Comparative Study of Autoregressive, Latent-Variable, and Adversarial Approaches #音乐生成 #模型比较 5.7/10 | 创新 0.8/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 📝 5.7/10 | 前50% | #音乐生成 | #模型比较 | arxiv 👥 作者与机构作者：Kyuil Lee, Dezhi Yu, Yongkang Huang 机构：Stanford University 💡 毒舌点评这篇论文就像一场精心策划但结果可预见的模型“选秀”。研究动机清晰，巴赫音乐是测试结构化生成能力的绝佳试金石。然而，比较的三种“武器”——自回归、VAE、GAN——在音乐生成领域的强弱对比早已是学界共识。作者用标准的技术组件（LSTM, Attention, VAE, VQ, WGAN）搭建了实验，但未能带来架构或训练策略上的真正新意。最“亮眼”的结论——自回归模型最简单所以效果最好——几乎是循环论证。实验部分，对VAE后验坍缩的描述多于解决方案的探索，对GAN的分析停留在“风格像爵士”的表面现象。整体而言，这是一篇扎实的、但略显乏味的“课程设计”级别论文，适合作为领域内模型比较的教学案例，但缺乏挑战顶会的锐度和深度。最大的槽点在于，论文声称比较三种方法，但对每种方法的分析都浅尝辄止，尤其是未能深入探讨潜变量模型（如VAE）中表示学习的质量，而这本应是此类模型的核心价值。 📌 核心摘要本文对Bach风格符号化钢琴音乐生成进行了实证比较研究，评估了三类主流生成模型：自回归（带注意力LSTM）、潜变量（循环VAE、层次化VAE、VQVAE）和对抗（WGAN）方法。核心发现是：自回归方法在生成音乐连贯性和风格保真度上最优；VQVAE通过离散表示有效缓解了VAE的后验坍缩问题，生成了具有结构化的巴洛克风格样本；GAN虽能学习局部模式，但训练不稳定且风格泛化至巴洛克音乐的能力不足。研究强调了不同生成范式在音乐建模任务中的相对优劣与固有挑战。 ...