Posts

Towards Fine-grained Temporal Perception: Post-Training Large Audio-Language Models with Audio-Side Time Prompt

📄 Towards Fine-grained Temporal Perception: Post-Training Large Audio-Language Models with Audio-Side Time Prompt #音频理解 #音频事件检测 #音频大模型 #强化学习 #自回归模型 🔥 评分：8.3/10 | arxiv 👥 作者与机构第一作者：Yanfeng Shi（中国科学技术大学，语音及语言信息处理国家工程研究中心）通讯作者：Lirong Dai（中国科学技术大学，语音及语言信息处理国家工程研究中心），Yan Song（中国科学技术大学，语音及语言信息处理国家工程研究中心）其他作者： Pengfei Cai（中国科学技术大学，语音及语言信息处理国家工程研究中心） Jun Liu（中国科学技术大学，语音及语言信息处理国家工程研究中心） Qing Gu（中国科学技术大学，语音及语言信息处理国家工程研究中心） Nan Jiang（中国科学技术大学，语音及语言信息处理国家工程研究中心） Ian McLoughlin（新加坡科技学院，ICT Cluster） 💡 毒舌点评亮点在于巧妙地将“时间戳”伪装成一种特殊的“语言令牌”塞进音频特征序列里，让模型像读句子一样“读”出时间坐标，再用强化学习直接对齐音频事件检测的黄金指标，思路清晰且有效。槽点是这方法有点“取巧”，时间提示的窗口（0-30秒）和分辨率（0.04秒）是硬编码的，遇到更长或需要更高精度的音频就抓瞎，而且强化学习那套调参和训练效率的“玄学”问题，论文里轻描淡写了。 🔗 开源详情代码：论文标题下方提到了“GitHub Issue”链接，但正文中未明确给出代码仓库地址。推测代码可能已开源或计划开源，但当前信息不明确。模型权重：论文中未提及是否公开发布训练后的模型权重。数据集：实验使用了公开数据集FTAR和DESED，论文中提供了训练集和测试集规模。预训练权重：基于开源的LALM（Qwen2-Audio, Qwen2.5-Omni）进行后训练。在线Demo：论文中未提及。依赖的开源项目：论文中明确提到的开源模型/工具有：Qwen2-Audio, Qwen2.5-Omni, Whisper（作为音频编码器）, LoRA（用于高效微调）, GRPO（强化学习算法）。 📌 核心摘要这篇论文旨在解决大型音频语言模型（LALM）在细粒度时间感知（如精确定位声音事件的起止时间）上的不足。作者提出了TimePro-RL框架，其核心是两步走策略：首先，提出音频侧时间提示（ASTP），将时间戳编码为特殊令牌并交织插入音频特征序列中，为模型提供明确的物理时间坐标；其次，在监督微调（SFT）后，引入基于强化学习（RL）的后训练阶段，并设计了一种自适应时间奖励机制（结合事件F1分数和连续辅助奖励如mIoU），直接优化模型的时间对齐性能。实验表明，该方法在音频定位、声音事件检测和密集音频描述三个任务上，相比多种基线模型取得了显著提升，尤其在高精度时间定位指标上优势明显。局限性在于时间提示的范围和分辨率固定，且RL训练增加了复杂度。 🏗️ 模型架构整体流程：模型基于现有的LALM（如Qwen2-Audio, Qwen2.5-Omni），其核心架构为音频编码器 + 大语言模型（LLM）。TimePro-RL通过修改输入模态和训练目标来增强其时序能力。输入输出流程：输入：一段原始音频波形 + 一个自然语言查询（例如：“火车道口铃声何时响起？”）。音频编码：音频通过预训练的音频编码器（如Whisper）处理，输出一个音频特征序列（<AUDIO> tokens）。假设编码器帧率为25Hz，即每0.04秒输出一个特征向量。时间提示注入：这是核心修改。在预处理阶段，根据音频时长和帧率，生成一系列时间戳令牌（Timestamp Tokens），如<0.04>, <0.08>等。这些令牌被交织插入到音频特征序列的对应时间位置上，形成新的输入序列：<s> <audio> <AUDIO> <0.04> <AUDIO> <0.08> <AUDIO> ... </audio> 当何时发生？ </s>。嵌入层处理：音频特征：通过音频编码器映射为音频嵌入。时间戳令牌：通过一个时间戳嵌入层映射为向量。该嵌入层采用语义初始化：每个时间戳嵌入向量初始化为其数字字符串（如“0.04”）经LLM原始分词器分词后，对应子词嵌入的均值。训练时，此嵌入层参数被冻结。文本令牌：通过文本嵌入层映射为文本嵌入。 LLM处理：上述混合嵌入序列（音频+时间戳+文本）被送入大语言模型（自回归Transformer）。输出：模型自回归地生成文本响应，格式根据任务而定（如{"query": [5.0, 6.0]}）。关键设计理由： ...

Transformer Based Machine Fault Detection From Audio Input

📄 Transformer Based Machine Fault Detection From Audio Input #音频事件检测 #音频理解 #时频分析 #迁移学习 ✅ 评分：6.5/10 | arxiv 👥 作者与机构第一作者：Kiran Voderhobli Holla (论文中未明确标注机构，根据arXiv常见情况及联系邮箱（如有）推断可能来自学术机构或研究实验室，但论文摘要及提供的链接信息中未提及具体机构名称) 通讯作者：未明确标注其他作者：无 💡 毒舌点评亮点：敏锐地抓住了Vision Transformer（ViT）在图像领域的成功，将其思路迁移到音频频谱图分析这一具体工业场景，立意清晰，方向具有前瞻性。槽点：摘要读起来像是一篇综述或研究计划的引言，缺乏具体的实验方法、数据集、模型细节和量化结果的支撑，更像是在“画饼”而非“展示成果”，让人怀疑这是否是一篇完整的论文。 🔗 开源详情论文中未提及任何开源信息。未提及代码、模型权重、数据集或预训练权重的开源计划。 📌 核心摘要本文旨在探讨基于Transformer的架构在机器故障音频检测任务上相对于传统卷积神经网络（CNN）的潜在优势。要解决的问题是传统CNN在处理频谱图时固有的局部性和平移不变性等归纳偏置，可能并非完全适用于捕捉音频信号中复杂的全局依赖关系。采用的方法是利用Transformer架构（如ViT）直接处理频谱图，利用其自注意力机制建模长程依赖，并与CNN生成的嵌入表示进行对比。主要发现和实际意义在于，理论上Transformer因归纳偏置更少，在数据充足时应能超越CNN，为工业预测性维护提供更强大的声音分析工具。然而，论文的局限性极为明显：摘要部分仅提出了假设和研究方向，未提供任何具体的实验设计、模型配置、数据集信息、对比结果或性能指标，核心贡献和效果无从验证。 🏗️ 模型架构由于论文摘要未提供具体架构细节，以下基于其描述的“Transformer-based architectures”和“Vision Transformer (ViT)”思路，推断其可能的核心流程：整体输入输出流程：输入：通过麦克风采集的原始机器运行音频波形。预处理：将一维音频波形转换为二维的频谱图（如梅尔频谱图）。这一步将时域信号转换为时频域表示，是音频分析的标准操作。嵌入生成：将频谱图分割为一系列固定大小的图像块（Patches），每个块通过一个线性投影层映射为一个向量（即嵌入）。同时，会加入位置嵌入以保留空间信息。 Transformer编码器：将上述嵌入序列输入标准的Transformer编码器。编码器由多层多头自注意力（Multi-Head Self-Attention）和前馈网络（Feed-Forward Network）构成，通过自注意力机制动态计算所有图像块之间的关联性。输出：通常使用[CLS] token的最终输出，或对所有块输出进行平均/池化，得到一个固定维度的全局特征向量（即论文中提到的“embeddings”）。故障分类：将该全局特征向量输入一个简单的分类头（如线性层或小型MLP），输出“正常”或“故障”的预测概率。与CNN的对比：CNN通过卷积核的滑动窗口操作，具有强烈的局部性（只看小区域）和参数共享（同一套权重看所有位置）偏置。Transformer则通过自注意力让每个块直接与所有其他块交互，归纳偏置更少，理论上能更好地捕捉频谱图中跨越长时间和频率的复杂模式，但需要更多数据来学习这些关系。设计选择理由：论文主张，在数据量充足的前提下，Transformer这种更灵活、更具表达能力的架构，能够克服CNN的局限性，从而在频谱图分析上取得更好的效果。 💡 核心创新点基于摘要推断，论文可能提出或计划验证以下创新点：将ViT范式引入机器故障音频检测：这是最核心的创新点。之前该领域主流是CNN，本文首次（按其说法）系统性地探索并论证Transformer架构在此特定任务上的有效性。直接以频谱图作为Transformer输入：不同于一些将音频先转换为其他特征或使用专用音频Transformer的方法，本文采用类似图像处理的思路，将频谱图视为“图像”进行处理，简化了流程。对比Transformer与CNN的嵌入表示：创新点不仅在于使用新模型，还在于深入分析两种架构生成的特征嵌入（Embeddings）的差异，旨在从表示学习的角度解释Transformer可能的优势。 🔬 细节详述论文摘要中未提供任何技术细节。以下为基于同类研究的合理推测：训练数据：未提及。可能使用公开的机器声学数据集（如MFPT, CWRU轴承数据集，或工业界私有数据）。损失函数：未提及。对于二分类（故障/正常）任务，最可能使用二元交叉熵损失（Binary Cross-Entropy Loss）。训练策略：未提及。可能使用Adam或AdamW优化器，配合学习率预热（warmup）和衰减策略。关键超参数：未提及。如Transformer的层数、头数、嵌入维度、图像块大小、MLP隐藏层大小等。训练硬件：未提及。推理细节：未提及。数据增强/正则化：未提及。可能使用频谱图裁剪、掩码（如SpecAugment）、Dropout等。 📊 实验结果论文摘要中未提供任何实验结果数据。无法列出指标对比、消融实验或与SOTA的差距。这是该摘要最大的缺陷，使其更像一篇立场声明而非研究论文。 ...

UniPASE: A Generative Model for Universal Speech Enhancement with High Fidelity and Low Hallucinations

📄 UniPASE: A Generative Model for Universal Speech Enhancement with High Fidelity and Low Hallucinations #语音增强 #生成模型 #自监督学习 #多语言 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：Xiaobin Rong (南京大学，现代声学研究所，NJU-Horizon智能音频实验室；地平线机器人，NJU-Horizon智能音频实验室) 通讯作者：Jing Lu (南京大学，现代声学研究所，NJU-Horizon智能音频实验室；地平线机器人，NJU-Horizon智能音频实验室) 其他作者： Zheng Wang (南京大学，现代声学研究所，NJU-Horizon智能音频实验室；地平线机器人，NJU-Horizon智能音频实验室) Yushi Wang (南京大学，现代声学研究所，NJU-Horizon智能音频实验室；地平线机器人，NJU-Horizon智能音频实验室) Jun Gao (南京大学，现代声学研究所，NJU-Horizon智能音频实验室；地平线机器人，NJU-Horizon智能音频实验室) 💡 毒舌点评亮点：这篇论文精准地抓住了当前生成式语音增强的“阿喀琉斯之踵”——幻觉问题，并提出了一个优雅且有效的解决方案。它没有盲目追求感知分数的虚高，而是通过引入“音素先验锚定”和显式声学增强阶段，在生成质量与内容保真度之间取得了令人信服的平衡，其赢得URGENT 2026挑战赛便是最好的证明。槽点：模型架构的“全家桶”式堆叠（DeWavLM-Omni + Adapter + Vocoder + PostNet）虽然有效，但显得有些“笨重”，计算成本（79.2 GMACs/s）和训练复杂度（分四阶段训练）可能阻碍其在资源受限场景下的实时应用。此外，多速率支持依赖于后处理的PostNet，而非端到端设计，略显“补丁”感。 🔗 开源详情代码：已开源。GitHub地址：https://github.com/xiaobin-rong/unipase/ 模型权重：已公开。在HuggingFace上发布（论文未直接给出链接，但通常会随代码仓库提供）。数据集：训练数据来自公开数据集（DNS5, LibriTTS, VCTK, EARS, MLS, Common Voice, WHAM!, FSD50K等），并使用了URGENT 2025 Challenge的官方模拟脚本。评估数据集均为公开基准。预训练权重：DeWavLM-Omni基于预训练的WavLM-Large模型进行初始化。在线Demo：论文中提供了音频示例链接（可能在GitHub仓库中）。依赖的开源项目：论文中引用了多个开源工具和模型，如WavLM, Vocos, TF-GridNet, OWSM, Whisper, HuBERT等。 📌 核心摘要这篇论文旨在解决通用语音增强（USE）中生成模型面临的“高感知质量”与“低内容幻觉”难以兼得的核心矛盾。作者提出了UniPASE框架，它扩展了其先前的低幻觉PASE模型，以处理包括噪声、混响、丢包、风噪等在内的多种失真，并支持多采样率输入输出。其核心方法是构建一个两阶段生成流程：首先，利用基于WavLM知识蒸馏的DeWavLM-Omni模块，在音素表征层面进行核心增强，利用预训练模型的音素先验来抑制语言幻觉；其次，引入一个**适配器（Adapter）模块，以增强后的音素表征为条件，对退化的声学表征进行显式增强，以恢复细节并提升感知质量；最后，通过声码器（Vocoder）合成16kHz波形，并由后置网络（PostNet）**上采样至48kHz以支持高采样率输出。实验表明，UniPASE在多个基准测试（DNS 2020, PLC 2024, VoiceFixer GSR, URGENT 2025）上取得了SOTA或极具竞争力的性能，特别是在保持低字错误率（WER/CER）和说话人相似度（SpkSim）的同时，获得了优异的非侵入式感知分数（如UTMOS, NISQA），验证了其高保真、低幻觉的特性。其局限性在于模型结构复杂、计算开销大，且多速率处理依赖于后处理模块而非端到端设计。 ...

VoxEffects: A Speech-Oriented Audio Effects Dataset and Benchmark

📄 VoxEffects: A Speech-Oriented Audio Effects Dataset and Benchmark #音频理解 #音频编辑 #基准测试 #数据集 ✅ 评分：7.5/10 | arxiv 👥 作者与机构第一作者：Zhe Zhang（日本国立信息学研究所，语音与音频研究组）通讯作者：Junichi Yamagishi（日本国立信息学研究所，语音与音频研究组）其他作者：Yigitcan Özer（日本国立信息学研究所，语音与音频研究组）机构：National Institute of Informatics (NII), Tokyo, Japan 💡 毒舌点评亮点：在语音领域“硬核”填补了一个关键空白——为“音频效果识别”这个被忽视但无处不在的任务，提供了首个标准化的合成数据集和评估基准，还煞有介事地考虑了真实世界的信号损伤（加噪、压缩），这很务实。槽点：数据完全靠“配方”合成，像在无菌实验室里研究野外生存，缺乏真实后期处理的复杂性和“脏数据”；评估子集只有120条音频（60 ID + 60 OOD），规模过小，结论的说服力打了个折扣。 🔗 开源详情代码：已开源。GitHub地址：https://github.com/nii-yamagishilab/VoxEffects （论文中提及）。使用框架未明确说明，但渲染依赖于Pedalboard库。模型权重：论文中未明确提及是否公开预训练的AudioMAE-Fx权重。数据集：VoxEffects数据集已发布。包含基于DAPS, EARS, TSP合成的音频及其多粒度标注。规模为2520种预设组合应用于多个源语料库的音频。获取方式需参考GitHub仓库。预训练权重：基线模型AudioMAE-Fx基于在AudioSet上预训练的AudioMAE，该AudioMAE权重应为公开资源。在线Demo：论文中未提及。引用的开源项目：Pedalboard（音频效果库），AudioMAE（预训练模型）。 📌 核心摘要本文旨在解决语音处理中一个基础但被忽视的问题：如何系统化地识别语音音频所经过的后期处理效果及其参数。现实中，语音几乎都经过了降噪、压缩等效果处理，但现有数据集缺乏此类精确标注，阻碍了相关研究。为此，作者提出了VoxEffects，一个从干净语音出发、基于固定效果链和预设库合成的多粒度标注数据集与基准。它支持效果存在性检测、预设分类、效果数量统计和强度回归等多任务评估，并创新性地设计了包含采集端和平台端失真的鲁棒性评估协议。作者提供了一个基于AudioMAE的多任务基线模型（AudioMAE-Fx），实验表明，虽然该任务具有挑战性（尤其是细粒度预设分类），但通过包含失真数据进行鲁棒性训练能显著提升模型在跨语料库和失真条件下的性能。该工作为音频取证、语音理解等应用提供了新的研究方向和评估工具。 🏗️ 模型架构模型名称：AudioMAE-Fx 整体流程：输入：原始音频波形（16kHz采样）。特征提取：将波形转换为对数梅尔滤波器组（log-mel filterbank）特征。骨干网络：将特征输入预训练的AudioMAE模型。AudioMAE是一个基于Transformer的掩码自编码器，已在大规模音频数据集AudioSet上预训练，用于学习通用的音频表示。多任务预测头：从AudioMAE输出的共享表示中，并行引出五个轻量级预测头，每个头对应一个子任务：存在性检测头：一个线性分类器，输出6个效果的二元存在概率（多标签分类）。预设分类头：一个线性分类器，输出2520个预设组合的分类概率（单标签分类）。效果数量头：一个线性分类器，预测激活效果的数量（0到6的分类）。标量强度头：一个线性回归器，预测一个0到1之间的标量强度值。向量强度头：一个线性回归器，预测一个6维向量，每个维度对应一个效果的强度（0到1）。输出：五个任务的预测结果。关键设计理由：采用预训练AudioMAE：利用在大规模无标注数据上学到的丰富音频特征，缓解了专用数据集（VoxEffects）规模有限的问题，提供了强大的特征提取基础。多任务学习：所有任务共享同一个AudioMAE骨干，仅使用不同的轻量级头部。这鼓励模型学习对多种效果属性都通用的表示，提高参数效率，并可能通过任务间的正则化效应提升泛化能力。固定效果链顺序：模型输入是经过固定顺序（DN→DRC→EQ→DS→RVB→LIM）处理后的音频，这简化了问题，符合常见语音后期处理流程。 💡 核心创新点首个面向语音的音频效果数据集与渲染管线： ...

VoxSafeBench: Not Just What Is Said, but Who, How, and Where

📄 VoxSafeBench: Not Just What Is Said, but Who, How, and Where #基准测试 #语音大模型 #音频理解 #音频安全 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：无法从摘要中明确判断通讯作者：无法从摘要中明确判断其他作者：Yuxiang Wang, Hongyu Liu, Yijiang Xu, Qinke Ni, Li Wang, Wan Lin, Kunyu Feng, Dekun Chen, Xu Tan, Lei Wang, Jie Shi, Zhizheng Wu 注：所提供的论文摘要中未包含任何作者所属机构信息。根据要求，无法从联系邮箱、致谢等处进行推断，故仅列出作者姓名。 💡 毒舌点评这篇论文的亮点在于它敏锐地抓住了语音大模型（SLM）从“玩具”走向“工具”时必须面对的残酷现实：话不能只听内容，还得看谁说、怎么说、在哪儿说。它设计的“双层评估框架”像一把精准的手术刀，剖开了当前模型在语音情境理解上的虚胖——感知能力在线，但“社会智商”掉线。槽点嘛，就是它主要是个“体检报告”而非“药方”，指出了病灶（语音接地鸿沟）但没开药，而且依赖于现有模型的感知能力作为评估前提，如果感知本身就不准，结论就得打个问号。 🔗 开源详情代码：是。论文摘要明确指出“Code and data are publicly available”，并提供了项目主页链接：https://amphionteam.github.io/VoxSafeBench_demopage/。通常此类项目会托管在GitHub。模型权重：摘要未提及。VoxSafeBench是评估基准，本身不包含模型权重。它用于评估其他SLM。数据集：是。摘要明确指出数据公开，应包含在项目主页提供的链接中。预训练权重：不适用。基准不涉及预训练。在线Demo：项目主页链接（...demopage/）很可能包含在线演示或交互式示例。引用的开源项目：摘要未提及具体依赖的开源工具或模型。 📌 核心摘要这篇论文旨在解决一个关键问题：当语音大模型（SLM）进入多用户共享环境时，仅基于文本内容的安全对齐策略是不足的，说话人身份、副语言特征和声学场景等音频上下文信息会根本性地改变请求的性质。为此，作者提出了VoxSafeBench，这是一个首个联合评估SLM在安全、公平和隐私三个社会维度对齐能力的基准测试。其核心方法是采用“双层设计”：Tier1使用文本和音频匹配的输入评估内容中心风险；Tier2则聚焦于音频条件风险，即文本转录无害但正确响应依赖于声学线索的场景。通过设计中间感知探针，作者验证了前沿SLM能够检测相关声学线索，但仍然无法据此做出恰当的社会性响应。主要发现是，在22个双语任务上，模型在纯文本中表现出的鲁棒安全护栏，在语音场景下显著退化：对于说话人和场景条件的风险安全意识下降，当人口差异通过声音传达时公平性受损，当上下文线索通过声音传递时隐私保护失效。这揭示了普遍存在的“语音接地鸿沟”。该工作的实际意义在于为评估和改进SLM在实际复杂声学环境中的社会智能提供了关键的诊断工具和衡量标准。 🏗️ 模型架构注意：VoxSafeBench本身是一个评估基准（Benchmark），而非一个具体的模型。因此，它没有传统意义上的“模型架构”。它的“架构”指的是其评估框架的设计。 ...

WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training

📄 WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training #语音对话系统 #强化学习 #端到端 #多模态模型 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：Yifu Chen（浙江大学）通讯作者：Zhou Zhao（浙江大学）其他作者：Shengpeng Ji（浙江大学），Qian Chen（阿里巴巴通义团队），Tianle Liang（浙江大学），Yangzhuo Li（浙江大学），Ziqing Wang（北京工业大学），Wen Wang（阿里巴巴通义团队），Jingyu Lu（浙江大学），Haoxiao Wang（浙江大学），Xueyi Pu（浙江大学），Fan Zhuo（浙江大学）备注：论文注明 Yifu Chen 和 Shengpeng Ji 贡献相等（These authors contributed equally）。所有作者单位包括：浙江大学、阿里巴巴通义团队、北京工业大学。 💡 毒舌点评亮点：这篇论文精准地“诊断”出了当前端到端语音对话模型在应用强化学习时“水土不服”的核心病灶——语义和声学的优化目标在统一序列层面相互冲突、梯度能量严重失衡，并开出了一剂“模态分离、动态混合”的有效“处方”。槽点：方法虽然巧妙，但严重依赖一个外部、强大的奖励模型（Gemini-2.5-Pro）来提供信号，这不仅成本高昂，其稳定性和泛化能力本身也存疑，相当于把自家模型的“指挥权”交给了别人。此外，代码和模型权重未开源，让“复现”变成了一个玄学问题。 🔗 开源详情代码：论文提到项目主页为 https://github.com/MM-Speech/WavAlign，但截至分析时，该链接可能尚未生效或内容未公开。论文中未明确说明代码是否已开源。模型权重：论文中未提及是否会公开训练后的模型权重。数据集：论文详细描述了自建数据集的构建方法（附录E），并说明所有训练数据来自公开或自建来源，无内部专有数据。但未提及是否会公开这些处理后的数据集。预训练权重：方法应用于现有的公开模型（如VITA-Audio, KimiAudio），但未提及是否会发布基于这些模型微调后的权重。在线Demo：论文中未提及。依赖的开源项目：论文引用了多个开源数据集和模型（如UltraChat, Llama, Alpaca等）。 📌 核心摘要这篇论文旨在解决端到端语音对话模型在智能（IQ）和表达力（EQ）上难以同时提升的核心挑战。作者发现，直接对混合文本-语音序列应用统一的偏好优化（如DPO、GRPO）会导致问题：稀疏的偏好信号被淹没在密集的语音token中，造成梯度能量失衡（文本梯度主导），并引发声学分布漂移和自然度下降。为此，论文提出了一种自适应混合后训练框架（WavAlign）。其核心思想是分工协作：使用监督微调（SFT）作为“锚”来稳定和维持语音的自然度与可行性；同时，仅对文本token应用偏好优化（GRPO）来精炼语义智能。更进一步，设计了一个轻量级动态门控机制，根据rollout样本的质量（是否存在可接受样本）和区分度（奖励方差）自适应地调整SFT与偏好优化的混合权重，确保只在偏好信号可靠时进行更新。实验在VITA和KimiAudio两种架构上进行，跨越多个基准测试，结果表明该方法在语义质量和语音表达力上均取得了一致且显著的提升。 🏗️ 模型架构论文本身不提出新的模型架构，而是提出一种后训练方法，可应用于不同的现有端到端语音对话模型架构。论文研究的模型需具备生成文本和语音两种token的能力。作者概括了三种主流架构：交织式（Interleaving）：模型生成一个单一的、文本与语音token交织的序列。并行式（Parallel）：模型并行生成文本和语音流，两者状态耦合。思考者-说话者式（Thinker-Talker）：将生成过程分解为“思考”（生成文本语义）和“说话”（生成语音）两个阶段。为了保持方法与架构无关，论文将模型的输出抽象为两个token序列：文本序列 y^T 和语音序列 y^S。模型定义了一个联合条件概率 P_θ(y^T, y^S | x)，其对数似然可以按token类型进行分解（公式1）。这个分解是后续进行模态感知优化的理论基础。 ...

Who is Speaking or Who is Depressed? A Controlled Study of Speaker Leakage in Speech-Based Depression Detection

📄 Who is Speaking or Who is Depressed? A Controlled Study of Speaker Leakage in Speech-Based Depression Detection #语音生物标志物 #说话人识别 #领域适应 #基准测试 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：Hsiang-Chen Yeh（约翰霍普金斯大学，临床心理健康咨询系）通讯作者：Berrak Sisman（约翰霍普金斯大学，语言与语音处理中心） - 推断，基于其资深作者位置及联系邮箱 sisman@jhu.edu 其他作者： Luqi Sun（约翰霍普金斯大学，语言与语音处理中心） Aurosweta Mahapatra（约翰霍普金斯大学，语言与语音处理中心） Shreeram Suresh Chandra（约翰霍普金斯大学，语言与语音处理中心） Emily Mower Provost（密歇根大学安娜堡分校） 💡 毒舌点评亮点是狠狠戳破了语音抑郁检测领域“90%+准确率”的皇帝新衣，用一个极其简单却控制严密的实验设计，揭示了所谓“抑郁声学标志物”很大程度上只是“说话人身份特征”的华丽伪装。槽点在于，论文提出的“解药”——领域对抗训练（DANN）——疗效甚微，更像是一个诊断工具而非解决方案，最后只能无奈呼吁“请进行严格的说话人独立评估”，这多少有点把问题抛回给社区的感觉。 🔗 开源详情代码：论文标题下方有“GitHub”链接标识，但提供的HTML节选内容中未显示具体URL。论文正文中也未明确提及代码开源计划或具体仓库地址。模型权重：论文中未提及是否公开预训练或微调后的模型权重。数据集：使用公开的DAIC-WOZ数据集。预训练权重：使用了公开的预训练模型Wav2Vec 2.0和XLS-R。在线Demo：论文中未提及。引用的开源项目：OpenSMILE工具包（用于提取eGeMAPS特征）。 📌 核心摘要这篇论文的核心贡献在于系统性地揭示并量化了语音抑郁症检测模型中普遍存在的“说话人身份泄露”问题。作者指出，当前许多报告高准确率的模型，其性能可能严重依赖于对说话人身份（声纹）的记忆，而非对抑郁相关声学生物标志物的泛化学习。为证明这一点，他们提出了一种新颖的、控制训练集大小不变的“说话人重叠控制数据划分法”，并在DAIC-WOZ数据集上，对从简单到复杂的三种模型架构（Wav2Vec线性探测、XLSR-eGeMAPS拼接、Wav2Vec-SLS）进行了严格评估。实验结果一致表明：当训练集与测试集存在说话人重叠时，模型准确率虚高（例如，微调Wav2Vec模型达97.65%）；而在严格的说话人独立设置下，性能急剧下降（同一模型降至58.74%）。即使引入领域对抗神经网络（DANN）试图剥离身份信息，性能差距依然巨大。该研究强烈建议，未来的语音抑郁检测研究必须采用严格的说话人独立评估范式，以真实反映模型的临床应用潜力。 🏗️ 模型架构论文评估了三个模型家族，每个都有“原始”和“DANN增强”两种变体，整体流程如下：原始音频 -> 特征提取/编码器 -> 池化层 -> 分类器（抑郁分类，DANN变体还包含对抗性的说话人分类）。 Wav2Vec-Linear Probing 模型： ...

Why Your Tokenizer Fails in Information Fusion: A Timing-Aware Pre-Quantization Fusion for Video-Enhanced Audio Tokenization

📄 Why Your Tokenizer Fails in Information Fusion: A Timing-Aware Pre-Quantization Fusion for Video-Enhanced Audio Tokenization #多模态 #音频理解 #知识蒸馏 #音频大模型 🔥 评分：9.0/10 | arxiv 👥 作者与机构第一作者：Xiangyu Zhang（新南威尔士大学电气工程与电信学院；杜比实验室，悉尼）通讯作者：Julien Epps（新南威尔士大学电气工程与电信学院）（推断，作为最后作者及机构负责人）其他作者： Benjamin John Southwell（杜比实验室，悉尼） Siqi Pan（杜比实验室，悉尼） Xinlei Niu（杜比实验室，悉尼） Beena Ahmed（新南威尔士大学电气工程与电信学院） 💡 毒舌点评亮点：论文像一位严谨的侦探，系统性地“破案”了多模态融合在离散音频分词器中导致重建质量下降的元凶——融合位置和优化目标冲突，并给出了“预量化融合”和“知识蒸馏”这两把关键“凶器”。槽点：实验部分虽然扎实，但读起来像在啃一本厚重的实验手册，部分描述（如梯度分析）略显冗长，且主要聚焦于视频-音频融合，对其他模态组合的泛化性探讨不足，有点“偏科”。 🔗 开源详情代码：论文在标题下方提供了 GitHub Issue 链接（https://github.com/...，具体地址需从原PDF获取），并声明了 CC BY 4.0 许可。这强烈暗示代码将开源或部分开源，但论文中未提供完整的仓库地址或stars数量。模型权重：论文中未提及是否公开预训练的模型权重。数据集：实验主要使用公开的 AudioSet 和 AVQA 数据集。预训练权重：视觉编码器使用了预训练的 Perception Encoder。下游评估使用了 Llama 3.1 8B 的预训练权重。在线 Demo：论文中未提及。引用的开源项目：论文依赖或提及了多个开源项目/模型，包括 SEANet（音频编码器-解码器）、Perception Encoder（视觉特征提取）、Llama 3.1（语言模型评估基线）、CLIP（对比学习方法参考）等。 📌 核心摘要这篇论文深入探讨了在端到端音频语言模型中，将视觉信息融入音频分词器时普遍存在的“理解提升但重建质量下降”的核心矛盾。作者通过系统性实验，揭示了三个关键发现：融合位置（在量化前还是量化后）至关重要；在离散分词器中，知识蒸馏比对比学习更有效；基于时间轴的动态融合优于静态特征融合。基于此，论文提出了时间感知预量化融合（TAPF）方法，这是首个能在集成视觉信息的同时，保持高保真音频重建质量的方案。实验表明，TAPF不仅维持了重建保真度，还在下游音频理解任务（如AVQA）上显著优于单模态音频分词器和现有多种多模态融合基线，特别是在低比特率（高压缩）场景下，展现了8倍的token效率提升。 ...

X-VC: Zero-shot Streaming Voice Conversion in Codec Space

📄 X-VC: Zero-shot Streaming Voice Conversion in Codec Space #语音转换 #零样本 #流式处理 #自监督学习 🔥 评分：9.0/10 | arxiv 👥 作者与机构第一作者：Qixi Zheng (上海交通大学) 通讯作者：Xie Chen (上海交通大学，上海创新研究院) 其他作者： Yuxiang Zhao (上海交通大学) Tianrui Wang (天津大学) Wenxi Chen (上海交通大学，上海创新研究院) Kele Xu (复杂与关键软件环境国家重点实验室) Yikang Li (上海创新研究院) Qinyuan Chen (复旦大学，上海创新研究院) Xipeng Qiu (复旦大学，上海创新研究院) Kai Yu (上海交通大学) 💡 毒舌点评亮点：这篇论文最大的亮点是“化繁为简”，把复杂的零样本语音转换问题巧妙地“塞”进了一个预训练好的神经编解码器（SAC）的潜在空间里，用一步转换就搞定了，既避免了传统分析-合成管线的繁琐，又天然支持流式处理，RTF低得惊人。槽点：模型严重依赖一个高质量的、特定的编解码器（SAC），这相当于把“转换”这个核心难题的部分压力转移给了“重建”，有点“站在巨人肩膀上摘苹果”的意思；此外，539M的参数量对部署场景的硬件要求可不低。 🔗 开源详情代码：论文提到“Our code and checkpoints will also be released.”，并提供了项目主页链接 https://x-vc.github.io。截至论文发布时（2026年4月），代码应已开源或即将开源，GitHub地址可能为项目主页所链接的仓库。模型权重：论文提到将发布检查点（checkpoints），预计会发布X-VC的完整模型权重。数据集：训练使用了公开的Emilia和LibriTTS数据集，以及由Seed-VC生成的配对数据。生成数据的方法已在论文中描述。预训练权重：系统基于预训练的SAC编解码器和ERes2Net说话人编码器，这些预训练模型的可用性取决于SAC等项目的开源情况。在线Demo：论文提供了音频样例链接 https://x-vc.github.io，可能包含在线演示。依赖的开源项目：论文明确依赖并引用了SAC（编解码器）、Seed-VC（用于生成训练数据）、Whisper-large-v3和Paraformer-zh（用于WER评估）、WavLM（用于说话人相似度计算）、UTMOS（用于自然度评估）。 📌 核心摘要这篇论文旨在解决零样本语音转换中高保真说话人迁移与低延迟流式推理难以兼得的核心挑战。作者提出了X-VC系统，其核心创新在于在预训练神经编解码器（SAC）的潜在空间中进行一步式语音转换，而非直接在波形或梅尔频谱图上操作。该方法通过一个双条件声学转换器，联合建模来自源语音的编解码器潜在表征（内容）和来自目标参考语音的帧级声学条件（梅尔谱）及句级说话人嵌入（身份），实现了对目标说话人细粒度和全局特征的有效利用。为减少训练与推理的不匹配，论文设计了基于生成配对数据和角色分配策略（标准、重建、反转模式）的训练范式。实验表明，X-VC在Seed-TTS-Eval基准测试中，在英语和中文的流式词错率（WER）上取得最佳，同时在同语种和跨语种场景下保持了强大的说话人相似度（SIM），其离线实时因子（RTF）远低于基线模型（0.014），证明了编解码器空间一步转换方案在构建高质量低延迟零样本语音转换系统中的实用性。 ...

语音/音频论文速递 2026-04-19

语音/音频论文速递 2026-04-19 共分析 42 篇论文 ⚡ 今日概览 📥 抓取 42 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音频理解 12篇 ████████████ #基准测试 10篇 ██████████ #音频大模型 9篇 █████████ #多模态模型 7篇 ███████ #信号处理 6篇 ██████ #强化学习 6篇 ██████ #自监督学习 6篇 ██████ #大语言模型 5篇 █████ 📊 论文评分排行榜（42 篇，按分数降序）排名论文评分 🥇 ControlFoley: Unified and Controllable Video-to-Audio G 9.2分 🥈 ClariCodec: Optimising Neural Speech Codes for 200bps C 9.0分 🥉 X-VC: Zero-shot Streaming Voice Conversion in Codec Spa 9.0分 4 Why Your Tokenizer Fails in Information Fusion: A Timin 9.0分 5 Hijacking Large Audio-Language Models via Context-Agnos 8.8分 6 UniPASE: A Generative Model for Universal Speech Enhanc 8.5分 7 VoxSafeBench: Not Just What Is Said, but Who, How, and 8.5分 8 Who is Speaking or Who is Depressed? A Controlled Study 8.5分 9 ProSDD: Learning Prosodic Representations for Speech De 8.5分 10 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 8.5分 11 Four Decades of Digital Waveguides 8.5分 12 Audio-Cogito: Towards Deep Audio Reasoning in Large Aud 8.5分 13 An Ultra-Low Latency, End-to-End Streaming Speech Synth 8.5分 14 Listen, Pause, and Reason: Toward Perception-Grounded H 8.5分 15 Geo2Sound: A Scalable Geo-Aligned Framework for Soundsc 8.5分 16 SpotSound: Enhancing Large Audio-Language Models with F 8.5分 17 Beyond Transcription: Unified Audio Schema for Percepti 8.5分 18 CoSyncDiT: Cognitive Synchronous Diffusion Transformer 8.5分 19 Diffusion Language Models for Speech Recognition 8.5分 20 WavAlign: Enhancing Intelligence and Expressiveness in 8.5分 21 AVID: A Benchmark for Omni-Modal Audio-Visual Inconsist 8.5分 22 SpeakerRPL v2: Robust Open-set Speaker Identification t 8.3分 23 Towards Fine-grained Temporal Perception: Post-Training 8.3分 24 Room compensation for loudspeaker reproduction using a 8.2分 25 StreamMark: A Deep Learning-Based Semi-Fragile Audio Wa 8.2分 26 From Reactive to Proactive: Assessing the Proactivity o 8.2分 27 Elastic Net Regularization and Gabor Dictionary for Cla 8.2分 28 Sky-Ear: An Unmanned Aerial Vehicle-Enabled Victim Soun 8.0分 29 Contextual Biasing for ASR in Speech LLM with Common Wo 8.0分 30 A Manual Bar-by-Bar Tempo Measurement Protocol for Poly 7.8分 31 Classical Machine Learning Baselines for Deepfake Audio 7.8分 32 Adaptive Test-Time Scaling for Zero-Shot Respiratory Au 7.8分 33 Dual-Axis Generative Reward Model Toward Semantic and T 7.8分 34 Tora3: Trajectory-Guided Audio-Video Generation with Ph 7.8分 35 Few-Shot and Pseudo-Label Guided Speech Quality Evaluat 7.5分 36 VoxEffects: A Speech-Oriented Audio Effects Dataset and 7.5分 37 TokenSE: a Mamba-based discrete token speech enhancemen 7.5分 38 Audio Source Separation in Reverberant Environments usi 7.5分 39 On the Distillation Loss Functions of Speech VAE for Un 7.5分 40 Listening Deepfake Detection: A New Perspective Beyond 7.5分 41 Comparison of window shapes and lengths in short-time f 6.5分 42 Transformer Based Machine Fault Detection From Audio In 6.5分 📋 论文列表 🥇 ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling 🔥 9.2分 | #音频生成 #多模态模型 #扩散模型 #基准测试 | arxiv ...