Posts

Who is Speaking or Who is Depressed? A Controlled Study of Speaker Leakage in Speech-Based Depression Detection

📄 Who is Speaking or Who is Depressed? A Controlled Study of Speaker Leakage in Speech-Based Depression Detection #语音生物标志物 #说话人识别 #领域适应 #基准测试 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：Hsiang-Chen Yeh（约翰霍普金斯大学，临床心理健康咨询系）通讯作者：Berrak Sisman（约翰霍普金斯大学，语言与语音处理中心） - 推断，基于其资深作者位置及联系邮箱 sisman@jhu.edu 其他作者： Luqi Sun（约翰霍普金斯大学，语言与语音处理中心） Aurosweta Mahapatra（约翰霍普金斯大学，语言与语音处理中心） Shreeram Suresh Chandra（约翰霍普金斯大学，语言与语音处理中心） Emily Mower Provost（密歇根大学安娜堡分校） 💡 毒舌点评亮点是狠狠戳破了语音抑郁检测领域“90%+准确率”的皇帝新衣，用一个极其简单却控制严密的实验设计，揭示了所谓“抑郁声学标志物”很大程度上只是“说话人身份特征”的华丽伪装。槽点在于，论文提出的“解药”——领域对抗训练（DANN）——疗效甚微，更像是一个诊断工具而非解决方案，最后只能无奈呼吁“请进行严格的说话人独立评估”，这多少有点把问题抛回给社区的感觉。 🔗 开源详情代码：论文标题下方有“GitHub”链接标识，但提供的HTML节选内容中未显示具体URL。论文正文中也未明确提及代码开源计划或具体仓库地址。模型权重：论文中未提及是否公开预训练或微调后的模型权重。数据集：使用公开的DAIC-WOZ数据集。预训练权重：使用了公开的预训练模型Wav2Vec 2.0和XLS-R。在线Demo：论文中未提及。引用的开源项目：OpenSMILE工具包（用于提取eGeMAPS特征）。 📌 核心摘要这篇论文的核心贡献在于系统性地揭示并量化了语音抑郁症检测模型中普遍存在的“说话人身份泄露”问题。作者指出，当前许多报告高准确率的模型，其性能可能严重依赖于对说话人身份（声纹）的记忆，而非对抑郁相关声学生物标志物的泛化学习。为证明这一点，他们提出了一种新颖的、控制训练集大小不变的“说话人重叠控制数据划分法”，并在DAIC-WOZ数据集上，对从简单到复杂的三种模型架构（Wav2Vec线性探测、XLSR-eGeMAPS拼接、Wav2Vec-SLS）进行了严格评估。实验结果一致表明：当训练集与测试集存在说话人重叠时，模型准确率虚高（例如，微调Wav2Vec模型达97.65%）；而在严格的说话人独立设置下，性能急剧下降（同一模型降至58.74%）。即使引入领域对抗神经网络（DANN）试图剥离身份信息，性能差距依然巨大。该研究强烈建议，未来的语音抑郁检测研究必须采用严格的说话人独立评估范式，以真实反映模型的临床应用潜力。 🏗️ 模型架构论文评估了三个模型家族，每个都有“原始”和“DANN增强”两种变体，整体流程如下：原始音频 -> 特征提取/编码器 -> 池化层 -> 分类器（抑郁分类，DANN变体还包含对抗性的说话人分类）。 Wav2Vec-Linear Probing 模型： ...

Why Your Tokenizer Fails in Information Fusion: A Timing-Aware Pre-Quantization Fusion for Video-Enhanced Audio Tokenization

📄 Why Your Tokenizer Fails in Information Fusion: A Timing-Aware Pre-Quantization Fusion for Video-Enhanced Audio Tokenization #多模态 #音频理解 #知识蒸馏 #音频大模型 🔥 评分：9.0/10 | arxiv 👥 作者与机构第一作者：Xiangyu Zhang（新南威尔士大学电气工程与电信学院；杜比实验室，悉尼）通讯作者：Julien Epps（新南威尔士大学电气工程与电信学院）（推断，作为最后作者及机构负责人）其他作者： Benjamin John Southwell（杜比实验室，悉尼） Siqi Pan（杜比实验室，悉尼） Xinlei Niu（杜比实验室，悉尼） Beena Ahmed（新南威尔士大学电气工程与电信学院） 💡 毒舌点评亮点：论文像一位严谨的侦探，系统性地“破案”了多模态融合在离散音频分词器中导致重建质量下降的元凶——融合位置和优化目标冲突，并给出了“预量化融合”和“知识蒸馏”这两把关键“凶器”。槽点：实验部分虽然扎实，但读起来像在啃一本厚重的实验手册，部分描述（如梯度分析）略显冗长，且主要聚焦于视频-音频融合，对其他模态组合的泛化性探讨不足，有点“偏科”。 🔗 开源详情代码：论文在标题下方提供了 GitHub Issue 链接（https://github.com/...，具体地址需从原PDF获取），并声明了 CC BY 4.0 许可。这强烈暗示代码将开源或部分开源，但论文中未提供完整的仓库地址或stars数量。模型权重：论文中未提及是否公开预训练的模型权重。数据集：实验主要使用公开的 AudioSet 和 AVQA 数据集。预训练权重：视觉编码器使用了预训练的 Perception Encoder。下游评估使用了 Llama 3.1 8B 的预训练权重。在线 Demo：论文中未提及。引用的开源项目：论文依赖或提及了多个开源项目/模型，包括 SEANet（音频编码器-解码器）、Perception Encoder（视觉特征提取）、Llama 3.1（语言模型评估基线）、CLIP（对比学习方法参考）等。 📌 核心摘要这篇论文深入探讨了在端到端音频语言模型中，将视觉信息融入音频分词器时普遍存在的“理解提升但重建质量下降”的核心矛盾。作者通过系统性实验，揭示了三个关键发现：融合位置（在量化前还是量化后）至关重要；在离散分词器中，知识蒸馏比对比学习更有效；基于时间轴的动态融合优于静态特征融合。基于此，论文提出了时间感知预量化融合（TAPF）方法，这是首个能在集成视觉信息的同时，保持高保真音频重建质量的方案。实验表明，TAPF不仅维持了重建保真度，还在下游音频理解任务（如AVQA）上显著优于单模态音频分词器和现有多种多模态融合基线，特别是在低比特率（高压缩）场景下，展现了8倍的token效率提升。 ...

X-VC: Zero-shot Streaming Voice Conversion in Codec Space

📄 X-VC: Zero-shot Streaming Voice Conversion in Codec Space #语音转换 #零样本 #流式处理 #自监督学习 🔥 评分：9.0/10 | arxiv 👥 作者与机构第一作者：Qixi Zheng (上海交通大学) 通讯作者：Xie Chen (上海交通大学，上海创新研究院) 其他作者： Yuxiang Zhao (上海交通大学) Tianrui Wang (天津大学) Wenxi Chen (上海交通大学，上海创新研究院) Kele Xu (复杂与关键软件环境国家重点实验室) Yikang Li (上海创新研究院) Qinyuan Chen (复旦大学，上海创新研究院) Xipeng Qiu (复旦大学，上海创新研究院) Kai Yu (上海交通大学) 💡 毒舌点评亮点：这篇论文最大的亮点是“化繁为简”，把复杂的零样本语音转换问题巧妙地“塞”进了一个预训练好的神经编解码器（SAC）的潜在空间里，用一步转换就搞定了，既避免了传统分析-合成管线的繁琐，又天然支持流式处理，RTF低得惊人。槽点：模型严重依赖一个高质量的、特定的编解码器（SAC），这相当于把“转换”这个核心难题的部分压力转移给了“重建”，有点“站在巨人肩膀上摘苹果”的意思；此外，539M的参数量对部署场景的硬件要求可不低。 🔗 开源详情代码：论文提到“Our code and checkpoints will also be released.”，并提供了项目主页链接 https://x-vc.github.io。截至论文发布时（2026年4月），代码应已开源或即将开源，GitHub地址可能为项目主页所链接的仓库。模型权重：论文提到将发布检查点（checkpoints），预计会发布X-VC的完整模型权重。数据集：训练使用了公开的Emilia和LibriTTS数据集，以及由Seed-VC生成的配对数据。生成数据的方法已在论文中描述。预训练权重：系统基于预训练的SAC编解码器和ERes2Net说话人编码器，这些预训练模型的可用性取决于SAC等项目的开源情况。在线Demo：论文提供了音频样例链接 https://x-vc.github.io，可能包含在线演示。依赖的开源项目：论文明确依赖并引用了SAC（编解码器）、Seed-VC（用于生成训练数据）、Whisper-large-v3和Paraformer-zh（用于WER评估）、WavLM（用于说话人相似度计算）、UTMOS（用于自然度评估）。 📌 核心摘要这篇论文旨在解决零样本语音转换中高保真说话人迁移与低延迟流式推理难以兼得的核心挑战。作者提出了X-VC系统，其核心创新在于在预训练神经编解码器（SAC）的潜在空间中进行一步式语音转换，而非直接在波形或梅尔频谱图上操作。该方法通过一个双条件声学转换器，联合建模来自源语音的编解码器潜在表征（内容）和来自目标参考语音的帧级声学条件（梅尔谱）及句级说话人嵌入（身份），实现了对目标说话人细粒度和全局特征的有效利用。为减少训练与推理的不匹配，论文设计了基于生成配对数据和角色分配策略（标准、重建、反转模式）的训练范式。实验表明，X-VC在Seed-TTS-Eval基准测试中，在英语和中文的流式词错率（WER）上取得最佳，同时在同语种和跨语种场景下保持了强大的说话人相似度（SIM），其离线实时因子（RTF）远低于基线模型（0.014），证明了编解码器空间一步转换方案在构建高质量低延迟零样本语音转换系统中的实用性。 ...

语音/音乐/音频论文速递 2026-04-19

语音/音乐/音频论文速递 2026-04-19 共分析 42 篇论文 ⚡ 今日概览 📥 抓取 42 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音频理解 12篇 ████████████ #基准测试 10篇 ██████████ #音频大模型 9篇 █████████ #多模态模型 7篇 ███████ #信号处理 6篇 ██████ #强化学习 6篇 ██████ #自监督学习 6篇 ██████ #大语言模型 5篇 █████ 📊 论文评分排行榜（42 篇，按分数降序）排名论文评分 🥇 ControlFoley: Unified and Controllable Video-to-Audio G 9.2分 🥈 ClariCodec: Optimising Neural Speech Codes for 200bps C 9.0分 🥉 X-VC: Zero-shot Streaming Voice Conversion in Codec Spa 9.0分 4 Why Your Tokenizer Fails in Information Fusion: A Timin 9.0分 5 Hijacking Large Audio-Language Models via Context-Agnos 8.8分 6 UniPASE: A Generative Model for Universal Speech Enhanc 8.5分 7 VoxSafeBench: Not Just What Is Said, but Who, How, and 8.5分 8 Who is Speaking or Who is Depressed? A Controlled Study 8.5分 9 ProSDD: Learning Prosodic Representations for Speech De 8.5分 10 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 8.5分 11 Four Decades of Digital Waveguides 8.5分 12 Audio-Cogito: Towards Deep Audio Reasoning in Large Aud 8.5分 13 An Ultra-Low Latency, End-to-End Streaming Speech Synth 8.5分 14 Listen, Pause, and Reason: Toward Perception-Grounded H 8.5分 15 Geo2Sound: A Scalable Geo-Aligned Framework for Soundsc 8.5分 16 SpotSound: Enhancing Large Audio-Language Models with F 8.5分 17 Beyond Transcription: Unified Audio Schema for Percepti 8.5分 18 CoSyncDiT: Cognitive Synchronous Diffusion Transformer 8.5分 19 Diffusion Language Models for Speech Recognition 8.5分 20 WavAlign: Enhancing Intelligence and Expressiveness in 8.5分 21 AVID: A Benchmark for Omni-Modal Audio-Visual Inconsist 8.5分 22 SpeakerRPL v2: Robust Open-set Speaker Identification t 8.3分 23 Towards Fine-grained Temporal Perception: Post-Training 8.3分 24 Room compensation for loudspeaker reproduction using a 8.2分 25 StreamMark: A Deep Learning-Based Semi-Fragile Audio Wa 8.2分 26 From Reactive to Proactive: Assessing the Proactivity o 8.2分 27 Elastic Net Regularization and Gabor Dictionary for Cla 8.2分 28 Sky-Ear: An Unmanned Aerial Vehicle-Enabled Victim Soun 8.0分 29 Contextual Biasing for ASR in Speech LLM with Common Wo 8.0分 30 A Manual Bar-by-Bar Tempo Measurement Protocol for Poly 7.8分 31 Classical Machine Learning Baselines for Deepfake Audio 7.8分 32 Adaptive Test-Time Scaling for Zero-Shot Respiratory Au 7.8分 33 Dual-Axis Generative Reward Model Toward Semantic and T 7.8分 34 Tora3: Trajectory-Guided Audio-Video Generation with Ph 7.8分 35 Few-Shot and Pseudo-Label Guided Speech Quality Evaluat 7.5分 36 VoxEffects: A Speech-Oriented Audio Effects Dataset and 7.5分 37 TokenSE: a Mamba-based discrete token speech enhancemen 7.5分 38 Audio Source Separation in Reverberant Environments usi 7.5分 39 On the Distillation Loss Functions of Speech VAE for Un 7.5分 40 Listening Deepfake Detection: A New Perspective Beyond 7.5分 41 Comparison of window shapes and lengths in short-time f 6.5分 42 Transformer Based Machine Fault Detection From Audio In 6.5分 📋 论文列表 🥇 ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling 🔥 9.2分 | #音频生成 #多模态模型 #扩散模型 #基准测试 | arxiv ...

语音/音乐/音频论文速递 2026-04-18

语音/音乐/音频论文速递 2026-04-18 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #基准测试 11篇 ███████████ #音频理解 10篇 ██████████ #数据集 7篇 ███████ #音频大模型 7篇 ███████ #大语言模型 6篇 ██████ #信号处理 6篇 ██████ #音频生成 5篇 █████ #音频分类 5篇 █████ 🏆 高分论文 TOP 10 排名论文评分 🥇 StreamMark: A Deep Learning-Based Semi-Fragile Audio Wa 9.2分 🥈 A Manual Bar-by-Bar Tempo Measurement Protocol for Poly 8.5分 🥉 ClariCodec: Optimising Neural Speech Codes for 200bps C 8.5分 4 UniPASE: A Generative Model for Universal Speech Enhanc 8.5分 5 Who is Speaking or Who is Depressed? A Controlled Study 8.5分 6 SpeakerRPL v2: Robust Open-set Speaker Identification t 8.5分 7 ProSDD: Learning Prosodic Representations for Speech De 8.5分 8 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 8.5分 9 X-VC: Zero-shot Streaming Voice Conversion in Codec Spa 8.5分 10 An Ultra-Low Latency, End-to-End Streaming Speech Synth 8.5分 📄 StreamMark: A Deep Learning-Based Semi-Fragile Audio Watermarking for Proactive Deepfake Detection #音频安全 #音频深度伪造检测 #语音伪造检测 #基准测试 ...