Why Your Tokenizer Fails in Information Fusion: A Timing-Aware Pre-Quantization Fusion for Video-Enhanced Audio Tokenization

📄 Why Your Tokenizer Fails in Information Fusion: A Timing-Aware Pre-Quantization Fusion for Video-Enhanced Audio Tokenization #多模态 #音频理解 #知识蒸馏 #音频大模型 🔥 评分:9.0/10 | arxiv 👥 作者与机构 第一作者:Xiangyu Zhang(新南威尔士大学电气工程与电信学院;杜比实验室,悉尼) 通讯作者:Julien Epps(新南威尔士大学电气工程与电信学院)(推断,作为最后作者及机构负责人) 其他作者: Benjamin John Southwell(杜比实验室,悉尼) Siqi Pan(杜比实验室,悉尼) Xinlei Niu(杜比实验室,悉尼) Beena Ahmed(新南威尔士大学电气工程与电信学院) 💡 毒舌点评 亮点:论文像一位严谨的侦探,系统性地“破案”了多模态融合在离散音频分词器中导致重建质量下降的元凶——融合位置和优化目标冲突,并给出了“预量化融合”和“知识蒸馏”这两把关键“凶器”。槽点:实验部分虽然扎实,但读起来像在啃一本厚重的实验手册,部分描述(如梯度分析)略显冗长,且主要聚焦于视频-音频融合,对其他模态组合的泛化性探讨不足,有点“偏科”。 🔗 开源详情 代码:论文在标题下方提供了 GitHub Issue 链接(https://github.com/...,具体地址需从原PDF获取),并声明了 CC BY 4.0 许可。这强烈暗示代码将开源或部分开源,但论文中未提供完整的仓库地址或stars数量。 模型权重:论文中未提及是否公开预训练的模型权重。 数据集:实验主要使用公开的 AudioSet 和 AVQA 数据集。 预训练权重:视觉编码器使用了预训练的 Perception Encoder。下游评估使用了 Llama 3.1 8B 的预训练权重。 在线 Demo:论文中未提及。 引用的开源项目:论文依赖或提及了多个开源项目/模型,包括 SEANet(音频编码器-解码器)、Perception Encoder(视觉特征提取)、Llama 3.1(语言模型评估基线)、CLIP(对比学习方法参考)等。 📌 核心摘要 这篇论文深入探讨了在端到端音频语言模型中,将视觉信息融入音频分词器时普遍存在的“理解提升但重建质量下降”的核心矛盾。作者通过系统性实验,揭示了三个关键发现:融合位置(在量化前还是量化后)至关重要;在离散分词器中,知识蒸馏比对比学习更有效;基于时间轴的动态融合优于静态特征融合。基于此,论文提出了时间感知预量化融合(TAPF) 方法,这是首个能在集成视觉信息的同时,保持高保真音频重建质量的方案。实验表明,TAPF不仅维持了重建保真度,还在下游音频理解任务(如AVQA)上显著优于单模态音频分词器和现有多种多模态融合基线,特别是在低比特率(高压缩)场景下,展现了8倍的token效率提升。 ...

2026-04-19 · 更新于 2026-06-25 · 3 min · 503 words

X-VC: Zero-shot Streaming Voice Conversion in Codec Space

📄 X-VC: Zero-shot Streaming Voice Conversion in Codec Space #语音转换 #零样本 #流式处理 #自监督学习 🔥 评分:9.0/10 | arxiv 👥 作者与机构 第一作者:Qixi Zheng (上海交通大学) 通讯作者:Xie Chen (上海交通大学,上海创新研究院) 其他作者: Yuxiang Zhao (上海交通大学) Tianrui Wang (天津大学) Wenxi Chen (上海交通大学,上海创新研究院) Kele Xu (复杂与关键软件环境国家重点实验室) Yikang Li (上海创新研究院) Qinyuan Chen (复旦大学,上海创新研究院) Xipeng Qiu (复旦大学,上海创新研究院) Kai Yu (上海交通大学) 💡 毒舌点评 亮点:这篇论文最大的亮点是“化繁为简”,把复杂的零样本语音转换问题巧妙地“塞”进了一个预训练好的神经编解码器(SAC)的潜在空间里,用一步转换就搞定了,既避免了传统分析-合成管线的繁琐,又天然支持流式处理,RTF低得惊人。槽点:模型严重依赖一个高质量的、特定的编解码器(SAC),这相当于把“转换”这个核心难题的部分压力转移给了“重建”,有点“站在巨人肩膀上摘苹果”的意思;此外,539M的参数量对部署场景的硬件要求可不低。 🔗 开源详情 代码:论文提到“Our code and checkpoints will also be released.”,并提供了项目主页链接 https://x-vc.github.io。截至论文发布时(2026年4月),代码应已开源或即将开源,GitHub地址可能为项目主页所链接的仓库。 模型权重:论文提到将发布检查点(checkpoints),预计会发布X-VC的完整模型权重。 数据集:训练使用了公开的Emilia和LibriTTS数据集,以及由Seed-VC生成的配对数据。生成数据的方法已在论文中描述。 预训练权重:系统基于预训练的SAC编解码器和ERes2Net说话人编码器,这些预训练模型的可用性取决于SAC等项目的开源情况。 在线Demo:论文提供了音频样例链接 https://x-vc.github.io,可能包含在线演示。 依赖的开源项目:论文明确依赖并引用了SAC(编解码器)、Seed-VC(用于生成训练数据)、Whisper-large-v3和Paraformer-zh(用于WER评估)、WavLM(用于说话人相似度计算)、UTMOS(用于自然度评估)。 📌 核心摘要 这篇论文旨在解决零样本语音转换中高保真说话人迁移与低延迟流式推理难以兼得的核心挑战。作者提出了X-VC系统,其核心创新在于在预训练神经编解码器(SAC)的潜在空间中进行一步式语音转换,而非直接在波形或梅尔频谱图上操作。该方法通过一个双条件声学转换器,联合建模来自源语音的编解码器潜在表征(内容)和来自目标参考语音的帧级声学条件(梅尔谱)及句级说话人嵌入(身份),实现了对目标说话人细粒度和全局特征的有效利用。为减少训练与推理的不匹配,论文设计了基于生成配对数据和角色分配策略(标准、重建、反转模式)的训练范式。实验表明,X-VC在Seed-TTS-Eval基准测试中,在英语和中文的流式词错率(WER) 上取得最佳,同时在同语种和跨语种场景下保持了强大的说话人相似度(SIM),其离线实时因子(RTF) 远低于基线模型(0.014),证明了编解码器空间一步转换方案在构建高质量低延迟零样本语音转换系统中的实用性。 ...

2026-04-19 · 更新于 2026-06-25 · 2 min · 371 words

语音/音乐/音频论文速递 2026-04-19

语音/音乐/音频论文速递 2026-04-19 共分析 42 篇论文 ⚡ 今日概览 📥 抓取 42 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音频理解 12篇 ████████████ #基准测试 10篇 ██████████ #音频大模型 9篇 █████████ #多模态模型 7篇 ███████ #信号处理 6篇 ██████ #强化学习 6篇 ██████ #自监督学习 6篇 ██████ #大语言模型 5篇 █████ 📊 论文评分排行榜(42 篇,按分数降序) 排名 论文 评分 🥇 ControlFoley: Unified and Controllable Video-to-Audio G 9.2分 🥈 ClariCodec: Optimising Neural Speech Codes for 200bps C 9.0分 🥉 X-VC: Zero-shot Streaming Voice Conversion in Codec Spa 9.0分 4 Why Your Tokenizer Fails in Information Fusion: A Timin 9.0分 5 Hijacking Large Audio-Language Models via Context-Agnos 8.8分 6 UniPASE: A Generative Model for Universal Speech Enhanc 8.5分 7 VoxSafeBench: Not Just What Is Said, but Who, How, and 8.5分 8 Who is Speaking or Who is Depressed? A Controlled Study 8.5分 9 ProSDD: Learning Prosodic Representations for Speech De 8.5分 10 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 8.5分 11 Four Decades of Digital Waveguides 8.5分 12 Audio-Cogito: Towards Deep Audio Reasoning in Large Aud 8.5分 13 An Ultra-Low Latency, End-to-End Streaming Speech Synth 8.5分 14 Listen, Pause, and Reason: Toward Perception-Grounded H 8.5分 15 Geo2Sound: A Scalable Geo-Aligned Framework for Soundsc 8.5分 16 SpotSound: Enhancing Large Audio-Language Models with F 8.5分 17 Beyond Transcription: Unified Audio Schema for Percepti 8.5分 18 CoSyncDiT: Cognitive Synchronous Diffusion Transformer 8.5分 19 Diffusion Language Models for Speech Recognition 8.5分 20 WavAlign: Enhancing Intelligence and Expressiveness in 8.5分 21 AVID: A Benchmark for Omni-Modal Audio-Visual Inconsist 8.5分 22 SpeakerRPL v2: Robust Open-set Speaker Identification t 8.3分 23 Towards Fine-grained Temporal Perception: Post-Training 8.3分 24 Room compensation for loudspeaker reproduction using a 8.2分 25 StreamMark: A Deep Learning-Based Semi-Fragile Audio Wa 8.2分 26 From Reactive to Proactive: Assessing the Proactivity o 8.2分 27 Elastic Net Regularization and Gabor Dictionary for Cla 8.2分 28 Sky-Ear: An Unmanned Aerial Vehicle-Enabled Victim Soun 8.0分 29 Contextual Biasing for ASR in Speech LLM with Common Wo 8.0分 30 A Manual Bar-by-Bar Tempo Measurement Protocol for Poly 7.8分 31 Classical Machine Learning Baselines for Deepfake Audio 7.8分 32 Adaptive Test-Time Scaling for Zero-Shot Respiratory Au 7.8分 33 Dual-Axis Generative Reward Model Toward Semantic and T 7.8分 34 Tora3: Trajectory-Guided Audio-Video Generation with Ph 7.8分 35 Few-Shot and Pseudo-Label Guided Speech Quality Evaluat 7.5分 36 VoxEffects: A Speech-Oriented Audio Effects Dataset and 7.5分 37 TokenSE: a Mamba-based discrete token speech enhancemen 7.5分 38 Audio Source Separation in Reverberant Environments usi 7.5分 39 On the Distillation Loss Functions of Speech VAE for Un 7.5分 40 Listening Deepfake Detection: A New Perspective Beyond 7.5分 41 Comparison of window shapes and lengths in short-time f 6.5分 42 Transformer Based Machine Fault Detection From Audio In 6.5分 📋 论文列表 🥇 ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling 🔥 9.2分 | #音频生成 #多模态模型 #扩散模型 #基准测试 | arxiv ...

2026-04-19 · 更新于 2026-06-25 · 15 min · 3104 words

语音/音乐/音频论文速递 2026-04-18

语音/音乐/音频论文速递 2026-04-18 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #基准测试 11篇 ███████████ #音频理解 10篇 ██████████ #数据集 7篇 ███████ #音频大模型 7篇 ███████ #大语言模型 6篇 ██████ #信号处理 6篇 ██████ #音频生成 5篇 █████ #音频分类 5篇 █████ 🏆 高分论文 TOP 10 排名 论文 评分 🥇 StreamMark: A Deep Learning-Based Semi-Fragile Audio Wa 9.2分 🥈 A Manual Bar-by-Bar Tempo Measurement Protocol for Poly 8.5分 🥉 ClariCodec: Optimising Neural Speech Codes for 200bps C 8.5分 4 UniPASE: A Generative Model for Universal Speech Enhanc 8.5分 5 Who is Speaking or Who is Depressed? A Controlled Study 8.5分 6 SpeakerRPL v2: Robust Open-set Speaker Identification t 8.5分 7 ProSDD: Learning Prosodic Representations for Speech De 8.5分 8 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 8.5分 9 X-VC: Zero-shot Streaming Voice Conversion in Codec Spa 8.5分 10 An Ultra-Low Latency, End-to-End Streaming Speech Synth 8.5分 📄 StreamMark: A Deep Learning-Based Semi-Fragile Audio Watermarking for Proactive Deepfake Detection #音频安全 #音频深度伪造检测 #语音伪造检测 #基准测试 ...

2026-04-18 · 更新于 2026-06-25 · 43 min · 9080 words