PairAlign: A Framework for Sequence Tokenization via Self-Alignment with Applications to Audio Tokenization

📄 PairAlign: A Framework for Sequence Tokenization via Self-Alignment with Applications to Audio Tokenization #音频编码 #自监督学习 #序列生成 #对比学习 #语音表示学习 ✅ 7.0/10 | 前25% | #音频编码 | #自监督学习 | #序列生成 #对比学习 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Adhiraj Banerjee(印度理工学院坎普尔分校电气工程系) 通讯作者:Vipul Arora(印度理工学院坎普尔分校电气工程系) 作者列表:Adhiraj Banerjee(印度理工学院坎普尔分校电气工程系)、Vipul Arora(印度理工学院坎普尔分校电气工程系) 💡 毒舌点评 这篇论文为音频Tokenization提供了一个新颖且严谨的理论视角,将“对齐”的概念从行为调整提升到了构建符号接口本身,其三阶段训练流程和反解码器绕过的设计展现了方法上的巧思。然而,方法复杂度极高,且严重缺乏开源,实验又局限于3秒短时语音片段和特定的检索任务,使得这项精致的学术探索目前距离成为音频领域的实用基础设施还有很长的路要走。 📌 核心摘要 解决的问题:现有音频Tokenization方法(如VQ、Codec)主要基于帧级或短窗口的局部几何分配,导致生成的符号序列在全局性质(如跨实现一致性、紧凑性、编辑距离几何)上并非优化目标,限制了其在检索、比较等序列级任务中的表现。 方法核心:提出PairAlign框架,将音频Tokenization建模为条件序列生成问题。其核心是利用自监督学习中的“跨视图”思想,训练一个编码器-自回归解码器模型,使得同一内容不同声学实现的两个视图,其生成的Token序列能在对方的编码器表示下获得高条件似然,同时与不相关样本的序列区分开。 与已有方法相比新在哪里:不同于将Token序列视为固定帧率量化结果的传统方法,PairAlign直接学习Token身份、顺序、长度和终止符号(EOS)。它不直接优化编辑距离,而是利用互预测似然作为可微代理。其三阶段训练(从确定性VQ教师到EMA自对齐教师)和一系列稳定化技术(前缀损坏、编码器摘要偏差、结构化自注意力丢弃等)是其方法论上的主要创新。 主要实验结果:在LibriSpeech和TIMIT数据集的3秒语音片段上,PairAlign生成的Token序列比几何基线短约55-67%,同时保持了相似或更高的跨视图编辑相似度。具体而言,在TIMIT上,PairAlign的平均编辑相似度为0.691(基线为0.616),序列长度从78.65降至26.19。检索实验显示,在将档案Token总量减少约55%的情况下,仍能保持有效的编辑距离检索能力(Recall@1约为0.71)。连续扫描分析表明,PairAlign的Token序列在100ms窗口滑动下表现出更小的绝对编辑操作次数和长度变化,尽管其归一化Token重叠率较低。 数据集 模型 编辑相似度 平均序列长度 精确匹配率 LibriSpeech-100 Stage I Geometric 0.609 92.09 0.264 LibriSpeech-100 PairAlign 0.630 35.55 0.291 TIMIT Stage I Geometric 0.616 78.65 0.267 TIMIT PairAlign 0.691 26.19 0.301 实际意义:该工作为构建更“序列感知”的音频符号接口提供了新思路,可能启发未来在低资源检索、符号化音频编辑或作为生成模型更好前端等方面的研究。它强调了Token序列本身的结构可以作为学习目标。 主要局限性:模型复杂,训练涉及多个阶段和多种正则化技巧;实验主要集中在短时(3秒)语音片段和检索任务,未在长语音、音乐或多模态任务上验证;学习到的Token符号不具有明确的音素或单词等语言学意义解释;为了紧凑性牺牲了原生的帧级时序信息,需后处理恢复时间戳;缺乏与最先进音频编解码器(如EnCodec, DAC)的直接对比。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及。 数据集: LibriSpeech (Panayotov et al., 2015):用于模型训练和评估。数据集由LDC发布,可通过访问以下链接获取详细信息及下载:https://www.openslr.org/12 (开源语音识别资源库)。 TIMIT (Garofolo et al., 1993):作为跨语料库评估集使用。可通过LDC(LDC93S1)或NIST网站获取。 Demo:论文中未提及。 复现材料:论文中未提供模型检查点、训练配置文件或详细复现脚本的下载链接。论文详细描述了三阶段训练流程(Stage I, II, III)及关键超参数(如码本大小|𝒜|=512,解码束宽K,重复惩罚γ,长度约束比率ρ等),为复现提供了详细的方法论基础。 论文中引用的开源项目: SoundStream (Zeghidour et al., 2021): https://github.com/google-deepmind/soundstream EnCodec (Défossez et al., 2022): https://github.com/facebookresearch/encodec Descript Audio Codec (DAC) (Kumar et al., 2023): https://github.com/descriptinc/descript-audio-codec vq-wav2vec (Baevski et al., 2019): https://github.com/facebookresearch/vq-wav2vec HuBERT (Hsu et al., 2021): https://github.com/facebookresearch/hubert w2v-BERT (Chung et al., 2021): https://github.com/facebookresearch/wav2vec/blob/main/examples/hubert/README.md (相关模型,如wav2vec 2.0) SpeechTokenizer (Zhang et al., 2023a): https://github.com/jishengpeng/SpeechTokenizer FACodec (Ju et al., 2024): https://github.com/FunAudioLLM/CosyVoice (其核心代码仓库,论文提及) AudioLM (Borsos et al., 2023): https://github.com/google-research/google-research/tree/master/audiolm (相关研究) MusicLM (Agostinelli et al., 2023): 未提及明确代码仓库,但研究由Google发布。 AudioGen (Kreuk et al., 2022): https://github.com/facebookresearch/audiocraft (Meta的audiocraft库包含AudioGen) MusicGen (Copet et al., 2023): https://github.com/facebookresearch/audiocraft (Meta的audiocraft库包含MusicGen) VALL-E (Wang et al., 2023a): https://github.com/microsoft/UniAudio (论文提及的后续工作UniAudio) wav2tok (Banerjee & Arora, 2022): https://github.com/adhirajbanerjee35/wav2tok BEST-STD (Singh et al., 2025a): https://github.com/ShivamS2022/BEST-STD Mamba (Dao & Gu, 2024): https://github.com/state-spaces/mamba Whisper (Radford et al., 2023): https://github.com/openai/whisper 🏗️ 方法概述和架构 整体流程概述:PairAlign是一个用于从连续音频学习紧凑离散Token序列的自监督框架。其核心流程是:输入一段音频,通过一个编码器得到连续表示;然后,一个自回归解码器以该表示为条件,从BOS开始逐步生成完整的Token序列,直到发出EOS。整个系统通过跨视图自对齐进行训练,即对于同一音频的两个声学增强视图,训练目标是让一个视图的编码器表示能够高概率生成另一个视图的Token序列,反之亦然。 ...

2026-05-08 · 更新于 2026-05-19 · 3 min · 566 words

Arbitrarily Settable Frame Rate Neural Speech Codec with Content Adaptive Variable Length Segmentation

📄 Arbitrarily Settable Frame Rate Neural Speech Codec with Content Adaptive Variable Length Segmentation #音频生成 #神经语音编解码 #可变帧率 #语音表示学习 ✅ 7.0/10 | 前25% | #音频生成 | #神经语音编解码 | #可变帧率 #语音表示学习 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yukun Qian (哈尔滨工业大学深圳) 通讯作者:Mingjiang Wang (哈尔滨工业大学深圳,mjwang@hit.edu.cn) 作者列表:Yukun Qian (哈尔滨工业大学深圳)、Wenjie Zhang (哈尔滨工业大学深圳)、Xuyi Zhuang (哈尔滨工业大学深圳)、Shiyun Xu (哈尔滨工业大学深圳)、Lianyu Zhou (哈尔滨工业大学深圳)、Mingjiang Wang (哈尔滨工业大学深圳,通讯作者) 💡 毒舌点评 亮点在于它巧妙地用Viterbi算法将“帧率”这个连续可调参数转化为了一个全局优化问题,这在工程上非常优雅,且实验表明在低帧率场景下确实比固定帧率的SOTA更抗造。短板则是这篇论文的“任意帧率”听起来很酷,但Viterbi算法的动态规划在超长音频或实时流式场景下的计算开销和时延问题被轻描淡写了,这可能限制其在某些实际部署中的应用。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用公开的LibriSpeech和LibriLight数据集。 Demo:未提及在线演示。 复现材料:提供了详细的训练配置(数据集、裁剪长度、帧率采样范围、优化器、学习率、硬件),但未提供检查点或更详细的超参数(如RVQ码本数量、Transformer具体配置)。 论文中引用的开源项目:明确基于并比较了DAC [8] 和VRVQ [22] 的架构。 📌 核心摘要 要解决什么问题:当前主流的基于残差向量量化(RVQ)的神经语音编解码器采用固定帧率,导致在处理静音或简单音频段时效率低下,造成序列冗余,无法根据内容重要性动态分配码率。 方法核心是什么:提出了内容自适应变长分段(CAVLS)框架。该框架首先用帧评分编码器为每个潜在表示帧打分,然后根据目标帧率,利用Viterbi动态规划算法将相似的相邻帧合并为可变长度的段,实现可变帧率(VFR)。段表示经过RVQ量化后,由带有FiLM调制的上下文段解码器利用局部上下文信息重建原始帧序列。 与已有方法相比新在哪里:与固定帧率(CFR)的DAC、VRVQ等模型相比,CAVLS首次在基于RVQ的语音编解码器中实现了真正意义上由内容驱动的可变帧率,允许用户指定任意目标帧率,而非仅改变码本数量(VRVQ)或多尺度网络(TFC)。 主要实验结果如何:在匹配比特率(图2a)和匹配帧率(图2b)的对比中,CAVLS在高帧率/高码率时与基线(DAC, VRVQ)持平,但在低帧率/低码率时显著优于基线。例如,在1 kbps码率下,CAVLS的UTMOS分数仅比高码率时下降0.2,而VRVQ已跌破3分。消融实验(表1)显示移除段编码器对性能影响最大。 实际意义是什么:为神经语音编解码提供了更高的灵活性和效率,尤其适用于带宽受限的场景(如12.5 Hz的超低帧率传输)。其变帧率表示也可能为下游的语音语言模型提供更紧凑、信息密度更高的离散单元。 主要局限性是什么:论文中未讨论Viterbi算法在极长音频序列上的计算复杂度和实时流式应用的可行性;STE在训练中的稳定性影响未深入分析;生成的可变帧率表示是否完全兼容现有依赖固定帧率的下游任务(如某些语音合成模型)也未探讨。 🏗️ 模型架构 CAVLS建立在标准的RVQ-GAN编解码框架之上,核心创新在于编码和解码阶段引入了动态分段机制。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 320 words

Cross-Architecture Knowledge Distillation of WavLM for Lightweight Speaker Verification

📄 Cross-Architecture Knowledge Distillation of WavLM for Lightweight Speaker Verification #说话人验证 #知识蒸馏 #自监督学习 #模型压缩 #语音表示学习 🔥 8.0/10 | 前25% | #说话人验证 | #知识蒸馏 | #自监督学习 #模型压缩 学术质量 6.5/7 | 选题价值 7.0/2 | 复现加成 8.0 | 置信度 高 👥 作者与机构 第一作者:Jungwoo Heo (University of Seoul, Republic of Korea) 通讯作者:Ha-Jin Yu (University of Seoul, Republic of Korea) 作者列表:Jungwoo Heo (University of Seoul, Republic of Korea)、Hyun-seo Shin (University of Seoul, Republic of Korea)、Chan-yeong Lim (University of Seoul, Republic of Korea)、Kyowon Koo (University of Seoul, Republic of Korea)、Seung-bin Kim (University of Seoul, Republic of Korea)、Jisoo Son (University of Seoul, Republic of Korea)、Kyung Wha Kim (Supreme Prosecutors’ Office Republic of Korea)、Ha-Jin Yu (University of Seoul, Republic of Korea) 💡 毒舌点评 这篇论文精准地切中了当前自监督语音模型“大而不能用”的痛点,其提出的任务引导学习(TGL)和代理对齐蒸馏(PAD)组合拳,确实为异构架构间的知识传递提供了系统化的解决方案,在VoxCeleb和VoxSRC等标准基准上取得了令人印象深刻的性能提升。然而,实验部分主要围绕其自身方法的变体展开,与当前最前沿的、同样专注于轻量化或高效说话人验证的最新方法(如2025年的SEED, LAP等)的横向对比深度稍显不足,使得其“最佳”地位的论证链条不够完整。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 376 words

ICASSP 2026 - 语音表示学习 论文列表

ICASSP 2026 - 语音表示学习 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Phonological Tokenizer: Prosody-Aware Phonetic Token Via Mul 8.0分 前25% 📋 论文详情 🥇 Phonological Tokenizer: Prosody-Aware Phonetic Token Via Multi-Objective Fine-Tuning with Differentiable K-Means 🔥 8.0/10 | 前25% | #语音表示学习 | #离散token | #多任务学习 #自监督学习 👥 作者与机构 第一作者:Kentaro Onda(东京大学, 索尼集团) 通讯作者:未说明 作者列表:Kentaro Onda(东京大学, 索尼集团)、Hayato Futami(索尼集团)、Yosuke Kashiwagi(索尼集团)、Emiru Tsunoo(索尼集团)、Shinji Watanabe(卡内基梅隆大学) 💡 毒舌点评 这篇论文的亮点在于其巧妙地利用多目标优化和可微分k-means,在理论上“纯净”的语音学token和“丰富”的声学token之间找到了一个实用且性能优异的平衡点,尤其在情感识别和语音转换等韵律敏感任务上取得了显著提升。然而,其短板在于对“不同iable k-means”这一核心工具的离散化本质在端到端训练中可能带来的优化挑战(如梯度估计方差)探讨不足,且虽然声码器使用了预训练说话人编码器进行条件化以“剥离”说话人信息,但这种剥离是否彻底以及对下游任务的潜在影响分析不够深入。 🔗 开源详情 代码:论文中未提及代码仓库链接。方法基于ESPnet工具包实现。 模型权重:未提及是否公开微调后的模型权重。 数据集:使用了VCTK, LibriSpeech, RAVDESS, VoxCeleb, LJSpeech, TIMIT, Expresso, LibriLight等公开数据集,获取方式见各自官网。 Demo:提供了在线演示网站:https://ondatk68.github.io/onda-demo/projects/phonological-tokenizer。 复现材料:给出了部分训练细节(如两阶段训练、学习率、epoch数、α值),但未提供完整的配置文件、检查点或详细的超参数列表。 论文中引用的开源项目:ESPnet, HiFi-GAN(ParallelWaveGAN), ECAPA-TDNN(SpeechBrain), WavLM, Qwen2.5, Llama-3.2等。 📌 核心摘要 ...

2026-04-29 · 更新于 2026-05-19 · 1 min · 170 words

Phonological Tokenizer: Prosody-Aware Phonetic Token Via Multi-Objective Fine-Tuning with Differentiable K-Means

📄 Phonological Tokenizer: Prosody-Aware Phonetic Token Via Multi-Objective Fine-Tuning with Differentiable K-Means #语音表示学习 #离散token #多任务学习 #自监督学习 #语音合成 🔥 8.0/10 | 前25% | #语音表示学习 | #离散token | #多任务学习 #自监督学习 学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Kentaro Onda(东京大学, 索尼集团) 通讯作者:未说明 作者列表:Kentaro Onda(东京大学, 索尼集团)、Hayato Futami(索尼集团)、Yosuke Kashiwagi(索尼集团)、Emiru Tsunoo(索尼集团)、Shinji Watanabe(卡内基梅隆大学) 💡 毒舌点评 这篇论文的亮点在于其巧妙地利用多目标优化和可微分k-means,在理论上“纯净”的语音学token和“丰富”的声学token之间找到了一个实用且性能优异的平衡点,尤其在情感识别和语音转换等韵律敏感任务上取得了显著提升。然而,其短板在于对“不同iable k-means”这一核心工具的离散化本质在端到端训练中可能带来的优化挑战(如梯度估计方差)探讨不足,且虽然声码器使用了预训练说话人编码器进行条件化以“剥离”说话人信息,但这种剥离是否彻底以及对下游任务的潜在影响分析不够深入。 🔗 开源详情 代码:论文中未提及代码仓库链接。方法基于ESPnet工具包实现。 模型权重:未提及是否公开微调后的模型权重。 数据集:使用了VCTK, LibriSpeech, RAVDESS, VoxCeleb, LJSpeech, TIMIT, Expresso, LibriLight等公开数据集,获取方式见各自官网。 Demo:提供了在线演示网站:https://ondatk68.github.io/onda-demo/projects/phonological-tokenizer。 复现材料:给出了部分训练细节(如两阶段训练、学习率、epoch数、α值),但未提供完整的配置文件、检查点或详细的超参数列表。 论文中引用的开源项目:ESPnet, HiFi-GAN(ParallelWaveGAN), ECAPA-TDNN(SpeechBrain), WavLM, Qwen2.5, Llama-3.2等。 📌 核心摘要 要解决的问题:现有的离散语音token(声学token和语音学token)要么保留过多冗余声学信息(如说话人身份),要么过度抽象丢失关键的韵律信息,都不适合作为语音语言模型(speechLMs)的理想输入。 方法核心:提出“音韵Tokenizer”,通过多目标微调预训练的语音学token。核心是使用可微分k-means,联合优化ASR损失(鼓励语言信息)和语音重建损失(鼓励声学细节),并在重建时通过外部说话人编码器提供说话人嵌入以辅助信息解耦。 与已有方法相比新在哪里:相较于多码本的混合token(如SpeechTokenizer),本方法实现单码本高效率;相较于仅用ASR优化的语音学token,本方法引入了重建目标以保留韵律;相较于声学token,本方法能有效去除说话人信息。其创新在于利用可微分k-means的灵活性,在单一框架内实现了token属性的精细平衡。 主要实验结果: 在判别任务上,其情感识别(ER)准确率(51.7%)远超所有基线;语音识别(WER 4.6/8.5)接近最强语音学基线;说话人识别(SID)准确率(29.5%)与语音学基线相当,表明成功保留了韵律、语言信息并抑制了说话人信息。 在生成任务上,在域外(TIMIT)语音转换中,其源语音F0相关性(0.456)和自然度(UTMOS 3.88)均优于基线,且保持了较低的目标说话人相似度(SpkSim 0.762),体现了内容/韵律保持与说话人解耦的平衡。 在speechLM任务中,其生成语音的自然度(UTMOS 3.86)和生成困惑度(GenPPL 5.60)均为最佳。 模型 ASR WER (↓) ER Acc. (↑) SID Acc. (↑) TIMIT VC F0 corr. (↑) TIMIT VC UTMOS (↑) SpeechLM GenPPL (↓) SpeechLM UTMOS (↑) Discrete WavLM (phonetic) 4.3/ 7.1 41.7 27.7 0.371 3.63 5.81 3.60 SpeechTokenizer (hybrid) 9.3/23.5 39.2 29.1 0.383 3.53 5.73 3.64 WavTokenizer (acoustic) 96.7/96.8 24.2 82.7 0.356 2.02 6.34 2.57 Proposed (α=0.1) 4.6/ 8.5 51.7 29.5 0.456 3.88 5.60 3.86 实际意义:为构建更接近人类语音处理机制(兼顾内容与韵律、抽象不必要细节)的speechLM提供了高效的离散表示基础,且单码本设计简化了下游模型架构。 主要局限性:论文未与最新的、强大的声学token(如基于RVQ的codec)在重建保真度上进行全面对比(仅与WavTokenizer对比),其“保留韵律”和“去除说话人”的边界和泛化能力在更多样化数据上仍需验证;训练过程涉及多个复杂模块(SSL, ASR, Vocoder)的联合优化,工程实现和调参可能具有一定挑战。 🏗️ 模型架构 Phonological Tokenizer的整体架构如图1所示,其核心目标是微调预训练的语音学token。 ...

2026-04-29 · 更新于 2026-05-19 · 3 min · 510 words

The Role of Prosodic and Lexical Cues in Turn-Taking with Self-Supervised Speech Representations

📄 The Role of Prosodic and Lexical Cues in Turn-Taking with Self-Supervised Speech Representations #语音对话系统 #自监督学习 #语音活动检测 #语音表示学习 ✅ 7.5/10 | 前25% | #语音对话系统 | #自监督学习 | #语音活动检测 #语音表示学习 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Sam O’Connor Russell(都柏林三一学院工程学院) 通讯作者:未说明 作者列表:Sam O’Connor Russell(都柏林三一学院工程学院)、Delphine Charuau(都柏林三一学院工程学院)、Naomi Harte(都柏林三一学院工程学院) 💡 毒舌点评 本文巧妙地将神经科学中的“声音相关噪声”范式移植到语音轮次预测的可解释性分析中,像做手术一样干净地分离了韵律和词汇线索,方法论上值得称赞。然而,结论“仅韵律就够了”可能过于乐观,毕竟实验中的“韵律匹配噪声”在真实世界的噪声环境下难以复现,且模型在复杂对话场景中是否仍能如此可靠地依赖单一线索存疑。 🔗 开源详情 代码:论文中提供了代码仓库链接:github.com/russelsa/noise_generation_ICASSP-。 模型权重:未提及是否公开预训练好的VAP模型或S3R权重。 数据集:使用CANDOR语料库,论文未提及是否提供处理后的数据版本或获取方式。 Demo:未提及。 复现材料:论文详细说明了训练超参数(学习率、batch size、epoch数)、vocoder参数、评估指标和划分方法,提供了充分的复现细节。 引用的开源项目:主要依赖WORLD vocoder、Whisper(用于计算WER)、CPC和wav2vec 2.0预训练模型。 📌 核心摘要 要解决的问题:基于自监督语音表示(S3R)的轮次预测模型性能优异,但其决策依赖于语音中的哪些线索(韵律 vs. 词汇)尚不清楚,这限制了模型的可解释性、隐私保护和轻量化潜力。 方法核心:引入一种基于WORLD vocoder的控制方法,能够干净地生成仅保留韵律(去除词汇可懂度)或仅保留词汇(平滑韵律)的语音,用于系统性地探究S3R模型(主要是VAP模型)的线索依赖关系。 与已有方法相比新在哪里:不同于以往通过简单滤波或添加背景噪声(会同时破坏多种线索)的研究,该方法能独立、可控地操纵语音的韵律和词汇成分,提供了更干净的实验条件。研究范围从单一S3R(CPC)扩展到了wav2vec2.0,增强了结论的普适性。 主要实验结果: 在纯净语音上训练的VAP模型,在测试时面对仅保留韵律的噪声语音(WER>100%),仍能保持较高的轮次预测准确率(S/H-Pred平衡准确率≈70%,见表2),接近纯净语音性能的91%(图4)。 相反,去除韵律(平滑音高和强度)后,性能虽下降但仍显著高于随机水平(表2)。 当一种线索被破坏时,模型无需重新训练即可利用另一种线索,证明两种线索在S3R编码中相互独立(图2)。这一结论在wav2vec2.0前端上同样成立。 实际意义:该发现为设计轻量化、仅依赖韵律的轮次预测模型提供了理论支持,此类模型具有计算高效和保护语音隐私(去除可识别词汇内容)的双重优势。 主要局限性:研究仅在英语对话语料库(CANDOR)上进行,跨语言泛化性未验证。所使用的“韵律匹配噪声”是一种受控实验条件,与真实世界的噪声干扰存在差异。 🏗️ 模型架构 论文主要分析的对象是语音活动投影(Voice Activity Projection, VAP)模型,一个基于S3R的轮次预测模型。其架构如下: ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 255 words