自监督学习

EntangleCodec: A Unified Discrete Audio Tokenizer via Semantic-Acoustic Entanglement

📄 EntangleCodec: A Unified Discrete Audio Tokenizer via Semantic-Acoustic Entanglement #语音合成 #自监督学习 #预训练 8.6/10 | 创新 1.8/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0/1.5 🔥 8.6/10 | 前10% | #语音合成 | #自监督学习 | #预训练 | arxiv 👥 作者与机构 Hui Li, Yangfan Gao (共同一作), Junlin Shang, Changhao Jiang, Tao Gui, Qi Zhang, Xuanjing Huang. 复旦大学. 联系方式：hui_li25@m.fudan.edu.cn. 💡 毒舌点评这篇论文野心不小，想用一个“纠缠”的统一模型搞定理解、重建、生成，避免双流架构的冗余。核心想法——用丰富文本caption而非ASR transcript来对齐声学和语义特征——确实抓住了当前音频tokenizer“重声学轻语义”的痛点，出发点很好。实验设计也比较扎实，用了受控对比（相同LLM骨干）来隔离tokenizer质量的影响，0.6B小模型挑战13B大模型的故事讲得很有冲击力。但有几个“但是”必须指出：1）“统一”的代价是什么？论文没有深入讨论在极端任务需求（如超高保真度音乐重建 vs. 复杂语义推理）下，这种纠缠表示是否会成为瓶颈，还是说它只是个“中庸”的解决方案？2）与SOTA的比较存在选择性：在重建质量上，论文承认落后于XCodec2，但通过“综合表现”和“统一性”的论述巧妙地转移了焦点；在理解任务上，虽然对比了连续表示模型，但未深入分析离散tokenizer与连续encoder在信息瓶颈和效率上的本质差异，使得“22倍参数效率”的claim虽然震撼但机制解释不足。3）论文自述的“有限细粒度语义建模”和“有限的大规模探索”是真实存在的软肋，尤其是在强调“表示质量与模型规模同等重要”的结论下，缺少更大规模（如>8B）的验证略显说服力不足。总的来说，是一篇扎实的、有明确贡献的工作，但离“完美解决统一问题”还有距离，更适合被视为一个有力的baseline而非终极方案。 ...

MoDAl: Self-Supervised Neural Modality Discovery via Decorrelation for Speech Neuroprosthesis

📄 MoDAl: Self-Supervised Neural Modality Discovery via Decorrelation for Speech Neuroprosthesis #自监督学习 #对比学习 #多模态模型 #参数高效微调 6.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.6/10 | 前25% | #自监督学习 | #自监督学习 | #对比学习 #多模态模型 | arxiv 👥 作者与机构作者：Yuanhao Chen, Peter Chin 机构：Dartmouth College, Hanover, NH, USA 💡 毒舌点评一篇动机良好、理论包装扎实的工作，但将一个在单个数据集、单个参与者上的工程优化，拔高到了“模态发现”的哲学高度。最大的卖点——Area 44信号的“起死回生”——其普适性存疑，且缺乏与最先进级联系统的公平比较。理论命题（Proposition 3.1 & 3.2）虽优雅，但与现实训练条件（τ为有限值）脱节，更像一个解释现象的后验故事而非设计指南。代码未开源是硬伤，严重阻碍了验证与复现。 ...

SiamCTC: Learning Speech Representations through Monotonic Temporal Alignment

📄 SiamCTC: Learning Speech Representations through Monotonic Temporal Alignment #自监督学习 #语音识别 #数据增强 7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7/10 | 前50% | #语音识别 | #自监督学习 | #数据增强 | arxiv 👥 作者与机构作者：SooHwan Eom, Mark Hasegawa-Johnson, Chang D. Yoo 机构：Korea Advanced Institute of Science and Technology (KAIST)， University of Illinois Urbana-Champaign (UIUC) ...

SpeakerCard-1M: An Evidence-Grounded Speaker Card Corpus for In-the-Wild Speaker Verification

📄 SpeakerCard-1M: An Evidence-Grounded Speaker Card Corpus for In-the-Wild Speaker Verification #说话人验证 #多模态模型 #数据集 #自监督学习 #预训练 7.4/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.4/10 | 前25% | #说话人验证 | #自监督学习 | #多模态模型 #数据集 | arxiv 👥 作者与机构 Junyi Peng, Oldřich Plchot, Xiao Song, Dading Chong, Lichun Fan, Hang Su, Themos Stafylakis, Junjie Li, Kong Aik Lee, Shuai Wang, Jan Černocký （论文未在摘要中提供具体机构，通常包括布拉格捷克技术大学、小米、OPPO等） ...

Stable Hybrid Cross-Attention Fusion for Audio-Visual Event Recognition

📄 Stable Hybrid Cross-Attention Fusion for Audio-Visual Event Recognition #自监督学习 6.7/10 | 创新 0.8/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ✅ 6.7/10 | 后50% | #自监督学习 | #自监督学习 | arxiv 👥 作者与机构 Parinaz Binandeh Dehaghani, Danilo Pena, A. Pedro Aguiar. 论文未明确提及作者所属机构。 💡 毒舌点评这篇论文就像一份工整但缺乏野心的毕业设计。它系统地将几个成熟的组件（冻结的预训练骨干、FiLM、交叉注意力、Transformer）拼接在一起，在一个老旧且规模不大的数据集（AVE）上刷出了比简单基线高一点点的数字。作者不断强调“稳定”和“高效”，但效率提升主要来自缓存特征——这几乎是把模型从端到端训练中开除出去的取巧做法，值得这么吹吗？论文的核心弱点在于其极度保守的实验：与之对比的baseline弱得可怜，连自己引为相关工作的MAFnet都不敢直接比。声称面向“智能城市监控”，却连一个真实场景的验证都没有，纯属画饼。这种缺乏挑战性和深度的工作，很难让顶会的审稿人提起兴趣。 📌 核心摘要本文针对音频-视觉事件识别任务，提出了一种稳定的混合交叉注意力融合框架。该框架的核心思想是：利用冻结的预训练VideoMAE和AST模型作为固定的特征提取器，并离线缓存其特征，以提升训练效率和稳定性。在融合阶段，首先通过FiLM（Feature-wise Linear Modulation）机制，利用视觉特征对音频特征进行条件化调制，注入初步的跨模态信息。随后，通过双向交叉注意力模块（音频查询视觉、视觉查询音频）实现更深度的模态间交互。这些交互后的特征被拼接并输入一个多模态Transformer编码器，以联合建模时序依赖和跨模态关联。最后，通过一个模态-时间注意力机制，自适应地加权聚合所有时空位置的特征，得到最终的表示用于分类。实验在AVE数据集上进行，通过五次独立随机种子评估，结果表明该框架在准确率、平衡准确率、F1值等指标上均优于单模态和简单拼接融合的基线，同时训练时间仅有小幅增加。论文的核心贡献在于提出了一个结合了冻结骨干、缓存特征和混合交叉注意力的完整融合流水线。 🔗 开源详情代码：论文中未提及提供自己实现的代码链接。模型权重： VideoMAE (视觉骨干): 引用预训练权重 https://huggingface.co/MCG-NJU/videomae-base AST (音频骨干): 引用预训练权重 https://huggingface.co/MIT/ast-finetuned-audioset-10-10-0.4593 数据集：论文中未提及具体下载链接或开源协议。仅提及使用AVE (Audio-Visual Event) 数据集。 Demo：论文中未提及。复现材料：论文中未提及提供训练配置文件、融合模块模型检查点或详细的复现文档。仅在“Implementation Details”部分描述了超参数。论文中引用的开源项目：与预训练骨干链接相同。 🏗️ 方法概述和架构本文提出的稳定混合交叉注意力融合框架（Stable Hybrid Cross-Attention Fusion Framework）包含四个主要阶段：视觉特征提取、音频特征提取、FiLM音频条件化，以及稳定的混合交叉注意力融合与模态-时间注意力。其总体架构如图1所示。 ...

A Lightweight Slot-Attention Framework for Multi-Instrument Multi-Pitch Estimation

📄 A Lightweight Slot-Attention Framework for Multi-Instrument Multi-Pitch Estimation #自监督学习 #音乐信息检索 6.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.4/1.5 ✅ 6.7/10 | 前50% | #音乐信息检索 | #自监督学习 | arxiv 👥 作者与机构作者：Michael Taenzer。论文中未明确提及作者所属机构。 💡 毒舌点评这篇论文提出了一个想法不错的轻量级框架，试图用槽注意力解决多乐器多音高估计这个老大难问题。作者在资源有限的条件下（CPU训练）进行探索，精神可嘉。然而，论文的“探索性”定位也暴露了其软肋：实验规模偏小，主要在两个小型数据集（URMP， mshoxxDB）上打转，对更复杂、更大规模的现实场景缺乏验证。音色和多音监督的引入看似巧妙，但实际效果不稳定，在mshoxxDB上的表现时好时坏，说明这种“模块化扩展”的鲁棒性存疑。最大的问题在于，源分配（stem assignment）这个核心挑战并未被真正解决，论文最终承认这只是“一个有希望的方向”，距离实用还有很长的路要走。整体是一篇扎实但略显初步的概念验证工作。 📌 核心摘要本文针对多乐器多音高估计（MI-MPE）任务，提出了一种基于槽注意力的轻量级框架。该模型将混合音频的常数Q变换（CQT）映射为一组无序的、源级的音高激活图，每个“槽”代表一个潜在的声源假设。为避免固定输出顺序的限制，模型采用基于匈牙利匹配的排列不变监督进行训练。论文进一步研究了两个模块化扩展：一个是在孤立音轨上训练的自监督音色编码器，作为训练时的教师为槽级音色嵌入提供监督目标；另一个是多音分支，用于对混合和槽级的音高预测密度进行正则化。实验在URMP和mshoxxDB数据集上进行，结果表明匈牙利匹配能显著提升乐器族分解性能，而音色和多音监督在部分配置下有助于源分配，但并未一致性地解决问题。工作定位于探索性概念研究，强调模型的轻量级特性和对开放数据集的依赖。 🔗 开源详情代码：论文中未提供代码仓库链接。模型权重：论文中未提供模型权重下载链接。数据集： URMP：论文提供官方链接 http://www2.ece.rochester.edu/~mcv/music.html。 mshoxxDB：论文提供链接 https://github.com/LCAV/mshoxxDB。 MusicNet：论文中引用的链接为 https://github.com/Lovork/mshoxxDB（注：此链接可能不正确，但按原文提取）。 Demo：论文中未提及。复现材料：论文未提供独立的复现材料包或附录。第V节“Training & Evaluation Protocol”详细描述了训练参数（优化器、学习率、批大小、早停）、输入CQT配置、评估指标和流程，提供了足够的细节用于复现实验。论文中引用的开源项目： Basic Pitch：论文明确引用其GitHub仓库 https://github.com/spotify/basic-pitch。快速HCQT近似 (fast-HCQT)：论文引用了相关方法的实现 https://github.com/csteinmetz1/hcqt。 🏗️ 方法概述和架构本文提出的模型旨在从混合音频的CQT表示中预测一组无序的源级音高图。其核心是一个基于槽注意力的网络，并辅以可选的音色编码器和多音分支。整体架构包含共享的输入特征、标准的MPE头、槽头、音色头和多音头。 ...

Context-aware child-directed speech detection from long-form recordings

📄 Context-aware child-directed speech detection from long-form recordings #自监督学习 #多语言 #领域适应 #模型评估 8.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.5/10 | 前25% | #自监督学习 | #自监督学习 | #多语言 #领域适应 | arxiv 👥 作者与机构论文作者包括 Théo Charlot, Tarek Kunze, Kaveri K. Sheth, Alejandrina Cristia, 和 Marvin Lavechin。机构包括 LSCP, DEC, ENS, EHESS, CNRS, PSL University, France 和 Laboratoire d’Informatique et Systèmes, Université Aix-Marseille, CNRS, France。 ...

Echo: A Joint-Embedding Predictive Architecture for Speaker Diarization and Speech Recognition in a Shared Latent Space

📄 Echo: A Joint-Embedding Predictive Architecture for Speaker Diarization and Speech Recognition in a Shared Latent Space #语音识别 #语音分离 #说话人验证 #自监督学习 #数据增强 7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.3/1.5 | 复现 0.4/0.5 | 工程 1/1.5 ✅ 7/10 | 前50% | #语音识别 | #自监督学习 | #语音分离 #说话人验证 | arxiv 👥 作者与机构作者：Louis Mouchon 机构：Independent Research（独立研究） 💡 毒舌点评这篇论文就像一份极其详尽、充满工程细节的“施工日志”，而不是一篇旨在解决核心科学问题的顶级会议论文。作者用七个阶段的篇幅，耐心地记录了一个25M参数的“瑞士军刀”音频编码器是如何被一步步组装起来的，中间还详细记录了几次把锤子敲到手上的经历（对抗训练崩溃、多锚点过约束等）。永久JEPA锚定机制和VQ特征解耦确实是实用的工程技巧，值得记下。但问题在于，这把“瑞士军刀”目前最锋利的刀刃（语音识别）基本是钝的（CER 70%），而用来切硬木（真实会议音频）的场景却几乎没有测试，只在实验室的软胶垫（合成数据）上挥舞了几下。更尴尬的是，当其他“专用工具”（如EEND-EDA）在同样任务上精度高出一个数量级时，作者却摆摆手说“我们不是一个赛道的，不能直接比”。所以，这是一份优秀的内部技术报告，但若要登上NeurIPS/ICML的舞台，仅凭“我们证明了这几个东西可以塞进一个盒子里”这个点，说服力还远远不够。它更像是一篇给同行看的“避坑指南”和“设计蓝图”，期待下一代人用更大、更好的材料（更大的骨干网络）把它建成真正的房子。 📌 核心摘要本文提出Echo，一个概念验证系统，旨在证明一个基于JEPA自监督预训练的单一ViT音频编码器，能够通过增量特化，在同一个共享潜在空间中同时支持说话人分割、语音分离和语音内容编码。核心设计包括七个顺序训练阶段，关键技术创新是“永久JEPA锚定机制”（每个更新编码器的阶段保留冻结副本作为正则化）和使用VQ瓶颈进行说话人/内容特征解耦。系统在合成VoxCeleb2混合数据上取得了15.00%的盲DER和97.80%的PIT分离准确率。论文的主要价值在于详细记录了多任务共享编码器的架构探索过程、成功的设计决策（如锚定、VQ解耦、空目标路由）和失败的教训（如对抗训练、多锚点），并明确了当前的主要局限性：所有结果基于合成数据，且端到端ASR性能因VQ量化瓶颈而失败（CER ~70%）。 ...

Privacy-preserving Prosody Representation Learning

📄 Privacy-preserving Prosody Representation Learning #自监督学习 4.9/10 | 创新 1.3/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 0.6/1 | 影响 0.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.4/1.5 📝 4.9/10 | 前50% | #自监督学习 | #自监督学习 | arxiv 👥 作者与机构 Kevin Everson, Mari Ostendorf 华盛顿大学电气与计算机工程系 💡 毒舌点评这篇工作瞄准了一个非常实际且重要的痛点——语音中的韵律信息不可避免地携带了说话人身份，这对隐私是个大威胁。作者的思路是清晰的：用声门波形作为“纯净”输入，同时用目标归一化和对抗学习从学习目标端把说话人信息“挤出去”。方法组合有一定新颖性，实验也基本证明了思路的有效性。然而，审稿人的挑剔在于：1) 你声称方法有效，但最重要的基线（ProsodyBERT， PE-Wav2Vec）因为代码问题没法比，这让“优越性”的宣称打了折扣；2) 评估数据集太小太单一（BU Radio只有7个播音员），像在温室里测试抗风能力，泛化性存疑；3) 说话人识别准确率从0.64降到0.14，听起来不错，但0.14对一个真正的攻击者来说够低吗？论文对此避而不谈。总之，是个扎实但不够大胆的工作，解决了特定场景下的一个子问题，距离通用的隐私保护语音表示还有距离。 📌 核心摘要本文提出一种新的自监督韵律表示学习方法，旨在学习既能有效捕捉韵律信息又能解耦说话人身份的语音表示，以应对隐私泄露风险。核心方法包括：以鲁棒的估计声门波形作为模型输入，以减少词汇信息泄露；利用包含周期性(P)、归一化对数基频(logF0)、ΔlogF0和第一梅尔倒谱系数(c1)的声学-韵律特征进行离线聚类生成隐藏单元标签，并在生成时对logF0进行说话人归一化；训练目标为标准掩码预测损失、跨度边界损失和新增的对抗性说话人识别损失的加权和。实验在音高重建、短语边界检测和音节重音检测三个韵律任务以及VoxCeleb1说话人识别任务上进行评估。结果表明，所提编码器在韵律任务上优于HuBERT-base基线和原始韵律特征，同时其说话人识别准确率显著降低（联合策略相对降低66%），证明了说话人解耦策略在维持韵律建模性能的同时有效削弱了身份信息泄露。 🔗 开源详情代码：主模型代码仓库：https://github.com/kpeverson/speaker_disentangled_prosody 下游任务评估工具包（s3prl修改版）：https://github.com/kpeverson/s3prl_tobi 模型权重：论文中未提供。数据集：训练集：GigaSpeech（论文提及使用了其转录部分，但未提供直接下载链接或明确开源协议）。评��集：LibriTTS（用于音高重建）、BU Radio Corpus（用于短语边界和音节重音检测）、VoxCeleb1（用于说话人识别）。论文提及了这些数据集，但未提供统一的下载链接或开源信息。 Demo：论文中未提及。复现材料：论文中未提供独立的补充材料包。关键复现信息在文中提及：使用fairseq，在4个NVIDIA A40或L40 GPU上训练500K步，平均批大小~30。论文中引用的开源项目（隐含链接）： fairseq：https://github.com/facebookresearch/fairseq torchcrepe：https://github.com/marl/torchcrepe s3prl：https://github.com/s3prl/s3prl (论文使用其修改版本) pYAAPT：用于音高重建任务中提取基频。 🏗️ 方法概述和架构本文提出的韵律编码器架构如图1所示，灵感来源于ProsodyBERT和HuBERT，但引入了针对隐私保护的改进。其方法可概括为输入特征工程、伪标签生成与目标设计、自监督训练框架三个核心部分。 ...

UniVocal: Unified Speech-Singing Code-Switching Synthesis

📄 UniVocal: Unified Speech-Singing Code-Switching Synthesis #语音合成 #语音生成 #音频生成 #音乐生成 #自监督学习 #课程学习 #数据增强 8.9/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 0/1.5 🔥 8.9/10 | 前25% | #语音合成 | #自监督学习 | #语音生成 #音频生成 | arxiv 👥 作者与机构作者: Yufei Shi, Qian Chen, Wen Wang, Xiangang Li, Zhen-Hua Ling, Yang Ai 机构: Tongyi Fun Team, Alibaba Group; Independent Researcher ...