高斯混合模型

S-JEPA : Soft Clustering Anchors for Self-Supervised Speech Representation Learning

📄 S-JEPA : Soft Clustering Anchors for Self-Supervised Speech Representation Learning #自监督学习 #语音识别 #高斯混合模型 #数据增强 8.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8.7/10 | 前25% | #语音识别 | #自监督学习 | #高斯混合模型 #数据增强 | arxiv 👥 作者与机构 Georgios Ioannides, Adrian Kieback, Judah Goldfeder, Linsey Pang, Aman Chadha, Aaron Elkins, Yann LeCun, Ravid Shwartz-Ziv (*平等贡献) 机构: 1Carnegie Mellon University, 2New York University, 3James Silberrad Brown Center for AI, 4Columbia University, 5Northeastern University, 6Stanford University, 7Amazon GenAI (†工作与Amazon职位无关)。通信作者：gioannid@alumni.cmu.edu。 ...

SSL-GMMVC: Interpretable Voice Conversion via Locally Linear GMM Transforms in Self-Supervised Representation Space

📄 SSL-GMMVC: Interpretable Voice Conversion via Locally Linear GMM Transforms in Self-Supervised Representation Space #语音转换 #高斯混合模型 #自监督学习 #低资源 6.8/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.6/1.5 | 复现 0.5/0.5 | 工程 0.4/1.5 ✅ 6.8/10 | 前50% | #语音转换 | #高斯混合模型 | #自监督学习 #低资源 | arxiv 👥 作者与机构作者：Tomoya Tanabu, Hiroshi Nishijima, Daisuke Saito, Nobuaki Minematsu 机构：The University of Tokyo, Japan (东京大学) 邮箱：{tanabu,hiroshi,dsk_saito,mine}@gavo.t.u-tokyo.ac.jp ...

G-MaP-SE: Guided Speech Enhancement via GMM-Based Prior Matching

📄 G-MaP-SE: Guided Speech Enhancement via GMM-Based Prior Matching #语音增强 #说话人识别 #语音质量评估 #高斯混合模型 9.3/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9.3/10 | 前50% | #语音增强 | #高斯混合模型 | #说话人识别 #语音质量评估 | arxiv 👥 作者与机构作者：Yike Zhu, Ziqian Wang, Zikai Liu, Xingchen Li, Zhuangqi Chen, Xianjun Xia, Chuanzeng Huang, Lei Xie 机构：Audio, Speech and Language Processing Group (ASLP@NPU), School of Software, Northwestern Polytechnical University, Xi’an, China 💡 毒舌点评这篇论文提出了一个解决特定痛点（无需注册语音的个性化增强）的巧妙工程方案，但离“重大突破”还有距离。其创新更多是“组合创新”而非“原理创新”——用现成的GMM和余弦匹配给噪声嵌入做个“整形手术”。最令人玩味的是实验设计：用在VBD上训练的模型去测DNS2020，然后宣称“跨域”效果显著，这本质上是在验证一个简单的假设：说话人嵌入空间在不同噪声分布下是相对稳定的。论文的诚意体现在开源了代码，但缺乏与同期更强大（如基于扩散模型）的语音增强方法的对比，让“state-of-the-art”的宣称显得底气不足。方法的“轻量”是优点，但也暗示了其天花板可能有限。 ...