论文速递 | 语音/音乐/音频论文速递

UR-BERT: Scaling Text Encoders for Massively Multilingual TTS Through Universal Romanization and Speech Token Prediction

📄 UR-BERT: Scaling Text Encoders for Massively Multilingual TTS Through Universal Romanization and Speech Token Prediction #自监督学习 #多语言 #语音合成 #低资源 8.1/10 | 创新 8/2 | 严谨 7/1.5 | 实验 9/1.5 | 清晰 8/1 | 影响 8/1.5 | 开源 7/1.5 | 复现 8/0.5 | 工程 8/1.5 🔥 8.1/10 | 前25% | #语音合成 | #自监督学习 | #多语言 #低资源 | arxiv 👥 作者与机构作者：Sangmin Lee, Eekgyun Ahn, Woongjib Choi, Hong-Goo Kang 机构：延世大学电子与电气工程系，首尔，韩国 💡 毒舌点评这篇论文选题重要，想法直白有效（用罗马化替代G2P来扩展语言覆盖面），实验量也足够撑起一个“大规模”的宣称。但细看之下，作者的论证有些“偷懒”。罗马化这个核心决策本身带来的信息损失和对齐歧义问题，他们只是轻描淡写地提了一句，完全没有深入分析。你号称覆盖495种语言（表格里写1162，正文495，数据对不上？），但对那些音系复杂的语言，比如声调语言或含有送气/非送气对立的语言，罗马化到底丢了多少关键信息？STP目标真的补回来了吗？作者没给证据。另外，所有下游微调都绑死在VITS上，UR-BERT作为一个“通用”编码器，在其他TTS架构上是否依然坚挺？这个实验没做。最让我不爽的是，缺乏一个关键的消融基线：在同样罗马化文本上，只做纯文本MLM而不加STP的BERT。没有这个对比，你STP到底贡献了多大价值，是骡子是马没法完全说清楚。实验设计整体不错，但关键的自我剖析和更严格的对照缺失了，让其“重大贡献”的宣称打了点折扣。 ...

Which Speech Representation Better Matches Text-Native Reasoning? A Study of Speech-Text Alignment on Frame Rate and Representation

📄 Which Speech Representation Better Matches Text-Native Reasoning? A Study of Speech-Text Alignment on Frame Rate and Representation #语音识别 #语音合成 7.5/10 | 创新 7/2 | 严谨 8/1.5 | 实验 7/1.5 | 清晰 8/1 | 影响 7/1.5 | 开源 0/1.5 | 复现 3/0.5 | 工程 7/1.5 ✅ 7.5/10 | 前50% | #语音识别 | #语音合成 | arxiv 👥 作者与机构 Ye, Tan, Li, Zhang, Chan, Liu, Liu, Lin, Dai, Zhang, Sun, Kong, Xue（香港科技大学，腾讯，萨里大学，香港中文大学，香港浸会大学，香港理工大学，独立研究者）；Zhen, Xu, Yiming, Guangyan, Chimin, Haohe, Zhengxi, Hongzhan, Zheqi, Xinshen, Peiwen, Qiuqiang, Wei（香港科技大学，腾讯，萨里大学，香港中文大学，香港浸会大学，香港理工大学，独立研究者）。 ...

语音/音乐/音频论文速递 2026-06-11

语音/音乐/音频论文速递 2026-06-11 共分析 36 篇论文 ⚡ 今日概览 📥 抓取 36 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 7篇 ███████ #语音合成 7篇 ███████ #基准测试 2篇 ██ #音乐信息检索 2篇 ██ #语音情感识别 2篇 ██ #低资源 1篇 █ #音频问答 1篇 █ #音频质量评估 1篇 █ 📊 论文评分排行榜（36 篇，按分数降序）排名论文总分分档主任务 🥇 Massive Open-Vocabulary Keyword Spotting 9.8分前50% #语音识别 🥈 Tight Boundary Prediction in Speaker Diarization Using 9.6分前25% #低资源 🥉 RAIL: Rethinking Auditory Intelligence in Large Audio-L 9.6分前10% #音频问答 4. Quality Adaptive Angular Margin Learning for Respirator 9.5分前50% #音频质量评估 5. CS-YODAS: A Mined Dataset of In-the-Wild Code-Switched 9.2分前50% #多语言 6. Gumbel-BEARD: Automatic Layer Selection for Self-Superv 9.1分前25% #语音识别 7. PianoKontext: Expressive Performance Rendering from Dea 9.1分前50% #音乐生成 8. Benchmarking Neural Speech Compression from a Rate-Dist 9.0分前25% #基准测试 9. Fast-SDE: Efficient Single-Microphone Sound Source Dist 8.8分前50% - 10. Evaluating Bias in Phoneme-Based Automatic Speech Recog 8.8分前50% #语音识别 11. Real-Time Language Model Jamming: A Case Study for Live 8.7分前25% #音乐信息检索 12. HALO: Half-Frame-Rate Adaptive Learnable Operator for L 8.4分前50% #语音增强 13. The Dynamics of Human and AI-Generated Language: How Se 8.1分前25% #语音合成 14. UR-BERT: Scaling Text Encoders for Massively Multilingu 8.1分前25% #语音合成 15. SARA: A Dual-Stream VAE for High-Fidelity Speech Genera 7.9分前25% #语音合成 16. SpAArSIST: Sparsified AASIST for Efficient and Reliable 7.7分前50% #模型压缩 17. Interpreting and Steering a Text-to-Speech Language Mod 7.7分前25% #语音合成 18. Which Speech Representation Better Matches Text-Native 7.5分前50% #语音识别 19. MA-DLE: Speech-based Automatic Depression Level Estimat 7.5分前25% #语音情感识别 20. The Hidden Cost of Pairwise Verification in Synthetic S 7.5分前50% #语音合成 21. Sensitivity Analysis of Generative Spatial Audio Metric 7.2分前50% #音频生成 22. Snapping Matters: Context-Aware Onset Refinement for Au 7.1分前25% #音乐信息检索 23. Feature-Aligned Speech Watermarking for Robustness to R 7.1分前25% #鲁棒性 24. Context-Aware Multimodal Claim Verification in Spoken D 7.1分前50% #多模态模型 25. Afrispeech Semantics: Evaluating Audio Semantic Reasoni 7.0分前50% #数据集 26. Lung-SRAD: Spectral-Aware Regularized Audio DASS with D 6.8分前50% #对比学习 27. Lip Forcing: Few-Step Autoregressive Diffusion for Real 6.8分前50% #语音合成 28. Frozen Multimodal Embeddings for Personality and Cognit 6.7分前50% #语音情感识别 29. Fast Speech Foundation Model Distillation Using Interle 6.6分前50% #知识蒸馏 30. Steering Where to Listen: Instruction-Based Activation 6.5分前50% - 31. Pretrained self-supervised speech models can recognize 6.5分前50% #语音识别 32. Towards Data-free and Training-free Compression for Spe 6.4分前50% #语音识别 33. Additive Noise, Shift Recovery, and Signed Signals in t 6.1分前50% #信号处理基础 34. I Understand How You Feel: Enhancing Deeper Emotional S 5.8分前50% #语音识别 35. Overcoming State Inertia in Full-Duplex Spoken Language 5.5分前50% #基准测试 36. BadRobot: Jailbreaking Embodied LLM Agents in the Physi 5.2分后50% #语音合成 📋 论文列表 🥇 Massive Open-Vocabulary Keyword Spotting 9.8/10 | 创新 1.6/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

A Lightweight Dual-Factor Acoustic Authentication System via Cascaded GMM-DTW Architecture for Edge Computing

📄 A Lightweight Dual-Factor Acoustic Authentication System via Cascaded GMM-DTW Architecture for Edge Computing #说话人验证 #声纹识别 #低资源 6/10 | 创新 1/2 | 严谨 1.5/1.5 | 实验 0.5/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6/10 | 前50% | #说话人验证 | #声纹识别 | #低资源 | arxiv 👥 作者与机构 Yutong Zhang (作者未提及所属机构) 💡 毒舌点评这篇论文就像用乐高积木搭了一辆能跑的自行车。作者非常认真地介绍了每个积木块（GMM、DTW、MFCC）以及如何组装它们，并且证明了这辆“自行车”在自家后院（FSDD数据集）确实能以每秒不到10厘米的速度（9.82ms延迟）移动。然而，问题在于：第一，后院太小，只有5个小朋友（6个说话人取5个）在玩，得出的“性能卓越”结论说服力有限。第二，你并没有把积木图纸（代码）公开，也没提供新积木块的购买链接（模型权重）。第三，把两个经典方法（GMM和DTW）级联，并加入一个经验调参的双阈值约束（DLSC），这更像是一个工程实践或课程设计，而非一个能经得起顶会审稿人拷问的“科学贡献”。审稿人会追问：这和现有SOTA比如何？DLSC的Δ=6.0和γ=2.5是怎么来的？换组参数结果会崩吗？在真实嘈杂的咖啡馆或地铁站还能用吗？论文回避了这些关键问题。 📌 核心摘要论文提出了一种面向边缘计算的轻量级双因子声学认证系统，采用级联GMM-DTW架构。系统共享基于40维MFCC（20维静态+20维动态）的特征空间。第一级使用包含4个混合分量的对角协方差GMM进行说话人声纹概率建模，并通过引入联合绝对-相对边际约束的动态似然空间约束（DLSC）机制来对抗冒名攻击和高保真重放攻击。第二级使用带Sakoe-Chiba窗口约束的DTW算法进行文本相关口令验证。实验在Free Spoken Digit Dataset上进行，评估了系统在冒名攻击和重放攻击下的错误接受率（FAR）和合法用户错误拒绝率（FRR），并在单核CPU上测试了端到端处理延迟。结果表明，DLSC机制将物理冒名者的FAR从25.60%降至2.73%，高保真重放攻击的FAR降至6.67%，但导致合法用户的FRR为16.67%。得益于Sakoe-Chiba窗口优化，最坏情况（2.5倍时间拉伸）下的端到端处理延迟为9.82毫秒。 🔗 开源详情代码：论文中未提及任何代码仓库链接（如GitHub, GitLab）。模型权重：论文中未提及任何预训练模型权重链接（如HuggingFace, ModelScope）。数据集：论文使用了公开数据集 Free Spoken Digit Dataset (FSDD)，但未提供具体的下载链接（尽管该数据集可在线获取）。 Demo：论文中未提及。复现材料：论文中详细描述了系统架构、算法细节（如MFCC参数、GMM配置、DTW的Sakoe-Chiba窗口系数）和实验设置，但未提供具体的训练配置文件、检查点或附录等复现材料链接。论文中引用的开源项目：论文引用了开源数据集 FSDD，但未提及其他具体的开源项目/工具的名称与链接。文中提及的 MFCC、GMM、DTW 等均为广泛使用的算法或技术，未指向特定开源仓库。 🏗️ 方法概述和架构论文提出的系统是一个两级级联的声学认证框架（如图1所示），旨在同时验证说话人身份（谁在说）和口令内容（说了什么），具体流程和组件如下： ...

ANCHOR: Autoregressive Non-intrusive Chunk-Ordered Refinement for Joint Multi-Resolution Speech Quality Modeling

📄 ANCHOR: Autoregressive Non-intrusive Chunk-Ordered Refinement for Joint Multi-Resolution Speech Quality Modeling #语音质量评估 #自回归模型 #多任务学习 #流式处理 8/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.4/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8/10 | 前25% | #语音质量评估 | #多任务学习 | #自回归模型 #流式处理 | arxiv 👥 作者与机构 Zhuoyan Tao (University of Southern California, USA), Jiatong Shi (Carnegie Mellon University, USA), Hye-jin Shim, Shinji Watanabe ...

Anchoring the Unknown: Open-Set Model Attribution via Proxy-Anchor Learning

📄 Anchoring the Unknown: Open-Set Model Attribution via Proxy-Anchor Learning #多语言 8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.3/1.5 🔥 8/10 | 前25% | #多语言 | #多语言 | arxiv 👥 作者与机构 Cristian-Teodor Neamtu, Serban Mihalache, Stefan Smeu, Dan Oneata, Horia Cucu, Dragos Burileanu ( affiliations: 1Politehnica University of Bucharest, Romania; 2Bitdefender, Romania - note: the text lists affiliations but not explicit in the provided snippet, inferred from context) ...

AudioProcessBench: Benchmark for Identifying Process Errors in Audio-Grounded Reasoning

📄 AudioProcessBench: Benchmark for Identifying Process Errors in Audio-Grounded Reasoning 7.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 7.5/10 | 前50% | arxiv 👥 作者与机构第一作者：Xiangyu Zhao (蒙纳士大学) 通讯/资深作者：Zongyuan Ge (蒙纳士大学) 机构：蒙纳士大学，西安交通大学利物浦大学，Orygen，墨尔本大学 💡 毒舌点评这篇工作有点像给“过程奖励模型（PRM）”这个热点概念做了一次“音频方言”的本地化适配。想法直接，工程量不小（3800多条链，2万3千多步标注），但新意有限。主要贡献是“填补空白”——在音频领域第一个做step-level的PRM基准。这确实是NeurIPS/ICML这类会议比较喜欢的“缺口填补”型工作。但仔细看，方法上没什么新花样，就是把现有音频模型当生成器和评测器，用两个闭源模型加人工来标数据，评估范式（PRMScore, chain aggregation）也是直接借鉴的。实验部分还算扎实，跑了一堆模型，也分析了一些现象（比如自我批判偏差）。但问题在于：1) 自称“first”，但benchmark本身构建方法并不前沿；2) 论文中声称的“贡献”第四点“comprehensive evaluation of 11 critic models”有些水分，因为Table 3和7里列的模型家族有重叠，实际是同一模型的不同规格或设置；3) 局限性部分写得诚恳，但掩盖不了它本质上是一个评估套件，而非解决音频推理验证本身的核心难题（如如何获取可靠的step-level监督信号）的工作。对于音频/语音领域的读者来说，这更像是一个有用的“工具公告”，而非思想性突破。 📌 核心摘要本文提出了AudioProcessBench，首个针对音频推理链中过程错误识别的基准测试。该基准包含从6个音频/全模态模型生成的3872条推理链，共计23497个推理步骤。每个步骤均被标注为正确或错误，并细分为六种音频特定错误类型：存在性错误、语义错误、时间错误、声学属性错误、跨模态绑定错误和推理错误。基准支持三种评估范式：步骤正确性识别、基于错误类型的条件化检测以及链级聚合（用于评估是否能利用过程评分改善最终答案选择）。通过对11个模型作为评判模型的评估，实验表明新的、以推理为导向的模型表现更好，但开源模型与闭源前沿模型之间仍存在明显差距。此外，研究发现批判能力与生成能力并不完全对等，且模型在评判自身生成的推理链时可能存在偏差。该基准为音频推理验证、过程奖励模型及可靠全模态推理的未来研究提供了测试平台。 🔗 开源详情代码：论文中未提及代码仓库或具体链接。模型权重：论文中未提及。数据集：AudioProcessBench。数据集计划在CC BY-NC 4.0许可下公开发布，但论文未提供具体的下载链接或代码仓库地址。其数据来源于MMAU-Pro、MMAR和MMSU三个现有基准。 Demo：论文中未提及。复现材料：论文的附录（Appendix）提供了详尽的复现所需信息，包括：数据生成所用模型及其推理超参数（Appendix B）。用于步骤解析的系统提示（Appendix C, Figure 7）。用于标注的LLM系统提示（Appendix D, Figure 8 & 9）。用于评判（Critic）模型的系统提示及少样本示例（Appendix F, Figure 10, 11 & 12）。详细的人类标注指南与流程（Appendix E）。补充评估指标（Appendix G）。零样本评估的完整结果（Appendix H）。论文中引用的开源项目： vLLM: 用于模型推理，论文引用为(Kwon et al., 2023)。未提供具体链接。 DeepSeek V3.2: 用于将原始推理链分段为离散步骤，论文引用为(Liu et al., 2025)。未提供具体链接。 ProcessBench: 用于评估定位数学推理中第一个错误步骤的能力，论文引用为(Zheng et al., 2025)。未提供具体链接。 PRMBench: 用于诊断PRM能力，论文引用为(Song et al., 2025)。未提供具体链接。 MPBench: 用于链级别聚合评估范式，论文引用为(Zhou et al., 2025)。未提供具体链接。 VisualProcessBench: 用于视觉语言推理的过程级评估，论文引用为(Wang et al., 2025)。未提供具体链接。 MMAU: 音频推理基准，论文引用为(Sakshi et al., 2025)。未提供具体链接。 MMAR: 音频推理基准，论文引用为(Ma et al., 2026)。未提供具体链接。 MMSU: 音频推理基准，论文引用为(Dingdong et al., 2026)。未提供具体链接。 MMAU-Pro: 音频推理基准，论文引用为(Kumar et al., 2026)。未提供具体链接。注：论文中提及的所有第三方开源项目/工具，其引用均未在正文或附录中给出具体的仓库或主页URL。 🏗️ 方法概述和架构 AudioProcessBench的构建和评估架构可分为数据构建与评估范式两大核心部分。 ...

AuRA: Internalizing Audio Understanding into LLMs as LoRA

📄 AuRA: Internalizing Audio Understanding into LLMs as LoRA #语音问答 #参数高效微调 #知识蒸馏 #语音识别 #多模态模型 7.5/10 ✅ 7.5/10 | 前25% | #语音问答 | #参数高效微调 | #知识蒸馏 #语音识别 | arxiv 👥 作者与机构作者：Bo Cheng, Lei Shi, Zhanyu Ma, Yuan Wu, Jun Xu, Jiuchong Gao, Jinghua Hao, Renqing He 机构：Meituan, Jilin University 💡 毒舌点评这篇论文精准地切中了当前语音-LLM集成的一个痛点：要么重（端到端训练），要么慢（级联推理），要么不够紧密（桥接方法）。AuRA提出的“内化”思路确实巧妙，像给LLM装了个隐藏的“语音耳朵”，推理时还能把这个“外挂”拆了，效率拉满。消融实验做得相当扎实，把各组件的作用都讲清楚了。不过，这位“耳朵”目前只能听懂“字面意思”（ASR），对于弦外之音（情感、语调）怕是无能为力，论文也老实承认了。实验范围有点保守，只在英语语音问答上打转，更广泛的语音理解任务（比如情感识别、对话）还没试水，这让“通用音频理解”的宣称稍微打了点折扣。总的来说，是一篇工程实现很扎实、想法很实用的扎实工作，但离“全面理解音频”还差那么一口气。 📌 核心摘要 AuRA 是一种轻量级的语音-LLM适配方法，其核心思想是将音频理解能力“内化”到大语言模型（LLM）的内部。该方法采用教师-学生蒸馏框架：训练时，一个冻结的ASR编码器（教师）与一个插入了LoRA适配器的冻结LLM（学生）并行处理相同的语音输入。通过设计的层间蒸馏损失，将教师模型的中间表示对齐到学生LLM的浅层隐藏状态中。推理时，移除庞大的ASR教师编码器，仅保留轻量的音频嵌入模块和LoRA适配的LLM，从而实现高效的端到端推理。在SDQA和HeySquad基准测试中，AuRA在准确率上超越了级联、适配和大规模端到端基线，同时显著降低了推理延迟和内存占用。 🔗 开源详情代码：论文中未提供AuRA的官方代码仓库链接。模型权重： AuRA 模型权重：论文中未提及。使用的基础模型： Qwen2.5-7B-Instruct / Qwen2.5-3B-Instruct: https://huggingface.co/Qwen/Qwen2.5-7B-Instruct 和 https://huggingface.co/Qwen/Qwen2.5-3B-Instruct。 Whisper-large-v3: https://huggingface.co/openai/whisper-large-v3。数据集： HeySquad: https://huggingface.co/datasets/yijingwu/HeySQuAD_human。 SDQA: https://huggingface.co/datasets/WillHeld/SD-QA。 CommonVoice (用于适配训练的语音部分)：论文提及使用英文子集，但未提供特定链接。该项目主站为 https://commonvoice.mozilla.org/。 VoRA-TextQA-Mixed (用于适配训练的文本部分)：论文未提供链接，仅提及名称。复现材料：论文附录 A 提供了详细的复现信息，包括训练数据（10K CommonVoice 和 10K VoRA-TextQA-Mixed）、音频预处理方法、LoRA 适配配置（前4层，秩256）、优化器设置（学习率 2e-4，批大小128，训练3个epoch）以及计算资源（8块 NVIDIA H20 GPU 训练约1.5小时）。论文中引用的开源项目： Whisper: https://github.com/openai/whisper。 Qwen (包括 Qwen2, Qwen2.5, Qwen2.5-Omni): https://github.com/QwenLM/Qwen (具体模型权重见上方模型权重部分)。 BLSP: https://github.com/microsoft/BLSP。 DiVA: https://github.com/declare-lab/DiVA。 Qwen2-Audio: 模型权重链接见上文，论文未提供独立代码库链接。 Qwen2.5-Omni: 模型权重链接见上文，论文未提供独立代码库链接。 CommonVoice: https://commonvoice.mozilla.org/。 🏗️ 方法概述和架构 AuRA 的整体架构遵循教师-学生蒸馏范式（如图2所示），旨在将ASR教师的能力转移到LLM学生中，并在推理时移除教师。其核心流程包含三个关键组件：音频补丁嵌入、LoRA适配的LLM学生以及层间蒸馏机制。 ...

Automated Pronunciation Evaluation for Korean Toddler Speech using Speech Diarization and Self-Supervised Learning

📄 Automated Pronunciation Evaluation for Korean Toddler Speech using Speech Diarization and Self-Supervised Learning #自监督学习 #说话人日志 #低资源 6/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 0.7/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0/0.5 | 工程 1/1.5 ✅ 6/10 | 前50% | #说话人日志 | #自监督学习 | #低资源 | arxiv 👥 作者与机构 Diane Myung-kyung Woodbridge Jee Hyun Suh （机构未明确提及，仅从致谢推断与首尔国立大学盆唐医院（SNUBH）及韩国国家IT产业振兴院（NIPA）可能有关联） 💡 毒舌点评论文选题切中了一个实际且未被充分解决的痛点：为语言资源相对小众（韩语）的特定群体（幼儿）开发自动化评估工具，且场景是混乱的家庭录音，这比实验室数据难度陡增。作者的工程整合能力值得肯定：将说话人日志、自监督特征提取和简单分类器串联成一个可用管道。最大的亮点是NeMo SortFormer在对抗“aegyo”声学混淆上的有效性，这确实抓住了韩语场景的独特挑战。然而，论文的“学术性”略显薄弱。数据集虽新颖但规模过小（34个标注样本），使得所有结论都笼罩在“统计显著性不足”的疑云下。实验设计上，缺乏对关键变量（如日志错误传播、年龄分层效应）的深入消融分析，结论更多停留在描述性层面。最终性能数字（平均BA 0.782）在论文自我设定的任务下算尚可，但距离真正可用的临床或教育工具还有显著差距。整体感觉像一篇扎实的工程报告，但在方法创新深度和实验论证严谨性上，距离顶会标准还有一步之遥。 📌 核心摘要本研究针对韩国幼儿语音发音自动评估在自然家庭环境下的挑战，提出了一套端到端解决方案。核心流程为：首先，利用NeMo SortFormer说话人日志模型，从包含看护人“aegyo”语音和儿童语音的混合录音中，以词为单位分离出儿童语音片段。其次，将每个片段输入冻结的自监督学习（SSL）骨干模型（如WavLM-large, HuBERT-large）提取帧级声学特征。然后，采用多种池化策略（均值、注意力、统计、多层固定权重及集成）将变长特征聚合为固定维度向量。最后，分别针对辅音和元音正确性，训练带有L2正则化的逻辑回归分类器进行二分类预测。实验创建并标注了一个新的韩语幼儿语音数据集（53录音，1190辅音/748元音标签）。结果表明，NeMo SortFormer在说话人计数准确率和DER上显著优于基线。在发音评分上，通过将辅音预测路由至HuBERT-large、元音预测路由至WavLM-large的跨模型集成策略，实现了0.782的平均平衡准确率，证明了跨语言SSL特征迁移和任务特定集成的有效性。 ...

ContextCodec: Content-Focused Context Guidance for Ultra-Low Bitrate Speech Coding

📄 ContextCodec: Content-Focused Context Guidance for Ultra-Low Bitrate Speech Coding 7.9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.9/10 | 前25% | #语音编码 | #对比学习 | arxiv 👥 作者与机构作者：Liang, Guo, Cao, Qin, Chengbin, Wenqi, Hao, Zhijin (部分姓名因排版未完整显示)。机构：1 Department of Electronic Engineering, Tsinghua University, Beijing, China; 2 Department of Automation, Tsinghua University, Beijing, China. ...