低资源 | 语音/音乐/音频论文速递

MindAlign: Decoding Inner Speech from fMRI Signals via Multimodal Embedding Alignment under Limited Data

📄 MindAlign: Decoding Inner Speech from fMRI Signals via Multimodal Embedding Alignment under Limited Data #语音识别 #低资源 #数据增强 #多模态模型 #自监督学习 #参数高效微调 5.8/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0.1/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 📝 5.8/10 | 前50% | #语音识别 | #数据增强 | #低资源 #多模态模型 | arxiv 👥 作者与机构作者：Muxuan Liu, Ichiro Kobayashi, Satoshi Nishida。第一作者Muxuan Liu和第二作者Ichiro Kobayashi隶属于日本御茶水女子大学（Ochanomizu University）人文与科学研究生院；第三作者Satoshi Nishida隶属于日本国立信息通信技术研究所（NICT）先进ICT研究所信息与神经网络中心（CiNet）。 ...

On the Effect of Segmentation Width and Cluster Size on Speech Resynthesis and Continuation in Generative Spoken Language Models

📄 On the Effect of Segmentation Width and Cluster Size on Speech Resynthesis and Continuation in Generative Spoken Language Models #语音合成 #语音生成 #自监督学习 #低资源 #数据增强 7.4/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.4/10 | 前25% | #语音合成 | #自监督学习 | #语音生成 #低资源 | arxiv 👥 作者与机构 Shunsuke Kando (东京大学) Wataru Nakata (庆应义塾大学) Shinnosuke Takamichi (东京大学) Yusuke Miyao (庆应义塾大学) ...

OpenWER: Improving Cross-Lingual ASR Evaluation and Enabling Token-Based Accuracy Metrics

📄 OpenWER: Improving Cross-Lingual ASR Evaluation and Enabling Token-Based Accuracy Metrics #语音识别 #低资源 #开源工具 8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8/10 | 前50% | #语音识别 | #低资源 | #开源工具 | arxiv 👥 作者与机构论文作者是Korbinian Kuhn和Gottfried Zimmermann。机构为斯图加特传媒大学（Stuttgart Media University）和蒂宾根大学（University of Tübingen）。 💡 毒舌点评这篇论文本质上是一个做得不错的开源工具包发布，包装了一套工程化的评估流水线。它的价值在于“整合”与“实用”，而非“发现”或“突破”。将几个已有的后处理技巧（归一化、复合词处理）打包进一个统一的框架，并号称能降低WER，这更像是对现有最佳实践的梳理和标准化，而非开辟新路。最大的亮点——细粒度评估（标点、大小写）——虽然有用，但概念上并不新颖。性能上的巨大鸿沟（慢100多倍）是其学术转化应用的阿喀琉斯之踵。论文在论证“为什么数值更低的WER就更好”这一核心问题上显得乏力，缺乏与人类判断的直接挂钩，这使得其“改进”的说服力打折扣。总体而言，这是一篇合格的、对社区有工具性贡献的工作，但距离顶级会议所期待的深刻洞见或显著性能提升尚有距离。 📌 核心摘要本文提出了OpenWER，一个用于改进跨语言自动语音识别评估的开源工具。其核心贡献在于：1) 通过模块化设计支持灵活的文本预处理（分词、语言特定归一化）；2) 扩展了Levenshtein距离算法，以处理标点符号和复合词，从而减少非语义差异导致的WER波动；3) 基于token的对齐机制能够保留原始文本及嵌入的元数据（如词性、置信度），从而支持计算标点准确率、大小写准确率等互补指标。在Common Voice 17数据集上对52种语言的评估显示，OpenWER相比JiWER和Whisper默认归一化，平均WER分别降低了7.7%（14.5%相对）和3.8%（9.2%相对），绝对WER降低最高可达25%。论文强调此工具旨在提高跨语言评估的公平性和全面性。 ...

Vaani Benchmark V1.0: An Inclusive Multimodal Benchmark Dataset for Hindi

📄 Vaani Benchmark V1.0: An Inclusive Multimodal Benchmark Dataset for Hindi #语音识别 #多模态模型 #低资源 6.7/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.3/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5 ✅ 6.7/10 | 前50% | #语音识别 | #多模态模型 | #低资源 | arxiv 👥 作者与机构作者：Sujith Pulikodan, Agneedh Basu, Saurabh Kumar, Pranav Bhat, Pavan Kumar J, Visruth Sanka, Nihar Desai, Prasanta K. Ghosh 机构： ...

语音/音乐/音频论文速递 2026-06-23

语音/音乐/音频论文速递 2026-06-23 共分析 83 篇论文 ⚡ 今日概览 📥 抓取 83 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 19篇 ███████████████ #语音合成 14篇 ██████████████ #音乐生成 3篇 ███ #说话人验证 3篇 ███ #语音增强 3篇 ███ #对比学习 2篇 ██ #自监督学习 2篇 ██ #音频水印 2篇 ██ 📊 论文评分排行榜（83 篇，按分数降序）排名论文总分分档主任务 🥇 CoughPhase-CLR: Designing an acoustics-informed foundat 10.0分前10% #对比学习 🥈 Libretto: Giving LLM Agents a Sense of Musical Structur 9.2分前50% #音乐生成 🥉 Speaker Identity in Non-Verbal Vocalizations: Condition 9.1分前25% #说话人验证 4. PHAST-Net: Attention-Guided, Physics-Informed Network f 9.0分前10% #音乐信息检索 5. Domain-incremental audio classification using domain-sp 9.0分前50% #音频分类 6. MSU-Bench: Towards Speaker-Centric Understanding in Con 9.0分前10% - 7. How Well Do Self-Supervised Speech Models Encode Age an 9.0分前50% #自监督学习 8. CAAD: Contrastive Audio-Aware Distillation for Efficien 8.9分前25% #语音识别 9. STAR-VAE: Structured Topology-Aware Regularization for 8.8分前25% #音频生成 10. An Evaluation Framework for Text-to-Speech Voice Recons 8.8分前25% #语音合成 11. An Analysis of Untrained Deep Reservoir Networks for Au 8.8分前50% #音频事件检测 12. Towards Detecting Neural Audio Codec Synthesized Heart 8.7分前50% #自监督学习 13. Bridging the Age Gap: Towards Detecting Neural Audio Co 8.6分前50% #语音伪造检测 14. ATCCaps: A Call-Sign-Aware Speech Dataset for Air Traff 8.6分前25% #语音识别 15. InstructFX2FX: A Multi-turn Text-to-Preset Demo for Ite 8.6分前50% #对比学习 16. When EER Hides Deployment Failure: Auditing Threshold T 8.6分前25% - 17. CapRiCorn-1K: A Comprehensive Benchmark for Video Capti 8.6分前50% #语音识别 18. Compiling Differentiable Audio Graphs to Real-Time DSP 8.5分前25% - 19. Improving Text-to-Music Generation with Human Preferenc 8.5分前50% #音乐生成 20. Don't Listen to Me: A Lightweight, Low-Latency Mode 8.4分前50% #语音增强 21. HALAS: A Human-Annotated Dataset of Hallucinations of M 8.4分前50% #语音识别 22. Benchmarking Large Language Models for Grapheme-to-Phon 8.4分前25% #语音合成 23. Cross-lingual Retrieval-Augmented Classification for Dy 8.4分前25% #语音识别 24. Bagpiper-TTS: Natural Language Guided Universal Speech 8.4分前25% #语音合成 25. Using Phonological-Level Wav2Vec2 for Mandarin Automati 8.3分前25% #语音识别 26. Word Lengthening as a Function of Utterance Position: A 8.1分前25% #语音合成 27. LambdaMark: Semantic Audio Watermarking for Robustness 8.0分前25% #音频水印 28. OpenWER: Improving Cross-Lingual ASR Evaluation and Ena 8.0分前50% #语音识别 29. AudioCALM: Continuous Autoregressive Language Modeling 7.9分前25% #语音合成 30. AOR-Bench: Do Large Audio Language Models Over-Refuse P 7.9分前50% #音频问答 31. Gradient-Based Learning of Parametric Engine Sound Repr 7.8分前50% #参数高效微调 32. Toward Open-Set Speaker Attribute Prediction with Keywo 7.8分前25% #多模态模型 33. Time-Frequency Weighted Losses for Phoneme Reconstructi 7.8分前25% #语音增强 34. An implicitization-based solution to the minimal 4s/6r 7.8分前50% - 35. CORTIS: Text-Only Adaptation of Spoken Language Models 7.7分前50% #语音识别 36. What Do Neural Networks Learn for TDOA Estimation? A Cr 7.7分前50% #声源定位 37. Kiwano: A Cutting-Edge Open-Source Toolkit for Speaker 7.6分前50% #说话人验证 38. Learning to Evade: Adaptive Attacks on Audio Watermarki 7.6分前50% #音频水印 39. Bagpiper-Edit: Zero-Shot Open-Ended Audio Editing via R 7.6分前25% #语音合成 40. From Text Metrics to Model Internals: A Study of Whispe 7.5分前50% #语音识别 41. Bridging Self-Supervised Learning and Speech Enhancemen 7.5分前25% #语音增强 42. Integrating Facial Generation into Full-Duplex Spoken D 7.5分前25% - 43. ESPnet3: Infrastructure for Scalable Speech and Audio R 7.5分前25% #语音识别 44. On the Effect of Segmentation Width and Cluster Size on 7.4分前25% #语音合成 45. The Anatomy of the CTC Oracle Gap: Acoustic Exhaustion 7.3分前50% #语音识别 46. FlowTTS-GRPO: Online Reinforcement Learning with Multi- 7.2分前50% - 47. DisSpeech: Low-Resource Controllable Mandarin Stuttered 7.2分前25% #语音合成 48. SDP-Codec: A Speaker-Decoupled Speech Codec with Pitch 7.2分前50% #语音编码 49. Synthesizing the Lombard Effect: Multi-Level Control of 7.2分前50% #语音合成 50. Scaling Audio Models Efficiently: A Joint Study of Comp 7.2分前50% #语音识别 51. Online Predictive Coding for Dual-Mode Self-Supervised 7.2分前50% #语音识别 52. Exploiting Neural Audio Codec Latents for Adversarial A 7.2分前50% #生成对抗网络 53. Audio Editing in the Era of Foundation Models: A Survey 7.0分前25% - 54. Adding Robust Code-Switching Capabilities to High Perfo 7.0分前50% #语音识别 55. Unlocking In-Context Learning in Audio-Language Models 7.0分前50% #联邦学习 56. Backdoor Attacks on Speech Emotion Recognition via TTS- 7.0分前50% #语音情感识别 57. LK Jam: System Architecture and Implementation of a Rea 7.0分前50% #音乐生成 58. An Acoustic Landmark Database of the English Lexicon vi 6.9分前50% #语音合成 59. Learning from Audio-Dependency Errors: Data Curation St 6.9分前50% #音频问答 60. The Watermark Shortcut: How Provenance Marking Sabotage 6.8分前50% #数据增强 61. LISE : Listenable Interpretable Speaker Embeddings 6.8分前50% #说话人验证 62. PIVOTSBench: Evaluating Fine-Grained Interpersonal Rela 6.8分前50% #基准测试 63. AugCodec: A Low-Bitrate Disentangled Neural Speech Code 6.7分前50% #数据增强 64. Vaani Benchmark V1.0: An Inclusive Multimodal Benchmark 6.7分前50% #语音识别 65. Physics-Informed Neural Operator for Speech Production 6.7分前50% #语音合成 66. Streaming T5-based Text-to-Speech Synthesis with Limite 6.7分前25% #语音合成 67. ProsoCodec: Prosody-Oriented Speech Codec for Voice Con 6.6分前50% #语音转换 68. Beyond ROC-AUC: Operating-Point Performance Reporting f 6.6分前50% - 69. ISCSLP 2026 CoT-TTS Challenge: Chain-of-Thought Reasoni 6.6分前50% #语音合成 70. A DDSP Framework for Adaptive Room Equalization 6.5分前50% #自适应滤波 71. EmoInstruct-TTS: Dual-Path Instruction-Guided Emotional 6.5分前50% - 72. Interleaved Speech Language Models Latently Work In Tex 6.4分前50% #语音识别 73. DSSCNet: A Transfer Learning Framework for Cross-Corpus 6.3分前50% #迁移学习 74. Sea-Scan: High-Accuracy, ML-based Dark Vessel Detection 6.3分前50% - 75. Catching Lies Without Sending the Video: Privacy-Preser 6.2分前50% #多模态模型 76. MindAlign: Decoding Inner Speech from fMRI Signals via 5.8分前50% #语音识别 77. Acoustic Landmark Detector based on Conformer and HuBER 5.5分前50% #语音识别 78. Explainable AI in Speaker Recognition – Attention Map 5.5分前50% #说话人识别 79. Imitation Learning for Elder-Facing Speech Synthesis 5.5分前50% #语音合成 80. Improving Engine Sound Analysis in Hot-Test Environment 4.9分后50% #音频降噪 81. Direct Raw Audio Signal Processing via Reservoir Comput 4.5分后50% #语音识别 82. A Generalized Formalism of Auto-Regressive Decoding for 4.1分后50% #自回归模型 83. Noise-Driven Instrument Based on Coherent Quantum and S 3.8分后50% - 📋 论文列表 🥇 CoughPhase-CLR: Designing an acoustics-informed foundation model for coughing sound classification 10.0/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.0/1.5 ...

Beyond Speaker Independence: Evaluating Cross-Lingual Acoustic-to-Articulatory Inversion Across Finnish and Russian

📄 Beyond Speaker Independence: Evaluating Cross-Lingual Acoustic-to-Articulatory Inversion Across Finnish and Russian #自监督学习 #低资源 4.9/10 | 创新 1/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 0.2/1.5 📝 4.9/10 | 后50% | #自监督学习 | #自监督学习 | #低资源 | arxiv 👥 作者与机构 Ruchi Pandey, Tomi H. Kinnunen。 University of Eastern Finland, Finland。 💡 毒舌点评这篇论文的“野心”在于为跨语言AAI建立一个干净的评估框架，这本身是值得肯定的，就像在一个嘈杂的厨房里坚持用标准度量衡。然而，其“骨感”之处在于执行力度的不足。首先，作为一篇声称建立“基准”的论文，其核心贡献——FROST-EMA数据集——竟然是“犹抱琵琶半遮面”，没有提供公开获取途径，这严重削弱了其作为社区基准的可重复性和影响力，堪称“基准”二字的最大讽刺。其次，实验部分的核心发现（跨语言错配影响大于跨性别错配）虽然听起来合理，但支撑它的实验设计存在明显短板：消融实验仅锚定在FIN-M这一单一组别，其结论的普适性存疑；文中声称“首次”隔离了性别和语言因素，但对比的基线工作（wieling2017analysis, yan2023combining）本就存在混淆因素，这种“首次”的价值打了折扣。更关键的是，论文的终极武器——自监督学习特征（SSL）——虽然赢了MFCC，但赢的并不光彩：其比较是“冻结”的，没有进行任何微调或适配，在低资源场景下，这真的是SSL的最佳打开方式吗？论文对此毫无探讨。最后，作者在结论中“画饼”说未来要评估L2和口音语音，但连L1的基线结果（相关系数普遍低于0.5）都如此挣扎，谈论更复杂的场景是否为时尚早？总体而言，论文提出了一条清晰的技术路线，但每个环节都显得“点到为止”，深度不足，数据壁垒更是致命伤，使其难以成为该领域一个坚实可靠的里程碑。 📌 核心摘要本文针对声学到发音倒置（AAI）在跨领域场景下的性能下降问题，提出首个针对芬兰语-俄语双语电磁发音图（EMA）语料库FROST-EMA的系统性基准评估。核心贡献是定义了可隔离语言和性别因素的评估协议，并消融比较了多种声学前端（MFCC, Wav2Vec 2.0, XLSR-53, MMS-300m）、发音目标表示（原始EMA坐标, 管道变量）和倒置后端（BiLSTM, Attn-lite）。实验结果表明，跨语言失配（\(\Delta r \approx 0.10-0.20\)）导致的性能下降显著大于跨性别失配（\(\Delta r \approx 0.05-0.10\)），且两者效应叠加。SSL特征（特别是Wav2Vec 2.0和MMS-300m）在所有条件下均优于MFCC，而BiLSTM后端在当前数据规模下优于轻量级Transformer。研究为跨语言、跨性别的AAI研究提供了首个可控的评估框架和基准结果。 ...

Cross-Dataset, Age, and Gender Generalization: A Comprehensive Analysis of Fine-Tuning Strategies for Low-Resource Children's ASR

📄 Cross-Dataset, Age, and Gender Generalization: A Comprehensive Analysis of Fine-Tuning Strategies for Low-Resource Children's ASR #语音识别 #低资源 #自监督学习 6.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 0.7/1.5 ✅ 6.7/10 | 前50% | #语音识别 | #自监督学习 | #低资源 | arxiv 👥 作者与机构作者：Abhijit Sinha， Hemant Kumar Kathania， Sudarsana Reddy Kadiri， Shrikanth Narayanan 机构：南加州大学（USC） 💡 毒舌点评这篇论文的工作更像是一份详尽的实验报告，而非一篇具有突破性方法的顶级会议论文。虽然系统性地测试了几种微调策略，但其核心发现（“在更小的上训练在更大的上效果更好”、“微调能缓解偏见”、“跨数据集会掉点”）在语音识别领域并不算新颖，更像是对现有知识的验证。实验规模受限于两个小数据集，使得结论的普适性存疑。论文最大的问题在于对“为什么”的探索不足：跨数据集失败仅仅归因于“口音和词汇不匹配”，缺乏深入的声学或语言学分析。此外，完全依赖WER指标，忽略了对模型内部表示变化的分析，使得对“偏见缓解”机制的解释流于表面。整体而言，这是一篇扎实但缺乏深度和惊喜的工作。 ...

FlowEdit: Associative Memory for Lifelong Pronunciation Adaptation in Flow-Matching TTS

📄 FlowEdit: Associative Memory for Lifelong Pronunciation Adaptation in Flow-Matching TTS #语音合成 #语音增强 #参数高效微调 #持续学习 #低资源 #数据增强 #多语言 10/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 10/10 | 前25% | #语音合成 | #参数高效微调 | #语音增强 #持续学习 | arxiv 👥 作者与机构作者：Harshit Singh (1), Ayush Pratap Singh (2), Nityanand Mathur (3) 机构：1 University Of Maryland, 2 TU Darmstadt, 3 Smallest AI 联系邮箱：nityanandmathur@gmail.com ...

Improving End-to-End Speech Recognition for Dysarthric Speech through In-Domain Data Augmentation

📄 Improving End-to-End Speech Recognition for Dysarthric Speech through In-Domain Data Augmentation #语音识别 #自监督学习 #低资源 #数据增强 6.5/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.5/10 | 前50% | #语音识别 | #数据增强 | #自监督学习 #低资源 | arxiv 👥 作者与机构 Paban Sapkota, Hemant Kumar Kathania, Sudarsana Reddy Kadiri, Shrikanth Narayanan 未提及具体单位，但作者Paban Sapkota, Hemant Kumar Kathania与Sudarsana Reddy Kadiri, Shrikanth Narayanan可能来自同一机构或合作机构。原文未明确说明第一作者及通讯作者的所属机构。 💡 毒舌点评这篇论文解决了一个有价值的实际问题——为数据稀缺的构音障碍群体改善语音识别。其工作是扎实的，系统性地将几种经典数据增强技术应用到Wav2Vec2微调中，并针对不同严重程度进行了细致调参，得出了SRM和PM各有侧重的结论。然而，其“顶会”成色不足。创新性主要体现在“首次应用”和“系统性实验”，而��方法论或模型的突破。最致命的弱点是实验设计：评估设置可能并非严格的说话者独立，这使得结果的泛化性存疑；同时，仅使用一个较小的公开数据集（TORGO）和一个SSL模型（Wav2Vec2），缺乏与当前SOTA方法（如其他SSL模型或专门针对残障语音的模型）的直接对比，结论的说服力和影响力大打折扣。论文在讨论和反思上也显得吝啬，未能深入剖析技术选择背后的声学机理。总体而言，这是一篇合格的系统性实验论文，但距离顶会要求的深刻洞见和坚实论证尚有差距。 ...

Light-weight Pronunciation Assessment via Discrete Speech Token Surprisal

📄 Light-weight Pronunciation Assessment via Discrete Speech Token Surprisal #自监督学习 #低资源 6.4/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.5/1.5 ✅ 6.4/10 | 前50% | #自监督学习 | #自监督学习 | #低资源 | arxiv 👥 作者与机构作者：Syeda Faiza Ahmed, Shammur Absar Chowdhury 机构：Qatar Computing Research Institute, Doha, Qatar 💡 毒舌点评论文抓住了“无监督/轻监督语音评估”的痛点，提出了一条技术路径清晰的“曲线救国”方案——利用母语数据的统计规律（token惊异度）来检测发音异常，思路巧妙。但“轻量级”的宣称缺乏硬核的工程效率对比数据，更多是定性描述。方法的核心创新在于将离散token惊异度与文本引导的DTW对齐在同一个离散空间进行结合，这比前人工作（如aMRT或GoP）减少了对音素和强制对齐的依赖。然而，实验部分存在明显的“报喜”倾向：在核心数据集SpeechOcean762上，与最强的监督方法（如HMamba）相比差距仍然显著（0.661 vs. 0.807），论文更侧重与“零样本”方法比较，模糊了性能边界。跨数据集泛化实验（L2-ARCTIC）的设置存在疑问，使用Azure伪标签作为标准是否可靠？这可能会削弱结论的说服力。开源方面一无所有，严重阻碍了结果的可复现性和影响力传播。总体而言，这是一篇技术实现完整、有一定想法的工作，但深度和广度上的贡献都较为有限，更像是一篇扎实的系统论文而非突破性的研究。 📌 核心摘要本文提出一种轻量级的发音评估框架，旨在减少对昂贵、标注过的非母语数据的依赖。该框架的核心思想是：一个仅在母语语音数据上训练的模型，会对符合母语音系的语音赋予较低的“惊异度”（surprisal），反之则高。具体地，它首先使用预训练的自监督学习（SSL）编码器（HuBERT）和K-means聚类将语音离散化为token序列（Audio2DUnit）。然后，在母语token序列上训练一个n-gram语言模型（Token Language Model, TLM）来计算token惊异度。当参考文本可用时，引入一个文本到离散单元的模型（Text2DUnit）预测出预期的母语token序列，并通过动态时间规整（DTW）将其与实际发音的token序列对齐，从而提取更细粒度的特征。最终，将惊异度统计特征与可选的对齐特征融合，通过岭回归预测发音质量分数。在SpeechOcean762数据集上，结合音频和文本引导特征的轻监督模型达到了0.661的皮尔逊相关系数（PCC），优于先前的零样本方法，并展示了在少量母语训练数据（约100小时）下的鲁棒性以及在L2-ARCTIC数据集上的初步泛化能力。 ...