Disentangling Speaker and Language Effects in Cross-Lingual Speaker Verification for Iberian Languages

📄 Disentangling Speaker and Language Effects in Cross-Lingual Speaker Verification for Iberian Languages #说话人验证 #迁移学习 #自监督学习 #多语言 #数据集 5.6/10 | 创新 1.1/2 | 严谨 0.9/1.5 | 实验 0.7/1.5 | 清晰 0.6/1 | 影响 0.7/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 0.3/1.5 📝 5.6/10 | 前50% | #说话人验证 | #迁移学习 | #自监督学习 #多语言 | arxiv 👥 作者与机构 第一作者:Pol Buitrago(Barcelona Supercomputing Center, Universitat Politècnica de Catalunya) 通讯作者:Pol Buitrago(Barcelona Supercomputing Center, Universitat Politècnica de Catalunya) 作者列表:Pol Buitrago(Barcelona Supercomputing Center, Universitat Politècnica de Catalunya)、Javier Hernando(Universitat Politècnica de Catalunya) 💡 毒舌点评 本文尝试用一套漂亮的同说话人双语评测集来解耦跨语言 SV 中的语言与说话人混淆效应,研究动机清晰且评测设计确有巧思。然而全文仅围着 mHuBERT-147 一个模型打转,连 ECAPA-TDNN 或 WavLM 的影子都没见着,结论的普适性几乎无从谈起;西班牙语-加利西亚语同说话人评测集仅 21 人,却据此得出"语言效应仍占主导"这样的大结论,说服力堪忧。更让人捏把汗的是,CLTM 定义中训练/测试说话人身份的具体关系始终含混不清,而这么关键的变量一旦控制不好,因果推断怕是站不住脚。 ...

2026-07-02 · 更新于 2026-07-02 · 3 min · 536 words

语音/音乐/音频论文速递 2026-07-02

语音/音乐/音频论文速递 2026-07-02 共分析 16 篇论文 ⚡ 今日概览 📥 抓取 16 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音频理解 3篇 ███ #说话人验证 2篇 ██ #语音合成 2篇 ██ #语音识别 1篇 █ #音视频理解 1篇 █ #语音增强 1篇 █ #语音情感识别 1篇 █ #音乐生成 1篇 █ 📊 论文评分排行榜(16 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 NPUsper: Eliminating Redundant Computation for Real-Tim 9.0分 前10% #语音识别 🥈 AV-SyncBench: Decoupled Benchmarking of Temporal and Se 8.5分 前25% #音视频理解 🥉 ORCA: Open-ended Response Correctness Assessment for Au 7.9分 前25% #音频理解 4. AmbiDrop: Ambisonics-Based Array-Agnostic Neural Speech 7.5分 前25% #语音增强 5. From Objectives to Applications: Aligning Architectural 7.5分 前25% #音频理解 6. Positive-Incentive Noise Predictor for Adversarial Puri 7.4分 前50% #说话人验证 7. Automatic Detection of Stress from Speech in the Trier 7.4分 前50% #语音情感识别 8. Enhancing Flow Matching with A Unified Guidance Framewo 7.1分 前50% #语音合成 9. MG-RWKV: Multi-Grained Context-Aware RWKV for Temporal 6.9分 前50% - 10. A Text-Steerable Instrument for Sketching Procedural So 6.8分 前50% #音乐生成 11. A Geometric Perspective on Composable Emotion Steering 6.6分 前50% #语音合成 12. Do Multimodal Large Language Models Need Reasoning to C 6.5分 前50% #语音属性识别 13. Evaluating Pretrained Music Embeddings for Cross-Perfor 5.8分 前50% #音乐检索 14. Disentangling Speaker and Language Effects in Cross-Lin 5.6分 前50% #说话人验证 15. Adaptive Perturbation Selection for Contrastive Audio D 5.3分 后50% #音频理解 16. Speech Playground: An Interactive Tool for Speech Analy 4.1分 后50% - 📋 论文列表 🥇 NPUsper: Eliminating Redundant Computation for Real-Time Whisper on Mobile NPUs 9.0/10 | 创新 1.4/2 | 严谨 1.4/1.5 | 实验 1.0/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-07-02 · 更新于 2026-07-02 · 13 min · 2691 words

Do Speech Emphasis Models Generalize across Languages and Emotions?

📄 Do Speech Emphasis Models Generalize across Languages and Emotions? #语音识别 #自监督学习 #迁移学习 #多语言 #数据增强 7/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 ✅ 7/10 | 前25% | #语音识别 | #自监督学习 | #迁移学习 #多语言 | arxiv 👥 作者与机构 1 Adobe Research, USA 2 Brown University, USA meganwei@brown.edu, aneja@adobe.com, jsu@adobe.com, yunyunw@adobe.com, haonanc@adobe.com, zejin@adobe.com 💡 毒舌点评 论文动机清晰,提出了一个当前领域内确实缺失的大规模多语言多情感强调检测基准。数据集MMEE的构建过程描述详尽,从语料收集到标注流程都显得相当专业。系统性的基准测试覆盖了单语、跨语言、多语言、跨情感、跨数据集和数据规模等多种场景,实验设计比较全面。然而,其核心贡献——MMEE数据集是专有的,未公开,这极大地限制了工作的可复现性和社区影响力,是一个重大缺陷。研究本身是“评估”而非“提出”新模型,技术深度有限。对音调语言(如中文)表现不佳的根本原因探讨不足,仅仅归因于声调系统显得有些草率。跨数据集泛化实验中,模型在不同数据集上性能差异的原因(如Whisper版本差异)分析可以更深入。整体而言,这是一篇扎实的“数据集与基准”论文,但未开源是其最大硬伤。 📌 核心摘要 本文针对现有语音强调检测模型主要在中性朗读单语数据上训练和评估的问题,引入了MMEE数据集,并利用它对两个前沿模型(EmphaClass, WhiStress)进行了系统性的跨语言、跨情感泛化能力基准测试。核心发现包括:单语模型的跨语言零样本迁移能力有限,且随语言类型距离增加而下降;多语言联合训练显著提升了模型鲁棒性;模型能在高/低唤醒度情感间稳健迁移;人类感知标注与合成标注支持可迁移的表示学习。 🔗 开源详情 代码:论文中未提供代码链接 模型权重:论文中未提供模型权重链接 数据集:MMEE数据集。论文明确指出其基于一个“专有的多语言情感语音语料库(proprietary multilingual expressive speech corpus)”构建,但未提供公开下载链接。 Demo:论文中未提及Demo 复现材料:论文未提供训练配置、检查点等复现所需材料的具体获取方式。 论文中引用的开源项目:论文引用了以下项目作为技术组件,但未在文中提供具体链接: Qwen3-ASR:用于语音转录。 Silero-VAD:用于语音活动检测。 XLS-R (基于Wav2Vec 2.0):作为EmphaClass模型的基础。 Whisper (包括whisper-small和whisper-small.en):作为WhiStress模型的基础。 GPT-4o-mini和GPT-5.2:用于数据生成和质量检查(这些是OpenAI的商业模型)。 项目主页:论文提供了一个项目主页链接:https://multilingual-speech-emphasis.github.io ,但该页面未提供数据集或代码的下载方式。 🏗️ 方法概述和架构 本文的方法核心是构建MMEE数据集并利用其对现有模型进行基准测试,而非提出新的模型架构。 ...

2026-06-29 · 更新于 2026-07-02 · 2 min · 246 words

语音/音乐/音频论文速递 2026-06-29

语音/音乐/音频论文速递 2026-06-29 共分析 16 篇论文 ⚡ 今日概览 📥 抓取 16 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 4篇 ████ #语音合成 2篇 ██ #说话人识别 2篇 ██ #语音质量评估 1篇 █ #数据增强 1篇 █ #语音情感识别 1篇 █ #多模态模型 1篇 █ #语音增强 1篇 █ 📊 论文评分排行榜(16 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Screening Matters: A Comparative Study of Conventional 8.4分 前25% #语音质量评估 🥈 From General-Purpose Audio Tagging to Spatially Grounde 8.3分 前50% #数据增强 🥉 HPRO: Hierarchical Progressive Reward Optimization via 8.2分 前50% #语音合成 4. Learning from Annotation Uncertainty: Entropy-Aware Cur 7.4分 前50% #语音情感识别 5. MER-R1: Multimodal Emotion Reasoning via Slow-Fast Thin 7.4分 前25% #多模态模型 6. A Comparison of Fusion Techniques for Multi-Modal Human 7.3分 前50% - 7. Do Speech Emphasis Models Generalize across Languages a 7.0分 前25% #语音识别 8. Advancing Speaker-Based Vocal Effort Classification wit 6.8分 前50% #语音增强 9. HybridCodec: Modeling Discrete and Continuous Represent 6.5分 前50% #语音合成 10. Grammar-Guided Hierarchical Parsing for Long-form Audio 6.2分 前50% #音频事件检测 11. Room for Error: Large-Scale Simulation of Over-the-Air 6.2分 前50% #语音识别 12. What Was That Again? Certified Robustness for Automatic 6.2分 前50% - 13. Dialogue to Detection: A Multimodal Hybrid NLP Pipeline 6.0分 后50% #说话人识别 14. From Black-Box to Clinical Insight: A Multi-Stage Expla 6.0分 前50% #语音识别 15. DG^VoiC: Speaker Clustering for Fraud Investigation und 5.7分 前50% #说话人识别 16. A Survey of Automated Presentation Coaching: Systems, M 5.4分 后50% #语音识别 📋 论文列表 🥇 Screening Matters: A Comparative Study of Conventional and Crowdsourced Listening Tests 8.4/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

2026-06-29 · 更新于 2026-07-02 · 9 min · 1914 words

Neural Speaker Diarization via Multilingual Training: Evaluation on Low-Resource Nepali-Hindi Speech

📄 Neural Speaker Diarization via Multilingual Training: Evaluation on Low-Resource Nepali-Hindi Speech #多语言 #低资源 #语音分离 5.5/10 | 创新 1.0/2 | 严谨 0.8/1.5 | 实验 1.0/1.5 | 清晰 1.2/1 | 影响 0.5/1.5 | 开源 0.0/1.5 | 复现 0.2/0.5 | 工程 0.3/1.5 📝 5.5/10 | 前50% | #语音分离 | #多语言 | #低资源 | arxiv 👥 作者与机构 作者:Samip Neupane, Sandesh Pokhrel, Sandesh Pyakurel, Basanta Joshi 机构:尼泊尔理工学院普尔乔克校区电子与计算机工程系 💡 毒舌点评 这篇论文的出发点(低资源语言日志化)是好的,但执行上槽点不少。把两个现成模型(EEND-EDA和DiaPer)在合成数据上跑一遍比较,就算“研究”了吗?所谓的“多语言训练”更像是把几堆数据混合在一起,并没有提出新颖的融合策略或理论分析。实验设计最大的硬伤是使用合成数据——把单人录音拼接起来,这能模拟真实对话中复杂的重叠、打断、背景噪声吗?评估数据集NeHi样本量小(每种场景仅100条),且尼泊尔语训练数据仅来自18名女性,这个偏差太大了,结论能推广吗?论文声称DiaPer优于EEND-EDA,但对比分析相当肤浅,没有深入探究Perceiver架构在跨语言泛化上真正优势的来源(比如注意力机制如何处理不同语言的声学特征)。此外,图表标题与内容对应混乱(表4-7),写作粗糙。整体感觉像是一篇急匆匆的实验报告,而非一篇扎实、有深度的顶会论文。 📌 核心摘要 论文针对低资源语言(尼泊尔语、印地语)说话人日志化性能下降的问题,提出使用多语言混合数据训练端到端神经日志化模型。比较了EEND-EDA和DiaPer两种架构。核心结论是DiaPer在多数多说话人场景(尤其是3、4及混合说话人)的DER显著低于EEND-EDA,显示出更好的跨语言泛化能力,而EEND-EDA在简单的2说话人场景略有优势。实验在合成的尼泊尔语-印地语(NeHi)测试集上进行,结果支持DiaPer在复杂场景的优越性。 🔗 开源详情 代码:论文中未提及代码链接,未开源。 ...

2026-06-26 · 更新于 2026-07-02 · 2 min · 422 words

SamaVaani: Auditing and Debiasing Multilingual Clinical ASR for Indian Languages

📄 SamaVaani: Auditing and Debiasing Multilingual Clinical ASR for Indian Languages #语音识别 #对比学习 #参数高效微调 #多语言 7.8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.8/10 | 前25% | #语音识别 | #对比学习 | #参数高效微调 #多语言 | arxiv 👥 作者与机构 作者:Subham Kumar, Prakrithi Shivaprakash, Abhishek Manoharan, Astut Kurariya, Diptadhi Mukherjee, Prabhat Chand, Pratima Murthy, Koustav Rudra, Lekhansh Shukla, Animesh Mukherjee 机构:印度理工学院卡拉格普尔分校(IIT Kharagpur),国家心理健康与神经科学研究所(NIMHANS, Bangalore),卢加德·邦迪亚拉地区精神病学研究所(LGBRIMH, Tezpur) ...

2026-06-26 · 更新于 2026-07-02 · 2 min · 362 words

语音/音乐/音频论文速递 2026-06-26

语音/音乐/音频论文速递 2026-06-26 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 3篇 ███ #语音质量评估 2篇 ██ #语音合成 2篇 ██ #扩散模型 1篇 █ 歌唱评估 1篇 █ 音频编解码 1篇 █ 音频事件检测 1篇 █ 音频分离 1篇 █ 📊 论文评分排行榜(21 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 DNSMOS-C: Improving End-to-end Speech Quality Models vi 9.3分 前50% #语音质量评估 🥈 UnityShots: Memory-Driven Multi-Shot Audio-Video Genera 8.9分 前25% #扩散模型 🥉 Listening Like a Judge: A Music-Aware Framework for Aut 8.8分 前25% 歌唱评估 4. Elastic Time: Dynamic Frame Rate Bottlenecks for Neural 8.3分 前50% 音频编解码 5. Soroll-IA: A Weakly Labeled Audio Dataset for Real-Worl 8.3分 前25% 音频事件检测 6. A Large-Scale Database and Predictive Model of Listener 8.1分 前25% #语音质量评估 7. SamaVaani: Auditing and Debiasing Multilingual Clinical 7.8分 前25% #语音识别 8. CodecSep: Prompt-Driven Universal Sound Separation on N 7.7分 前25% 音频分离 9. VoiceTTA: Enhancing Zero-Shot Text-to-Speech via Reinfo 7.6分 前50% #语音合成 10. What We are Missing in Multimodal LLM Evaluation? 7.0分 前50% - 11. RedVox: Safety and Fairness Gaps in Speech Models Acros 6.8分 前50% #基准测试 12. WQ-Fusion: Dynamic Gated Attention for Cross-Domain Aud 6.7分 前50% #音频分类 13. Thinking While Speaking: Inference-Time Knowledge Trans 6.7分 后50% #知识蒸馏 14. When Does Quality-Aware Multimodal Fusion Matter? A Lea 6.6分 前50% #语音情感识别 15. voxmap-studio: An open-source speaker diarization annot 6.5分 前50% #说话人日志 16. FBK's Long-form SpeechLLMs for IWSLT 2026 Instructi 6.5分 前50% #语音识别 17. wav2tok 2.0: Scalable Audio Tokenization Maintaining Ex 6.4分 前50% #语音检索 18. Generative AI and Copyright Infringement: A Legal-Techn 6.0分 前50% #音乐生成 19. Closing the Quality Gap in Low-Resource Text-to-Speech: 6.0分 后50% #语音合成 20. Neural Speaker Diarization via Multilingual Training: E 5.5分 前50% #语音分离 21. Low Resource Multimodal Translation of Nepali Spoken Wo 5.3分 后50% #语音识别 22 Phonetic and semantic analyses of spoken corpora of Bei N/A - - 📋 论文列表 🥇 DNSMOS-C: Improving End-to-end Speech Quality Models via Contrastive Learning 9.3/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

2026-06-26 · 更新于 2026-07-02 · 12 min · 2421 words

One Model, Many Latencies: Universal Speech Enhancement for Diverse Real-Time Applications

📄 One Model, Many Latencies: Universal Speech Enhancement for Diverse Real-Time Applications #实时处理 #多语言 #语音增强 7.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 7.2/10 | 前50% | #语音增强 | #实时处理 | #多语言 | arxiv 👥 作者与机构 作者:Szu-Wei Fu, Rong Chao, Xuesong Yang, Sung-Feng Huang, Ante Jukić, Yu Tsao, Yu-Chiang Frank Wang 机构:1. 台湾大学电机工程系;2. 中央研究院资讯科技创新研究中心。机构信息在论文作者名字的上标中标明。 💡 毒舌点评 这篇论文试图解决一个很实际的问题:用一个模型应对不同延迟要求的实时语音增强。想法很酷,但实现细节经不起推敲。并行卷积层(类似MoE)和早退机制的组合听起来很灵活,但所谓的“通用性”是建立在一个巨大的前提之下的——你得在部署时针对每个硬件和延迟预算重新测试并剪枝模型,这在实际应用中可能并不“通用”。所谓的“两阶段训练”本质上是个后处理的补丁,用来弥补早退机制带来的性能损失。实验数据虽多,但大部分是URGENT Challenge这个特定竞赛的数据集和设定,模型在VoiceBank-DEMAND上跑出的数字(PESQ 2.76)看着不错,但别忘了它可是用了3倍于DeepFilterNet3的参数量(2.9M vs 2.14M)才达到的,性价比存疑。最让人不安的是关于实时性的讨论:作者在论文里都承认12层模型在A100上RTF>1,不满足实时要求,却依然把它纳入“30种配置”中来宣传,这有点自欺欺人。总的来说,这是一篇工程整合度高于学术创新性的论文。 ...

2026-06-25 · 更新于 2026-07-02 · 3 min · 558 words

语音/音乐/音频论文速递 2026-06-25

语音/音乐/音频论文速递 2026-06-25 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 6篇 ██████ #语音合成 5篇 █████ #语音增强 2篇 ██ #音乐生成 1篇 █ #语音翻译 1篇 █ #语音伪造检测 1篇 █ #自监督学习 1篇 █ #端到端 1篇 █ 📊 论文评分排行榜(27 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Fully Differentiable Neural Forced Alignment via Soft D 8.3分 前25% - 🥈 Attractive and Repulsive Pattern Control in Sequence Ge 8.1分 前25% #音乐生成 🥉 STEB: A Speech-to-Speech Translation Expressiveness Ben 7.8分 前50% #语音翻译 4. Supervised Post-training of Speech Foundation Models fo 7.6分 前50% #语音伪造检测 5. Joint Residual Reweighting for Classifier Free Guidance 7.5分 前50% #语音合成 6. Velocity Prediction in Automatic Guitar Transcription 7.5分 前25% - 7. SE-AGCNet: An End-to-End Framework for Joint Speech Enh 7.4分 前50% #语音增强 8. MJEPA: A Simple and Scalable Joint-Embedding Predictive 7.4分 前25% #自监督学习 9. Sarashina2.2-TTS: Tackling Kanji Polyphony in Japanese 7.3分 前50% #语音合成 10. One Model, Many Latencies: Universal Speech Enhancement 7.2分 前50% #语音增强 11. From Sounds to Scenes: A Benchmark for Evaluating Conte 7.2分 前50% #语音识别 12. Wan-Streamer v0.1: End-to-end Real-time Interactive Fou 7.2分 前25% #语音合成 13. Does Translation-Enhanced Speech Encoder Pre-training A 7.1分 前50% #语音识别 14. Adaptive Oscillatory Inductive Bias for Modeling Sharp 7.0分 前50% #语音合成 15. End-to-End Voice Intent Recognition for Spontaneous Hum 7.0分 前50% #端到端 16. Real-Time Voice AI Hears but Does Not Listen 7.0分 前50% - 17. FoleySet: A Multi-Level Human-Annotated Foley Sound Dat 7.0分 前50% #音频分类 18. EmotionAI: A Privacy-Preserving Computational Intellige 6.9分 前50% #语音情感识别 19. Frequency-Aware Self-Supervised Music Representation Le 6.8分 前50% #音乐信息检索 20. BCoughBench: Benchmarking Respiratory Acoustic Foundati 6.7分 前50% #基准测试 21. SpeechEQ: Benchmarking Emotional Intelligence Quotient 6.7分 前25% #语音对话系统 22. Graph-Based Phonetic Error Correction of Noisy ASR 6.7分 前50% #语音识别 23. What Does a Pathological Speech Assessment Model Know a 6.4分 前50% #语音可懂度评估 24. Phoneme-Level Mispronunciation Screening in Polish-Spea 6.2分 前50% #语音识别 25. Error-Aware TF-IDF Retrieval-Augmented Generation for A 6.1分 前50% #语音识别 26. Evaluating Japanese Dialect Robustness Across Speech an 5.8分 前50% #语音识别 27. CrossAccent-TTS: Cross-Lingual Accent-Intensity Control 5.5分 前50% #语音合成 📋 论文列表 🥇 Fully Differentiable Neural Forced Alignment via Soft Dynamic Programming 8.3/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.0/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ...

2026-06-25 · 更新于 2026-07-02 · 16 min · 3249 words

ZONOS2 Technical Report

📄 ZONOS2 Technical Report #语音合成 #多语言 #自回归模型 10/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 10/10 | 前25% | #语音合成 | #多语言 | #自回归模型 | arxiv 👥 作者与机构 作者:Gabriel Clark, Sofian Mejjoute, Mohamed Osman, George Close, Beren Millidge 机构:Zyphra 💡 毒舌点评 这篇技术报告读起来像一份精心包装的产品发布说明书,而非一篇严谨的学术论文。最大的槽点在于“过度声明”与“选择性对比”:摘要中声称“state-of-the-art naturalness, prosody, and voice cloning fidelity”,但结果表(IV, V)显示,在关键指标如WER和UTMOS上,ZONOS2在多个语言上显著落后于闭源模型(如Eleven Labs V3, Gemini 3.1 Flash)和部分开源模型(如Fish S2 Pro, VoxCPM 2)。其所谓“竞争力”高度依赖自家提出的ZTTS1-Eval基准,而在这个基准上,其“Quality Mode”虽提升了一些指标,但往往以牺牲说话人相似度为代价(对比表IV/ V 中“8B”与“Quality Mode”行)。此外,将80%以上的英文训练数据(图3)归因于“公开语音语料库、播客”等,却未提供这些数据集的任何链接或开源协议,使得“开源”光环下的数据透明度大打折扣,存在“数据黑箱”的嫌疑。讨论部分(VII)对MoE训练不稳定性的承认倒是挺实在的。 ...

2026-06-24 · 更新于 2026-07-02 · 7 min · 1346 words