多语言 | 语音/音乐/音频论文速递

DM-ASR: Diarization-aware Multi-speaker ASR with Large Language Models

📄 DM-ASR: Diarization-aware Multi-speaker ASR with Large Language Models #语音识别 #说话人日志 #大语言模型 #多语言 #结构化预测 🔥 8.0/10 | 前25% | #说话人识别 | #大语言模型 | #语音识别 #说话人日志 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Li Li（武汉大学人工智能学院）通讯作者：Ming Li（香港中文大学（深圳））作者列表：Li Li（武汉大学人工智能学院），Ming Cheng（武汉大学计算机科学学院），Weixin Zhu（腾讯天籁音频实验室），Yannan Wang（腾讯天籁音频实验室），Juan Liu（武汉大学人工智能学院），Ming Li（香港中文大学（深圳），通讯作者） 💡 毒舌点评亮点：论文最大的贡献在于提出了一种务实的“半端到端”框架，在当前端到端大模型尚未完全称霸的阶段，巧妙地将“说话人日志”这一成熟技术的输出作为结构化提示（Prompt）注入大语言模型（LLM），实现了用更小的模型、更少的数据达到甚至超越超大模型的效果，这为实际落地提供了一条高性价比路径。短板：框架高度依赖外部说话人日志系统的质量。尽管论文通过标签扰动训练提升了一定的鲁棒性，但本质上仍是“管道式”思维的变体，未能完全摆脱对上游模块的依赖。当面临日志系统完全失效的场景时，其性能上限可能会受到制约。 🔗 开源详情代码：论文中未提及DM-ASR的完整代码仓库链接。仅在评估部分引用了公开的评估工具MeetEval。模型权重：未提及是否会公开DM-ASR的训练后模型权重。数据集：训练所用的数据集大多为公开数据集（如AMI, ICSI, Fisher, AISHELL-4, AliMeeting等），论文中未提及使用私有数据。论文未提供统一的数据获取入口或脚本。 Demo：未提及提供在线演示。复现材料：论文详细说明了训练设置，包括：使用的预训练模型：Whisper-large-v3-turbo, Gemma3-270m, Qwen3-0.6B/1.7B。微调方法：LoRA (r=16, α=32)。优化器：AdamW，峰值学习率 1e-4，线性warmup-decay。硬件与批次：8 x NVIDIA A6000 48GB GPU，每卡 batch size 2。数据处理：切片长度15-25秒，使用MFA生成词级时间戳。缺失信息：未明确总训练步数/轮数、warmup比例、具体解码参数（如beam size）、以及是否提供预训练检查点。论文中引用的开源项目： Whisper (语音编码器), Gemma, Qwen (LLM解码器), MFA (词级时间戳对齐), MeetEval (评估工具), DiariZen, S2SND (前端日志系统)。总结：论文提供了充分的复现思路和关键配置，但缺乏直接可用的“一键复现”材料（如代码仓库、模型权重），因此公开程度为中等偏上。 📌 核心摘要要解决什么问题：传统多说话人ASR（联合说话人识别、时间定位和文本转录）在级联方案中存在误差传播问题，而纯端到端大模型方案则需要海量数据和算力，训练成本高昂。论文旨在寻找一种更高效、更精确的平衡方案。方法核心：提出DM-ASR框架，将多说话人转录重构为多轮对话生成任务。给定音频和来自外部日志系统的分段说话人及时间信息，模型以这些信息为结构化提示（包含说话人ID和时间戳的特殊token），分“轮次”转录每个说话人在对应时段的文本内容。此外，模型可选地进行词级时间戳预测。与已有方法相比新在哪里：不同于级联方案：不将日志结果用于音频分割再送入单说话人ASR，而是保留完整多说话人音频上下文，让LLM直接处理混合语音。不同于端到端Speech-LLM：不依赖模型从零学习日志能力，而是显式地将日志作为结构化先验输入，大幅简化任务，使小模型也能获得高性能。独特能力：支持词级时间戳生成（如表1所示），这在同类Speech-LLM工作中较为少见。主要实验结果：在中英文基准测试上，DM-ASR用0.6B/1.7B参数的模型，性能（cpCER/tcpCER）显著优于多种强基线（包括级联方案和7B级Speech-LLM）。例如，在AliMeeting测试集上，1.7B的DM-ASR (S2SND) 取得了19.15% cpCER 和 19.45% tcpCER，优于VibeVoice-ASR (7B) 的29.33% cpCER。消融实验表明，词级时间戳、更长上下文、更多数据和更大模型均带来稳定提升。实际意义：证明了在资源受限（模型、数据）的条件下，将传统语音处理模块（日志系统）的输出作为大模型的结构化提示，是一种非常有效的多模态融合范式。为会议转录等应用提供了一套高性价比、高精度的解决方案。主要局限性：框架性能受限于前端日志系统的质量。虽然可通过训练修正不完美日志，但论文显示在完全不依赖日志提示（LLM预测全部）的设置下，性能仍有差距，说明模型本身独立完成全任务的能力有待加强。 🏗️ 模型架构 DM-ASR的整体框架如下图所示，由四个主要组件构成： ...

Selective Augmentation: Improving Universal Automatic Phonetic Transcription via G2P Bootstrapping

📄 Selective Augmentation: Improving Universal Automatic Phonetic Transcription via G2P Bootstrapping #语音识别 #数据增强 #多语言 #低资源 ✅ 6.0/10 | 前50% | #语音识别 | #数据增强 | #多语言 #低资源 | arxiv 学术质量 5.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：未说明通讯作者：未说明作者列表：Tobias Bystrich（未说明）、Julia M. Pritzen（未说明）、Christoph A. Schmidt（未说明）、Claudia Wich-Reif（未说明） 💡 毒舌点评亮点：论文提出了一种新颖的“选择性增强”思路，巧妙地从目标语言（德语）的辅助语言（印地语）中“借用”语音学区别特征来改善训练数据，为解决通用语音转写中“干净、多样化”数据不足的核心痛点提供了新视角。短板：但摘要所呈现的实验规模非常有限（仅验证了德语塞音的送气和清浊两个特征），且严重依赖外部语言模型（MultIPA）和辅助语言数据，其普适性、对最终端到端系统性能的提升效果，以及跨语言迁移的边界和风险，文中均未提供充分证据。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及数据集：论文中未提及 Demo：论文中未提及复现材料：论文中未提及论文中引用的开源项目： MultIPA：论文中提到“基于模型 MultIPA”，但未给出其具体开源链接。 Kaldi：论文中提到“使用了 Kaldi 工具包”，但未给出具体版本或链接。补充信息 [模型架构] 补充：论文明确指出实验是基于MultIPA模型进行的，且该模型基于Transformer架构。这是对方法技术基础的关键说明，而非仅仅是一个“外部依赖”。 [模型架构/创新点/细节详述] 补充：论文明确指出，所提出的“选择性增强”是一个引导式方法。具体而言，它利用G2P（字素到音素）引导的概念。这一方法论框架是创新点的核心组成部分，表明其利用了语言学知识来指导数据增强过程。 [细节详述] 补充：关于训练数据，论文原文提供了更具体的信息：增强操作是针对德语（目标语言）的现有训练转写进行的，而所使用的语音区别特征信息（如送气和清浊）来源于印地语（辅助语言）。这明确了“跨语言特征迁移”的具体操作对象和数据来源。 ...

语音/音乐/音频论文速递 2026-05-01

语音/音乐/音频论文速递 2026-05-01 共分析 21 篇论文 ⚡ 今日概览 📥 抓取 21 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 7篇 ███████ #模型评估 2篇 ██ #语音对话系统 1篇 █ #条件生成 1篇 █ #语音转换 1篇 █ #音频事件检测 1篇 █ #语音合成 1篇 █ #个性化联邦学习 1篇 █ 📊 论文评分排行榜（21 篇，按分数降序）排名论文评分分档主任务 🥇 LRS-VoxMM: A benchmark for in-the-wild audio-visual spe 9.0分前25% #语音识别 🥈 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal 8.5分前25% #语音对话系统 🥉 ABC: Any-Subset Autoregression via Non-Markovian Diffus 8.0分前25% #条件生成 4. Accent Conversion: A Problem-Driven Survey of Socioling 7.5分前50% #语音转换 5. Few-Shot Accent Synthesis for ASR with LLM-Guided Phone 7.5分前25% #语音识别 6. EdgeSpike: Spiking Neural Networks for Low-Power Autono 7.5分前25% #音频事件检测 7. JaiTTS: A Thai Voice Cloning Model 7.5分前25% #语音合成 8. Taming Noise-Induced Prototype Degradation for Privacy- 7.5分前25% #个性化联邦学习 9. MCPHunt: An Evaluation Framework for Cross-Boundary Dat 7.5分前25% #模型评估 10. Beyond the Baseband: Adaptive Multi-Band Encoding for F 7.0分前25% #生物声学 11. A Knowledge-Driven Approach to Target Speech Extraction 7.0分前50% #语音分离 12. Predicting Upcoming Stuttering Events from Three-Second 7.0分前25% #语音生物标志物 13. Dual-LoRA: Parameter-Efficient Adversarial Disentanglem 7.0分前25% #说话人验证 14. HATS: An Open data set Integrating Human Perception App 7.0分前50% #语音识别 15. Do Sparse Autoencoders Capture Concept Manifolds? 7.0分前25% #可解释性 16. BUT System Description for CHiME-9 MCoRec Challenge 6.5分前25% #语音识别 17. AppTek Call-Center Dialogues: A Multi-Accent Long-Form 6.5分前25% #语音识别 18. Qualitative Evaluation of Language Model Rescoring in A 6.5分前25% #语音识别 19. Mapping the Methodological Space of Classroom Interacti 6.0分前50% #模型评估 20. Selective Augmentation: Improving Universal Automatic P 6.0分前50% #语音识别 21. Normativity and Productivism: Ableist Intelligence? A D 3.5分后50% #语音翻译 📋 论文列表 🥇 LRS-VoxMM: A benchmark for in-the-wild audio-visual speech recognition 🔥 9.0/10 | 前25% | #语音识别 | #数据集 | #基准测试 #鲁棒性 | arxiv ...

EmoTransCap: Dataset and Pipeline for Emotion Transition-Aware Speech Captioning in Discourses

📄 EmoTransCap: Dataset and Pipeline for Emotion Transition-Aware Speech Captioning in Discourses #语音情感识别 #语音合成 #多任务学习 #数据集 #多语言 ✅ 7.5/10 | 前25% | #语音情感识别 | #多任务学习 | #语音合成 #数据集 | arxiv 学术质量 7.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Shuhao Xu（机构未明确说明，作者列表中编号为1）通讯作者：Rui Liu（作者列表中编号为1，且标注为Corresponding Author）作者列表：Shuhao Xu (1), Yifan Hu (1), Jingjing Wu (1), Zhihao Du (1), Zheng Lian (2), Rui Liu (1) 机构信息：论文正文和作者列表中仅标注了编号1和2，未提供具体机构名称。作者Zheng Lian (2)来自编号2的机构。根据致谢部分，该研究获得国家自然科学基金等资助，但未说明具体所属单位。 💡 毒舌点评亮点：本文首次系统性地定义并攻克“语篇级情感转换描述”这一任务，构建的首个大规模双语合成数据集（EmoTransSpeech）为这个被忽视但重要的领域提供了宝贵的燃料。短板：数据集完全依赖合成，情感转换的标注也主要依赖模型（MTETR）和LLM自动生成，这虽然高效，但可能使得数据分布过于“干净”和可控，削弱了其在复杂、模糊的真实对话场景中的验证价值。 ...

One Voice, Many Tongues: Cross-Lingual Voice Cloning for Scientific Speech

📄 One Voice, Many Tongues: Cross-Lingual Voice Cloning for Scientific Speech #语音克隆 #语音大模型 #知识蒸馏 #多语言 #领域适应 🔥 8.0/10 | 前25% | #语音克隆 | #知识蒸馏 | #语音大模型 #多语言 | arxiv 学术质量 6.0/7 | 选题价值 1.3/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Amanuel Gizachew Abebe（Shaggar Institute of Technology）通讯作者：Yasmin Moslem（Trinity College Dublin）作者列表：Amanuel Gizachew Abebe（Shaggar Institute of Technology）、Yasmin Moslem（Trinity College Dublin） 💡 毒舌点评亮点：论文方法论清晰，提出了一套完整的“多模型集成蒸馏+合成数据+领域特异性PEFT”的流程来应对科学领域多语言语音克隆的数据稀缺问题，实验设计合理，能清晰展示每一步的贡献。短板：核心创新有限，基本是现有技术的组合应用（Best-of-N集成、LoRA微调），且对科学演讲这一特定领域的挑战（如术语发音、韵律）缺乏更深入的技术设计，最终依赖自动化指标评估可能无法完全反映感知质量。 🔗 开源详情代码：提供代码仓库链接：https://github.com/Aman-byte1/multilingual-voice-cloning-training。模型权重：论文提及使用公开的OmniVoice、VoxCPM、Chatterbox等模型作为教师模型或基础模型，但未明确说明其微调后的模型权重是否公开。数据集：论文中使用的ACL 60/60是公开数据集。通过集成蒸馏生成的合成数据集未明确说明是否单独公开。 Demo：论文中未提及在线演示。复现材料：论文提及代码仓库包含数据准备、训练和评估代码，并指出“精确的超参数配置可在代码仓库中找到”。此外，论文正文给出了关键训练配置（400步、A40 GPU、混合精度、余弦学习率、RSLoRA）和推理配置（VAD、文本分块、温度0.8、top-p 0.9），提供了较好的复现基础。引用的开源项目：论文中引用或提及的开源项目/工具包括：OmniVoice， VoxCPM， Chatterbox， Whisper， ECAPA-TDNN， HIGGS tokenizer（未提供链接）。论文中未提及关于最终模型权重、完整训练配置文件、评估脚本的详细开源计划，但现有信息已指向一个可复现的起点。 📌 核心摘要问题：解决科学演讲等专业领域中，保持说话人音色的同时，跨语言（阿拉伯语、中文、法语）生成高可懂度语音的挑战，主要瓶颈在于缺乏高质量、领域适配的训练数据。方法核心： 1) 多模型集成蒸馏：使用三个零样本语音克隆模型（OmniVoice, VoxCPM, Chatterbox）为ACL 60/60学术语料库生成合成语音，并通过一个结合了可懂度（CER）和说话人相似度（SIM）的复合评分（S_comb）选择每个句子的最佳合成样本，构建高质量的微调数据集。2) 每语言LoRA微调：使用上述合成数据集，通过低秩自适应技术，为目标语言（AR, ZH, FR）分别微调基础OmniVoice模型。新意：主要在于将集成蒸馏与领域数据生成相结合，以应对科学领域低资源问题；并验证了为多语言模型训练独立的LoRA模块比单一多语言适配器更能保留语言特定音素特征。主要结果：在IWSLT 2026共享任务的盲测集上，微调后的OmniVoice模型在所有三种语言上均实现了可懂度（WER/CER）的持续提升，同时保持了接近基线的说话人相似度（SIM）。例如，在完整盲测集上，阿拉伯语微调模型CER从0.077降至0.071；法语WER从0.079降至0.076；中文CER从0.200降至0.192。与多个基线模型对比，OmniVoice在说话人相似度上具有显著优势。实际意义：为利用现有基础模型，快速适配专业领域（如科学交流）的多语言语音合成提供了有效、可复现的范式。主要局限：用于微调的合成数据集规模较小（1，404样本）；性能评估主要依赖自动化指标（Whisper， ECAPA-TDNN），可能无法完全反映人耳感知的真实质量和自然度；每语言独立训练适配器增加了系统复杂度。 🏗️ 模型架构论文未提供完整的模型架构图。其系统整体流程可概括如下： ...

Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost

📄 Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost #语音合成 #迁移学习 #多语言 #大语言模型 #开源工具 🔥 8.0/10 | 前25% | #语音合成 | #迁移学习 | #多语言 #大语言模型 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Venkata Pushpak Teja Menta（未说明）通讯作者：未说明作者列表：Venkata Pushpak Teja Menta（未说明） 💡 毒舌点评本文巧妙地利用BUPS罗马音转换和LoRA轻量适配，将一个完全不支持泰卢固语和泰米尔语的开源模型提升至接近商业水平，工程实用性和开源诚意十足；但评估集仅10句，缺乏正式的MOS主观评估，且对印地语的声学保真度（FAD）仍落后于商业系统，证明其“最小干预”路径在声学解码器层面仍有天花板。 🔗 开源详情代码：提供，链接为 https://github.com/praxelhq/praxy ，许可证为MIT。模型权重：提供，R6 LoRA权重发布于 https://huggingface.co/Praxel/praxy-voice-r6 ，许可证为Apache-2.0。数据集：未提供新数据集。使用了公开的授权数据集（IndicTTS, Rasa, FLEURS, Shrutilipi），论文中给出了各数据集的规模。 Demo：提供，Gradio演示托管在Hugging Face Spaces上（链接在HuggingFace仓库README中）。复现材料：提供了完整的训练细节（超参数、学习率调度、硬件、训练步数）、推理代码、配置（Config B）、BUPS实现、语言路由器、统一的印度语数字/日期/货币规范化器。评估基准和评测工件随PSP伴侣论文发布。论文中引用的开源项目：ResembleAI Chatterbox（基座模型）、AI4Bharat IndicF5（语码混合分支后端）、indic-transliteration（BUPS核心依赖）、HuggingFace PEFT库（LoRA实现）、Anthropic Claude Haiku 4.5（语码混合音译预处理）、OpenRouter（用于LLM-WER评估的Qwen模型接口）。 📌 核心摘要要解决什么问题：如何以最小干预、零商业训练数据成本，将一个不支持印度语言（泰卢固语、泰米尔语）的商用级多语言开源TTS基座（Chatterbox）提升至商业级输出质量，并保持其对已支持语言（印地语）的性能。方法核心是什么：提出一个包含三个工程组件的集成方案：（1）BUPS，一个将婆罗米文字脚本无损转换为拉丁字母（ISO-15919）的确定性路由层；（2）仅在文本预测头（t3）上训练的LoRA适配器（占模型总参数的0.97%），使用印地语作为语言ID代理；（3）一个推理时语音提示恢复配方，包括同语言参考音频（8-11秒）和三组采样参数覆盖（Config B：夸张度0.7，温度0.6，最小概率0.1）。与已有方法相比新在哪里：不同于从头训练新模型，本文首次系统性地展示了如何通过“最小干预包装”路径，让一个冻结的、非原生支持目标语言的多语言基座达到商业级输出。BUPS作为路由机制、LoRA仅用于文本头的适配策略，以及特定的推理时恢复配方（Config B）的组合是其核心工程创新。主要实验结果如何：在10句语音的PSP基准测试上，Praxy Voice系统在关键指标上达到或超越商业系统：泰卢固语卷舌音坍塌率26.7%（优于Sarvam Bulbul的33.3%）；泰米尔语特殊音节“zh”坍塌率71%（显著优于商业三巨头的86%）；印地语LLM-WER为0.025（与Cartesia Sonic-3持平）。对于语码混合输入，通过IndicF5加本地文字音译预处理，LLM-WER从原始模型的0.80-0.85降至0.14-0.27。关键消融实验表明，该LoRA方法在印地语上会损害语义准确性（LLM-WER从0.025劣化至0.334），验证了其作用范围仅限于基座未原生支持的语言。实际意义是什么：为资源有限的团队提供了一条低成本（约45美元计算成本）、低数据门槛的路径，使其能快速将开源多语言TTS模型扩展至新的高价值语言（如印度主要语言），并保持接近商业系统的质量。完整的开源发布（代码、模型、演示）极大地促进了复现和应用。主要局限性是什么：评估基于小规模试点集（每语言10句），结果可能存在噪声；缺乏正式的MOS主观评分；对声学解码器的适配因计算限制未进行，导致印地语的FAD指标落后于商业系统；语音提示恢复依赖用户提供的参考音频，增加了使用复杂度。 🏗️ 模型架构本文的核心是三分支推理管道，其架构图如图1所示（论文中未提供独立的URL，但图1在原文中已有详细描述）。整体流程如下： ...

Preferences of a Voice-First Nation: Large-Scale Pairwise Evaluation and Preference Analysis for TTS in Indian Languages

📄 Preferences of a Voice-First Nation: Large-Scale Pairwise Evaluation and Preference Analysis for TTS in Indian Languages #语音合成 #模型评估 #多语言 #人类评估 #基准测试 ✅ 7.5/10 | 前25% | #语音合成 | #模型评估 | #多语言 #人类评估 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Srija Anand (AI4Bharat, srijaanand@ai4bharat.org) 通讯作者：未说明作者列表：Srija Anand¹,² (AI4Bharat), Ashwin Sankar² (AI4Bharat), Ishvinder Sethi³ (Josh Talks), Aaditya Pareek² (AI4Bharat), Kartik Rajput² (AI4Bharat), Gaurav Yadav² (AI4Bharat), Nikhil Narasimhan² (AI4Bharat), Adish Pandya² (AI4Bharat), Deepon Halder² (AI4Bharat), Mohammed Safi Ur Rahman Khan² (AI4Bharat), Praveen S V² (AI4Bharat), Shobhit Banga² (AI4Bharat), Mitesh M Khapra¹ (印度理工学院马德拉斯分校)。注：上标1,2,3对应论文中提到的机构：1. Indian Institute of Technology, Madras; 2. AI4Bharat; 3. Josh Talks。 💡 毒舌点评这篇论文堪称语音合成领域的“Consumer Reports”，通过严谨、大规模的控制实验和多维度分析，为印度语言TTS模型的优劣提供了目前最可信的排名和诊断报告，其实证数据的价值很高。然而，它的核心方法论（受控成对评估）并非首创，且“表达力驱动用户偏好”这一结论在缺乏客观声学指标（如MCD, F0轮廓）支撑的情况下，略显单薄，更像是对评估数据的重新解读而非深入机理的揭示。 ...

PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech

📄 PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech #语音合成 #模型评估 #自监督学习 #多语言 #基准测试 🔥 9.0/10 | 前25% | #语音合成 | #模型评估 | #自监督学习 #多语言 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Venkata Pushpak Teja Menta（未说明）通讯作者：Venkata Pushpak Teja Menta（未说明）作者列表：Venkata Pushpak Teja Menta（未说明） 💡 毒舌点评亮点：这篇论文精准地抓住了印度语言TTS评估中“可懂度高但口音不地道”的痛点，提出的PSP框架将“口音”拆解得明明白白，并用自动化声学探针方法替代了不靠谱的ASR，设计思路非常清晰务实。短板：V1版本的实验规模（每种语言10句话）实在太小，使得统计显著性存疑，论文自己也承认排名差异在5个百分点内无法区分，更像是一个“概念验证”而非最终的权威评测报告。 🔗 开源详情代码：提供了完整的开源代码仓库链接：github.com/praxelhq/psp-eval，包含评分、引导采样和模态相关代码，采用MIT许可证。模型权重：未提及发布PSP评估框架本身的模型权重（它是一个评估流程，依赖预训练模型如XLS-R，但未修改或发布这些权重）。数据集：已公开发布。包括：原生语音质心（CC-BY许可证）：Praxel/psp-native-centroids on HuggingFace。用于FAD的1000片段语料库级XLS-R嵌入。用于PSD的500片段语料库级韵律特征矩阵。每种语言300句的“黄金测试集”文本文件。 Demo：论文中未提及在线��示。复现材料：提供了详细的复现说明（见GitHub仓库README），包括所需的Modal账户设置和运行命令。论文中提到了所有关键超参数（如提取层、坍缩阈值）。论文中引用的开源项目/模型： Wav2Vec2-XLS-R：用作嵌入提取器。 CTC对齐器：引用了多个社区模型（anuragshas/wav2vec2-large-xlsr-53-telugu, ai4bharat/indicwav2vec-hindi, Harveenchadha/vakyansh-wav2vec2-tamil-tam-250）。 Chatterbox：Praxy Voice系统所基于的开源TTS框架。 Indic Parler-TTS：作为被评估的开源基线系统。 📌 核心摘要问题：现有的文本转语音（TTS）评估指标（如WER、MOS）无法有效量化合成语音的“口音”是否地道，尤其是在印度语言中，卷舌音、送气音、元音长度等音韵特征对本地听众至关重要。方法核心：提出PSP（音素替换档案），一个可解释的、按音韵维度分解的印度语言TTS口音评估基准。它定义了六个维度：卷舌音坍缩率（RR）、送气保真度（AF）、长度保真度（LF）、泰米尔语“ழ”保真度（ZF）、Fréchet音频距离（FAD）和韵律特征发散度（PSD）。前四个维度通过强制对齐提取音素片段，计算其在Wav2Vec2-XLS-R嵌入空间中与本地人质心和替代音素质心的相似度来评估；后两个维度在语料库级别计算分布距离。与已有方法相比新在哪里：与针对美式-英式英语的、基于规则的PSR基准不同，PSP是基于声学探针的、针对印度语言的，并且将评估分解为多个可解释的音韵维度，而非单一标量。它不依赖高精度的目标语言ASR。主要实验结果：在印地语、泰卢固语、泰米尔语的10句测试集上，对四个商业系统和一个开源系统（Praxy Voice）进行基准测试。关键结果包括：卷舌音错误率随语言难度单调增长（印地语1%，泰卢固语40%，泰米尔语~68%）；PSP排序与WER排序不一致，例如，WER最优的ElevenLabs在印地语上FAD排名第二，在泰卢固语上PSD表现极差（韵律扁平）；没有一个系统在所有六个维度上都最优。例如在泰米尔语，Indic Parler-TTS在RR、ZF、LF、PSD四个维度领先，而Sarvam在FAD上领先。语言系统 RR坍缩率↓ FAD↓ PSD↓ 泰卢固语 Praxy R6 + Sarvam参考 26.7% 291.3 13.1 泰卢固语 Sarvam Bulbul 33.3% 250.4 11.1 泰卢固语 Indic Parler-TTS 33.3% 325.0 10.4 泰卢固语 Cartesia Sonic-3 50.0% 458.1 33.8 泰米尔语 Indic Parler-TTS 64.3% 233.1 27.1 泰米尔语 Sarvam Bulbul 70.5% 200.3 72.3 印地语所有系统 ≤4.5% 211.8~267.4 未提供 5. 实际意义：为印度语言TTS系统开发和优化提供了一个可解释的诊断工具，能够精确定位系统在哪些音韵特征上失分，指导针对性的改进（如提示词、训练数据调整）。 6. 主要局限性：V1版本使用小规模测试集（10句/语言），统计效力有限；依赖的CTC对齐器在泰卢固语和泰米尔语上精度较低，导致本地语音的PSP分数存在较高的“噪声地板”；未与主观MOS测试进行正式相关性校准。 🏗️ 模型架构本文提出的不是生成模型，而是一个评估框架/基准。其核心架构流程如下： ...

StarDrinks: An English and Korean Test Set for SLU Evaluation in a Drink Ordering Scenario

📄 StarDrinks: An English and Korean Test Set for SLU Evaluation in a Drink Ordering Scenario #语音识别 #语音对话系统 #大语言模型 #多语言 #数据集 ✅ 7.5/10 | 前25% | #数据集 | #语音对话系统 | #语音识别 #大语言模型 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Marcely Zanon Boito（NAVER LABS Europe）通讯作者：stardrinks@naverlabs.com（邮箱，团队联系人）作者列表：Marcely Zanon Boito（NAVER LABS Europe）、Caroline Brun（NAVER LABS Europe）、Inyoung Kim（NAVER LABS Europe）、Denys Proux（NAVER LABS Europe）、Salah Ait-Mokhtar（NAVER LABS Europe）、Nikolaos Lagos（NAVER LABS Europe）、Jean-Luc Meunier（NAVER LABS Europe）、Ioan Calapodescu（NAVER LABS Europe） 💡 毒舌点评亮点：精准切入了一个被广泛使用却缺乏可靠评测基准的垂直场景（多语言饮料点单），数据集构建流程设计严谨（基于真实收据、母语者录音、人工校验），并明确指出当前强模型（Whisper, GPT-4o）在此类“现实变体”面前的脆弱性，具有很强的工程和评估指导意义。短板：作为一篇“数据集”论文，其“核心方法”部分（即数据收集和验证）虽然扎实但创新有限；基线评估虽全面但略显单薄，未尝试更前沿的上下文偏差矫正（Contextual Biasing）或领域自适应ASR模型，使得“现有模型不行”的结论说服力稍弱；此外，数据集规模（共~550条）对于深度学习时代来说偏小。 ...

A Generative-First Neural Audio Autoencoder

📄 A Generative-First Neural Audio Autoencoder #音乐生成 #音频大模型 #生成模型 #流式处理 #多语言 🔥 8.5/10 | 前25% | #音乐生成 | #生成模型 | #音频大模型 #流式处理学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jonah Casebeer（Adobe Research）通讯作者：未说明作者列表：Jonah Casebeer（Adobe Research），Ge Zhu（Adobe Research），Zhepei Wang（Adobe Research），Nicholas J. Bryan（Adobe Research） 💡 毒舌点评亮点在于其“生成优先”的设计哲学非常务实，通过一系列巧妙的工程优化（如SnakeLite、下采样策略）实现了编码速度一个数量级的提升，这对大规模生成模型训练是关键杠杆。短板是论文作为ICASSP 2026投稿，其声称的SOTA对比基线（如CoDiCodec）虽然最新，但缺乏更广泛的跨领域音频编解码器（如面向语音的极低比特率模型）对比，其“统一模型”的普适性边界尚待更多下游任务验证。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开模型权重。数据集：使用25K小时经许可的音乐，但论文中未公开此数据集或提供获取方式。 Demo：未提及在线演示。复现材料：提供了非常详细的训练细节、模型超参数配置、架构描述和消融实验设置，但未提供预训练检查点或具体配置文件。论文中引用的开源项目：未在文中明确列出依赖的开源项目/模型。基线模型（DAC, EnCodec, SAO, CoDiCodec）本身是开源项目，但论文未说明是否基于其代码进行实验。总结：论文中未提及开源计划（代码、模型、数据均未提供）。 📌 核心摘要问题：现有的神经音频自编码器（如SoundStream, EnCodec, DAC）主要针对“重建优先”设计，存在潜变量率高、编码速度慢、需要针对不同音频格式（单声道、立体声、中侧声道）维护不同模型等问题，这阻碍了它们在需要大规模、快速编码的生成模型（如扩散模型、语言模型）中的高效应用。方法核心：提出“生成优先自编码器”（GenAE），这是一个单一的编码器-瓶颈-解码器架构。通过一系列架构优化（高效激活函数SnakeLite、早期下采样、可分离卷积、激进的时间下采样、梅尔谱融合、窗口化自注意力）和训练优化（多��式数据增强、辅助梅尔损失、互质多分辨率损失），在压缩率、重建质量和处理速度之间取得更佳平衡。创新点：1) 提出了一种统一的架构，支持连续（KL）和离散（VQ）潜变量，以及单声道、立体声、中侧声道等多种音频格式，无需单独变体；2) 通过架构修改，将时间下采样率从2048倍提升至3360倍，并实现了10倍更快的编码速度；3) 提出了一种后训练离散化步骤，允许在训练好的连续模型上添加RVQ瓶颈以支持离散潜变量，无需重训骨干网络。实验结果：GenAE（13.125 Hz）在SI-SDR、多分辨率STFT损失、梅尔谱L1距离等指标上，以仅60%的基线（SAO）潜变量率达到了更优的重建质量；编码速度比SAO快12倍，内存占用仅为SAO的1/3。一个60秒的单声道信号仅压缩为788个令牌。具体数值见下表。模型潜变量率 (Hz) 上下文长度 (秒) ↑ L/R 梅尔↓ M/S 梅尔↓ EnCodec-48 150 73 0.5485 0.6602 DAC 86 127 0.5144 0.5114 CoDiCodec-FSQ 11 993 0.9586 1.0553 GenAE-VQ (ours) 13.125 832 0.5956 0.5943 SAO 21.5 106 0.6863 0.7506 CoDiCodec 11 206 0.9252 1.0218 GenAE-KL (ours) 13.125 173 0.5384 0.5369 GenAE-KL (ours) 36.75 62 0.4005 0.4054 实际意义：显著降低了使用神经音频编解码器进行生成模型训练和推理的计算成本（时间和内存），使得在有限资源下处理长音频上下文成为可能，从而能够开发更强大、更高效的音频/音乐生成与理解应用。主要局限性：论文未提供代码、预训练模型或训练数据集，阻碍了立即复现；评估主要集中在44.1kHz音乐音频上，在其他音频类型（如语音、环境声）上的性能未充分验证；与CoDiCodec相比，在极高压缩率下（11Hz）的重建质量仍有差距。 🏗️ 模型架构 GenAE是一个编码器-瓶颈-解码器结构的自编码器，整体架构如下图所示。其输入为原始音频波形，输出为重构的波形。 ...