MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-Token Prediction

📄 MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-Token Prediction #语音翻译 #多任务学习 #语音大模型 #多语言 #预训练 🔥 8.5/10 | 前25% | #语音翻译 | #多任务学习 | #语音大模型 #多语言 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Jianjin Wang(东北大学计算机科学与工程学院)与 Runsong Zhao(东北大学计算机科学与工程学院)为共同第一作者 通讯作者:Tong Xiao(东北大学计算机科学与工程学院,NiuTrans Research) 作者列表:Jianjin Wang(东北大学计算机科学与工程学院)、Runsong Zhao(东北大学计算机科学与工程学院)、Xiaoqian Liu(东北大学计算机科学与工程学院)、Yuan Ge(东北大学计算机科学与工程学院)、Ziqiang Xu(东北大学计算机科学与工程学院)、Tong Xiao(东北大学计算机科学与工程学院,NiuTrans Research)、Shengxiang Gao(昆明理工大学)、Zhengtao Yu(昆明理工大学)、Jingbo Zhu(东北大学计算机科学与工程学院,NiuTrans Research) 💡 毒舌点评 亮点:这篇工作的核心思想非常巧妙——既然CTC损失所在的解码器中间层天然融合了文本(通过CTC对齐)和语音(通过预测)两种模态的信息,那么在这里施加“预测未来”的MTP损失,就能“更早、更有效地”强化表示学习,理论动机直白且有效。 短板:实验主要局限于CVSS-C这个单一数据集上的两种语言对(英法、英西),虽然用了三种分词器,但缺乏更多样化的语言、领域(如对话、噪声环境)以及与当前最先进多模态翻译模型(如SeamlessM4T)的直接对比,其实际效用和泛化能力仍需在更广泛场景中验证。 🔗 开源详情 代码:论文中未提及任何代码仓库链接。 模型权重:未提及公开的预训练模型权重。 数据集:实验使用公开的CVSS-C数据集。 Demo:未提及在线演示。 复现材料:论文在“模型设置”和“实验”部分提供了较为详细的训练配置(如模型维度、层CECTC权重、MTP的N值等),有助于复现。但未提供完整的训练脚本、学习率调度等细节。 论文中引用的开源项目:fairseq(用于ASR评估)、SentencePiece(文本分词)、HiFi-GAN(语音合成)。 📌 核心摘要 问题:当前主流的直接语音到语音翻译(S2ST)方法,如S2UT模型,使用离散的语音token作为中间表示。但单个语音token语义信息稀疏,需要多个token才能表达一个完整语义单元,这增加了预测的熵和建模的复杂度。 方法核心:本文首次将多token预测(MTP)损失引入S2UT框架。更进一步,作者提出MTP-S2UT损失,将MTP应用于计算CTC损失的解码器中间隐藏层,而非传统最终层,以促进模型在更早阶段融合语音和文本的跨模态信息。 创新点:与已有MTP工作仅作用于最终层不同,MTP-S2UT利用CTC层富含跨模态信息的特性,在该层施加MTP损失,旨在更早增强隐藏表示的语义密度。 实验结果:在CVSS-C基准的法语→英语和西班牙语→英语任务上,所有MTP变体均稳定提升翻译质量(以ASR-BLEU衡量)。MTP-S2UT始终获得最佳性能。例如,在法语→英语任务上,使用S3分词器和贪婪解码时,ASR-BLEU从基线17.79显著提升至24.36。分析表明,MTP损失引导CTC对齐中的文本token前移,并降低了模型预测语音token的不确定性。 实际意义:该研究为提升语音到语音翻译质量提供了一个即插即用的损失函数改进方案,其思想可推广到其他依赖离散单元进行序列到序列转换的任务中。 主要局限性:实验验证的语言对和场景相对有限,未与最新的端到端多模态翻译系统进行对比;同时,代码未开源,限制了社区的即时验证和快速应用。 关键实验结果表格: ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 332 words

Multilingual Supervised Pretraining with Lm-Assisted Decoding for Visual Speech Recognition

📄 Multilingual Supervised Pretraining with Lm-Assisted Decoding for Visual Speech Recognition #语音识别 #预训练 #多语言 #低资源 #迁移学习 ✅ 6.5/10 | 前50% | #语音识别 | #预训练 | #多语言 #低资源 学术质量 4.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Mengyang Yu(教育部民族语言智能分析与安全治理重点实验室,中央民族大学) 通讯作者:Yue Zhao(教育部民族语言智能分析与安全治理重点实验室,中央民族大学) 作者列表:Mengyang Yu(教育部民族语言智能分析与安全治理重点实验室,中央民族大学)、Yue Zhao(教育部民族语言智能分析与安全治理重点实验室,中央民族大学)、Haizhou Li(香港中文大学深圳) 💡 毒舌点评 本文系统性地探索了如何将多语言预训练范式从ASR迁移到低资源VSR任务(藏语),并提供了详实的渐进冻结和预训练顺序的消融实验,这是其扎实之处。然而,其核心创新是将现有的“预训练+微调+LM解码”框架在VSR上复现一遍,缺乏对视觉语言建模更本质的突破,且在普通话上的对比结果(7.6% CER)已被更强的基线(如LipSound2的3.9%)大幅超越,显示其方法的上限可能有限。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:论文中收集的57小时藏语数据集未提及公开获取方式。 Demo:未提及在线演示。 复现材料:论文提供了一些训练细节(如优化器、数据增强、模型组件),但缺少关键超参数(如具体beam size、LM的层数和维度细节),复现信息不完全充分。 论文中引用的开源项目:引用了RetinaFace、FAN、SentencePiece等开源工具/模型。 总结:论文中未提及任何开源计划。 📌 核心摘要 解决的问题:视觉语音识别(VSR)面临目标语言(特别是藏语这类低资源语言)标注数据稀缺以及同音字歧义两大挑战。 方法核心:提出一个包含多语言监督预训练与语言模型(LM)辅助解码的VSR流程。首先在高资源语言(英语、葡萄牙语、法语、普通话)上进行序列化预训练,学习语言无关的视素(viseme)表征;然后在目标藏语数据上全量微调;解码时融合外部LM以减少歧义。 创新之处:(1)通过渐进冻结实验,验证了视觉前端更倾向于学习语言无关特征,而编码器和解码器更具语言特异性,为多语言预训练提供了理论依据;(2)系统探索了多种辅助语言预训练顺序对最终藏语识别性能的影响;(3)将LM融合有效地应用于VSR解码环节。 主要实验结果:在藏语数据集上,多语言预训练将音节错误率(SER)从基线的45.7%降至43.7%,加入LM融合后进一步大幅降至32.0%。在普通话数据集上,该框架取得了7.6%的字错误率(CER)。关键对比结果见下表: 方法 LM 藏语 SER (%) 普通话 CER (%) VSRML [4] 是 – 8.0 LipSound2 [18] 否 – 3.9 Ours (No LM) 否 43.7 10.6 Ours (with LM) 是 32.0 7.6 实际意义:为低资源语言的视觉语音识别提供了一种有效的技术方案,证明了通过复用高资源语言知识可以缓解数据稀缺问题。 主要局限性:方法依赖于预训练语言的顺序选择,其迁移效果有上限(如普通话CER未达SOTA);收集的藏语数据集规模仍相对有限(57小时),且未开源;整体创新更多是现有技术的组合应用。 🏗️ 模型架构 该论文采用了一个标准的端到端VSR架构,主要由三个组件构成,其数据流与交互如下: ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 290 words

Natural Language to Spatial Audio Parameters: Lightweight Deterministic Rendering for Creative Authoring

📄 Natural Language to Spatial Audio Parameters: Lightweight Deterministic Rendering for Creative Authoring #空间音频 #回归模型 #多语言 #跨模态 #工业应用 ✅ 7.5/10 | 前25% | #空间音频 | #回归模型 | #多语言 #跨模态 学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Seungryeol Paik(首尔大学 情报与智能学系) 通讯作者:Kyogu Lee(首尔大学 情报与智能学系 / 人工智能跨学科项目 / 人工智能研究所) 作者列表:Seungryeol Paik(首尔大学 情报与智能学系)、Kyogu Lee(首尔大学 情报与智能学系;首尔大学 人工智能跨学科项目;首尔大学 人工智能研究所) 💡 毒舌点评 亮点: 论文精准地瞄准了专业音频创作工具“学习曲线陡”与生成式模型“输出不可控”之间的鸿沟,提出了一个轻量、确定性、参数可编辑的回归框架,思路清晰,工程实用价值高。 短板: 核心指标33.2°的角误差在精确定位要求高的场景下可能仍显不足,且对于“比喻性”描述(如“幽灵般的低语”)的处理效果极差(>90° AE),暴露了当前文本嵌入模型在抽象语义与几何空间映射上的根本局限。 🔗 开源详情 代码: 论文未提供代码仓库链接。 模型权重: 论文未提及公开预训练模型权重。 数据集: 论文未提及数据集是否公开及获取方式。 Demo: 提供了在线演示链接:https://paiiek.github.io/mmhoa-demo/。 复现材料: 论文提供了详尽的训练细节(架构、损失函数、超参数、数据集规模与划分、增强策略),可作为复现的良好参考,但未提供官方训练脚本或配置文件。 论文中引用的开源项目: 依赖MiniLM-L12-v2模型、BitFit微调方法、CIPIC和KEMAR HRTF数据库、SOFA格式标准、IEM Ambisonics插件等开源/开放标准。 开源计划: 论文未提及未来的开源计划。 📌 核心摘要 要解决的问题: 传统空间音频参数控制复杂,学习门槛高;近期基于生成模型的方法虽然降低了门槛,但输出随机、不可复现、难以编辑,无法满足专业创作工作流的需求。 方法核心: 提出一个轻量级框架,使用经过微调的多语言MiniLM编码器,将自然语言(英语、韩语)直接回归为8维确定性空间音频参数向量(方位角正弦/余弦、仰角、距离、扩展、混响比、增益、房间深度),再通过标准DSP算法(如VBAP/HRTF)进行渲染。 与已有方法相比新在哪里: 与依赖大规模随机生成模型(如Diff-SAGe)的方法不同,本方法采用参数回归范式,实现了输出确定性、参数可编辑、低延迟(<100ms CPU)。相比简单的基于规则的基线,其精度更高,且具备语义理解能力。 主要实验结果: 在自建的多语言数据集上,模型达到平均33.2°的角误差(AE),显著优于基于规则的基线(71.0°)和SBERT/E5基线(51.8-76.8°)。消融实验验证了角度损失(Ldir)和自适应边缘(m)的有效性。在25人参与的主观听力测试中,本模型在“文本-空间匹配度”、“定位清晰度”和“自然度”上均显著优于基线(p < 0.001)。在特定OOD测试中,数值提示表现好(19.9° AE),比喻性提示表现差(>90° AE)。 方法 输入 AE (°) ↓ MOS(匹配度)↑ FoleySpace [11] 视频+文本 45.0^1 3.81^3 Diff-SAGe [6] 文本 37.9^1 N/A 本文(Proposed) 文本 33.2 4.12 规则基线 文本 71.0 3.06 E5 encoder基线 文本 38.2 N/A ^1 Diff-SAGe报告的为主观方向感知误差,其他为算法计算AE。^3 FoleySpace的MOS评分协议不同。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 422 words

NCF-TTS: Enhancing Flow Matching Based Text-To-Speech with Neighborhood Consistency Flow

📄 NCF-TTS: Enhancing Flow Matching Based Text-To-Speech with Neighborhood Consistency Flow #语音合成 #流匹配 #多语言 #实时处理 🔥 8.0/10 | 前25% | #语音合成 | #流匹配 | #多语言 #实时处理 学术质量 7.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Yan Shi(平安科技) 通讯作者:未说明(提供了两个邮箱,但未明确标注通讯作者) 作者列表: Yan Shi*(平安科技) Jin Shi(平安科技) Minchuan Chen*(平安科技) Ziyang Zhuang(平安科技) Peng Qi(上海交通大学重庆人工智能研究院) Shaojun Wang(平安科技) Jing Xiao(平安科技) 💡 毒舌点评 亮点:这篇论文精准地抓住了流匹配TTS在少步推理下的两个痛点——轨迹不稳定性与CFG失效,并给出了数学上自洽、工程上有效的解决方案(NCF损失和嵌入式指导),理论结合实践做得不错。短板:实验部分虽然对比了F5-TTS和CosyVoice,但在多语言基准测试上,与顶尖的自回归模型(如Seed-TTS)在自然度(UTMOS)上仍有差距,论文对此讨论不足,可能影响其在高质量合成领域的说服力。 🔗 开源详情 代码:论文提供了一个项目主页链接 https://moonmore.github.io/ncf-tts,但此链接通常指向演示和论文信息,未明确指向包含完整训练/推理代码的公开仓库。 模型权重:通过项目主页链接,应可获取预训练模型权重用于演示和推理。 数据集:论文使用了公开的Emilia数据集,但未说明是否发布其筛选后的子集。评估集Seed-TTS为公开基准。 Demo:提供在线演示(通过项目主页链接)。 复现材料:论文详细说明了训练数据、预处理、模型架构、训练超参数(学习率、批量、步数)、优化器、损失权重及调度策略。这些信息对复现非常有帮助。 论文中引用的开源项目:F5-TTS, Vocos, Whisper, Paraformer, FunASR, AdamW, ConvNeXt V2, DiT, WavLM。 总结:论文提供了充分的复现技术细节和演示,但未明确公开训练/推理代码的仓库地址,这是复现层面最大的不确定性。 📌 核心摘要 问题:基于流匹配的文本到语音(TTS)模型在实际应用中受制于缓慢的推理速度,且经典的分类器自由引导(CFG)方法与少步采样模型存在理论不兼容,导致在少步推理时难以平衡质量与效率。 方法核心:提出NCF-TTS框架。核心是引入邻域一致性流(NCF)作为局部传输正则化器,强制要求平均速度场满足可加性,从而稳定大步长采样。其次,提出嵌入式指导目标,在训练阶段将条件与无条件监督统一,解决了CFG与少步模型的兼容性问题,使得推理时无需进行两次前向传播。 新颖性:不同于以往的蒸馏(如一致性模型)或离散步长约束(如快捷模型),NCF从连续时间积分的角度建立了一个统一的正则化框架。嵌入式指导将CFG从推理时调整转变为训练时正则化,是实现无CFG推理的关键。 实验结果:在中文和英文多语言数据集上进行评估。NCF-TTS在少步推理下表现优异,例如4步推理时英文WER仅1.82%,中文SIM-o为0.67,接近32步推理的质量(英文WER 1.38%,中文SIM-o 0.76)。相比基线F5-TTS,NCF-TTS在相同步数下质量更优,且在4步推理时推理速度(RTF 0.01)比F5-TTS的16步推理(RTF 0.14)快14倍。消融实验表明移除NCF会导致WER显著上升(从1.67%到6.23%)。 实际意义:实现了高质量、低延迟的TTS,为实时语音助手、交互式应用等场景提供了有力工具。 主要局限性:尽管在客观指标上接近最优,但在主观自然度(UTMOS/MOS)上与顶尖的自回归模型(如Seed-TTS、CosyVoice2)相比仍有一定差距,论文未深入探讨此差异的原因。 🏗️ 模型架构 NCF-TTS的架构(如图1所示)基于F5-TTS,是一个端到端的非自回归模型,主要包含以下组件: ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 333 words

nGPT as a Scalable Architecture for Speech Recognition and Translation

📄 nGPT as a Scalable Architecture for Speech Recognition and Translation #语音识别 #语音翻译 #nGPT #多语言 #位置编码 ✅ 7.5/10 | 前25% | #语音识别 | #nGPT | #语音翻译 #多语言 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Nune Tadevosyan (NVIDIA, Santa Clara, CA 95051, USA) (论文中注明*贡献相等) 通讯作者:未说明 作者列表:Nune Tadevosyan (NVIDIA), Nithin Rao Koluguri (NVIDIA), Monica Sekoyan* (NVIDIA), Piotr Zelasko (NVIDIA), Nikolay Karpov (NVIDIA), Jagadeesh Balam (NVIDIA), Boris Ginsburg (NVIDIA)。所有作者均隶属于NVIDIA公司。 💡 毒舌点评 亮点:在将Transformer编码器稳定扩展到3B参数上展现了工程实力,nGPT架构在单阶段训练下即在X→EN翻译任务上展现出强泛化能力,这是一个扎实的架构贡献。 短板:论文声称“首次将ALiBi应用于语音”,但核心贡献更像是将NLP领域成熟技术适配到语音任务,创新高度有限;同时,在ASR任务上,费尽心思提出的nGPT-3B在多阶段微调的1B FastConformer面前并未取得全面优势,削弱了其“可扩展性”叙事的部分说服力。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 328 words

PAC: Pronunciation-Aware Contextualized Large Language Model-Based Automatic Speech Recognition

📄 PAC: Pronunciation-Aware Contextualized Large Language Model-Based Automatic Speech Recognition #语音识别 #大语言模型 #多语言 #强化学习 #数据增强 ✅ 7.0/10 | 前25% | #语音识别 | #大语言模型 | #多语言 #强化学习 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Li Fu(JD AI Research)、Yu Xin(JD AI Research)(论文注明共同贡献) 通讯作者:未说明 作者列表:Li Fu(JD AI Research)、Yu Xin(JD AI Research)、Sunlu Zeng(JD AI Research)、Lu Fan(JD AI Research)、Youzheng Wu(JD AI Research)、Xiaodong He(JD AI Research) 💡 毒舌点评 亮点:直觉简单但设计精巧——通过给上下文“加拼音”并故意“放干扰项”,就逼着LLM学会听音辨字,实验结果在中英双语上都相当漂亮。 短板:方法创新深度有限,本质是数据增强+特定损失函数的组合拳;且论文完全没提代码开源计划,对于想复现的同行来说,光看训练细节就像只给了菜谱没给火候。 🔗 开源详情 代码:论文中未提及代码链接或开源仓库。 模型权重:未提及公开的模型权重。 数据集:使用的是公开数据集(Librispeech, AISHELL-1),但论文本身未提供数据处理脚本或额外数据。 Demo:未提供在线演示。 复现材料:论文提供了关键的训练设置描述(如超参数、硬件、损失函数公式),但缺乏具体的配置文件、训练脚本或检查点信息,复现仍需大量工程努力。 论文中引用的开源项目: 骨干模型:FireRed-LLM [15]。 图音转换工具:g2p-en (用于英语),pypinyin (用于中文)。 微调方法:LoRA [37]。 📌 核心摘要 问题:基于大语言模型(LLM)的语音识别系统在识别稀有词(如人名、专有名词)和同音词时仍面临两大挑战:一是缺乏显式的发音建模,二是同音词区分能力不足。 方法核心:提出PAC(发音感知上下文)框架,采用两阶段学习范式。第一阶段(PGCL)在上下文中交替注入字形和音素信息,并引入发音相似的干扰词,促使模型利用发音线索。第二阶段(PDRL)通过扰动标签采样进行强化学习,专门训练模型区分上下文中的同音词。 新意:首次在LLM-based ASR中联合建模字形-音素上下文;设计了带干扰词的上下文构建策略;提出了针对同音词区分的强化学习方法。 主要实验结果:在英语Librispeech和中文AISHELL-1数据集上进行评估。PAC相比预训练的LLM-ASR模型,相对词错误率(WER)分别降低30.2%和53.8%;相比强基线,长尾词的偏置WER(B-WER)分别降低31.8%和60.5%。关键对比结果如下表所示: 数据集 测试集 设置 (N=列表大小) 基线模型 (B-WER) PAC (B-WER) 相对降低 Librispeech test-clean N=2000 CFL: 2.50 1.91 23.6% Librispeech test-other N=2000 CFL: 6.75 6.19 8.3% AISHELL-1 test-small N=187 CFL: 8.21 5.36 34.7% AISHELL-1 test-middle N=400 CFL: 6.03 3.07 49.1% AISHELL-1 test-large N=600 CFL: 6.55 2.85 56.5% 实际意义:显著提升了语音识别系统在包含大量罕见词、专有名词及同音字(如中文场景)的现实场景中的实用性。 主要局限性:依赖的图音转换(G2P)工具在处理多音字(如中文)时可能出错;论文未提供开源代码,影响了方法的可复现性和公平比较。 🏗️ 模型架构 论文中描述的PAC框架是在一个预训练的LLM-based ASR模型(具体为FireRed-LLM)基础上进行适配。整体架构如图1所示。 图1: PAC框架概览 组件与流程: ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 384 words

PFluxTTS: Hybrid Flow-Matching TTS with Robust Cross-Lingual Voice Cloning and Inference-Time Model Fusion

📄 PFluxTTS: Hybrid Flow-Matching TTS with Robust Cross-Lingual Voice Cloning and Inference-Time Model Fusion #语音合成 #语音克隆 #流匹配 #多语言 #零样本 ✅ 7.0/10 | 前50% | #语音合成 | #流匹配 | #语音克隆 #多语言 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Vikentii Pankov(Rask AI, USA) 通讯作者:未说明 作者列表:Vikentii Pankov(Rask AI, USA)、Artem Gribul(Rask AI, USA)、Oktai Tatanov(Rask AI, USA)、Vladislav Proskurov(Rask AI, USA)、Yuliya Korotkova(École Polytechnique, France)、Darima Mylzenova(TBC Bank, Uzbekistan)、Dmitrii Vypirailenko(Rask AI, USA) 💡 毒舌点评 亮点:将“稳定性”和“自然性”这对矛盾通过一个优雅的推理时融合策略(α(t)调度)进行调和,是解决Flow-Matching TTS痛点的务实且有效的工程创新。短板:实验中声称使用的部分开源基线(如ChatterBox)训练数据规模远大于本文,这种“田忌赛马”式的对比,虽凸显了方法效率,但也可能掩盖了数据量对上限的决定性影响,结论的泛化性需打个问号。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 411 words

Phrased: Phrase Dictionary Biasing for Speech Translation

📄 Phrased: Phrase Dictionary Biasing for Speech Translation #语音翻译 #偏差学习 #多语言 #流式处理 #多模态模型 ✅ 7.5/10 | 前25% | #语音翻译 | #偏差学习 | #多语言 #流式处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Peidong Wang(Microsoft CoreAI) 通讯作者:Jinyu Li(Microsoft CoreAI) 作者列表:Peidong Wang(Microsoft CoreAI)、Jian Xue(Microsoft CoreAI)、Rui Zhao(Microsoft CoreAI)、Junkun Chen(Microsoft CoreAI)、Aswin Shanmugam Subramanian(Microsoft CoreAI)、Jinyu Li(Microsoft CoreAI) 💡 毒舌点评 亮点:本文提出的PHRASED方法具有良好的通用性,能将同一个思路(利用双语短语对)同时应用于传统的流式端到端模型(CTC-GMM)和新兴的多模态大模型,并在后者上实现了显著的短语召回率提升。短板:实验仅在中-英翻译任务上验证,且所用的“短语列表”规模(3K)与真实工业场景(可能包含数十万条目)的匹配度和鲁棒性存疑;此外,论文未提供任何代码或模型,极大地限制了其可复现性和直接应用价值。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:评估使用了RealSI和OntoNote5,但未说明是否提供了预处理后的版本或获取方式。 Demo:未提及。 复现材料:论文给出了一些训练超参数(如学习率、步数)和模型规模,但未提供完整的训练配置、数据预处理脚本或评估代码。不足以支撑完全复现。 论文中引用的开源项目:未提及依赖的特定开源工具/模型,Phi-4-multimodal为外部开源模型。 总体,论文中未提及开源计划。 📌 核心摘要 要解决的问题:实体短语(如专有名词、新词)因在训练数据中罕见,在端到端语音翻译(ST)中容易被错误翻译,影响核心语义理解。 方法核心:提出短语字典偏差(PHRASED),利用用户提供的源语言-目标语言实体短语对 {I: O} 来增强翻译。核心是先从中间表示(如ASR文本)中匹配源语言短语 I,再对匹配到的目标语言短语 O 进行概率加分。 新在何处:首次为端到端语音翻译设计并验证了“短语字典偏差”机制,与传统的仅使用目标短语列表(PLB)的偏差方法不同,它显式利用了源语言信息。同时,将该方法成功适配到流式Transducer模型和多模态大模型两种架构。 主要实验结果:在中文到英文的RealSI测试集上,PHRASED使流式CTC-GMM模型的短语召回率相对PLB提升了21%;使Phi-4多模态大模型的BLEU提升2.9点,短语召回率相对基线提升85%,远超PLB在大模型上失败的表现。关键数据见下表。 表1:流式语音翻译模型结果(RealSI 中-英) ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 266 words

Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost

📄 Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost #语音合成 #迁移学习 #多语言 #低资源 #开源工具 🔥 8.0/10 | 前25% | #语音合成 | #迁移学习 | #多语言 #低资源 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Venkata Pushpak Teja Menta(论文中未提及其所属机构) 通讯作者:论文中未明确标注通讯作者 作者列表:Venkata Pushpak Teja Menta(未说明) 💡 毒舌点评 这篇论文像一次精准的外科手术,用BUPS“接骨”、LoRA“接肌”、语音提示“复健”这套组合拳,把一个不认字的“外国”大脑硬生生调教出了地道的印度口音,效果惊艳。遗憾的是,手术成功的病例报告只有10个,虽然每个都做得很漂亮,但要下“这方法对所有印度患者都有效”这样的结论,样本量还是寒酸了点,说服力打了折扣。 🔗 开源详情 代码:提供完整推理代码仓库,地址为 github.com/praxelhq/praxy,采用MIT许可。包含BUPS、配置B、语言路由器和代码混合预处理器。 模型权重:提供R6版本的LoRA适配器权重,地址为 huggingface.co/Praxel/praxy-voice-r6,采用Apache-2.0许可。基座模型Chatterbox Multilingual为MIT许可。 数据集:未提供独立数据集。论文中使用的训练数据(IndicTTS, Rasa, FLEURS, Shrutilipi)均为公开可用的许可数据集。 Demo:提供Gradio在线演示,托管于Hugging Face Spaces(具体链接在HF仓库README中)。 复现材料:论文详细描述了训练超参数、配置、硬件环境和数据预处理步骤。评估基准PSP的评测脚本和伪影(artifacts)随配套论文发布。 引用的开源项目: 模型/基础:ResembleAI Chatterbox Multilingual (MIT), AI4Bharat IndicF5。 工具库:indic-transliteration (ISO-15919转写), HuggingFace PEFT (LoRA实现)。 语音识别评估:Whisper大模型家族 (IndicWhisper)。 语言模型:Anthropic Claude Haiku 4.5 (用于代码混合转写), Qwen-2.5-72B (用于LLM-WER评估)。 📌 核心摘要 问题:现有的开源多语言语音合成(TTS)基座(如Chatterbox)在覆盖关键印度语言(泰卢固语、泰米尔语)方面存在缺陷,无法直接进行高质量合成;而从头训练或依赖商业API成本高昂或受制于人。 核心方法:提出一个“最小干预”组合方案:(a) BUPS:将印度文字无损转换为拉丁字符(ISO-15919),让基座的拉丁文分词器能处理;(b) 最小参数LoRA:仅在文本预测器上训练适配器(占总参数0.97%),使用印地语作为语言ID代理;(c) 语音提示恢复:在推理时,提供同语言8-11秒参考音频,并调整采样参数(Config B),以恢复声学自然度。 创新:相较于从头训练或全面微调,本文创新在于通过“脚本路由(BUPS)+ 文本编码器轻量适配(LoRA)+ 推理时声学条件化(语音提示)”这一最小化、模块化的方式,解锁冻结基座模型的新语言能力。并设计了纯文本和代码混合的两套部署分支。 主要结果:在PSP基准测试的10句话小规模评测上: 泰卢固语:卷舌音错误率26.7%(优于Sarvam Bulbul的33.3%)。 泰米尔语:特有的“zha”音错误率71%(显著优于商业系统的86%)。 印地语:LLM-WER 0.025(与Cartesia Sonic-3持平),且意图保持率100%。 关键消融实验证明,对印地语施加相同的LoRA会严重损害性能,证实了该方法的适用范围。 实际意义:为资源有限的团队提供了一条零商业数据成本、低算力门槛的路径,将开源多语言TTS快速适配到高价值的印度语言市场,且代码和模型完全开源。 主要局限性:评测样本量小(每语言仅10句话),统计显著性不足;未进行正式的MOS主观评估;印度语的声学自然度(FAD)仍有差距;代码混合场景(英印夹杂)性能与商业系统相比仍有明显差距。 🏗️ 模型架构 论文的核心是一个三分支推理流水线(图1),根据输入文本类型路由到不同处理路径: ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 400 words

PROST-LLM: Progressively Enhancing the Speech-to-Speech Translation Capability in LLMs

📄 PROST-LLM: Progressively Enhancing the Speech-to-Speech Translation Capability in LLMs #语音翻译 #偏好优化 #大语言模型 #多任务学习 #多语言 ✅ 7.5/10 | 前25% | #语音翻译 | #偏好优化 | #大语言模型 #多任务学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Jing Xu† (†The Chinese University of Hong Kong) 通讯作者:未说明(论文作者列表为Jing Xu, Jiaqi Wang, Daxin Tan, Xiao Chen,未标注通讯作者) 作者列表:Jing Xu(香港中文大学)、Jiaqi Wang(香港中文大学)、Daxin Tan(华为人工智能实验室)、Xiao Chen(华为人工智能实验室) 💡 毒舌点评 亮点:巧妙地将机器翻译中的“回译”思��移植到语音翻译,用于自动、无需人工标注地构建偏好优化数据对,这一设计在降低S2ST研究门槛上非常聪明。短板:整个系统的“地基”——偏好数据质量——完全依赖Whisper等上游ASR的转录准确性,论文对此潜在的误差传递与放大问题缺乏深入分析,这使得方法的鲁棒性存疑。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开的PROST-LLM模型权重。 数据集:使用了公开的CVSS语料库(可获取)和Commonvoice语料库(可获取)。 Demo:未提供在线演示。 复现材料:提供了非常详细的训练配置、超参数设置(学习率、batch size、epoch、LoRA参数)、模型版本、数据集描述。但未提供训练硬件信息、最终模型检查点、详细的数据预处理脚本。 论文中引用的开源项目: LLM: LLaMA 3.2-3B (引用[3])。 语音表示: mHuBERT (引用[11])。 ASR: Whisper-large-v3 (引用[22])。 语音合成: Unit HiFi-GAN (来自fairseq开源项目,论文提供了GitHub链接)。 TTS (基线系统): MeloTTS (论文提供了GitHub链接)。 偏好优化: DPO (引用[14])、SimPO (引用[15])。 论文中未提及开源计划。 📌 核心摘要 要解决什么问题:大语言模型在语音到语音翻译(S2ST)任务上应用不足,主要受限于高质量的配对S2ST数据稀缺。 方法核心是什么:提出PROST-LLM框架,分三步渐进式提升LLM的S2ST能力。首先,在CVSS数据集上进行有监督微调(SFT),并采用“三任务学习”(ASR,S2T,S2ST联合训练)和“模态链”(先生成目标文本,再生成目标语音)策略增强初始性能。其次,利用微调后的模型对源语音生成多个候选翻译,再将其回译为源语言语音,通过与源语音的多指标比较(WER, MCD, BLEU, METEOR)自动构建偏好数据对(首选与拒斥)。最后,使用这些偏好数据对进行偏好优化(PO),进一步精炼模型的S2ST性能。 与已有方法相比新在哪里:首次将“模态链”和“三任务学习”引入LLM的S2ST训练;首次利用回译机制自动构建偏好数据,并结合偏好优化来提升LLM的S2ST能力,避免了昂贵的人工标注;证明了可以利用单语语音语料库构建偏好数据,减少对配对S2ST数据的依赖。 主要实验结果如何:在CVSS语料库(英法双向翻译)上进行实验。与强级联系统(S2T+TTS)相比,PROST-LLM(采用模态链+DPO)将BLEU差距从初始的14.38(en2fra)和8.83(fra2en)显著缩小至3.15和1.04。消融实验证明,三任务学习和模态链策略均优于基础SFT;偏好优化能持续带来提升;使用单语数据构建偏好对甚至能取得比使用配对S2ST数据更好的效果。所有实验配置下的语音自然度(UTMOS)均高于级联系统。 实际意义是什么:为在数据有限条件下增强LLM的跨模态语音生成与翻译能力提供了一个有效框架,其自动偏好数据构建方法具有普适性,可推广到其他多模态生成任务。 主要局限性是什么:(1)偏好数据质量强依赖Whisper转录质量,其误差会直接影响偏好信号的准确性,论文未分析此影响;(2)实验仅在英法翻译上验证,多语言泛化能力未知;(3)硬件训练信息缺失,大规模复现的计算成本未知;(4)虽然模型使用了LLaMA 3.2-3B,但论文未提供模型权重,且框架的扩展性(如更大LLM、更多模态)有待验证。 🏗️ 模型架构 PROST-LLM的整体训练流程与模型架构如图1所示。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 305 words