多语言 | 语音/音乐/音频论文速递

UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice

📄 UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice #语音翻译 #大语言模型 #语音合成 #端到端 #多语言 🔥 8.0/10 | 前25% | #语音翻译 | #大语言模型 | #语音合成 #端到端学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Sitong Cheng（香港科技大学）通讯作者：Yike Guo（香港科技大学），Wei Xue（香港科技大学）作者列表：Sitong Cheng（香港科技大学）、Weizhen Bian（香港科技大学）、Xinsheng Wang（Soul AI Lab）、Ruibin Yuan（香港科技大学）、Jianyi Chen（香港科技大学）、Shunshun Yin（Soul AI Lab）、Yike Guo（香港科技大学）、Wei Xue（香港科技大学） 💡 毒舌点评该论文的亮点在于其“大道至简”的哲学，用一个基于标准LLM的单阶段模型同时解决了翻译、声音和情感保持的复杂问题，性能数据非常亮眼。然而，其核心竞争力部分建立在自建的、通过TTS合成的超大规模数据集UniST之上，这使得结果的说服力打了些折扣——毕竟，如果给其他SOTA模型同样规模的定制数据，结果差距可能会缩小。此外，其多标记符的复杂分词策略在工程实现和通用性上是否是最优解，也值得商榷。 🔗 开源详情代码：论文中未提及代码仓库链接。仅提供了演示网站。模型权重：基于Qwen2.5-1.5B-Instruct，论文未明确说明是否提供训练后的UniSS模型权重下载。但演示网站可能托管了模型。数据集：UniST数据集已构建，论文提到“公开”（release），但未提供具体的获取方式链接。数据构建流程和数据源已详细说明。 Demo：提供了在线演示网站：https://cmots.github.io/uniss-demo/ 复现材料：在附录B.1中提供了极其详细的训练配置（阶段、数据、学习率、批次大小等），在附录C和E中提供了评估指标和数据构建细节。复现信息相当充分，主要缺省是官方代码仓库。论文中引用的开源项目：Qwen2.5-1.5B-Instruct (LLM骨干), BiCodec (语音分词/解码器), GLM-4 (语音分词器), Paraformer (数据清洗ASR), SparkTTS (合成TTS), Whisper (评估ASR), vLLM (推理加速), Megatron-LM (训练框架), webMUSHRA (主观评估) 等。 📌 核心摘要这篇论文要解决的是表达式语音到语音翻译（S2ST）中的三大挑战：保留说话人声音和情感的配对数据稀缺、处理流程复杂、以及难以迁移文本LLM的翻译能力。方法核心是提出一个名为UniSS的单阶段、统一的文本-语音语言模型，它基于预训练的Qwen2.5-1.5B-Instruct构建，使用三种语音标记（说话人标记、语言标记、语义标记）来分别编码风格、内容和生成目标。其关键创新是引入了跨模态思维链（CoT）提示，在推理时将复杂的S2ST任务分解为“听、译、说”三个顺序步骤，从而显式地利用LLM强大的文本翻译能力来指导语音生成。为了训练该模型，论文还构建了一个大规模、高质量的合成数据集UniST（44.8k小时）。实验结果（主要见表1）表明，在CVSS-T数据集上，UniSS（质量模式）在翻译保真度（Speech-BLEU: EN-ZH 32.20, ZH-EN 24.28）、时长一致性（SLC 0.2: 0.98/0.87）和语音质量（UTMOS: 3.76/3.86）上均显著优于现有的端到端和级联系统。主观评估（表2）也证实其在情感相似度（MOS 4.51）和说话人相似度（4.42）上的优势。该工作的实际意义在于提供了一种更简洁、有效的下一代表达式S2ST系统构建范式。主要局限性是目前仅支持中英双语，且其分词器来自不同模型，导致词表膨胀。 ...

VowelPrompt: Hearing Speech Emotions from Text via Vowel-level Prosodic Augmentation

📄 VowelPrompt: Hearing Speech Emotions from Text via Vowel-level Prosodic Augmentation #语音情感识别 #强化学习 #多语言 #大语言模型 🔥 8.5/10 | 前25% | #语音情感识别 | #强化学习 | #多语言 #大语言模型学术质量 6.2/7 | 选题价值 1.8/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Yancheng Wang（Arizona State University; Meta Superintelligence Labs）通讯作者：Osama Hanna（Meta Superintelligence Labs，基于邮箱推测）作者列表： Yancheng Wang (Arizona State University, Meta Superintelligence Labs) Osama Hanna (Meta Superintelligence Labs) Ruiming Xie (Meta Superintelligence Labs) Xianfeng Rui (Meta Superintelligence Labs) Maohao Shen (Massachusetts Institute of Technology; Meta Superintelligence Labs) Xuedong Zhang (Meta Superintelligence Labs) Christian Fuegen (Meta Superintelligence Labs) Jilong Wu (Meta Superintelligence Labs) Debjyoti Paul (Meta Superintelligence Labs) Arthur Guo (Meta Superintelligence Labs) Zhihong Lei (Meta Superintelligence Labs) Ozlem Kalinli (Meta Superintelligence Labs) Qing He (Meta Superintelligence Labs) Yingzhen Yang (Arizona State University) 💡 毒舌点评亮点在于从语音学常识（元音承载韵律）出发，设计了一套精巧且可解释的“翻译”流程，将隐晦的语音信号转化为LLM能读的文本，比直接灌入黑盒音频嵌入“高级”不少。短板则是其效果高度依赖强制对齐的准确性，对于口音重、背景噪或语速极快的语音，这套“元音显微镜”可能会失灵，且忽略辅音区域可能存在的互补情感线索（如送气、鼻化）。 ...

语音/音乐/音频论文速递 2026-05-04

语音/音乐/音频论文速递 2026-05-04 共分析 14 篇论文 ⚡ 今日概览 📥 抓取 14 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音频生成 2篇 ██ #说话人验证 1篇 █ #声源定位 1篇 █ #音频深度伪造检测 1篇 █ #模型评估 1篇 █ #多模态模型 1篇 █ #主动噪声控制 1篇 █ #音乐理解 1篇 █ 📊 论文评分排行榜（14 篇，按分数降序）排名论文评分分档主任务 🥇 LASE: Language-Adversarial Speaker Encoding for Indic C 8.5分前25% #说话人验证 🥈 Towards Improving Speaker Distance Estimation through G 8.5分前25% #声源定位 🥉 Alethia: A Foundational Encoder for Voice Deepfakes 8.0分前25% #音频深度伪造检测 4. Beyond Decodability: Reconstructing Language Model Repr 7.5分前25% #模型评估 5. Fast Text-to-Audio Generation with One-Step Sampling vi 7.5分前25% #音频生成 6. MMAudio-LABEL: Audio Event Labeling via Audio Generatio 7.5分前25% #音频生成 7. Group Cognition Learning: Making Everything Better Thro 7.5分前25% #多模态模型 8. Transformer-based End-to-End Control Filter Generation 7.0分前25% #主动噪声控制 9. GaMMA: Towards Joint Global-Temporal Music Understandin 7.0分前25% #音乐理解 10. RoboKA: KAN Informed Multimodal Learning for RoboCall S 7.0分前25% #语音伪造检测 11. From Birdsong to Rumbles: Classifying Elephant Calls wi 6.5分前50% #音频分类 12. Timing is Everything: Temporal Scaffolding of Semantic 6.5分前50% #音频事件检测 13. CustomDancer: Customized Dance Recommendation by Text-D 6.5分前50% #音频检索 #音乐理解 14. MMAudioReverbs: Video-Guided Acoustic Modeling for Dere 6.0分前50% #语音增强 📋 论文列表 🥇 LASE: Language-Adversarial Speaker Encoding for Indic Cross-Script Identity Preservation 🔥 8.5/10 | 前25% | #说话人验证 | #领域适应 | #多语言 #开源工具 | arxiv ...

语音/音乐/音频论文速递 2026-05-03

语音/音乐/音频论文速递 2026-05-03 共分析 13 篇语音/AI 论文 🎯 任务分类点击任务标签查看该方向所有论文：音乐信息检索（2篇）语音识别（2篇）音频生成（1篇）发音错误检测（1篇）说话人识别（1篇）音乐理解（1篇）音频场景理解（1篇）语音质量评估（1篇）语音对话系统（1篇）音频问答（1篇）音频事件检测（1篇） ⚡ 今日概览 📥 抓取 13 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音乐信息检索 2篇 ██ #语音识别 2篇 ██ #音频生成 1篇 █ #发音错误检测 1篇 █ #说话人识别 1篇 █ #音乐理解 1篇 █ #音频场景理解 1篇 █ #语音质量评估 1篇 █ 📊 论文评分排行榜（13 篇，按分数降序）排名论文评分分档主任务 🥇 UniSonate: A Unified Model for Speech, Music, and Sound 8.5分前25% #音频生成 🥈 Beyond Acoustic Sparsity and Linguistic Bias: A Prompt- 8.5分前25% #发音错误检测 🥉 DM-ASR: Diarization-aware Multi-speaker ASR with Large 8.0分前25% #说话人识别 4. Transformer-Based Rhythm Quantization of Performance MI 8.0分前25% #音乐信息检索 5. Audio Effect Estimation with DNN-Based Prediction and S 8.0分前25% #音乐理解 6. Listening with Time: Precise Temporal Awareness for Lon 8.0分前25% #音频场景理解 7. TTS-PRISM: A Perceptual Reasoning and Interpretable Spe 7.5分前25% #语音质量评估 8. Spectrographic Portamento Gradient Analysis: A Quantita 7.5分前25% #音乐信息检索 9. Advancing automatic speech recognition using feature fu 7.0分前25% #语音识别 10. Identifying and typifying demographic unfairness in pho 7.0分前50% #语音识别 11. Full-Duplex Interaction in Spoken Dialogue Systems: A C 6.5分前25% #语音对话系统 12. Audio Video Verbal Analysis (AVVA) for Capturing Classr 6.0分前50% #音频问答 13. Earable Platform with Integrated Simultaneous EEG Sensi 5.5分后50% #音频事件检测 📋 论文列表 🥇 UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions 🔥 8.5/10 | 前25% | #音频生成 | #流匹配 | #扩散模型 #统一音频模型 | arxiv ...

AppTek Call-Center Dialogues: A Multi-Accent Long-Form Benchmark for English ASR

📄 AppTek Call-Center Dialogues: A Multi-Accent Long-Form Benchmark for English ASR #语音识别 #基准测试 #多语言 #数据集 #鲁棒性 ✅ 6.5/10 | 前50% | #语音识别 | #基准测试 | #多语言 #数据集 | arxiv 学术质量 5.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Eugen Beck（AppTek.ai）通讯作者：未说明作者列表：Eugen Beck（AppTek.ai）， Sarah Beranek（AppTek.ai）， Uma Moothiringote（AppTek.ai）， Daniel Mann（未说明）， Wilfried Michel（未说明）， Katie Nguyen（未说明）， Taylor Tragemann（未说明） 💡 毒舌点评这篇论文最大的亮点在于“以身作则”地解决了一个评测领域的老大难问题——创建了一个干净、无污染、多口音的长对话评测集，堪称ASR评测界的“良心工程”。但硬币的另一面是，它本质上是一个“靶子”而非“箭”，作为纯数据集和基准论文，缺乏算法上的惊艳创新，且角色扮演的数据获取方式终究让其在“真实性”上打了折扣，难以完全替代真实世界数据的价值。 🔗 开源详情代码：论文中未提及具体代码仓库链接。模型权重：论文中提及了多个开源ASR模型进行基准测试（如NVIDIA Canary-1B v2, Parakeet 0.6B TDT, Whisper Large, Qwen3-ASR, Granite Speech, Phi-4 Multimodal等），但未在文中提供这些模型权重的直接下载链接。数据集：AppTek Call-Center Dialogues 名称：apptek-com/apptek_callcenter_dialogues 链接：https://huggingface.co/datasets/apptek-com/apptek_callcenter_dialogues 开源协议：Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) Demo：论文中未提及在线演示链接。复现材料：论文中未提供训练配置、检查点或附录等用于完全复现的材料。文中详细描述了评估设置（分割策略、评分协议等），但未提供用于复现其评分归一化脚本或评估环境的具体代码或配置文件链接。论文中引用的开源项目： Silero VAD: https://github.com/snakers4/silero-vad Hugging Face OpenASR Leaderboard: https://huggingface.co/spaces/speech-io/open_asr_leaderboard 补充信息 [核心摘要] 补充：在“与已有方法相比新在哪里”部分，论文在Related Work中明确指出了其数据集相较于最接近的同类工作（Earnings-22）的多项具体优势：(a) 数据完全非公开来源，降低了被大型模型训练集污染的风险；(b) 口音标签基于说话人自我认同和验证，而非基于公司所在地，标注更直接；(c) 内容为任务导向的、自发的双人对话，与包含大量朗读内容和有限互动的财报电话不同。这些对比是论文定位自身贡献的关键。 [实验结果] 补充：论文在第4.2节Results中明确给出了一个具体实例来说明“平均性能与鲁棒性不相关”的观点：对于Canary-1B模型，其最佳与最差口音间的WER相对差距为26%，平均WER为11.2%；而对于平均WER更低（9.2%）的Parakeet V3模型，该相对差距却高达48%。这一具体数据对比强化了论文的核心发现之一。 [开源详情] 补充：论文在第3.6节提到了数据集的一个“多语言扩展”用途：一个子集（约5小时）已被专业翻译成中文、德语、日语和西班牙语，将用于未来的机器翻译评测。这是数据集潜在应用价值的补充。 📌 核心摘要要解决什么问题：现有英语ASR公开基准测试集大多为短时、朗读式语音，或缺乏明确的方言标注，难以评估ASR系统在真实、长时对话场景下（如呼叫中心）对多种英语口音的鲁棒性。此外，基准数据可能泄露至大型模型的预训练语料中，影响评估有效性。方法核心是什么：本文创建并开源了“AppTek Call-Center Dialogues”数据集。这是一个专门为评估而收集的自发、角色扮演式呼叫中心对话语料库，覆盖14种英语口音和16个服务场景，总计128.6小时。收集过程确保音频和文本非公开来源。同时，论文使用该数据集对多种开源ASR模型在不同语音分割策略下进行了基准测试。与已有方法相比新在哪里：相比Earnings-22等现有对话数据集，本文数据集：(a) 完全为评估而生，数据非公开来源，降低与训练集重叠风险；(b) 系统性地覆盖了14种英语口音，且每类口音样本量充足；(c) 完全由角色扮演的、自发的双人对话构成，更贴近呼叫中心交互模式。主要实验结果如何：分割策略影响：手动分割通常能取得最佳WER，自动分割策略（如Silero VAD、固定分段）性能稍差，表明准确的语音边界检测对长对话ASR至关重要。部分模型（如Qwen3-ASR）对长段输入更鲁棒。模型 (尺寸) 手动分割 RD分割 Silero分割固定30s 固定60s Parakeet v3 (0.6B) 8.8 9.0 9.2 9.9 12.1 Qwen3-ASR (1.7B) 7.9 8.0 8.3 7.8 7.4 Canary-1B v2 (1B) 10.6 11.2 11.2 10.9 13.3 Whisper Large v3 (1.6B) 10.7 18.9 15.0 42.9 - Granite Speech (8B) 10.5 10.9 11.9 12.2 13.8 表2：不同模型在不同分割策略下的平均WER（%） * 口音差异巨大：模型在不同口音上的表现差异显著。例如，使用Silero分割时，多数模型在 `en_US_General`（通用美音）和 `en_AU`（澳洲英语）上表现最好，而在 `en_SG`（新加坡英语）、 `en_CN`（中式英语）和 `en_GB_SCT`（苏格兰英语）上错误率明显偏高。最佳与最差口音间的WER绝对差距可超过10%。 * 性能与鲁棒性不完全相关：平均WER更低的模型（如Parakeet v3, 9.2%）其口音间相对差异（48%）反而大于某些平均WER较高的模型（如Canary-1B, 11.2%），表明提升平均性能不自动保证口音鲁棒性。口音 Parakeet v2 Parakeet v3 Qwen3-ASR (1.7B) Canary-1B Whisper v2 平均 en_AU 5.6 5.2 4.7 6.6 9.3 6.2 en_US_General 6.2 5.5 5.0 7.6 11.0 7.1 en_IN 9.9 9.7 10.3 12.9 33.0 13.9 en_SG 12.4 12.4 10.9 14.9 15.9 14.8 所有口音平均 9.6 9.2 8.3 11.2 16.0 - 表3：使用Silero分割时，各模型在不同口音上的WER（%）实际意义是什么：为ASR社区，特别是对话AI领域，提供了一个高质量、无污染、针对多口音长对话场景的标准评估基准。这有助于更公平、更真实地比较和推动ASR模型在实际应用中的鲁棒性发展。主要局限性是什么：(a) 数据为角色扮演而非真实呼叫中心对话，其语言风格和场景复杂度可能与真实数据有差异；(b) 尽管鼓励人口多样性，但部分口音组内性别分布不平衡；(c) 口音标签基于自我认同和验证，类别内部变异性和边界未严格定义；(d) 针对自发语音的逐字标注存在固有挑战，可能存在少量标注错误。 🏗️ 模型架构本文是一篇基准测试和数据集论文，并未提出新的ASR模型架构。其核心工作围绕数据集构建和对现有模型的评估展开。因此，没有适用于本文的“模型架构”图或描述。论文评估的模型包括Parakeet, Canary, Qwen3-ASR, Whisper, Granite Speech等，均为已发表的开源ASR模型，其架构细节非本文贡献。 ...

CTC-DRO: Robust Optimization for Reducing Language Disparities in Speech Recognition

📄 CTC-DRO: Robust Optimization for Reducing Language Disparities in Speech Recognition #语音识别 #多语言 #分布鲁棒优化 #基准测试 #开源工具 🔥 8.0/10 | 前25% | #语音识别 | #分布鲁棒优化 | #多语言 #基准测试学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Martijn Bartelds（斯坦福大学计算机科学系），Ananjan Nandi（斯坦福大学计算机科学系）（论文注明两位作者贡献均等）通讯作者：Dan Jurafsky（斯坦福大学计算机科学系）作者列表： Martijn Bartelds（斯坦福大学计算机科学系） Ananjan Nandi（斯坦福大学计算机科学系） Moussa Koulako Bala Doumbouya（斯坦福大学计算机科学系） Dan Jurafsky（斯坦福大学计算机科学系） Tatsunori Hashimoto（斯坦福大学计算机科学系） Karen Livescu（丰田芝加哥理工学院） 💡 毒舌点评本文精准地诊断了Group DRO在CTC训练中失效的病因——损失值因序列长度和语言特性变得“不可比”，并开出了对症的“药方”（CTC-DRO），在多个语言集上实现了最差语言性能的显著提升，是一次理论动机清晰、工程实现扎实、效果立竿见影的应用创新。然而，CTC-DRO的疗效目前主要验证于6个语言一组的设定，当语言组规模扩大到几十甚至上百时，其权重的平滑机制和“最差语言”的定义是否依然有效，可能需要更严苛的检验；此外，该方法本质上是“优化权衡”，提升最差性能的同时，部分设置下最优语言的性能有轻微波动（尽管统计不显著），这在追求绝对平均或帕累托最优的场景下需谨慎考量。 🔗 开源详情代码：论文提供了公开的代码仓库链接：https://github.com/Bartelds/ctc-dro。模型权重：论文提到“newly trained models are publicly available”，并指向了上述GitHub仓库。数据集：实验使用公开基准ML-SUPERB 2.0，论文详细描述了如何从原始数据中构建实验语言集（附录D），数据本身需从原始来源获取。 Demo：论文中未提及在线演示。复现材料：论文提供了极详细的复现信息，包括：算法伪代码（Algorithm 1）。详尽的实验设置：模型架构（XLS-R, MMS）、训练超参数（学习率、batch duration、梯度累积、epoch数、ηq、α）、评估指标。数据集划分的具体语言列表（表4）和统计信息（表5, 表6）。附录中包含更多开发集结果、消融实验细节、训练时间分析等。论文中引用的开源项目：论文基于XLS-R和MMS预训练模型，使用ML-SUPERB 2.0基准，并提及了ESPnet工具包（用于讨论，非核心依赖）。 📌 核心摘要问题：现代深度学习模型常在特定子群体上表现不佳。在多语言自动语音识别（ASR）中，不同语言的性能差异显著。分布鲁棒优化（Group DRO）旨在最小化最差组损失，但在ASR中因广泛使用的CTC损失受输入长度及语言声学特性影响，导致各组损失不可比，使Group DRO失效甚至恶化性能。方法：提出CTC-DRO算法。核心改进有二：一是采用“长度匹配批处理”，确保每个语言组的损失是在大致相同的音频总时长下计算，缓解CTC损失随长度缩放的问题；二是引入“平滑最大化目标”，通过修改组权重更新规则，防止权重过度集中于损失持续偏高的组，从而使权重分布更均衡稳定。创新：与直接应用Group DRO相比，CTC-DRO首次系统性地解决了CTC损失在多语言场景下的不可比性问题。其平滑更新目标可通过拉格朗日乘数法证明，仍能保证权重与损失成正比，但调整更平滑。实验结果：在ML-SUPERB 2.0基准的五个语言集上进行评估。CTC-DRO在平衡与不平衡数据设置下均优于基线模型和标准Group DRO。关键结果如下：最差语言字符错误率（CER）相对基线最高降低47.1%。平均CER相对基线最高降低32.9%。标准Group DRO在超过一半的设置中反而提升了最差语言CER和平均CER。关键结果表格（平衡数据设置）：设置模型 ηq α 最差语言CER (↓) 平均CER (↓) 1 MMS 基线 - - 60.8% 23.4% 1 MMS Group DRO 10⁻⁴ - 86.6% 30.5% 1 MMS CTC-DRO 10⁻⁴ 1.0 56.8% 22.9% 2 XLS-R 基线 - - 68.8% 19.0% 2 XLS-R Group DRO 10⁻⁴ - 58.8% 21.6% 2 XLS-R CTC-DRO 10⁻⁴ 0.5 45.0% 15.8% 消融实验显示，移除平滑目标或长度匹配批处理都会导致性能大幅下降。意义：CTC-DRO以极小的计算开销，有效提升了多语言ASR的公平性，对促进数字包容性有积极作用。其思想可推广至其他损失不可比的群组鲁棒优化场景（如医疗AI）。局限：性能差距虽被缩小但未完全消除；算法性能依赖于预定义的语言组划分；在极端不平衡数据下效果需进一步验证。 🏗️ 模型架构论文提出的CTC-DRO并非一个新的神经网络模型架构，而是一种用于优化现有基于CTC的ASR模型的训练算法。其核心是修改了Group DRO的优化流程。 ...

MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks

📄 MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks #基准测试 #多模态模型 #多语言 #模型评估 #语音翻译 🔥 8.0/10 | 前25% | #基准测试 | #多模态模型 | #多语言 #模型评估学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Sara Papi（Fondazione Bruno Kessler (FBK)）通讯作者：未明确说明作者列表：Sara Papi (FBK), Maike Züfle (Karlsruhe Institute of Technology (KIT)), Marco Gaido (FBK), Beatrice Savoldi (FBK), Danni Liu (KIT), Ioannis Douros (Translated), Luisa Bentivogli (FBK), Jan Niehues (KIT) 💡 毒舌点评亮点是设计了一个非常全面、平行且高质量的跨语言多模态指令跟随基准，填补了现有评估体系的关键空白；短板在于受限于计算成本，评估的开源模型参数规模普遍偏小（≤20B），且未包含任何闭源前沿商业模型的系统性对比（仅测试了Gemini 2.5 Flash），削弱了对当前技术天花板的揭示能力。 ...

Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion

📄 Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion #多模态模型 #语音翻译 #大语言模型 #多语言 #数据增强 🔥 8.0/10 | 前25% | #语音翻译 | #多模态模型 | #大语言模型 #多语言学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yexing Du（哈尔滨工业大学、鹏城实验室）通讯作者：Youcheng Pan（鹏城实验室）， Yang Xiang（鹏城实验室）， Ming Liu（哈尔滨工业大学、鹏城实验室）（论文中明确标注{panych,xiangy}@pcl.ac.cn, mliu@ir.hit.edu.cn）作者列表：Yexing Du（哈尔滨工业大学，鹏城实验室）， Youcheng Pan（鹏城实验室）， Zekun Wang（哈尔滨工业大学）， Zheng Chu（哈尔滨工业大学）， Yichong Huang（哈尔滨工业大学）， Kaiyuan Liu（哈尔滨工业大学，鹏城实验室）， Bo Yang（鹏城实验室）， Yang Xiang（鹏城实验室）， Ming Liu（哈尔滨工业大学，鹏城实验室）， Bing Qin（哈尔滨工业大学，鹏城实验室） 💡 毒舌点评本文巧妙地将语音合成（TTS）和多模态大语言模型（MLLM）结合，提出了“语音引导机器翻译（SMT）”框架，并创新性地引入自监督进化机制来缓解数据稀缺问题，最终在多个基准上取得显著成绩。不过，其自监督进化机制中用于筛选“正负样本”的核心标准（COMET分数差异）略显简单粗暴，且迭代过程可能陷入局部最优，对“语音韵律信息如何具体帮助翻译”的深层机理剖析仍显不足。 ...

Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences

📄 Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences #语音识别 #多模态模型 #数据集 #多语言 #大语言模型 🔥 8.5/10 | 前25% | #语音识别 | #多模态模型 | #数据集 #多语言学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Dmitrii Korzh (1 AXXX, Moscow, Russia; 2 MTUCI, Moscow, Russia) 通讯作者：未说明作者列表： Dmitrii Korzh (AXXX, MTUCI) Dmitrii Tarasov (FusionBrain Lab, AXXX; HSE University) Artyom Iudin (AXXX, MTUCI) Elvir Karimov (AXXX, MTUCI; Applied AI Institute) Matvey Skripkin (FusionBrain Lab, AXXX; Applied AI Institute) Nikita Kuzmin (AXXX, MTUCI; Applied AI Institute) Andrey Kuznetsov (FusionBrain Lab, AXXX; Innopolis University) Oleg Y. Rogov (AXXX, MTUCI; Applied AI Institute) Ivan Oseledets (AXXX, MTUCI; Applied AI Institute; Moscow State University) 💡 毒舌点评这篇论文的最大亮点在于“基建狂魔”式的工作——用超过63万个人工/合成音频样本，硬生生为一个垂直领域（语音转LaTeX）打造了首个大规模开源数据集和完整的方法论基准，其数据构建的严谨性和开源精神值得称赞。但短板也很明显：号称“端到端”的SALMONN模型（图1b）其实只是在现有音频LLM上微调，且其对复杂数学语句（Table 3）的预测仍显示模型对深层语义理解有限，多数时候只是在做更精准的“符号匹配”。 ...

SumRA: Parameter Efficient Fine-tuning with Singular Value Decomposition and Summed Orthogonal Basis

📄 SumRA: Parameter Efficient Fine-tuning with Singular Value Decomposition and Summed Orthogonal Basis #语音识别 #参数高效微调 #多语言 #低资源 ✅ 7.5/10 | 前25% | #语音识别 | #参数高效微调 | #多语言 #低资源学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Chin Yuen Kwok（南洋理工大学数字信任中心 & 计算与数据科学学院）通讯作者：Yongsen Zheng（南洋理工大学数字信任中心 & 计算与数据科学学院）作者列表：Chin Yuen Kwok（南洋理工大学数字信任中心 & 计算与数据科学学院）、Yongsen Zheng（南洋理工大学数字信任中心 & 计算与数据科学学院）、Jia Qi Yip（南洋理工大学计算与数据科学学院）、Kwok-Yan Lam（南洋理工大学数字信任中心 & 计算与数据科学学院）、Eng Siong Chng（南洋理工大学数字信任中心 & 计算与数据科学学院） 💡 毒舌点评本文巧妙地将SVD的数学结构与LoRA的参数效率需求结合，通过“求和奇异向量”这一简洁操作，在冻结A矩阵的同时显著提升了多语言ASR的微调效果，证明了好的初始化比训练时的参数自由度有时更重要。然而，论文的实验完全集中在语音领域，对方法在更广泛NLP任务（如摘要中提到的GLUE）上的失效缺乏深入剖析，且未开源任何代码或模型，使得其“参数高效”在可复现性和实际部署上打了折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了公开的Common Voice数据集，但未提供具体的划分脚本或处理后的数据。 Demo：未提及。复现材料：给出了模型配置（Whisper small/large-v2）、训练轮数、batch size、优化器、学习率调度器名称、LoRA插入位置、α设置等关键训练细节。提供了方法的数学公式和算法描述。论文中引用的开源项目：引用了Whisper（Radford et al., 2023）、SpeechBrain（用于学习率调度器）以及Common Voice数据集。总结：论文中未提及开源计划。 📌 核心摘要问题：现有的参数高效微调方法（如LoRA-FA、PiSSA）在冻结部分矩阵以节省存储和内存时，其初始化策略（如仅使用前几个主奇异向量）限制了模型对预训练知识空间的整体适应能力，尤其在需要全局知识迁移的多语言ASR任务中。方法核心：提出SumRA，一种改进的LoRA矩阵A的初始化策略。其核心是将通过SVD分解预训练权重W₀得到的所有奇异向量（按Σ^(1/2)V⊤的形式）进行求和压缩，分配到矩阵A的每一行中，从而使A的每行能同时影响多个知识概念子集。同时，论文提出了“交错求和”和“贪心求和”策略来均匀分配重要奇异向量，避免干扰。与已有方法相比的新颖性：相比于PiSSA仅使用顶部r个主奇异向量初始化A，SumRA通过求和方式利用了全部奇异向量（从主到次），从而让A矩阵能在更广的知识子空间上进行操作。这可以看作是在单次训练前就高效地“集成”了多个不同初始化方向的LoRA（如图5所示）。主要实验结果：在Common Voice数据集上使用5种新语言（每种仅10小时数据）对Whisper模型进行适配的实验中： SumRA在WER（词错误率）上显著优于LoRA、PiSSA和CorDA等基线。例如，在Whisper-large-v2上，SumRA将WER从LoRA的14.42%降至12.41%（相对改进约14%），同时参数量减半（17.6M vs 34.3M）。消融实验（表3）表明，提出的“交错求和”与“贪心求和”策略性能接近且均优于简单的“块求和”。实际意义：在需要为大量语言或个性化用户部署微调模型的场景中，SumRA通过共享冻结的A矩阵、仅存储每个任务的B矩阵，能显著降低总存储成本（如图4所示），同时保持甚至提升性能，为大规模、可扩展的语音模型适配提供了更优的解决方案。主要局限性：方法对全局属性的适应（如口音、说话风格）有效，但对局部适应（如添加少量领域术语）帮助有限。在NLP的GLUE基准测试等任务上初步实验未见明显提升，表明其优势可能局限于需要广泛表示空间调整的任务。 🏗️ 模型架构本文的SumRA本身不是一个独立的模型架构，而是对现有LoRA（低秩适应）模块初始化方式的改进，用于适配大型预训练语音模型（如Whisper）的线性层。整体流程如下： ...