Leveraging Audio-LLMs to Filter Speech-to-Speech Training Data

📄 Leveraging Audio-LLMs to Filter Speech-to-Speech Training Data #语音翻译 #数据增强 #自监督学习 #多模态模型 #参数高效微调 #低资源 8.4/10 | 创新 1.7/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.4/10 | 前25% | #语音翻译 | #数据增强 | #自监督学习 #多模态模型 | arxiv 👥 作者与机构 作者:Qixu Chen,Satoshi Nakamura 机构:School of Data Science 和 School of Artificial Intelligence,The Chinese University of Hong Kong, Shenzhen, China ...

2026-06-12 · 更新于 2026-06-12 · 2 min · 356 words

NaturalFlow: Reducing Disruptive Pauses for Natural Speech Flow in Simultaneous Speech-to-Speech Translation

📄 NaturalFlow: Reducing Disruptive Pauses for Natural Speech Flow in Simultaneous Speech-to-Speech Translation #语音翻译 #语音合成 7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.7/1.5 ✅ 7/10 | 前50% | #语音翻译 | #语音合成 | arxiv 👥 作者与机构 作者:Dongwook Lee, Youngho Cho, Sangkwon Park, Heeseung Kim†, Sungroh Yoon† 机构:首尔大学 (1IPAI, 2ECE), 首尔市立大学 (3Department of AI) 💡 毒舌点评 这篇论文精准地指出了同传S2ST领域一个被长期忽视但至关重要的问题:过度优化延迟导致的输出“结巴”。其“银牌偏好”策略在理论上是巧妙的“安全带”,能有效防止模型为了追求“丝滑”而彻底放弃“信达雅”。然而,审稿人必须指出,所谓的“显著改善”在某些场景下略显“雷声大雨点小”,比如在最短的CVSS-C数据集上,SR的绝对值本身就极低,从0.24降到0.11(高SR子集)的统计意义需结合实际听感判断。此外,论文将自身定位为通用优化框架,但所有实验仅限于法英对,结尾却轻率地展望“广泛语言对扩展”,这种“画饼”行为在顶会审稿人看来是典型的过度推断,缺乏严谨性。最后,开源信息的全面缺失(无代码、无权重)让其“可复现性”大打折扣,对于一篇强调方法论普适性的工作而言,这是一个明显的短板。 ...

2026-06-12 · 更新于 2026-06-12 · 2 min · 274 words

Speech Meets ELF: Audio Conditional Continuous-Target Diffusion for Speech Recognition and Translation

📄 Speech Meets ELF: Audio Conditional Continuous-Target Diffusion for Speech Recognition and Translation #语音识别 #语音翻译 #扩散模型 #流匹配 8.3/10 | 创新 1.7/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.3/10 | 前25% | #语音识别 | #语音翻译 | #扩散模型 #流匹配 | arxiv 👥 作者与机构 论文作者包括 Xuanchen Li(共同第一作者), Tianrui Wang(共同第一作者), Yuheng Lu, Zikang Huang, Yu Jiang, Chenghan Lin, Chenrui Cui, Ziyang Ma, Xingyu Ma, Chunyu Qiang, Guochen Yu, Xie Chen, Longbiao Wang, Jianwu Dang(通讯作者)。机构在作者列表中未明确标注,但根据通讯作者信息及论文常见模式,推测主要来自小米和相关合作机构。 ...

2026-06-10 · 更新于 2026-06-12 · 3 min · 430 words

Ouvia: A User-centered Framework for Measuring Usability of Speech Translation in Real-World Communication Scenarios

📄 Ouvia: A User-centered Framework for Measuring Usability of Speech Translation in Real-World Communication Scenarios #语音翻译 #语音识别 8.6/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 🔥 8.6/10 | 前25% | #语音翻译 | #语音识别 | arxiv 👥 作者与机构 Giuseppe Attanasio (Instituto de Telecomunicações, Instituto Superior Técnico), Beatrice Savoldi (Fondazione Bruno Kessler), Daniel Chechelnitsky (Carnegie Mellon University), Matteo Negri (Fondazione Bruno Kessler), Marine Carpuat (University of Maryland), Maarten Sap (Carnegie Mellon University), André F.T. Martins (Instituto Superior Técnico, Instituto de Telecomunicações, TransPerfect) ...

2026-06-05 · 更新于 2026-06-12 · 2 min · 348 words

Multilingual Long-Form Speech Instruction Following: KIT's Submission to IWSLT 2026

📄 Multilingual Long-Form Speech Instruction Following: KIT's Submission to IWSLT 2026 #语音识别 #语音合成 #语音翻译 #多模态模型 #数据增强 #参数高效微调 #模型集成 10/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 10/10 | 前10% | #语音识别 | #数据增强 | #语音合成 #语音翻译 | arxiv 👥 作者与机构 Enes Yavuz Ugan, Maike Züfle, Yuka Ko, Supriti Sinhamahapatra, Fabian Retkowski, Seymanur Akti, Jan Niehues, Alexander Waibel 1 Karlsruhe Institute of Technology (KIT) 2 Carnegie Mellon University ...

2026-06-04 · 更新于 2026-06-12 · 3 min · 569 words

A Pocket Offline Model for Simultaneous Speech Translation as CUNI Submission to IWSLT 2026

📄 A Pocket Offline Model for Simultaneous Speech Translation as CUNI Submission to IWSLT 2026 #语音翻译 #语音识别 #多模态模型 #低资源 6.8/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 6.8/10 | 前50% | #语音翻译 | #语音识别 | #多模态模型 #低资源 | arxiv 👥 作者与机构 Aziz Sharipov Ortega, Charles University, MFF, ÚFAL。Dominik Macháček, Charles University, MFF, ÚFAL & University of Edinburgh。 ...

2026-06-03 · 更新于 2026-06-12 · 3 min · 572 words

AlignAtt4LLM: Fast AlignAtt for Decoder-Only LLMs at IWSLT 2026 Simultaneous Speech Translation Task

📄 AlignAtt4LLM: Fast AlignAtt for Decoder-Only LLMs at IWSLT 2026 Simultaneous Speech Translation Task #语音翻译 #大语言模型 7.3/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.3/10 | 前50% | #语音翻译 | #大语言模型 | arxiv 👥 作者与机构 Quentin Fuxa (Independent Researcher), Dominik Macháček (Charles University, MFF, ÚFAL & University of Edinburgh) 💡 毒舌点评 这篇论文解决了一个实际工程问题:如何让目前火热的decoder-only LLM具备同时翻译的能力。作者坦诚地承认这不是在发明新轮子(AlignAtt已有),而是在为新马车(decoder-only LLM)安装轮子。方法的核心是“绕路”——既然没有交叉注意力,就在提示里把源文本框出来,然后从自注意力里“偷”出与源文本相关的部分来模拟对齐信号。这个思路很巧妙,工程实现细节(如vLLM下的qk捕获)也颇具匠心。然而,论文的“软肋”在于评估:所有亮眼结果都来自一个约2小时的开发集,且未与当前SOTA的同时翻译系统(而不仅仅是官方基线)进行对比。EN→ZH任务的乏力暴露了该方法对骨干模型能力的依赖。作者将此归因于Gemma-4的中文能力,并暗示可以更换模型,但这更像是一个待验证的承诺,而非已证实的结论。总体而言,这是一个扎实的工程贡献,但距离一个结论稳固的研究工作还差一个独立的、更具挑战性的评估环节。 ...

2026-06-03 · 更新于 2026-06-12 · 2 min · 366 words

A Unified and Reproducible Experimentation Framework for Speech Understanding

📄 A Unified and Reproducible Experimentation Framework for Speech Understanding #语音识别 #语音合成 #语音情感识别 #语音翻译 #低资源 #基准测试 📝 5.5/10 | 前50% | #语音识别 | #语音合成 | #语音情感识别 #语音翻译 | arxiv 学术质量 5.5/7 | 影响力 5.0/2 | 可复现性 1.5/2 | 置信度 中 👥 作者与机构 论文作者来自上海交通大学X-LANCE实验室、南京大学、杭州电子科技大学、香港中文大学(深圳)以及AISpeech Ltd。主要联系人为上海交通大学的Peng Du和Kai Yu。 💡 毒舌点评 这篇工作本质上是一份详尽的“实验工具使用说明”和“初步评测报告”,而非一篇技术方法论或系统性突破的论文。它正确地指出了语音理解领域评测标准不统一、结果不可比和训练难复现的痛点,但给出的解决方案——一个评测框架和一套转换脚本——更像是一个工程团队或社区维护的“基础设施”,而非NeurIPS级别论文应有的理论或算法贡献。核心“创新”在于“统一”和“标准化”,但这些都是朴素且早该做的事情。最大的亮点是那个“智能体辅助转换流水线”,这听起来很时髦,但论文里只用了两个模型做了个“概念验证”,说服力严重不足。整篇论文读起来像是一个大型项目README的学术化版本,充满了链接、格式说明和“我们发布了…”的宣告。给5.5分,是对其指出正确问题并迈出第一步的鼓励,但其学术贡献的深度和广度远未达到顶会论文的标准。 📌 核心摘要 针对语音理解领域模型评估标准不统一、结果不可比以及训练过程难以复现的问题,本文提出了一个名为SURE的统一实验框架。该框架通过三个核心赛道进行设计:1) 面向真实场景的前端语音任务压力测试(Track I);2) 全栈语音理解能力的横向对比评估(Track II);3) 通过智能体辅助的代码转换流程,实现基于统一协议和开源数据的受控从头训练初步探索(Track III)。框架提供了统一的预测格式、归一化方法、评分脚本及动态的相对性能评分(RPS)指标。实验发现,在干净条件下级联管道在核心感知任务上仍有竞争力,情感识别是普遍挑战,且初步的受控训练结果显示不同模型在各任务上表现与其设计重点相关。 🔗 开源详情 代码: 项目主页:https://sure-eval-framework.github.io/speechllm_series/ 统一评估流水线:https://anonymous.4open.science/r/evaluation-pipeline-839C 代理辅助训练转换流水线:https://anonymous.4open.science/r/ReproAgent-9898 模型权重:论文中未提及开源模型权重。 数据集:论文中提及了多个开源数据集(VoxPopuli-en, AISHELL-5, AMI, AliMeeting, CS-Dialogue, KeSpeech, ContextASR, LibriSpeech, AISHELL-1, CoVoST2, IEMOCAP, MELD, SLURP, MMSU-Reason),并指出测试和训练套件已发布在ModelScope:https://modelscope.cn/datasets/SUREBenchmark/SURE_Test_Suites。 Demo:论文中未提及。 复现材料:论文未提供具体的训练配置、检查点或附录链接。但论文详细描述了代理辅助转换流程,该流程可将论文和代码转换为可运行的swift训练流程,并提供版本化的转换计划和验证报告。 论文中引用的开源项目: meeteval:用于计算DER和cpWER的后端工具。 sacrebleu:用于计算BLEU和chrF2的工具。 swift:用于可控训练的开源框架。 (注:以上工具在论文脚注中提供了链接) 🏗️ 方法概述和架构 SURE是一个端到端的实验套件,其核心架构分为统一评估流水线和智能体辅助训练转换流水线两大部分。 ...

2026-06-01 · 更新于 2026-06-12 · 3 min · 535 words

DOA: Training-Free Decoder-Only Attention Policy for Long-Form Simultaneous Translation with SpeechLLMs

📄 DOA: Training-Free Decoder-Only Attention Policy for Long-Form Simultaneous Translation with SpeechLLMs #语音翻译 #流式处理 #多模态模型 ✅ 7.8/10 | 前25% | #语音翻译 | #流式处理 | #多模态模型 | arxiv 学术质量 5.7/7 | 影响力 1.6/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 论文作者是Sara Papi和Luisa Bentivogli,隶属于意大利的Fondazione Bruno Kessler (FBK)。 💡 毒舌点评 这篇论文提出了一个简单而有效的思路:既然decoder-only的SpeechLLMs没有显式的交叉注意力,那能不能从自注意力中“借用”对齐信号来做流式决策?答案是“可以”,而且效果还不错。核心思想(从自注意力矩阵中截取前S列作为代理交叉注意力)直观且易于实现,实验也证明了其在长时序翻译上的有效性,甚至优于一些AED基线。然而,方法的“新颖性”更多体现在“首次将”这个概念应用于该架构,而非方法论上的重大突破。实验虽然充分,但局限性(如单一源语言、缺乏计算延迟分析)限制了结论的普适性。总体是一篇扎实的、解决实际问题的系统论文,但离改变范式还有距离。 📌 核心摘要 本文针对decoder-only架构的语音大语言模型(SpeechLLMs)在长时序同步语音翻译(SimulST)中的应用,提出了一种名为解码器注意力策略(DOA)的无训练方法。该方法的核心思想是,从decoder的自注意力权重中提取一个代理交叉注意力矩阵,用以推断生成文本与源音频的对齐关系,并基于此对齐信号动态决策读取和生成时机。研究旨在回答一个关键问题:decoder-only模型的自注意力是否能像encoder-decoder模型的交叉注意力一样,提供足够稳定的对齐信号以指导流式推理?在Phi4-Multimodal和Qwen3-Omni两个开源SpeechLLMs上的实验表明,DOA策略能够有效地支持低延迟的长时序SimulST,生成质量接近离线解码,且无需对模型进行任务特定的重训练。此外,研究发现基于标点符号的文本历史选择策略在decoder-only架构上优于传统的固定词数策略。 🔗 开源详情 代码:https://github.com/hlt-mt/simulstream (Apache 2.0 License) 模型权重: Phi4-Multimodal: https://huggingface.co/microsoft/Phi-4-multimodal-instruct Qwen3-Omni: https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct SeamlessM4T (基线): https://huggingface.co/facebook/hf-seamless-m4t-medium 数据集: MCIF (测试集):作为IWSLT评测数据集公开,论文中未提供直接链接。 ACL 60/60 (开发集):作为IWSLT评测数据集公开,论文中未提供直接链接。 复现材料:论文在附录A中提供了详尽的实验设置��包括所有模型的具体版本、权重、推理提示模板、超参数(\(f\)值范围、音频块大小、最大音频长度、最大生成令牌数、最大文本历史长度)以及硬件环境信息。 论文中引用的开源项目: SimulStream toolkit: https://github.com/hlt-mt/simulstream (推理框架) OmniST-Eval: https://github.com/CTTAT/OmniST-Eval (用于计算LongYAAL, LongLAAL) StreamAtt: (基线方法,原始代码库未在本文中提供直接链接) HuggingFace Transformers: https://github.com/huggingface/transformers (实验所用版本见表1) 🏗️ 方法概述和架构 DOA(Decoder-Only Attention)是一个无训练的流式推理策略,旨在将现成的decoder-only SpeechLLMs应用于长时序同步语音翻译(SimulST)。其核心是将解码器的自注意力(self-attention)机制重新解释为源-目标对齐的信号,并基于此对齐信号构建一个读写决策策略。该方法包含两个主要部分:流式策略设计和长时序适应。 ...

2026-06-01 · 更新于 2026-06-12 · 3 min · 570 words

OpenSTBench: Beyond Semantic Evaluation for Speech Translation

📄 OpenSTBench: Beyond Semantic Evaluation for Speech Translation #语音翻译 #语音合成 #多语言 ✅ 6.0/10 | 前50% | #语音翻译 | #语音合成 | #多语言 | arxiv 学术质量 0.6/7 | 影响力 0.6/2 | 可复现性 0.1/2 | 置信度 高 👥 作者与机构 论文标题:OpenSTBench: Beyond Semantic Evaluation for Speech Translation arXiv ID: 2605.30792 作者:Yanjie An (贡献相等), Yuxiang Zhao (贡献相等, 通讯作者), Yichi Zhang, Qixi Zheng, Yujie Tu, Keqi Deng, Kai Yu, Xie Chen (通讯作者) 机构: 上海交通大学,MoE智能计算与语言处理重点实验室,江苏省语言计算重点实验室,X-LANCE实验室,计算机科学学院,中国上海。 上海创新研究院,中国上海。 微软,美国。 中国科学院大学,中国北京。 💡 毒舌点评 这篇论文像是给一堆散装的语音翻译评估工具做了一次“大扫除”和“标准化收纳”。它指出了当前评估体系“各管一摊”的痛点,并提供了一个能同时测量翻译质量、语音质量、时间质量的“多功能仪表盘”。想法很实际,对社区也有用,避免了大家用不同尺子量同一把椅子。但问题在于,这个“仪表盘”本身并没有发明新的测量技术(比如新的语音质量评估指标),更像是现有工具的集成和协议规范化。其实验部分虽然跑了不少系统,但结论“不同维度排名不同”略显老生常谈,缺乏更深层的洞察。更关键的是,其核心价值高度依赖社区采纳度,如果大家还是习惯用BLEU打天下,这框架可能就沦为又一个备选项。此外,对语音侧自动指标可靠性的验证不足,让这个“统一”框架的基石有点摇晃。总的来说,是一篇扎实但缺乏惊喜的系统性工作,适合作为工具论文发表,但离顶会追求的“突破”尚有距离。 ...

2026-06-01 · 更新于 2026-06-12 · 4 min · 731 words