Preserving Speech-to-Text LLM Capabilities in Speech-to-Speech Generation

📄 Preserving Speech-to-Text LLM Capabilities in Speech-to-Speech Generation #语音识别 #语音翻译 7/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7/10 | 前50% | #语音识别 | #语音翻译 | arxiv 👥 作者与机构 Yuxuan Hu, Heng Lu, Ruchao Fan, Yao Qian, Xiaofei Wang, Jian Xue, Heming Wang, Shuohang Wang, Young Jin Kim, Yelong Shen, Jinyu Li。具体机构未在提供文本中明确说明。 💡 毒舌点评 这篇论文试图解决一个实际且重要的问题:如何把已经很强的语音理解大模型(S2T LLM)无缝升级成能听能说的全能选手(S2S),而不毁掉它原本的本事。思路很直接:别动那个昂贵又聪明的“大脑”(冻结的主干),只给它接一个训练好的“嘴巴”(音频后解码器)。方法上,用中间层隐藏状态做同步、搞多令牌预测提速、训练时打包数据模拟多轮对话,都算得上工程上的小聪明。实验做得很全,从翻译到问答到对话,还自己搞了个多轮测试集,诚意可嘉。但问题在于,那个“嘴巴”跟“大脑”的连接方式(隐藏状态同步)到底有多优雅?消融实验里有些结论(比如MTP主要提效不影响质量)在某些指标上略有起伏,得仔细看数据。最大的槽点是,作为一个强调“可复现”和“开源精神”的领域,论文除了引了几个开源工具,核心代码、模型、数据链接一概不给,这让复现成了空中楼阁。总分7.2,算是中规中矩的技术应用论文,有贡献但离开创性还有距离。 ...

2026-07-01 · 更新于 2026-07-02 · 1 min · 202 words

GigaSpeechBench: A Real-World Multilingual Speech-to-Text Benchmark

📄 GigaSpeechBench: A Real-World Multilingual Speech-to-Text Benchmark #语音识别 #语音翻译 #低资源 #口音识别 8.7/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.7/10 | 前50% | #语音识别 | #语音翻译 | #低资源 #口音识别 | arxiv 👥 作者与机构 Yujie Tu1,2,8,9, Yifan Yang1, Tianrui Wang4, Yanqiao Zhu1, Guodong Lin5, Mingchen Shao6, Haoran Wang1, Junzhe Liu1, Yuxiang Fu5, Yizhou Peng7, Changsong Liu7, Peng Wang11, Zhikang Niu1, Yunchong Xiao3, Haolong Zheng10, Xiuwen Zheng10, Xulin Fan10, Wei-Qiang Zhang5,16, Lei Xie6,15, Longbiao Wang4, Eng-Siong Chng7, Jiajun Zhang8,9, Kele Xu13, Jianwei Yu3, Binbin Zhang3,15, Jiayu Du16, Wupeng Wang3, Zhigao Chen3, Yunlong Wu3, Guoguo Chen14,16, Xipeng Qiu2,12, Mark Hasegawa-Johnson10, Kai Yu1, Zhifu Gao3, Xiangang Li3, Xie Chen1,2,16 机构: 1.SJTU, 2.SII, 3.Alibaba, 4.TJU, 5.THU, 6.ASLP@NPU, 7.NTU, 8.CASIA, 9.UCAS, 10.UIUC, 11.CUHK-SZ, 12.FDU, 13.CCSE, 14.Seasalt.ai, 15.WeNet, 16.SpeechColab ...

2026-06-30 · 更新于 2026-07-02 · 4 min · 723 words

FBK's Long-form SpeechLLMs for IWSLT 2026 Instruction Following

📄 FBK's Long-form SpeechLLMs for IWSLT 2026 Instruction Following #语音识别 #语音翻译 #语音问答 #语音摘要 6.5/10 ✅ 6.5/10 | 前50% | #语音识别 | #语音翻译 | #语音问答 #语音摘要 | arxiv 👥 作者与机构 作者:Zhihang Xie (Fondazione Bruno Kessler & University of Trento), Marco Gaido (Fondazione Bruno Kessler), Sara Papi (Fondazione Bruno Kessler), Matteo Negri (Fondazione Bruno Kessler), Luisa Bentivogli (Fondazione Bruno Kessler) 机构:Fondazione Bruno Kessler, University of Trento 💡 毒舌点评 这篇论文是一个扎实的共享任务系统描述,但深度和原创性有限。优点在于实验部分做得比较系统,特别是对长格式幻觉的量化分析(如表2, 表8)和HIFS指标的引入,直面了当前SpeechLLM在长序列生成中的一个痛点。对三种分段策略的详尽比较也提供了实用的工程参考。然而,主要的不足在于“创新”的边界很窄。所谓的“长格式扩展”方法(人工拼接短数据)在领域内已有先例(如论文中引用的Fox et al., 2024),并未提出新的长程建模机制。核心模型架构直接复用了现有开源模型,适配器设计也是标准流程。长格式训练只跑了一个epoch就提交,这严重限制了结论的可信度——我们无法知道模型是否充分学习了长程依赖。评估方面,尽管提出了HIFS,但其公平性值得商榷:惩罚因子直接乘在任务分数上,可能过度惩罚了某些任务(如SSUM中幻觉率极高),而ASR中插入错误(INS)的数量剧增是否完全归咎于模型对长音频的幻觉,还是分段策略本身引入的上下文割裂问题,论文未能清晰区分。总体而言,这是一篇合格的任务报告,为社区提供了数据,但距离一篇有显著技术贡献的研究论文还有差距。 ...

2026-06-26 · 更新于 2026-07-02 · 2 min · 335 words

Does Translation-Enhanced Speech Encoder Pre-training Affect Speech LLMs?

📄 Does Translation-Enhanced Speech Encoder Pre-training Affect Speech LLMs? #语音识别 #语音合成 #语音翻译 #多任务学习 #大语言模型 7.1/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.1/10 | 前50% | #语音识别 | #多任务学习 | #语音合成 #语音翻译 | arxiv 👥 作者与机构 作者:Tomoya Mizumoto, Yusuke Fujita 机构:SB Intuitions Inc. 邮箱:tomoya.mizumoto@sbintuitions.co.jp, yusuke.fujita@sbintuitions.co.jp 💡 毒舌点评 这篇论文像一篇严谨的“消融实验报告”。它精确地回答了一个问题:在训练语音编码器时,加入翻译任务到底有没有用、有多大用?答案是“有用,且双向翻译比单向翻译更有用”。优点在于实验设计非常干净(控制变量),结论清晰直接。然而,这种清晰也暴露了其局限:研究范围被严格限定在“将预训练好的编码器接入冻结LLM”这一特定范式内,没有探索更灵活的架构(如端到端训练)。130k小时的训练数据对于如今的大模型时代来说显得“小家碧玉”,更像是在验证一个想法而非冲击SOTA。开源方面的完全缺席,对于需要复现或在该方向上继续推进的同行来说,无疑是一种遗憾。 📌 核心摘要 本文的核心研究问题是:在预训练语音编码器时,引入翻译任务(尤其是双向翻译)能否改善其与冻结的大语言模型的集成效果?作者认为,传统基于ASR的编码器学习到的是语言特定的表示,这与LLM统一的语义空间存在结构错位。为解决此问题,他们提出在预训练阶段加入跨语言翻译任务,特别是要求模型在英语与其他语言之间进行双向翻译,以迫使编码器学习语言无关的语义表示。实验对比了三种预训练目标:仅ASR、ASR + 单向翻译(X→en)、ASR + 双向翻译(X↔en)。结果表明,双向翻译预训练(X↔en)在语音翻译、意图分类等任务上带来了显著且一致的性能提升,并且能够泛化到预训练未见过的语言对,同时不损害依赖声学信息的情感识别任务性能。论文将这一优势归因于双向翻译目标提供了更对称、更彻底的语义抽象路径。 ...

2026-06-25 · 更新于 2026-07-02 · 2 min · 400 words

Evaluating Japanese Dialect Robustness Across Speech and Text-based Large Language Models

📄 Evaluating Japanese Dialect Robustness Across Speech and Text-based Large Language Models #语音识别 #语音翻译 #参数高效微调 #多模态模型 #低资源 5.8/10 | 创新 1/2 | 严谨 1.1/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 📝 5.8/10 | 前50% | #语音识别 | #参数高效微调 | #语音翻译 #多模态模型 | arxiv 👥 作者与机构 Tomoya Mizumoto, Yusuke Fujita, Hao Shi, Lianbo Liu, Atsushi Kojima, Yui Sudo. (作者所属机构未在提供的原文片段中明确提及) 💡 毒舌点评 这篇文章就像一个精心设计的“方言压力测试”。它思路清晰,实验控制得当,像个规规矩矩的优等生作业,把“SLM继承LLM能力”和“数据/微调有用”这两个直觉验证得漂漂亮亮。但问题在于,这个“压力测试”的跑道(翻译任务)太窄,沙坑(CPJD数据集)太小,连计时器(TTS标准语音)都可能不准。结果就是,你得到了一份关于“如何在特定小跑道上跑得更稳”的精致报告,但对于“方言问题到底有多复杂、在真实世界中如何解决”的宏大命题,贡献就比较有限了。它证明了一些常识,但缺乏让人“Wow”的突破或深刻的洞见。分数给高了对不起那些真正硬核的创新,给低了又委屈了它的严谨和工整,所以卡在中间。 ...

2026-06-25 · 更新于 2026-07-02 · 2 min · 368 words

STEB: A Speech-to-Speech Translation Expressiveness Benchmark for Evaluating Beyond Translation Fidelity

📄 STEB: A Speech-to-Speech Translation Expressiveness Benchmark for Evaluating Beyond Translation Fidelity #语音翻译 #语音合成 #语音识别 #多模态模型 #大语言模型 7.8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.8/10 | 前50% | #语音翻译 | #语音合成 | #语音识别 #多模态模型 | arxiv 👥 作者与机构 作者:Sitong Cheng, Weizhen Bian, Songjun Cao, Jin Li, Bei Liu, Chunyang Jiang, Yike Zhang, Weihao Wu, Yiming Li, Chi-Min Chan, Long Ma, Wei Xue 单位:香港科技大学,腾讯优图实验室,清华大学深圳国际研究生院 ...

2026-06-25 · 更新于 2026-07-02 · 3 min · 567 words

Measuring User's Mental Models of Speech Translation in Human-AI Collaboration

📄 Measuring User's Mental Models of Speech Translation in Human-AI Collaboration #语音翻译 6.6/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.6/10 | 前50% | #语音翻译 | #语音翻译 | arxiv 👥 作者与机构 HyoJung Han, Nishant Balepur, Jordan Boyd-Graber, Marine Carpuat University of Maryland, College Park, USA 💡 毒舌点评 这篇论文的工作就像在一个精心设计的游戏里,测量玩家对游戏规则的理解深度。想法(基于QA的心智模型测量)有一定新意,把翻译质量评估拉到了“有用性”层面。但整个用户研究的规模(45人,16题)更像是一个本科生课程大作业,而不是一篇旨在建立通用框架的顶会论文。最大的亮点是发现中级用户学习最快,而错误高亮反而导致了“过度操作”这种反直觉结果。然而,论文的结论在很多地方显得过于自信,比如将“不完整/不自然”标记为最显著特征,却忽略了其在现实场景中可能本身就是最明显的错误,这几乎是句废话。实验设计本身(奖励机制、错误类别划分)足够细致,但样本的限制使得所有结论都蒙上了一层“偶然性”的阴影。最后,没有代码开源,让这个“可复现的框架”大打折扣。 📌 核心摘要 本文提出了一种基于跨语言问答(QA)的新型框架,用于衡量和理解用户对语音翻译(MT)系统的心智模型(Mental Model)。在该框架中,用户需决定对机器翻译的哪些句子请求专业重译,以最大化最终QA任务得分,这个过程自然地揭示了用户对MT系统错误模式的理解与预测能力。通过对45名不同法语熟练度用户的研究,论文发现:1)用户的心智模型随交互实践而增强,表现为奖励和准确率上升;2)中等语言熟练度的用户学习效果最显著,而基础水平用户进步困难;3)用户主要依赖翻译输出的表面特征(如不完整性、语音噪声)来更新心智模型,而对主题相关错误最不敏感;4)在三种解释条件中,提供ASR转录最能有效辅助用户(尤其是中级用户)构建心智模型,而提供错误高亮虽然提高了准确率,却导致用户过度重译,反而降低了任务得分。 🔗 开源详情 代码:论文未提供。 模型权重:论文未提供。 数据集:使用了公开数据集 2M-BELEBELE。论文提供了引用信息,但未给出直接下载链接。 Demo:论文未提供。 复现材料:论文未提供完整的实验代码或筛选后的问答集数据。 🏗️ 方法概述和架构 论文的核心贡献是提出一个用于测量MT心智模型的交互式框架。该框架包含一个定制的用户研究界面,其工作流程和关键组件如下: ...

2026-06-24 · 更新于 2026-07-02 · 2 min · 260 words

ESPnet3: Infrastructure for Scalable Speech and Audio Research in the Foundation Model Era

📄 ESPnet3: Infrastructure for Scalable Speech and Audio Research in the Foundation Model Era #语音识别 #语音合成 #语音增强 #说话人识别 #语音翻译 #语音分离 #语音编码 #自监督学习 #数据增强 #参数高效微调 #迁移学习 7.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.5/10 | 前25% | #语音识别 | #自监督学习 | #语音合成 #语音增强 | arxiv 👥 作者与机构 Masao Someki (Carnegie Mellon University, Pittsburgh, USA) Alexander Polok (Brno University of Technology, Brno, Czechia) Carlos Carvalho (Instituto Superior Técnico, Lisbon, Portugal) Chyi-Jiunn Lin (Hanyang University, Seoul, South Korea) Da-Hee Yang (Hitachi Astemo, Tokyo, Japan) Jiatong Shi (Shanghai Jiao Tong University, Shanghai, China) Jinchuan Tian (Carnegie Mellon University, Pittsburgh, USA) Nelson Enrique Yalta Soplin (Carnegie Mellon University, Pittsburgh, USA) Samuele Cornell (Carnegie Mellon University, Pittsburgh, USA) Siddhant Arora (Carnegie Mellon University, Pittsburgh, USA) Francisco Teixeira (Instituto Superior Técnico, Lisbon, Portugal) Wei Wang (Shanghai Jiao Tong University, Shanghai, China) William Chen (Carnegie Mellon University, Pittsburgh, USA) Alberto Abad (Instituto Superior Técnico, Lisbon, Portugal) Chenda Li (Carnegie Mellon University, Pittsburgh, USA) Shinji Watanabe (Carnegie Mellon University, Pittsburgh, USA) Wangyou Zhang (Shanghai Jiao Tong University, Shanghai, China) ...

2026-06-23 · 更新于 2026-07-02 · 4 min · 698 words

Bridging the Usability Gap: Lessons from Interpreting Studies for Machine Interpreting Design

📄 Bridging the Usability Gap: Lessons from Interpreting Studies for Machine Interpreting Design #语音翻译 7.1/10 | 创新 1.8/2 | 严谨 1.3/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7.1/10 | 前50% | #语音翻译 | #语音翻译 | arxiv 👥 作者与机构 Claudio Fantinuoli, University of Mainz 💡 毒舌点评 一篇“务虚”的理论檄文,向当前机器口译(MI)领域唯“准确度”马首是瞻的风气开炮。作者作为口译圈内人,痛斥工程师们把活生生的交流场景塞进BLEU和WER的罐头里,得出“准确度错觉”这个刺眼结论。文章框架清晰,从定义MI,到指出其缺失的五项人类译员特质,再到提出“代理性-接地性-经验”三支柱设计哲学,逻辑链条完整。然而,通篇高屋建瓴,却无一处实验数据、一个消融研究、一条开源代码来支撑其宏大的设计蓝图。这就像一位将军画出了完美的战略地图,却没给一兵一卒和粮草清单。其价值在于为社区敲响警钟并指明方向,但工程价值约等于零——毕竟,从“设计优先级”到“可运行的系统”之间,还隔着无数需要具体算法和实验填平的鸿沟。 📌 核心摘要 本文指出,当前机器口译(MI)系统存在“准确度错觉”:在标准测试中表现优异,但在支持实时、目标导向的交互方面体验远差于人类口译员。作者认为,MI应被定义为一个独立的子领域,其核心特征是即时性和交互嵌入性,并应以沟通有效性而非文本相似性来评估。通过回顾口译研究,论文识别出当前系统忽略的五项人类口译关键特征:作为意义保持的忠实性、实时条件下的流畅性、操作灵活性、情境感知和文化适应以及错误管理。基于此,论文提出了三个相互依存的人机交互启发设计优先级:1)代理性(上下文敏感的主动性和修复);2)接地性(多模态和话语层面的情境意识);3)经验(通过真实交互进行适应性改进)。这三个优先级为未来MI系统指明了缩小可用性差距、实现实时多语言沟通的路径。 🔗 开源详情 代码:未提供 模型权重:未提供 数据集:未提供 Demo:未提供 复现材料:未提供 论文中引用的开源项目:提到了多个现有研究作为设计思路参考,但未提供可直接链接使用的项目。 🏗️ 方法概述和架构 本文并非提出一个具体的算法或模型架构,而是构建了一个高阶的、概念性的系统设计框架。其“方法”本质上是论证与综合的过程: ...

2026-06-16 · 更新于 2026-07-02 · 1 min · 129 words

Leveraging Audio-LLMs to Filter Speech-to-Speech Training Data

📄 Leveraging Audio-LLMs to Filter Speech-to-Speech Training Data #语音翻译 #数据增强 #自监督学习 #多模态模型 #参数高效微调 #低资源 8.4/10 | 创新 1.7/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.4/10 | 前25% | #语音翻译 | #数据增强 | #自监督学习 #多模态模型 | arxiv 👥 作者与机构 作者:Qixu Chen,Satoshi Nakamura 机构:School of Data Science 和 School of Artificial Intelligence,The Chinese University of Hong Kong, Shenzhen, China ...

2026-06-12 · 更新于 2026-07-02 · 2 min · 356 words