Normativity and Productivism: Ableist Intelligence? A Degrowth Analysis of AI Sign Language Translation Tools for Deaf People

📄 Normativity and Productivism: Ableist Intelligence? A Degrowth Analysis of AI Sign Language Translation Tools for Deaf People #语音翻译 #伦理批判 #跨模态 📝 3.5/10 | 后50% | #语音翻译 | #伦理批判 | #跨模态 | arxiv 学术质量 1.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Nina Seron-Abouelfadil(未说明) 通讯作者:Poppy Fynes(未说明) 作者列表:Nina Seron-Abouelfadil(未说明),Poppy Fynes(未说明) 💡 毒舌点评 这篇论文的亮点在于它从一个非常规的、跨学科的视角(技术哲学与残障研究)犀利地批判了当前AI手语翻译工具中隐藏的偏见和结构性歧视,提出了“能力主义智能”这一概念,极具启发性。短板则在于它完全是一篇理论论述,缺乏任何实证数据、案例分析或技术细节来支撑其批判,更像是一篇立场鲜明的社论,而非一篇能推动技术具体改进的学术论文。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及。 数据集:论文中未提及。 Demo:论文中未提及。 复现材料:论文中未提及。 论文中引用的开源项目:未提及。 📌 核心摘要 问题:论文旨在批判当前AI手语翻译工具在设计、开发和应用中存在的规范性(normativity)和生产主义(productivism)倾向,认为其本质上是一种“能力主义智能”(Ableist Intelligence)。 方法:论文主要采用理论分析方法,运用雅克·埃吕尔(Jacques Ellul)的“技术系统”和“技术虚张”(Technological bluff)理论,对AI手语翻译工具的发展进行社会学和伦理学批判。 新意:与常见的技术改进型论文不同,本文的新意在于将AI工具置于技术哲学和社会批判的框架下,揭示其如何通过标准化和理性化手语,服务于生产力和效率目标,从而反而异化、边缘化了聋人群体及其文化。 实验结果:论文中未提供任何实验结果、数据或量化分析。其论点建立在理论推演和对现有现象的描述上。 实际意义:论文呼吁重新思考技术开发的目标,应从“让聋人适应工具”转向“让工具适应聋人的真实需求与文化”,强调社区参与和尊重文化特性的重要性,对AI伦理、无障碍技术开发具有警示意义。 局限性:主要局限在于缺乏经验证据。其批判虽尖锐,但未通过具体案例分析、用户研究或系统对比来验证“反生产力”的论断,结论带有一定的概括性和先验性。 🏗️ 模型架构 本文为理论批判性论文,未提出任何具体的技术模型或系统架构。因此,本部分未说明。 ...

2026-05-01 · 更新于 2026-06-12 · 1 min · 125 words

Advancing Speech Understanding in Speech-Aware Language Models with GRPO

📄 Advancing Speech Understanding in Speech-Aware Language Models with GRPO #语音大模型 #强化学习 #语音问答 #语音翻译 #大语言模型 ✅ 7.0/10 | 前25% | #语音问答 | #强化学习 | #语音大模型 #语音翻译 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Avishai Elmakies(IBM Research,*注:论文标注工作在实习期间完成) 通讯作者:未说明 作者列表:Avishai Elmakies(IBM Research)、Hagai Aronowitz(IBM Research)、Nimrod Shabtay(IBM Research)、Eli Schwartz(IBM Research)、Ron Hoory(IBM Research)、Avihu Dekel(IBM Research) 💡 毒舌点评 论文成功地将GRPO和可验证奖励(BLEU)应用于语音大模型的开放生成任务,并展示了其优于SFT的性能,方法简洁有效且结果扎实。然而,其核心贡献更多是应用层面的迁移与验证,而非算法本身的重大革新,且完全未开源代码与模型,对社区的可复用性打了折扣。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及是否公开训练后的模型权重。 数据集:使用了公开数据集LibriSQA和CoVoST2,并说明了数据划分。 Demo:未提及。 复现材料:提供了较为详细的实验配置(超参数搜索范围、训练硬件、GRPO具体参数如β和G),但未提供最终选定的完整配置和检查点。 论文中引用的开源项目:引用了Granite Speech模型 [4] 和 Granite 3.0语言模型 [27] 作为基础,使用了AdamW优化器。 📌 核心摘要 问题:现有语音感知大模型在多项选择题型的强化学习训练中受限于二元奖励,难以评估和提升其开放式的文本生成能力。标准SFT在生成任务上仍有提升空间。 方法核心:提出将Group Relative Policy Optimization(GRPO)算法应用于语音问答和语音翻译等开放生成任务,并使用BLEU分数作为可验证奖励信号来优化模型。此外,探索了将真实答案作为离线样本纳入GRPO训练组的混合策略(MP-GRPO)。 创新之处:将GRPO从多选任务扩展到更贴近实际应用的开放格式任务;使用简单有效的文本相似度度量(如BLEU)作为强化学习奖励;初步探索了在语音任务中结合在线与离线样本的混合训练策略。 主要结果:在LibriSQA(语音问答)和CoVoST2(语音翻译)数据集上,基于Granite Speech 2B/8B模型的实验表明,GRPO训练在BLEU、ROUGE、BERTScore等多项指标上显著优于SFT和基线模型。例如,在LibriSQA上,GRPO使Granite Speech 2B的BLEU从基线的27.74提升至44.90(+61.8%),相比SFT(40.88)也有9.8%的提升。MP-GRPO在语音翻译任务上进一步带来增益。 实际意义:提供了一种简单高效的语音大模型训练范式,能显著提升模型在实际对话和翻译场景中的生成质量,为开发更强大的语音交互系统提供了新思路。 主要局限:仅在英语语音问答和英德翻译任务上验证;未探索ASR等唯一答案任务;训练计算成本高于SFT;混合策略(MP-GRPO)在语音问答上表现不稳定,需进一步研究;未开源代码和模型,阻碍快速复现与验证。 🏗️ 模型架构 论文并未提出新的模型架构,而是研究如何训练现有的Speech-Aware Large Language Models。其核心训练框架涉及两个主要组件: ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 359 words

ATOM: Adaptive Token-Level Optimal Transport Mixup for Speech Translation

📄 ATOM: Adaptive Token-Level Optimal Transport Mixup for Speech Translation #语音翻译 #对比学习 #多任务学习 #数据增强 #低资源 🔥 8.0/10 | 前25% | #语音翻译 | #对比学习 | #多任务学习 #数据增强 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度 高 👥 作者与机构 第一作者:Jialing Wang(1. 教育部民族语言智能分析与安全治理重点实验室,中央民族大学;2. 香港中文大学(深圳)) 通讯作者:Yue Zhao(教育部民族语言智能分析与安全治理重点实验室,中央民族大学) 作者列表:Jialing Wang(教育部民族语言智能分析与安全治理重点实验室,中央民族大学;香港中文大学(深圳))、Yue Zhao(教育部民族语言智能分析与安全治理重点实验室,中央民族大学)、Yuhao Zhang(香港中文大学(深圳))、Haizhou Li(香港中文大学(深圳)) 💡 毒舌点评 亮点:ATOM框架巧妙地将最优传输的“硬”对齐、对比学习的“精”对齐以及语义相似度引导的自适应“软”混合结合成一个闭环,在低资源藏汉翻译任务上实现了显著的BLEU提升(+2.43),证明了其在弥合模态鸿沟方面的实际效力。 短板:论文对于关键的自适应混合公式(3)解释不够清晰(p、σ、γ未明确定义),且消融实验设计较为简单,未能深入剖析各组件协同工作的具体机制和边界条件,使得方法的“自适应”智能性略显黑盒。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及公开模型权重。 数据集:所使用的MuST-C和TIBMD@MUC是公开或部分公开的学术数据集,论文中说明了其来源。 Demo:未提供在线演示。 复现材料:论文给出了详细的实验设置、超参数配置(学习率、批大小、优化器、模型维度等)、评估指标和数据集统计,为复现提供了基础信息,但未提供完整的训练代码或配置文件。 论文中引用的开源项目:明确基于 FAIRSEQ 工具包进行实现;使用了 HuBERT 作为语音编码器;使用了 SentencePiece 进行分词;使用了 sacreBLEU 进行评估。 📌 核心摘要 要解决的问题:端到端语音翻译(ST)面临训练数据稀缺和源语言语音与目标语言文本之间存在巨大模态鸿沟的双重挑战。 方法核心:提出ATOM框架,结合最优传输(OT)进行初始跨模态对齐,利用基于InfoNCE的对比学习迭代优化对齐质量,并设计一种基于语义相似度的自适应模态混合策略,将对齐后的语音和文本token在特征层面进行融合。 与已有方法相比新在哪里:相比于之前使用固定概率进行模态混合或仅使用单一对齐机制的方法,ATOM实现了“对齐(OT)-精化(对比学习)-融合(自适应混合)”的闭环,且融合权重由token间的语义相似度动态决定,更具灵活性和语义感知能力。 主要实验结果:在MuST-C英德(En-De)和TIBMD藏汉(Ti-Zh)数据集上进行评估。 主实验结果对比表 模型 En-De BLEU Ti-Zh BLEU XSTNET 20.61 11.56 STEMM 20.82 13.61 ConST 20.77 14.66 CMOT 20.84 14.87 OTST 20.88 13.90 ATOM 22.48 17.30 消融实验(En-De):移除对比学习(-LCTR)导致BLEU下降0.34;同时移除对比学习和自适应混合(-CTR -Adaptive Mixup)导致BLEU下降1.64,回落至CMOT的水平(20.84)。 不同对齐损失对比(En-De):CTR损失(21.18)优于OT损失(20.75)和CAR损失(20.09)。 主要结论:ATOM在两个任务上均取得最优结果,相比最强基线CMOT分别提升1.64(En-De)和2.43(Ti-Zh)个BLEU点,在资源更稀缺的Ti-Zh任务上提升尤为显著。 实际意义:为低资源语音翻译提供了一种有效的技术方案,通过挖掘多任务学习中平行文本数据的潜力来提升语音模型性能,对促进欠发达语言的跨语言交流有实用价值。 主要局限性:1)实验对比的基线均为2022-2024年的经典方法,未与更新的、可能基于大规模预训练语音-语言模型的SOTA进行对比;2)自适应混合策略的参数设置(p, τ, γ)依赖经验,缺乏更深入的分析或自动化调参机制;3)论文未公开代码,限制了可复现性和直接应用。 🏗️ 模型架构 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 301 words

Attention2Probability: Attention-Driven Terminology Probability Estimation for Robust Speech-to-text System

📄 Attention2Probability: Attention-Driven Terminology Probability Estimation for Robust Speech-to-text System #语音识别 #语音翻译 #语音大模型 #交叉注意力 #课程学习 #数据集 ✅ 7.0/10 | 前25% | #语音识别 | #交叉注意力 | #语音翻译 #语音大模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Yangfan Du(东北大学计算机科学与工程学院,字节跳动) 通讯作者:Tong Xiao†(东北大学计算机科学与工程学院,牛津翻译研究院) 作者列表: Yangfan Du(东北大学计算机科学与工程学院,字节跳动) Jun Zhang(字节跳动) Bin Wang(字节跳动) Jin Qiu(字节跳动) Lu Huang(字节跳动) Yuan Ge(东北大学计算机科学与工程学院) Xiaoqian Liu(东北大学计算机科学与工程学院) Tong Xiao†(东北大学计算机科学与工程学院,牛津翻译研究院) Jingbo Zhu(东北大学计算机科学与工程学院,牛津翻译研究院) 💡 毒舌点评 亮点在于提出了一个物理意义明确、轻量且有效的检索范式(将注意力权重解释为出现概率),实验上确实大幅提升了检索召回率。短板则是“术业有专攻”,检索模型的“高召回”并未完美传递给下游的语音大模型,论文在如何弥合这个“检索-生成”鸿沟上分析和解决方案略显不足,更像是抛出了一个漂亮的阶段性成果。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开检索器或微调后SLM的权重。 数据集:论文中提供了公开链接:https://huggingface.co/ByteDance/Attention2Probability。声称将数据集公开于此仓库。 Demo:未提及在线演示。 复现材料:论文提供了较为详细的训练设置(学习率、优化器、硬件等)和模型架构参数,但缺少完整的训练脚本、配置文件和预处理代码。课程学习的具体阶段划分和转换条件未说明。 论文中引用的开源项目: 音频编码器/SLM:Qwen2-Audio-Instruction TTS数据生成:MegaTTS 基础数据集:Wikiann, MSRA-NER, Few-nerd, CMeEE, LibriSpeech, Aishell-2, Rare5k 基线向量数据库方法参考:SEAL (使用SONAR编码器) 训练框架:Hugging Face Accelerator 📌 核心摘要 问题:语音大模型在通用场景表现优异,但在医疗、游戏等专业领域准确生成领域术语或新词时存在困难。现有方法依赖耗时的微调或基于向量数据库的检索,后者存在训练成本高、检索准确率不足的问题。 方法核心:提出Attention2Probability方法。其核心是用一个轻量的交叉注意力检索器替代向量数据库,通过计算语音特征与候选术语之间的交叉注意力权重,并将该权重池化归一化后,直接作为每个术语在当前音频中“存在”的概率。基于此概率检索Top-k术语,与提示词拼接后输入语音大模型,引导其生成正确术语。 创新之处:与已有方法相比,A2P完全舍弃了向量数据库和模态对齐训练,转而利用交叉注意力机制显式优化“检测术语是否在音频中出现”这一目标。同时,引入了课程学习(从单词到短语再到真实术语)策略来缓解数据稀疏问题。 实验结果:在自建数据集上,A2P(使用Qwen2-Audio-Instruction编码器)的检索召回率显著优于VectorDB基线。例如,在Top-10检索中,英文召回率达75.55%,中文达83.31%。在下游任务中,术语干预使ASR的术语准确率提升约5-6%,ST提升12-13%,但术语准确率与召回率仍有差距,表明SLM对术语的利用率存在局限。 实际意义:为解决语音领域术语生成难题提供了一种轻量、准确且无需模态对齐训练的检索新范式,并公开了一个专用的术语干预语音数据集,有助于推动该领域研究。 主要局限性:检索到的术语在SLM(尤其在翻译任务)中未被充分利用,导致最终术语准确率远低于检索召回率;随着检索术语数量增加,SLM性能可能出现波动,反映了其上下文学习能力的不足。论文提出的挑战(如何提升ST术语准确率、如何保持基线性能)尚未完全解决。 🏗️ 模型架构 整体架构如图1所示,是一个典型的“检索增强生成”(RAG)流程,但检索器部分被替换。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 412 words

Chunk-Wise Attention Transducers for Fast and Accurate Streaming Speech-to-Text

📄 Chunk-Wise Attention Transducers for Fast and Accurate Streaming Speech-to-Text #语音识别 #语音翻译 #流式处理 #注意力机制 #端到端 ✅ 7.5/10 | 前25% | #语音识别 | #注意力机制 | #语音翻译 #流式处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Hainan Xu(NVIDIA Corporation) 通讯作者:未说明 作者列表:Hainan Xu(NVIDIA Corporation)、Vladimir Bataev(NVIDIA Corporation)、Travis M. Bartley(NVIDIA Corporation)、Jagadeesh Balam(NVIDIA Corporation) 💡 毒舌点评 亮点:通过在RNN-T的Joiner中引入“分块注意力”机制,巧妙地在保持流式特性的同时,打破了其严格的单调对齐限制,从而在语音翻译任务上获得了高达18%的BLEU提升,这确实是RNN-T架构一个非常实用且有效的改进方向。短板:论文将效率提升归因于T维度的缩减,但未深入分析在分块注意力引入的计算复杂度(O(C^2))与RNN-T全序列对齐复杂度之间的权衡,也缺乏对不同分块大小选择对模型性能影响的系统性超参数搜索分析。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:实验使用的��据集(Librispeech, Common Voice, VoxPopuli, MLS, Covost)均为公开数据集,论文中未说明如何获取CHAT模型专用数据(如德语/中文AST的训练数据集合)。 Demo:未提供在线演示。 复现材料:论文提及使用NeMo工具包,配置文件名可通过搜索“fastconformer_transducer_bpe_streaming.yaml”找到。但未提供完整的训练脚本、超参数配置文件或模型检查点。 论文中引用的开源项目:NeMo工具包 [14]。 📌 核心摘要 问题:标准的RNN-T模型在流式语音处理中存在两个主要问题:一是严格的单调对齐限制了其在需要灵活对齐任务(如语音翻译)上的性能;二是基于全序列对齐格的训练和推理计算开销大,效率低。 方法:本文提出了分块注意力转导器(CHAT)。该模型将音频输入划分为固定大小的帧块(chunk),并在Joiner网络中使用多头交叉注意力来聚合每个块内的编码器表示,而不是逐帧处理。模型整体仍保持RNN-T的预测流程(发出空白则推进到下一块,否则在当前块内更新)。 创新:这是首次将分块处理与注意力机制深度结合到RNN-T的Joiner架构中。与RNN-T相比,它在块内引入了非单调、灵活的对齐能力;与纯注意力模型相比,它通过分块和保持空白预测机制,天然支持流式处理。 结果:在多个语言和任务上,CHAT相对于RNN-T基线取得了显著提升。在语音识别(ASR)任务上,相对WER降低最高达6.3%;在语音翻译(AST)任务上,相对BLEU提升最高达18.0%。效率方面,训练峰值内存降低46.2%,训练速度最高提升1.36倍,单句推理速度最高提升1.69倍(见表1和表2)。 意义:CHAT为部署更强大、更高效的流式语音模型提供了一条实用路径,尤其证明了其在语音翻译等复杂任务上的巨大潜力,同时严格保持实时约束。 局限:模型性能依赖于分块大小的选择,论文中未提供选择最优分块大小的通用准则或理论指导。此外,论文未深入分析在块内进行注意力计算带来的额外延迟特性。 🏗️ 模型架构 CHAT模型保留了标准RNN-T的编码器(Encoder)和预测器(Predictor),核心创新在于全新的分块注意力连接器(Chunk-wise Attention Joiner)。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 303 words

Direct Simultaneous Translation Activation for Large Audio-Language Models

📄 Direct Simultaneous Translation Activation for Large Audio-Language Models #语音翻译 #语音大模型 #数据增强 #流式处理 #多语言 ✅ 6.0/10 | 前25% | #语音翻译 | #数据增强 | #语音大模型 #流式处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Pei Zhang (Tongyi Lab, Alibaba Group;NLP2CT Lab, University of Macau) 通讯作者:Derek F. Wong (NLP2CT Lab, University of Macau,由论文中标注†判断) 作者列表:Pei Zhang (Tongyi Lab, Alibaba Group;NLP2CT Lab, University of Macau)、Yiming Wang (School of Computer Science, Shanghai Jiao Tong University)、Jialong Tang (Tongyi Lab, Alibaba Group)、Baosong Yang (Tongyi Lab, Alibaba Group)、Rui Wang (School of Computer Science, Shanghai Jiao Tong University)、Derek F. Wong (NLP2CT Lab, University of Macau)、Fei Huang (Tongyi Lab, Alibaba Group) 💡 毒舌点评 本文思路巧妙,旨在通过极少量(1%)精心设计的增强数据“激活”而非“重训”大模型的同传能力,实验上也观察到了低延迟场景下的显著收益。然而,方法的关键步骤——如何从截断语音“推测”出对应的正确翻译文本(即式4的终止条件)——依赖于预训练模型自身的概率分布,其通用性和边界情况处理论证不足,更像是一个工程技巧而非一个鲁棒的算法框架,且实验中同传评估基于固定时间chunk的假设可能与实际流式场景存在偏差。 ...

2026-04-29 · 更新于 2026-06-12 · 3 min · 465 words

Direct Transfer of Prosody in Speech-to-speech Translation using Disentangled Speech Tokens

📄 Direct Transfer of Prosody in Speech-to-speech Translation using Disentangled Speech Tokens #语音翻译 #自监督学习 #端到端 #多语言 ✅ 7.5/10 | 前25% | #语音翻译 | #端到端 | #自监督学习 #多语言 学术质量 5.5/7 | 选题价值 1.8/2 | 复现加成 0.2 | 置信度 中 👥 作者与机构 第一作者:Ismail Rasim Ulgen (Amazon Prime Video, USA; Center for Language and Speech Processing, Johns Hopkins University, USA) 通讯作者:未说明 作者列表:Ismail Rasim Ulgen (Amazon Prime Video, USA; Center for Language and Speech Processing, Johns Hopkins University, USA), Nancy Liu (Amazon Prime Video, USA), Najmeh Sadoughi (Amazon Prime Video, USA), Abhishek Yanamandra (Amazon Prime Video, USA), Abhinav Jain (Amazon Prime Video, USA), Zhu Liu (Amazon Prime Video, USA), Vimal Bhat (Amazon Prime Video, USA) 💡 毒舌点评 亮点:这篇论文直击语音翻译中“翻译腔”这一痛点,用“解耦-传递”的巧思,将困扰领域多年的“韵律平行数据缺失”问题绕了过去,思路清晰且效果显著。短板:研究略显“工程化”,虽然提出了巧妙的对齐机制,但过度依赖一个外部强大且未开源的解耦编解码器(FACodec),且实验仅验证了两个语言对,在更复杂语系或低资源场景下的鲁棒性存疑。 ...

2026-04-29 · 更新于 2026-06-12 · 3 min · 523 words

Equipping Large Language Model with Directional Speech Understanding Capabilities

📄 Equipping Large Language Model with Directional Speech Understanding Capabilities #语音识别 #语音翻译 #语音分离 #波束成形 #大语言模型 #流式处理 ✅ 7.0/10 | 前50% | #语音识别 #语音翻译 | #语音分离 #波束成形 | #语音识别 #语音翻译 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Ju Lin(Meta, USA) 通讯作者:未说明(论文中未明确标注) 作者列表:Ju Lin(Meta, USA)、Jing Pan(Meta, USA)、Ruizhi Li(Meta, USA)、Ming Sun(Meta, USA)、Yuzong Liu(Meta, USA)、Alaa Hassan(Meta, USA)、Jing Zheng(Meta, USA)、Florian Metze(Meta, USA) 💡 毒舌点评 亮点:论文精准聚焦于智能眼镜“听清特定人”的刚需,提出了从系统架构(级联/端到端)到流式推理的全套解决方案,实验设计也比较全面,覆盖了分离、识别、翻译三个环节。短板:所有实验都在模拟数据上“闭卷考试”,缺乏真实世界复杂声学环境的“开卷考验”,这让人对其宣称的“鲁棒性”和实际落地能力打上一个问号;此外,端到端SOT方案在部分任务上不如传统的级联方案,显示出“大而全”未必总是最优解。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及所提出的源分离模型或微调后SLM权重的公开计划。仅提及使用了开源的Gemma-3n模型。 数据集:训练所用的多通道模拟数据基于公开的单通道数据集(Common Voice, MLS)和模拟流程生成,但未提供生成好的模拟多通道数据集本身。 Demo:未提及。 复现材料:论文提供了模型架构描述、训练超参数(如LoRA rank, 学习率, batch size, 优化器, 训练轮数)、评估指标和数据集来源(Common Voice, MLS, Fleurs, LibriSpeech),但缺乏关键的模拟数据生成脚本、NLCMV波束成形的具体实现细节(被指向另一篇论文)。 论文中引用的开源项目:Gemma-3n 4B模型(来自Hugging Face)。 📌 核心摘要 这篇论文旨在解决基于大语言模型(LLM)的语音系统在智能眼镜场景中面临的挑战:现有模型多为单通道、单说话人设计,难以处理多麦克风阵列录制的、包含佩戴者(近场)和对话者(远场)的定向多人语音。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 249 words

ICASSP 2026 - 语音翻译 论文列表

ICASSP 2026 - 语音翻译 共 8 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 MTP-S2UT: Enhancing Speech-to-Speech Translation Quality wit 8.5分 前25% 🥈 ATOM: Adaptive Token-Level Optimal Transport Mixup for Speec 8.0分 前25% 🥉 SEP-ST: Incorporating Speech Entity Prompt Into Large Langua 7.5分 前25% 4. Phrased: Phrase Dictionary Biasing for Speech Translation 7.5分 前25% 5. Direct Transfer of Prosody in Speech-to-speech Translation u 7.5分 前25% 6. PROST-LLM: Progressively Enhancing the Speech-to-Speech Tran 7.5分 前25% 7. Revisiting Direct Speech-to-Text Translation with Speech LLM 7.5分 前50% 8. Direct Simultaneous Translation Activation for Large Audio-L 6.0分 前25% 📋 论文详情 🥇 MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-Token Prediction 🔥 8.5/10 | 前25% | #语音翻译 | #多任务学习 | #语音大模型 #多语言 ...

2026-04-29 · 更新于 2026-06-12 · 6 min · 1095 words

Joint Autoregressive Modeling of Multi-Talker Overlapped Speech Recognition and Translation

📄 Joint Autoregressive Modeling of Multi-Talker Overlapped Speech Recognition and Translation #语音识别 #语音翻译 #自回归模型 #多任务学习 #端到端 ✅ 7.0/10 | 前25% | #语音识别 #语音翻译 | #自回归模型 #多任务学习 | #语音识别 #语音翻译 学术质量 0.7/7 | 选题价值 0.75/2 | 复现加成 0.3 | 置信度 中 👥 作者与机构 第一作者:Tomohiro Tanaka(NTT, Inc., Human Informatics Laboratories) 通讯作者:未说明 作者列表:Tomohiro Tanaka(NTT, Inc., Human Informatics Laboratories)、Ryo Masumura(NTT, Inc., Human Informatics Laboratories)、Naoki Makishima(NTT, Inc., Human Informatics Laboratories)、Mana Ihori(NTT, Inc., Human Informatics Laboratories)、Naotaka Kawata(NTT, Inc., Human Informatics Laboratories)、Shota Orihashi(NTT, Inc., Human Informatics Laboratories)、Satoshi Suzuki(NTT, Inc., Human Informatics Laboratories)、Taiga Yamane(NTT, Inc., Human Informatics Laboratories) 💡 毒舌点评 这篇论文的核心贡献是清晰且务实的:将多说话人重叠语音的识别(ASR)和翻译(ST)从两个独立的模型合并为一个联合自回归模型,从而解决了输出时说话人数量不匹配和未对齐的痛点。其序列化输出训练(SOT)的扩展应用自然流畅,实验数据也支撑了方法的有效性。然而,论文最大的短板在于实验部分严重依赖通过混合单人语音合成的“多说话人”数据,这与真实世界中包含回声、不同混响、说话人重叠程度变化的会议或对话场景存在显著差距,削弱了其结论在实际应用中的说服力。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 394 words