Frame-Stacked Local Transformers for Efficient Multi-Codebook Speech Generation

📄 Frame-Stacked Local Transformers for Efficient Multi-Codebook Speech Generation #语音合成 #语音大模型 #自回归模型 #局部Transformer ✅ 7.5/10 | 前25% | #语音合成 | #自回归模型 | #语音大模型 #局部Transformer 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Roy Fejgin(NVIDIA) 通讯作者:Roy Fejgin (rfejgin@nvidia.com), Paarth Neekhara (pneekhara@nvidia.com) 作者列表:Roy Fejgin(NVIDIA)、Paarth Neekhara(NVIDIA)、Xuesong Yang(NVIDIA)、Edresson Casanova(NVIDIA)、Ryan Langman(NVIDIA)、Jaehyeon Kim(NVIDIA)、Subhankar Ghosh(NVIDIA)、Shehzeen Hussain(NVIDIA)、Jason Li(NVIDIA) 💡 毒舌点评 亮点在于其工程化的系统思维和扎实的消融实验,将“局部Transformer”这个相对概念性的模块,通过与“帧堆叠”的结合,转化为了可量化的速度提升(高达5.5x)和可操作的设计指南,非常实用。短板是MaskGIT变体在高堆叠因子(4x)下的表现(如MOS和SSIM的下降)显得有些“拖后腿”,暗示了迭代式非自回归方法在建模更复杂依赖时仍面临训练和调参的挑战,且论文未能与当前最前沿的TTS系统(如VALL-E 2等)进行直接的质量对比。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:使用了Koel-TTS的数据(18k小时),但论文未说明具体名称和获取方式,也未提及是否开源。 Demo:提供了在线演示页面:https://frame-stacking-lt.github.io 复现材料:提供了模型架构描述、关键超参数(层数、维度、帧率、码本数)、采样设置(CFG, top-k, 温度, MaskGIT步数)和评估细节,但未提供完整的训练配置(如学习率调度、batch size)、检查点或附录。 论文中引用的开源项目:引用了NanoCodec [11](未提及是否开源)、Parakeet-TDT-1.1b [17](开源ASR模型)、TitaNet-Large [18](开源说话人嵌入模型)、UTMOSv2 [20](未提及开源)。 📌 核心摘要 本文旨在解决基于大语言模型的语音合成系统中,多码本声学码预测所面临的依赖性建模与解码效率的矛盾。方法核心是引入一个轻量的“局部Transformer”来替代传统的并行预测头,该LT以迭代方式(自回归或MaskGIT)对单帧内的多个码本进行依赖性建模;同时,利用LT分担计算负载,让主Transformer预测多帧(帧堆叠),从而提升整体吞吐率。与已有方法相比,新在系统性地评估了两种LT架构(AR与MaskGIT)与不同帧堆叠因子的组合,并在控制模型总参数量的前提下进行了公平比较。主要实验结果显示:1)所有LT模型在Fréchet Distance(FD)指标上均优于并行预测基线;2)使用AR LT且堆叠因子为2时,在SSIM(0.757 vs 0.695)和MOS(3.70 vs 3.46)上与基线持平或更优,同时速度快2.1倍;3)堆叠因子为4时,AR LT仍能保持较好的MOS(3.71),而MaskGIT的MOS显著下降(3.41)。实际意义在于为工业部署提供了明确的指南:质量优先选AR LT(无堆叠),速度与质量平衡选2x堆叠AR LT,极致速度可选4x堆叠LT。主要局限性是MaskGIT方法在高堆叠因子下性能不稳定,且研究未涉及与最新SOTA TTS模型的横向对比。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 421 words

From Human Speech to Ocean Signals: Transferring Speech Large Models for Underwater Acoustic Target Recognition

📄 From Human Speech to Ocean Signals: Transferring Speech Large Models for Underwater Acoustic Target Recognition #水下声学目标识别 #迁移学习 #语音大模型 #跨域泛化 #基准测试 ✅ 7.0/10 | 前25% | #水下声学目标识别 | #迁移学习 | #语音大模型 #跨域泛化 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Mengcheng Huang(哈尔滨工程大学计算机科学与技术学院) 通讯作者:Chen Xu*(哈尔滨工程大学计算机科学与技术学院,邮箱:chen.xu@hrbeu.edu.cn) 作者列表:Mengcheng Huang(哈尔滨工程大学计算机科学与技术学院)、Xue Zhou(哈尔滨工程大学计算机科学与技术学院)、Chen Xu*(哈尔滨工程大学计算机科学与技术学院)、Dapeng Man(哈尔滨工程大学计算机科学与技术学院) 💡 毒舌点评 亮点:这篇论文做了一件很聪明的事——把在大规模人类语音上训练好的“耳朵”(SenseVoice)直接拿去听海洋,结果发现这个“耳朵”不仅能听懂人话,还能精准识别不同船只,甚至在陌生海域也能工作得很好(跨域96.67%),证明了SOTA语音模型作为通用声学编码器的巨大潜力。短板:然而,整个框架就是“预训练模型+平均池化+线性层”的简单拼接,缺乏针对水声特性(如多径传播、海洋噪声)的深入适配和机制解释;更关键的是,论文声称进行了消融实验来验证设计选择,却“因篇幅限制”只字未提,这让其最优性能的结论打了折扣,也影响了工作的透明度和严谨性。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及是否公开SenseVoice微调后的权重。 数据集:使用了公开数据集DeepShip和ShipsEar,但论文中未提供获取链接。 Demo:未提及。 复现材料:给出了部分训练超参数(优化器、学习率、批大小),但未提供完整的训练配置、脚本、预训练模型下载方式或详细说明。 论文中引用的开源项目:主要引用了SenseVoice模型[17],但未明确说明其获取途径。 📌 核心摘要 这篇论文针对水下声学目标识别(UATR)中数据稀缺和环境复杂的两大挑战,探索能否将大规模语音模型(SLM)的知识迁移过来。方法核心是提出UATR-SLM框架:复用语音特征提取流程,将训练好的语音大模型(具体使用SenseVoiceSmall)作为通用声学编码器,并替换其解码器为轻量级分类头(平均池化+线性层)进行微调。与传统方法从头训练或仅使用有限数据增强不同,该工作的创新在于首次系统性地利用SOTA语音基础模型来“跨界”解决水声问题。在DeepShip和ShipsEar两个基准测试中,UATR-SLM的F1分数分别达到99.32%和99.09%,超越了所有对比的ResNet等基线方法;在变长信号测试中表现出强鲁棒性(1秒音频准确率95.87%);在零样本跨域评估中,从DeepShip迁移到ShipsEar,准确率高达96.67%,而ResNet基线仅53%-70%。这证明了SLM编码的声学表征具有强大的域不变性和可迁移性。其实际意义在于为资源受限的水声应用开辟了新范式,可能大幅降低对大量标注水声数据的依赖。主要局限在于框架设计简单直接,未深入探讨迁移成功的内部机理,且关键实验细节(如消融研究)缺失。 🏗️ 模型架构 UATR-SLM框架整体架构如图1所示,流程清晰,分为三个核心组件: ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 285 words

Game-Time: Evaluating Temporal Dynamics in Spoken Language Models

📄 Game-Time: Evaluating Temporal Dynamics in Spoken Language Models #基准测试 #模型评估 #语音大模型 #全双工通信 ✅ 7.5/10 | 前25% | #语音对话系统 | #基准测试 | #模型评估 #语音大模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Kai-Wei Chang1(麻省理工学院),En-Pei Hu2(台湾大学) (*表示共同第一作者) 通讯作者:未说明 (论文中未明确标注通讯作者) 作者列表:Kai-Wei Chang (麻省理工学院), En-Pei Hu (台湾大学), Chun-Yi Kuan (台湾大学), Wenze Ren (台湾大学), Wei-Chih Chen (台湾大学), Guan-Ting Lin (台湾大学), Yu Tsao (中央研究院), Shao-Hua Sun (台湾大学), Hung-yi Lee (台湾大学), James Glass (麻省理工学院) 💡 毒舌点评 亮点:选题精准地击中了当前语音对话模型“懂内容,不懂时间”的痛点,并创新性地将儿童语言学习中的“游戏化”概念引入评测框架设计,思路新颖且系统。短板:实验规模(模型数量与评测样本)相对有限,且高度依赖外部工具(如Whisper转录、Gemini作为Judge)进行评估,使得评测流程的自主性与结果的绝对可靠性存在一定折扣。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 245 words

Grey-Box Prompt Tuning With Graph Alignment for Speech-Language Models

📄 Grey-Box Prompt Tuning With Graph Alignment for Speech-Language Models #语音识别 #图神经网络 #提示调优 #语音大模型 🔥 8.0/10 | 前25% | #语音识别 | #图神经网络 | #提示调优 #语音大模型 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Yuhang Lu(广西师范大学,教育区块链与智能技术重点实验室) 通讯作者:Li-e Wang*(广西师范大学,教育区块链与智能技术重点实验室);Linghui Meng†(东南大学,计算机科学与工程学院) 作者列表:Yuhang Lu(广西师范大学,教育区块链与智能技术重点实验室)、Li-e Wang*(广西师范大学,教育区块链与智能技术重点实验室)、Xianxian Li(广西师范大学,教育区块链与智能技术重点实验室)、Feng Yu(广西师范大学,教育区块链与智能技术重点实验室)、Linghui Meng†(东南大学,计算机科学与工程学院) 💡 毒舌点评 这篇论文的亮点在于其精巧的系统设计,将图神经网络用于声学-文本的细粒度对齐,并辅以复杂的无梯度优化策略,展现了扎实的工程创新和在“灰色盒”这一受限场景下解决实际问题的能力。但其优化策略(三重损失、Dirichlet先验、CMA-ES)的复杂度较高,且论文未提供任何开源代码,对于想快速复现或验证其优越性的读者而言,这无疑是一道高墙,使得漂亮的实验结果略显“空中楼阁”。 🔗 开源详情 根据论文内容,未提及任何开源计划。具体包括: 代码:论文中未提及代码仓库链接。 模型权重:未提及公开训练好的适配器或提示的权重。 数据集:使用了LLaSO语料子集,但未说明该子集是否公开及获取方式。 Demo:未提供在线演示。 复现材料:给出了部分超参数设置(表1),但缺失了大量关键细节(如CMA-ES参数、损失函数权重初始值、自适应调度具体公式等)。 引用的开源项目:论文中提及并依赖了Llama-3.2-3B-Instruct、HuBERT等开源模型/工具。 📌 核心摘要 本文旨在解决语音-语言模型(SLM)在灰色盒场景下(即模型参数冻结,仅有有限接口可注入提示)适配下游任务时面临的两大挑战:无梯度提示调优的低效不稳定,以及声学-文本对齐不足。为此,作者提出了一个轻量级的提示调优框架,其核心包含两个阶段:1) 图引导的跨模态对齐:利用图注意力网络(GAT)在联合表征空间中构建一个异构图,将声学节点和文本节点通过注意力边动态连接与聚合,实现鲁棒的跨模态对齐与融合,并通过一个对齐损失(公式10)进行监督。2) 渐进式无梯度优化策略:设计了一个两阶段优化目标(公式11),结合任务交叉熵、温度缩放蒸馏(公式12)和自适应高置信度一致性约束(公式14),并利用Dirichlet先验自适应调整各项权重,以稳定地优化提示。提示本身通过CMA-ES在低维子空间中联合生成声学和文本前缀。实验在LLaSO语料库的子集上进行,涉及语音识别(ASR)和多个副语言任务。结果显示,本方法在灰色盒约束下取得了优异性能(例如,ASR的WER为0.09,优于部分主流模型),同时在达到目标WER=0.15时,其时间-计算-内存开销优于基于强化学习的提示调优方法(RL-Prompt),并接近参数高效微调方法LoRA。消融实验证明了图对齐模块能有效提升语义级任务(如NER)的性能。本文的实际意义在于提供了一种在不修改主干参数的前提下,低成本、高效率适配语音-大语言模型的新范式。主要局限性在于优化策略的复杂性,以及论文未开源代码和详细复现信息。 🏗️ 模型架构 本文提出的“Grey-Box Prompt Tuning with Graph Alignment”框架旨在冻结的语音-语言模型(如Llama)中注入可学习的提示,以实现下游任务适配。其整体架构可分为图引导的跨模态对齐阶段和提示调优阶段。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 357 words

Group Relative Policy Optimization for Text-to-Speech with Large Language Models

📄 Group Relative Policy Optimization for Text-to-Speech with Large Language Models #语音合成 #强化学习 #多语言 #零样本 #语音大模型 🔥 8.0/10 | 前25% | #语音合成 | #强化学习 | #多语言 #零样本 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Chang Liu(中国科学技术大学,国家语音及语言信息处理工程技术研究中心) 通讯作者:Zhen-Hua Ling(中国科学技术大学,国家语音及语言信息处理工程技术研究中心) 作者列表:Chang Liu(中国科学技术大学),Ya-Jun Hu(科大讯飞研究院),Ying-Ying Gao(九天人工智能研究院),Shi-Lei Zhang(九天人工智能研究院),Zhen-Hua Ling(中国科学技术大学) 💡 毒舌点评 亮点在于巧妙地将源自数学推理的GRPO算法“移植”到语音合成领域,并用一个现成的ASR模型构建了简单有效的复合奖励,实现了训练复杂度的显著降低和性能的稳定提升。短板则在于对“自然度提升”的深层机理探讨不足,仅通过MOS分数和少量示例论证,缺乏更系统的声学或韵律学分析,且Llasa-1B上的主观评估结果不佳也未得到充分解释。 🔗 开源详情 代码:提供了GitHub仓库链接:https://ryuclc.github.io/LLM-TTS-GRPO。 模型权重:论文提及公开了微调后的模型权重(通过上述链接获取)。 数据集:使用了公开的Emilia(微调)、seed-tts-eval和Common Voice(评估)数据集。 Demo:提供了在线音频演示(通过上述链接访问)。 复现材料:提供了训练代码、详细的超参数设置(如β, G, 学习率)和实验配置。 引用的开源项目: 基线TTS模型:CosyVoice2 [4], Llasa-1B [6]。 ASR模型:Whisper-large-v3 [20]。 评估工具:Paraformer-zh (来自FunASR[22]) 用于中文CER,WavLM[23]用于说话人嵌入提取。 算法参考:GRPO [19] (源自DeepSeekMath)。 📌 核心摘要 问题:现有基于大语言模型(LLM)的文本到语音(TTS)模型在使用强化学习(RL)进行微调时,面临训练流程复杂(如PPO需要维护价值模型)、或依赖昂贵的偏好数据(如DPO)等问题。 方法核心:提出一种基于分组相对策略优化(GRPO)的微调方法。该方法利用一个现成的自动语音识别(ASR)模型,从生成的语音波形中计算字符错误率(CER)和负对数似然(NLL),并通过调和平均融合为一个复合奖励信号。该奖励用于计算组内相对优势,从而微调预训练的LLM-TTS模型。 创新点:首次将GRPO算法应用于LLM-based TTS的微调;设计了一种无需额外训练模型、结合客观可懂度(CER)与模型置信度(NLL)的复合奖励函数。 主要实验结果:在CosyVoice2和Llasa-1B两个开源基线模型上,GRPO微调显著提升了零样本合成的可懂度(CER/WER降低)和自然度(MOS提升)。例如,对CosyVoice2,中文CER从1.41降至1.07,英文WER从2.46降至2.30;主观平均意见得分(MOS)在四种语言上均有统计显著提升(如中文从4.42提升至4.58)。消融实验证明,结合CER与NLL的复合奖励优于单一奖励。 实际意义:该方法简化了LLM-TTS模型的RL训练管线,使其更稳定、易于实施,并有效提升了合成语音的质量和鲁棒性。 主要局限性:方法依赖于一个高质量的ASR模型作为奖励提供者;论文未深入分析NLL奖励如何具体改善语音自然度的机理;在Llasa-1B模型上,RL微调未能带来主观自然度的显著提升,原因未充分探究。 🏗️ 模型架构 本文的核心贡献是提出一种基于GRPO的微调流程,而非一个全新的TTS生成架构。其流程如图2所示,适用于两类主流的LLM-based TTS模型。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 347 words

High-Fidelity Speech Enhancement Via Discrete Audio Tokens

📄 High-Fidelity Speech Enhancement Via Discrete Audio Tokens #语音增强 #自回归模型 #语音大模型 #数据集 #预训练 ✅ 7.5/10 | 前25% | #语音增强 | #自回归模型 | #语音大模型 #数据集 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Luca A. Lanzendörfer(未明确标注,但根据作者列表顺序推测) 通讯作者:未说明 作者列表:Luca A. Lanzendörfer (ETH Zurich), Frédéric Berdoz (ETH Zurich), Antonis Asonitis (ETH Zurich), Roger Wattenhofer (ETH Zurich) 💡 毒舌点评 亮点在于其架构的“暴力美学”——用一个足够大的语言模型(1B LLaMA)和足够高分辨率的离散表示(44.1kHz DAC),将复杂的语音增强多阶段流水线简化为直接的token-to-token转换,并取得了SOTA结果,为“大力出奇迹”在语音领域提供了又一例证。短板在于这种简化高度依赖预训练的高质量编解码器(DAC)和计算资源,论文对模型计算成本、推理延迟等实际部署考量几乎只字未提,且在处理特定失真(如DNS挑战中的背景噪声抑制)时并未展现出压倒性优势。 🔗 开源详情 代码:论文明确表示“We release our codebase and model checkpoints”,并提供了Demo网站链接 https://lucala.github.io/dac-se1/。但未直接给出代码仓库URL。 模型权重:承诺发布模型检查点。 数据集:使用了公开数据集(HiFiTTS-2, MUSAN, DEMAND等),但论文中生成的训练数据集本身是否公开未说明。 Demo:提供了在线演示网站。 复现材料:论文给出了模型架构、训练数据来源、两阶段训练策略、主要超参数(模型大小、码本等)。但未提供完整的训练配置文件、损失函数具体实现、推理脚本等细节。 论文中引用的开源项目:依赖的开源工具/模型包括DAC编码器/解码器、LLaMA架构、Whisper-Large(用于计算WER)。 📌 核心摘要 这篇论文旨在解决现有基于语言模型的语音增强方法局限于低采样率(16kHz)和依赖复杂多阶段架构的问题,以实现高保真(44.1kHz)的语音增强与带宽扩展。 方法核心是提出一个名为DAC-SE1的单阶段框架,该框架直接使用44.1kHz的DAC离散音频令牌作为输入和输出,由一个基于LLaMA的1B参数自回归模型进行处理,无需额外的语义编码器或多阶段流水线。 与已往工作相比,新方法的新颖之处在于:1)直接操作高分辨率DAC令牌,保留了精细的声学细节;2)架构高度简化,统一了增强与带宽扩展任务;3)通过扩大模型参数和训练数据规模来提升性能。 主要实验结果表明,DAC-SE1在HiFiTTS-2测试集的客观指标(如DNSMOS OVRL: 2.95)和MUSHRA主观评分(58.3分)上均优于LLaSE-G1和VoiceFixer等基线。在ICASSP 2022 PLC挑战中,其PLCMOS分数达到4.34,超越了所有对比方法。在ICASSP 2023 DNS挑战中,性能与最强基线持平。 该工作的实际意义在于证明了通过简单、可扩展的自回归语言模型范式,结合高质量的音频离散表示,能够实现统一且高质量的语音增强任务,为未来构建通用音频生成模型提供了新思路。 主要局限性是论文未详细讨论模型的计算效率、训练成本以及在不同噪声类型或极低信噪比条件下的泛化能力,且其性能提升部分依赖于庞大的模型参数,可能限制了实际部署场景。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 322 words

Human-1 by Josh Talks: A Full-Duplex Conversational Modeling Framework in Hindi using Real-World Conversations

📄 Human-1 by Josh Talks: A Full-Duplex Conversational Modeling Framework in Hindi using Real-World Conversations #语音对话系统 #迁移学习 #多语言 #语音大模型 #数据集 ✅ 7.5/10 | 前50% | #语音对话系统 | #迁移学习 | #多语言 #语音大模型 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Bhaskar Singh (JoshTalks) 通讯作者:未说明 作者列表:Bhaskar Singh (JoshTalks)、Shobhit Banga (JoshTalks)、Pranav Sharma (JoshTalks) 💡 毒舌点评 亮点:论文首次为印地语构建了开源、可复现的全双工对话系统,其核心贡献在于收集并利用了一个大规模(2.6万小时)、高质量的真实对话立体声数据集,这直接解决了该领域从零到一的“冷启动”数据难题,为后续所有印度语言的研究奠定了基础。短板:尽管声称“开放”,但论文未公开模型权重、代码或数据集,极大地限制了其可复现性和社区影响力;同时,实验部分缺少与其它基线模型(如Turn-based模型)的直接对比,使得对全双工架构优势的论证不够充分。 📌 核心摘要 解决的问题:目前,全双工语音对话系统(能够模拟打断、重叠等自然对话行为)的研究几乎完全集中在英语上,对于拥有数亿使用者的印地语等印度语言存在巨大空白。构建此类系统面临三大挑战:现有架构的英文分词器不适用于天城体文字、替换分词器需重新初始化参数、以及缺乏大规模真实对话立体声训练数据。 方法核心:论文采用“迁移学习+领域适配”策略。核心架构是基于英文的Moshi模型,但替换其英文SentencePiece分词器为印地语分词器,并重新初始化了所有与文本词汇相关的参数。训练冻结了Mimi神经音频编解码器(验证其对印地语有足够泛化能力),仅对RQ-Transformer进行两阶段训练:先在2.6万小时数据上预训练,再在精选的约1000小时数据上微调。 新在哪里:与已有工作相比,本文是首个针对印地语(及印度语言)的全双工对话系统开源框架;其关键创新在于收集并利用了规模巨大、质量可控的真实对话立体声数据集(26,000小时),而非使用朗读语音或合成数据;同时提出了适配预训练模型的“部分重训练”训练方案。 主要实验结果: 编解码质量:冻结的Mimi编解码器在印地语上PESQ为2.55±0.37,STOI为0.878±0.027,表明语音可懂度高(见表2)。 语言流畅度:生成语音的印地语困惑度(PPL)在温度τ=0.8时为356.9,高于真实语音的237.1,但优于更高温度下的结果(表3)。 人类评估:130位母语者评估显示,模型生成语音的自然度评分为4.10(人类为4.55),清晰度为3.04(人类为4.05)。在成对比较中,66.9%的情况被评为与人类无差异,表明质量接近人类水平(表4)。但在“上下文恰当性”(53%)和“回复完整性”(42%)上仍有明显差距。 对话轮次动态:分析表明,温度τ=0.9时生成的对话轮次统计(如间歇、停顿、重叠时长)与真实对话最接近(表5)。 模型 τ 自然度 (5分制) 清晰度 (5分制) 偏好 (人/模型/平局) 人类式互动通过率 恰当性通过率 完整性通过率 Ground-truth - 4.55 4.05 - - - - Human-1 - 4.10 3.04 30.0% / 3.1% / 66.9% ≈85% ≈53% ≈42% 实际意义:该工作为印地语乃至其他印度语言的实时、自然全双工对话系统铺平了道路,证明了在缺乏此类数据时,收集高质量真实对话数据是最关键的突破点,对开发符合当地语言习惯的AI助手具有重要价值。 主要局限性:1) 开源缺失:未公开代码、模型和数据,削弱了论文的影响力和可复现性。2) 数据同质性:虽然数据量大,但主要来自电话对话场景,可能无法完全代表所有印地语对话场景(如多人讨论、嘈杂环境)。3) 基线对比不足:未与简单的“轮流说话”模型等进行对比,难以量化全双工架构带来的具体增益。4) 长程上下文能力:人类评估显示模型在维持对话连贯性和生成完整回复方面存在不足。 🏗️ 模型架构 论文的模型架构直接复用了Moshi,一个端到端的全双工语音对话模型。其核心流程和组件如下: ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 315 words

ICASSP 2026 - 语音大模型 论文列表

ICASSP 2026 - 语音大模型 共 3 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Cross-Lingual Interleaving for Speech Language Models 7.5分 前25% 🥈 Cross-Modal Knowledge Distillation for Speech Large Language 7.0分 前25% 🥉 SpeechMapper: Speech-To-Text Embedding Projector for LLMs 7.0分 前25% 📋 论文详情 🥇 Cross-Lingual Interleaving for Speech Language Models ✅ 7.5/10 | 前25% | #语音大模型 | #预训练 #多语言 | #预训练 #多语言 👥 作者与机构 第一作者:Adel Moumen(Department of Engineering, University of Cambridge, UK) 通讯作者:未说明 作者列表:Adel Moumen(Department of Engineering, University of Cambridge, UK)、Guangzhi Sun(Department of Engineering, University of Cambridge, UK)、Philip C. Woodland(Department of Engineering, University of Cambridge, UK) 💡 毒舌点评 ...

2026-04-29 · 更新于 2026-05-20 · 3 min · 457 words

In-Sync: Adaptation of Speech Aware Large Language Models for ASR with Word level timestamp predictions

📄 In-Sync: Adaptation of Speech Aware Large Language Models for ASR with Word level timestamp predictions #语音识别 #语音大模型 #多任务学习 #数据增强 ✅ 7.0/10 | 前50% | #语音识别 | #多任务学习 | #语音大模型 #数据增强 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Xulin Fan(University of Illinois Urbana-Champaign) 通讯作者:未说明 作者列表:Xulin Fan(University of Illinois Urbana-Champaign)、Vishal Sunder(IBM Research)、Samuel Thomas(IBM Research)、Mark Hasegawa-Johnson(University of Illinois Urbana-Champaign)、Brian Kingsbury(IBM Research)、George Saon(IBM Research) 💡 毒舌点评 亮点:论文提出的三个训练策略(长度增强、嵌入正则化、减少教师强制)逻辑清晰,且消融实验设计规范,清晰展示了每个模块的贡献与局限,为SpeechLLM的多任务适配提供了实用的工程经验。 短板:作为一篇ICASSP论文,其核心创新(尤其是高斯先验正则化)更像是一种“调参技巧”的系统化,而非算法层面的突破;此外,论文承认了正则化与减少教师强制“组合不佳”,这削弱了方法作为统一框架的完备性。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 361 words

Leveraging Large Speech Language Models as Evaluators for Expressive Speech

📄 Leveraging Large Speech Language Models as Evaluators for Expressive Speech #语音情感识别 #语音大模型 #模型评估 #预训练 #数据集 ✅ 6.5/10 | 前50% | #语音情感识别 | #语音大模型 | #模型评估 #预训练 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 中 👥 作者与机构 第一作者:未说明(论文署名为 Bismarck Bamfo Odoom, Philipp Koehn,未明确区分第一作者) 通讯作者:未说明 作者列表:Bismarck Bamfo Odoom(Johns Hopkins University, Center for Language and Speech Processing)、Philipp Koehn(Johns Hopkins University, Center for Language and Speech Processing) 💡 毒舌点评 这篇论文巧妙地将表达性语音评估任务转化为一个“听懂并描述”问题,让SLM兼职当“考官”,思路值得肯定。但遗憾的是,“考官”的评分体系(微调后的分类性能)虽然在数字上有所提升,却更像是完成了一份填空题答卷,而非输出了能指导TTS优化的深度分析报告,其“评估器”的真正价值尚未被充分挖掘和验证。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 225 words