Hierarchical Semantic-Acoustic Modeling via Semi-Discrete Residual Representations for Expressive End-to-End Speech Synthesis

📄 Hierarchical Semantic-Acoustic Modeling via Semi-Discrete Residual Representations for Expressive End-to-End Speech Synthesis #语音合成 #自回归模型 #流匹配 #预训练 #端到端 🔥 8.0/10 | 前25% | #语音合成 | #自回归模型 | #流匹配 #预训练 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yixuan Zhou(清华大学深圳国际研究生院) 通讯作者:Zhiyong Wu(清华大学深圳国际研究生院) 作者列表:Yixuan Zhou(清华大学深圳国际研究生院),Guoyang Zeng(ModelBest Inc),Xin Liu(ModelBest Inc),Xiang Li(清华大学深圳国际研究生院),Renjie Yu(清华大学深圳国际研究生院),Ziyang Wang(ModelBest Inc),Runchuan Ye(清华大学深圳国际研究生院),Weiyue Sun(ModelBest Inc),Jiancheng Gui(ModelBest Inc),Kehan Li(清华大学深圳国际研究生院),Zhiyong Wu(清华大学深圳国际研究生院),Zhiyuan Liu(清华大学计算机科学与技术系) 💡 毒舌点评 亮点:论文提出的“半离散残差表示”框架设计精巧,通过一个可微的量化瓶颈在单一端到端模型中优雅地实现了语义和声学的隐式解耦,有效规避了传统连续模型的误差累积和离散模型的信息损失,堪称“鱼与熊掌兼得”的架构设计典范。短板:模型的高性能(VoxCPM)严重依赖海量内部数据(1百万小时),而公开验证(VoxCPM-Emilia)的性能与SOTA仍有差距,这使得其宣称的“架构优越性”在多大程度上可迁移到受限数据场景存疑,也削弱了其作为普适解决方案的说服力。 📌 核心摘要 解决的问题:现有端到端语音合成模型面临一个根本权衡:离散token方法稳定但会丢失声学细节(量化天花板),而连续表示方法保留了丰富声学信息但容易在长序列上因语义和声学任务纠缠而产生误差累积,影响稳定性。 方法核心:提出VoxCPM,一个端到端的层次化语义-声学建模框架。其核心是一个可微的有限标量量化(FSQ)瓶颈,它自然诱导出两个专门化模块:文本-语义语言模型(TSLM) 负责生成稳定的语义韵律骨架,残差声学语言模型(RALM) 负责恢复FSQ量化后丢失的精细声学细节。最终,由层次化表示共同引导一个局部扩散Transformer解码器(LocDiT) 生成高保真语音隐变量。 新意:与依赖外部离散语音token化器的多阶段管道不同,该框架将量化作为正则化机制内置于连续数据流中,实现了在单一端到端训练框架内的功能分离,消除了对外部预训练token化器的依赖,并缓解了连续模型中的任务纠缠。 主要结果:在超过1百万小时的双语数据上训练的0.5B参数VoxCPM,在SEED-TTS-EVAL基准上取得了开源系统中的最优性能,英语WER为1.85%,中文CER为0.93%,说话人相似度SIM分别为72.9%和77.2%。关键消融实验证明,去除FSQ瓶颈(w/o FSQ)会导致在困难测试集上性能急剧恶化(中文CER从18.19%升至24.92%),验证了其核心作用。 实际意义:该工作为构建表达力强、稳定性高的端到端语音合成系统提供了新的架构范式,有望推动更自然、更具情感的语音交互技术发展。 主要局限性:SOTA性能严重依赖大规模内部训练数据,在较小公开数据集上的验证(VoxCPM-Emilia)表现虽具竞争力但非顶尖,表明其对数据规模可能较为敏感。此外,框架的整体复杂度(包含LM、RALM、扩散解码器)对部署资源有一定要求。 详细分析 VoxCPM是一个层次化、端到端的自回归语音生成模型,其核心设计是通过内部半离散瓶颈实现语义和声学建模的解耦。 ...

2026-05-04 · 更新于 2026-06-12 · 4 min · 776 words

LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection

📄 LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection #音乐理解 #多模态模型 #端到端 #音乐信息检索 🔥 8.0/10 | 前25% | #音乐理解 | #多模态模型 | #端到端 #音乐信息检索 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Benjamin Shiue-Hal Chou(Purdue University) 通讯作者:未说明(论文未明确指定,但联系邮箱主要为{作者名}@purdue.edu,可能为共同指导) 作者列表: Benjamin Shiue-Hal Chou(Purdue University) Purvish Jajal(Purdue University) Nick John Eliopoulos(Purdue University) James C. Davis(Purdue University) George K. Thiruvathukal(Loyola University Chicago) Kristen Yeon-Ji Yun(Purdue University) Yung-Hsiang Lu(Purdue University) 💡 毒舌点评 亮点:论文将“音乐练习错误检测”这一序列比较问题,巧妙地转化为一个多模态编码与解码任务,并且通过架构设计(Ladder编码器)和输入表示(符号提示)两个层面,针对性地解决了之前方法在对齐能力和输入歧义上的痛点,设计思路清晰且有效。短板:符号提示策略在更简单的CocoChorales-E数据集上(尤其对Extra Note)带来的增益有限,甚至略有下降,表明这种多模态融合的收益可能与任务复杂度强相关;此外,模型对大幅节奏变化和复杂和弦遮蔽的处理仍有明显局限。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 331 words

Learnable Fractional Superlets with a Spectro-Temporal Emotion Encoder for Speech Emotion Recognition

📄 Learnable Fractional Superlets with a Spectro-Temporal Emotion Encoder for Speech Emotion Recognition #语音情感识别 #时频分析 #端到端 🔥 8.0/10 | 前25% | #语音情感识别 | #时频分析 | #端到端 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Alaa Nfissi(数据科学实验室(DOT-Lab), Université TÉLUQ;康考迪亚大学信息系统工程学院(Concordia Institute for Information Systems Engineering)) 通讯作者:未明确说明 作者列表:Alaa Nfissi(数据科学实验室(DOT-Lab), Université TÉLUQ;康考迪亚大学信息系统工程学院)、Wassim Bouachir(数据科学实验室(DOT-Lab), Université TÉLUQ)、Nizar Bouguila(康考迪亚大学信息系统工程学院)、Brian Mishara(魁北克大学蒙特利尔分校心理学系;蒙特利尔自杀、伦理问题及临终实践研究与干预中心) 💡 毒舌点评 这篇论文的亮点在于它不满足于简单地使用或微调现有前端,而是试图从数学原理上重新定义一个更灵活、可学习的时频分析框架(LFST),体现了扎实的信号处理功底和理论建模能力。然而,其主要短板在于计算效率:论文附录的复杂度分析显示,LFST+STEE在FLOPs、延迟和内存占用上远超STFT、LEAF等基线,这使得“紧凑”的STEE编码器所节省的参数优势在端到端系统中可能被前端的计算成本抵消,削弱了其实用吸引力。 🔗 开源详情 代码:论文中明确提供了GitHub代码仓库链接:https://github.com/alaaNfissi/LFST-for-SER。 模型权重:论文中未提及公开的模型权重。 数据集:NSPL-CRISE为私有数据集(经IRB批准使用),论文中未提及公开获取方式。IEMOCAP和EMO-DB为公开数据集,论文中提供了引用。 Demo:论文中未提及在线演示。 复现材料:论文提供了详尽的超参数设置(Table 8)、训练细节(Section 4.2)、算法伪代码(Algorithm 1-3)和技术附录,为复现提供了充分信息。 论文中引用的开源项目:论文未明确提及依赖的外部开源工具或模型(除作为基线对比的方法外)。 📌 核心摘要 要解决什么问题:传统语音情感识别(SER)的前端(如STFT、小波变换)存在固定的时间-频率(TF)分辨率权衡,且参数需人工调优,无法自适应任务需求。已有超小波变换(Superlet)局限于整数阶,存在阶跃伪影。 方法核心:提出可学习分数阶超小波变换(LFST)作为全可微的前端。LFST通过学习每个频带上的分数阶阶数(通过对数域几何平均实现)、单调对数频率网格和频率依赖的基频周期,生成TF幅度图S和相位一致性图κ。结合一个可学习非对称硬阈值(LAHT)模块对S去噪。之后,设计了紧凑的频谱时序情感编码器(STEE),利用深度可分离卷积、混合TF块、自适应FiLM门控和轴向自注意力处理S和κ,输出情感分类。 新在哪里:相比固定前端或先前非可学习的超小波,LFST首次将超小波的阶数、频率网格和周期全部设为可学习参数,并进行了端到端训练。同时,引入了物理意义明确的相位一致性κ通道和LAHT去噪模块,形成了一个理论完备、可数据驱动的TF表示学习框架。 主要实验结果:在IEMOCAP(4类)上,准确率87.5%,F1值86.8%;在EMO-DB(7类)上,准确率91.4%,F1值90.4%;在NSPL-CRISE(5类,电话语音)上,准确率76.9%,F1值76.6%。在与相同STEE编码器下的STFT、小波、固定超小波、LEAF前端对比中,LFST在三个数据集上均取得最佳性能。关键消融显示,在NSPL-CRISE上,移除κ导致F1下降9.7个百分点,移除LAHT下降2.5个百分点。 实际意义:为语音及音频分析提供了一种可学习、可解释、数学基础扎实的TF表示学习前端,可替代传统固定设计,并可能应用于其他需要精细时频分析的场景。 主要局限性:系统计算成本较高,LFST前端的FLOPs和内存占用远高于STFT等轻量级前端,限制了部署。此外,研究未在更大规模、更多语言的数据集上验证,也未与强大的预训练SSL模型进行直接性能对比。 🏗️ 模型架构 整个系统(LFST+STEE)处理流程为:原始波形 → LFST前端 → 两通道TF图(幅度S, 相位一致性κ) → STEE编码器 → 情感类别。所有组件端到端可训练。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 402 words

RoboOmni: Proactive Robot Manipulation in Omni-modal Context

📄 RoboOmni: Proactive Robot Manipulation in Omni-modal Context #机器人操作 #多模态模型 #端到端 #数据集 #语音对话系统 ✅ 7.5/10 | 前25% | #机器人操作 | #端到端 | #多模态模型 #数据集 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Siyin Wang(复旦大学、上海创新研究院) 通讯作者:Jinlan Fu(未说明具体机构,对应邮箱jinlanjonna@gmail.com),Xipeng Qiu(复旦大学、上海创新研究院) 作者列表: Siyin Wang(复旦大学、上海创新研究院) Jinlan Fu(国家大学新加坡) Feihong Liu(复旦大学) Xinzhe He(复旦大学) Huangxuan Wu(复旦大学) Junhao Shi(复旦大学、上海创新研究院) Kexin Huang(复旦大学) Zhaoye Fei(复旦大学) Jingjing Gong(上海创新研究院) Zuxuan Wu(复旦大学、上海创新研究院) Yu-Gang Jiang(复旦大学) See-Kiong Ng(国家大学新加坡) Tat-Seng Chua(国家大学新加坡) Xipeng Qiu(复旦大学、上海创新研究院) 💡 毒舌点评 这篇论文的亮点在于其极具前瞻性的选题——让机器人从多模态对话和环境音中“听出”意图并主动询问,而非被动接受指令,这比单纯提升操作成功率更有意义。然而,其真实世界评估仅在单一机器人平台(WidowX 250S)上进行,且失败分析显示执行错误(如抓取失败)占比过半,凸显了当前端到端模型在感知推理与底层控制能力之间的巨大鸿沟,离“家庭管家”的理想距离尚远。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 340 words

STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models

📄 STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models #语音对话系统 #流式处理 #自回归模型 #语音大模型 #端到端 🔥 8.5/10 | 前25% | #语音对话系统 | #流式处理 | #自回归模型 #语音大模型 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Cheng-Han Chiang(National Taiwan University, Microsoft GenAI) 通讯作者:Xiaofei Wang(Microsoft) 作者列表:Cheng-Han Chiang(National Taiwan University, Microsoft), Xiaofei Wang(Microsoft), Linjie Li(Microsoft), Chung-Ching Lin(Microsoft), Kevin Lin(Microsoft), Shujie Liu(Microsoft), Zhendong Wang(Microsoft), Zhengyuan Yang(Microsoft), Hung-yi Lee(National Taiwan University), Lijuan Wang(Microsoft) 💡 毒舌点评 亮点在于将人类“边想边说”的模式形式化为一个可计算的交错生成框架,并在几乎不增加首包延迟的前提下显著提升了数学推理任务的准确率,堪称“偷时间”的艺术。短板在于对生成的“思考链”本身的质量和可靠性缺乏更深入的分析,且实验场景集中于英文数学题,对更复杂对话场景的泛化能力有待验证。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 241 words

TINY BUT MIGHTY: A SOFTWARE-HARDWARE CO- DESIGN APPROACH FOR EFFICIENT MULTIMODAL IN- FERENCE ON BATTERY-POWERED SMALL DEVICES

📄 TINY BUT MIGHTY: A SOFTWARE-HARDWARE CO- DESIGN APPROACH FOR EFFICIENT MULTIMODAL IN- FERENCE ON BATTERY-POWERED SMALL DEVICES #多模态模型 #大语言模型 #端到端 #实时处理 #系统优化 ✅ 7.0/10 | 前25% | #多模态模型 | #预训练 | #大语言模型 #端到端 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yilong Li(University of Wisconsin – Madison) 通讯作者:未明确说明(论文未标注通讯作者信息) 作者列表:Yilong Li (1), Shuai Zhang (2), Yijing Zeng (1), Chengpo Yan (1), Hao Zhang (1), Xinmiao Xiong (1), Jingyu Liu (1), Pan Hu (3), Suman Banerjee (1)。机构:(1) University of Wisconsin – Madison, (2) Amazon Web Services AI, USA, (3) Uber, USA。 💡 毒舌点评 这篇论文最硬核的地方在于作者真的自己画了PCB、焊了板子、写了底层驱动来验证他们的想法,这种“手工打造端到端系统”的匠心在AI论文里相当少见。但遗憾的是,其核心的“模型分解与动态调度”思想在边缘计算领域已有先例,且论文对模型量化后在特定下游任务上的精度损失分析不够细致,更像是一个优化效果显著的“系统集成报告”。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 227 words

Towards True Speech-to-Speech Models Without Text Guidance

📄 Towards True Speech-to-Speech Models Without Text Guidance #语音对话系统 #端到端 #大语言模型 #预训练 #流式处理 ✅ 7.5/10 | 前25% | #语音对话系统 | #端到端 | #大语言模型 #预训练 学术质量 7.0/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Xingjoint Zhao(复旦大学) 通讯作者:Xipeng Qiu(复旦大学) 作者列表:Xingjoint Zhao¹³(1.复旦大学,2.上海创新研究院,3.MOSI.AI),Zhe Xu¹²³,Luozhijie Jin¹²³,Yang Wang¹³,Hanfu Chen¹³,Yaozhou Jiang¹³,Ke Chen¹²³,Ruixiao Li¹²³,Mingshu Chen¹³,Ruiming Wang¹³,Wenbo Zhang¹²³,Qinyuan Cheng¹³,Zhaoye Fei¹³,Shimin Li³,Xipeng Qiu¹²³† 💡 毒舌点评 亮点:论文直击当前语音对话模型“伪端到端”(依赖文本指导)的痛点,提出的模态分层架构和冻结预训练策略,为在LLM中集成原生语音能力并保留文本智能提供了一个有原理性支撑且实验有效的解决方案。短板:尽管自称为“真”语音到语音模型,但其语音理解与生成的底层仍严重依赖于强大的文本LLM骨干和高质量的文本-语音配对数据,其“无文本指导”更多体现在生成阶段,训练阶段对文本的依赖并未摆脱;此外,对于更复杂的、富含副语言信息的开放式对话场景,模型的表现力有待进一步验证。 📌 核心摘要 本文旨在解决现有语音对话系统依赖文本中间环节导致的延迟增加、副语言信息丢失和表达力受限的问题。核心方法是构建一个真正的、无需文本指导的语音到语音大语言模型,其技术核心是模态分层架构(在Transformer顶层为文本和语音设置独立分支)与冻结预训练策略(第一阶段冻结预训练文本LLM,仅训练语音相关模块;第二阶段再联合微调)。与已有方法相比,其创新在于明确观察并利用了跨模态表示在模型深度上的演变规律(先融合后分化),并设计了对应的架构进行适配,同时通过冻结策略有效防止了文本能力的灾难性遗忘。主要实验结果表明:1)在口语问答任务上(如LlamaQA),模型的语音到语音(S→S)性能(63.67%)达到了与文本指导系统(GLM-4-Voice*:65.67%)可比的水平,并在WebQA上(36.71%)超越了后者(38.34%),在部分任务上取得SOTA;2)模型在文本能力基准(MMLU: 67.19, CMMLU: 69.53)上相比引入语音前的文本LLM(Qwen3-8B: MMLU 76.6, CMMLU 77.35)的下降幅度远小于SpiritLM等模型;3)语音编码器/解码器在WER、SIM等指标上具备竞争力。该工作为构建高效、富有表现力的端到端语音交互系统建立了新的范式。主要局限性在于训练依赖大规模、高质量的语音-文本数据(包括合成数据),且模型在复杂对话、长时交互和极端副语言场景下的能力尚未充分评估。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 393 words

TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization

📄 TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization #多模态模型 #音视频 #自注意力 #端到端 #基准测试 🔥 8.5/10 | 前25% | #视频摘要 | #多模态模型 | #音视频 #自注意力 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Sumin Kim(首尔大学), Hyemin Jeong(首尔大学), Mingu Kang(首尔大学)(表示同等贡献) 通讯作者:Yoori Oh†(首尔大学), Joonseok Lee†(首尔大学)(†表示通讯作者) 作者列表:Sumin Kim(首尔大学), Hyemin Jeong(首尔大学), Mingu Kang(首尔大学), Yejin Kim(首尔大学), Yoori Oh(首尔大学), Joonseok Lee(首尔大学) 💡 毒舌点评 论文提出了一个设计精巧的多模态视频摘要模型TripleSumm,其自适应帧级融合机制和引入的大规模三模态数据集MoSu是扎实的贡献,显著推动了视频摘要领域的多模态研究。然而,其核心创新点(自适应注意力融合)在多模态学习中并非前所未见,且在标准小数据集(SumMe/TVSum)上的绝对性能提升幅度有限,新数据集的“Most Replayed”监督信号本身的普适性也有待更广泛验证。 🔗 开源详情 代码:论文提供了GitHub代码仓库链接:https://github.com/smkim37/TripleSumm。 模型权重:论文中未明确提及是否公开预训练模型权重。 数据集:MoSu数据集已公开,论文提供了获取方式。 Demo:论文中未提及在线演示。 复现材料:论文在附录中提供了非常详细的超参数设置(表I)、摘要生成算法、数据预处理细节、评估协议说明以及各种消融实验的配置,复现信息充分。 论文中引用的开源项目:依赖了预训练模型CLIP、RoBERTa、AST以及用于生成文本描述的Qwen2.5-VL。 📌 核心摘要 要解决什么问题? 现有视频摘要方法通常采用静态或模态无关的融合策略,无法动态捕捉不同视频帧中视觉、文本和音频模态重要性的变化,导致理解复杂视频能力不足。同时,缺乏包含三模态特征的大规模基准数据集也阻碍了该领域的发展。 方法核心是什么? 论文提出了TripleSumm架构,其核心包括:a) 多尺度时间块,采用层次化的滑动窗口自注意力,从局部到全局捕捉视频的时序模式;b) 跨模态融合块,使用一个中性的“融合令牌”作为查询,动态地对三种模态的特征进行加权聚合,实现帧级别的自适应融合。 与已有方法相比新在哪里? 相比于现有模态静态或简单融合的方法,TripleSumm在帧级别动态地学习并分配各模态的权重。此外,论文首次提出了大规模、三模态的视频摘要基准数据集MoSu。 主要实验结果如何? TripleSumm在四个基准测试上均达到了SOTA性能。在提出的MoSu数据集上,其Kendall‘s τ和Spearman’s ρ分别达到0.351和0.472,大幅超越次优方法CFSum(0.277/0.374)。在Mr. HiSum,SumMe(TVT)和TVSum(TVT)数据集上,其全模型版本也均取得最优或并列最优的相关性指标。消融实验证实了三模态输入、层次化窗口和自适应融合机制的有效性。 实际意义是什么? 该工作推动了视频摘要向更符合人类多模态感知的方向发展,提出的MoSu数据集和TripleSumm模型为未来研究提供了可靠的基础和强大的基线,有助于从海量视频中高效提取关键信息。 主要局限性是什么? 论文指出,当前遵循的“帧重要性评分-分割-选择”流程并非端到端可训练,未来可探索直接学习选择连贯摘要片段的端到端模型。此外,数据集的监督信号基于聚合的“Most Replayed”数据,可能无法完全反映个体或多样化的用户需求。 🏗️ 模型架构 TripleSumm是一个用于视频摘要的端到端多模态模型,其整体架构如图2所示。其设计核心是将时序建模与跨模态融合解耦,并逐层进行“精炼-融合”的迭代处理。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 332 words

UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice

📄 UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice #语音翻译 #大语言模型 #语音合成 #端到端 #多语言 🔥 8.0/10 | 前25% | #语音翻译 | #大语言模型 | #语音合成 #端到端 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Sitong Cheng(香港科技大学) 通讯作者:Yike Guo(香港科技大学),Wei Xue(香港科技大学) 作者列表:Sitong Cheng(香港科技大学)、Weizhen Bian(香港科技大学)、Xinsheng Wang(Soul AI Lab)、Ruibin Yuan(香港科技大学)、Jianyi Chen(香港科技大学)、Shunshun Yin(Soul AI Lab)、Yike Guo(香港科技大学)、Wei Xue(香港科技大学) 💡 毒舌点评 该论文的亮点在于其“大道至简”的哲学,用一个基于标准LLM的单阶段模型同时解决了翻译、声音和情感保持的复杂问题,性能数据非常亮眼。然而,其核心竞争力部分建立在自建的、通过TTS合成的超大规模数据集UniST之上,这使得结果的说服力打了些折扣——毕竟,如果给其他SOTA模型同样规模的定制数据,结果差距可能会缩小。此外,其多标记符的复杂分词策略在工程实现和通用性上是否是最优解,也值得商榷。 🔗 开源详情 代码:论文中未提及代码仓库链接。仅提供了演示网站。 模型权重:基于Qwen2.5-1.5B-Instruct,论文未明确说明是否提供训练后的UniSS模型权重下载。但演示网站可能托管了模型。 数据集:UniST数据集已构建,论文提到“公开”(release),但未提供具体的获取方式链接。数据构建流程和数据源已详细说明。 Demo:提供了在线演示网站:https://cmots.github.io/uniss-demo/ 复现材料:在附录B.1中提供了极其详细的训练配置(阶段、数据、学习率、批次大小等),在附录C和E中提供了评估指标和数据构建细节。复现信息相当充分,主要缺省是官方代码仓库。 论文中引用的开源项目:Qwen2.5-1.5B-Instruct (LLM骨干), BiCodec (语音分词/解码器), GLM-4 (语音分词器), Paraformer (数据清洗ASR), SparkTTS (合成TTS), Whisper (评估ASR), vLLM (推理加速), Megatron-LM (训练框架), webMUSHRA (主观评估) 等。 📌 核心摘要 这篇论文要解决的是表达式语音到语音翻译(S2ST)中的三大挑战:保留说话人声音和情感的配对数据稀缺、处理流程复杂、以及难以迁移文本LLM的翻译能力。方法核心是提出一个名为UniSS的单阶段、统一的文本-语音语言模型,它基于预训练的Qwen2.5-1.5B-Instruct构建,使用三种语音标记(说话人标记、语言标记、语义标记)来分别编码风格、内容和生成目标。其关键创新是引入了跨模态思维链(CoT)提示,在推理时将复杂的S2ST任务分解为“听、译、说”三个顺序步骤,从而显式地利用LLM强大的文本翻译能力来指导语音生成。为了训练该模型,论文还构建了一个大规模、高质量的合成数据集UniST(44.8k小时)。实验结果(主要见表1)表明,在CVSS-T数据集上,UniSS(质量模式)在翻译保真度(Speech-BLEU: EN-ZH 32.20, ZH-EN 24.28)、时长一致性(SLC 0.2: 0.98/0.87)和语音质量(UTMOS: 3.76/3.86)上均显著优于现有的端到端和级联系统。主观评估(表2)也证实其在情感相似度(MOS 4.51)和说话人相似度(4.42)上的优势。该工作的实际意义在于提供了一种更简洁、有效的下一代表达式S2ST系统构建范式。主要局限性是目前仅支持中英双语,且其分词器来自不同模型,导致词表膨胀。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 306 words

A cross-species neural foundation model for end-to-end speech decoding

📄 A cross-species neural foundation model for end-to-end speech decoding #语音识别 #脑机接口 #预训练 #端到端 #跨模态 🔥 8.0/10 | 前25% | #语音识别 | #预训练 | #脑机接口 #端到端 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yizi Zhang(哥伦比亚大学),Linyang He(哥伦比亚大学) (*共同第一作者) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表:Yizi Zhang(哥伦比亚大学),Linyang He(哥伦比亚大学),Chaofei Fan(斯坦福大学),Tingkai Liu(微软),Han Yu(哥伦比亚大学),Trung Le(华盛顿大学),Jingyuan Li(亚马逊),Scott Linderman(斯坦福大学),Lea Duncker(哥伦比亚大学),Francis R Willett(斯坦福大学),Nima Mesgarani(哥伦比亚大学),Liam Paninski(哥伦比亚大学) 💡 毒舌点评 这篇论文的核心亮点是首次将跨物种、跨任务的自监督预训练成功应用于神经语音解码,并在竞赛基准上取得了双料第一,展示了在低数据场景(想象语音)下的强大迁移能力。然而,其短板在于端到端解码的实时性严重受限(单句需0.95秒),且推理依赖大型LLM,离真正的“实时、可穿戴、可部署”的临床应用还有很长的路要走,更像是一个概念验证的“实验室最优解”。 🔗 开源详情 代码:论文中未提及代码链接。未说明是否会开源。 模型权重:未提及公开模型权重。 数据集:明确使用了多个公开数据集(Brain-to-Text Benchmark ‘24/‘25, Kunz et al. 2025,以及多个猴/人运动神经数据集),并提供了数据获取渠道(DRYAD, DANDI, Zenodo)。 Demo:未提及在线演示。 复现材料:非常充分。论文附录(从A到R)详细描述了数据集详情、预处理、模型架构(所有超参数)、训练细节(优化器、硬件、时间)、评估指标、级联/端到端解码器细节、集成方法、消融实验设置、可解释性分析方法等。这是本文的一大优点。 论文中引用的开源项目:Ray Tune (Liaw et al., 2018) 用于超参数搜索;DeepSpeed ZeRO-3 用于大模型训练;AdamW 优化器;scikit-learn 用于LDA分析。 📌 核心摘要 问题:现有语音脑机接口(BCI)多采用级联框架(先解码音素,再用语言模型组句),导致各阶段无法联合优化,性能受限。端到端方法此前性能不佳。 方法核心:提出端到端脑-文本框架(BIT)。其核心是一个在人类和猴子多任务(语音、运动)Utah阵列数据上进行跨物种自监督预训练的Transformer神经编码器。该编码器与一个音频大语言模型(Audio-LLM) 解码器端到端连接,并使用对比学习对齐神经与文本嵌入空间。 创新:首次在神经解码中实现跨物种预训练;首次将神经信号作为“音频”模态输入Audio-LLM;使用对比学习进行模态对齐,提升跨任务(尝试/想象语音)泛化能力。 主要结果: 在级联设置下,使用预训练编码器在Brain-to-Text ‘24和'25竞赛中取得最佳性能(WER:6.35% / 4.06%)。 在端到端设置下,将字错率(WER)从先前最佳的24.69%大幅降低至10.22%(集成后)。 在低资源的想象语音任务上,预训练带来巨大性能提升(WER降低39-45%),且跨物种预训练优于同任务监督预训练。 方法 基准 类型 WER Feng et al. (2024) Brain-to-Text ‘24 端到端 24.69% BIT End-to-End Brain-to-Text ‘24 端到端 15.67% BIT End-to-End + Ensemble Brain-to-Text ‘24 端到端 10.22% BIT Cascaded Brain-to-Text ‘24 级联 6.35% BIT Cascaded + Ensemble Brain-to-Text ‘24 级联 5.10% Feghhi et al. (2025) + Ensemble Brain-to-Text ‘24 级联 5.68% 图2展示了预训练(BIT-Human, BIT-All)相比从头训练(BIT-TFS)和RNN基线在两种任务和两种解码框架下的显著优势,尤其在想象语音任务上提升巨大。 ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 412 words