Posts

Joint Autoregressive Modeling of Multi-Talker Overlapped Speech Recognition and Translation

📄 Joint Autoregressive Modeling of Multi-Talker Overlapped Speech Recognition and Translation #语音识别 #语音翻译 #自回归模型 #多任务学习 #端到端 ✅ 7.0/10 | 前25% | #语音识别 #语音翻译 | #自回归模型 #多任务学习 | #语音识别 #语音翻译学术质量 0.7/7 | 选题价值 0.75/2 | 复现加成 0.3 | 置信度中 👥 作者与机构第一作者：Tomohiro Tanaka（NTT, Inc., Human Informatics Laboratories）通讯作者：未说明作者列表：Tomohiro Tanaka（NTT, Inc., Human Informatics Laboratories）、Ryo Masumura（NTT, Inc., Human Informatics Laboratories）、Naoki Makishima（NTT, Inc., Human Informatics Laboratories）、Mana Ihori（NTT, Inc., Human Informatics Laboratories）、Naotaka Kawata（NTT, Inc., Human Informatics Laboratories）、Shota Orihashi（NTT, Inc., Human Informatics Laboratories）、Satoshi Suzuki（NTT, Inc., Human Informatics Laboratories）、Taiga Yamane（NTT, Inc., Human Informatics Laboratories） 💡 毒舌点评这篇论文的核心贡献是清晰且务实的：将多说话人重叠语音的识别（ASR）和翻译（ST）从两个独立的模型合并为一个联合自回归模型，从而解决了输出时说话人数量不匹配和未对齐的痛点。其序列化输出训练（SOT）的扩展应用自然流畅，实验数据也支撑了方法的有效性。然而，论文最大的短板在于实验部分严重依赖通过混合单人语音合成的“多说话人”数据，这与真实世界中包含回声、不同混响、说话人重叠程度变化的会议或对话场景存在显著差距，削弱了其结论在实际应用中的说服力。 ...

Joint Deep Secondary Path Estimation and Adaptive Control for Active Noise Cancellation

📄 Joint Deep Secondary Path Estimation and Adaptive Control for Active Noise Cancellation #语音增强 #端到端 #实时处理 #深度学习 #信号处理 ✅ 7.5/10 | 前25% | #语音增强 | #端到端 | #实时处理 #深度学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Fareedha (National Institute of Technology, Warangal, Telangana, India) 通讯作者：未说明作者列表：Fareedha (National Institute of Technology, Warangal, Telangana, India)、Vasundhara (National Institute of Technology, Warangal, Telangana, India)、Asutosh Kar (Birmingham City University, Birmingham, UK)、Mads Græsbøll Christensen (Aalborg University, Denmark) 💡 毒舌点评论文将深度学习中的估计与控制模块“缝合”得相当流畅，消融实验做得很扎实，有力地证明了注意力机制和双向LSTM在其中的价值。然而，核心创新更多是工程层面的集成优化，而非方法论的革新；且实验场景（主要是飞机噪声）稍显单一，要宣称在“动态环境”下鲁棒，或许还应挑战更多极端的非平稳声学条件。 ...

Joint Estimation of Piano Dynamics and Metrical Structure with a Multi-Task Multi-Scale Network

📄 Joint Estimation of Piano Dynamics and Metrical Structure with a Multi-Task Multi-Scale Network #音乐理解 #多任务学习 #时频分析 #端到端 ✅ 7.5/10 | 前25% | #音乐理解 | #多任务学习 | #时频分析 #端到端学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zhanhong He（The University of Western Australia, Perth, Australia）通讯作者：未说明（根据署名顺序，可能是Defeng (David) Huang或Roberto Togneri，但论文未明确指出）作者列表：Zhanhong He（The University of Western Australia）、Hanyu Meng（The University of New South Wales）、Defeng (David) Huang（The University of Western Australia）、Roberto Togneri（The University of Western Australia） 💡 毒舌点评亮点：将Bark尺度特征与多任务学习框架巧妙结合，把模型参数量从千万级压缩到50万，在保持竞争力的同时大幅提升了实用性，这种“螺蛳壳里做道场”的工程优化思维值得肯定。短板：研究完全局限于肖邦玛祖卡这一特定音乐风格和单一数据集（MazurkaBL），其结论能否泛化到其他乐器、风格乃至更复杂的管弦乐场景，存疑。 ...

Joint Estimation of Primary and Secondary Paths for Personalized Hearable Applications

📄 Joint Estimation of Primary and Secondary Paths for Personalized Hearable Applications #主动降噪 #信号处理 #自适应滤波器 #实时处理 #鲁棒性 ✅ 7.5/10 | 前25% | #主动降噪 | #信号处理 | #自适应滤波器 #实时处理学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：未说明（论文未明确标注）通讯作者：未说明（论文未明确标注）作者列表：Sooyeon Park (Samsung Research, Seoul, South Korea), Kyoungbo Min (Samsung Research, Seoul, South Korea), Seungdo Choi (Samsung Research, Seoul, South Korea), Ikchae Jeong (Samsung Research, Seoul, South Korea), Hosang Sung (Samsung Research, Seoul, South Korea) 💡 毒舌点评亮点：该工作巧妙地将一个通常需要额外激励或离线数据的双路径在线估计问题，转化为一个利用现有自适应滤波器系数变化和音乐播放作为“天然激励”的可识别线性系统，并给出了严格的可解性条件，理论框架非常优雅实用。短板：实验部分“高高举起，轻轻放下”，核心的路径估计精度验证不错，但最终的ANC性能对比（表1）却只和一个“固定滤波器”简单比拼，缺少与文献中其他在线二次路径估计方法的横向对比，削弱了方法优越性的说服力，也暴露了其作为一篇完整研究论文的验证闭环不够完整。 ...

Joint Multichannel Acoustic Feedback Cancellation and Speaker Extraction via Kalman Filter and Deep Non-Linear Spatial Filter

📄 Joint Multichannel Acoustic Feedback Cancellation and Speaker Extraction via Kalman Filter and Deep Non-Linear Spatial Filter #语音增强 #语音分离 #信号处理 #麦克风阵列 #多通道 ✅ 7.0/10 | 前25% | #语音增强 | #信号处理 | #语音分离 #麦克风阵列学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Ze Li（南京大学现代声学研究所 & NJU-Horizon智能音频实验室，地平线机器人；南京大学）通讯作者：未说明作者列表：Ze Li（南京大学现代声学研究所 & NJU-Horizon智能音频实验室，地平线机器人；南京大学），Haocheng Guo（华为技术有限公司），Xiaoyang Ge（南京大学现代声学研究所 & NJU-Horizon智能音频实验室，地平线机器人），Kai Chen（南京大学现代声学研究所 & NJU-Horizon智能音频实验室，地平线机器人），Jing Lu（南京大学现代声学研究所 & NJU-Horizon智能音频实验室，地平线机器人） 💡 毒舌点评亮点：该工作切中了公共广播和助听器系统中“反馈”与“干扰”两大痛点，提出的AFC-SPEX框架在系统设计上逻辑清晰，将经典卡尔曼滤波与深度空间滤波器巧妙结合，并通过教师强制策略有效解决了训练难题。短板：尽管仿真实验对比了众多基线，但结论的说服力止步于“在模拟环境中表现良好”；对于声学反馈这类严重依赖实际硬件与声场交互的问题，缺乏真实录音数据的验证是一个明显的遗憾，限制了其向实际产品转化的说服力。 🔗 开源详情代码：论文中提供了代码仓库链接：https://github.com/ZLiNJU/AFC-SPEX。模型权重：论文中未提及公开预训练模型权重。数据集：训练所用的仿真数据集未公开，但提供了仿真设置细节和使用的公开语音库（WSJ0）。 Demo：论文中未提及在线演示。复现材料：提供了论文中描述的主要超参数（帧长、帧移、分块数等）、仿真设置以及依赖的开源项目（pyroomacoustics）。但缺乏完整的训练脚本、配置文件、训练日志及检查点。论文中引用的开源项目：引用了pyroomacoustics用于房间声学仿真，以及Rank2-MWF的开源实现。 📌 核心摘要这篇论文旨在解决公共广播和助听器等系统中同时存在的声学反馈和干扰噪声问题。核心方法AFC-SPEX将分块频域卡尔曼滤波器（PBFDKF）作为自适应反馈消除模块，其输出的残差信号与原始麦克风信号一起输入到一个深度非线性空间滤波器（DNSF）中，后者通过LSTM网络学习时、频、空特征以估计复数理想比值掩膜，从而提取目标语音。与现有级联方案或单独使用深度网络的方法相比，该工作的主要创新在于联合优化与交互设计：DNSF不仅依赖原始信号，还利用AFC模块的输出作为辅助参考，以联合抑制反馈和干扰；同时，采用了针对闭环问题的教师强制训练策略。实验结果（在模拟的带反馈和干扰的房间声学环境中）表明，所提方法在SI-SDR、PESQ、STOI及最大稳定增益提升（ΔMSG）等多项指标上均优于直接级联、单独DNSF以及一种传统的多通道维纳滤波方法（Rank2-MWF）。例如，在同时存在反馈和干扰的场景（Simulation A）中，AFC-SPEX的SI-SDR达到4.38，优于AFC+DNSF的-1.78和Rank2-MWF的-26.00。该工作的实际意义在于为需要同时处理声学反馈和语音提取的音频系统提供了一种高性能的算法框架。其主要局限性是所有实验均基于仿真，未进行真实世界数据的验证。 ...

K-Function: Joint Pronunciation Transcription and Feedback for Evaluating Kids Language Function

📄 K-Function: Joint Pronunciation Transcription and Feedback for Evaluating Kids Language Function #语音识别 #大语言模型 #领域适应 #端到端 ✅ 7.5/10 | 前25% | #语音识别 | #大语言模型 | #领域适应 #端到端学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Shuhe Li（浙江大学）通讯作者：Jiachen Lian（UC Berkeley）作者列表：Shuhe Li（浙江大学），Chenxu Guo（浙江大学），Jiachen Lian（UC Berkeley），Cheol Jun Cho（UC Berkeley），Wenshuo Zhao（浙江大学），Xiner Xu（浙江大学），Ruiyu Jin（浙江大学），Xiaoyu Shi（Duke University），Xuanru Zhou（浙江大学），Dingkun Zhou（华南理工大学），Sam Wang（UC Berkeley），Grace Wang（UC Berkeley），Jingze Yang（浙江大学），Jingyi Xu（浙江大学），Ruohan Bao（浙江大学），Xingrui Chen（TVT），Elise Brenner（UCSF），Brandon In（UCSF），Francesca Pei（UCSF），Maria Luisa Gorno-Tempini（UCSF），Gopala Anumanchipalli（UC Berkeley） 💡 毒舌点评这篇论文为解决儿童语音识别这一“脏活累活”提供了扎实的技术方案，其K-WFST解码器巧妙融合了语音学先验，解释性强且有效，是传统WFST在特定场景下的成功应用。但其宣称的“联合框架”在实现上略显松散，LLM评分部分更像是一个独立的、调用上游转写结果的下游应用，与核心识别模块的“联合”深度不足，更像是一个串行流水线而非一个紧密耦合的整体系统。 ...

KAN We Make Models Simpler for Audio Deepfake Detection with Kolmogorov–Arnold Networks?

📄 KAN We Make Models Simpler for Audio Deepfake Detection with Kolmogorov–Arnold Networks? #音频深度伪造检测 #自监督学习 #KAN ✅ 7.5/10 | 前25% | #音频深度伪造检测 | #自监督学习 | #KAN 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Hoan My Tran (Univ Rennes, CNRS, IRISA, Lannion, France) 通讯作者：David Guennec (Univ Rennes, CNRS, IRISA, Lannion, France), Aghilas Sini (Univ Le Mans, LIUM, Le Mans, France) 作者列表：Hoan My Tran†, Aghilas Sini∗, David Guennec†, Arnaud Delhay†, Damien Lolive‡, Pierre-François Marteau‡ †: Univ Rennes, CNRS, IRISA, Lannion, France ∗: Univ Le Mans, LIUM, Le Mans, France ‡: Univ Bretagne Sud, CNRS, IRISA, Vannes, France 💡 毒舌点评亮点：这篇论文的核心价值在于其“反常识”的结论——在强大的预训练模型（XLS-R）面前，复杂的下游分类器可能是不必要的，一个简单的全连接层（甚至只有2K参数）就能达到极具竞争力的性能，这为轻量化部署提供了重要思路。短板：虽然论文展示了KAN在平均EER上的优势，但其提升在部分数据集（如FoR）上并不一致，且论文缺乏对“为何KAN能更有效利用高维SSL特征”这一核心机制的深入理论或可视化分析，更像是一次成功的实验观察而非深刻的机理解释。 ...

Keeping Models Listening: Segment- and time-aware attention rescaling at decoding time

📄 Keeping Models Listening: Segment- and time-aware attention rescaling at decoding time #音频问答 #音频分类 #音频大模型 #推理时调整 ✅ 7.5/10 | 前25% | #音频问答 | #推理时调整 | #音频分类 #音频大模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Hangyu Du（新加坡国立大学，设计与工程学院）通讯作者：Jingxing Zhong（福州大学，明智国际工程学院）作者列表：Hangyu Du（新加坡国立大学，设计与工程学院），Jingxing Zhong（福州大学，明智国际工程学院）（论文注明两位作者贡献相等）。 💡 毒舌点评亮点：精准地诊断出ALLMs解码时“听着听着就忘了音频”的顽疾，并用一个免训练、近乎零开销的“解码时注意力微调”插件（AttnAdapter）显著缓解了这个问题，效果立竿见影，实用性很强。短板：方法更像是对症下药的“经验性工程”，虽然能“work”，但对于注意力漂移的根本原因（为何系统令牌会成为sink？为何音频注意力会衰减？）缺乏更深层次的理论或神经机制层面的剖析，略显“知其然而不知其所以然”。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：实验使用公开的MMAU-mini和AIR-Bench数据集，但论文中未提及数据集获取方式或自有数据。 Demo：未提及。复现材料：提供了Algorithm 1伪代码和完整的超参数设置，足以复现核心方法。但缺乏具体代码实现和运行脚本。引用的开源项目：论文未提及直接依赖的开源项目代码。 📌 核心摘要要解决什么问题：本文发现并研究了音频大语言模型（ALLMs）在自回归解码过程中普遍存在的“注意力路由退化”现象。随着解码进行，模型对音频输入（Audio Tokens）的注意力会系统性衰减，转而过度依赖语言先验和早期生成的“汇聚”令牌，导致回答偏离输入音频，产生幻觉。方法核心是什么：提出AttnAdapter，一个训练无关、可插拔的模块。它在解码的每一步，对注意力计算中的原始对数几率（logits）进行分段、时间感知的乘性重缩放。具体包含三个组件：(1) 系统令牌汇聚抑制，(2) 音频关键点时序增强，(3) 局部输出窗口稳定。与已有方法相比新在哪里：与现有方法（如EAH、MemVR）相比，AttnAdapter的特点是：完全在解码时操作，无需训练或修改模型架构；设计上明确针对音频模态的序列性、密集性特点，提出时间感知的增强策略；并且组合了多种干预（抑制、增强、稳定）以协同工作。主要实验结果如何：在MMAU-mini和AIR-Bench两个基准上，AttnAdapter为LLaMa-Omni、Qwen-Omni和Audio Flamingo 3三个模型带来了稳定的性能提升。在LLaMa-Omni上，MMAU-mini平均准确率从0.71提升至0.85（+14%），AIR-Bench平均准确率从0.69提升至0.82（+13%）。在Qwen-Omni上，MMAU-mini平均准确率从0.73提升至0.87（+14%），AIR-Bench平均准确率从0.71提升至0.84（+13%）。在Audio Flamingo 3上，MMAU-mini平均准确率从0.73提升至0.87（+14%），AIR-Bench平均准确率从0.70提升至0.83（+13%）。所有方法中，AttnAdapter均取得了最高的分数，尤其在“混合音频”子任务上改进明显。实际意义是什么：提供了一个即插即用、计算开销极低（延迟增加<2%）的解决方案，可以增强现有ALLMs的音频接地能力，使其在长序列对话和推理中能持续“听”音频，减少基于文本先验的幻觉，提升在音频问答、分析等实际应用中的可靠性和准确性。主要局限性是什么：(1) 方法的有效性依赖于经验调优的超参数（σ, η, g, w, β），对于新模型或任务可能需要重新搜索。(2) 论文主要关注准确率提升，对模型生成文本的流畅性、连贯性等质量指标的详细分析不足。(3) 机制解释偏经验性，缺乏对ALLMs内部信息流动的深层理论分析。 🏗️ 模型架构本文提出的AttnAdapter并非一个完整的端到端模型，而是一个推理时的插件模块，旨在修改现有基于解码器的音频大语言模型（ALLMs）在解码阶段的注意力计算过程。 ...

Korean aegyo speech shows systematic F1 increase to signal childlike qualities

📄 Korean aegyo speech shows systematic F1 increase to signal childlike qualities #语音情感识别 #时频分析 #多语言 #韩语 ✅ 6.0/10 | 前50% | #语音情感识别 | #时频分析 | #多语言 #韩语 | arxiv 学术质量 5.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Ji-eun Kim (未说明机构) 通讯作者：Volker Dellwo (未说明机构) 作者列表：Ji-eun Kim (未说明)、Volker Dellwo (未说明) 💡 毒舌点评本文首次系统量化了韩语aegyo（撒娇）语音风格的声学实现模式，填补了特定文化语音风格研究的空白，实验数据扎实，结论清晰。然而，研究仅限于12名首尔说话人的特定脚本，样本量偏小且任务场景单一（朗读），其结论能否泛化至自然对话或其他语用情境，以及aegyo语音在跨文化沟通中的潜在误解，均未得到探讨。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：未提及是否公开及获取方式。 Demo：未提及。复现材料：论文中未提及具体的训练细节、配置或附录说明。仅描述了实验设计（12说话人、脚本朗读、共振峰分析）。论文中引用的开源项目：论文中未提及依赖的开源工具或模型。 📌 核心摘要要解决什么问题：该论文旨在从声学角度分析和解释韩语aegyo（一种用于浪漫互动的儿童化说话风格）的语音特征，探究成人如何通过调整语音来模拟儿童化特质。方法核心是什么：通过对12名首尔韩语说话人在aegyo和非aegyo（正常）两种风格下朗读相同脚本的语音进行声学分析，重点测量了所有元音的第一共振峰（F1）和第二共振峰（F2）频率，从而量化元音空间的修饰模式。与已有方法相比新在哪里：以往研究多从社会语言学或感知层面探讨aegyo，本研究则提供了首个系统的、基于共振峰频率的定量声学证据，具体揭示了aegyo语音中元音空间变化的核心特征是全局性的F1升高，而非整体平移或简单的元音空间压缩。主要实验结果如何：研究发现，与正常语音相比，aegyo语音在所有测试元音上均表现出显著的F1值升高（平均增幅未提供具体数值，但统计显著）。F2的变化则显示出选择性前移，即前元音的F2值有所增加。这导致整体元音空间在垂直方向（F1轴）上显著扩展和下移，而水平方向（F2轴）变化不一。主要证据是统计检验结果，论文未提供详细数值表格。 F1变化：所有元音F1显著增加（p值未提供，但描述为显著）。 F2变化：前元音F2选择性前移（增加），后元音变化未强调。元音空间：整体呈现F1主导的“降低和扩展”模式。实际意义是什么：该研究为理解特定文化语境下的语音风格化策略提供了声学基础，其发现（通过提高F1模拟较短声道）可为跨语言的情感语音合成、语音转换以及非言语社交信号识别（如机器人、虚拟角色的儿童化表达）提供设计参考。主要局限性是什么：样本量较小（12人），且实验材料为朗读脚本，可能无法完全反映自然对话中的aegyo使用；研究仅分析了静态的元音特征，未探讨韵律（如语速、音高、节奏）在aegyo中的作用；也未探讨这种声学模式带来的感知效果（如听者是否真的觉得说话者更可爱、更幼稚）。 🏗️ 模型架构本文为实验性研究，不涉及生成或判别模型的架构设计。其分析框架为：提取说话人分别在两种风格下朗读相同文本的语音 -> 进行元音标注 -> 测量目标元音的F1和F2频率 -> 对F1/F2值进行统计比较（如使用线性混合效应模型），以量化风格间的系统性差异。 ...

KSDIFF: Keyframe-Augmented Speech-Aware Dual-Path Diffusion for Facial Animation

📄 KSDIFF: Keyframe-Augmented Speech-Aware Dual-Path Diffusion for Facial Animation #音频生成 #扩散模型 #跨模态 #关键帧检测 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #跨模态 #关键帧检测学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Tianle Lyu†, Junchuan Zhao†（论文中标注†表示同等贡献）通讯作者：Ye Wang⋆（新加坡国立大学计算学院， wangye@comp.nus.edu.sg）作者列表：Tianle Lyu（新加坡国立大学计算学院）、Junchuan Zhao（新加坡国立大学计算学院）、Ye Wang（新加坡国立大学计算学院） 💡 毒舌点评亮点在于将语音特征显式解耦为表情和头部姿势两个独立路径进行建模，这一设计思路抓住了面部动作驱动的核心差异，实验也证实了其有效性；但短板在于对“关键帧”的选择和建模仍依赖于启发式规则（基于真值帧间变化的阈值），其自回归预测模块的鲁棒性和泛化边界未得到充分探讨。 🔗 开源详情代码：论文提供了项目主页链接（https://kincin.github.io/KSDiff/），但论文中未明确提及代码仓库链接。模型权重：未提及公开的模型权重。数据集：训练所用HDTF和VoxCeleb是公开数据集，但论文未说明其具体预处理后的版本获取方式。 Demo：未提及。复现材料：论文提供了较为详细的训练超参数（学习率、batch size、迭代次数、优化器等）、网络结构参数（维度、层数、头数）和硬件配置（4×RTX A5000，16小时）。但未提供代码、配置文件或检查点。论文中引用的开源项目：明确引用了Wav2Vec（语音特征提取）、DECA（3D面部模型）、Whisper（文本转录）、DiffSpeaker（生成框架基础）、MR-STFT损失等开源工作或工具。 📌 核心摘要问题：现有音频驱动面部动画方法通常将语音特征视为一个整体，忽略了其对表情（高频变化）和头部姿势（低频变化）的差异化驱动作用，同时未能有效建模运动中的关键动态帧。方法：提出KSDiff框架，核心包括：(1) 双路径语音编码器（DPSE），利用多尺度扩张卷积和Prosody信息，将语音特征解耦为表情相关和头部姿势相关两个分支；(2) 关键帧建立学习（KEL）模块，通过自回归Transformer预测运动最剧烈的帧；(3) 基于DiffSpeaker的双路径扩散生成器，分别合成表情和头部姿势系数。创新：主要创新在于明确提出并实现了语音特征的“解耦”处理，以及引入了数据驱动的、具有物理意义的关键帧预测模块，将两者协同融入扩散生成流程。实验：在HDTF和VoxCeleb数据集上，KSDiff在多项指标上优于或媲美SOTA方法。例如，在HDTF测试集上，其LVE（唇部顶点误差）降至4.835×10⁻⁵ mm，LSE-C（同步置信度）提升至0.708，头部姿势Diversity（多样性）达0.318，Beat Align（节奏对齐）达0.354（表1）。消融研究（表3）证明，移除语音特征分离、双路径扩散、关键帧或韵律模块均会导致性能下降。意义：该工作推动了音频驱动面部动画向更精细化、物理一致性的方向发展，为虚拟人生成提供了更逼真的运动控制方案。局限性：关键帧提取依赖于真值运动序列的后处理，其在线预测性能上限受限；对极端或非常规的面部表情与头部运动组合的生成能力未做深入探讨。 🏗️ 模型架构 KSDiff的整体架构如图2所示。系统接收原始音频 a1:N 和转录文本 x1:L 作为输入。 ...