端到端 | 语音/音乐/音频论文速递

Joint Deep Secondary Path Estimation and Adaptive Control for Active Noise Cancellation

📄 Joint Deep Secondary Path Estimation and Adaptive Control for Active Noise Cancellation #语音增强 #端到端 #实时处理 #深度学习 #信号处理 ✅ 7.5/10 | 前25% | #语音增强 | #端到端 | #实时处理 #深度学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Fareedha (National Institute of Technology, Warangal, Telangana, India) 通讯作者：未说明作者列表：Fareedha (National Institute of Technology, Warangal, Telangana, India)、Vasundhara (National Institute of Technology, Warangal, Telangana, India)、Asutosh Kar (Birmingham City University, Birmingham, UK)、Mads Græsbøll Christensen (Aalborg University, Denmark) 💡 毒舌点评论文将深度学习中的估计与控制模块“缝合”得相当流畅，消融实验做得很扎实，有力地证明了注意力机制和双向LSTM在其中的价值。然而，核心创新更多是工程层面的集成优化，而非方法论的革新；且实验场景（主要是飞机噪声）稍显单一，要宣称在“动态环境”下鲁棒，或许还应挑战更多极端的非平稳声学条件。 ...

Joint Estimation of Piano Dynamics and Metrical Structure with a Multi-Task Multi-Scale Network

📄 Joint Estimation of Piano Dynamics and Metrical Structure with a Multi-Task Multi-Scale Network #音乐理解 #多任务学习 #时频分析 #端到端 ✅ 7.5/10 | 前25% | #音乐理解 | #多任务学习 | #时频分析 #端到端学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zhanhong He（The University of Western Australia, Perth, Australia）通讯作者：未说明（根据署名顺序，可能是Defeng (David) Huang或Roberto Togneri，但论文未明确指出）作者列表：Zhanhong He（The University of Western Australia）、Hanyu Meng（The University of New South Wales）、Defeng (David) Huang（The University of Western Australia）、Roberto Togneri（The University of Western Australia） 💡 毒舌点评亮点：将Bark尺度特征与多任务学习框架巧妙结合，把模型参数量从千万级压缩到50万，在保持竞争力的同时大幅提升了实用性，这种“螺蛳壳里做道场”的工程优化思维值得肯定。短板：研究完全局限于肖邦玛祖卡这一特定音乐风格和单一数据集（MazurkaBL），其结论能否泛化到其他乐器、风格乃至更复杂的管弦乐场景，存疑。 ...

K-Function: Joint Pronunciation Transcription and Feedback for Evaluating Kids Language Function

📄 K-Function: Joint Pronunciation Transcription and Feedback for Evaluating Kids Language Function #语音识别 #大语言模型 #领域适应 #端到端 ✅ 7.5/10 | 前25% | #语音识别 | #大语言模型 | #领域适应 #端到端学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Shuhe Li（浙江大学）通讯作者：Jiachen Lian（UC Berkeley）作者列表：Shuhe Li（浙江大学），Chenxu Guo（浙江大学），Jiachen Lian（UC Berkeley），Cheol Jun Cho（UC Berkeley），Wenshuo Zhao（浙江大学），Xiner Xu（浙江大学），Ruiyu Jin（浙江大学），Xiaoyu Shi（Duke University），Xuanru Zhou（浙江大学），Dingkun Zhou（华南理工大学），Sam Wang（UC Berkeley），Grace Wang（UC Berkeley），Jingze Yang（浙江大学），Jingyi Xu（浙江大学），Ruohan Bao（浙江大学），Xingrui Chen（TVT），Elise Brenner（UCSF），Brandon In（UCSF），Francesca Pei（UCSF），Maria Luisa Gorno-Tempini（UCSF），Gopala Anumanchipalli（UC Berkeley） 💡 毒舌点评这篇论文为解决儿童语音识别这一“脏活累活”提供了扎实的技术方案，其K-WFST解码器巧妙融合了语音学先验，解释性强且有效，是传统WFST在特定场景下的成功应用。但其宣称的“联合框架”在实现上略显松散，LLM评分部分更像是一个独立的、调用上游转写结果的下游应用，与核心识别模块的“联合”深度不足，更像是一个串行流水线而非一个紧密耦合的整体系统。 ...

Language-Infused Retrieval-Augmented CTC with Adaptive Soft-Hard Gating for Robust Code-Switching ASR

📄 Language-Infused Retrieval-Augmented CTC with Adaptive Soft-Hard Gating for Robust Code-Switching ASR #语音识别 #检索增强 #端到端 #零样本 #多语言 🔥 8.0/10 | 前25% | #语音识别 | #检索增强 | #端到端 #零样本学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度高 👥 作者与机构第一作者：Zhichao Liang（香港中文大学（深圳）数据科学学院）通讯作者：Satoshi Nakamura*（香港中文大学（深圳）数据科学学院与人工智能学院）作者列表：Zhichao Liang（香港中文大学（深圳）数据科学学院）、Satoshi Nakamura（香港中文大学（深圳）数据科学学院与人工智能学院） 💡 毒舌点评该工作巧妙地将语言后验信息“注入”kNN检索的查询空间，使检索过程本身具有语言意识，这是一个非常直观且有效的改进点。然而，实验仅局限于中英代码切换场景，且与更强或更新的基线（如基于大模型的零样本方法）对比不足，削弱了结论的普适性和说服力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：使用的是公开的ASCEND数据集，但未提供获取方式链接（论文中引用了原始数据集论文）。 Demo：未提供在线演示。复现材料：提供了部分实现细节（如使用WeNet和FAISS，关键超参数值），但不足以保证完整复现。论文中引用的开源项目：WeNet [22]， FAISS [24]， Conformer [23]（作为基线模型）， Whisper [16]（在引言中提及）。 📌 核心摘要解决的问题：针对代码切换自动语音识别中语言边界模糊和跨语言声学干扰的挑战，特别是现有门控检索增强CTC模型（如双单语数据存储）存在的边界决策不稳定和语言意识不足的问题。方法核心：提出LIRA-CTC框架，通过将帧级语言后验概率与编码器特征拼接，形成“语言信息注入”的检索查询，使检索空间与语言身份对齐；并设计自适应软硬门控策略，在数据存储距离差大时硬选择，在距离差小时软插值。与已有方法的创新：不同于先前仅使用编码器特征进行检索或在解码器端使用语言信息的方法，该工作将语言后验直接融入检索的“键/查询”构造中，并引入了平滑过渡的软硬混合门控机制。主要实验结果：在ASCEND中文-英文数据集上的实验表明，LIRA-CTC相较于基线Conformer、kNN-CTC和门控kNN-CTC，在官方测试集（TEST）和混合训练集（SMIX）上均取得了更低的混合错误率（MER）。关键数据见下表：方法 TEST MER (%) SMIX MER (%) RTF CTC 26.10 28.77 0.0139 kNN-CTC 25.49 27.24 0.0145 Gated kNN-CTC 24.97 26.33 0.0152 LIRA-CTC 23.60 24.98 0.0155 实际意义：为零样本代码切换ASR提供了一种有效且计算开销增加有限的新框架，通过增强检索过程的语言感知能力和决策稳定性，提升了模型对混合语言语音的识别鲁棒性。主要局限性：实验仅验证于中英代码切换场景，其有效性是否能扩展至其他语言对或更复杂的多语言场景有待证明；与当前前沿的零样本ASR方法（如基于大型预训练模型的方法）对比不足。 🏗️ 模型架构整体架构基于预训练的CTC ASR模型（Conformer编码器+Transformer解码器），核心扩展在于检索增强解码部分。 ...

Lattice-Guided Consistency Regularization of Dual-Mode Transducers for Automatic Speech Recognition

📄 Lattice-Guided Consistency Regularization of Dual-Mode Transducers for Automatic Speech Recognition #语音识别 #自回归模型 #一致性正则化 #端到端 #语码转换 🔥 8.0/10 | 前25% | #语音识别 | #一致性正则化 | #自回归模型 #端到端学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Wen Ding（NVIDIA Corporation）通讯作者：未说明（论文中未明确指定）作者列表：Wen Ding（NVIDIA Corporation）、Hainan Xu（NVIDIA Corporation）、Jagadeesh Balam（NVIDIA Corporation）、Junjie Lai（NVIDIA Corporation） 💡 毒舌点评亮点：方法设计巧妙，将一致性正则化与语音格（lattice）的后验概率权重相结合，使得训练能聚焦于关键的对齐位置，避免了对无关位置的无效正则化，这比朴素的随机掩码（如HAINAN）更精巧。短板：尽管在语码切换（SEAME）数据集上验证了方法的有效性，但实验主要基于中文和英中切换场景，对于其他语言或更复杂的语音条件（如嘈杂、多说话人）下的泛化能力，论文未提供证据。 🔗 开源详情代码：论文中提到“将把我们的实现在NeMo中开源发布”，但论文中未提供具体代码仓库链接。模型权重：未提及是否公开预训练模型权重。数据集：使用公开数据集AISHELL-1和SEAME，但未提及是否提供经过处理的数据集或相关脚本。 Demo：未提及。复现材料：论文提供了较为详细的模型架构、训练数据、损失函数、优化器、学习率策略、关键超参数（模型大小、词表、TDT参数等）以及推理设置（贪心解码、SAR），复现信息较为充分。论文中引用的开源项目：引用了NeMo作为工具包和即将开源的平台。 📌 核心摘要这篇论文旨在解决双模式（自回归AR与非自回归NAR）语音识别模型中，NAR推理模式通常性能落后于AR模式的问题。方法核心是在Token-and-Duration Transducer (TDT)模型的基础上，提出一种名为Lattice-guided Consistency Regularization (LCR)的训练框架。该框架的损失函数由三部分组成：标准的AR TDT损失、NAR TDT损失（预测器输入被掩码），以及一个一致性正则化损失。新意在于，该一致性损失（L2距离或KL散度）用于最小化AR与NAR预测分布之间的差异，但其权重由格（lattice）后验概率加权，从而聚焦于模型认为最可能发生的语音-文本对齐路径。实验结果显示，在AISHELL-1单语普通话任务上，LCR-T模型在AR模式下相比HAINAN基线获得了6.42%的相对CER降低；在SEAME英中语码切换任务上，获得了7.76%和7.09%的相对MER降低。其实际意义在于提供了一个统一、高效的训练框架，使得单个模型在两种推理模式下都能达到顶尖性能，尤其NAR模式也能超越许多传统AR模型。主要局限性是实验场景相对集中（普通话及英中切换），缺乏对更多语言和复杂声学条件的验证。 ...

Learning to Align with Unbalanced Optimal Transport in Linguistic Knowledge Transfer for ASR

📄 Learning to Align with Unbalanced Optimal Transport in Linguistic Knowledge Transfer for ASR #语音识别 #迁移学习 #知识蒸馏 #端到端 ✅ 6.5/10 | 前50% | #语音识别 | #迁移学习 | #知识蒸馏 #端到端学术质量 3.4/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Xugang Lu（日本信息通信研究机构， National Institute of Information and Communications Technology, Japan）通讯作者：未明确说明（论文中未明确指定通讯作者）作者列表：Xugang Lu（日本信息通信研究机构）、Peng Shen（日本信息通信研究机构）、Hisashi Kawai（日本信息通信研究机构） 💡 毒舌点评论文的核心亮点在于将数学理论上的“非平衡最优传输”巧妙地应用于解决ASR知识迁移中声学与语言表征“长对短、多对一、有噪音”的尴尬对齐困境，理论动机清晰。然而，短板也很明显：实验仅在两个中文朗读语料上用CTC系统验证，如同只在一个特定鱼塘测试新渔网；更关键的是，完全不公开代码和模型，让后续研究者“巧妇难为无米之炊”，极大削弱了工作的实际影响力。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开模型权重。数据集：AISHELL-1和MagicData均为公开数据集，但论文未说明具体获取或预处理脚本。 Demo：未提供在线演示。复现材料：给出了主要模型架构尺寸、损失函数权重η、熵正则化系数ε、优化器和学习率等关键信息，但缺乏完整的配置文件、检查点和训练日志。对于UOT求解器的实现细节（如迭代停止条件）描述不足。论文中引用的开源项目：引用了bert-base-chinese（HuggingFace）、Conformer实现（可能基于ESPnet等框架），但未明确说明其代码基于哪个开源项目。总结：论文中未提及开源计划。 📌 核心摘要问题：在基于预训练语言模型（PLM）的跨模态知识迁移中，将语言知识从文本域转移到声学域，核心挑战在于声学序列（帧数多、含噪音）与语言序列（token数少）之间存在固有的、不对齐且不平衡的对应关系。方法核心：提出一种基于非平衡最优传输（UOT）的对齐框架。UOT通过引入边际惩罚项（λ₁, λ₂），放松了传统OT的质量守恒约束，允许声学或语言侧的部分“质量”（信息）不被匹配，从而实现软性、部分的对齐。创新之处：与标准OT（平衡约束）或传统的交叉注意力（仅局部相似性）相比，UOT能显式地建模模态间的分布失配和结构不对称。通过调整λ₁和λ₂，可以灵活控制对齐策略（如优先保证每个语言token都有对应声学帧），从而更鲁棒地处理噪声帧和冗余信息。主要实验结果：在AISHELL-1（普通话）测试集上，最优UOT配置（λ₁=0.5, λ₂=1.0）的CER为4.06%，相比作为基线的标准OT方法（OT-BERT-CTC）的4.19%有约3%的相对改进。在MagicData数据集上，改进更明显，测试集CER从2.17%降至2.02%（约7%相对改进）。实际意义：提供了一种更符合声学-语言对齐先验知识的数学框架，可提升知识迁移的效率和最终ASR性能，且迁移后模型保持CTC解码的高效性。主要局限性：实验范围有限，仅在中文普通话的两个朗读语料库和CTC-based ASR系统上进行验证，未展示在其他语言、自发性语音或主流Transformer-Transducer等系统上的效果；未提供代码，复现困难；对UOT中λ₁, λ₂选择的讨论偏向经验性，缺乏自动选择机制。 🏗️ 模型架构论文提出一个基于UOT的跨模态知识迁移框架，用于增强CTC-based ASR。其整体架构如下图所示（对应原文图1）： ...

Lightweight Implicit Neural Network for Binaural Audio Synthesis

📄 Lightweight Implicit Neural Network for Binaural Audio Synthesis #空间音频 #隐式神经网络 #轻量模型 #端到端 #信号处理 ✅ 7.0/10 | 前25% | #空间音频 | #隐式神经网络 | #轻量模型 #端到端学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Xikun Lu（华东师范大学上海市人工智能教育重点实验室，华东师范大学计算机科学与技术学院）通讯作者：Jinqiu Sang（华东师范大学计算机科学与技术学院，邮箱：jqsang@mail.ecnu.edu.cn）作者列表：Xikun Lu（华东师范大学上海市人工智能教育重点实验室，华东师范大学计算机科学与技术学院）、Fang Liu（未说明）、Weizhi Shi（贵州工业职业技术学院大数据与信息工程系）、Jinqiu Sang（华东师范大学计算机科学与技术学院） 💡 毒舌点评亮点：巧妙地将隐式神经表征（INR）从连续场重建迁移到了动态的频谱校正任务上，用一个紧凑的MLP（0.15M参数）就建模了复杂的时变声学传递函数，这种“小而美”的设计思路值得肯定。短板：消融实验止步于“有/无”模块和编码器的比较，未能进一步剖析隐式网络本身的关键超参数（如层数、宽度、频率编码维数）对性能的敏感性，使得最优架构的选择缺乏更深入的理论或经验支撑。 🔗 开源详情代码：提供代码仓库链接：https://github.com/Luxikun669/Lite-INN 模型权重：论文中未提及是否公开预训练模型权重。数据集：使用公开的Binaural Speech数据集，但未说明如何获取或提供下载链接（需参考原始数据集论文）。 Demo：论文中未提及在线演示。复现材料：提供了关键的实现细节，包括：STFT参数（窗长512，帧移256），TDW模块的改编说明，IBC的MLP结构（3层，256单元），频率/时间编码带数（8/12），优化器（AdamW），学习率调度（余弦退火，1e-3至1e-6），损失权重（λ1=1.0, λ2=0.01），训练轮数（100），批次大小（32）。论文中引用的开源项目：改编自WarpNet [10]的时间域翘曲模块。总结：论文提供了代码和核心复现配置，但缺少预训练权重、详细训练日志和更完整的环境说明。 📌 核心摘要问题：高保真双耳音频合成（从单声道生成具有空间感的立体声）是VR/AR等沉浸式体验的关键，但现有基于深度学习的方法模型庞大，难以在计算资源有限的边缘设备上实时运行。方法核心：提出一个名为Lite-INN的两阶段轻量级框架。第一阶段使用时间域翘曲（TDW）模块生成初步的双耳信号以近似双耳时间差（ITD）；第二阶段将初步信号转换到时频域，并通过一个新颖的隐式双耳校正器（IBC）模块，将每个时频点的增益和相位校正建模为空间位置、耳朵索引、频率和时间坐标的连续函数，从而进行精细的频谱修正。新意：将频谱校正任务重新定义为隐式神经表示问题，使用一个小型多层感知机（MLP）直接预测每个时频bin的复数增益。这与之前基于卷积或注意力机制的方法不同，能以极低的参数量（0.15M）建模复杂的动态声学特性。主要实验结果：在Binaural Speech数据集上，Lite-INN相比最轻量的基线NFS，在参数量上减少72.7%（从0.55M到0.15M），计算量（MACs）降低21.5%（从3.40G到2.67G）。主观MOS测试表明，其感知质量（MOS-Q/S/Sim）与最高的WaveNet基线无统计显著差异（p > 0.05），且显著优于NFS和DPATFNet（p < 0.05）。其客观指标如Wave-ℓ2（0.167）、IPD-ℓ2（1.233）处于竞争力水平。模型参数量(M) ↓ MACs(G) ↓ Wave-ℓ2 ↓ IPD-ℓ2 ↓ NFS [13] 0.55 3.400 0.172 1.250 DPATFNet [14] 2.42 15.64 0.148 1.020 Lite-INN (Ours) 0.15 2.670 0.167 1.233 实际意义：成功在合成质量与计算效率之间取得了良好平衡，其极小的模型尺寸（0.15M参数）和低计算需求（RTF 0.121）使其非常适合部署在手机、耳机等边缘设备上，实现实时的高保真空间音频渲染。主要局限性：隐式校正器（IBC）对动态场景（如声源快速移动）的建模能力依赖于输入的连续坐标编码，其泛化能力和对未见轨迹的表现未经充分验证。此外，消融实验未探讨IBC内部网络结构（如深度、宽度）的影响。 🏗️ 模型架构本文提出的Lite-INN是一个两阶段的端到端框架，目标是从单声道音频x和随时间变化的声源位姿P(t)合成双耳音频y。 ...

Lingometer: On-Device Personal Speech Word Counting System

📄 Lingometer: On-Device Personal Speech Word Counting System #语音活动检测 #端到端 #低资源 #数据增强 #模型评估 🔥 8.0/10 | 前25% | #语音活动检测 | #端到端 | #低资源 #数据增强学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yuhwan Kim（Korea Advanced Institute of Science and Technology, South Korea）通讯作者：Hyun W. Ka（Korea Advanced Institute of Science and Technology, South Korea）作者列表：Yuhwan Kim（Korea Advanced Institute of Science and Technology, South Korea）、Junghun Lee（Korea Advanced Institute of Science and Technology, South Korea）、Baekho Kim（Korea Advanced Institute of Science and Technology, South Korea）、Hyun W. Ka（Korea Advanced Institute of Science and Technology, South Korea）注：论文注明前两位作者贡献均等。 💡 毒舌点评亮点：系统设计巧妙，通过“PVAD筛选 + WCE计数”的管道式架构，优雅地解决了设备端语音分析中的隐私与功耗矛盾，为数字生物标志物研究提供了合规的实用工具。短板：WCE模型严重依赖词边界（音节起始点）的帧级标注，这在多语言或资源匮乏语言中可能成为瓶颈；实验部分缺少与更强基线（如大型端到端语音识别模型在相同轻量化约束下）的直接对比。 ...

Low-Bandwidth High-Fidelity Speech Transmission with Generative Latent Joint Source-Channel Coding

📄 Low-Bandwidth High-Fidelity Speech Transmission with Generative Latent Joint Source-Channel Coding #语音增强 #语义通信 #端到端 #生成对抗网络 #流式处理 ✅ 7.5/10 | 前25% | #语音增强 | #端到端 | #语义通信 #生成对抗网络学术质量 6.5/7 | 选题价值 0.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Guangkuan Li（北京邮电大学）通讯作者：Jincheng Dai（北京邮电大学）作者列表：Guangkuan Li（北京邮电大学）、Shengshi Yao（北京邮电大学）、Sixian Wang（上海交通大学）、Zhenyu Liu（University of Surrey）、Kai Niu（北京邮电大学）、Jincheng Dai（北京邮电大学） 💡 毒舌点评亮点：该工作聪明地将神经音频编解码器（RVQ-GAN）与联合源信道编码（JSCC）解耦后又紧密融合，利用生成模型在低带宽下提供先验信息，有效缓解了传统JSCC在极低带宽下的质量崩塌问题。短板：虽然声称“节省60%带宽”，但对比基线（Opus+LDPC, Encodec+LDPC）的配置细节（如Opus的码率、LDPC的开销）未在文中清晰界定，使得“节省”的绝对值在不同实际部署条件下可能有所变化。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用LibriSpeech数据集，该数据集为公开数据集。 Demo：提供了在线演示链接：https://semcomm.github.io/GLJSCC 。复现材料：论文详细描述了模型架构、三阶段训练策略、损失函数、关键超参数（如网络维度、码本大小、学习率等），为复现提供了必要的理论细节。但未提供训练配置文件、预训练检查点或更细粒度的超参数搜索范围。论文中引用的开源项目：引用了Encodec（神经音频编解码器）、5G LDPC编码等作为对比基线。具体代码仓库未在提供的文本中列出。总结：论文提供了理论框架和部分实现细节，并附有Demo，但未开源核心代码和模型，因此严格复现仍需一定工作量。 📌 核心摘要问题：现有的语音联合源信道编码（JSCC）方法在带宽极度受限时，感知质量会急剧下降，难以满足高保真传输需求。核心方法：提出生成式潜在联合源信道编码（GL-JSCC）框架。该框架首先使用RVQ-GAN将语音压缩到一个与人感知对齐的潜在空间，然后在该潜在空间内使用流式Transformer执行JSCC，最后采用三阶段渐进式训练策略进行优化。创新点：与传统在源空间或简单神经网络潜空间进行JSCC不同，本文在生成式潜在空间中进行JSCC，该空间具有更高的稀疏性和感知对齐性，且生成模型本身为低带宽下的重建提供了额外的先验知识。主要实验结果：在AWGN和COST2100衰落信道下，GL-JSCC在低信噪比（SNR）和低带宽条件下均优于传统方法（Opus+LDPC, AMR-WB+LDPC）和神经网络基线（DeepSC-S, Encodec+LDPC）。例如，在SNR=2dB的AWGN信道下，GL-JSCC能达到与Opus+LDPC相同的感知质量（PESQ分数），但节省高达60%的带宽。主观MUSHRA测试也证实了其优越的听感。实际意义：该框架为在带宽受限的弱网络（如工业物联网、偏远地区）中进行高质量语音传输提供了一种有效解决方案，推动了语义通信在音频领域的实用化。主要局限性：性能上限受限于RVQ-GAN神经编解码器本身的重建质量（PESQ分数最高约4）；实验主要基于英文语音数据集（LibriSpeech），在其他语言或声学环境下的泛化能力未验证。 🏗️ 模型架构 GL-JSCC的整体架构分为两个核心部分：生成式潜在编解码器（Latent Codec）和联合源信道编解码器（JSCC Codec），其流程如公式(1)所示：语音 x -> 潜在编码器 E -> 潜在表示 l -> JSCC编码器 J_e -> 发送符号 s -> 无线信道 -> 接收符号 ŝ -> JSCC解码器 J_d -> 潜在表示 l̂ -> 潜在解码器 D -> 重建语音 x̂。 ...

MELA-TTS: Joint Transformer-Diffusion Model with Representation Alignment for Speech Synthesis

📄 MELA-TTS: Joint Transformer-Diffusion Model with Representation Alignment for Speech Synthesis #语音合成 #扩散模型 #自回归模型 #端到端 #零样本 ✅ 7.0/10 | 前25% | #语音合成 | #扩散模型 | #自回归模型 #端到端学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Keyu An（Alibaba group）通讯作者：Zhiyu Zhang（National Mobile Communications Research Laboratory, Southeast University）作者列表：Keyu An⋆（Alibaba group）、Zhiyu Zhang⋆†（Alibaba group, National Mobile Communications Research Laboratory, Southeast University）、Changfeng Gao⋆（Alibaba group）、Yabin Li⋆（Alibaba group）、Zhendong Peng⋆（Alibaba group）、Haoxu Wang⋆（Alibaba group）、Zhihao Du⋆（Alibaba group）、Han Zhao⋆（Alibaba group）、Zhifu Gao⋆（Alibaba group）、Xiangang Li⋆（Alibaba group）注：⋆表示Alibaba group，†表示National Mobile Communications Research Laboratory, Southeast University。第一作者和通讯作者基于论文标题下方作者列表顺序及贡献说明（“The first two authors contribute equally to this work.”）判断。 💡 毒舌点评亮点在于用“表示对齐”模块巧妙地借用了预训练ASR编码器的语义知识来指导自回归模型生成更连贯的语义表示，确实显著加速了收敛并提升了内容一致性（WER大幅下降）。但其声称的“端到端”仍依赖预训练的说话人编码器和ASR编码器进行对齐，且声音克隆的说话人相似度（SS）在英文测试集上反而弱于其主要对比基线CosyVoice，暴露了该架构在全局声学上下文利用上的短板。 ...