自回归模型

语音/音乐/音频论文速递 2026-05-02

语音/音乐/音频论文速递 2026-05-02 共分析 4 篇论文 ⚡ 今日概览 📥 抓取 4 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音对话系统 1篇 █ #语音合成 1篇 █ #基准测试 1篇 █ #语音识别 1篇 █ 📊 论文评分排行榜（4 篇，按分数降序）排名论文评分分档主任务 🥇 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal 8.5分前25% #语音对话系统 🥈 JaiTTS: A Thai Voice Cloning Model 8.0分前25% #语音合成 🥉 InteractWeb-Bench: Can Multimodal Agent Escape Blind Ex 7.5分前25% #基准测试 4. AppTek Call-Center Dialogues: A Multi-Accent Long-Form 6.5分前50% #语音识别 📋 论文列表 🥇 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction 🔥 8.5/10 | 前25% | #语音对话系统 | #端到端 | #多模态模型 #流式处理 | arxiv ...

ABC: Any-Subset Autoregression via Non-Markovian Diffusion Bridges in Continuous Time and Space

📄 ABC: Any-Subset Autoregression via Non-Markovian Diffusion Bridges in Continuous Time and Space #生成模型 #扩散模型 #连续时间 #随机过程 #自回归模型 🔥 8.0/10 | 前25% | #条件生成 | #扩散模型 | #生成模型 #连续时间 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：未说明通讯作者：未说明作者列表：Gabe Guo（未说明）、Thanawat Sornwanee（未说明）、Lutong Hao（未说明）、Elon Litman（未说明）、Stefano Ermon（未说明）、Jose Blanchet（未说明） 💡 毒舌点评亮点：直击现有扩散模型用于条件生成随机过程时的核心痛点（起点噪声、时间感知、条件灵活性），并提出了一个理论上更优的统一框架，逻辑清晰且有理论支撑。短板：摘要中完全没有任何定量实验结果来支撑“superiority”的结论，让一个方法论看起来很漂亮的论文说服力大打折扣——没有数字的优越性宣称，在顶会顶刊里等于空谈。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及数据集：论文中未提及 Demo：论文中未提及复现材料：论文中未提及论文中引用的开源项目：未提及补充信息 [模型架构] 补充：论文标题和核心方法名“Any-Subset Autoregression via Non-Markovian Diffusion Bridges in Continuous Time and Space”明确指出了其模型的两个关键设计理念：1）非马尔可夫 (Non-Markovian)：强调该过程不依赖于马尔可夫性，这与通过“路径依赖”的变分测度进行条件建模直接相关。2）扩散桥 (Diffusion Bridges)：暗示该SDE不仅是一个简单的扩散过程，更是一个“桥”，连接已知的条件状态（如起始帧和结束帧），从而在给定条件下生成两端被约束的路径。这在模型架构描述中虽被“连续SDE”和“路径依赖”所涵盖，但明确点出“非马尔可夫扩散桥”这一核心概念有助于更精准地理解其理论定位。 ...

JaiTTS: A Thai Voice Cloning Model

📄 JaiTTS: A Thai Voice Cloning Model #语音合成 #语音克隆 #自回归模型 #流匹配 #低资源 ✅ 7.5/10 | 前25% | #语音合成 | #自回归模型 | #语音克隆 #流匹配 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Jullajak Karnjanaekarin (Jasmine Technology Solution) 通讯作者：未明确说明（论文提供了共同邮箱 jts.ai.team@gmail.com）作者列表： Jullajak Karnjanaekarin (Jasmine Technology Solution) Pontakorn Trakuekul (Jasmine Technology Solution) Narongkorn Panitsrisit (Jasmine Technology Solution) Sumana Sumanakul (Jasmine Technology Solution) Vichayuth Nitayasomboon (Jasmine Technology Solution) Nithid Guntasin (Sirindhorn International Institute of Technology) Thanavin Denkavin (Sirindhorn International Institute of Technology) Attapol T. Rutherford (Jasmine Technology Solution, Chulalongkorn University Department of Linguistics) 💡 毒舌点评 JaiTTS在泰语这一垂直赛道上确实“秀了一把肌肉”，性能数据（如CER低于人类基准）和人类盲测胜率都相当漂亮，证明了其在目标语言上的强大实力。然而，论文对模型“黑箱”的保护可谓严密，除了引用VoxCPM作为骨架，核心训练细节（如参数规模、优化器设置）几乎全部隐去，且没有任何开源复现的迹象，这使得其卓越的性能更像一个无法验证的“展示柜”，而非可供学术共同体推进的“开放工具”。 ...

Adaptive Rotary Steering with Joint Autoregression for Robust Extraction of Closely Moving Speakers in Dynamic Scenarios

📄 Adaptive Rotary Steering with Joint Autoregression for Robust Extraction of Closely Moving Speakers in Dynamic Scenarios #语音分离 #信号处理 #麦克风阵列 #自回归模型 🔥 8.5/10 | 前25% | #语音分离 | #信号处理 | #麦克风阵列 #自回归模型学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jakob Kienegger（汉堡大学信号处理系）通讯作者：Timo Gerkmann（汉堡大学信号处理系）作者列表：Jakob Kienegger（汉堡大学信号处理系），Timo Gerkmann（汉堡大学信号处理系） 💡 毒舌点评这篇论文的亮点在于巧妙地将旋转转向的“优雅数学”与自回归的“实用主义”结合，构建了一个模块化且鲁棒的框架，在说话人紧密移动时表现出色；但其跟踪模块对复杂运动模型的依赖（如正弦轨迹假设）和系统对初始方向估计的敏感性，可能成为其在更无序真实场景中广泛应用的瓶颈。 🔗 开源详情代码：论文中提到了项目主页（https://sp-uhh.github.io/adaptive-rotary-steering/），很可能包含代码实现，但未直接提供具体代码仓库链接。模型权重：未提及是��公开预训练模型权重。数据集：合成数据集基于公开的LibriSpeech语料库生成，真实录音数据集（Rainbow Passage录音）未说明是否公开，但录音文本和视频已在线提供。 Demo：项目主页提供了录音和视频示例，可作为效果演示。复现材料：论文提供了详细的算法实现细节、网络架构描述、训练策略以及超参数信息（如STFT设置）。明确指出使用了开源的McNet、SpatialNet和SELDnet架构，以及gpuRIR工具箱。论文中引用的开源项目：gpuRIR（房间脉冲响应模拟）、McNet、SpatialNet、SELDnet、NeMo工具包（用于ASR评估）。 📌 核心摘要本文针对动态声学场景（如说话人移动、交叉）中，现有空间选择性滤波（SSF）方法在目标说话人接近或交叉时性能下降的问题，提出了一种基于Ambisonics的自适应旋转导向与联合自回归框架。该方法核心是：(1) 通过一个跟踪算法，自动将录制的声场实时旋转对齐至目标说话人方向（自适应旋转导向）；(2) 将前一帧的增强语音信号，作为额外输入同时反馈给跟踪网络（AR-TST）和增强网络（AR-SSF），形成联合自回归循环。与已有方法相比，新在：a) 实现了旋转转向的自动化以处理动态场景；b) 提出在跟踪和增强两个环节同时利用语音时频线索进行反馈，弥补空间线索失效的缺陷。实验在合成三说话人数据集和真实录音上进行，结果表明：在说话人角距离小于15°时，AR-TST使跟踪误差显著降低；在合成数据上，联合AR框架使McNet的PESQ达到2.17，超过强引导基线（2.21）并远超固定旋转引导（1.97）。实际意义在于为会议、助听等场景提供了一种不依赖持续外部引导、鲁棒的说话人提取方案。主要局限包括对目标初始方向有一定依赖，以及合成轨迹模型可能无法完全覆盖真实世界运动的多样性。 ...

Aligning Language Models for Lyric-to-Melody Generation with Rule-Based Musical Constraints

📄 Aligning Language Models for Lyric-to-Melody Generation with Rule-Based Musical Constraints #音乐生成 #大语言模型 #强化学习 #自回归模型 #数据集 ✅ 7.5/10 | 前25% | #音乐生成 | #强化学习 | #大语言模型 #自回归模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Hao Meng（Hao Meng，来自Zuoyebang Education Technology）通讯作者：未说明作者列表：Hao Meng (Zuoyebang Education Technology), Siyuan Zheng (Zuoyebang Education Technology), Shuran Zhou (Zuoyebang Education Technology), Qiangqiang Wang (Zuoyebang Education Technology), Yang Song (Zuoyebang Education Technology) 💡 毒舌点评亮点：巧妙地将音乐理论“规则化”，并设计了一套完全自动化的偏好数据生成与模型对齐流水线，成功绕开了RLHF依赖人工标注的痛点，是“用领域知识指导大模型”的一个干净利落的范例。短板：所定义的五条规则虽然解决了“合规性”，但可能过于刚性，容易让生成的旋律陷入“安全但平庸”的境地；此外，最终的主观MOS提升虽显著，但绝对值（3.42 vs GT 3.50）显示在感知层面仍有优化空间，评估完全依赖固定规则而非更灵活的人类偏好也是其潜在局限。 ...

An Event-Based Sequence Modeling Approach to Recognizing Non-Triad Chords with Oversegmentation Minimization

📄 An Event-Based Sequence Modeling Approach to Recognizing Non-Triad Chords with Oversegmentation Minimization #音乐信息检索 #自回归模型 #预训练 #时频分析 ✅ 7.5/10 | 前25% | #音乐信息检索 | #自回归模型 | #预训练 #时频分析学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Leekyung Kim（首尔国立大学工业工程系及工业系统创新研究所，以及 SK hynix）通讯作者：Jonghun Park（首尔国立大学工业工程系及工业系统创新研究所）作者列表：Leekyung Kim（首尔国立大学工业工程系及工业系统创新研究所， SK hynix）、Jonghun Park（首尔国立大学工业工程系及工业系统创新研究所） 💡 毒舌点评亮点是把一个经典的帧级分类问题（ACR）聪明地重构为分段级的序列到序列预测任务，从根本上缓解了过度分割，且结构化的SPLIT标记能有效应对和弦数据不平衡问题，对复杂和弦的提升显著。短板在于论文所用数据集规模较小（仅471首歌），且缺乏在更大、更多样化数据集上的验证，这让人对其泛化能力到更复杂音乐类型（如爵士、古典）时的表现保持谨慎。 🔗 开源详情代码：提供了GitHub代码仓库链接：https://github.com/KimLeekyung/ACR_seq2seq。模型权重：论文中未提及是否公开预训练或微调后的模型权重。数据集：论文指出使用的数据集与BTC论文相同（471首流行歌曲），但未说明是否公开数据集本身或如何获取。可能需参考BTC的原始出处。 Demo：论文中未提及提供在线演示。复现材料：论文给出了核心的训练细节，如数据预处理（CQT参数）、损失函数、优化器、学习率调度、数据增强方法以及推理时的掩码策略。但未明确提供Transformer编码器/解码器的具体层数、隐藏维度、注意力头数等关键超参数配置。论文中引用的开源项目：主要对比模型：BTC（Bi-directional Transformer for Chord recognition），并引用了其GitHub仓库。使用的度量工具：WCSR的计算可能依赖于mir_eval等库，但论文未明确列出。 📌 核心摘要这篇论文旨在解决自动和弦识别（ACR）任务中的过度分割、数据稀缺与不平衡三大挑战，尤其是针对非三和弦等复杂和弦。其核心方法是将ACR重新定义为一个分段级的序列到序列（seq2seq）预测问题，使用Transformer编码器-解码器架构，以自回归的方式预测和弦序列，而非传统的逐帧分类。这与已有方法的关键区别在于：1) 预测单元是段落而非帧，从模型架构上减少了产生碎片化预测的可能；2) 引入了MERGE（时间+和弦）和SPLIT（时间+根音+性质）两种结构化标记表示，后者能共享罕见和弦性质的训练数据；3) 设计了基于和弦相似性（WCSR）的编码器预训练策略，引导编码器学习具有音乐意义的嵌入。实验在471首流行歌曲的数据集上进行，结果表明，最终模型（pTEDS）在七种不同严格程度的加权和弦符号召回率（WCSR）指标上均优于强基线BTC，并在分割质量（SQ）上也取得领先，特别是在减少过度分割方面效果突出。该研究的实际意义在于提升了复杂和弦的识别能力并生成了更干净的分割结果，有助于下游音乐分析任务。主要局限性是所用数据集规模相对较小，可能限制了模型在更广泛音乐类型上的泛化验证。 ...

AR-BSNet: Towards Ultra-Low Complexity Autoregressive Target Speaker Extraction With Band-Split Modeling

📄 AR-BSNet: Towards Ultra-Low Complexity Autoregressive Target Speaker Extraction With Band-Split Modeling #语音分离 #自回归模型 #时频分析 #实时处理 #基准测试 ✅ 7.0/10 | 前25% | #语音分离 | #自回归模型 | #时频分析 #实时处理学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Fengyuan Hao（中国科学院声学研究所噪声与音频研究实验室；中国科学院大学）通讯作者：Chengshi Zheng（中国科学院声学研究所噪声与音频研究实验室）作者列表：Fengyuan Hao（中国科学院声学研究所噪声与音频研究实验室；中国科学院大学）、Andong Li（中国科学院声学研究所噪声与音频研究实验室；中国科学院大学）、Xiaodong Li（中国科学院声学研究所噪声与音频研究实验室；中国科学院大学）、Chengshi Zheng（中国科学院声学研究所噪声与音频研究实验室；中国科学院大学） 💡 毒舌点评论文的亮点在于其明确的工程导向，通过一系列精巧的设计（如感知压缩、分带LSTM、自回归连接），将目标说话人提取模型的计算复杂度大幅压缩至适合边缘设备部署的水平（MACs降至0.91 G/s，RTF仅为0.044），同时保持了具有竞争力的性能。短板则在于，其追求极致效率的代价可能是牺牲了一部分模型容量和在非因果、高精度场景下的性能天花板，且论文并未提供代码，对社区复现和基于此工作的后续研究不够友好。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了公开的WSJ0-2mix和WHAM!数据集，但论文未提供获取方式或数据集本身的链接。 Demo：未提及。复现材料：论文提供了非常详细的训练配置（损失函数、优化器、学习率、超参数等），具有较好的可复现信息基础。但未提供代码、配置文件或检查点。引用的开源项目：论文未提及依赖的开源工具或模型。总结：论文中未提及开源计划。 📌 核心摘要问题：现有的因果目标说话人提取（TSE）方法虽然性能良好，但计算复杂度高，难以部署在资源受限的边缘设备上。方法核心：提出AR-BSNet，一种超低复杂度的时频域自回归TSE模型。核心包括：a) 基于Mel滤波器组的感知压缩下采样；b) 分带循环建模（带内LSTM和带间BLSTM）以捕获时频模式；c) 引入自回归机制，利用前一帧的估计输出作为当前帧的辅助参考信息。创新点：与现有方法相比，AR-BSNet创新性地将自回归框架、基于感知的频率维度压缩以及高效的分带循环处理相结合，在显著降低复杂度的同时，利用帧间依赖增强了提取效果。主要实验结果：在WSJ0-2mix和WHAM!数据集上，AR-BSNet相比SOTA因果方法（如SpEx++， DSINet），在计算复杂度（MACs）上降低了约87.5%（从约7-11 G/s降至0.91 G/s），同时在SI-SDR、PESQ等指标上取得了可比或更优的性能。关键数据见下表：数据集方法域因果参数量(M) MACs(G/s) PESQ eSTOI(%) SDR(dB) SI-SDR(dB) WSJ0-2mix SpEx++ [10] 时域是 33.81 11.44 2.93 83.86 11.9 11.2 DSINet [17] 时频域是 2.94 8.13 3.35 90.56 16.2 15.7 AR-BSNet 时频域是 0.32 0.91 3.13 87.09 13.8 13.3 WHAM! SpEx+ [9] 时域是 11.14 3.76 2.04 60.01 6.1 5.2 AR-BSNet 时频域是 0.32 0.91 2.26 57.74 5.7 4.9 -> w/ 60s enroll. 时频域是 0.32 0.91 2.30 58.71 6.1 5.4 图4：在WSJ0-2mix测试集上，因果SpEx+与AR-BSNet的SI-SDRi改善值分布。AR-BSNet（蓝线）整体分布更靠右，表明其平均性能更好，且在高相似度说话人区域（红点）的错误更少。 ...

BridgeCode: A Dual Speech Representation Paradigm for Autoregressive Zero-Shot Text-to-Speech Synthesis

📄 BridgeCode: A Dual Speech Representation Paradigm for Autoregressive Zero-Shot Text-to-Speech Synthesis #语音合成 #自回归模型 #零样本 #模型评估 🔥 8.0/10 | 前25% | #语音合成 | #自回归模型 | #零样本 #模型评估学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Jingyuan Xing（华南理工大学）、Mingru Yang（华南理工大学）（论文注明两者共同第一作者）通讯作者：Xiaofen Xing（华南理工大学）、Xiangmin Xu（佛山大学）（论文标注†）作者列表：Jingyuan Xing（华南理工大学）、Mingru Yang（华南理工大学）、Zhipeng Li（华南理工大学）、Xiaofen Xing（华南理工大学）、Xiangmin Xu（佛山大学，华南理工大学） 💡 毒舌点评亮点在于其提出的“双表示”范式巧妙地将离散token的生成效率与连续特征的高质量重建相结合，有效缓解了自回归TTS中经典的“速度-质量”矛盾，并在实验中取得了目前最低的token生成率。短板是所有实验仅在英语LibriTTS一个数据集上进行，虽然方法具有通用性，但缺乏多语言或跨领域（如情感、唱歌）的验证，其真实泛化能力尚待证明。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开模型权重。数据集：实验使用公开的LibriTTS数据集，但未提供经过处理的特定数据或脚本。 Demo：提供了在线语音合成演示页面链接：https://test1562.github.io/demo/. 复现材料：给出了部分训练细节（如优化器、学习率、batch size、训练步数、硬件），但未提供完整的训练配置文件、模型架构详细参数或检查点。论文中引用的开源项目：wav2vec 2.0 Base（特征编码器）、HiFi-GAN（vocoder）。 📌 核心摘要要解决什么问题：针对基于自回归（AR）的零样本文本到语音合成（TTS）中存在的两个关键问题：(i) 生成速率与合成质量之间固有的权衡矛盾；(ii) 直接沿用文本模型训练范式导致的语音监督信号失配。方法核心是什么：提出BridgeTTS框架，其核心是BridgeCode双语音表示范式。该范式包含稀疏的离散token和稠密的连续特征两种表示，并设计了SparseBridge和DenseBridge两个对称的桥接模块进行双向转换。AR模型在生成时只需预测低帧率的稀疏token，再通过DenseBridge恢复出高信息量的连续特征用于高质量合成。同时，训练中引入特征损失（Feature Loss）与token损失联合优化，提供更细粒度的监督。与已有方法相比新在哪里：不同于以往AR-TTS要么降低token率牺牲质量，要么增加token信息量牺牲效率的单一思路，BridgeCode首次提出利用“稀疏token生成+连续特征重建”的混合范式，在提升效率的同时保证质量。此外，通过联合token级和特征级的损失函数，解决了AR模型训练中的监督信号失配问题。主要实验结果如何：在LibriTTS数据集上，BridgeTTS取得了最低的Token Rate（10Hz），相较于基线CosyVoice（25Hz）和GPT-Talker（50Hz）大幅降低。同时，其词错误率（WER）在测试集上为4.9%，显著低于VALL-E（18.5%）、UniAudio（12.9%）和GPT-Talker（16.4%），仅略高于CosyVoice（8.0%）。在语音质量（QMOS）和说话人相似度（SMOS）上，BridgeTTS与最优的CosyVoice表现相当或略低，但均优于大多数基线。消融实验证明，DenseBridge和特征损失对性能有关键贡献。合成速度（RTF）相比基线AR模型提升了约63%（0.37x）。模型 Token Rate (↓) WER (↓) SMOS (↑) QMOS (↑) UTMOS (↑) LibriTTS Development Set GT / 2.3% 4.41 ± 0.11 4.41 ± 0.13 4.258 CosyVoice 25Hz 6.8% 4.13 ± 0.12 4.36 ± 0.12 4.253 BridgeTTS (Ours) 10Hz 3.4% 4.07 ± 0.11 4.15 ± 0.09 4.050 LibriTTS Test Set VALL-E 50Hz 18.5% 3.64 ± 0.12 3.49 ± 0.11 2.728 CosyVoice 25Hz 8.0% 4.12 ± 0.08 4.29 ± 0.11 4.148 BridgeTTS (Ours) 10Hz 4.9% 4.01 ± 0.12 4.11 ± 0.13 3.894 模型 Token Rate (↓) WER (↓) SMOS (↑) QMOS (↑) UTMOS (↑) BridgeTTS 10Hz 4.9% 4.01 ± 0.12 4.11 ± 0.13 3.894 -w/o DenseBridge 10Hz 13.8% 3.74 ± 0.11 3.74 ± 0.12 3.443 -w/o Lfeatures 10Hz 7.1% 3.92 ± 0.13 3.96 ± 0.12 3.471 系统 RTF (↓) Token Rate (↓) WER (↓) SMOS (↑) QMOS (↑) UTMOS (↑) Baseline AR 1× 50Hz 9.8% - - - BridgeTTS 0.37× 10Hz 4.9% +0.12 +0.09 +0.43 实际意义是什么：该方法为构建更高效、高质量的零样本TTS系统提供了新思路。通过降低自回归生成的计算需求，有助于在资源受限的设备或需要实时响应的场景中部署先进的语音合成技术。主要局限性是什么：目前所有实验仅在英文LibriTTS数据集上进行，对于多语言、跨领域的泛化能力未做探讨。此外，虽然对比了多种基线，但未与最新（如2025-2026）的一些代表性工作进行直接比较。 🏗️ 模型架构 BridgeTTS的整体架构分为两大部分：BridgeCode表示学习框架和BridgeTTS自回归生成框架。 ...

Chunkwise Aligners for Streaming Speech Recognition

📄 Chunkwise Aligners for Streaming Speech Recognition #语音识别 #端到端 #流式处理 #模型架构 #自回归模型 ✅ 7.5/10 | 前25% | #语音识别 | #端到端 | #流式处理 #模型架构学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Wen Shen Teo（University of Electro-Communications, Japan； NTT, Inc., Japan）通讯作者：未明确说明（论文中标注两位第一作者Equal contribution，但未指定通讯作者）作者列表：Wen Shen Teo（University of Electro-Communications, Japan； NTT, Inc., Japan）、Takafumi Moriya（NTT, Inc., Japan）、Masato Mimura（NTT, Inc., Japan） 💡 毒舌点评亮点：巧妙地将“对齐器”模型的全局自转导改造为分块操作，并通过一个简单的可学习“块结束概率”实现了流式解码，这在架构设计上既优雅又实用。短板：论文最大的短板在于其性能高度依赖于预训练的CTC模型提供的强制对齐质量，这在一定程度上限制了该方法的独立性和鲁棒性，使其“端到端”的成色打了折扣。 🔗 开源详情代码：论文中未提及代码链接或开源计划。模型权重：未提及公开权重。数据集：使用了公开的LibriSpeech和CSJ数据集。 Demo：未提供在线演示。复现材料：论文详细描述了模型架构、训练策略和关键超参数（如学习率、块大小、模型维度），提供了复现所需的理论基础。但未提供训练脚本、配置文件或检查点。论文中引用的开源项目：引用并基于ESPnet工具包进行实验。使用了Montreal Forced Aligner生成对齐。 📌 核心摘要这篇论文旨在解决流式语音识别中训练效率与准确性之间的权衡问题。现有流式模型如Transducer训练计算成本高昂，而近期提出的Aligner模型虽训练高效，但因丢失了局部时序信息而不适用于流式场景。本文提出的“分块对齐器”是其核心创新：它将输入音频分割为固定大小的块，利用编码器的自注意力模块在每个块内独立进行“自转导”，将每个标签对齐到该块最左侧的帧；同时，引入一个可学习的“块结束概率”来控制是否进入下一个音频块。与Aligner相比，新方法在块内局部对齐，降低了学习难度，并支持了流式解码。实验表明，在LibriSpeech和CSJ数据集上，分块对齐器在离线和流式场景下的词错误率/字符错误率均与Transducer相当，但训练仅使用简单的交叉熵损失，计算成本大幅降低；在解码速度上，其实时因子（RTF）优于Transducer，例如在LibriSpeech离线测试中RTF为0.12 vs 0.30。该方法的实际意义在于为流式ASR提供了一个训练更快、解码更快且精度不妥协的新选项。其主要局限性是对训练时使用的对齐数据质量敏感，在LibriSpeech上使用质量较差的CTC对齐会导致性能下降，未来需探索无对齐依赖的训练框架。 ...

Compression meets Sampling: LZ78-SPA for Efficient Symbolic Music Generation

📄 Compression meets Sampling: LZ78-SPA for Efficient Symbolic Music Generation #音乐生成 #自回归模型 #压缩感知 #高效计算 ✅ 7.5/10 | 前25% | #音乐生成 | #自回归模型 | #压缩感知 #高效计算学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度中 👥 作者与机构第一作者：Abhiram Gorle（斯坦福大学电气工程系）通讯作者：未说明作者列表：Abhiram Gorle（斯坦福大学电气工程系）、Connor Ding（斯坦福大学电气工程系）、Sagnik Bhattacharya（斯坦福大学电气工程系）、Amit Kumar Singh Yadav（普渡大学电气与计算机工程学院）、Tsachy Weissman（斯坦福大学电气工程系） 💡 毒舌点评亮点：论文将“压缩即学习”的思想应用于符号音乐生成，提供了扎实的理论保证（如有限样本边界），并以惊人的计算效率（30倍训练加速、300倍生成加速）挑战了深度学习模型在资源消耗上的“暴力美学”。短板：作为生成模型，其音乐创作的“灵魂”——即长期结构、复杂和声与旋律发展——可能受限于LZ78上下文树的局部性，论文在“无条件生成”上的成功是否能扩展到更有用的“条件生成”场景存在疑问。此外，将训练1小时的扩散模型（ASD3PM A1）作为主要效率对比对象，虽然体现了计算预算匹配，但难免让人感觉像是在和“半成品”赛跑。 🔗 开源详情代码：论文未直接提供代码仓库链接，但指出更长版本可能包含更多信息（“longer version”）。模型权重：未提及公开模型权重。数据集：使用公开的Lakh MIDI Dataset (LMD)，未提及自行托管。 Demo：提供了部分生成的音频样本链接（https://shorturl.at/Yk1cO）。复现材料：论文附录中声称包含所有定理证明、基线和超参数的更多细节，以及FLOPs比较和LLM-as-Judge评估。引用的开源项目/工具：评估：使用VGGish模型计算FAD。音频渲染：使用FluidSynth将MIDI转换为WAV。超参数优化：使用Optuna。基线模型：引用了MusicVAE, CTW, ASD3PM等工作的开源实现或论文。 📌 核心摘要要解决什么问题：现有的符号音乐生成深度学习模型（如Transformer、扩散模型）计算成本高昂，严重限制了其可扩展性和在通用CPU设备上的部署。方法核心是什么：提出LZMidi框架，它基于LZ78压缩算法构建一个序列概率分配器（SPA）。该方法通过增量解析训练MIDI序列来构建一棵树，树的每个节点记录上下文出现后各符号的频率，从而隐式地学习数据分布。生成时，从树中采样下一个符号，无需反向传播或梯度更新。与已有方法相比新在哪里：首次将具有理论保证的LZ78-SPA系统性地应用于符号音乐生成任务，并提供了从渐近收敛到有限样本性能的完整理论分析。与深度生成模型相比，它彻底摆脱了对GPU的依赖，实现了极低的训练和推理成本。主要实验结果如何：在Lakh MIDI数据集上，LZMidi在生成质量（FAD, WD）上与经典基线（HMM，CTW）和轻量级深度基线（MusicVAE，训练1小时的ASD3PM）相比具有竞争力，有时甚至更优。在计算效率上，与ASD3PM相比，训练速度快30倍，单样本生成速度快300倍，能耗降低数个数量级。关键实验结果表格： ...