SongEcho: Towards Cover Song Generation via Instance-Adaptive Element-wise Linear Modulation

📄 SongEcho: Towards Cover Song Generation via Instance-Adaptive Element-wise Linear Modulation #音乐生成 #扩散模型 #数据集 #歌唱语音合成 #可控生成 🔥 8.5/10 | 前25% | #音乐生成 | #扩散模型 | #数据集 #歌唱语音合成 学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Sifei Li(中国科学院自动化研究所MAIS、中国科学院大学人工智能学院) 通讯作者:Weiming Dong(中国科学院自动化研究所MAIS、中国科学院大学人工智能学院) 作者列表: Sifei Li(中国科学院自动化研究所MAIS、中国科学院大学人工智能学院) Yang Li(中国科学院自动化研究所MAIS、中国科学院大学人工智能学院) Zizhou Wang(中国科学院自动化研究所) Yuxin Zhang(中国科学院自动化研究所MAIS、中国科学院大学人工智能学院) Fuzhang Wu(中国科学院软件研究所ISRC) Oliver Deussen(康斯坦茨大学) Tong-Yee Lee(成功大学) Weiming Dong(中国科学院自动化研究所MAIS、中国科学院大学人工智能学院) 💡 毒舌点评 这篇论文精准地瞄准了“旋律保持”这一翻唱核心需求,并通过改进条件注入机制(IA-EiLM)和构建高质量数据集(Suno70k)给出了一个参数高效、效果显著的解决方案,理论与实验结合得相当扎实。不过,模型依然受限于底层基础模型(ACE-Step)对音色等细粒度控制的不足,且所用的AI生成数据集Suno70k在风格多样性、情感表达深度上可能与真实人类创作的音乐存在“域差距”,这或许会影响模型泛化到更复杂、更具表现力的真实翻唱场景。 🔗 开源详情 代码:提供代码仓库链接:https://github.com/lsfhuihuiff/SongEcho_ICLR2026。 ���型权重:论文中提到“Code, dataset, and demos are available at…”,但未明确说明是否开源经过训练的完整SongEcho模型权重。基于常见实践,可能开源了新增的IA-EiLM模块和旋律编码器权重。 数据集:Suno70k 数据集已公开,链接为 https://huggingface.co/datasets/nyuuzyou/suno。 Demo:提供在线演示页面:https://vvanonymousvv.github.io/SongEcho_updated/。 复现材料:提供了详细的训练细节(第5.1节)、评估协议(第5.2节)、基线复现细节(附录C.1)和超参数设置,复现指导充分。 论文中引用的开源项目: 骨干模型:ACE-Step (Gong et al., 2025) 评估工具:mir_eval (Raffel et al., 2014), stable-audio-metrics, SongEval (Yao et al., 2025) 特征提取工具:RVMPE (Wei et al., 2023) 用于音高提取, Qwen2-audio (Chu et al., 2024) 用于标签生成, Whisper (Radford et al., 2023) + All-in-One (Kim & Nam, 2023) 用于歌词转录 基线方法:ControlNet (Zhang et al., 2023a), LoRA (Hu et al., 2022), MuseControlLite (Tsai et al., 2025) 论文中未提及开源计划:未明确提及开源训练好的完整模型权重和大规模的预训练骨干(ACE-Step)权重(ACE-Step本身可能是开源的)。 📌 核心摘要 要解决什么问题:在给定一段人声旋律和文本提示的条件下,生成同时包含新的人声演唱和和谐伴奏的完整歌曲(即翻唱歌曲),这要求模型在保持原旋律轮廓的同时进行风格重新诠释。 方法核心是什么:提出SongEcho框架,核心是实例自适应元素级线性调制。它扩展了FiLM为元素级线性调制,以实现对隐藏状态在时序上的精确对齐调制;同时引入实例自适应条件精炼模块,使旋律条件能根据生成模型当前的隐藏状态进行动态调整,而非静态注入。 与已有方法相比新在哪里:相比于使用交叉注意力(如MuseControlLite)或元素级相加(如ControlNet)的方法,EiLM提供了更灵活、时序对齐更直接的调制能力。IACR解决了传统条件编码与生成模型内部状态不兼容的问题,使条件融合更和谐。此外,论文开源了一个高质量的、带有丰富标注的AI歌曲数据集Suno70k。 主要实验结果如何:在Suno70k测试集上,SongEcho的RPA(0.708)、RCA(0.734) 和CLAP(0.324) 等指标均显著优于基线方法,FD(42.06) 和KL(0.112) 等音质指标也远优于其他方法,且可训练参数量(49.1M)仅为ACE-Step+ControlNet(1.6B)的3.07%。主观听测(MOS)在旋律保真度、文本一致性、音频质量和整体偏好上均获最高分。 实际意义是什么:推动了可控、高质量歌曲生成技术的发展,为音乐创作提供了新的AI辅助工具。所构建的开源数据集有助于解决歌曲AI研究中的数据稀缺和版权问题。 主要局限性是什么:(1)音色控制能力有限,仅支持基于性别调整,无法进行更细粒度的音色模仿或合成。(2)生成的翻唱是全局风格迁移,未模拟人类音乐家在翻唱时可能进行的局部创造性改编(如颤音、滑音、音符时值变化)。(3)训练依赖于AI生成的音乐数据集,可能存在与真实人类音乐在情感、表达力上的差异。 🏗️ 模型架构 SongEcho整体架构基于一个预训练的文本到歌曲模型(ACE-Step),它是一个线性扩散Transformer(DiT)。核心是在每个Transformer块中插入一个IA-EiLM模块,该模块位于自注意力层之后、前馈网络层之前,用于注入旋律控制信号。 ...

2026-05-04 · 更新于 2026-05-19 · 2 min · 326 words

Steering Autoregressive Music Generation with Recursive Feature Machines

📄 Steering Autoregressive Music Generation with Recursive Feature Machines #音乐生成 #自回归模型 #激活干预 #音频大模型 #可控生成 🔥 8.5/10 | 前25% | #音乐生成 | #自回归模型 #激活干预 | #自回归模型 #激活干预 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Daniel Zhao(University of California, San Diego) 通讯作者:未说明(从作者列表和邮箱格式推断,第一作者Daniel Zhao可能是主要联系人,但未明确标注) 作者列表:Daniel Zhao(University of California, San Diego)、Daniel Beaglehole(University of California, San Diego)、Taylor Berg-Kirkpatrick(University of California, San Diego)、Julian McAuley(University of California, San Diego)、Zachary Novack(University of California, San Diego) 💡 毒舌点评 这篇论文的亮点在于它成功地将RFM这一“老”概念嫁接到了音乐生成这个热门但控制困难的任务上,并通过精巧的层/时间调度设计实现了相当不错的控制效果,免去了训练或微调基础模型的巨大开销。不过,其控制能力严重依赖于在高度理想化的合成音乐数据集(SYNTHEORY)上训练的探针,当面对真实世界复杂多变的音乐纹理时,这些探针发现的“方向”是否依然稳健有效,论文并未给出足够有说服力的证据。 ...

2026-05-04 · 更新于 2026-05-19 · 2 min · 422 words

Latent Fourier Transform

📄 Latent Fourier Transform #音乐生成 #扩散模型 #傅里叶变换 #表示学习 #可控生成 ✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #傅里叶变换 #表示学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Mason Long Wang (CSAIL, Massachusetts Institute of Technology) 通讯作者:未说明(论文未明确标注通讯作者,通常根据机构排序,第二作者Cheng-Zhi Anna Huang同属MIT CSAIL) 作者列表:Mason Long Wang (CSAIL, Massachusetts Institute of Technology), Cheng-Zhi Anna Huang (CSAIL, Massachusetts Institute of Technology) 💡 毒舌点评 这篇论文的亮点在于巧妙地将傅里叶变换这个经典工具从音频信号“下沉”到生成模型的潜在表示空间,为音乐生成提供了一个直观且连续的“时间尺度”控制旋钮,概念优雅且实验全面。短板在于,其控制维度的普适性有待验证——能否从“音乐结构”的时间尺度控制,泛化到如语音、环境声等其他音频模态的类似控制,文中并未探讨,这使得方法的影响力目前主要局限在音乐生成领域。 🔗 开源详情 代码:是。论文明确提供了代码仓库链接:https://github.com/maswang32/latentfouriertransform/。 模型权重:未提及。论文中未明确说明是否公开预训练模型权重。 数据集:未提及。论文使用的MTG-Jamendo和GTZAN是公开数据集,但论文未提供处理后的版本或具体下载脚本。 Demo:论文中提到提供在线演示示例(https://masonlwang.com/latentfouriertransform/)。 复现材料:非常充分。论文附录详细说明了模型架构(MLP、U-Net、DAC编码器;U-Net解码器)、所有训练超参数、数据集处理方式、评估指标计算细节等。 论文中引用的开源项目:提到了DAC(Descript Audio Codec)作为编码器前端之一;BigVGAN作为声码器;librosa、Essentia用于特征提取;VampNet作为基线模型。 📌 核心摘要 问题:现有的可控音乐生成模型难以精确地基于音乐模式发生的“时间尺度”(如快节奏鼓点vs.慢速和弦进行)进行条件控制或融合,现有控制手段(文本、音高、响度)无法直接暴露这一维度。 方法核心:提出潜在傅里叶变换(LATENTFT) 框架。核心是在扩散自编码器的潜在表示时间序列上应用离散傅里叶变换(DFT),得到“潜在频谱”。训练时,对该频谱进行随机的频率遮蔽;推理时,用户通过指定潜在频率范围(如0-1Hz保留和弦)来控制生成。 新在哪里:不同于直接操作音频波形频谱(均衡器)或后期分析潜在表示,LATENTFT通过训练时的潜在频率遮蔽,使潜在表示天然地按时间尺度解耦,从而支持在推理时对特定时间尺度的特征进行保留、生成变体或混合两首歌曲。 主要实验结果: 在MTG-Jamendo数据集上的条件生成任务中,LATENTFT在响度相关性(0.878)、节奏保持(0.922)、音色失真(1.390)和和声距离(0.107)等指标上均显著优于所有基线(如ILVR、Guidance、DAC后处理等)。 在混合任务中,LATENTFT在音频质量(FAD 1.364)和用户主观评价(图3)上也优于基线。 听觉研究(29名音乐家参与)表明,在混合任务的音频质量和融合能力两个维度上,LATENTFT获得的偏好票数均领先于其他系统。 可解释性实验(图5)显示,不同音乐属性(体裁、和弦、节奏、音高)在潜在频谱的不同频率区域被保留,证实了潜在频率轴的意义。 实际意义:为音乐生成和制作提供了一种新的、基于时间尺度的交互式控制工具,类似于为潜在空间配备了一个“均衡器”,可用于创作音乐变体、混合不同歌曲片段。 主要局限性:目前框架主要在音乐生成任务上验证;其潜在表示的可解释性虽被展示,但如何与语义控制(如风格、情绪)进一步结合是未来方向;实时交互性未实现。 🏗️ 模型架构 LATENTFT是一个端到端的编码器-解码器框架,核心是在训练时引入对潜在表示的频率域操作。整体流程如下: ...

2026-05-02 · 更新于 2026-05-19 · 2 min · 322 words

Diverse and Few-Step Audio Captioning via Flow Matching

📄 Diverse and Few-Step Audio Captioning via Flow Matching #音频字幕生成 #流匹配 #音频生成 #高效生成 #可控生成 ✅ 6.5/10 | 前50% | #音频字幕生成 | #流匹配 | #音频生成 #高效生成 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:未说明(论文仅列出作者姓名,未明确标注第一作者) 通讯作者:未说明 作者列表:Naoaki Fujita(Panasonic Holdings Corporation, Osaka, Japan)、Hiroki Nakamura(Panasonic Holdings Corporation, Osaka, Japan)、Kosuke Itakura(Panasonic Holdings Corporation, Osaka, Japan) 💡 毒舌点评 亮点:首次将流匹配(Flow Matching)引入自动音频字幕生成,实验证明其在大幅减少采样步数(最高25倍)的同时,能保持甚至超越扩散基线的准确性和多样性,效率提升显著。 短板:研究局限于替换生成过程的“最后一公里”,模型架构(BART解码器、BEATs编码器)直接沿用前人工作;更关键的是,论文未开源代码与模型,且未提供训练硬件与时间,严重削弱了其实用价值和可复现性。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用的是公开数据集Clotho和AudioCaps,但论文未说明其具体获取或预处理方式。 Demo:未提及。 复现材料:提供了算法伪代码(Algorithm 1, 2)和主要训练超参数(优化器、学习率、batch size等)。但缺失模型架构细节(如层数、维度)、硬件信息、完整配置文件。 论文中引用的开源项目:使用了预训练的 BEATs [22] 音频编码器和 BART [12] 语言解码器。评估工具使用了 aac-metrics 库。 总结:论文中未提及开源计划。 📌 核心摘要 要解决的问题:现有的基于扩散模型的多样化音频字幕生成方法,因需要数百步迭代去噪而导致推理计算成本高、速度慢,难以满足实时或大规模处理需求。减少步数则会显著损害生成质量。 方法核心:提出首个基于流匹配的音频字幕生成框架(FAC),直接预测从噪声到字幕表示的确定性、线性传输路径,从而用少量采样步数完成生成。 与已有方法相比新在哪里:完全用流匹配替代了扩散过程。与基于迭代去噪的扩散模型不同,流匹配学习的是近乎直线的概率路径,使得生成过程更高效、稳定。 主要实验结果:在Clotho和AudioCaps数据集上,FAC在30步甚至10步采样下的准确性和多样性指标,与扩散基线(250步)相当或更优。例如,在Clotho上,10步FAC的SPIDEr(0.257)优于250步基线(0.247)。推理时间从每样本2.28秒(250步)降至0.19秒(10步),提速约12倍。通过调节训练时的噪声尺度σ,可以在不增加推理成本的情况下控制生成多样性。 实际意义:为高效、可控的多样化音频字幕生成提供了新方案,降低了流式或实时应用中的延迟和计算开销。 主要局限性:未开源代码和模型;未报告训练硬件与时间;作为首个应用,流匹配在音频字幕任务上的潜力和边界有待进一步探索;实验主要聚焦于生成过程,未改进音频编码器和语言解码器本身。 🏗️ 模型架构 FAC的整体架构遵循DAC-RLD流水线,如图1所示。其核心是用一个流匹配模块替代了原有的扩散去噪模块。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 361 words

ViTex: Visual Texture Control for Multi-Track Symbolic Music Generation via Discrete Diffusion Models

📄 ViTex: Visual Texture Control for Multi-Track Symbolic Music Generation via Discrete Diffusion Models #音乐生成 #扩散模型 #可控生成 #多轨道 #数据集 ✅ 7.0/10 | 前50% | #音乐生成 | #扩散模型 | #可控生成 #多轨道 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Xiaoyu Yi(北京大学信息科学与技术学院,MBZUAI 音乐实验室) 通讯作者:未明确说明(论文中未使用“通讯作者”标识) 作者列表:Xiaoyu Yi(北京大学信息科学与技术学院,MBZUAI 音乐实验室)、Qi He(MBZUAI 音乐实验室)、Gus Xia(MBZUAI 音乐实验室)、Ziyu Wang(纽约大学柯朗数学科学研究所,MBZUAI 音乐实验室) 💡 毒舌点评 亮点:将“画图”这一直观操作引入多轨道音乐的“织体”控制,比提供抽象的潜在变量或文本描述更贴近人类作曲思维,解决了实际创作中的一个痛点。短板:ViTex的基于规则的织体特征提取(如静音比例阈值0.3)显得有些“手工匠气”,可能难以捕捉和表达更复杂、更主观的音乐织体,且离散化的视觉表示在表达连续性强弱变化时存在固有局限。 🔗 开源详情 代码:提供链接 https://vitex2025.github.io/,论文中声明代码可在该页面获取。 模型权重:论文中未明确提及是否公开预训练模型权重。 数据集:使用了公开的Lakh MIDI和Meta MIDI数据集,但提供了具体的筛选条件和最终规模(7175首)。论文未提及是否公开其筛选处理后的子集。 Demo:论文中声明提供了Demo页面,链接为 https://vitex2025.github.io/。 复现材料:提供了详细的训练设置(优化器、学习率、batch size、调度策略)、数据处理工具(muspy)、硬件环境(4 H100 GPU)、以及关键的模型架构图和条件表示细节。 论文中引用的开源项目:使用了muspy进行数据处理,引用了GETMusic[8]的吸收态离散扩散框架。 总结:论文提供了较好的开源基础,代码和Demo链接明确,训练细节清晰。但模型权重和处理数据集的公开性未明确说明。 📌 核心摘要 问题:现有的多轨道符号音乐生成系统缺乏一种直观、细粒度的“乐器织体”控制方式,无法让用户直接指定不同乐器在特定音区和时间点如何演奏。 方法:提出ViTex,一种将乐器织体可视化的表示方法(颜色编码乐器,位置编码音高/时间,笔触属性编码局部纹理)。基于此,构建了一个以ViTex和和弦进行为条件的离散扩散模型,使用无分类器引导进行训练,以生成8小节多轨道音乐。 创新点:首次将视觉化的织体表示用于多轨道音乐生成控制;该表示同时支持人类直观操作和作为模型条件;结合离散扩散模型实现了高质量、可控的生成。 实验结果:在Lakh MIDI和Meta MIDI的子集上训练和评估。定量实验(表1)显示,在条件生成任务中,本方法在乐器控制准确率(IA=0.600 vs Q&A-1: 0.584)、和弦准确率(CA=0.875 vs Q&A-1: 0.607)及排列质量(DOA=0.296 vs Q&A-1: 0.188)上均优于基线。无条件生成(表2)在律动相似度(GPS)和排列质量(DOA)上也优于AMT和MMT基线。主观听音测试(图3)表明,在给定乐器的生成任务中,本方法在连贯性、音乐性和创造性评分上均高于基线。 实际意义:为音乐制作人和爱好者提供了一种更自然、更精细的方式来控制AI生成的多声部音乐,有望成为音乐创作辅助工具的新范式。 主要局限性:ViTex表示基于规则,可能无法涵盖所有织体类型;当前仅支持8小节的片段生成;控制维度(音色、音区、密度)虽比之前工作更细,但仍有限。 🏗️ 模型架构 模型整体架构:采用标准的UNet结构(图2),以处理被噪声污染的多轨道钢琴卷帘(pianoroll)xt。模型接收两个额外条件输入:乐器织体特征y1(ViTex)和和弦进行y2。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 223 words

MAGIC-TTS: Fine-Grained Controllable Speech Synthesis with Explicit Local Duration and Pause Control

📄 MAGIC-TTS: Fine-Grained Controllable Speech Synthesis with Explicit Local Duration and Pause Control #语音合成 #流匹配 #零样本 #可控生成 ✅ 7.5/10 | 前25% | #语音合成 | #流匹配 | #零样本 #可控生成 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Jialong Mai(华南理工大学) 通讯作者:Xiaofen Xing(华南理工大学) 作者列表:Jialong Mai(华南理工大学)、Xiaofen Xing(华南理工大学)、Xiangmin Xu(华南理工大学) 💡 毒舌点评 亮点在于它系统性地解决了TTS中“token级时长控制”这个长期被忽略的痛点,并通过精巧的条件注入和高置信度数据监督,实现了从“全局语速”到“单字时长”的可控性飞跃,为有声读物、语音导航等应用提供了新工具。短板是论文在展示“控制力”的同时,未能充分证明其“合成力”——即与当前顶尖的零样本TTS模型(如CosyVoice 2)相比,其默认语音的自然度和表现力是否依然具有竞争力,这使得其实际应用价值打上了一个问号。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开模型权重。 数据集:论文中详细描述了其构建的数据集(CPT语料和SFT高置信度子集),但未提及是否公开或如何获取。 Demo:未提及在线演示。 复现材料:论文提供了较为详细的训练细节(如模型配置、优化器参数、训练步数、硬件信息)和消融实验设置,附录中包含额外分析,这有助于理解方法,但不足以完全复现,因为缺少核心代码和数据。 论文中引用的开源项目:依赖的开源工具/模型包括:F5-TTS(骨干网络)、Stable-ts(用于时序标注)、Montreal Forced Aligner (MFA)(用于高置信度标注)、Vocos(声码器)、Emilia(数据集)、MNV-17 ASR模型(用于转录)。 📌 核心摘要 问题:现代文本到语音(TTS)系统普遍缺乏对单个token(字/音素)级别内容时长和停顿的精确、显式控制能力,现有控制通常仅限于句子级语速或全局风格,无法满足需要精细节奏控制的场景。 方法核心:本文提出了MAGIC-TTS,首个支持显式token级时长和停顿控制的TTS模型。其核心是在一个基于流匹配(Flow Matching)的零样本TTS骨干网络上,通过可学习的残差向量将token级的时长和停顿数值作为显式条件注入文本表示。同时,设计了高置信度时长监督数据构建流程(交叉验证Stable-ts与MFA对齐)和训练机制(零值校正、控制缺失鲁棒性训练)来确保控制的可靠性。 创新点:a) 首次实现显式、可解释的token级内容时长与停顿控制;b) 提出了结合大规模弱监督和高置信度交叉验证的时长数据构建方法;c) 通过零值校正和随机丢弃训练,平衡了可控合成与默认高质量合成。 主要实验结果:在时序控制基准测试中,提供显式控制后,内容时长MAE从36.88ms降至10.56ms,相关性从0.588升至0.918;停顿MAE从18.92ms降至8.32ms。在局部编辑场景测试中,模型能以低偏差(内容17.60ms,停顿23.33ms)将编辑区域向目标值调整。消融实验证明了零值校正和高置信度监督的有效性。 实际意义:使TTS系统能够支持需要精确节奏控制的应用,如导航语音的局部强调、有声读物的节奏引导、无障碍场景下的代码朗读等,提升了语音合成的可编程性和实用性。 主要局限性:a) 未与当前SOTA的零样本TTS模型在合成自然度、说话人相似度等核心指标上进行对比,无法评估其在通用合成质量上的水平;b) 评估主要基于中文数据,缺乏多语言验证;c) 未开源代码和模型,复现门槛高。 🏗️ 模型架构 MAGIC-TTS建立在一个基于条件流匹配(Conditional Flow Matching)的非自回归零样本TTS骨干网络(具体为F5-TTS)之上。其核心创新在于对文本侧条件表示的增强,以注入显式时序控制。 ...

2026-04-24 · 更新于 2026-05-19 · 3 min · 439 words

语音/音频论文速递 2026-04-24

语音/音频论文速递 2026-04-24 共分析 21 篇论文 ⚡ 今日概览 📥 抓取 21 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 3篇 ███ #语音合成 3篇 ███ #语音情感识别 2篇 ██ #音频生成 1篇 █ #音频安全 1篇 █ #语音翻译 1篇 █ #音乐理解 1篇 █ #语音生物标志物 1篇 █ 📊 论文评分排行榜(20 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Prosody as Supervision: Bridging the Non-Verbal–Verbal 8.0分 前25% #语音情感识别 🥈 Do LLM Decoders Listen Fairly? Benchmarking How Languag 7.5分 前25% #语音识别 🥉 MAGIC-TTS: Fine-Grained Controllable Speech Synthesis w 7.5分 前25% #语音合成 4. Materialistic RIR: Material Conditioned Realistic RIR G 7.5分 前25% #音频生成 5. Evaluation of Automatic Speech Recognition Using Genera 7.5分 前25% #语音识别 6. Misinformation Span Detection in Videos via Audio Trans 7.5分 前25% #音频安全 7. Preferences of a Voice-First Nation: Large-Scale Pairwi 7.5分 前25% #语音合成 8. Hierarchical Policy Optimization for Simultaneous Trans 7.5分 前25% #语音翻译 9. Beyond Rules: Towards Basso Continuo Personal Style Ide 7.0分 前50% #音乐理解 10. Time vs. Layer: Locating Predictive Cues for Dysarthric 7.0分 前25% #语音生物标志物 11. ATRIE: Adaptive Tuning for Robust Inference and Emotion 7.0分 前25% #语音合成 12. Video-Robin: Autoregressive Diffusion Planning for Inte 7.0分 前25% #音乐生成 13. “This Wasn’t Made for Me”: Recentering User Experience 7.0分 前50% #语音识别 14. Dilated CNNs for Periodic Signal Processing: A Low-Comp 6.5分 前50% #语音增强 15. DiariZen Explained: A Tutorial for the Open Source Stat 6.5分 前50% #说话人分离 16. Full-Duplex Interaction in Spoken Dialogue Systems: A C 6.5分 前25% #语音对话系统 17. Sema: Semantic Transport for Real-Time Multimodal Agent 6.5分 前50% #实时处理 18. AUDITA: A New Dataset to Audit Humans vs. AI Skill at A 6.5分 前50% #音频问答 19. MER 2026: From Discriminative Emotion Recognition to Ge 6.0分 前50% #语音情感识别 20. Low-Rank Adaptation Redux for Large Models 5.5分 前50% #大语言模型 21 Phonological Subspace Collapse Is Aetiology-Specific an N/A - - 📋 论文列表 🥇 Prosody as Supervision: Bridging the Non-Verbal–Verbal for Multilingual Speech Emotion Recognition 🔥 8.0/10 | 前25% | #语音情感识别 | #领域适应 | #双曲神经网络 #自监督学习 | arxiv ...

2026-04-24 · 更新于 2026-05-19 · 11 min · 2180 words