SegTune: Structured and Fine-Grained Control for Song Generation

📄 SegTune: Structured and Fine-Grained Control for Song Generation #音乐生成 #生成模型 #多模态模型 #数据增强 #参数高效微调 8.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.5/10 | 前25% | #音乐生成 | #数据增强 | #生成模型 #多模态模型 | arxiv 👥 作者与机构 Yuejiao Wang, Zihao Ji, Pengfei Cai, Xu Li, Haorui Zheng, Zewen Song, Zhongliang Liu, Chen Zhang, Pengfei Wan。机构为Kling Team, Kuaishou Technology;University of Science and Technology of China;Peking University。论文在Kuaishou Technology的Kling Team实习期间完成。 ...

2026-06-03 · 更新于 2026-06-16 · 3 min · 451 words

SiamCTC: Learning Speech Representations through Monotonic Temporal Alignment

📄 SiamCTC: Learning Speech Representations through Monotonic Temporal Alignment #自监督学习 #语音识别 #数据增强 7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7/10 | 前50% | #语音识别 | #自监督学习 | #数据增强 | arxiv 👥 作者与机构 作者:SooHwan Eom, Mark Hasegawa-Johnson, Chang D. Yoo 机构:Korea Advanced Institute of Science and Technology (KAIST), University of Illinois Urbana-Champaign (UIUC) ...

2026-06-03 · 更新于 2026-06-16 · 2 min · 328 words

SketchSong: Hierarchical Song Generation with Sketch Planning and Fine-Grained Multi-Track Modeling

📄 SketchSong: Hierarchical Song Generation with Sketch Planning and Fine-Grained Multi-Track Modeling #音乐生成 #音频生成 #多模态模型 #数据增强 #低资源 8.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 8.6/10 | 前25% | #音乐生成 | #数据增强 | #音频生成 #多模态模型 | arxiv 👥 作者与机构 论文作者:Xiaoyue Duan, Nanxing Hu, Yutang Feng, Xudong Yan, Jiatao Chen, Jinchao Zhang, Jie Zhou 机构:腾讯微信AI模式识别中心 (Pattern Recognition Center, WeChat AI, Tencent Inc.) 通讯作者:Jinchao Zhang (†Work done during an internship at WeChat AI, Tencent Inc. ‡Corresponding author) 💡 毒舌点评 这篇工作在概念层面抓住了当前歌曲生成模型的两个痛点:宏观结构规划不足和伴奏部分建模粗糙。提出的“草图规划”和“四轨建模”思路直接、清晰,且能互补。实验设计比较扎实,消融研究有力地支撑了各自组件的贡献。然而,方法的工程实现存在明显的“补丁”感,尤其是第二阶段多轨道模型却沿用第一阶段(或基线)为混合信号训练的伴奏解码器,这就像声称做了精细分轨烹饪,最后却用同一个大锅炒在一起,严重削弱了“细粒度”声称的冲击力。论文在局限性部分诚实地指出了这一点,但这也使得其作为一项完整工作的贡献打了折扣。与经过充分后训练(如DPO、对齐优化)的开源系统相比,本系统在部分主观指标上仍有差距,这进一步说明了其“潜力”与“现状”的差距。总体而言,这是一篇扎实的系统性工作,但缺乏一个令人惊艳的、完全自洽的闭环。 ...

2026-06-03 · 更新于 2026-06-16 · 5 min · 933 words

SoulX-Transcriber: A Robust End-to-End Framework for Multi-Speaker Speech Transcription

📄 SoulX-Transcriber: A Robust End-to-End Framework for Multi-Speaker Speech Transcription #语音识别 #说话人日志 #大语言模型 8.8/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 8.8/10 | 前50% | #语音识别 | #说话人日志 | #大语言模型 | arxiv 👥 作者与机构 作者: Yuhang Dai (共同贡献), Haopeng Lin (共同贡献), Zhennan Lin, Jiale Qian, Jun Wu, Hanke Xie, Hao Meng, Hanlin Wen, Chuang Ding, Shunshun Yin, Ming Tao, Lei Xie, Xinsheng Wang (通讯作者) 机构: Audio, Speech and Language Processing Group (ASLP@NPU), Northwestern Polytechnical University, Xi’an, China Soul AI Lab, China Moonstep AI, China 💡 毒舌点评 这篇技术报告(Technical Report)展示了一个工程能力扎实的系统。优点是端到端的思路清晰,两阶段训练的动机明确,且在公开基准上取得了SOTA或极具竞争力的结果,尤其是长语音和中文场景。数据生成管线的细节描述相当详尽,是重要的工程贡献。然而,作为一篇论文投稿,其“新意”和“深度”略显不足。模型架构本身(基于Qwen3-Omni)并非原创,核心创新在于将多个说话人相关任务(STP, TSER, SV)整合到预训练阶段,这更像是一个精心设计的“训练技巧”组合,而非理论上的突破。最大的软肋在于依赖大量未公开的内部数据集,这严重削弱了结论的普适性和工作的可复现性。此外,缺乏对关键组件(如多任务预训练中各任务贡献)的消融研究,使得我们无法判断哪些部分真正有效。最终,这篇工作更像是一份优秀的工程实践报告,而非一篇能推动该领域基础认知前进的学术论文。 ...

2026-06-03 · 更新于 2026-06-16 · 3 min · 454 words

SpeakerCard-1M: An Evidence-Grounded Speaker Card Corpus for In-the-Wild Speaker Verification

📄 SpeakerCard-1M: An Evidence-Grounded Speaker Card Corpus for In-the-Wild Speaker Verification #说话人验证 #多模态模型 #数据集 #自监督学习 #预训练 7.4/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.4/10 | 前25% | #说话人验证 | #自监督学习 | #多模态模型 #数据集 | arxiv 👥 作者与机构 Junyi Peng, Oldřich Plchot, Xiao Song, Dading Chong, Lichun Fan, Hang Su, Themos Stafylakis, Junjie Li, Kong Aik Lee, Shuai Wang, Jan Černocký (论文未在摘要中提供具体机构,通常包括布拉格捷克技术大学、小米、OPPO等) ...

2026-06-03 · 更新于 2026-06-16 · 3 min · 508 words

Speech Emotion Recognition using Attention-based LSTM-Network with Residual Connection

📄 Speech Emotion Recognition using Attention-based LSTM-Network with Residual Connection #语音情感识别 7.5/10 | 创新 1/2 | 严谨 1.1/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.5/10 | 前50% | #语音情感识别 | #语音情感识别 | arxiv 👥 作者与机构 作者:Daniil Krasnoproshin, Maxim Vashkevich。论文未明确提及作者所属机构。 💡 毒舌点评 这篇论文的工作像一位严谨的工程师在解决一个明确的工程问题:如何用更少的参数做语音情感识别。它没有追求花哨的理论创新,而是扎实地将“残差连接”这个成熟技巧移植到了LSTM-SA框架上,并在单一数据集上做了充分的对比实验。优点在于实验设计(严格说话人独立划分、多次运行报告均值和标准差、贝叶斯超参优化)相对规范,结论清晰。缺点是格局较小:模型比较的“天花板”是那些较老的CNN方法,对标的“轻量级”最新工作缺失;应用场景的“边缘设备”部署只停留在口头,没有任何推理速度、功耗的实证数据。总的来说,是一篇合格的、完成度较高的应用型短文,但离顶会级别的“重大贡献”还有显著距离。 📌 核心摘要 本文提出了一种用于语音情感识别的轻量级架构 ResLSTM-SA。该架构在经典的 LSTM + 软注意力机制(LSTM-SA)基础上,增加了一个隐藏层维度与输入特征维度相匹配的初始 LSTM 层,并引入残差连接,以增强时序特征的建模能力。在 RAVDESS 数据集上,采用严格的说话人独立划分进行评估,并使用贝叶斯超参数优化寻找最佳配置。最佳变体 ResLSTM-SA-h64 仅用 46.8k 参数,取得了 0.6232 的平均 UAR(最高 0.6517),在参数效率上显著优于基线 LSTM-SA 模型和一些更大的 CNN 模型,与大规模自监督模型相比,在精度上存在差距但具有显著的参数优势。 ...

2026-06-03 · 更新于 2026-06-16 · 3 min · 459 words

Stable Hybrid Cross-Attention Fusion for Audio-Visual Event Recognition

📄 Stable Hybrid Cross-Attention Fusion for Audio-Visual Event Recognition #自监督学习 6.7/10 | 创新 0.8/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ✅ 6.7/10 | 后50% | #自监督学习 | #自监督学习 | arxiv 👥 作者与机构 Parinaz Binandeh Dehaghani, Danilo Pena, A. Pedro Aguiar. 论文未明确提及作者所属机构。 💡 毒舌点评 这篇论文就像一份工整但缺乏野心的毕业设计。它系统地将几个成熟的组件(冻结的预训练骨干、FiLM、交叉注意力、Transformer)拼接在一起,在一个老旧且规模不大的数据集(AVE)上刷出了比简单基线高一点点的数字。作者不断强调“稳定”和“高效”,但效率提升主要来自缓存特征——这几乎是把模型从端到端训练中开除出去的取巧做法,值得这么吹吗?论文的核心弱点在于其极度保守的实验:与之对比的baseline弱得可怜,连自己引为相关工作的MAFnet都不敢直接比。声称面向“智能城市监控”,却连一个真实场景的验证都没有,纯属画饼。这种缺乏挑战性和深度的工作,很难让顶会的审稿人提起兴趣。 📌 核心摘要 本文针对音频-视觉事件识别任务,提出了一种稳定的混合交叉注意力融合框架。该框架的核心思想是:利用冻结的预训练VideoMAE和AST模型作为固定的特征提取器,并离线缓存其特征,以提升训练效率和稳定性。在融合阶段,首先通过FiLM(Feature-wise Linear Modulation)机制,利用视觉特征对音频特征进行条件化调制,注入初步的跨模态信息。随后,通过双向交叉注意力模块(音频查询视觉、视觉查询音频)实现更深度的模态间交互。这些交互后的特征被拼接并输入一个多模态Transformer编码器,以联合建模时序依赖和跨模态关联。最后,通过一个模态-时间注意力机制,自适应地加权聚合所有时空位置的特征,得到最终的表示用于分类。实验在AVE数据集上进行,通过五次独立随机种子评估,结果表明该框架在准确率、平衡准确率、F1值等指标上均优于单模态和简单拼接融合的基线,同时训练时间仅有小幅增加。论文的核心贡献在于提出了一个结合了冻结骨干、缓存特征和混合交叉注意力的完整融合流水线。 🔗 开源详情 代码:论文中未提及提供自己实现的代码链接。 模型权重: VideoMAE (视觉骨干): 引用预训练权重 https://huggingface.co/MCG-NJU/videomae-base AST (音频骨干): 引用预训练权重 https://huggingface.co/MIT/ast-finetuned-audioset-10-10-0.4593 数据集:论文中未提及具体下载链接或开源协议。仅提及使用AVE (Audio-Visual Event) 数据集。 Demo:论文中未提及。 复现材料:论文中未提及提供训练配置文件、融合模块模型检查点或详细的复现文档。仅在“Implementation Details”部分描述了超参数。 论文中引用的开源项目:与预训练骨干链接相同。 🏗️ 方法概述和架构 本文提出的稳定混合交叉注意力融合框架(Stable Hybrid Cross-Attention Fusion Framework)包含四个主要阶段:视觉特征提取、音频特征提取、FiLM音频条件化,以及稳定的混合交叉注意力融合与模态-时间注意力。其总体架构如图1所示。 ...

2026-06-03 · 更新于 2026-06-16 · 2 min · 399 words

SVHalluc: Benchmarking Speech-Vision Hallucination in Audio-Visual Large Language Models

📄 SVHalluc: Benchmarking Speech-Vision Hallucination in Audio-Visual Large Language Models #语音识别 #多模态模型 8.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.7/10 | 前25% | #语音识别 | #多模态模型 | arxiv 👥 作者与机构 作者:Chenshuang Zhang, Kyeong Seon Kim, Chengxin Liu, Tae-Hyun Oh 机构:KAIST 💡 毒舌点评 这篇论文填补了一个明显但重要的空白:当前的音频-视觉幻觉基准大多盯着狗叫警笛,而忽略了更复杂、更日常的语音内容本身可能引发的“胡说八道”。作者很敏锐地抓住了这一点。然而,作为一个基准测试论文,它的“方法”本质上是一套精心设计的问卷和数据构建流水线,技术深度有上限。最大的槽点在于数据集完全依赖YouCook2,这意味着评测场景被锁定在“厨房教学解说”这一高度同质化的模式上,对现实世界中多变的语音风格(对话、旁白、嘈杂环境)和视频内容的泛化能力存疑。所有任务都用选择题,这更像是在测“辨别力”而非真正的“生成式幻觉”,可能高估了模型在实际对话场景中的可靠性。尽管如此,它系统性地揭示了开源模型在语音-视觉对齐上的无能,以及与商业模型的巨大鸿沟,这点功劳必须认可。 📌 核心摘要 本文指出,现有的音频-视觉大语言模型(AV-LLMs)幻觉基准主要评估环境声音(如狗叫)引发的幻觉,忽略了人类语音内容本身蕴含的丰富语义和时间结构可能导致的、更根本的跨模态对齐失败。为此,作者提出了SVHalluc,这是首个专门评估AV-LLMs中语音-视觉幻觉的综合基准。该基准从“语义幻觉”和“时间幻觉”两个互补维度进行诊断,并分别为每个维度设计了三个由粗到细的任务(共六个)。在六个开源及商业AV-LLMs上的零样本评估表明,开源模型在多个任务上表现接近随机猜测,而Gemini 2.5 Pro显著优于所有开源模型,揭示了巨大差距。深入分析表明,模型失败的根源在于有限的跨模态信息整合与推理能力,而非单模态感知(如语音识别)的不足。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及具体模型权重的下载链接。论文评估了多个开源模型(Qwen3-Omni, Qwen2.5-Omni, video-SALMONN 2, VideoLLaMA 2)和商业模型(Gemini 2.5 Pro),但未提供它们的HuggingFace或ModelScope链接。 数据集:论文构建了名为 SVHalluc 的基准数据集。该数据集基于公开的 YouCook2 数据集构建,使用了其验证集,并通过自动化流程(使用Whisper模型进行语音转写,GPT模型辅助生成负样本)进行增强。论文中未提供SVHalluc数据集本身的直接下载链接,但提供了项目主页:https://chenshuang-zhang.github.io/projects/svhalluc/,可能包含获取信息。 Demo:论文中未提及。 复现材料: 数据集构建细节:论文详细描述了SVHalluc数据集的自动构建流程,包括使用GPT模型提取动作和对象的提示词(见附录B)、数据集质量控制策略(见附录C)。 评估指标:对于二分类任务,报告了准确率、精确率、召回率和F1分数;对于多分类任务,报告了准确率。 实验设置:论文明确指出所有评估均在零样本(zero-shot)设置下进行,无需额外训练。 论文中引用的开源项目: YouCook2: 数据集。论文中用于构建SVHalluc基准。未提供直接链接。 Whisper: 自动语音识别模型。论文中用于获取视频的语音转录文本。项目链接:https://github.com/openai/whisper Silero-VAD: 语音活动检测模型。论文中用于生成语音活动检测的伪标签,以评估模型的时间定位能力。项目链接:https://github.com/snakers4/silero-vad 🏗️ 方法概述和架构 本文提出的方法是构建名为SVHalluc的基准测试,用于诊断AV-LLMs中的语音-视觉幻觉。其核心架构与流程可分为两个主要部分:基准任务设计和数据集构建流水线。 ...

2026-06-03 · 更新于 2026-06-16 · 2 min · 375 words

The DeepSpeak-Agentic Dataset

📄 The DeepSpeak-Agentic Dataset #语音合成 #语音识别 #多模态模型 8.7/10 | 创新 1.6/2 | 严谨 1/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.7/10 | 前50% | #语音合成 | #语音识别 | #多模态模型 | arxiv 👥 作者与机构 Sarah Barrington (University of California, Berkeley), Maty Bohacek (Stanford University), Hany Farid (University of California, Berkeley). *表示共同第一作者。 💡 毒舌点评 这篇论文做了一件重要且及时的事:为快速兴起的实时交互式AI代理建立一个大规模、多模态的数据集。数据集本身(37小时视听对话)和为构建它而设计的自动化系统是主要贡献。然而,审稿人必须指出几个显著的短板。首先,论文的核心技术挑战——代理的响应延迟(平均3.79秒)——只是被报告了,却没有进行任何优化尝试或深入分析其对交互质量和检测的影响,这使其“基准”意义打折扣。其次,实验评估部分虽全面,但对数据集特性的挖掘不够深入。例如,论文提到了人类判断的线索,但未深入分析不同线索(如视觉、听觉、对话模式)在不同代理配置或场景下的出现频率差异。再者,论文自称解决了“实时交互”的记录问题,但方法概述部分对系统架构的描述过于简略,缺乏关键组件(如会话同步、错误处理、延迟补偿)的细节,使得“可扩展自动化系统”的 claim 缺乏足够的技术支撑。最后,关于隐私、伦理的讨论仅停留在“IRB批准”和“内容审核”层面,对于公开发布包含人脸、声音的对话数据可能引发的长期风险(如声音克隆、行为模仿)的深入探讨缺失。总体而言,这是一个好的资源论文,但在技术深度和反思性上仍有不足。 📌 核心摘要 本文介绍了DeepSpeak-Agentic数据集,这是一个包含200个、超过37小时实时交互式人机对话的视听数据集,旨在为研究快速发展的具身AI代理提供一个基准。作者构建了一个可扩展的自动化数据采集系统,该系统能随机组合不同的LLM(如Llama-4, GPT-4o)、合成语音(ElevenLabs等)和视觉形象(Tavus, HeyGen)来创建AI代理,并与通过Prolific招募的人类参与者进行随机配对对话。对话内容涵盖四种场景。基于该数据集的分析表明:1)人类能快速识别AI代理(80.5%在10秒内),主要线索是不自然的动作和声音;2)现有取证检测器表现不佳,最佳音频和视频检测器的等错误率(EER)分别高达23%和33%,仅文本检测器(Desklib)表现良好(EER 8%)。该数据集公开发布,可用于多模态取证评估、人机交互研究以及未来AI代理的基准测试。 ...

2026-06-03 · 更新于 2026-06-16 · 2 min · 333 words

Tonal parsimony in chord-sequence analysis: combining modulation cost and tonal vocabulary

📄 Tonal parsimony in chord-sequence analysis: combining modulation cost and tonal vocabulary #音乐信息检索 8.1/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.6/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.1/10 | 前25% | #音乐信息检索 | #音乐信息检索 | arxiv 👥 作者与机构 作者:François Pachet 机构:LIP6, Sorbonne Université, Paris, France; Ynosound, Paris, France 💡 毒舌点评 一篇音乐领域的理论计算机科学作业。核心思想是给“让分析用的调音盘尽量小”这个音乐家的朴素直觉穿上形式化外衣,并为这个特定宇宙(24个大小调)设计了一个专用的DP算法。论文把“优化”这个动作拆解成了三个清晰的任务(最小化转场、最小化调性数、字典序最小化),这很工程化,也很清晰。问题在于,它声称的“通用性”和“重要性”在音乐这个非常依赖具体音律和实践的领域要打折扣。实验做得扎实,但更像是在验证一个精巧工具的边界,而非解决一个根本性的难题。爵士和弦替换规则那一段很有实用价值,是论文最接地气的部分。 📌 核心摘要 本文研究为和弦序列分配局部调性的问题。针对传统动态规划方法仅最小化调制次数(转场)可能引入不必要多调性中心的局限,本文提出了“调性简约性”准则,即在字典序上首先最小化调制次数(\(C\)),然后最小化使用的不同调性数量(\(K\))。尽管该联合目标在一般情况下是组合困难的,但论文利用固定24个大小调调性宇宙的特性,设计了精确的动态规划算法。此外,论文提出了一种加权的爵士和弦替换闭包层,用于在优化前扩充每个和弦的候选调性域。在LMD Chords语料库和专业标注的爵士标准曲上的实验表明,该方法能够在保持最小调制次数的同时,有效减少分析所需的调性数量,并取得与专家标注更高的和弦-音阶一致性。 🔗 开源详情 代码:论文中未提供代码链接。 模型权重:论文中未提及。 数据集: LMD Chords:由 Holloway (2025) 提供,可从 https://github.com/mdecks/lmd-lp 获取。论文指出这是从 Lakh MIDI Dataset 文件中通过 Chordino 方法提取的和弦符号序列。 Jazz Standards Progressions Book:论文引用为 (Jazz Standards Progressions Book, n.d.),这是一个提供专业注释的爵士标准曲进行库,但论文中未提供具体的获取链接。 Demo:论文中未提及。 复现材料:论文中未提供具体的训练配置、检查点或附录文件链接。论文详细描述了算法和实验设置,并提供了用于验证的MiniZinc模型描述,但未提供可直接下载的复现材料包。 论文中引用的开源项目: MiniZinc:论文中提到用于建立约束优化模型进行验证。链接:https://www.minizinc.org/。 Lakh MIDI Dataset (LMD):论文中提到的数据源。链接:http://colinraffel.com/projects/lmd/。 Chordino:论文中提到用于从LMD文件提取和弦的算法。论文中未提供具体链接。 Jazz Standards Progressions Book:论文中提到用于外部验证的专业爵士标准曲注释库。论文中未提供具体链接。 🏗️ 方法概述和架构 本文的核心方法是解决一个约束优化问题:给定和弦序列 \(c_1, ..., c_n\) 以及每个位置 \(i\) 的候选调性集合 \(T_i \subseteq \mathcal{T}\) (\(|\mathcal{T}|=24\)),选择分析序列 \(x_1, ..., x_n\) (\(x_i \in T_i\)) 以最小化字典序目标 \(\min_{\mathrm{lex}}(C, K)\),其中 \(C(x) = \sum_{i=1}^{n-1} [x_i \neq x_{i+1}]\) 是调制次数,\(K(x) = |\{x_1, ..., x_n\}|\) 是不同调性数量。 ...

2026-06-03 · 更新于 2026-06-16 · 2 min · 362 words