MimicLM: Zero-Shot Voice Imitation through Autoregressive Modeling of Pseudo-Parallel Speech Corpora

📄 MimicLM: Zero-Shot Voice Imitation through Autoregressive Modeling of Pseudo-Parallel Speech Corpora #语音转换 #自回归模型 #强化学习 #多语言 #工业应用 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Tao Feng (清华大学) 通讯作者:Zhizheng Wu (香港中文大学(深圳)) 其他作者: Yuxiang Wang, Yuancheng Wang, Xueyao Zhang, Dekun Chen, Chaoren Wang (香港中文大学(深圳)) Xun Guan (清华大学) 💡 毒舌点评 亮点:把TTS生成的“垃圾”(合成语音)从训练目标变成训练源,这个“角色交换”的脑回路确实清奇,直接绕过了合成质量天花板,是论文最大的创新点。槽点:虽然思路巧妙,但整个框架依然严重依赖一个高质量的外部TTS系统来生成训练源,33%的数据过滤率也暗示了对TTS质量的敏感性;此外,构建850万对训练数据所需的计算资源(TTS推理+模型训练)恐怕不是一般实验室能承受的,可复现性存疑。 🔗 开源详情 代码:论文在摘要和正文末尾提供了项目页面 (https://fff-ttt.github.io/MimicLM_demo/) 和 GitHub Issue 链接,暗示代码可能开源或部分开源。但论文正文中未明确给出GitHub仓库地址。 模型权重:未明确说明是否公开预训练模型权重。 数据集:伪平行训练数据基于公开的Emilia数据集构建,但构建后的850M对数据本身未说明是否公开。 在线Demo:项目页面标题为“MimicLM_demo”,很可能提供在线演示。 引用的开源项目:论文明确依赖并集成了 CosyVoice 2.0 的音频分词器和流匹配解码器,以及 Qwen2.5 的语言模型架构。还使用了 Whisper-large-v3 进行ASR过滤和评估。 📌 核心摘要 这篇论文旨在解决零样本语音模仿任务中高质量平行训练数据稀缺的核心瓶颈。传统方法要么依赖复杂的解耦架构,要么使用合成语音作为训练目标,导致输出质量受限于合成系统的能力。作者提出了一种名为 MimicLM 的新框架,其核心创新在于**“角色交换”的数据构建策略**:使用TTS生成的语音作为训练源,而将真实的录音保留为训练目标。这使得模型能够直接从真实语音分布中学习,突破了合成质量的“天花板”。为应对这一新范式带来的内容保真度挑战和训练-推理分布不匹配问题,论文进一步引入了交错文本-音频建模(通过文本锚点引导内容生成)和基于DPO的偏好对齐(使用真实输入进行后训练以弥合分布差距)。实验表明,MimicLM在自然度、说话人相似度和情感保真度上取得了与SOTA方法竞争甚至更优的结果,尤其在主观评价中表现突出,并有效降低了在真实输入上的词错误率。该工作为语音模仿提供了一种概念更简单、效果显著的新范式。 ...

2026-04-21 · 更新于 2026-06-15 · 3 min · 472 words

Video-Robin: Autoregressive Diffusion Planning for Intent-Grounded Video-to-Music Generation

📄 Video-Robin: Autoregressive Diffusion Planning for Intent-Grounded Video-to-Music Generation #音乐生成 #自回归模型 #多模态模型 #基准测试 #音视频 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Vaibhavi Lokegaonkar(University of Maryland College Park, USA) 通讯作者:Aryan Vijay Bhosale, Vishnu Raj(根据“Corresponding authors”及邮箱 {vlokegao,aryanvib}@umd.edu 推断,均来自 University of Maryland College Park, USA) 其他作者: Gouthaman KV(University of Maryland College Park, USA) Ramani Duraiswami(University of Maryland College Park, USA) Lie Lu(Dolby Laboratories, USA) Sreyan Ghosh(University of Maryland College Park, USA) Dinesh Manocha(University of Maryland College Park, USA) 💡 毒舌点评 亮点在于巧妙地将自回归模型的“宏观规划”能力和扩散模型的“细节雕刻”能力缝合在一起,解决了视频配乐中“既要懂视频又要听指挥”的痛点,还顺手做了个挺专业的评测基准ReelBench。槽点是缝合的“线”(如FSQ, RITE)都是现成的,而且目前只能给10秒短片配乐,离给一部电影完整配乐的“终极梦想”还有不小的距离,更像是个精致的概念验证版。 ...

2026-04-21 · 更新于 2026-06-15 · 2 min · 421 words

Towards Fine-grained Temporal Perception: Post-Training Large Audio-Language Models with Audio-Side Time Prompt

📄 Towards Fine-grained Temporal Perception: Post-Training Large Audio-Language Models with Audio-Side Time Prompt #音频理解 #音频事件检测 #音频大模型 #强化学习 #自回归模型 🔥 评分:8.3/10 | arxiv 👥 作者与机构 第一作者:Yanfeng Shi(中国科学技术大学,语音及语言信息处理国家工程研究中心) 通讯作者:Lirong Dai(中国科学技术大学,语音及语言信息处理国家工程研究中心),Yan Song(中国科学技术大学,语音及语言信息处理国家工程研究中心) 其他作者: Pengfei Cai(中国科学技术大学,语音及语言信息处理国家工程研究中心) Jun Liu(中国科学技术大学,语音及语言信息处理国家工程研究中心) Qing Gu(中国科学技术大学,语音及语言信息处理国家工程研究中心) Nan Jiang(中国科学技术大学,语音及语言信息处理国家工程研究中心) Ian McLoughlin(新加坡科技学院,ICT Cluster) 💡 毒舌点评 亮点在于巧妙地将“时间戳”伪装成一种特殊的“语言令牌”塞进音频特征序列里,让模型像读句子一样“读”出时间坐标,再用强化学习直接对齐音频事件检测的黄金指标,思路清晰且有效。槽点是这方法有点“取巧”,时间提示的窗口(0-30秒)和分辨率(0.04秒)是硬编码的,遇到更长或需要更高精度的音频就抓瞎,而且强化学习那套调参和训练效率的“玄学”问题,论文里轻描淡写了。 🔗 开源详情 代码:论文标题下方提到了“GitHub Issue”链接,但正文中未明确给出代码仓库地址。推测代码可能已开源或计划开源,但当前信息不明确。 模型权重:论文中未提及是否公开发布训练后的模型权重。 数据集:实验使用了公开数据集FTAR和DESED,论文中提供了训练集和测试集规模。 预训练权重:基于开源的LALM(Qwen2-Audio, Qwen2.5-Omni)进行后训练。 在线Demo:论文中未提及。 依赖的开源项目:论文中明确提到的开源模型/工具有:Qwen2-Audio, Qwen2.5-Omni, Whisper(作为音频编码器), LoRA(用于高效微调), GRPO(强化学习算法)。 📌 核心摘要 这篇论文旨在解决大型音频语言模型(LALM)在细粒度时间感知(如精确定位声音事件的起止时间)上的不足。作者提出了TimePro-RL框架,其核心是两步走策略:首先,提出音频侧时间提示(ASTP),将时间戳编码为特殊令牌并交织插入音频特征序列中,为模型提供明确的物理时间坐标;其次,在监督微调(SFT)后,引入基于强化学习(RL) 的后训练阶段,并设计了一种自适应时间奖励机制(结合事件F1分数和连续辅助奖励如mIoU),直接优化模型的时间对齐性能。实验表明,该方法在音频定位、声音事件检测和密集音频描述三个任务上,相比多种基线模型取得了显著提升,尤其在高精度时间定位指标上优势明显。局限性在于时间提示的范围和分辨率固定,且RL训练增加了复杂度。 🏗️ 模型架构 整体流程:模型基于现有的LALM(如Qwen2-Audio, Qwen2.5-Omni),其核心架构为音频编码器 + 大语言模型(LLM)。TimePro-RL通过修改输入模态和训练目标来增强其时序能力。 输入输出流程: 输入:一段原始音频波形 + 一个自然语言查询(例如:“火车道口铃声何时响起?”)。 音频编码:音频通过预训练的音频编码器(如Whisper)处理,输出一个音频特征序列(<AUDIO> tokens)。假设编码器帧率为25Hz,即每0.04秒输出一个特征向量。 时间提示注入:这是核心修改。在预处理阶段,根据音频时长和帧率,生成一系列时间戳令牌(Timestamp Tokens),如<0.04>, <0.08>等。这些令牌被交织插入到音频特征序列的对应时间位置上,形成新的输入序列:<s> <audio> <AUDIO> <0.04> <AUDIO> <0.08> <AUDIO> ... </audio> 当何时发生? </s>。 嵌入层处理: 音频特征:通过音频编码器映射为音频嵌入。 时间戳令牌:通过一个时间戳嵌入层映射为向量。该嵌入层采用语义初始化:每个时间戳嵌入向量初始化为其数字字符串(如“0.04”)经LLM原始分词器分词后,对应子词嵌入的均值。训练时,此嵌入层参数被冻结。 文本令牌:通过文本嵌入层映射为文本嵌入。 LLM处理:上述混合嵌入序列(音频+时间戳+文本)被送入大语言模型(自回归Transformer)。 输出:模型自回归地生成文本响应,格式根据任务而定(如{"query": [5.0, 6.0]})。 关键设计理由: ...

2026-04-19 · 更新于 2026-06-15 · 2 min · 387 words