Beyond Decodability: Reconstructing Language Model Representations with an Encoding Probe

📄 Beyond Decodability: Reconstructing Language Model Representations with an Encoding Probe #模型评估 #回归分析 #说话人识别 #特征分析 ✅ 7.5/10 | 前25% | #模型评估 | #回归分析 | #说话人识别 #特征分析 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Gaofei Shen (Tilburg University) 通讯作者:未明确说明(论文提供了所有作者邮箱,但未指定通讯作者。根据惯例,Grzegorz Chrupała 可能为责任作者,但需标注为“未说明”) 作者列表: Gaofei Shen (Tilburg University) Martijn Bentum (Radboud University) Tom Lentz (Tilburg University) Afra Alishahi (Tilburg University) Grzegorz Chrupała (Tilburg University) 💡 毒舌点评 亮点:这篇论文最大的价值在于提供了一个清晰、易用且有统计学支撑的“反向”分析框架(编码探针),巧妙地将特征贡献量化和相关性控制这两个难题捆绑解决,比传统解码探针更能揭示模型内部的“表征预算分配”。 短板:线性回归的假设可能过于简单,难以捕捉Transformer内部复杂的非线性关系,且结论高度依赖于预先定义好的特征集,如果特征集设计有偏,整个分析可能“瞎子摸象”。 ...

2026-05-04 · 更新于 2026-06-22 · 2 min · 258 words

Beyond Instance-Level Alignment: Dual-Level Optimal Transport for Audio-Text Retrieval

📄 Beyond Instance-Level Alignment: Dual-Level Optimal Transport for Audio-Text Retrieval #音频检索 #最优传输 #对比学习 #跨模态 #鲁棒性 ✅ 7.5/10 | 前25% | #音频检索 | #最优传输 | #对比学习 #跨模态 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Wenqi Guo(上海交通大学) 通讯作者:Shikui Tu(上海交通大学),Lei Xu(上海交通大学,广东省人工智能与数字经济实验室(深圳)) 作者列表:Wenqi Guo(上海交通大学)、Shikui Tu(上海交通大学)、Lei Xu(上海交通大学,广东省人工智能与数字经济实验室(深圳)) 💡 毒舌点评 亮点:论文从“特征通道可靠性”这一细粒度视角切入,用最优传输的语言重新定义了跨模态对齐问题,理论推导(集中界分析)为小批次下的不稳定性提供了有说服力的解释,这比单纯堆砌模块更显功力。短板:虽然实验全面,但核心创新(双层对齐+可靠性边际)的物理直觉略显复杂,且声称“特征级OT计算开销可忽略”这一论断,在真实部署场景(如视频检索、超长音频)下的泛化能力值得商榷。 🔗 开源详情 代码:论文中未提及代码链接。附录A提供了伪代码,但未指明完整实现代码的发布渠道。 模型权重:未提及。 数据集:使用了公开的AudioCaps、Clotho、ESC-50数据集,但论文中未提供获取链接或特殊处理说明。 Demo:未提及。 复现材料:论文附录提供了极其详细的超参数设置(表6)、训练算法伪代码、理论证明、数据集统计、评估指标定义等,复现所需的信息非常充分。 论文中引用的开源项目:未明确列出。提到了使用预训练的编码器(如ResNet38, BERT, Beats等),但未指定具体版本或来源。 总体评估:论文具备高质量的复现指南,但缺少最直接的开源代码和权重链接,对快速复现构成障碍。论文中未提及明确的开源计划。 📌 核心摘要 问题:现有的跨模态检索方法(如对比学习、逆最优传输IOT)主要进行实例级对齐,隐含假设所有嵌入维度同等重要。在小批次训练中,这种假设会放大噪声和偏差,导致对齐信号不稳定。 方法核心:提出DART(双层对齐鲁棒传输)框架。它在实例级保留IOT目标以对齐样本对,同时引入特征级正则化。该正则化将每个特征维度视为一个分布,并使用非平衡Wasserstein距离(UWD) 来对齐音频和文本的特征分布。此外,设计了可靠性感知边际(RAM),基于方差、峰度和跨模态相关性动态加权特征通道,抑制噪声通道。 与已有方法相比新在哪里:1)超越单一的实例级对齐,增加特征级分布对齐,提供细粒度的正则化。2)RAM能自适应地识别并强调跨模态一致且稳定的语义通道。3)提供了理论分析,证明实例级损失受最大距离控制,而特征级损失受传输计划的Frobenius范数控制,后者在小批次下更鲁棒。 主要实验结果:在AudioCaps和Clotho两个主要基准上,DART在多个编码器设置下均达到或超越SOTA。例如,在AudioCaps(ResNet38+BERT)上,相比最强基线Luong et al. (2024),文本到音频检索R@1提升1.1个百分点,音频到文本提升4.5个百分点。在模拟小批次(k=8, 32)和噪声/半监督标签(20%,40%)的严苛条件下,DART展现出显著更强的鲁棒性。详见下表。 条件 方法 文本->音频 (R@1) 音频->文本 (R@1) 标准设置 (Batch=256, AuC) Luong et al. (2024) 39.10 49.94 DART w/ RAM 41.67 55.27 小批次 (Batch=8, AuC) Luong et al. (2024) 20.44 32.91 DART (LIOT+LUWD) 24.24 35.21 40%噪声标签 (Batch=32, AuC) Luong et al. (2024) 26.20 34.37 DART 29.67 37.09 零样本声音事件检测 (ESC-50) IOT (Luong et al.) - 79.25 (R@1) DART - 80.75 (R@1) 实际意义:该方法为在资源受限(小批次、标注稀缺)或噪声数据环境下的跨模态检索提供了更鲁棒的解决方案,具有实际部署价值。其思想可推广至其他跨模态任务(如图文检索已验证)。 主要局限性:特征级OT的计算复杂度随特征维度平方增长,虽在文中声称开销小,但在超高维嵌入或极大批次下可能成为瓶颈;理论分析基于一系列理想化假设,与实际情况可能有差距。 🏗️ 模型架构 DART是一个端到端的跨模态对齐框架,其核心在于联合优化两个损失:实例级损失($\mathcal{L}{IOT}$)和特征级损失($\mathcal{L}{UWD-R}$)。整体流程如下: ...

2026-05-04 · 更新于 2026-06-22 · 2 min · 411 words

Bridging Piano Transcription and Rendering via Disentangled Score Content and Style

📄 Bridging Piano Transcription and Rendering via Disentangled Score Content and Style #音乐信息检索 #音乐生成 #多任务学习 #扩散模型 #解耦表示学习 🔥 8.0/10 | 前25% | #音乐信息检索 | #多任务学习 | #音乐生成 #扩散模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Wei Zeng (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing) 通讯作者:Ye Wang (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Singapore, Email: dcswangy@nus.edu.sg) 作者列表:Wei Zeng (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing), Junchuan Zhao (National University of Singapore, School of Computing), Ye Wang (National University of Singapore, Integrative Sciences and Engineering Programme, NUS Graduate School; School of Computing) 💡 毒舌点评 亮点:巧妙地将演奏渲染(EPR)和乐谱转录(APT)这两个互逆任务统一到一个解耦表示学习的框架中,不仅提升了两个任务的性能,还为可控的音乐表达(风格迁移、自动推荐)开辟了新路径,理论动机清晰,工程实现完整。 短板:模型本身规模较大(188M参数),且PSR模块需要单独训练和推理,增加了部署复杂性;实验数据主要局限于古典钢琴音乐,其在更广泛音乐流派(如爵士、流行)上的泛化能力未得到验证。 ...

2026-05-04 · 更新于 2026-06-22 · 3 min · 577 words

Can Speech LLMs Think while Listening?

📄 Can Speech LLMs Think while Listening? #语音对话系统 #语音大模型 #微调 #自回归模型 #实时处理 ✅ 7.5/10 | 前25% | #语音对话系统 | #微调 | #语音大模型 #自回归模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yi-Jen Shih(The University of Texas at Austin, Meta Superintelligence Labs) 通讯作者:Michael L. Seltzer(Meta Superintelligence Labs) 作者列表:Yi-Jen Shih(The University of Texas at Austin, Meta Superintelligence Labs)、Desh Raj(Meta Superintelligence Labs)、Chunyang Wu(Meta Superintelligence Labs)、Wei Zhou(Meta Superintelligence Labs)、SK Bong(Meta Superintelligence Labs)、Yashesh Gaur(Meta Superintelligence Labs)、Jay Mahadeokar(Meta Superintelligence Labs)、Ozlem Kalinli(Meta Superintelligence Labs)、Michael L. Seltzer(Meta Superintelligence Labs) 💡 毒舌点评 这篇论文最大的亮点在于将“边听边想”从一个人机交互概念落实为一套可训练、可控制的技术方案,尤其是提出的“问题完整度”指标,巧妙地将语义完备性与生成时机联系起来。然而,一个显眼的短板是,其核心指标“问题完整度”的计算严重依赖于外部LLM(如Llama-3-8B-Chat)的预测概率,这在部署时可能带来额外的计算开销和延迟,且该指标的泛化能力(是否对不同LLM稳定)并未充分验证。 ...

2026-05-04 · 更新于 2026-06-22 · 2 min · 347 words

Can Vision-Language Models Answer Face to Face Questions in the Real-World?

📄 Can Vision-Language Models Answer Face to Face Questions in the Real-World? #音频问答 #基准测试 #多模态模型 #音视频 🔥 8.0/10 | 前25% | #音频问答 | #基准测试 | #多模态模型 #音视频 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Reza Pourreza(Qualcomm AI Research) 通讯作者:未明确说明 作者列表:Reza Pourreza(Qualcomm AI Research), Rishit Dagli(University of Toronto / Qualcomm AI Research), Apratim Bhattacharyya(Qualcomm AI Research), Sunny Panchal(Qualcomm AI Research), Guillaume Berger(Qualcomm AI Research), Roland Memisevic(Qualcomm AI Research) 💡 毒舌点评 论文的亮点在于精准地抓住了当前多模态大模型从“离线理解”走向“实时交互”的关键瓶颈,并构建了一个极具针对性的真实世界问答基准,为社区指明了明确的改进方向。然而,其短板在于数据集规模相对有限(2900条),且核心评估指标依赖LLM judge,可能引入新的评估偏差,而提出的“流式基线”方法相对简单,更多是概念验证而非技术突破。 ...

2026-05-04 · 更新于 2026-06-22 · 2 min · 261 words

Closing the Gap Between Text and Speech Understanding in LLMs

📄 Closing the Gap Between Text and Speech Understanding in LLMs #语音大模型 #知识蒸馏 #主动学习 #大语言模型 #跨模态 🔥 8.5/10 | 前25% | #语音大模型 | #知识蒸馏 #主动学习 | #知识蒸馏 #主动学习 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Santiago Cuervo(Université de Toulon, Aix Marseille Université, CNRS, LIS) 通讯作者:未说明 作者列表:Santiago Cuervo(Université de Toulon, Aix Marseille Université, CNRS, LIS)、Skyler Seto(Apple)、Maureen de Seyssel(Apple)、Richard He Bai(Apple)、Zijin Gu(Apple)、Tatiana Likhomanenko(Apple)、Navdeep Jaitly(Apple)、Zakaria Aldeneh(Apple) 💡 毒舌点评 论文对“文本-语音理解差距”的成因(遗忘与失准)进行了教科书级的清晰剖析,并据此设计了针对性的SALAD方法,数据效率极高,这种“分析驱动解决方案”的范式是最大亮点。然而,其主要验证集中于英语语音,对于跨语言泛化能力和TTS生成质量对下游性能的长期影响讨论不足,是一个有待拓展的短板。 ...

2026-05-04 · 更新于 2026-06-22 · 2 min · 323 words

Compose and Fuse: Revisiting the Foundational Bottlenecks in Multimodal Reasoning

📄 Compose and Fuse: Revisiting the Foundational Bottlenecks in Multimodal Reasoning #多模态推理 #基准测试 #大语言模型 #跨模态 ✅ 7.5/10 | 前25% | #多模态推理 | #基准测试 | #大语言模型 #跨模态 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yucheng Wang, Yifan Hou(苏黎世联邦理工学院计算机系,标注为同等贡献) 通讯作者:Mrinmaya Sachan(苏黎世联邦理工学院计算机系) 作者列表:Yucheng Wang(苏黎世联邦理工学院计算机系)、Yifan Hou(苏黎世联邦理工学院计算机系)、Aydin Javadov(苏黎世联邦理工学院计算机系)、Mubashara Akhtar(苏黎世联邦理工学院计算机系)、Mrinmaya Sachan(苏黎世联邦理工学院计算机系) 💡 毒舌点评 亮点:论文构建了一套精妙的逻辑推理框架,将模态交互分解为六种可控模式,这种“解剖学”式的系统评估在当前多模态评估中少见且有价值。短板:依赖高度简化的合成逻辑数据来揭示“根本瓶颈”,其结论能否无缝迁移到复杂、开放的真实世界多模态推理场景中,存疑。 🔗 开源详情 代码:论文声明代码和数据公开可用(附录提到GitHub仓库),提供了生成脚本和评估协议。 模型权重:未提供。使用的是四个公开的开源模型(Baichuan-Omni, Qwen2.5-Omni, MiniCPM-o, Phi-4 Multimodal)。 数据集:合成数据,论文提供了生成代码,但未提及独立的数据集下载包。 Demo:未提及。 复现材料:提供了详细的实验设置、提示模板(附录A.3)、线性探针设置(附录A.2),复现材料充分。 论文中引用的开源项目:依赖CosyVoice2 TTS进行音频生成,依赖GraphViz进行视觉图表生成,引用了Clark et al. (2020)和Liang et al. (2023)的代码用于事实和规则生成。 📌 核心摘要 要解决什么问题:解决多模态大语言模型(MLLM)在推理时,额外模态有时有帮助、有时有害的矛盾现象,缺乏一个可控的评估框架来隔离分析其内部原因。 方法核心是什么:提出一个基于逻辑推理的评估框架,将多模态交互系统性地分为六种模式(等价、替代、蕴含、独立、矛盾、互补),通过合成数据控制事实信息在模态间的分布与组合逻辑,以隔离不同因素的影响。 与已有方法相比新在哪里:超越了将模型视为黑盒的性能评估,转向对模态交互模式的系统性诊断和内部机制(注意力、层内表征)的探针分析。新在提出了任务组合瓶颈和融合瓶颈这两个核心诊断概念,并通过干预实验验证。 主要实验结果如何: 整体发现:文本单模态基线通常已接近天花板性能。多模态仅在提供独立且充分的推理路径(替代模式)时略有帮助(平均+12.7%至+14.8% vs 视觉/音频单模态基线);冗余信息(等价模式)无益甚至有害;跨模态多跳链(蕴含模式)严重损害性能(平均下降7.1%-12.8%)。 瓶颈诊断:独立模式暴露性能偏差(如文本最强,视觉最弱);矛盾模式暴露偏好偏差(模型在冲突时倾向某些模态,与其自身单模态性能不一致);互补模式暴露融合偏差(性能低于任何单模态基线,平均仅52.0% vs 文本94.6%)。 内部机制分析:注意力模式无法有效编码信息的“有用性”;两步提示法(先识别后推理)显著缓解了任务组合瓶颈;模态身份在早期层高度可辨识,调整早期层注意力温度可改善融合偏差。 实际意义是什么:指明了MLLM的核心障碍在于信息整合而非感知。未来的模型设计应关注组合感知的训练目标、早期融合的控制机制以及显式的证据选择能力。 主要局限性:实验完全基于精心构造的合成逻辑推理任务(单步演绎),其结论是否能泛化到更复杂、更开放的真实世界多模态推理(如视觉问答、文档理解)有待验证。所选模态(文本、TTS音频、图表视觉)过于简化,未涵盖自然图像、视频等更常见的模态。 🏗️ 模型架构 本文并非提出一个新的端到端多模态大语言模型架构,而是提出一个用于诊断现有MLLM推理瓶颈的评估与分析框架。其“架构”主要指实验设置和分析流程。 ...

2026-05-04 · 更新于 2026-06-22 · 2 min · 301 words

Confident and Adaptive Generative Speech Recognition via Risk Control

📄 Confident and Adaptive Generative Speech Recognition via Risk Control #语音识别 #大语言模型 #生成模型 #不确定性量化 ✅ 7.5/10 | 前25% | #语音识别 | #生成模型 | #大语言模型 #不确定性量化 学术质量 6.5/7 | 选题价值 0.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Amit Damri (特拉维夫大学电气与计算机工程学院) 通讯作者:Bracha Laufer-Goldshtein (特拉维夫大学电气与计算机工程学院) 作者列表:Amit Damri (特拉维夫大学电气与计算机工程学院)、Bracha Laufer-Goldshtein (特拉维夫大学电气与计算机工程学院) 💡 毒舌点评 这篇论文把“先学习后测试”这一风险控制工具玩明白了,用在ASR纠错里动态调整假设集大小,理论上很优雅,也确实省了不少计算。但它的“自适应”更像一个聪明的调参模块,而非解决语音识别核心难题的“银弹”,实际部署可能还得先过数据集校准这一关,通用性有待观察。 🔗 开源详情 代码:论文明确提供了代码仓库链接:https://github.com/amitdamritau/adaptive-ger。 模型权重:论文未提及公开模型权重。训练使用的是公开的LLaMA-2-7B/13B模型及LoRA微调,但未提供微调后的权重。 数据集:使用了公开的HyPoradise基准数据集(TedLium-3, CHiME-4, CommonVoice)和FLEURS数据集,论文说明了数据获取方式和划分。 Demo:论文中未提及在线演示。 复现材料:在附录C中提供了详细的LLM训练配置,包括超参数(学习率、batch size、LoRA设置)、提示模板、计算硬件要求。在附录A中提供了风险控制实现的详细算法和参数选择策略。提供了充分的复现信息。 论文中引用的开源项目:Whisper (Radford et al., 2023), LLaMA-2 (Touvron et al., 2023), PEFT库 (Mangrulkar et al., 2022), evaluate库, HyPoradise基准 (Chen et al., 2023), RobustGER (Hu et al., 2024a), GenTranslate (Hu et al., 2024b)。 📌 核心摘要 要解决什么问题:现有的生成式语音识别纠错方法通常为所有输入使用固定数量的候选转录文本(N-best列表),这在简单输入上造成计算浪费,在复杂输入上可能引入低质量候选而降低纠错性能。同时,这些方法缺乏性能的理论保证。 方法核心是什么:提出一个自适应框架,利用ASR模型的置信度分数,动态决定每个音频输入应传递给LLM纠错模型的最优候选假设数量。核心是采用“学习后测试”框架,将候选集大小选择建模为风险控制问题,以可控的方式最小化相对于最佳可能性能(oracle)的预期性能退化。 与已有方法相比新在哪里:首次将无分布假设的风险控制理论(特别是LTT框架)应用于生成式ASR纠错。它从固定的N值选择转变为基于输入复杂度的自适应选择,并提供了预期性能退化有界的高概率理论保证。 主要实验结果如何:在HyPoradise基准的三个数据集(TedLium-3, CHiME-4, CommonVoice)上验证。结果表明,该方法平均可将假设集大小减少23%至52%,同时保持或略微提升(相对WER变化在-0.13%至+2.28%之间)纠错性能。风险控制成功率(超过理论最小值1-δ)得到实证验证。关键结果对比如下表所示: 测试集 GER基线 WER (%) 本文方法 Set Size 本文方法 WER (%) 相对大小减少 相对WER变化 TedLium-3 7.53 2.3 7.52 54% -0.13% CHiME-4 6.24 2.7 6.37 46% +2.06% CommonVoice 8.32 1.9 8.51 62% +2.28% 实际意义是什么:为LLM增强的ASR纠错系统提供了一种高效且可靠的部署策略。通过动态分配计算资源(假设集大小),可以在不损害(甚至可能提升)识别质量的前提下,显著降低推理成本,对实时或资源受限的应用场景有价值。 主要局限性是什么:框架的性能依赖于对分数归一化参数(γ, τ)的先验选择,虽然论文探索了基于熵的自动化选择和Pareto测试的多参数联合优化,但在完全未知的声学条件下部署仍需校准。此外,该方法优化的是假设集选择环节,其效果受限于底层ASR和LLM纠错模型的固有能力。 🏗️ 模型架构 本文提出的不是一个端到端的新模型,而是一个插件式的自适应选择框架,它作用于现有“ASR -> N-best列表 -> LLM纠错”流程中的第二步。 ...

2026-05-04 · 更新于 2026-06-22 · 2 min · 351 words

Continuous Audio Language Models

📄 Continuous Audio Language Models #语音合成 #音乐生成 #自回归模型 #一致性模型 #流匹配 ✅ 7.0/10 | 前25% | #语音合成 | #自回归模型 | #音乐生成 #一致性模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Simon Rouard(Kyutai; UMR STMS, IRCAM-CNRS, Sorbonne Univ.) 通讯作者:未明确说明(Alexandre Défossez 提供了邮箱,且为资深作者,通常为通讯作者) 作者列表: Simon Rouard(Kyutai; UMR STMS, IRCAM-CNRS, Sorbonne Univ.) Manu Orsini(Kyutai) Axel Roebel(UMR STMS, IRCAM-CNRS, Sorbonne Univ.) Neil Zeghidour(Kyutai) Alexandre Défossez(Kyutai) 💡 毒舌点评 论文核心亮点在于其精巧的“双头”架构设计——用带噪声的长上下文Transformer保证生成稳定性,用干净的短上下文Transformer保留细节,并用高效的一致性模型头取代传统的RQ-Transformer,在多个任务上实现了质量与速度的双赢。然而,其宣称的“超越SOTA”在音乐生成等任务上部分依赖于使用自家训练的数据集重新训练的基线模型,且最关键的音乐数据集未开源,这使得最令人兴奋的实验结果难以被独立社区完全验证和比较,削弱了其作为通用方法的说服力。 🔗 开源详情 代码:论文提及了Pocket TTS的代码仓库:github.com/kyutai-labs/pocket-tts。对于CALM主框架的开源情况未在主文明确说明。 模型权重:Pocket TTS模型权重计划通过上述GitHub仓库开源。 数据集:论文使用的主要音乐数据集(LAION-Disco-12M子集)未公开。语音和TTS数据集部分来源公开,但完整混合数据集的获取方式未详细说明。 Demo:提供了示例页面:iclr-continuous-audio-language-models.github.io。 复现材料:提供了详细的超参数设置(表14, 15)、损失函数公式、架构描述和技术报告(kyutai.org/pocket-tts-technical-report)。 论文中引用的开源项目:依赖的开源项目包括:Mimi (Défossez et al., 2024b), Helium-1 (Kyutai, 2025), SentencePiece, Whisper, WavLM, Mistral 7B, CLAP, fairseq等。 📌 核心摘要 问题:当前主流的音频语言模型(ALM)依赖离散化的音频token(如RVQ),这造成了音频质量与计算成本之间的权衡。提高质量需要增加token数量(更高码率),从而导致模型计算负担加重,难以在边缘设备上实现实时高质量生成。 方法:提出连续音频语言模型(CALM),在VAE的连续隐空间中直接建模,避免了量化损失。其架构由三部分组成:1)一个因果Transformer骨干网络,处理长程依赖,并在训练时对输入施加噪声以抑制推理时的误差累积;2)一个轻量级短上下文Transformer,提供局部、干净的细节信息;3)一个基于一致性模型的小型MLP头部,用于快速生成下一个连续帧。 创新:相比先前基于扩散的MAR方法,CALM引入了噪声注入的长上下文与干净短上下文结合的双Transformer设计,并用一致性模型(Consistency Model)取代了扩散头,实现了1步快速采样。此外,还提出了高斯温度采样、潜在分类器自由引导(Latent CFG)和潜在蒸馏等技巧,进一步提升质量和效率。 结果:在语音续写、文本转语音(TTS)和音乐续写三个任务上进行了评估。实验表明,CALM在多个指标上优于强基线。例如,在语音续写中,1步一致性模型在声学质量MOS(3.45)和意义性Elo(2023)上优于8-RVQ的RQ-Transformer基线(2.75,1870),且采样头速度快12.3倍。在音乐续写中,1步一致性模型FAD(0.83)优于32-RVQ基线(1.06),整体速度快2.2倍。最终,通过蒸馏得到的100M参数Pocket TTS模型可在笔记本CPU上实时运行。 意义:为高质量、高效率的音频生成提供了新的范式,摆脱了对离散token的依赖。特别是Pocket TTS证明了在资源受限设备上实现高性能TTS的可行性,具有广泛的应用前景。 局限:论文中的部分最先进对比(如TTS任务中的F5-TTS, DiTAR)并非在同一数据集上复现的结果;音乐生成所用的核心数据集未公开;论文主要关注生成质量与效率,对于模型的可控性、编辑能力等探讨较少。 🏗️ 模型架构 CALM的整体架构如图1所示,主要包含三个核心组件,数据流如下:输入音频序列被预训练的VAE编码器转换为连续隐向量序列。在训练阶段,骨干Transformer处理的是被噪声污染的隐向量历史序列,以增强鲁棒性。短上下文Transformer则处理最近的几个干净隐向量。两者的输出相加,形成条件信号。这个条件信号被送入一致性模型头部,该头部是一个小型MLP网络,负责在给定当前噪声样本和条件信号的情况下,预测下一个干净的隐向量。在推理时,头部仅需一步即可从随机噪声生成下一个隐向量,最后由VAE解码器重建音频。 ...

2026-05-04 · 更新于 2026-06-22 · 3 min · 525 words

CTC-DRO: Robust Optimization for Reducing Language Disparities in Speech Recognition

📄 CTC-DRO: Robust Optimization for Reducing Language Disparities in Speech Recognition #语音识别 #鲁棒性 #多语言 #自监督学习 #基准测试 🔥 9.0/10 | 前25% | #语音识别 | #鲁棒性 | #多语言 #自监督学习 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Martijn Bartelds (斯坦福大学计算机科学系) & Ananjan Nandi (斯坦福大学计算机科学系),并列第一作者 通讯作者:Martijn Bartelds (bartelds@stanford.edu) & Ananjan Nandi 作者列表:Martijn Bartelds (斯坦福大学计算机科学系)、Ananjan Nandi (斯坦福大学计算机科学系)、Moussa Koulako Bala Doumbouya (斯坦福大学计算机科学系)、Dan Jurafsky (斯坦福大学计算机科学系)、Tatsunori Hashimoto (斯坦福大学计算机科学系)、Karen Livescu (丰田技术学院芝加哥分校) 💡 毒舌点评 亮点:论文精准地戳中了将标准Group DRO应用于CTC损失时“损失值不可比”这一致命痛点,并设计了“长度匹配+平滑目标”这套组合拳来解决,理论分析扎实,实验结果显著(最差语言CER降低高达47.1%)。短板:方法虽然有效,但“平滑最大化目标”的启发式成分较重(α参数),其理论最优性证明有限;此外,“长度匹配”依赖一个目标时长的超参数,其敏感性分析在附录中,可能限制其在新场景的即插即用性。 ...

2026-05-04 · 更新于 2026-06-22 · 2 min · 345 words