Iclr-2026

Syncphony: Synchronized Audio-to-Video Generation with Diffusion Transformers

📄 Syncphony: Synchronized Audio-to-Video Generation with Diffusion Transformers #音视频 #扩散模型 #流匹配 #跨模态 #生成模型 🔥 8.0/10 | 前25% | #音视频 | #扩散模型 | #流匹配 #跨模态学术质量 5.8/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jibin Song (延世大学人工智能系， CineLingo) 通讯作者：Jibin Song (邮箱：sjbpsh1@yonsei.ac.kr， jibinsong@cinelingo-labs.com) 作者列表：Jibin Song (延世大学， CineLingo)、Mingi Kwon (延世大学， CineLingo)、Jaeseok Jeong (延世大学， CineLingo)、Youngjung Uh (延世大学， CineLingo) 💡 毒舌点评亮点：本文没有空谈同步的重要性，而是针对“MSE损失对动态区域监督不足”和“条件引导策略”这两个关键痛点，分别提出了动作感知损失（Loss层面）和音频同步引导（推理层面）的成套解决方案，并辅以新的评估指标CycleSync，形成了一个完整、闭环的技术方案，实验也证明了有效性。短板：新提出的CycleSync指标本质上是“视频->音频->对比”的循环测试，其准确性严重依赖于所使用的预训练V2A模型的保真度和泛化能力，这给评估引入了一个不透明的、外部的“黑箱”偏差，使得绝对分数的解读需要更加谨慎。 🔗 开源详情代码：论文明确承诺将发布代码，但文中未提供具体的GitHub或其他代码仓库链接。模型权重：论文明确承诺将发布训练好的模型，但未提供具体链接。数据集：使用的是公开数据集AVSync15和TheGreatestHits，论文中未提及是否发布新的数据集。 Demo：论文未提及提供在线演示。复现材料：提供了详细的实现细节，包括模型架构选择、损失函数公式、训练硬件、训练步数、关键超参数（如λ, w, δ, 批大小虽未明确但其他信息详尽），以及用户研究设置。这些信息充足，具备较高的可复现性。论文中引用的开源项目：视频生成骨干：Pyramid Flow (Jin et al., 2024a) 音频编码器：DenseAV (Hamilton et al., 2024) 文本编码器：CLIP (Radford et al., 2021) V2A模型（用于CycleSync评估）：V-AURA (Viertola et al., 2025) 其他对比基线：TempoTokens (Yariv et al., 2023), AVSyncD (Zhang et al., 2024) 📌 核心摘要本文致力于解决音频到视频（A2V）生成中，现有模型难以实现音频与视频运动之间精细时间同步的问题。论文提出了Syncphony，一个基于预训练扩散Transformer（DiT）骨干的生成框架。其方法核心是在DiT架构的后期层中引入音频交叉注意力，并通过两个关键技术提升同步性能：1) 动作感知损失，在训练时对高运动区域施加更大的损失权重，引导模型更关注与音频事件因果相关的运动；2) 音频同步引导，在推理时通过一个禁用了音频层的“异步模型”来引导完整模型，放大音频信号对运动的影响而不损害视觉质量。与已有的间接映射（如调制注意力权重、投影到文本空间）或从零构建时序层的方法不同，本文直接、精细地注入音频特征，并利用强大的预训练视频骨干保证生成质量。为评估同步性，论文还提出了新指标CycleSync，通过视频重建音频来间接衡量生成视频是否保留了原始音频的时序结构。在AVSync15和TheGreatestHits数据集上的实验表明，Syncphony在同步准确性（CycleSync得分更高）和视觉质量（FVD/FID更低）上均优于现有方法。该工作的实际意义在于为高质量、高同步性的视频生成提供了有效方案，但其局限性包括：动作感知损失的权重基于真值运动幅度，未显式区分音频相关与无关运动；CycleSync指标的可靠性受底层V2A模型影响；生成的视频分辨率（380×640）和时长（5秒）仍有提升空间。 ...

SyncTrack: Rhythmic Stability and Synchronization in Multi-Track Music Generation

📄 SyncTrack: Rhythmic Stability and Synchronization in Multi-Track Music Generation #音乐生成 #扩散模型 #模型评估 #多轨音频 ✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #模型评估 #多轨音频学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Hongrui Wang（香港科技大学数学系，标注为等贡献）通讯作者：Yang Wang（香港大学）；Fan Zhang（香港科技大学，标注为等贡献）；Can Yang（香港科技大学数学系及神经系统疾病国家重点实验室）作者列表： Hongrui Wang（香港科技大学数学系） Fan Zhang（香港科技大学数学系） Zhiyuan Yu（浙江大学CAD&CG国家重点实验室） Ziya Zhou（香港科技大学交叉学科学院） Xi Chen（香港科技大学交叉学科学院） Can Yang（香港科技大学数学系；香港科技大学神经系统疾病国家重点实验室） Yang Wang（香港大学） 💡 毒舌点评亮点：架构设计直击痛点，用Track-shared和Track-specific模块清晰解耦了多轨音乐中的“共性节奏”与“个性音色”，逻辑自洽且实验验证有效。短板：所提出的节奏评估指标（IRS， CBS， CBD）高度依赖于外部的预训练节拍检测器（madmom），其性能天花板受限于该工具，且指标定义相对简单，可能无法完全捕捉人类对“好律动”的复杂感知。 🔗 开源详情代码：论文提供了项目主页链接（https://synctrack-v1.github.io），推测包含代码。论文中明确写道“Audio samples, alongside with the source code for both the model and evaluation metrics, are available on our demo page.” 模型权重：论文中未明确提及是否公开预训练模型权重。数据集：使用公开的Slakh2100数据集。论文中未提及是否提供处理后的数据。 Demo：提供了项目主页作为demo展示。复现材料：提供了极其详细的训练配置（数据集划分、优化器、学习率、硬件、训练时间等）、模型架构细节（表A3）、评估指标的具体实现（附录A.1），以及超参数敏感性分析。复现信息非常充分。依赖的开源项目：论文中提及并依赖了以下开源工具/模型： madmom：用于节拍检测，以计算节奏相关指标。 MusicLDM：模型初始化权重来源。 HiFi-GAN：作为声码器，将潜在表示解码为波形。 RNNDownBeatProcessor & DBNDownBeatTrackingProcessor：来自madmom库，用于节拍提取。 📌 核心摘要问题：现有的多轨音乐生成模型（如MSDM， MSG-LD）通常将各轨视为独立变量进行联合建模，忽视了音乐中至关重要的节奏稳定性（单轨内拍子稳定）和同步性（多轨间拍子对齐），导致生成音乐听起来杂乱、不协调。方法：提出SyncTrack模型，其核心是采用统一的架构包含Track-shared模块（共享）和Track-specific模块（特定）。共享模块内设计了两种跨轨注意力：全局跨轨注意力用于建立全局一致的节奏框架，时间特定跨轨注意力用于对齐同一时刻的音乐事件。特定模块则通过可学习的乐器先验来建模各轨独特的音色等特征。创新：1) 架构上明确分离处理音乐的共性与个性信息；2) 设计了两种针对性的跨轨注意力机制；3) 创新性地提出了三个用于量化评估多轨音乐节奏一致性（稳定性和同步性）的新指标：IRS（轨内节奏稳定性）、CBS（跨轨拍子同步率）、CBD（跨轨拍子离散度）。实验结果：在Slakh2100数据集上，SyncTrack在整体FAD指标上显著优于基线（从MSDM的6.55降至1.26）。在节奏一致性指标上，SyncTrack也全面优于基线：例如，CBS从MSG-LD的0.3861提升至0.5206，CBD(mean)从0.3714降低至0.2681。消融研究证明了各模块的有效性。主观评估也显示SyncTrack生成的音乐更受青睐。指标 Ground Truth SyncTrack MSG-LD MSDM FAD↓（混合） - 1.26 1.31 6.55 CBS↑ 0.5740 0.5206 0.3861 0.4694 CBD(mean)↓ 0.2412 0.2681 0.3714 0.3127 实际意义：为多轨音乐生成领域提供了更合理的建模思路和更专业的评估工具，推动了该领域向更符合音乐本质特性的方向发展，对未来音乐制作辅助工具有积极影响。局限性：模型生成时长目前限于约10秒，论文也提到未来计划扩展至更长片段。新提出的评估指标依赖于第三方节拍检测工具，其准确性和普适性需要进一步验证。 🏗️ 模型架构 SyncTrack是一个基于潜在扩散模型（LDM）的多轨音乐生成系统。其整体流程如下图所示：音频数据首先通过STFT和Mel滤波器组转换为梅尔谱，然后由一个预训练的变分自编码器（VAE）编码为潜在表示。扩散过程在该潜在空间中进行，模型训练以预测添加的噪声。生成时，从噪声开始迭代去噪，得到多轨潜在表示，最后经由VAE解码器和HiFi-GAN声码器重建为音频波形。 ...

TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization

📄 TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization #音频生成 #流匹配 #偏好优化 #扩散模型 #开源模型 🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #偏好优化 #扩散模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Chia-Yu Hung (Nanyang Technological University, NTU) 通讯作者：Navonil Majumder (NTU)， Soujanya Poria (NTU) 作者列表：Chia-Yu Hung (NTU), Navonil Majumder (NTU), Zhifeng Kong (NVIDIA), Ambuj Mehrish (Ca’ Foscari University of Venice), Amir Ali Bagherzadeh (Lambda Labs), Chuan Li (Lambda Labs), Rafael Valle (NVIDIA), Bryan Catanzaro (NVIDIA), Soujanya Poria (NTU) 💡 毒舌点评这篇论文巧妙地将CLAP作为“裁判”来解决音频生成对齐中缺乏自动评价标准的痛点，提出的CRPO“自弈”优化思路确实让模型性能在迭代中不断提升，效果立竿见影。但依赖CLAP这个“裁判”本身的偏好（可能偏向特定音频风格或描述理解能力）进行优化，是否会让模型学会“讨好裁判”而非真正理解复杂、抽象的文本描述？这是CRPO框架需要面对的更深层问题。 ...

TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling

📄 TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling #语音大模型 #语音生成 #预训练 #自回归模型 #少样本 ✅ 7.0/10 | 前25% | #语音生成 | #自回归模型 | #语音大模型 #预训练学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Liang-Hsuan Tseng (台湾大学电信工程学研究所，MediaTek Research实习) 通讯作者：未明确说明，但Yi-Chang Chen和Hung-yi Lee提供了单位邮箱。作者列表： Liang-Hsuan Tseng (台湾大学电信工程学研究所，MediaTek Research实习) Yi-Chang Chen (MediaTek Research) Kuan-Yi Lee (台湾大学电信工程学研究所，MediaTek Research实习) Da-Shan Shiu (MediaTek Research) Hung-yi Lee (台湾大学人工智能研究中心) 💡 毒舌点评论文提出了一个解决语音-文本联合建模中序列长度不匹配问题的优雅方案，即让语音token在分词阶段就与文本转录对齐，这确实简化了后续的语言模型训练。然而，该方法强依赖于一个准确的ASR前端（尽管论文进行了鲁棒性测试），且当前验证主要集中在语音续写等相对简单的任务上，对于更复杂的多轮对话、指令跟随等能力未做探讨，其作为“基础模型”的通用性仍有待证明。 🔗 开源详情代码：论文中明确提及提供代码，地址为 https://mtkresearch.github.io/TASTE-SpokenLM.github.io（实际为项目主页，需跳转至代码仓库）。模型权重：论文中明确提及提供模型，地址同上。数据集：使用公开数据集 Emilia 和 LibriTTS，未提供独有数据集。 Demo：论文中明确提及提供在线演示，地址为上述网址。复现材料：论文在附录中提供了非常详细的超参数、训练配置、评估细节和算法伪代码（如解决分词器不匹配的算法1），复现信息充分。引用的开源项目：Whisper (编码器), S3 token/Vocoder (语音单元和声码器), LLaMA (基座LLM), DeepSpeed/Liger Kernel (训练加速), Montreal Forced Aligner (对齐工具), HiFi-GAN。 📌 核心摘要要解决什么问题：现有语音语言模型（SLM）在联合文本和语音建模时，面临模态间隙和序列长度不匹配的挑战。传统语音分词（如EnCodec）产生的token序列远长于对应文本，需要复杂的对齐策略（如插入填充、交错生成）才能进行联合建模，增加了复杂性。方法核心是什么：提出TASTE，一种文本对齐的语音分词与嵌入方法。它直接将语音分词过程与文本转录对齐：首先使用ASR获得文本转录，然后通过一个基于注意力的聚合器（以文本转录为查询，ASR编码器最后一层为键、浅层为值）将语音表示压缩并硬对齐到每个文本token上，最后通过RVQ量化。训练目标为语音重建。由此得到的语音token/嵌入在序列长度和位置上与文本token一一对应。与已有方法相比新在哪里：不同于以往先独立分词再设法对齐的思路，TASTE在分词阶段就完成了文本-语音对齐，实现了一种“端到端”的联合分词。这使得在联合语言模型（TASLM）中，可以同时预测下一个文本token和对应的语音token/嵌入，无需额外对齐规则。其语音token专注于携带副语言信息（如韵律、音色），避免了冗余编码文本内容。主要实验结果如何：语音重建：在LibriSpeech上，TASTE以极低比特率（~150 bps，约3 tokens/秒）实现了与高比特率方法（如S3 token, 600 bps）可比的重建质量和相似度（表1）。语音续写：在3秒语音提示后的续写任务上，基于1.3B参数LLaMA微调的TASLM在GPT-4o语义评分（3.16）和人工MOS（4.16）上显著优于其他7B级SLM（表2）。似然基准：在SALMON（声学）和StoryCloze（语义）基准上表现与其它联合建模方法相当，在StoryCloze上达到最佳（76.5%/76.7%）。少样本语音QA：TASLM是少数能在少样本场景下保持基座文本LLM性能的SLM（表3）。实际意义是什么：TASTE提供了一种更简洁、高效的构建文本-语音联合模型的方式，降低了训练复杂度。其极低比特率的语音分词对带宽敏感的传输和存储场景有潜在价值。文本对齐的特性也自然支持了文本对齐的语音编辑（如图3），为精细的语音控制提供了新思路。主要局限性是什么：论文明确提到，当前模型缺乏对话轮次管理和指令跟随能力；仅在英语上验证，多语言泛化性未知；分词器聚焦于清晰语音，未处理重叠语音、非语言事件（如笑声）；系统延迟和流式性能未优化。 🏗️ 模型架构 TASTE的整体框架如图2所示，包含两个阶段：TASTE语音分词器训练（用于重建）和联合语言模型（TASLM）训练。 ...

Tell me Habibi, is it Real or Fake?

📄 Tell me Habibi, is it Real or Fake? #音视频深度伪造检测 #数据集 #多语言 #零样本 🔥 8.5/10 | 前25% | #音视频深度伪造检测 | #数据集 | #多语言 #零样本学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Kartik Kuckreja (MBZUAI) 通讯作者：未明确标注，但通讯邮箱主要为 kartik.kuckreja@mbzuai.ac.ae 和 parul@monash.edu 作者列表：Kartik Kuckreja (MBZUAI)、Parul Gupta (Monash University)、Injy Hamed (MBZUAI)、Thamar Solorio (MBZUAI)、Muhammad Haris Khan (MBZUAI)、Abhinav Dhall (Monash University) 💡 毒舌点评亮点：该论文精准地击中了当前深度伪造检测领域的一个重大盲点——对多语言，尤其是像阿拉伯语这样广泛使用“代码切换”的语言场景的忽视，并为此构建了迄今规模最大、最复杂的专用数据集，为社区提供了极具价值的“练兵场”。短板：论文的重点在于“提出问题”和“提供工具”，而在于“解决问题”（即提出更先进的检测模型）方面着墨较少，其提出的检测方法仅为现有模型的基准测试。数据集生成依赖于GPT-4.1-mini等模型，其指令跟随的局限性可能导致部分“语义+翻译”模式的伪造文本语义变化不足，作者也承认了这一点。 🔗 开源详情代码：论文中未提及具体的代码仓库链接，但声明“Data-generation code and evaluation scripts will be made public”。模型权重：论文中未提及公开生成管道所用的TTS和唇形同步模型的具体权重链接，这些模型均为第三方已发表模型。数据集：论文明确声明“The dataset is public.”，并提供了访问需要签署的EULA协议图示。 Demo：未提及。复现材料：论文提供了生成管道的详细描述、文本篡改的提示示例（附录A.6）、数据分布图表、以及评估协议。但超参数、具体配置文件等未在文中给出。论文中引用的开源项目：XTTS-v2, OpenVoice-v2, Fairseq, Diff2Lip, LatentSync, Whisper, YOLO-v5, wav2vec2, Jais-3B, Qwen-2.5-7B等。 📌 核心摘要这篇论文旨在解决深度伪造检测研究中对多语言，特别是阿拉伯语-英语“代码切换”（在同一次话语中混合使用两种语言）场景严重忽视的问题。为解决此问题，论文提出了一个全新的核心贡献：构建并开源了首个大规模的阿拉伯语-英语音视频深度伪造数据集 ArEnAV。该数据集包含约38.7万个视频（超过765小时），通过一个创新的生成管道创建，该管道整合了多个文本转语音（TTS）和唇形同步模型，并利用GPT-4.1-mini进行8种不同规则的文本篡改，以模拟真实世界的代码切换和方言变体。与现有的多语言数据集（如PolyGlotFake）相比，ArEnAV首次专注于并显式生成“句内代码切换”的伪造内容。实验表明，当前最先进的深度伪造检测模型在ArEnAV上的性能出现断崖式下跌（例如，BA-TFD+模型的AP@0.5从AV-1M上的44.42%降至3.74%），甚至人类参与者的检测准确率也仅为60%，这证明了该数据集的挑战性和新场景的真实性。该工作的实际意义在于为开发更鲁棒、适用于全球多语言环境的深度伪造检测系统提供了必需的基准资源。主要局限性包括：数据生成管线依赖现有ASR和LLM，可能导致转录噪声和语义变化不足；数据集目前仅覆盖阿拉伯语和英语两种语言。 ...

The Deleuzian Representation Hypothesis

📄 The Deleuzian Representation Hypothesis #模型可解释性 #概念提取 #对比学习 #自监督学习 #基准测试 🔥 8.5/10 | 前25% | #模型可解释性 | #概念提取 | #对比学习 #自监督学习学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Clément Cornet (Université Paris-Saclay, CEA, List) 通讯作者：Clément Cornet (论文未明确标注通讯作者，根据单位信息推断) 作者列表：Clément Cornet (Université Paris-Saclay, CEA, List)、Romaric Besançon (Université Paris-Saclay, CEA, List)、Hervé Le Borgne (Université Paris-Saclay, CEA, List) 💡 毒舌点评这篇论文将哲学思想（德勒兹的差异论）包装成了一个工程上简洁、实验上有效的概念提取新范式，确实超越了现有稀疏自编码器方法。其核心创新——聚类激活差异而非重建激活——思路清晰且有启发性。但最大的短板在于其评估高度依赖现有的有标签数据集（用于计算探针损失），对于真正无监督的、超越已知属性的“新概念”发现能力缺乏评估框架，且对语音/音频任务本身的方法论贡献有限。 🔗 开源详情代码：提供。论文明确给出了代码仓库链接：https://github.com/ClementCornet/Deleuzian-Hypothesis。模型权重：未提及。论文未公开其提取的概念向量词典或修改后的模型权重。数据集：论文使用的数据集（ImageNet, WikiArt, IMDB, CoNLL-2003, AudioSet）均为公开数据集，并在附录B中给出了获取信息。 Demo：未提及。复现材料：提供了详尽的复现信息，包括实现细节（附录A：所有基线方法的超参数设置）、实验设置细节（附录B：数据集描述、模型版本、数据划分）、以及方法核心代码。引用的开源项目：论文引用了多个开源项目/模型作为基线或工具，包括：scikit-learn (用于ICA)、ViT-Prisma (预训练SAE)、EleutherAI (预训练SAE)、OpenClip (CLIP实现)、PyTorch Hub (DinoV2)、HuggingFace上的多个模型（DeBERTa, BART, Pythia, AST）。 📌 核心摘要问题：现有的稀疏自编码器（SAE）在提取神经网络内部可解释概念时面临训练困难、特征多义性以及依赖稀疏性作为可解释性代理等问题，需要一种更简单、更直接的概念提取方法。方法核心：提出“德勒兹表征假说”，将概念定义为激活空间中数据样本之间的“差异”。具体方法是：随机采样激活差异向量，然后使用带有偏度逆权重（以促进多样性）的K-means聚类算法对这些差异进行聚类，聚类中心即为概念向量。与已有方法的对比：与主流SAE方法（如重建+稀疏）不同，本方法不进行激活重建，而是直接识别和聚类“重复出现的差异”。它被形式化为一种无监督的判别分析，并在保持概念向量位于原始激活空间（便于无损引导）的同时，仅需一个可解释的超参数（概念数量k）。主要实验结果：在涵盖视觉、语言、音频三个模态的五个模型和五个数据集上进行了广泛评估。结果显示，在探针损失（Probe Loss）指标上，该方法在13/20个任务中超越了所有SAE变体，其表现接近有监督的线性判别分析（LDA）基线。在跨运行一致性（MPPC）上也表现优异。关键实验数据对比如下表所示：方法 CLIP (WikiArt Artist) DinoV2 (WikiArt Artist) DeBERTa (CoNLL-2003 NER) BART (CoNLL-2003 POS) AST (AudioSet) 平均排名 ↓ Deleuzian (Ours) 0.0119 0.0055 0.0665 0.2148 0.0164 1.65±0.85 Tk-SAE 0.0125 0.0096 0.0839 0.3478 0.0169 2.65±1.01 A-SAE 0.0130 0.0143 0.0775 0.3754 0.0169 3.20±1.72 LDA (监督基线) 0.0084 0.0044 0.0429 0.6326 0.0164 - 实际意义：提供了一种更简洁、可解释性更强的概念提取工具，可用于分析模型内部表征、进行概念引导（Steering）以可控地修改模型行为（如图像风格迁移、文本生成控制），为理解和调试大规模神经网络提供了新途径。主要局限性：方法的评估依赖于带有语义标签的数据集，可能无法评估与已知标签无关的“新颖”概念。假设概念可在线性方向上表示，这一假设可能在某些模型中不成立。引导效果虽为定性展示，但系统性量化仍需更多研究。 🏗️ 模型架构该方法并非一个传统的神经网络架构，而是一个用于从预训练模型激活中提取概念的流程（Pipeline）。其核心流程如下： ...

TINY BUT MIGHTY: A SOFTWARE-HARDWARE CO- DESIGN APPROACH FOR EFFICIENT MULTIMODAL IN- FERENCE ON BATTERY-POWERED SMALL DEVICES

📄 TINY BUT MIGHTY: A SOFTWARE-HARDWARE CO- DESIGN APPROACH FOR EFFICIENT MULTIMODAL IN- FERENCE ON BATTERY-POWERED SMALL DEVICES #多模态模型 #大语言模型 #端到端 #实时处理 #系统优化 ✅ 7.0/10 | 前25% | #多模态模型 | #预训练 | #大语言模型 #端到端学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yilong Li（University of Wisconsin – Madison）通讯作者：未明确说明（论文未标注通讯作者信息）作者列表：Yilong Li (1), Shuai Zhang (2), Yijing Zeng (1), Chengpo Yan (1), Hao Zhang (1), Xinmiao Xiong (1), Jingyu Liu (1), Pan Hu (3), Suman Banerjee (1)。机构：(1) University of Wisconsin – Madison, (2) Amazon Web Services AI, USA, (3) Uber, USA。 💡 毒舌点评这篇论文最硬核的地方在于作者真的自己画了PCB、焊了板子、写了底层驱动来验证他们的想法，这种“手工打造端到端系统”的匠心在AI论文里相当少见。但遗憾的是，其核心的“模型分解与动态调度”思想在边缘计算领域已有先例，且论文对模型量化后在特定下游任务上的精度损失分析不够细致，更像是一个优化效果显著的“系统集成报告”。 ...

Token-Based Audio Inpainting via Discrete Diffusion

📄 Token-Based Audio Inpainting via Discrete Diffusion #音乐生成 #扩散模型 #预训练 #离散模型 ✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #预训练 #离散模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Tali Dror， Iftach Shoham（*为共同第一作者）（Ben-Gurion University of the Negev）通讯作者：未明确标注（从作者列表及邮箱推测，Eliya Nachmani可能是负责人）作者列表： Tali Dror (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering) Iftach Shoham (Ben-Gurion University of the Negev, Faculty of Computer and Information Science, Data Science Research Center) Moshe Buchris (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering) Oren Gal (University of Haifa) Haim Permuter (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering) Gilad Katz (Ben-Gurion University of the Negev, Faculty of Computer and Information Science, Data Science Research Center) Eliya Nachmani (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering) 💡 毒舌点评这篇论文的亮点在于它为音频修复这个“老”问题提供了一个“新”且优雅的技术范式——直接在离散token空间用扩散模型“填空”，避开了连续波形或频谱建模的诸多麻烦，并在长间隙修复上证明了其有效性。然而，其理论深度和创新野心略显不足，本质上是现有组件（WavTokenizer, DiT, DWDSE）的巧妙集成与适配，且实验规模（如数据集量级、模型参数）与当前大模型时代的主流工作相比显得较为“迷你”，限制了其更广泛的影响力。 ...

Toward Complex-Valued Neural Networks for Waveform Generation

📄 Toward Complex-Valued Neural Networks for Waveform Generation #语音合成 #复数神经网络 #生成对抗网络 #声码器 #计算优化 🔥 8.0/10 | 前25% | #语音合成 | #复数神经网络 | #生成对抗网络 #声码器学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Hyung-Seok Oh（高丽大学人工智能系）通讯作者：Seong-Whan Lee（高丽大学人工智能系）作者列表：Hyung-Seok Oh（高丽大学人工智能系）、Deok-Hyeon Cho（高丽大学人工智能系）、Seung-Bin Kim（高丽大学人工智能系）、Seong-Whan Lee（高丽大学人工智能系） 💡 毒舌点评亮点：论文工作非常系统，不仅提出了复数域生成器与判别器的完整GAN框架，还针对性地设计了相位量化层作为归纳偏置，并给出了计算图级别的效率优化（分块矩阵），形成了一个从理论动机到工程实现闭环的扎实工作。短板：复数网络带来的参数量与显存开销（约翻倍）是其难以回避的“阿喀琉斯之踵”，论文虽通过分块矩阵优化了训练时间，但在推理吞吐量和多卡训练支持上仍显不足，这限制了其在大规模工业部署中的即时吸引力。 🔗 开源详情代码：提供代码仓库链接：https://github.com/hs-oh-prml/ComVo。模型权重：提供预训练模型权重，可通过论文提供的主页链接获取：https://hs-oh-prml.github.io/ComVo/。数据集：使用公开的LibriTTS和MUSDB18-HQ数据集。 Demo：论文主页提供音频样本演示：https://hs-oh-prml.github.io/ComVo/。复现材料：论文提供了非常详细的训练配置表（表20），包括所有超参数、数据设置、损失权重、硬件信息等。附录中也包含了各基线模型的实现来源（表17）和评估指标的来源（表18）。论文中引用的开源项目： Vocos：作为基础架构进行改编。 HiFi-GAN, BigVGAN, iSTFTNet：作为主要对比基线。 APNet, APNet2, FreeV：作为幅相预测声码器的对比基线。 Matcha-TTS：用于TTS管线评估的声学模型。 UTMOS, auraloss, PESQ, cargan：用于客观评估的指标工具。 📌 核心摘要解决的问题：现有的基于逆短时傅里叶变换（iSTFT）的声码器（如Vocos）虽然效率高，但普遍使用实值神经网络（RVNN）将复数谱的实部和虚部作为独立通道处理，这限制了模型捕捉实虚部之间内在耦合结构的能力。方法核心：提出ComVo，一个完全在复数域内运行的GAN声码器。其生成器和判别器（cMRD）均使用原生复数算术层。同时引入了相位量化层，将连续相位离散化为有限等级，作为稳定训练的归纳偏置。此外，提出了分块矩阵计算方案，将复数乘法融合为单次矩阵乘法，以减少冗余操作，提升训练效率。创新之处：据作者称，这是首个将复数神经网络（CVNN）同时应用于生成器和判别器的iSTFT-based vocoder。与先前实值方法独立处理实虚部或简单拼接通道相比，该方法在复数域内进行端到端的对抗训练，能提供更结构化的反馈。相位量化和分块矩阵计算是两个重要的辅助创新。主要实验结果：在LibriTTS数据集上，ComVo在多数客观指标上超越了HiFi-GAN、iSTFTNet、BigVGAN和Vocos等强基线，MOS得分（4.07）与基线持平。在MUSDB18-HQ音乐数据集上，ComVo也取得最佳客观分数和竞争力的主观分数。消融实验表明，复数生成器与复数判别器的组合（GCDC）效果最佳；相位量化在Nq=128时带来最佳感知质量提升；分块矩阵方案在保持性能的前提下将训练时间减少了25%。模型 UTMOS ↑ MR-STFT ↓ PESQ ↑ Periodicity ↓ V/UV F1 ↑ MOS ↑ CMOS ↑ GT 3.8712 - - - - 4.08 ± 0.04 0.14 HiFi-GAN 3.3453 1.0455 2.9360 0.1554 0.9174 4.00 ± 0.05 -0.09 iSTFTNet 3.3591 1.1046 2.8136 0.1476 0.9243 3.98 ± 0.05 -0.04 BigVGAN 3.5197 0.8994 3.6122 0.1181 0.9418 4.05 ± 0.05 -0.05 Vocos 3.6025 0.8856 3.6266 0.1061 0.9522 4.05 ± 0.05 -0.02 ComVo 3.6901 0.8439 3.8239 0.0903 0.9609 4.07 ± 0.05 0 表2：在LibriTTS数据集上的客观与主观评估结果（关键行数据） 5. 实际意义：证明了复数神经网络在音频波形生成任务中相对于实值网络的表示优势，为处理复值信号（如频谱）提供了更自然的建模范式。分块矩阵方案为优化复数运算在现有深度学习框架中的实现效率提供了实用思路。 6. 主要局限性：复数参数存储导致内存占用翻倍，增加了模型大小和显存需求。论文在单卡上实验，多GPU并行训练下的性能和稳定性未充分验证。相位量化层的直通估计器（STE）近似可能在某些任务上引入优化挑战。 ...

Towards True Speech-to-Speech Models Without Text Guidance

📄 Towards True Speech-to-Speech Models Without Text Guidance #语音对话系统 #端到端 #大语言模型 #预训练 #流式处理 ✅ 7.5/10 | 前25% | #语音对话系统 | #端到端 | #大语言模型 #预训练学术质量 7.0/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Xingjoint Zhao（复旦大学）通讯作者：Xipeng Qiu（复旦大学）作者列表：Xingjoint Zhao¹³（1.复旦大学，2.上海创新研究院，3.MOSI.AI），Zhe Xu¹²³，Luozhijie Jin¹²³，Yang Wang¹³，Hanfu Chen¹³，Yaozhou Jiang¹³，Ke Chen¹²³，Ruixiao Li¹²³，Mingshu Chen¹³，Ruiming Wang¹³，Wenbo Zhang¹²³，Qinyuan Cheng¹³，Zhaoye Fei¹³，Shimin Li³，Xipeng Qiu¹²³† 💡 毒舌点评亮点：论文直击当前语音对话模型“伪端到端”（依赖文本指导）的痛点，提出的模态分层架构和冻结预训练策略，为在LLM中集成原生语音能力并保留文本智能提供了一个有原理性支撑且实验有效的解决方案。短板：尽管自称为“真”语音到语音模型，但其语音理解与生成的底层仍严重依赖于强大的文本LLM骨干和高质量的文本-语音配对数据，其“无文本指导”更多体现在生成阶段，训练阶段对文本的依赖并未摆脱；此外，对于更复杂的、富含副语言信息的开放式对话场景，模型的表现力有待进一步验证。 📌 核心摘要本文旨在解决现有语音对话系统依赖文本中间环节导致的延迟增加、副语言信息丢失和表达力受限的问题。核心方法是构建一个真正的、无需文本指导的语音到语音大语言模型，其技术核心是模态分层架构（在Transformer顶层为文本和语音设置独立分支）与冻结预训练策略（第一阶段冻结预训练文本LLM，仅训练语音相关模块；第二阶段再联合微调）。与已有方法相比，其创新在于明确观察并利用了跨模态表示在模型深度上的演变规律（先融合后分化），并设计了对应的架构进行适配，同时通过冻结策略有效防止了文本能力的灾难性遗忘。主要实验结果表明：1）在口语问答任务上（如LlamaQA），模型的语音到语音（S→S）性能（63.67%）达到了与文本指导系统（GLM-4-Voice*：65.67%）可比的水平，并在WebQA上（36.71%）超越了后者（38.34%），在部分任务上取得SOTA；2）模型在文本能力基准（MMLU: 67.19， CMMLU: 69.53）上相比引入语音前的文本LLM（Qwen3-8B: MMLU 76.6， CMMLU 77.35）的下降幅度远小于SpiritLM等模型；3）语音编码器/解码器在WER、SIM等指标上具备竞争力。该工作为构建高效、富有表现力的端到端语音交互系统建立了新的范式。主要局限性在于训练依赖大规模、高质量的语音-文本数据（包括合成数据），且模型在复杂对话、长时交互和极端副语言场景下的能力尚未充分评估。 ...