Iclr-2026

TINY BUT MIGHTY: A SOFTWARE-HARDWARE CO- DESIGN APPROACH FOR EFFICIENT MULTIMODAL IN- FERENCE ON BATTERY-POWERED SMALL DEVICES

📄 TINY BUT MIGHTY: A SOFTWARE-HARDWARE CO- DESIGN APPROACH FOR EFFICIENT MULTIMODAL IN- FERENCE ON BATTERY-POWERED SMALL DEVICES #多模态模型 #实时处理 #多通道 #开源工具 ✅ 7.0/10 | 前25% | #多模态模型 | #实时处理 | #多通道 #开源工具学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Yilong Li（University of Wisconsin – Madison）通讯作者：未说明作者列表：Yilong Li（University of Wisconsin – Madison）、Shuai Zhang（Amazon Web Services AI）、Yijing Zeng（University of Wisconsin – Madison）、Chengpo Yan（University of Wisconsin – Madison）、Hao Zhang（University of Wisconsin – Madison）、Xinmiao Xiong（University of Wisconsin – Madison）、Jingyu Liu（University of Wisconsin – Madison）、Pan Hu（Uber）、Suman Banerjee（University of Wisconsin – Madison） 💡 毒舌点评这篇论文亮点在于提出了一个完整的、软硬件协同设计的系统框架（NANOMIND），并通过自研硬件原型机验证了其在电池供电设备上运行多模态大模型的可行性，实测的能效比数据（降低42.3%能耗）很有说服力。短板在于其对比实验主要聚焦于自身设计的硬件平台与不同软件框架的对比，缺乏与当前主流商用边缘设备（如最新款旗舰手机）上SOTA框架的公平、全面比较，这削弱了其结论的普适性和说服力。 ...

Token-Based Audio Inpainting via Discrete Diffusion

📄 Token-Based Audio Inpainting via Discrete Diffusion #音频生成 #扩散模型 #音乐生成 #离散表示 #音频修复 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #音乐生成 #离散表示学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Tali Dror, Iftach Shoham (论文中为共同第一作者) 通讯作者：未说明作者列表：Tali Dror (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering), Iftach Shoham (Ben-Gurion University of the Negev, Faculty of Computer and Information Science, Data Science Research Center), Moshe Buchris (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering), Oren Gal (University of Haifa), Haim H. Permuter (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering), Gilad Katz (Ben-Gurion University of the Negev, Faculty of Computer and Information Science, Data Science Research Center), Eliya Nachmani (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering) 💡 毒舌点评本文开创性地将离散扩散模型应用于音频修复，将问题转化为token序列补全，并通过精心设计的span masking和导数损失来模拟音频的连续性，实验结果在长空缺修复上显著超越传统方法，这无疑是其最大的亮点。然而，其性能天花板几乎被WavTokenizer这个“黑盒”tokenizer完全锁死，且训练时的“先tokenize再mask”与推理时的“先mask再tokenize”的不匹配可能引入难以量化的误差，这是两个明显的理论与实践短板。 ...

Toward Complex-Valued Neural Networks for Waveform Generation

📄 Toward Complex-Valued Neural Networks for Waveform Generation #语音合成 #生成模型 #对抗学习 #音频生成 #信号处理 ✅ 7.5/10 | 前25% | #语音合成 | #生成模型 | #对抗学习 #音频生成学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Hyung-Seok Oh（高丽大学人工智能系）通讯作者：Seong-Whan Lee（高丽大学人工智能系）作者列表：Hyung-Seok Oh（高丽大学人工智能系）、Deok-Hyeon Cho（高丽大学人工智能系）、Seung-Bin Kim（高丽大学人工智能系）、Seong-Whan Lee（高丽大学人工智能系） 💡 毒舌点评这篇论文首次将复值神经网络完整地引入iSTFT基声码器的生成器和判别器，构建了一个优雅的复数域对抗框架，理论动机清晰，并通过详实的实验（尤其是消融研究）证明了复值建模相比简单参数扩增的优越性。然而，其主要短板在于工程实用性：复值网络内存占用翻倍，且论文坦承多GPU训练优化不足，导致其训练效率提升有限，实际部署时的内存与计算成本仍是显著瓶颈。 🔗 开源详情代码：提供了代码仓库链接：https://hs-oh-prml.github.io/ComVo/。模型权重：论文中未提及是否公开预训练模型权重。数据集：使用了公开的LibriTTS和MUSDB18-HQ数据集，论文中说明了获取和使用方式。 Demo：论文中未提及提供在线演示。复现材料：提供了非常详细的训练配置、超参数表（表20）、架构细节、损失函数公式（附录C）、数值验证结果（附录F）和计算图可视化（附录G），复现材料充分。论文中引用的开源项目：引用了iSTFTNet、HiFi-GAN、BigVGAN、Vocos、APNet、APNet2、FreeV等基线的开源实现；评估工具引用了UTMOS、auraloss（MR-STFT）、PESQ、cargan（Periodicity/V-UV）；辅助工具引用了complextorch库用于实现高斯技巧。 📌 核心摘要问题：现有iSTFT基声码器使用实值神经网络处理复数频谱图的实部和虚部，这种分离处理的方式限制了模型对频谱复数内在结构（实-虚部耦合关系）的建模能力。方法核心：提出ComVo，一个端到端复值神经网络声码器。其生成器和判别器（复值多分辨率判别器cMRD）均采用原生复数运算。创新点包括：引入相位量化层作为非线性正则化；提出分块矩阵计算方案以减少冗余运算，提升训练效率。新在何处：据作者所知，这是首个同时在生成器和判别器中使用复值神经网络进行iSTFT波形生成的声码器，建立了真正的复数域对抗训练框架。主要实验结果：在LibriTTS数据集上，ComVo在多项客观指标（UTMOS 3.6901, PESQ 3.8239）和主观评价（MOS 4.07）上优于Vocos、BigVGAN等强基线。在MUSDB18-HQ音乐数据集上也表现最佳。消融实验表明，复值生成器+复值判别器（GCDC）组合效果最佳，且复值建模优于将参数量翻倍的实值模型。分块矩阵方案将训练时间减少25%。实际意义：为语音合成中的频谱建模提供了新范式，有望通过更好地建模相位信息来生成更自然的语音波形。主要局限性：模型内存占用约为实值模型的2倍；多GPU训练存在未优化的问题；相位量化等模块采用了“分离式”设计，尚未探索更深入的复数域非线性。 🏗️ 模型架构 ComVo是一个基于生成对抗网络（GAN）的iSTFT基声码器，整体架构如图2所示。 ...

Towards True Speech-to-Speech Models Without Text Guidance

📄 Towards True Speech-to-Speech Models Without Text Guidance #语音对话系统 #大语言模型 #端到端 #预训练 #流式处理 🔥 9.1/10 | 前10% | #语音对话系统 | #大语言模型 #端到端 | #大语言模型 #端到端学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Xingjian Zhao (Fudan University, MOSI.AI) 通讯作者：Xipeng Qiu (Fudan University, Shanghai Innovation Institute) 作者列表：Xingjian Zhao (Fudan University, MOSI.AI)、Zhe Xu (Fudan University, Shanghai Innovation Institute, MOSI.AI)、Luozhijie Jin (Fudan University, Shanghai Innovation Institute, MOSI.AI)、Yang Wang (Fudan University, MOSI.AI)、Hanfu Chen (Fudan University, MOSI.AI)、Yaozhou Jiang (Fudan University, MOSI.AI)、Ke Chen (Fudan University, Shanghai Innovation Institute, MOSI.AI)、Ruixiao Li (Fudan University, Shanghai Innovation Institute, MOSI.AI)、Mingshu Chen (Fudan University, MOSI.AI)、Ruiming Wang (Fudan University, MOSI.AI)、Wenbo Zhang (Fudan University, Shanghai Innovation Institute, MOSI.AI)、Qinyuan Cheng (Fudan University, MOSI.AI)、Zhaoye Fei (Fudan University, MOSI.AI)、Shimin Li (MOSI.AI)、Xipeng Qiu (Fudan University, Shanghai Innovation Institute) 机构：复旦大学、上海创新研究院、MOSI.AI。 💡 毒舌点评这篇工作真正意义上逼近了“无文本指导”的语音大模型愿景，其“模态分层”设计从隐藏状态相似性分析中获得灵感，是工程直觉与理论分析的漂亮结合。然而，其高质量合成数据的依赖（特别是助理端语音）和庞大的模型参数量，可能使其在“真实性”和部署门槛上面临现实挑战，离真正廉价、通用的语音交互还有一步之遥。 ...

TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction

📄 TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction #多模态模型 #音频事件检测 #预训练 #脑编码 #自然刺激处理 ✅ 7.5/10 | 前25% | #脑编码 | #多模态模型 | #音频事件检测 #预训练学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Stéphane d‘Ascoli（Meta AI）通讯作者：未明确说明（根据邮箱格式，所有作者邮箱均为个人邮箱，无明确标注通讯作者）作者列表：Stéphane d‘Ascoli（Meta AI）、Jérémy Rapin（Meta AI）、Yohann Benchetrit（Meta AI）、Hubert Banville（Meta AI）、Jean-Rémi King（Meta AI） 💡 毒舌点评这篇论文在Algonauts竞赛中大获全胜，其“端到端多模态”的设计理念确实击中了当前脑编码模型的痛点，将不同模态的信息整合从一个线性后处理步骤提升到了模型的核心。然而，对于一篇旨在“通向整合认知模型”的工作，其核心Transformer编码器的细节（如注意力机制如何具体捕捉跨模态和跨时间信息）描述过于简略，宛如一个黑箱，这与论文宣称的“非线性”优势相称却不够透明。 🔗 开源详情代码：是。论文提供了代码仓库链接：https://github.com/facebookresearch/algonauts-2025。模型权重：未提及。论文中未明确说明TRIBE模型本身的预训练权重是否公开，仅提到了所使用的预训练基础模型（Llama, Wav2Vec-Bert, V-JEPA 2）的来源和许可证。数据集：未直接公开。论文使用的Courtois NeuroMod数据集有其自身的获取渠道（CC0许可证），但论文未提供直接下载链接。 Demo：未提及。复现材料：是。论文提供了详细的训练策略、超参数表格（表3）、硬件配置和模型架构描述，结合开源代码，复现细节较为充分。论文中引用的开源项目：预训练模型：Llama-3.2-3B， Wav2Vec-Bert-2.0， V-JEPA 2。软件库：x-transformers， nilearn， PyTorch。数据集：Courtois NeuroMod。论文中未提及开源计划：未提及模型权重的开源计划，未提及数据集的直接下载方式。 📌 核心摘要这篇论文旨在解决传统脑编码模型局限于单模态、线性映射和被试特异性的问题，致力于构建一个能够统一预测不同大脑区域、不同个体对多模态刺激（视频）反应的通用模型。其核心方法是TRIBE模型，它分别从预训练的视频、音频和文本大模型中提取动态特征，并通过一个Transformer编码器融合这些特征，最后结合一个被试特定层来预测全脑1000个区域的fMRI BOLD信号。与已有方法相比，TRIBE的新颖之处在于它是首个同时实现了非线性融合（通过Transformer）、多被试联合训练和多模态输入的端到端脑编码模型。在Algonauts 2025竞赛中，TRIBE取得了第一名（平均编码分数0.2146），显著领先于其他团队。消融实验证明了多模态融合在高级联合皮层（如前额叶、顶枕颞叶皮层）的显著增益，以及Transformer和多被试训练的关键作用。该工作表明，多模态信息整合对于准确预测全脑活动至关重要，为构建整合性的人脑表征模型铺平了道路。其主要局限性在于：1) 在1000个脑区的粗粒度上建模，空间分辨率有限；2) 仅处理fMRI数据，缺乏更精确的时间分辨率；3) 仅基于4名被试的数据训练，泛化到新被试的能力尚未验证。 ...

TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization

📄 TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization #视频摘要 #多模态模型 #自适应融合 #基准测试 #数据集 🔥 8.0/10 | 前25% | #视频摘要 | #多模态模型 | #自适应融合 #基准测试学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Sumin Kim（首尔国立大学）[论文中注明与Hyemin Jeong, Mingu Kang并列第一作者] 通讯作者：Yoori Oh, Joonseok Lee（首尔国立大学）作者列表：Sumin Kim（首尔国立大学）、Hyemin Jeong（首尔国立大学）、Mingu Kang（首尔国立大学）、Yejin Kim（首尔国立大学）、Yoori Oh（首尔国立大学）、Joonseok Lee（首尔国立大学） 💡 毒舌点评亮点在于直击了现有视频摘要模型“静态融合”或“忽视音频/文本”的痛点，并用一个设计巧妙的“融合令牌”自适应地解决了这个问题，效果立竿见影，同时构建了首个大规模三模态数据集，功在千秋。短板是其核心框架（时间窗口注意力+跨模态注意力）并未跳出Transformer的范畴，创新更多是组合与适配，且“先打分再选段”的两阶段范式本身限制了端到端优化的可能，论文也在结论中坦承了这一局限。 🔗 开源详情代码：论文明确提供了代码仓库链接：https://github.com/smkim37/TripleSumm。模型权重：未在论文正文中明确提及是否公开预训练模型权重。数据集：论文明确介绍了新数据集MoSu，并提供了数据获取信息（基于YouTube-8M，遵循特定筛选标准），论文中未明确给出直接下载链接，但提供了获取方法。 Demo：论文中未提及在线演示。复现材料：论文提供了详细的超参数表（表I）、训练硬件、数据预处理流程（附录B.4）、评估协议（附录B.5）以及完整的消融研究，复现信息非常充分。引用的开源项目：依赖的主要预训练模型和库包括：CLIP (视觉编码器), RoBERTa (文本编码器), Audio Spectrogram Transformer (AST，音频编码器), Qwen2.5-VL-7B-Instruct (用于外部数据集生成文本描述), SwiGLU (FFN层), KTS (视频分割)。 📌 核心摘要本文针对视频摘要任务中现有方法无法动态、自适应地融合视觉、文本和音频模态信息的问题，提出了TripleSumm模型。该模型通过多尺度时间块（MST）在每一模态内部进行时序建模，并通过跨模态融合块（CMF）利用一个“融合令牌”作为中立查询，在每一帧动态选择和加权最相关的模态信息。与以往方法相比，其核心创新在于实现了帧级别的、自适应的模态重要性评估。为解决多模态训练数据稀缺的问题，论文还引入了首个大规模三模态视频摘要数据集MoSu，包含52,678个视频及其观看回放统计作为ground-truth。主要实验结果显示，TripleSumm在MoSu、Mr. HiSum、SumMe和TVSum四个基准上均显著超越了现有方法，例如在MoSu上，其Kendall‘s τ（0.351）和Spearman‘s ρ（0.472）大幅领先于此前最优的CFSum（0.277， 0.374）。该工作的实际意义在于提供了一个高效且可扩展的多模态视频摘要解决方案，并为未来研究奠定了可靠的大规模数据基础。主要局限性在于其摘要生成仍遵循“帧评分-片段选择”的传统两阶段流程，而非直接生成摘要片段，且模型架构的创新性主要体现在模块组合而非底层机制。 ...

TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

📄 TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems #语音合成 #模型评估 #基准测试 #多语言 #鲁棒性 ✅ 7.0/10 | 前25% | #模型评估 | #基准测试 | #语音合成 #多语言学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Christoph Minixhofer（爱丁堡大学语音技术研究中心）通讯作者：未说明作者列表：Christoph Minixhofer（爱丁堡大学语音技术研究中心）、Ondrej Klejch（爱丁堡大学语音技术研究中心）、Peter Bell（爱丁堡大学语音技术研究中心） 💡 毒舌点评亮点：论文构建了迄今最全面的TTS系统公开评测框架，涵盖20个系统、4个测试域、14种语言，并发布了超过1万条主观评分数据，这本身就是一项耗时耗力的重要基础设施贡献。短板：TTSDS2指标本身创新有限，本质是多个特征分布的Wasserstein距离集成，且计算开销大（每分需约10分钟CPU时间），其最大优势——“跨域一致性”更像是一个精心设计和调优的工程成果，而非理论突破。 🔗 开源详情代码：提供了流水线代码仓库链接：github.com/ttsds/pipeline。模型权重：TTSDS2本身是一个评估算法，不涉及模型权重。论文中评估的20个TTS系统中，大部分开源代码和权重（见表6附录A）。数据集：a) 主观评测数据集：hf.co/datasets/ttsds/listening_test；b) 自动化生成的评测数据集：可通过上述流水线重建，噪声参考集在 hf.co/datasets/ttsds/noise-reference。 Demo：提供了多语言基准排行榜网站 ttsdsbenchmark.com，可查看各系统分数。论文未提及交互式Demo。复现材料：论文提供了详细的算法伪代码（算法1）、因子特征选择表（表1）、附录中的听测问卷细节（附录B）、以及所有实验数据的详细表格（附录C-H）。论文中引用的开源项目：Whisper（语音识别与转录）、FastText（语言识别）、Pyannote（说话人分割）、Demucs（音乐分离）、VERSA（评估工具包）、以及所有被评测的20个TTS系统。 📌 核心摘要解决的问题：现有TTS评估方法（主观MOS耗时费力且不可比，客观指标在域外泛化差且与主观分相关性弱）已无法满足评估高质量、接近真人水平的现代TTS系统的需求。方法核心：提出TTSDS2，一个分布式的、因子化的客观评估指标。它从Generic、Speaker、Prosody、Intelligibility四个感知维度，提取多种特征，并计算合成语音特征分布与真实语音分布、噪声分布之间的2-Wasserstein距离，归一化后得到分数。与已有方法相比新在哪里：a) 是首个在4个差异巨大的域（干净朗读、嘈杂、野外、儿童语音）和14种语言上，都能与主观评分（MOS/CMOS/SMOS）保持 Spearman 相关系数 ρ > 0.5 的单一指标。b) 发布了一个持续更新、可自动化复现的多语言TTS评测基准和流程。c) 收集并发布了大规模、跨系统的主观评测数据集（11,282条有效评分）。主要实验结果： TTSDS2在所有4个域、3类主观评分（共12个评测点）上的平均Spearman相关系数为0.67，是唯一一个在所有评测点上ρ > 0.5的指标（表3）。相比之下，其他15个指标中表现最好的Speaker Similarity类指标（RawNet3）平均相关系数为0.6，但存在域失效；MOS预测网络（SQUIM）平均为0.57。对20个开源TTS系统的排名中，TTSDS2与MOS和CMOS在Top 4和Bottom 3系统上达成一致（图2）。实际意义：为TTS社区提供了一个可靠、稳健、可自动化的跨语言、跨域评估标尺和持续更新的基准排行榜，有助于更公平、更高效地比较和推进TTS技术，尤其对评估那些声称达到“人机难辨”水平的系统至关重要。主要局限性：a) 计算成本高（CPU-bound）。b) 仍无法完全替代主观评测（最高相关系数约0.8）。c) 无法检测TTS系统可能存在的语义错误（如转录不忠实），需辅以WER等指标。d) 评估粒度为句子级别，不支持长文本。 🏗️ 模型架构 TTSDS2并非一个生成模型，而是一个评估指标框架。其核心架构如下： ...

TVTSyn: Content-Synchronous Time-Varying Timbre for Streaming Voice Conversion and Anonymization

📄 TVTSyn: Content-Synchronous Time-Varying Timbre for Streaming Voice Conversion and Anonymization #语音转换 #语音匿名化 #自监督学习 #端到端 #流式处理 ✅ 7.5/10 | 前25% | #语音转换 | #端到端 | #语音匿名化 #自监督学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Waris Quamer (德克萨斯A&M大学计算机科学与工程系) 通讯作者：未说明作者列表：Waris Quamer (德克萨斯A&M大学计算机科学与工程系)、Mu-Ruei Tseng (德克萨斯A&M大学计算机科学与工程系)、Ghady Nasrallah (德克萨斯A&M大学计算机科学与工程系)、Ricardo Gutierrez-Osuna (德克萨斯A&M大学计算机科学与工程系) 💡 毒舌点评亮点：论文一针见血地指出了流式语音转换/匿名化系统中“静态说话人嵌入 vs 动态内容嵌入”这一核心矛盾，并为此设计了一个逻辑自洽、模块化的优雅解决方案（TVT表示），将说话人条件也“动态化”。短板：虽然方法新颖，但其“内容同步时变音色”的精细控制（如选择性屏蔽情绪而保留性别特征）尚停留在愿景层面，未在实验中验证；此外，论文的实证主要局限于英文和特定数据集，对于该方法在复杂多语言、多说话人交互场景下的泛化能力缺乏探讨。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开的预训练模型权重。数据集：使用了公开数据集LibriTTS， LibriSpeech， VoxCeleb等，但论文中未提供其处理脚本或专用数据集。 Demo：提供了音频样例演示页面链接：https://anonymized0826.github.io/TVTSyn/ 复现材料：论文附录提供了非常详细的架构配置（表5）和流式实现细节（表6），包括超参数、模块尺寸、缓存机制等，为复现提供了重要信息。但未提供训练脚本、配置文件或检查点。引用的开源项目：依赖的开源项目包括SpeechBrain（用于预训练说话人编码器）和fairseq（用于HuBERT模型获取伪标签）。总体：论文中未提及完整的开源计划，尽管提供了详尽的架构细节和音频样例，但缺乏核心代码和模型，可复现性受限。 📌 核心摘要解决的问题：当前的实时语音转换（VC）和说话人匿名化（SA）系统存在核心的表征失配问题：语言内容是时变的序列，而说话人身份通常作为静态的全局向量注入。这种动态-静态失配会导致合成语音音色过度平滑、表现力下降，并影响匿名化效果与语音自然度之间的平衡。方法核心：提出了TVTSyn，一个端到端的流式语音合成器。其核心是引入了内容同步的时变音色（TVT）表示：通过一个全局音色记忆（GTM）将全局说话人嵌入扩展为多个紧凑的“音色面”；帧级内容特征通过注意力机制检索相关的音色面；一个学习的门控调节音色变化的程度；并通过球面线性插值（Slerp）在全局和时变路径之间平滑过渡，以保持身份几何结构。此外，采用分解向量量化（VQ）瓶颈来正则化内容网络，减少残余说话人信息泄漏。与已有方法的创新点：表示创新：首次在流式VC/SA中提出让说话人条件与内容在时间粒度上对齐，从根本上解决动态-静态失配问题。架构创新：设计了完全因果、低延迟的流式架构（GPU延迟<80ms），集成了GTM、VQ瓶颈和音高/能量预测器，实现了自然度、说话人保真度和匿名化强度之间的平衡。全面评估：在VC和SA任务上，针对感知质量、说话人相似度、隐私（EER）、效用（WER）和实时性能进行了全面基准测试和消融研究。主要实验结果：在VC任务上，TVTSyn在人类听测中获得了最高MOS（3.82）和说话人可验证率（74.33%）。在SA任务上（遵循VPC‘24协议），TVTSyn在保持高可懂度（WER=5.35%，优于所有流式基线）的同时，取得了有竞争力的匿名化效果（EER-lazy: 47.55%）。消融实验显示，移除TVT或VQ会显著降低合成自然度（MOS从3.91降至3.42-3.45）。流式性能方面，TVTSyn在GPU上延迟约79ms，实时因子（RTF）为0.308，满足实时要求。实际意义：该工作为需要实时、低延迟的语音隐私保护（如安全通信、匿名会议）和高表现力语音转换（如配音、个性化合成）场景提供了一个可扩展的解决方案，展示了在严格延迟预算下实现隐私-效用更好平衡的可能性。主要局限性：1）论文展望了更精细的、可控的匿名化（如选择性屏蔽情绪但保留性别��，但未进行实验验证。2）主要实验在英文数据集上进行，对多语言和跨语言场景的适用性未被探讨。3）在匿名化任务中使用了固定的28个伪说话人，未来可结合生成模型进行更丰富的伪说话人生成。 🏗️ 模型架构 TVTSyn是一个端到端的流式语音转换/匿名化系统，包含四个核心模块（见图1）： ...

UALM: Unified Audio Language Model for Understanding, Generation and Reasoning

📄 UALM: Unified Audio Language Model for Understanding, Generation and Reasoning #音频大模型 #统一音频模型 #音频生成 #多模态模型 🔥 8.5/10 | 前25% | #音频生成 | #统一音频模型 | #音频大模型 #多模态模型学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jinchuan Tian (卡内基梅隆大学，CMU) 通讯作者：未明确指定，但根据作者排序和邮箱，Sang-gil Lee, Zhifeng Kong, Wei Ping (NVIDIA) 为关键联系人。作者列表：Jinchuan Tian (CMU)，Sang-gil Lee (NVIDIA)，Zhifeng Kong (NVIDIA)，Sreyan Ghosh (NVIDIA, 马里兰大学)，Arushi Goel (NVIDIA)，Chao-Han Huck Yang (NVIDIA)，Wenliang Dai (NVIDIA)，Zihan Liu (NVIDIA)，Hanrong Ye (NVIDIA)，Shinji Watanabe (CMU)，Mohammad Shoeybi (NVIDIA)，Bryan Catanzaro (NVIDIA)，Rafael Valle (NVIDIA)，Wei Ping (NVIDIA)。 💡 毒舌点评亮点：这篇论文成功证明了一个基于LLM的单一模型，在经过精心设计的数据混合和训练后，不仅能在音频生成上媲美甚至超越扩散模型，还能同时保持强大的音频理解与文本推理能力，这是音频领域迈向“大一统”模型的重要一步。短板：虽然提出了极具前景的“多模态推理”范式（如自我反思），但对其效果的评估几乎完全依赖主观听感测试，缺乏客观、可复现的自动指标来衡量推理链的质量和生成结果的可控性，使得这部分贡献的科学严谨性打了折扣。 ...

Unified Multi-Modal Interactive and Reactive 3D Motion Generation via Rectified Flow

📄 Unified Multi-Modal Interactive and Reactive 3D Motion Generation via Rectified Flow #3D动作生成 #流匹配 #检索增强生成 #对比学习 #多模态模型 🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #3D动作生成 #检索增强生成学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Prerit Gupta†, Shourya Verma† （†表示同等贡献）通讯作者：未说明作者列表：Prerit Gupta（普渡大学计算机科学系）、Shourya Verma（普渡大学计算机科学系）、Ananth Grama（普渡大学计算机科学系）、Aniket Bera（普渡大学计算机科学系） 💡 毒舌点评这篇论文最大的亮点在于其“统一”的野心——用一个框架搞定交互式和反应式两种截然不同的双人生成任务，还通过LLM分解和RAG引入了相当精细的语义引导，技术整合度很高。但短板也很明显：它本质上是一个生成框架，其成功高度依赖于底层检索库的质量和多样性，一旦遇到描述模糊或罕见的舞蹈风格，RAG模块可能从“助手”变成“累赘”，论文中也承认了这一点。 🔗 开源详情代码：论文附录B承诺“Full code for this project along with the trained checkpoints for all tasks will be made open source and publicly available upon paper acceptance.”。当前未提供具体链接。模型权重：如上所述，承诺将提供训练好的检查点。数据集：论文中使用的三个数据集（InterHuman-AS, DD100, MDD）是现有公开或半公开数据集，论文未提及将发布新数据集。MDD是作者团队之前发布。 Demo：论文未提及在线演示。复现材料：论文提供了非常详细的实现细节（附录D）、模型参数（附录D.5）、损失函数公式（第3.5节）、训练配置（第4节实现细节）以及大量的消融实验结果（附录E、F），为复现提供了充分指导。引用的开源项目/模型：CLIP (Radford et al., 2021), Jukebox (Dhariwal et al., 2020), SMPL (Loper et al., 2015)。总结：论文对未来开源有明确计划和承诺，并提供了丰富的复现信息，但当前代码和权重尚未公开。 📌 核心摘要问题：生成由文本、音乐等多种模态条件驱动的协调、逼真的双人3D动作是一个难题。现有方法要么只处理交互式，要么只处理反应式任务，且通常只支持单一模态，缺乏统一框架。方法：论文提出了DualFlow，一个基于Rectified Flow的统一框架。其核心是设计了级联的“DualFlow块”，通过掩码机制灵活切换以处理交互式（双分支对称）和反应式（演员分支掩码）任务。引入了为双人动作设计的RAG模块，使用LLM将文本分解为空间关系、身体动作和节奏三个维度进行检索。创新点：(1) 首个统一交互与反应双人生成的单一框架；(2) 针对双人动作的LLM分解RAG模块；(3) 结合了对比学习的Rectified Flow目标和同步损失。实验结果：在MDD、InterHuman-AS和DD100数据集上的广泛评估表明，DualFlow在多数指标上达到SOTA。例如，在MDD数据集的交互任务中，DualFlow(Both)的FID为0.415（优于InterGen(Both)的0.426），R-Precision@3为0.513（优于InterGen(Both)的0.302）。推理速度方面，仅需20步即可完成，比需要50步的50-DDIM基线快约2.5倍。意义：为VR/AR伴侣、社交机器人和游戏AI等需要生成协调多人行为的应用提供了一个更通用、更高效的基础框架。局限性：性能依赖于检索库质量；在反应式设置中可能出现轻微的身体穿透；长序列生成可能有时序漂移。 🏗️ 模型架构图1展示了DualFlow如何统一处理交互式和反应式生成，并利用文本（经LLM分解）、音乐和检索样本作为条件输入。 ...