Posts

Towards True Speech-to-Speech Models Without Text Guidance

📄 Towards True Speech-to-Speech Models Without Text Guidance #语音对话系统 #端到端 #大语言模型 #预训练 #流式处理 ✅ 7.5/10 | 前25% | #语音对话系统 | #端到端 | #大语言模型 #预训练学术质量 7.0/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Xingjoint Zhao（复旦大学）通讯作者：Xipeng Qiu（复旦大学）作者列表：Xingjoint Zhao¹³（1.复旦大学，2.上海创新研究院，3.MOSI.AI），Zhe Xu¹²³，Luozhijie Jin¹²³，Yang Wang¹³，Hanfu Chen¹³，Yaozhou Jiang¹³，Ke Chen¹²³，Ruixiao Li¹²³，Mingshu Chen¹³，Ruiming Wang¹³，Wenbo Zhang¹²³，Qinyuan Cheng¹³，Zhaoye Fei¹³，Shimin Li³，Xipeng Qiu¹²³† 💡 毒舌点评亮点：论文直击当前语音对话模型“伪端到端”（依赖文本指导）的痛点，提出的模态分层架构和冻结预训练策略，为在LLM中集成原生语音能力并保留文本智能提供了一个有原理性支撑且实验有效的解决方案。短板：尽管自称为“真”语音到语音模型，但其语音理解与生成的底层仍严重依赖于强大的文本LLM骨干和高质量的文本-语音配对数据，其“无文本指导”更多体现在生成阶段，训练阶段对文本的依赖并未摆脱；此外，对于更复杂的、富含副语言信息的开放式对话场景，模型的表现力有待进一步验证。 📌 核心摘要本文旨在解决现有语音对话系统依赖文本中间环节导致的延迟增加、副语言信息丢失和表达力受限的问题。核心方法是构建一个真正的、无需文本指导的语音到语音大语言模型，其技术核心是模态分层架构（在Transformer顶层为文本和语音设置独立分支）与冻结预训练策略（第一阶段冻结预训练文本LLM，仅训练语音相关模块；第二阶段再联合微调）。与已有方法相比，其创新在于明确观察并利用了跨模态表示在模型深度上的演变规律（先融合后分化），并设计了对应的架构进行适配，同时通过冻结策略有效防止了文本能力的灾难性遗忘。主要实验结果表明：1）在口语问答任务上（如LlamaQA），模型的语音到语音（S→S）性能（63.67%）达到了与文本指导系统（GLM-4-Voice*：65.67%）可比的水平，并在WebQA上（36.71%）超越了后者（38.34%），在部分任务上取得SOTA；2）模型在文本能力基准（MMLU: 67.19， CMMLU: 69.53）上相比引入语音前的文本LLM（Qwen3-8B: MMLU 76.6， CMMLU 77.35）的下降幅度远小于SpiritLM等模型；3）语音编码器/解码器在WER、SIM等指标上具备竞争力。该工作为构建高效、富有表现力的端到端语音交互系统建立了新的范式。主要局限性在于训练依赖大规模、高质量的语音-文本数据（包括合成数据），且模型在复杂对话、长时交互和极端副语言场景下的能力尚未充分评估。 ...

Transformer-based End-to-End Control Filter Generation for Active Noise Control

📄 Transformer-based End-to-End Control Filter Generation for Active Noise Control #主动噪声控制 #Transformer #无监督学习 #实时处理 #模型比较 ✅ 7.0/10 | 前25% | #主动噪声控制 | #Transformer | #无监督学习 #实时处理 | arxiv 学术质量 6.2/7 | 选题价值 1.3/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Ziyi Yang（论文未说明其具体所属机构）通讯作者：未说明作者列表：Ziyi Yang（未说明）、Zhengding Luo（未说明）、Yisong Zou（未说明）、Boxiang Wang（未说明）、Qirui Huang（未说明）、Woon-Seng Gan（未说明） 💡 毒舌点评这篇论文的核心工作是将Transformer“嫁接”到了固定滤波器主动噪声控制的框架中，并且通过巧妙的端到端可微设计，绕开了监督学习需要“标签”的难题，在真实噪声上取得了不错的改进，思路清晰，实验扎实。不过，模型参数量和计算量相比基线方法（CNN）显著增加，这对于追求低延迟、低功耗的嵌入式ANC设备来说是个不小的挑战，论文对此权衡的讨论略显不足，且未提供任何开源代码。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重链接。数据集：论文中提及了训练和测试所用数据集的具体描述（83,977个合成带限噪声样本，用于测试的真实噪声类型包括飞机、压缩机等），但未提供公开下载链接或开源协议。 Demo：论文中未提及Demo链接。复现材料：论文中提供了详细的训练配置、超参数、模型架构及评估结果，具体信息如下，但未提供额外的检查点文件或附录文档链接。数据集：83,977个1秒时长、13kHz采样率的合成带限噪声（覆盖20-1900 Hz）。划分：79,977训练样本，2,000验证样本，2,000测试样本。训练时在参考信号上添加了SNR 10dB的高斯噪声。测试用到真实噪声和合成噪声。声学路径：使用一个覆盖10-3000 Hz的合成声学路径，训练和测试中保持一致。模型配置：输入帧长度 L=13,000 样本，控制滤波器长度 N=512。 Conv1d前端：1输入通道，256输出通道，卷积核64，步长4，填充30；后接BatchNorm、ReLU、最大池化（步长4）。 Transformer编码器：d_model=256，8个注意力头，1层编码器，前馈维度1024，dropout 0.1，使用Pre-Norm。输出头：Linear(256->512)，ReLU，Dropout(0.1)，Linear(512->512)。总可训练参数：1,201,152。训练超参数：优化器Adam，权重衰减10⁻⁴，初始学习率5×10⁻⁴，批大小128，训练40轮。使用StepLR调度器（步长5，衰减因子0.5）。评估指标：噪声降低（NR）分贝数。每个测试噪声运行5秒，在最后1秒计算NR，报告平均NR。基线模型：FxNLMS（滤波器长度512，步长0.001）；GFANC（CNN co-processor，参数211,215，详见论文）。论文中引用的开源项目：未提及。补充信息 [模型架构] 补充：论文明确指出，Transformer编码器采用Pre-Norm（预归一化）设计。这是影响训练稳定性的关键设计选择，但未在分析中强调。同时，分析中提到输入帧L=13,000采样点，但未点明这对应于约1秒的音频（采样率13kHz），这是理解系统实时性的关键。 ...

TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction

📄 TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction #多模态模型 #预训练 #Transformer #脑编码 #跨模态 🔥 9.5/10 | 前10% | #脑编码 | #预训练 | #多模态模型 #Transformer 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Stéphane d‘Ascoli（Meta AI）通讯作者：未说明作者列表：Stéphane d‘Ascoli（Meta AI）、Jérémy Rapin（Meta AI）、Yohann Benchetrit（Meta AI）、Hubert Banville（Meta AI）、Jean-Rémi King（Meta AI） 💡 毒舌点评亮点在于其工程与科学的完美结合：它不仅是竞赛刷榜利器，更通过严谨的消融实验证明了“多模态整合”在高级联合皮层的关键作用，为构建统一认知模型提供了方法论和实证支持。短板则是其对数据和算力的极度依赖（80小时/被试fMRI，128 GPU特征提取）以及仅在4名被试上验证的结论，这在一定程度上限制了其普适性的即时说服力。 🔗 开源详情代码：提供了代码仓库链接：https://github.com/facebookresearch/algonauts-2025。模型权重：论文中未提及是否公开TRIBE模型或特征提取模型的权重。数据集：使用了公开的Courtois NeuroMod数据集（CC0许可），并说明为Algonauts 2025竞赛选择了4名被试的子集。 Demo：论文中未提及在线演示。复现材料：提供了极其详尽的复现信息，包括完整的超参数表（表3）、数据处理流程、评估指标定义、训练细节（优化器、学习率调度、SWA、模态丢弃等），以及硬件规格。论文中引用的开源项目：明确列出了使用的开源模型和工具，包括：Llama 3.2（Meta）、Wav2Vec-Bert 2.0（Hugging Face）、V-JEPA 2（Meta， Apache协议）、x-transformers包（MIT协议）、nilearn（BSD协议）、PyTorch。 📌 核心摘要要解决的问题：传统神经科学研究局限于单模态、单脑区的碎片化模型，而现有的脑编码模型存在线性映射假设过强、仅支持单主体训练、且大多局限于单模态刺激输入三大限制，阻碍了构建统一的全脑认知模型。方法核心：提出TRIBE，一种深度神经网络，它将文本（Llama 3.2）、音频（Wav2Vec-Bert）和视频（V-JEPA 2）基础模型的预训练表征作为输入，通过一个Transformer编码器来建模其时间动态和跨模态整合，最终预测全脑的fMRI反应。新在哪里：与之前工作相比，TRIBE首次实现了同时是非线性的、多主体的、多模态的端到端脑编码。它超越了简单的线性映射，并允许在多个被试的数据上联合训练一个共享模型。主要实验结果：TRIBE在Algonauts 2025脑编码竞赛中获得第一名（267个团队），平均Pearson相关系数为0.2146，显著领先第二名（见表1）。消融实验表明，多模态模型（0.31）显著优于最佳单模态模型（视频0.25），且这种优势在前额叶、顶叶等高级联合皮层最为明显（见图4）。模型能够预测所有1000个脑区，并在多种高度分布外的电影上展现出鲁棒性（见表2）。实际意义：为神经科学提供了一个统一的建模框架，使得从多模态自然刺激预测全脑活动成为可能，有望推动对知觉、理解等认知过程的整体性研究，并为“计算机实验”提供新工具。主要局限性：当前模型基于粗粒度的脑区分割（1000个区域），损失了精细的空间信息；仅使用了fMRI数据，无法捕捉快速的神经电活动；目前仅在4名被试上进行训练和验证。 🏗️ 模型架构 TRIBE的整体架构旨在将三种模态的刺激信息融合，并预测全脑的BOLD响应。其流程可概括为：特征提取 -> 多模态融合 -> 时序建模 -> 全脑预测。 ...

TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization

📄 TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization #多模态模型 #音视频 #自注意力 #端到端 #基准测试 🔥 8.5/10 | 前25% | #视频摘要 | #多模态模型 | #音视频 #自注意力学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Sumin Kim（首尔大学）， Hyemin Jeong（首尔大学）， Mingu Kang（首尔大学）（表示同等贡献）通讯作者：Yoori Oh†（首尔大学）， Joonseok Lee†（首尔大学）（†表示通讯作者）作者列表：Sumin Kim（首尔大学）， Hyemin Jeong（首尔大学）， Mingu Kang（首尔大学）， Yejin Kim（首尔大学）， Yoori Oh（首尔大学）， Joonseok Lee（首尔大学） 💡 毒舌点评论文提出了一个设计精巧的多模态视频摘要模型TripleSumm，其自适应帧级融合机制和引入的大规模三模态数据集MoSu是扎实的贡献，显著推动了视频摘要领域的多模态研究。然而，其核心创新点（自适应注意力融合）在多模态学习中并非前所未见，且在标准小数据集（SumMe/TVSum）上的绝对性能提升幅度有限，新数据集的“Most Replayed”监督信号本身的普适性也有待更广泛验证。 🔗 开源详情代码：论文提供了GitHub代码仓库链接：https://github.com/smkim37/TripleSumm。模型权重：论文中未明确提及是否公开预训练模型权重。数据集：MoSu数据集已公开，论文提供了获取方式。 Demo：论文中未提及在线演示。复现材料：论文在附录中提供了非常详细的超参数设置（表I）、摘要生成算法、数据预处理细节、评估协议说明以及各种消融实验的配置，复现信息充分。论文中引用的开源项目：依赖了预训练模型CLIP、RoBERTa、AST以及用于生成文本描述的Qwen2.5-VL。 📌 核心摘要要解决什么问题？现有视频摘要方法通常采用静态或模态无关的融合策略，无法动态捕捉不同视频帧中视觉、文本和音频模态重要性的变化，导致理解复杂视频能力不足。同时，缺乏包含三模态特征的大规模基准数据集也阻碍了该领域的发展。方法核心是什么？论文提出了TripleSumm架构，其核心包括：a) 多尺度时间块，采用层次化的滑动窗口自注意力，从局部到全局捕捉视频的时序模式；b) 跨模态融合块，使用一个中性的“融合令牌”作为查询，动态地对三种模态的特征进行加权聚合，实现帧级别的自适应融合。与已有方法相比新在哪里？相比于现有模态静态或简单融合的方法，TripleSumm在帧级别动态地学习并分配各模态的权重。此外，论文首次提出了大规模、三模态的视频摘要基准数据集MoSu。主要实验结果如何？ TripleSumm在四个基准测试上均达到了SOTA性能。在提出的MoSu数据集上，其Kendall‘s τ和Spearman’s ρ分别达到0.351和0.472，大幅超越次优方法CFSum（0.277/0.374）。在Mr. HiSum，SumMe（TVT）和TVSum（TVT）数据集上，其全模型版本也均取得最优或并列最优的相关性指标。消融实验证实了三模态输入、层次化窗口和自适应融合机制的有效性。实际意义是什么？该工作推动了视频摘要向更符合人类多模态感知的方向发展，提出的MoSu数据集和TripleSumm模型为未来研究提供了可靠的基础和强大的基线，有助于从海量视频中高效提取关键信息。主要局限性是什么？论文指出，当前遵循的“帧重要性评分-分割-选择”流程并非端到端可训练，未来可探索直接学习选择连贯摘要片段的端到端模型。此外，数据集的监督信号基于聚合的“Most Replayed”数据，可能无法完全反映个体或多样化的用户需求。 🏗️ 模型架构 TripleSumm是一个用于视频摘要的端到端多模态模型，其整体架构如图2所示。其设计核心是将时序建模与跨模态融合解耦，并逐层进行“精炼-融合”的迭代处理。 ...

TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

📄 TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems #语音合成 #模型评估 #基准测试 #多语言 ✅ 7.5/10 | 前25% | #语音合成评估 | #基准测试 | #语音合成 #模型评估学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Christoph Minixhofer（爱丁堡大学语音技术研究中心）通讯作者：论文中未明确指定，根据作者邮箱统一格式，可能为同一机构课题组作者列表：Christoph Minixhofer（爱丁堡大学语音技术研究中心）、Ondrej Klejch（爱丁堡大学语音技术研究中心）、Peter Bell（爱丁堡大学语音技术研究中心） 💡 毒舌点评亮点在于构建了首个覆盖14种语言、横跨多个真实世界域（含噪声、野生、儿童语音）的TTS客观评估基准与自动化流水线，实用价值高。但核心创新点（TTSDS2）是对原有TTSDS指标的增量改进，更多是工程优化和鲁棒性验证，而非提出全新评估范式，且其计算开销（CPU-bound）限制了快速迭代。 🔗 开源详情代码：提供代码仓库链接（github.com/ttsds/pipeline），用于自动化数据创建和基准测试。模型权重：论文评估的20个系统多为开源，TTSDS2本身不涉及需训练的模型，但依赖的特征提取模型（如mHuBERT-147）是公开的。数据集：公开发布了包含11,282条评分的人类评估数据集（hf.co/datasets/ttsds/listening_test）。自动化流水线可创建多语言数据集。 Demo：提供在线基准排行榜网站（ttsdsbenchmark.com）。复现材料：论文详细描述了评估设置、问卷内容、流水线算法（Algorithm 1）、特征选择标准，并提供了特征分布可视化示例（图1）。论文中引用的开源项目：大量引用了开源工具和模型，如Whisper, Demucs, Pyannote, XNLI模型, VERSA工具包, 以及所评估的20个开源TTS系统。 📌 核心摘要解决的问题：现代文本转语音（TTS）系统已能生成以假乱真的语音，导致传统主观评估（如MOS）难以跨研究对比，而常用的客观指标缺乏在多领域、多语言下的鲁棒性验证。方法核心：提出TTSDS2，一个改进的分布评估指标。它通过比较合成语音与真实语音在通用性、说话人、韵律、可懂度四个因子上多个特征分布的2-Wasserstein距离，综合评分。得分越高表明合成语音分布越接近真实语音分布而非噪声分布。与已有的方法相比新在哪里：特征集升级：相较于TTSDS，替换了表现不佳的特征（如用Whisper和wav2vec 2.0的ASR激活替代WER），并为多语言场景引入了mHuBERT-147和XLSR-53等模型。跨域鲁棒性验证：在CLEAN（干净朗读）、NOISY（噪声）、WILD（野生/对话）、KIDS（儿童语音）四个不同域上验证了指标与人类评分的相关性。自动化多语言基准：发布了一个可重复运行的流水线，用于自动创建多语言YouTube数据集并生成持续更新的TTS系统排名，覆盖14种语言。主要实验结果：在20个开源TTS系统、16个客观指标的对比中，TTSDS2是唯一一个在所有4个域、3种主观评分（MOS, CMOS, SMOS）上均取得Spearman相关系数ρ > 0.50的指标，平均ρ ≈ 0.67。与次优的说话人相似度指标（RawNet3, X-Vector）平均相关性0.6相比，TTSDS2更具一致性和连续性。消融实验表明，简单的因子平均策略比学习权重策略在未见域上泛化更好。多语言TTSDS2分数与语言学距离（Uriel+）相关性（ρ = -0.51）高于原版TTSDS（ρ = -0.39）。 Metric Clean (MOS) Clean (CMOS) Clean (SMOS) Noisy (MOS) Noisy (CMOS) Noisy (SMOS) Wild (MOS) Wild (CMOS) Wild (SMOS) Kids (MOS) Kids (CMOS) Kids (SMOS) TTSDS2 (Ours) 0.75 0.69 0.73 0.59 0.54 0.71 0.75 0.71 0.75 0.61 0.50 0.70 TTSDS (Original) 0.60 0.62 0.52 0.49 0.61 0.66 0.67 0.57 0.67 0.70 0.52 0.60 RawNet3 0.36 0.26 0.52 0.44 0.37 0.82 0.85 0.80 0.64 0.73 0.61 0.77 X-Vector 0.46 0.42 0.56 0.40 0.29 0.77 0.82 0.82 0.62 0.70 0.57 0.75 SQUIM 0.68 0.46 0.37 0.48 0.48 0.60 0.62 0.75 0.79 0.57 0.55 0.45 表：主要客观指标与主观评分的Spearman相关系数对比（节选）。TTSDS2在所有条件下均保持高于0.50的强相关。 ...

TVTSyn: Content-Synchronous Time-Varying Timbre for Streaming Voice Conversion and Anonymization

📄 TVTSyn: Content-Synchronous Time-Varying Timbre for Streaming Voice Conversion and Anonymization #语音转换 #语音匿名化 #时变建模 #流式处理 #因子化向量量化 🔥 8.0/10 | 前25% | #语音转换 #语音匿名化 | #时变建模 #流式处理 | #语音转换 #语音匿名化学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Waris Quamer（德克萨斯A&M大学计算机科学与工程系）通讯作者：未明确说明作者列表：Waris Quamer（德克萨斯A&M大学计算机科学与工程系）、Mu-Ruei Tseng（德克萨斯A&M大学计算机科学与工程系）、Ghady Nasrallah（德克萨斯A&M大学计算机科学与工程系）、Ricardo Gutierrez-Osuna（德克萨斯A&M大学计算机科学与工程系） 💡 毒舌点评论文的亮点在于精准捕捉了流式语音转换/匿名化中“静态说话人嵌入 vs 动态内容序列”这一核心矛盾，并设计了结构化的时变音色表示（TVT）和全局音色记忆（GTM）来优雅地解决它，设计思路清晰且有启发性。短板则在于实验部分，虽然全面对比了流式基线，但与VPC’24中表现更好的离线系统（如T8-4在隐私上远超TVTSyn）对比时，论文以“设计目标不同”为由回避了直接比较，这在一定程度上削弱了其声明的“SOTA”说服力；另外，UAR指标显示其情绪抑制很强（37.32%），但这可能是过度匿名化的副作用，论文未深入探讨如何可控地平衡身份与副语言信息。 🔗 开源详情代码：论文提供了一个代码仓库的链接：https://anonymized0826.github.io/TVTSyn/。这通常意味着代码可能开源或至少包含演示。模型权重：论文中未提及是否公开预训练模型权重。数据集：训练使用了公开的LibriTTS语料库。评估数据集（CMU ARCTIC, L2-ARCTIC, VCTK, EMIME, LibriSpeech）也均为公开数据集，获取方式遵循标准学术协议。 Demo：上述链接页面可能包含音频演示样本（论文中提到“Audio samples can be found at”）。复现材料：论文提供了详尽的架构描述（附录A）、超参数配置表（表5、表6）、训练策略和评估协议，为复现提供了重要指导。但未明确提供训练脚本、环境配置或检查点。引用的开源项目：论文中提到了SpeechBrain（用于说话人编码器）和Fairseq（用于HuBERT伪标签生成）。 📌 核心摘要本文提出了TVTSyn，一个用于实时语音转换和说话人匿名化的端到端流式语音合成系统。该研究旨在解决现有流式系统中核心的表征失配问题：内容信息是时变的，而说话人身份通常作为静态全局嵌入注入，导致合成语音音色过于平滑、缺乏表现力。论文提出的核心方法是“内容同步的时变音色”（TVT）表示，它通过全局音色记忆（GTM）将全局说话人嵌入扩展为多个紧凑的“音色侧面”，并允许帧级内容特征通过注意力机制动态检索相关的音色侧面，再通过可学习的门控和球面线性插值（Slerp）进行调节，从而生成与内容同步变化的说话人条件化向量。同时，系统采用因子化向量量化（VQ）瓶颈来正则化内容编码器，减少残留的说话人信息泄漏。 ...

UALM: Unified Audio Language Model for Understanding, Generation and Reasoning

📄 UALM: Unified Audio Language Model for Understanding, Generation and Reasoning #统一音频模型 #音频生成 #音频问答 #自回归模型 #多模态模型 🔥 8.5/10 | 前25% | #音频生成 | #自回归模型 | #统一音频模型 #音频问答学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jinchuan Tian（卡内基梅隆大学，NVIDIA）通讯作者：未明确标注，论文指出所有作者贡献相等（Equal Contribution）作者列表： Jinchuan Tian（卡内基梅隆大学，NVIDIA） Sang-gil Lee（NVIDIA） Zhifeng Kong（NVIDIA） Sreyan Ghosh（NVIDIA，马里兰大学） Arushi Goel（NVIDIA） Chao-Han Huck Yang（NVIDIA） Wenliang Dai（NVIDIA） Zihan Liu（NVIDIA） Hanrong Ye（NVIDIA） Shinji Watanabe（卡内基梅隆大学） Mohammad Shoeybi（NVIDIA） Bryan Catanzaro（NVIDIA） Rafael Valle（NVIDIA） Wei Ping（NVIDIA） 💡 毒舌点评亮点在于首次系统性地证明了一个基于自回归语言模型的音频模型，可以通过数据缩放和特定技巧（如CFG和DPO）在生成质量上追平甚至超越扩散模型，并进一步将其扩展为能进行文本-音频联合推理的统一模型，技术路线清晰且有效。短板则在于其宣称的“统一”模型，其核心的音频理解数据集（AF3）和大规模生成数据（30M）并未公开，这使得“统一训练”和“匹配专用模型性能”的结论在独立复现层面打了折扣，更像一个强大的NVIDIA内部能力展示。 ...

Unified Multi-Modal Interactive and Reactive 3D Motion Generation via Rectified Flow

📄 Unified Multi-Modal Interactive and Reactive 3D Motion Generation via Rectified Flow #动作生成 #流匹配 #检索增强 #多模态 #扩散模型 ✅ 7.5/10 | 前25% | #动作生成 | #流匹配 | #检索增强 #多模态学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Prerit Gupta (Purdue University, Department of Computer Science) 通讯作者：未说明（但Aniket Bera为最后作者，通常为通讯作者）作者列表：Prerit Gupta (Purdue University), Shourya Verma (Purdue University), Ananth Grama (Purdue University), Aniket Bera (Purdue University) 💡 毒舌点评亮点在于将交互和反应式双人动作生成统一到一个框架中，并创新性地为动作生成引入了基于LLM分解的检索增强生成，有效提升了语义对齐。短板在于该领域相对小众，实际应用场景（如VR/AR游戏）的验证可能有限，且模型参数量（456M）相比基线（224M）显著增大，提升了部署门槛。 🔗 开源详情代码：论文明确承诺将开源代码（“Full code for this project… will be made open source… upon paper acceptance”），但未提供具体链接。模型权重：承诺将提供训练好的检查点。数据集：使用了InterHuman-AS、DD100、MDD三个公开数据集，论文中给出了获取参考。 Demo：未提及在线演示。复现材料：附录提供了详尽的LLM提示词设计、架构细节（公式）、损失权重配置、超参数选择等，复现信息充分。引用的开源项目：SMPL模型（动作表示），CLIP（文本编码），Jukebox（音乐编码），GPT-4o（文本分解），FlashAttention（加速）。 📌 核心摘要问题：生成真实、与上下文相关的双人3D动作，需同时支持交互式（双向协调）和反应式（单向响应）两种模式，且能融合文本、音乐等多种模态条件输入，是当前计算机图形学和具身AI的挑战。方法：提出DualFlow，首个基于矫正流匹配（Rectified Flow）的统一框架。通过可切换的“双流块”架构，同一模型可处理交互与反应任务；引入专为双人动作设计的检索增强生成模块，利用GPT-4o分解文本为空间关系、身体动作和节奏三类描述，并结合音乐特征检索动作范例，以增强生成动作的语义准确性；采用对比矫正流匹配目标，提升运动嵌入与条件信号的对齐度。创新：(1) 统一架构实现交互与反应任务的无缝切换；(2) 首个用于双人动作的RAG框架；(3) 结合同步损失的对比矫正流匹配，提升生成质量与采样效率。实验结果：在MDD、InterHuman-AS、DD100三个数据集上进行广泛评估。在MDD的交互任务上，DualFlow(Both)的R-Precision@3达0.513，MMDist为0.513；在反应任务上，FID为0.686，R-Precision@3为0.471，均优于基线。相比InterGen，DualFlow仅需20步（2.5倍加速）即可达到更优的FID。意义：为VR/AR、游戏、社交机器人等需要协调人际行为的领域提供了高效且高质量的多模态动作生成方案。局限：在长序列生成时可能存在节奏偏移；反应模式下可能出现轻微的肢体穿插；RAG检索质量依赖于库的覆盖度与查询的清晰度。 🏗️ 模型架构 DualFlow是一个基于Transformer和矫正流匹配的统一生成框架，其核心是多模态条件注入与“双流块”架构设计。 ...

UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice

📄 UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice #语音翻译 #大语言模型 #语音合成 #端到端 #多语言 🔥 8.0/10 | 前25% | #语音翻译 | #大语言模型 | #语音合成 #端到端学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Sitong Cheng（香港科技大学）通讯作者：Yike Guo（香港科技大学），Wei Xue（香港科技大学）作者列表：Sitong Cheng（香港科技大学）、Weizhen Bian（香港科技大学）、Xinsheng Wang（Soul AI Lab）、Ruibin Yuan（香港科技大学）、Jianyi Chen（香港科技大学）、Shunshun Yin（Soul AI Lab）、Yike Guo（香港科技大学）、Wei Xue（香港科技大学） 💡 毒舌点评该论文的亮点在于其“大道至简”的哲学，用一个基于标准LLM的单阶段模型同时解决了翻译、声音和情感保持的复杂问题，性能数据非常亮眼。然而，其核心竞争力部分建立在自建的、通过TTS合成的超大规模数据集UniST之上，这使得结果的说服力打了些折扣——毕竟，如果给其他SOTA模型同样规模的定制数据，结果差距可能会缩小。此外，其多标记符的复杂分词策略在工程实现和通用性上是否是最优解，也值得商榷。 🔗 开源详情代码：论文中未提及代码仓库链接。仅提供了演示网站。模型权重：基于Qwen2.5-1.5B-Instruct，论文未明确说明是否提供训练后的UniSS模型权重下载。但演示网站可能托管了模型。数据集：UniST数据集已构建，论文提到“公开”（release），但未提供具体的获取方式链接。数据构建流程和数据源已详细说明。 Demo：提供了在线演示网站：https://cmots.github.io/uniss-demo/ 复现材料：在附录B.1中提供了极其详细的训练配置（阶段、数据、学习率、批次大小等），在附录C和E中提供了评估指标和数据构建细节。复现信息相当充分，主要缺省是官方代码仓库。论文中引用的开源项目：Qwen2.5-1.5B-Instruct (LLM骨干), BiCodec (语音分词/解码器), GLM-4 (语音分词器), Paraformer (数据清洗ASR), SparkTTS (合成TTS), Whisper (评估ASR), vLLM (推理加速), Megatron-LM (训练框架), webMUSHRA (主观评估) 等。 📌 核心摘要这篇论文要解决的是表达式语音到语音翻译（S2ST）中的三大挑战：保留说话人声音和情感的配对数据稀缺、处理流程复杂、以及难以迁移文本LLM的翻译能力。方法核心是提出一个名为UniSS的单阶段、统一的文本-语音语言模型，它基于预训练的Qwen2.5-1.5B-Instruct构建，使用三种语音标记（说话人标记、语言标记、语义标记）来分别编码风格、内容和生成目标。其关键创新是引入了跨模态思维链（CoT）提示，在推理时将复杂的S2ST任务分解为“听、译、说”三个顺序步骤，从而显式地利用LLM强大的文本翻译能力来指导语音生成。为了训练该模型，论文还构建了一个大规模、高质量的合成数据集UniST（44.8k小时）。实验结果（主要见表1）表明，在CVSS-T数据集上，UniSS（质量模式）在翻译保真度（Speech-BLEU: EN-ZH 32.20, ZH-EN 24.28）、时长一致性（SLC 0.2: 0.98/0.87）和语音质量（UTMOS: 3.76/3.86）上均显著优于现有的端到端和级联系统。主观评估（表2）也证实其在情感相似度（MOS 4.51）和说话人相似度（4.42）上的优势。该工作的实际意义在于提供了一种更简洁、有效的下一代表达式S2ST系统构建范式。主要局限性是目前仅支持中英双语，且其分词器来自不同模型，导致词表膨胀。 ...

Unmute the Patch Tokens: Rethinking Probing in Multi-Label Audio Classification

📄 Unmute the Patch Tokens: Rethinking Probing in Multi-Label Audio Classification #音频分类 #自监督学习 #探针评估 #模型评估 #基准测试 ✅ 7.5/10 | 前25% | #音频分类 | #探针评估 | #自监督学习 #模型评估学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Lukas Rauch (卡塞尔大学) 通讯作者：未说明作者列表：Lukas Rauch (卡塞尔大学), René Heinrich (卡塞尔大学, 弗劳恩霍夫IEE), Houtan Ghaffari (根特大学), Lukas Miklautz (MPI of Biochemistry), Ilyass Moummad (INRIA Montpellier), Bernhard Sick (卡塞尔大学), Christoph Scholz (卡塞尔大学, 弗劳恩霍夫IEE) 💡 毒舌点评亮点：这篇论文做了一件“对”且“必要”的事——它系统性地指出并验证了音频SSL领域普遍存在的“用线性探针评估却不靠��”的核心症结（池化瓶颈），并给出了一个简洁有效的解决方案，让探针评估重获可信度。实验规模和设计的严谨性也值得称赞。短板：其提出的“二值化原型探针”本质上是现有原型网络的变体和简化，在方法创新深度上稍显不足，更像是一个工程上优化得很好的“修补”方案。研究完全基于冻结的声谱图编码器，其结论在更广泛的音频表示（如波形、离散token）上的普适性有待验证。 ...