Posts

Staged Diffusion with Hybrid Mixture-of-Experts (MOE) for Multimodal Sentiment Analysis

📄 Staged Diffusion with Hybrid Mixture-of-Experts (MOE) for Multimodal Sentiment Analysis #多模态模型 #扩散模型 #多模态模型 #语音情感识别 #鲁棒性 🔥 8.0/10 | 前25% | #语音情感识别 | #多模态模型 | #扩散模型 #鲁棒性学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Kaiyang Zheng（上海交通大学计算机科学与技术学院）通讯作者：Gehao Sheng（上海交通大学计算机科学与技术学院）作者列表：Kaiyang Zheng（上海交通大学计算机科学与技术学院）、Gehao Sheng（上海交通大学计算机科学与技术学院） 💡 毒舌点评亮点：该工作将扩散模型从生成任务“跨界”到语义修复，用于对齐和修正多模态下的噪声文本，是一个颇具巧思的“认知模拟”尝试，为处理模态缺失提供了新思路。短板：整体框架依赖外部的情绪描述生成模块（EDG），核心创新更侧重于框架整合与特定组件（如Hybrid MoE）的设计，而非底层原理突破；论文对“Semantic Cortex Emulator”等命名略显“包装”，部分机制解释深度有限。 🔗 开源详情代码：论文提供了代码仓库链接：https://github.com/zhengky-paper-account/SDHM。模型权重：未提及。数据集：论文中使用了公开数据集CMU-MOSI和CH-SIMS，但未说明是否提供已处理好的数据或特定预处理脚本。 Demo：未提供。复现材料：论文给出了一些关键超参数（如扩散步数、beta范围、模型深度、专家数等），但未提供完整的训练配置文件、预训练权重或训练日志。引用的开源项目：论文引用了DEVA、Linear-MoE等开源工作，并在其基础上进行改进。 📌 核心摘要要解决的问题：多模态情感分析（MSA）中，文本模态常因口语化和ASR错误而包含噪声和歧义，现有方法处理此类噪声鲁棒性不足。方法核心：提出受认知启发的两阶段框架SDHM。第一阶段，使用混合线性注意力与Transformer的MoE模型渐进增强单模态特征，并引入基于扩散模型的重建损失来对齐多模态线索、修复损坏内容。第二阶段，将重建后的语义特征与原始文本特征融合，形成鲁棒的主模态表示进行最终预测。与已有方法相比新在哪里：首次在MSA领域将扩散模型用于文本模态的语义修复（而非高层融合或生成）；设计了交替使用线性MoE和Transformer-MoE的“混合专家”结构，旨在平衡特征描述对齐与上下文语义提取，并抑制噪声放大。主要实验结果：在MOSI和SIMS数据集的随机模态缺失设定下，SDHM取得了SOTA性能。在MOSI上，MAE降至0.698，相关系数Corr提升至0.800（均为p<0.01显著提升）。在模态缺失鲁棒性测试中，当缺失率为0.3时，其MAE仍比LNLN低0.086，Corr高0.084。消融实验证明，结合混合MoE与扩散损失能带来最大性能增益。实际意义：提升了MSA模型在真实世界（多噪声、多缺失模态）场景下的预测准确性和鲁棒性，对人机交互、情感计算等应用有直接价值。主要局限性：在极端模态缺失（如缺失率0.8）条件下，分类准确率（如Acc-7）仍略低于部分基线模型。框架依赖外部生成的情绪描述，增加了系统复杂度。 🏗️ 模型架构 SDHM是一个两阶段、多组件的端到端框架。其整体处理流程如下图所示（图1）： ...

Stemphonic: All-At-Once Flexible Multi-Stem Music Generation

📄 Stemphonic: All-At-Once Flexible Multi-Stem Music Generation #音乐生成 #扩散模型 #流匹配 ✅ 7.7/10 | 前25% | #音乐生成 | #扩散模型 #流匹配 | #扩散模型 #流匹配学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Shih-Lun Wu（MIT CSAIL, Adobe Research）通讯作者：未说明作者列表：Shih-Lun Wu（MIT CSAIL, Adobe Research）、Ge Zhu（Adobe Research）、Juan-Pablo Caceres（Adobe Research）、Cheng-Zhi Anna Huang（MIT CSAIL）、Nicholas J. Bryan（Adobe Research） 💡 毒舌点评亮点：这篇论文精准地抓住了现有音轨生成范式的“鱼与熊掌”困境（并行模型僵化，串行模型太慢），并用一组简洁而巧妙的训练时干预（分组+噪声共享）同时解决了速度和灵活性问题，工程思维很清晰。短板：其评估建立在理想化的分离音轨数据集上，但真实世界的音乐制作涉及更复杂的混音、动态和乐器交互，该框架在面对“用真实、不完美的子混音条件生成新音轨”这类更贴近创作流程的任务时，其稳健性和音质上限仍有待验证。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及公开权重。数据集：评估所用MoisesDB和MusDB为已有公开数据集；训练所用授权数据集未提及公开。 Demo：提供了在线演示网站：https://stemphonic-demo.vercel.app 复现材料：论文描述了关键超参数、训练硬件和时长，但未提供详细的配置文件、检查点或附录以支持完全复现。论文中引用的开源项目：文中引用了多个开源项目/模型，如Stable Audio Open [30]、T5-XXL [31]、Qwen2.5-Omni [37]、Madmom [38]等，作为基线或组件参考。 📌 核心摘要要解决什么问题：现有音轨生成方法要么并行生成固定数量/类型的音轨（快但僵化），要么逐轨顺序生成（灵活但慢）。STEMPHONIC旨在实现“一次推理，生成可变数量、相互同步的音轨”，统一速度与灵活性。方法核心是什么：基于扩散/流匹配模型，通过两项训练时技巧：(1) 分组：在训练batch中将来自同一首音乐的音轨组织在一起；(2) 噪声共享：为同一组内的所有音轨分配相同的初始噪声潜变量，从而将同步性先验注入模型。与已有方法相比新在哪里：不同于并行模型（如[13-16]）预设固定音轨架构，也不同于串行模型（如[19-22]）一次只生成一轨。STEMPHONIC在推理时使用共享噪声和分组文本提示，在单次前向传播中生成一组音轨，用户可灵活决定一次生成多少轨。主要实验结果如何：核心消融（表1）：完整设置C-(ii)（分组+训练时噪声共享+推理时噪声共享）在FADstem（音轨控制）和FADmix（混音质量）上均优于所有消融设置，尤其在更复杂的MoisesDB数据集上。工作流对比（表2）：生成K个音轨时，采用2次推理的C-(ii)工作流（一次从头生成，一次基于子混音条件生成）相比传统的K次推理基线（A-(i)），在MoisesDB数据集上，将总推理时间从6.88-8.28秒降低至3.03-3.27秒（加速25-50%以上），同时FADmix和CLAP指标更优。活动控制（表3）：模型训练加入活动控制后，帧级F1值达到99.42%-99.43%，证明控制近乎完美，但会略微降低FADstem和CLAP分数。实际意义是什么：为音乐制作人提供了一种更高效、更可控的AI辅助工具。他们可以一次性生成多个协调的乐器声部进行混音，或基于已有片段迭代地添加新乐器，并精确控制每个乐器何时进出，极大地贴合了音乐创作的非线性和分层工作流。主要局限性是什么：评估主要依赖公开的分离音轨数据集，可能无法完全反映模型在处理复杂、专业混音时的真实表现；文本描述依赖外部模型生成（Qwen2.5-Omni）；未来工作需探索更细粒度的自由文本音轨控制。 🏗️ 模型架构 STEMPHONIC是一个基于潜在扩散/流匹配的生成框架，其整体架构如下： ...

Step-Audio-R1.5 Technical Report

📄 Step-Audio-R1.5 Technical Report #语音对话系统 #强化学习 #语音大模型 #基准测试 #模型评估 🔥 8.0/10 | 前25% | #语音对话系统 | #强化学习 | #语音大模型 #基准测试 | arxiv 学术质量 6.2/7 | 选题价值 1.7/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yuxin Zhang（StepFun，上海交通大学）通讯作者：Fei Tian（StepFun）作者列表：Yuxin Zhang（StepFun，上海交通大学）， Xiangyu Tony Zhang（新南威尔士大学）， Daijiao Liu（StepFun，新南威尔士大学）， Fei Tian（StepFun）， Yayue Deng（StepFun）， Jun Chen（StepFun）， Qingjian Lin（StepFun）， Haoyang Zhang（StepFun，南洋理工大学）， Yuxin Li（StepFun，南洋理工大学）， Jinglan Gong（StepFun）， Yechang Huang（StepFun）， Liang Zhao（StepFun）， Chengyuan Yao（StepFun）， Hexin Liu（南洋理工大学）， Eng Siong Chng（南洋理工大学）， Xuerui Yang（StepFun）， Gang Yu（StepFun）， Xiangyu Zhang（StepFun）， Daxin Jiang（StepFun） 💡 毒舌点评论文精准地指出了当前音频模型训练中“RLVR导致机械感”的核心痛点，并给出了一个优雅且实验验证有效的解决方案（引入RLHF）。但作为一份技术报告，其最大的短板恰恰在于“技术”细节的不透明：训练数据规模与构成、奖励模型的具体架构与训练细节、RLHF阶段的采样与优化超参数等关键复现信息均付之阙如，这与其宣称的“技术报告”定位略有不符，使得外部研究者难以跟进。 ...

StereoFoley: Object-Aware Stereo Audio Generation from Video

📄 StereoFoley: Object-Aware Stereo Audio Generation from Video #音频生成 #扩散模型 #空间音频 #跨模态 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #空间音频 #跨模态学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Tornike Karchkhadze（UC San Diego）通讯作者：未说明（论文中未明确标注通讯作者）作者列表：Tornike Karchkhadze（UC San Diego）、Kuan-Lin Chen（Apple）、Mojtaba Heydari（Apple）、Robert Henzel（Apple）、Alessandro Toso（Apple）、Mehrez Souden（Apple）、Joshua Atkins（Apple） 💡 毒舌点评亮点：论文的核心贡献——合成数据管线，巧妙地将视频对象分割、跟踪与音频空间化规则结合，为解决小众任务的冷启动问题提供了一个系统且可扩展的“数据工厂”蓝图。短板：论文对合成数据与真实数据的差距讨论不足，且关键组件（如OVD、T2A模型）均为“内部”或“借鉴”，极大限制了结果的可复现性和社区验证。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开模型权重。数据集：未提及公开其合成的立体声数据集。实验使用了公开的VGGSound和AudioSet，但筛选和替换后的具体版本未公开。 Demo：未提及在线演示。复现材料：论文提供了详细的模型架构描述、训练超参数、数据集筛选条件和合成管线流程图，但缺乏关键的实现细节和工具链。引用的开源项目：论文引用并基于了Synchformer、SAM2等开源模型或思想，但具体集成方式未详述。整体：论文中未提及开源计划。 📌 核心摘要问题：现有视频到音频生成模型大多只能生成单声道，或无法实现基于视频中物体位置的、语义一致的立体声效。主要瓶颈在于缺乏专业的、空间信息准确的立体声V2A训练数据集。方法核心：提出StereoFoley框架，包含一个基础立体声V2A模型和一个合成数据管线。基础模型基于潜扩散和Transformer架构。核心创新是合成数据管线，它通过视频分析、对象检测与分割、文本到音频生成及基于规则的立体声空间化（基于物体位置和尺寸），自动生成带有精确空间标签的训练数据。新意：首次提出端到端的、对象感知的立体声视频到音频生成框架。与现有工作相比，其创新不在于新的网络架构，而在于通过精心设计的合成数据管线，系统性地解决了训练数据缺失这一根本性障碍。实验结果：基础性能：StereoFoley-base在VGGSound数据集上的语义一致性（IB-score 30.61）、同步性（DeSync 0.42）等指标上与SOTA模型MMAudio和Kling-Foley性能相当。对象感知效果：在合成的VGG-obj测试集上，StereoFoley-obj的立体声对象对齐分数（BAS）为0.33，显著高于基线MMAudio（0.08）和StereoFoley-base（0.23）。在用户研究中，StereoFoley-obj的MOS评分为3.46，显著高于其他系统（p < 0.001）。实际意义：为影视、游戏、AR/VR内容创作提供了自动化生成空间准确音效的潜在工具，并建立了首个相关基准和评估指标（BAS）。局限性：合成数据管线依赖多个复杂的、未公开的内部模型，其生成数据的真实感和多样性可能不足。模型规模庞大（~1.1B参数），训练成本高。 🏗️ 模型架构 StereoFoley的架构基于潜扩散模型，由编码器和扩散生成基础模型两大部分组成。 ...

Stereophonic Acoustic Echo Cancellation Using an Improved Affine Projection Algorithm with Adaptive Multiple Sub-Filters

📄 Stereophonic Acoustic Echo Cancellation Using an Improved Affine Projection Algorithm with Adaptive Multiple Sub-Filters #语音增强 #自适应滤波 #实时处理 #声学回声消除 ✅ 6.0/10 | 前50% | #语音增强 | #自适应滤波 | #实时处理 #声学回声消除学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Gagandeep Singh (印度Dr B R Ambedkar国立技术学院电子与通信工程系) 通讯作者：未说明作者列表：Gagandeep Singh (印度Dr B R Ambedkar国立技术学院电子与通信工程系)、Asutosh Kar (英国伯明翰城市大学建筑、建成环境、计算与工程学院)、Rohit Singh (印度Dr B R Ambedkar国立技术学院电子与通信工程系)、Vasundhara (印度国立技术学院瓦朗加尔分校电子与通信工程系)、Jesper R. Jensen (丹麦奥尔堡大学音频分析实验室)、M.G. Christensen (丹麦奥尔堡大学音频分析实验室) 💡 毒舌点评本文系统性地将多子滤波器（MSF）结构、基于递推均方偏差的可变步长机制以及能量方差跟踪重置策略相结合，为解决立体声回声消除中信号高相关性与非圆性难题提供了一个工程上完整且有效的方案，在特定条件下提升了收敛速度和追踪能力。但其创新点更像是“乐高积木”式的组合，缺乏底层理论突破，且完全忽略了双讲（double-talk）和非线性失真这两个实际场景中的核心挑战，限制了其在复杂真实环境中的适用性。 ...

Still Thinking or Stopped Talking? Dialogue Silence Intention Classification Using Multimodal Large Language Model

📄 Still Thinking or Stopped Talking? Dialogue Silence Intention Classification Using Multimodal Large Language Model #语音对话系统 #多模态模型 #数据集 #大语言模型 ✅ 6.5/10 | 前25% | #语音对话系统 | #多模态模型 | #数据集 #大语言模型学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Muyun Wu（京都大学信息学院）通讯作者：未说明作者列表：Muyun Wu（京都大学信息学院）、Zi Haur Pang（京都大学信息学院）、Koji Inoue（京都大学信息学院）、Tatsuya Kawahara（京都大学信息学院） 💡 毒舌点评亮点：论文精准地抓住了对话系统中一个被长期忽视但至关重要的细节——沉默的意图解读，并为此构建了首个专门的多模态数据集，这种对具体问题的深入挖掘值得肯定。短板：模型更像是现有成熟组件（Whisper， SigLip2， Q-former， Qwen3）的“乐高式”拼装，在多模态融合的核心技术上缺乏原创性。数据集规模相对较小（仅63名说话人），且仅针对日语，结论的普适性存疑。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：论文详细描述了数据集构建方法，但未明确说明是否会公开发布该数据集。 Demo：论文中未提及在线演示。复现材料：论文提供了模型架构、训练策略（优化器、学习率、LoRA参数）、推理设置等复现所需的关键框架信息，但缺少损失函数、完整超参、训练日志等细节。论文中引用的开源项目：CLIP [13], SigLip2 [14], AV-HuBERT [15], Marlin [16], Whisper, HuBERT, BLIP-2/Q-former [17], MMS-LlaMA [18], VideoLLaMA2/STPConnector [12], Qwen3, Llama3.2, Perceiver IO [19], Adam [20], LoRA [21]。总结：论文中未提及明确的开源计划。 📌 核心摘要本文旨在解决对话式语音系统（SDS）中用户长暂停（沉默）意图不明确的问题，即无法判断用户是在“思考”还是已“停止发言”。方法核心是将此问题重新定义为多模态（音频-视频）分类任务，并构建了一个包含63名日语母语者与“倾听系统”交互的专用数据集，对2秒以上的静音区间基于前后文语言线索、视觉线索和后续行为进行标注。基于此数据集，作者提出了一种名为SilenceLLM的多模态大语言模型架构，该架构结合了视觉编码器（评估了CLIP， SigLip2， AV-HuBERT， Marlin）、音频编码器（Whisper， HuBERT）、AV Q-former和LLM解码器。与已有方法相比，其新意在于专门针对沉默理解设计了数据集和端到端的分类框架，并在多个组件组合上进行了系统性对比。实验表明，最优配置（Qwen3-1.7B + SigLip2 (带STPConnector) + Whisper）达到了0.857的宏F1分数，显著优于单模态基线（音频0.662，视频0.392），且与通用多模态LLM（如MMS-LlaMA）相比也有显著提升（p<0.05）。这项工作的实际意义在于为提升对话系统的交互自然性提供了关键模块和评估数据集。主要局限性是数据集规模较小、语种单一，且模型的创新性更多体现在系统集成而非底层算法突破。 ...

Str-DiffSep: Streamable Diffusion Model for Speech Separation

📄 Str-DiffSep: Streamable Diffusion Model for Speech Separation #语音分离 #扩散模型 #流式处理 #实时处理 #波形建模 ✅ 7.5/10 | 前25% | #语音分离 | #扩散模型 | #流式处理 #实时处理学术质量 6.2/7 | 选题价值 1.8/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Chenjun Zhao (剑桥大学工程系) 通讯作者：未明确说明（根据署名顺序和机构，Philip C. Woodland教授可能是通讯作者，但论文未明确标注）作者列表：Chenjun Zhao (剑桥大学工程系), Guangzhi Sun (剑桥大学工程系), Keqi Deng (剑桥大学工程系), Chenda Li (上海交通大学), Philip C. Woodland (剑桥大学工程系) 💡 毒舌点评该论文首次将扩散模型引入实时语音分离，通过巧妙融合SkiM的流式架构和MultiDiffusion的边界融合策略，成功解决了生成模型难以流式化的痛点，这是一个漂亮的工程-算法结合。不过，其推理计算量（RTF=0.51）仍是判别式模型SkiM（RTF=0.26）的两倍，且扩散带来的感知质量（PESQ）轻微下降也提醒我们，生成模型在实时场景的“免费午餐”可能并不完全免费。 🔗 开源详情代码：论文中未提及代码链接或开源计划。模型权重：未提及。数据集：使用了公开数据集WSJ0-2mix和Libri2Mix，但未提供本文特有的处理脚本或新数据。 Demo：未提及在线演示。复现材料：论文详细说明了模型架构、关键超参数、训练目标和实验设置，这些信息对复现有重要帮助，但未提供完整的训练代码或配置文件。论文中引用的开源项目：引用了SkiM（[6]）、DiffSep（[10]）、MultiDiffusion（[13]）等相关工作的代码实现（推测），但未明确列出所依赖的具体开源库版本。总体而言，论文中未提及任何开源计划。 📌 核心摘要解决的问题：传统判别式语音分离模型在未见数据上泛化能力差，而现有的扩散模型分离方法无法满足实时流式处理的低延迟要求。方法核心：提出Str-DiffSep，第一个用于流式语音分离的扩散模型。其核心是采用SkiM架构改造扩散模型的分数函数，使其能处理短时音频块；并引入源自图像生成的MultiDiffusion策略，通过融合重叠块的去噪结果来消除边界伪影，实现稳定的流式推理。新意：这是首次将扩散模型框架成功适配到流式语音分离任务。创新点在于设计了基于记忆增强LSTM的分数函数网络，并将MultiDiffusion这一生成空间融合策略迁移到了语音波形领域。主要结果：在WSJ0-2mix测试集上，Str-DiffSep在50ms延迟的流式设置下，SI-SDR（14.74 dB）和SI-SAR（14.97 dB）指标均优于判别式基线SkiM（13.69/14.01 dB），且接近离线DiffSep模型（14.32/14.66 dB）。在未见数据集Libri2Mix上，其DNSMOS评估分数超过SkiM，展现了更强的泛化能力。消融实验证明MultiDiffusion和状态传递缺一不可。数据集模式 MultiDiffusion States SI-SDR (dB) SI-SAR (dB) PESQ STOI WSJ0-2mix Str-DiffSep (online) yes yes 14.74 (5.56) 14.97 (5.06) 2.74 (0.53) 0.877 (0.102) WSJ0-2mix SkiM (online) - - 13.69 (4.98) 14.01 (4.42) 2.92 (0.46) 0.878 (0.081) WSJ0-2mix DiffSep (offline) - - 14.32 (5.69) 14.66 (5.07) 3.13 (0.55) 0.896 (0.093) （表1: WSJ0-2mix关键性能对比）实际意义：证明了扩散模型可以作为一种有效且泛化能力更强的框架用于实时语音分离任务，为流式语音处理提供了新的模型选择。主要局限：流式推理的实时因子（RTF=0.51）高于判别式模型，计算开销更大；MultiDiffusion的平滑策略可能导致感知质量指标（如PESQ）略有下降；实验数据集规模相对有限（仅两个2说话人混合数据集）。 🏗️ 模型架构 Str-DiffSep的整体架构旨在实现端到端的流式语音分离。其输入是连续的混合语音流，输出是按时间顺序生成的分离后语音流。 ...

Stream-Voice-Anon: Enhancing Utility of Real-Time Speaker Anonymization Via Neural Audio Codec and Language Models

📄 Stream-Voice-Anon: Enhancing Utility of Real-Time Speaker Anonymization Via Neural Audio Codec and Language Models #语音匿名化 #神经音频编解码器 #自回归模型 #实时处理 #知识蒸馏 ✅ 7.0/10 | 前25% | #语音匿名化 | #神经音频编解码器 | #自回归模型 #实时处理学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Nikita Kuzmin (南洋理工大学，新加坡科技研究局A*STAR信息通信研究院)， Songting Liu (南洋理工大学) — 论文标注为“Equal contribution”。通讯作者：未说明作者列表：Nikita Kuzmin（南洋理工大学，新加坡科技研究局A*STAR信息通信研究院）、Songting Liu（南洋理工大学）、Kong Aik Lee（香港理工大学）、Eng Siong Chng（南洋理工大学） 💡 毒舌点评这篇论文的最大亮点在于成功地将当前火热的流式神经音频编解码器（NAC）与因果语言模型架构，从语音转换（VC）“搬运”到了说话人匿名化（SA）领域，并通过一系列工程技巧（如动态延迟、混合嵌入、多样化提示池）实实在在地提升了匿名化语音的“好用程度”（WER和UAR）。然而，其短板也很明显：面对一个稍微“用功”一点的攻击者（半知情攻击者），隐私保护性能就会显著下降，这暗示了其匿名化核心机制可能过于依赖表面特征变换，而非深度的身份信息剥离。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：训练集（LibriHeavy, CommonVoice）和提示池（VCTK, ESD, VoxCeleb1, CREMA-D）均为公开数据集，论文未说明其独占数据。 Demo：提供在线演示页面：https://paniquex.github.io/Stream-Voice-Anon。复现材料：论文提供了较为详细的模型配置（第3.3节）、训练细节（第3.3节）和评估协议（第3.2节），但未提供预训练检查点或脚本。论文中引用的开源项目： HuBERT：用于内容编码器的蒸馏特征提取。 ECAPA-TDNN：用于构建lazy-informed攻击者模型。 CAM++：用作说话人编码器。 SparkTTS：使用其全局分词器。 FishSpeech：使用其Firefly-GAN声学编码器/解码器。 ConvNeXt：内容编码器的骨干网络。 SwiGLU, RoPE：Transformer中的激活函数和位置编码。总体而言：论文中未提及开源计划（除演示页面外）。 📌 核心摘要要解决的问题：在实时流式场景下，现有的说话人匿名化方法要么在语音可用性（如识别率、情感保留）上妥协严重，要么隐私保护不足，亟需一种能平衡低延迟、高隐私和高实用性的系统。方法核心：本文提出了Stream-Voice-Anon系统。其核心是借鉴流式语音转换（StreamVoice）的架构，采用一个基于因果Transformer的内容编码器（结合向量量化和知识蒸馏）提取与说话人无关的内容码，以及一个两阶段自回归模型（Slow-AR + Fast-AR）来生成目标声学码。为了实现匿名化，在推理阶段采用了三种策略：从提示池中随机选取并混合多个提示的语音内容、混合平均说话人嵌入与随机采样的高斯嵌入、以及动态调整延迟帧数。与已有方法相比新在哪里：1）架构迁移：首次将先进的、基于因果语言模型的流式VC架构系统性地适配用于SA任务；2）匿名化增强：在VC架构基础上，创新性地集成了伪说话人表示采样、说话人嵌入混合和多样化提示选择等隐私保护技术；3）动态延迟：引入动态延迟训练（延迟d在1-8间随机采样），使得模型能在推理时灵活调整延迟以适应不同需求，而无需重新训练。主要实验结果：在VoicePrivacy 2024 Challenge协议下，与之前的流式SOTA系统DarkStream相比：实用性大幅提升：字错误率（WER）相对降低高达46%；未加权平均召回率（UAR，情感识别）相对提升高达28%。隐私保护持平或略有下降：在“懒惰知情攻击者”场景下，等错误率（EER）与DarkStream相当（约47%）；但在“半知情攻击者”场景下，EER降低了约15%，表明隐私保护有所退化。延迟更低：实现与DarkStream可比甚至更低的延迟（180ms vs. 200ms）。关键结果见下表：模型类型 WER ↓ UAR ↑ EER ↑ (lazy-informed) EER ↑ (semi-informed) DarkStream [15] (Mel+CL) 在线, 200ms 8.75 (0.0%) 34.73 (0.0%) 47.26 (0.0%) 21.83 (0.0%) Stream-Voice-Anon (cremad-emo-4rnd) 在线, 180ms 6.59 (24.7%↓) 44.59 (28.4%↑) 46.53 (1.5%↓) 18.63 (14.6%↓) Stream-Voice-Anon (cross-ds-4rnd) 在线, 180ms 4.71 (46.2%↓) 39.94 (15.0%↑) 47.72 (0.9%↑) 18.98 (13.1%↓) 实际意义：该系统在保持实时性的前提下，显著提高了匿名化语音在自动语音识别（ASR）和情感识别（SER）任务上的可用性，使其更适合用于需要保留语义和情感信息的实时通信场景（如紧急呼叫、心理咨询、法律记录）。主要局限性：1) 面对经过针对性训练的“半知情”攻击者，隐私保护能力下降；2) 系统依赖GPU加速，无法在CPU上实时运行；3) 离线模型与在线模型之间仍存在性能差距；4) 论文未开源代码和模型，限制了复现与应用。 🏗️ 模型架构系统整体架构如图1所示，主要包含训练和推理两个流程。 ...

Streaming Speech Recognition with Decoder-Only Large Language Models and Latency Optimization

📄 Streaming Speech Recognition with Decoder-Only Large Language Models and Latency Optimization #语音识别 #语音大模型 #流式处理 #端到端 ✅ 7.0/10 | 前25% | #语音识别 | #语音大模型 | #流式处理 #端到端学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Genshun Wan（中国科学技术大学）†1 （论文标注†Equal contribution）通讯作者：Jing-Xuan Zhang（陕西师范大学人工智能与计算机科学学院）⋆3 作者列表： Genshun Wan（中国科学技术大学，合肥）†1 Wenhui Zhang（科大讯飞研究院，科大讯飞有限公司，合肥）†2 Jing-Xuan Zhang（陕西师范大学人工智能与计算机科学学院，西安）⋆3 Shifu Xiong（中国科学技术大学，合肥）1 Jianqing Gao（科大讯飞研究院，科大讯飞有限公司，合肥）2 Zhongfu Ye（中国科学技术大学，合肥）1 💡 毒舌点评这篇论文的亮点在于提出了一种优雅的“统一训练”范式，让一个LLM同时掌握流式和非流式ASR，并巧妙地利用MoChA作为可训练的“读/写”策略，实现了延迟降低62.5%的显著效果。不过，其短板也很明显：创新性主要是对已有模块（MoChA, LoRA, Qwen）的集成与优化，在模型架构上未提出根本性的新范式；且实验仅限于中文数据集，对于流式ASR在多语言、嘈杂环境或更长上下文场景下的泛化能力，缺乏有力验证。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开模型权重。数据集：使用公开的AISHELL-1和AISHELL-2数据集。内部多领域数据集（MD）未公开。 Demo：未提及在线演示。复现材料：论文详细说明了模型架构、超参数（如Conformer层数、LoRA秩、学习率调度、损失函数权重λ等）和训练流程（总步数、优化器），提供了较高的可复现性信息。未提供检查点或附录。论文中引用的开源项目：引用了WeNet [32] 作为基线，但未说明是否依赖其代码。LLM初始化使用了公开的预训练模型 Qwen 2.5-1.5B。论文中未提及开源计划。 📌 核心摘要要解决什么问题？如何在基于解码器-only大语言模型的语音识别框架中，实现高效的流式识别，并解决延迟与精度的平衡问题。方法核心是什么？提出了一种基于单调分块注意力的读/写策略网络，用于动态分割语音流；结合最小延迟训练目标优化分割边界；并采用流式与非流式��型共享参数的联合训练策略。与已有方法相比新在哪里？与依赖CTC或强制对齐的级联方法不同，该方法实现了端到端训练；通过动态的读/写策略替代固定大小音频块的处理，实现了自适应的低延迟解码；统一了流式与非流式模式的训练。主要实验结果如何？在AISHELL-1和AISHELL-2数据集上，流式模式的字符错误率分别为5.1%和5.5%，优于基线系统。延迟优化（minLT）在保持精度几乎不变的情况下，将平均令牌生成延迟从16帧降低到6帧（降低62.5%）。消融实验证实了联合训练、LoRA和预训练LLM初始化的重要性。实际意义是什么？为实时语音应用（如实时字幕、同声传译）提供了一种高精度、低延迟的语音识别解决方案，同时简化了支持流式/非流式双模式的ASR系统开发流程。主要局限性是什么？实验仅在中文普通话数据集上验证，缺乏在多语言、低资源或嘈杂环境下的泛化性评估；方法性能依赖于前置的HMM强制对齐来生成最小延迟训练的目标边界；未公开代码与模型，限制了可复现性。 🏗️ 模型架构本文提出了一种用于流式语音识别的解码器-only大语言模型（LLM）架构，其核心是集成一个自适应的读/写策略网络。整体架构如论文中图2所示。 ...

Streamingbench: Assessing the Gap for MLLMs to Achieve Streaming Video Understanding

📄 Streamingbench: Assessing the Gap for MLLMs to Achieve Streaming Video Understanding #基准测试 #模型评估 #多模态模型 #音视频 ✅ 7.5/10 | 前25% | #基准测试 | #多模态模型 | #模型评估 #音视频学术质量 5.8/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Junming Lin（BUPT）（论文中Junming Lin标记为1⋆，表明是主要贡献者之一，但未明确“第一作者”；机构BUPT在作者列表中标注）通讯作者：未说明（论文中未明确标注通讯作者。Maosong Sun标记为1†，但†符号在作者列表中未定义为通讯作者）作者列表：Junming Lin3⋆（BUPT）、Zheng Fang1⋆（未说明）、Chi Chen1†（清华大学计算机系）、Haoxuan Cheng4（西安交通大学）、Zihao Wan1（未说明）、Fuwen Luo1（未说明）、Ziyue Wang1（未说明）、Peng Li2（清华大学AIR）、Yang Liu1,2（清华大学计算机系、清华大学AIR）、Maosong Sun1†（清华大学计算机系、清华大学AIR） 💡 毒舌点评本文最大的贡献是“承认差距”——它用一套精心设计的考卷，无情地证明了当前最聪明的多模态大模型在“边看边想边答”的能力上，依然是个不及格的“学龄前儿童”（最佳模型比人类低21.4%），这记耳光打得非常及时且必要。然而，它只负责“诊断”却未开“药方”，深度的分析和指明的改进方向（如处理并发线索、主动输出）虽有价值，但停留在表面，更像一份详尽的“体检报告”而非“手术方案”。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及公开本文评估的模型权重（这些权重属于各模型原作者）。数据集：论文明确指出StreamingBench已公开（“we hope our work facilitates further advancements…”），但未给出具体获取链接。论文中详细描述了数据构建过程，理论上可部分复现。 Demo：未提及。复现材料：论文在附录（未提供）中应包含更详细的评估设置说明（如对非流式模型的评估方法）。正文中给出了一些评估配置（如输入帧数、分辨率处理）。引用的开源项目：论文引用了大量开源模型作为评估对象，包括LLaVA-OneVision, Qwen2-VL, InternVL2, MiniCPM系列, VideoLLM-online, Flash-VStream等。 📌 核心摘要问题：当前多模态大语言模型（MLLMs）主要针对离线视频理解（处理完整视频后回答问题），与人类能实时“观看、聆听、思考、回应”流式视频输入的能力存在显著差距。现有基准无法有效评估这种流式能力。方法核心：提出StreamingBench，首个专门评估MLLMs流式视频理解能力的综合基准。该基准包含900个视频和4500个精心制作的问题对，每个视频设有5个不同时间点的问题以模拟连续流场景。它从三个核心维度评估：实时视觉理解、全模态（视觉+音频）理解和上下文理解。新意：与传统离线基准相比，StreamingBench的关键创新在于强调了时间性（问题需在特定时间点回答）、交互性（支持多轮任务）和多模态同步性（需对齐处理视觉和音频流）。主要实验结果：评估了3个闭源和20个开源MLLMs。即使是最强的闭源模型Gemini 1.5 Pro（总分70.26%），也比人类平均水平（91.66%）低21.4个百分点。开源模型中MiniCPM-o 2.6表现最好（66.01%）。模型在处理“并发线索”和“后续线索”时性能显著下降，表明其上下文记忆和实时对齐能力薄弱。分析还发现，使用语音指令会降低模型性能，而直接处理原生音频比使用ASR转录效果更好。关键性能对比如下表：模型类型模型名称总体得分(%) 实时视觉(%) 全模态(%) 上下文(%) 人类 Human 91.66 91.46 90.26 93.55 闭源 Gemini 1.5 Pro 70.26 77.39 67.80 51.06 GPT-4o 64.31 74.54 50.95 49.06 Claude-3.5-sonnet 60.06 74.04 41.40 39.70 开源 (~7B) MiniCPM-o 2.6 66.01 79.88 53.40 38.45 InternVL2.5 64.36 78.32 46.70 43.14 InternLM-XComposer2.5-OmniLive 60.80 75.36 46.20 33.58 实际意义：为评估和推进真正具有实时交互能力的多模态AI系统（如个人助理、实时翻译、智能监控）提供了首个标准化测试集和基线，明确了当前技术的主要短板和未来发展方向。主要局限性：本文是一项评估研究，未提出任何新的模型或算法来解决所发现的问题。其深度分析停留在现有模型的能力表征上，未进行根本性的模型架构或训练方法的探索。此外，视频来源为YouTube，可能无法完全覆盖所有现实流式场景。 🏗️ 模型架构本文是一篇基准测试与评估论文，并未提出一个新的模型架构。其核心贡献在于定义和构建了一个评估框架（StreamingBench），并利用该框架测试了多种现有的MLLMs。 ...