Posts

Spring Reverb Emulation with Hybrid Gated Convolutional Networks and State Space Models

📄 Spring Reverb Emulation with Hybrid Gated Convolutional Networks and State Space Models #音频生成 #状态空间模型 #门控卷积网络 #实时处理 #数据集 ✅ 7.5/10 | 前25% | #音频生成 | #状态空间模型 | #门控卷积网络 #实时处理学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jonas Janser (Institute of Computer Technology, TU Wien, Austria) 通讯作者：未明确说明（论文中未标注通讯作者）作者列表：Jonas Janser (Institute of Computer Technology, TU Wien, Austria)、Matthias Wess (Institute of Computer Technology, TU Wien, Austria; Christian Doppler Laboratory for Embedded Machine Learning, TU Wien, Austria)、Dominik Dallinger (Institute of Computer Technology, TU Wien, Austria; Christian Doppler Laboratory for Embedded Machine Learning, TU Wien, Austria)、Matthias Bittner (Institute of Computer Technology, TU Wien, Austria; Christian Doppler Laboratory for Embedded Machine Learning, TU Wien, Austria)、Daniel Schnöll (Institute of Computer Technology, TU Wien, Austria; Christian Doppler Laboratory for Embedded Machine Learning, TU Wien, Austria)、Axel Jantsch (Institute of Computer Technology, TU Wien, Austria; Christian Doppler Laboratory for Embedded Machine Learning, TU Wien, Austria) 💡 毒舌点评亮点：论文核心贡献在于提出了GCN-SSM混合架构，通过交错馈馈网络与状态空间模型，有效解决了纯卷积模型相位不准和纯状态空间模型混响尾音不真实、有振铃伪影的问题，实现了“分工合作”，在主观听感上获得了最高分。短板：尽管标题声称“state-of-the-art”，但实验中并未与近年来在音频效果建模领域其他强劲的基线（如更新的扩散模型或更复杂的循环网络变体）进行直接对比，使得其最优性结论的支撑略显单薄。 ...

SSVD-O: Parameter-Efficient Fine-Tuning with Structured SVD for Speech Recognition

📄 SSVD-O: Parameter-Efficient Fine-Tuning with Structured SVD for Speech Recognition #语音识别 #领域适应 #低资源 #语音大模型 ✅ 7.0/10 | 前25% | #语音识别 | #领域适应 | #低资源 #语音大模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Pu Wang (KU Leuven, Department of Electrical Engineering) 通讯作者：未明确说明（根据邮箱排列，Pu Wang可能为联系人，但论文未明确标注“通讯作者”）作者列表： Pu Wang (KU Leuven, Department of Electrical Engineering, Leuven, Belgium) Shinji Watanabe (Carnegie Mellon University, Language Technologies Institute, Pittsburgh, PA, USA) Hugo Van hamme (KU Leuven, Department of Electrical Engineering, Leuven, Belgium) 💡 毒舌点评亮点：论文立意清晰，抓住了语音识别（语音-文本多模态）与纯文本任务在微调上的根本差异，并针对性地将PEFT方法从仅适配输入空间扩展到同时建模输入和输出空间，设计思路巧妙且理论依据扎实。其关于PEFT参数预算分配和“学习-遗忘”权衡的系统性分析，为社区提供了宝贵的经验性见解。短板：实验主要局限于ASR领域的儿童语音和方言适配，虽然场景垂直，但普适性论证略显薄弱；尽管方法新颖且分析深入，但核心思想（区分输入/输出空间进行不同适配）并非完全独创，在跨模态学习中已有类似考量；论文未提供任何开源材料，限制了其可复现性和直接影响力。 ...

ST-HNTM: Joint Speech-Text Neural Topic Modeling on the Hypersphere

📄 ST-HNTM: Joint Speech-Text Neural Topic Modeling on the Hypersphere #主题建模 #多模态模型 #超球面表示 #语音理解 #无监督学习 ✅ 7.0/10 | 前25% | #主题建模 | #多模态模型 | #超球面表示 #语音理解学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度中 👥 作者与机构第一作者：Dayu Guo†（北京师范大学-香港浸会大学联合国际学院，计算机科学系）通讯作者：Wentao Fan*（北京师范大学-香港浸会大学联合国际学院，计算机科学系）作者列表：Dayu Guo†（北京师范大学-香港浸会大学联合国际学院，计算机科学系），Zhiwen Luo†（康考迪亚大学，信息系统工程学院），Nizar Bouguila（康考迪亚大学，信息系统工程学院），Wentao Fan*（北京师范大学-香港浸会大学联合国际学院，计算机科学系） 💡 毒舌点评该论文首次将语音与文本在超球面潜在空间中联合建模，架构设计逻辑清晰，实验结果在多项指标上显示显著提升。然而，其核心任务“主题建模”在当前AI研究中已属相对传统领域，且论文中对比的多数基线模型较为陈旧，对最新多模态或超球面主题建模方法的覆盖有限，这在一定程度上限制了其结论的前沿性和说服力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了公开数据集LibriSpeech和TEDLIUM-Release3，但未提供定制的数据集或预处理工具。 Demo：未提供。复现材料：论文提供了一定的训练细节（优化器、学习率、轮数、超参数初始值等），但缺乏完整的代码和配置文件。论文中引用的开源项目：依赖预训练词嵌入glove-wiki-gigaword-100和预训练语音模型wav2vec2-base-960h。总体：论文中未提及开源计划。 📌 核心摘要要解决什么问题：现有神经主题模型（NTMs）主要局限于文本输入，忽略了语音中丰富的语义和副语言信息。同时，基于文本的多模态主题建模也较少探索语音这一关键模态。方法核心是什么：提出ST-HNTM，一个首个在共享超球面潜在空间中联合建模语音和文本的神经主题模型。它使用词袋（BoW）和声学词袋（BoAW）分别表示文本和语音，并通过von Mises-Fisher (vMF) 先验推断统一的文档-主题分布，每个模态通过vMF混合成分解码。与已有方法相比新在哪里：首次将语音模态系统性地集成到基于超球面的神经主题建模框架中，克服了传统方法依赖易错ASR转录文本的局限性，利用原始声学模式提供互补线索。主要实验结果如何：在LibriSpeech和TEDLIUM-Release3两个基准数据集上，ST-HNTM在主题连贯性（Cv）、多样性（TD）和综合质量（Quality）指标上均优于或持平于多个先进的文本基线模型。例如，在LibriSpeech数据集上，当主题数为10时，ST-HNTM的Quality得分（0.538）显著高于次佳的NeuralLDA（0.452）。消融实验证明，超球面先验、vMF混合解码器以及语音模态的引入对性能均有贡献。实际意义是什么：展示了将语音直接融入主题建模的价值，为处理语音-文本对齐数据、丰富语义表示、以及在无法获取可靠文本转录（如低资源语言、自发语音）的场景下进行主题发现提供了新思路。主要局限性是什么：模型性能依赖于预训练的文本和语音嵌入模型（GloVe, wav2vec2）以及声学码本的质量；论文中未详细讨论对语音中说话人、情感等信息的显式建模；实验对比的基线模型部分较为陈旧，未与最新的多模态或超球面主题模型进行对比。 🏗️ 模型架构 ST-HNTM的架构如图1所示，整体是一个变分自编码器（VAE）框架，其核心在于将文本和语音统一到超球面潜在空间中进行主题推断。 ...

STACodec: Semantic Token Assignment for Balancing Acoustic Fidelity and Semantic Information in Audio Codecs

📄 STACodec: Semantic Token Assignment for Balancing Acoustic Fidelity and Semantic Information in Audio Codecs #语音识别 #语音合成 #统一音频模型 #知识蒸馏 #自监督学习 🔥 8.0/10 | 前25% | #语音识别 | #知识蒸馏 | #语音合成 #统一音频模型学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：论文中未明确标注“第一作者”，但作者列表顺序为Kaiyuan Zhang， Mohan Shi，且标注“*Equal contribution”，故推测为共同第一作者。通讯作者：论文中未明确标注通讯作者信息。作者列表：Kaiyuan Zhang (UCLA 电气与计算机工程系), Mohan Shi (UCLA 电气与计算机工程系), Eray Eren (UCLA 电气与计算机工程系), Natarajan Balaji Shankar (UCLA 电气与计算机工程系), Zilai Wang (UCLA 电气与计算机工程系), Abeer Alwan (UCLA 电气与计算机工程系)。 💡 毒舌点评这篇论文巧妙地将离散语义Token作为“向导”直接赋值给RVQ第一层，而非强行用语义损失去扭曲声学码本空间，这种“各司其职”的设计思路确实高明，有效解决了困扰先前方法的重建质量与语义性能的零和博弈。然而，其提出的“语义预蒸馏”（SPD）变体在性能上出现了全面且明显的下滑（如ASR WER从9.35%退化到15.39%），这暴露出自回归预测离散Token的难度，也说明论文在“效率”与“性能”的权衡上，目前给出的解决方案仍显笨重，更像一个折中的工程妥协。 ...

Staged Diffusion with Hybrid Mixture-of-Experts (MOE) for Multimodal Sentiment Analysis

📄 Staged Diffusion with Hybrid Mixture-of-Experts (MOE) for Multimodal Sentiment Analysis #多模态模型 #扩散模型 #多模态模型 #语音情感识别 #鲁棒性 🔥 8.0/10 | 前25% | #语音情感识别 | #多模态模型 | #扩散模型 #鲁棒性学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Kaiyang Zheng（上海交通大学计算机科学与技术学院）通讯作者：Gehao Sheng（上海交通大学计算机科学与技术学院）作者列表：Kaiyang Zheng（上海交通大学计算机科学与技术学院）、Gehao Sheng（上海交通大学计算机科学与技术学院） 💡 毒舌点评亮点：该工作将扩散模型从生成任务“跨界”到语义修复，用于对齐和修正多模态下的噪声文本，是一个颇具巧思的“认知模拟”尝试，为处理模态缺失提供了新思路。短板：整体框架依赖外部的情绪描述生成模块（EDG），核心创新更侧重于框架整合与特定组件（如Hybrid MoE）的设计，而非底层原理突破；论文对“Semantic Cortex Emulator”等命名略显“包装”，部分机制解释深度有限。 🔗 开源详情代码：论文提供了代码仓库链接：https://github.com/zhengky-paper-account/SDHM。模型权重：未提及。数据集：论文中使用了公开数据集CMU-MOSI和CH-SIMS，但未说明是否提供已处理好的数据或特定预处理脚本。 Demo：未提供。复现材料：论文给出了一些关键超参数（如扩散步数、beta范围、模型深度、专家数等），但未提供完整的训练配置文件、预训练权重或训练日志。引用的开源项目：论文引用了DEVA、Linear-MoE等开源工作，并在其基础上进行改进。 📌 核心摘要要解决的问题：多模态情感分析（MSA）中，文本模态常因口语化和ASR错误而包含噪声和歧义，现有方法处理此类噪声鲁棒性不足。方法核心：提出受认知启发的两阶段框架SDHM。第一阶段，使用混合线性注意力与Transformer的MoE模型渐进增强单模态特征，并引入基于扩散模型的重建损失来对齐多模态线索、修复损坏内容。第二阶段，将重建后的语义特征与原始文本特征融合，形成鲁棒的主模态表示进行最终预测。与已有方法相比新在哪里：首次在MSA领域将扩散模型用于文本模态的语义修复（而非高层融合或生成）；设计了交替使用线性MoE和Transformer-MoE的“混合专家”结构，旨在平衡特征描述对齐与上下文语义提取，并抑制噪声放大。主要实验结果：在MOSI和SIMS数据集的随机模态缺失设定下，SDHM取得了SOTA性能。在MOSI上，MAE降至0.698，相关系数Corr提升至0.800（均为p<0.01显著提升）。在模态缺失鲁棒性测试中，当缺失率为0.3时，其MAE仍比LNLN低0.086，Corr高0.084。消融实验证明，结合混合MoE与扩散损失能带来最大性能增益。实际意义：提升了MSA模型在真实世界（多噪声、多缺失模态）场景下的预测准确性和鲁棒性，对人机交互、情感计算等应用有直接价值。主要局限性：在极端模态缺失（如缺失率0.8）条件下，分类准确率（如Acc-7）仍略低于部分基线模型。框架依赖外部生成的情绪描述，增加了系统复杂度。 🏗️ 模型架构 SDHM是一个两阶段、多组件的端到端框架。其整体处理流程如下图所示（图1）： ...

Stemphonic: All-At-Once Flexible Multi-Stem Music Generation

📄 Stemphonic: All-At-Once Flexible Multi-Stem Music Generation #音乐生成 #扩散模型 #流匹配 ✅ 7.7/10 | 前25% | #音乐生成 | #扩散模型 #流匹配 | #扩散模型 #流匹配学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Shih-Lun Wu（MIT CSAIL, Adobe Research）通讯作者：未说明作者列表：Shih-Lun Wu（MIT CSAIL, Adobe Research）、Ge Zhu（Adobe Research）、Juan-Pablo Caceres（Adobe Research）、Cheng-Zhi Anna Huang（MIT CSAIL）、Nicholas J. Bryan（Adobe Research） 💡 毒舌点评亮点：这篇论文精准地抓住了现有音轨生成范式的“鱼与熊掌”困境（并行模型僵化，串行模型太慢），并用一组简洁而巧妙的训练时干预（分组+噪声共享）同时解决了速度和灵活性问题，工程思维很清晰。短板：其评估建立在理想化的分离音轨数据集上，但真实世界的音乐制作涉及更复杂的混音、动态和乐器交互，该框架在面对“用真实、不完美的子混音条件生成新音轨”这类更贴近创作流程的任务时，其稳健性和音质上限仍有待验证。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及公开权重。数据集：评估所用MoisesDB和MusDB为已有公开数据集；训练所用授权数据集未提及公开。 Demo：提供了在线演示网站：https://stemphonic-demo.vercel.app 复现材料：论文描述了关键超参数、训练硬件和时长，但未提供详细的配置文件、检查点或附录以支持完全复现。论文中引用的开源项目：文中引用了多个开源项目/模型，如Stable Audio Open [30]、T5-XXL [31]、Qwen2.5-Omni [37]、Madmom [38]等，作为基线或组件参考。 📌 核心摘要要解决什么问题：现有音轨生成方法要么并行生成固定数量/类型的音轨（快但僵化），要么逐轨顺序生成（灵活但慢）。STEMPHONIC旨在实现“一次推理，生成可变数量、相互同步的音轨”，统一速度与灵活性。方法核心是什么：基于扩散/流匹配模型，通过两项训练时技巧：(1) 分组：在训练batch中将来自同一首音乐的音轨组织在一起；(2) 噪声共享：为同一组内的所有音轨分配相同的初始噪声潜变量，从而将同步性先验注入模型。与已有方法相比新在哪里：不同于并行模型（如[13-16]）预设固定音轨架构，也不同于串行模型（如[19-22]）一次只生成一轨。STEMPHONIC在推理时使用共享噪声和分组文本提示，在单次前向传播中生成一组音轨，用户可灵活决定一次生成多少轨。主要实验结果如何：核心消融（表1）：完整设置C-(ii)（分组+训练时噪声共享+推理时噪声共享）在FADstem（音轨控制）和FADmix（混音质量）上均优于所有消融设置，尤其在更复杂的MoisesDB数据集上。工作流对比（表2）：生成K个音轨时，采用2次推理的C-(ii)工作流（一次从头生成，一次基于子混音条件生成）相比传统的K次推理基线（A-(i)），在MoisesDB数据集上，将总推理时间从6.88-8.28秒降低至3.03-3.27秒（加速25-50%以上），同时FADmix和CLAP指标更优。活动控制（表3）：模型训练加入活动控制后，帧级F1值达到99.42%-99.43%，证明控制近乎完美，但会略微降低FADstem和CLAP分数。实际意义是什么：为音乐制作人提供了一种更高效、更可控的AI辅助工具。他们可以一次性生成多个协调的乐器声部进行混音，或基于已有片段迭代地添加新乐器，并精确控制每个乐器何时进出，极大地贴合了音乐创作的非线性和分层工作流。主要局限性是什么：评估主要依赖公开的分离音轨数据集，可能无法完全反映模型在处理复杂、专业混音时的真实表现；文本描述依赖外部模型生成（Qwen2.5-Omni）；未来工作需探索更细粒度的自由文本音轨控制。 🏗️ 模型架构 STEMPHONIC是一个基于潜在扩散/流匹配的生成框架，其整体架构如下： ...

Step-Audio-R1.5 Technical Report

📄 Step-Audio-R1.5 Technical Report #语音对话系统 #强化学习 #语音大模型 #基准测试 #模型评估 🔥 8.0/10 | 前25% | #语音对话系统 | #强化学习 | #语音大模型 #基准测试 | arxiv 学术质量 6.2/7 | 选题价值 1.7/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yuxin Zhang（StepFun，上海交通大学）通讯作者：Fei Tian（StepFun）作者列表：Yuxin Zhang（StepFun，上海交通大学）， Xiangyu Tony Zhang（新南威尔士大学）， Daijiao Liu（StepFun，新南威尔士大学）， Fei Tian（StepFun）， Yayue Deng（StepFun）， Jun Chen（StepFun）， Qingjian Lin（StepFun）， Haoyang Zhang（StepFun，南洋理工大学）， Yuxin Li（StepFun，南洋理工大学）， Jinglan Gong（StepFun）， Yechang Huang（StepFun）， Liang Zhao（StepFun）， Chengyuan Yao（StepFun）， Hexin Liu（南洋理工大学）， Eng Siong Chng（南洋理工大学）， Xuerui Yang（StepFun）， Gang Yu（StepFun）， Xiangyu Zhang（StepFun）， Daxin Jiang（StepFun） 💡 毒舌点评论文精准地指出了当前音频模型训练中“RLVR导致机械感”的核心痛点，并给出了一个优雅且实验验证有效的解决方案（引入RLHF）。但作为一份技术报告，其最大的短板恰恰在于“技术”细节的不透明：训练数据规模与构成、奖励模型的具体架构与训练细节、RLHF阶段的采样与优化超参数等关键复现信息均付之阙如，这与其宣称的“技术报告”定位略有不符，使得外部研究者难以跟进。 ...

StereoFoley: Object-Aware Stereo Audio Generation from Video

📄 StereoFoley: Object-Aware Stereo Audio Generation from Video #音频生成 #扩散模型 #空间音频 #跨模态 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #空间音频 #跨模态学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Tornike Karchkhadze（UC San Diego）通讯作者：未说明（论文中未明确标注通讯作者）作者列表：Tornike Karchkhadze（UC San Diego）、Kuan-Lin Chen（Apple）、Mojtaba Heydari（Apple）、Robert Henzel（Apple）、Alessandro Toso（Apple）、Mehrez Souden（Apple）、Joshua Atkins（Apple） 💡 毒舌点评亮点：论文的核心贡献——合成数据管线，巧妙地将视频对象分割、跟踪与音频空间化规则结合，为解决小众任务的冷启动问题提供了一个系统且可扩展的“数据工厂”蓝图。短板：论文对合成数据与真实数据的差距讨论不足，且关键组件（如OVD、T2A模型）均为“内部”或“借鉴”，极大限制了结果的可复现性和社区验证。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开模型权重。数据集：未提及公开其合成的立体声数据集。实验使用了公开的VGGSound和AudioSet，但筛选和替换后的具体版本未公开。 Demo：未提及在线演示。复现材料：论文提供了详细的模型架构描述、训练超参数、数据集筛选条件和合成管线流程图，但缺乏关键的实现细节和工具链。引用的开源项目：论文引用并基于了Synchformer、SAM2等开源模型或思想，但具体集成方式未详述。整体：论文中未提及开源计划。 📌 核心摘要问题：现有视频到音频生成模型大多只能生成单声道，或无法实现基于视频中物体位置的、语义一致的立体声效。主要瓶颈在于缺乏专业的、空间信息准确的立体声V2A训练数据集。方法核心：提出StereoFoley框架，包含一个基础立体声V2A模型和一个合成数据管线。基础模型基于潜扩散和Transformer架构。核心创新是合成数据管线，它通过视频分析、对象检测与分割、文本到音频生成及基于规则的立体声空间化（基于物体位置和尺寸），自动生成带有精确空间标签的训练数据。新意：首次提出端到端的、对象感知的立体声视频到音频生成框架。与现有工作相比，其创新不在于新的网络架构，而在于通过精心设计的合成数据管线，系统性地解决了训练数据缺失这一根本性障碍。实验结果：基础性能：StereoFoley-base在VGGSound数据集上的语义一致性（IB-score 30.61）、同步性（DeSync 0.42）等指标上与SOTA模型MMAudio和Kling-Foley性能相当。对象感知效果：在合成的VGG-obj测试集上，StereoFoley-obj的立体声对象对齐分数（BAS）为0.33，显著高于基线MMAudio（0.08）和StereoFoley-base（0.23）。在用户研究中，StereoFoley-obj的MOS评分为3.46，显著高于其他系统（p < 0.001）。实际意义：为影视、游戏、AR/VR内容创作提供了自动化生成空间准确音效的潜在工具，并建立了首个相关基准和评估指标（BAS）。局限性：合成数据管线依赖多个复杂的、未公开的内部模型，其生成数据的真实感和多样性可能不足。模型规模庞大（~1.1B参数），训练成本高。 🏗️ 模型架构 StereoFoley的架构基于潜扩散模型，由编码器和扩散生成基础模型两大部分组成。 ...

Stereophonic Acoustic Echo Cancellation Using an Improved Affine Projection Algorithm with Adaptive Multiple Sub-Filters

📄 Stereophonic Acoustic Echo Cancellation Using an Improved Affine Projection Algorithm with Adaptive Multiple Sub-Filters #语音增强 #自适应滤波 #实时处理 #声学回声消除 ✅ 6.0/10 | 前50% | #语音增强 | #自适应滤波 | #实时处理 #声学回声消除学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Gagandeep Singh (印度Dr B R Ambedkar国立技术学院电子与通信工程系) 通讯作者：未说明作者列表：Gagandeep Singh (印度Dr B R Ambedkar国立技术学院电子与通信工程系)、Asutosh Kar (英国伯明翰城市大学建筑、建成环境、计算与工程学院)、Rohit Singh (印度Dr B R Ambedkar国立技术学院电子与通信工程系)、Vasundhara (印度国立技术学院瓦朗加尔分校电子与通信工程系)、Jesper R. Jensen (丹麦奥尔堡大学音频分析实验室)、M.G. Christensen (丹麦奥尔堡大学音频分析实验室) 💡 毒舌点评本文系统性地将多子滤波器（MSF）结构、基于递推均方偏差的可变步长机制以及能量方差跟踪重置策略相结合，为解决立体声回声消除中信号高相关性与非圆性难题提供了一个工程上完整且有效的方案，在特定条件下提升了收敛速度和追踪能力。但其创新点更像是“乐高积木”式的组合，缺乏底层理论突破，且完全忽略了双讲（double-talk）和非线性失真这两个实际场景中的核心挑战，限制了其在复杂真实环境中的适用性。 ...

Still Thinking or Stopped Talking? Dialogue Silence Intention Classification Using Multimodal Large Language Model

📄 Still Thinking or Stopped Talking? Dialogue Silence Intention Classification Using Multimodal Large Language Model #语音对话系统 #多模态模型 #数据集 #大语言模型 ✅ 6.5/10 | 前25% | #语音对话系统 | #多模态模型 | #数据集 #大语言模型学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Muyun Wu（京都大学信息学院）通讯作者：未说明作者列表：Muyun Wu（京都大学信息学院）、Zi Haur Pang（京都大学信息学院）、Koji Inoue（京都大学信息学院）、Tatsuya Kawahara（京都大学信息学院） 💡 毒舌点评亮点：论文精准地抓住了对话系统中一个被长期忽视但至关重要的细节——沉默的意图解读，并为此构建了首个专门的多模态数据集，这种对具体问题的深入挖掘值得肯定。短板：模型更像是现有成熟组件（Whisper， SigLip2， Q-former， Qwen3）的“乐高式”拼装，在多模态融合的核心技术上缺乏原创性。数据集规模相对较小（仅63名说话人），且仅针对日语，结论的普适性存疑。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：论文详细描述了数据集构建方法，但未明确说明是否会公开发布该数据集。 Demo：论文中未提及在线演示。复现材料：论文提供了模型架构、训练策略（优化器、学习率、LoRA参数）、推理设置等复现所需的关键框架信息，但缺少损失函数、完整超参、训练日志等细节。论文中引用的开源项目：CLIP [13], SigLip2 [14], AV-HuBERT [15], Marlin [16], Whisper, HuBERT, BLIP-2/Q-former [17], MMS-LlaMA [18], VideoLLaMA2/STPConnector [12], Qwen3, Llama3.2, Perceiver IO [19], Adam [20], LoRA [21]。总结：论文中未提及明确的开源计划。 📌 核心摘要本文旨在解决对话式语音系统（SDS）中用户长暂停（沉默）意图不明确的问题，即无法判断用户是在“思考”还是已“停止发言”。方法核心是将此问题重新定义为多模态（音频-视频）分类任务，并构建了一个包含63名日语母语者与“倾听系统”交互的专用数据集，对2秒以上的静音区间基于前后文语言线索、视觉线索和后续行为进行标注。基于此数据集，作者提出了一种名为SilenceLLM的多模态大语言模型架构，该架构结合了视觉编码器（评估了CLIP， SigLip2， AV-HuBERT， Marlin）、音频编码器（Whisper， HuBERT）、AV Q-former和LLM解码器。与已有方法相比，其新意在于专门针对沉默理解设计了数据集和端到端的分类框架，并在多个组件组合上进行了系统性对比。实验表明，最优配置（Qwen3-1.7B + SigLip2 (带STPConnector) + Whisper）达到了0.857的宏F1分数，显著优于单模态基线（音频0.662，视频0.392），且与通用多模态LLM（如MMS-LlaMA）相比也有显著提升（p<0.05）。这项工作的实际意义在于为提升对话系统的交互自然性提供了关键模块和评估数据集。主要局限性是数据集规模较小、语种单一，且模型的创新性更多体现在系统集成而非底层算法突破。 ...