Iclr-2026

Physics-Informed Audio-Geometry-Grid Representation Learning for Universal Sound Source Localization

📄 Physics-Informed Audio-Geometry-Grid Representation Learning for Universal Sound Source Localization #声源定位 #物理信息 #麦克风阵列 #鲁棒性 🔥 8.0/10 | 前25% | #声源定位 | #物理信息 | #麦克风阵列 #鲁棒性学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Min-Sang Baek (韩国汉阳大学电子工程系) 通讯作者：Joon-Hyuk Chang* (韩国汉阳大学电子工程系) 作者列表：Min-Sang Baek (韩国汉阳大学电子工程系)， Gyeong-Su Kim (韩国汉阳大学电子工程系)， Donghyun Kim (韩国汉阳大学电子工程系)， Joon-Hyuk Chang* (韩国汉阳大学电子工程系) 💡 毒舌点评亮点：将表示学习与物理信息先验（如频率非均匀采样、相对位置编码）巧妙结合，提出的LNuDFT和rMPE组件有扎实的理论支撑且在实验中效果显著。短板：框架引入了额外的Gridnet，尽管声称计算开销可控，但在实时性要求极高的边缘设备部署场景下，其推理延迟与资源消耗是否可接受，论文未做深入讨论与分析。 🔗 开源详情代码：论文明确提供了源代码仓库链接：https://github.com/BaekMS/Audio-Geometry-Grid_Representation-Learning。模型权重：论文未提及是否公开预训练模型权重。数据集：论文使用了公开数据集（LOCATA用于评估， LibriSpeech/TIMIT/MS-SNSD/ESC-50用于训练和部分评估）。合成数据集的生成方法已在算法3和附录A.10中详细描述，可依此复现。 Demo：未提及。复现材料：非常充分。论文正文和附录提供了所有关键实现细节，包括：LNuDFT和rMPE的精确公式与初始化；AuGeonet和Gridnet的详细架构图（图4，图5）；多阶段几何学习和深度监督课程学习的超参数表（表6）；合��数据生成算法（算法3）；损失函数、评估指标和推理算法的完整描述。论文中引用的开源项目：论文提到了以下开源工具/代码：gpuRIR（用于RIR模拟）， py-webrtcvad（用于生成语音活动检测标签），以及基线方法Neural-SRP和GI-DOAEnet的公开代码仓库。 📌 核心摘要本文针对现有深度神经网络声源定位（SSL）方法受限于固定麦克风阵列几何形状和预定义方向网格的问题，提出了一个通用框架——音频-几何-网格表示学习（AGG-RL）。该方法核心是通过一个双网络结构，联合学习源自音频信号和阵列几何的音频-几何表征（AGRs），以及编码候选方向的网格表征（GRs），两者通过内积相似性生成概率性空间谱，从而实现对任意网格和几何结构的泛化。与已有方法相比，其新意在于：1）首次将SSL任务解耦为互补的表示学习；2）引入可学习非均匀离散傅里叶变换（LNuDFT），自适应地将频率bin密集分配在富含相位信息的区域；3）提出相对麦克风位置编码（rMPE），直接编码符合TDOA物理特性的相对坐标。在合成数据集（Dynamic-S/U）和真实数据集（NAO机器人、Eigenmike）上的实验表明，所提方法在未见过的阵列几何（如Eigenmike）和通道数（如Dynamic-U）上均取得了最优性能。例如，在未见过的Eigenmike数据集上，所提方法的平均绝对误差（MAE）为11.24°，显著优于次优基线GI-DOAEnet的77.09°。该研究的意义在于为构建跨多种场景的通用空间声学场景理解系统提供了有效方案。其主要局限性在于，尽管设计了高效组件，但整体框架的计算开销相比一些轻量级基线有所增加，且未在动态声源场景下进行验证。 ...

PrismAudio: Decomposed Chain-of-Thought and Multi-dimensional Rewards for Video-to-Audio Generation

📄 PrismAudio: Decomposed Chain-of-Thought and Multi-dimensional Rewards for Video-to-Audio Generation #音频生成 #强化学习 #扩散模型 #多模态模型 #基准测试 ✅ 7.0/10 | 前25% | #音频生成 | #强化学习 | #扩散模型 #多模态模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Huadai Liu（香港科技大学、阿里巴巴集团通义实验室）通讯作者：Wei Xue（香港科技大学）作者列表：Huadai Liu（香港科技大学、阿里巴巴集团通义实验室）、Kaicheng Luo（阿里巴巴集团通义实验室）、Wen Wang（阿里巴巴集团通义实验室）、Qian Chen（阿里巴巴集团通义实验室）、Peiwen Sun（香港中文大学）、Rongjie Huang（香港中文大学）、Xiangang Li（阿里巴巴集团通义实验室）、Jieping Ye（阿里巴巴集团通义实验室）、Wei Xue（香港科技大学） 💡 毒舌点评亮点在于将“分解的链式思维”与“多维强化学习奖励”进行耦合的框架设计思路，清晰且有效，为解决多目标生成中的“目标纠缠”提供了新颖且可解释的方案。短板是，其提出的全新AudioCanvas基准数据集虽然是必要的，但作为“裁判员”的同时，自己也是“运动员”，这使得核心结论的公信力部分依赖于数据集构建的客观性，且报告的部分指标（如在某些空间或美学指标上超越了真实音频）需要更谨慎的解释。 🔗 开源详情代码：论文承诺将开源完整训练脚本和配置文件，但当前未提供代码仓库链接。模型权重：论文承诺将公开所有模型权重（音频基础模型、微调后的VideoLLaMA2等），但未提供下载地址。数据集：论文承诺将公开AudioCanvas基准数据集，但未说明具体获取方式。 Demo：论文未提及在线演示。复现材料：附录D提供了极其详细的实现细节，包括训练各阶段的GPU型号、数量、时长、批大小、学习率等超参数，以及CoT生成和微调的提示词模板，复现信息非常充分。论文中引用的开源项目：VideoPrism, T5-Gemma, VideoLLaMA2, Gemini 2.5 Pro（API）, MS-CLAP, Synchformer, Meta Audiobox Aesthetics, StereoCRW, Stability AI的音频工具。 📌 核心摘要要解决什么问题：视频到音频生成需要同时优化语义一致性、时间同步性、美学质量和空间准确性四个维度，但现有方法使用单一损失函数导致目标相互纠缠，且缺乏与人类偏好对齐。方法核心是什么：提出PrismAudio框架，首次将强化学习引入视频到音频生成。其核心是将生成前的推理过程分解为四个专门的链式思维模块（语义、时间、美学、空间），并为每个模块设计对应的奖励函数，通过多维强化学习进行联合优化。与已有方法相比新在哪里：1) 首次在V2A中使用分解式CoT与多维RL奖励对应，解决目标纠缠并提升可解释性。2) 提出Fast-GRPO算法，通过随机窗口的混合ODE-SDE采样，在保证性能的同时大幅降低RL训练开销。3) 构建了更严谨、场景更多样的AudioCanvas基准数据集。主要实验结果如何：在自建的AudioCanvas基准和VGGSound测试集上，PrismAudio在所有四个感知维度上均达到了SOTA水平。例如，在AudioCanvas上，与基线ThinkSound相比，语义对齐度（CLAP）从0.48提升至0.52，时间同步性（DeSync）从0.80大幅改善至0.36，美学质量（CE）从4.10提升至4.26，空间误差（CRW）从22.82降低至12.87。消融实验证明分解式CoT优于单体式CoT，多维度奖励优于单维度奖励。实际意义是什么：为生成高质量、可控且与人类感知对齐的视频配音提供了一个新范式。其分解式推理框架和高效RL训练方法对其他多模态生成任务也有参考价值。主要局限性是什么：框架复杂度较高，依赖于多个预训练模型（如VideoLLaMA2、各种奖励模型）。实验中报告的部分客观指标（如空间/美学）超越了真实音频，这可能源于对不完美代理指标的过度优化，其实际感知质量需结合主观评估看。新提出的AudioCanvas基准的有效性和广泛接受度有待社区检验。 🏗️ 模型架构 PrismAudio的整体架构可分为三个主要阶段，建立在一个基于流匹配的扩散Transformer音频基础模型之上。 ...

Query-Guided Spatial–Temporal–Frequency Interaction for Music Audio–Visual Question Answering

📄 Query-Guided Spatial–Temporal–Frequency Interaction for Music Audio–Visual Question Answering #音频问答 #多模态模型 #时频分析 #跨模态 ✅ 7.0/10 | 前25% | #音频问答 | #多模态模型 | #时频分析 #跨模态学术质量 6.0/7 | 选题价值 0.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Kun Li (University of Twente, Netherlands; 工作完成于 IT University of Copenhagen, Denmark) 通讯作者：Sami Sebastian Brandt (IT University of Copenhagen, Denmark) 作者列表：Kun Li（University of Twente， IT University of Copenhagen）、Michael Ying Yang（University of Bath）、Sami Sebastian Brandt（IT University of Copenhagen） 💡 毒舌点评亮点：本文最大的优点在于“系统性”和“针对性”——它没有孤立地提出一个模块，而是构建了一个从早期查询引导到中期时空频交互、再到后期上下文推理的完整流水线，并且为每个阶段都找到了扎实的动机（例如，用频率特征解决视觉模糊问题）。短板：尽管在总分上超越了前作，但在Visual QA（特别是位置相关问题）子任务上仍略逊于使用了对象检测器等先验知识的方法（如QA-TIGER），这暗示其“纯频率视角”在需要精细空间推理的场景中可能存在天花板，创新性更多体现在对已知技术的巧妙整合与优化上。 ...

Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis

📄 Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis #音频分类 #音频生成 #多模态模型 #流匹配 #大语言模型 🔥 8.5/10 | 前25% | #音频分类 | #多模态模型 | #音频生成 #流匹配学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Pengfei Zhang (香港科技大学（广州）) 通讯作者：Li Liu (香港科技大学（广州），邮箱：avrillliu@hkust-gz.edu.cn) 作者列表：Pengfei Zhang（香港科技大学（广州）），Tianxin Xie（未说明），Minghao Yang（未说明），Li Liu（香港科技大学（广州）） 💡 毒舌点评这篇论文最大的亮点是系统设计的“闭环”思想——用LLM规划器（Thinker）主动识别诊断弱点并指导生成器合成针对性数据，这比简单的过采样或数据增强要高明得多，且在数据集稀缺的医疗场景下思路很对路。短板则在于，虽然名为“Agent”，但其中的LLM规划器更多扮演了静态调度器的角色，论文对其“自主性”（如在线从诊断反馈中学习并调整策略）的展示和验证不足，削弱了Agent这一概念的冲击力；另外，多模态融合中，文本临床叙事的加入虽然带来了提升，但其具体贡献的“可解释性”与医生直觉的关联可以挖掘得更深。 🔗 开源详情代码：提供。论文中给出了GitHub仓库链接：https://github.com/zpforlove/Resp-Agent 模型权重：提供。论文中给出了HuggingFace模型权重链接：https://huggingface.co/AustinZhang/resp-agent-models 数据集：提供。论文中给出了HuggingFace数据集链接：https://huggingface.co/datasets/AustinZhang/resp-agent-dataset Demo：论文中未提及在线演示。复现材料：提供了训练和推理脚本、配置文件、完整的超参数设置（附录C）、训练细节和检查点，复现信息非常充分。论文中引用的开源项目：依赖的开源工具/模型包括：DeepSeek系列模型（V3.2-Exp, R1-Distill-Qwen-7B）、Qwen3-0.6B-Base、BEATs、Longformer、Vocos声码器、Conformer、AST、Whisper等。 📌 核心摘要这篇论文旨在解决深度学习在呼吸音听诊分析中面临的两个根本挑战：单模态表示的信息损失和标注数据的稀缺与不均衡。为此，论文提出了Resp-Agent，一个由中央规划器（Thinker-A2CA）编排的多智能体闭环系统。核心方法包括：1）一个可控生成器（Resp-MLLM），通过模态注入将大语言模型改造为多模态生成器，并结合流匹配解码器合成指定病理内容和声学风格的呼吸音；2）一个融合诊断器，通过模态编织将临床文本与音频嵌入在输入层融合，并利用稀疏全局注意力（音频锚点）捕捉瞬态声学事件。作为基础，论文构建了大规模多模态基准数据集Resp-229k（22.9万条记录）。主要实验结果表明，Resp-Agent在ICBHI数据集上以72.7的Score刷新了官方榜单记录，在Resp-229k跨域测试集上，其生成器配合规划器可将诊断器的宏F1分数从基线的0.212大幅提升至0.598。该工作为数据稀缺的医疗音频分析提供了整合生成与诊断的新范式，但其Agent的自主适应能力及系统在真实临床环境中的部署复杂度是其主要局限。模型/设置数据集指标数值备注 ICBHI 官方排行榜 (表2) 最佳先前方法 (Dong et al.) ICBHI Score (%) 67.55 SOTA Resp-Agent [Ours] ICBHI Score (%) 72.70 (+5.15) Resp-229k 跨域测试集 (表3, 表8) 音频基线 (Conformer) Test-CD Accuracy / Macro-F1 0.720 / 0.1935 仅音频，原始不平衡 Resp-Agent (无合成) Test-CD Accuracy / Macro-F1 0.849 / 0.212 多模态诊断器 Resp-Agent (Thinker-A2CA 合成) Test-CD Accuracy / Macro-F1 0.887 / 0.598 生成数据平衡后主要创新在于：1）首次提出并实现了针对呼吸音分析的“分析-生成”闭环Agent系统；2）创建了Resp-229k大规模、带临床文本的呼吸音基准，填补了数据空白；3）设计了融合文本与音频的模态编织诊断器，通过音频锚点机制提升了对瞬态病理性声音的捕捉能力。 ...

RoboOmni: Proactive Robot Manipulation in Omni-modal Context

📄 RoboOmni: Proactive Robot Manipulation in Omni-modal Context #语音对话系统 #多模态模型 #端到端 #数据集 #机器人 🔥 8.5/10 | 前10% | #语音对话系统 | #多模态模型 | #端到端 #数据集学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Siyin Wang（复旦大学，上海创新研究院）通讯作者：Jinlan Fu (N/A), Xipeng Qiu (复旦大学，上海创新研究院)（论文标注†为共同通讯作者）作者列表：Siyin Wang（复旦大学，上海创新研究院）、Jinlan Fu（新加坡国立大学）、Feihong Liu（复旦大学）、Xinzhe He（复旦大学）、Huangxuan Wu（复旦大学）、Junhao Shi（复旦大学，上海创新研究院）、Kexin Huang（复旦大学）、Zhaoye Fei（复旦大学）、Jingjing Gong（上海创新研究院）、Zuxuan Wu（复旦大学，上海创新研究院）、Yu-Gang Jiang（复旦大学）、See-Kiong Ng（新加坡国立大学）、Tat-Seng Chua（新加坡国立大学）、Xipeng Qiu（复旦大学，上海创新研究院） 💡 毒舌点评亮点：这篇论文真正让机器人“听懂”了对话的弦外之音（比如“嗯…橙汁”的嫌弃语气）并主动发起询问确认，而不是傻等一句“把可乐放桌上”的明确指令，这在人机交互的自然性上是个重要进步。短板：虽然构建了庞大的合成数据集，但真实世界交互的复杂性（比如多人同时说话、声音重叠、远场噪声）与合成数据之间的差距可能仍然存在，论文在应对这些极端边缘案例时的鲁棒性上限有待进一步验证。 🔗 开源详情代码：提供GitHub仓库链接：https://github.com/OpenMOSS/RoboOmni 模型权重：未提及是否公开预训练权重，但论文中提到将“开源模型检查点”。数据集：公开OmniAction数据集，承诺将开源获取。 Demo：未提及在线演示。复现材料：提供了非常详细的训练细节（硬件、超参数、优化器设置）、数据集构建流程（三阶段）、实验设置（基线模型描述）和附录中的更多示例。引用的开源项目：论文中引用的开源项目包括OpenVLA、OpenVLA-OFT、π0、NORA、LIBERO、Whisper、FAST+分词器、Qwen2.5-VL/Omni、DINOv2、SigLIP等。 📌 核心摘要问题：现有的视觉-语言-动作（VLA）模型严重依赖用户发出的显式、直接的指令（如文本命令），但在真实场景中，人类意图常通过对话上下文、语气、环境音等隐式线索表达，机器人缺乏主动推断和确认意图的能力。方法核心：提出RoboOmni，一个基于端到端全模态大语言模型（如Qwen2.5-Omni）的Perceiver-Thinker-Talker-Executor框架。该模型能同时处理视觉、音频（包含语音和副语言线索、环境声）和文本对话历史，统一进行意图推理、生成确认性语音回复和执行机器人动作。新意：a) 定义了“跨模态上下文指令”新范式。b) 提出了统一感知、推理、交互和执行的端到端框架，无需ASR管道，保留了副语言信息。c) 构建了首个大规模、专用于此任务的数据集OmniAction（14万 episodes），包含6种上下文指令类型。主要实验结果：在模拟基准OmniAction-LIBERO上，RoboOmni平均成功率85.6%，大幅超越最强文本基线NORA（25.9%）。在真实人类语音测试（OmniAction-LIBERO-Real）中，成功率76.6%，优于π0（73.8%）。真实机器人实验成功率73.9%，远超ASR+VLA基线（52.2%）。消融实验证明，移除音频后意图识别准确率从88.89%暴跌至11.11%。实际意义：推动了机器人从“命令执行者”向“主动协作者”的转变，为下一代更自然、智能的人机交互提供了可行的技术路径和评估基准。主要局限性：a) 依赖大规模合成数据，虽然通过真人录音补充，但数据与真实交互的鸿沟可能依然存在。b) 模型的成功高度依赖预训练的全模态LLM基座（Qwen2.5-Omni）的能力。c) 在非常复杂的、需要深层社会认知推理的意图识别上仍有提升空间。 🏗️ 模型架构 RoboOmni采用Perceiver-Thinker-Talker-Executor四阶段端到端架构，所有组件通过自回归语言模型骨干统一。 ...

Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion

📄 Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion #多模态模型 #语音翻译 #大语言模型 #多语言 #数据增强 🔥 8.0/10 | 前25% | #语音翻译 | #多模态模型 | #大语言模型 #多语言学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yexing Du（哈尔滨工业大学、鹏城实验室）通讯作者：Youcheng Pan（鹏城实验室）， Yang Xiang（鹏城实验室）， Ming Liu（哈尔滨工业大学、鹏城实验室）（论文中明确标注{panych,xiangy}@pcl.ac.cn, mliu@ir.hit.edu.cn）作者列表：Yexing Du（哈尔滨工业大学，鹏城实验室）， Youcheng Pan（鹏城实验室）， Zekun Wang（哈尔滨工业大学）， Zheng Chu（哈尔滨工业大学）， Yichong Huang（哈尔滨工业大学）， Kaiyuan Liu（哈尔滨工业大学，鹏城实验室）， Bo Yang（鹏城实验室）， Yang Xiang（鹏城实验室）， Ming Liu（哈尔滨工业大学，鹏城实验室）， Bing Qin（哈尔滨工业大学，鹏城实验室） 💡 毒舌点评本文巧妙地将语音合成（TTS）和多模态大语言模型（MLLM）结合，提出了“语音引导机器翻译（SMT）”框架，并创新性地引入自监督进化机制来缓解数据稀缺问题，最终在多个基准上取得显著成绩。不过，其自监督进化机制中用于筛选“正负样本”的核心标准（COMET分数差异）略显简单粗暴，且迭代过程可能陷入局部最优，对“语音韵律信息如何具体帮助翻译”的深层机理剖析仍显不足。 ...

Scaling Speech Tokenizers with Diffusion Autoencoders

📄 Scaling Speech Tokenizers with Diffusion Autoencoders #语音分词 #扩散模型 #流匹配 #语音大模型 #语音识别 ✅ 7.5/10 | 前25% | #语音分词 | #扩散模型 | #流匹配 #语音大模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yuancheng Wang（Meta超级智能实验室、香港中文大学（深圳））通讯作者：未明确说明（论文中提供了第一作者的邮箱地址 yuanchengwang@link.cuhk.edu.cn）作者列表：Yuancheng Wang（Meta超级智能实验室、香港中文大学（深圳））、Zhenyu Tang（Meta超级智能实验室）、Yun Wang（Meta超级智能实验室）、Arthur Hinsvark（Meta超级智能实验室）、Yingru Liu（Meta超级智能实验室）、Yinghao Li（Meta超级智能实验室）、Kainan Peng（Meta超级智能实验室）、Junyi Ao（Meta超级智能实验室、香港中文大学（深圳））、Mingbo Ma（Meta超级智能实验室）、Mike Seltzer（Meta超级智能实验室）、Qing He（Meta超级智能实验室）、Xubo Liu（Meta超级智能实验室） 💡 毒舌点评亮点：论文提出的SiTok在极低比特率（0.2 kbps）和极低帧率（12.5 Hz）下实现了领先的语音重建质量和下游任务性能，为语音大模型提供了高效的离散化接口，技术路径清晰且实验全面。短板：模型规模巨大（1.6B参数）且依赖未公开的200万小时内部数据进行训练，这对于大多数研究团队而言复现门槛极高，其性能是否完全来自架构创新还是数据规模红利需要进一步厘清。 🔗 开源详情代码：论文附录D提供了详细的伪代码，且承诺将在论文正式发表后发布完整的推理代码和预训练模型检查点至公共、仅限研究使用的数据集。但未提供当前可用的代码仓库链接。模型权重：未提及当前是否提供公开的预训练权重。承诺未来发布。数据集：训练数据为200万小时内部数据，未公开，无法获取。 Demo：提供了在线演示网站链接：https://sitok-demo.github.io/。复现材料：提供了非常详细的模型架构（附录A）、伪代码（附录D.1， D.2）、训练超参数（附录D.3）和消融研究配置，复现信息（除数据和硬件外）较充分。论文中引用的开源项目：主要引用了Llama系列模型架构、RoPE位置编码、Vocos声码器、AdamW优化器��通用组件。未提及依赖其他特定的开源语音分词或扩散模型工具。 📌 核心摘要问题：现有语音分词器在平衡语义理解（需要压缩）与声学保真（需要细节）方面存在根本矛盾，尤其在极低比特率/帧率设置下，传统基于向量量化和回归损失的优化方式存在结构性瓶颈。方法核心：提出SiTok，一种基于扩散自编码器的语音分词器。其核心是端到端地联合优化离散量化与生成式重建，并引入一个基于CTC损失的辅助解码器对量化后的离散潜空间进行语义正则化，以学习同时具备高保真度和丰富语义的离散表示。创新点：a) 采用流匹配（扩散模型的一种）作为解码目标，替代传统回归损失或GAN，更有效地从激进压缩的离散码中恢复语音；b) 端到端联合训练量化器与扩散解码器，避免了两阶段训练导致的次优离散码；c) 直接对离散潜变量施加CTC语言监督，确保令牌的语义一致性；d) 探索了快捷微调等高效解码策略，将扩散推理步数大幅减少至2-4步。主要实验结果：SiTok在0.2 kbps和12.5 Hz的极端压缩设置下，重建WER为3.34（使用Classifier-Free Guidance），说话人相似度（SIM）达0.682（使用解码器微调），在语音重建和多项理解任务（ASR、情感识别、说话人验证、关键词检测）上均显著优于所有对比的强基线模型（见下表关键数据）。消融研究验证了扩散损失、语义正则化、模型缩放等关键设计的有效性。模型比特率(kbps) WER (↓) SIM (↑) UTMOS (↑) LLM ASR (↓) Ground Truth - 2.14 0.730 3.53 - Mimi (Baseline) 0.825 4.51 0.527 3.09 23.1 StableCodec (Baseline) 0.40 11.1 0.410 3.87 28.0 SiTok (CN=1, 基础) 0.20 4.06 0.641 3.44 4.95 SiTok (CN=1, +解码器微调) 0.20 3.79 0.682 3.48 - SiTok (CN=1, +Token CFG) 0.20 3.34 0.635 3.60 - 实际意义：为构建统一的、高效的语音大模型（同时处理理解和生成）提供了关键的离散化接口。其极低的令牌速率能显著缩短序列长度，提升语言模型的推理效率。主要局限性：a) 性能仍低于连续特征表示；b) 扩散解码器本身对流式生成不友好；c) 训练依赖大规模内部数据集，可获取性未说明。 🏗️ 模型架构 SiTok是一个基于扩散自编码器的语音分词系统，整体流程为：梅尔频谱图 -> 下采样 -> 编码器 -> 向量量化 -> 离散令牌 -> 扩散解码器 -> 重建梅尔频谱图。 ...

SCRAPL: Scattering Transform with Random Paths for Machine Learning

📄 SCRAPL: Scattering Transform with Random Paths for Machine Learning #音频生成 #信号处理 #时频分析 🔥 8.5/10 | 前25% | #音频生成 | #信号处理 | #时频分析学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Christopher Mitcheltree（Queen Mary University of London, Centre for Digital Music）通讯作者：未说明（从邮箱推测可能与通讯作者单位一致，但未在文中明确标注）作者列表：Christopher Mitcheltree（Queen Mary University of London, Centre for Digital Music）、Vincent Lostanlen（Nantes Université, LS2N）、Emmanouil Benetos（Queen Mary University of London, Centre for Digital Music）、Mathieu Lagrange（Nantes Université, LS2N） 💡 毒舌点评亮点：本文提出SCRAPL算法，巧妙地利用散射变换的树状结构，通过随机路径采样和定制化优化器（P-Adam， P-SAGA），将计算成本高昂的全树散射变换损失，成功转化为一种高效且无偏的随机近似，为在大规模神经网络训练中使用复杂感知损失扫清了障碍。短板：该方法本质上是一种采样近似，在最终精度上（如表1所示）依然无法超越计算成本高得多的全树散射变换（JTFS），且在处理信号衰减部分（如表9所示）时表现不佳，表明其对稀疏低频路径的捕捉能力有待加强。 ...

Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory

📄 Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory #多模态模型 #音频问答 #强化学习 #长期记忆 🔥 8.0/10 | 前25% | #音频问答 | #多模态模型 | #强化学习 #长期记忆学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Lin Long（浙江大学）通讯作者：Yuan Lin（字节跳动Seed）作者列表： Lin Long（浙江大学）, Yichen He（字节跳动Seed）, Wentao Ye（浙江大学）, Yiyuan Pan（卡内基梅隆大学Robotics Institute）, Yuan Lin（字节跳动Seed，通讯作者）, Hang Li（字节跳动Seed）, Junbo Zhao（浙江大学）, Wei Li（字节跳动Seed） 💡 毒舌点评亮点：该工作构建了一个从“感知（看/听）”到“记忆（构建实体中心图谱）”再到“推理（多轮检索与回答）”的完整类人闭环框架，并为此贡献了首个侧重记忆推理能力的长视频问答基准（M3-Bench），系统性很强。短板：记忆构建模块严重依赖外部的人脸识别、说话人分离等工具，其鲁棒性和端到端的可训练性未充分探讨；此外，所采用的DAPO强化学习训练需要极高的计算资源（未说明具体成本），可能限制其广泛复现。 🔗 开源详情代码：论文中提到代码将开源，提供了GitHub仓库链接：https://github.com/ByteDance-Seed/m3-agent。模型权重：承诺发布记忆化模型（memory-7b-sft）和控制模型（control-32b-rl）的检查点。数据集：承诺发布完整的M3-Bench基准，包括视频和问答标注。 Demo：论文中未提及在线演示。复现材料：论文承诺提供训练数据、代码、训练细节（包括超参数表）和附录说明。附录中详细列出了记忆节点的数据结构、工具实现、示范数据合成流程等关键复现信息。引用的开源项目：论文中引用的依赖项目包括InsightFace（人脸识别）、ERes2NetV2（说话人验证模型）、OpenAI的文本嵌入模型（text-embedding-3-large），以及作为基础模型的Qwen2.5-Omni和Qwen3。 📌 核心摘要问题：现有长视频理解方法多为离线处理有限长视频，且关注低层感知而非高层知识积累；智能体缺乏像人类一样在持续交互中构建和利用长期记忆进行推理的能力。方法：提出M3-Agent框架，包含并行工作的记忆化与控制流程。记忆化流程持续处理视频流，生成情景记忆（具体事件）和语义记忆（如人物身份、属性、关系），并以实体为中心的图谱进行组织。控制流程根据指令，通过强化学习（DAPO）训练的策略模型，自主进行多轮推理并检索记忆图谱来完成任务。新意：1) 提出模拟人类记忆机制的、实体中心化的多模态长期记忆架构；2) 设计基于强化学习的多轮检索推理控制策略；3) 构建首个评估记忆能力的多模态智能体基准M3-Bench。结果：在M3-Bench-robot、M3-Bench-web和VideoMME-long三个基准上，M3-Agent均优于最强基线。例如，在M3-Bench-robot上比最强基线（MA-LMM）高6.3%，在M3-Bench-web上比Gemini-GPT4o-Hybrid高7.7%。消融实验证明了长期记忆（尤其是语义记忆）和强化学习训练的关键作用。方法 M3-Bench-robot M3-Bench-web VideoMME-Long MA-LMM (在线视频理解最佳) 24.4 24.3 17.3 Gemini-GPT4o-Hybrid (混合Agent最佳) 24.0 41.2 56.5 M3-Agent 30.7 48.9 61.8 意义：为构建具备长期记忆和推理能力的多模态智能体提供了新的框架思路和评估标准，推动智能体从“单次感知”向“经验积累”进化。局限：记忆模块依赖外部预训练工具（人脸识别、说话人分离）；强化学习训练成本高昂；记忆图谱的规模化管理和高效检索策略有待进一步研究。 🏗️ 模型架构 M3-Agent的整体架构如图1所示，由多模态大语言模型（MLLM）和多模态长期记忆两大核心部分组成，并支持两个并行的工作流程：记忆化流程与控制流程。 ...

SmartDJ: Declarative Audio Editing with Audio Language Model

📄 SmartDJ: Declarative Audio Editing with Audio Language Model #音频生成 #扩散模型 #大语言模型 #空间音频 #音频编辑 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #大语言模型 #空间音频学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Zitong Lan（宾夕法尼亚大学WAVES实验室）通讯作者：未说明作者列表：Zitong Lan（宾夕法尼亚大学WAVES实验室）、Yiduo Hao（宾夕法尼亚大学）、Mingmin Zhao（宾夕法尼亚大学） 💡 毒舌点评论文最大的亮点是巧妙地将“声明式”这一更高阶的交互范式引入音频编辑，通过ALM作为“导演”将抽象指令拆解为具体“剧本”（原子操作），再由LDM作为“演员”执行，思路清晰且解决了实际痛点。然而，其评估完全依赖于一个精心设计但规模有限的合成数据集（240k训练对），这种“温室里的花朵”能否在真实世界杂乱、多变、充满语义歧义的音频场景中保持同样表现，要打一个大大的问号。 🔗 开源详情代码：论文中提供了项目主页链接（https://waves.seas.upenn.edu/projects/smartdj），并声明代码将在论文被接收后公开。论文中未提及具体的代码仓库链接（如GitHub）。模型权重：论文中未明确提及是否公开预训练模型权重。数据集：论文中详细描述了数据合成管道，并声明将公开合成的数据集。 Demo：论文中未提及在线演示。复现材料：论文附录中包含了极其详细的训练细节、超参数配置、数据合成提示词、基线实现细节等，复现材料充分。论文中引用的开源项目：PyRoomAcoustics（声学模拟）、Audio Flamingo 2（ALM基础）、Stable-Audio-Open（部分基线生成器）、Diffusion Transformer架构等。 📌 核心摘要问题：现有的音频编辑方法依赖于模板化的低级指令（如“添加鸟鸣”），无法处理用户更高级、更抽象的“声明式”指令（如“让这个声音像晴朗的森林”），且绝大多数仅支持单声道音频，缺乏空间沉浸感。核心方法：提出SmartDJ框架，由两个核心组件构成：a) 音频语言模型（ALM）作为规划器，理解原始音频和声明式指令，将其分解为一系列原子编辑操作序列（如添加、移除、调整音量、改变方向等）；b) 潜在扩散模型（LDM）作为编辑器，按顺序执行这些原子操作，对立体声音频进行精确编辑。创新点：a) 首次实现支持声明式指令的立体声音频编辑；b) 设计了一个可扩展的数据合成管道，利用LLM生成指令和操作，并基于规则化音频合成生成成对的训练数据。主要实验结果：在自建的合成测试集上，SmartDJ在多项客观指标（FD、FAD、KL、LSD、CLAP）和主观用户研究中均显著优于多种基线方法（包括端到端Audit、SDEdit、AudioEditor等）。例如，在声明式编辑任务上，SmartDJ的CLAP分数（0.21）和LSD（1.40）均优于最强基线（CLAP 0.20, LSD 1.49）。用户研究显示，在音频质量和指令对齐度上，SmartDJ的胜率均超过87%。实际意义：该框架有望降低音频创作和编辑的门槛，使非专业用户能通过自然语言快速实现复杂的音频场景转换，对VR/AR、游戏、影视后期制作等领域具有应用价值。主要局限性：a) 训练和评估完全依赖于合成数据，其与真实世界录音在复杂性、噪声和语义丰富度上可能存在差距；b) 多步顺序编辑累积误差的可能性未深入探讨（论文通过“往返编辑”实验部分缓解）；c) 系统需要ALM和LDM分别训练和推理，整体延迟（约13秒）高于端到端方法。 🏗️ 模型架构图1展示了SmartDJ的整体工作流程：用户输入声明式指令（如“让这段音频听起来像晴朗的森林”）和原始立体声音频。ALM（规划器）首先感知原始音频中的事件（如猫叫、下雨），并推理出一系列原子编辑步骤（如步骤1：移除下雨；步骤2：添加树叶沙沙声…）。这些步骤被送入LDM（编辑器），逐步对音频进行修改，最终输出编辑后的立体声音频。 ...