世界模型 | 语音/音乐/音频论文速递

Toward World Modeling of Physiological Signals with Chaos-Theoretic Balancing and Latent Dynamics

📄 Toward World Modeling of Physiological Signals with Chaos-Theoretic Balancing and Latent Dynamics #生理信号预测 #世界模型 #混沌理论 #自监督学习 #时间序列分析 ✅ 6/10 | 前50% | #生理信号预测 | #自监督学习 | #世界模型 #混沌理论 | arxiv 学术质量 4.7/8 | 影响力 0.8/1 | 可复现性 0.5/1 | 置信度中 👥 作者与机构第一作者：Yunfei Luo（加州大学圣地亚哥分校，达特茅斯学院）通讯作者：Yuliang Chen（加州大学圣地亚哥分校），Tauhidur Rahman（加州大学圣地亚哥分校）作者列表：Yunfei Luo（加州大学圣地亚哥分校，达特茅斯学院）、Xi Chen（加州大学圣地亚哥分校）、Yuliang Chen（加州大学圣地亚哥分校，达特茅斯学院）、Lanshuang Zhang（加州大学圣地亚哥分校）、Md Mofijul Islam（Amazon Web Services）、Siwei Zhao（Sanderling Renal Services）、Peter Kotanko（Renal Research Institute, Icahn School of Medicine at Mount Sinai）、Subhasis Dasgupta（加州大学圣地亚哥分校）、Andrew Campbell（达特茅斯学院）、Rakesh Malhotra（加州大学圣地亚哥分校）、Tauhidur Rahman（加州大学圣地亚哥分校）。注：论文明确声明“Work does not relate to position at Amazon”。 💡 毒舌点评这篇论文提出了一种结合混沌理论与潜在动态的“生理信号世界模型”框架，其“混沌平衡预训练”和“直觉-洞察”双路径推理的构思具有一定的启发性和领域针对性。然而，作为核心创新的“洞察”机制（即潜在状态转移建模）在论文中的数学表述存在严重混淆（公式1和2），将离散状态转移与连续表示采样混为一谈，使得该关键组件的可复现性和理论严谨性大打折扣。此外，论文对“世界模型”的宣称略显超前，其实验评估主要集中在条件预测任务上，缺乏更直接的交互式或反事实推理验证，其贡献的实际边界有待更清晰地界定。 ...

语音/音乐/音频论文速递 2026-05-18

语音/音乐/音频论文速递 2026-05-18 共分析 13 篇论文 ⚡ 今日概览 📥 抓取 13 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音乐生成 2篇 ██ #音频分类 2篇 ██ #音频修复 1篇 █ #语音识别 #说话人分离 1篇 █ #语音翻译 1篇 █ #语音识别 1篇 █ #生理信号预测 1篇 █ #语音生物标志物 1篇 █ 📊 论文评分排行榜（13 篇，按分数降序）排名论文评分分档主任务 🥇 Modeling Music as a Time-Frequency Image: A 2D Tokenize 8.1分前25% #音乐生成 🥈 Scalable neuromorphic computing from autonomous spiking 7.8分前25% #音频分类 🥉 Real-time Speech Restoration using Data Prediction Mean 7.5分前25% #音频修复 4. Mind the Gap: Impact of Synthetic Conversational Data o 7.2分前25% #语音识别 #说话人分离 5. From Flat Language Labels to Typological Priors: Struct 6.9分前50% #语音翻译 6. Beyond Content: A Comprehensive Speech Toxicity Dataset 6.5分前25% #音频分类 7. ARIA: A Diagnostic Framework for Music Training Data At 6.1分前25% #音乐生成 8. Improving Automatic Speech Recognition for Speakers Tre 6.0分前50% #语音识别 9. Toward World Modeling of Physiological Signals with Cha 6.0分前50% #生理信号预测 10. Can Large Language Models Imitate Human Speech for Clin 6.0分前50% #语音生物标志物 11. Can We Trust AI-Inferred User States. A Psychometric Fr 6.0分前50% #模型评估 12. Sound Sparks Motion: Audio and Text Tuning for Video Ed 5.5分前25% #视频编辑 13. Perforated Neural Networks for Keyword Spotting 5.0分前60% #关键词检测 📋 论文列表 🥇 Modeling Music as a Time-Frequency Image: A 2D Tokenizer for Music Generation 🔥 8.1/10 | 前25% | #音乐生成 | #自回归模型 | arxiv ...

Sub-JEPA: Subspace Gaussian Regularization for Stable End-to-End World Models

📄 Sub-JEPA: Subspace Gaussian Regularization for Stable End-to-End World Models #世界模型 #自监督学习 #连续控制 📝 5.0/10 | 前50% | #世界模型 | #自监督学习 | #连续控制 | arxiv 学术质量 5.0/8 | 影响力 0.8/2 | 可复现性 0.8/1 | 置信度中 👥 作者与机构第一作者：未提及通讯作者：未提及作者列表：未提及（原文摘要未列出作者信息） 💡 毒舌点评这篇论文指出了现有JEPA方法（如LeWM）在完整潜在空间施加各向同性高斯先验可能过于严格、与低维流形假设相悖的痛点，并提出了一个在多个随机子空间施加约束的简单变体。其核心思想直观且有一定启发性，但实验验证部分仅在四个连续控制任务上进行，略显单薄，且未能充分展示该“子空间”约束相对于全局约束的理论或实践优势，更像是一个经验性的有效改进（trick），而非具有坚实理论基础的解决方案。 📌 核心摘要要解决什么问题：联合嵌入预测架构（JEPA）在训练世界模型时，面临偏差-方差权衡问题。缺乏足够的结构约束会导致模型坍缩到平凡解（表示方差过大）。最近的LeWorldModel (LeWM) 通过施加全局各向同性高斯先验来缓解坍缩，但这种在完整嵌入空间上的强约束可能过于严格，因为它与潜在表示本就存在于高维空间中的低维流形这一事实相冲突。方法核心是什么：本文提出Sub-JEPA，核心思想是不在完整的高维潜在空间施加全局高斯约束，而是在多个随机子空间中施加该约束。通过放松全局约束、保留反坍缩效果，在训练稳定性和表示灵活性之间寻求更好的平衡点。与已有方法相比新在哪里：新在约束的作用域。传统方法（包括LeWM）在原始（或编码后的）完整潜在空间上施加分布约束。Sub-JEPA将约束施加在随机投影的子空间中，旨在更好地适应数据的低维流形结构。主要实验结果如何：论文声称在四个连续控制环境中，Sub-JEPA始终以明显的优势优于LeWM。但摘要中未提供具体数值、环境名称、评估指标或与其他基线的对比数据。实际意义是什么：为训练稳定、灵活的基于JEPA的世界模型提供了一个简单有效的改进方案，有望作为未来JEPA类世界模型研究的强基线，推动其在连续控制等任务中的应用。主要局限性是什么：根据摘要，主要局限是实验验证范围有限（仅四个连续控制环境），可能影响结论的普适性。此外，对于为何“子空间约束”优于“全局约束”的理论解释可能不够深入。 🔗 开源详情代码：https://github.com/intcomp/Sub-JEPA 模型权重：未提及数据集：未提及 Demo：未提及复现材料：未提及论文中引用的开源项目：未提及 🏗️ 方法概述和架构 1. 整体流程概述 Sub-JEPA是一个端到端的联合嵌入预测框架，用于学习世界模型。其核心流程是：给定当前观测和历史信息，模型预测未来观测的潜在表示。训练时，为了避免模型坍缩并鼓励有意义的表示学习，它在多个随机采样的子空间中对预测的潜在表示施加高斯分布约束，而非在整个潜在空间。这是一个自监督学习框架，通过预测任务本身和子空间正则化来共同优化编码器和预测器。 2. 主要组件/模块详解感知编码器（Perception Encoder）：功能：将高维原始观测（如图像）映射到一个潜在表示空间。这是JEPA架构中与任务相关的可学习部分。内部结构/实现：论文中未具体说明网络结构。假设其输出为一个向量表示 z。输入输出：输入原始观测数据，输出潜在表示 z。预测器（Predictor）： ...

语音/音乐/音频论文速递 2026-05-12

语音/音乐/音频论文速递 2026-05-12 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 3篇 ███ #音乐生成 2篇 ██ #语音合成 2篇 ██ #语音增强 2篇 ██ #音频深度伪造检测 2篇 ██ #基准测试 2篇 ██ #语音质量评估 1篇 █ #音频编码 1篇 █ 📊 论文评分排行榜（39 篇，按分数降序）排名论文评分分档主任务 🥇 Polyphonia: Zero-Shot Timbre Transfer in Polyphonic Mus 7.5分前30% #音乐生成 🥈 PoDAR: Power-Disentangled Audio Representation for Gene 7.3分前25% #语音合成 🥉 Evaluating the Expressive Appropriateness of Speech in 7.2分前25% #语音质量评估 4. Reducing Linguistic Hallucination in LM-Based Speech En 7.2分前25% #语音增强 5. Encoding and Decoding Temporal Signals with Spiking Ban 7.0分前25% #音频编码 6. Mitigating Multimodal Inconsistency via Cognitive Dual- 7.0分前50% #意图识别 7. SF-Flow: Sound field magnitude estimation via flow matc 6.8分前25% #空间音频 8. Probing Cross-modal Information Hubs in Audio-Visual LL 6.5分前25% #模型分析 9. Towards Trustworthy Audio Deepfake Detection: A Systema 6.5分前25% #音频深度伪造检测 10. Unison: Harmonizing Motion, Speech, and Sound for Human 6.5分前30% #音视频生成 11. CORTEG: Foundation Models Enable Cross-Modality Represe 6.5分前25% #脑机接口 12. Omni-Persona: Systematic Benchmarking and Improving Omn 6.5分前25% #基准测试 13. DiffVQE: Hybrid Diffusion Voice Quality Enhancement Und 6.2分前30% #语音增强 14. A Cold Diffusion Approach for Percussive Dereverberatio 6.2分前35% #音频修复 15. APEX: Audio Prototype EXplanations for Classification T 6.2分前25% #音频分类 16. How Should LLMs Listen While Speaking? A Study of User- 6.0分前25% #语音对话系统 17. RADAR Challenge 2026: Robust Audio Deepfake Recognition 6.0分前50% #音频深度伪造检测 18. ShipEcho – An Interactive Tool for Global Mapping of U 6.0分前25% #水下声学 19. Rethinking Entropy Minimization in Test-Time Adaptation 6.0分前40% #语音识别 20. Separate First, Fuse Later: Mitigating Cross-Modal Inte 6.0分前50% #音视频问答 21. ChladniSonify: A Visual-Acoustic Mapping Method for Chl 6.0分前50% #音频生成 22. Omni-DeepSearch: A Benchmark for Audio-Driven Omni-Moda 6.0分前25% #基准测试 23. Online Segmented Beamforming via Dynamic Programming 6.0分前25% #声源定位 24. FLARE: Full-Modality Long-Video Audiovisual Retrieval B 6.0分前25% #音频检索 25. Speech-based Psychological Crisis Assessment using LLMs 5.8分前25% #语音情感识别 26. EAR: Enhancing Uni-Modal Representations for Weakly Sup 5.8分前25% #音频事件检测 27. Kinetic-Optimal Scheduling with Moment Correction for M 5.5分前50% #语音合成 28. Dolphin-CN-Dialect: Where Chinese Dialects Matter 5.5分前50% #语音识别 29. Latent Secret Spin: Keyed Orthogonal Rotations for Blin 5.5分前50% #音频水印 30. Bangla-WhisperDiar: Fine-Tuning Whisper and PyAnnote fo 5.5分前50% #语音识别 #说话人日志 31. Remix the Timbre: Diffusion-Based Style Transfer Across 5.5分前30% #音色迁移 32. Low-Cost Detection of Degraded Voice Clones via Source- 5.3分前50% #语音伪造检测 33. Single-Microphone Audio Point Source Discriminative Loc 5.0分前50% #说话人分离 34. Responsible Benchmarking of Fairness for Automatic Spee 5.0分前50% #语音识别 35. Sub-JEPA: Subspace Gaussian Regularization for Stable E 5.0分前50% #世界模型 36. AllocMV: Optimal Resource Allocation for Music Video Ge 4.8分前50% #音乐视频生成 37. Multi-layer attentive probing improves transfer of audi 4.0分中等偏上 #生物声学 #音频分类 38. Drum Synthesis from Expressive Drum Grids via Neural Au 4.0分前50% #音乐生成 39. Voice Biomarkers for Depression and Anxiety 1.0分后50% #语音生物标志物 📋 论文列表 🥇 Polyphonia: Zero-Shot Timbre Transfer in Polyphonic Music with Acoustic-Informed Attention Calibration ✅ 7.5/10 | 前30% | #音乐生成 | #扩散模型 | #注意力机制 #零样本 | arxiv ...