Towards Fine-Grained Multi-Dimensional Speech Understanding: Data Pipeline, Benchmark, and Model

📄 Towards Fine-Grained Multi-Dimensional Speech Understanding: Data Pipeline, Benchmark, and Model #语音理解 #渐进式课程学习 #基准测试 #数据集 #多语言 前25% | #语音理解 | #渐进式课程学习 | #基准测试 #数据集 | arxiv 学术质量 6.0/8 | 影响力 1.6/2 | 可复现性 0.7/1 | 置信度 高 👥 作者与机构 第一作者:Guojian Li(论文未明确标注,按列表顺序推断) 通讯作者:未说明(论文仅标注“*Corresponding authors”,但未指明具体作者) 作者列表:Guojian Li, Zhixian Zhao, Zhennan Lin, Jingbin Hu, Qirui Zhan, Yuang Cao, Pengyuan Xie, Chuan Xie, Jie Liu, Qiang Zhang, Zhonghua Fu, Lei Xie。 所有作者所属机构:未在论文中提供。 💡 毒舌点评 这篇工作的核心价值在于其“三位一体”的系统性贡献——试图为“细粒度多维语音理解”这一新兴方向同时定义问题、提供评测工具和提出模型方案���其构建的FMSU-Bench基准,特别是引入“语义陷阱”干扰项,对评估模型是否真正“听声”而非“读文”具有重要启发意义。然而,整套方案的基石——数据生产流水线,严重依赖黑箱商业模型(Gemini 2.5 Pro)进行核心标注,这使得后续所有工作的数据源都建立在一个不可控、可能引入系统性偏差且难以复现的基础上。本质上,这更像是一次利用强大工具进行的数据工程和系统集成,而非提出新的感知原理。此外,模型在部分关键微细声学任务(如音高)上性能的显著下降,暴露了当前方法在触及问题本质上的不足。 ...

2026-05-13 · 更新于 2026-05-20 · 5 min · 943 words

UniPath: Adaptive Coordination of Understanding and Generation for Unified Multimodal Reasoning

📄 UniPath: Adaptive Coordination of Understanding and Generation for Unified Multimodal Reasoning ✅ 7.3/10 | 前25% | #多模态推理 | #协调策略 | arxiv 学术质量 6.6/8 | 影响力 0.8/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Hayes Bai (William & Mary) 通讯作者:Jindong Wang (William & Mary) 作者列表:Hayes Bai (William & Mary), Yinyi Luo (Carnegie Mellon University), Wenwen Wang (Carnegie Mellon University), Qingsong Wen (Squirrel Ai Learning), Jindong Wang (William & Mary) 💡 毒舌点评 论文对统一多模态模型(UMM)中“理解与生成如何协调”这一关键问题提出了一个新颖且系统的解决框架。其核心洞察——不同任务需要不同的协调路径(路径多样性)——极具启发性,实验设计也初步支撑了这一观点。然而,作为整个系统“大脑”的路径规划器(Planner)性能与最优选择(Oracle)之间存在巨大差距(如MMMU上54.11 vs 72.00),这直接限制了方法所能带来的上限收益,使得“自适应”的核心承诺大打折扣。此外,方法的有效性在很大程度上依赖于查询表单校准这一启发式后处理步骤,这在一定程度上削弱了其“可学习”系统的纯粹性。 ...

2026-05-13 · 更新于 2026-05-20 · 2 min · 399 words

What makes a word hard to learn? Modeling L1 influence on English vocabulary difficulty

📄 What makes a word hard to learn? Modeling L1 influence on English vocabulary difficulty #词汇难度预测 #梯度提升决策树 #多语言 #数据集 📝 5.0/10 | 前50% | #词汇难度预测 | #梯度提升决策树 | #多语言 #数据集 | arxiv 学术质量 5.5/8 | 影响力 1.5/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Jonas Mayer Martins (University of Göttingen, Germany) 通讯作者:Lisa Beinborn (University of Göttingen, Germany) 作者列表:Jonas Mayer Martins (University of Göttingen, Germany), Zhuojing Huang (University of Göttingen, Germany), Aaricia Herygers (University of Göttingen, Germany), Lisa Beinborn (University of Göttingen, Germany) 💡 毒舌点评 论文巧妙地将语言迁移理论融入可解释的机器学习框架,清晰地揭示了不同母语背景学习者学习英语词汇时的“难度地图”差异,具有直接的教育应用潜力。然而,其核心迁移特征——字符n-gram相似度——是一个极其粗糙的代理指标,完全忽略了语义、语音和词源层面的迁移,这使得对“迁移”机制的建模深度和结论的普适性大打折扣。 ...

2026-05-13 · 更新于 2026-05-20 · 3 min · 429 words

语音/音频论文速递 2026-05-13

语音/音频论文速递 2026-05-13 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #声源定位 2篇 ██ #音频编码 2篇 ██ #语音识别 2篇 ██ #多模态检索 1篇 █ #深度伪造检测 1篇 █ #音视频 1篇 █ #基准测试 1篇 █ #多模态推理 1篇 █ 📊 论文评分排行榜(21 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 jina-embeddings-v5-omni: Text-Geometry-Preserving Multi 7.5分 前25% #多模态检索 🥈 Adaptive Diagonal Loading using Krylov Subspaces for Ro 7.0分 前25% #声源定位 🥉 Spatial Power Estimation via Riemannian Covariance Matc 7.0分 前25% #声源定位 4. The Deepfakes We Missed: We Built Detectors for a Threa 7.0分 前50% #深度伪造检测 5. OmniRefine: Alignment-Aware Cooperative Compression for 7.0分 前25% #音视频 6. Exploring Token-Space Manipulation in Latent Audio Toke 6.7分 前25% #音频编码 7. MMTB: Evaluating Terminal Agents on Multimedia-File Tas 6.7分 前25% #基准测试 8. UniPath: Adaptive Coordination of Understanding and Gen 6.6分 前25% #多模态推理 9. The SMC Blind Spot: A Failure Mode Analysis of State-of 6.5分 前35% #节拍跟踪 10. Too Good to Be True: A Study on Modern Automatic Speech 6.2分 前50% #语音增强 11. Towards Fine-Grained Multi-Dimensional Speech Understan 6.0分 前25% #语音理解 12. A Semi-Supervised Framework for Speech Confidence Detec 6.0分 前50% #语音自信度检测 13. AffectCodec: Emotion-Preserving Neural Speech Codec for 5.8分 前25% #音频编码 14. STRUM: A Spectral Transcription and Rhythm Understandin 5.5分 前25% #音乐转录 15. Chunkwise Aligners for Streaming Speech Recognition 5.5分 前50% #语音识别 16. Poly-SVC: Polyphony-Aware Singing Voice Conversion with 5.5分 前50% #歌唱语音转换 17. What makes a word hard to learn? Modeling L1 influence 5.5分 前50% #词汇难度预测 18. Mind the Pause: Disfluency-Aware Objective Tuning for M 5.5分 前25% #语音编辑 19. OmniNFT: Modality-wise Omni Diffusion Reinforcement for 5.5分 前25% #音视频生成 20. Mechanistic Interpretability of ASR models using Sparse 5.0分 前60% #语音识别 21. Boosting Omni-Modal Language Models: Staged Post-Traini 5.0分 前50% #多模态模型评估 22 AuDirector: A Self-Reflective Closed-Loop Framework for N/A - - 📋 论文列表 🥇 jina-embeddings-v5-omni: Text-Geometry-Preserving Multimodal Embeddings via Frozen-Tower Composition ✅ 7.5/10 | 前25% | #多模态检索 | #迁移学习 | #多模态模型 #模型评估 | arxiv ...

2026-05-13 · 更新于 2026-05-20 · 14 min · 2798 words

A Cold Diffusion Approach for Percussive Dereverberation

📄 A Cold Diffusion Approach for Percussive Dereverberation #音频修复 #扩散模型 #音频增强 #打击乐 ✅ 6.2/10 | 前35% | #音频修复 | #扩散模型 | #音频增强 #打击乐 | arxiv 学术质量 6.2/8 | 影响力 0.7/2 | 可复现性 0.6/1 | 置信度 高 👥 作者与机构 第一作者:Dimos Makris(未说明机构) 通讯作者:未说明 作者列表:Dimos Makris(未说明机构),András Barják(未说明机构),Maximos Kaliakatsos-Papakostas(未说明机构) 💡 毒舌点评 本文首次将冷扩散框架应用于打击乐去混响这一垂直但重要的任务,并贴心地设计了一套瞬态感知的评估指标,填补了领域空白,实验显示其性能显著优于将语音模型生搬硬套的基线。然而,文中声称的“首次”虽未提供系统文献综述,但属于常见的声明方式。核心问题在于对比实验的公平性:最佳模型(UNet Δ-norm)仅用16步迭代就“吊打”了用30步和50步的基线。这种推理步数不匹配的对比,使得关于效率和性能的结论需要更多实验(如步数匹配对比、计算成本分析)来支撑。 📌 核心摘要 问题:现有音频去混响研究几乎都针对语音,而打击乐(鼓组)由于其快速瞬态和密集时域结构,其去混响面临独特挑战,且缺乏专门的学习型解决方案。 方法核心:提出一个冷扩散框架,将混响建模为一个确定性退化过程(将干声与湿声按特定时间表混合),并学习其逆过程。研究了两种反向过程参数化:直接预测下一状态(Direct)和预测归一化残差(Δ-normalized,速度风格),并分别用UNet和扩散Transformer(DiT)实现。 新意:首次尝试将学习型方案(冷扩散)应用于打击乐的盲去混响任务;通过确定性退化过程和迭代恢复来避免传统扩散模型的随机性;专门设计了一套针对打击乐的客观评估指标(如瞬态-尾部能量比TTER,起始点F值提升ONFi)。 实验结果:在内部测试集和完全外部的测试集上,所提方法(尤其是Cold UNet Δ-norm)在信号和感知指标上均显著优于强基线SGMSE+和CDiffuSE。例如,在外部测试集上,Cold UNet Δ-norm达到7.52 dB的SI-SDRi,而SGMSE+仅为2.01 dB,CDiffuSE接近0 dB。关键数据见下表。 表1:内部测试集核心指标对比 模型 mSTFTmag↓ ESR↓ SI-SDRi↑ ENV↑ TTER↓ SGMSE+ 0.12 1.35 4.06 0.62 5.90 CDiffuSE 0.12 1.37 2.77 0.59 6.03 Cold UNet Δ-norm 0.08 0.79 11.09 0.92 2.07 实际意义:为音乐制作中收紧鼓组混音、适应不同声学环境提供了新的自动化工具,潜力在于扩展到处理更复杂的人工混响效果。 局限性:数据集构建依赖手动筛选干声,规模(~38小时)和多样性受限;实验基线仅限两个源自语音的扩散模型,缺乏传统信号处理或其他音乐增强基线的对比;对生产环境中的复杂人工混响(非物理房间混响)的处理能力未验证。 🔗 开源详情 代码:https://github.com/dimakr169/drums_dereverb 模型权重:论文中未提及单独的模型权重下载链接(如HuggingFace/ModelScope)。代码仓库可能包含训练好的模型,但论文未明确说明。 数据集: MUSDB18-HQ:论文使用其鼓轨。论文未提供直接链接,但这是一个公开的音乐源分离数据集,可从其官方主页(https://sigsep.github.io/datasets/musdb.html)获取。 Groove MIDI Dataset (GMD):论文使用其渲染的电子鼓表演。论文未提供直接链接,可从其官方发布页面(https://magenta.tensorflow.org/datasets/groove)获取。 作者整理的数据集:由上述数据集的干声片段与合成/真实RIR卷积生成,共约38小时。论文指出该数据集“available upon request”(可申请获取)。 OpenAIR 数据库:用于获取真实的房间脉冲响应(RIRs)。论文未提供直接链接,但这是一个公开的RIR数据库,网址为 https://www.openairlib.net/。 Demo:论文中未提及在线演示链接(Demo)。仅说明音频示例可在代码仓库中找到。 复现材料:论文详细提供了训练配置信息(包括优化器Adam、学习率10^{-4}、EMA衰减0.995、训练/验证/测试集划分80%/10%/10%、STFT参数等)。但未提及是否提供预训练模型检查点、完整的训练脚本或详细的复现指南。这些可能包含在代码仓库中。 论文中引用的开源项目: audiomentations:用于数据增强。链接:https://github.com/iver56/audiomentations pyroomacoustics:用于合成人工RIRs。链接:https://github.com/LCAV/pyroomacoustics librosa:用于在评估指标中检测音符起始点(onsets)。链接:https://librosa.org/ ACE Challenge Workshop 数据:用于域外评估的测试集RIRs。链接:https://zenodo.org/records/6257551 MoisesDB:用于构建域外测试集。论文未提供直接链接,但这是一个公开的音乐源分离数据集,网址为 https://moises.ai/developer/。 Waves Clarity VX Dereverb:作为商业插件被提及作为对比,非开源项目。链接:https://www.waves.com/plugins/clarity-vx-dereverb 🏗️ 方法概述和架构 本系统是一个端到端的音频增强框架,旨在将立体声鼓组的混响信号(湿声)恢复为无混响信号(干声)。其核心流程为:输入的混响音频被转换为复数谱图表示,然后通过一个学习到的反向冷扩散过程进行迭代去混响,最终输出恢复的干音频谱图,并逆变换回时域波形。 ...

2026-05-12 · 更新于 2026-05-20 · 4 min · 708 words

AllocMV: Optimal Resource Allocation for Music Video Generation via Structured Persistent State

📄 AllocMV: Optimal Resource Allocation for Music Video Generation via Structured Persistent State #音乐视频生成 #资源分配 #优化 #多模态模型 #评估指标 📝 4.8/10 | 前50% | #音乐视频生成 | #资源分配 | #优化 #多模态模型 | arxiv 学术质量 4.8/8 | 影响力 0.5/2 | 可复现性 0.2/1 | 置信度 高 👥 作者与机构 第一作者:Huimin Wang (小米) 通讯作者:未说明 作者列表:Huimin Wang, Leilei Ouyang, Chang Xia, Yongqi Kang, Yu Fu, Yuqi Ouyang。根据论文作者列表,所有作者均隶属于小米(Xiaomi)。 💡 毒舌点评 这篇论文将长音乐视频生成中的资源分配问题形式化为MCKP,并引入“结构化持久状态”概念,尝试系统性地解决成本与一致性权衡问题,其提出的新评估指标CQR也具有启发性。然而,论文的核心贡献在很大程度上停留在概念和框架层面。“结构化持久状态”作为关键创新点,其具体生成算法和如何与生成模型交互的细节在正文中严重缺失,仅依赖于对闭源商业模型(Seedream, Seedance)的调用。这使得工作看起来更像是一个针对特定商业工具链的系统集成演示,而非一个可复现、可独立验证的方法论贡献。其实验评估规模(5首歌)极小,严重削弱了结论的可信度和泛化能力。 📌 核心摘要 这篇论文旨在解决长音乐视频(MV)生成中计算成本高昂以及跨镜头一致性难以保持的问题。核心方法是将MV生成任务形式化为一个“多选择背包问题”(MCKP),并提出了一个名为AllocMV的层级框架。与以往采用均匀资源分配的方法不同,AllocMV的核心创新在于引入了一个“结构化持久状态”,并在生成前通过全局规划器估计片段显著性,然后通过一个两阶段的动态规划算法在预算约束下,将每个片段最优分配到高保真生成(High-Gen)、中等保真生成(Mid-Gen)或复用(Reuse)分支。实验在一个自建的5首歌曲基准上进行,主要结果如表1所示: 方法 BeatAlign ↑ CQR ↑ CLIP ↑ Motif ↑ Cost ↓ MuseV 0.0831±.021 0.2083±.028 0.2512±.019 0.8812±.024 3.04±.19 VideoComposer 0.1024±.024 0.2210±.031 0.2318±.022 0.8754±.026 3.15±.21 AutoMV 0.0960±.023 0.4697±.036 0.3222±.017 0.8521±.029 3.25±.22 AllocMV (Ours) 0.6679±.039 0.7586±.034 0.3014±.018 0.9984±.0008 1.69±.10 结果显示,AllocMV在节奏对齐(BeatAlign)和成本-质量比(CQR)上显著优于所有基线,同时大幅降低了成本(与最强基线AutoMV相比降低约48%)。其实际意义在于为结构化视频生成提供了一个资源优化调度的框架。主要局限是评估规模非常小(仅5首歌),且框架中多个关键组件(如持久状态的生成)高度依赖未开源的商业模型,限制了其可复现性和普适性验证。 ...

2026-05-12 · 更新于 2026-05-20 · 2 min · 418 words

APEX: Audio Prototype EXplanations for Classification Tasks

📄 APEX: Audio Prototype EXplanations for Classification Tasks #音频分类 #原型学习 #可解释性AI #后验解释 #特征解耦 ✅ 6.2/10 | 前25% | #音频分类 | #原型学习 | #可解释性AI #后验解释 | arxiv 学术质量 6.2/8 | 影响力 0.8/2 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Piotr Kawa (Wroclaw University of Science and Technology, Department of Artificial Intelligence) 通讯作者:未明确说明,但论文提供了 piotr.kawa@pwr.edu.pl 作为联系邮箱 作者列表:Piotr Kawa^1, Kornel Howil^4,5, Piotr Borycki^2, Miłosz Adamczyk^3, Przemysław Spurek^1, Piotr Syga^4 机构:1 Department of Artificial Intelligence, Wroclaw University of Science and Technology, Poland; 2 Resemble AI, USA; 3 IDEAS Research Institute, Poland; 4 Faculty of Mathematics and Computer Science, Jagiellonian University, Poland; 5 Doctoral School of Exact and Natural Sciences, Jagiellonian University, Poland 💡 毒舌点评 本文直击音频可解释性领域的一个核心痛点:如何在不损害现成高性能“黑箱”模型的前提下,为其赋予符合声学直觉的解释。APEX通过插入可逆线性变换解耦特征空间并严格保持输出不变的设计,思路清晰且数学上严谨,为这一目标提供了一个颇具吸引力的解决方案。其针对音频时频特性提出的四种原型提取方案也体现了领域洞察。然而,框架对骨干网络需含全局池化层和线性分类头的硬性要求,严重限制了其普适性,更像是一个专用工具。此外,所谓“通道纯度”优化是否真正得到了人类可理解的“声学概念”,缺乏直接的人工评估或语义对齐验证,这使得其“解释”的有效性打了一定折扣。 ...

2026-05-12 · 更新于 2026-05-20 · 4 min · 823 words

Bangla-WhisperDiar: Fine-Tuning Whisper and PyAnnote for Bangla Long-Form Speech Recognition and Speaker Diarization

📄 Bangla-WhisperDiar: Fine-Tuning Whisper and PyAnnote for Bangla Long-Form Speech Recognition and Speaker Diarization #语音识别 #说话人日志 #低资源 #数据增强 #迁移学习 📝 5.5/10 | 前50% | #语音识别 #说话人日志 | #迁移学习 #数据增强 | #语音识别 #说话人日志 | arxiv 学术质量 5.5/8 | 影响力 0.8/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Mohammed Aman Bhuiyan(North South University, Department of ECE) 通讯作者:论文中未明确指定 作者列表:Mohammed Aman Bhuiyan(North South University, Department of ECE),Md Sazzad Hossain Adib(North South University, Department of ECE),Samiul Basir Bhuiyan(North South University, Department of ECE),Amit Chakraborty(North South University, Department of ECE),Aritra Islam Saswato(North South University, Department of ECE),Ahmed Faizul Haque Dhrubo(North South University, Department of ECE),Mohammad Ashrafuzzaman Khan(North South University, Department of ECE) 💡 毒舌点评 亮点:本文作为一篇竞赛报告,系统性地整合了主流工具链(Whisper + PyAnnote),并针对孟加拉语这一低资源语言场景进行了细致的工程适配(如文本规范化、ASR引导的对齐、全面的数据增强),最终在特定竞赛集上取得了显著的性能提升,体现了较强的工程实践能力和问题解决导向。方法描述详尽,流程图清晰,代码开源。 短板:核心方法本质上是“在预训练模型上微调 + 设计数据增强流水线”,缺乏本质性的算法或理论创新。部分关键设计选择(如仅微调说话人日志的分段模型)虽经实验证明有效,但缺乏充分的消融实验支撑,使其贡献更偏向于特定场景的“配方优化”而非普适性方法论的突破。论文自身在局限性部分的表述存在前后矛盾(关于是否进行了全参数微调),且验证集过小的问题直接影响了结论的可靠性。 ...

2026-05-12 · 更新于 2026-05-20 · 3 min · 505 words

ChladniSonify: A Visual-Acoustic Mapping Method for Chladni Patterns in New Media Art Creation

📄 ChladniSonify: A Visual-Acoustic Mapping Method for Chladni Patterns in New Media Art Creation #音频生成 #图像分类 #实时系统 #物理建模 #注意力机制 #数据增强 ✅ 6.0/10 | 前50% | #音频生成 | #图像分类 | #实时系统 #物理建模 | arxiv 学术质量 6.0/8 | 影响力 1.0/2 | 可复现性 0.6/1 | 置信度 中 👥 作者与机构 第一作者:Yakun Liu(未说明机构) 通讯作者:未说明 作者列表:Yakun Liu, Hai Luan, Zhiyu Jin, Dong Liu(均未说明机构) 💡 毒舌点评 本文针对“Chladni图案声音化”这一高度垂直的艺术创作需求,提出了一套从物理建模到实时交互的完整工程原型。其核心价值在于将透明、基于物理公式的映射规则与轻量化识别模型结合,为特定艺术场景提供了降低技术门槛的解决方案。然而,该工作的主要短板也十分明显:所有验证完全依赖于自生成的合成数据集,其在真实世界复杂条件下的有效性未经检验,这使得其工程宣称的可靠性大打折扣。创新性本质上是对已有技术(薄板理论、CBAM、跨平台通信)的针对性整合与应用优化,而非方法学上的突破。作为一篇面向应用的短文,其贡献清晰但深度有限。 📌 核心摘要 解决的问题:新媒体艺术创作中Chladni图案声音化的三大痛点:1) 主观映射缺乏理论依据;2) 基于物理仿真的工具计算门槛高、离线计算无法满足实时交互;3) 通用图像声音化工具的映射规则为黑盒,不可控。 方法核心:提出ChladniSonify系统。首先,基于Kirchhoff-Love薄板振动理论,通过数值编程生成15种模式的Chladni图案-频率配对数据集,并使用ANSYS仿真校准频率系数。其次,设计了一个融合CBAM注意力机制的轻量化CNN模型(CNN_CBAM),专门用于识别这些图案的振动模式。最后,通过Python与Max/MSP基于UDP协议协作,构建了“图像输入→模式识别→频率映射→音频输出”的端到端实时系统。 与已有方法的创新:不同于主观映射或黑盒通用模型,本工作建立了完全由经典物理公式决定的、透明可复现的视觉-声学映射规则。针对Chladni图案细长节线的视觉特征,对CBAM空间注意力子模块的卷积核从7x7优化为5x5,以更精确地捕捉线特征,实现高精度低延迟识别。 主要实验结果: 基准频率一致性:在自建合成测试集(900张)上,正确识别样本的映射频率与理论频率相对偏差为0。 模式识别性能:CNN_CBAM模型准确率为99.33%,F1-score为0.9924,单图推理延迟7.03ms。详细对比如下表: 模型 准确率(%) F1-score 单图推理速度(ms) Basic_CNN 99.00 0.9945 6.42 CNN_CBAM (本研究) 99.33 0.9924 7.03 Improved AlexNet 99.67 0.9944 8.03 VGG16 100 1.0000 77 消融实验:优化CBAM(5x5核)相比无CBAM(99.00%)和原始CBAM(7x7核,98.50%),准确率更高(99.33%),延迟(7.03ms)也优于原始CBAM(7.10ms)。 全链路延迟:平均端到端延迟42.6ms,最大不超过48ms。 实际意义:为基于Chladni图案的新媒体艺术创作提供了一个可复现、物理一致的工程原型,允许艺术家在透明映射规则下进行声音定制,降低了创作的技术门槛。 主要局限性:系统仅适配一种特定边界条件(中心激励、四边自由方形不锈钢板);数据集仅包含15类模式;所有性能验证基于合成图像,缺乏真实拍摄数据的验证;基础音频输出仅为正弦波。 🔗 开源详情 代码:论文中未提及代码链接,未来计划中提及将开源系统代码。 模型权重:论文中未提及模型权重链接,未来计划中提及将开源模型架构。 数据集:论文中未提及公开数据集链接,未来计划中提及将开源数据集。论文描述的数据集是程序化生成的,包含15个振动模式,每个模式100张图像,共1500张原始图像。经数据增强后,训练集扩展为4500张图像(3600训练,900测试)。 Demo:论文中未提及在线演示链接。 复现材料:论文中未提供可供下载的复现材料包。论文在实验部分详细描述了复现所需的环境与参数:硬件为Apple M4 (MacBook Air) CPU,16GB内存;深度学习框架为PyTorch 2.0;图像输入尺寸为224x224x3 RGB格式;训练超参数包括:批量大小32,Adam优化器,初始学习率1e-4,训练50个epoch,采用早停策略(验证集损失连续10个epoch不下降则停止)。模型推理延迟测试条件为:单图像推理,批量大小=1,在CPU上运行,取1000次测试的平均值。 论文中引用的开源项目/工具: PyTorch:论文中提及使用PyTorch 2.0作为深度学习框架。官方主页为 https://pytorch.org/。 ANSYS Workbench:论文中提及使用ANSYS Workbench进行有限元模拟验证。官方主页为 https://www.ansys.com/products/ansys-workbench。 Max/MSP:论文中提及使用Max/MSP进行实时音频渲染与系统交互。官方主页为 https://cycling74.com/products/max。 PixelPlayer:论文在相关工作中提及的开源图像声音化项目,非本论文直接使用。 🏗️ 方法概述和架构 ChladniSonify是一个面向新媒体艺术创作的端到端实时视觉-声学映射系统,其设计严格遵循“物理规律驱动”和“实时交互”原则。系统由三个核心模块组成,形成从物理建模到交互输出的完整流水线。 ...

2026-05-12 · 更新于 2026-05-20 · 2 min · 367 words

CORTEG: Foundation Models Enable Cross-Modality Representation Transfer from Scalp to Intracranial Brain Recordings

📄 CORTEG: Foundation Models Enable Cross-Modality Representation Transfer from Scalp to Intracranial Brain Recordings #脑机接口 #迁移学习 #预训练 #跨模态 #数据集 ✅ 6.5/10 | 前25% | #脑机接口 | #迁移学习 | #预训练 #跨模态 | arxiv 学术质量 6.5/8 | 影响力 0.5/2 | 可复现性 1.0/1 | 置信度 高 👥 作者与机构 第一作者:Liuyin Yang(KU Leuven, Laboratory for Neuro- & Psychophysiology, Department of Neurosciences) 通讯作者:Marc M. Van Hulle(KU Leuven, Laboratory for Neuro- & Psychophysiology, Department of Neurosciences) 作者列表:Liuyin Yang(KU Leuven, Laboratory for Neuro- & Psychophysiology, Department of Neurosciences),Qiang Sun(KU Leuven, Laboratory for Neuro- & Psychophysiology, Department of Neurosciences),Bob Van Dyck(KU Leuven, Laboratory for Neuro- & Psychophysiology, Department of Neurosciences),Eva Calvo Merino(KU Leuven, Laboratory for Neuro- & Psychophysiology, Department of Neurosciences),Marc M. Van Hulle(KU Leuven, Laboratory for Neuro- & Psychophysiology, Department of Neurosciences) 💡 毒舌点评 亮点在于首次系统性地研究了将头皮EEG预训练基础模型迁移到颅内ECoG解码的可行性,并在两个不同任务上验证了该框架的有效性。其设计的KNNSoftFourier适配器为解决电极几何差异提供了新颖的解决方案,LOO-FT策略为临床快速部署提供了实用路径。短板在于,其在公开基准任务(手指轨迹)上的性能提升统计上并不显著,且核心贡献更多是方法整合与验证,而非提出颠覆性的算法新范式。主要优势体现在低数据适配和私有任务上。 ...

2026-05-12 · 更新于 2026-05-20 · 4 min · 652 words