Posts

ChladniSonify: A Visual-Acoustic Mapping Method for Chladni Patterns in New Media Art Creation

📄 ChladniSonify: A Visual-Acoustic Mapping Method for Chladni Patterns in New Media Art Creation #音频生成 #图像分类 #实时系统 #物理建模 #注意力机制 #数据增强 ✅ 6.0/10 | 前50% | #音频生成 | #图像分类 | #实时系统 #物理建模 | arxiv 学术质量 6.0/8 | 影响力 1.0/2 | 可复现性 0.6/1 | 置信度中 👥 作者与机构第一作者：Yakun Liu（未说明机构）通讯作者：未说明作者列表：Yakun Liu, Hai Luan, Zhiyu Jin, Dong Liu（均未说明机构） 💡 毒舌点评本文针对“Chladni图案声音化”这一高度垂直的艺术创作需求，提出了一套从物理建模到实时交互的完整工程原型。其核心价值在于将透明、基于物理公式的映射规则与轻量化识别模型结合，为特定艺术场景提供了降低技术门槛的解决方案。然而，该工作的主要短板也十分明显：所有验证完全依赖于自生成的合成数据集，其在真实世界复杂条件下的有效性未经检验，这使得其工程宣称的可靠性大打折扣。创新性本质上是对已有技术（薄板理论、CBAM、跨平台通信）的针对性整合与应用优化，而非方法学上的突破。作为一篇面向应用的短文，其贡献清晰但深度有限。 📌 核心摘要解决的问题：新媒体艺术创作中Chladni图案声音化的三大痛点：1) 主观映射缺乏理论依据；2) 基于物理仿真的工具计算门槛高、离线计算无法满足实时交互；3) 通用图像声音化工具的映射规则为黑盒，不可控。方法核心：提出ChladniSonify系统。首先，基于Kirchhoff-Love薄板振动理论，通过数值编程生成15种模式的Chladni图案-频率配对数据集，并使用ANSYS仿真校准频率系数。其次，设计了一个融合CBAM注意力机制的轻量化CNN模型（CNN_CBAM），专门用于识别这些图案的振动模式。最后，通过Python与Max/MSP基于UDP协议协作，构建了“图像输入→模式识别→频率映射→音频输出”的端到端实时系统。与已有方法的创新：不同于主观映射或黑盒通用模型，本工作建立了完全由经典物理公式决定的、透明可复现的视觉-声学映射规则。针对Chladni图案细长节线的视觉特征，对CBAM空间注意力子模块的卷积核从7x7优化为5x5，以更精确地捕捉线特征，实现高精度低延迟识别。主要实验结果：基准频率一致性：在自建合成测试集（900张）上，正确识别样本的映射频率与理论频率相对偏差为0。模式识别性能：CNN_CBAM模型准确率为99.33%，F1-score为0.9924，单图推理延迟7.03ms。详细对比如下表：模型准确率(%) F1-score 单图推理速度(ms) Basic_CNN 99.00 0.9945 6.42 CNN_CBAM (本研究) 99.33 0.9924 7.03 Improved AlexNet 99.67 0.9944 8.03 VGG16 100 1.0000 77 消融实验：优化CBAM（5x5核）相比无CBAM（99.00%）和原始CBAM（7x7核，98.50%），准确率更高（99.33%），延迟（7.03ms）也优于原始CBAM（7.10ms）。全链路延迟：平均端到端延迟42.6ms，最大不超过48ms。实际意义：为基于Chladni图案的新媒体艺术创作提供了一个可复现、物理一致的工程原型，允许艺术家在透明映射规则下进行声音定制，降低了创作的技术门槛。主要局限性：系统仅适配一种特定边界条件（中心激励、四边自由方形不锈钢板）；数据集仅包含15类模式；所有性能验证基于合成图像，缺乏真实拍摄数据的验证；基础音频输出仅为正弦波。 🔗 开源详情代码：论文中未提及代码链接，未来计划中提及将开源系统代码。模型权重：论文中未提及模型权重链接，未来计划中提及将开源模型架构。数据集：论文中未提及公开数据集链接，未来计划中提及将开源数据集。论文描述的数据集是程序化生成的，包含15个振动模式，每个模式100张图像，共1500张原始图像。经数据增强后，训练集扩展为4500张图像（3600训练，900测试）。 Demo：论文中未提及在线演示链接。复现材料：论文中未提供可供下载的复现材料包。论文在实验部分详细描述了复现所需的环境与参数：硬件为Apple M4 (MacBook Air) CPU，16GB内存；深度学习框架为PyTorch 2.0；图像输入尺寸为224x224x3 RGB格式；训练超参数包括：批量大小32，Adam优化器，初始学习率1e-4，训练50个epoch，采用早停策略（验证集损失连续10个epoch不下降则停止）。模型推理延迟测试条件为：单图像推理，批量大小=1，在CPU上运行，取1000次测试的平均值。论文中引用的开源项目/工具： PyTorch：论文中提及使用PyTorch 2.0作为深度学习框架。官方主页为 https://pytorch.org/。 ANSYS Workbench：论文中提及使用ANSYS Workbench进行有限元模拟验证。官方主页为 https://www.ansys.com/products/ansys-workbench。 Max/MSP：论文中提及使用Max/MSP进行实时音频渲染与系统交互。官方主页为 https://cycling74.com/products/max。 PixelPlayer：论文在相关工作中提及的开源图像声音化项目，非本论文直接使用。 🏗️ 方法概述和架构 ChladniSonify是一个面向新媒体艺术创作的端到端实时视觉-声学映射系统，其设计严格遵循“物理规律驱动”和“实时交互”原则。系统由三个核心模块组成，形成从物理建模到交互输出的完整流水线。 ...

CORTEG: Foundation Models Enable Cross-Modality Representation Transfer from Scalp to Intracranial Brain Recordings

📄 CORTEG: Foundation Models Enable Cross-Modality Representation Transfer from Scalp to Intracranial Brain Recordings #脑机接口 #迁移学习 #预训练 #跨模态 #数据集 ✅ 6.5/10 | 前25% | #脑机接口 | #迁移学习 | #预训练 #跨模态 | arxiv 学术质量 6.5/8 | 影响力 0.5/2 | 可复现性 1.0/1 | 置信度高 👥 作者与机构第一作者：Liuyin Yang（KU Leuven, Laboratory for Neuro- & Psychophysiology, Department of Neurosciences）通讯作者：Marc M. Van Hulle（KU Leuven, Laboratory for Neuro- & Psychophysiology, Department of Neurosciences）作者列表：Liuyin Yang（KU Leuven, Laboratory for Neuro- & Psychophysiology, Department of Neurosciences），Qiang Sun（KU Leuven, Laboratory for Neuro- & Psychophysiology, Department of Neurosciences），Bob Van Dyck（KU Leuven, Laboratory for Neuro- & Psychophysiology, Department of Neurosciences），Eva Calvo Merino（KU Leuven, Laboratory for Neuro- & Psychophysiology, Department of Neurosciences），Marc M. Van Hulle（KU Leuven, Laboratory for Neuro- & Psychophysiology, Department of Neurosciences） 💡 毒舌点评亮点在于首次系统性地研究了将头皮EEG预训练基础模型迁移到颅内ECoG解码的可行性，并在两个不同任务上验证了该框架的有效性。其设计的KNNSoftFourier适配器为解决电极几何差异提供了新颖的解决方案，LOO-FT策略为临床快速部署提供了实用路径。短板在于，其在公开基准任务（手指轨迹）上的性能提升统计上并不显著，且核心贡献更多是方法整合与验证，而非提出颠覆性的算法新范式。主要优势体现在低数据适配和私有任务上。 ...

DiffVQE: Hybrid Diffusion Voice Quality Enhancement Under Acoustic Echo and Noise

📄 DiffVQE: Hybrid Diffusion Voice Quality Enhancement Under Acoustic Echo and Noise #语音增强 #扩散模型 #回声消除 #语音质量评估 #单步扩散 ✅ 6.2/10 | 前30% | #语音增强 | #扩散模型 | #回声消除 #语音质量评估 | arxiv 学术质量 6.2/8 | 影响力 0.9/2 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：Haljan Lugo Girao (Technische Universität Braunschweig, Institute for Communications Technology) 通讯作者：未提及作者列表：Haljan Lugo Girao (Technische Universität Braunschweig, Institute for Communications Technology), Ernst Seidel (Technische Universität Braunschweig, Institute for Communications Technology), Pejman Mowlaee (GN Advanced Science), Ziyue Zhao (GN Advanced Science), Tim Fingscheidt (Technische Universität Braunschweig, Institute for Communications Technology) 💡 毒舌点评这篇论文的核心贡献在于尝试将单步条件扩散模型应用于AEC任务，并给出了一个声称可复现的框架。其在部分语音质量指标上超越了重新训练的DeepVQE基线，且模型更轻量，这展示了生成模型在AEC领域的潜力。然而，论文的创新程度有限，其核心单步扩散框架直接借自EffDiffSE，真正的“新意”在于架构调整和数据适配。致命的缺陷在于缺乏关键的消融实验，无法证明Cond DNN、Score DNN以及单步策略各自必要性，使得结论说服力大打折扣。此外，尽管标题和摘要声称“excel”在“echo and noise control performance”，但实验数据显示其在回声抑制（Echo）指标上并未优于甚至略逊于DeepVQE，结论的表述存在过度推广之嫌。 ...

Dolphin-CN-Dialect: Where Chinese Dialects Matter

📄 Dolphin-CN-Dialect: Where Chinese Dialects Matter #语音识别 #端到端 #多语言 #低资源 #数据增强 📝 5.5/10 | 前50% | #语音识别 | #端到端 | #多语言 #低资源 | arxiv 学术质量 5.5/8 | 影响力 1.5/2 | 可复现性 0.5/1 | 置信度中 👥 作者与机构第一作者：Yangyang Meng, Huihang Zhong, Guodong Lin, Guanbo Wang, Hu Du（论文中标注为共同第一作者，*）通讯作者：Zhiming Shao, Wei-Qiang Zhang（论文中标注为通讯作者，†）作者列表：Yangyang Meng (Dataocean AI)， Huihang Zhong (Dataocean AI)， Guodong Lin (Dataocean AI)， Guanbo Wang (Dataocean AI)， Hu Du (Dataocean AI)， Zhiming Shao (Speech and Audio Technology Lab, Dept. EE, Tsinghua University)， Yukai Huang (Dataocean AI)， Ke Li (Dataocean AI)， Wei-Qiang Zhang (Speech and Audio Technology Lab, Dept. EE, Tsinghua University) 💡 毒舌点评亮点：工程实践导向明确，提出的温度采样策略有效缓解了方言数据长尾问题，且在小参数量模型上取得了有竞争力的结果，对工业部署友好。双路热词偏置框架的评估较为全面，包括了Oracle分析。短板：核心贡献多为对已有技术的组合与工程调优，缺乏模型架构或训练范式上的根本性创新；关键超参数（如α）的选择和消融实验缺失，影响了方法深度；大量依赖未公开的内部数据集，使得对比实验的公平性和复现性存疑。 ...

Drum Synthesis from Expressive Drum Grids via Neural Audio Codecs

📄 Drum Synthesis from Expressive Drum Grids via Neural Audio Codecs #音乐生成 #生成模型 #音频编码 📝 4.0/10 | 前50% | #音乐生成 | #生成模型 | #音频编码 | arxiv 学术质量 4.0/8 | 影响力 0.6/2 | 可复现性 0.8/1 | 置信度中 👥 作者与机构第一作者：Konstantinos Soiledis（University of Ioannina, University of Patras）通讯作者：未说明作者列表：Konstantinos Soiledis（University of Ioannina, University of Patras）、Maximos Kaliakatsos-Papakostas（University of Ioannina）、Dimos Makris（University of Ioannina）、Konstantinos Tsamis（University of Ioannina, University of Patras） 💡 毒舌点评本文系统性地比较了三种神经音频编解码器在鼓网格到音频生成任务中的表现，为后续工作选择目标表示提供了有价值的实证参考，这是其亮点。然而，论文主要贡献是将已有技术（神经编解码器+Transformer）进行组合应用，且核心实验发现（增大模型反而导致性能下降）未能给出深入分析或有效解决方案，显得方法部分的创新深度和工程鲁棒性有所不足。 📌 核心摘要问题：如何从包含微时值和力度信息的鼓网格（Expressive Drum Grid）生成真实、富有表现力的鼓音频，以捕捉人类演奏的细微感觉（“groove”）。方法核心：采用“编解码器token预测”范式。系统将鼓网格输入到一个非自回归Transformer编码器中，预测预训练神经音频编解码器（EnCodec, DAC, X-Codec）的离散token序列，然后使用固定的编解码器解码器将token序列转换为波形音频。创新点：与现有方法相比，本文的主要创新在于：提出了一个完整的从表达性鼓网格到音频的生成系统（DrumGrid2Audio）。在一个受控的、统一的建模框架下，首次（原文描述为“one of the first”）对EnCodec、DAC和X-Codec三种主流神经音频编解码器作为中间表示的效能进行了系统比较。在公开的大规模鼓数据集E-GMD上进行了多方面的客观评估。主要实验结果：在Base模型设置下，EnCodec在大多数指标上表现最优：token准确率最高（单套鼓42.7%，全套鼓43.4%），感知距离（FAD）最低（单套鼓0.281，全套鼓0.193）。 DAC在样本级误差（RMSE/MAE）上最低，但token预测难度极大（困惑度高达500+），感知质量最差（FAD最高，全套鼓0.405）。 X-Codec性能介于两者之间。反常发现：将模型容量从Base增大到Large后，所有编解码器的性能均显著下降，表明训练过程不稳定。实际意义：为音乐制作和音频生成领域提供了一种新的从符号化鼓谱（MIDI+表情信息）渲染逼真音频的途径，并为如何选择神经音频编解码器作为生成目标提供了实践指导。主要局限性：论文明确承认缺乏主观听感评估和正式统计检验；Large模型训练不稳定，原因未深究；研究仅限于鼓音频，结论的泛化性未验证。 🔗 开源详情代码：https://github.com/kostantinos-soiledis/midigroove_poc 模型权重： EnCodec: facebook/encodec_32khz (HuggingFace预训练检查点) DAC: descript/dac_44khz (HuggingFace预训练检查点) X-Codec: hf-audio/xcodec-hubert-general (HuggingFace预训练检查点，配置为2.0 kbps带宽) 数据集：Expanded Groove MIDI Dataset (E-GMD)。论文中未提供该数据集的具体下载链接。 Demo：论文中未提及在线演示链接。复现材料：项目页面：https://github.com/kostantinos-soiledis/midigroove_poc（包含生成的音频示例和扩展结果/图表，如所有套件的完整评估细分）。训练配置：Base模型 (d_model=768, L=6, H=8) 和 Large模型 (d_model=1536, L=10, H=12) 的详细架构参数；优化器为AdamW，学习率 6×10^{-5}，全局梯度裁剪1.0，最大200,000步，早停5000步。训练硬件：所有模型均在单个NVIDIA GeForce RTX 3080 GPU (10 GB VRAM)上训练。评估协议：具体评估指标（NLL, PPL, Acc, RMSE, MAE, MR-STFT SC, Env RMS corr, TTER MAE, Onset P/R/F1, FAD）的定义和计算方法。论文中引用的开源项目： EnCodec (神经音频编解码器): https://github.com/facebookresearch/encodec （论文引用 [4]） DAC (神经音频编解码器): https://github.com/descriptinc/descript-audio-codec （论文引用 [6]） X-Codec (神经音频编解码器): https://github.com/zhangzwfcn/xcodec （论文引用 [5]） AudioLM (基于编解码器令牌的语言模型): https://github.com/google-research/audioLM （论文引用 [1]） MusicLM (文本到音乐生成): https://github.com/google-research/musiclm （论文引用 [2]） SoundStream (神经音频编解码器): https://arxiv.org/abs/2107.10759 （论文引用 [11]） GrooVAE (表达性节奏建模): https://github.com/wayne391/beat-dance-datasets （论文引用 [8]，数据集链接） CRASH (基于分数的扩散模型): https://github.com/hugoflorentino/CRASH （论文引用 [10]） MIDI-VALLE (符号到音频合成): https://github.com/yangdongchao/MIDI-VALLE （论文引用 [12]） STAGE (伴奏生成): https://github.com/facebookresearch/audiocraft （论文引用 [13]） DARC (鼓生成): https://github.com/DARG/darc （论文引用 [14]） TRIA (基于令牌的鼓合成): https://github.com/ZiyueXu77/TRIA （论文引用 [15]） madmom (用于起点检测): https://github.com/CPJKU/madmom （论文引用 [16]，隐含） fadtk (用于计算FAD): https://github.com/AudioLDM/fadtk （论文引用 [17]，隐含） 🏗️ 方法概述和架构本文提出的方法（命名为DrumGrid2Audio）是一个条件生成系统，旨在将输入的表达性鼓网格转换为对应的鼓音频波形。整个系统可以看作一个两阶段流水线：首先是一个由Transformer构成的“网格到token”预测器，然后是一个固定的神经音频编解码器解码器。 ...

EAR: Enhancing Uni-Modal Representations for Weakly Supervised Audio-Visual Video Parsing

📄 EAR: Enhancing Uni-Modal Representations for Weakly Supervised Audio-Visual Video Parsing #音频事件检测 #多模态模型 #跨模态 #弱监督学习 📝 5.8/10 | 前25% | #音频事件检测 | #多模态模型 | #跨模态 #弱监督学习 | arxiv 学术质量 5.8/8 | 影响力 1.0/2 | 可复现性 0.4/1 | 置信度高 👥 作者与机构第一作者：Huilai Li（北京邮电大学智能工程与自动化学院）通讯作者：Jianqin Yin（北京邮电大学智能工程与自动化学院）作者列表： Huilai Li（北京邮电大学智能工程与自动化学院） Xiaomeng Di（国家电网有限公司） Ying Xing（北京邮电大学智能工程与自动化学院） Yonghao Dang（北京邮电大学人工智能学院） Yiming Wang（北京邮电大学智能工程与自动化学院） Jianqin Yin（北京邮电大学智能工程与自动化学院，通讯作者） 💡 毒舌点评这篇论文精准地切中了现有弱监督音视频视频解析（AVVP）方法的一个痛点：在追求多模态融合时，反而可能损害了对单模态事件本身准确感知的能力。提出的EAR框架从伪标签生成器预训练和最终解析模型两个阶段入手，试图“补课”增强单模态表示，思路清晰且有实效。实验上确实在AVVP基准上取得了当前最佳结果，尤其是伪标签质量的提升令人印象深刻。然而，其核心的“基于相似性的标签迁移”本质上是一种依赖外部预训练模型（CLIP/CLAP）特征质量的启发式增强手段，阈值敏感且易引入噪声（尤其在视觉模态），其“创新”更偏向于针对特定数据集的精巧工程调优，而非对弱监督学习本身方法论的突破。整体看，这是一篇扎实、完整的系统性工作，但理论深度和方法的普适性有提升空间。 📌 核心摘要要解决的问题：弱监督音视频视频解析（AVVP）任务中，现有方法主要沿着两个方向发展：生成高质量伪标签以提供更细粒度的跨模态监督，或设计更复杂的AVVP模型架构以增强多模态融合。然而，由于音频和视觉信号通常未对齐，准确解析视频根本上依赖于对单模态事件的精确感知。这些多模态聚焦的策略过度强调跨模态融合，而未能充分引导和保留单模态语义，导致生成的伪标签噪声较大，最终视频解析性能次优。方法核心：提出增强单模态表示（EAR）框架，旨在同时优化伪标签生成器和AVVP模型。(1) 在伪标签生成器预训练阶段，引入基于单模态特征相似性的标签迁移方法，将大规模DAVE数据集上的音视频事件标注转化为伪单模态事件标注，为生成器提供显式的单模态监督；同时采用非对称时序建模架构以更好地聚焦于单模态事件的动态关系。(2) 在AVVP模型训练阶段，采用软约束方式，设计非对称音/视觉驱动融合模块和多事件关系建模模块，在融合过程中保护单模态语义信息。与已有方法相比新在哪里：明确将“增强单模态表示”作为提升AVVP的核心目标，而非仅仅关注多模态融合或跨模态对齐。具体的实现手段——基于相似性的标签迁移和软约束模型架构——旨在更协调地平衡单模态与多模态事件的关注，这与以往主要关注对称融合或忽略单模态独立建模的方法有本质区别。主要实验结果：在AVVP基准LLP数据集上，EAR在伪标签生成和最终解析性能上均达到SOTA。使用VGGish+ResNet特征时，整体平均性能（Event Level Avg.）比当前SOTA方法UWAV高0.9%，达到63.7%；使用CLIP+CLAP特征时，高1.2%，达到67.4%。生成的伪标签质量（测试集平均性能）比VALOR和UWAV分别高出3.8%和2.9%。大量的消融实验验证了标签迁移（LM）、非对称融合（AMDF）、多事件关系建模（ERM）以及各损失函数的有效性。实际意义：为弱监督时序定位任务（如AVVP、动作定位）提供了一种新的视角，即通过显式增强单模态表示来提升整体性能。其生成的高质量伪标签具有公开共享的价值，可作为未来AVVP研究的强基线。主要局限性：基于相似性的标签迁移是启发式的，其有效性高度依赖于预训练模型（CLIP/CLAP）的特征质量和相似度阈值的设定。特别是在视觉模态，相似的视觉片段可能包含不同事件，导致迁移的标签引入噪声，这解释了为何论文中视觉模态的性能提升不如音频模态明显。方法性能上限受上游预训练模型特征提取能力制约。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重链接。数据集： UnAV-100：用于伪标签生成器预训练的密集音视频事件定位数据集。论文中未提供直接下载链接，但可通过其原始论文[13]中提供的项目页面获取信息。 LLP (Look, Listen, and Parse)：用于评估音视频视频解析性能的基准数据集。论文中未提供直接下载链接，但该数据集为AVVP任务的标准评测集，可通过其原始论文[46]获取信息。 Demo：论文中未提及。复现材料：论文的补充材料（Supplementary Material）提供了训练配置、损失函数细节、参数消融实验结果等信息，可用于复现。论文中提到生成的细粒度伪标签将公开发布，但未提供发布时的具体链接。论文中引用的开源项目： CLIP：用于提取视觉和文本特征的预训练模型。论文中给出了其GitHub仓库链接： https://github.com/openai/CLIP CLAP：用于提取音频和文本特征的预训练模型。论文中给出了其论文链接（作为其开源实现的间接指代）： https://arxiv.org/abs/2206.04769 ResNet-152：用于提取视觉特征的预训练骨干网络。 3D ResNet：用于提取视觉特征的预训练骨干网络。 VGGish：用于提取音频特征的预训练骨干网络。 🏗️ 方法概述和架构图2：EAR框架总览。Stage 1利用DAVE数据集进行伪标签生成器的预训练，Stage 2在目标数据集（LLP）上生成伪标签，Stage 3使用生成的伪标签和软约束模型进行AVVP训练。图中清晰展示了数据从原始视频到特征提取、标签迁移、伪标签生成、再到最终解析模型训练的完整流水线。 ...

Encoding and Decoding Temporal Signals with Spiking Bandpass Wavelets

📄 Encoding and Decoding Temporal Signals with Spiking Bandpass Wavelets #音频编码 #脉冲神经网络 #信号处理 #高效推理 ✅ 7.0/10 | 前25% | #音频编码 | #脉冲神经网络 | #信号处理 #高效推理 | arxiv 学术质量 7.0/8 | 影响力 0.6/2 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：Jens Egholm Pedersen（丹麦技术大学，电气与光子工程系）通讯作者：Jens Egholm Pedersen（丹麦技术大学）作者列表：Jens Egholm Pedersen（丹麦技术大学，电气与光子工程系）、Tony Lindeberg（瑞典KTH皇家理工学院，计算科学与技术系）、Peter Gerstoft（丹麦技术大学，电气与光子工程系） 💡 毒舌点评这篇论文在理论层面做出了扎实且有价值的贡献，成功地将LIF神经元模型这一工程实践，严谨地嵌入到尺度空间理论和小波帧的数学框架中，填补了神经形态计算与经典信号处理之间的理论鸿沟。这种概念性的创新值得高度肯定。然而，实验部分存在明显短板，未能充分兑现其核心承诺。论文声称其方法“直接映射到神经形态硬件”，却未提供任何在真实神经形态平台上的功耗、延迟或脉冲率测量数据；解码器严重依赖离线的最小二乘法，与“实时、流式”的目标相去甚远；且实验仅局限于信号重建任务，对编码表示在下游任务中的效用未做探索，使得实际影响力大打折扣。 📌 核心摘要本文旨在为基于脉冲的编码器建立一个严谨的信号处理理论框架。作者提出，可将常用的基于泄漏积分-发放（LIF）神经元的脉冲编码器重新解释为一种时间因果的尺度协变小波帧。核心方法是构造了两种新的脉冲小波家族：截断指数差（DoE）和时间因果极限核差（DoT）。与现有工作相比，新在：（1）首次为脉冲编码提供了正式的帧定义、重建保证和误差界；（2）将多尺度框架与事件驱动表示统一；（3）提出的波形可直接映射到神经形态硬件。实验结果显示，在MIT-BIH ECG和LibriSpeech音频数据集上，所提出的脉冲小波（尤其是DoT）的归一化均方根误差（nRMSE）与经典的非因果Morlet小波及连续小波变换（CWT）相当（例如，在LibriSpeech上脉冲DoT的nRMSE为0.073，与Morlet的0.064处于可比范围）。本文的实际意义在于为神经形态前端提供了具有可证明重建保证的编码理论基础。主要局限性在于解码过程依赖离线的最小二乘权重求解，且缺乏在神经形态硬件上的实测性能验证。 🔗 开源详情代码：https://github.com/jegp/swavelet 模型权重：论文中未提及数据集：论文中提及使用MIT-BIH (Moody and Mark, 2001)和LibriSpeech (Panayotov et al., 2015)数据集，但未提供具体下载链接。 Demo：论文中未提及复现材料：代码仓库 https://github.com/jegp/swavelet 应包含复现所需的主要材料。论文附录中提供了算法（Algorithm 1）和实验细节（Appendix J）。论文中引用的开源项目： PyWavelets：用于实现离散小波变换（Haar和Morlet）。链接：https://github.com/PyWavelets/pywt Jax：实验所用的机器学习加速器。链接：https://github.com/google/jax Neuromorphic Intermediate Representation (NIR)：文中提及的用于编译到神经形态硬件的表示，但未给出具体链接。 🏗️ 方法概述和架构本文提出了一个端到端的信号编码与解码框架，旨在将连续时间信号转换为稀疏的脉冲序列，并能够稳定地重建原信号。该框架将传统的模数转换问题重新构建为基于尺度空间理论的小波分解与重构问题。 ...

Evaluating the Expressive Appropriateness of Speech in Rich Contexts

📄 Evaluating the Expressive Appropriateness of Speech in Rich Contexts #语音质量评估 #语音大模型 #强化学习 #知识蒸馏 #基准测试 ✅ 7.2/10 | 前25% | #语音质量评估 | #强化学习 | #语音大模型 #知识蒸馏 | arxiv 学术质量 7.2/8 | 影响力 1.6/2 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：Tianrui Wang（天津大学，南洋理工大学联合培养）通讯作者：Longbiao Wang（天津大学）和 Xiaobao Wang（天津大学）作者列表：Tianrui Wang (天津大学, NTU), Ziyang Ma (上海交大, NTU), Yizhou Peng (NTU), Haoyu Wang (天津大学), Zhikang Niu (上海交大), Zikang Huang (天津大学), Yihao Wu (NTU), Yi-Wen Chao (NTU), Yu Jiang (天津大学), Yuheng Lu (天津大学), Guanrou Yang (上海交大), Xuanchen Li (天津大学), Hexin Liu (NTU), Chunyu Qiang (天津大学, 快手), Cheng Gong (TeleAI, 中国电信), Yifan Yang (上海交大), Tianchi Liu (新加坡国立大学), Junyu Wang (天津大学), Nana Hou (NTU), Meng Ge (天津大学), Fuming You (腾讯), Wei Yang (腾讯), Zhongqian Sun (腾讯), Haifeng Hu (腾讯), Xiaobao Wang (天津大学), Eng Siong Chng (NTU), Xie Chen (上海交大), Longbiao Wang (天津大学), Jianwu Dang (天津大学) 💡 毒舌点评本文最扎实的贡献在于明确提出了“语境丰富性下的表达适当性”这一被忽视的评估任务，并构建了首个高质量中文有声书数据集。然而，其方法论的核心创新——规划器-判断器解耦、注意力偏置等——更多是对现有技术的精巧组合与工程优化，而非提出全新的基础模型或训练范式。此外，评估仅限于中文，其普适性有待验证。 ...

FLARE: Full-Modality Long-Video Audiovisual Retrieval Benchmark with User-Simulated Queries

📄 FLARE: Full-Modality Long-Video Audiovisual Retrieval Benchmark with User-Simulated Queries #音频检索 #基准测试 #数据集 #音视频 #跨模态 ✅ 6.0/10 | 前25% | #音频检索 | #数据集 | #基准测试 #音视频 | arxiv 学术质量 6.0/8 | 影响力 1.5/2 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：Qijie You（北京科技大学 University of Science and Technology Beijing）通讯作者：Wentao Zhang（北京大学 Peking University、中关村学院 Zhongguancun Academy）作者列表：Qijie You（北京科技大学）、Hao Liang（北京大学、中关村学院，同等贡献）、Mingrui Chen（中国科学院自动化研究所 Institute of Automation, Chinese Academy of Sciences）、Bohan Zeng（北京大学）、Meiyi Qiang（北京大学）、Zhenhao Wong（北京大学）、Wentao Zhang（北京大学、中关村学院，项目负责人，通讯作者） 💡 毒舌点评这篇论文的亮点在于它精准地抓住了现有视频检索基准的“阿喀琉斯之踵”——过于依赖信息密集的字幕和短片段，完全无法模拟真实用户模糊、不完整、强依赖多模态线索的搜索意图；其提出的“硬双模态约束”过滤机制是一个非常聪明的设计，确保了跨模态查询不是简单的拼接。然而，其短板也明显：整个基准完全建立在 Qwen 系列等商用/闭源模型的自动生成和筛选之上，这虽保证了规模，却也引入了模型特有的偏见，且自动化流水线的“黑箱”特性使得最终数据集的“用户模拟”真实性存疑，更像是一场大规模的模型行为模拟而非真实人类查询的反映。 ...

How Should LLMs Listen While Speaking? A Study of User-Stream Routing in Full-Duplex Spoken Dialogue

📄 How Should LLMs Listen While Speaking? A Study of User-Stream Routing in Full-Duplex Spoken Dialogue #语音对话系统 #流式处理 #语音大模型 #语音打断处理 ✅ 6.0/10 | 前25% | #语音对话系统 | #流式处理 | #语音大模型 #语音打断处理 | arxiv 学术质量 6.0/8 | 影响力 1.5/2 | 可复现性 0.5/1 | 置信度中 👥 作者与机构第一作者：Hui Lu（The Chinese University of Hong Kong）通讯作者：论文作者列表后标注“Corresponding author”，但未明确指名。作者列表：Hui Lu (The Chinese University of Hong Kong)、Xueyuan Chen (The Chinese University of Hong Kong)、Huimeng Wang (The Chinese University of Hong Kong)、Shuhai Peng (Tsinghua University)、Shiyin Kang (SenseTime Research)、Xixin Wu (The Chinese University of Hong Kong)、Zhiyong Wu (Tsinghua University) 💡 毒舌点评本文针对全双工语音对话中一个关键但被忽视的架构问题——“用户流路由”——进行了系统性研究，通过一个精心设计的统一框架对通道融合与交叉注意力路由两种策略进行了公平对比。其价值在于首次将该问题明确化、轴心化，并提供了清晰的实证权衡关系（语义整合 vs. 上下文鲁棒性），对系统设计有直接指导意义。短板在于，作为一项对比研究，其结论严重依赖于一个1.7B规模的骨干LLM和固定的训练配方。模型能力是否足够代表当前水平、结论是否可扩展至更大模型，均存疑。此外，对交叉注意力路由性能较差的根源剖析不足，使得“权衡”的成因略显模糊，削弱了洞察的深度。 ...