信号处理基础

Cross-modal characterization of infant cry: validation of a chest-surface accelerometer in extracting acoustic vocal function measures

📄 Cross-modal characterization of infant cry: validation of a chest-surface accelerometer in extracting acoustic vocal function measures #信号处理基础 📝 5/10 | 前50% | #信号处理基础 | #信号处理基础 | arxiv 学术质量 3.2/7 | 影响力 1.5/2 | 可复现性 0.3/2 | 置信度高 👥 作者与机构 Winko W. An†， Saketh Sundar†， Lisa Yankowitz， Daryush D. Mehta， and Carol L. Wilkinson。机构包括：波士顿儿童医院发育医学科（与哈佛医学院合作）；哈佛大学（S. Sundar）；费城儿童医院（L. Yankowitz）；哈佛医学院及马萨诸塞州总医院喉外科与语音康复中心（D. D. Mehta）。 💡 毒舌点评这篇论文的核心工作是对一种现有传感技术（胸表加速度计）在特定新场景（婴儿哭声）下的工程验证。其“创新性”更偏向于应用验证而非方法革新，对于期望看到新颖模型或理论的顶会读者而言，可能略显单薄。论文最大的优势在于其清晰的实验设计和临床相关性，但受限于样本量（85人）和较为基础的分析框架，其结论的普遍性和深度有待进一步验证。代码和数据的缺失严重影响了研究的可复现性和社区贡献度，这在当前强调开源的学术环境中是一个显著短板。整体而言，这是一项扎实但影响范围有限的临床工程研究，适合发表于专业领域期刊而非追求广泛影响力的顶级机器学习会议。 📌 核心摘要本研究旨在验证一种胸部表面加速度计（ACC）在提取婴儿哭声声学特征方面的有效性，以应对传统麦克风（MIC）在临床环境中面临的噪声和隐私挑战。研究在85名4个月和12个月大婴儿的疫苗接种过程中，同步采集了ACC和MIC信号。通过手动标注，提取了包括基频（F0）、抖动、微扰、倒谱峰突出度（CPP）和谐波噪声比（HNR）在内的七个声学特征。使用组内相关系数（ICC）评估一致性，结果显示：ACC与MIC在F0和抖动（特别是JCV）上表现出优秀至良好的绝对一致性和一致性；微扰指标（Shimmer）绝对一致性较差，但一致性尚可，且ACC值系统性偏低；CPP显示中等一致性，HNR显示中等一致性且ACC值系统性偏高。研究结论表明，胸表加速度计能可靠捕获婴儿哭声中与时间相关的声学特征（F0，抖动），为噪声鲁棒、保护隐私的哭声临床分析提供了可行工具。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重。数据集：论文中未提及数据集的公开获取链接或开源协议。数据集（85名婴儿的MIC/ACC同步录音）属于受IRB协议保护的临床研究数据，未提供公开分享途径。 Demo：论文中未提及。复现材料：论文未提供训练配置、检查点等具体的复现材料链接。虽然详细描述了分析流程，但未提供可下载的处理脚本或配置文件。论文中引用的开源项目： Praat：语音学分析软件，用于数据标注和特征提取。链接：https://www.fon.hum.uva.nl/praat/ Parselmouth：Praat的Python接口库，用于信号处理和特征提取。链接：https://github.com/YannickJadoul/Parselmouth pingouin：统计学Python库，用于计算ICC。链接：https://pingouin-stats.org/ NumPy, SciPy, pandas：基础Python科学计算库，用于数据分析。链接分别为 https://numpy.org/, https://scipy.org/, https://pandas.pydata.org/ OpenAI’s DALL·E：用于生成论文图1(a)的示意图。论文中提及并声明了使用。链接：https://openai.com/dall-e-2 🏗️ 方法概述和架构本研究的方法可分为数据收集、数据标注、特征提取与统计分析四个核心阶段，形成一个从原始信号到验证结论的完整流程。 ...

Utilizing Missed Detections in Directional Sensitivity-Based DOA Estimation

📄 Utilizing Missed Detections in Directional Sensitivity-Based DOA Estimation #粒子滤波 #概率图模型 #信号处理基础 ✅ 7.1/10 | 前50% | #语音识别 | #粒子滤波 | #概率图模型 #信号处理基础 | arxiv 学术质量 5.6/7 | 影响力 1.2/2 | 可复现性 0.3/2 | 置信度中 👥 作者与机构论文作者为 Gustav Zetterqvist, Fredrik Gustafsson, Gustaf Hendeby，隶属于瑞典林雪平大学电气工程系。 💡 毒舌点评本文想法直接且有趣——将“漏检”这种通常被丢弃的“阴性结果”信息显式地建模进DOA估计的概率框架中，这个思路本身是清晰且有价值的。但通篇读下来，感觉更像一个扎实的工程方法改进，而非具有突破性理论贡献的顶级工作。创新点清晰但有限，强假设（无虚警、高斯噪声、已知检测概率）在现实复杂环境中能打几折是存疑的。实验部分，虽然包含了仿真和真实BLE实验，但对比基线过于简单（仅与忽略漏检的NLS比较），没有与文献中其他可能更先进的RSSI DOA方法（如Dir-MUSIC或某些机器学习方法）进行对比，这使得对方法优越性的论证不够强。论文写作清晰，但开源信息的完全缺失在2025年的今天显得有些保守，严重影响了可复现性和社区贡献度。对于专注于语音/音乐/音频信号处理的读者而言，这篇工作的方法论（概率建模、似然函数构建）有借鉴价值，但其应用场景（无线信标定位）与核心音频处理任务相去甚远，因此直接影响力有限。 📌 核心摘要本文针对基于接收信号强度（RSSI）的波达方向（DOA）估计问题，提出了一种能够显式利用传感器“漏检”（即信号低于检测阈值未被上报）信息的概率估计框架。传统方法通常忽略漏检信息，仅利用检测到的信号进行估计。本文将每个传感器的测量结果建模为两种互斥事件：检测事件（观测值服从阈值截断的正态分布）和漏检事件（其概率为1减去检测概率）。通过联合构建包含所有传感器（无论检测与否）的似然函数，并推导其负对数似然作为优化目标，实现了最大似然（ML）估计。该方法被具体应用于使用傅里叶级数建模方向性天线增益模式的RSSI DOA估计。仿真和基于低功耗蓝牙（BLE）定向天线阵列的真实实验表明，在低信号强度（高漏检率）场景下，所提方法相比仅使用检测信号的基线方法，能够显著提升DOA估计精度。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及数据集：论文中未提及数据集链接或名称（论文详细描述了实验中使用的数据采集方法与设置，但未提供公开的数据集或下载链接） Demo：论文中未提及复现材料：论文中未提及（论文详细描述了仿真实验与真实实验的配置，包括传感器数量、阵列配置、噪声参数、优化方法（网格搜索）、以及粒子滤波器设置等，但未提供可直接下载的配置文件或检查点）论文中引用的开源项目：未提及 🏗️ 方法概述和架构本文提出的方法是一个分层的概率估计框架，核心思想是将传感器报告“无测量值”这一事件本身视为一种蕴含信息的观测，并将其纳入统一的似然函数中进行参数估计。该框架可分为通用状态估计建模（第3节）和具体DOA估计应用（第4节）两个层次。通用状态估计框架（第3节）：核心假设与测量模型：假设目标始终存在（无漏检目标），且无虚警（任何检测均来自目标）。每个传感器 \(m\) 的测量模型为：若检测到信号，则输出测量值 \(Y = h_m(x) + e\)，其中 \(h_m(x)\) 是与待估状态 \(x\) 相关的已知测量函数，\(e \sim \mathcal{N}(0, \sigma^2)\) 为高斯噪声；否则输出空集 \(\emptyset\)。检测与否由测量值是否超过固定阈值 \(\gamma\) 决定。检测概率建模：定义检测概率 \(p_{D,m}(x) = P(Y \neq \emptyset)\)。在给定检测到的条件下，测量值 \(Y\) 服从截断正态分布：\(\mathcal{N}_{\text{Tr}}(Y; h_m(x), \sigma^2, \gamma, \infty)\)。因此，单次测量的似然函数为混合形式：检测时为 \(\mathcal{N}_{\text{Tr}}(p_D(x))\)，漏检时为 \((1-p_D(x))\)。联合似然函数构建：对于 \(N\) 个独立传感器，将检测集 \(\mathcal{D}\) 和漏检集 \(\mathcal{MD}\) 的似然相乘，得到联合似然函数 \(p(\mathbf{Y}|x)\)。关键创新点在于，漏检集 \(\mathcal{MD}\) 的乘积项 \(\prod_{m \in \mathcal{MD}} (1-p_{D,m}(x))\) 显式地将漏检事件的概率贡献纳入总似然。优化目标：取负对数，得到最小化目标（公式9）。该目标由两部分求和构成：检测传感器的“检测数据对数似然项”（包含测量值拟合项和检测概率项）和漏检传感器的“漏检数据对数似然项”（仅包含漏检概率项）。最小化该目标即可得到状态 \(x\) 的最大似然估计 \(\hat{x}\)。文中提到，由于阈值导致似然函数不可微，无法得到闭式Fisher信息矩阵与克拉美罗下界（CRLB）。在DOA估计中的具体应用（第4节）：状态定义与测量方程：状态 \(x\) 被定义为信号源的DOA角度 \(\psi\) 和中心信号功率 \(\alpha\)。对于每个传感器 \(m\)，测量方程为 \(y_m = \alpha + h_m(\psi) + e_m\)，其中 \(h_m(\psi)\) 是传感器 \(m\) 的方向性灵敏度模式。方向性模式建模：使用 \(K\) 阶傅里叶级数（FS）建模 \(h_m(\psi) = \sum_{k=-K}^{K} c_{m,k} e^{ik\psi}\)。选择FS是因为它能有效捕获天线方向图的周期性、主瓣、旁瓣和后瓣结构，且参数有限。在本文中，\(K=7\) 是通过BIC选定的。检测概率的具体分解：将检测概率 \(p_{D,m}(\psi, \alpha)\) 进一步分解为两部分：\(p_{D,m}(\psi, \alpha) = p_{c,m} \cdot p_{\alpha,m}(\psi, \alpha)\)。其中，\(p_{\alpha,m}(\psi, \alpha) = 1 - \Phi\left( \frac{\gamma - (\alpha + h_m(\psi))}{\sigma} \right)\) 是由阈值 \(\gamma\) 决定的理论检测概率（\(\Phi\) 为正态CDF）；\(p_{c,m}\) 是一个常数检测效率项（\(0 < p_{c,m} \leq 1\)），用于建模非阈值因素（如硬件不完美、环境干扰）导致的额外检测损失。这种分解使模型更贴近实际。最终优化问题：将上述具体模型代入通用负对数似然函数，得到公式（15）。优化问题变为联合估计 \(\hat{\psi}, \hat{\alpha}\)。检测项包含测量值的高斯拟合项和 \(-\log(p_{c,m})\)；漏检项则包含 \(-\log\left(1 - p_{c,m} \Phi\left( \frac{(\alpha + h_m(\psi)) - \gamma}{\sigma} \right)\right)\)。实现与跟踪：在实验部分，优化采用网格搜索法（对 \(\psi\) 和 \(\alpha\) 离散化遍历）。针对真实实验中存在多峰似然函数的问题，引入了恒速（CV）粒子滤波（PF）来跟踪正确的似然峰值，提升DOA估计的时序稳定性。架构流程：论文的图3清晰地展示了架构流程：1) 输入所有传感器的观测（部分为检测值，部分为漏检标志）；2) 根据状态假设，计算每个传感器对应的检测概率 \(p_D(x)\)；3) 将观测划分为检测集和漏检集；4) 分别计算“检测数据对数似然”和“漏检数据对数似然”；5) 将两者相加得到总对数似然；6) 通过优化算法（如网格搜索或结合PF）最大化总对数似然，得到最终的状态估计。 ...

语音/音乐/音频论文速递 2026-05-28

语音/音乐/音频论文速递 2026-05-28 共分析 30 篇论文 ⚡ 今日概览 📥 抓取 30 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 8篇 ████████ #语音合成 4篇 ████ #音频问答 2篇 ██ #语音情感识别 2篇 ██ #语音翻译 2篇 ██ #多模态模型 2篇 ██ #语音生成 1篇 █ #音频检索 1篇 █ 📊 论文评分排行榜（30 篇，按分数降序）排名论文评分分档主任务 🥇 When Helpful Context Leaks: Privacy Risks in Domain-Ada 10.0分前50% #语音识别 🥈 TARQ: Tail-Aware Reconstruction Quantization for Rare-W 10.0分前10% #语音识别 🥉 Comprehensive Benchmarking of Long-Form Speech Generati 9.9分前25% #语音合成 4. MTAVG-Bench 2.0: Diagnosing Failure Modes of Cinematic 9.9分前25% #语音生成 5. OmniRetriever: Any-to-Any Audio-Video-Text Retrieval vi 9.2分前25% #音频检索 6. Audio-Mind: An Auditable Agentic Framework for Audio Un 8.7分前50% #音频问答 7. From Talking to Singing: A New Challenge for Audio-Visu 8.7分前50% #语音伪造检测 8. SMILE-Next: Teaching Large Language Models to Detect, C 8.7分前25% #语音情感识别 9. Dasheng AudioGen: A Unified Model for Generating Cohere 8.6分前25% #音频生成 10. Why We Need Speech to Evaluate Speech Translation 8.3分前50% #语音翻译 11. Bandwidth-Efficient and Privacy-Preserving Edge-Cloud M 8.1分前25% #语音翻译 12. EigeNet: Geometry-Informed Multi-Modal Learning for Few 8.0分前50% #多模态模型 13. Unified Synthesis of Compositional Speech and Sound fro 8.0分前25% #语音合成 14. Gemini Embedding 2: A Native Multimodal Embedding Model 7.9分前25% #语音识别 15. HOME-KGQA: A Benchmark Dataset for Multimodal Knowledge 7.5分后50% - 16. Building Community-Centred NLP Resources for Puno Quech 7.2分前50% #语音识别 17. Utilizing Missed Detections in Directional Sensitivity- 7.1分前50% #语音识别 18. Diffusion Large Language Models for Visual Speech Recog 7.0分前25% #语音识别 19. LoSATok: Low-dimensional Semantic-Acoustic Tokenizer fo 7.0分前50% #语音合成 20. Affective Music Recommendation: A Rollout-Based World M 7.0分前50% #音乐推荐 21. VoiceGiraffe: A Benchmark for Extreme Long-Context Audi 7.0分前25% #音频问答 22. AgenticVBench: Can AI Agents Complete Real-World Post-P 7.0分前50% #基准测试 23. Do Audio LLMs Listen or Read? Analyzing and Mitigating 6.8分前50% #语音情感识别 24. A Conflict-Aware Penalty and Statistical Loss Framework 6.8分前50% #多模态模型 25. I Hear, Therefore I Trust: A Socio-Technical Investigat 6.5分前50% #语音合成 26. DEMON: Diffusion Engine for Musical Orchestrated Noise 6.0分前50% #音乐生成 27. Breaking the Script Barrier: Enabling Automatic Alignme 6.0分前50% #语音识别 28. Robust Quantum-MUSIC for DoA Estimation Using Rydberg A 5.7分前50% - 29. Benchmarking AI for low-resource contexts: Thinking bey 5.1分后50% #语音识别 30. Cross-modal characterization of infant cry: validation 5.0分前50% #信号处理基础 📋 论文列表 🥇 When Helpful Context Leaks: Privacy Risks in Domain-Adapted ASR 🔥 10.0/10 | 前50% | #语音识别 | #迁移学习 | #隐私安全 #领域自适应 | arxiv ...

Subspace Track-before-Detect for Passive Multi-Target Tracking with Unknown Emitted Signals

📄 Subspace Track-before-Detect for Passive Multi-Target Tracking with Unknown Emitted Signals #粒子滤波 #信号处理基础 ✅ 6.4/10 | 前50% | #信号处理基础 | #粒子滤波 | arxiv 学术质量 5.5/7 | 影响力 0.8/2 | 可复现性 0.1/2 | 置信度高 👥 作者与机构论文作者为 Nobutaka Ito 和 Yoshiaki Bando，隶属于日本产业技术综合研究所（National Institute of Advanced Industrial Science and Technology, AIST）。 💡 毒舌点评这是一篇典型的“小而美”的工程改良论文，解决了被动跟踪中一个具体的模型失配问题。作者很聪明地用归一化和子空间对齐规避了未知信号估计这个无底洞，方法在特定模拟场景下立竿见影。但问题是，这个“特定场景”的限制框也太死了：活动模式必须提前知道（相当于开了全图挂）、环境必须是理想的消声室、基线弱得像个稻草人。这让论文看起来像是在自家后院里做了一场精心控制的实验，然后宣称征服了荒野。理论分析也点到为止，关键参数κ_f的取值和影响语焉不详。如果目标是冲击顶会，这种“控制变量”式的验证远远不够，读者会强烈质疑：离开了你这个理想温床，这方法还能活吗？ 📌 核心摘要本文针对被动多目标跟踪（MTT）中目标发射信号未知导致传统跟踪-检测（TBD）方法模型失配的问题，提出了“子空间TBD”方法。核心思想是将归一化后的多通道传感器数据（STFT域）视为位于由假定目标运动状态对应的导向矢量张成的低维信号子空间内。通过构建基于复Bingham分布的观测似然函数，该方法仅评估观测数据与该子空间的对齐程度，从而避免了对未知发射信号系数的显式建模或估计。在粒子滤波框架下，利用该似然函数进行状态推断。模拟实验在消声室声学场景中进行，结果表明，在目标活动模式已知的前提下，所提方法在低信噪比（SNR = -10 dB）下能有效跟踪两个目标，其位置均方根误差（RMSE）比传统确定性贡献TBD基线方法低一个数量级。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及。数据集：论文中提及使用了模拟数据，但未提供生成模拟数据的代码或脚本。 Demo：论文中未提及。复现材料：论文未提供，但详细描述了实验设置和软件环境（Python 3.13.7，使用NumPy 2.3.3，SciPy 1.16.2，FilterPy 1.4.5）。论文中引用的开源项目： FilterPy：论文中提到了使用该库。GitHub 仓库地址：https://github.com/rlabbe/filterpy NumPy：论文中提到了使用该库。GitHub 仓库地址：https://github.com/numpy/numpy SciPy：论文中提到了使用该库。GitHub 仓库地址：https://github.com/scipy/scipy 🏗️ 方法概述和架构本文提出的方法称为“子空间跟踪-检测”（Subspace TBD），其核心架构是在粒子滤波（PF）框架内，用一种新颖的、基于子空间对齐的似然函数替代传统的观测似然函数，以处理被动感知中未知发射信号的问题。方法主要包含以下核心组件和流程： ...

语音/音乐/音频论文速递 2026-05-27

语音/音乐/音频论文速递 2026-05-27 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 12篇 ████████████ #语音识别 6篇 ██████ #音乐转录 2篇 ██ #多模态模型 2篇 ██ #语音编码 2篇 ██ #基准测试 1篇 █ #音频检索 1篇 █ #自监督学习 1篇 █ 📊 论文评分排行榜（39 篇，按分数降序）排名论文评分分档主任务 🥇 Hidden in Plain Tokens: Simply Robust, Gradient-Free Wa 10.0分前25% #语音合成 🥈 Rubato: Transcribing Piano Music with Timestamps 10.0分前10% #音乐转录 🥉 PitchBench: Measuring Pitch Hearing in Audio-Language M 9.7分前25% #基准测试 4. AVBench: Human-Aligned and Automated Evaluation Benchma 9.7分前25% #多模态模型 5. PilotTTS: A Disciplined Modular Recipe for Competitive 9.2分前25% #语音合成 6. MERIT: Learning Disentangled Music Representations for 9.0分前25% #音频检索 7. Learning When to Think While Listening in Large Audio-L 8.9分前25% #语音识别 8. WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Re 8.5分前25% #语音合成 9. CFMDCTCodec: A Low-Bitrate Neural Speech Codec with Noi 8.4分前25% #语音编码 10. Continual Speaker Identity Unlearning with Minimal Inte 8.3分前25% #语音合成 11. Eroding Trust in Real Speech: A Large-Scale Study of Hu 8.2分前50% - 12. Beyond Binary: Speech Representations Across the Cognit 8.1分前50% #自监督学习 13. Ultra-Low-Bitrate Mel-Spectrogram-based Neural Speech C 8.1分前10% #语音编码 14. Decoding Stimulus Reconstruction-Based Auditory Attenti 8.0分前25% - 15. Time Segmented Beamforming via Dynamic Programming: The 8.0分前25% #自适应滤波 16. Can We Hear from Events? Generating Speech from Event C 7.8分前25% #语音合成 17. A Multimodal Framework for Dementia Detection via Lingu 7.7分前50% #多模态模型 18. Test-Time Self-Adaptive Conditioning for Stable Audio-D 7.7分前50% #语音合成 19. Rethinking Continual Learning for Speech and Audio: A R 7.5分前50% #语音识别 20. DuoGesture: Neuro-Inspired and Biomechanically Informed 7.5分前25% #语音合成 21. Music Transcription with (Almost) No Supervision 7.5分前50% #音乐转录 22. LongCat-Video-Avatar 1.5 Technical Report 7.5分前25% #语音合成 23. CosyEdit2: Speech-Editing-Oriented Reinforcement Learni 7.2分前25% #语音编辑 24. Why Can’t They Remember? Uncovering Representation and 7.0分前50% #语音识别 25. cSTMM: A Unified Complex Spherical Student’s \(t\) Mixtur 7.0分前50% #语音分离 26. G-iMUSIC: Greedy Iterative MUSIC Algorithms for Multi-T 6.9分前50% - 27. From Scores to Gibbs Correctors: Accelerating Uniform-R 6.9分前50% #语音合成 28. Proactive for Uncertainty: Cause-Aware Error Diagnosis 6.8分前50% #语音识别 29. FC-TTS: Style and Timbre Control in Zero-Shot Text-to-S 6.5分前50% #语音合成 30. PashtoTTS-Bench: automated screening for low-resource n 6.5分前50% #语音合成 31. Score-Agnostic Structure Analysis in Large-Scale Perfor 6.5分前50% #音乐信息检索 32. Subspace Track-before-Detect for Passive Multi-Target T 6.4分前50% #信号处理基础 33. Toward Natural Emotional Text-To-Speech System with Fin 6.3分前50% #语音合成 34. Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for 6.0分前50% #语音识别 35. LongAV-Compass: Towards Unified Evaluation of Minute-Sc 6.0分前50% #音频生成 36. FalAR: A Large-scale Speaker-Annotated European Portugu 5.5分后50% #语音识别 37. Zero-Shot Parkinson’s Disease Detection from Speech: Co 5.2分后50% #大语言模型 38. Exploration of Perceptual Speech Features for Clinical 5.0分前50% #语音情感识别 39. An investigation of AI integration in sound designer wo 4.6分后50% - 📋 论文列表 🥇 Hidden in Plain Tokens: Simply Robust, Gradient-Free Watermark for Synthetic Audio 🔥 10.0/10 | 前25% | #语音合成 | #概率与图模型 | #语音转换 #生成对抗网络 | arxiv ...