信号处理 | 语音/音乐/音频论文速递

Voting-Based Pitch Estimation with Temporal and Frequential Alignment and Correlation Aware Selection

📄 Voting-Based Pitch Estimation with Temporal and Frequential Alignment and Correlation Aware Selection #语音识别 #信号处理 #集成学习 #鲁棒性 #时频分析 🔥 8.0/10 | 前25% | #语音识别 | #信号处理 | #集成学习 #鲁棒性学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Junya Koguchi（CyberAgent, Inc.）通讯作者：Junya Koguchi（CyberAgent, Inc.）作者列表：Junya Koguchi（CyberAgent, Inc.）、Tomoki Koriyama（CyberAgent, Inc.） 💡 毒舌点评亮点：将经验性的投票法“黑箱”拆解，从统计学和决策理论角度给出了严谨的方差缩减和多数决正确率证明，理论功底扎实，让工程经验有了数学支撑。短板：提出的“对齐”方案本质上引入了新的依赖（对参考方法的依赖），且在极端噪声下，其精心对齐的多个“弱鸡”集成，终究打不过经过大量数据训练的单个DNN“拳击手”，暴露了传统方法集成路线的根本天花板。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：评估使用了多个公开数据集（Bagshaw, Keele, CMU ARCTIC, PTDB-TUG, MOCHA-TIMIT, MIR-1K, MDB-stem-synth, NOISEX92, QUT-NOISE），但论文未提供其统一获取方式或预处理脚本。 Demo：未提及。复现材料：未给出训练细节、配置文件、检查点或附录。论文中引用的开源项目包括pYIN, DIO, REAPER, Harvest, SWIPE’, Praat, CREPE, FCNF0++, WORLD, UTMOSv2等作为基线或工具。 📌 核心摘要要解决的问题：基频估计中，单个估计器（无论是传统方法还是DNN方法）各有局限，鲁棒性不足。经验性的投票集成法有效但缺乏理论分析，且存在因不同方法分析时间点不同导致的时间对齐偏差，以及计算开销与估计误差相关性影响集成效果的问题。方法核心：提出一个系统框架来改进投票法。核心包括：a) 理论分析：从误差方差缩减和Condorcet陪审团定理角度解释投票法的有效性；b) 预对齐改进：在投票前，通过最大化原始音高准确率（RPA）进行时间轴对齐，并通过计算中位数偏差进行频率轴对齐，纠正不同估计器的系统性偏差；c) 贪心选择算法：设计一种基于估计误差符号相关性的贪心算法，从候选估计器池中选择一个紧凑且误差低相关的子集进行投票，以平衡精度与计算量。与已有方法相比新在哪里：首次为投票法提供系统的理论基础；首次提出在投票前对多个估计器的输出进行时间和频率上的预对齐，解决了实际应用中的一个关键痛点；提出基于误差相关性的方法选择策略，超越了以往随机或经验性的组合方式。主要实验结果：在包含语音、歌声和乐器的多样化数据集上进行实验。在干净条件下，所提带对齐的投票法在均方根频率误差（Δ¢）、原始音高准确率（RPA50）和浊音/清音检测召回率（V/UV Recall）上均优于所有单个SOTA估计器（如表1所示，RPA50达到76.78，V/UV Recall达到94.21）。在噪声条件下（如表2、3），投票法的V/UV检测召回率保持相对稳健，但在极低信噪比（SNR=0dB）下，其频率轨迹精度（RPA50）不如CREPE、FCNF0++等单个DNN方法。方法选择实验证明，基于相关性准则选出的3-5个估计器组合，能接近使用所有估计器的性能（如表4）。实际意义：为语音合成、歌唱分析等需要高精度基频轨迹和稳健V/UV标记的应用提供了一种更可靠、可解释的后处理集成方案。对齐和选择方法具有通用性，可应用于其他需要聚合多个弱预测器输出的场景。主要局限性：a) 预对齐步骤引入了额外的计算开销，并且其性能依赖于参考方法的选择，论文未深入探讨参考方法的最优选取策略；b) 在极端噪声环境下，集成方法的表现仍逊于经过专门训练的单个DNN模型；c) 贪心选择算法依赖于标注数据来计算误差相关性，限制了其在完全无监督场景下的应用。 🏗️ 模型架构本文提出的并非一个端到端的神经网络模型，而是一个信号处理与决策的集成算法流程。其整体架构如下图所示： ...

ZK-VSA: Zero-Knowledge Verifiable Speaker Anonymization Leveraging Phase Vocoder with Time-Scale Modification

📄 ZK-VSA: Zero-Knowledge Verifiable Speaker Anonymization Leveraging Phase Vocoder with Time-Scale Modification #语音匿名化 #零知识证明 #信号处理 #音频安全 #隐私计算 ✅ 7.5/10 | 前25% | #语音匿名化 | #零知识证明 | #信号处理 #音频安全学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Shuang Liang（上海交通大学计算机科学学院）通讯作者：Tao Song（上海交通大学计算机科学学院）， Bin Yao（上海交通大学计算机科学学院）作者列表：Shuang Liang（上海交通大学计算机科学学院）， Yang Hua（英国女王大学电子、电气工程与计算机科学学院）， Peishen Yan（上海交通大学计算机科学学院）， Linshan Jiang（新加坡国立大学数据科学研究所）， Tao Song（上海交通大学计算机科学学院）， Bin Yao（上海交通大学计算机科学学院）， Haibing Guan（上海交通大学计算机科学学院） 💡 毒舌点评论文的亮点在于巧妙地将密码学中的零知识证明与经典的语音信号处理技术结合，为“可验证计算”在语音领域的应用打开了一扇窗，思路新颖且实现扎实。短板在于实验评估稍显单薄，仅验证了单一匿名化算子（PV-TSM）在单一数据集（LibriSpeech）上的效果，且未与其他基于深度学习的语音匿名化或更先进的可验证计算方案进行横向对比，说服力打了折扣。 🔗 开源详情代码：论文中未提及公开的代码仓库链接。仅提供了一个演示页面：https://wizicer.github.io/zkVSA/ 模型权重：未提及。系统不涉及神经网络模型。数据集：使用公开的LibriSpeech数据集，但未提及提供其他专有数据。 Demo：提供了在线演示页面链接：https://wizicer.github.io/zkVSA/ 复现材料：论文详细描述了电路设计算法（Algorithm 1, 2）和实验设置，但未提供完整的代码、训练脚本、超参数配置文件或检查点。复现需要自行实现复杂的SNARK电路。论文中引用的开源项目：引用了gnark框架[18]（用于实现SNARK电路和GKR哈希验证）、Poseidon2哈希[20]、EdDSA签名[22]等。总结：论文中未提及完整的开源计划或提供可直接复现的代码库。 📌 核心摘要解决的问题：现有语音匿名化方法只能隐藏说话人身份，但第三方无法验证所发布的匿名语音是否确实由一个可信的原始录音经过预定义的匿名化处理得到，同时又不能泄露原始信息。这带来了对语音证据完整性和处理过程可信度的担忧。方法核心：提出“可验证语音匿名化”范式，并利用零知识简洁非交互知识证明（ZK-SNARKs）实例化为ZK-VSA系统。核心是将基于相位声码器的时标修改（PV-TSM）匿名化算法编码为SNARK友好的算术电路约束，并结合数字签名和承诺方案，实现既能证明处理过程正确，又不泄露原始语音。与已有方法相比新在哪里：这是首次将可验证计算（特别是零知识证明）系统性地应用于语音匿名化领域。与单纯追求匿名效果或使用水印的方法不同，它提供了密码学意义上的处理过程正确性保证，且不引入额外的音频伪影。主要实验结果：在LibriSpeech测试集上评估。匿名化效果方面，ZK-VSA的等错误率（EER）高于原始语音和浮点PV-TSM，表明其增强了匿名性。可理解性方面，字错率（WER）增加通常低于1%（最高为1.8%）。可验证性方面，证明生成时间随音频帧数线性增长（例如16秒音频约13.43秒），但验证仅需毫秒级（约4毫秒），证明大小固定为292字节。实际意义：为需要审计追踪和隐私保护的语音应用（如法庭取证、隐私敏感数据共享）提供了一种技术解决方案，确保语音处理过程透明、可信且可验证，防止伪造和抵赖。主要局限性：实验仅在单一数据集和单一匿名化算子（变调）上进行验证，未与其他语音匿名化基线或更复杂的场景（如多语言、带噪）进行对比。此外，系统设计假设了可信的录制设备来生成初始签名，这在实际部署中可能是一个挑战。 🏗️ 模型架构该论文提出的ZK-VSA并非传统意义上的深度学习模型，而是一个由密码学证明系统和信号处理算法协同工作的协议系统。 ...

语音/音乐/音频论文速递 2026-04-29

语音/音乐/音频论文速递 2026-04-29 共分析 29 篇论文 ⚡ 今日概览 📥 抓取 29 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #基准测试 4篇 ████ #多模态模型 3篇 ███ #语音情感识别 3篇 ███ #语音识别 3篇 ███ #语音对话系统 2篇 ██ #音乐生成 2篇 ██ #生成模型 1篇 █ #频谱测绘 1篇 █ 📊 论文评分排行榜（28 篇，按分数降序）排名论文评分分档主任务 🥇 Cutscene Agent: An LLM Agent Framework for Automated 3D 8.5分前25% #生成模型 🥈 Accelerating Regularized Attention Kernel Regression fo 8.5分前25% #频谱测绘 🥉 Nemotron 3 Nano Omni: Efficient and Open Multimodal Int 8.5分前25% #多模态模型 4. Step-Audio-R1.5 Technical Report 8.0分前25% #语音对话系统 5. Praxy Voice: Voice-Prompt Recovery + BUPS for Commercia 8.0分前25% #语音合成 6. ML-SAN: Multi-Level Speaker-Adaptive Network for Emotio 8.0分前25% #语音情感识别 7. Unrequited Emotions: Investigating the Gaps in Motivati 8.0分前25% #语音情感识别 8. UNet-Based Fusion and Exponential Moving Average Adapta 7.5分前25% #说话人验证 9. Walking Through Uncertainty: An Empirical Study of Unce 7.5分前25% #音频问答 10. ASAP: An Azimuth-Priority Strip-Based Search Approach t 7.5分前25% #声源定位 11. Mutual Forcing: Dual-Mode Self-Evolution for Fast Autor 7.5分前25% #音频生成 12. SymphonyGen: 3D Hierarchical Orchestral Generation with 7.5分前25% #音乐生成 13. PSP: An Interpretable Per-Dimension Accent Benchmark fo 7.5分前25% #基准测试 14. RAS: a Reliability Oriented Metric for Automatic Speech 7.5分前25% #语音识别 15. Robust Accent Identification via Voice Conversion and N 7.5分前25% #语音识别 16. Independent-Component-Based Encoding Models of Brain Ac 7.5分前25% #神经编码 17. Beyond Isolated Utterances: Cue-Guided Interaction for 7.5分前25% #多模态模型 18. Mitigating Shared-Private Branch Imbalance via Dual-Bra 7.5分前25% #多模态模型 19. MMEB-V3: Measuring the Performance Gaps of Omni-Modalit 7.5分前25% #基准测试 20. Human-1 by Josh Talks: A Full-Duplex Conversational Mod 7.5分前50% #语音对话系统 21. ClawMark: A Living-World Benchmark for Multi-Turn, Mult 7.0分前25% #基准测试 22. The Structured Output Benchmark: A Multi-Source Benchma 7.0分前25% #基准测试 23. WhisperPipe: A Resource-Efficient Streaming Architectur 6.5分前50% #语音识别 24. S-SONDO: Self-Supervised Knowledge Distillation for Gen 6.5分前25% #音频分类 25. Monitoring exposure-length variations in submarine powe 6.5分前50% #音频事件检测 26. Generative UI as an Accessibility Bridge: Lessons from 6.5分前50% #无障碍 27. Korean aegyo speech shows systematic F1 increase to sig 6.0分前50% #语音情感识别 28. Huí Sù: Co-constructing a Dual Feedback Apparatus 5.5分后50% #音乐生成 29 Cross-Linguistic Rhythmic and Spectral Feature-Based An N/A - - 📋 论文列表 🥇 Cutscene Agent: An LLM Agent Framework for Automated 3D Cutscene Generation 🔥 8.5/10 | 前25% | #生成模型 | #大语言模型 | #多模态 #模型评估 | arxiv ...

Comparison of sEMG Encoding Accuracy Across Speech Modes Using Articulatory and Phoneme Features

📄 Comparison of sEMG Encoding Accuracy Across Speech Modes Using Articulatory and Phoneme Features #语音生物标志物 #信号处理 #模型评估 🔥 8.0/10 | 前25% | #语音生物标志物 | #信号处理 | #模型评估 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Chenqian Le（未说明具体机构），Ruisi Li（未说明具体机构）（论文注明共同第一作者）通讯作者：未说明（论文未明确指出通讯作者）作者列表：Chenqian Le（未说明具体机构），Ruisi Li（未说明具体机构），Beatrice Fumagalli（未说明具体机构），Yasamin Esmaeili（未说明具体机构），Xupeng Chen（未说明具体机构），Amirhossein Khalilian-Gourtani（未说明具体机构），Tianyu He（未说明具体机构），Adeen Flinker（未说明具体机构），Yao Wang（未说明具体机构） 💡 毒舌点评亮点：论文巧妙地将神经科学中用于脑信号分析的mTRF和方差分解工具“移植”到肌电领域，为评估语音表征提供了严谨的定量框架，这种跨领域的工具应用思路值得借鉴。短板：研究止步于“编码分析”（即信号如何由刺激解释），而未在真正的“端到端解码”（即从sEMG直接识别语音内容）上验证SPARC优势是否能转化为实际收益，这使得其结论对实际构建无声语音接口的指导意义打了折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了公开的TIMIT语料库和Gaddy数据集，但本研究采集的24名被试的sEMG数据及其处理流程未说明是否公开。 Demo：未提及。复现材料：论文给出了详细的超参数（\(\alpha, \lambda\)，时间窗，DTW参数）、优化算法细节（ADMM）和统计检验方法，但缺乏完整的预处理脚本和数据对齐代码。论文中引用的开源项目： ADMM_mTRF Python库 [9]（用于求解mTRF模型）。 Montreal Forced Aligner (MFA) [12]（用于音素强制对齐）。开源计划：论文中未提及开源计划。 📌 核心摘要问题：为无声语音界面（SSI）选择最佳的中间表示目标是一个挑战。常用的离散音素标签与sEMG信号的肌肉基础关联较弱，而基于声学反演的连续发音特征（如SPARC）可能更自然地与sEMG对齐。方法：本文采用多元时间响应函数（mTRF）和方差分解作为分析工具，比较了SPARC发音特征与音素独热编码在三种说话模式（大声、默念、无声）下，对24名被试面部/颈部sEMG信号的线性编码精度。创新：首次系统性地将SPARC这一发音表征引入sEMG编码分析领域，并与音素表征进行公平对比；运用方差分解量化了SPARC独特的预测贡献；通过mTRF权重图揭示了电极位置与发音器官运动之间稳定的解剖学对应关系。主要实验结果：编码精度：在所有说话模式和几乎所有电极上，SPARC的编码精度（Pearson相关系数）均显著高于音素特征。例如，在Gaddy数据集上，大声语音中平均相关系数从音素的0.443±0.017提升到SPARC的0.455±0.021。模式比较：大声和默念语音的编码精度相当；无声语音的精度虽低于前两者，但显著高于随机水平（p<0.05）。方差分解：SPARC对sEMG信号方差的唯一贡献远大于音素特征的唯一贡献，共享部分占主导。权重图：电极与发音器的对应关系稳定：唇周电极（Ch5-8）主要反映唇部运动；颏下电极（Ch1-2）反映唇部及部分下颌运动；喉部/上颈部电极（Ch3-4）反映下颌和舌头运动。实际意义：支持SPARC作为SSI建模中稳健、可解释的中间目标，其权重图可为可穿戴设备的电极放置提供实用指导。主要局限：研究聚焦于表示编码分析而非端到端解码性能验证；电极数量有限（8通道）；未公开代码与完整数据集，影响可复现性。 🏗️ 模型架构本文的核心并非提出一个端到端的新模型，而是采用并比较了现有的编码分析框架来评估不同语音表征。其整体流程如图1所示。 ...

Predictive Directional Selective Fixed-Filter Active Noise Control for Moving Sources via a Convolutional Recurrent Neural Network

📄 Predictive Directional Selective Fixed-Filter Active Noise Control for Moving Sources via a Convolutional Recurrent Neural Network #声源定位 #卷积循环神经网络 #麦克风阵列 #实时处理 #信号处理 ✅ 7.5/10 | 前25% | #声源定位 | #卷积循环神经网络 | #麦克风阵列 #实时处理 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Boxiang Wang (南洋理工大学电气与电子工程学院，boxiang001@e.ntu.edu.sg) 通讯作者：Zhengding Luo (南洋理工大学电气与电子工程学院，luoz0021@e.ntu.edu.sg) 作者列表：Boxiang Wang (南洋理工大学电气与电子工程学院)、Zhengding Luo* (南洋理工大学电气与电子工程学院)、Dongyuan Shi (西北工业大学智能声学与沉浸式通信中心)、Junwei Ji (西北工业大学智能声学与沉浸式通信中心)、Xiruo Su (西北工业大学智能声学与沉浸式通信中心)、Woon-Seng Gan (南洋理工大学电气与电子工程学院) 💡 毒舌点评这篇论文的亮点在于巧妙地将卷积循环神经网络（CRNN）的“预测”能力引入到方向选择性固定滤波器主动噪声控制（D-SFANC）框架中，通过提前选择滤波器有效解决了运动源跟踪的延迟问题，思路清晰且具有实用性。然而，论文的对比基线略显陈旧（如传统的FxLMS），且实验设置高度简化（单声源、远场假设、固定圆形轨迹），在复杂真实声场（如多声源、强混响、非规则运动）下的鲁棒性尚未得到验证，其宣称的“优越性”仍有局限。 🔗 开源详情代码：论文中提供了代码仓库链接：https://github.com/Wang-Boxiang/PD-SFANC。模型权重：未提及是否公开预训练的CRNN权重。数据集：未提及是否公开训练和测试所用的数据集。论文指出使用了合成数据和UrbanSound8K。 Demo：未提及在线演示。复现材料：论文给出了主要的仿真参数表（表2）和数据集配置描述（表3），但未提供完整的训练细节（如学习率、batch size、优化器参数）、训练硬件信息、或可直接运行的脚本和配置文件。论文中引用的开源项目：论文未明确列出引用的开源项目，但提到了使用图像法进行RIR仿真的工作（diaz2021gpurir）。 📌 核心摘要要解决什么问题：传统的方向选择性固定滤波器主动噪声控制（D-SFANC）方法对非平稳运动噪声源的响应存在延迟，导致降噪性能下降。方法核心是什么：提出一种预测性方向选择性固定滤波器主动噪声控制（PD-SFANC）方法，利用卷积循环神经网络（CRNN）从多帧上下文中提取时空特征，预测下一帧噪声源的到达方向（DoA），并提前选择对应的控制滤波器，实现“主动”降噪。与已有方法相比新在哪里：新在将CRNN的预测能力集成到SFANC框架中，变被动响应为主动选择；相比传统的自适应FxLMS算法，收敛快且无发散风险；相比无预测能力的D-SFANC，解决了滤波器切换延迟；相比依赖传统信号处理的DFG-SFANC，无需人工调参。主要实验结果如何：在恒速和变速运动场景的仿真中，PD-SFANC的平均降噪水平（NRL）稳定在15 dB以上，优于FxLMS、D-SFANC和DFG-SFANC。CRNN在不同混响和信噪比条件下的DoA分类准确率超过87%，在20dB及以上信噪比时超过90%。实际意义是什么：为移动设备（如吸尘器、无人机）产生的噪声提供了一种低延迟、高性能的主动降噪解决方案，其双模块架构（协处理器+实时控制器）适合在资源受限的嵌入式设备上部署。主要局限性是什么：研究基于单声源和远场假设，未验证多声源场景；仿真实验的运动轨迹（圆形）相对简单，未测试更复杂的现实运动模式；CRNN的泛化能力在极端混响和低信噪比下有所下降。 🏗️ 模型架构论文中的系统架构包含两个并行模块：实时控制器和协处理器。整体数据流与交互如下： ...

Spectro-Temporal Modulation Representation Framework for Human-Imitated Speech Detection

📄 Spectro-Temporal Modulation Representation Framework for Human-Imitated Speech Detection #语音伪造检测 #时频分析 #信号处理 #生物声学 ✅ 6.5/10 | 前50% | #语音伪造检测 | #时频分析 | #信号处理 #生物声学 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度低 👥 作者与机构第一作者：Khalid Zaman（日本先进科学技术大学院大学）通讯作者：Masashi Unoki（日本先进科学技术大学院大学）作者列表：Khalid Zaman（日本先进科学技术大学院大学）、Masashi Unoki（日本先进科学技术大学院大学） 💡 毒舌点评这篇论文成功地将听觉通路的建模（从耳蜗到皮层）包装成一个“框架”，并应用于“人类模仿语音检测”这个小众但有趣的任务，达到了接近人类听众的准确率（71% vs. 70%），这是其亮点。然而，其核心“创新”很大程度上是现有特征工程（STM）和听觉模型（GTFB/GCFB）的组合应用，且实验仅在一个规模极小（100个样本）且未公开的数据集上进行，使得其结论的普适性和说服力大打折扣，这是其明显短板。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：论文使用了自定义的“人类模仿语音数据集”，但未说明如何获取或是否公开。 Demo：未提及。复现材料：未提供训练细节、配置、检查点或附录说明。论文中引用的开源项目：未提及依赖的具体开源工具或模型（GTFB和GCFB是标准模型，但论文未引用具体实现库）。总体结论：论文中未提及开源计划。 📌 核心摘要这篇论文旨在解决人类模仿语音（由人自然发出）检测这一比检测AI合成语音更具挑战性的问题，因为模仿语音保留了高度的自然性。其核心方法是提出一种受听觉感知启发的频谱-时间调制（STM）表示框架，该框架分别使用Gammatone（GTFB）和Gammachirp（GCFB）耳蜗滤波器组提取子带信号，并通过希尔伯特变换提取包络后，再进行二维快速傅里叶变换以联合分析频谱和时间维度的调制模式。与已有方法相比，其新颖之处在于：1）系统性地应用了更符合人耳非对称特性的GCFB模型；2）引入了分段STM（Segmental-STM）以捕捉短时时变调制模式；3）将检测任务与人类听觉处理机制更紧密地对齐。主要实验结果表明，在一个包含100个样本的小型数据集上，分段STM（GCFB）特征配合Extra Trees分类器达到了71%的准确率，略高于人类听众70%的准确率，而传统的Mel频谱和音色特征表现较差。该工作的实际意义在于为语音鉴伪提供了一种基于生物启发式特征的新思路。主要局限性是实验所用数据集规模极小且未公开，限制了结果的可靠性和可复现性。 🏗️ 模型架构本文提出的并非一个端到端的深度学习模型，而是一个基于传统信号处理和特征提取的“框架”，用于生成可分类的特征向量。其整体流程如图1所示。输入与听觉滤波：输入语音信号首先通过一个模拟耳蜗功能的听觉滤波器组（GTFB或GCFB）。GTFB是耳蜗频率选择性的一阶近似（64通道，覆盖60Hz-7.6kHz），而GCFB在此基础上进一步模拟了随声级变化的滤波器非对称性。此步骤将宽带信号分解为多个符合临界带结构的子带信号。包络提取：对每个子带信号，通过希尔伯特变换计算其解析信号，取模平方后经低通滤波器（截止频率64Hz）得到功率包络 e_k^2[n]。这模拟了听觉神经对子带信号的缓慢振幅变化的编码。调制分析：全局STM：将所有通道、所有时间点的包络组成一个二维矩阵，进行2D-FFT，取幅度谱得到 STM_GTFB 或 STM_GCFB。这捕捉了整个语音段在频谱调制（SM）和时间调制（TM）上的能量分布。分段STM (Segmental-STM)：为捕捉短时动态，将包络重采样到160Hz后，分割为1秒长、50%重叠的片段（如图2所示）。对每个片段独立进行上述2D-FFT操作，得到 STM_seg(i)，并将所有片段的STM沿时间轴拼接成一个三维张量 STM_seg ∈ R^{K×M×S}。分类：将最终得到的STM特征（展平、标准化后）输入至SVM、KNN或Extra Trees分类器，进行真假语音的二分类。设计选择动机：整个架构的设计动机是模拟从耳蜗到听觉皮层的处理层级（图1），并利用调制域分析来捕捉对人类感知至关重要、但可能被传统频谱特征忽略的动态信息。 ...

语音/音乐/音频论文速递 2026-04-28

语音/音乐/音频论文速递 2026-04-28 共分析 24 篇论文 ⚡ 今日概览 📥 抓取 24 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 2篇 ██ #语音伪造检测 2篇 ██ #音视频 1篇 █ #音频大模型 1篇 █ #语音生物标志物 1篇 █ #语音生成 1篇 █ #语音情感识别 1篇 █ #图神经网络 1篇 █ 📊 论文评分排行榜（24 篇，按分数降序）排名论文评分分档主任务 🥇 Hallo-Live: Real-Time Streaming Joint Audio-Video Avata 8.5分前25% #音视频 🥈 HeadRouter: Dynamic Head-Weight Routing for Task-Adapti 8.0分前25% #音频大模型 🥉 Comparison of sEMG Encoding Accuracy Across Speech Mode 8.0分前25% #语音生物标志物 4. Scaling Properties of Continuous Diffusion Spoken Langu 8.0分前25% #语音生成 5. Psychologically-Grounded Graph Modeling for Interpretab 8.0分前25% #语音情感识别 6. Latent-Hysteresis Graph ODEs: Modeling Coupled Topology 8.0分前25% #图神经网络 7. Meta-Ensemble Learning with Diverse Data Splits for Imp 8.0分前25% #音频分类 8. CineAGI: Character-Consistent Movie Creation through LL 8.0分前25% #跨模态 9. Listening with Time: Precise Temporal Awareness for Lon 8.0分前25% #音频场景理解 10. An event-based sequence modeling approach to recognizin 7.5分前25% #音乐理解 11. Speech Enhancement Based on Drifting Models 7.5分前25% #语音增强 12. Talker-T2AV: Joint Talking Audio-Video Generation with 7.5分前25% #语音合成 13. Explainable AI in Speaker Recognition – Making Latent 7.5分前25% #说话人识别 14. Predictive Directional Selective Fixed-Filter Active No 7.5分前25% #声源定位 15. RAS: a Reliability Oriented Metric for Automatic Speech 7.5分前25% #语音识别 16. Robust Audio-Text Retrieval via Cross-Modal Attention a 7.5分前25% #音频检索 17. RTCFake: Speech Deepfake Detection in Real-Time Communi 7.0分前25% #语音伪造检测 18. MAGIC-TTS: Fine-Grained Controllable Speech Synthesis w 7.0分前25% #语音合成 19. TTS-PRISM: A Perceptual Reasoning and Interpretable Spe 7.0分前25% #语音合成评估 20. All That Glitters Is Not Audio: Rethinking Text Priors 6.5分前50% #音频问答 21. Opening the Design Space: Two Years of Performance with 6.5分前50% #音乐生成 22. Spectro-Temporal Modulation Representation Framework fo 6.5分前50% #语音伪造检测 23. Come Together: Analyzing Popular Songs Through Statisti 6.5分前50% #音乐信息检索 24. A Functorial Formulation of Neighborhood Aggregating De 6.5分前25% #理论分析 📋 论文列表 🥇 Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation 🔥 8.5/10 | 前25% | #音视频 | #扩散模型 | #知识蒸馏 #流式处理 | arxiv ...

Earable Platform with Integrated Simultaneous EEG Sensing and Auditory Stimulation

📄 Earable Platform with Integrated Simultaneous EEG Sensing and Auditory Stimulation #音频事件检测 #信号处理 #多通道 #时频分析 📝 5.5/10 | 后50% | #音频事件检测 | #信号处理 | #多通道 #时频分析 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 -1.0 | 置信度中 👥 作者与机构第一作者：Min Suk Lee (UC San Diego, Shu Chien-Gene Lay Department of Bioengineering) 通讯作者：Yuchen Xu (yux013@ucsd.edu), Gert Cauwenberghs (gcauwenberghs@ucsd.edu) 作者列表： Min Suk Lee (UC San Diego, Shu Chien-Gene Lay Department of Bioengineering) Abhinav Uppal (UC San Diego, Shu Chien-Gene Lay Department of Bioengineering) Ananya Thota (UC San Diego, Shu Chien-Gene Lay Department of Bioengineering) Chetan Pathrabe (UC San Diego, Shu Chien-Gene Lay Department of Bioengineering) Rommani Mondal (UC San Diego, Shu Chien-Gene Lay Department of Bioengineering) Akshay Paul (UC San Diego, Institute for Neural Computation) Yuchen Xu (UC San Diego, Institute for Neural Computation) Gert Cauwenberghs (UC San Diego, Shu Chien-Gene Lay Department of Bioengineering; Institute for Neural Computation) 💡 毒舌点评亮点在于其将定制化耳道模型与Ag/AgCl干电极喷涂技术相结合，显著提升了信号质量和佩戴舒适度，为长期脑电监测提供了实用方案。短板是验证仅限于单个受试者，且其中一个对侧通道表现出显著噪声，这使得“稳健”、“长期”等宣称的普适性大打折扣，更像一个精心调校的原型机演示。 ...

语音/音乐/音频论文速递 2026-04-27

语音/音乐/音频论文速递 2026-04-27 共分析 13 篇论文 ⚡ 今日概览 📥 抓取 13 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音乐信息检索 2篇 ██ #语音识别 2篇 ██ #音频生成 1篇 █ #发音错误检测 1篇 █ #说话人识别 1篇 █ #音乐理解 1篇 █ #音频场景理解 1篇 █ #语音质量评估 1篇 █ 📊 论文评分排行榜（13 篇，按分数降序）排名论文评分分档主任务 🥇 UniSonate: A Unified Model for Speech, Music, and Sound 8.5分前25% #音频生成 🥈 Beyond Acoustic Sparsity and Linguistic Bias: A Prompt- 8.5分前25% #发音错误检测 🥉 DM-ASR: Diarization-aware Multi-speaker ASR with Large 8.0分前25% #说话人识别 4. Transformer-Based Rhythm Quantization of Performance MI 8.0分前25% #音乐信息检索 5. Audio Effect Estimation with DNN-Based Prediction and S 8.0分前25% #音乐理解 6. Listening with Time: Precise Temporal Awareness for Lon 8.0分前25% #音频场景理解 7. TTS-PRISM: A Perceptual Reasoning and Interpretable Spe 7.5分前25% #语音质量评估 8. Spectrographic Portamento Gradient Analysis: A Quantita 7.5分前25% #音乐信息检索 9. Advancing automatic speech recognition using feature fu 7.0分前25% #语音识别 10. Identifying and typifying demographic unfairness in pho 7.0分前50% #语音识别 11. Full-Duplex Interaction in Spoken Dialogue Systems: A C 6.5分前25% #语音对话系统 12. Audio Video Verbal Analysis (AVVA) for Capturing Classr 6.0分前50% #音频问答 13. Earable Platform with Integrated Simultaneous EEG Sensi 5.5分后50% #音频事件检测 📋 论文列表 🥇 UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions 🔥 8.5/10 | 前25% | #音频生成 | #流匹配 | #扩散模型 #统一音频模型 | arxiv ...

Dilated CNNs for Periodic Signal Processing: A Low-Complexity Approach

📄 Dilated CNNs for Periodic Signal Processing: A Low-Complexity Approach #语音增强 #信号处理 #低资源 #实时处理 ✅ 6.5/10 | 前50% | #语音增强 | #信号处理 | #低资源 #实时处理 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：未说明通讯作者：未说明作者列表：Eli Gildish（未说明）， Michael Grebshtein（未说明）， Igor Makienko（未说明） 💡 毒舌点评论文的亮点在于其明确的工程导向，即为资源受限环境（如边缘设备、嵌入式系统）设计一种低复杂度、高效率的周期性信号处理方案，其“重采样+复用网络”的思路具有一定的实用巧思。然而，最大的短板在于摘要中完全没有提供任何具体的实验数据、对比基线或性能指标，使得“性能相当”的结论缺乏说服力，也让人无法判断其创新的实际分量。 🔗 开源详情根据提供的论文摘要内容：代码：论文中未提及代码链接。模型权重：未提及。数据集：未提及。 Demo：未提及。复现材料：未提及训练细节、配置、检查点或附录说明。论文中引用的开源项目：摘要中未提及。总结：论文中未提及任何开源计划。 📌 核心摘要问题：周期性信号（如语音、音乐、医疗信号）的去噪和波形估计是信号处理的核心任务。现有深度学习方法计算开销大，且通常需要为每个新信号单独训练模型，不适用于资源受限场景。方法核心：提出一种名为R-DCNN的轻量级方法。其核心思想是利用重采样技术，将不同基频的信号在时间尺度上对齐，从而能够复用同一个预训练的扩张卷积神经网络（DCNN）的权重，无需为每个新信号重新训练。创新点：该方法实现了“单样本训练，多信号泛化”。通过轻量的重采样步骤，使得一个训练好的网络可以处理不同基频的信号，同时保持了较低的计算复杂度。主要实验结果：论文摘要中声称，R-DCNN在性能上与自回归（AR）等经典方法以及为每个观测单独训练的传统DCNN相当。但摘要中未提供任何具体的数值结果、对比表格或图表。实际意义：该方法特别适合部署在功耗和计算资源严格受限的环境中（如物联网设备、便携式医疗仪器、嵌入式传感器），能够在不牺牲精度的前提下实现高效的信号去噪与估计。主要局限性：根据摘要信息，其主要局限性在于：a) 缺乏具体的实验验证细节，无法评估其声称的“性能相当”是否在各种条件下成立；b) 方法的有效性可能高度依赖于信号周期性的假设和重采样步骤的精度。 🏗️ 模型架构根据摘要描述，R-DCNN的整体架构包含两个核心部分：重采样模块和扩张卷积神经网络（DCNN）。 ...