Theory and Application of Circular Relative Harmonic Coefficients

📄 Theory and Application of Circular Relative Harmonic Coefficients #声源定位 #麦克风阵列 #信号处理 #多通道 ✅ 7.5/10 | 前25% | #声源定位 | #麦克风阵列 | #信号处理 #多通道 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Yonggang Hu(National Key Laboratory on Blind Signal Processing, Chengdu, China) 通讯作者:Maoshen Jia(Beijing University of Technology, Beijing, China) 作者列表:Yonggang Hu(National Key Laboratory on Blind Signal Processing, Chengdu, China)、Liang Tao(未说明)、Jing Yu(National Key Laboratory on Blind Signal Processing, Chengdu, China)、Tianpeng Mao(National Key Laboratory on Blind Signal Processing, Chengdu, China)、Maoshen Jia(Beijing University of Technology, Beijing, China) 💡 毒舌点评 亮点:论文的理论推导部分非常扎实,从圆谐波分解出发,清晰地定义了CRHC特征并严谨地证明了其与频率、源信号无关且与方位角一一对应的优美性质,为后续应用提供了坚实的理论基础。短板:实验部分虽然包含了仿真和真实录音,但缺乏与当前更先进的声源定位算法(如基于深度学习的端到端方法、或更复杂的子空间/稀疏恢复方法)的直接对比,仅与基于RTF的简单基线进行比较,这使得其声称的“有效性”说服力打了折扣。此外,论文未提供任何代码或复现材料,对于一个提出新特征的工作来说,这是个明显的缺失。 ...

2026-04-29

Earable Platform with Integrated Simultaneous EEG Sensing and Auditory Stimulation

📄 Earable Platform with Integrated Simultaneous EEG Sensing and Auditory Stimulation #音频事件检测 #信号处理 #多通道 #时频分析 📝 5.5/10 | 后50% | #音频事件检测 | #信号处理 | #多通道 #时频分析 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 -1.0 | 置信度 中 👥 作者与机构 第一作者:Min Suk Lee (UC San Diego, Shu Chien-Gene Lay Department of Bioengineering) 通讯作者:Yuchen Xu (yux013@ucsd.edu), Gert Cauwenberghs (gcauwenberghs@ucsd.edu) 作者列表: Min Suk Lee (UC San Diego, Shu Chien-Gene Lay Department of Bioengineering) Abhinav Uppal (UC San Diego, Shu Chien-Gene Lay Department of Bioengineering) Ananya Thota (UC San Diego, Shu Chien-Gene Lay Department of Bioengineering) Chetan Pathrabe (UC San Diego, Shu Chien-Gene Lay Department of Bioengineering) Rommani Mondal (UC San Diego, Shu Chien-Gene Lay Department of Bioengineering) Akshay Paul (UC San Diego, Institute for Neural Computation) Yuchen Xu (UC San Diego, Institute for Neural Computation) Gert Cauwenberghs (UC San Diego, Shu Chien-Gene Lay Department of Bioengineering; Institute for Neural Computation) 💡 毒舌点评 亮点在于其将定制化耳道模型与Ag/AgCl干电极喷涂技术相结合,显著提升了信号质量和佩戴舒适度,为长期脑电监测提供了实用方案。短板是验证仅限于单个受试者,且其中一个对侧通道表现出显著噪声,这使得“稳健”、“长期”等宣称的普适性大打折扣,更像一个精心调校的原型机演示。 ...

2026-04-27

语音/音频论文速递 2026-04-27

语音/音频论文速递 2026-04-27 共分析 13 篇论文 ⚡ 今日概览 📥 抓取 13 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音乐信息检索 2篇 ██ #语音识别 2篇 ██ #音频生成 1篇 █ #发音错误检测 1篇 █ #说话人识别 1篇 █ #音乐理解 1篇 █ #音频场景理解 1篇 █ #语音质量评估 1篇 █ 📊 论文评分排行榜(13 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 UniSonate: A Unified Model for Speech, Music, and Sound 8.5分 前25% #音频生成 🥈 Beyond Acoustic Sparsity and Linguistic Bias: A Prompt- 8.5分 前25% #发音错误检测 🥉 DM-ASR: Diarization-aware Multi-speaker ASR with Large 8.0分 前25% #说话人识别 4. Transformer-Based Rhythm Quantization of Performance MI 8.0分 前25% #音乐信息检索 5. Audio Effect Estimation with DNN-Based Prediction and S 8.0分 前25% #音乐理解 6. Listening with Time: Precise Temporal Awareness for Lon 8.0分 前25% #音频场景理解 7. TTS-PRISM: A Perceptual Reasoning and Interpretable Spe 7.5分 前25% #语音质量评估 8. Spectrographic Portamento Gradient Analysis: A Quantita 7.5分 前25% #音乐信息检索 9. Advancing automatic speech recognition using feature fu 7.0分 前25% #语音识别 10. Identifying and typifying demographic unfairness in pho 7.0分 前50% #语音识别 11. Full-Duplex Interaction in Spoken Dialogue Systems: A C 6.5分 前25% #语音对话系统 12. Audio Video Verbal Analysis (AVVA) for Capturing Classr 6.0分 前50% #音频问答 13. Earable Platform with Integrated Simultaneous EEG Sensi 5.5分 后50% #音频事件检测 📋 论文列表 🥇 UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions 🔥 8.5/10 | 前25% | #音频生成 | #流匹配 | #扩散模型 #统一音频模型 | arxiv ...

2026-04-27

Comparison of sEMG Encoding Accuracy Across Speech Modes Using Articulatory and Phoneme Features

📄 Comparison of sEMG Encoding Accuracy Across Speech Modes Using Articulatory and Phoneme Features #语音生物标志物 #模型评��� #多通道 #跨模态 ✅ 评分:6.0/10 | arxiv 👥 作者与机构 共同第一作者:Chenqian Le (未明确机构,推断为纽约大学) 共同第一作者:Ruisi Li (未明确机构,推断为纽约大学) 其他作者:Beatrice Fumagalli (未明确机构,推断为纽约大学), Xupeng Chen (未明确机构,推断为纽约大学), Amirhossein Khalilian-Gourtani (未明确机构,推断为纽约大学), Tianyu He (未明确机构,推断为纽约大学), Adeen Flinker (未明确机构,推断为纽约大学), Yao Wang (未明确机构,推断为纽约大学) 通讯作者/机构:论文未明确标注。根据研究内容和作者列表,Adeen Flinker 和 Yao Wang 可能是项目负责人或通讯作者。所有作者均来自纽约大学(New York University),具体实验室/系所未在提供的文本中明确说明。 💡 毒舌点评 亮点:论文把神经科学领域的mTRF和方差分解工具“拿来主义”用在肌肉信号上,思路清晰,实验设计严谨(24个受试者,句子级交叉验证),把“为什么发音特征比音素特征更好”这件事说得明明白白,还画出了漂亮的解剖对应图。 槽点:说到底是在验证一个相当直觉化的猜想(发音动作当然比音素标签更贴近肌肉活动),创新性更多体现在“首次系统验证”而非“提出新方法”。而且,只做了“编码”分析,没做“解码”验证,就像精心证明了菜谱(特征)更好,但没真的做道菜(解码系统)给大家尝尝。 📌 核心摘要 这篇论文旨在为无声言语接口(SSI)选择更优的中间表示目标。研究系统比较了发音特征(SPARC)和传统的音素独热编码,在预测表面肌电(sEMG)信号包络上的表现。核心发现是:1)在出声、默语和次发声三种模式下,SPARC特征的编码准确性均显著优于音素特征;2)出声和默语模式的编码性能相当,次发声模式虽弱但仍显著高于随机水平,证实了无声发音仍可诱发可检测的肌肉活动;3)方差分解显示,SPARC对sEMG方差有显著的独特贡献,而音素特征的独特贡献极小;4)编码权重图揭示了电极位置与特定发音器官(唇、颌、舌)运动之间稳定、可解释的解剖学关联。该研究为构建基于生理对齐表示的、更鲁棒的sEMG-SSI系统提供了重要的实证依据和设计指导。 🏗️ 模型架构 论文采用的核心模型是弹性网络正则化的多元时间响应函数(mTRF)模型,这是一个线性编码模型。 整体流程:目标是用时间滞后的语音特征(X)线性预测某个sEMG通道的信号包络(y)。 输入:对于每个时间点t,模型输入是一个拼接向量,包含当前时刻及之前300ms、之后300ms(共31个时间点,步长20ms)的语音特征。特征可以是SPARC发音特征(12或14维)或音素独热编码(40维)。 模型核心:求解一个带弹性网络正则化(结合L1和L2范数)的线性回归问题。目标函数为:最小化 ||y - X_lag * w||^2 + α * [(1-λ)||w||^2 + λ||w||_1]。其中,w是模型权重,α控制正则化强度,λ控制L1/L2比例。这种正则化有助于防止过拟合和进行特征选择。 输出:训练得到的权重w。用这个权重和新的滞后特征矩阵可以预测sEMG包络。预测性能用预测包络与真实包络的皮尔逊相关系数r衡量。 关键设计:使用弹性网络而非纯LASSO或岭回归,是为了平衡稀疏性和稳定性。时间滞后窗口的选择(±300ms)基于初步实验,确保捕获相关的神经肌肉延迟。 💡 核心创新点 系统性的跨模式、跨表示比较框架:首次在统一的实验范式和评估协议下,系统比较了发音特征(SPARC)与音素特征在三种言语模式(出声、默语、次发声)下的sEMG编码性能。这为无声言语接口的表示选择提供了直接、可比的证据。 引入方差分解进行表示分析:借鉴神经科学方法,使用方差分解量化了SPARC和音素特征对sEMG方差的独特贡献和共享贡献。这超越了简单的性能对比,揭示了SPARC优势的来源(提供音素特征无法捕获的独特生理信息)。 揭示跨模式稳定的解剖特异性:通过分析mTRF权重图,展示了不同sEMG电极通道对特定发音器官运动的敏感性,并且这种对应关系在三种言语模式下保持稳定。这为优化电极放置和理解信号来源提供了生理学依据。 🔬 细节详述 训练数据: 数据集:24名言语正常的参与者。 任务:每人朗读50个来自TIMIT语料库的句子。 重复:每个句子在三种模式(出声、默语、次发声)下各重复3次,共9次/句/人。 sEMG记录:8个通道(Ch1-Ch8),放置于下面部和颈部肌肉。 预处理: sEMG:带通滤波(10-450 Hz),陷波滤波(60 Hz及其谐波)。通过希尔伯特变换提取包络,下采样至50 Hz。 对齐:使用动态时间规整(DTW)将默语/次发声的包络与对应的出声包络对齐,以保持时间对应性。 语音特征提取:所有特征均从对应的出声语音音频中提取。SPARC特征由公开模型生成。音素标签由Montreal Forced Aligner(MFA)获得,并上采样至50 Hz。 损失函数与训练: 损失:弹性网络正则化的最小二乘损失(见公式2)。 优化:使用ADMM(交替方向乘子法)优化,最大迭代10000次,收敛容差1e-9,惩罚参数ρ=0.1。 超参数选择:通过嵌套交叉验证在训练数据上进行网格搜索。α ∈ {1e-3, 1e-2, 1e-1},λ ∈ {0.1, 0.3, 0.5}。最终固定α=1e-2, λ=0.1。 评估: 验证:句子级别交叉验证。 指标:预测包络与真实包络的皮尔逊相关系数r(Fisher z变换后平均)。 统计检验:配对比较使用Wilcoxon符号秩检验,并进行Benjamini-Hochberg FDR校正。机会水平通过置换检验(1000次)确定。 📊 实验结果 主要指标对比(编码性能): SPARC vs. 音素:在几乎所有电极和所有模式下,SPARC的平均预测相关系数r均高于音素特征。例如,在出声模式下,平均r从音素的0.443提升至SPARC的0.455;在默语模式下,从0.346提升至0.364。差异具有统计学显著性(见图2b)。 不同模式比较:出声和默语模式的编码性能(使用SPARC)非常接近,且均远高于机会水平(约0.1)。次发声模式性能较低(例如Ch6约0.2),但仍显著高于机会水平(见图2a)。 通道差异:Ch6(上唇上方)在所有模式下均获得最高的预测准确性(出声0.6,默语0.55)。 方差分解结果: 共享方差主导:大部分可解释方差(r²)是SPARC和音素特征共享的(紫色部分)。 独特贡献差异:SPARC的独特贡献(蓝色部分, r²_unique_A)在所有通道上都显著大于音素的独特贡献(粉色部分, r²_unique_P)。例如,在Ch6,共享方差约0.29,SPARC独特方差约0.06,音素独特方差约0.02(见图3)。 解剖特异性(权重图): 口周通道(Ch5-Ch8):主要受唇部运动特征(如ULX, ULY, LLX, LLY)影响。 颏下通道(Ch1-Ch2):主要受唇部运动影响,其次受下颌(LLY)影响。 喉部/上颈通道(Ch3-Ch4):受下颌和舌部运动共同影响,在无声模式下舌部贡献增加(见图4热图)。 ⚖️ 评分理由 创新性:6/10。创新点在于应用框架和系统分析,而非提出全新的模型或算法。将神经科学的mTRF和方差分解工具引入sEMG表示比较,并设计了严谨的跨模式实验,这一点具有价值。但核心结论(生理特征优于离散标签)符合领域直觉。 实验充分性:8/10。实验设计非常严谨:受试者数量足(24人),采用句子级交叉验证和嵌套超参选择,统计检验完备(FDR校正,置换检验),分析维度全面(性能、方差分解、权重图)。数据呈现清晰。 实用价值:7/10。对构建更鲁棒、可解释的无声言语接口有明确的指导意义,支持采用发音特征作为中间目标。研究结论(如电极-发音器对应关系)对硬件设计(电极布局)有直接参考价值。但研究止步于编码分析,未验证在端到端解码任务中的实际增益。 灌水程度:2/10。论文结构紧凑,聚焦于核心研究问题,没有明显的冗余内容或夸大表述。所有分析都紧密围绕“比较表示”这一目标展开。 🔗 开源详情 代码:论文中未提及作者是否开源本研究使用的代码(如数据处理、mTRF模型训练、方差分解脚本)。 模型权重:论文中使用了开源的SPARC模型(来自Cho et al., 2024),但作者自身工作的模型(训练好的mTRF权重)未提及公开。 数据集:研究使用了自采的sEMG数据集(24人),论文中未提及该数据集是否公开。TIMIT语料库是公开数据集。 预训练权重:不适用。 在线Demo:无。 引用的开源项目:明确提到了ADMM_mTRF(Python实现)和Montreal Forced Aligner (MFA)。 🖼️ 图片与表格 图片保留建议: ...

2026-04-22

语音/音频论文速递 2026-04-22

语音/音频论文速递 2026-04-22 共分析 21 篇论文 ⚡ 今日概览 📥 抓取 21 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 语音识别 5篇 █████ 语音合成 4篇 ████ 基准测试 4篇 ████ 模型评估 4篇 ████ 多语言 3篇 ███ 音频大模型 3篇 ███ 数据增强 3篇 ███ 大语言模型 3篇 ███ 📊 论文评分排行榜(20 篇,按分数降序) 排名 论文 评分 🥇 Qwen3.5-Omni Technical Report 9.5分 🥈 Benign Fine-Tuning Breaks Safety Alignment in Audio LLM 9.5分 🥉 UAF: A Unified Audio Front-end LLM for Full-Duplex Spee 9.0分 4 HalluAudio: A Comprehensive Benchmark for Hallucination 9.0分 5 Voice of India: A Large-Scale Benchmark for Real-World 8.5分 6 BEAT: Tokenizing and Generating Symbolic Music by Unifo 8.5分 7 ATRIE: Adaptive Tuning for Robust Inference and Emotion 8.5分 8 Reducing the Offline-Streaming Gap for Unified ASR Tran 8.0分 9 Deep Supervised Contrastive Learning of Pitch Contours 8.0分 10 Disentangling Damage from Operational Variability: A La 8.0分 11 Text-To-Speech with Chain-of-Details: modeling temporal 7.5分 12 Towards Streaming Target Speaker Extraction via Chunk-w 7.5分 13 APRVOS: 1st Place Winner of 5th PVUW MeViS-Audio Track 7.5分 14 NVBench: A Benchmark for Speech Synthesis with Non-Verb 7.5分 15 Detecting Hallucinations in SpeechLLMs at Inference Tim 7.5分 16 MTR-DuplexBench: Towards a Comprehensive Evaluation of 7.5分 17 Tadabur: A Large-Scale Quran Audio Dataset 7.0分 18 Environmental Sound Deepfake Detection Using Deep-Learn 6.5分 19 Audio Spoof Detection with GaborNet 6.5分 20 Comparison of sEMG Encoding Accuracy Across Speech Mode 6.0分 21 MoVE: Translating Laughter and Tears via Mixture of Voc N/A 📋 论文列表 🥇 Qwen3.5-Omni Technical Report 🔥 9.5分 | #语音合成 #语音识别 #音频大模型 #预训练 | arxiv ...

2026-04-22

Audio Source Separation in Reverberant Environments using $β$-divergence based Nonnegative Factorization

📄 Audio Source Separation in Reverberant Environments using $β$-divergence based Nonnegative Factorization #音频分离 #信号处理 #多通道 #麦克风阵列 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Mahmoud Fakhry(推断为FBK - Fondazione Bruno Kessler,意大利) 通讯作者:Maurizio Omologo(推断为FBK - Fondazione Bruno Kessler,意大利) 其他作者:Piergiorgio Svaizer(推断为FBK - Fondazione Bruno Kessler,意大利) (注:论文摘要未明确列出作者所属机构,以上信息根据常见研究合作模式及作者姓名推断得出。) 💡 毒舌点评 亮点:论文巧妙地将非负矩阵/张量分解(NMF/NTF)与经典的多通道Wiener滤波框架结合,用数据驱动的“先验基矩阵库”替代了传统EM算法中对源方差的迭代估计,思路清晰且有一定新意。 槽点:创新更像是对现有工具(β-散度NTF)的“组合应用”,而非底层算法的突破;摘要中声称“优于其他算法”但未提供任何具体数字支撑,说服力大打折扣,读起来像一份“工作汇报”而非扎实的学术论文。 📌 核心摘要 本文针对混响环境下的多通道音频源分离问题,提出了一种基于β-散度非负因子分解的参数估计新方法。传统方法依赖期望最大化(EM)算法估计源频谱方差和空间协方差矩阵,本文则利用包含源频谱先验信息的基矩阵(可直接提取或从预训练冗余库中获取),通过非负张量分解(NTF)来估计这些参数。该方法通过最小化β-散度并采用乘性更新规则实现因子分解,并可通过调节β值控制分解的稀疏性。实验表明,因子分解的稀疏性(而非β的具体取值)对提升分离性能至关重要。在多种混合条件下的评估显示,该方法能提供优于其他可比算法的分离质量。 🏗️ 模型架构 论文提出的整体流程是一个两阶段方法: 先验信息准备阶段: 输入:目标源的音频数据(用于直接提取)或一个大型的预训练音频频谱基矩阵库。 处理:从目标源数据中提取频谱基矩阵,或从冗余库中通过某种匹配算法(如非负张量分解)检测出最能代表观测混合信号中各源功率谱的基矩阵。 输出:一组频谱基矩阵,作为后续分离的“先验信息”。 源分离阶段: 输入:多通道混响音频混合信号。 核心处理:将问题建模为多通道高斯模型,其中似然函数由源频谱方差和空间协方差矩阵参数化。关键创新在于,这些参数不再通过EM算法迭代估计,而是通过应用非负张量分解(NTF) 来估计。 NTF的目标是将观测到的多通道时频功率谱张量分解为几个因子矩阵的乘积,其中就包含了利用第一阶段得到的频谱基矩阵作为约束或初始化的部分。 分解过程通过最小化β-散度(一种广义的散度度量,包含KL散度、欧氏距离等作为特例)来实现,并使用稳定的乘性更新规则进行优化。 通过调整β的值,可以控制分解结果的稀疏性。 参数估计:NTF的分解结果直接给出了各源的频谱方差估计和对应的空间协方差矩阵估计。 信号分离:利用估计出的参数,应用经典的多通道Wiener滤波,从混合信号中分离出各个源信号。 输出:分离后的各源信号。 通俗理解:想象一下,你有几杯混合了不同果汁(声源)的水(混合录音),并且你有一些纯净果汁的“配方”(频谱基矩阵)。传统方法(EM)是不断试尝混合水,猜测每种果汁的浓度和杯子的形状(空间信息)。本文的方法是,直接用这些“配方”作为模板,去匹配混合水中出现的“味道模式”(功率谱),一旦找到最佳匹配,就能反推出每种果汁的浓度和杯子的形状,最后再把它们分离开。β-散度就像是匹配时使用的“尺子”,不同的尺子(β值)会影响匹配的精细程度(稀疏性)。 💡 核心创新点 用NTF替代EM进行参数估计:将多通道音频分离中关键参数(源方差、空间协方差)的估计问题,从传统的迭代优化(EM)转化为一个基于先验约束的因子分解问题(NTF)。这提供了一种不同的、可能更直接利用源先验知识的参数化途径。 引入频谱基矩阵作为结构化先验:明确地将源的频谱特性以“基矩阵”的形式作为先验信息融入分离过程。这些基矩阵可以是直接从已知源类型中学习得到的,也可以从一个大型通用库中检索得到,增强了模型对已知声源的针对性和可解释性。 利用β-散度的稀疏性控制能力:指出并验证了在所提NTF框架下,通过调节β值来控制因子分解的稀疏性,是提升分离性能的关键因素,而不仅仅是β值本身对散度度量的选择。这为优化分离效果提供了一个实用的调参方向。 🔬 细节详述 训练数据:摘要中未提及用于训练冗余基矩阵库的具体数据集名称、规模或预处理方式。 损失函数:核心是最小化β-散度。其数学形式未在摘要中给出,但通常定义为两个非负矩阵/张量P和Q之间的散度:D_β(P||Q) = (1/(β(β-1))) * (P^β Q^(1-β) - βP + (β-1)Q)。当β→1时退化为KL散度,β=2时为欧氏距离。 训练策略:未提及具体的学习率、batch size等。NTF的优化使用乘性更新规则,这是一种保证非负性的经典迭代算法。 关键超参数:β值是核心超参数,用于控制散度形式和稀疏性。论文强调稀疏性本身是关键。 训练硬件:未提及。 推理细节:推理阶段即为应用训练好的基矩阵库和NTF算法对新的混合信号进行分离,具体流程如模型架构所述。 数据增强/正则化:未明确提及,但通过β值控制的稀疏性可被视为一种正则化手段。 📊 实验结果 主要指标对比:摘要中仅定性声称“提供了优于其他可比算法的分离质量”,未提供任何具体的量化指标数值(如SDR, SIR, SAR等)和对比模型名称。 消融实验:摘要中指出“稀疏性,而不是分配给β的值,对于提高分离性能至关重要”,这暗示了可能进行了关于β值和稀疏性控制的实验,但未给出具体数据。 与SOTA方法的对比:未提供具体对比方法和结果数据。 在不同数据集/条件下的细分结果:提到“在多种混合条件下进行了评估”,但未列出具体条件(如不同混响时间、信噪比、声源数量)和对应的结果数据。 用户研究/主观评价结果:未提及。 ⚖️ 评分理由 创新性:6.5/10 - 创新点在于将NMF/NTF框架与传统多通道分离流程进行特定方式的结合,并强调了稀疏性的作用。这属于应用层面的方法改进和组合创新,而非提出全新的理论或模型。 实验充分性:5.0/10 - 严重不足。摘要部分缺乏任何量化实验数据,使得所有结论(如“优于其他算法”、“稀疏性至关重要”)都成为无本之木,无法评估其真实效果和说服力。这是最大的短板。 实用价值:7.0/10 - 如果方法有效,其利用先验库的思路对于已知声源场景(如会议中的人声、特定机械噪声)的分离具有实际应用潜力。但缺乏实验数据支撑,其实际效能存疑。 灌水程度:6.0/10 - 摘要表述存在“提供更好分离质量”这类缺乏数据支撑的断言,有夸大或空泛之嫌。但方法描述本身逻辑清晰,不算完全无意义。 🔗 开源详情 论文摘要中未提及任何关于代码、模型权重、数据集或在线Demo的开源计划。 ...

2026-04-19

语音/音频论文速递 2026-04-18

语音/音频论文速递 2026-04-18 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #基准测试 11篇 ███████████ #音频理解 10篇 ██████████ #数据集 7篇 ███████ #音频大模型 7篇 ███████ #大语言模型 6篇 ██████ #信号处理 6篇 ██████ #音频生成 5篇 █████ #音频分类 5篇 █████ 🏆 高分论文 TOP 10 排名 论文 评分 🥇 StreamMark: A Deep Learning-Based Semi-Fragile Audio Wa 9.2分 🥈 A Manual Bar-by-Bar Tempo Measurement Protocol for Poly 8.5分 🥉 ClariCodec: Optimising Neural Speech Codes for 200bps C 8.5分 4 UniPASE: A Generative Model for Universal Speech Enhanc 8.5分 5 Who is Speaking or Who is Depressed? A Controlled Study 8.5分 6 SpeakerRPL v2: Robust Open-set Speaker Identification t 8.5分 7 ProSDD: Learning Prosodic Representations for Speech De 8.5分 8 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 8.5分 9 X-VC: Zero-shot Streaming Voice Conversion in Codec Spa 8.5分 10 An Ultra-Low Latency, End-to-End Streaming Speech Synth 8.5分 📄 StreamMark: A Deep Learning-Based Semi-Fragile Audio Watermarking for Proactive Deepfake Detection #音频安全 #音频深度伪造检测 #语音伪造检测 #基准测试 ...

2026-04-18