Subspace Hybrid Adaptive Filtering for Phonocardiogram Signal Denoising

📄 Subspace Hybrid Adaptive Filtering for Phonocardiogram Signal Denoising #心音信号 #信号处理 #自适应滤波 #音频增强 #时频分析 ✅ 7.0/10 | 前50% | #音频增强 | #信号处理 | #心音信号 #自适应滤波 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Wageesha N. Manamperi (University of Moratuwa, Sri Lanka, Department of Electronic & Telecommunication Engineering) 通讯作者:论文中未明确标注通讯作者 作者列表:Wageesha N. Manamperi (University of Moratuwa, Sri Lanka, Department of Electronic & Telecommunication Engineering; Audio & Acoustic Signal Processing Group, Australian National University, Australia), Thushara D. Abhayapala (Audio & Acoustic Signal Processing Group, Australian National University, Australia) 💡 毒舌点评 亮点在于将经典的NLMS、GMM维纳滤波与多通道PCA子空间方法进行“混搭”,形成一个两阶段流水线,逻辑清晰且有实验验证,为传统信号处理方法在心音降噪领域的应用提供了新思路。短板是其核心创新(两阶段串联)更偏向于工程组合而非理论突破,且代码与训练细节完全未公开,对于希望复现或深入理解参数影响的读者极不友好,削弱了论文的实际影响力。 ...

2026-04-29

Synchronous Secondary Path Modeling and Kronecker-Factorized Adaptive Algorithm for Multichannel Active Noise Control

📄 Synchronous Secondary Path Modeling and Kronecker-Factorized Adaptive Algorithm for Multichannel Active Noise Control #主动噪声控制 #Kronecker分解 #信号处理 #多通道 #实时处理 ✅ 7.0/10 | 前25% | #主动噪声控制 | #Kronecker分解 #信号处理 | #Kronecker分解 #信号处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Siyuan Lian(南京大学现代声学实验室,南京大学-蔚来智能音频实验室) 通讯作者:未说明 作者列表:Siyuan Lian(南京大学现代声学实验室,南京大学-蔚来智能音频实验室)、Lu Bai(南京大学现代声学实验室,南京大学-蔚来智能音频实验室)、Tianyou Li(南京大学现代声学实验室,南京大学-蔚来智能音频实验室)、Kai Chen(南京大学)、Jing Lu(南京大学现代声学实验室,南京大学-蔚来智能音频实验室) 💡 毒舌点评 这篇论文的亮点在于将Kronecker分解(KPD)这一经典工具巧妙地“移植”到多通道ANC的次级路径建模中,利用声学路径天然的低秩特性实现了“又快又准”的同步建模,思路清晰且实验验证扎实。然而,其短板在于对“低秩性”这一核心假设的普适性讨论略显不足,且在实际系统部署中如何动态选择最优秩P值缺乏指导,使得该方法更像是一个针对特定场景(空间相关性强)的优化,而非普适的解决方案。 📌 核心摘要 要解决的问题:在多通道主动噪声控制(ANC)系统中,传统顺序建模方法耗时过长,而同步建模方法(如Wiener滤波)又因高维矩阵求逆导致计算复杂度过高,难以在大规模系统中实时应用。 方法核心:提出一种基于Kronecker乘积分解(KPD)的同步次级路径建模方法,利用次级路径矩阵的低秩特性,将高维路径向量分解为两个低维因子的乘积,通过迭代交替求解这两个因子来实现快速、低复杂度的建模。在此基础上,进一步开发了Kronecker分解滤波参考最小均方(KF-FxLMS)算法,直接利用分解后的因子计算滤波参考信号,避免重建完整路径响应,再次降低自适应更新阶段的计算量。 创新之处:将KPD引入多通道ANC的次级路径建模领域,相比传统Wiener同步方法,将计算复杂度从O((CJ)^3)降低至O((PCJ₁)^3) + O((PJ₂)^3)(其中P为低秩近似阶数,远小于CJ),并在建模后阶段通过KF-FxLMS将滤波计算复杂度从O(CJ)降低至O(PCJ₁ + PJ₂)。论文通过实验验证了在实际房间环境中,次级路径矩阵确实具有低秩特性。 主要实验结果:在1×8×8的ANC系统(8个控制源,8个误差麦克风)中,所提KPD方法仅需1秒建模信号即可达到低于-20 dB的归一化建模误差(NME),而传统Wiener同步方法在同样1秒数据下误差高达-8.5 dB。使用该快速建模结果(P=5)进行降噪,其性能(降噪18.7 dB)与使用5秒精确建模的Wiener方法相当,且远优于1秒Wiener方法(降噪14.3 dB)。具体NME对比见下表: 建模方法 建模信号长度 P值 NME (dB) Wiener (同步) 1 秒 - -8.5 KPD (同步) 1 秒 2 -19.7 KPD (同步) 1 秒 5 -25.3 KPD (同步) 1 秒 8 -27.1 Wiener (同步) 5 秒 - -50.1 KPD (同步) 5 秒 2 -21.4 KPD (同步) 5 秒 5 -30.6 KPD (同步) 5 秒 8 -39.5 实际意义:为大规模、多通道的ANC系统(如虚拟声屏障、汽车座舱降噪)提供了一种兼顾建模速度、精度和计算效率的实用解决方案,使其更易于在资源受限的实时平台上部署。 主要局限性:方法的有效性严重依赖次级路径矩阵的低秩假设,其普适性在不同声学环境下有待进一步验证。此外,论文未讨论如何自动或自适应地选择最优秩P,P值的选取对性能有显著影响。 🏗️ 模型架构 该论文描述的是一个完整的多通道ANC系统,其核心流程与架构如下: ...

2026-04-29

Testing The Efficient Coding Hypothesis Beyond Humans: The Auditory Kernels of Bat Vocalizations

📄 Testing The Efficient Coding Hypothesis Beyond Humans: The Auditory Kernels of Bat Vocalizations #生物声学 #稀疏编码 #信号处理 #音频分类 ✅ 7.5/10 | 前25% | #生物声学 | #稀疏编码 | #信号处理 #音频分类 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明 通讯作者:未说明 作者列表:Aleksandra Savova(代尔夫特理工大学电气工程、数学与计算机科学学院)、Dimme de Groot(代尔夫特理工大学电气工程、数学与计算机学院)、Jorge Martinez(代尔夫特理工大学电气工程、数学与计算机学院) 💡 毒舌点评 亮点:方法新颖,首次将稀疏编码(Matching Pursuit)应用于蝙蝠回声定位信号的“听觉核”分析,成功提取出与叫声结构(CF-FM)高度对应的功能特化表示,为“高效编码假说”跨越物种边界提供了有力的计算证据。短板:结论的生物学说服力受限于缺乏真实的蝙蝠听觉神经生理数据(如revcor函数)作为验证基准,目前只能证明叫声结构本身“适合”被稀疏编码,而非“证实”蝙蝠大脑正是如此编码。 📌 核心摘要 问题:高效编码假说(生物感知系统最大化信息传输并最小化神经消耗)在人类语音中得到验证,但其在非人类(特别是依赖复杂回声定位的蝙蝠)听觉感知中的作用尚不明确。 方法:采用基于匹配追踪(Matching Pursuit)的稀疏编码方法,以大菊头蝠(Rhinolophus affinis)的回声定位叫声为数据,通过数据驱动学习得到一组“听觉核”字典,并分析其特性。 创新:与以往使用黑盒模型研究蝙蝠声音不同,本研究专注于从叫声结构本身出发,在早期听觉处理层面(独立于高级神经处理)检验其是否内禀地优化了稀疏表示。 结果:学习到的核具有紧凑、稀疏和功能专化的特点。它们能高效重建叫声(例如,图1显示200个激活即可达到SNR 20.62 dB),且核的激活模式能编码叫声特定形状。定量比较显示,对于R. affinis叫声,该方法的比特率-保真度(SNR)优于傅里叶和小波变换(图4)。聚类分析(27类)揭示了叫声多样性,包括主要谐波结构、伪影和窄CF成分(图6)。所有稀疏度指标(Gini指数≈0.99)均很高。 意义:为动物发声信号的计算建模提供了基础,支持未来在解码动物声音和跨物种通信领域的研究。证明了高效表示可以从非人类发声中涌现,且哺乳动物的听觉编码策略可能具有共享的进化基础。 局限:缺乏生物学验证数据(如蝙蝠听觉神经元的调谐特性)。聚类结果缺乏生物学标签进行验证。跨物种泛化性有限(对近缘种R. pearsonii效果较差)。 🏗️ 模型架构 论文未采用传统的深度神经网络,其“模型”是基于稀疏编码框架(图1)构建的。整体流程如下: ...

2026-04-29

Theory and Application of Circular Relative Harmonic Coefficients

📄 Theory and Application of Circular Relative Harmonic Coefficients #声源定位 #麦克风阵列 #信号处理 #多通道 ✅ 7.5/10 | 前25% | #声源定位 | #麦克风阵列 | #信号处理 #多通道 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Yonggang Hu(National Key Laboratory on Blind Signal Processing, Chengdu, China) 通讯作者:Maoshen Jia(Beijing University of Technology, Beijing, China) 作者列表:Yonggang Hu(National Key Laboratory on Blind Signal Processing, Chengdu, China)、Liang Tao(未说明)、Jing Yu(National Key Laboratory on Blind Signal Processing, Chengdu, China)、Tianpeng Mao(National Key Laboratory on Blind Signal Processing, Chengdu, China)、Maoshen Jia(Beijing University of Technology, Beijing, China) 💡 毒舌点评 亮点:论文的理论推导部分非常扎实,从圆谐波分解出发,清晰地定义了CRHC特征并严谨地证明了其与频率、源信号无关且与方位角一一对应的优美性质,为后续应用提供了坚实的理论基础。短板:实验部分虽然包含了仿真和真实录音,但缺乏与当前更先进的声源定位算法(如基于深度学习的端到端方法、或更复杂的子空间/稀疏恢复方法)的直接对比,仅与基于RTF的简单基线进行比较,这使得其声称的“有效性”说服力打了折扣。此外,论文未提供任何代码或复现材料,对于一个提出新特征的工作来说,这是个明显的缺失。 ...

2026-04-29

Time-Domain Synthesis of Virtual Sound Source Within Personalized Sound Zone using a Linear Loudspeaker Array

📄 Time-Domain Synthesis of Virtual Sound Source Within Personalized Sound Zone using a Linear Loudspeaker Array #空间音频 #信号处理 #实时处理 #麦克风阵列 #波束成形 🔥 8.0/10 | 前25% | #空间音频 | #信号处理 | #实时处理 #麦克风阵列 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yuta Goshima (The University of Electro-Communications) 通讯作者:Yoichi Haneda (The University of Electro-Communications) 作者列表:Yuta Goshima (The University of Electro-Communications), Yoichi Haneda (The University of Electro-Communications) 💡 毒舌点评 亮点:论文将经典的稳相近似方法应用于声场合成的逆问题,推导出可逐样本更新的时域解析解,巧妙地绕开了基于DFT的帧处理限制,实现了虚拟声源位置、声音区域位置和宽度的“像素级”实时动态调整,这在理论优雅性和工程实用性上都值得称赞。 短板:方法的控制力严格局限于预设的参考线附近,论文中也承认“远离参考线的区域未被显式控制”,且高频性能受限于扬声器阵列的空间混叠,这限制了其在要求全空间精确控制的复杂场景中的应用潜力。 ...

2026-04-29

Utilizing Information Theoretic Approach to Study Cochlear Neural Degeneration

📄 Utilizing Information Theoretic Approach to Study Cochlear Neural Degeneration #生物声学 #信息论 #模型评估 #信号处理 ✅ 6.5/10 | 前50% | #生物声学 | #信息论 | #模型评估 #信号处理 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Ahsan Jamal Cheema (Harvard University, Speech and Hearing Bioscience and Technology Program; Eaton-Peabody Laboratories, Massachusetts Eye and Ear) 通讯作者:未说明 作者列表:Ahsan Jamal Cheema (Harvard University, Speech and Hearing Bioscience and Technology Program; Eaton-Peabody Laboratories, Massachusetts Eye and Ear)、Sunil Puria (Harvard University, Speech and Hearing Bioscience and Technology Program; Eaton-Peabody Laboratories, Massachusetts Eye and Ear) 💡 毒舌点评 本文提出了一套新颖的基于信息论的框架来客观评估不同语音刺激对揭示“隐性听力损失”(耳蜗神经退化,CND)的有效性,其核心思想——利用互信息损失量化信息编码退化——在概念上清晰且具有理论价值。然而,该研究完全基于一个现成的听觉外周模型进行模拟,缺乏任何真实的人体行为实验或电生理数据的直接验证,使得结论停留在计算层面,其临床诊断意义的说服力大打折扣;此外,实验所用的语料库(50个CVC词)和听力损失模型都较为单一,限制了结论的普适性。 ...

2026-04-29

Vib2Sound: Separation Of Multimodal Sound Sources

📄 Vib2Sound: Separation Of Multimodal Sound Sources #语音分离 #生物声学 #麦克风阵列 #信号处理 ✅ 6.5/10 | 前50% | #语音分离 | #麦克风阵列 | #生物声学 #信号处理 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Mai Akahoshi (ETH Zurich and University of Zurich, Institute of Neuroinformatics) 通讯作者:Richard H. R. Hahnloser (makahoshi@ethz.ch, {yuhang, zaia, rich}@ini.ethz.ch, 从邮箱和星号标注判断,Hahnloser 和 Zai 为共同资深作者) 作者列表:Mai Akahoshi (ETH Zurich and University of Zurich, Institute of Neuroinformatics & Neuroscience Center Zurich), Yuhang Wang (同上), Longbiao Cheng (ETH Zurich and University of Zurich, Institute of Neuroinformatics), Anja T. Zai (同上), Richard H. R. Hahnloser (同上) 💡 毒舌点评 亮点:论文巧妙地将动物佩戴的加速度计信号作为个体身份“锚点”,解决了同种动物发声高度相似导致麦克风阵列分离失效的核心难题,在生物声学领域思路清晰且有效。短板:模型架构是对现有VoiceFilter框架的简单适配与修改,创新深度有限;研究场景(斑胸草雀)和数据集较为垂直,对主流音频/语音处理社区的普适性启发可能不足。 ...

2026-04-29

Voting-Based Pitch Estimation with Temporal and Frequential Alignment and Correlation Aware Selection

📄 Voting-Based Pitch Estimation with Temporal and Frequential Alignment and Correlation Aware Selection #语音识别 #信号处理 #集成学习 #鲁棒性 #时频分析 🔥 8.0/10 | 前25% | #语音识别 | #信号处理 | #集成学习 #鲁棒性 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Junya Koguchi(CyberAgent, Inc.) 通讯作者:Junya Koguchi(CyberAgent, Inc.) 作者列表:Junya Koguchi(CyberAgent, Inc.)、Tomoki Koriyama(CyberAgent, Inc.) 💡 毒舌点评 亮点: 将经验性的投票法“黑箱”拆解,从统计学和决策理论角度给出了严谨的方差缩减和多数决正确率证明,理论功底扎实,让工程经验有了数学支撑。 短板: 提出的“对齐”方案本质上引入了新的依赖(对参考方法的依赖),且在极端噪声下,其精心对齐的多个“弱鸡”集成,终究打不过经过大量数据训练的单个DNN“拳击手”,暴露了传统方法集成路线的根本天花板。 📌 核心摘要 要解决的问题:基频估计中,单个估计器(无论是传统方法还是DNN方法)各有局限,鲁棒性不足。经验性的投票集成法有效但缺乏理论分析,且存在因不同方法分析时间点不同导致的时间对齐偏差,以及计算开销与估计误差相关性影响集成效果的问题。 方法核心:提出一个系统框架来改进投票法。核心包括:a) 理论分析:从误差方差缩减和Condorcet陪审团定理角度解释投票法的有效性;b) 预对齐改进:在投票前,通过最大化原始音高准确率(RPA)进行时间轴对齐,并通过计算中位数偏差进行频率轴对齐,纠正不同估计器的系统性偏差;c) 贪心选择算法:设计一种基于估计误差符号相关性的贪心算法,从候选估计器池中选择一个紧凑且误差低相关的子集进行投票,以平衡精度与计算量。 与已有方法相比新在哪里:首次为投票法提供系统的理论基础;首次提出在投票前对多个估计器的输出进行时间和频率上的预对齐,解决了实际应用中的一个关键痛点;提出基于误差相关性的方法选择策略,超越了以往随机或经验性的组合方式。 主要实验结果:在包含语音、歌声和乐器的多样化数据集上进行实验。在干净条件下,所提带对齐的投票法在均方根频率误差(Δ¢)、原始音高准确率(RPA50)和浊音/清音检测召回率(V/UV Recall)上均优于所有单个SOTA估计器(如表1所示,RPA50达到76.78,V/UV Recall达到94.21)。在噪声条件下(如表2、3),投票法的V/UV检测召回率保持相对稳健,但在极低信噪比(SNR=0dB)下,其频率轨迹精度(RPA50)不如CREPE、FCNF0++等单个DNN方法。方法选择实验证明,基于相关性准则选出的3-5个估计器组合,能接近使用所有估计器的性能(如表4)。 实际意义:为语音合成、歌唱分析等需要高精度基频轨迹和稳健V/UV标记的应用提供了一种更可靠、可解释的后处理集成方案。对齐和选择方法具有通用性,可应用于其他需要聚合多个弱预测器输出的场景。 主要局限性:a) 预对齐步骤引入了额外的计算开销,并且其性能依赖于参考方法的选择,论文未深入探讨参考方法的最优选取策略;b) 在极端噪声环境下,集成方法的表现仍逊于经过专门训练的单个DNN模型;c) 贪心选择算法依赖于标注数据来计算误差相关性,限制了其在完全无监督场景下的应用。 🏗️ 模型架构 本文提出的并非一个端到端的神经网络模型,而是一个信号处理与决策的集成算法流程。其整体架构如下图所示: ...

2026-04-29

ZK-VSA: Zero-Knowledge Verifiable Speaker Anonymization Leveraging Phase Vocoder with Time-Scale Modification

📄 ZK-VSA: Zero-Knowledge Verifiable Speaker Anonymization Leveraging Phase Vocoder with Time-Scale Modification #语音匿名化 #零知识证明 #信号处理 #音频安全 #隐私计算 ✅ 7.5/10 | 前25% | #语音匿名化 | #零知识证明 | #信号处理 #音频安全 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Shuang Liang(上海交通大学计算机科学学院) 通讯作者:Tao Song(上海交通大学计算机科学学院), Bin Yao(上海交通大学计算机科学学院) 作者列表:Shuang Liang(上海交通大学计算机科学学院), Yang Hua(英国女王大学电子、电气工程与计算机科学学院), Peishen Yan(上海交通大学计算机科学学院), Linshan Jiang(新加坡国立大学数据科学研究所), Tao Song(上海交通大学计算机科学学院), Bin Yao(上海交通大学计算机科学学院), Haibing Guan(上海交通大学计算机科学学院) 💡 毒舌点评 论文的亮点在于巧妙地将密码学中的零知识证明与经典的语音信号处理技术结合,为“可验证计算”在语音领域的应用打开了一扇窗,思路新颖且实现扎实。短板在于实验评估稍显单薄,仅验证了单一匿名化算子(PV-TSM)在单一数据集(LibriSpeech)上的效果,且未与其他基于深度学习的语音匿名化或更先进的可验证计算方案进行横向对比,说服力打了折扣。 📌 核心摘要 解决的问题:现有语音匿名化方法只能隐藏说话人身份,但第三方无法验证所发布的匿名语音是否确实由一个可信的原始录音经过预定义的匿名化处理得到,同时又不能泄露原始信息。这带来了对语音证据完整性和处理过程可信度的担忧。 方法核心:提出“可验证语音匿名化”范式,并利用零知识简洁非交互知识证明(ZK-SNARKs)实例化为ZK-VSA系统。核心是将基于相位声码器的时标修改(PV-TSM)匿名化算法编码为SNARK友好的算术电路约束,并结合数字签名和承诺方案,实现既能证明处理过程正确,又不泄露原始语音。 与已有方法相比新在哪里:这是首次将可验证计算(特别是零知识证明)系统性地应用于语音匿名化领域。与单纯追求匿名效果或使用水印的方法不同,它提供了密码学意义上的处理过程正确性保证,且不引入额外的音频伪影。 主要实验结果:在LibriSpeech测试集上评估。匿名化效果方面,ZK-VSA的等错误率(EER)高于原始语音和浮点PV-TSM,表明其增强了匿名性。可理解性方面,字错率(WER)增加通常低于1%(最高为1.8%)。可验证性方面,证明生成时间随音频帧数线性增长(例如16秒音频约13.43秒),但验证仅需毫秒级(约4毫秒),证明大小固定为292字节。 实际意义:为需要审计追踪和隐私保护的语音应用(如法庭取证、隐私敏感数据共享)提供了一种技术解决方案,确保语音处理过程透明、可信且可验证,防止伪造和抵赖。 主要局限性:实验仅在单一数据集和单一匿名化算子(变调)上进行验证,未与其他语音匿名化基线或更复杂的场景(如多语言、带噪)进行对比。此外,系统设计假设了可信的录制设备来生成初始签名,这在实际部署中可能是一个挑战。 🏗️ 模型架构 该论文提出的ZK-VSA并非传统意义上的深度学习模型,而是一个由密码学证明系统和信号处理算法协同工作的协议系统。 ...

2026-04-29

语音/音频论文速递 2026-04-29

语音/音频论文速递 2026-04-29 共分析 29 篇论文 ⚡ 今日概览 📥 抓取 29 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #基准测试 4篇 ████ #多模态模型 3篇 ███ #语音情感识别 3篇 ███ #语音识别 3篇 ███ #语音对话系统 2篇 ██ #音乐生成 2篇 ██ #生成模型 1篇 █ #频谱测绘 1篇 █ 📊 论文评分排行榜(28 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Cutscene Agent: An LLM Agent Framework for Automated 3D 8.5分 前25% #生成模型 🥈 Accelerating Regularized Attention Kernel Regression fo 8.5分 前25% #频谱测绘 🥉 Nemotron 3 Nano Omni: Efficient and Open Multimodal Int 8.5分 前25% #多模态模型 4. Step-Audio-R1.5 Technical Report 8.0分 前25% #语音对话系统 5. Praxy Voice: Voice-Prompt Recovery + BUPS for Commercia 8.0分 前25% #语音合成 6. ML-SAN: Multi-Level Speaker-Adaptive Network for Emotio 8.0分 前25% #语音情感识别 7. Unrequited Emotions: Investigating the Gaps in Motivati 8.0分 前25% #语音情感识别 8. UNet-Based Fusion and Exponential Moving Average Adapta 7.5分 前25% #说话人验证 9. Walking Through Uncertainty: An Empirical Study of Unce 7.5分 前25% #音频问答 10. ASAP: An Azimuth-Priority Strip-Based Search Approach t 7.5分 前25% #声源定位 11. Mutual Forcing: Dual-Mode Self-Evolution for Fast Autor 7.5分 前25% #音频生成 12. SymphonyGen: 3D Hierarchical Orchestral Generation with 7.5分 前25% #音乐生成 13. PSP: An Interpretable Per-Dimension Accent Benchmark fo 7.5分 前25% #基准测试 14. RAS: a Reliability Oriented Metric for Automatic Speech 7.5分 前25% #语音识别 15. Robust Accent Identification via Voice Conversion and N 7.5分 前25% #语音识别 16. Independent-Component-Based Encoding Models of Brain Ac 7.5分 前25% #神经编码 17. Beyond Isolated Utterances: Cue-Guided Interaction for 7.5分 前25% #多模态模型 18. Mitigating Shared-Private Branch Imbalance via Dual-Bra 7.5分 前25% #多模态模型 19. MMEB-V3: Measuring the Performance Gaps of Omni-Modalit 7.5分 前25% #基准测试 20. Human-1 by Josh Talks: A Full-Duplex Conversational Mod 7.5分 前50% #语音对话系统 21. ClawMark: A Living-World Benchmark for Multi-Turn, Mult 7.0分 前25% #基准测试 22. The Structured Output Benchmark: A Multi-Source Benchma 7.0分 前25% #基准测试 23. WhisperPipe: A Resource-Efficient Streaming Architectur 6.5分 前50% #语音识别 24. S-SONDO: Self-Supervised Knowledge Distillation for Gen 6.5分 前25% #音频分类 25. Monitoring exposure-length variations in submarine powe 6.5分 前50% #音频事件检测 26. Generative UI as an Accessibility Bridge: Lessons from 6.5分 前50% #无障碍 27. Korean aegyo speech shows systematic F1 increase to sig 6.0分 前50% #语音情感识别 28. Huí Sù: Co-constructing a Dual Feedback Apparatus 5.5分 后50% #音乐生成 29 Cross-Linguistic Rhythmic and Spectral Feature-Based An N/A - - 📋 论文列表 🥇 Cutscene Agent: An LLM Agent Framework for Automated 3D Cutscene Generation 🔥 8.5/10 | 前25% | #生成模型 | #大语言模型 | #多模态 #模型评估 | arxiv ...

2026-04-29