FlashFoley: Fast Interactive Sketch2audio Generation

📄 FlashFoley: Fast Interactive Sketch2audio Generation #音频生成 #流匹配 #对抗训练 #实时处理 ✅ 7.5/10 | 前25% | #音频生成 | #流匹配 | #对抗训练 #实时处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Zachary Novack (UC San Diego; Sony Group Corporation, Japan) 通讯作者:Christian Simon† (Sony AI, USA) (论文中标注†为“Project lead”,通常可视为通讯作者) 作者列表:Zachary Novack¹,²,Koichi Saito³,Zhi Zhong²,Takashi Shibuya³,Shuyang Cui²,Julian McAuley¹,Taylor Berg-Kirkpatrick¹,Christian Simon²†,Shusuke Takahashi²,Yuki Mitsufuji²,³ ¹ UC – San Diego ² Sony Group Corporation, Japan ³ Sony AI, USA 💡 毒舌点评 亮点:这篇论文精准地切中了当前交互式音频生成工具的一个核心痛点——“精细控制”与“实时速度”不可兼得,并给出了一个工程上巧妙且相对完整的解决方案,首次将开源加速的草图到音频模型带入实时交互场景。 短板:虽然方法组合很实用,但核心的“创新”更多是已有技术(草图控制、ARC后训练、流式生成)的整合与适配,缺乏根本性的理论突破;另外,文中“开源”的承诺尚未在论文发布时兑现,这削弱了其作为“首个开源”模型的即时影响力。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 329 words

H-nnPBFDAF: Hierarchical Neural Network Partitioned Block Frequency Domain Adaptive Filter with Novel Block Activation Probability

📄 H-nnPBFDAF: Hierarchical Neural Network Partitioned Block Frequency Domain Adaptive Filter with Novel Block Activation Probability #语音增强 #信号处理 #时频分析 #实时处理 #低资源 ✅ 7.5/10 | 前25% | #语音增强 | #信号处理 | #时频分析 #实时处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Jitao Ma(浙江大华技术股份有限公司)(论文标注为共同第一贡献) 通讯作者:Ruidong Fang(浙江大华技术股份有限公司) 作者列表:Jitao Ma(浙江大华技术股份有限公司),Jingbiao Huang(浙江大华技术股份有限公司),Ruidong Fang(浙江大华技术股份有限公司),Jucai Lin(浙江大华技术股份有限公司),Han Xue(浙江大华技术股份有限公司),Yapeng Mao(浙江大华技术股份有限公司),Jun Yin(浙江大华技术股份有限公司) 💡 毒舌点评 本文亮点在于提出了“块激活概率”这一巧妙机制,用一个紧凑的神经网络同时解决了传统自适应滤波器步长选择和滤波器长度固定两大痛点,且计算开销极低。然而,纯线性框架可能在处理设备扬声器严重非线性失真时存在天花板,而论文中的对比实验(如与Deep Adaptive AEC的比较)也显示在复杂场景下其性能仍不及更重的混合方法,且代码未开源限制了复现价值。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:论文中使用的LibriSpeech、DNS Challenge、SLR28、Aachen Impulse Response、AEC Challenge数据集均为公开可获取的。 Demo:未提及在线演示。 复现材料:论文提供了模型架构概述、关键公式和部分训练数据设置,但缺乏详细的训练超参数(优化器、学习率、batch size等)、训练硬件信息以及最终模型的具体配置,复现难度较高。 论文中引用的开源项目: 数据集:LibriSpeech [17], DNS Challenge [18], SLR28 [19], Aachen Impulse Response [20], AEC Challenge Dataset [21]。 工具:AECMOS评估工具包 [23]。 对比方法:公开的NKF Demo [12], Deep Adaptive AEC [10]。 开源计划:论文中未提及开源计划。 📌 核心摘要 问题:在低成本消费设备上部署声学回声消除(AEC)时,传统自适应滤波器(如PBFDAF)面临步长选择困难、滤波器长度需手动固定以适应不同回声路径、以及现有神经网络混合方法计算成本过高的挑战。 方法核心:提出神经网络分块频域自适应滤波器(nnPBFDAF)。核心是一个轻量神经网络,它同时估计频域步长向量(用于替代固定步长)和块激活概率向量(每个分块一个概率值)。块激活概率向量的和可用于间接控制有效滤波器长度,实现自动适应。进一步提出两阶段层次结构(H-nnPBFDAF),第一阶段估计的回声作为第二阶段的参考信号,以提升鲁棒性。 创新点:a) 将神经网络步长估计与PBFDAF深度融合;b) 引入块激活概率向量,首次解决了固定分块数PBFDAF无法自适应不同回声路径长度的难题;c) 设计两阶段级联架构(H-nnPBFDAF),以粗到精的方式提升回声估计精度。 实验结果:在三个测试集上进行评估。如表1所示,在模拟短回声路径(Subset 1)上,H-nnPBFDAF的PESQ为3.12,ERLE为34.57 dB,优于传统PBFDKF(PESQ 2.93, ERLE 25.77 dB)。在AEC Challenge盲测集(Subset 2)上,H-nnPBFDAF在双讲回声评价(DT-E)得分为3.40,略低于Deep Adaptive AEC(4.40),但计算复杂度仅为其约1/26。在真实消费设备数据(Subset 3)上,H-nnPBFDAF的ERLE为21.47 dB,显著优于NKF(7.29 dB)。消融实验(表2)证实,采用块激活概率的nnPBFDAF在不同回声路径长度下的平均PESQ(2.87)优于所有固定分块数模型。 实际意义:该方法在极低计算开销(仅占ARM Cortex-A35单核<9%资源)下实现了高性能AEC,并能自动适应回声路径变化,非常适合资源受限的消费类电子产品(如智能音箱、会议设备)部署,且模型已实际部署。 主要局限性:作为线性AEC框架,对高度非线性失真的回声消除能力可能有限;神经网络部分的具体结构和训练策略细节(如优化器、学习率)未完全公开;代码未开源。 🏗️ 模型架构 模型的核心是nnPBFDAF模块,其整体流程和内部结构如下图所示: ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 405 words

Huí Sù: Co-constructing a Dual Feedback Apparatus

📄 Huí Sù: Co-constructing a Dual Feedback Apparatus #音乐生成 #生成模型 #实时处理 #信号处理 📝 5.5/10 | 后50% | #音乐生成 | #生成模型 | #实时处理 #信号处理 | arxiv 学术质量 5.0/7 | 选题价值 2.0/2 | 复现加成 -1.0 | 置信度 高 👥 作者与机构 第一作者:Yichen Wang(The Australian National University) 通讯作者:未说明(论文未明确指定通讯作者,但提供了两位作者的邮箱) 作者列表:Yichen Wang(The Australian National University, Canberra, ACT, Australia)、Charles Patrick Martin(The Australian National University, Canberra, ACT, Australia) 💡 毒舌点评 论文提出了一个有趣且概念完整的“双反馈”智能乐器二重奏系统,巧妙地将AI在音频潜空间和MIDI控制流中的反馈作用进行对比与融合,为表演艺术提供了新的交互范式。然而,其致命短板在于完全缺乏任何形式的定量评估、对比实验或详细的可复现技术描述,使得整个工作停留在艺术项目展示层面,学术严谨性和可复现性严重不足。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开模型权重。 数据集:未提及。 Demo:提供了表演视频作为在线演示:https://doi.org/10.5281/zenodo.19673150。 复现材料:未提供训练细节、配置、检查点或附录说明。 论文中引用的开源项目:明确提到了使用RAVE模型(具体引用了 rave:caillon2021, ravemodels:acids)。Agentier中的MDRNN架构引用了Martin2019。 总结:论文中未提及开源计划。 📌 核心摘要 这篇论文是NIME‘26的一场艺术表演提案,旨在探索两个智能乐器“溯”(Sù)和“Agentier”通过反馈回路与人类表演者进行二重奏。要解决的问题是如何在音乐表演中实现人与AI更深度的共同创作,而非单向控制。其方法核心是构建两个对比系统:“溯”在音频潜空间(基于RAVE模型)引入潜变量反馈,使音色演变具有时序连续性;“Agentier”在MIDI控制空间(基于MDRNN模型)引入控制信号反馈,使系统能生成和延续演奏手势。与已有方法相比,新在将“反馈”这一概念系统地拆解并实现在音乐生成的两个不同层面(音频与控制),并将其置于协同表演的语境中。主要实验结果未提供定量数据,仅通过一段12分钟的即兴表演视频(链接:https://doi.org/10.5281/zenodo.19673150)进行概念验证,展示了系统在实际演出中的可行性。实际意义在于为智能乐器设计和人机交互艺术实践提供了新的思路和系统原型。主要局限性在于缺乏可量化的性能评估、对比研究以及详细的技术复现信息。 ...

2026-04-29 · 更新于 2026-06-12 · 1 min · 149 words

ICASSP 2026 - 实时处理 论文列表

ICASSP 2026 - 实时处理 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 A Personalized Real-Time Proactive Voice Memory Assistant 7.0分 前50% 📋 论文详情 🥇 A Personalized Real-Time Proactive Voice Memory Assistant ✅ 7.0/10 | 前50% | #实时处理 | #大语言模型 | #语音识别 #说话人识别 👥 作者与机构 第一作者:Hao Zhou (Samsung Research America, The Pennsylvania State University) - 根据作者列表顺序和标注“†”判断。 通讯作者:论文中未明确标注通讯作者。 作者列表:Hao Zhou¹²†, Md Mahbubur Rahman¹, Simon A. Lee¹³†, Baiying Lu¹⁴†, Juhyeon Lee¹⁵†, Cyrus Tanade¹, Megha Thukral¹⁶†, Md. Sazzad Hissain Khan⁷, Samsad Ul Islam⁷, Subramaniam Venkatraman¹, Sharanya Arcot Desai¹。 机构信息:¹Samsung Research America, ²The Pennsylvania State University, ³University of California, Los Angeles, ⁴Dartmouth, ⁵University of Massachusetts Amherst, ⁶Georgia Institute of Technology, ⁷Samsung Research Bangladesh。标注“†”表示工作在三星研究美国实习期间完成。 💡 毒舌点评 ...

2026-04-29 · 更新于 2026-06-12 · 1 min · 155 words

Joint Deep Secondary Path Estimation and Adaptive Control for Active Noise Cancellation

📄 Joint Deep Secondary Path Estimation and Adaptive Control for Active Noise Cancellation #语音增强 #端到端 #实时处理 #深度学习 #信号处理 ✅ 7.5/10 | 前25% | #语音增强 | #端到端 | #实时处理 #深度学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Fareedha (National Institute of Technology, Warangal, Telangana, India) 通讯作者:未说明 作者列表:Fareedha (National Institute of Technology, Warangal, Telangana, India)、Vasundhara (National Institute of Technology, Warangal, Telangana, India)、Asutosh Kar (Birmingham City University, Birmingham, UK)、Mads Græsbøll Christensen (Aalborg University, Denmark) 💡 毒舌点评 论文将深度学习中的估计与控制模块“缝合”得相当流畅,消融实验做得很扎实,有力地证明了注意力机制和双向LSTM在其中的价值。然而,核心创新更多是工程层面的集成优化,而非方法论的革新;且实验场景(主要是飞机噪声)稍显单一,要宣称在“动态环境”下鲁棒,或许还应挑战更多极端的非平稳声学条件。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 368 words

Joint Estimation of Primary and Secondary Paths for Personalized Hearable Applications

📄 Joint Estimation of Primary and Secondary Paths for Personalized Hearable Applications #主动降噪 #信号处理 #自适应滤波器 #实时处理 #鲁棒性 ✅ 7.5/10 | 前25% | #主动降噪 | #信号处理 | #自适应滤波器 #实时处理 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:未说明(论文未明确标注) 通讯作者:未说明(论文未明确标注) 作者列表:Sooyeon Park (Samsung Research, Seoul, South Korea), Kyoungbo Min (Samsung Research, Seoul, South Korea), Seungdo Choi (Samsung Research, Seoul, South Korea), Ikchae Jeong (Samsung Research, Seoul, South Korea), Hosang Sung (Samsung Research, Seoul, South Korea) 💡 毒舌点评 亮点:该工作巧妙地将一个通常需要额外激励或离线数据的双路径在线估计问题,转化为一个利用现有自适应滤波器系数变化和音乐播放作为“天然激励”的可识别线性系统,并给出了严格的可解性条件,理论框架非常优雅实用。 短板:实验部分“高高举起,轻轻放下”,核心的路径估计精度验证不错,但最终的ANC性能对比(表1)却只和一个“固定滤波器”简单比拼,缺少与文献中其他在线二次路径估计方法的横向对比,削弱了方法优越性的说服力,也暴露了其作为一篇完整研究论文的验证闭环不够完整。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 275 words

LAFUFU: Latent Acoustic Features For Ultra-Fast Utterance Restoration

📄 LAFUFU: Latent Acoustic Features For Ultra-Fast Utterance Restoration #语音增强 #扩散模型 #实时处理 #潜在空间 🔥 8.0/10 | 前25% | #语音增强 | #扩散模型 | #实时处理 #潜在空间 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Łazarz Radosław Wosik(论文作者列表首位,但未明确标注为第一作者) 通讯作者:论文中未明确标注 作者列表:Łazarz Radosław Wosik (Samsung R&D Institute Poland), Mateusz Pudo (Samsung R&D Institute Poland), Urszula Krywalska (Samsung R&D Institute Poland), Adam Cie´slak (Samsung R&D Institute Poland), († AGH University of Krak´ow) — 论文开头列出作者姓名及主要所属机构为Samsung R&D Institute Poland,其中一位作者带有†标记,表示其同时隶属于AGH University of Krak´ow。 💡 毒舌点评 亮点在于它非常务实且有效:通过将扩散过程搬到一个更小、更高效的潜在空间里,直接戳破了生成式语音恢复“效果好但算力吃不消”的泡沫,实现了显著的加速(RTF降低约40%)而不牺牲质量。短板是其创新本质是“缝合”了图像领域的Latent Diffusion思想和语音领域的SGMSE+模型,属于应用创新而非理论突破,且双模型架构无形中增加了部署时的内存管理复杂度。 ...

2026-04-29 · 更新于 2026-06-12 · 3 min · 480 words

Lisa: Lightweight Yet Superb Neural Speech Coding

📄 Lisa: Lightweight Yet Superb Neural Speech Coding #语音编码 #向量量化 #信号处理 #实时处理 🔥 8.5/10 | 前25% | #语音编码 | #信号处理 | #向量量化 #实时处理 学术质量 8.5/7 | 选题价值 7.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jiankai Huang (南京大学) 通讯作者:Xun Cao (南京大学), Zhan Ma (南京大学) 作者列表:Jiankai Huang (南京大学), Junteng Zhang (南京大学), Ming Lu (南京大学), Xun Cao (南京大学), Zhan Ma (南京大学) 💡 毒舌点评 论文提出的“调节残差使其更利于量化”这一核心思想非常巧妙且实用,直击传统RVQ在后续阶段效率低下的痛点,最终实现了在超低比特率下用极小的模型超越一众巨型模型(如参数量4.98M vs 872M的SemantiCodec)。不过,实验部分略显“基础”,虽然对比了多个模型,但缺乏对更复杂噪声环境、不同语言或说话人风格下鲁棒性的分析,也缺乏直接的主观听感(MOS)测试,说服力上稍打折扣。 🔗 开源详情 代码:提供代码仓库链接:https://arsx958.github.io/Lisa-Lightweight-Yet-Superb-Neural-Speech-Coding/ 模型权重:提供预训练模型下载(论文中提及“pretrained model can be downloaded from our GitHub repository”)。 数据集:使用公开的LibriTTS数据集,未说明是否提供额外处理后的数据。 Demo:论文页面链接可能包含演示,但文中未明确说明。 复现材料:提供了详细的训练配置(数据集、优化器、学习率、步长、硬件),足以支持复现。代码仓库应包含模型定义和训练脚本。 引用的开源项目:论文引用了多个作为基线的开源项目/工具,如FunCodec [12]。 📌 核心摘要 问题:现有神经语音编码器在低/超低比特率下,编码效率受限于特征表示能力和量化过程的不足,特别是传统残差向量量化(RVQ)在初始阶段后,残差变得不规则,导致量化损失高、效率低下。 方法核心:提出轻量级编码器-解码器Lisa,其核心是引入两个创新模块:(1) 带Inception残差块(IRB)的因果频域编码器,用于提取多尺度特征;(2) 受调节残差向量量化(R-RVQ),在每个量化阶段前通过一个可学习模块将残差“调节”为更规整、更适合量化的形式。 新在哪里:R-RVQ首次在量化前主动对残差进行结构化重塑,而非被动处理原始残差。这与传统RVQ直接堆叠量化器有本质区别,确保了每个阶段都能有效降低量化误差。 实验结果:在LibriTTS数据集上,Lisa在500 bps时ViSQOL达3.90,在1500 bps时达4.43,超越了FunCodec、MUFFIN、StreamCodec等基线模型,同时模型参数仅4.98M,计算量为2.83G MACs,适合实时流式应用。 实际意义:为在极低带宽下实现高质量、低延迟的实时语音通信(如视频会议、云游戏)提供了高效可行的解决方案。 主要局限性:实验主要在干净语音(LibriTTS)上验证,对噪声、失真或实际网络传输环境的鲁棒性未作评估;评估指标依赖客观分数,缺少主观听感测试;对模型在极低延迟(<10ms)场景下的性能未做专门探讨。 🏗️ 模型架构 Lisa的整体架构遵循“编码-量化-解码”的经典范式,但全程在时频域(STFT域)操作以利用多分辨率特征。其完整流程如下: ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 371 words

Low-Frequency Harmonic Control for Speech Intelligibility in Open-Ear Headphones

📄 Low-Frequency Harmonic Control for Speech Intelligibility in Open-Ear Headphones #语音增强 #信号处理 #鲁棒性 #实时处理 ✅ 6.5/10 | 前50% | #语音增强 | #信号处理 | #鲁棒性 #实时处理 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Yuki Watanabe(NTT Inc., Tokyo, Japan)(基于作者列表顺序判断,论文未明确标注) 通讯作者:未说明 作者列表:Yuki Watanabe(NTT Inc., Tokyo, Japan)、Hironobu Chiba(NTT Inc., Tokyo, Japan)、Yutaka Kamamoto(NTT Inc., Tokyo, Japan)、Tatsuya Kako(NTT Inc., Tokyo, Japan) 💡 毒舌点评 亮点:巧妙地利用了语音基频与谐波之间的能量关系,通过“抑制基频、增强谐波”这种反直觉的方式,在特定硬件限制(小扬声器低频弱)和环境掩蔽(低频噪声强)下找到了一个提升可懂度的“巧劲儿”,想法很有针对性。 短板:实验部分过于“迷你”——仅用8位听众和6个语音样本就得出“显著提高”的结论,说服力不足,且完全没有与经典的语音增强算法(如谱减法、维纳滤波)进行对比,让人无法判断其在现有技术体系中的真实位置。 🔗 开源详情 论文中未提及任何开源计划。具体来说: 代码:未提供代码仓库链接或提及开源。 模型权重:未提及(本方法无需模型权重)。 数据集:未提及公开。所用6个评估样本来自内部数据集,未提供获取方式。 Demo:未提供在线演示。 复现材料:未提供训练细节、配置、检查点或附录说明。仅提供了方法原理和实验条件的概述。 论文中引用的开源项目:引用了MATLAB的Audio Toolbox中的pitch函数用于基频估计。 📌 核心摘要 解决的问题:开放式耳机因采用小型扬声器单元导致低频输出不足,在嘈杂环境中(尤其是存在大量低频成分的环境噪声时),语音的低频部分容易被掩蔽,导致可懂度下降。 方法核心:提出一种名为“低频谐波控制(LFHC)”的低复杂度后处理方法。核心是通过一个延迟为基频周期2.5倍(τ=τ₀/2.5)的FIR梳状滤波器来抑制语音的基频(F0),并同时增强其第二和第三谐波,然后将处理后的信号通过一个截止频率为5倍基频的低通滤波器,最后与原信号相加。 创新之处:与传统强调基频的音高增强不同,本方法反其道而行之,专注于将能量从易被掩蔽的基频重新分配到不易被掩蔽且耳机仍能有效重现的第二、三谐波频带。该方法计算复杂度低,适合在开放式耳机的DSP芯片上实时运行。 主要实验结果:在棕色噪声(69 dB SPL)环境下,使用类似MUSHRA的主观评估(但标准为可懂度)。当加权因子α=0.6时,处理后语音的可懂度得分(相对于未处理同音量语音)在6个测试语音样本中的3个上获得了显著提升,对另外3个无显著降低;当α=0.9时,过度处理导致2个样本的可懂度显著下降。散点图显示,处理前第二、三谐波能量相对基频较高的语音,处理收益较小(相关系数-0.93)。详细数据见下表: 处理条件 声压级 (dB SPL) 说明 OR (原始参考) 60 未经处理的原始语音 OR-3 57 未经处理,音量降低3 dB OR-6 54 未经处理,音量降低6 dB LFHC-3(0.6) 57 使用本文方法(α=0.6),音量与OR-3相同 LFHC-3(0.9) 57 使用本文方法(α=0.9),音量与OR-3相同 图5(论文中图片4)展示了不同条件下语音可懂度得分的均值及95%置信区间。与未处理的OR-3相比,LFHC-3(0.6)对多数样本有正向提升或无影响,而LFHC-3(0.9)则对部分样本产生负面影响。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 234 words

Low-Latency Audio Front-End Region-of-Interest Beamforming for Smart Glasses

📄 Low-Latency Audio Front-End Region-of-Interest Beamforming for Smart Glasses #语音增强 #波束成形 #实时处理 #多通道 ✅ 7.0/10 | 前25% | #语音增强 | #波束成形 | #实时处理 #多通道 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Ariel Frank(Technion – Israel Institute of Technology, Andrew and Erna Viterbi Faculty of Electrical and Computer Engineering) 通讯作者:未说明 作者列表:Ariel Frank(Technion – Israel Institute of Technology, Andrew and Erna Viterbi Faculty of Electrical and Computer Engineering)、Israel Cohen(Technion – Israel Institute of Technology, Andrew and Erna Viterbi Faculty of Electrical and Computer Engineering) 💡 毒舌点评 亮点:论文最大的价值在于其“公正裁判”的角色——它没有盲目声称自己方法最优,而是通过建立一个统一的数学框架,用同一套指标(延迟、复杂度、性能)系统地量化比较了时域和STFT域两种主流实现路径,结论清晰且有实验数据强力支撑,为智能眼镜产品的技术选型提供了坚实的工程依据。 短板:研究范畴严格限定在传统信号处理波束成形的对比上,完全未与当前火热的基于深度学习的波束成形/语音增强方法进行对比(即使引用了相关工作),使得结论的时效性和全面性打了折扣;实验在高度可控的消声室完成,对于智能眼镜实际使用中复杂的混响、噪声、多人的环境泛化性未经验证。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 236 words