Low-Rank Adaptation Redux for Large Models

📄 Low-Rank Adaptation Redux for Large Models #大语言模型 #迁移学习 #信号处理 #参数高效微调 📝 5.5/10 | 前50% | #大语言模型 | #迁移学习 | #信号处理 #参数高效微调 | arxiv 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:未说明(摘要仅列出Bingcong Li, Yilang Zhang, Georgios B. Giannakis,无法判断谁为第一作者) 通讯作者:未说明 作者列表:Bingcong Li(未说明)、Yilang Zhang(未说明)、Georgios B. Giannakis(未说明) 💡 毒舌点评 这篇论文试图用经典的信号处理(SVD、逆问题)框架来“统一”和“解释”LoRA及其变体,立意新颖,为这个野蛮生长的领域提供了一套潜在的理论词汇表。然而,它本质上是一篇综述或视角文章,既没有提出新的LoRA变体,也没有提供任何实验验证或对比,其“深度分析”更多停留在理论梳理和分类上,对于急需实操指导的读者来说,可能感觉“干货”不足。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:未提及。 Demo:未提及。 复现材料:未提及。 论文中引用的开源项目:摘要中未提及任何具体的开源项目或工具。 总结:论文中未提及开源计划。 📌 核心摘要 要解决什么问题:LoRA已成为大模型参数高效微调(PEFT)的事实标准,但其变体众多,缺乏一个统一的理论框架来指导实际的方法选择,即不清楚在何种架构设计、优化技术或部署约束下应选择哪种变体。 方法核心是什么:论文从信号处理(SP)的视角重新审视LoRA,将现代适配器设计与经典的低秩建模、逆问题工具联系起来。它不提供全面的枚举和实证比较,而是侧重于分析这些方法背后的技术机制。 与已有方法相比新在哪里:本文的新颖之处在于其分析框架。它将现有的LoRA改进归纳到三个互补的轴线上:架构设计(如基于SVD的分解、秩增强、跨层张量化)、高效优化(如初始化、交替求解器、规范不变优化)和相关应用(覆盖模型全生命周期)。它强调了SP原则如何为设计有原则的PEFT方法提供指导。 主要实验结果如何:论文中未提供任何具体的实验结果、数值对比或消融实验数据。它是一篇理论分析和综述性文章。 实际意义是什么:其意义在于为理解和设计LoRA类方法提供了一个更结构化的理论视角,可能启发未来更具原则性的PEFT方法设计,并促进深度学习与信号处理两个社区的交叉研究。 主要局限性是什么:主要局限是缺乏实证支撑。作为一个“overview”,它没有通过实验验证其分析框架的有效性,也没有给出具体的、可操作的方法选择指南。对于寻求直接技术指导的读者,其价值有限。 🏗️ 模型架构 本文是一篇综述/视角论文,没有提出一个新的具体模型架构。因此,无法描述其模型的整体架构、输入输出流程或组件。论文的核心是构建一个分析框架,将现有的LoRA及其变体(如LoRA, QLoRA, DoRA等)置于信号处理的语境下进行理解和分类。这个框架本身不是一个可执行的模型。 ...

2026-04-24 · 更新于 2026-05-20 · 1 min · 103 words

Sema: Semantic Transport for Real-Time Multimodal Agents

📄 Sema: Semantic Transport for Real-Time Multimodal Agents #实时处理 #信号处理 #多模态模型 #跨模态 ✅ 6.5/10 | 前50% | #实时处理 | #信号处理 | #多模态模型 #跨模态 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Jiaying Meng (Unaffiliated) 通讯作者:未说明 作者列表:Jiaying Meng (Unaffiliated), Bojie Li (Pine AI) 💡 毒舌点评 这篇论文提出了一个极具前瞻性的“语义传输”范式,敏锐地抓住了为AI模型而非人类优化媒体传输这一核心矛盾,理论框架清晰。然而,其最大的短板在于所有结论均基于仿真,缺乏一个端到端的真实系统实现和验证,使得“颠覆性”的结论在工程落地层面显得有些悬空。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:评估中使用了公开数据集LibriSpeech和OSWorld,但论文本身未提供新数据集。 Demo:未提及。 复现材料:未提供训练细节、配置文件、检查点或详细附录说明。论文主要描述了系统设计和仿真评估方法。 论文中引用的开源项目:论文引用了多个开源项目作为其组件的替代或基础,包括:SpeechTokenizer (Zhang et al., 2024), EnCodec (Défossez et al., 2023), CosyVoice (Du and others, 2024), Layton (Qu et al., 2025), FlexTok (Bachmann and others, 2025), PaddleOCR, Apple Vision framework, Whisper (Radford et al., 2023), Qwen2.5-VL (Wang and others, 2025a), HiFi-GAN (Kong et al., 2020)。 📌 核心摘要 要解决的问题:当前多模态AI智能体(如语音助手、电脑操控智能体)使用为人类实时通信(RTC)设计的网络协议栈传输原始音频和屏幕截图,这导致了巨大的带宽和延迟开销,因为这些协议优化的是人类感知的保真度和播放流畅性,而AI模型处理的是离散的语义事件。 方法核心:提出Sema系统,其核心思想是“传输意义,而非信号”。在上行链路(客户端到服务器),用离散的语义令牌(如语音令牌、混合屏幕表示)替代原始媒体;在下行链路(服务器到客户端),将语音合成器(vocoder)移至客户端,并采用突发式令牌交付,消除抖动缓冲。 与已有方法相比新在哪里:与传统RTC(如WebRTC、Opus/WebP编码)相比,Sema实现了根本性的范式转变:从优化信号级失真(Shannon-Weaver Level A)转向优化任务级语义保真(Level B)。具体创新包括:(1) 在客户端进行语义令牌化而非在服务器端编码;(2) 设计了结合无损结构化文本(无障碍树/OCR)和紧凑视觉令牌的混合屏幕表示;(3) 利用AI模型的“事件时间容忍度”实现突发交付。 主要实验结果:在广域网仿真条件下,Sema相比基线(Opus 32kbps音频,WebP质量80截图)实现了音频上行带宽减少64倍(从12KB/3秒降至188B),屏幕上行带宽减少130-210倍(从700KB降至3-5KB)。同时,下游任务准确率(语音识别WER、屏幕导航和文本任务成功率)与原始基线相比差距在0.7个百分点以内。关键结果见下表和图: 表1:每轮上行载荷中位数对比 ...

2026-04-24 · 更新于 2026-05-20 · 2 min · 266 words

语音/音频论文速递 2026-04-24

语音/音频论文速递 2026-04-24 共分析 21 篇论文 ⚡ 今日概览 📥 抓取 21 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 3篇 ███ #语音合成 3篇 ███ #语音情感识别 2篇 ██ #音频生成 1篇 █ #音频安全 1篇 █ #语音翻译 1篇 █ #音乐理解 1篇 █ #语音生物标志物 1篇 █ 📊 论文评分排行榜(20 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Prosody as Supervision: Bridging the Non-Verbal–Verbal 8.0分 前25% #语音情感识别 🥈 Do LLM Decoders Listen Fairly? Benchmarking How Languag 7.5分 前25% #语音识别 🥉 MAGIC-TTS: Fine-Grained Controllable Speech Synthesis w 7.5分 前25% #语音合成 4. Materialistic RIR: Material Conditioned Realistic RIR G 7.5分 前25% #音频生成 5. Evaluation of Automatic Speech Recognition Using Genera 7.5分 前25% #语音识别 6. Misinformation Span Detection in Videos via Audio Trans 7.5分 前25% #音频安全 7. Preferences of a Voice-First Nation: Large-Scale Pairwi 7.5分 前25% #语音合成 8. Hierarchical Policy Optimization for Simultaneous Trans 7.5分 前25% #语音翻译 9. Beyond Rules: Towards Basso Continuo Personal Style Ide 7.0分 前50% #音乐理解 10. Time vs. Layer: Locating Predictive Cues for Dysarthric 7.0分 前25% #语音生物标志物 11. ATRIE: Adaptive Tuning for Robust Inference and Emotion 7.0分 前25% #语音合成 12. Video-Robin: Autoregressive Diffusion Planning for Inte 7.0分 前25% #音乐生成 13. “This Wasn’t Made for Me”: Recentering User Experience 7.0分 前50% #语音识别 14. Dilated CNNs for Periodic Signal Processing: A Low-Comp 6.5分 前50% #语音增强 15. DiariZen Explained: A Tutorial for the Open Source Stat 6.5分 前50% #说话人分离 16. Full-Duplex Interaction in Spoken Dialogue Systems: A C 6.5分 前25% #语音对话系统 17. Sema: Semantic Transport for Real-Time Multimodal Agent 6.5分 前50% #实时处理 18. AUDITA: A New Dataset to Audit Humans vs. AI Skill at A 6.5分 前50% #音频问答 19. MER 2026: From Discriminative Emotion Recognition to Ge 6.0分 前50% #语音情感识别 20. Low-Rank Adaptation Redux for Large Models 5.5分 前50% #大语言模型 21 Phonological Subspace Collapse Is Aetiology-Specific an N/A - - 📋 论文列表 🥇 Prosody as Supervision: Bridging the Non-Verbal–Verbal for Multilingual Speech Emotion Recognition 🔥 8.0/10 | 前25% | #语音情感识别 | #领域适应 | #双曲神经网络 #自监督学习 | arxiv ...

2026-04-24 · 更新于 2026-05-20 · 11 min · 2180 words

Before the Mic: Physical-Layer Voiceprint Anonymization with Acoustic Metamaterials

📄 Before the Mic: Physical-Layer Voiceprint Anonymization with Acoustic Metamaterials #语音匿名化 #信号处理 #鲁棒性 #实时处理 ✅ 7.5/10 | 前25% | #语音匿名化 | #信号处理 | #鲁棒性 #实时处理 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Zhiyuan Ning(西北大学) 通讯作者:未说明 作者列表: Zhiyuan Ning(西北大学) Zhanyong Tang(西北大学) Xiaojiang Chen(西北大学) Zheng Wang(利兹大学) 💡 毒舌点评 亮点在于开创性地将声学超材料引入声纹保护领域,提供了一种无需信任设备、无需耗能的物理层解决方案,思路非常新颖且实验验证扎实。短板是当前的刚性外壳形态可能影响美观和佩戴舒适度,且其核心依赖于特定频率的声学干扰,未来若出现能精准分离声纹特征与语音内容的新型攻击,其鲁棒性可能面临挑战。 🔗 开源详情 代码:论文中提及了“GitHub Issue”,但未提供明确的代码仓库链接。无法确认是否开源。 模型权重:不适用。 数据集:未提及公开数据集。 Demo:未提及在线演示。 复现材料:论文提供了关键的设计参数和仿真示意图,但未提供可直接用于制造的完整工程文件(如CAD模型、打印参数)或复现脚本。 论文中引用的开源项目:提到了使用COMSOL Multiphysics进行仿真,以及Google Speech-to-Text进行评估,但这些是商业工具或服务,并非论文贡献的开源项目。 论文中未提及明确的开源计划。 📌 核心摘要 这篇论文针对在公共场景(如会议、演讲)中,不可信录音设备可能导致声纹泄露且事后无法补救的问题,提出了EchoMask——首个基于声学超材料的物理层实时声纹匿名化系统。其核心方法是在声音到达麦克风前,通过精心设计的被动声学结构对特定低频段(300-700Hz)进行选择性干扰,该频段对说话人识别至关重要但对语音可懂度影响较小。与已有软件和硬件方法相比,EchoMask的新颖之处在于其工作在物理层,不依赖可信的麦克风硬件、固件或软件,且无需外部供电。实验结果表明,在8种麦克风和5种说话人识别系统上,EchoMask能将失配率(MMR)提升至90%以上,同时保持高语音可懂度(词准确率>95%)和高感知质量(MOS>4)。该工作的实际意义在于为不可信环境下的声纹隐私提供了一种低成本、易部署的物理屏障。主要局限性在于系统当前为刚性3D打印结构,可能影响美观和舒适度,且其干扰频带固定,缺乏动态调谐能力以应对未来更复杂的自适应攻击。 🏗️ 模型架构 EchoMask是一个物理系统,而非传统的计算模型。其“架构”由三个协同工作的物理组件构成: ...

2026-04-23 · 更新于 2026-05-20 · 2 min · 236 words

Self-Noise Reduction for Capacitive Sensors via Photoelectric DC Servo: Application to Condenser Microphones

📄 Self-Noise Reduction for Capacitive Sensors via Photoelectric DC Servo: Application to Condenser Microphones #麦克风阵列 #信号处理 #传感器 ✅ 7.5/10 | 前25% | #麦克风阵列 | #信号处理 | #传感器 | arxiv 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Hirotaka Obo(日本国立农业和食品研究组织(NARO)农村工程研究所;筑波大学) 通讯作者:未说明 作者列表: Hirotaka Obo(日本国立农业和食品研究组织(NARO)农村工程研究所;筑波大学) Atsushi Tsuchiya(筑波大学) Tadashi Ebihara(筑波大学) Naoto Wakatsuki(筑波大学) 💡 毒舌点评 亮点:论文巧妙地将光电效应与伺服控制结合,用一个“光控电流源”替代了传统偏置电阻,从根本上解耦了噪声滤波与信号高通滤波的频率约束,理论优雅且实验效果显著(11 dBA)。短板:核心创新点依赖一个定制的锌光阴极管,其长期稳定性、量产一致性和抗环境干扰能力(如温度、湿度)是走向实用化的巨大挑战,论文对此讨论不足,使得方案更像一个精巧的实验室演示而非成熟的设计方案。 🔗 开源详情 代码:论文中提到“Report GitHub Issue”,暗示存在一个GitHub仓库,但未在正文中直接提供仓库URL。具体代码内容(如是否包含电路仿真文件、控制代码)未说明。 模型权重:不适用。本文为硬件电路。 数据集:不适用。 Demo:未提及。 复现材料:论文提供了电路设计思路、关键元件型号(如JFE2140、S5973-01)和部分参数,但未提供完整的、可直接用于制造的电路图、PCB布局或详细组装指南。定制光电元件的制作工艺细节也未完全公开。 论文中引用的开源项目:未提及。 📌 核心摘要 问题:电容式传感器(如ECM麦克风)的自噪声主要源于前置放大器中用于建立直流偏置的门极电阻(Rm)的热噪声。该电阻同时决定了噪声的低通截止频率和信号的高通截止频率,形成了一个难以调和的噪声-带宽权衡。 方法核心:提出PDS-Amp(光电直流伺服放大器),用基于外部光电效应的定制光电元件(锌光阴极)替代Rm作为超高阻抗电流源,并通过一个包含滞后-超前补偿器的直流伺服回路,利用LED光照控制光电流,从而稳定门极偏置电压。 创新点:与传统方法相比,该方案将偏置电阻的多个功能(噪声源、直流路径、信号高通滤波器)分离。光电元件提供了极低噪声的高阻抗,而独立的伺服回路负责稳定偏置和设定信号高通截止频率,从而实现了两个截止频率的独立设计。 实验结果:使用12 pF假体麦克风测试,PDS-Amp实现了11 dBA的自噪声,远低于传统1 GΩ电阻偏置的估算值(~34 dBA)和文献测量值(23.1 dBA)。对实际ECM(C9767)的录音实验定性证实了背景噪声的显著降低。 实际意义:该技术无需增大振膜尺寸或使用高压极化,即可使廉价的小型ECM达到高端大振膜麦克风的噪声水平,为提升微型电容传感器的性能提供了一条新路径,且原理可推广至加速度计、压力传感器等。 主要局限性:定制光电元件的长期稳定性、一致性及可制造性未充分验证;伺服回路增加了电路复杂度、成本和封装难度;实验主要针对自噪声,未全面评估其在大信号、高声压级等其他工况下的表现。 🏗️ 模型架构 该论文提出的不是AI模型,而是一个模拟电路系统(PDS-Amp)。其整体架构包含两个主要部分: ...

2026-04-23 · 更新于 2026-05-20 · 2 min · 237 words

语音/音频论文速递 2026-04-23

语音/音频论文速递 2026-04-23 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 语音识别 5篇 █████ 基准测试 2篇 ██ 音频深度伪造检测 2篇 ██ 语音对话系统 2篇 ██ 音频分类 2篇 ██ 音乐信息检索 1篇 █ 语音合成 1篇 █ 麦克风阵列 1篇 █ 📊 论文评分排行榜(27 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Indic-CodecFake meets SATYAM: Towards Detecting Neural 8.5分 前25% #音频深度伪造检测 🥈 Qwen3.5-Omni Technical Report 8.5分 前25% #语音对话系统 🥉 Towards Streaming Target Speaker Extraction via Chunk-w 8.5分 前25% #语音分离 4 Aligning Stuttered-Speech Research with End-User Needs: 8.5分 前25% #语音识别 5 ONOTE: Benchmarking Omnimodal Notation Processing for E 8.0分 前25% #基准测试 6 FastTurn: Unifying Acoustic and Streaming Semantic Cues 8.0分 前25% #语音对话系统 7 Environmental Sound Deepfake Detection Using Deep-Learn 8.0分 前25% #音频深度伪造检测 8 Embedding-Based Intrusive Evaluation Metrics for Musica 7.5分 前25% #音乐信息检索 9 Self-Noise Reduction for Capacitive Sensors via Photoel 7.5分 前25% #麦克风阵列 10 Utterance-Level Methods for Identifying Reliable ASR-Ou 7.5分 前25% #语音识别 11 Enhancing ASR Performance in the Medical Domain for Dra 7.5分 前25% #语音识别 12 Deep Hierarchical Knowledge Loss for Fault Intensity Di 7.5分 前25% #音频分类 13 SpeechParaling-Bench: A Comprehensive Benchmark for Par 7.5分 前25% #基准测试 14 ATIR: Towards Audio-Text Interleaved Contextual Retriev 7.5分 前25% #音频检索 15 Before the Mic: Physical-Layer Voiceprint Anonymization 7.5分 前25% #语音匿名化 16 MOMO: A framework for seamless physical, verbal, and gr 7.5分 前25% #机器人控制 17 CoInteract: Physically-Consistent Human-Object Interact 7.5分 前25% #视频生成 18 MoVE: Translating Laughter and Tears via Mixture of Voc 7.5分 前25% #语音翻译 19 Reducing the Offline-Streaming Gap for Unified ASR Tran 7.5分 前25% #语音识别 20 Tadabur: A Large-Scale Quran Audio Dataset 7.5分 前25% #语音识别 21 FLiP: Towards understanding and interpreting multimodal 7.5分 前50% #模型评估 22 Text-To-Speech with Chain-of-Details: modeling temporal 7.0分 前25% #语音合成 23 SAND: The Challenge on Speech Analysis for Neurodegener 7.0分 前50% #语音生物标志物 24 Explicit Dropout: Deterministic Regularization for Tran 7.0分 前25% #音频分类 25 X-VC: Zero-shot Streaming Voice Conversion in Codec Spa 6.5分 前25% #语音转换 26 Enhancing Speaker Verification with Whispered Speech vi 6.5分 前50% #说话人验证 27 Centering Ecological Goals in Automated Identification 6.5分 前25% #生物声学 📋 论文列表 🥇 Indic-CodecFake meets SATYAM: Towards Detecting Neural Audio Codec Synthesized Speech Deepfakes in Indic Languages 🔥 8.5/10 | 前25% | #音频深度伪造检测 | #预训练 | #多语言 #语音大模型 | arxiv ...

2026-04-23 · 更新于 2026-05-20 · 13 min · 2679 words

Audio Spoof Detection with GaborNet

📄 Audio Spoof Detection with GaborNet #音频伪造检测 #信号处理 #数据增强 #时频分析 ✅ 评分:6.5/10 | arxiv 👥 作者与机构 第一作者:Waldemar Maciejko (根据论文标题及内容,未明确标注所属机构,推断为某大学或研究机构研究人员) 通讯作者:未明确标注 其他作者:无 机构信息:论文全文未提供作者所属机构信息。根据arXiv页面及论文内容推断,作者可能来自波兰某大学(如姓名暗示)或研究机构,但无法确认具体实验室/课题组。 💡 毒舌点评 亮点:论文系统性地评估了Gabor滤波器和LEAF前端在音频伪造检测任务中的应用,并提供了详尽的消融实验和数据增强对比,工作扎实。 槽点:创新性更像是“技术报告”而非“科研突破”,把Gabor滤波器塞进现成架构就完事了;结论有时过于绝对(如“LEAF在RawGAT-ST上效率低下”),缺乏更深层的机理分析;数据增强部分,SpecAugment无效就不展示了,选择性报告结果有点“报喜不报忧”。 🔗 开源详情 代码:已开源。论文页面提供了指向GitHub仓库的链接(标题下方的“GitHub Issue”以及页面中的“GitHub”按钮)。 模型权重:论文中未明确提及是否公开发布训练好的模型权重。 数据集:实验使用公开的ASVspoof 2019 LA数据集,以及用于增强的RIR和MUSAN数据集,这些均可公开获取。 预训练权重:未提及。 在线Demo:未提及。 引用的开源项目:论文依赖PyTorch、Torchaudio等框架,并提及使用了Torchaudio Sox和Ffmpeg后端进行编解码增强。 📌 核心摘要 本论文旨在解决传统SincNet前端在音频伪造检测中因有限长度sinc函数截断导致的频率泄漏问题。作者提出使用可学习的Gabor滤波器组(GaborNet)替代SincNet,并将其集成到两种先进的端到端检测架构RawNet2和RawGAT-ST中。同时,论文探索了将LEAF(Learnable Frontend for Audio Classification)的完整组件(包括高斯低通池化和可学习PCEN归一化)作为前端。实验在ASVspoof 2019逻辑访问数据集上进行,系统评估了不同前端、架构及数据增强方法(包括编解码转换、房间脉冲响应和噪声添加)的效果。主要发现包括:GaborNet前端对RawNet2架构有轻微提升(EER从4.131%降至4.025%),但对更复杂的RawGAT-ST架构反而有害;完整的LEAF前端在RawNet2上效果最佳(EER 3.807%),但在RawGAT-ST上性能下降;在数据增强方法中,仅编解码转换被证明有效。论文的贡献在于为音频伪造检测提供了新的可学习前端选择,并通过详实的实验揭示了不同组件组合的有效性,但其方法的创新性和普适性有待进一步验证。 🏗️ 模型架构 论文主要研究和修改了两种端到端音频伪造检测架构:RawNet2 和 RawGAT-ST。核心改动在于将它们的输入前端从SincNet替换为基于Gabor滤波器的GaborNet或更完整的LEAF前端。 1. Gabor RawNet2 架构流程: 输入:原始音频波形,固定长度为64,600个样本(约4秒@16kHz)。 前端 (GaborNet/LEAF): Gabor卷积层:使用N个可学习的复数值Gabor滤波器(中心频率η_n,带宽σ_n)对输入波形进行一维卷积。论文中RawNet2使用1024个滤波器,长度20;RawGAT-ST使用128个滤波器,长度70。 取模平方:将复数卷积结果取模平方,转化为实数序列,得到子带希尔伯特包络。 高斯低通池化:进行步长为3的下采样,使用参数化的高斯脉冲响应作为低通滤波器。 可学习PCEN归一化:应用可学习的感知归一化(Per-Channel Energy Normalization),参数包括平滑系数s、压缩指数r等,所有参数联合学习。 最大池化:进一步下采样。 批归一化+SeLU激活。 特征提取主体 (RawNet2): 残差块组1:包含3个残差块,每个块内有两层一维卷积(核大小3,通道数128)、批归一化、LeakyReLU激活,以及最大池化。每个残差块输出后应用特征图缩放(FMS) 机制,通过一个小型子网络生成缩放因子r_f,对特征图c_f进行c'_f = (c_f * r_f) + r_f的变换,以强调重要特征。 残差块组2:包含3个类似的残差块,但卷积通道数增加到128。 聚合与分类: 自适应平均池化:将时序特征聚合为固定长度。 全连接层1:将特征映射到1024维。 门控循环单元(GRU):128维隐藏层,用于聚合帧级特征为话语级嵌入。 全连接层2:映射到2维输出。 LogSoftmax:输出“真实”或“伪造”的对数概率。 2. Gabor RawGAT-ST 架构流程: ...

2026-04-22 · 更新于 2026-05-20 · 4 min · 689 words

语音/音频论文速递 2026-04-22

语音/音频论文速递 2026-04-22 共分析 21 篇论文 ⚡ 今日概览 📥 抓取 21 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 语音识别 5篇 █████ 语音合成 4篇 ████ 基准测试 4篇 ████ 模型评估 4篇 ████ 多语言 3篇 ███ 音频大模型 3篇 ███ 数据增强 3篇 ███ 大语言模型 3篇 ███ 📊 论文评分排行榜(20 篇,按分数降序) 排名 论文 评分 🥇 Qwen3.5-Omni Technical Report 9.5分 🥈 Benign Fine-Tuning Breaks Safety Alignment in Audio LLM 9.5分 🥉 UAF: A Unified Audio Front-end LLM for Full-Duplex Spee 9.0分 4 HalluAudio: A Comprehensive Benchmark for Hallucination 9.0分 5 Voice of India: A Large-Scale Benchmark for Real-World 8.5分 6 BEAT: Tokenizing and Generating Symbolic Music by Unifo 8.5分 7 ATRIE: Adaptive Tuning for Robust Inference and Emotion 8.5分 8 Reducing the Offline-Streaming Gap for Unified ASR Tran 8.0分 9 Deep Supervised Contrastive Learning of Pitch Contours 8.0分 10 Disentangling Damage from Operational Variability: A La 8.0分 11 Text-To-Speech with Chain-of-Details: modeling temporal 7.5分 12 Towards Streaming Target Speaker Extraction via Chunk-w 7.5分 13 APRVOS: 1st Place Winner of 5th PVUW MeViS-Audio Track 7.5分 14 NVBench: A Benchmark for Speech Synthesis with Non-Verb 7.5分 15 Detecting Hallucinations in SpeechLLMs at Inference Tim 7.5分 16 MTR-DuplexBench: Towards a Comprehensive Evaluation of 7.5分 17 Tadabur: A Large-Scale Quran Audio Dataset 7.0分 18 Environmental Sound Deepfake Detection Using Deep-Learn 6.5分 19 Audio Spoof Detection with GaborNet 6.5分 20 Comparison of sEMG Encoding Accuracy Across Speech Mode 6.0分 21 MoVE: Translating Laughter and Tears via Mixture of Voc N/A 📋 论文列表 🥇 Qwen3.5-Omni Technical Report 🔥 9.5分 | #语音合成 #语音识别 #音频大模型 #预训练 | arxiv ...

2026-04-22 · 更新于 2026-05-20 · 8 min · 1620 words

A state-space representation of the boundary integral equation for room acoustic modelling

📄 A state-space representation of the boundary integral equation for room acoustic modelling #空间音频 #信号处理 #模型评估 🔥 评分:8.0/10 | arxiv 👥 作者与机构 (根据论文摘要信息及常见研究机构推断) 第一作者:Randall Ali(推断:比利时鲁汶大学(KU Leuven)ESAT-PSI实验室) 通讯作者:Toon van Waterschoot(推断:比利时鲁汶大学(KU Leuven)ESAT-PSI实验室 / 代尔夫特理工大学(TU Delft)) 其他作者: Thomas Dietzen(推断:比利时鲁汶大学(KU Leuven)ESAT-PSI实验室) Matteo Scerbo(推断:意大利米兰理工大学(Politecnico di Milano)) Enzo De Sena(推断:伦敦大学金史密斯学院(Goldsmiths, University of London)) 💡 毒舌点评 这篇论文的亮点在于它用一套极其优美和统一的数学语言(状态空间算子理论),把房间声学里几个“老死不相往来”的模型(边界元、延迟网络、几何声学)给“串”起来了,理论贡献堪称“数学魔术”。槽点也同样突出:全文都在“纸上谈兵”,没有一行代码、一个仿真结果来证明这个漂亮的框架到底好不好用、快不快,让人不禁想问:“所以,然后呢?代码在哪?” 🔗 开源详情 论文中未提及任何关于代码、模型或数据集的开源计划。所有内容均为理论推导和讨论。 📌 核心摘要 本文旨在解决传统房间声学建模中多种方法(如边界元法、延迟网络、几何声学)彼此独立、缺乏统一理论基础的问题。作者提出了一种名为边界积分算子状态空间(BIOSS) 的新框架。该框架的核心是将描述声场的边界积分方程重新表述为一个状态空间模型,其中状态是房间边界上的声压分布函数,系统动态由一组积分算子(而非传统的矩阵)描述。通过数学推导,作者展示了BIOSS模型可以等价地转换为具有反馈或前馈结构的传递函数形式。这一框架的主要贡献在于其强大的统一能力:作者证明了BIOSS与边界元模型、延迟网络以及部分几何声学模型之间存在数学等价性,为理解这些模型的内在联系提供了理论基础。此外,论文提出,未来可将状态空间理论中的可控性、可观测性等概念应用于房间声学,以开发新的声场推断和控制方法。主要的局限性在于,本文仅提出了纯理论框架,缺乏任何实验验证或计算实现,其实际效果和效率有待后续研究证实。 🏗️ 模型架构 BIOSS模型并非一个用于具体任务的“神经网络”架构,而是一个描述房间声场动态的数学物理模型。其核心思想是将连续空间、连续时间的物理系统(房间声场)用状态空间理论重新参数化。 整体输入输出流程: 输入:位于房间内部的声源产生的声压(或速度势)。 内部状态:定义在房间边界(表面)上的声压分布函数 p(x, t),其中 x 是边界上的空间坐标。这是一个无限维的函数,是模型的核心。 系统动态:由一组积分算子 A, B, C, D 描述。这些算子作用于状态函数 p(x, t),决定其如何随时间演化,并如何产生输出。 输出:房间内任意接收点处的声压,或边界上的声压本身。 主要组件与连接: ...

2026-04-21 · 更新于 2026-05-20 · 2 min · 251 words

语音/音频论文速递 2026-04-21

语音/音频论文速递 2026-04-21 共分析 34 篇论文 ⚡ 今日概览 📥 抓取 34 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 模型评估 13篇 █████████████ 基准测试 9篇 █████████ 音频大模型 8篇 ████████ 数据集 7篇 ███████ 多语言 7篇 ███████ 多模态模型 5篇 █████ 强化学习 5篇 █████ 语音对话系统 4篇 ████ 📊 论文评分排行榜(34 篇,按分数降序) 排名 论文 评分 🥇 FreezeEmpath: Efficient Training for Empathetic Spoken 10.0分 🥈 Audio-DeepThinker: Progressive Reasoning-Aware Reinforc 9.5分 🥉 VoxSafeBench: Not Just What Is Said, but Who, How, and 9.5分 4 Benign Fine-Tuning Breaks Safety Alignment in Audio LLM 9.0分 5 Prosody as Supervision: Bridging the Non-Verbal–Verbal 9.0分 6 Anonymization, Not Elimination: Utility-Preserved Speec 8.5分 7 MimicLM: Zero-Shot Voice Imitation through Autoregressi 8.5分 8 ArtifactNet: Detecting AI-Generated Music via Forensic 8.5分 9 Audio-Cogito: Towards Deep Audio Reasoning in Large Aud 8.5分 10 LLM-Codec: Neural Audio Codec Meets Language Model Obje 8.5分 11 NIM4-ASR: Towards Efficient, Robust, and Customizable R 8.5分 12 Video-Robin: Autoregressive Diffusion Planning for Inte 8.0分 13 A state-space representation of the boundary integral e 8.0分 14 AVRT: Audio-Visual Reasoning Transfer through Single-Mo 8.0分 15 MoVE: Translating Laughter and Tears via Mixture of Voc 8.0分 16 SELF-EMO: Emotional Self-Evolution from Recognition to 8.0分 17 BhashaSutra: A Task-Centric Unified Survey of Indian NL 8.0分 18 MINT-Bench: A Comprehensive Multilingual Benchmark for 8.0分 19 ICLAD: In-Context Learning with Comparison-Guidance for 7.5分 20 Still Between Us? Evaluating and Improving Voice Assist 7.5分 21 Where Do Self-Supervised Speech Models Become Unfair? 7.5分 22 Neural Encoding Detection is Not All You Need for Synth 7.5分 23 Omni-Embed-Audio: Leveraging Multimodal LLMs for Robust 7.5分 24 Latent Fourier Transform 7.5分 25 Hard to Be Heard: Phoneme-Level ASR Analysis of Phonolo 7.5分 26 VIBE: Voice-Induced open-ended Bias Evaluation for Larg 7.5分 27 Aligning Language Models for Lyric-to-Melody Generation 7.5分 28 ClariCodec: Optimising Neural Speech Codes for 200bps C 7.0分 29 From Reactive to Proactive: Assessing the Proactivity o 7.0分 30 A novel LSTM music generator based on the fractional ti 6.5分 31 Incremental learning for audio classification with Hebb 6.5分 32 Coexisting Tempo Traditions in Beethoven’s Piano and Ce 6.0分 33 FLiP: Towards understanding and interpreting multimodal 5.5分 34 HCFD: A Benchmark for Audio Deepfake Detection in Healt 5.0分 📋 论文列表 🥇 FreezeEmpath: Efficient Training for Empathetic Spoken Chatbots with Frozen LLMs 🔥 10.0分 | #语音对话系统 #多模态模型 #迁移学习 #语音情感识别 | arxiv ...

2026-04-21 · 更新于 2026-05-20 · 13 min · 2659 words