Room compensation for loudspeaker reproduction using a supporting source

📄 Room compensation for loudspeaker reproduction using a supporting source #音频分类 #声学场景分析 #信号处理 #空间音频 🔥 评分:8.2/10 | arxiv 👥 作者与机构 第一作者:James Brooks-Park(奥尔登堡大学声学组 & “Hearing4all”卓越集群) 通讯作者:Steven van de Par(奥尔登堡大学声学组 & “Hearing4all”卓越集群)- 推断,基于其在作者列表中的最后位置及领域惯例 其他作者: Søren Bech(Bang & Olufsen A/S 研究部,奥尔堡大学电子系统系) Jan Østergaard(奥尔堡大学电子系统系) 💡 毒舌点评 亮点:巧妙利用“哈斯效应”(优先效应)和辅助声源,实现了对直达声与混响声比例的独立控制,这是传统房间均衡技术无法做到的,为高保真音响系统的房间补偿开辟了新思路。槽点:主观听音测试的样本量(8人)偏小,且均为声学专家,结论的普适性有待商榷;提出的滤波器设计在低频区域因相位相互作用仍存在性能瓶颈,离“完美补偿”还有距离。 📌 核心摘要 本文针对传统房间补偿技术仅能修正频谱(音色)而无法控制空间感知(如距离感)的局限,提出了一种创新的补偿方法。该方法通过引入一个延迟的、经过频谱滤波的辅助扬声器,选择性地向房间的混响声场中添加能量,从而在修正主扬声器频谱不规则性的同时,能够主动调节直达声与混响声比。关键创新在于利用听觉的“优先效应”将辅助声源隐藏在感知的混响场中,使其不被听为独立的声源。主观听音实验表明,该方法的性能与成熟的商业补偿算法相当,且优于未经补偿的播放和简单的反向滤波。技术分析证实了该方法能有效改变DRR,但客观频谱偏差指标略逊于传统反向滤波,凸显了主观感知与客观测量之间的差异。 🏗️ 模型架构 本论文提出的并非一个基于深度学习的“模型”,而是一种基于声学信号处理的“方法”或“系统”。其核心架构是一个双扬声器系统(主扬声器+辅助扬声器)及相应的信号处理链。 输入:原始音频信号。 输出:经过处理的、驱动主扬声器和辅助扬声器的两路信号,最终在听音位置合成目标声场。 处理流程: 信号分配:原始音频信号同时送入主扬声器路径和辅助扬声器路径。 辅助路径处理: 延迟:辅助信号被延迟Δ(t)(论文中设定为10毫秒),以激活“优先效应”,确保听觉上声像定位于主扬声器。 滤波:辅助信号通过一个精心设计的频率响应滤波器 w(ω)。该滤波器的设计目标是:当辅助扬声器的输出(经房间传输后)与主扬声器的输出在听音点叠加时,整体的功率谱响应接近一个预设的、平滑的目标响应 |d(ω)|。 去相关:为了确保两个扬声器的能量是“相加”而非“相干干涉”,辅助信号还会通过一个“天鹅绒噪声”序列进行去相关处理,改变其相位特性而不影响幅度响应。 主路径处理:主扬声器通常不进行额外处理(或仅进行基础放大),其直达声保持原样。 声学叠加:主扬声器的直达声与混响声,以及经延迟、滤波、去相关后的辅助扬声器信号(在感知上被归类为混响声)在房间中物理叠加,形成最终的听觉事件。 关键设计选择与理由: 为何用辅助声源:传统方法通过滤波器同时修改直达声和混响声,无法独立控制DRR。辅助声源提供了额外的自由度,允许仅向混响声场“注入”能量。 为何延迟10ms:这是激活优先效应的典型范围(2-50ms),10ms被选为在有效隐藏辅助声源和避免产生可察觉回声之间的折衷点。 为何滤波器设计目标是功率谱相加:由于辅助信号被延迟和去相关,它与主信号在时域上非相干,因此在能量上相加。设计目标 |d(ω)| = sqrt(|h_p(ω)|^2 + |w(ω)h_s(ω)|^2) 正是基于此能量叠加模型。 目标函数约束:为了避免辅助声源能量过大破坏优先效应,以及避免其试图抵消主扬声器能量(这可能导致不稳定或不自然听感),目标函数 d(ω) 被施加了两个约束:1) 必须不小于主扬声器响应 h_p(ω);2) 不能超过 h_p(ω) 加上一个与频率相关的阈值 T(ω)(如70-500Hz为10dB,500Hz-20kHz为6dB)。 💡 核心创新点 概念创新:通过辅助声源控制DRR:首次提出利用一个延迟的辅助扬声器,选择性地向混响声场添加能量,从而实现对直达声与混响声比的频率选择性控制。这是对传统“频谱均衡”范式的根本性扩展,将“空间补偿”纳入房间补偿范畴。 方法创新:利用优先效应隐藏辅助声源:巧妙地应用听觉心理声学原理(优先效应),通过精确的延迟和去相关处理,使辅助扬声器在物理上存在,但在感知上被整合到主扬声器的混响尾迹中,不被识别为独立声源。这解决了引入额外声源可能破坏声像定位的核心难题。 滤波器设计创新:基于能量叠加的约束优化:提出了一个基于能量叠加模型的滤波器设计公式,并创新性地引入了两大约束(避免能量抵消、避免破坏优先效应)来修正目标函数,确保了方法的物理可行性和感知稳定性。 系统优势:规避传统逆滤波的缺陷:由于修改仅作用于感知上的混响声场,该方法天然避免了传统房间逆滤波中常见的预振铃、相位失真和空间鲁棒性差等问题,因为这些伪影在直接声中会被明显感知,但在随机的混响场中则不那么显著。 🔬 细节详述 训练数据:不适用。本方法非数据驱动,无需训练集。滤波器设计基于实测的扬声器-房间脉冲响应。 损失函数:不适用。滤波器设计是基于目标频谱匹配的解析计算,而非损失函数优化。 关键超参数与实现细节: 延迟时间 Δ(t):10毫秒(在听音点测量)。 滤波器长度:2^13个采样点(在44.1kHz采样率下约0.186秒)。 频率补偿范围:70 Hz 至 20 kHz。 优先效应能量阈值 T(ω):70-500 Hz为10 dB;500 Hz-20 kHz为6 dB。 目标函数:模拟一个在恒定混响时间房间内、具有典型指向性特性的扬声器响应,表现为从20Hz到20kHz下降3dB的平滑曲线。 脉冲响应调理:为提升空间鲁棒性,采用两个相距17cm(模拟双耳间距)的麦克风位置平均功率响应,并对幅度响应进行1/3倍频程平滑。 去相关方法:使用“天鹅绒噪声”序列。 训练/推理策略:不适用。系统运行时是实时信号处理:输入音频被分路,一路直接驱动主扬声器,另一路经过延迟、滤波、去相关后驱动辅助扬声器。 📊 实验结果 主观偏好评价(图8): 对比条件:未补偿立体声、简单反向滤波、商业补偿算法、本文提出方法。 结果(偏好评分,0-100): 未补偿立体声:~60 反向滤波:~20 (显著低于其他所有条件,p<0.001) 商业算法:~70 提出方法:~75 显著性:提出方法显著优于未补偿立体声(p<0.05, Cohen‘s d=0.69)和反向滤波。提出方法与商业算法之间无显著差异(p=0.303)。 后测问卷:8名被试中无人报告感知到辅助扬声器作为独立声源存在。 技术评估(频谱偏差,表3): 指标:1/3倍频程平滑后的频谱偏差(SD),越低越好。 结果: 传统反向滤波:左右声道均为 1.1 dB 提出方法:左声道 4.5 dB,右声道 4.7 dB 结论:在纯粹的频谱匹配精度上,传统方法显著优于提出方法(平均差异约3.5 dB)。 DRR分析(图10): 模拟环境:使用RAZR软件模拟与主观实验相同的房间。 结果: 未补偿:DRR随频率升高而显著增加(符合指向性规律)。 传统补偿:DRR曲线与未补偿几乎重合,证实其无法独立控制DRR。 提出方法:DRR曲线更平坦且整体数值更低,证明其能有效向混响场添加能量并改变DRR的频率特性。 🔗 开源详情 论文中未提及任何代码、模型权重或数据集的开源计划。GitHub Issue链接指向的是arXiv论文HTML版本的错误报告页面,并非项目代码库。 ...

2026-04-19

语音/音频论文速递 2026-04-19

语音/音频论文速递 2026-04-19 共分析 42 篇论文 ⚡ 今日概览 📥 抓取 42 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音频理解 12篇 ████████████ #基准测试 10篇 ██████████ #音频大模型 9篇 █████████ #多模态模型 7篇 ███████ #信号处理 6篇 ██████ #强化学习 6篇 ██████ #自监督学习 6篇 ██████ #大语言模型 5篇 █████ 📊 论文评分排行榜(42 篇,按分数降序) 排名 论文 评分 🥇 ControlFoley: Unified and Controllable Video-to-Audio G 9.2分 🥈 ClariCodec: Optimising Neural Speech Codes for 200bps C 9.0分 🥉 X-VC: Zero-shot Streaming Voice Conversion in Codec Spa 9.0分 4 Why Your Tokenizer Fails in Information Fusion: A Timin 9.0分 5 Hijacking Large Audio-Language Models via Context-Agnos 8.8分 6 UniPASE: A Generative Model for Universal Speech Enhanc 8.5分 7 VoxSafeBench: Not Just What Is Said, but Who, How, and 8.5分 8 Who is Speaking or Who is Depressed? A Controlled Study 8.5分 9 ProSDD: Learning Prosodic Representations for Speech De 8.5分 10 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 8.5分 11 Four Decades of Digital Waveguides 8.5分 12 Audio-Cogito: Towards Deep Audio Reasoning in Large Aud 8.5分 13 An Ultra-Low Latency, End-to-End Streaming Speech Synth 8.5分 14 Listen, Pause, and Reason: Toward Perception-Grounded H 8.5分 15 Geo2Sound: A Scalable Geo-Aligned Framework for Soundsc 8.5分 16 SpotSound: Enhancing Large Audio-Language Models with F 8.5分 17 Beyond Transcription: Unified Audio Schema for Percepti 8.5分 18 CoSyncDiT: Cognitive Synchronous Diffusion Transformer 8.5分 19 Diffusion Language Models for Speech Recognition 8.5分 20 WavAlign: Enhancing Intelligence and Expressiveness in 8.5分 21 AVID: A Benchmark for Omni-Modal Audio-Visual Inconsist 8.5分 22 SpeakerRPL v2: Robust Open-set Speaker Identification t 8.3分 23 Towards Fine-grained Temporal Perception: Post-Training 8.3分 24 Room compensation for loudspeaker reproduction using a 8.2分 25 StreamMark: A Deep Learning-Based Semi-Fragile Audio Wa 8.2分 26 From Reactive to Proactive: Assessing the Proactivity o 8.2分 27 Elastic Net Regularization and Gabor Dictionary for Cla 8.2分 28 Sky-Ear: An Unmanned Aerial Vehicle-Enabled Victim Soun 8.0分 29 Contextual Biasing for ASR in Speech LLM with Common Wo 8.0分 30 A Manual Bar-by-Bar Tempo Measurement Protocol for Poly 7.8分 31 Classical Machine Learning Baselines for Deepfake Audio 7.8分 32 Adaptive Test-Time Scaling for Zero-Shot Respiratory Au 7.8分 33 Dual-Axis Generative Reward Model Toward Semantic and T 7.8分 34 Tora3: Trajectory-Guided Audio-Video Generation with Ph 7.8分 35 Few-Shot and Pseudo-Label Guided Speech Quality Evaluat 7.5分 36 VoxEffects: A Speech-Oriented Audio Effects Dataset and 7.5分 37 TokenSE: a Mamba-based discrete token speech enhancemen 7.5分 38 Audio Source Separation in Reverberant Environments usi 7.5分 39 On the Distillation Loss Functions of Speech VAE for Un 7.5分 40 Listening Deepfake Detection: A New Perspective Beyond 7.5分 41 Comparison of window shapes and lengths in short-time f 6.5分 42 Transformer Based Machine Fault Detection From Audio In 6.5分 📋 论文列表 🥇 ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling 🔥 9.2分 | #音频生成 #多模态模型 #扩散模型 #基准测试 | arxiv ...

2026-04-19

语音/音频论文速递 2026-04-18

语音/音频论文速递 2026-04-18 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #基准测试 11篇 ███████████ #音频理解 10篇 ██████████ #数据集 7篇 ███████ #音频大模型 7篇 ███████ #大语言模型 6篇 ██████ #信号处理 6篇 ██████ #音频生成 5篇 █████ #音频分类 5篇 █████ 🏆 高分论文 TOP 10 排名 论文 评分 🥇 StreamMark: A Deep Learning-Based Semi-Fragile Audio Wa 9.2分 🥈 A Manual Bar-by-Bar Tempo Measurement Protocol for Poly 8.5分 🥉 ClariCodec: Optimising Neural Speech Codes for 200bps C 8.5分 4 UniPASE: A Generative Model for Universal Speech Enhanc 8.5分 5 Who is Speaking or Who is Depressed? A Controlled Study 8.5分 6 SpeakerRPL v2: Robust Open-set Speaker Identification t 8.5分 7 ProSDD: Learning Prosodic Representations for Speech De 8.5分 8 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 8.5分 9 X-VC: Zero-shot Streaming Voice Conversion in Codec Spa 8.5分 10 An Ultra-Low Latency, End-to-End Streaming Speech Synth 8.5分 📄 StreamMark: A Deep Learning-Based Semi-Fragile Audio Watermarking for Proactive Deepfake Detection #音频安全 #音频深度伪造检测 #语音伪造检测 #基准测试 ...

2026-04-18