FUN-SSL: Full-Band Layer Followed by U-Net With Narrow-Band Layers for Multiple Moving Sound Source Localization

📄 FUN-SSL: Full-Band Layer Followed by U-Net With Narrow-Band Layers for Multiple Moving Sound Source Localization #声源定位 #U-Net #深度学习 #麦克风阵列 🔥 8.0/10 | 前25% | #声源定位 | #U-Net | #深度学习 #麦克风阵列 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:未说明(论文中未明确标注第一作者,作者列表按姓氏排序) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表:Yuseon Choi(光州科学技术院, Deeply Inc.)、Hyeonseung Kim(光州科学技术院)、Jewoo Jun(光州科学技术院)、Jong Won Shin(光州科学技术院) 💡 毒舌点评 亮点:论文的“性价比”极高,通过引入成熟的U-Net架构和深度可分离卷积,在模型参数量几乎不变的情况下,将计算复杂度(FLOPs)降低了近一半,同时定位精度还有小幅提升,这在面向实时部署的边缘计算场景下具有很强的吸引力。 短板:模型在更贴近真实、更具挑战性的LOCATA数据集上,性能相比基线IPDnet并未取得明显优势,这暗示其在极端复杂声学环境下的泛化能力或改进效果可能存在天花板,创新性稍显不足。 🔗 开源详情 代码:论文中未提及FUN-SSL的代码仓库链接。但提供了基线模型IPDnet的官方代码链接:https://github.com/Audio-WestlakeU/FN-SSL。 模型权重:未提及公开预训练模型权重。 数据集:论文使用了公开的模拟数据集生成方法和LOCATA挑战数据集,但未提供生成的模拟数据集本身。 Demo:未提及在线演示。 复现材料:论文给出了充分的训练细节、网络参数配置(如通道数C1, C2)、以及关键的消融实验设计,为研究者复现工作提供了明确的指引。 论文中引用的开源项目:引用了IPDnet的官方代码仓库、gpuRIR(房间脉冲响应生成库)、LibriSpeech(语音语料库)、NOISEX-92(噪声数据库)。 📌 核心摘要 这篇论文针对多移动声源定位任务中现有高性能模型(如IPDnet)计算复杂度过高的问题,提出了一种名为FUN-SSL的新颖神经网络架构。其方法核心是将原有的全窄带处理块(FN-block)替换为“全带层+U-Net窄带层”(FUN-block),在保持全带处理以捕捉频间相关性的同时,利用U-Net结构在多个分辨率上高效地建模时序依赖。主要创新在于模块化设计和引入了模块间的跳跃连接以丰富信息流。实验结果表明,在模拟数据集上,FUN-SSL(0.8M参数)在粗粒度准确率(94.2%)、细粒度误差(1.9°)和误警率(5.8%)上均优于重新训练的IPDnet(0.7M参数,对应指标为93.0%、2.0°、7.1%),同时计算量(FLOPs)从19.4G/s降至10.8G/s。该工作的实际意义在于为资源受限设备(如麦克风阵列)上的实时多声源跟踪提供了更高效的解决方案。主要局限性在于其在真实世界LOCATA数据集上的性能与基线模型相当,未展现出显著优势。 ...

2026-04-29

FUSEMOS: Perceptual Evaluation of Text-to-Music Generation with Dual-Encoder Fusion and Ranking-Aware Composite Loss

📄 FUSEMOS: Perceptual Evaluation of Text-to-Music Generation with Dual-Encoder Fusion and Ranking-Aware Composite Loss #音乐生成 #模型评估 #预训练 #对比学习 #多任务学习 ✅ 7.5/10 | 前25% | #音乐生成 | #多任务学习 | #模型评估 #预训练 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Jing Yang(武汉大学电子信息学院, MiLM Plus (小米)) 通讯作者:Ningning Pan(西南财经大学计算机与人工智能学院), Gongping Huang(武汉大学电子信息学院) 作者列表:Jing Yang(武汉大学电子信息学院, MiLM Plus (小米)), Haoyu Wang(西南财经大学计算机与人工智能学院, MiLM Plus (小米)), Ningning Pan(西南财经大学计算机与人工智能学院, 通讯作者), Zhao Wang(MiLM Plus (小米)), Jianxuan Yang(MiLM Plus (小米)), Gongping Huang(武汉大学电子信息学院, 通讯作者) 💡 毒舌点评 亮点:非常务实地解决了T2M评估中的一个痛点——单一CLAP编码器“懂语义不懂音乐”,通过双编码器融合显著提升了评估精度,消融实验做得扎实有力。短板:虽然方法有效,但核心创新(融合两个预训练模型+设计一个损失)在深度学习领域属于常见套路,且论文缺乏对模型推理速度或轻量化可能性的讨论,这在实际部署评估系统时是个关键问题。 ...

2026-04-29

Fusion of Multimodal Estimations by Extended State Hidden Markov Model: Application to Fetal Heart Rate Monitoring

📄 Fusion of Multimodal Estimations by Extended State Hidden Markov Model: Application to Fetal Heart Rate Monitoring #生物声学 #信号处理 #多任务学习 #医疗 ✅ 7.0/10 | 前50% | #生物声学 | #信号处理 | #多任务学习 #医疗 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Baptiste Rault(Université Grenoble Alpes, CNRS, UMR 5525, VetAgro Sup, Grenoble INP, TIMC) 通讯作者:Bertrand Rivet(未明确说明,但提供了邮箱;机构为Université Grenoble Alpes, CNRS, Grenoble INP, GIPSA-lab) 作者列表:Baptiste Rault(Université Grenoble Alpes, CNRS, UMR 5525, VetAgro Sup, Grenoble INP, TIMC)、Julie Fontecave-Jallon(Université Grenoble Alpes, CNRS, UMR 5525, VetAgro Sup, Grenoble INP, TIMC)、Bertrand Rivet(Université Grenoble Alpes, CNRS, Grenoble INP, GIPSA-lab) 💡 毒舌点评 亮点:扩展HMM状态变量以显式建模“观测是目标信号、混淆信号还是噪声”的思路巧妙且可解释,有效提升了融合算法在真实临床数据上的抗混淆能力(FuSEmHR的RMC中位数降至1.5%)。短板:算法复杂度急剧增加(融合1分钟数据从35ms升至8秒),且最终版本严重依赖可靠的参考信号(mHR),限制了其在未知或不稳定干扰下的应用;更遗憾的是,论文未开源任何代码或数据,让“可复现性”成了一纸空文。 ...

2026-04-29

FxSearcher: Gradient-Free Text-Driven Audio Transformation

📄 FxSearcher: Gradient-Free Text-Driven Audio Transformation #音频生成 #贝叶斯优化 #CLAP #音频效果处理 #无梯度优化 ✅ 7.0/10 | 前50% | #音频生成 | #贝叶斯优化 | #CLAP #音频效果处理 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Hojoon Ki (Korea Advanced Institute of Science and Technology, KAIST) 通讯作者:未说明 作者列表:Hojoon Ki (Korea Advanced Institute of Science and Technology, KAIST), Jongsuk Kim (Korea Advanced Institute of Science and Technology, KAIST), Minchan Kwon (Korea Advanced Institute of Science and Technology, KAIST), Junmo Kim (Korea Advanced Institute of Science and Technology, KAIST) 💡 毒舌点评 这篇论文巧妙地将贝叶斯优化与CLAP结合,绕过了音频效果链必须可微的“紧箍咒”,为文本驱动音频变换打开了一扇新门,其工程思路可圈可点。然而,其核心理论贡献(如“引导提示”策略)更像是一种经验性的启发式技巧,缺乏更深入的理论分析或广泛的适用性证明,使其更像是一个精心调优的“系统工程”而非一个具有深远影响力的理论突破。 ...

2026-04-29

Game-Time: Evaluating Temporal Dynamics in Spoken Language Models

📄 Game-Time: Evaluating Temporal Dynamics in Spoken Language Models #基准测试 #模型评估 #语音大模型 #全双工通信 ✅ 7.5/10 | 前25% | #语音对话系统 | #基准测试 | #模型评估 #语音大模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Kai-Wei Chang1(麻省理工学院),En-Pei Hu2(台湾大学) (*表示共同第一作者) 通讯作者:未说明 (论文中未明确标注通讯作者) 作者列表:Kai-Wei Chang (麻省理工学院), En-Pei Hu (台湾大学), Chun-Yi Kuan (台湾大学), Wenze Ren (台湾大学), Wei-Chih Chen (台湾大学), Guan-Ting Lin (台湾大学), Yu Tsao (中央研究院), Shao-Hua Sun (台湾大学), Hung-yi Lee (台湾大学), James Glass (麻省理工学院) 💡 毒舌点评 亮点:选题精准地击中了当前语音对话模型“懂内容,不懂时间”的痛点,并创新性地将儿童语言学习中的“游戏化”概念引入评测框架设计,思路新颖且系统。短板:实验规模(模型数量与评测样本)相对有限,且高度依赖外部工具(如Whisper转录、Gemini作为Judge)进行评估,使得评测流程的自主性与结果的绝对可靠性存在一定折扣。 ...

2026-04-29

Gdiffuse: Diffusion-Based Speech Enhancement with Noise Model Guidance

📄 Gdiffuse: Diffusion-Based Speech Enhancement with Noise Model Guidance #语音增强 #扩散模型 #领域适应 #鲁棒性 ✅ 7.0/10 | 前25% | #语音增强 | #扩散模型 | #领域适应 #鲁棒性 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Efrayim Yanir(特拉维夫大学) 通讯作者:未说明 作者列表:Efrayim Yanir(特拉维夫大学)、David Burshtein(特拉维夫大学)、Sharon Gannot(巴伊兰大学) 💡 毒舌点评 论文巧妙地将一个庞大的语音生成扩散模型“冻结”起来,仅用一个172参数的噪声模型通过测试时训练进行“遥控”,实现了对新噪声的灵活适应,这个“四两拨千斤”的思路确实新颖。然而,论文声称“噪声统计在训练和推理间保持稳定”是核心假设,但仅用20秒噪声片段训练就断言其统计特性稳定可靠,这个前提在复杂多变的现实声学环境中显得有些理想化,可能成为其实用性的阿喀琉斯之踵。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:论文中未提及公开的预训练权重链接。文中提到使用UnDiff项目预训练的DiffWave,但未给出其具体获取方式。 数据集:训练和测试使用了LibriSpeech(公开)和BBC Sound Effects Archive(公开)。但论文未提供其处理后的具体数据划分或下载脚本。 Demo:论文提供了一个示例网站链接:https://ephiephi.github.io/GDiffuSE-examples.github.io,可能包含音频示例。 复现材料:论文描述了噪声模型的具体架构(WaveNet风格CNN,参数细节)、指导调度公式(11)及超参数(γ, λ_max),以及训练轮数的大致范围,提供了一定的复现基础。但优化器学习率、噪声样本的具体处理方式等细节未充分说明。 引用的开源项目:提到了UnDiff [15](用于获取预训练DiffWave)和WaveNet [20](噪声模型架构的灵感来源)。 开源计划:论文中未提及明确的后续开源计划。 📌 核心摘要 问题:传统判别式语音增强模型在匹配条件下表现好,但面对未见过的噪声类型时泛化能力差,易产生伪影。现有的生成式(特别是基于扩散的)语音增强方法虽然性能优越,但往往需要为每种预期噪声专门训练庞大的模型,适应性差且成本高。 方法核心:提出GDiffuSE,一个基于去噪扩散概率模型(DDPM)的语音增强框架。其核心是利用一个极轻量(172参数)的噪声模型,在测试时通过少量目标噪声样本进行快速训练。在扩散模型的反向生成过程中,利用该噪声模型的似然函数梯度作为“指导信号”,引导一个预训练的、冻结的语音生成扩散模型(DiffWave)生成干净语音。 新意:与现有方法(如直接条件扩散或需重训大模型)不同,GDiffuSE首次将DDPM引导机制与测试时训练相结合,并专门针对语音增强设计了噪声模型指导策略。它解耦了通用语音先验学习和特定噪声适应,使系统能快速适应新噪声。 实验:在LibriSpeech干净语音与BBC音效库噪声混合的数据上进行评估。结果表明,在失配噪声条件下(特别是高频噪声),GDiffuSE在PESQ和SI-SDR指标上持续优于基线方法SGMSE(在WSJ0和TIMIT上训练)和CDiffuSE。例如,在5dB SNR下针对高频噪声,GDiffuSE的SI-SDR为11.25±3.21,而sgmseWSJ0为9.43±2.64,CDiffuSE为3.66±3.23。频谱图也显示其抑制噪声更有效。 实际意义:提供了一种快速、低成本地将强大语音生成模型适应到新噪声环境的可能方案,降低了先进语音增强技术的部署门槛。 主要局限性:核心假设——训练噪声样本与推理时噪声统计一致——在现实中可能不总是成立;实验对比基线相对有限;未充分探讨当噪声统计发生显著变化时模型的失效模式;训练噪声片段(20秒)的充分性有待更全面验证。 🏗️ 模型架构 GDiffuSE系统包含两个主要组件,在训练和推理阶段协同工作,如图1所示。 ...

2026-04-29

Gelina: Unified Speech and Gesture Synthesis Via Interleaved Token Prediction

📄 Gelina: Unified Speech and Gesture Synthesis Via Interleaved Token Prediction #语音合成 #手势生成 #自回归模型 #流匹配 #多模态模型 ✅ 7.0/10 | 前50% | #语音合成 | #自回归模型 | #手势生成 #流匹配 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Téo Guichoux(ISIR, Sorbonne Université;STMS Lab – IRCAM, Sorbonne Université) 通讯作者:未说明 作者列表:Téo Guichoux(ISIR, Sorbonne Université;STMS Lab – IRCAM, Sorbonne Université), Théodor Lemerle(STMS Lab – IRCAM, Sorbonne Université), Shivam Mehta(KTH皇家理工学院), Jonas Beskow(KTH皇家理工学院), Gustav Eje Henter(KTH皇家理工学院), Laure Soulier(ISIR, Sorbonne Université), Catherine Pelachaud(ISIR, Sorbonne Université;CNRS), Nicolas Obin(STMS Lab – IRCAM, Sorbonne Université) 💡 毒舌点评 这篇论文的亮点在于其“交错token预测”的架构设计直觉上非常优雅,为多模态序列建模提供了一个统一且时序对齐的方案,并在同步性上取得了可观的实验结果。然而,其最大的短板在于“统一”的代价——它在语音生成质量上显著落后于最新的纯语音SOTA(如CosyVoice-2),在手势丰富度(如手指)上也进行了简化,这使其宣称的“统一”和“竞争”显得有些取舍过重,更像是一次有潜力的概念验证而非成熟的系统性方案。 ...

2026-04-29

Gen-SER: When the Generative Model Meets Speech Emotion Recognition

📄 Gen-SER: When the Generative Model Meets Speech Emotion Recognition #语音情感识别 #流匹配 #预训练 #生成模型 ✅ 6.5/10 | 前50% | #语音情感识别 | #流匹配 | #预训练 #生成模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Taihui Wang(腾讯多模态模型部门、腾讯AI Lab) 通讯作者:未说明 作者列表:Taihui Wang(腾讯多模态模型部门、腾讯AI Lab),Jinzheng Zhao(腾讯多模态模型部门、腾讯AI Lab),Rilin Chen(腾讯多模态模型部门、腾讯AI Lab),Tong Lei(腾讯AI Lab),Wenwu Wang(萨里大学视觉、语音和信号处理中心),Dong Yu(腾讯AI Lab) 💡 毒舌点评 亮点在于创造性地将分类任务转化为生成模型的分布传输问题,并设计了“正弦分类编码”来规避传统自编码器的缺陷。然而,论文的实验说服力严重不足,不仅未与文中明确提出的最强基线(SenseVoice-L)进行公平、深入的对比分析,而且只在有限的任务上验证了有效性,缺少对核心设计选择的必要消融实验,让人对结论的普适性打上问号。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用了多个公开英文情感语音数据集(如MELD, RAVDESS等)和一个内部数据集。公开数据集可自行获取,内部数据集未公开。 Demo:未提及。 复现材料:论文提供了主要的超参数(学习率、batch size、训练步数、模型结构尺寸),但缺失关键生成模型的调度参数(k, σ)、优化器类型、硬件信息等,不足以完成复现。 引用的开源项目:依赖HuBERT(chinese-hubert-large模型)。 📌 核心摘要 问题:本文旨在为语音情感识别提供一种区别于传统分类器和大语言模型的新范式。 方法核心:将SER重新定义为一个“分布传输”问题。具体为:使用预训练HuBERT提取语音特征(初始分布),用提出的“正弦分类编码”将离散情感标签映射为连续的目标嵌入向量(终端分布),然后训练一个基于“目标匹配”的生成模型,学习将初始分布传输到终端分布。 创新点:与已有方法相比,1) 首次将生成模型用于SER的分布传输而非密度估计或条件生成;2) 提出无需训练的“正弦分类编码”方法,将标签映射为正交连续向量;3) 采用具有logistic均值和桥方差调度的目标匹配模型,提升生成效率与稳定性。 主要实验结果:在MELD测试集上,本方法(Ours)达到56.5%的准确率,优于多数基于分类和LLM的基线(如Qwen-audio 55.7%),但低于SenseVoice-L(63.1%)。在性别分类任务(Air-Bench)上,本方法(90.5%)超越了所有对比基线。图表显示生成向量随时间步从语音特征平滑变化到目标向量。 实际意义:为语音理解任务(如SER)提供了一种基于生成模型的新思路,其方法可能扩展到其他分类任务。 主要局限性:1) 实验对比不充分,未深入分析与最强基线的差距原因;2) 验证任务和数据集有限;3) 缺少对正弦编码、生成调度等核心组件的消融研究;4) 论文未开源代码和模型,复现困难。 🏗️ 模型架构 模型架构(Gen-SER)包含特征提取、目标生成和生成传输三个核心部分,整体流程如下图所示: 图1展示了不同时间步(t)下,从初始语音特征向量x1((a))逐步演变为目标类别向量x0((f))的平均过程,验证了分布传输的有效性。 ...

2026-04-29

Generalizability of Predictive and Generative Speech Enhancement Models to Pathological Speakers

📄 Generalizability of Predictive and Generative Speech Enhancement Models to Pathological Speakers #语音增强 #迁移学习 #扩散模型 #鲁棒性 #数据集 ✅ 7.0/10 | 前50% | #语音增强 | #迁移学习 | #扩散模型 #鲁棒性 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Mingchi Hou(Idiap Research Institute, Switzerland; École Polytechnique Fédérale de Lausanne, Switzerland) 通讯作者:未说明 作者列表:Mingchi Hou(Idiap Research Institute, Switzerland; École Polytechnique Fédérale de Lausanne, Switzerland)、Ante Jukić(NVIDIA, USA)、Ina Kodrasi(Idiap Research Institute, Switzerland) 💡 毒舌点评 这篇论文填补了SOTA语音增强模型在病理语音上性能评估的关键空白,是领域内一个��实且必要的“体检报告”。但其短板在于结论的深度略显不足——在发现“病理语音特性导致性能下降”和“迁移微调优于其他方案”这些相对符合直觉的结论后,未能进一步挖掘病理类型的异质性或提出更针对性的适配机制,更像是一份扎实的基准测试报告而非一篇有深度的方法论文。 ...

2026-04-29

Generating Localized Audible Zones Using a Single-Channel Parametric Loudspeaker

📄 Generating Localized Audible Zones Using a Single-Channel Parametric Loudspeaker #空间音频 #麦克风阵列 #信号处理 #音频生成 ✅ 6.5/10 | 前50% | #空间音频 | #麦克风阵列 | #信号处理 #音频生成 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Tao Zhuang(南京大学现代声学实验室;南京大学-地平线智能音频联合实验室) 通讯作者:未说明 作者列表:Tao Zhuang(南京大学现代声学实验室;南京大学-地平线智能音频联合实验室),Shaozhe Li(南京大学现代声学实验室;南京大学-地平线智能音频联合实验室),Feng Niu(国家计量院力学与声学部),Jia-Xin Zhong(宾夕法尼亚州立大学声学研究生项目),Jing Lu(南京大学现代声学实验室;南京大学-地平线智能音频联合实验室) 💡 毒舌点评 亮点在于概念上的巧妙“偷天换日”,将多通道阵列处理所需的物理通道数,通过超声波非线性效应“虚拟”出来,从而用单一物理扬声器硬件实现了复杂声场控制,思路新颖且具启发性。短板则是这篇顶会论文的实验部分显得过于“理论”,仅停留在自由场条件的数值仿真,缺乏任何硬件原型搭建与实测数据验证,使得从“概念可行”到“实际可用”的距离依然模糊,论文的说服力因此大打折扣。 🔗 开源详情 论文中未提及任何开源计划,包括代码、模型权重、数据集、Demo或复现材料。也未列出所依赖的开源项目。 📌 核心摘要 本文针对传统声音区域控制(SZC)系统依赖多通道扬声器阵列、硬件复杂的瓶颈,提出了一种单通道多载波参量扬声器(MCPL)方案。其核心是将不同音频信号调制到多个不同频率的超声波载波上,合成单路信号后由单一换能器发射,利用空气的非线性自解调效应,在空气中虚拟出多个独立的音频通道,从而将为传统阵列设计的SZC算法直接应用于此虚拟通道。与已有双载波方法相比,该方案推广至N个载波,提供了更强的声场控制自由度。仿真实验表明,该方案能有效缩短声音的传播距离(例如,1kHz音频下,4载波系统的有效传播距离从传统PL的约7米缩短至1.8米),并生成局部化的听音区,验证了该方法在简化硬件系统的同时维持SZC性能的潜力。该工作的主要局限是所有结论均基于数值模拟,未进行实际硬件实验,且未讨论复杂声学环境下的鲁棒性。 🏗️ 模型架构 该系统并非传统意义上的深度学习模型,而是一个基于声学物理原理的信号处理与控制系统。其架构流程如下: 输入:一个音频信号 audio_signal(频率为fa)。 多载波调制(数字域):将该音频信号调制到N个频率不同(fc,1, fc,2, …, fc,N)的超声波载波上。每个载波通道 n 生成两个边带信号 wu,n 和 wu,n,分别控制下边带和上边带的幅度和相位,得到调制信号 sn(t)。 信号合成(数字域):将所有调制后的信号 sn(t) 相加,生成一个单一的复合电信号 s(t)。这是整个系统唯一的物理输出信号。 数模转换与发射:单一通道信号 s(t) 经过单个DAC转换为模拟信号,驱动单个超声波换能器阵列(文中称为“单通道参量扬声器”)。 空气非线性解调(物理域):发射出的超声波复合信号在空气中传播时,由于空气的非线性特性,不同载波频率的信号之间发生相互作用,自解调产生音频信号。论文的核心论点在于,当各载波频率间距足够大(>20kHz)时,最终产生的总音频声压 pa(r, ωa) 是各虚拟通道贡献的线性叠加,如公式(6)所示:pa = Σ wn * Ha,n。这等效于创建了N个虚拟的、由权重 wn 控制的独立音频源通道。 声场控制:基于这个虚拟的多通道模型,应用经典的声学对比度控制(ACC)算法。通过优化权重向量 w = [w1, ..., wN]T,最大化目标“亮区”与“暗区”之间的声压平方比(公式9-10),从而生成所需的局部化听音区。 图1:(a) 展示了圆形MCPL在平面内生成亮区和暗区的示意图。(b) 是信号流程图,清晰地展示了音频信号如何调制到N个载波,合成单一信号 s(t),并通过空气解调形成N个虚拟通道,最终辐射出所需的音频声场。 ...

2026-04-29