论文速递 | 语音/音乐/音频论文速递

Single frequency filtering based multi-speaker direction of arrival estimation from stereo recordings

📄 Single frequency filtering based multi-speaker direction of arrival estimation from stereo recordings #信号处理基础 #语音增强 7/10 | 创新 1/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7/10 | 前50% | #语音增强 | #信号处理基础 | arxiv 👥 作者与机构 Sushmita Thakallapalli (1), Sudarsana Reddy Kadiri (2), Nilesh Madhu (3), Suryakanth V Gangashetty (1) International Institute of Information Technology, Hyderabad, India University of Southern California, USA Ghent University - imec, Belgium 💡 毒舌点评这篇论文就像一位精心调校的老派工程师，对信号处理的经典工具（GCC, SFF）进行了系统性的“体检”和“改装”。优点在于实验做得扎实、数据集公开、对比公平，甚至“发明”了一套让SFF和STFT参数可比的方法，这份严谨在信号处理领域值得尊敬。缺点是创新性确实乏力，SFF-PHAT-env本质上就是给已有的SFF-env“贴了张PHAT的标签”，核心思想是“拿来主义+微调”，在深度学习横行的今天显得有些“复古”。摘要里罗列四大贡献点，读起来像在凑数，反而让核心贡献模糊了。更致命的是，没有提供代码，对于一个强调“公平对比”和“参数选择方法”的论文来说，这极大削弱了其可复现性和说服力——毕竟，谁愿意去调那些神秘的\(r\)值和字典大小呢？总的来说，这是一篇扎实但缺乏惊喜的信号处理工作，适合作为基准论文，而非开创性研究。 ...

SpeechDx: A Multi-Task Benchmark for Clinical Speech AI

📄 SpeechDx: A Multi-Task Benchmark for Clinical Speech AI #语音识别 #语音合成 #语音增强 7.6/10 ✅ 7.6/10 | 前25% | #语音识别 | #语音合成 | #语音增强 | arxiv 👥 作者与机构作者：Sejal Bhalla， Larry Kieu， Aina Merchant， Eyal de Lara， Alex Mariakakis 机构：多伦多大学 💡 毒舌点评这篇论文就像是临床语音AI领域的“标准化考试大纲”——它精心设计了“考场”（基准），并给所有“考生”（模型）安排了“统一考试”（线性探测）。考试题目（任务）的分类法（按言语生产机制）设计得颇有生物启发性，这比随意堆砌任务要高级不少。最大的亮点是“考试成绩”很诚实：考出了当前所有“考生”的“偏科”现象（领域特定模型的局限性）和“集体短板”（跨条件泛化失败）。然而，这份“考试大纲”的“试题库”（数据集）本身就存在“出题不公”（标签噪声、生态效度）和“地域偏见”（英语为主）的问题，这在一定程度上削弱了“考试”结论的绝对说服力。作者在讨论“考试”局限性时还算坦诚，但“考试”后的“错题本”分析（失败分析、可解释性）做得不够深入。总的来说，它是一份扎实的“考卷”，但“考生”们离“满分毕业”（临床部署）还远着呢。 📌 核心摘要本文针对临床语音AI领域因数据集孤立、评估协议不一致导致的难以比较结果和评估泛化能力的困境，提出了SpeechDx基准。该基准包含12个公开数据集、27个任务，其核心创新在于依据Berisha和Liss提出的言语生产生理阶段框架，将任务划分为概念化、构思和发音三个类别。利用该基准，作者系统评估了12个代表不同预训练范式（自监督、监督、领域特定）和数据规模的音频编码器。评估分为两部分：一是所有任务上的线性探测性能，二是零样本跨条件迁移性能。主要结论是：大规模通用语音模型（如Whisper, Qwen3）表现最稳健；领域特定模型（如emotion2vec+）仅在紧密匹配的狭窄任务上有优势；当前尚无一种表示能够可靠地泛化到整个临床语音景观。零样本迁移分析揭示了跨条件学习的非对称性，例如从低级声学特征（如呼吸/发声）向高级认知任务（如概念化）的迁移效果优于反向。 🔗 开源详情代码：提供了匿名代码仓库链接：https://anonymous.4open.science/r/SpeechDx-F584。模型权重：论文中未提供所评估模型（如wav2vec 2.0, Whisper等）的权重下载链接。这些权重需从各模型原始出处获取。数据集：论文中列出了12个数据集的详细信息和访问方式（见附录A表2）。大部分数据集需申请访问或遵循特定许可证。 Demo：未提及。复现材料：论文在附录D和E中提供了详细的实验复现信息，包括数据增强、训练设置、超参数优化方法及数据效率分析配置。所有复现脚本和说明包含在代码仓库中。论文中引用的开源项目： SpeechBrain：用于数据增强（编号[81, 82]）。 🏗️ 方法概述和架构 SpeechDx的基准方法流程可分为数据准备、模型评估和迁移分析三个核心阶段，其架构体现了系统性与可复现性的设计思想。数据准备与任务定义：数据集整合与划分：基准整合了12个公开的临床语音数据集（如表1所示）。对于每个数据集，论文明确了数据划分策略：优先使用官方划分；若无，则采用基于说话人隔离的策略，包括70/10/20的训练/验证/测试集划分（针对说话人数量大的数据集）或5折交叉验证（针对说话人数量小的数据集）。所有划分均尽可能按标签、性别和年龄进行分层。特别地，针对COVID-19 Sounds数据集中存在的说话人泄漏问题，作者替换了其官方划分，采用了自定义的说话人隔离划分。任务分类与形式化：所有27个任务被系统地归类到三个言语生产阶段：概念化（如抑郁检测、情绪分类）、构思（如痴呆检测、失语症检测）和发音。任务类型包括分类（C）、多标签分类（M）和回归（R）。表1详细列出了每个任务的ID、类型、划分方式及样本量。模型评估协议：模型选择：评估了12个覆盖不同范式和规模的音频/语音编码器，具体模型列表见表4及附录C。这些模型分为三大类：语音模型（如wav2vec 2.0， HuBERT， Whisper）、通用音频模型（如AudioMAE， AST）和领域特定模型（如emotion2vec+， OPERA-GT）。线性探测：核心评估方法采用冻结预训练编码器权重、仅训练顶层线性层的线性探测协议。编码器输出经过平均池化以处理变长输入。对于分类任务，线性层输出类别数维度的logits；对于回归任务，输出单个值。这种方法计算高效，且在小数据量临床任务中可减少过拟合风险。实现细节：所有音频预处理为16kHz单声道并归一化。嵌入提取在8xH100 GPU上进行，耗时约288 GPU小时。线性层训练使用交叉熵损失（分类）或加权MSE损失（回归），并通过逆频率加权处理类别不平衡。超参数（学习率、权重衰减）通过Optuna在5次试验中基于验证损失进行优化。数据增强（添加噪声、混响、速度扰动）仅应用于训练集，使用SpeechBrain库实现。零样本跨条件迁移分析： ...

Synergizing Zero-Shot Cross-Lingual Alzheimer Detection with Language-Invariant Multimodal Bi-Geometric Adversarial Learning

📄 Synergizing Zero-Shot Cross-Lingual Alzheimer Detection with Language-Invariant Multimodal Bi-Geometric Adversarial Learning 9.1/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9.1/10 | 前25% | arxiv 👥 作者与机构论文作者：Girish Akhtar, Mohd Mujtaba Akhtar, Farhan Sheth, Muskaan Singh, Juliana Gerard, Paula McClean, Kongfatt Wong-Lin。机构：Ulster University, UK, 以及 Manipal University, India。 💡 毒舌点评这篇论文试图用一个极其复杂的“全家桶”框架（ORBIT）来解决一个重要的实际问题（跨语言阿尔茨海默病检测）。动机是好的，但实现方式令人困惑。他们仿佛将对抗学习、双曲几何、球面几何、原型分类、聚类等时髦技术一股脑地塞进一个模型，却没有给出足够有说服力的理由来解释为什么需要如此“过度设计”。消融实验（表3）看似验证了每个部件的必要性，但本质上只是“移除部件导致性能下降”的弱论证，无法回答“是否存在一个更简洁、更优雅的方案能达到同等效果”这一核心问题。在仅有几百个样本的微小、异质数据集上进行如此复杂的建模，极易导致模型过拟合到数据噪声和特定实验设置，其宣称的“语言不变性”也缺乏直接的证据（如可视化或语言分类器验证）。论文更像是一场工程上的技术集成展示，而非一次深入的科学探索。 📌 核心摘要本文研究零样本跨语言语音阿尔茨海默病检测（SADD）。其核心假设是，通过融合多语言语音与文本预训练模型来学习语言不变的多模态表示，对于向未见语言可靠迁移至关重要。为此，论文提出了ORBIT框架，该框架结合了双向交叉注意力融合、多层语言对抗学习（应用于融合表示、双几何投影及聚类分配层），以及基于球面与双曲几何的互补结构学习与原型分类。在构建的包含英语、西班牙语、中文、希腊语的多语言SADD基准数据集上，ORBIT在零样本跨语言评估（LOLO， LTLO）中展现出优于单模态基线和简单融合方法的性能。 ...

Transductive Zero-Shot Audio Classification with Audio-Language Models

📄 Transductive Zero-Shot Audio Classification with Audio-Language Models #音频分类 #测试时自适应 6.4/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0.1/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 6.4/10 | 前50% | #音频分类 | #测试时自适应 | arxiv 👥 作者与机构作者：Jingwen Zhou, Mingzhe Wang 机构：论文中未明确说明作者机构。 💡 毒舌点评这篇论文的工作是扎实的，但“首次系统研究”的声明需要谨慎对待。将TransCLIP直接应用于CLAP，技术上的新颖性有限，更像是一次成功的应用迁移。最大的亮点在于对操作边界（N/C ≳ 2.5）的清晰量化，这为实践者提供了有价值的部署指南。然而，论文的弱点同样明显：所有结论都建立在单一的、已有的laion/clap-htsat-unfused模型上，这严重限制了结论的普适性。此外，与熵引导方法的“组合”实验设计略显取巧，两者操作在不同侧（音频vs文本），其互补性并不令人意外。在音频领域，当零样本基线本身很差时（如TUT场景），该方法完全失效，这暴露了其“放大器”而非“创造器”的本质局限。总体而言，这是一篇合格的、有实用价值的系统性研究，但距离突破性工作尚有差距。 📌 核心摘要本文针对CLAP音频-语言模型的零样本推理中，每个测试片段被独立分类而忽略测试集整体结构的问题，提出了一种简洁的传递推断方法。该方法将TransCLIP框架适配到CLAP：首先利用冻结的CLAP编码器获取音频片段和文本提示的嵌入，并计算初始的零样本后验概率。随后，在一个无标签的测试批次上，采用文本锚定的球形高斯混合模型-期望最大化（GMM-EM）进行迭代优化。在EM算法中，M步将每个类别的均值向量更新为当前后验加权的音频嵌入和（并归一化到单位球面），E步则利用更新后的类均值重新计算后验，该步骤融合了从音频数据估计的似然和固定的文本先验（通过参数β平衡）。该过程无需任何标签或梯度更新，计算成本极低。实验表明，在ESC-50、UrbanSound8K和VocalSound数据集上，该方法能一致性地提升零样本准确率。论文还系统研究了方法生效的条件，发现其性能增益取决于每批次每类别的样本数（N/C），并揭示了方法与基于熵的提示加权在音频侧和文本侧的互补性。此外，论文诚实地报告了长尾分布和零样本对齐缺失场景下的性能衰减。 🔗 开源详情代码：论文中未提供代码链接（论文中提及“Code, scripts, and precomputed embeddings will be released upon publication”，但未给出具体URL）。模型权重：laion/clap-htsat-unfused (HuggingFace: https://huggingface.co/laims/clap-htsat-unfused) 数据集： ESC-50: HuggingFace Mirror: https://huggingface.co/datasets/ashraq/esc50 UrbanSound8K: HuggingFace Mirror: https://huggingface.co/datasets/danavery/urbansound8K VocalSound: HuggingFace Mirror: https://huggingface.co/datasets/lmms-lab/vocalsound TUT Urban Acoustic Scenes 2018: HuggingFace Mirror: https://huggingface.co/datasets/mteb/tut-acoustic-scenes-mini Demo：论文中未提及。复现材料：论文中提及将发布预计算嵌入，但未提供具体下载链接。论文中引用的开源项目： CLAP (Contrastive Language-Audio Pretraining): https://github.com/LAION-AI/CLAP TransCLIP: https://github.com/seokhyun0201/TransCLIP Entropy-guided prompt weighting: 论文中引用了相关工作[22] (https://arxiv.org/abs/2305.18975)，但未提供本方法的具体代码库链接。 CLIP: 论文中引用了原作[4] (https://github.com/openai/CLIP)。 🏗️ 方法概述和架构本文方法的核心是将在视觉-语言模型CLIP上验证的传递推断框架TransCLIP，适配并简化后应用于音频-语言模型CLAP。整体流程分为两个阶段：零样本CLAP推理与文本锚定的传递GMM-EM优化。 ...

Turning music identification into a neural forward pass

📄 Turning music identification into a neural forward pass #音频分类 #音频指纹 #数据增强 #Transformer 7.4/10 | 创新 1.3/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.4/10 | 前50% | #音频分类 | #Transformer | #音频指纹 #数据增强 | arxiv 👥 作者与机构 Muhammad Taimoor Haseeb, Ahmad Hammoudeh, Gus Xia。机构：穆罕默德·本·扎耶德人工智能大学 (MBZUAI)，Music X Lab，阿联酋。其中Haseeb和Hammoudeh贡献均等。 💡 毒舌点评这篇论文的立意相当迷人，试图用一个“系统1”式的神经直觉来替代“系统2”式的繁琐检索，概念上很性感。作者在音乐识别这个相对清晰的测试场上，展示了这种范式的可行性，实验设计也比较严谨，甚至考虑了持续学习和开放集这些实际问题。但是，实验的规模限制在25,000条轨道，对于“搜索”这个概念而言，这个数字更像一个玩具演示，而非工业级证明。论文对数据内部化的讨论颇具启发性，但将其与传统检索系统的计算权衡对比时，有些理想化。此外，现场录音性能的断崖式下跌，恰恰暴露了神经网络“记忆”与人类“识别”在泛化能力上的巨大鸿沟。总体而言，这是一篇想法不错、实验扎实但应用前景受限的概念验证论文。作者诚实地列出了局限性，这比那些假装解决了所有问题的论文要值得尊敬。 📌 核心摘要本文将经典的音乐搜索问题重新定义为一个直接的识别问题。作者提出了一种名为“生成增强检索”的范式，使用一个decoder-only的Transformer模型，通过单次神经网络前向传播，直接从短音频片段（查询）中预测对应的轨道标识符。这种方法将传统声学指纹系统中需要的外部数据库和检索步骤，转化为模型参数对数据集的“内化”。实验表明，在短查询长度（如1秒）下，该方法的识别准确率显著超越了现有的检索基线（Dejavu和GraFPrint），同时大幅降低了外部存储需求并提升了推理延迟。此外，模型还支持通过多片段投票机制进行开放集操作，能够拒绝未知轨道。 🔗 开源详情代码：论文在结论部分承诺发布代码、数据集清单和可复现脚本（We will release code, dataset manifests, and scripts to reproduce preprocessing, training, evaluation, and fingerprint database construction...），但未提供具体的代码仓库链接（如GitHub）。模型权重：论文中未提及是否发布预训练模型权重。数据集：论文使用的主要数据集是公开的Free Music Archive (FMA)，其获取链接为：https://doi.org/10.24432/C5HW28。论文中用于版本偏移鲁棒性测试的策划数据集（包含原版、广播编辑、现场版本配对）需向通讯作者合理请求。 Demo：论文中未提及。复现材料：论文的“Method”部分提供了极其详细的训练与评估参数，包括模型架构规格、数据增强配置、训练超参数（学习率、批量大小等）、评估协议以及硬件环境。论文未提及提供预训练模型检查点文件。论文中引用的开源项目： Dejavu：作为基线对比的音频指纹识别系统，其GitHub仓库为：https://github.com/worldveil/dejavu。 FMA (Free Music Archive)：论文使用的数据集，公开链接为：https://doi.org/10.24432/C5HW28。 torchaudio：论文提及用于特征提取的音频处理库（标准链接：https://pytorch.org/audio/stable/index.html）。 🏗️ 方法概述和架构本文的核心方法是“生成增强检索”，其架构为一个decoder-only的Transformer模型。该模型的任务是直接从音频查询中自回归地生成一个唯一的轨道标识符。 ...

Vibrato Expression Control for Singing Voice Conversion with Improving Independent Control

📄 Vibrato Expression Control for Singing Voice Conversion with Improving Independent Control 7.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.5/10 | 前25% | arxiv 👥 作者与机构作者：Joon-Seung Choi, Dong-Min Byun, Seong-Whan Lee 机构：韩国大学人工智能系邮箱：js_choi@korea.ac.kr; dm_byun@korea.ac.kr; sw.lee@korea.ac.kr 💡 毒舌点评这篇论文是VibE-SVC的扎实升级版，野心不小，试图把“风格”这个模糊的概念拆解成可拨弄的旋钮。亮点在于将能量（响度）的周期性也建模了，以及那个处理“气泡音”（vocal fry）的SHC算法。但问题在于，拆得越细，就越容易露怯——比如那个SHC算法的误差累积问题，作者自己都承认了，但实验里似乎没怎么深究其影响边界。零样本转换部分，虽然吊打了几个基线，但和NeuCoSVC2这种专精音色的大厂模型比自然度，还是有点露怯，说明“精细控制”和“天然去雕饰”之间，鸿沟依旧。整体像个精巧的工具箱，但离“让所有人都能轻松唱出完美颤音”的魔法还有距离。 📌 核心摘要 VibE-SVC2是一个旨在改进歌声转换（SVC）中演唱风格转换性能与可控性的统一框架。它聚焦于两类风格：音高风格（以颤音为代表）和音色风格。核心贡献包括：1）提出能量风格转换器，通过建模能量轮廓中的周期性调制来解决前作遗留的音高-能量纠缠问题；2）提出零样本音高风格转换器，可从未见过的参考音频中学习并迁移风格；3）通过时间缩放实现颤音速率与幅度的独立、精细控制；4）扩展框架以支持音色风格（如breathy， belt， vocal fry）的独立控制，并提出子谐波修正（SHC）算法来修正vocal fry音色中因次谐波导致的F0估计失败，从而提升转换自然度。通过大量客观与主观实验，证明VibE-SVC2在风格准确率上优于现有方法，同时保持了可比的自然度和说话人相似度。 🔗 开源详情代码：https://github.com/castlechoi/VibE-SVC2 模型权重：论文中未提及提供预训练模型权重下载。数据集： VocalSet：论文中未提及具体获取链接，通常为公开数据集，可从原出处获取。 GTSinger：论文中未提及具体获取链接，通常为公开数据集，可从原出处获取。 Demo：https://castlechoi.github.io/VibE-SVC2-demo/ 复现材料：论文提供了详细的实现细节（训练步数、批次大小、特征提取参数、DWT设置等），但未提供训练配置文件或检查点的直接下载链接。代码仓库是复现的主要材料。论文中引用的开源项目（均为外部项目）： BigVGAN (声码器): https://huggingface.co/nvidia/bigvgan_v2_24khz_100band_256x SoVITS-SVC (基线模型): https://github.com/svc-develop-team/so-vits-svc Performance Style Transfer (PST) (基线模型): https://github.com/poohhsu/Singing-Performance-Style-Transfer NeuCoSVC2 (基线模型): https://github.com/thuhcsi/NeuCoSVC/tree/NeuCoSVC2 Seed-SVC (基线模型): https://github.com/Plachtaa/seed-vc Serenade (基线模型): https://github.com/lesterphillip/serenade Vevo1.5 (基线模型): https://github.com/open-mmlab/Amphion/tree/main/models/svc/vevosing Vevo2 (基线模型): https://github.com/open-mmlab/Amphion/tree/main/models/svc/vevo2 WavLM (评估工具): https://huggingface.co/microsoft/wavlm-base-sv Qwen3-ASR (评估工具): https://huggingface.co/Qwen/Qwen3-ASR-1.7B MERT (评估工具): https://huggingface.co/m-a-p/MERT-v1-330M Whisper (工具): https://huggingface.co/openai/whisper-large-v3 RMVPE (F0提取算法): 论文中引用为 [47]，但未给出代码链接。 HuBERT-soft (内容提取): 论文中引用为 [43]，但未给出代码链接。 Meta-style speech (ZSC架构参考): 论文中引用为 [30]，但未给出代码链接。 Parselmouth (数据增强工具): 论文中引用为 [19]，但未给出代码链接。 🏗️ 方法概述和架构 VibE-SVC2的整体架构（如图1所示）基于一个预训练的SVC模型（基于DiffSVC架构），并在此基础上添加了多个可独立控制的风格转换模块。其核心设计思想是将动态演唱风格在结构上解耦为音高相关和音色相关两个独立的部分，并进行模块化处理。 ...

When Multiple Scripts Matter: Evaluating ASR in Clinical Settings

📄 When Multiple Scripts Matter: Evaluating ASR in Clinical Settings #语音识别 #多语言 #数据集 #基准测试 #低资源 9.1/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 1.1/1 | 影响 1.0/1.5 | 开源 1.3/1.5 | 复现 1.2/0.5 | 工程 1.1/1.5 🔥 9.1/10 | 前10% | #语音识别 | #多语言 | #数据集 #基准测试 | arxiv 👥 作者与机构 Jean Seo (1,2), Minkyu Kim (1), Jeonguk Lee (1), Jisoo Jung (1), Wooseok Han (3), Eunho Yang (1)。机构：1 AITRICS, 2 University of Copenhagen, 3 KAIST。 ...

语音/音乐/音频论文速递 2026-06-17

语音/音乐/音频论文速递 2026-06-17 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 9篇 █████████ #语音合成 4篇 ████ #音频分类 3篇 ███ #语音增强 2篇 ██ #多模态模型 2篇 ██ #强化学习 1篇 █ #语音活动检测 1篇 █ #说话人验证 1篇 █ 📊 论文评分排行榜（35 篇，按分数降序）排名论文总分分档主任务 🥇 One-Step Token-to-Waveform Generation with MeanFlow in 9.3分前10% #语音合成 🥈 Synergizing Zero-Shot Cross-Lingual Alzheimer Detection 9.1分前25% - 🥉 When Multiple Scripts Matter: Evaluating ASR in Clinica 9.1分前10% #语音识别 4. Grounding Spoken LLMs in Multi-Speaker Audio via Diariz 8.5分前25% #语音识别 5. ELSA: Acoustic Event-Level Semantic Alignment for Fine- 8.5分前25% - 6. A 399uW 114.3 dB DR Companding Readout ASIC for MEMS Mi 8.2分前25% - 7. Are you speaking my languages? On spoken language adher 8.0分后50% #语音识别 8. From Signals to Patterns: Non-Invasive Tuberculosis Det 7.9分前25% - 9. Next-Turn: Duration-Aware Streaming Endpoint Detection 7.9分前50% #语音合成 10. Decision-Driven Geosteering Under Uncertainty: A Unifie 7.8分前50% #强化学习 11. Perceptual compensation for tonal context in self-super 7.7分前50% #语音识别 12. JoyAI-VL-Interaction: Real-Time Vision-Language Interac 7.7分前50% #语音合成 13. PhASE-Flow: Phonetic-Conditioned Acoustic Flow Matching 7.6分前25% #语音增强 14. Non-Autoregressive Minimum Bayes' Risk Decoding for 7.6分前25% - 15. SpeechDx: A Multi-Task Benchmark for Clinical Speech AI 7.6分前25% #语音识别 16. Vibrato Expression Control for Singing Voice Conversion 7.5分前25% - 17. Improving low-resource ASR using bilingual fine-tuning 7.5分前50% #语音识别 18. Turning music identification into a neural forward pass 7.4分前50% #音频分类 19. Direction of arrival estimation from distant microphone 7.3分前50% #语音活动检测 20. DeSRPA: Decoupled Speech Role-Playing Agent via Inferen 7.3分前50% #语音合成 21. L-Proto: Language-Aware Episodic Prototypical Training 7.1分前50% #说话人验证 22. Single frequency filtering based multi-speaker directio 7.0分前50% #语音增强 23. MLLP-VRAIN UPV system for the IWSLT 2026 Simultaneous S 6.9分前50% #语音识别 24. Reading between the Lines: Leveraging Large Language Mo 6.8分前50% #语音情感识别 25. A Closer Look at Failure Modes in Temporal Understandin 6.6分前50% #多模态模型 26. MVEB: Massive Video Embedding Benchmark 6.5分前50% #基准测试 27. Transductive Zero-Shot Audio Classification with Audio- 6.4分前50% #音频分类 28. A Neuromorphic Trigger for Efficient Audio Event Detect 6.2分前50% #音频事件检测 29. Learning task-specific subspaces via interventional pos 6.2分前50% #自监督学习 30. Embedded Machine Learning for Microcontroller-Class Edg 6.0分前50% - 31. Descriptor: Certus Caliber Classification Gunshot Datas 5.9分前50% #音频分类 32. AI-based Cognitive-linguistic Features for Dementia Ass 5.8分前50% #语音识别 33. An Analysis of the Effectiveness of Synthetic Speech Da 5.7分前50% #语音识别 34. OlfactProfile: Profile-Conditioned Odor Prediction from 5.6分前50% #多模态模型 35. Intelligibility of Speech in Noise: Investigating Contr 5.5分前50% - 📋 论文列表 🥇 One-Step Token-to-Waveform Generation with MeanFlow in Latent Space 9.3/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

Acoustic Prompting via Stage-wise Modulation for Few-Shot Learning in Audio Language Models

📄 Acoustic Prompting via Stage-wise Modulation for Few-Shot Learning in Audio Language Models #音频分类 #提示学习 #多模态模型 8.3/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 0.9/1 | 影响 0.8/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.3/10 | 前50% | #音频分类 | #参数高效微调 | #提示学习 #多模态模型 | arxiv 👥 作者与机构 Hyebin Cho, Jaehyuk Jang, Changick Kim, Joon Son Chung Korea Advanced Institute of Science and Technology, South Korea ...

Acoustic, VOC, and Multimodal Stress Source Localization in the Internet of Plants

📄 Acoustic, VOC, and Multimodal Stress Source Localization in the Internet of Plants #声源定位 9.7/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9.7/10 | 前50% | #声源定位 | #声源定位 | arxiv 👥 作者与机构 Ahmet B. Kilic, Ozgur B. Akan。作者隶属于土耳其伊斯坦布尔 Koç 大学下一代通信中心（CXC）。Ozgur B. Akan 同时隶属于英国剑桥大学工程系下一代通信中心（CXC）。本工作部分由 AXA 研究基金资助。 💡 毒舌点评这篇论文填补了“植物互联网”（一个相当新颖且小众的范式）中一个具体的定位问题空白。其核心贡献在于一个物理仿真数据集和一个基于声学TDOA的、看起来相当可靠的基线方法。方法的物理动机清晰，对VOC和声学信号特性的利用是合理的。然而，VOC定位部分的“前瞻性”定位更像是在为当前技术的无力打圆场，而所谓的“多模态融合”在实验结果中几乎没有带来实质增益，使其看起来更像是一个架构上的完整主义追求而非实用创新。将“植物”和“压力源定位”结合确实新颖，但论文的实验和分析深度（尤其是对复杂真实场景的考量）可能不足以完全支撑其作为“互联网植物”框架下通用解决方案的宏大叙事。更诚实的定位可能是：“一种在高度简化仿真环境下的、以声学为主的植物应力源定位方法探索”。 📌 核心摘要本文针对“互联网植物”框架中压力源空间定位的空白问题，研究了声学、挥发性有机化合物及多模态定位方法。作者提出一个两阶段定位管线：第一阶段利用声学到达时间差进行多定位，产生一个初始估计和搜索区域；第二阶段基于稳态对流扩散格林函数模型，在该区域内细化源位置估计。两个阶段通过一个VOC信息性门和逆方差融合规则结合，当VOC信号不具信息性时，系统能优雅降级到仅TDOA估计。论文贡献了一个包含52个场景的开源物理仿真数据集，并系统评估了管线在不同网络密度和参数扰动下的性能。结果表明，一旦声学范围内有三个或更多代理植物，TDOA多定位即可实现亚米级精度，远优于VOC定位。多模态融合在当前设置下相对于TDOA-only的提升有限。TDOA定位可与现有声学硬件部署，而VOC定位依赖未来传感器技术的进步。 🔗 开源详情代码：https://github.com/Aburakkilic/Acoustic-VOC-and-Multimodal-Stress-Source-Localization-in-the-Internet-of-Plants 模型权重：论文中未提及。定位方法为优化/求解过程，无需预训练模型权重。数据集：论文中提及一个开源的物理仿真数据集（包含52个场景）。数据集与代码一同发布在上述GitHub仓库中。 Demo：论文中未提及。复现材料：论文中提及“The dataset and all evaluation code are available on GitHub.”，所有评估代码已开源，提供了完整的仿真设置和评估流程。未单独提及训练配置、检查点或附录等详细复现材料。论文中引用的开源项目：未提及。论文引用了多个学术文献，但未明确标注其中任何一个为开源项目或提供其代码链接。论文的核心方法（如有限体积求解器、射线声学模型、定位算法）均为本文作者开发并开源。 🏗️ 方法概述和架构本文提出的定位框架是一个两阶段、由粗到细的流水线，旨在融合声学和VOC两种物理特性迥异的信号，以定位“植物互联网”中的压力源（如受干旱或虫害的植物）。该框架建立在由“代理植物”（配备简易读出设备的生物混合感知节点）组成的网络之上。 ...