多任务学习

Inverse-designed meta processing units for multi-task near-field photonic computing

📄 Inverse-designed meta processing units for multi-task near-field photonic computing 标签：#多任务学习 #音频理解 #Transformer #模型评估 6.9/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.5/1.5 | 开源 1/1.5 | 复现 0.2/0.5 | 工程 1.2/1.5 ✅ 6.9/10 | 前50% | 文档类型：系统技术报告 | 评分置信度：高 | #音频理解 | #多任务学习 | #Transformer #模型评估 | arxiv 👥 作者与机构第一作者：Chu Wu（清华大学电子工程系）通讯作者：Xing Lin（清华大学电子工程系）作者列表：Chu Wu（清华大学电子工程系）、Zeyu Cai（清华大学电子工程系）、Songtao Yang（清华大学电子工程系）、Ruoyu Shen（张江实验室）、Yinan Zhao（清华大学电子工程系）、Haiou Zhang（清华大学电子工程系）、Wei Chu（张江实验室）、Xing Lin（清华大学电子工程系） 💡 毒舌点评论文的核心价值在于将逆设计纳米光子器件从孤立应用组件提升为可复用的矩阵算子（MPU），并通过硬件在环训练展示了从器件到系统的完整闭环验证，工程集成度高。然而，作为“系统技术报告”，其系统级验证规模（双任务元音识别）过于简单，与文中反复强调的“大规模”、“多任务”潜力形成鲜明反差，严重削弱了其核心声明。对语音/音频领域的直接贡献几乎为零，更像是一篇面向通用光子计算架构的硬件系统设计论文，对于非光子计算领域的读者启发有限。 ...

Inverse-designed meta processing units for multi-task near-field photonic computing

📄 Inverse-designed meta processing units for multi-task near-field photonic computing 标签：#多任务学习 7.7/10 | 创新 1.3/2 | 严谨 1.4/1.5 | 实验 1/1.5 | 清晰 0.9/1 | 影响 0.5/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 ✅ 7.7/10 | 前25% | 文档类型：系统技术报告 | 评分置信度：高 | #多任务学习 | #多任务学习 | arxiv 👥 作者与机构第一作者：吴初（清华大学电子工程系）通讯作者：林星（清华大学电子工程系）作者列表：吴初（清华大学电子工程系）、蔡泽宇（清华大学电子工程系）、杨松涛（清华大学电子工程系）、沈若愚（张江实验室）、赵一男（清华大学电子工程系）、张海鸥（清华大学电子工程系）、魏楚（张江实验室）、林星（清华大学电子工程系） 💡 毒舌点评本文在工程完整性上堪称典范，从器件逆设计、库构建到系统级硬件闭环训练，展示了一条完整的光子计算系统技术链路，工程参考价值很高。然而，其核心实验验证的“元音分类”任务规模小且较为简单，与当前光子计算领域的前沿系统（如Taichi）相比，在任务复杂度、系统规模和性能标杆上均存在明显差距，导致其影响力受限。 📌 核心摘要本文旨在解决集成光子神经网络中，亚波长集成密度与计算可重构性之间的固有矛盾。作者提出了一种逆设计的元处理单元作为紧凑的无源复数矩阵算子，并构建了一种MPU-MZI混合架构，使被动算子和可重构MZI神经元能在单个计算单元级别动态分配。该方法的创新之处在于将逆设计光子器件从孤立应用转变为可复用的矩阵原语，并提出了任务感知的神经元级MPU替换策略。实验验证了其2x2单元库的有效重建精度为3.32比特，4x4级联矩阵保真度达92.7%。在硬件在环实验中，双任务元音分类的测试准确率分别为83.5%和80.9%。在大规模EMNIST模拟中，神经元级MPU替换策略在90%共享率下达到87.64%的平均准确率，比层级基线高7.26个百分点。该工作为构建高密度、硬件自适应的多任务光子神经网络提供了一种新路径。主要局限在于实验规模较小，未与当前最先进的大规模光子计算系统进行直接、全面的性能对比。 🔗 开源详情代码：https://github.com/THPCILab/MPU 模型权重：论文中未提及数据集：论文中使用了“dual-task vowel recognition”数据集和“EMNIST”数据集。其中，“dual-task vowel recognition”数据集的具体来源未在论文中说明；“EMNIST”为公开数据集，可通过其官方网站或代码库（如 torchvision）获取，但论文中未提供直接的下载链接。 Demo：论文中未提及复现材料：论文提供了实验结果、关键图表和详细的方法描述，所有代码和实验配置均包含在上述GitHub仓库中。详细的硬件训练流程、校准步骤和仿真框架在补充材料（Supplementary Information）中有具体描述。论文中引用的开源项目： Stanford SPINS framework: 用于逆设计的优化框架。GitHub链接：https://github.com/stanfordnqp/spins-b（根据通用项目地址推断，论文中未直接给出链接，但提到了框架名称）。补充信息：作者联系邮箱：lin-x@tsinghua.edu.cn (Xing Lin), wuc23@mails.tsinghua.edu.cn (Chu Wu) 等。芯片制造：通过 AMF 多项目晶圆（MPW）服务制造，由 CUMEC 封装。数据可用性声明：Data presented in this publication is available on GitHub with the following link: https://github.com/THPCILab/MPU. The codes used in the current study are available from the corresponding authors upon reasonable request. 🏗️ 方法概述和架构本文提出的方法是一个从器件设计到系统验证的完整技术框架。整体流程为：首先，通过电磁逆设计方法，为一系列目标2x2复数矩阵定制紧凑的浅刻蚀硅光子结构（MPU）；然后，将这些被动MPU与可调谐MZI结构结合，形成MPU-MZI混合架构；最后，通过硬件在环训练验证其多任务计算能力，并通过模拟评估其在大规模网络中的替换策略。 ...

PS4: Proxy-Supervised Joint Training for Real Target Speaker Extraction

📄 PS4: Proxy-Supervised Joint Training for Real Target Speaker Extraction 标签：#语音分离 #多任务学习 #数据集 #自监督学习 #音频理解 8.0/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1.2/1.5 | 复现 0.1/0.5 | 工程 1.5/1.5 🔥 8.0/10 | 前25% | 文档类型：系统技术报告 | 评分置信度：高 | #语音分离 | #多任务学习 | #数据集 #自监督学习 | arxiv 👥 作者与机构第一作者：Wanyi Ning（机构未在作者列表注明，但摘要脚注显示为1,2）通讯作者：未明确说明作者列表：Wanyi Ning（机构1,2）， Wei Zhou（机构1）， Yingpeng Li（机构1）， Yinshang Guo（机构3）， Haitao Qian（机构1）， Yiming Cheng（机构1） 💡 毒舌点评本文直击了目标说话人提取（TSE）模型在真实场景中“无干净语音可训”的核心痛点，通过构建首个大规模真实数据训练集REAL-PS4并提出多维度代理监督联合训练策略，在REAL-T挑战赛中取得了令人信服的第二名及多项最佳子指标。其方法论具备完整的工程链条和明确的实用价值。主要短板在于：实验部分对四个核心损失函数的有效性缺乏消融验证，使得其“联合优化”的贡献度停留在黑箱层面；关键的训练超参数（如损失权重、优化器）描述缺失，严重削弱了其可复现性；部分技术细节（如VAD损失的能量特征计算）描述模糊。 ...

PS4: Proxy-Supervised Joint Training for Real Target Speaker Extraction

📄 PS4: Proxy-Supervised Joint Training for Real Target Speaker Extraction 标签：#语音分离 #多任务学习 #数据集 #基准测试 #领域适应 8.8/10 | 创新 1.5/2 | 严谨 1.5/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 🔥 8.8/10 | 前25% | 文档类型：方法研究 | 评分置信度：高 | #语音分离 | #多任务学习 | #数据集 #基准测试 | arxiv 👥 作者与机构第一作者：Wanyi Ning (未说明机构) 通讯作者：未说明作者列表：Wanyi Ning (未说明机构), Wei Zhou (未说明机构), Yingpeng Li (未说明机构), Yinshang Guo (未说明机构), Haitao Qian (未说明机构), Yiming Cheng (未说明机构) 💡 毒舌点评论文在解决真实对话场景TSE训练的核心难题上思路清晰且务实，构建大规模真实数据集和提出多维代理损失的联合训练框架是有效且有工程价值的贡献。然而，作为一项方法研究，其实验设计存在显著缺陷：完全缺失对四个核心损失函数的消融研究，使得“联合优化”策略的有效性成谜；与强基线的对比仅限于排行榜，未在控制条件下进行公平比较。这削弱了其核心创新的说服力。 ...

语音/音乐/音频论文速递 2026-07-10

语音/音乐/音频论文速递 2026-07-10 共分析 19 篇论文 ⚡ 今日概览 📥 抓取 19 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 4篇 ████ #音乐转录 2篇 ██ #语音质量评估 2篇 ██ #多模态模型 2篇 ██ #音乐生成 1篇 █ #音频事件检测 1篇 █ #语音分离 1篇 █ #语音情感识别 1篇 █ 📊 论文评分排行榜（19 篇，按分数降序）排名论文总分分档文档类型主任务 🥇 A Quantized Native Runtime for On-Device Semantic Audio 8.4分前25% 系统技术报告 #音乐生成 🥈 MuScriptor: An Open Model for Multi-Instrument Music Tr 8.3分前25% 系统技术报告 #音乐转录 🥉 A Self-Supervised Approach for Minimal-Annotation Hydro 8.3分前25% 系统技术报告 #音频事件检测 4. COALA: Robust Contextualized Speech-augmented Language 8.2分前25% 方法研究 #语音识别 5. PS4: Proxy-Supervised Joint Training for Real Target Sp 8.0分前25% 系统技术报告 #语音分离 6. MulTTiPop: A Multitrack Transcription Dataset for Pop M 7.7分前25% 数据集与基准 #音乐转录 7. SHAP-Weighted Cross-Modal Expert Fusion for Emotion and 7.7分前25% 方法研究 #语音情感识别 8. When Synthetic Speech Is All You Have: Better Call GRPO 7.7分前25% 方法研究 #语音识别 9. Structural Bottlenecks on Frequency Representation in E 7.6分前25% 方法研究 #音频生成 10. A Reliability Assessment of LALM Audio Judges for Full- 7.1分前50% 系统技术报告 #语音质量评估 11. Inverse-designed meta processing units for multi-task n 6.9分前50% 系统技术报告 #音频理解 12. Multimodal Unlearning Across Vision, Language, Video, a 6.9分前50% 综述 #多模态模型 13. Best-of-\(N\) TTS Evaluation is Confounded by ASR Family 6.7分前50% 方法研究 #语音质量评估 14. Why Do You Say It Like That? A Phoneme-Level Framework 6.5分前50% 方法研究 #语音伪造检测 15. It Takes Few to TANGO: A Quantized Distributed Model fo 6.5分前50% 系统技术报告 #语音增强 16. On the Role of Conversational Timing in Synthetic Train 6.4分前50% 方法研究 #语音识别 17. Diarization-Guided Qwen-ASR Adaptation for Multilingual 5.7分前50% 系统技术报告 #语音识别 18. Multimodal Digital Biomarker for Asthma: Complementary 5.3分后50% 应用研究 #多模态模型 19. Vidu S1: A Real-Time Interactive Video Generation Model 5.2分后50% 系统技术报告 #音视频交互 📋 论文列表 🥇 A Quantized Native Runtime for On-Device Semantic Audio Generation 8.4/10 | 创新 1.3/2 | 严谨 1.3/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 1.5/1.5 ...

Adaptive Loss Balancing for Multi-Task Bioacoustic Classification of Bird Species and Call Types

📄 Adaptive Loss Balancing for Multi-Task Bioacoustic Classification of Bird Species and Call Types #音频分类 #多任务学习 #预训练 #迁移学习 #基准测试 6.1/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1.1/1.5 | 清晰 0.8/1 | 影响 0.6/1.5 | 开源 0.2/1.5 | 复现 0.4/0.5 | 工程 1/1.5 ✅ 6.1/10 | 前50% | #音频分类 | #多任务学习 | #预训练 #迁移学习 | arxiv 👥 作者与机构第一作者：Paria Vali Zadeh（Kiel University, Kiel, Germany）通讯作者：未明确指定，但第一作者为唯一联系作者（paria.vali.zadeh@cs.uni-kiel.de）作者列表：Paria Vali Zadeh（Kiel University, Kiel, Germany）、Sven Tomforde（Kiel University, Kiel, Germany） 💡 毒舌点评该论文系统性地将自适应多任务损失平衡方法搬到鸟声分类任务上，实验覆盖四种骨干、三种适应深度和四种加权策略，工作量足够扎实。但方法层面完全由现有技术拼凑而成，无任何算法创新，且缺乏统计显著性检验，部分结论仅基于三次种子运行的均值差异，结合较小的cmAP差距，说服力打折；数据集需申请且代码未公开，复现性与可验证性存疑。 ...

Jointly Improving Dialect Identification and ASR in Indian Languages using Multimodal Feature Fusion

📄 Jointly Improving Dialect Identification and ASR in Indian Languages using Multimodal Feature Fusion #语音识别 #多任务学习 #多模态模型 #低资源 #自监督学习 5.8/10 | 创新 0.8/2 | 严谨 0.8/1.5 | 实验 0.8/1.5 | 清晰 0.8/1 | 影响 0.6/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 0.7/1.5 📝 5.8/10 | 前50% | #语音识别 | #多任务学习 | #多模态模型 #低资源 | arxiv 👥 作者与机构第一作者：Saurabh Kumar（印度科学理工学院电气工程系）第二作者：Amartyaveer（印度科学理工学院电气工程系）第三作者/通讯作者：Prasanta Kumar Ghosh（印度科学理工学院电气工程系，邮箱 prasantag@gmail.com） 💡 毒舌点评本文用“即插即用”的多模态融合模块将方言信息注入ASR，在印度多语言场景下同时刷了DID和ASR的榜。工程集成思路清晰，结果实用。但本质上仍是Conformer、RoBERTa、bottleneck等成熟组件的精巧重组，对“为什么门控融合有效”缺乏深层机理分析，且仅在单一且受限（朗读语音）的数据集上验证，模型泛化性和理论贡献薄弱。更像是一份优秀的实验报告，而非方法学上的突破。 📌 核心摘要问题：印度语言方言差异显著，现有联合优化语音识别（ASR）与方言识别（DID）的方法存在跷跷板效应，尤其是将方言ID作为硬性文本前缀的方法，在方言预测错误时会严重损害ASR性能。方法核心：提出多模态特征融合框架，在Conformer ASR编码器之上，以梯度阻断方式接入一个DID模块。该模块利用瓶颈编码器和RoBERTa编码器分别从语音特征和CTC软对齐输出中提取方言线索，经门控机制动态融合并由注意力编码器精炼，最终将获得的方言嵌入拼回ASR主特征流，以软特征方式增强ASR。创新点：将方言信息从“文本硬条件”转变为“特征软注入”，通过梯度阻断（detach）策略解耦ASR与DID的优化，避免了错误方言预测带来的ASR退化；设计了语音-文本双模态门控融合，自适应挖掘不同模态的方言信息。主要结果：在RESPIN数据集八种印度语言的33个方言上，ASR-BN-ROB模型取得了平均81.63%的DID准确率，以及4.65%的CER和17.73%的WER，均优于多个强基线。尤其对于DID预测错误的样本，ASR性能相对基线有显著提升。实际意义：为低资源、多方言的ASR系统提供了一种有效且相对鲁棒的端到端联合优化方案。代码、模型和数据集均已公开，对印度语言语音应用的开发具有直接参考价值。主要局限性：仅在单一数据集和一种冻结的预训练模型（IndicWav2Vec）上验证；未深入分析门控融合机制的行为和决策过程；缺乏对跨领域、噪声环境及自发性语音的泛化性评估；模型参数量增加，但未与等参模型进行严格对比；未讨论计算开销和推理延迟。 🔗 开源详情代码：https://github.com/labspire/respin_did_interspeech25.git 模型权重：https://github.com/labspire/respin_did_interspeech25.git（与代码同一仓库）数据集：RESPIN 数据集，获取链接：https://spiredatasets.ee.iisc.ac.in/respincorpus Demo：未提及复现材料：论文在第3.2节提供了详细的超参数和实验设置，代码仓库中理应包含训练配置。论文中引用的开源项目： ESPnet：https://github.com/espnet/espnet.git IndicWav2Vec：https://github.com/AI4Bharat/IndicWav2Vec 未明确列出 RoBERTa 的具体开源实现链接。 🏗️ 方法概述和架构本文提出一种多任务学习框架，通过多模态特征融合同时优化自动语音识别（ASR）和方言识别（DID）。系统由ASR Block和DID Block两部分组成，其数据流为：输入语音 → SSL前端（IndicWav2Vec） → Conformer编码器 → ASR Block和DID Block并行处理 → DID Block产出的方言嵌入以梯度阻断方式拼回ASR Block → ASR Block内注意力编码器融合 → 混合CTC/Attention解码器输出文本。 ...

Taste-aware music retrieval from audio embeddings

📄 Taste-aware music retrieval from audio embeddings #音乐检索 #预训练 #多任务学习 #可解释性 6.9/10 | 创新 1/2 | 严谨 1.1/1.5 | 实验 0.9/1.5 | 清晰 0.8/1 | 影响 0.4/1.5 | 开源 1.3/1.5 | 复现 0.4/0.5 | 工程 1/1.5 ✅ 6.9/10 | 前50% | #音乐检索 | #预训练 | #多任务学习 #可解释性 | arxiv 👥 作者与机构第一作者：Matteo Spanio（帕多瓦大学，CSC实验室）通讯作者：未说明作者列表：Matteo Spanio（帕多瓦大学，CSC实验室）、Antonio Rodà（帕多瓦大学，CSC实验室） 💡 毒舌点评本文把一个已有心理学根基的“声‑味对应”任务做实成了可复现、可检索的MIR基准，单编码器就能把误差压到单人评估者的一半，这个结论很漂亮。但40项的测试集让几乎所有的融合收益都落在统计噪声里，检索实验的CLAP-text完全失效更像是prompt问题而非方法本质优势，对“辣味”这一缺乏心理学支撑的轴也没有充分辩护。 📌 核心摘要论文将“从音频预测味觉”形式化为一个内容化音乐信息检索（MIR）基准，使用经过感知验证的多源语料库，预测甜、苦、咸、酸、辣五种味觉强度。方法核心是冻结预训练音频编码器提取嵌入，经时间池化后送入一个共享的、带sigmoid输出的多层感知机进行多任务回归，损失为掩码MSE，并引入门控晚期融合来组合多编码器。相比先前需微调五个独立AST回归器的工作，本文用一个多任务头取代五个独立头，并配合掩码损失和sigmoid输出，在极简的冻结编码器设置下大幅降低绝对误差，并额外增加了检索评估和心理学驱动的可解释性分析。最佳系统（单VGGish或融合组合）在测试集上达到宏观RMSE 0.134，在真实音乐子集上误差（RMSE 0.13）不到单个人类评估者与共识偏差（RMSE 0.28）的一半；门控晚期融合将宏观Pearson \(r\) 从0.666提升到0.724；在309项检索池中，基于味觉向量检索的精度完全饱和，而CLAP-text基线几乎随机。方法宏观RMSE↓ 宏观MAE↓ 宏观Pearson \(r\) ↑ VGGish (单编码器) 0.134 0.109 0.666 VGGish+MULE (融合) 0.134 0.111 0.724 SOTA (AST 5头) 0.219 0.175 0.556 配置 RMSE↓ MAE↓ 宏观\(r\) ↑ SOTA (微调AST, 无界MSE) 0.219 0.175 0.556 +冻结AST, 每味MLP, 掩码MSE, sigmoid 0.143 0.115 0.663 +共享多任务头 0.143 0.116 0.658 +门控晚期融合 (VGGish+MULE) 0.134 0.111 0.724 实际意义在于为音乐推荐系统提供了一个可解释的“味觉”语义轴，可支持“相似但更甜”这类检索，且模型误差已低于普通标注者，有替代或辅助人工评分的潜力。主要局限是样本量极小（训练269项，测试40项），导致统计效力不足，尤其是融合效果的显著性难以保证；辣味轴缺乏类似甜/苦那样的跨模态对应实证；跨文化泛化未验证。 🔗 开源详情代码：https://github.com/CSCPadova/wav2taste 模型权重：训练好的 taste 预测头（task-specific heads）随代码仓库提供（位于 https://github.com/CSCPadova/wav2taste）；使用的预训练音频编码器权重来自各开源项目（见下文“论文中引用的开源项目”）。数据集：https://huggingface.co/datasets/csc-unipd/sonic-seasoning （sonic-seasoning 统一音乐‑味觉语料库） Demo：论文中未提及复现材料：代码仓库提供训练与评估脚本；论文中给出训练超参数（AdamW，lr \(=10^{-3}\)，weight decay \(=10^{-4}\)，batch size \(=32\)，max \(50\) epochs，patience \(10\) on validation macro \(r\)，multi-task MLP head hidden \(256\)，dropout \(0.2\)，sigmoid output，\(5\) seeds \(\{11,22,33,44,55\}\)），冻结编码器缓存策略，分析探针配置（ridge \(\alpha=1.0\)，\(5\)-fold CV）等。论文中引用的开源项目： HEAR benchmark：https://hearbenchmark.com VGGish：https://github.com/tensorflow/models/tree/master/research/audioset/vggish PANNs：https://github.com/qiuqiangkong/audioset_tagging_cnn AST (Audio Spectrogram Transformer)：https://github.com/YuanGongND/ast HuBERT：https://github.com/pytorch/fairseq MERT：https://huggingface.co/m-a-p/MERT-v1-330M CLAP：https://github.com/LAION-AI/CLAP EnCodec：https://github.com/facebookresearch/encodec MULE：https://github.com/mule-project/mule （推测地址，论文引用[22]） librosa：https://github.com/librosa/librosa MusicGen (Audiocraft)：https://github.com/facebookresearch/audiocraft FMA (Free Music Archive)：https://github.com/mdeff/fma Omar-RQ：结合论文上下文应为基于 EnCodec 的离散自监督模型，常与 EnCodec 关联，未找到独立官方仓库（可能指 Omar 等人提出的残差量化变体，与 EnCodec 同源） 🏗️ 方法概述和架构本文构建了一个“从音频嵌入预测味觉”的冻结编码器‑多任务回归框架，并在此基础上附加门控晚期融合、可解释性探测和检索评估。 ...

Towards Language-Agnostic Speech Inversion

📄 Towards Language-Agnostic Speech Inversion #语音属性识别 #多任务学习 #自监督学习 5.6/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.5/1.5 📝 5.6/10 | 前50% | #语音属性识别 | #多任务学习 | #自监督学习 | arxiv 👥 作者与机构第一作者：Saba Tabatabaee（University of Maryland, College Park, Department of Electrical and Computer Engineering）通讯作者：论文未明确标注，推测为 Carol Espy-Wilson（University of Maryland, College Park）作者列表：Saba Tabatabaee (University of Maryland College Park), Mark Tiede (Yale University, Department of Psychiatry), Suzanne Boyce (University of Cincinnati, Department of Communication Sciences and Disorders), Liran Oren (University of Cincinnati, Department of Otolaryngology-Head and Neck Surgery), Carol Espy-Wilson (University of Maryland College Park, Department of Electrical and Computer Engineering) 💡 毒舌点评本文的亮点在于率先系统性地验证了基于英语训练的语音逆推（SI）系统在跨语言（法语、俄语）场景下，对口腔声道变量、源特征及腭咽端口变量的估计能力，并为此构建了多语种数据集，这为语言无关的发声建模提供了直接的实证证据。但短板同样刺眼：实验规模极小，俄语仅3名发音人，其中VP TV测试更只有1人，使得“语言无关”这一宏大主张几乎悬空。方法层面毫无消融实验，仅与自家前作比较，0.01（0.85→0.86）的提升几乎可以归为随机噪声，各模块的实际贡献完全成谜。 ...

语音/音乐/音频论文速递 2026-07-07

语音/音乐/音频论文速递 2026-07-07 共分析 58 篇论文 ⚡ 今日概览 📥 抓取 58 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 11篇 ███████████ #语音伪造检测 5篇 █████ #音频理解 4篇 ████ #语音交互 3篇 ███ #音频事件检测 3篇 ███ #语音转换 3篇 ███ #音视频理解 3篇 ███ #语音合成 3篇 ███ 📊 论文评分排行榜（58 篇，按分数降序）排名论文总分分档主任务 🥇 Doppelganger: Sound Effects and Their Synthetic Twins 9.1分前10% #音频检索 🥈 SPEARBench: A Benchmark for Naturalness Evaluation in S 8.9分前25% #语音交互 🥉 Metronome: Bound the Cache, Keep the Beat for Real-Time 8.7分前25% #语音交互 4. Auto-AEG: Scalable Data Construction for Open-Vocabular 8.3分前25% #音频事件检测 5. RABBiT: Rapidly adaptive BOLD foundation model via brai 8.1分前25% #音频理解 6. TRACE-EVC: Text-Guided Relative Affective Control for Z 8.0分前25% #语音转换 7. Parallelized Autoregressive Decoding for Omni-Modal Den 8.0分前25% #音视频理解 8. Speaker-Disentangled Chunk-Wise Regression for Syllabic 7.9分前25% #语音编码 9. Speaker-Aware Temporal Aggregation Strategies on Segmen 7.9分前25% #语音属性识别 10. REDDIT: Correcting Model-Generated Timestamp Drift in A 7.8分前25% #语音识别 11. Deriving Benchmarking Datasets from Long-Form Recording 7.7分前25% #基准测试 12. ProPS: Prompted Profile Synthesis for Natural Language- 7.6分前25% #语音合成 13. DELTA-TTS: Adapting Autoregressive Model into Diffusion 7.5分前25% #语音合成 14. TokAN: Accent Normalization Using Self-Supervised Speec 7.5分前25% #语音转换 15. Listen, Think, Transcribe: Continuous Latent Test-Time 7.5分前25% #语音识别 16. \(C^3\)ASD: Multi-Level Consistency-Driven Representation 7.5分前25% #音视频理解 17. Training-Free Model Selection and Domain-Aware Score Ca 7.3分前50% #音频事件检测 18. CHILDES-Aligned: A Curated Children's Speech Datase 7.2分前50% #语音识别 19. Taste-aware music retrieval from audio embeddings 6.9分前50% #音乐检索 20. Lights, Camera, Carbon: Architectural Scaling Laws for 6.9分前50% #音视频生成 21. Unified Audio Intelligence Without Regressing on Text I 6.8分前50% #音频交互 22. Ranking the Impact of Contextual Specialization in Neur 6.7分前50% #语音增强 23. SynSFX: Multi-Model Sound Effects Synthesis Dataset for 6.5分前50% #音频伪造检测 24. Evaluating the Effect of Linguistic Relatedness on Cros 6.5分前50% #语音识别 25. MOSAIC: Interpretable Multi-Token Cross-Attention of Bi 6.3分前50% #语音伪造检测 26. CARD: Cross-component Audio Representation Distillation 6.3分前50% #音频字幕生成 27. Probing Low-Level Acoustic Attribute Encoding in CLAP A 6.2分前50% #音频理解 28. Trajectory Variance: AnUnsupervised Measure of Developm 6.2分前50% #音频理解 29. Adaptive Diversity-Uncertainty Active Learning with Red 6.2分前50% #音频事件检测 30. Adaptive Loss Balancing for Multi-Task Bioacoustic Clas 6.1分前50% #音频分类 31. An Intervention-Based Framework for Shortcut Diagnosis 6.1分前50% #语音伪造检测 32. QuaSR: Quality-Aware Sample Reweighting for Pacific Ind 6.0分前50% #语音识别 33. CaReCoS: A Spectrogram based Visual Benchmark for Cardi 6.0分前50% #音频理解 34. Open-Set Source Tracing as Compositional Factors via St 6.0分前50% #语音伪造检测 35. Context-Aware ASR for Mandarin Technical Lectures 6.0分前50% #语音识别 36. Streaming Neural Speech Codecs through Time-Invariant R 6.0分前50% #语音编码 37. Physiological Noise Augmentation Improves Non-Invasive 6.0分前50% #语音识别 38. DuplexChat: Constructing Speaker-Separated Full-Duplex 5.9分前50% #语音交互 39. Noisy Environment Adaptation of Neural Speech Codec via 5.9分前50% #语音增强 40. NouveauVoice: Generating Novel Pseudo Speakers for Voic 5.9分前50% #语音转换 41. OmniFocus: Query-Guided Modality-Balanced Token Compres 5.9分前50% #音视频问答 42. Jointly Improving Dialect Identification and ASR in Ind 5.8分前50% #语音识别 43. S-DiverSe: Spanish Diverse Speech 5.8分前50% #语音识别 44. Towards Robust Uncertainty-Aware Speaker Modeling 5.7分前50% #说话人验证 45. Towards Language-Agnostic Speech Inversion 5.6分前50% #语音属性识别 46. Layer-wise Cross-Lingual Depression Detection from Spee 5.5分前50% #语音情感识别 47. Wan-Streamer v0.2: Higher Resolution, Same Latency 5.4分后50% #音视频交互 48. Mixture-Constrained Max Pooling Improves Separation-Bas 5.3分后50% #音频分类 49. Reinforcement Learning for Data-Efficient Code-Switched 5.3分后50% #语音识别 50. Physics-Informed Direction-of-Arrival Estimation Over D 5.3分后50% #声源定位 51. Sampling Bias Compensation for Robust Evaluation of Aud 4.9分后50% #音频分类 52. UniSkip-Mamba: A Frequency-Aware State Space Model for 4.8分后50% #音视频理解 53. Progressive Refinement: An Iterative Pseudo-Labeling Ap 4.6分后50% #语音识别 54. Weakly Guided and Autoregressive Beamformer Parameteriz 4.3分后50% #语音分离 55. DETECT-3B-Omni is Agnostic of Content and Demographics 4.2分后50% #语音伪造检测 56. Towards Digital Preservation of Efik: TTS for a Low-Res 4.0分后50% #语音合成 57. Quantum-Inspired Harmonic Decision Models: A Computatio 2.3分后50% #音乐生成 58. Information-Geometric Superposed Vowel Evaluation: Part 1.9分后50% #语音伪造检测 📋 论文列表 🥇 Doppelganger: Sound Effects and Their Synthetic Twins 9.1/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.4/1.5 | 清晰 0.9/1 | 影响 0.8/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 ...