论文速递 | 语音/音乐/音频论文速递

Towards Language-Agnostic Speech Inversion

📄 Towards Language-Agnostic Speech Inversion #语音属性识别 #多任务学习 #自监督学习 5.6/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.5/1.5 📝 5.6/10 | 前50% | #语音属性识别 | #多任务学习 | #自监督学习 | arxiv 👥 作者与机构第一作者：Saba Tabatabaee（University of Maryland, College Park, Department of Electrical and Computer Engineering）通讯作者：论文未明确标注，推测为 Carol Espy-Wilson（University of Maryland, College Park）作者列表：Saba Tabatabaee (University of Maryland College Park), Mark Tiede (Yale University, Department of Psychiatry), Suzanne Boyce (University of Cincinnati, Department of Communication Sciences and Disorders), Liran Oren (University of Cincinnati, Department of Otolaryngology-Head and Neck Surgery), Carol Espy-Wilson (University of Maryland College Park, Department of Electrical and Computer Engineering) 💡 毒舌点评本文的亮点在于率先系统性地验证了基于英语训练的语音逆推（SI）系统在跨语言（法语、俄语）场景下，对口腔声道变量、源特征及腭咽端口变量的估计能力，并为此构建了多语种数据集，这为语言无关的发声建模提供了直接的实证证据。但短板同样刺眼：实验规模极小，俄语仅3名发音人，其中VP TV测试更只有1人，使得“语言无关”这一宏大主张几乎悬空。方法层面毫无消融实验，仅与自家前作比较，0.01（0.85→0.86）的提升几乎可以归为随机噪声，各模块的实际贡献完全成谜。 ...

Towards Robust Uncertainty-Aware Speaker Modeling

📄 Towards Robust Uncertainty-Aware Speaker Modeling 5.7/10 | 创新 1/2 | 严谨 0.9/1.5 | 实验 0.8/1.5 | 清晰 0.7/1 | 影响 0.6/1.5 | 开源 0.5/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5 📝 5.7/10 | 前50% | #说话人验证 | #领域适应 | arxiv 👥 作者与机构第一作者：Junjie Li（未说明）通讯作者：未说明作者列表：Junjie Li（未说明）、Yang Xiao（未说明）、Kong Aik Lee（未说明） 💡 毒舌点评论文在不确定性感知 softmax 上引入了 intra-speaker 紧凑度，试图让不确定性估计更全面，这是延续前一版本工作的合理延伸。但跨域不确定性的崩溃问题（minDCF 直接到 1.000）处理得避重就轻，不仅没有深入的根因分析，UCDA 在余弦评分上的增益也几乎可以忽略，让人怀疑这套“鲁棒不确定性建模”的卖相到底还值不值得买单。图 4 明明展示了跨域下不确定性分布的显著偏移，但作者只是把它当作“动机展示”，而非需要系统性解决的核心问题，实验设计的勇气和深度都欠奉。 📌 核心摘要本文旨在解决说话人识别中不确定性估计不准确及域偏移下不确定性校准失当的问题。方法上，一方面提出了一种同时考虑说话人间可分性（inter-speaker）和说话人内紧凑性（intra-speaker）的不确定性感知 softmax 损失，通过将联合难度项 \(\Lambda_i \cdot \Lambda_j\) 作为乘性因子注入尺度 \(s_u\) 来显式引导不确定性学习；另一方面提出了不确定性校准域适应（UCDA）框架，仅更新不确定性估计模块，通过最大化目标域不确定度在源域高斯先验下的似然来校准分布。主要实验在 VoxCeleb1 与 CNCeleb 上进行，以 ECAPA-TDNN 为基线。最佳 in-domain 设置（Exp.5 + ucos 评分）在 Vox1-O 上 EER 降至 0.840%、minDCF 0.086；跨域下标准余弦评分有微弱改善，但不确定性感知评分的 minDCF 大量退化为 1.000，显示校准机制几乎完全失效。论文的实际意义在于为不确定性感知说话人模型提供了一种无需目标域标签的轻量适配思路，但其跨域不确定性评分的严重失效构成了对“鲁棒性”宣称的根本性质疑。 ...

TRACE-EVC: Text-Guided Relative Affective Control for Zero-Shot Emotional Voice Conversion

📄 TRACE-EVC: Text-Guided Relative Affective Control for Zero-Shot Emotional Voice Conversion #零样本 8/10 | 创新 1.3/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.4/0.5 | 工程 1/1.5 🔥 8/10 | 前25% | #语音转换 | #流匹配 | #零样本 | arxiv 👥 作者与机构第一作者：Zihan Zhang（Johns Hopkins University, Center for Language and Speech Processing）通讯作者：Philipp Koehn（Johns Hopkins University, Center for Language and Speech Processing）、Berrak Sisman（Johns Hopkins University, Center for Language and Speech Processing）作者列表：Zihan Zhang, Shreeram Suresh Chandra, Zongyang Du, Xiutian Zhao, Aurosweta Mahapatra, Hao Zhang, Philipp Koehn, Berrak Sisman（全部来自 Johns Hopkins University, Center for Language and Speech Processing） 💡 毒舌点评这篇论文将情感语音转换（EVC）的控制范式从”指明目的地“推进到了”指明方向“，Emo-Compass用源锚定流来建模位移，概念上非常漂亮。然而，这种漂亮目前仅停留在两个室内且说话人重叠的英文数据集上，指令也全由LLM合成，没有半条来自真实用户。如果在开放域、未见情感或真实用户指令上一测，这套精致的流水线是否会崩塌仍是未知数。 ...

Training-Free Model Selection and Domain-Aware Score Calibration for First-Shot Anomalous Sound Detection

📄 Training-Free Model Selection and Domain-Aware Score Calibration for First-Shot Anomalous Sound Detection #音频事件检测 #测试时自适应 #领域适应 #无监督学习 7.3/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.5/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ✅ 7.3/10 | 前50% | #音频事件检测 | #测试时自适应 | #领域适应 #无监督学习 | arxiv 👥 作者与机构第一作者：Grach Mkrtchian（独立研究者，未说明所属机构）通讯作者：Grach Mkrtchian（独立研究者，邮箱：g.mkrtchyan.m@gmail.com）作者列表：Grach Mkrtchian（独立研究者） 💡 毒舌点评这篇独立研究者的论文用极低成本的纯后处理方案，揭示并部分解决了DCASE ASD赛道中“开发集AUC漂亮，评估集AUC塌方”的结构性骗局——即这本质上是个操作点校准问题，而非模型能力问题。然而，其核心贡献——那个无标签的域平衡选择准则——在三个挑战赛年份中，仅一年展现出稳健的预测力，另外两年一个简单的全均衡固定默认配置就能打平甚至击败它。这让准则的通用性承诺大打折扣，使其更像是一次针对特定年份的聪明过拟合，而非一个可泛化的方法论突破。 📌 核心摘要问题定位：论文针对DCASE Challenge Task 2中首次异常声检测（ASD）的两个开放问题：源域与目标域AUC在不同系统间呈负相关，以及开发集性能无法预测评估集性能。核心方法：提出DACo（Domain-Aware Calibration），一个训练无关的后处理层，包含两部分：(i) 基于可收缩的每域分位数校准，通过先验强度 \(m\) 调节源域/目标域的平衡前沿；(ii) 一个基于交叉验证的、完全标签无关的域平衡准则，利用训练正常样本的KS距离自动从候选配置中进行选择。方法论主张：提出一种新范式，即用粗粒度的、基于有标签开发集的“可行性否决”来排除退化配置，再用细粒度的、标签无关的部署时准则来对剩余配置进行排序和选择。核心实验结论（DCASE 2025）：在45个配置的网格上，所提准则以 Spearman \(\rho = +0.91\) 预测评估集分数 \(\Omega\)，而开发集 \(\Omega\) 的预测力仅为 \(+0.06\)。准则选择将评估集 \(\Omega\) 从55.83提升至59.34（可排第7），在扩展网格上达到61.05（可排第4）。跨年度复现结论：在DCASE 2023和2024的复现中，准则的预测力在经家族聚类不确定性分析后，仅在2025年显著。2023年证据不足，2024年准则完全失效（\(\rho = -0.10\)）。固定全均衡默认配置（\(m=0\) 软分配）在多数情况下匹配或击败准则选择。实际价值与局限性：提供了一种部署时无需目标域标签即可自动校准操作点的方法，计算成本极低。主要局限在于：准则的跨年度泛化证据薄弱；需依赖有标签的开发集否决来规避退化配置；基于10个样本的目标域校准几乎整个pAUC区间都是外推的，且绝对错误率高于名义水平。 🔗 开源详情代码：https://github.com/polestvr/daco-experiments 模型权重： BEATs iter3+ AS2M（MIT许可，论文未给出直接下载链接） EAT-base（检查点 worstchan/EAT-base_epoch30_pretrain，MIT许可） PANNs CNN14-16k（权重来自 Zenodo 记录 3987831，CC-BY许可，https://zenodo.org/record/3987831）数据集： DCASE 2025 Task 2：Zenodo 记录 15097779, 15392814, 15519362 DCASE 2023 Task 2：Zenodo 记录 7882613, 7830345, 7860847 DCASE 2024 Task 2：Zenodo 记录 10902294, 11259435, 11363076 DCASE 2026 开发集：Zenodo 记录 19336329 复现材料：代码仓库提供了全套实验代码、结果CSV、配置清单、复现脚本、环境锁文件及预注册说明（PREREGISTRATION.md）。论文引用的开源项目： DCASE 2025/2024/2023官方评估器 PANNs预训练权重 BEATs/EAT预训练模型（仅提及名称与许可） 🏗️ 方法概述和架构 DACo是一个三阶段的后处理流水线，完全操作在已冻结的音频嵌入提取器和基础异常打分器之上，无需任何训练。 ...

Trajectory Variance: AnUnsupervised Measure of Developmental Vocal Plasticity in Birdsong

📄 Trajectory Variance: AnUnsupervised Measure of Developmental Vocal Plasticity in Birdsong 6.2/10 | 创新 1.2/2 | 严谨 0.9/1.5 | 实验 0.7/1.5 | 清晰 0.8/1 | 影响 0.4/1.5 | 开源 1.2/1.5 | 复现 0.4/0.5 | 工程 0.6/1.5 ✅ 6.2/10 | 前50% | #音频理解 | #无监督学习 | arxiv 👥 作者与机构第一作者：Kanghwi Lee（Institute of Neuroinformatics, University of Zurich and ETH Zurich, Switzerland）通讯作者：Kanghwi Lee（同第一作者，论文仅一位作者）作者列表：Kanghwi Lee（Institute of Neuroinformatics, University of Zurich and ETH Zurich） 💡 毒舌点评概念有趣——用反事实推理来量化动物发声的”发育可塑性“，想法直观，框架清晰。但实验说服力严重不足：仅三只鸟、效应量微弱（Cohen’s d 最高0.57）、且受限于无纵向数据只能做群体层面插值。声学社区的冲击力有限，更像动物行为学工具而非音频技术贡献。 ...

Unified Audio Intelligence Without Regressing on Text Intelligence

📄 Unified Audio Intelligence Without Regressing on Text Intelligence #音频理解 #语音识别 #语音翻译 #语音合成 #音频生成 #多模态模型 #强化学习 6.8/10 | 创新 1/2 | 严谨 0.8/1.5 | 实验 0.5/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1/1.5 | 复现 0.2/0.5 | 工程 1.3/1.5 ✅ 6.8/10 | 前50% | #音频交互 | #多模态模型 | #音频理解 #语音识别 | arxiv 👥 作者与机构论文摘要中未提供作者列表，无法确定具体作者与所属机构。 💡 毒舌点评亮点在于将统一音频智能锚定在 30B MoE 文本 LLM 上，并明确提出“不退化文本智能”这一核心目标。但摘要几乎全篇堆砌任务名称与数据规模，却未给出任何可验证的定量对比数字，这使得 SOTA 宣称显得空洞。这种“全功能宣传册”式的摘要削弱了技术报告的严谨感。 📌 核心摘要本文提出 Audex，一个基于 30B MoE 文本 LLM（Nemotron-Cascade-2-30B-A3B）的统一音频-文本大语言模型。采用单一 Transformer 解码器统一处理音频与文本：音频输入经编码器提取特征，通过投影映射到文本嵌入空间；量化的离散音频输出 token 与文本 token 混合，一同送入自回归解码生成。训练包括三阶段：（1）在 curated 的音频-文本数据集（157.4B 音频 token + 320.5B 文本 token）上进行多阶段监督训练；（2）纯文本 Cascade RL，用于强化文本对齐与推理能力，防止文本退化；（3）多域 on-policy 蒸馏，稳定多模态表现。论文宣称模型在音频理解、语音识别/翻译、TTS、音频生成与语音到语音生成等任务上达到 SOTA，同时文本推理、对齐、知识、长上下文与智能体能力仅有微弱甚至零退化。模型权重已释放。 ...

UniSkip-Mamba: A Frequency-Aware State Space Model for Audio-Visual Temporal Forgery Localization

📄 UniSkip-Mamba: A Frequency-Aware State Space Model for Audio-Visual Temporal Forgery Localization #鲁棒性 #高效推理 4.8/10 | 创新 1/2 | 严谨 0.8/1.5 | 实验 0.8/1.5 | 清晰 0.5/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 1/1.5 📝 4.8/10 | 后50% | #音视频理解 | #多模态模型 | #鲁棒性 #高效推理 | arxiv 👥 作者与机构共同第一作者：Cangjin Qiu（苏州大学）、Quan Zhang（清华大学）通讯作者：Ke Zhang（苏州大学）其他作者：Dan Jiang（清华大学） 💡 毒舌点评本文的频域分析和统一序列融合为AV-TFL提供了有价值的视角，在大规模基准上取得了亮眼的SOTA成绩。然而，所谓的Skip-Scanning“Nyquist频率”理论包装过度，本质上是一种基于经验归纳偏置的软正则化，作者对此进行了信号处理理论上的强行拔高。此外，论文缺失了损失函数等关键训练细节，且在开源、统计显著性检验和与核心竞品VideoMamba的对比上存在明显缺失，这严重削弱了其结论的可信度与可复现性。 📌 核心摘要解决问题：音频-视觉时间伪造定位（AV-TFL），即精确定位视频中音视频被篡改的时间段。现有方法不加区分地处理所有频率成分，导致过拟合高频噪声且在真实场景数据降质下鲁棒性不足。方法核心：提出UniSkip-Mamba框架，包含三个关键创新：(1) 统一多模态序列融合（沿时序拼接音视频特征），打破传统通道拼接的刚性帧对齐限制；(2) Skip-Scanning Mamba块（S-Mamba），通过Group-Scan-Merge机制以步长p进行分组扫描，实现频率感知的结构化正则化；(3) 层次化Mamba骨干网络，逐步下采样以捕获多尺度时序伪造模式。创新点：首次从频域角度系统分析AV-TFL，发现判别性信息集中在归一化频率0–0.15的低/中频段，而高频（>0.15）主要为噪声。基于此提出Skip-Scanning作为软低通正则化策略。统一序列融合也为Mamba架构的跨模态长程依赖建模提供了新的思路。主要实验结果：在LAV-DF上达到63.4% AP@0.95（+9.8% over UniCaCLF），在AV-Deepfake1M上达到63.58% mAP（+14.32% over DiMoDif），推理速度比Transformer基线（UMMAFormer）快6倍，并在多种数据退化条件下展现优越鲁棒性。实际意义：为大规模视频取证提供了一种高效（线性复杂度）且鲁棒的解决方案，可处理长视频。其频域分析为伪造检测的特征学习提供了新视角。主要局限性：Skip-Scanning可能削弱对极短时、纯高频伪造的检测能力；步长p需手动选择；未提供代码/模型开源，损失函数未提及，降低了可复现性。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：论文中未提及。数据集： LAV-DF: 引用文献 [8]，文中未提供直接下载链接。 AV-Deepfake1M: 引用文献 [7]，文中未提供直接下载链接。 Demo：论文中未提及。复现材料：论文在Section IV-B提供了详细的实现细节，包括：特征提取：详细说明了LAV-DF和AV-Deepfake1M使用的具体预训练模型和特征维度。模型配置：给出了Mamba backbone配置 [2,2,5]，隐藏维度 C=512，步长 p∈{1,2,4}。训练配置：PyTorch 2.1.2, CUDA 11.8，AdamW（lr=1e-4, weight decay=0.05），cosine annealing schedule，50 epochs，batch size 16，NVIDIA Tesla V100-SXM2 32GB GPU。论文未提及损失函数，也未提供附录或补充材料的获取链接。论文中引用的开源项目： ActionFormer, TriDet, Mamba, Mamba2, VMamba, Video Mamba Suite, BYOL-A, AudioSet, VideoMAE V2, Wav2Vec 2.0 (XLS-R-300M) 等。论文仅提及项目名称和引用，未提供具体代码链接。 🏗️ 方法概述和架构 UniSkip-Mamba是一个端到端的AV-TFL框架。其数据流为：预训练编码器提取音视频特征 → 统一多模态序列融合 → 层次化Skip-Scanning Mamba骨干网络 → 检测头输出定位边界。 ...

Wan-Streamer v0.2: Higher Resolution, Same Latency

📄 Wan-Streamer v0.2: Higher Resolution, Same Latency #音视频交互 #流匹配 #实时处理 #流式处理 5.4/10 | 创新 1/2 | 严谨 0.6/1.5 | 实验 0.5/1.5 | 清晰 0.7/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.2/0.5 | 工程 1.2/1.5 📝 5.4/10 | 后50% | #音视频交互 | #流匹配 | #实时处理 #流式处理 | arxiv 👥 作者与机构第一作者/核心贡献者：Lianghua Huang, Zhi-Fan Wu, Yupeng Shi, Wei Wang, Mengyang Feng, Junjie He, Chen-Wei Xie, Yu Liu, Jingren Zhou（均为Alibaba Group）通讯作者：未说明贡献者（按名字首字母排序）：Ang Wang, Bang Zhang, Baole Ai, Chen Liang, Cheng Yu, Chongyang Zhong, Jinwei Qi, Kai Zhu, Pandeng Li, Peng Zhang, Wenyuan Zhang, Xinhua Cheng, Yitong Huang, Yun Zheng, Yuxiang Bao, Yuzheng Wang, Zoubin Bi（均为Alibaba Group）机构：Alibaba Group，具体部门未说明 💡 毒舌点评这篇技术报告以一份清晰的工程蓝图，展示了如何在不碰模型formulation、不增加用户感知延迟的前提下，将实时音视频交互的分辨率从192p拉到640p。Thinker-Performer的部署拓扑拆分、Ulysses并行的流式应用，设计简洁且动机明确，对于要堆硬件保延迟的工业系统有直接参考价值。然而，作为一份声称“升级”的报告，它竟然完全没有提供任何定量对比结果——没有与v0.1的视觉质量数值比较、没有消融实验、没有用户研究，甚至连生成样本的客观指标都没有。整篇论文的证据链仅靠“定性观察”和一张部署架构图支撑，这使其科学说服力无限趋近于零。更糟糕的是，所有训练策略、模型配置、超参数等复现关键信息全部缺失，这将论文的定位从“研究”进一步推向“产品发布简报”。一句话总结：工程思路清晰，科学验证缺席。 ...

Weakly Guided and Autoregressive Beamformer Parameterization for Generalizable Moving Speaker Extraction in Higher-Order Ambisonics

📄 Weakly Guided and Autoregressive Beamformer Parameterization for Generalizable Moving Speaker Extraction in Higher-Order Ambisonics #语音分离 #语音增强 4.3/10 | 创新 0.8/2 | 严谨 0.8/1.5 | 实验 0.6/1.5 | 清晰 0.6/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 0.8/1.5 📝 4.3/10 | 后50% | #语音分离 | #语音增强 | arxiv 👥 作者与机构第一作者：Jakob Kienegger（Signal Processing (SP) Group, University of Hamburg）通讯作者：未说明作者列表：Jakob Kienegger、Tal Peer、Sina Khanagha、Timo Gerkmann（均隶属于 Signal Processing (SP) Group, University of Hamburg） 💡 毒舌点评这篇论文提出了一个精致的工程pipeline：仅需初始方向，用固定波束和自回归反馈"扶着"DNN去估计掩码，再驱动一个线性MVDR波束形成器。想法漂亮，但实验部分却选择了一条最容易的路——只和自己比，不敢直面那些拥有完整跟踪能力的强引导方案和深度非线性空间滤波器。这就像一个武林高手只和自家师弟切磋，武艺高低无从得知。此外，合成数据基于完美的远场平面波假设，而真实录音的低阶Ambisonics结果（WER超70%）暴露了方法在复杂声学环境下的巨大鸿沟，作者对此却轻描淡写。 ...

语音/音乐/音频论文速递 2026-07-07

语音/音乐/音频论文速递 2026-07-07 共分析 58 篇论文 ⚡ 今日概览 📥 抓取 58 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 11篇 ███████████ #语音伪造检测 5篇 █████ #音频理解 4篇 ████ #语音交互 3篇 ███ #音频事件检测 3篇 ███ #语音转换 3篇 ███ #音视频理解 3篇 ███ #语音合成 3篇 ███ 📊 论文评分排行榜（58 篇，按分数降序）排名论文总分分档主任务 🥇 Doppelganger: Sound Effects and Their Synthetic Twins 9.1分前10% #音频检索 🥈 SPEARBench: A Benchmark for Naturalness Evaluation in S 8.9分前25% #语音交互 🥉 Metronome: Bound the Cache, Keep the Beat for Real-Time 8.7分前25% #语音交互 4. Auto-AEG: Scalable Data Construction for Open-Vocabular 8.3分前25% #音频事件检测 5. RABBiT: Rapidly adaptive BOLD foundation model via brai 8.1分前25% #音频理解 6. TRACE-EVC: Text-Guided Relative Affective Control for Z 8.0分前25% #语音转换 7. Parallelized Autoregressive Decoding for Omni-Modal Den 8.0分前25% #音视频理解 8. Speaker-Disentangled Chunk-Wise Regression for Syllabic 7.9分前25% #语音编码 9. Speaker-Aware Temporal Aggregation Strategies on Segmen 7.9分前25% #语音属性识别 10. REDDIT: Correcting Model-Generated Timestamp Drift in A 7.8分前25% #语音识别 11. Deriving Benchmarking Datasets from Long-Form Recording 7.7分前25% #基准测试 12. ProPS: Prompted Profile Synthesis for Natural Language- 7.6分前25% #语音合成 13. DELTA-TTS: Adapting Autoregressive Model into Diffusion 7.5分前25% #语音合成 14. TokAN: Accent Normalization Using Self-Supervised Speec 7.5分前25% #语音转换 15. Listen, Think, Transcribe: Continuous Latent Test-Time 7.5分前25% #语音识别 16. \(C^3\)ASD: Multi-Level Consistency-Driven Representation 7.5分前25% #音视频理解 17. Training-Free Model Selection and Domain-Aware Score Ca 7.3分前50% #音频事件检测 18. CHILDES-Aligned: A Curated Children's Speech Datase 7.2分前50% #语音识别 19. Taste-aware music retrieval from audio embeddings 6.9分前50% #音乐检索 20. Lights, Camera, Carbon: Architectural Scaling Laws for 6.9分前50% #音视频生成 21. Unified Audio Intelligence Without Regressing on Text I 6.8分前50% #音频交互 22. Ranking the Impact of Contextual Specialization in Neur 6.7分前50% #语音增强 23. SynSFX: Multi-Model Sound Effects Synthesis Dataset for 6.5分前50% #音频伪造检测 24. Evaluating the Effect of Linguistic Relatedness on Cros 6.5分前50% #语音识别 25. MOSAIC: Interpretable Multi-Token Cross-Attention of Bi 6.3分前50% #语音伪造检测 26. CARD: Cross-component Audio Representation Distillation 6.3分前50% #音频字幕生成 27. Probing Low-Level Acoustic Attribute Encoding in CLAP A 6.2分前50% #音频理解 28. Trajectory Variance: AnUnsupervised Measure of Developm 6.2分前50% #音频理解 29. Adaptive Diversity-Uncertainty Active Learning with Red 6.2分前50% #音频事件检测 30. Adaptive Loss Balancing for Multi-Task Bioacoustic Clas 6.1分前50% #音频分类 31. An Intervention-Based Framework for Shortcut Diagnosis 6.1分前50% #语音伪造检测 32. QuaSR: Quality-Aware Sample Reweighting for Pacific Ind 6.0分前50% #语音识别 33. CaReCoS: A Spectrogram based Visual Benchmark for Cardi 6.0分前50% #音频理解 34. Open-Set Source Tracing as Compositional Factors via St 6.0分前50% #语音伪造检测 35. Context-Aware ASR for Mandarin Technical Lectures 6.0分前50% #语音识别 36. Streaming Neural Speech Codecs through Time-Invariant R 6.0分前50% #语音编码 37. Physiological Noise Augmentation Improves Non-Invasive 6.0分前50% #语音识别 38. DuplexChat: Constructing Speaker-Separated Full-Duplex 5.9分前50% #语音交互 39. Noisy Environment Adaptation of Neural Speech Codec via 5.9分前50% #语音增强 40. NouveauVoice: Generating Novel Pseudo Speakers for Voic 5.9分前50% #语音转换 41. OmniFocus: Query-Guided Modality-Balanced Token Compres 5.9分前50% #音视频问答 42. Jointly Improving Dialect Identification and ASR in Ind 5.8分前50% #语音识别 43. S-DiverSe: Spanish Diverse Speech 5.8分前50% #语音识别 44. Towards Robust Uncertainty-Aware Speaker Modeling 5.7分前50% #说话人验证 45. Towards Language-Agnostic Speech Inversion 5.6分前50% #语音属性识别 46. Layer-wise Cross-Lingual Depression Detection from Spee 5.5分前50% #语音情感识别 47. Wan-Streamer v0.2: Higher Resolution, Same Latency 5.4分后50% #音视频交互 48. Mixture-Constrained Max Pooling Improves Separation-Bas 5.3分后50% #音频分类 49. Reinforcement Learning for Data-Efficient Code-Switched 5.3分后50% #语音识别 50. Physics-Informed Direction-of-Arrival Estimation Over D 5.3分后50% #声源定位 51. Sampling Bias Compensation for Robust Evaluation of Aud 4.9分后50% #音频分类 52. UniSkip-Mamba: A Frequency-Aware State Space Model for 4.8分后50% #音视频理解 53. Progressive Refinement: An Iterative Pseudo-Labeling Ap 4.6分后50% #语音识别 54. Weakly Guided and Autoregressive Beamformer Parameteriz 4.3分后50% #语音分离 55. DETECT-3B-Omni is Agnostic of Content and Demographics 4.2分后50% #语音伪造检测 56. Towards Digital Preservation of Efik: TTS for a Low-Res 4.0分后50% #语音合成 57. Quantum-Inspired Harmonic Decision Models: A Computatio 2.3分后50% #音乐生成 58. Information-Geometric Superposed Vowel Evaluation: Part 1.9分后50% #语音伪造检测 📋 论文列表 🥇 Doppelganger: Sound Effects and Their Synthetic Twins 9.1/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.4/1.5 | 清晰 0.9/1 | 影响 0.8/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 ...