论文速递 | 语音/音乐/音频论文速递

S-DiverSe: Spanish Diverse Speech

📄 S-DiverSe: Spanish Diverse Speech #语音识别 #低资源 #参数高效微调 5.8/10 | 创新 0.9/2 | 严谨 0.8/1.5 | 实验 0.8/1.5 | 清晰 0.7/1 | 影响 0.5/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 📝 5.8/10 | 前50% | #语音识别 | #参数高效微调 | #低资源 | arxiv 👥 作者与机构第一作者：Fernando López（Scientific Research, Telefónica Innovación Digital, Spain）通讯作者：论文中仅给出第一作者邮箱 fernando.lopez@telefonica.com，未明确标注通讯作者，故推断 Fernando López 同为通讯作者。作者列表：Fernando López（Scientific Research, Telefónica Innovación Digital, Spain）、Fernando Ibañez（机构未在作者列表中明确说明，根据论文开头推断可能同属 Telefónica 或 UAM）、Ana Martínez（同前）、Iván Alonso（同前）、Pablo Gómez（同前）、Santosh Kesiraju（Brno University of Technology, Czech Republic）、Jordi Luque（论文开头列有 Universidad Autónoma de Madrid, Spain 和 Telefónica Innovación Digital, Spain，具体归属未按作者逐一说明，仅在首页底部笼统标注了三个机构）。 💡 毒舌点评这篇论文做了一件对西班牙语病理语音社区来说"有总比没有强"的工作——构建了首个多疾病、真实场景（in-the-wild）的西班牙语病理语音数据集，并发现了一个有趣的反直觉结论：简单的规则后处理比昂贵的参数微调更鲁棒。然而，这3.2小时、22个说话人的袖珍语料库，无论作者如何辩解"与其他语料库规模相当"都显得苍白。实验部分对PD/ALS/中风三种疾病的对比分析严重缺位，中风数据仅占5.8%却撑起了"多疾病"的旗帜，Whisper微调后WER飙升至125%的灾难性结果也缺乏深入诊断和解释。更关键的是，“后处理优于微调"这一核心卖点，在如此小的数据规模下更像是对过拟合的另类证明，其可推广性值得打上一个大大的问号。 ...

Sampling Bias Compensation for Robust Evaluation of Audio Classification Systems with Partially Labeled Evaluation Datasets

📄 Sampling Bias Compensation for Robust Evaluation of Audio Classification Systems with Partially Labeled Evaluation Datasets 4.9/10 | 创新 0.8/2 | 严谨 0.7/1.5 | 实验 0.8/1.5 | 清晰 0.7/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.9/1.5 📝 4.9/10 | 后50% | #音频分类 | #领域适应 | arxiv 👥 作者与机构第一作者：Javier Naranjo-Alcazar（机构未说明）通讯作者：未明确说明作者列表： Javier Naranjo-Alcazar（机构未说明） Annamaria Mesaros（坦佩雷大学，芬兰） Tuomas Virtanen（坦佩雷大学，芬兰） Pedro Zuccarello（机构未说明） 💡 毒舌点评亮点：精准捕捉了真实音频部署中一个极其普遍却又被学术界系统性忽视的关键痛点——基于主动学习策略采样的标注子集如何扭曲模型评估指标。问题定义扎实、动机明确、具有高度的工业现实感，将模型运维（MLOps）中的统计推断问题带入计算机听觉领域。短板：方法层面完全是经典重要性加权技术的直接应用，对音频嵌入空间的深层特性（如时序依赖、声学相似性等）几乎没有针对性的适配或理论创新。实验仅在单一的、完全平衡的 DCASE 2017 基准上进行，且几乎完全缺失关键的超参数设定和实现细节，导致其核心结论的可复现性和泛化能力存疑。本质上是一篇定位清晰但研究深度有限的“应用迁移与实证报告”。 ...

Speaker-Aware Temporal Aggregation Strategies on Segment Representations for Depression Detection in Dyadic Interaction: A Benchmark Study

📄 Speaker-Aware Temporal Aggregation Strategies on Segment Representations for Depression Detection in Dyadic Interaction: A Benchmark Study #语音属性识别 7.9/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 0.8/1.5 | 复现 0.3/0.5 | 工程 1.4/1.5 ✅ 7.9/10 | 前25% | #语音属性识别 | #语音属性识别 | arxiv 👥 作者与机构第一作者：Anisha Pattanayak（南加州大学信号分析与解释实验室（SAIL））通讯作者：Sudarsana Reddy Kadiri（南加州大学信号分析与解释实验室（SAIL）），邮箱标注于论文首页作者列表： Anisha Pattanayak（南加州大学信号分析与解释实验室（SAIL）） Huang-Cheng Chou（南加州大学信号分析与解释实验室（SAIL）） Shrikanth Narayanan（南加州大学信号分析与解释实验室（SAIL）） Sudarsana Reddy Kadiri（南加州大学信号分析与解释实验室（SAIL）） 💡 毒舌点评这篇论文以一种近乎病态的诚实，亲手拆掉了自己搭建的舞台。它用72个配置证明了一个残酷的事实：语音抑郁检测中三分之一的时间聚合实验会直接崩溃为哑巴模型，而那个在单一流水线下唯一从未崩溃的“优等生”架构，换个随机种子就原形毕露，F1标准差高达0.42。这无疑给了那些习惯于“固定骨干+手工选层+跑一次就发论文”的同行一记响亮的耳光。然而，讽刺的是，这篇论文自己在核心论证上也犯下了类似的错误——它用一个精心挑选的、极端的子集来论证种子的破坏力，却据此对整个领域下达了“不要再跑单一流水线”的判决书。这就像在调查了全市最乱和最干净的两条街后，就宣称整座城市治安崩溃了。其洞察力在于发现了真正的问题，而局限在于，它自己也成了这个问题的一部分。 ...

Speaker-Disentangled Chunk-Wise Regression for Syllabic Tokenization

📄 Speaker-Disentangled Chunk-Wise Regression for Syllabic Tokenization #语音编码 #自监督学习 #知识蒸馏 #无监督学习 #语音大模型 7.9/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 1.1/1.5 | 清晰 0.8/1 | 影响 0.9/1.5 | 开源 1.4/1.5 | 复现 0.4/0.5 | 工程 1/1.5 ✅ 7.9/10 | 前25% | #语音编码 | #自监督学习 | #知识蒸馏 #无监督学习 | arxiv 👥 作者与机构第一作者：Ryota Komatsu（Institute of Science Tokyo）通讯作者：Ryota Komatsu（Institute of Science Tokyo）作者列表：Ryota Komatsu（Institute of Science Tokyo）、Kota Kawakita（Institute of Science Tokyo）、Takuma Okamoto（National Institute of Information and Communications Technology）、Takahiro Shinozaki（Institute of Science Tokyo） 💡 毒舌点评该工作敏锐地捕捉到 SD-HuBERT 的说话人主导缺陷和类别崩塌问题，用分块回归和性别定向扰动实现了干净的解耦，语音 LM 的语义提升和合成编码效率都相当扎实。但分块大小等关键参数高度依赖启发式调节，多阶段蒸馏流水线略显臃肿，且 sWUGGY 的劣势暴露了音节粒度在精细音系判别上的先天不足，整体方案离“即插即用”仍有距离。 ...

SPEARBench: A Benchmark for Naturalness Evaluation in Streaming Speech-to-Speech Language Models

📄 SPEARBench: A Benchmark for Naturalness Evaluation in Streaming Speech-to-Speech Language Models #语音交互 #大语言模型 #基准测试 #流式处理 #模型评估 8.9/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 1.1/1.5 | 开源 1.5/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 🔥 8.9/10 | 前25% | #语音交互 | #大语言模型 | #基准测试 #流式处理 | arxiv 👥 作者与机构第一作者：Thomas Thebaud（单位未明确说明，论文为匿名提交至 IEEE SLT 2026）通讯作者：未说明作者列表： Thomas Thebaud（未说明）、Yuzhe Wang（未说明）、Hao Zhang（未说明）、Sathvik Manikantan Napa Ugandhar（未说明）、Ashish Hallur（未说明）、Georgi Tinchev（未说明）、Venkatesh Ravichandran（未说明）、Laureano Moro-Velazquez（未说明） 💡 毒舌点评这项工作的亮点在于，它首次将打断、方言跟随、情感关联、人际立场等高度离散的社会性对话维度塞进了一个可统一运行的自动化 Benchmark 里，并且数据、代码、排行榜网站全开源，对 S2S 模型的工程迭代确实有"开箱即用"的推进作用。但毒舌地说，这本质上是一个工程集成项目，所有评估器都是拿来即用的现成模型，缺乏对复合评估偏差、评估器自身错误在 Benchmark 中的影响分析，使得分数的解释力在严格学术意义上打了折扣；同时仅用英文双人问答场景，就冠以"通用对话自然度"的名号，结论的泛化性存疑。 ...

Streaming Neural Speech Codecs through Time-Invariant Representations

📄 Streaming Neural Speech Codecs through Time-Invariant Representations #语音编码 #说话人验证 #流式处理 #多语言 6.0/10 | 创新 0.4/2 | 严谨 0.9/1.5 | 实验 0.8/1.5 | 清晰 0.6/1 | 影响 0.6/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 0.8/1.5 ✅ 6.0/10 | 前50% | #语音编码 | #自监督学习 | #说话人验证 #流式处理 | arxiv 👥 作者与机构第一作者：Kélian Estève（LIA, Avignon Université, France / LS2N, Nantes Université, France）通讯作者：未说明作者列表：Kélian Estève（LIA, Avignon Université, France / LS2N, Nantes Université, France）、Salima Mhdaffar（LIA, Avignon Université, France）、Mickael Rouvier（LIA, Avignon Université, France）、Richard Dufour（LS2N, Nantes Université, France）、Yannick Estève（LIA, Avignon Université, France） 💡 毒舌点评这篇论文像个老实巴交的工程师，仔仔细细拆解了TiCodec这个"前辈"留下的每个零件，通过探针分析发现编码器不同层确实关注了不同的不变信息。然而其核心贡献——把单根管子变成两根管子，如同给老房子多开了扇窗户，工程上直观有效但方法论上的创新增量令人提不起兴趣。实验覆盖面尚可，尤其跨域多语言评估值得肯定，但一堆诡异的指标复制粘贴和消失的标准基线对比，让这篇本该是扎实分析的工作蒙上了一层草率的阴影。 ...

SynSFX: Multi-Model Sound Effects Synthesis Dataset for Deepfake Detection and Evaluation

📄 SynSFX: Multi-Model Sound Effects Synthesis Dataset for Deepfake Detection and Evaluation #音频伪造检测 #基准测试 #数据集 #迁移学习 #领域适应 6.5/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1.2/1.5 | 清晰 0.6/1 | 影响 0.8/1.5 | 开源 0.8/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 ✅ 6.5/10 | 前50% | #音频伪造检测 | #迁移学习 | #基准测试 #数据集 | arxiv 👥 作者与机构第一作者：Linxi Li（University of Warwick, WMG）、Yuncong Yu（机构未说明，标记为同等贡献）通讯作者：未说明作者列表：Linxi Li（University of Warwick, WMG）、Yuncong Yu（机构未说明）、Qianwei Guo（机构未说明）、Liwei Jin（机构未说明）、Yechen Wang（机构未说明）、Carsten Maple（University of Warwick, WMG） 💡 毒舌点评这篇论文的贡献清晰但格局有限。作为一个基准数据集工作，SynSFX通过"共享提示词子集"为理解生成器artifact提供了一个精妙的诊断工具，其实验有力地揭露了现有检测器学到的只是"生成器指纹"而非"伪造痕迹"这一尴尬现实。然而，作为一篇顶会投稿，其定位略显尴尬。它既缺乏与新近数据集（如CompSpoofV2）在统一基准上的横向PK来确立自身压倒性优势，又完全没有提出任何新的检测方法或算法框架来尝试解决它自己所揭示的难题。这使得整篇论文更像一份深入且严谨的"问题陈述报告"，而非一个完整的、有破有立的解决方案。这项工作是扎实且有洞察力的，但它的贡献边界非常清晰，距离方法论的突破尚有一步之遥。 ...

Taste-aware music retrieval from audio embeddings

📄 Taste-aware music retrieval from audio embeddings #音乐检索 #预训练 #多任务学习 #可解释性 6.9/10 | 创新 1/2 | 严谨 1.1/1.5 | 实验 0.9/1.5 | 清晰 0.8/1 | 影响 0.4/1.5 | 开源 1.3/1.5 | 复现 0.4/0.5 | 工程 1/1.5 ✅ 6.9/10 | 前50% | #音乐检索 | #预训练 | #多任务学习 #可解释性 | arxiv 👥 作者与机构第一作者：Matteo Spanio（帕多瓦大学，CSC实验室）通讯作者：未说明作者列表：Matteo Spanio（帕多瓦大学，CSC实验室）、Antonio Rodà（帕多瓦大学，CSC实验室） 💡 毒舌点评本文把一个已有心理学根基的“声‑味对应”任务做实成了可复现、可检索的MIR基准，单编码器就能把误差压到单人评估者的一半，这个结论很漂亮。但40项的测试集让几乎所有的融合收益都落在统计噪声里，检索实验的CLAP-text完全失效更像是prompt问题而非方法本质优势，对“辣味”这一缺乏心理学支撑的轴也没有充分辩护。 📌 核心摘要论文将“从音频预测味觉”形式化为一个内容化音乐信息检索（MIR）基准，使用经过感知验证的多源语料库，预测甜、苦、咸、酸、辣五种味觉强度。方法核心是冻结预训练音频编码器提取嵌入，经时间池化后送入一个共享的、带sigmoid输出的多层感知机进行多任务回归，损失为掩码MSE，并引入门控晚期融合来组合多编码器。相比先前需微调五个独立AST回归器的工作，本文用一个多任务头取代五个独立头，并配合掩码损失和sigmoid输出，在极简的冻结编码器设置下大幅降低绝对误差，并额外增加了检索评估和心理学驱动的可解释性分析。最佳系统（单VGGish或融合组合）在测试集上达到宏观RMSE 0.134，在真实音乐子集上误差（RMSE 0.13）不到单个人类评估者与共识偏差（RMSE 0.28）的一半；门控晚期融合将宏观Pearson \(r\) 从0.666提升到0.724；在309项检索池中，基于味觉向量检索的精度完全饱和，而CLAP-text基线几乎随机。方法宏观RMSE↓ 宏观MAE↓ 宏观Pearson \(r\) ↑ VGGish (单编码器) 0.134 0.109 0.666 VGGish+MULE (融合) 0.134 0.111 0.724 SOTA (AST 5头) 0.219 0.175 0.556 配置 RMSE↓ MAE↓ 宏观\(r\) ↑ SOTA (微调AST, 无界MSE) 0.219 0.175 0.556 +冻结AST, 每味MLP, 掩码MSE, sigmoid 0.143 0.115 0.663 +共享多任务头 0.143 0.116 0.658 +门控晚期融合 (VGGish+MULE) 0.134 0.111 0.724 实际意义在于为音乐推荐系统提供了一个可解释的“味觉”语义轴，可支持“相似但更甜”这类检索，且模型误差已低于普通标注者，有替代或辅助人工评分的潜力。主要局限是样本量极小（训练269项，测试40项），导致统计效力不足，尤其是融合效果的显著性难以保证；辣味轴缺乏类似甜/苦那样的跨模态对应实证；跨文化泛化未验证。 🔗 开源详情代码：https://github.com/CSCPadova/wav2taste 模型权重：训练好的 taste 预测头（task-specific heads）随代码仓库提供（位于 https://github.com/CSCPadova/wav2taste）；使用的预训练音频编码器权重来自各开源项目（见下文“论文中引用的开源项目”）。数据集：https://huggingface.co/datasets/csc-unipd/sonic-seasoning （sonic-seasoning 统一音乐‑味觉语料库） Demo：论文中未提及复现材料：代码仓库提供训练与评估脚本；论文中给出训练超参数（AdamW，lr \(=10^{-3}\)，weight decay \(=10^{-4}\)，batch size \(=32\)，max \(50\) epochs，patience \(10\) on validation macro \(r\)，multi-task MLP head hidden \(256\)，dropout \(0.2\)，sigmoid output，\(5\) seeds \(\{11,22,33,44,55\}\)），冻结编码器缓存策略，分析探针配置（ridge \(\alpha=1.0\)，\(5\)-fold CV）等。论文中引用的开源项目： HEAR benchmark：https://hearbenchmark.com VGGish：https://github.com/tensorflow/models/tree/master/research/audioset/vggish PANNs：https://github.com/qiuqiangkong/audioset_tagging_cnn AST (Audio Spectrogram Transformer)：https://github.com/YuanGongND/ast HuBERT：https://github.com/pytorch/fairseq MERT：https://huggingface.co/m-a-p/MERT-v1-330M CLAP：https://github.com/LAION-AI/CLAP EnCodec：https://github.com/facebookresearch/encodec MULE：https://github.com/mule-project/mule （推测地址，论文引用[22]） librosa：https://github.com/librosa/librosa MusicGen (Audiocraft)：https://github.com/facebookresearch/audiocraft FMA (Free Music Archive)：https://github.com/mdeff/fma Omar-RQ：结合论文上下文应为基于 EnCodec 的离散自监督模型，常与 EnCodec 关联，未找到独立官方仓库（可能指 Omar 等人提出的残差量化变体，与 EnCodec 同源） 🏗️ 方法概述和架构本文构建了一个“从音频嵌入预测味觉”的冻结编码器‑多任务回归框架，并在此基础上附加门控晚期融合、可解释性探测和检索评估。 ...

TokAN: Accent Normalization Using Self-Supervised Speech Tokens

📄 TokAN: Accent Normalization Using Self-Supervised Speech Tokens 7.5/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 0.8/1.5 | 复现 0.4/0.5 | 工程 1.3/1.5 ✅ 7.5/10 | 前25% | #语音转换 | #强化学习 | arxiv 👥 作者与机构第一作者：Qibing Bai（香港中文大学（深圳）数据科学学院，腾讯天籁实验室）通讯作者：Shuai Wang（南京大学智能科学与技术学院，深圳若谷研究所），Haizhou Li（香港中文大学（深圳）人工智能学院，深圳市大数据研究院，深圳若谷研究所）其余作者：Yuhan Du（南京大学智能科学与技术学院）、Bohan Li（上海交通大学计算机科学与工程系X-LANCE实验室）、Yannan Wang（腾讯天籁实验室）（注：原文作者信息在标题页脚注中，非标准会议论文格式，已按照实际贡献标注通讯作者） 💡 毒舌点评这篇论文的工程整合能力值得肯定，将VQ tokenizer联合训练、BART预训练、GRPO强化学习后训练串成一个完整pipeline，并在L2-ARCTIC上把WER刷到了新低。但本质上是现有技术的“满汉全席”式堆叠，缺乏对口音转换这一核心问题的本质性新见解。强化学习部分的奖励权重（1.0和0.5）像是随手设的超参，完全没有消融分析，让人质疑其泛化性。更致命的是，对于“说话人相似度”这个硬伤，论文只是提了一嘴“未来用prompt合成器”，实验部分对此避而不谈，这种轻描淡写的态度会让审稿人觉得作者在回避核心缺陷。实验仅限于干净学术数据集，面对真实世界口音的鲁棒性完全是个黑盒。总的来说，这是个优秀的工程报告，但要作为顶刊长文，其理论深度和问题洞察力还差一口气。 📌 核心摘要本文针对非母语（L2）口音到标准母语（L1）口音的转换问题，提出了一个名为TokAN的离散化语音token转换框架。其核心流程包括：(1) 使用联合训练的自监督VQ tokenizer将语音量化为离散token；(2) 通过一个accent-universal的自回归Transformer（编码器-解码器）实现L2到L1的token序列映射；(3) 使用基于流匹配的非自回归合成器将转换后的token恢复为梅尔谱，并可选地支持总时长控制。主要贡献在于引入了GRPO强化学习后训练，直接以ASR的词错误率（WER）和口音分类器置信度作为奖励信号，无需平行数据即可优化口音消除和内容保留的目标。此外，联合训练的VQ tokenizer结合了合成和识别损失，使码本天然具备口音模糊化能力。在L2-ARCTIC的七个口音测试集上，TokAN-1在自由时长模式下取得了9.23%的WER和99.09%的L1概率，超越了FramAN、CosyAccent和VEVO等基线系统。主要局限是合成器造成的说话人相似度损失，以及方法目前仅限于英语口音转换。主要实验结果系统源长度 NAT(↑) ACT(↓) SIM(↑) WER(%↓) UTMOS(↑) SECS(↑) ΔPPG(↓) L1-Prob(%↑) Source ✓ 60.09 47.39 — 15.81 3.04 — .5092 74.06 FramAN ✓ 57.08 43.89 -0.075 17.55 2.99 .4478 .4711 83.50 CosyAccent-1 ✗ 65.25 27.35 -0.075 12.40 3.22 .3513 .2734 90.04 CosyAccent-2 ✓ 58.87 31.07 -0.096 13.84 3.12 .3682 .3027 87.24 VEVO ✓ 62.03 40.52 -0.023 28.94 3.01 .5775 .5328 95.51 Resynthesis ✓ 60.54 43.09 -0.417 14.01 3.20 .5862 .4464 79.03 TokAN-1 ✗ 70.73 22.23 -0.081 9.23 3.38 .3655 .2533 99.09 TokAN-2 ✓ 62.90 25.51 -0.067 9.40 3.26 .3727 .2622 99.01 （注：原分析表格中缺少SIM列数据，本表已补全。SECS中Resynthesis的值为.5862，原分析误写为.D5862，已修正。）分口音 WER (%): ...

Towards Digital Preservation of Efik: TTS for a Low-Resource African Language

📄 Towards Digital Preservation of Efik: TTS for a Low-Resource African Language #语音合成 #低资源 #多语言 #模型比较 4/10 | 创新 0.2/2 | 严谨 0.4/1.5 | 实验 0.5/1.5 | 清晰 0.7/1 | 影响 0.7/1.5 | 开源 0.2/1.5 | 复现 0.2/0.5 | 工程 1.1/1.5 📝 4/10 | 后50% | #语音合成 | #低资源 | #多语言 #模型比较 | arxiv 👥 作者与机构第一作者：Offiong Bassey Edet（University of Cross River State, Nigeria / ML Collective）通讯作者：未说明作者列表：Offiong Bassey Edet（University of Cross River State, Nigeria / ML Collective）、Emmanuel Oyo-Ita（University of Cross River State, Nigeria）、Archibong Okon Archibong（University of Calabar, Nigeria）、David Effanga Bassey（University of Calabar, Nigeria）、Mbuotidem Sunday Awak（ML Collective） 💡 毒舌点评本文为濒危语言Efik贡献了首个TTS基线数据集，由尼日利亚本土团队主导，在语言多样性保护方面值得肯定。然而，作为一篇意图冲击顶会的论文，其技术贡献约等于零：仅仅是在一种新语言上对四个开源模型跑了通标准的微调流程，然后让5个人打了个MOS分。论文没有提出任何针对声调语言的架构设计或训练范式创新，评测体系极其单薄且缺乏客观指标，对于声调语言的建模根本性问题（如无音调标注的G2P如何定义）采取了近乎回避的态度。整体而言，这项工作是一份合格的语种应用报告，但离顶会所要求的方法学深度相去甚远。 ...