论文速递 | 语音/音乐/音频论文速递

Online Predictive Coding for Dual-Mode Self-Supervised Speech Model

📄 Online Predictive Coding for Dual-Mode Self-Supervised Speech Model #语音识别 #自监督学习 #预训练 7.2/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.2/10 | 前50% | #语音识别 | #自监督学习 | #预训练 | arxiv 👥 作者与机构 Keita Goto\(^{1}\), Takashi Maekaku\(^{1}\), Jin Sakuma\(^{1}\), Jinchuan Tian\(^{2}\), Yusuke Shinohara\(^{1}\), Shinji Watanabe\(^{1}\) \(^{1}\) LY Corporation, Tokyo, Japan \(^{2}\) Carnegie Mellon University, PA, USA ...

OpenWER: Improving Cross-Lingual ASR Evaluation and Enabling Token-Based Accuracy Metrics

📄 OpenWER: Improving Cross-Lingual ASR Evaluation and Enabling Token-Based Accuracy Metrics #语音识别 #低资源 #开源工具 8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8/10 | 前50% | #语音识别 | #低资源 | #开源工具 | arxiv 👥 作者与机构论文作者是Korbinian Kuhn和Gottfried Zimmermann。机构为斯图加特传媒大学（Stuttgart Media University）和蒂宾根大学（University of Tübingen）。 💡 毒舌点评这篇论文本质上是一个做得不错的开源工具包发布，包装了一套工程化的评估流水线。它的价值在于“整合”与“实用”，而非“发现”或“突破”。将几个已有的后处理技巧（归一化、复合词处理）打包进一个统一的框架，并号称能降低WER，这更像是对现有最佳实践的梳理和标准化，而非开辟新路。最大的亮点——细粒度评估（标点、大小写）——虽然有用，但概念上并不新颖。性能上的巨大鸿沟（慢100多倍）是其学术转化应用的阿喀琉斯之踵。论文在论证“为什么数值更低的WER就更好”这一核心问题上显得乏力，缺乏与人类判断的直接挂钩，这使得其“改进”的说服力打折扣。总体而言，这是一篇合格的、对社区有工具性贡献的工作，但距离顶级会议所期待的深刻洞见或显著性能提升尚有距离。 📌 核心摘要本文提出了OpenWER，一个用于改进跨语言自动语音识别评估的开源工具。其核心贡献在于：1) 通过模块化设计支持灵活的文本预处理（分词、语言特定归一化）；2) 扩展了Levenshtein距离算法，以处理标点符号和复合词，从而减少非语义差异导致的WER波动；3) 基于token的对齐机制能够保留原始文本及嵌入的元数据（如词性、置信度），从而支持计算标点准确率、大小写准确率等互补指标。在Common Voice 17数据集上对52种语言的评估显示，OpenWER相比JiWER和Whisper默认归一化，平均WER分别降低了7.7%（14.5%相对）和3.8%（9.2%相对），绝对WER降低最高可达25%。论文强调此工具旨在提高跨语言评估的公平性和全面性。 ...

PHAST-Net: Attention-Guided, Physics-Informed Network for Unified Estimation of Ideal Time-Frequency Representations

📄 PHAST-Net: Attention-Guided, Physics-Informed Network for Unified Estimation of Ideal Time-Frequency Representations #音乐信息检索 9/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9/10 | 前10% | #音乐信息检索 | #音乐信息检索 | arxiv 👥 作者与机构作者：James M. Cozens, Simon J. Godsill 机构：剑桥大学工程系，概率系统、信息与推断小组（\(\psi^2\)）注：James M. Cozens为博士生（IEEE会员），Simon J. Godsill为教授（IEEE Fellow）。该工作已提交至IEEE期刊进行可能的发表，作者James M. Cozens受英国工程和自然科学研究委员会（EPSRC）博士培训伙伴计划资助。 💡 毒舌点评这篇论文是“理论家的深度学习”范式的典范。作者没有满足于简单地将CNN扔到时频图上，而是从经典的Cohen类分布理论出发，精心设计了CLAWT输入表示和物理约束的再投影损失。这种对领域知识的尊重在如今“炼丹”成风的氛围里显得尤为可贵。然而，其优雅的理论框架也带来了代价：复杂的数学描述和定制化的CLAWT构造，使得方法的理解和复现门槛极高。更令人困惑的是，作为一个声称“通用”的框架，所有实验都在精心构造的合成数据上进行，对真实世界复杂信号的验证仅限于几个视觉示例。这就像一位武林高手，招式精妙绝伦，内功深厚无比，但从未在真正的擂台上与各路高手（如真实的语音、音乐数据库）较量过。我们被其数学之美所折服，但对其实际效用的疑虑也油然而生。此外，论文声称提供了一个“有效无限”的合成数据集，却闭口不谈生成数据的任何具体参数和分布假设，这种“黑箱”数据生成方式在可复现性上留下了巨大黑洞。 📌 核心摘要本文提出了PHAST-Net，一个用于统一估计理想时频表示（ITFR）的注意力引导、物理信息神经网络框架。针对时频分析中交叉项抑制与分辨率提升的核心矛盾，PHAST-Net通过三个关键创新实现突破：1）提出了连续对数频率自适应小波变换（CLAWT），其参数直接控制Cohen类核在时频平面上的朝向和尺度，为网络提供了一组物理意义明确、覆盖全面的输入特征；2）设计了一种物理信息辅助的再投影损失函数，将网络预测的ITFR通过对应的Cohen类核重新投影，强制预测结果与输入变换族保持一致，并促进能量守恒；3）在对数频率坐标下构建统一框架，使得谐波结构在坐标轴上具有平移等变性，从而衍生出Harmonic PHAST-Net，能够同时抑制谐波并提取基频轨迹，进而支持高质量的基础节拍图和节拍图估计。此外，引入的Spline-PHAST-Net变体能够检测并参数化时频脊线，实现组件级别的提取和任意网格的重新渲染。在精心设计的合成基准测试中，PHAST-Net在Bhattacharyya系数、Jensen-Shannon散度和脊线能量比等指标上全面超越了SST、SET、RIFT等先进方法，尤其在低信噪比条件下优势显著。 ...

Physics-Informed Neural Operator for Speech Production Analysis

📄 Physics-Informed Neural Operator for Speech Production Analysis #语音合成 #自监督学习 6.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 6.7/10 | 前50% | #语音合成 | #自监督学习 | arxiv 👥 作者与机构 Yokota, Kazuya (1) Luan, Xinmeng (2) Mohapatra, Debasish Ray (3) Scavone, Gary (2) Fels, Sidney (3) 1 Department of Mechanical Engineering, Nagaoka University of Technology, Japan 2 Schulich School of Music, McGill University, Canada 3 Department of Electrical and Computer Engineering, University of British Columbia, Canada ...

PIVOTSBench: Evaluating Fine-Grained Interpersonal Relationship Reasoning in Multimodal Large Language Models

📄 PIVOTSBench: Evaluating Fine-Grained Interpersonal Relationship Reasoning in Multimodal Large Language Models #基准测试 6.8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.8/10 | 前50% | #基准测试 | #基准测试 | arxiv 👥 作者与机构作者：Shuxiang Zhang (中山大学), Yiting Yin (密歇根大学), Wenxuan Song (清华大学), Yuhang Wu† (清华大学), Miao Liu† (清华大学)。通讯作者为Yuhang Wu和Miao Liu。 💡 毒舌点评这篇论文的定位很明确——在通用的多模态大模型评估领域“圈地”，提出了一个看似“填补空白”的社交推理基准。其核心动机（现有评估不够细粒度）是合理的，但实际执行和深度存在明显短板。最大的问题是“雷声大雨点小”：声称是“首个”基准，但数据集规模（191个视频）在当今大模型时代显得过于迷你，难以支撑具有统计显著性的结论。消融实验设计得颇为花哨，涵盖了模态、预测设置和提示策略，但分析深度不足，很多结论停留在现象描述（如“在YouTube上变差”），缺乏对模型内部机制（如为何联合预测对深度场景无效）的挖掘。实验对比部分，与开源模型的差距被过分强调，而与当前最强闭源模型（如GPT-4o）的细致对比和差距分析缺失。论文最大的亮点在于其心理学框架的引入，但这更像一个“理论包装”，实际评估任务的设计（如关键帧识别）是否能真正衡量“推理”能力值得怀疑。总体而言，这是一篇在选题上讨巧，但在贡献的坚实性、实验的深度和结论的普适性上都亟待提升的工作。 📌 核心摘要本文针对多模态大语言模型（MLLMs）在细粒度人际关系推理能力评估的空白，提出了PIVOTSBench基准。该基准基于心理学理论定义了六维双向人际关系评分框架，并设计了三项层次化任务（评分、关键帧识别、因果分析）来系统性评估模型能力。数据集融合了Social-IQ 2.0的显式社交场景和YouTube的隐式深度互动场景。实验表明，以GPT-5为代表的专有模型在所有任务上显著优于Qwen3系列开源模型。消融研究揭示，视觉模态和显式社会角色信息在不同场景下的贡献存在差异，而联合/成对预测策略及启发式提示的效果高度依赖于场景的显性程度。论文指出，当前MLLMs在理解隐式社交线索方面仍存在明显局限，且单一的建模策略无法应对复杂多变的真实社交动态。 ...

ProsoCodec: Prosody-Oriented Speech Codec for Voice Conversion

📄 ProsoCodec: Prosody-Oriented Speech Codec for Voice Conversion #语音转换 #流匹配 #扩散模型 6.6/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.3/1.5 | 复现 0.4/0.5 | 工程 0.5/1.5 ✅ 6.6/10 | 前50% | #语音转换 | #流匹配 | #扩散模型 | arxiv 👥 作者与机构作者: Jeongsoo Choi, Ji-Hoon Kim, Shujie Hu, Joon Son Chung 机构: KAIST (韩国科学技术院), Chung-Ang University (中央大学), The Chinese University of Hong Kong (香港中文大学) ...

Scaling Audio Models Efficiently: A Joint Study of Compute Constraints and Optimization Behavior

📄 Scaling Audio Models Efficiently: A Joint Study of Compute Constraints and Optimization Behavior #参数高效微调 #语音识别 #语音情感识别 #模型压缩 #大语言模型 7.2/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.8/1.5 | 复现 0.4/0.5 | 工程 0.4/1.5 ✅ 7.2/10 | 前50% | #语音识别 | #参数高效微调 | #语音情感识别 #模型压缩 | arxiv 👥 作者与机构论文作者为 Vyom Agarwal, Mokshda Gangrade, Siddharth Pal, Jerry Wu。文中未明确提及作者所属机构。 💡 毒舌点评这篇论文像是在用显微镜仔细观察一个众所周知的工程事实：模型越大、输入越多、算的越细，效果一般会越好，但算力不是无限的。其核心贡献“三轴框架”(\(x_N, x_T, x_V\))更像是一种标准化的观察视角，而非突破性的算法或理论。方法上，本质上是“控制变量法”（Star-Sweep）在模型缩放场景下的应用，组合了现成的LoRA和DAMA技术。实验很扎实，表格列得很满，Pareto前沿图也画了，结论基本符合直觉（例如收益递减、存在最优输入长度）。但“创新性”令人尴尬，更像是在ICASSP发的工作硬往顶会挤。审稿人看到“extends this idea to the audio domain”这种话大概会翻白眼。最大的亮点可能是清晰地揭示了ASR和SER任务在缩放特性上的本质差异（平滑前沿 vs. 稀疏前沿），但这更像是一个细致的实证发现，而非方法上的突破。 ...

SDP-Codec: A Speaker-Decoupled Speech Codec with Pitch Injection for Low-Bitrate Coding and Zero-Shot Voice Conversion

📄 SDP-Codec: A Speaker-Decoupled Speech Codec with Pitch Injection for Low-Bitrate Coding and Zero-Shot Voice Conversion #语音编码 #自监督学习 7.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7.2/10 | 前50% | #语音编码 | #自监督学习 | arxiv 👥 作者与机构作者：Hounsu Kim, Juhan Nam 机构：Graduate School of Culture Technology, KAIST, Daejeon, South Korea 💡 毒舌点评亮点：终于有人想着别让编解码器把说话人信息都塞进内容token里了。单阶段训练的设计很务实，避免了那些花里胡哨的多阶段对抗训练。把FCPE的soft-label loss拿来做pitch reconstruction，思路清晰。在说话人相似度（SECS）和F0相关性上的提升是实打实的，特别是16kHz的大模型版本，在VC任务上吊打了BiCodec和MSRCodec，这个结果很有说服力。消融实验也做得扎实，把连续特征、pitch loss和F0注入的作用讲得比较明白。 ...

Sea-Scan: High-Accuracy, ML-based Dark Vessel Detection and Localisation via Weakly Supervised DAS Monitoring

📄 Sea-Scan: High-Accuracy, ML-based Dark Vessel Detection and Localisation via Weakly Supervised DAS Monitoring 6.3/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0/1.5 | 复现 0.4/0.5 | 工程 1.1/1.5 ✅ 6.3/10 | 前50% | arxiv 👥 作者与机构作者：Tian Tian, Agastya Raj, Lara Flanagan, John Kennedy, Marco Ruffini 机构：(1) Trinity College Dublin, Ireland - School of Computer Science and Statistics, IRIS Research Group, ADAPT Research Centre; (2) Trinity College Dublin, Ireland - School of Engineering, ADAPT Research Centre 💡 毒舌点评这篇论文瞄准了一个非常实际且重要的问题——用海底光缆的DAS信号检测关闭了AIS的“黑暗船只”，这确实有重大的安全和基础设施保护意义。工程上看起来也做得不错，用了14TB真实数据，跑通了整个流程，还发现了42个疑似黑暗船只事件，这很有说服力。然而，从顶会审稿的角度看，几个硬伤很明显：第一，创新性不足。核心的编码器骨架直接拿来主义（用了引用[11]），主要创新点集中在训练目标和检测头设计上，这更像是一个精心调校的工程系统，而非方法论上的突破。第二，实验对比严重缺失。全文没有与任何一种现有的、哪怕是经典的或简单的机器学习方法（比如基于CNN的分类器、传统的能量检测器、或其他弱监督模型）进行定量对比。仅与自身先驱工作或传统AIS方法进行概念对比，在机器学习会议上是完全不够的。这让人无法判断所提框架相对于其他技术路线的优劣。第三，分析深度不够。作者提到远距离漏检与噪声增加有关，但没分析噪声具体特征；AIS标签有噪声是事实，但文中没有对噪声建模或分析其对训练的影响；消融研究只有部分结果（如趋势滤波器），没有完整展示各组件贡献。第四，领域匹配度。虽然用了DAS（一种信号），但其核心贡献在于一套特定应用场景的机器学习流水线设计，对语音/音乐/音频领域的研究者来说，借鉴意义有限。总的来说，这是一篇扎实的应用型工作，离顶级ML会议的理论深度或方法创新要求还有距离。 ...

Speaker Identity in Non-Verbal Vocalizations: Conditional Distillation and Mixture of Experts Approach

📄 Speaker Identity in Non-Verbal Vocalizations: Conditional Distillation and Mixture of Experts Approach #说话人验证 #知识蒸馏 #自监督学习 9.1/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 9.1/10 | 前25% | #说话人验证 | #知识蒸馏 | #自监督学习 | arxiv 👥 作者与机构 Tzu-Chieh Wei (jeff20020302@gmail.com), Yi-Cheng Lin (even.dlion8@gmail.com), Huang-Cheng Chou, Kuan-Yu Chen, Hsin-Yen Sung (tlkagkb93901106@gmail.com), Shrikanth Narayanan, Hung-yi Lee. 机构： ...