论文速递 | 语音/音乐/音频论文速递

Phoneme-Level Mispronunciation Screening in Polish-Speaking Children with an Explainable Assistant

📄 Phoneme-Level Mispronunciation Screening in Polish-Speaking Children with an Explainable Assistant #语音识别 #语音合成 #自监督学习 #低资源 #数据增强 6.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 0.5/1.5 ✅ 6.2/10 | 前50% | #语音识别 | #自监督学习 | #语音合成 #低资源 | arxiv 👥 作者与机构作者：Milosz Dudek, Kamil Hemmerling, Maciej Kwarciak, Maria Stroinski, Mateusz Pensko, Kamil Kowalewski, Leonid Pavlovskyi, Sebastian Jurczak, Anna-Mariia Vitkovska, Zuzanna Miodonska, Natalia Mocko, Michal Krecichwost。机构：1 AGH University of Krakow, Cracow, Poland; 2 SoftServe, Cracow, Poland; 3 Department of Biomedical Engineering, Silesian University of Technology, Poland; 4 Institute of Linguistics, Faculty of Humanities, University of Silesia in Katowice, Poland. ...

Real-Time Voice AI Hears but Does Not Listen

📄 Real-Time Voice AI Hears but Does Not Listen 7/10 | 创新 1/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7/10 | 前50% | arxiv 👥 作者与机构 Martijn Bartelds (Together AI), Federico Bianchi (Together AI), James Zou (Together AI, Stanford University) 💡 毒舌点评这篇论文像个犀利的诊断医生，精准地指出了当前“多模态”语音AI的一个重大“病症”——“听见但不听”（Hears but Does Not Listen）。它设计了几个非常直观、具有现实冲击力的冲突场景（比如一边哭一边说“没事”），用最直接的“决策行为”作为试金石，而非仅仅停留在分类标签上，这一点立意很高，直指部署安全的核心。然而，作为一篇顶会论文，其“手术刀”似乎还不够锋利和全面。研究本质上是一项高质量的系统评测，但方法创新性和技术深度有限。它诊断出了问题，但对于“病因”（如模型架构缺陷、训练数据偏差）的探究浮于表面，仅引用了现有工作的假说。实验结果虽然结论强烈，但评估维度相对传统（情绪、口音、年龄），且未对商业API模型背后的任何技术细节进行分析或控制变量，使得洞察更偏向于现象观察而非机理剖析。论文最大的价值在于为社区敲响了警钟，并提出了一个重要的评估范式，但若期望它给出解决路径或更深层的理论解释，则会感到失望。 📌 核心摘要本研究系统性地评估了四个领先的生产级实时语音AI系统（GPT Realtime 2, Gemini 3.1 Flash Live, Qwen3.5 Omni Plus/Flash Realtime），探究它们在处理“词汇信息”与“非词汇信息”（如情绪、语气）冲突时的决策机制。研究设计了三个具有高风险含义的多轮对话场景（紧急情况回访、银行反诈核实、志愿者招募），其中语音传递的情绪（如哭泣、恐惧、讽刺）与文字内容（“一切正常”、“我授权”、“我同意”）指向相反的行动指令。同时，通过单轮诊断测试，直接探查系统对声音情绪、说话人口音和年龄的感知能力。核心发现是，这四个系统普遍存在“情感智能差距”：三个系统能够在感知层面识别出语音中的情绪（尽管程度不一），但在做决策时，却几乎完全依赖文字内容，从而导致了错误的决策（如结束对哭泣者的求救回访、批准在恐惧语气下的大额转账）。一个系统（Qwen3.5 Omni Flash）甚至在感知阶段就无法正确识别某些情绪。尝试通过提示词引导系统“关注语气”或“覆盖文字”只能带来部分且不稳定的改善。研究证实，当前实时语音AI的行为模式，在很大程度上等同于将语音信号降级为文字转录来处理，这在依赖语音传递关键情境信息的领域（如医疗、金融、紧急服务）构成了显著的安全风险。 ...

Sarashina2.2-TTS: Tackling Kanji Polyphony in Japanese Speech Generation via Data Scaling and Targeted Data Synthesis

📄 Sarashina2.2-TTS: Tackling Kanji Polyphony in Japanese Speech Generation via Data Scaling and Targeted Data Synthesis #语音合成 #语音生成 #数据增强 7.3/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.3/10 | 前50% | #语音合成 | #数据增强 | #语音生成 | arxiv 👥 作者与机构作者：Lianbo Liu, Shiao Zhu, Kai Washizaki, Reo Yoneyama, Haesung Jeon, Mengjie Zhao, Yusuke Fujita, Hao Shi, Nao Yoshida, Yuan Gao, Roman Koshkin, Yukiya Hono, Yui Sudo。机构：SB Intuitions。 ...

SE-AGCNet: An End-to-End Framework for Joint Speech Enhancement and Loudness Control in Meeting Scenarios

📄 SE-AGCNet: An End-to-End Framework for Joint Speech Enhancement and Loudness Control in Meeting Scenarios #语音增强 #数据增强 #语音质量评估 #语音识别 7.4/10 | 创新 1.4/2 | 严谨 1/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 ✅ 7.4/10 | 前50% | #语音增强 | #数据增强 | #语音质量评估 #语音识别 | arxiv 👥 作者与机构作者：Jinming Zhang, Xionghu Rao, Wei Zhong, Eng Siong Chng 机构：1 浙江大学，中国；2 南洋理工大学，新加坡；3 湖南大学，中国通讯作者：pmhuan1212@gmail.com, aseschng@ntu.edu.sg ...

SpeechEQ: Benchmarking Emotional Intelligence Quotient in Socially Aware Voice Conversational Models

📄 SpeechEQ: Benchmarking Emotional Intelligence Quotient in Socially Aware Voice Conversational Models #基准测试 6.7/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.2/1.5 ✅ 6.7/10 | 前25% | #语音对话系统 | #基准测试 | arxiv 👥 作者与机构 Liang-Yuan Wu (纽约大学), Zih-Ching Chen (NVIDIA), Tongshuang Wu (卡内基梅隆大学), C.-H. Huck Yang (NVIDIA), Hua Shen (纽约大学, 上海纽约大学) 💡 毒舌点评一篇扎实的、填补空白的基准测试工作。其核心价值不在于提出新模型，而在于设计了一套严谨且刁钻的“考试”（SpeechEQ），暴露了当前多模态语音对话模型（SLMs）在社会情感智能上的三大“软肋”：依赖文本捷径、安全对齐导致情感扁平化、以及多轮对话中的遗忘。理论基础（EQ-i 2.0）的选择和“语义-声学解耦”的评估范式设计是亮点，体现了对评估科学性的追求。然而，这终究是一个“评测集”论文，其本身的创新天花板有限。更关键的是，作为评测集，其生态效度完全建立在合成数据之上，这是一个无法回避的“阿喀琉斯之踵”。SEQ分数的计算显得有些过于复杂，为了追求形式上的标准化而增加了理解门槛。此外，虽然评估了多个模型，但主要结论（端到端优于级联、模型存在三大局限）的普适性有待更广泛模型（尤其是非Qwen系列）的验证。论文对自身局限的讨论可以更坦诚一些，特别是数据生成管线对特定TTS模型的依赖问题。 ...

STEB: A Speech-to-Speech Translation Expressiveness Benchmark for Evaluating Beyond Translation Fidelity

📄 STEB: A Speech-to-Speech Translation Expressiveness Benchmark for Evaluating Beyond Translation Fidelity #语音翻译 #语音合成 #语音识别 #多模态模型 #大语言模型 7.8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.8/10 | 前50% | #语音翻译 | #语音合成 | #语音识别 #多模态模型 | arxiv 👥 作者与机构作者：Sitong Cheng, Weizhen Bian, Songjun Cao, Jin Li, Bei Liu, Chunyang Jiang, Yike Zhang, Weihao Wu, Yiming Li, Chi-Min Chan, Long Ma, Wei Xue 单位：香港科技大学，腾讯优图实验室，清华大学深圳国际研究生院 ...

Supervised Post-training of Speech Foundation Models for Robust Adaptation in Speech Deepfake Detection

📄 Supervised Post-training of Speech Foundation Models for Robust Adaptation in Speech Deepfake Detection #语音伪造检测 #自监督学习 #参数高效微调 #低资源 #鲁棒性 7.6/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7.6/10 | 前50% | #语音伪造检测 | #自监督学习 | #参数高效微调 #低资源 | arxiv 👥 作者与机构作者：Zihan Pan, Hardik Sailor, Jinyang Wu 机构：新加坡科技研究局 (A*STAR) 信息通信研究院 (I2R) 💡 毒舌点评这篇论文在特定赛道（单模型无增强）刷了SOTA，看起来不错。但仔细一想，这所谓的“监督后训练”不就是个精心设计的、分阶段的微调策略吗？创新性被高估了。论文把“混合帧扰动”包装得很厉害，但本质是数据层面的一种增强手段，只是换了个名字叫“post-training”。更让人皱眉的是，方法论部分写得像在绕迷宫，公式列了一堆但关键直觉阐述不清，比如为什么帧级标签分配要依据中心样本（公式3）？这个设计选择缺乏足够的动机论证。另外，在ASV21上只比别人好了一丢丢（gap从0.34降到0.16），但论文却大书特书其“平衡的鲁棒性”，有过度claim之嫌。总之，这是一篇工程上做了不少工作（值得肯定），但理论洞察和叙事都有提升空间的论文。 ...

Velocity Prediction in Automatic Guitar Transcription

📄 Velocity Prediction in Automatic Guitar Transcription 7.5/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.5/10 | 前25% | arxiv 👥 作者与机构 Jackson Loth, Xavier Riley, Simon Dixon, Emmanouil Benetos 机构：论文未在正文明确列出作者单位。根据摘要页脚，该工作受Innovate UK和UKRI Centre for Doctoral Training in AI and Music支持，并利用了Queen Mary University of London的Apocrita HPC设施。 💡 毒舌点评这篇论文的出发点很好——解决吉他转录中几乎被遗忘的“速度”预测问题。作者诚实地指出了吉他速度定义的模糊性这一根本痛点，并提出了一个务实的、基于虚拟乐器的“曲线救国”方案。两阶段迁移学习的设计在工程上是合理的。然而，最大的尴尬在于，由于缺乏真实世界的ground truth，这项工作的核心贡献（速度预测）几乎无法被严格评估。合成数据上的优异表现，说服力打了个大折扣。那个对音高转录“微小但有时显著”的提升（约0.1%），在顶会舞台上更像是一种安慰奖，很难让人兴奋。论文的实验设计（特别是两次数据划分）体现了审慎，但“我们无法验证模型是否真正理解了吉他速度”这一局限，像一根刺，扎在整篇工作的根基上。整体是一篇扎实、诚实但略显遗憾的领域入门级工作。 📌 核心摘要本文针对自动吉他转录（AGT）中普遍缺失的速度预测问题，提出了一种基于合成数据预训练和迁移学习的方法。由于缺乏带有真实速度标注的吉他数据集且吉他速度概念本身模糊，作者利用虚拟乐器从现有MIDI数据生成带有速度标签的合成音频，预训练速度预测模块。随后，将该模块的权重冻结并迁移至一个在真实吉他数据集（无准确速度标签）上训练的转录模型中，从而赋予模型速度预测能力，同时利用真实数据保证转录性能。实验表明，该方法在合成数据上显著优于基线速度预测模型，且预训练的速度权重能为音高转录带来微小但有时统计显著的性能提升。这是首个在吉他转录中集成速度预测的工作。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及模型权重下载链接数据集： FrançoisLeduc数据集：用于创建合成训练数据。论文中引用[22]，未提供直接下载链接。 GAPS数据集：用于微调。论文中引用[21]，未提供直接下载链接。 GOAT数据集：用于微调。论文中引用[16]，未提供直接下载链接。 GuitarSet数据集：用于测试。论文中引用[24]，未提供直接下载链接。 EGDB数据集：用于测试。论文中引用[2]，未提供直接下载链接。（注：以上数据集均为论文引用的现有数据集，并非本论文新发布。） Demo：论文中未提及复现材料：论文中描述了训练配置（如迭代次数、学习率、批量大小、数据增强方法、硬件信息），但未提供具体的配置文件或检查点下载链接。论文中引用的开源项目： Pedalboard：音频数据增强工具包。链接：https://github.com/spotify/pedalboard mir_eval：用于转录和速度评估的工具包。链接：https://github.com/craffel/mir_eval 作者与机构 Jackson Loth, Xavier Riley, Simon Dixon, Emmanouil Benetos 机构：论文未在正文明确列出作者单位。根据摘要页脚，该工作受Innovate UK和UKRI Centre for Doctoral Training in AI and Music支持，并利用了Queen Mary University of London的Apocrita HPC设施。 ...

Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models

📄 Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models #语音合成 #语音识别 #多模态模型 7.2/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0.2/1.5 | 复现 0.2/0.5 | 工程 1.5/1.5 ✅ 7.2/10 | 前25% | #语音合成 | #语音识别 | #多模态模型 | arxiv 👥 作者与机构 Wan Team, Alibaba Group 💡 毒舌点评这篇工作野心很大，试图用一个模型解决实时交互的“全双工”问题。优点是系统集成度高，从感知到生成一气呵成。但作为一篇会议论文，它更像是一份优秀的工程报告，而非一篇算法或理论创新驱动的学术论文。最令人遗憾的是，几乎所有关键的技术细节都被“黑箱化”了：Transformer的具体结构？多模态token如何调度？流匹配解码器细节？统统没有。实验部分更是避重就轻，用大量篇幅和不规范的表格对比“延迟”，却对生成质量避而不谈。消融实验？不存在的。这就像一个厨师说他的新菜“又快又好吃”，但拒绝透露菜谱、食材和火候，只给你看了一个计时器。对于顶会论文而言，这种程度的细节披露严重不足，可复现性基本为零。作者提出的v0.1版和192p分辨率也暗示这更像一个技术演示而非成熟方案。 📌 核心摘要 Wan-Streamer是一个原生流式、端到端的实时交互基础模型，旨在实现低延迟、全双工的音视频交互。它在一个单一的Transformer中建模文本、音频和视频的输入与输出，无需依赖外部的ASR、TTS、动画或视频生成等级联模块。论文的核心贡献包括：1）提出了一种全因果的多模态架构，包括因果VAE、因果编解码器、块因果注意力以及全历史自回归流式处理；2）设计了“思想家-执行者”（thinker-performer）推理流水线，通过KV缓存交换实现理解与生成过程的重叠，实现了约200毫秒的模型端响应延迟和约550毫秒（含350ms网络延迟）的总交互延迟。论文强调，这种端到端设计使得感知、推理、生成、响应时机控制和轮次管理能在统一的模型中联合优化，从而减少流水线延迟和误差累积。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及数据集：论文中未提及 Demo：https://wan-streamer.com/ 复现材料：论文中未提及论文中引用的开源项目：未提及 🏗️ 方法概述和架构 Wan-Streamer的设计核心是“流式性作为建模约束”，其整个技术栈均围绕因果性进行重构。 ...

What Does a Pathological Speech Assessment Model Know about Acoustic Features? A Case Study on Oral and Oropharyngeal Cancer Patients

📄 What Does a Pathological Speech Assessment Model Know about Acoustic Features? A Case Study on Oral and Oropharyngeal Cancer Patients #语音可懂度评估 #自监督学习 6.4/10 | 创新 1.5/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.4/10 | 前50% | #语音可懂度评估 | #自监督学习 | arxiv 👥 作者与机构 Tuan Nguyen, Corinne Fredouille (阿维尼翁大学，LIA，UPR 4128，法国) Alain Ghio, Muriel Lalain (艾克斯-马赛大学，CNRS，LPL，法国) Virginie Woisard (图卢兹医院 Larrey，法国；UT2J，神经心理语言学实验室，法国) ...