论文速递 | 语音/音乐/音频论文速递

HALAS: A Human-Annotated Dataset of Hallucinations of Modern ASR Systems

📄 HALAS: A Human-Annotated Dataset of Hallucinations of Modern ASR Systems #语音识别 #数据集 #基准测试 8.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 🔥 8.4/10 | 前50% | #语音识别 | #数据集 | #基准测试 | arxiv 👥 作者与机构 Mateusz Barański, Jan Jasiński, Julitta Bartolewska, Marcin Witkowski, Konrad Kowalczyk Signal Processing Group, Institute of Electronics, AGH University of Krakow, Poland ...

How Well Do Self-Supervised Speech Models Encode Age and Gender in Children's Speech? A Layer-Wise Analysis Across Multiple Architectures

📄 How Well Do Self-Supervised Speech Models Encode Age and Gender in Children's Speech? A Layer-Wise Analysis Across Multiple Architectures #自监督学习 #迁移学习 9/10 | 创新 1.5/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9/10 | 前50% | #自监督学习 | #自监督学习 | #迁移学习 | arxiv 👥 作者与机构作者：Abhijit Sinha, Hemant Kumar Kathania, Mohit Joshi, Harishankar Kumar, Shrikanth Narayanan, Sudarsana Reddy Kadiri。机构：印度锡金国立技术学院 (National Institute of Technology Sikkim)，美国南加州大学信号分析与解释实验室 (Signal Analysis and Interpretation Lab, University of Southern California)。 ...

Imitation Learning for Elder-Facing Speech Synthesis

📄 Imitation Learning for Elder-Facing Speech Synthesis #语音合成 #强化学习 #低资源 5.5/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 0.8/1.5 | 清晰 0.8/1 | 影响 0.6/1.5 | 开源 0.1/1.5 | 复现 0.3/0.5 | 工程 0.6/1.5 📝 5.5/10 | 前50% | #语音合成 | #强化学习 | #低资源 | arxiv 👥 作者与机构作者：Dongrui Han, Weidong Chen, Jiawen Kang, Mingyu Cui, Helen Meng, Xixin Wu 机构：1 The Chinese University of Hong Kong, Hong Kong SAR, China; 2 Tencent Hunyuan, China ...

Improving Engine Sound Analysis in Hot-Test Environments via a RAB-U-Net (Residual Attention Block U-Net) Noise Removal Method

📄 Improving Engine Sound Analysis in Hot-Test Environments via a RAB-U-Net (Residual Attention Block U-Net) Noise Removal Method #音频降噪 4.9/10 | 创新 1/2 | 严谨 0.8/1.5 | 实验 0.9/1.5 | 清晰 0.8/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.6/1.5 📝 4.9/10 | 后50% | #音频降噪 | #U-Net | arxiv 👥 作者与机构 Raheleh Mohseni, Mahdi Alyari; Department of Electrical Engineering, K. N. Toosi University of Technology, Tehran, Iran ...

Improving Text-to-Music Generation with Human Preference Rewards

📄 Improving Text-to-Music Generation with Human Preference Rewards #音乐生成 #流匹配 8.5/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.5/10 | 前50% | #音乐生成 | #流匹配 | arxiv 👥 作者与机构作者：Yonghyun Kim, Junwon Lee, Haiwen Xia, Yinghao Ma, Chris Donahue 机构：未在论文中明确列出。 💡 毒舌点评这篇文章与其说是学术研究，不如说是一份详实的工程调优报告。作者在120M参数的FluxAudio-S基线上，像搭积木一样组合了现有的分数条件化、专家迭代和DPO/CRPO技术，并通过详尽的消融实验验证了每一步的边际效益。其价值在于“工程集成”和“系统调优”，而非提出新算法或提供深刻的新理论。消融实验设计严谨，对“奖励条件化在推理时饱和”和“机制迁移不对称性”等非平凡现象的观察与记录，对后续实践者有不错的参考价值。但所有组件都缺乏原创性，评估仅限于一个小型内部验证集，对核心发现（如条件饱和）缺乏机理层面的解释，CRPO的微弱贡献也被一笔带过。整体而言，这是一篇扎实的系统工程报告，适合作为技术博客或赛道总结，但对于顶会而言，创新性和深度都显不足。 📌 核心摘要本文报告了作者为ICME 2026学术文本到音乐生成（ATTM）挑战赛效率赛道所做的提交。该方案在120M参数的FluxAudio-S骨干网络上，整合了五项工程决策，核心是使用由TuneJury提供的学习到的人类偏好奖励。该奖励在训练时作为条件信号，在推理时作为样本选择标准。通过在100个Song Describer提示词上的逐阶段分解分析，作者展示了以下发现：(1) 训练时奖励条件化是有效的功能引导轴，但其效应在训练链末端被权重吸收，导致推理时的分数控制饱和；(2) 机制迁移（GlobalAdaLN到InputAdd）具有不对称性，仅单向安全；(3) 专家迭代是性能提升的主要贡献者，而CRPO带来的增益在统计噪声水平内。 🔗 开源详情代码：https://github.com/yonghyunk1m/ttm-humanpref （包含完整的训练管道细节、模型架构、超参数设置和评估脚本）。模型权重：论文中未提供具体权重文件的下载链接。文中指出基线模型“FluxAudio-S”由挑战组织者提供，但未给出获取链接。数据集：论文中使用了由挑战组织者提供的MTG-Jamendo数据集（约55K条音轨），并基于Song Describer Dataset (SDD)进行评估。具体数据集的下载链接或开源协议未在论文中明确给出。 Demo：https://github.com/yonghyunk1m/ttm-humanpref （论文中“Code & Demo”链接指向此仓库，具体在线演示地址需在此仓库中查找）。复现材料：论文中提及训练配置、检查点等细节在GitHub仓库中发布。具体包括：完整的训练管道细节（SFT、专家迭代、CRPO阶段）、模型架构（FluxAudio-S骨干网）、超参数设置（学习率、批量大小等）、评估协议（SDD-100和SDD-706评估集），以及完整的消融实验设计空间（在发布的仓库中）。论文中引用的开源项目： TuneJury：偏好排序器。论文引用文献[18]，未提供直接链接。 FluxAudio-S：文本到音乐生成模型。论文引用文献[8, 12]，未提供直接链接。 Demucs：音源分离模型。论文引用文献[7]，未提供直接链接。 LAION-CLAP-Music：音乐音频-文本嵌入模型。论文引用文献[29]，未提供直接链接。 MERT (v11-330M)：音乐自监督模型。论文引用文献[21]，未提供直接链接。 BigVGAN：声码器。论文引用文献[19]，未提供直接链接。 T5-Large：文本编码器。论文引用文献[26]，未提供直接链接。 Song Describer Dataset (SDD)：评估数据集。论文引用文献[23]，未提供直接链接。以及引用的其他数据集来源：Music Arena [17]、MusicPrefs [13]、AIME [9]、SongEval [30]，均未提供直接链接。 🏗️ 方法概述和架构本文提出的文本到音乐生成流程基于一个120M参数的FluxAudio-S流匹配Transformer骨干网络，该网络由挑战赛组织者提供作为基线。整个流程可分解为训练时和推理时两大部分，其中训练部分又分为三个阶段。架构的核心创新在于将一个学习到的人类偏好奖励分数（\(s\)）作为额外的条件信号，通过不同的注入机制融入生成过程。 ...

InstructFX2FX: A Multi-turn Text-to-Preset Demo for Iterative Audio Effect Refinement

📄 InstructFX2FX: A Multi-turn Text-to-Preset Demo for Iterative Audio Effect Refinement #对比学习 8.6/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.6/10 | 前50% | #对比学习 | #对比学习 | arxiv 👥 作者与机构 Song-Ze Yu (1,2), Milan Liessens Dujardin (1), Yuxuan Cai (1), Wantong Zhang (1) KU Leuven， 2. 不明（原文未明确第二机构） 💡 毒舌点评这篇Demo论文清晰地定义了一个实际存在的音频工程问题——多轮、状态化的音频效果精调，并提出了一个直观且技术上合理的混合架构来解决它。LLM作为“大脑”进行规划，CLAP优化作为“手脚”进行感知微调，这个分工很有工程智慧。然而，作为一篇旨在展示系统能力的Demo论文，其核心弱点在于评估的局限性和“概念验证”的实质。评估几乎完全围绕EQ效果展开，且仅与一个简单的“LLM重复提示”基线对比，说服力有限。所谓“多轮”交互的评估，也仅限于两个步骤的序列，未能真正展示复杂长会话下的状态管理能力。系统在非可微效果上的不稳定性、优化延迟等问题被指出但未解决。代码和Demo的开源值得称赞，但论文的贡献更多在于系统集成和问题提出，而非方法学上的突破。对于期望看到音频AI最新技术进展的读者，可能会觉得稍显单薄。 📌 核心摘要本文提出了InstructFX2FX，一个用于多轮、文本引导音频效果精调的交互式演示系统。与传统单次生成预设的方法不同，该系统将音频效果编辑视为一个状态化的序列过程：给定当前的音效链、参数状态和一系列用户指令，系统需在保留先前指令意图的同时，根据新指令进行迭代更新。其核心架构采用混合设计：LLM作为高层规划器，负责选择效果、排列信号链并提议初始参数；CLAP引导的优化（梯度下降用于可微分效果，贝叶斯优化用于非可微分效果）作为感知精调层，根据渲染音频在CLAP嵌入空间中微调参数。系统维护一个包含效果链、参数、渲染音频和指令历史的持久会话状态，并通过路由模块决定每次指令是初始化、重用优化还是混合更新效果链。在SocialFX数据集构建的EQ描述符转换对上的初步评估表明，与LLM单独重复提示的基线相比，该系统在90%的测试对中降低了最大均值差异（MMD），平均降低约24%。论文同时指出了CLAP目标与DSP特征评估的不匹配、优化漂移、非可微效果优化不稳定以及实时性不足等局限性，并展望了未来向更丰富效果链评估、人类听觉研究及实时插件集成的方向发展。 ...

Integrating Facial Generation into Full-Duplex Spoken Dialogue Systems

📄 Integrating Facial Generation into Full-Duplex Spoken Dialogue Systems 7.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.5/10 | 前25% | arxiv 👥 作者与机构第一作者：Jingjing Jiang（名古屋大学情报学研究科博士生）通讯/共同作者：Atsumoto Ohashi， Ryuichiro Higashinaka（名古屋大学情报学研究科） 💡 毒舌点评概念先行，工程滞后：想法很棒，“全双工多模态”是下一个圣杯。但论文给出的方案更像是一个实验室Demo。作者声称解决了“集成”问题，但真正棘手的部分——如何从用户的手机摄像头实时、准确地获取驱动虚拟形象所需的3D面部参数——他们选择了优雅地无视。这就像发明了一台完美的引擎，却没考虑车子有没有轮子。评估的“自嗨”倾向：用SyncNet评唇形同步是常规操作，但作者自己都说了生成的“自然头部运动”才是亮点，结果对此完全没评估。这属于“宣称了你测不了的东西，然后只测了你能测的”。另外，用LLM评对话质量？那评的只是文字稿，跟你说的“多模态交互”有啥关系？请几个人来打分比调GPT-5-mini更有说服力。 “全双工”的名不副实：论文标题和摘要把“full-duplex”喊得震天响，但实验里两个模型是乖乖轮流说话的。这就像宣称造出了能同时说双语的翻译机，结果测试时只让双方说同一种语言。真正的全双工考验是处理抢话、打断和同时发声，这才是难点，论文里一点都没碰到。细节的“黑箱”：面部编解码器的损失权重是多少？速度损失具体怎么算？融合面部标记时是加法还是拼接？这些对复现至关重要的细节，在文中都成了“不能说的秘密”。这让方法部分的可信度打了折扣，读者很难判断这些设计选择是深思熟虑还是临时起意。 📌 核心摘要本文提出了Moshi-Face，这是一个首次将实时面部生成功能集成到全双工语音对话系统中的模型。核心方法分为两步：首先，训练一个基于VQ-VAE的面部编解码器，将从视频中提取的3D面部网格编码为离散的面部标记，并能从标记重建网格；其次，在预训练的全双工语音对话模型Moshi的基础上，增加一个非自回归的Face Transformer，该模块根据对话模型的隐藏状态、文本和音频标记，在每个时间步并行生成N个面部标记，从而实现语音与面部运动的同步生成。论文构建了一个约180小时的3D音视频对话数据集用于训练。实验表明，Moshi-Face在保持与原始Moshi相当的对话质量（LLMAJ）的同时，能够生成与语音同步的面部运动（教师强制模式下LSE-D=8.76）。论文讨论了模型在因果性、可控性和评估完备性方面的局限。 🔗 开源详情代码：论文中未提及本工作的代码开源。模型权重：论文中未提及Moshi-Face或面部编解码器的模型权重开源。数据集：使用了Meta的Seamless Interaction Dataset子集。链接：https://github.com/facebookresearch/seamless_communication/tree/main/src/seamless_communication/datasets/seamless_interaction Demo：论文中未提及Demo。复现材料：论文中未提及具体复现材料。论文中引用的开源项目： Moshi (预训练模型): https://huggingface.co/kyutai/moshiko-pytorch-bf16 VHAP (3D面部网格提取工具): https://github.com/facebookresearch/VHAP Whisper-large-v3 (用于ASR转录): https://huggingface.co/openai/whisper-large-v3 GPT-5-mini (用于评估): https://developers.openai.com/api/docs/models/gpt-5-mini 🏗️ 方法概述和架构 Moshi-Face的架构如图2所示，旨在扩展现有的全双工语音对话模型Moshi，使其具备同时处理和生成语音与3D面部运动的能力。整个系统以统一的时间步（12.5 Hz）运行，处理文本、音频和面部三种离散标记流。 ...

Interleaved Speech Language Models Latently Work In Text

📄 Interleaved Speech Language Models Latently Work In Text #语音识别 #预训练 #多模态模型 6.4/10 | 创新 1.5/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.5/1.5 ✅ 6.4/10 | 前50% | #语音识别 | #预训练 | #多模态模型 | arxiv 👥 作者与机构 Talia Sternberg, Gallil Maimon, Yossi Adi The Hebrew University of Jerusalem 💡 毒舌点评这篇论文提出了一个有趣且符合直觉的假设：语音模型内部可能在“偷偷”把语音转成文字来思考。用logit lens这个“X光机”去扫描模型中间层，确实观察到了这种现象，控制实验也表明这需要文本预训练和交错数据两个条件。然而，整篇文章更像是在报告一个有趣的观察现象，而非深入的机制解剖。相关性的发现（ρ≈0.7）虽然显著，但远非强有力，且未建立因果关系。方法上，最大值聚合的倾向可能高估了信号强度。作者自己也承认了这些局限，但作为顶会论文，在提供深刻机制洞察和严谨因果验证方面有所欠缺。论文读起来像是为未来工作指明了方向，但本身并未完成最令人兴奋的证明环节。 📌 核心摘要本研究的核心发现是，经过交错语音-文本训练的语音语言模型，在处理语音输入时，其Transformer模型的中间层会自发地产生对应语音内容的文本表示（隐式转录），即使模型从未被显式训练过语音识别任务。这种行为需要两个关键前提：从预训练的文本语言模型初始化，以及使用包含语音-文本交错的数据进行训练。模型在中间层“思考”在文本空间，完成转录和下一步预测后，再将表示转换回语音域以生成语音。此外，这种隐式转录能力与模型在语音输入下进行常识事实检索的能力呈正相关，表明这种内部机制可能与模型的知识能力有关。 🔗 开源详情代码：论文中未提及代码开源链接。 ...

ISCSLP 2026 CoT-TTS Challenge: Chain-of-Thought Reasoning for Context-Aware Text-to-Speech

📄 ISCSLP 2026 CoT-TTS Challenge: Chain-of-Thought Reasoning for Context-Aware Text-to-Speech #语音合成 #语音识别 #多模态模型 6.6/10 | 创新 1/2 | 严谨 1.1/1.5 | 实验 0.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.6/10 | 前50% | #语音合成 | #语音识别 | #多模态模型 | arxiv 👥 作者与机构论文标题：ISCSLP 2026 CoT-TTS Challenge: Chain-of-Thought Reasoning for Context-Aware Text-to-Speech 作者列表（按原文顺序）：Wei Xue (香港科技大学), Junlan Feng (中国移动), Shilei Zhang (中国移动九天智能科技（北京）有限公司), Yue Wang (中国移动香港创新研究院), Ruosong Yang (中国移动香港创新研究院), Bei Liu (香港科技大学), Liumeng Xue (南京大学), Sitong Cheng (香港科技大学), Jiahao Pan (香港科技大学), Weizhen Bian (香港科技大学), Boyi Kang (香港科技大学), Bin Long (香港生成式AI研发中心) 机构：香港科技大学, 中国移动, 中国移动九天智能科技（北京）有限公司, 中国移动香港创新研究院, 南京大学, 香港生成式AI研发中心 ...

Kiwano: A Cutting-Edge Open-Source Toolkit for Speaker Verification

📄 Kiwano: A Cutting-Edge Open-Source Toolkit for Speaker Verification #说话人验证 7.6/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ✅ 7.6/10 | 前50% | #说话人验证 | #说话人验证 | arxiv 👥 作者与机构作者：Mickael Rouvier, Pierre Michel Bousquet 机构：Avignon University, LIA, UPR 4128, France 💡 毒舌点评一篇非常扎实但创新性有限的工具包论文。其核心贡献是“整合”而非“创造”。论文像一本详尽的“用户手册”和“基准测试报告”，对工程实现和可复现性非常重视，这对社区实践者很有价值。然而，对于追求算法突破的顶会（如NeurIPS/ICML/ICLR）而言，其学术增量显得不足。论文的强项在于严谨的实证分析（如小批量大小、网络深度对性能的影响），但弱项在于未能将这些分析提升到新的方法论高度。它很好地回答了“如何用好现有技术”的问题，但没有回答“如何发明新技术”的问题。总的来说，这是一篇优秀的系统/工具包报告，其影响力更多地体现在工程实践层面，而非学术理论层面。 📌 核心摘要 Kiwano是一个专注于说话人验证的开源工具包，基于PyTorch构建。其主要贡献是整合了多种前沿的说话人嵌入模型（如fwSE-ResNet-200, ECAPA2, ReDimNet, Xi-Vector）和一套完整的后端评分与归一化工具（如PLDA, AS-Norm, CORAL等）。该工具包通过提供标准化的数据管理、训练流程和跨多个数据集（VoxCeleb, CN-Celeb等）的可复现评估协议，旨在降低研究门槛并促进公平比较。论文不仅报告了各模型在域内和域外数据集上的性能，还进行了系统性的实证分析，研究了全局小批量大小、网络深度以及训练随机性对结果的影响，并提供了详细的计算开销数据。 🔗 开源详情代码：https://github.com/kiwano-toolkit/kiwano/ (论文明确提供) 模型权重：论文未明确提供独立的模型权重下载平台（如HuggingFace, ModelScope）链接。代码库可能包含训练好的模型。数据集：论文使用了多个公开数据集，但未发布新数据集。具体获取方式多需参考原数据集论文。 VoxCeleb1, VoxCeleb2 CN-Celeb CommonBench VoxTube VoxBlink DiPCo 3D-Speaker MUSAN (数据增强) Room Impulse Responses (数据增强) Demo：论文未提及。复现材料：论文强调提供“标准化食谱”、“透明训练流程”、“统一评估协议”、“可复现的实验”和“全面的文档”。这些材料预计包含在GitHub代码仓库中，但论文未提供如训练配置文件、检查点文件的独立下载链接。论文中引用的开源项目： Kaldi: https://github.com/kaldi-asr/kaldi SpeechBrain: https://github.com/speechbrain/speechbrain ESPnet: https://github.com/espnet/espnet (具体为ESPnet-SPK) WeSpeaker: https://github.com/wenet-e2e/wespeaker CEEMS: https://github.com/paipuri/ceems HuggingFace Accelerate: https://github.com/huggingface/accelerate 🏗️ 方法概述和架构 Kiwano是一个模块化的端到端说话人验证框架，其设计目标是提供研究与生产两方面的支持。系统主要由三个核心组件构成，通过统一的“配方”层进行协调。 ...