Posts

语音/音频论文速递 2026-04-21

语音/音频论文速递 2026-04-21 共分析 34 篇论文 ⚡ 今日概览 📥 抓取 34 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布模型评估 13篇 █████████████ 基准测试 9篇 █████████ 音频大模型 8篇 ████████ 数据集 7篇 ███████ 多语言 7篇 ███████ 多模态模型 5篇 █████ 强化学习 5篇 █████ 语音对话系统 4篇 ████ 📊 论文评分排行榜（34 篇，按分数降序）排名论文评分 🥇 FreezeEmpath: Efficient Training for Empathetic Spoken 10.0分 🥈 Audio-DeepThinker: Progressive Reasoning-Aware Reinforc 9.5分 🥉 VoxSafeBench: Not Just What Is Said, but Who, How, and 9.5分 4 Benign Fine-Tuning Breaks Safety Alignment in Audio LLM 9.0分 5 Prosody as Supervision: Bridging the Non-Verbal–Verbal 9.0分 6 Anonymization, Not Elimination: Utility-Preserved Speec 8.5分 7 MimicLM: Zero-Shot Voice Imitation through Autoregressi 8.5分 8 ArtifactNet: Detecting AI-Generated Music via Forensic 8.5分 9 Audio-Cogito: Towards Deep Audio Reasoning in Large Aud 8.5分 10 LLM-Codec: Neural Audio Codec Meets Language Model Obje 8.5分 11 NIM4-ASR: Towards Efficient, Robust, and Customizable R 8.5分 12 Video-Robin: Autoregressive Diffusion Planning for Inte 8.0分 13 A state-space representation of the boundary integral e 8.0分 14 AVRT: Audio-Visual Reasoning Transfer through Single-Mo 8.0分 15 MoVE: Translating Laughter and Tears via Mixture of Voc 8.0分 16 SELF-EMO: Emotional Self-Evolution from Recognition to 8.0分 17 BhashaSutra: A Task-Centric Unified Survey of Indian NL 8.0分 18 MINT-Bench: A Comprehensive Multilingual Benchmark for 8.0分 19 ICLAD: In-Context Learning with Comparison-Guidance for 7.5分 20 Still Between Us? Evaluating and Improving Voice Assist 7.5分 21 Where Do Self-Supervised Speech Models Become Unfair? 7.5分 22 Neural Encoding Detection is Not All You Need for Synth 7.5分 23 Omni-Embed-Audio: Leveraging Multimodal LLMs for Robust 7.5分 24 Latent Fourier Transform 7.5分 25 Hard to Be Heard: Phoneme-Level ASR Analysis of Phonolo 7.5分 26 VIBE: Voice-Induced open-ended Bias Evaluation for Larg 7.5分 27 Aligning Language Models for Lyric-to-Melody Generation 7.5分 28 ClariCodec: Optimising Neural Speech Codes for 200bps C 7.0分 29 From Reactive to Proactive: Assessing the Proactivity o 7.0分 30 A novel LSTM music generator based on the fractional ti 6.5分 31 Incremental learning for audio classification with Hebb 6.5分 32 Coexisting Tempo Traditions in Beethoven’s Piano and Ce 6.0分 33 FLiP: Towards understanding and interpreting multimodal 5.5分 34 HCFD: A Benchmark for Audio Deepfake Detection in Healt 5.0分 📋 论文列表 🥇 FreezeEmpath: Efficient Training for Empathetic Spoken Chatbots with Frozen LLMs 🔥 10.0分 | #语音对话系统 #多模态模型 #迁移学习 #语音情感识别 | arxiv ...

ActorMind: Emulating Human Actor Reasoning for Speech Role-Playing

📄 ActorMind: Emulating Human Actor Reasoning for Speech Role-Playing #语音对话系统 #大语言模型 #多智能体 #基准测试 🔥 评分：8.0/10 | arxiv 👥 作者与机构第一作者：Xi Chen (陈曦) (香港科技大学，联系邮箱：chenxi.mail.1005@gmail.com) 通讯作者：Wei Xue (薛巍) (香港科技大学，weixue@ust.hk) 其他作者：Yike Guo (郭毅可) (香港科技大学) 💡 毒舌点评亮点：论文巧妙地将“演员表演方法论”转化为一个可计算的“眼-耳-脑-口”多智能体框架，为冷冰冰的语音合成注入了“角色灵魂”，在概念和系统设计上颇具巧思。槽点：整个系统像个“工具箱大杂烩”，依赖一堆现成的ASR、情感识别、LLM和TTS模块拼装而成，创新更多体现在“编剧和导演”层面，而非“演员”本身的演技突破。实验数据只用了《老友记》第一季，让人担心这套方法演不了莎士比亚。 🔗 开源详情代码：论文明确指出代码将开源，并提供了GitHub仓库地址：https://github.com/OzymandiasChen/ActorMind。模型权重：论文中使用的模型（LLaMA3, IndexTTS, SECAP等）均为公开可用的模型。ActorMind框架本身不训练新模型，因此不涉及发布新的模型权重。数据集：ActorMindBench的标注文件（角色档案、场景描述、话语对齐等）将公开发布。原始音频数据因版权原因不直接分发，研究者需自行通过合法渠道获取《老友记》剧集。预训练权重：不适用，框架集成的是现有预训练模型。在线 Demo：论文中未提及。依赖的开源项目：论文明确提到了多个依赖工具：resemble-enhance（语音增强），pyannote-audio（说话人日志），Whisper（语音识别），LLaMA3（推理），OpenAI text-embedding-3-large（检索），IndexTTS（语音合成）。 📌 核心摘要这篇论文旨在解决现有角色扮演研究局限于文本模态，而忽视了日常交流中主导的语音模态的问题。为此，作者首先定义了“语音角色扮演”任务，要求模型能根据角色、场景和对话历史，生成带有个性化语音特征（如特定情感、语调）的自发性回应。为此，他们构建了ActorMindBench，这是一个基于《老友记》第一季的三层级（话语级、场景级、角色级）基准测试，包含7653条话语。核心贡献是提出了ActorMind，一个受演员表演流程启发的多智能体链式推理框架。该框架通过四个协同工作的智能体模拟表演过程：Eye Agent读取角色和场景描述，Ear Agent从对话语音中感知情感线索，Brain Agent推理出下一句台词应具有的情感状态，最后Mouth Agent通过检索情感相似的语音样本，驱动TTS模型合成目标台词。实验表明，ActorMind在角色一致性和情感表达上显著优于多个基线LLAM和TTS模型，并展现出良好的模型无关泛化性。其局限性在于基准数据领域单一，且框架性能依赖于所集成外部工具的水平。 🏗️ 模型架构 ActorMind是一个多智能体链式推理框架，其整体流程模拟人类演员的表演过程，从接收剧本到最终演绎出台词。具体输入输出流程如下：输入：当前场景描述（S_j^desc）、当前角色的档案（R_k）、历史对话的文本（U_p^t, ..., U_{q-1}^t）和语音（U_p^s, ..., U_{q-1}^s），以及目标台词的文本（U_q^t）。处理流程： Eye Agent（阅读）：这是一个记忆模块，负责读取并存储角色档案（R_k）、场景描述（S_j^desc）和历史对话文本。它不进行复杂计算，仅为后续智能体提供上下文文本信息。 Ear Agent（倾听）：这是一个感知模块。它接收历史对话的语音信号（U_p^s, ..., U_{q-1}^s），调用一个外部的语音情感描述工具（SECAP），将每段语音转化为文本形式的情感描述（E_p, ..., E_{q-1}）。其核心功能是将非结构化的语音情感信息结构化为文本。 Brain Agent（思考）：这是整个框架的核心推理大脑。它接收来自Eye Agent的所有文本信息（角色、场景、历史对话文本）和来自Ear Agent的历史情感描述，以及目标台词文本（U_q^t）。然后，它调用一个大语言模型（LLM，论文中使用LLaMA3），通过精心设计的提示词，推理出当前角色在说出目标台词时应处的情感状态描述（E_q~）。这个过程相当于演员结合内外部信息，决定“我该用什么情绪来说下一句台词”。 Mouth Agent（演绎）：这是语音生成模块。它接收Brain Agent输出的情感状态描述（E_q~）和目标台词文本（U_q^t）。首先，它通过一个检索增强生成（RAG）机制，在一个为当前角色（R_k）构建的语音数据库（Database_Uk）中，检索出一条情感描述与E_q~最相似的历史语音片段（U_x^s）。这个数据库中的每条语音都关联了其由SECAP生成的情感描述。然后，它以检索到的语音（U_x^s）作为“情感和音色提示”，以目标文本（U_q^t）作为内容，驱动一个零样本语音合成模型（论文中使用IndexTTS）生成最终的语音输出（U_q^s~）。输出：带有特定角色音色和情感状态的语音U_q^s~。 ...

ArtifactNet: Detecting AI-Generated Music via Forensic Residual Physics

📄 ArtifactNet: Detecting AI-Generated Music via Forensic Residual Physics #音频深度伪造检测 #时频分析 #信号处理 🔥 评分：8.0/10 | arxiv 👥 作者与机构第一作者：Heewon Oh 通讯作者：未明确提供其他作者：无机构信息：论文中未明确标注作者所属机构。 💡 毒舌点评亮点：把检测AI音乐变成了玩“大家来找茬”，专找神经编解码器留下的“数字指纹”，视角清奇且高效，参数量还只有对手的零头，堪称“四两拨千斤”。槽点：论文读起来像一份完美的“实验报告”，创新点明确、数据扎实，但总感觉少了点让人拍案叫绝的“灵光一闪”；另外，作者似乎是个“独行侠”，没有挂靠任何机构，显得有些神秘。 🔗 开源详情代码：论文中明确表示将开源（“we will release the code…”），但截至分析时，未提供具体链接。模型权重：论文中明确表示将开源（“…and the model weights”），未提及托管平台。数据集：论文中明确表示将开源ArtifactBench数据集（“…and the ArtifactBench dataset”），未提及获取方式。预训练权重：未提及使用其他预训练模型。在线 Demo：未提及。论文中引用的开源项目：摘要中未提及具体依赖的开源工具。 📌 核心摘要本文旨在解决AI生成音乐检测中泛化性差和模型参数效率低的问题。作者提出了一种名为ArtifactNet的新框架，其核心创新在于将问题重新定义为“法医物理学”，即直接提取和分析神经音频编解码器在生成音频中不可避免留下的物理痕迹（残留物）。该方法使用一个轻量级的Bounded-mask UNet从幅度谱图中提取编解码器残留，并通过HPSS（谐波-冲击-残渣分离）技术将其分解为7通道的法医特征，最后由一个紧凑的CNN进行分类。为公平评估，作者构建了包含22个生成器和6种真实来源的ArtifactBench基准。实验表明，ArtifactNet在未见测试集上达到了0.9829的F1分数，远超CLAM和SpecTTTra等现有方法，且参数量仅为4.0M，效率极高。此外，通过编解码器感知训练，模型对跨编解码器的概率漂移降低了83%，显著提升了鲁棒性。这项工作证明，直接提取底层物理残留是一种比表征学习更通用、更参数高效的AI音乐检测范式。 🏗️ 模型架构 ArtifactNet的整体流程是一个两阶段的“特征提取-分类”管道：输入：原始音频波形。预处理：将音频转换为幅度谱图（Magnitude Spectrogram）。第一阶段：残留提取：组件：ArtifactUNet（一个带约束的掩码UNet，3.6M参数）。功能：该模块被训练来从输入谱图中预测并分离出由神经音频编解码器（如MP3, AAC等编码-解码过程）引入的微小失真或“残留”。可以理解为它学习了一个“编解码器噪声”的指纹。输出：得到编解码器残留谱图。第二阶段：特征分解与分类：组件：HPSS算法 + 紧凑型CNN（0.4M参数）。流程： a. HPSS分解：将提取出的残留谱图通过谐波-冲击-残渣分离算法，分解成三个分量：谐波(H)、冲击(P)、残渣(S)。这三个分量从不同物理维度刻画了残留特性。 b. 特征构造：将H, P, S分量及其统计量（如均值、方差）组合成一个7通道的法医特征图。 c. 分类：将7通道特征图输入一个轻量级的卷积神经网络，最终输出一个二分类结果（AI生成 / 真实录制）。输出：音频为AI生成或真实的概率。关键设计理由： ...

AST: Adaptive, Seamless, and Training-Free Precise Speech Editing

📄 AST: Adaptive, Seamless, and Training-Free Precise Speech Editing #语音合成 #流匹配 #零样本 #数据集 ✅ 评分：7.5/10 | arxiv 👥 作者与机构第一作者：Sihan Lv（浙江大学，推断）通讯作者：Meng Xi（浙江大学，推断）其他作者：Yechen Jin（浙江大学，推断），Zhen Li（浙江大学，推断），Jintao Chen（浙江大学，推断），Jinshan Zhang（浙江大学，推断），Ying Li（浙江大学，推断），Jianwei Yin（浙江大学，推断），Meng Xi（浙江大学，推断）机构说明：所有作者邮箱均为 @zju.edu.cn，论文未明确标注具体学院或实验室名称，根据致谢中的“Zhejiang Key Laboratory Project”可推断为浙江大学相关实验室。 💡 毒舌点评把图像编辑里玩烂的潜空间反演（Latent Inversion）搬到语音流匹配模型上，再缝个动态“弱事实引导”当创可贴，居然就把一群专门训练过的语音编辑模型按在地上摩擦——这恰恰说明语音领域在TTS模型免训练适配上的思路有多贫瘠。不过槽点也很明显：WER相比基座IndexTTS-2不降反升（2.43% vs 2.91%），说明为了保住未编辑区域的“原汁原味”，编辑区域的文本准确性还是被献祭了一点；而且LibriSpeech-Edit数据集靠Qwen3-8B生成目标文本，编辑质量全看大模型脸色，可靠性存疑。 🔗 开源详情代码：论文中未提及是否开源代码或推理实现。模型权重：AST本身无额外训练权重，完全依赖公开的预训练模型IndexTTS-2。IndexTTS-2的权重是否公开论文未明确说明。数据集：论文提出并声称发布（“we release”）LibriSpeech-Edit数据集（2000条样本，总时长3.6小时），但未在正文中提供具体下载链接、HuggingFace仓库或数据许可协议。预训练权重：基于IndexTTS-2。在线Demo：论文中未提及。依赖的开源工具：Whisper large-v3（OpenAI）、Qwen3-ForcedAligner-0.6B（阿里巴巴）、Qwen3-8B（阿里巴巴）、WavLM（微软）。 📌 核心摘要本文针对现有语音编辑方法依赖任务特定训练、未编辑区域时间一致性差的问题，提出了AST（Adaptive, Seamless, and Training-free），一种基于预训练AM-FM（自回归-流匹配）范式TTS模型的精确语音编辑框架。AST首先通过逆Euler ODE求解器将原始语音反演至潜空间，然后利用最长公共子序列（LCS）进行词级对齐，将未编辑区域的反演潜流与编辑区域的高斯噪声进行潜变量重组（Latent Recomposition）。为防止拼接边界出现伪影，论文提出了自适应弱事实引导（AWFG），根据当前潜流与原始反演流的偏差动态加权mel空间引导信号。此外，AST天然支持局部风格编辑（如情感、方言）。为填补公开基准空白，论文还发布了LibriSpeech-Edit数据集（2000条，3.6小时）和词级动态时间规整指标（WDTW）。实验表明，AST在说话人相似度（0.986）和时间一致性（WDTW 0.2025）上达到SOTA，WER比专门训练的基线降低近70%，且无需任何额外训练。 🏗️ 模型架构 AST的整体架构是一个免训练的推理框架，依附于一个预训练的AM-FM（Autoregressive Model-Flow Matching）TTS模型（论文使用IndexTTS-2）。其核心不是重新设计网络层，而是在已有模型的潜空间中进行“手术刀式”干预。完整输入输出流程如下：输入：原始mel-谱图 $m_{\mathrm{ori}}$、原始转录 $y_{\mathrm{ori}}$、目标转录 $y_{\mathrm{tgt}}$、声学提示 $m_{\mathrm{ref}}$。 ...

Beyond Monologue: Interactive Talking-Listening Avatar Generation with Conversational Audio Context-Aware Kernels

📄 Beyond Monologue: Interactive Talking-Listening Avatar Generation with Conversational Audio Context-Aware Kernels #音视频 #扩散模型 #多模态模型 #数据集 #全双工交互 🔥 评分：9.0/10 | arxiv 👥 作者与机构第一作者：Yuzhe Weng (翁宇哲)，中国科学技术大学 (USTC) 通讯作者：Jun Du (杜俊)，中国科学技术大学 (USTC)，邮箱：jundu@ustc.edu.cn 其他作者： Haotian Wang (王浩天)，中国科学技术大学 (USTC) Xinyi Yu (余欣怿)，中国科学技术大学 (USTC) Xiaoyan Wu (吴晓燕)，科大讯飞 (iFLYTEK) Haoran Xu (徐浩然)，科大讯飞 (iFLYTEK) Shan He (何山)，科大讯飞 (iFLYTEK) 💡 毒舌点评亮点：用“多尺度高斯核注意力”这个优雅的数学工具，把“看口型”和“懂语境”这两个打架的脑区给整合到一个模型里了，思路清晰又有效。槽点：虽然建模了上半身反应，但离生成真正富有表现力的、带手势的全身交互动作还有距离，算是给未来挖了个大坑。 🔗 开源详情代码：论文提到了GitHub仓库（Report GitHub Issue ×），表明代码部分开源（可能指推理代码或核心模块）。项目主页：提供了BeyondMonologue-Page链接，用于展示更多结果和信息。模型权重：论文中未明确说明是否公开预训练模型权重。数据集：构建了大规模数据集VoxHear（1206小时），论文中未明确说明是否完全公开，但通常此类工作会部分公开或提供获取方式。在线Demo：论文中未提及在线Demo。依赖的开源项目：论文中明确提及的开源工具/模型包括：Wan2.2（视频生成骨干）、Wav2Vec 2.0（音频编码）、MossFormer2（语音分离，来自ClearVoice工具包）、SyncNet（唇同步验证）、DWPose（姿态估计）、IP-Adapter（适配器范式）。 📌 核心摘要本文旨在解决从单向“独白”式虚拟人生成迈向自然“全双工”交互式生成的核心挑战。核心问题在于，现有方法要么因严格的帧对齐而反应僵硬，要么因引入全局注意力而破坏唇同步。关键方法是提出一个基于多头高斯核（MHGK）的统一注意力架构，该机制通过为不同的注意力头分配从窄到宽的高斯分布感受野，使模型能同时学习精细的唇形对齐（窄感受野）和长程的对话上下文（宽感受野）。此外，论文构建了双流架构以处理同步的说话与聆听音频，并引入任意位置引导训练策略以提升长视频生成的稳定性。为支撑研究，还构建了大规模、音视频解耦的对话数据集VoxHear（1206小时）。主要发现表明，该方法在唇同步精度、身份保持、视觉质量和用户感知自然度等多个维度上均显著优于现有技术。实际意义在于为构建能理解对话上下文并做出自然反应的下一代交互式数字人提供了坚实的技术框架和数据基础。局限性在于目前主要聚焦于上半身反应，对更复杂全身姿态和手势的生成能力有待探索。 🏗️ 模型架构本模型是一个基于流匹配（Flow Matching）和扩散Transformer（DiT）的端到端视频生成框架，旨在根据一张参考肖像图、一段说话音频和一段聆听音频，生成对应的交互式视频。 ...

BlasBench: An Open Benchmark for Irish Speech Recognition

📄 BlasBench: An Open Benchmark for Irish Speech Recognition #语音识别，#基准测试，#低资源，#多语言 ✅ 评分：7.0/10 | arxiv 👥 作者与机构第一作者：Jyoutir Raj（独立研究者）通讯作者：John Conway（独立研究者）其他作者：无（注：论文中作者均标注为“Independent Researcher”，机构信息未明确给出，根据联系邮箱推断为独立研究者。） 💡 毒舌点评这篇论文像个严谨的“基准测试工人”，默默给爱尔兰语ASR社区搭好了可复现的评估脚手架，并顺手揭露了Whisper在爱尔兰语上“张嘴就来”的尴尬事实。亮点是工具和数据全开源、分析一针见血；槽点是它本质是个评估框架，离“解决”爱尔兰语ASR问题还差得远，更像是在说“看，问题有多严重，我给你们标出来了”。 🔗 开源详情代码：完全开源。评估工具（harness）和爱尔兰语规范化器发布在GitHub：github.com/jyoutir/blasbench。模型权重：论文本身不发布新模型，但评估的所有开源模型（如wav2vec2微调版、MMS、omniASR）均来自HuggingFace等公共平台，论文中给出了具体模型标识。数据集：评估使用的数据是公开的Common Voice 25.0和FLEURS的特定切片。论文发布了每个模型在这些切片上的逐句预测结果（作为v0.1.0发布），这意味着研究者无需重新运行模型即可与BlasBench结果对比。预训练权重：不适用。在线 Demo：论文未提及。引用的开源项目：论文依赖并评估了多个开源项目，包括OpenAI Whisper、Meta的MMS、Omnilingual ASR、以及多个HuggingFace社区模型。 📌 核心摘要这篇论文旨在解决爱尔兰语语音识别（ASR）领域缺乏统一、可靠评估标准的问题。现有工作或基准要么忽略爱尔兰语特有的文本规范（如保留fada变音符号、初始辅音突变），要么在不同数据集和归一化方法下进行，导致结果无法比较。为此，作者提出了BlasBench，一个开放的评估框架，其核心是一个爱尔兰语感知的文本规范化工具，确保评分时保留语言学意义。通过该框架，作者在Common Voice和FLEURS两个爱尔兰语数据集上系统评估了12个涵盖不同架构（Whisper、wav2vec2 CTC、多语言大模型、商业API）的系统。主要发现包括：1）所有测试的Whisper变体均产生超过100%的词错率（WER），表现为严重的插入型幻觉；2）仅在Common Voice上评估会高估模型性能，模型在跨数据集（从Common Voice到FLEURS）时表现出显著的泛化差距；3）当前最佳开源模型（Omnilingual ASR 7B）与商业系统（Azure）及专用系统（ABAIR）之间仍有差距，但主要瓶颈在于数据而非架构。BlasBench通过完全开源工具和数据，为爱尔兰语ASR研究提供了可复现的评估基础。 🏗️ 模型架构本论文不提出新的模型架构，而是构建一个评估现有模型的框架。因此，其“架构”指的是评估流程。整体输入输出流程：输入：16kHz的爱尔兰语音频。模型推理：音频被送入待评估的ASR模型（如Whisper, wav2vec2, Azure API），模型输出原始文本（hypothesis）。爱尔兰语规范化：将模型输出的原始文本和数据集提供的参考文本（reference）同时送入爱尔兰语感知的规范化器。该规范化器是框架的核心组件，其内部逻辑为：首先应用NFC规范化以确保元音上的尖角符（fada）不被移除；然后保留文本中的初始辅音突变（lenition）和鼻化（eclipsis）标记，这些是语法的关键信息。评分：对规范化后的参考文本和假设文本计算全局词错率（WER）和字符错率（CER），通过汇总所有句子的替换、插入、删除错误总数除以参考文本总词数得到。置信区间：通过自助法（bootstrap）重采样（1000次，固定种子42）计算WER的95%置信区间。关键设计选择：采用全局聚合（corpus-level）WER计算而非句子平均，以避免短句偏差；提供逐句预测结果和详细元数据，确保评估完全可审计和可复现。 💡 核心创新点爱尔兰语感知的文本规范化工具：是什么：一个首次发布的、独立的开源工具，专门用于爱尔兰语ASR评估，在文本规范化过程中保留fada、初始辅音突变和鼻化等语言学关键特征。之前的方法：通用多语言规范化器会剥离这些特征，导致错误率被人为扭曲。如何解决问题：通过定制的NFC优先处理和保留特定语法标记的规则，确保评分反映真实的识别错误。效果：为爱尔兰语ASR提供了可靠、可复现的评分基础。跨数据集、跨架构的标准化评估框架：是什么：一个包含双数据集（Common Voice, FLEURS）、多模型（12个系统，4个家族）、统一评估流程的开放基准。之前的方法：各研究使用不同数据版本、不同规范化器、不同模型子集，结果无法比较。如何解决问题：固定评估切片、统一规范化、发布所有预测结果，使任何新模型都能直接对比。效果：首次在相同条件下量化了不同技术路线的性能差距和泛化能力。揭示Whisper在爱尔兰语上的灾难性失败与幻觉问题：是什么：通过实验明确证明所有测试的Whisper变体在爱尔兰语上WER超过100%，错误主要由大量与输入无关的插入（如输出英语、威尔士语或重复循环）构成。之前的方法：可能仅报告高WER，未系统分析错误类型。如何解决问题：通过详细的错误类型分解（S/I/D）和输出样例分析（见附录C），揭示这是解码器“幻觉”而非简单的声学误识别。效果：警示社区不能盲目依赖大型多语言模型，并指出了模型语言偏好先验过强的严重问题。量化单数据集评估的误导性与泛化差距：是什么：通过对比模型在Common Voice（分布内）和FLEURS（分布外）上的表现，发现仅在Common Voice上微调的模型在FLEURS上性能暴跌33-43个百分点，而大规模多语言预训练模型仅下降7-10点。之前的方法：多数工作仅在单一数据集上报告结果。如何解决问题：强制使用双数据集评估，直接暴露模型泛化能力的差异。效果：证明了“Common Voice分数高估实际部署性能”，强调了跨数据集评估的必要性。 🔬 细节详述评估数据集： Common Voice 25.0 ga-IE：874条社区录制的朗读语音测试语句。 FLEURS ga-IE：842条专业录制的母语者朗读语音测试语句。两个数据集的评估切片已固定并发布。评估流程细节：规范化：核心是爱尔兰语规范化器。流程为：原始文本 -> NFC规范化（保留fada） -> 保留初始辅音突变和鼻化标记 -> 小写化、去除标点、合并空白（通用步骤）。评分：使用全局WER/CER。公式：WER = (S + I + D) / N_ref，其中S, I, D分别为总替换、插入、删除错误数，N_ref为参考文本总词数。置信区间：自助法，1000次重采样，种子42。被评估系统详情： Whisper系列：medium (769M), large-v2 (1.5B), large-v3 (1.5B), large-v3-turbo (809M)。均为零样本（未声称包含爱尔兰语训练数据）。 wav2vec2 CTC系列：4个在Common Voice上微调的社区模型（如Aditya3107/xls-r-1b, jimregan/xlsr-53等），参数量315M-1B。 Meta多语言系列：MMS-1B-All (1107语言)，Omnilingual ASR (omniASR) 300M和7B参数版本（覆盖1600+语言）。商业系统：Microsoft Azure Speech Services (ga-IE locale)。运行环境：开源模型在单张NVIDIA H100 80GB SXM上运行，约6 GPU小时。Azure通过API调用。 📊 实验结果主要指标对比（Common Voice ga-IE）： ...

Discrete Token Modeling for Multi-Stem Music Source Separation with Language Models

📄 Discrete Token Modeling for Multi-Stem Music Source Separation with Language Models #音乐分离， #自回归模型， #大语言模型， #音频大模型 ✅ 评分：7.0/10 | arxiv 👥 作者与机构第一作者/通讯作者：彭博吕 (Pengbo Lyu) （阿里巴巴通义应用业务组，中国）其他作者：赵翔宇 (Xiangyu Zhao) （阿里巴巴通义应用业务组，中国）刘成伟 (Chengwei Liu) （阿里巴巴通义应用业务组，中国）闫浩音 (Haoyin Yan) （阿里巴巴通义应用业务组，中国）梁晓涛 (Xiaotao Liang) （阿里巴巴通义应用业务组，中国）王宏宇 (Hongyu Wang) （阿里巴巴通义应用业务组，中国）薛少飞 (Shaofei Xue) （推断，根据邮箱mullerxue@126.com，可能为独立研究者或与阿里巴巴合作） 💡 毒舌点评亮点：成功把“分离”这个传统的“信号复原”问题，包装成了“生成”问题，用上了时髦的大语言模型，思路清奇，算是在音频领域给LLM找到了一个新“乐子”。槽点：处理鼓点这种“快准狠”的声音还是不行，暴露了自回归模型“慢工出细活”的本质短板；更尴尬的是，训练用的“标准答案”（伪标签）还是隔壁BS-RoFormer模型生成的，有种“用老师教学生，还怪学生超不过老师”的黑色幽默。 🔗 开源详情代码：论文中提供了GitHub链接（https://anonymous.4open.science/w/mss-demo-page-2F80/），表明代码已开源。模型权重：论文中未明确说明是否公开预训练模型权重。数据集：训练使用内部大规模数据集（未公开），评估使用公开的MUSDB18-HQ数据集。在线Demo：论文提供了演示页面链接（https://anonymous.4open.science/w/mss-demo-page-2F80/）。依赖的开源工具/模型： BS-RoFormer：用于生成伪标签的SOTA分离模型。 HCodec：用于音频令牌化和重构的双路径编解码器。 HuBERT：用于提取语义特征的预训练语音模型。 Silero VAD：用于语音活动检测。 LLaMA：作为解码器-only语言模型的架构基础。 MUSDB18-HQ：公开的评估数据集。 📌 核心摘要本文提出了一种用于多轨音乐源分离的生成式框架，其核心创新在于将分离任务重新定义为条件离散令牌生成问题。传统方法直接在时频域估计连续信号，而本文方法首先利用HCodec神经音频编解码器将音频波形转换为离散的声学与语义令牌序列。然后，一个基于Conformer的条件编码器从混合音频中提取特征，作为解码器-only大语言模型（LLaMA架构）的条件前缀。该语言模型以自回归的方式，按照固定顺序（人声、鼓、贝斯、其他）依次生成四个目标轨道的令牌序列，最后由HCodec解码器重构为波形。在MUSDB18-HQ基准上的实验表明，该生成方法在整体感知质量（ViSQOL）上接近顶尖的判别式方法（如BS-RoFormer），并且在人声轨道的NISQA感知质量评分上取得了最高分（2.50）。消融研究证实了可学习Conformer编码器和顺序跨轨道生成策略的有效性。然而，该方法在处理具有尖锐瞬态的鼓组时性能存在差距，且依赖于其他模型的伪标签进行训练，这限制了其性能上限。 ...

Elucidating the SNR-t Bias of Diffusion Probabilistic Models

📄 Elucidating the SNR-t Bias of Diffusion Probabilistic Models #扩散模型 #生成模型 #模型评估 🔥 评分：8.0/10 | arxiv 👥 作者与机构第一作者：Meng Yu (兰州大学，AMAP阿里巴巴集团) 通讯作者：Kun Zhan (兰州大学) 其他作者：Lei Sun (AMAP阿里巴巴集团), Jianhao Zeng (AMAP阿里巴巴集团), Xiangxiang Chu (AMAP阿里巴巴集团) 注：论文说明工作是在AMAP阿里巴巴集团实习期间完成的。 💡 毒舌点评亮点在于，它像一个侦探，揪出了扩散模型里一个藏得很深的“内鬼”——SNR-t偏差，并给出了“犯罪动机”（理论证明）和“抓捕方案”（DCW校正）。槽点是，这个“抓捕方案”虽然有效，但更像是对现有工具（小波变换、差分引导）的精巧组装，而不是发明了全新的武器，理论深度和方法的新颖性相比其提出的问题深度略有逊色。 🔗 开源详情代码：已开源。GitHub地址：https://github.com/AMAP-ML/DCW。论文中提到“The code is at …”。模型权重：论文中未提及公开预训练的扩散模型权重。DCW是推理方法，无需特定权重。数据集：实验使用标准公开学术数据集（CIFAR-10, CelebA, ImageNet, LSUN），未提供新数据集。在线Demo：论文中未提及。依赖开源项目：论文中引用的开源模型/框架包括：IDDPM, ADM, DDIM, A-DPM, EA-DPM, EDM, DiT, PFGM++, FLUX, Qwen-Image等。DCW的实现可能依赖于这些模型的官方代码库。 📌 核心摘要这篇论文的核心贡献是识别并系统分析了扩散概率模型（DPMs）中一个基础性问题——信噪比-时间步（SNR-t）偏差。该偏差指推理时去噪样本的实际SNR与其所分配时间步t所理论对应的SNR不匹配，这种错位源于训练时的严格耦合在推理时被累积误差打破。作者通过详实的实验（滑动窗口测试、前向与反向过程对比）揭示了网络对SNR不匹配样本的预测规律，并提供了理论证明。为缓解此偏差，论文提出了一种无需训练、即插即用的动态差分校正方法（DCW），它在小波域对不同频率分量进行校正，以对齐反向样本分布与前向扰动分布。实验表明，DCW能显著提升包括IDDPM、ADM、EDM、FLUX等在内的多种DPMs在CIFAR-10、ImageNet等数据集上的生成质量（如FID降低），且计算开销可忽略不计。 🏗️ 模型架构本文的核心并非提出一个全新的扩散模型架构，而是对现有DPMs（如DDPM、ADM、EDM等）的推理过程进行分析并提出一个即插即用的校正模块。整体流程如下：输入：标准高斯噪声 x_T。标准扩散推理过程：使用任意现有的DPM（如ADM）及其采样器（如DDIM），进行T步迭代去噪。在每一步t，网络 ε_θ(·, t) 根据当前样本 x_t 和时间步t预测噪声，并据此计算去噪样本 x_{t-1} 和重建样本 x_θ^0(x_t, t)。 SNR-t偏差分析：论文发现，由于误差累积，反向过程得到的样本 x̂_t 的实际SNR低于其时间步t对应的理论SNR（Key Finding 2），这导致网络预测出现系统性偏差（Key Finding 1：低SNR输入导致噪声预测高估）。 DCW校正模块（核心贡献）：在每一步去噪后，不直接使用 x_{t-1} 作为下一步输入，而是对其进行校正。 a. 差分校正信号生成：计算当前步的去噪结果 x̂_{t-1} 与重建样本 x_θ^0(x̂_t, t) 之间的差值信号 d = x̂_{t-1} - x_θ^0(x̂_t, t)。理论分析（Eq. 16）表明，该差值信号包含了指向理想扰动样本 x_{t-1} 的梯度信息。 b. 小波域分解：为对齐DPM“先低频后高频”的去噪特性并减少噪声干扰，将 x̂_{t-1} 和 x_θ^0(x̂_t, t) 通过离散小波变换（DWT）分解为四个子带：低频（ll）和三个高频（lh, hl, hh）。 c. 分频率校正：对每个子带 f 分别应用差分校正：x̃_{t-1}^f = x̂_{t-1}^f + λ_t^f * (x̂_{t-1}^f - x_θ^0_f(x̂_t, t))。其中 λ_t^f 是动态权重。 d. 动态权重策略：权重 λ_t^f 根据时间步和频率分量动态调整。利用反向过程方差 σ_t 作为去噪进度指示器。低频权重 λ_t^l = λ_l * σ_t（早期去噪阶段权重高），高频权重 λ_t^h = (1 - λ_h) * σ_t（后期去噪阶段权重高）。 e. 重构：将校正后的各子带通过逆离散小波变换（iDWT）合并，得到校正后的样本 x̃_{t-1}，作为下一步迭代的输入。输出：经过T步（包含DCW校正）后，得到最终生成的干净样本 x_0。关键设计理由： ...

Full-Duplex-Bench-v3: Benchmarking Tool Use for Full-Duplex Voice Agents Under Real-World Disfluency

📄 Full-Duplex-Bench-v3: Benchmarking Tool Use for Full-Duplex Voice Agents Under Real-World Disfluency #语音对话系统 #基准测试 #实时处理 #大语言模型 🔥 评分：8.0/10 | arxiv 👥 作者与机构第一作者：Guan-Ting Lin (台湾大学) 通讯作者：Hung-yi Lee (台湾大学) 其他作者：Chen Chen (英伟达), Zhehuai Chen (英伟达) 💡 毒舌点评亮点：终于有人用真实的、结结巴巴的人话来拷问那些号称“实时对话”的语音AI了，而不是用完美的TTS自欺欺人。特别是对“自我纠正”（“去纽约…啊不，波士顿”）这种致命场景的测试，直击当前系统的软肋。槽点：论文本身是个“裁判”而非“运动员”，它很尽责地指出了选手们（GPT-Realtime, Gemini等）的弱点，但并没有给出如何训练出更好选手的秘方。此外，100条语音的测试集对于覆盖复杂现实场景可能还是略显单薄。 🔗 开源详情代码与数据集：论文提供了 GitHub 仓库链接（https://daniellin94144.github.io/FDB-v3-demo/）和 CC BY-SA 4.0 许可证，强烈暗示基准的数据集、评估脚本和可能的Demo代码已开源。在线Demo：提供了在线演示链接（https://daniellin94144.github.io/FDB-v3-demo/）。模型：评估的模型（GPT-Realtime, Gemini Live等）均为第三方API或开源模型（如Ultravox），论文未发布新模型权重。引用开源项目：论文依赖 LiveKit 实时语音代理框架进行系统部署和评估。 📌 核心摘要这篇论文针对当前全双工语音代理评估缺乏真实性（依赖合成语音）和任务简单性（单步调用）的问题，提出了Full-Duplex-Bench-v3 (FDB-v3) 基准。该基准的核心创新在于使用100条真实人类录音（含五种不流畅性注释），在四个任务域中设计了需要多步API链式调用的场景，并特别包含了21个测试意图中途自我纠正的案例。通过对GPT-Realtime、Gemini Live等六个主流系统（包括一个级联基线）的评估，论文发现：1）在任务完成率上，GPT-Realtime领先；2）Gemini Live 3.1延迟最低但“静默工作”（只调用工具不说话）比例高；3）自我纠正和多步推理在复杂场景下仍是所有系统的最普遍失败模式。该工作为语音代理的研发提供了贴近现实的评估标尺，并指明了平衡响应速度与对话灵活性的未来方向。 🏗️ 模型架构本文不提出新模型，而是评估现有模型。其评估框架的整体流程如下：输入：来自真实人类录音的音频流，其中包含自然产生的不流畅现象（填充词、停顿、错误开头、自我纠正等）。系统处理：音频流被送入待评估的语音代理系统。论文评估了六种配置：端到端语音到语音模型：GPT-Realtime, Gemini Live 2.5/3.1, Grok, Ultravox v0.7。这些模型内部集成语音识别、语言理解和语音生成。级联流水线基线：Whisper (ASR) -> GPT-4o (LLM，负责推理和工具调用) -> OpenAI TTS (语音合成)。工具执行：所有系统均通过 LiveKit 实时语音代理框架连接到本地模拟的API。这些Mock API（如search_flights, book_ticket）具有确定性、零延迟的响应，以隔离模型本身的推理和参数传递性能。输出与评估：系统输出包括生成的语音和工具调用日志。评估从四个维度进行：工具使用准确性：工具选择F1值、参数语义准确性、任务完成率（Pass@1）。对话质量：由GPT-4o评判的响应质量。轮流发言动态：轮流发言率、基础延迟（用户说完到系统开始响应）、打断率、填充句率。延迟分解：首词延迟、首次工具调用延迟、任务完成延迟（通过GPT-4o分析ASR片段，分离填充语句和关键信息句）。 💡 核心创新点真实不流畅语音基准：构建了首个完全由真实人类语音组成、并系统性标注了五种不流畅类别（填充词、停顿、犹豫、错误开头、自我纠正）的工具使用评估集，极大提升了评估的生态效度。自我纠正与状态回滚测试：专门设计了21个场景，测试语音代理能否识别用户在单次发言中改变意图（如更改目的地、日期），并正确更新下游API参数，这是对动态状态管理的直接考验。多步函数链式调用：每个场景都需要跨四个任务域（旅行身份、金融账单、住房位置、电商支持）进行多步API调用，评估了模型在真实语音条件下进行复杂推理和规划的能力。全面的多维度评估体系：不仅评估工具调用准确性，还深入分析了延迟构成、轮流发言行为（如“静默工作者”现象）、以及不同不流畅类型对性能的影响，揭示了速度、准确性与对话流畅性之间的核心权衡。 🔬 细节详述训练数据：不涉及模型训练。基准数据集包含100条录音，来自12位说话者（含母语及非母语者），在非受控环境下使用日常麦克风录制。每个说话者被分配10个跨域场景，其中21个包含自我纠正事件。评估指标：工具选择F1：精确率与召回率的调和平均。参数准确性：由GPT-4o评判语义正确性，允许日期格式、缩写等合理变体。任务完成率 (Pass@1)：二元指标，要求工具选择、参数准确性、响应质量全部完美。响应质量：由GPT-4o评判是否自然且完整地满足了用户意图。轮流发言指标：包括轮流发言率、基础延迟（Δt）、打断率（Δt < 0）、填充句率。延迟分解：首词延迟、工具调用延迟、任务完成延迟（通过GPT-4o识别关键信息句起始时间）。关键超参数/设置： Mock API：本地执行，确定性输出，零延迟。评估模型：使用GPT-4o作为评判器（用于参数准确性、响应质量、关键信息识别）。难度分级：Easy（单步）、Medium（两步，中等歧义）、Hard（多步，约束冲突）。实验硬件/推理：所有云端模型评估在单一固定服务器区域执行，以确保延迟比较公平。未提及具体GPU型号和训练细节，因为本文是评估工作。 📊 实验结果主要指标对比（表2）： ...

Generalizable Audio-Visual Navigation via Binaural Difference Attention and Action Transition Prediction

📄 Generalizable Audio-Visual Navigation via Binaural Difference Attention and Action Transition Prediction #音视频 #声源定位 #强化学习 #多任务学习 #零样本 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：Jia Li（新疆大学，计算机科学与技术学院，联合研究实验室 for Embodied Intelligence）通讯作者：Yinfeng Yu（新疆大学，计算机科学与技术学院，联合研究实验室 for Embodied Intelligence；邮箱：yuyinfeng@xju.edu.cn）其他作者：根据署名顺序，论文仅列出了两位作者，Jia Li和Yinfeng Yu。他们共同隶属于以下机构：新疆大学，联合研究实验室 for Embodied Intelligence 新疆大学，丝绸之路多语种认知计算联合国际研究实验室新疆大学，计算机科学与技术学院，乌鲁木齐 830017，中国 💡 毒舌点评亮点：这论文把“听声辨位”这件事整明白了！BDA模块不搞虚的，直接让左右耳特征“打架”（算差值），逼着模型关注声音从哪边来，而不是这是什么声音，这对没见过的声音特别管用。ATP任务像给导航策略上了个“行为矫正器”，让动作更连贯，减少在陌生环境里原地转圈的傻行为。槽点：方法组合拳虽然有效，但每个拳法（BDA， ATP）本身都不算开宗立派，更像是给现有强力基线（AV-WaN）打了个高效的“补丁”。另外，论文里那些“ Hear Sharper, Act Smarter”的口号，比技术细节更让人印象深刻。 🔗 开源详情代码：论文在作者信息下方明确提供了GitHub链接（https://github.com/...，具体地址需查看arXiv源文件或点击HTML版本中的链接）。表明代码已开源。模型权重：论文中未明确提及是否公开预训练模型权重。数据集：实验使用的是公开的SoundSpaces仿真平台、Replica和Matterport3D数据集，非本文自建。在线Demo：论文中未提及。依赖的开源项目：论文依赖SoundSpaces仿真环境、以及可能基于PyTorch等深度学习框架。引用的基线方法（如AV-NaV, AV-WaN）的代码可能也是其依赖。 📌 核心摘要本文旨在解决音频-视觉导航（AVN）智能体在未见环境和未闻声音类别下泛化能力差的核心问题。作者指出，现有方法性能下降主要源于两个因素：一是音频表征混淆了语义与空间信息，导致对未闻声��定位不准；二是强化学习策略过拟合于训练环境的动态和布局。为此，本文提出了一个名为BDATP的即插即用框架。在感知层面，设计了双耳差分注意力模块，通过显式建模和利用左右声道特征的差异，强化模型对空间方位线索的提取，降低对声音语义的依赖。在策略层面，引入了动作转移预测辅助任务，通过预测轨迹中下一步的动作来增加策略学习的时序一致性约束，鼓励模型学习跨环境的通用导航规律。在Replica和Matterport3D数据集上的大量实验表明，将BDATP集成到AV-NaV和AV-WaN等主流基线中，能带来一致且显著的性能提升，尤其在最具挑战性的未闻声音设置下，成功率最高可提升超过21个百分点，证明了其优越的泛化能力和鲁棒性。 🏗️ 模型架构 BDATP框架整体是一个端到端的强化学习系统，以深度图像和双耳声谱图为输入，输出导航动作。其核心流程和组件如下：输入与编码：视觉输入：智能体的第一人称深度图像，通过一个独立的CNN编码器（三个卷积层+线性层+ReLU）编码为512维的视觉特征 f_v。音频输入：双耳声谱图（左右声道）。首先沿声道维度分离为左、右两个单声道声谱图。然后，通过一个权重共享的CNN编码器（结构与视觉编码器相同）分别编码，得到中间特征图 f_al 和 f_ar。双耳差分注意力模块： ...