语音/音频论文速递 2026-04-23

共分析 27 篇论文

⚡ 今日概览

📥 抓取 27 篇 → 🔬 深度分析完成

🏷️ 热门方向

方向	数量	分布
语音识别	5篇	█████
基准测试	2篇	██
音频深度伪造检测	2篇	██
语音对话系统	2篇	██
音频分类	2篇	██
音乐信息检索	1篇	█
语音合成	1篇	█
麦克风阵列	1篇	█

📊 论文评分排行榜（27 篇，按分数降序）

排名	论文	评分	分档	主任务
🥇	Indic-CodecFake meets SATYAM: Towards Detecting Neural	8.5分	前25%	#音频深度伪造检测
🥈	Qwen3.5-Omni Technical Report	8.5分	前25%	#语音对话系统
🥉	Towards Streaming Target Speaker Extraction via Chunk-w	8.5分	前25%	#语音分离
4	Aligning Stuttered-Speech Research with End-User Needs:	8.5分	前25%	#语音识别
5	ONOTE: Benchmarking Omnimodal Notation Processing for E	8.0分	前25%	#基准测试
6	FastTurn: Unifying Acoustic and Streaming Semantic Cues	8.0分	前25%	#语音对话系统
7	Environmental Sound Deepfake Detection Using Deep-Learn	8.0分	前25%	#音频深度伪造检测
8	Embedding-Based Intrusive Evaluation Metrics for Musica	7.5分	前25%	#音乐信息检索
9	Self-Noise Reduction for Capacitive Sensors via Photoel	7.5分	前25%	#麦克风阵列
10	Utterance-Level Methods for Identifying Reliable ASR-Ou	7.5分	前25%	#语音识别
11	Enhancing ASR Performance in the Medical Domain for Dra	7.5分	前25%	#语音识别
12	Deep Hierarchical Knowledge Loss for Fault Intensity Di	7.5分	前25%	#音频分类
13	SpeechParaling-Bench: A Comprehensive Benchmark for Par	7.5分	前25%	#基准测试
14	ATIR: Towards Audio-Text Interleaved Contextual Retriev	7.5分	前25%	#音频检索
15	Before the Mic: Physical-Layer Voiceprint Anonymization	7.5分	前25%	#语音匿名化
16	MOMO: A framework for seamless physical, verbal, and gr	7.5分	前25%	#机器人控制
17	CoInteract: Physically-Consistent Human-Object Interact	7.5分	前25%	#视频生成
18	MoVE: Translating Laughter and Tears via Mixture of Voc	7.5分	前25%	#语音翻译
19	Reducing the Offline-Streaming Gap for Unified ASR Tran	7.5分	前25%	#语音识别
20	Tadabur: A Large-Scale Quran Audio Dataset	7.5分	前25%	#语音识别
21	FLiP: Towards understanding and interpreting multimodal	7.5分	前50%	#模型评估
22	Text-To-Speech with Chain-of-Details: modeling temporal	7.0分	前25%	#语音合成
23	SAND: The Challenge on Speech Analysis for Neurodegener	7.0分	前50%	#语音生物标志物
24	Explicit Dropout: Deterministic Regularization for Tran	7.0分	前25%	#音频分类
25	X-VC: Zero-shot Streaming Voice Conversion in Codec Spa	6.5分	前25%	#语音转换
26	Enhancing Speaker Verification with Whispered Speech vi	6.5分	前50%	#说话人验证
27	Centering Ecological Goals in Automated Identification	6.5分	前25%	#生物声学

📋 论文列表

🥇 Indic-CodecFake meets SATYAM: Towards Detecting Neural Audio Codec Synthesized Speech Deepfakes in Indic Languages

🔥 8.5/10 | 前25% | #音频深度伪造检测 | #预训练 | #多语言 #语音大模型 | arxiv

👥 作者与机构

第一作者：Girish（UPES, India）与 Mohd Mujtaba Akhtar（Veer Bahadur Singh Purvanchal University, India）为共同第一作者
通讯作者：Orchid Chetia Phukan（IIIT-Delhi, India），邮箱：orchidp@iiitd.ac.in
作者列表：
Girish（UPES, India）
Mohd Mujtaba Akhtar（Veer Bahadur Singh Purvanchal University, India）
Orchid Chetia Phukan（IIIT-Delhi, India）
Arun Balaji Buduru（IIIT-Delhi, India）

💡 毒舌点评

这篇论文在填补印度语言CodecFake检测空白方面做得非常扎实，SATYAM模型的双曲空间对齐设计也颇具巧思，为多模态融合提供了新思路。然而，其所有“实战”演练都发生在精心构造的合成数据集上，缺乏对真实世界中可能遇到的噪声、信道失真、对抗攻击等复杂因素的评估，这使得其宣称的“鲁棒性”仍停留在实验室阶段。

🔗 开源详情

代码：论文中提供了代码仓库链接：https://helixometry.github.io/IndicFake/ （指向GitHub）。
模型权重：论文中未明确提及是否公开预训练好的SATYAM模型权重。
数据集：ICF数据集承诺开源，可通过上述链接获取。
Demo：论文中未提及在线演示。
复现材料：提供了详细的训练细节（优化器、学习率、批大小、epoch数）、超参数（损失权重）、模型架构描述、训练硬件（四核A100）以及推理时间分析。
论文中引用的开源项目：列出了所依赖的NAC模型（DAC, Encodec, SoundStream, SpeechTokenizer, FunCodec, AudioDec, SNAC, MIMI）及其Hugging Face/GitHub链接；音频编码器（Whisper, TRILLsson）；LLM解码器（Qwen2-7B, Qwen2-1.8B）；以及基线模型（AASIST）的相关工作。

📌 核心摘要

问题：现有针对基于神经音频编解码器的语音深度伪造（CodecFake）检测的研究主要集中在英语和中文，对于语言多样性极高的印度语言缺乏大规模的基准数据集和有效的检测方法。
方法：作者构建了首个大规模印度语言CodecFake数据集（ICF），并提出了一个名为SATYAM的超曲空间音频大语言模型。该模型通过双曲Bhattacharyya距离，先对齐来自Whisper的语义表示和来自TRILLsson的韵律表示，再将融合后的语音表示与文本提示进行对齐，以建模层级关系。
创新：核心创新在于：（1）创建首个覆盖多语种、多说话人、多编解码器的印度语言CodecFake数据集；（2）提出SATYAM模型，首次将超曲几何用于语音表示融合与跨模态对齐，以更好地建模语音内部及语音-文本间的层级关系。
结果：实验表明，在英语CodecFake数据集上训练的SOTA检测器在ICF上性能急剧下降（ACC从94.21%降至48.0%）。SATYAM在ICF数据集上达到98.32%的准确率和3.27%的EER，显著优于所有基线模型（包括微调的Qwen2-Audio）。消融实验证明了双曲对齐和双阶段融合的有效性。
意义：该工作为印度等多语言地区的语音安全防御提供了关键的基础设施（数据集）和有效的技术方案，推动了语音深度伪造检测研究向低资源、多语言场景的扩展。
局限：主要局限性在于评估场景相对理想化，所有实验基于合成的CodecFake数据，未在真实世界的伪造语音（可能混合了其他伪造技术或经过信道传输）上进行验证。此外，模型依赖两个固定的预训练音频编码器，其泛化性有待进一步考察。

🥈 Qwen3.5-Omni Technical Report

👥 作者与机构

第一作者：未说明
通讯作者：未说明
作者列表：
- Bing Han (未说明)
- Baosong Yang (未说明)
- Bin Zhang (未说明)
- Bo Zheng (未说明)
- Dayiheng Liu (未说明)
- Fan Zhou (未说明)
- Hongkun Hao (未说明)
- Hangrui Hu (未说明)
- Jin Xu (未说明)
- Jianxin Yang (未说明)
- Jingren Zhou (未说明)
- Keqin Chen (未说明)
- Le Yu (未说明)
- Mingkun Yang (未说明)
- Peng Wang (未说明)
- Pei Zhang (未说明)
- Qize Yang (未说明)
- Rui Men (未说明)
- Ruiyang Xu (未说明)
- Shuai Bai (未说明)
- Sibo Song (未说明)
- Ting He (未说明)
- Xize Cheng (未说明)
- Xingzhang Ren (未说明)
- Xian Shi (未说明)
- Xiong Wang (未说明)
- Xinyu Zhang (未说明)
- Xinfa Zhu (未说明)
- Yunfei Chu (未说明)
- Yuanjun Lv (未说明)
- Yuchong Sun (未说明)
- Yongqi Wang (未说明)
- Yuxuan Wang (未说明)
- Yang Zhang (未说明)
- Zhifang Guo (未说明)
- Zishan Guo (未说明)
- Ziyang Ma (未说明)
- (以及数十位贡献者，论文中未提供其具体机构信息)

💡 毒舌点评

亮点：工程整合能力极强，在215个涵盖理解、推理和交互的音频/音视觉基准上全面达到SOTA，尤其在语音对话和多语言识别上超越了Gemini-3.1 Pro，展现了扎实的“刷榜”实力。短板：作为技术报告，其创新性主要体现在将现有技术（MoE、ARIA、长上下文）进行大规模组合与优化，而非提出颠覆性的新范式，读起来更像一份详尽的“产品说明书”而非“科学发现”。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：论文提到模型可通过API访问（链接：https://www.alibabacloud.com/help/en/model-studio/qwen-omni），但未提及是否开源模型权重供下载。
数据集：未提及。
Demo：未提及。
复现材料：论文提供了一些训练阶段的描述和评估结果，但未给出足以完全复现模型训练的超参数、数据处理细节或检查点。
论文中引用的开源项目：未在提供的文本中明确列出依赖的开源项目。

📌 核心摘要

这篇论文介绍了Qwen3.5-Omni，一个支持文本、图像、音频和音频-视频输入的全模态大语言模型。为解决现有模型在实时交互、跨模态推理和工具使用上的不足，其核心方法是采用“Thinker-Talker”架构，并引入混合专家（MoE）设计以提升效率。与前代相比，主要创新在于：1）模型规模扩展至数千亿参数并支持256k超长上下文；2）提出ARIA技术，动态对齐文本与语音token，显著提升了流式语音生成的稳定性和自然度；3）扩展了多语言支持（113种语言识别，36种语言合成）。实验结果显示，Qwen3.5-Omni-Plus在215个音频和音视觉基准上达到SOTA，在语音对话等关键任务上超越了Gemini-3.1 Pro。该工作为构建能够实时感知、推理、生成和行动的全模态智能体提供了坚实基础。主要局限在于论文作为技术报告，对部分训练细节（如具体损失函数、超参数）描述有限，且未开源模型权重和代码，限制了学术界的复现与深入研究。

🥉 Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model

👥 作者与机构

第一作者：Shuhai Peng (1)
通讯作者：Zhiyong Wu (1,†)
作者列表：
- Shuhai Peng (1)
- Hui Lu (2)
- Jinjiang Liu (1)
- Liyang Chen (1)
- Guiping Zhong (3)
- Jiakui Li (3)
- Huimeng Wang (2)
- Haiyun Li (1)
- Liang Cao (1)
- Shiyin Kang (3)
- Zhiyong Wu (1,†)
机构信息：论文中未明确给出机构1、2、3的具体名称。根据作者上标标注，作者分属三个不同机构。

💡 毒舌点评

这篇论文的亮点在于首次将自回归生成模型成功适配到流式目标说话人提取任务中，并通过“分块交错拼接”这一工程上优雅的设计解决了训练与推理的不匹配问题，实现了100%的推理稳定性，且性能在低延迟下超越了传统判别式模型。然而，其短板也十分明显：所有实验均在单一的Libri2Mix数据集上进行，对于更复杂、噪声更多样的真实场景（如远场、强混响）的泛化能力未得到验证，这使得其“超越离线基线”的结论显得有些封闭和乐观。

🔗 开源详情

代码：论文摘要提供了一个GitHub链接（https://github.com/…），但指向的是一个“Report Issue”页面，未明确提供可执行代码仓库。论文中未提及代码是否已开源。
模型权重：未提及是否公开预训练模型权重。
数据集：使用了公开的LibriSpeech和Libri2Mix数据集。
Demo：未提及提供在线演示。
复现材料：提供了模型架构图、关键公式、主要实验设置（如数据集配置、模型参数量、训练GPU型号）和部分结果。但缺失学习率、batch size、优化器、具体训练步数等关键训练细节。
论文中引用的开源项目：引用了LauraGPT [3]、Funcodec [4]、WavLM [1]、WeSpeaker [19]、Whisper [11]等开源模型或工具。
开源计划：论文中未明确提及后续的开源计划。

📌 核心摘要

要解决什么问题：现有基于生成模型（如扩散模型、自回归模型）的目标说话人提取（TSE）方法依赖全局上下文，难以直接用于实时流式场景，强行适配会导致性能严重下降。
方法核心是什么：提出首个面向流式TSE的自回归（AR）框架，核心是“分块交错拼接范式”。该范式将混合语音分块，并与对应的预测目标token交错输入模型，强制模型在每一步只依赖历史信息，保证了因果性。同时，设计了“历史上下文精炼机制”来缓解块间不连续性。
与已有方法相比新在哪里：a) 首次证明AR生成模型可用于流式TSE；b) 提出的交错拼接范式在保证严格因果性的同时，支持高效的追加（append-only）推理操作；c) 在低延迟（如560ms）下，其稳定性和性能（WER、SIG等）优于AR生成基线（LauraTSE）和部分离线判别式基线。
主要实验结果如何：在Libri2Mix数据集上，所提方法在560ms chunk size下实现了100%的推理成功率（ISR），WER为0.152，优于LauraTSE的0.174；其信号质量（SIG: 3.535）超过了离线判别式模型SpEx+（3.472）和WeSep（3.486）。在消费级RTX 4090 GPU上，实时率（RTF）为0.248。
实际意义是什么：为实时语音应用（如会议系统、语音助手）提供了一种新的、高质量的目标说话人提取解决方案，证明了生成模型在延迟敏感场景下的可行性。
主要局限性是什么：实验仅在单一的合成数据集（Libri2Mix）上验证，缺乏在真实世界复杂声学环境中的测试；未提供说话人相似度（Sim）在流式场景下的具体数值（仅在表格中有列但无对应行数据）；模型的泛化性和鲁棒性有待进一步考察。

4 Aligning Stuttered-Speech Research with End-User Needs: Scoping Review, Survey, and Guidelines

👥 作者与机构

第一作者：Hawau Olamide Toyin（MBZUAI, UAE）
通讯作者：Hanan Aldarmaki（MBZUAI, UAE）
作者列表：
- Hawau Olamide Toyin（MBZUAI, UAE）
- Mutiah Apampa（SpeechCare, Portugal & UAE）
- Toluwani Aremu（SpeechCare, Portugal & UAE）
- Humaid Alblooshi（SpeechCare, Portugal & UAE）
- Ana Rita Valente（SLAI & CUHK (SZ), China）
- Gonçalo Leal（SLAI & CUHK (SZ), China）
- Zhengjun Yue（SLAI & CUHK (SZ), China）
- Zeerak Talat（University of Edinburgh, UK）
- Hanan Aldarmaki（MBZUAI, UAE）

💡 毒舌点评

亮点在于它系统性地揭示了口吃语音处理领域“研究自嗨”与“用户真实需求”之间的鸿沟，并提出了一个清晰的任务分类法来弥合术语混乱。短板是作为一篇“指南”类论文，它主要诊断问题，解决方案相对宏观，缺乏具体的技术路线图或可立即实施的算法改进方案。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：未提及。
数据集：论文公开了其分析的228篇论文的最终列表（通过上述链接）。用户调查数据未提及是否公开。
Demo：未提及。
复现材料：论文详细描述了文献综述的搜索词、筛选流程、标注指南（包括任务分类法定义）以及用户调查的问卷结构和分发方式，为复现其分析过程提供了充分信息。
论文中引用的开源项目：论文未明确列出其依赖的开源工具或模型，因其本身不是技术实现论文。

📌 核心摘要

问题：当前口吃语音技术研究与口吃者（PWS）及言语语言病理学家（SLP）的实际需求存在系统性脱节，研究重点、任务定义和评估方法未能充分以用户为中心。
方法核心：通过两部分结合分析：1）对228篇相关论文进行范围综述，提出研究任务分类法并分析研究现状；2）对70名利益相关者（40名PWS，30名SLP）进行问卷调查，了解其真实需求和痛点。
新意：首次系统性地将大规模文献分析与用户调查结果进行对比，揭示了“研究重点”与“用户需求”之间的具体错位（如研究偏重“是否”口吃的分类，而用户更需要“何时何地”的检测；研究隐含优化“意图语音识别”，而SLP需要“逐字记录”）。
主要结果：文献分析显示研究过度集中于英语、单语、分类任务，且任务命名不规范（如72篇标题含“检测”的论文中仅6篇真正做时间定位）。用户调查显示PWS和SLP在转录需求、工具效用偏好上存在显著分歧，且SLP对可解释性和数据隐私有极高要求。
实际意义：为未来口吃语音技术研究提供了明确的用户需求图谱、标准化的任务定义和研究指南，旨在推动该领域向更具临床相关性和实际效用的方向发展。
主要局限性：作为一篇综述与指南性论文，其贡献在于提出问题框架和方向，而非提出新的具体算法或模型；用户调查样本量（70人）虽具代表性，但可能无法覆盖所有文化和语言背景。

5 ONOTE: Benchmarking Omnimodal Notation Processing for Expert-level Music Intelligence

👥 作者与机构

第一作者：Menghe Ma（北京邮电大学）
通讯作者：Haoran Luo（南洋理工大学）
作者列表：
- Menghe Ma*（北京邮电大学）
- Siqing Wei*（北京邮电大学）
- Yuecheng Xing*（北京邮电大学）
- Yaheng Wang（北京邮电大学）
- Fanhong Meng（中国音乐学院）
- Peijun Han（中国音乐学院）
- Luu Anh Tuan（南洋理工大学）
- Haoran Luo†（南洋理工大学）（*表示共同第一作者，†表示通讯作者）

💡 毒舌点评

亮点：论文一针见血地指出了当前多模态音乐AI“看得懂谱但不懂乐理”的致命短板，并用一套滴水不漏的确定性评估流水线（规范音高投影+序列对齐）把“LLM当评委”的主观泡沫彻底挤干，建立了一个干净、可复现的评测标尺。短板：虽然评估范式设计精巧，但基准数据集规模（1120个样本）和任务复杂度（如AST仅10秒音频）可能不足以完全模拟真实世界中长篇、复杂乐曲的处理挑战，其结论的普适性有待更大规模验证。

🔗 开源详情

代码：提供GitHub仓库链接：https://github.com/T12knightally/ONOTE
模型权重：未提及。本文为基准测试，不涉及发布自身模型。
数据集：提供HuggingFace数据集链接：https://huggingface.co/datasets/Weisiqing123/ONOTE
Demo：未提及。
复现材料：附录A详细描述了数据集构建流程；附录B提供了完整的任务执行和评分评估提示词；附录C详细说明了评估指标的实现细节。这些构成了完整的复现材料。
论文中引用的开源项目：论文在相关工作和实验中引用了多个开源项目/模型，如MuseCoco、ChatMusician、MuseScore、ABC编译器等，但未明确列出其作为ONOTE实现的直接依赖。

📌 核心摘要

问题：当前多模态大模型在音乐符号处理（Omnimodal Notation Processing, ONP）领域存在严重缺陷：研究碎片化、模型存在严重的符号偏差（偏向五线谱）、且普遍依赖不可靠的“LLM-as-a-Judge”评估方法，掩盖了模型在音乐理论推理上的系统性失败。
方法核心：提出ONOTE基准，包含四个任务（视觉乐谱理解VSU、跨格式符号转换CNC、音频转符号AST、符号音乐生成SMG），覆盖五线谱、简谱、吉他谱三种系统。其核心是设计了一条“确定性与反偏差评估流水线”，通过“规范音高投影”将所有输出统一映射为一维音高序列，再利用编辑距离进行客观的序列对齐精度计算。
新意：与以往专注于单一转录任务或使用主观评估的基准不同，ONOTE首次提供了覆盖音乐符号处理全生命周期的、多符号系统的综合评估框架，并彻底摒弃了主观评分，实现了评估的客观化与标准化。
主要实验结果：对多个前沿全模态模型（如Qwen、Gemini系列）的评测显示，模型在VSU任务上表现优异（如Gemini-3.1-flash-lite-preview在五线谱VSU达99%），但在需要深层音乐理论推理的CNC和AST任务上表现急剧下降（如上述模型五线谱CNC仅17.29%）。这证实了模型“感知准确”与“理解逻辑”之间的巨大鸿沟。
实际意义：为音乐AI研究社区提供了统一、严谨的评估标准，能够客观诊断模型的推理弱点，推动开发更具音乐认知深度、而非仅进行表面模式匹配的AI系统。
主要局限性：1) 基准数据集规模相对有限（1120个样本），可能无法覆盖所有音乐风格和复杂度；2) 任务设置（如AST仅10秒）偏向简化场景；3) 作为评估基准，其本身不提出新模型，价值依赖于社区的采纳和应用。

6 FastTurn: Unifying Acoustic and Streaming Semantic Cues for Low-Latency and Robust Turn Detection

👥 作者与机构

第一作者：Chengyou Wang（Audio, Speech and Language Processing Group (ASLP@NPU)）
通讯作者：未说明
作者列表：
- Chengyou Wang（Audio, Speech and Language Processing Group (ASLP@NPU)）
- Hongfei Xue（Audio, Speech and Language Processing Group (ASLP@NPU)）
- Chunjiang He（Audio, Speech and Language Processing Group (ASLP@NPU)）
- Jingbin Hu（Audio, Speech and Language Processing Group (ASLP@NPU)）
- Shuiyuan Wang（Audio, Speech and Language Processing Group (ASLP@NPU)）
- Bo Wu（Audio, Speech and Language Processing Group (ASLP@NPU)）
- Yuyu Ji（Audio, Speech and Language Processing Group (ASLP@NPU)）
- Jimeng Zheng（Audio, Speech and Language Processing Group (ASLP@NPU)）
- Ruofei Chen（Audio, Speech and Language Processing Group (ASLP@NPU)）
- Zhou Zhu（Audio, Speech and Language Processing Group (ASLP@NPU)）
- Lei Xie（Audio, Speech and Language Processing Group (ASLP@NPU)）注：作者列表后标注了所属机构“1 Audio, Speech and Language Processing Group (ASLP@NPU) 2 Shengwang 3 QualiaLabs”，但论文正文中未明确将每位作者与具体机构（2， 3）进行一一对应，因此统一按第一作者所在机构列出。

💡 毒舌点评

亮点：论文巧妙地通过“FastTurn-Cascaded -> FastTurn-Semantic -> FastTurn-Unified”的三阶段演进，清晰地展示了如何在低延迟（利用流式CTC）和高鲁棒性（融合声学特征）之间进行工程权衡，并发布了一个标注详实、贴近真实对话的测试集，这对该领域的研究很有价值。短板：核心创新更多是现有技术（CTC， LLM， Conformer）的系统集成和训练策略设计，而非提出全新的模型架构或理论；此外，论文在英文数据上的效果（表3）并未超越已有基线（Para.+Ten Turn），显示其优势可能更集中于中文场景或特定测试集。

🔗 开源详情

代码：提供了测试集的GitHub仓库链接：https://github.com/qualialabsAI/SmoothConv。论文中未明确说明是否提供FastTurn模型本身的完整训练和推理代码。
模型权重：未提及公开预训练或微调后的模型权重。
数据集：发布了FastTurn测试集，包含真实对话和合成数据，可通过上述GitHub链接获取。
Demo：未提及。
复现材料：提供了详细的四阶段训练流程、模型架构参数、学习率等超参数设置，以及ASR和轮次检测任务所使用的数据集信息。
论文中引用的开源项目：引用了Qwen3（LLM）、DeepSeek V3（文本生成）、IndexTTS2（语音合成）、Conformer（编码器架构）等开源模型或方法。

📌 核心摘要

这篇论文针对全双工语音对话系统中需要低延迟、高精度判断用户是否结束发言（轮次检测）的难题，提出了FastTurn统一框架。其核心方法是将流式CTC解码提供的快速部分语义信息，与Conformer编码器提取的声学特征，通过适配器输入给大语言模型（LLM）进行推理，并最终融合声学与语义特征进行轮次预测。与依赖纯VAD或完整ASR转录的已有方法相比，FastTurn创新性地设计了三阶段演进架构，并采用了四阶段训练流程来稳定优化和对齐不同模态特征。实验表明，FastTurn在其发布的包含重叠语音、反馈信号等复杂场景的测试集上，相比Smart Turn、Easy Turn等基线，在轮次预测准确率（如完整轮次达81.64%）和延迟（如139ms vs Easy Turn的297ms）上均取得优势。该工作为构建实用、响应迅速的全双工对话系统提供了有效方案，其局限性包括在英文数据上性能有待提升，以及模型规模（约700M参数）可能对边缘部署构成挑战。

7 Environmental Sound Deepfake Detection Using Deep-Learning Framework

🔥 8.0/10 | 前25% | #音频深度伪造检测 | #预训练 | #迁移学习 #频谱分析 | arxiv

👥 作者与机构

第一作者：Lam Pham* (奥地利技术研究所数字安全与安全中心，奥地利)
通讯作者：Son Le† (越南孙德盛大学)
作者列表：
- Lam Pham* (奥地利技术研究所数字安全与安全中心，奥地利)
- Khoi Vu* (FPT大学，越南)
- Dat Tran* (FPT大学，越南)
- Phat Lam (胡志明市理工大学，越南)
- Vu Nguyen (越南孙德盛大学)
- David Fischinger (奥地利技术研究所数字安全与安全中心，奥地利)
- Alexander Schindler (奥地利技术研究所数字安全与安全中心，奥地利)
- Martin Boyer (奥地利技术研究所数字安全与安全中心，奥地利)
- Son Le† (越南孙德盛大学)

💡 毒舌点评

亮点：论文对“环境声音深度伪造检测”这一新兴任务进行了堪称教科书级别的系统性实验评估，清晰揭示了“声音场景”与“声音事件”伪造检测的差异性，并证明了微调预训练模型（如BEATs）远优于从头训练，为后续研究提供了明确的基线和方向。短板：核心方法（微调BEATs）本身并非本文原创，创新更多体现在训练策略（三阶段）和实验设计上；此外，论文声称开源但提供的链接指向arXiv页面，具体的代码和模型权重获取方式在节选中未明确，降低了即刻复现的便利性。

🔗 开源详情

代码：论文标题和内容中提及了“GitHub”，表明有代码仓库，但提供的链接为arXiv论文页面（https://arxiv.org/abs/2604.19652v1），未直接给出具体的代码仓库URL。
模型权重：论文中未提及是否公开预训练或微调后的模型权重。
数据集：论文使用的EnvSDD和ESDD-Challenge-TestSet均为公开基准数据集，文中引用了其来源。
Demo：论文中未提及提供在线演示。
复现材料：论文描述了训练策略、损失函数、评估指标等，但具体的超参数（如MLP层数、隐藏单元数）、数据预处理脚本、训练配置文件等在节选中未详细给出。
引用的开源项目/模型：明确依赖并评估了预训练的BEATs模型（来自ICML 2023），以及Mixup数据增强技术。
开源计划：论文暗示有开源计划（提及GitHub），但具体细节在当前提供的文本中不完整。

📌 核心摘要

问题：针对环境声音（包括声音场景和声音事件）的深度伪造检测（ESDD）任务，现有研究不足，且尚不清楚声音场景与声音事件的伪造检测是否需要不同模型。
方法核心：提出一个深度学习框架，核心是采用预训练的音频模型（BEATs）作为特征提取器，并结合一种三阶段训练策略（包含对比学习、中心损失等）进行微调，以区分真实与伪造音频。
创新点：系统评估了多种频谱图和网络架构；通过实验证明声音场景伪造检测（SSFD）与声音事件伪造检测（SEFD）应作为独立任务处理；提出了有效的三阶段训练策略来微调预训练模型。
主要结果：在EnvSDD测试集上，微调BEATs模型达到0.98准确率、0.95 F1分数和0.99 AuC；在跨数据集ESDD-Challenge-TestSet上，使用声音事件数据训练的模型表现最佳（0.88准确率， 0.77 F1， 0.92 AuC）。
实际意义：为环境声音伪造检测提供了有效的技术方案和基准，有助于维护音频内容安全，防止AI生成的环境声音被恶意利用。
主要局限性：跨数据集泛化性能有下降（如在ESDD-Challenge-TestSet上）；声音场景伪造检测的性能仍低于声音事件伪造检测；方法依赖大规模预训练模型，计算成本较高。

8 Embedding-Based Intrusive Evaluation Metrics for Musical Source Separation Using MERT Representations

👥 作者与机构

第一作者：Paul A. Bereuter（格拉茨音乐与表演艺术大学电子音乐与声学研究所）
通讯作者：未明确说明（论文中作者邮箱为{ bereuter,sontacchi }@iem.at，表明两人可能均为联系作者）
作者列表：
- Paul A. Bereuter（格拉茨音乐与表演艺术大学电子音乐与声学研究所）
- Alois Sontacchi（格拉茨音乐与表演艺术大学电子音乐与声学研究所）

💡 毒舌点评

亮点：论文直击音乐源分离评估中“指标与感知脱节”的痛点，用两个独立数据集系统性地验证了基于MERT嵌入的指标（MSE_MERT， FAD_MERT）在相关性上全面优于传统BSS-Eval指标，为社区提供了一个更可靠的自动化评估工具。短板：本质上是将一个现有的预训练模型（MERT）“拿来主义”地用于计算评估指标，创新深度有限；且仅验证了MERT这一种模型，未探讨其他音频基础模型是否更优，结论的普适性有待扩展。

🔗 开源详情

代码：论文提供了代码仓库链接：https://github.com/pablebe/mert-emb-eval/
模型权重：论文未提及是否公开MERT模型权重，但MERT模型本身是公开的（论文引用了其出处）。
数据集：论文使用的两个数据集（Bake-Off， GenSVS）均提供了Zenodo链接，是公开可获取的。
Demo：论文中未提及在线演示。
复现材料：提供了计算指标的Python包gensvs，并说明了所使用的基线指标实现库（torchmetrics， nussl）。论文中包含实验设置细节（如STFT参数， MERT层选择）。
论文中引用的开源项目：torchmetrics（用于计算SDR， SI-SDR）， nussl（用于计算SI-SAR， SI-SIR）。
复现计划：论文中已提供完整代码和数据链接，足以支持复现。

📌 核心摘要

问题：音乐源分离（MSS）领域常用的客观评估指标（BSS-Eval）与人类感知评分相关性较低，导致模型评估不够准确。
方法核心：提出两种基于嵌入的侵入式评估指标：在预训练MERT模型的嵌入空间上计算目标与分离信号的均方误差（MSE_MERT）和一种逐曲目的Fréchet音频距离（FAD_MERT）。
创新点：首次在多个音乐源（人声、贝斯、鼓、其他）和不同类型的分离模型（判别式、生成式）上，系统验证了基于MERT嵌入的指标与感知评分的相关性优于传统BSS-Eval指标。
主要实验结果：在两个独立数据集（Bake-Off, GenSVS）上，MSE_MERT和FAD_MERT在所有声部和模型类型上的Spearman和Pearson相关系数均高于BSS-Eval指标（如SDR， SI-SAR）。例如，在Bake-Off数据集的人声声部，FAD_MERT的SRCC达到0.78，而最高的BSS-Eval指标（SDR）仅为0.69。
实际意义：为音乐源分离模型提供了一种更可靠、与人类感知更一致的自动化评估方法，可作为耗时的主观听音测试的实用代理。
主要局限性：研究仅限于MERT一种预训练模型，未探索其他音频基础模型的表现；指标性能可能受限于MERT模型的表征能力。

9 Self-Noise Reduction for Capacitive Sensors via Photoelectric DC Servo: Application to Condenser Microphones

✅ 7.5/10 | 前25% | #麦克风阵列 | #信号处理 | #传感器 | arxiv

👥 作者与机构

第一作者：Hirotaka Obo（日本国立农业和食品研究组织（NARO）农村工程研究所；筑波大学）
通讯作者：未说明
作者列表：
- Hirotaka Obo（日本国立农业和食品研究组织（NARO）农村工程研究所；筑波大学）
- Atsushi Tsuchiya（筑波大学）
- Tadashi Ebihara（筑波大学）
- Naoto Wakatsuki（筑波大学）

💡 毒舌点评

亮点：论文巧妙地将光电效应与伺服控制结合，用一个“光控电流源”替代了传统偏置电阻，从根本上解耦了噪声滤波与信号高通滤波的频率约束，理论优雅且实验效果显著（11 dBA）。短板：核心创新点依赖一个定制的锌光阴极管，其长期稳定性、量产一致性和抗环境干扰能力（如温度、湿度）是走向实用化的巨大挑战，论文对此讨论不足，使得方案更像一个精巧的实验室演示而非成熟的设计方案。

🔗 开源详情

代码：论文中提到“Report GitHub Issue”，暗示存在一个GitHub仓库，但未在正文中直接提供仓库URL。具体代码内容（如是否包含电路仿真文件、控制代码）未说明。
模型权重：不适用。本文为硬件电路。
数据集：不适用。
Demo：未提及。
复现材料：论文提供了电路设计思路、关键元件型号（如JFE2140、S5973-01）和部分参数，但未提供完整的、可直接用于制造的电路图、PCB布局或详细组装指南。定制光电元件的制作工艺细节也未完全公开。
论文中引用的开源项目：未提及。

📌 核心摘要

问题：电容式传感器（如ECM麦克风）的自噪声主要源于前置放大器中用于建立直流偏置的门极电阻（Rm）的热噪声。该电阻同时决定了噪声的低通截止频率和信号的高通截止频率，形成了一个难以调和的噪声-带宽权衡。
方法核心：提出PDS-Amp（光电直流伺服放大器），用基于外部光电效应的定制光电元件（锌光阴极）替代Rm作为超高阻抗电流源，并通过一个包含滞后-超前补偿器的直流伺服回路，利用LED光照控制光电流，从而稳定门极偏置电压。
创新点：与传统方法相比，该方案将偏置电阻的多个功能（噪声源、直流路径、信号高通滤波器）分离。光电元件提供了极低噪声的高阻抗，而独立的伺服回路负责稳定偏置和设定信号高通截止频率，从而实现了两个截止频率的独立设计。
实验结果：使用12 pF假体麦克风测试，PDS-Amp实现了11 dBA的自噪声，远低于传统1 GΩ电阻偏置的估算值（~34 dBA）和文献测量值（23.1 dBA）。对实际ECM（C9767）的录音实验定性证实了背景噪声的显著降低。
实际意义：该技术无需增大振膜尺寸或使用高压极化，即可使廉价的小型ECM达到高端大振膜麦克风的噪声水平，为提升微型电容传感器的性能提供了一条新路径，且原理可推广至加速度计、压力传感器等。
主要局限性：定制光电元件的长期稳定性、一致性及可制造性未充分验证；伺服回路增加了电路复杂度、成本和封装难度；实验主要针对自噪声，未全面评估其在大信号、高声压级等其他工况下的表现。

10 Utterance-Level Methods for Identifying Reliable ASR-Output for Child Speech

👥 作者与机构

第一作者：Gus Lathouwers (guslathouwers@gmail.com)
通讯作者：未说明（论文中未明确指定通讯作者，但提供了所有作者邮箱）
作者列表：
- Gus Lathouwers (Centre for Language Studies, Radboud University, Netherlands)
- Lingyun Gao (Centre for Language Studies, Radboud University, Netherlands)
- Catia Cucchiarini (Centre for Language Studies, Radboud University, Netherlands)
- Helmer Strik (Department of Language and Communication, Radboud University, Netherlands)

💡 毒舌点评

亮点在于方法设计非常务实，针对朗读和对话场景分别提出“与原文匹配”和“LLM分类”两种可解释性强的启发式规则，且“模型一致性过滤”策略能以较低的召回率换取极高的精确率（>97.4%），为自动筛选可靠转录提供了可靠工具。短板是开源精神不足，论文中提到的GitHub链接为无效占位符，且关键的对话文本分割流程（英文CSLU数据）依赖外部标点工具，细节未充分公开，严重影响了结果的可复现性。

🔗 开源详情

代码：论文中提到代码仓库链接为 http://github.com/anonimized，这是一个无效的占位符地址，无法访问。未提供有效的代码仓库链接。
模型权重：论文中提到英语微调模型（Whisper-FT）引用自[Jain2023]的公开模型，但未给出具体链接。荷兰语微调模型未提及公开。
数据集：使用了公开数据集JASMIN和CSLU，但论文未说明如何获取这些数据集的具体版本或子集。
Demo：未提及。
复现材料：提供了部分训练细节（如荷兰语Whisper-FT的训练轮次、学习率、硬件、时长）和LLM调用细节（模型版本、API参数），但缺乏完整的超参数列表、数据预��理代码、训练脚本和评估脚本。
论文中引用的开源项目：提到了使用Hugging Face和Torch库进行微调，使用jiwer包进行词对齐，以及使用OpenAI API调用LLM。
总结：论文未提供可访问的代码仓库，复现所需的关键材料不完整，严重限制了结果的可复现性。

📌 核心摘要

要解决什么问题：儿童语音自动识别（ASR）错误率高，影响语言学习、阅读辅助等应用。传统置信度估计方法在噪声大、模式多变的儿童语音上可能失效。需要一种在转录后（utterance级别）自动识别哪些ASR输出是可靠的方法，以减少人工审核负担。
方法核心是什么：提出两种基于utterance级别的可靠性评估方法：对于朗读语音，检查ASR输出是否与儿童朗读的原始文本提示完全匹配（[prompt]方法）；对于对话语音，利用大型语言模型（LLM）对ASR输出文本进行分类，判断其是否包含重复词、奇怪词汇等异常（[LLM-classification]方法）。此外，还测试了模型一致性作为额外过滤条件，即只有两个不同ASR模型（基线Whisper-V2和微调Whisper-FT）输出一致时，才认为可靠。
与已有方法相比新在哪里：与传统依赖ASR模型内部概率的置信度估计不同，这些方法仅分析最终的文本输出。其新颖性在于专门针对儿童语音的朗读和对话两种材料类型，提出了不同的、可操作的文本层面评估策略，并首次将模型一致性作为可靠性的强指标进行系统评估。
主要实验结果如何：在荷兰语（JASMIN）和英语（CSLU）数据集上，模型一致性过滤策略效果最佳，精确率（P）均超过97.4%。使用该策略，可以从数据集中自动筛选出21.0%（英语对话）到55.9%（英语朗读）的转录，其utterance错误率（UER）低于2.6%。单独使用微调模型（Whisper-FT）配合[prompt]方法也能达到高精确率（P>97.1%）。
实际意义是什么：该方法可以集成到儿童语音学习软件、阅读诊断工具或教育数据处理流程中，自动标记出高置信度的转录结果，从而大幅减少教师或研究人员需要手动核对和修正的工作量，提高系统效率和可用性。
主要局限性是什么：方法无法检测ASR输出正确但包含儿童本身语法或语义错误的情况。对于对话语音，方法只能筛选出完整的句子，对更长的录音需要额外的分割步骤（如英文数据所示）。此外，所用LLM（ChatGPT-5）的调用成本和延迟可能影响其在实时或大规模场景下的应用。

11 Enhancing ASR Performance in the Medical Domain for Dravidian Languages

👥 作者与机构

第一作者：未说明（论文未明确标注第一作者）
通讯作者：未说明（论文未明确标注通讯作者）
作者列表：
- Sri Charan Devarakonda（未说明）
- Ravi Sastry Kolluru（未说明）
- Manjula Sri Rayudu（未说明）
- Rashmi Kapoor（未说明）
- Madhu G（未说明）
- Anil Kumar Vuppala（未说明）

💡 毒舌点评

论文提出的置信度感知训练框架设计完整，从静态指标到动态熵的融合逻辑清晰，并在两种语言上验证了有效性，这是一个扎实的工程化工作。然而，论文最大的短板在于完全未提供代码、模型权重或数据集链接，使得其“可复现性”大打折扣，对于一篇强调方法论的论文而言，这是个明显的遗憾。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：未提及。
数据集：论文中描述了构建的Telugu和Kannada医疗语音数据集，但未说明是否公开及获取方式。
Demo：未提及。
复现材料：论文提供了详细的训练超参数（学习率、batch size、优化器、epoch数等）和硬件信息，但缺少完整的配置文件、脚本和检查点。
论文中引用的开源项目：Wav2Vec2， Whisper， IndicTTS， GlowTTS， KenLM， IndicBART， mT5。

📌 核心摘要

这篇论文旨在解决达罗毗荼语言（Telugu和Kannada）在医疗领域自动语音识别（ASR）中面临的标注数据稀缺和语言形态复杂两大挑战。其核心方法是提出一个“置信度感知训练框架”，该框架通过一个混合置信度评分机制（结合静态的感知、声学相似性、WER分数和动态的模型熵），对混合了真实与合成语音的训练数据进行质量评估和加权，从而在微调阶段优先学习高质量样本。与传统直接微调或简单混合数据的方法相比，其创新在于引入了可学习的权重聚合策略和课程学习调度。实验结果显示，该方法结合5-gram KenLM后处理，将Telugu的WER从24.3%降至15.8%（8.5%绝对改进），Kannada的WER从31.7%降至25.4%（6.3%绝对改进），显著优于基线。该工作的实际意义在于为低资源、垂直领域的语音识别提供了一套可扩展的解决方案。主要局限性在于，框架的验证仅限于两种特定语言，其泛化能力有待更广泛检验，且论文未开源任何代码或数据，限制了社区的复现与跟进。

12 Deep Hierarchical Knowledge Loss for Fault Intensity Diagnosis

👥 作者与机构

第一作者：Yu Sha (沙宇)（西安电子科技大学人工智能学院；香港中文大学（深圳）理工学院；法兰克福高等研究院）
通讯作者：Kai Zhou (周凯)（香港中文大学（深圳）理工学院；香港中文大学（深圳）人工智能学院；法兰克福高等研究院）
作者列表：
Yu Sha (沙宇)（西安电子科技大学人工智能学院；香港中文大学（深圳）理工学院；法兰克福高等研究院）
Shuiping Gou (苟水平)（西安电子科技大学人工智能学院）
Bo Liu (刘波)（西安电子科技大学人工智能学院）
Haofan Lu (卢浩帆)（西安电子科技大学人工智能学院）
Ningtao Liu (刘宁涛)（洛阳理工学院计算机学院）
Jiahui Fu (付佳慧)（法兰克福高等研究院）
Horst Stoecker（法兰克福高等研究院；法兰克福大学理论物理研究所；GSI亥姆霍兹重离子研究中心）
Domagoj Vnucec（SAMSON AG）
Nadine Wetzstein（SAMSON AG）
Andreas Widl（SAMSON AG）
Kai Zhou (周凯)（香港中文大学（深圳）理工学院；香港中文大学（深圳）人工智能学院；法兰克福高等研究院）

💡 毒舌点评

这篇论文的亮点在于其将层次分类的思想系统性地转化为两个互补的损失函数（层次树损失和分组树三元组损失），并提供了严格的数学推导，在空化诊断这一具体任务上取得了令人信服的性能提升。短板在于其应用场景过于垂直（工业阀门空化），虽然实验充分，但对更广泛的音频或语音处理研究社区的直接启发性和普适性可能有限，更像是一篇扎实的领域应用论文而非开创性的方法论工作。

🔗 开源详情

代码：论文中提到代��已发布在GitHub，链接为：https://github.com/ShaYu1/DHK (注：此信息来自论文标题页，但为确保准确，应以实际可访问链接为准)。
模型权重：论文中未提及是否公开预训练模型权重。
数据集：论文中使用的三个空化数据集由SAMSON AG提供，未说明是否公开；PUB轴承数据集是公开数据集，论文中给出了引用。
Demo：论文中未提及在线演示。
复现材料：论文在附录和实验部分提供了详细的实现细节，包括超参数设置（γ=2, α=0.1, mε=0.15）、优化器配置、数据增强方法、STFT参数分析等，复现材料较为充分。
论文中引用的开源项目：论文中提到了使用PyTorch框架，并引用了多种骨干网络（如ResNet, Swin Transformer）的开源实现。

📌 核心摘要

要解决什么问题：传统故障强度诊断方法将各类故障视为独立标签，忽略了物理状态之间固有的层次依赖关系（如“空化”是“初期空化”、“稳定空化”等的父类），这限制了模型的性能和鲁棒性。
方法核心是什么：提出一个名为DHK的通用框架，其核心是设计两个新的损失函数：层次树损失（用于建模类别间的层次一致性约束）和分组树三元组损失（用于建模不同类别间的边界结构知识），并将两者联合优化。
与已有方法相比新在哪里：不同于传统数据流映射或知识嵌入方法，DHK通过“分形流映射”将层次知识自然地融入损失函数，实现了数据与知识在反向传播中的同步优化。具体创新包括：基于树结构正负知识的层次树损失、基于树高度的自适应加权方案、以及引入层次动态边界的分组树三元组损失。
主要实验结果如何：在四个真实工业数据集（三个空化数据集、一个轴承故障数据集）上，DHK与多种骨干网络（CNN, Transformer）结合后，在准确率、精确率、召回率和F1值上均显著优于包括最新SOTA在内的基线方法。例如，在Cavitation-Short数据集上，DHK+ResNet34相比ResNet34基线，准确率提升5%，F1值提升18.94%。
实际意义是什么：该方法能更精确地识别工业系统（如阀门、轴承）中的细微或渐进式故障，有助于实现更智能的设备健康监测和预测性维护，是工业4.0中的关键技术。
主要局限性是什么：论文中未明确提及方法的局限性（需参考附录E.2）。潜在局限可能包括：对层次树结构的定义依赖领域知识，可能不适用于无明显层次关系的分类任务；计算复杂度虽与基线相当，但引入了额外的损失计算。

13 SpeechParaling-Bench: A Comprehensive Benchmark for Paralinguistic-Aware Speech Generation

👥 作者与机构

第一作者：Ruohan Liu (南京大学)
通讯作者：Chaoyou Fu (南京大学)
作者列表：
- Ruohan Liu (南京大学)
- Shukang Yin (南京大学)
- Tao Wang (南京大学)
- Dong Zhang (小米)
- Weiji Zhuang (小米)
- Shuhuai Ren (小米)
- Ran He (南京大学)
- Caifeng Shan (南京大学)
- Chaoyou Fu (南京大学)

💡 毒舌点评

亮点：这篇论文把“副语言生成评估”这个模糊地带彻底标准化了，从不到50个特征扩展到100多个，还设计了从静态控制到动态变化再到情境适应的递进式任务，评估流水线也用上了“成对比较”来对抗主观性，工程上相当完备。短板：数据全靠合成，用TTS生成的“用户查询”和真实人类说话的副语言信息可能差了十万八千里，这导致整个基准测试的生态位有点尴尬——它测的是模型对“合成指令”的服从度，而非对“真实人类语音”的理解力。

🔗 开源详情

代码：论文提供了项目主页（speechparaling-bench.github.io）和GitHub链接，预计包含数据构建与评估代码。
模型权重：未提及（本文为基准测试，不发布新模型）。
数据集：评测数据集（1001个中英平行样本）将通过项目页面发布。
Demo：未提及。
复现材料：提供了完整的数据合成提示词（附录B.1）、评估提示词模板（附录B.2）、输出JSON Schema（附录C）以及详细的流水线描述（图3），复现指南清晰。
论文中引用的开源项目：依赖Gemini 2.5 Flash、Gemini 3 Pro（商业API）；IndexTTS2（开源TTS模型）。

📌 核心摘要

问题：现有大型音频语言模型在副语言（如情绪、语气、音色）生成与理解能力上的评估存在特征覆盖不全、评估方法主观且不可扩展的问题。
方法：提出了SpeechParaling-Bench，一个包含1000余个中英平行语音查询、覆盖超过100个细粒度副语言特征的综合基准。基准设计了三个递进任务：静态副语言控制、句内动态变化、情境自适应。同时，设计了一套基于LALM（Gemini 3 Pro）的自动化成对比较评估流水线，将绝对打分转化为相对偏好判断。
创新：相比现有基准，特征覆盖范围扩大一倍以上；任务设计从静态延伸到动态和情境；评估方法引入成对比较和加权计分，提升了稳定性和可扩展性。
结果：对5个主流语音大模型（Doubao, GPT Audio, Gemini Audio, Qwen3-Omni系列）的测试显示：即使是领先模型在全面静态控制上仍具挑战；动态变化是普遍瓶颈（平均分仅56.51）；在情境任务中，43.3%的失败源于对用户语音中副语言线索的忽视。
意义：为语音大模型的副语言能力提供了统一的、可扩展的评测标尺，明确了当前模型的短板（动态调节、上下文理解），为下一代更自然、共情的语音助手研发指明了方向。
局限性：评测数据主要由TTS合成，可能无法完全反映真实世界复杂的人类语音交互；评估流水线依赖特定的商业模型，其评判标准可能存在偏差。

14 ATIR: Towards Audio-Text Interleaved Contextual Retrieval

👥 作者与机构

第一作者：Tong Zhao（中国人民大学高瓴人工智能学院）
通讯作者：Zhicheng Dou（中国人民大学高瓴人工智能学院）
作者列表：
- Tong Zhao（中国人民大学高瓴人工智能学院）
- Chenghao Zhang（中国人民大学高瓴人工智能学院）
- Yutao Zhu（中国人民大学高瓴人工智能学院）
- Zhicheng Dou（中国人民大学高瓴人工智能学院）

💡 毒舌点评

这篇论文为“音频-文本交错检索”这一新兴场景建立了首个标准化基准和评估框架，这种“开山立派”的工作本身具有重要价值。然而，其提出的模型（ATIR-Qwen-3B）本质上是现有强大MLLM（Qwen2.5-Omni）的一个检索适配版本，核心创新（ATIR Selector）更像是一个工程优化模块，理论深度有限。实验虽然充分，但所有基线在交错检索任务上表现都很差，这固然凸显了新任务的难度，但也使得“显著提升”的结论说服力打了一点折扣。

🔗 开源详情

代码：论文中提及“GitHub Issue”，但未提供具体的代码仓库链接。是否开源及代码状态未说明。
模型权重：论文提到训练了ATIR-Qwen-3B模型，但未提及是否公开模型权重。
数据集：论文构建了ATIR基准，但未说明是否公开数据集及获取方式。
Demo：论文中未提及在线演示。
复现材料：附录B提供了极其详细的实现细节，包括模型架构、LoRA配置、训练超参数（学习率、优化器、轮数）、硬件环境（8xA100）和训练时长（约24小时），复现信息充分。
论文中引用的开源项目：依赖Qwen2.5-Omni-3B、Qwen3-0.6B作为骨干和选择器基础；使用LoRA进行参数高效微调；使用DeepSpeed进行分布式训练。

📌 核心摘要

这篇论文旨在解决现有音频-文本检索方法无法处理查询和文档中音频与文本交错出现（如多轮对话、混合输入）的局限性。为此，作者定义了音频-文本交错上下文检索（ATIR）任务，并构建了一个包含约8.8万对样本的大规模基准。为解决直接应用多模态大语言模型（MLLM）时音频token冗余导致的效率和精度问题，论文提出了一种基于MLLM的检索框架，其核心是引入一个轻量级的ATIR Selector模块，用于自适应地筛选关键音频token。此外，采用了两阶段训练策略（先激活嵌入能力，再激发交错模态能力）。实验表明，所提出的ATIR-Qwen-3B模型在各项指标上显著优于文本模态、跨模态和融合模态的基线模型（例如，在交错检索任务上，Recall@1比最强基线高出约10%）。该工作为复杂的多模态信息检索场景提供了新的研究方向和基准，但其局限在于仅关注单文档检索，且评估任务集中于问答领域。

15 Before the Mic: Physical-Layer Voiceprint Anonymization with Acoustic Metamaterials

👥 作者与机构

第一作者：Zhiyuan Ning（西北大学）
通讯作者：未说明
作者列表：
- Zhiyuan Ning（西北大学）
- Zhanyong Tang（西北大学）
- Xiaojiang Chen（西北大学）
- Zheng Wang（利兹大学）

💡 毒舌点评

亮点在于开创性地将声学超材料引入声纹保护领域，提供了一种无需信任设备、无需耗能的物理层解决方案，思路非常新颖且实验验证扎实。短板是当前的刚性外壳形态可能影响美观和佩戴舒适度，且其核心依赖于特定频率的声学干扰，未来若出现能精准分离声纹特征与语音内容的新型攻击，其鲁棒性可能面临挑战。

🔗 开源详情

代码：论文中提及了“GitHub Issue”，但未提供明确的代码仓库链接。无法确认是否开源。
模型权重：不适用。
数据集：未提及公开数据集。
Demo：未提及在线演示。
复现材料：论文提供了关键的设计参数和仿真示意图，但未提供可直接用于制造的完整工程文件（如CAD模型、打印参数）或复现脚本。
论文中引用的开源项目：提到了使用COMSOL Multiphysics进行仿真，以及Google Speech-to-Text进行评估，但这些是商业工具或服务，并非论文贡献的开源项目。
论文中未提及明确的开源计划。

📌 核心摘要

这篇论文针对在公共场景（如会议、演讲）中，不可信录音设备可能导致声纹泄露且事后无法补救的问题，提出了EchoMask——首个基于声学超材料的物理层实时声纹匿名化系统。其核心方法是在声音到达麦克风前，通过精心设计的被动声学结构对特定低频段（300-700Hz）进行选择性干扰，该频段对说话人识别至关重要但对语音可懂度影响较小。与已有软件和硬件方法相比，EchoMask的新颖之处在于其工作在物理层，不依赖可信的麦克风硬件、固件或软件，且无需外部供电。实验结果表明，在8种麦克风和5种说话人识别系统上，EchoMask能将失配率（MMR）提升至90%以上，同时保持高语音可懂度（词准确率>95%）和高感知质量（MOS>4）。该工作的实际意义在于为不可信环境下的声纹隐私提供了一种低成本、易部署的物理屏障。主要局限性在于系统当前为刚性3D打印结构，可能影响美观和舒适度，且其干扰频带固定，缺乏动态调谐能力以应对未来更复杂的自适应攻击。

16 MOMO: A framework for seamless physical, verbal, and graphical robot skill learning and adaptation

👥 作者与机构

第一作者：Markus Knauer（德国航空航天中心，机器人与机电一体化研究所；慕尼黑工业大学，计算、信息与技术学院）
通讯作者：未明确说明
作者列表：
- Markus Knauer（德国航空航天中心；慕尼黑工业大学）
- Edoardo Fiorini（德国航空航天中心）
- Maximilian Mühlbauer（德国航空航天中心；慕尼黑工业大学）
- Stefan Schneyer（德国航空航天中心；慕尼黑工业大学）
- Promwat Angsuratanawech（德国航空航天中心；慕尼黑工业大学）
- Florian Samuel Lay（德国航空航天中心）
- Timo Bachmann（德国航空航天中心）
- Samuel Bustamante（德国航空航天中心；慕尼黑工业大学）
- Korbinian Nottensteiner（德国航空航天中心）
- Freek Stulp（德国航空航天中心）
- Alin Albu-Schäffer（德国航空航天中心；慕尼黑工业大学）
- João Silvério（德国航空航天中心）
- Thomas Eiband（德国航空航天中心）

💡 毒舌点评

亮点：该框架的核心价值在于“无缝”和“统一”，通过将物理、语言、图形三种模态的输入最终都转化为对KMP模型的途径点操作，实现了一致的底层适应机制，这种工程上的优雅设计比单纯提出一个新算法更贴近实际部署需求。
短板：论文自称“验证了实际应用性”，但全文几乎只有定性描述和展会观察，缺乏关键的定量数据（如任务完成时间缩短百分比、用户偏好统计、与传统示教方法的效率对比），使得“有效性”停留在主观感受层面，说服力打折扣。

🔗 开源详情

代码：是。论文明确提供了两个开源仓库：
1. IROSA（工具型LLM架构）：https://github.com/DLR-RM/IROSA （MIT许可）
2. KMP/TP-KMP（运动基元）：https://github.com/DLR-RM/interactive-incremental-learning （MIT许可）
模型权重：未提及。
数据集：未提及公开数据集。
Demo：未提及在线演示。但论文描述了在Automatica 2025展会的实体演示。
复现材料：提供了详细的软件架构说明（S-I-A）、配置参数表（S-I-H）、工具函数定义（S-I-B）、以及可运行的示例脚本（包含在IROSA仓库中）。
论文中引用的开源项目：
1. Links and Nodes (LN)：开源实时中间件，用于组件通信。
2. vLLM：用于本地部署LLM。
3. OpenAI Whisper：用于语音转文本。
4. Vue.js, Three.js, Pinia：用于构建Web前端。
5. urdf-loader：用于加载机器人模型进行3D可视化。

📌 核心摘要

问题：工业机器人需要频繁适应新任务和环境，但现有技能调整方法（如手动重编程）对非专家用户不友好，且单一交互模态无法高效处理所有类型的调整需求。
方法核心：提出MOMO框架，集成三种互补交互模态：动觉接触（用于精确空间修正）、自然语言（用于高层语义修改）和图形界面（用于参数可视化与拖放编辑）。其核心是让所有模态的适应操作最终都汇聚到对核化运动基元（KMP）模型的途径点（via-point）插入或修改上。
创新：a) 设计了多模态统一框架，允许用户根据任务和个人偏好自由选择或切换交互方式；b) 采用工具型LLM架构（IROSA），让大模型选择并参数化预定义函数而非生成代码，确保了安全性与可控性；c) 证明了该LLM架构可泛化应用于不同技能表示（从KMP到遍历控制）。
实验结果：论文未提供具体的定量性能指标（如任务成功率、适应时间等）。主要结果是通过在Automatica 2025展会的现场演示，定性观察到用户能自然地在不同模态间切换以完成轴承环插入和表面抛光等任务，并验证了系统的实际运行可行性。
实际意义：为工业场景下的机器人技能快速适应提供了一套可行的多模态交互解决方案，有望降低编程门槛，提高生产线的灵活性和部署效率。
主要局限性：缺乏严格的定量评估和与现有方法的对比实验；自然语言适应受限于预定义工具集，无法处理完全开放式的指令；物理交互模态依赖力矩传感硬件；虚拟夹具虽能辅助示教，但无法保证示教质量。

17 CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation

👥 作者与机构

第一作者：Xiangyang Luo（清华大学，†阿里巴巴集团实习期间完成）
通讯作者：Xiaozhe Xin（阿里巴巴集团）
作者列表：
- Xiangyang Luo（清华大学，†阿里巴巴集团）
- Xiaozhe Xin（阿里巴巴集团，‡通讯作者）
- Tao Feng（阿里巴巴集团）
- Xu Guo（阿里巴巴集团）
- Meiguang Jin（阿里巴巴集团）
- Junfeng Ma（阿里巴巴集团）

💡 毒舌点评

亮点在于其“训练时注入物理约束，推理时零开销”的双流范式设计非常巧妙，有效平衡了生成质量与效率；但短板是论文对所用数据集的具体构成、清洗标准和规模描述模糊（仅称“12K high-quality clips”），且未公开数据集，这严重限制了工作的可复现性和公平比较的基础。

🔗 开源详情

代码：论文中提及了GitHub项目页面链接（https://xinxiaozhe12345.github.io/CoInteract_Project/），表明有开源计划，但未明确说明代码是否已公开及仓库地址。
模型权重：论文中未提及是否公开预训练或微调后的模型权重。
数据集：论文中描述了自建数据集的规模和内容，但明确未提及是否公开或如何获取。
Demo：论文中未提及是否提供在线演示。
复现材料：论文提供了部分训练细节（如优化器、学习率、迭代次数、损失权重）和推理设置，但缺少关键信息如batch size、总训练时长、GPU配置、完整的超参数列表。
论文中引用的开源项目：引用了Qwen-Edit（用于数据解耦）、SAM3和SAM3D-body（用于生成几何监督）、MediaPipe和DWPose（用于手脸检测）、WanS2V（作为初始化基础）、以及多种基线模型。
开源计划：论文中未明确提及具体的开源时间表或承诺。

📌 核心摘要

问题：现有视频扩散模型在生成人机交互（HOI）视频时，常出现手/脸结构崩溃和人机物理穿透等问题，根源在于模型缺乏对3D空间关系和交互结构的理解。
方法核心：提出CoInteract框架，核心是“空间结构化协同生成”范式。在一个共享的DiT骨干中联合训练RGB外观流和辅助的HOI结构流（去除纹理的轮廓图），后者通过非对称注意力机制向RGB流注入几何约束。同时，引入“人感知混合专家”模块，通过空间监督路由将手/脸区域的token分配给专用专家处理。
新意：首次将物理交互先验直接嵌入视频生成骨干网络的训练过程，并通过非对称掩码设计确保推理时无需辅助分支，实现了零额外开销。相比依赖外部预处理或后处理的方法，这是一种更端到端的解决方案。
结果：在多个指标上显著超越现有方法。例如，在VLM-QA（HOI合理性）上达到0.72（最佳），HQ（手部质量）达到0.724（最佳），用户研究在交互合理性上排名第一（平均排名1.79）。消融实验证明每个组件都有效。
意义：推动了高质量、物理一致的HOI视频合成技术发展，对电商直播、虚拟广告等应用有直接价值。
局限性：所用数据集未公开，具体规模和细节不足；模型在极端复杂或罕见交互上的泛化能力未充分验证；训练所需的计算资源（如GPU时长）未说明。

18 MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation

👥 作者与机构

第一作者：Szu-Chi Chen (国立台湾大学)
通讯作者：未说明
作者列表：
Szu-Chi Chen (国立台湾大学)
I-Ning Tsai (未明确说明，可能同为台湾大学)
Yi-Cheng Lin (未明确说明，可能同为台湾大学)
Sung-Feng Huang (未明确说明，可能同为台湾大学)
Hung-yi Lee (国立台湾大学) 注：机构信息明确为“National Taiwan University, Taipei, Taiwan”和“NVIDIA, Taiwan”，但论文正文中未明确每位作者对应的具体机构，仅在作者列表下方统一标注。根据惯例，第一作者和最后一位作者（Hung-yi Lee）通常属于第一单位（台湾大学），但其他作者归属需根据上下文推断或需查阅更详细信息。此处严格按文本呈现。

💡 毒舌点评

亮点：论文直击S2ST领域一个长期被忽视的痛点——非语言声音（如笑声、哭声）的跨语言传递，并给出了从数据合成到模型架构的完整解决方案，MoVE的动态路由器设计巧妙地解决了多情感建模的冲突问题。短板：研究目前仅覆盖了5种预设的情感/非语言类别，对于更细微、更混合的情感表达（如讽刺、惊讶、尴尬）的泛化能力未经验证，且整个方案严重依赖于一个特定的预训练AudioLLM（Kimi-Audio）。

🔗 开源详情

代码：论文中未提及代码仓库链接。
模型权重：未提及公开模型权重。
数据集：论文明确表示将发布其合成的1000小时英中富有表现力S2ST数据集（链接：https://47zzz.github.io/MoVE/）。
Demo：论文中提供了项目主页链接（同上），可能包含演示，但未在正文中明确描述。
复现材料：给出了关键超参数（学习率、LoRA秩等）和两阶段训练策略，但缺少完整的训练脚本、配置文件、检查点以及评估代码。
论文中引用的开源项目：提到了使用Kimi-Audio作为基础模型，Whisper-small用于WER过滤，IndexTTS2作为合成引擎，CREMA-D, MSP-IMPROV, IEMOCAP, JVNV等数据集构建提示池。
开源计划总结：论文承诺开源数据集，但未明确提及代码和模型的开源计划。

📌 核心摘要

这篇论文旨在解决语音到语音翻译（S2ST）系统普遍丢失源语音中非语言声音（如笑声、哭声）和情感信息的问题，这严重影响了跨语言交流的自然度和准确性。为此，作者提出了三项核心贡献：首先，设计了一个可扩展的自动化数据合成管道，用于生成大规模、高质量的英中富有表现力S2ST平行语料，克服了训练数据稀缺的瓶颈；其次，提出了MoVE（Mixture of Vocalization Experts）模型架构，它在预训练AudioLLM的基础上，引入了五个并行的、针对不同情感/非语言声音特化的LoRA专家模块，并通过一个动态软加权路由器进行融合，从而有效建模复杂且可能冲突的情感状态；最后，实验表明，该方法在英中S2ST任务上取得了当前最优的性能，在非语言声音匹配准确率上达到76%，远超现有系统（最多14%），并获得了最高的人类自然度和情感保真度评分。论文还揭示了一个重要发现：得益于预训练AudioLLM的强大先验知识，仅需30分钟的精选数据微调就能达到接近全量数据的性能。该工作为构建更自然、更富有表现力的跨语言语音交流系统提供了新的思路和基线。

19 Reducing the Offline-Streaming Gap for Unified ASR Transducer with Consistency Regularization

✅ 7.5/10 | 前25% | #语音识别 | #端到端 | #流式处理 #统一音频模型 | arxiv

👥 作者与机构

第一作者：Andrei Andrusenko (NVIDIA, Armenia)
通讯作者：未说明
作者列表：
- Andrei Andrusenko (NVIDIA, Armenia)
- Vladimir Bataev (NVIDIA, Armenia)
- Lilit Grigoryan (NVIDIA, Armenia)
- Nune Tadevosyan (NVIDIA, Armenia)
- Vitaly Lavrukhin (NVIDIA, Armenia)
- Boris Ginsburg (NVIDIA, USA)

💡 毒舌点评

亮点：MCR-RNNT正则化方法设计巧妙，通过强制离线和流式模式在RNNT联合网络输出层面保持一致，有效缓解了低延迟下的性能崩塌，且其实现的Triton内核保证了训练效率。短板：尽管在多个延迟点上取得了SOTA，但在极端低延迟（如0.16s）场景下，统一模型仍略逊于专门为流式优化的基线，表明“统一”与“极致性能”之间仍存在根本性张力。

🔗 开源详情

代码：论文中提到“Unified ASR framework and the English model checkpoint are open-sourced”，并提供了Hugging Face模型链接（https://huggingface.co/nvidia/parakeet-unified-en-0.6b），但当前arXiv版本未提供具体的代码仓库链接。
模型权重：已提供Hugging Face模型链接。
数据集：使用了公开的Granary数据集，但论文未说明如何获取或处理。
Demo：未提及。
复现材料：提供了详细的模型架构、训练策略、超参数设置（如学习率、采样范围等），复现信息较为充分。
引用的开源项目：NeMo框架、Triton编译器、PyTorch。

📌 核心摘要

问题：训练一个既能高精度离线转录又能低延迟流式识别的统一ASR模型极具挑战性，传统方法在低延迟下性能会急剧下降。
方法核心：提出一个统一的Transducer框架，结合分块注意力（含右上下文）和动态块卷积（DCConv）来适配两种模式。核心创新是引入了模式一致性正则化损失（MCR-RNNT），通过KL散度强制离线和流式模式在联合网络输出上保持一致。
新意：与之前仅从架构上适配（如分块注意力、因果卷积）或使用辅助CTC损失的方法不同，MCR-RNNT直接针对Transducer模型，在训练时显式地对齐两种模式的输出分布，且实现了高效的GPU计算。
主要结果：在L-size模型（128M参数）上，MCR-RNNT将0.32s延迟下的WER从基线的12.48%降至8.24%。在XL-size模型（600M参数）上，获得了5.76%的平均WER，优于多个强开源基线，在离线性能接近SOTA的同时，保持了良好的流式性能。
实际意义：提供了一个开源的统一ASR解决方案，能显著降低同时维护离线和流式系统的开发、训练和部署成本。
主要局限性：在极低延迟（如0.16s）下，统一模型的性能仍略低于专用流式模型，表明统一建模在追求极致低延迟时可能面临上限。

20 Tadabur: A Large-Scale Quran Audio Dataset

✅ 7.5/10 | 前25% | #语音识别 | #数据集 | #领域适应 #多语言 | arxiv

👥 作者与机构

第一作者：Faisal Alherran（未说明具体机构，仅标注地点为Riyadh, Saudi Arabia）
通讯作者：Faisal Alherran（alherranfaisal@gmail.com）
作者列表：
- Faisal Alherran（未说明具体机构）

💡 毒舌点评

亮点：数据集规模（1400+小时，600+诵读者）和多样性堪称古兰经语音领域的“ImageNet”，其自动化处理流水线（融合LLM、ASR、语义对齐）设计得相当完整且有效，为构建垂直领域大规模数据集提供了可借鉴的范本。短板：本质上是数据集工程论文，技术深度有限，核心流水线是现有技术的巧妙组合而非原创算法；对“古兰经”这一特殊领域的语音特性（如诵读规则tajwīd）如何影响模型性能的分析可以更深入。

🔗 开源详情

代码：论文中提到了GitHub和Hugging Face链接（Github | Huggingface | Tadabur Page），但未在提供的文本中给出具体URL。因此，推测有相关代码或数据页面，但详情未知。
模型权重：论文中未提及公开其微调的Whisper模型（Tadabur fine-tuned model）权重。只提及了评估时使用的开源模型权重（如Whisper-Quran）。
数据集：是，论文明确表示Tadabur数据集是开源的，并提供了获取途径（推测通过Hugging Face）。
Demo：未提及。
复现材料：论文提供了流水线各阶段的详细描述和评估结果，但未提供具体的训练超参数、配置文件或检查点，复现其微调ASR模型存在困难。
论文中引用的开源项目：
- WhisperX (用于对齐)
- SILMA AI Embedding Model (用于语义匹配)
- Efficient Audio Transformer (EAT) (用于去重)
- Whisper-Quran (用于评估和对比)
- 其他多个ASR模型（Whisper, MMS, Qwen3-ASR等）用于评估。
论文中未提及开源计划：论文未明确说明其数据处理流水线代码是否会开源。

📌 核心摘要

问题：现有的古兰经语音数据集在规模、诵读者多样性、音频质量和标注深度上存在严重不足，限制了古兰经ASR、诵读者识别等任务的研究进展。
方法核心：提出Tadabur数据集及其构建流水线。流水线核心是“古兰经经文对齐模块”（AAM），它结合WhisperX进行初步转录，再利用SILMA嵌入模型进行语义相似度匹配，将音频精确对齐到古兰经原文，并辅以LLM元数据提取、ASR内容过滤和音频去重。
新意：首次构建了超过1400小时、涵盖600多位不同诵读者的古兰经语音数据集，规模和多样性远超前人。同时，提出了一套完整的、可扩展的自动化数据处理与质量控制流水线。
主要结果：在AAM的评估中，使用SILMA嵌入和微调过的Whisper模型（Tadabur fine-tuned）达到了96.63%的平均对齐覆盖率。在下游ASR评估中，针对古兰经微调的Whisper-Quran模型（74M参数）取得了最佳的WER（8.7%）和CER（6.5%），显著优于更大的通用模型（如Cohere Transcribe的11.2% WER）。
实际意义：为古兰经语音研究提供了前所未有的高质量、大规模基准数据集，有助于推动该领域ASR模型的性能提升，并支持诵读风格、韵律等更深入的分析。
主要局限性：部分诵读者的音频覆盖不完整；自动生成的词级时间戳精度有待提高，因为对齐模型并非专为古兰经诵读设计。

21 FLiP: Towards understanding and interpreting multimodal multilingual sentence embeddings

👥 作者与机构

第一作者：Santosh Kesiraju (Speech@FIT, Brno University of Technology, Czechia)
通讯作者：未说明
作者列表：
- Santosh Kesiraju (Speech@FIT, Brno University of Technology, Czechia)
- Bolaji Yusuf (Speech@FIT, Brno University of Technology, Czechia)
- Šimon Sedláček (Speech@FIT, Brno University of Technology, Czechia)
- Oldřich Plchot (Speech@FIT, Brno University of Technology, Czechia)
- Petr Schwarz (Speech@FIT, Brno University of Technology, Czechia)

💡 毒舌点评

论文提出的FLiP模型在“从嵌入中恢复词汇内容”这个诊断任务上取得了扎实且显著的改进，证明了因子化和隐式正则化的有效性。然而，其核心价值在于作为一个诊断工具，而非解决一个直接的应用问题，因此其影响力和读者面相对受限，更像是一个为嵌入模型开发者提供的“内窥镜”。

🔗 开源详情

代码：论文提供了公开的代码仓库链接：https://github.com/BUTSpeechFIT/FLiP。
模型权重：论文中未提及是否公开预训练的FLiP模型权重。
数据集：论文使用了公开数据集（Common Voice, Europarl, Samanantar），但未提供处理后的版本或专用下载链接。
Demo：论文中未提及在线演示。
复现材料：论文详细说明了训练数据、超参数搜索范围、优化器设置、评估指标和基线实现，为复现提供了充分信息。
论文中引用的开源项目：论文依赖于SONAR、LaBSE、Gemini Embedding等预训练模型，以及SpLiCE作为基线。具体实现细节未在文中列出。

📌 核心摘要

这篇论文旨在解决对多语言、多模态句子嵌入（如SONAR, LaBSE）的可解释性问题。核心方法是提出一种称为因子化线性投影（FLiP）的模型，通过将嵌入向量线性投影到词汇表空间来提取关键词，以此作为理解嵌入内容的代理任务。与之前非因子化的线性探测方法（如LiP）和SpLiCE相比，FLiP在关键词提取准确率上显著优于前者，并在相同词汇表规模下远超后者（例如在Common Voice英语数据上，FLiP的span-aware accuracy约为61.45%，而SpLiCE仅为29.58%）。实验表明，FLiP能从嵌入中恢复超过75%的词汇概念，证明了语义在嵌入空间中是线性可分的。该方法的实际意义在于为研究者和工程师提供了一个无需依赖下游任务评估即可诊断嵌入模型特性（如模态对齐、语言偏向）的工具。主要局限性在于它本质上是一个诊断工具，其应用价值主要体现在模型分析和改进上，而非直接解决某个实际应用问题。

22 Text-To-Speech with Chain-of-Details: modeling temporal dynamics in speech generation

👥 作者与机构

第一作者：Jianbo Ma（论文工作完成于Dolby Laboratories；现任职于Canva Research）
通讯作者：未说明（论文中未明确标注通讯作者）
作者列表：
- Jianbo Ma（论文工作完成于Dolby Laboratories；现任职于Canva Research）
- Richard Cartwright（论文工作完成于Dolby Laboratories；现任职于Canva Research）

💡 毒舌点评

亮点：论文巧妙地将“粗到细”的生成思想从传统的语义-声学token维度，拓展到了时间分辨率维度，提出了一个逻辑自洽且实验有效的CoD框架，为TTS建模提供了新视角。短板：实验评估过于依赖WER这一客观指标，完全缺失了MOS等主观听感评价，而语音合成的终极标准是“好不好听”，这使得其“更自然”的结论说服力大打折扣。

🔗 开源详情

代码：论文提供了GitHub仓库链接（https://github.com/…，具体链接在论文HTML版本的“GitHub Issue”部分可见）。
模型权重：论文中未提及是否公开预训练模型权重。
数据集：使用的是公开数据集（LibriTTS, MLS），但论文未提供其处理后的具体版本或下载指引。
Demo：论文中未提及在线演示。
复现材料：提供了较详细的训练超参数、模型配置、数据处理描述，有利于复现。
论文中引用的开源项目：SoundChoice G2P (SpeechBrain), Wespeaker, DAC, Brouhaha, MaskGIT。

📌 核心摘要

问题：现有基于离散token的TTS模型，其“粗到细”的生成范式主要体现在从语义token到声学token的转换，而对语音固有的时间动态（temporal dynamics）缺乏显式建模。
方法核心：提出Chain-of-Details (CoD)框架，将语音生成分解为多个渐进的时间层级。每个层级对应不同的时间分辨率（token率），从最粗糙（低时间分辨率、捕获宏观结构）到最精细（高时间分辨率、添加细节）。所有层级共享一个统一的码本和一个双向Transformer解码器。
创新点：与已有方法相比，CoD首次将时间维度的粗到细建模显式引入TTS生成过程。它不依赖独立的音素时长预测器，而是让最低时间层级自然完成音素规划。同时，采用共享解码器的设计提升了参数效率。
实验结果：在LibriSpeech test-clean上，CoD-Base（263M参数）WER为3.09%，优于同等数据量下的KD-NARSIS（5.9%）和StyleTTS 2（4.0%）。在SeedTTS测试集上，CoD-Base（263M参数）WER为2.89%，与参数量近4倍的MaskGCT（1B，2.62%）性能相当。消融研究证实，增加时间层级数能显著降低WER。
实际意义：CoD框架以更少的参数实现了具有竞争力的合成质量，证明了显式时间动态建模的有效性，为构建更高效、更自然的TTS系统提供了新思路。
主要局限性：评估体系不完整，缺乏MOS等主观评价指标，无法全面评估语音自然度和韵律质量；未报告推理速度等效率指标；对更长时间层级（如4级）的效果未深入探索。

23 SAND: The Challenge on Speech Analysis for Neurodegenerative Disease Assessment

👥 作者与机构

第一作者：Giovanna Sannino（意大利国家研究委员会（CNR）高性能计算与网络研究所（ICAR））
通讯作者：Giovanna Sannino（giovanna.sannino@icar.cnr.it）
作者列表：
- Giovanna Sannino（意大利国家研究委员会（CNR）高性能计算与网络研究所（ICAR））
- Ivanoe De Falco（意大利国家研究委员会（CNR）高性能计算与网络研究所（ICAR））
- Nadia Brancati（意大利国家研究委员会（CNR）高性能计算与网络研究所（ICAR））
- Laura Verde（卡帕尼亚大学“Luigi Vanvitelli”数学与物理系）
- Maria Frucci（意大利国家研究委员会（CNR）高性能计算与网络研究所（ICAR））
- Daniel Riccio（那不勒斯大学“Federico II”电气工程与信息技术系）
- Vincenzo Bevilacqua（意大利国家研究委员会（CNR）高性能计算与网络研究所（ICAR））
- Antonio Di Marino（意大利国家研究委员会（CNR）高性能计算与网络研究所（ICAR））
- Lucia Aruta（那不勒斯大学“Federico II”神经科学、生殖科学与口腔学系）
- Valentina Virginia Iuzzolino（那不勒斯大学“Federico II”高级生物医学科学系）
- Gianmaria Senerchia（那不勒斯大学“Federico II”神经科学、生殖科学与口腔学系）
- Myriam Spisto（卡帕尼亚大学“Luigi Vanvitelli”心理学系）
- Raffaele Dubbioso（那不勒斯大学“Federico II”神经科学、生殖科学与口腔学系）

💡 毒舌点评

亮点：成功组织了一场大规模、多学科协作的国际挑战赛，并构建了一个具有临床标注、包含纵向数据的宝贵公开数据集，为语音生物标志物研究提供了急需的基准。短板：作为一篇挑战赛报告，其核心价值在于“平台搭建”而非“技术突破”，论文本身未提出新的算法或深入的理论分析，对参赛方法的讨论也停留在描述层面。

🔗 开源详情

代码：论文中未提及组织方提供的代码仓库链接。参赛团队的代码需参考其单独发表的方法论文。
模型权重：未提及组织方提供预训练模型权重。
数据集：公开。论文明确指出数据集已发布，并提供了获取途径（通过挑战赛网站）。
Demo：未提及。
复现材料：提供了基线模型（ViT， PART）的性能结果，但未提供其训练代码、配置或检查点。
论文中引用的开源项目：提到了Vox4Health应用、Whisper-Turbo、AST、WavLM、OpenSMILE、GeMAPS、Sylber工具等。

📌 核心摘要

解决的问题：针对神经退行性疾病（特别是肌萎缩侧索硬化症ALS）的早期诊断和监测，缺乏大规模、有临床标注的语音数据集，以及标准化的算法评估框架。
方法核心：构建并发布了名为SAND的挑战赛，其核心是提供一个扩展的、包含纵向数据的ALS患者与健康对照语音数据集（VOC-ALS扩展版），并设计了两个任务：多类严重程度分类（任务1）和疾病进展预测（任务2）。
新在哪里：相比已有工作，该数据集规模更大（339名受试者，2712条语音信号），包含纵向随访数据，并由神经科医生进行盲注标签。挑战赛设计了严格的盲测评估流程，并提供了不平衡数据集下的评估指标（平均F1分数）。
主要实验结果：挑战赛吸引了全球176支队伍参与。任务1（5类分类）的最佳平均F1分数为0.6079（TUKE队）；任务2（4类进展预测）的最佳平均F1分数为0.5794（ISDS队）。顶尖团队普遍采用预训练模型（如Whisper， WavLM）、时频谱图表示和多实例学习等技术。
实际意义：为利用AI分析语音信号以辅助ALS诊断和监测提供了公开的基准数据集和评估平台，有望加速该领域算法的发展和临床转化。
主要局限性：数据集规模相对于通用语音任务仍然较小，且仅限于意大利语说话者。挑战赛的顶尖结果（F1~0.6）表明，该问题依然非常具有挑战性，远未达到可直接临床应用的水平。

24 Explicit Dropout: Deterministic Regularization for Transformer Architectures

✅ 7.0/10 | 前25% | #音频分类 | #正则化 | #多任务学习 #Transformer | arxiv

👥 作者与机构

第一作者：未说明
通讯作者：未说明
作者列表：
- Vidhi Agrawal（未说明）
- Illia Oleksiienko（未说明）
- Alexandros Iosifidis（未说明）

💡 毒舌点评

亮点在于其理论框架清晰，将“随机扰动”这一黑盒操作转化为可显式优化的损失项，为Transformer正则化提供了更精细的控制粒度。短板是摘要中未提供任何具体的性能提升数字，使得“匹配或超越传统方法”的结论略显空洞，缺乏直观的说服力。

🔗 开源详情

论文中未提及开源计划。具体如下：

代码：未提及代码仓库链接。
模型权重：未提及。
数据集：未提及。
Demo：未提及。
复现材料：未提及训练细节、配置、检查点或附录说明。
引用的开源项目：摘要中未提及。

📌 核心摘要

这篇论文旨在解决传统Dropout方法依赖随机掩码、正则化效果不透明且难以精确控制的问题。其核心方法是提出一种确定性公式，将Dropout重新表述为一个可直接加入训练损失函数的显式正则化项，并推导出了适用于Transformer架构中注意力机制（Q、K、V）和前馈网络的正则化表达式。与已有方法相比，新方法去除了随机性，提供了清晰、细粒度的正则化强度控制。实验在图像分类、时序动作检测和音频分类任务上进行，摘要声称该方法匹配或超越了传统隐式Dropout，尤其在注意力层和前馈层应用时效果稳定。该工作的实际意义是为Transformer训练提供了一种可解释、可控制的正则化替代方案。主要局限性在于摘要未提供具体的量化对比结果，且其在更大规模模型或更复杂任务上的普适性有待验证。

25 X-VC: Zero-shot Streaming Voice Conversion in Codec Space

✅ 6.5/10 | 前25% | #语音转换 | #流匹配 | #零样本 #流式处理 | arxiv

👥 作者与机构

第一作者：Qixi Zheng（上海交通大学）
通讯作者：Xie Chen（上海交通大学，上海创新研究院）
作者列表：
- Qixi Zheng（上海交通大学）
- Yuxiang Zhao（上海交通大学）
- Tianrui Wang（天津大学）
- Wenxi Chen（上海交通大学，上海创新研究院）
- Kele Xu（复杂与关键软件环境国家重点实验室）
- Yikang Li（上海创新研究院）
- Qinyuan Chen（复旦大学，上海创新研究院）
- Xipeng Qiu（复旦大学，上海创新研究院）
- Kai Yu（上海交通大学）
- Xie Chen（上海交通大学，上海创新研究院）

💡 毒舌点评

亮点：论文的工程实现非常扎实，将预训练编解码器、双条件Transformer和分块推理整合成一个高效的流式系统，在延迟（240ms）和离线效率（RTF 0.014）上达到了实用水平，且开源了代码和模型。短板：核心创新略显“缝合”，双条件建模和流匹配都是已有技术，论文的主要贡献在于针对特定任务的适配和系统集成，缺乏更根本性的原理突破；同时，与之对比的基线（如MeanVC）可能并非最新或最强，削弱了结论的说服力。

🔗 开源详情

代码：论文明确提供了GitHub仓库链接：https://github.com/Jerrister/X-VC。
模型权重：论文提到已发布检查点（checkpoints），但未提供具体下载链接，需前往GitHub仓库查看。
数据集：论文使用了Emilia和LibriTTS数据集，但未提及是否公开了处理后的训练数据集或生成的配对数据。评估使用公开的Seed-TTS-Eval基准。
Demo：论文中未提及在线演示。
复现材料：论文详细说明了模型配置、训练数据处理流程、训练策略（优化器、学习率、batch size等）、超参数设置，并提供了架构图，复现信息充分。
引用的开源项目：论文依赖并提及了预训练的SAC编解码器、ERes2Net说话人编码器、Whisper和Paraformer用于评估，以及Seed-VC用于生成训练数据。

📌 核心摘要

问题：零样本语音转换需要同时实现高质量的说话人特征迁移和低延迟的流式推理，这是一个尚未很好解决的挑战。
方法核心：提出X-VC系统，在预训练的SAC语音编解码器的潜在空间中进行一步转换。核心是一个双条件声学转换器，它联合处理源语音的编解码器潜在表示和目标参考语音的帧级梅尔频谱条件，并通过自适应归一化注入全局说话人嵌入。
创新点：与已有方法相比，新在：(1) 在编解码器潜在空间而非波形或频谱图空间进行转换；(2) 设计了双分支Transformer架构来异构地建模帧级和句级条件；(3) 提出了基于生成对数据和角色分配策略的训练方法；(4) 设计了与编解码器分段训练范式对齐的分块流式推理方案。
实验结果：在Seed-TTS-Eval基准上，流式设置下，X-VC在英语和中文测试集上取得了最佳的WER（英语3.14%，中文2.65%）和领先的说话人相似度（SIM）。离线设置下，其实时因子（RTF）仅为0.014，远低于基线模型（如Seed-VC tiny为0.069）。跨语言评估也表现良好。
实际意义：提供了一种实用的高质量低延迟零样本语音转换方案，适用于需要实时交互的配音、对话等场景。
主要局限性：模型总参数量较大（539M）；转换质量高度依赖预训练编解码器（SAC）的性能；论文未提供完整的训练数据集信息。

26 Enhancing Speaker Verification with Whispered Speech via Post-Processing

👥 作者与机构

第一作者：Magdalena Gołębiowska（波兰弗罗茨瓦夫科技大学人工智能系）
通讯作者：Piotr Syga（波兰弗罗茨瓦夫科技大学人工智能系）
作者列表：
- Magdalena Gołębiowska（波兰弗罗茨瓦夫科技大学人工智能系）
- Piotr Syga（波兰弗罗茨瓦夫科技大学人工智能系）

💡 毒舌点评

亮点：论文不仅提出了一种有效的后处理方法，还首次系统性地评估了多种当前SOTA说话人验证模型（包括ECAPA2、ReDimNet系列）在耳语语音上的性能，并分析了噪声对耳语语音验证的额外影响，提供了宝贵的实证数据。短板：核心方法（编码器-解码器微调）的创新性较为有限，且实验仅依赖一个规模不大的标准数据集（CHAINS），在更广泛、更真实的场景下的泛化能力存疑；此外，噪声实验部分虽然有趣，但并未将所提模型应用于噪声场景，结论的实践指导意义打了折扣。

🔗 开源详情

代码：论文提供了GitHub仓库链接：https://github.com/mgraves236/sv-whispred-speech。
模型权重：论文中未提及是否公开微调后的模型权重。
数据集：使用了公开的CHAINS数据集和MUSAN噪声库，但论文中未提供具体的数据下载或预处理脚本。
Demo：论文中未提及在线演示。
复现材料：论文详细说明了训练环境（单卡H100）、优化器（Adam）、学习率、批大小、训练轮数、解冻策略等关键超参数，为复现提供了良好基础。
引用的开源项目：论文依赖并引用了SpeechBrain工具包（用于x-vector和ECAPA-TDNN）、ECAPA2和ReDimNet的原始作者共享的预训练模型。

📌 核心摘要

问题：耳语语音因缺乏声带振动，其声学特征与正常语音差异显著，导致现有的说话人验证系统性能严重下降。这在用户为保护隐私而低语、或因疾病无法正常发声等实际场景中构成挑战。
方法核心：在预训练的说话人验证骨干网络（ReDimNet-B6）之上，添加一个轻量级的编码器-解码器结构，并引入基于余弦相似度的说话人分类头。通过联合优化三元组损失和余弦Softmax损失，微调整个网络，旨在将耳语语音的嵌入表示“转换”为更接近正常语音的表示，同时保持说话人身份信息。
创新点：与以往依赖特征工程或在旧架构上实验的工作不同，本文首次在现代深度嵌入系统（如ReDimNet, ECAPA-TDNN）上进行耳语语音适应性研究，并提出了一种新的后处理微调框架。该框架通过残差连接和瓶颈设计，专注于补偿发音方式的系统性差异。
主要实验结果：在CHAINS数据集的“正常vs耳语”试验中，所提模型将EER从基线ReDimNet-B6的6.77%降低至5.27%（相对提升22.26%），AUC达到98.16%。在“耳语vs耳语”试验中，EER为1.88%，相比之前的最佳模型ReDimNet-B2（2.20%）有15%的相对提升。论文还发现，同等相对强度的噪声对耳语语音说话人验证的性能损害通常比对正常语音更大。
实际意义：该方法提升了说话人验证系统在真实世界耳语场景下的可靠性和鲁棒性，对于需要安静或隐私保护的应用（如图书馆、夜间通话、医疗问诊）具有直接价值。同时，论文提供的基准对比为后续研究指明了方向。
主要局限性：实验仅在一个公开数据集（CHAINS）上进行，该数据集规模有限且录音环境理想，可能无法完全代表复杂多变的现实环境。方法需要对大型预训练模型进行微调，计算成本较高。此外，论文未探索在更嘈杂或更多样的耳语数据上的效果。

27 Centering Ecological Goals in Automated Identification of Individual Animals

👥 作者与机构

第一作者：Lukas Picek（University of West Bohemia in Pilsen, Czechia；Massachusetts Institute of Technology, USA）
通讯作者：论文中未明确说明通讯作者。通常可根据投稿信息或邮箱判断，但本文提供的文本中未明确标注。
作者列表：
- Lukas Picek（University of West Bohemia in Pilsen, Czechia；Massachusetts Institute of Technology, USA）
- Timm Haucke（未说明具体机构）
- Lukáš Adam（未说明具体机构）
- Ekaterina Nepovinnykh（LUT University, Lappeenranta, Finland）
- Lasha Otarashvili（Conservation X Labs, USA）
- Kostas Papafitsoros（Queen Mary University of London, UK）
- Tanya Berger-Wolf（未说明具体机构）
- Michael B. Brown（Giraffe Conservation Foundation, Windhoek, Namibia）
- Tilo Burghardt（University of Bristol, UK）
- Vojtech Cermak（Czech Technical University in Prague, Czechia）
- Daniela Hedwig（未说明具体机构）
- Justin Kitzes（Cornell Lab of Ornithology, Cornell University, USA）
- Sam Lapp（University of Pittsburgh, USA）
- Subhransu Maji（未说明具体机构）
- Daniel Rubenstein（未说明具体机构）
- Arjun Subramonian（未说明具体机构）
- Charles Stewart（未说明具体机构）
- Silvia Zuffi（CNR, Milan, Italy）
- Sara Beery（未说明具体机构）

💡 毒舌点评

亮点在于其犀利地指出了当前AI在生态学应用中的“皇帝新衣”——高准确率的实验室数据与野外部署的现实需求严重脱节，并提出了极具操作性的四个实践考量问题。短板则是一篇纯观点文章，缺乏原创算法和定量实验验证，其提出的框架虽好，但“如何具体实施”和“效果如何”仍需后续工作填充，说服力更多依赖于逻辑而非实证。

🔗 开源详情

代码：论文中提及了一个用于追踪论文问题的GitHub页面（链接：https://github.com/…），但这并非可复现算法或框架的代码仓库。论文中未提及与本文核心贡献（评估框架）相关的代码链接。
模型权重：未提及。
数据集：论文讨论了多个现有数据集（如CzechLynx），但未提供新的数据集。
Demo：未提及。
复现材料：未提供训练细节、配置、检查点等，因为本文未提出新模型。
论文中引用的开源项目：提到了HotSpotter, MiewID, WildFusion, MegaDescriptor等工具/模型，以及Wildbook, CzechLynx等平台/数据集。
论文中未提及开源计划（针对本文自身贡献）。

📌 核心摘要

这篇论文旨在解决一个关键问题：为什么近年来在动物个体自动识别（基于图像或声音）上报告的高准确率算法，却很少转化为生态学实践中的常规工具？其方法核心是提出一个“以生态目标为中心”的评估与部署框架，强调自动化识别的有用性取决于其服务的具体生态问题、可用数据以及错误类型带来的实际后果。与以往主要关注算法准确率的工作相比，本文的新在于系统性地分析了技术开发与生态应用之间的三大错配（目标、工作流、资源），并提出了四个必须在部署前回答的实践性问题（可行性、自动化角色、关键错误、可追溯性）。主要实验结果并非算法性能数字，而是通过两个案例研究（Grevy斑马的种群普查和欧亚猞猁的长期追踪）来阐释该框架的应用。实际意义在于为生态学家和AI研究者提供了一个共同的对话基础和实用的决策指南，以促进更有效、更可信的AI工具落地。主要局限性在于它是一篇框架性文章，未提供可直接复现的算法、模型或大规模对比实验，其有效性有待更多实际项目的检验。

语音/音频论文速递 2026-04-23#

⚡ 今日概览#

🏷️ 热门方向#

📊 论文评分排行榜（27 篇，按分数降序）#

📋 论文列表#

🥇 Indic-CodecFake meets SATYAM: Towards Detecting Neural Audio Codec Synthesized Speech Deepfakes in Indic Languages#

🥈 Qwen3.5-Omni Technical Report#

🥉 Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model#

4 Aligning Stuttered-Speech Research with End-User Needs: Scoping Review, Survey, and Guidelines#

5 ONOTE: Benchmarking Omnimodal Notation Processing for Expert-level Music Intelligence#

6 FastTurn: Unifying Acoustic and Streaming Semantic Cues for Low-Latency and Robust Turn Detection#

7 Environmental Sound Deepfake Detection Using Deep-Learning Framework#

8 Embedding-Based Intrusive Evaluation Metrics for Musical Source Separation Using MERT Representations#

9 Self-Noise Reduction for Capacitive Sensors via Photoelectric DC Servo: Application to Condenser Microphones#

10 Utterance-Level Methods for Identifying Reliable ASR-Output for Child Speech#

11 Enhancing ASR Performance in the Medical Domain for Dravidian Languages#

12 Deep Hierarchical Knowledge Loss for Fault Intensity Diagnosis#

13 SpeechParaling-Bench: A Comprehensive Benchmark for Paralinguistic-Aware Speech Generation#

14 ATIR: Towards Audio-Text Interleaved Contextual Retrieval#

15 Before the Mic: Physical-Layer Voiceprint Anonymization with Acoustic Metamaterials#

16 MOMO: A framework for seamless physical, verbal, and graphical robot skill learning and adaptation#

17 CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation#

18 MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation#

19 Reducing the Offline-Streaming Gap for Unified ASR Transducer with Consistency Regularization#

20 Tadabur: A Large-Scale Quran Audio Dataset#

21 FLiP: Towards understanding and interpreting multimodal multilingual sentence embeddings#

22 Text-To-Speech with Chain-of-Details: modeling temporal dynamics in speech generation#

23 SAND: The Challenge on Speech Analysis for Neurodegenerative Disease Assessment#

24 Explicit Dropout: Deterministic Regularization for Transformer Architectures#

25 X-VC: Zero-shot Streaming Voice Conversion in Codec Space#

26 Enhancing Speaker Verification with Whispered Speech via Post-Processing#

27 Centering Ecological Goals in Automated Identification of Individual Animals#

📎 相关论文

语音/音频论文速递 2026-04-23

⚡ 今日概览

🏷️ 热门方向

📊 论文评分排行榜（27 篇，按分数降序）

📋 论文列表

🥇 Indic-CodecFake meets SATYAM: Towards Detecting Neural Audio Codec Synthesized Speech Deepfakes in Indic Languages

🥈 Qwen3.5-Omni Technical Report

🥉 Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model

4 Aligning Stuttered-Speech Research with End-User Needs: Scoping Review, Survey, and Guidelines

5 ONOTE: Benchmarking Omnimodal Notation Processing for Expert-level Music Intelligence

6 FastTurn: Unifying Acoustic and Streaming Semantic Cues for Low-Latency and Robust Turn Detection

7 Environmental Sound Deepfake Detection Using Deep-Learning Framework

8 Embedding-Based Intrusive Evaluation Metrics for Musical Source Separation Using MERT Representations

9 Self-Noise Reduction for Capacitive Sensors via Photoelectric DC Servo: Application to Condenser Microphones

10 Utterance-Level Methods for Identifying Reliable ASR-Output for Child Speech

11 Enhancing ASR Performance in the Medical Domain for Dravidian Languages

12 Deep Hierarchical Knowledge Loss for Fault Intensity Diagnosis

13 SpeechParaling-Bench: A Comprehensive Benchmark for Paralinguistic-Aware Speech Generation

14 ATIR: Towards Audio-Text Interleaved Contextual Retrieval

15 Before the Mic: Physical-Layer Voiceprint Anonymization with Acoustic Metamaterials

16 MOMO: A framework for seamless physical, verbal, and graphical robot skill learning and adaptation

17 CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation

18 MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation

19 Reducing the Offline-Streaming Gap for Unified ASR Transducer with Consistency Regularization

20 Tadabur: A Large-Scale Quran Audio Dataset

21 FLiP: Towards understanding and interpreting multimodal multilingual sentence embeddings

22 Text-To-Speech with Chain-of-Details: modeling temporal dynamics in speech generation

23 SAND: The Challenge on Speech Analysis for Neurodegenerative Disease Assessment

24 Explicit Dropout: Deterministic Regularization for Transformer Architectures

25 X-VC: Zero-shot Streaming Voice Conversion in Codec Space

26 Enhancing Speaker Verification with Whispered Speech via Post-Processing

27 Centering Ecological Goals in Automated Identification of Individual Animals