Reducing the Offline-Streaming Gap for Unified ASR Transducer with Consistency Regularization

📄 Reducing the Offline-Streaming Gap for Unified ASR Transducer with Consistency Regularization #语音识别 #端到端 #流式处理 #统一音频模型 #模型评估 ✅ 7.5/10 | 前25% | #语音识别 | #端到端 | #流式处理 #统一音频模型 | arxiv 学术质量 7.5/7 | 选题价值 0.8/2 | 复现加成 0.2 | 置信度 高 👥 作者与机构 第一作者:Andrei Andrusenko (NVIDIA, Armenia) 通讯作者:未说明 作者列表: Andrei Andrusenko (NVIDIA, Armenia) Vladimir Bataev (NVIDIA, Armenia) Lilit Grigoryan (NVIDIA, Armenia) Nune Tadevosyan (NVIDIA, Armenia) Vitaly Lavrukhin (NVIDIA, Armenia) Boris Ginsburg (NVIDIA, USA) 💡 毒舌点评 亮点:MCR-RNNT正则化方法设计巧妙,通过强制离线和流式模式在RNNT联合网络输出层面保持一致,有效缓解了低延迟下的性能崩塌,且其实现的Triton内核保证了训练效率。短板:尽管在多个延迟点上取得了SOTA,但在极端低延迟(如0.16s)场景下,统一模型仍略逊于专门为流式优化的基线,表明“统一”与“极致性能”之间仍存在根本性张力。 ...

2026-04-23 · 更新于 2026-05-22 · 2 min · 231 words

SAND: The Challenge on Speech Analysis for Neurodegenerative Disease Assessment

📄 SAND: The Challenge on Speech Analysis for Neurodegenerative Disease Assessment #语音生物标志物 #基准测试 #数据集 #迁移学习 #自监督学习 ✅ 7.0/10 | 前50% | #语音生物标志物 | #基准测试 | #数据集 #迁移学习 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Giovanna Sannino(意大利国家研究委员会(CNR)高性能计算与网络研究所(ICAR)) 通讯作者:Giovanna Sannino(giovanna.sannino@icar.cnr.it) 作者列表: Giovanna Sannino(意大利国家研究委员会(CNR)高性能计算与网络研究所(ICAR)) Ivanoe De Falco(意大利国家研究委员会(CNR)高性能计算与网络研究所(ICAR)) Nadia Brancati(意大利国家研究委员会(CNR)高性能计算与网络研究所(ICAR)) Laura Verde(卡帕尼亚大学“Luigi Vanvitelli”数学与物理系) Maria Frucci(意大利国家研究委员会(CNR)高性能计算与网络研究所(ICAR)) Daniel Riccio(那不勒斯大学“Federico II”电气工程与信息技术系) Vincenzo Bevilacqua(意大利国家研究委员会(CNR)高性能计算与网络研究所(ICAR)) Antonio Di Marino(意大利国家研究委员会(CNR)高性能计算与网络研究所(ICAR)) Lucia Aruta(那不勒斯大学“Federico II”神经科学、生殖科学与口腔学系) Valentina Virginia Iuzzolino(那不勒斯大学“Federico II”高级生物医学科学系) Gianmaria Senerchia(那不勒斯大学“Federico II”神经科学、生殖科学与口腔学系) Myriam Spisto(卡帕尼亚大学“Luigi Vanvitelli”心理学系) Raffaele Dubbioso(那不勒斯大学“Federico II”神经科学、生殖科学与口腔学系) 💡 毒舌点评 亮点:成功组织了一场大规模、多学科协作的国际挑战赛,并构建了一个具有临床标注、包含纵向数据的宝贵公开数据集,为语音生物标志物研究提供了急需的基准。 短板:作为一篇挑战赛报告,其核心价值在于“平台搭建”而非“技术突破”,论文本身未提出新的算法或深入的理论分析,对参赛方法的讨论也停留在描述层面。 ...

2026-04-23 · 更新于 2026-05-22 · 1 min · 182 words

Self-Noise Reduction for Capacitive Sensors via Photoelectric DC Servo: Application to Condenser Microphones

📄 Self-Noise Reduction for Capacitive Sensors via Photoelectric DC Servo: Application to Condenser Microphones #麦克风阵列 #信号处理 #传感器 ✅ 7.5/10 | 前25% | #麦克风阵列 | #信号处理 | #传感器 | arxiv 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Hirotaka Obo(日本国立农业和食品研究组织(NARO)农村工程研究所;筑波大学) 通讯作者:未说明 作者列表: Hirotaka Obo(日本国立农业和食品研究组织(NARO)农村工程研究所;筑波大学) Atsushi Tsuchiya(筑波大学) Tadashi Ebihara(筑波大学) Naoto Wakatsuki(筑波大学) 💡 毒舌点评 亮点:论文巧妙地将光电效应与伺服控制结合,用一个“光控电流源”替代了传统偏置电阻,从根本上解耦了噪声滤波与信号高通滤波的频率约束,理论优雅且实验效果显著(11 dBA)。短板:核心创新点依赖一个定制的锌光阴极管,其长期稳定性、量产一致性和抗环境干扰能力(如温度、湿度)是走向实用化的巨大挑战,论文对此讨论不足,使得方案更像一个精巧的实验室演示而非成熟的设计方案。 🔗 开源详情 代码:论文中提到“Report GitHub Issue”,暗示存在一个GitHub仓库,但未在正文中直接提供仓库URL。具体代码内容(如是否包含电路仿真文件、控制代码)未说明。 模型权重:不适用。本文为硬件电路。 数据集:不适用。 Demo:未提及。 复现材料:论文提供了电路设计思路、关键元件型号(如JFE2140、S5973-01)和部分参数,但未提供完整的、可直接用于制造的电路图、PCB布局或详细组装指南。定制光电元件的制作工艺细节也未完全公开。 论文中引用的开源项目:未提及。 📌 核心摘要 问题:电容式传感器(如ECM麦克风)的自噪声主要源于前置放大器中用于建立直流偏置的门极电阻(Rm)的热噪声。该电阻同时决定了噪声的低通截止频率和信号的高通截止频率,形成了一个难以调和的噪声-带宽权衡。 方法核心:提出PDS-Amp(光电直流伺服放大器),用基于外部光电效应的定制光电元件(锌光阴极)替代Rm作为超高阻抗电流源,并通过一个包含滞后-超前补偿器的直流伺服回路,利用LED光照控制光电流,从而稳定门极偏置电压。 创新点:与传统方法相比,该方案将偏置电阻的多个功能(噪声源、直流路径、信号高通滤波器)分离。光电元件提供了极低噪声的高阻抗,而独立的伺服回路负责稳定偏置和设定信号高通截止频率,从而实现了两个截止频率的独立设计。 实验结果:使用12 pF假体麦克风测试,PDS-Amp实现了11 dBA的自噪声,远低于传统1 GΩ电阻偏置的估算值(~34 dBA)和文献测量值(23.1 dBA)。对实际ECM(C9767)的录音实验定性证实了背景噪声的显著降低。 实际意义:该技术无需增大振膜尺寸或使用高压极化,即可使廉价的小型ECM达到高端大振膜麦克风的噪声水平,为提升微型电容传感器的性能提供了一条新路径,且原理可推广至加速度计、压力传感器等。 主要局限性:定制光电元件的长期稳定性、一致性及可制造性未充分验证;伺服回路增加了电路复杂度、成本和封装难度;实验主要针对自噪声,未全面评估其在大信号、高声压级等其他工况下的表现。 🏗️ 模型架构 该论文提出的不是AI模型,而是一个模拟电路系统(PDS-Amp)。其整体架构包含两个主要部分: ...

2026-04-23 · 更新于 2026-05-22 · 2 min · 237 words

SpeechParaling-Bench: A Comprehensive Benchmark for Paralinguistic-Aware Speech Generation

📄 SpeechParaling-Bench: A Comprehensive Benchmark for Paralinguistic-Aware Speech Generation #基准测试 #语音大模型 #语音合成 #多语言 #模型评估 ✅ 7.5/10 | 前25% | #基准测试 | #模型评估 | #语音大模型 #语音合成 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Ruohan Liu (南京大学) 通讯作者:Chaoyou Fu (南京大学) 作者列表: Ruohan Liu (南京大学) Shukang Yin (南京大学) Tao Wang (南京大学) Dong Zhang (小米) Weiji Zhuang (小米) Shuhuai Ren (小米) Ran He (南京大学) Caifeng Shan (南京大学) Chaoyou Fu (南京大学) 💡 毒舌点评 亮点:这篇论文把“副语言生成评估”这个模糊地带彻底标准化了,从不到50个特征扩展到100多个,还设计了从静态控制到动态变化再到情境适应的递进式任务,评估流水线也用上了“成对比较”来对抗主观性,工程上相当完备。短板:数据全靠合成,用TTS生成的“用户查询”和真实人类说话的副语言信息可能差了十万八千里,这导致整个基准测试的生态位有点尴尬——它测的是模型对“合成指令”的服从度,而非对“真实人类语音”的理解力。 ...

2026-04-23 · 更新于 2026-05-22 · 1 min · 200 words

Tadabur: A Large-Scale Quran Audio Dataset

📄 Tadabur: A Large-Scale Quran Audio Dataset #语音识别 #数据集 #领域适应 #多语言 ✅ 7.5/10 | 前25% | #语音识别 | #数据集 | #领域适应 #多语言 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Faisal Alherran(未说明具体机构,仅标注地点为Riyadh, Saudi Arabia) 通讯作者:Faisal Alherran(alherranfaisal@gmail.com) 作者列表: Faisal Alherran(未说明具体机构) 💡 毒舌点评 亮点:数据集规模(1400+小时,600+诵读者)和多样性堪称古兰经语音领域的“ImageNet”,其自动化处理流水线(融合LLM、ASR、语义对齐)设计得相当完整且有效,为构建垂直领域大规模数据集提供了可借鉴的范本。 短板:本质上是数据集工程论文,技术深度有限,核心流水线是现有技术的巧妙组合而非原创算法;对“古兰经”这一特殊领域的语音特性(如诵读规则tajwīd)如何影响模型性能的分析可以更深入。 🔗 开源详情 代码:论文中提到了GitHub和Hugging Face链接(Github | Huggingface | Tadabur Page),但未在提供的文本中给出具体URL。因此,推测有相关代码或数据页面,但详情未知。 模型权重:论文中未提及公开其微调的Whisper模型(Tadabur fine-tuned model)权重。只提及了评估时使用的开源模型权重(如Whisper-Quran)。 数据集:是,论文明确表示Tadabur数据集是开源的,并提供了获取途径(推测通过Hugging Face)。 Demo:未提及。 复现材料:论文提供了流水线各阶段的详细描述和评估结果,但未提供具体的训练超参数、配置文件或检查点,复现其微调ASR模型存在困难。 论文中引用的开源项目: WhisperX (用于对齐) SILMA AI Embedding Model (用于语义匹配) Efficient Audio Transformer (EAT) (用于去重) Whisper-Quran (用于评估和对比) 其他多个ASR模型(Whisper, MMS, Qwen3-ASR等)用于评估。 论文中未提及开源计划:论文未明确说明其数据处理流水线代码是否会开源。 📌 核心摘要 问题:现有的古兰经语音数据集在规模、诵读者多样性、音频质量和标注深度上存在严重不足,限制了古兰经ASR、诵读者识别等任务的研究进展。 方法核心:提出Tadabur数据集及其构建流水线。流水线核心是“古兰经经文对齐模块”(AAM),它结合WhisperX进行初步转录,再利用SILMA嵌入模型进行语义相似度匹配,将音频精确对齐到古兰经原文,并辅以LLM元数据提取、ASR内容过滤和音频去重。 新意:首次构建了超过1400小时、涵盖600多位不同诵读者的古兰经语音数据集,规模和多样性远超前人。同时,提出了一套完整的、可扩展的自动化数据处理与质量控制流水线。 主要结果:在AAM的评估中,使用SILMA嵌入和微调过的Whisper模型(Tadabur fine-tuned)达到了96.63%的平均对齐覆盖率。在下游ASR评估中,针对古兰经微调的Whisper-Quran模型(74M参数)取得了最佳的WER(8.7%)和CER(6.5%),显著优于更大的通用模型(如Cohere Transcribe的11.2% WER)。 实际意义:为古兰经语音研究提供了前所未有的高质量、大规模基准数据集,有助于推动该领域ASR模型的性能提升,并支持诵读风格、韵律等更深入的分析。 主要局限性:部分诵读者的音频覆盖不完整;自动生成的词级时间戳精度有待提高,因为对齐模型并非专为古兰经诵读设计。 🏗️ 模型架构 本文的核心贡献是数据集构建流水线,而非一个单一的端到端模型。该流水线是一个多阶段的自动化系统,主要包含以下组件: ...

2026-04-23 · 更新于 2026-05-22 · 1 min · 191 words

Text-To-Speech with Chain-of-Details: modeling temporal dynamics in speech generation

📄 Text-To-Speech with Chain-of-Details: modeling temporal dynamics in speech generation #语音合成 #掩码生成建模 #自回归模型 ✅ 7.0/10 | 前25% | #语音合成 | #掩码生成建模 | #自回归模型 | arxiv 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 中 👥 作者与机构 第一作者:Jianbo Ma(论文工作完成于Dolby Laboratories;现任职于Canva Research) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表: Jianbo Ma(论文工作完成于Dolby Laboratories;现任职于Canva Research) Richard Cartwright(论文工作完成于Dolby Laboratories;现任职于Canva Research) 💡 毒舌点评 亮点:论文巧妙地将“粗到细”的生成思想从传统的语义-声学token维度,拓展到了时间分辨率维度,提出了一个逻辑自洽且实验有效的CoD框架,为TTS建模提供了新视角。短板:实验评估过于依赖WER这一客观指标,完全缺失了MOS等主观听感评价,而语音合成的终极标准是“好不好听”,这使得其“更自然”的结论说服力大打折扣。 🔗 开源详情 代码:论文提供了GitHub仓库链接(https://github.com/…,具体链接在论文HTML版本的“GitHub Issue”部分可见)。 模型权重:论文中未提及是否公开预训练模型权重。 数据集:使用的是公开数据集(LibriTTS, MLS),但论文未提供其处理后的具体版本或下载指引。 Demo:论文中未提及在线演示。 复现材料:提供了较详细的训练超参数、模型配置、数据处理描述,有利于复现。 论文中引用的开源项目:SoundChoice G2P (SpeechBrain), Wespeaker, DAC, Brouhaha, MaskGIT。 📌 核心摘要 问题:现有基于离散token的TTS模型,其“粗到细”的生成范式主要体现在从语义token到声学token的转换,而对语音固有的时间动态(temporal dynamics)缺乏显式建模。 方法核心:提出Chain-of-Details (CoD)框架,将语音生成分解为多个渐进的时间层级。每个层级对应不同的时间分辨率(token率),从最粗糙(低时间分辨率、捕获宏观结构)到最精细(高时间分辨率、添加细节)。所有层级共享一个统一的码本和一个双向Transformer解码器。 创新点:与已有方法相比,CoD首次将时间维度的粗到细建模显式引入TTS生成过程。它不依赖独立的音素时长预测器,而是让最低时间层级自然完成音素规划。同时,采用共享解码器的设计提升了参数效率。 实验结果:在LibriSpeech test-clean上,CoD-Base(263M参数)WER为3.09%,优于同等数据量下的KD-NARSIS(5.9%)和StyleTTS 2(4.0%)。在SeedTTS测试集上,CoD-Base(263M参数)WER为2.89%,与参数量近4倍的MaskGCT(1B,2.62%)性能相当。消融研究证实,增加时间层级数能显著降低WER。 实际意义:CoD框架以更少的参数实现了具有竞争力的合成质量,证明了显式时间动态建模的有效性,为构建更高效、更自然的TTS系统提供了新思路。 主要局限性:评估体系不完整,缺乏MOS等主观评价指标,无法全面评估语音自然度和韵律质量;未报告推理速度等效率指标;对更长时间层级(如4级)的效果未深入探索。 🏗️ 模型架构 CoD框架遵循一个两阶段流程:1)音频离散化,2)基于掩码的生成建模。核心创新在于第二阶段采用了级联的多时间层级结构。 ...

2026-04-23 · 更新于 2026-05-22 · 2 min · 266 words

Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model

📄 Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model #语音分离 #自回归模型 #流式处理 #实时处理 #语音大模型 🔥 8.5/10 | 前25% | #语音分离 | #自回归模型 | #流式处理 #实时处理 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Shuhai Peng (1) 通讯作者:Zhiyong Wu (1,†) 作者列表: Shuhai Peng (1) Hui Lu (2) Jinjiang Liu (1) Liyang Chen (1) Guiping Zhong (3) Jiakui Li (3) Huimeng Wang (2) Haiyun Li (1) Liang Cao (1) Shiyin Kang (3) Zhiyong Wu (1,†) 机构信息:论文中未明确给出机构1、2、3的具体名称。根据作者上标标注,作者分属三个不同机构。 💡 毒舌点评 这篇论文的亮点在于首次将自回归生成模型成功适配到流式目标说话人提取任务中,并通过“分块交错拼接”这一工程上优雅的设计解决了训练与推理的不匹配问题,实现了100%的推理稳定性,且性能在低延迟下超越了传统判别式模型。然而,其短板也十分明显:所有实验均在单一的Libri2Mix数据集上进行,对于更复杂、噪声更多样的真实场景(如远场、强混响)的泛化能力未得到验证,这使得其“超越离线基线”的结论显得有些封闭和乐观。 ...

2026-04-23 · 更新于 2026-05-22 · 2 min · 316 words

Utterance-Level Methods for Identifying Reliable ASR-Output for Child Speech

📄 Utterance-Level Methods for Identifying Reliable ASR-Output for Child Speech #语音识别 #模型评估 #儿童语音 #多语言 ✅ 7.5/10 | 前25% | #语音识别 | #模型评估 | #儿童语音 #多语言 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Gus Lathouwers (guslathouwers@gmail.com) 通讯作者:未说明(论文中未明确指定通讯作者,但提供了所有作者邮箱) 作者列表: Gus Lathouwers (Centre for Language Studies, Radboud University, Netherlands) Lingyun Gao (Centre for Language Studies, Radboud University, Netherlands) Catia Cucchiarini (Centre for Language Studies, Radboud University, Netherlands) Helmer Strik (Department of Language and Communication, Radboud University, Netherlands) 💡 毒舌点评 亮点在于方法设计非常务实,针对朗读和对话场景分别提出“与原文匹配”和“LLM分类”两种可解释性强的启发式规则,且“模型一致性过滤”策略能以较低的召回率换取极高的精确率(>97.4%),为自动筛选可靠转录提供了可靠工具。短板是开源精神不足,论文中提到的GitHub链接为无效占位符,且关键的对话文本分割流程(英文CSLU数据)依赖外部标点工具,细节未充分公开,严重影响了结果的可复现性。 ...

2026-04-23 · 更新于 2026-05-22 · 2 min · 223 words

X-VC: Zero-shot Streaming Voice Conversion in Codec Space

📄 X-VC: Zero-shot Streaming Voice Conversion in Codec Space #语音转换 #流匹配 #零样本 #流式处理 ✅ 6.5/10 | 前25% | #语音转换 | #流匹配 | #零样本 #流式处理 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Qixi Zheng(上海交通大学) 通讯作者:Xie Chen(上海交通大学,上海创新研究院) 作者列表: Qixi Zheng(上海交通大学) Yuxiang Zhao(上海交通大学) Tianrui Wang(天津大学) Wenxi Chen(上海交通大学,上海创新研究院) Kele Xu(复杂与关键软件环境国家重点实验室) Yikang Li(上海创新研究院) Qinyuan Chen(复旦大学,上海创新研究院) Xipeng Qiu(复旦大学,上海创新研究院) Kai Yu(上海交通大学) Xie Chen(上海交通大学,上海创新研究院) 💡 毒舌点评 亮点:论文的工程实现非常扎实,将预训练编解码器、双条件Transformer和分块推理整合成一个高效的流式系统,在延迟(240ms)和离线效率(RTF 0.014)上达到了实用水平,且开源了代码和模型。 短板:核心创新略显“缝合”,双条件建模和流匹配都是已有技术,论文的主要贡献在于针对特定任务的适配和系统集成,缺乏更根本性的原理突破;同时,与之对比的基线(如MeanVC)可能并非最新或最强,削弱了结论的说服力。 🔗 开源详情 代码:论文明确提供了GitHub仓库链接:https://github.com/Jerrister/X-VC。 模型权重:论文提到已发布检查点(checkpoints),但未提供具体下载链接,需前往GitHub仓库查看。 数据集:论文使用了Emilia和LibriTTS数据集,但未提及是否公开了处理后的训练数据集或生成的配对数据。评估使用公开的Seed-TTS-Eval基准。 Demo:论文中未提及在线演示。 复现材料:论文详细说明了模型配置、训练数据处理流程、训练策略(优化器、学习率、batch size等)、超参数设置,并提供了架构图,复现信息充分。 引用的开源项目:论文依赖并提及了预训练的SAC编解码器、ERes2Net说话人编码器、Whisper和Paraformer用于评估,以及Seed-VC用于生成训练数据。 📌 核心摘要 问题:零样本语音转换需要同时实现高质量的说话人特征迁移和低延迟的流式推理,这是一个尚未很好解决的挑战。 方法核心:提出X-VC系统,在预训练的SAC语音编解码器的潜在空间中进行一步转换。核心是一个双条件声学转换器,它联合处理源语音的编解码器潜在表示和目标参考语音的帧级梅尔频谱条件,并通过自适应归一化注入全局说话人嵌入。 创新点:与已有方法相比,新在:(1) 在编解码器潜在空间而非波形或频谱图空间进行转换;(2) 设计了双分支Transformer架构来异构地建模帧级和句级条件;(3) 提出了基于生成对数据和角色分配策略的训练方法;(4) 设计了与编解码器分段训练范式对齐的分块流式推理方案。 实验结果:在Seed-TTS-Eval基准上,流式设置下,X-VC在英语和中文测试集上取得了最佳的WER(英语3.14%,中文2.65%)和领先的说话人相似度(SIM)。离线设置下,其实时因子(RTF)仅为0.014,远低于基线模型(如Seed-VC tiny为0.069)。跨语言评估也表现良好。 实际意义:提供了一种实用的高质量低延迟零样本语音转换方案,适用于需要实时交互的配音、对话等场景。 主要局限性:模型总参数量较大(539M);转换质量高度依赖预训练编解码器(SAC)的性能;论文未提供完整的训练数据集信息。 🏗️ 模型架构 X-VC是一个端到端的语音转换系统,整体流程如图1所示: ...

2026-04-23 · 更新于 2026-05-22 · 2 min · 307 words

语音/音频论文速递 2026-04-23

语音/音频论文速递 2026-04-23 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 语音识别 5篇 █████ 基准测试 2篇 ██ 音频深度伪造检测 2篇 ██ 语音对话系统 2篇 ██ 音频分类 2篇 ██ 音乐信息检索 1篇 █ 语音合成 1篇 █ 麦克风阵列 1篇 █ 📊 论文评分排行榜(27 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Indic-CodecFake meets SATYAM: Towards Detecting Neural 8.5分 前25% #音频深度伪造检测 🥈 Qwen3.5-Omni Technical Report 8.5分 前25% #语音对话系统 🥉 Towards Streaming Target Speaker Extraction via Chunk-w 8.5分 前25% #语音分离 4 Aligning Stuttered-Speech Research with End-User Needs: 8.5分 前25% #语音识别 5 ONOTE: Benchmarking Omnimodal Notation Processing for E 8.0分 前25% #基准测试 6 FastTurn: Unifying Acoustic and Streaming Semantic Cues 8.0分 前25% #语音对话系统 7 Environmental Sound Deepfake Detection Using Deep-Learn 8.0分 前25% #音频深度伪造检测 8 Embedding-Based Intrusive Evaluation Metrics for Musica 7.5分 前25% #音乐信息检索 9 Self-Noise Reduction for Capacitive Sensors via Photoel 7.5分 前25% #麦克风阵列 10 Utterance-Level Methods for Identifying Reliable ASR-Ou 7.5分 前25% #语音识别 11 Enhancing ASR Performance in the Medical Domain for Dra 7.5分 前25% #语音识别 12 Deep Hierarchical Knowledge Loss for Fault Intensity Di 7.5分 前25% #音频分类 13 SpeechParaling-Bench: A Comprehensive Benchmark for Par 7.5分 前25% #基准测试 14 ATIR: Towards Audio-Text Interleaved Contextual Retriev 7.5分 前25% #音频检索 15 Before the Mic: Physical-Layer Voiceprint Anonymization 7.5分 前25% #语音匿名化 16 MOMO: A framework for seamless physical, verbal, and gr 7.5分 前25% #机器人控制 17 CoInteract: Physically-Consistent Human-Object Interact 7.5分 前25% #视频生成 18 MoVE: Translating Laughter and Tears via Mixture of Voc 7.5分 前25% #语音翻译 19 Reducing the Offline-Streaming Gap for Unified ASR Tran 7.5分 前25% #语音识别 20 Tadabur: A Large-Scale Quran Audio Dataset 7.5分 前25% #语音识别 21 FLiP: Towards understanding and interpreting multimodal 7.5分 前50% #模型评估 22 Text-To-Speech with Chain-of-Details: modeling temporal 7.0分 前25% #语音合成 23 SAND: The Challenge on Speech Analysis for Neurodegener 7.0分 前50% #语音生物标志物 24 Explicit Dropout: Deterministic Regularization for Tran 7.0分 前25% #音频分类 25 X-VC: Zero-shot Streaming Voice Conversion in Codec Spa 6.5分 前25% #语音转换 26 Enhancing Speaker Verification with Whispered Speech vi 6.5分 前50% #说话人验证 27 Centering Ecological Goals in Automated Identification 6.5分 前25% #生物声学 📋 论文列表 🥇 Indic-CodecFake meets SATYAM: Towards Detecting Neural Audio Codec Synthesized Speech Deepfakes in Indic Languages 🔥 8.5/10 | 前25% | #音频深度伪造检测 | #预训练 | #多语言 #语音大模型 | arxiv ...

2026-04-23 · 更新于 2026-05-22 · 13 min · 2679 words