Scaling Properties of Continuous Diffusion Spoken Language Models

📄 Scaling Properties of Continuous Diffusion Spoken Language Models #语音大模型 #预训练 #扩散模型 #多语言 🔥 8.0/10 | 前25% | #语音生成 | #扩散模型 | #语音大模型 #预训练 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Jason Ramapuram(†工作完成于Apple) 通讯作者:Jason Ramapuram (jason@ramapuram.net);Eeshan Gunesh Dhekane (eeshan@apple.com);Amitis Shidani (amitis_shidani@apple.com);Tatiana Likhomanenko (antares@apple.com) (论文未明确指定单一通讯作者,以上四位均列出) 作者列表: Jason Ramapuram† Eeshan Gunesh Dhekane* Amitis Shidani* Dan Busbridge Bogdan Mazoure† Zijin Gu Russ Webb Tatiana Likhomanenko⋆ Navdeep Jaitly†⋆ 所属机构:全部隶属于 Apple。⋆和†符号分别表示核心建议者和工作在Apple完成,但作者单位均标注为Apple。 💡 毒舌点评 本文严谨地证明了连续扩散语音模型同样遵循缩放定律,且在高计算预算下展现出比自回归模型更优的“效率前沿”,为语音生成范式之争提供了坚实的数据支撑。然而,最精妙的16B模型实验仍未能攻克长篇连贯性的终极难题,无情地揭示了当前范式与文本模型之间的能力鸿沟,可能预示着语音原生生成道路的艰辛。 ...

2026-04-28

DM-ASR: Diarization-aware Multi-speaker ASR with Large Language Models

📄 DM-ASR: Diarization-aware Multi-speaker ASR with Large Language Models #语音识别 #说话人日志 #大语言模型 #多语言 #结构化预测 🔥 8.0/10 | 前25% | #说话人识别 | #大语言模型 | #语音识别 #说话人日志 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Li Li(武汉大学人工智能学院) 通讯作者:Ming Li(香港中文大学(深圳)) 作者列表:Li Li(武汉大学人工智能学院),Ming Cheng(武汉大学计算机科学学院),Weixin Zhu(腾讯天籁音频实验室),Yannan Wang(腾讯天籁音频实验室),Juan Liu(武汉大学人工智能学院),Ming Li(香港中文大学(深圳),通讯作者) 💡 毒舌点评 亮点: 论文最大的贡献在于提出了一种务实的“半端到端”框架,在当前端到端大模型尚未完全称霸的阶段,巧妙地将“说话人日志”这一成熟技术的输出作为结构化提示(Prompt)注入大语言模型(LLM),实现了用更小的模型、更少的数据达到甚至超越超大模型的效果,这为实际落地提供了一条高性价比路径。 短板: 框架高度依赖外部说话人日志系统的质量。尽管论文通过标签扰动训练提升了一定的鲁棒性,但本质上仍是“管道式”思维的变体,未能完全摆脱对上游模块的依赖。当面临日志系统完全失效的场景时,其性能上限可能会受到制约。 📌 核心摘要 要解决什么问题: 传统多说话人ASR(联合说话人识别、时间定位和文本转录)在级联方案中存在误差传播问题,而纯端到端大模型方案则需要海量数据和算力,训练成本高昂。论文旨在寻找一种更高效、更精确的平衡方案。 方法核心: 提出DM-ASR框架,将多说话人转录重构为多轮对话生成任务。给定音频和来自外部日志系统的分段说话人及时间信息,模型以这些信息为结构化提示(包含说话人ID和时间戳的特殊token),分“轮次”转录每个说话人在对应时段的文本内容。此外,模型可选地进行词级时间戳预测。 与已有方法相比新在哪里: 不同于级联方案: 不将日志结果用于音频分割再送入单说话人ASR,而是保留完整多说话人音频上下文,让LLM直接处理混合语音。 不同于端到端Speech-LLM: 不依赖模型从零学习日志能力,而是显式地将日志作为结构化先验输入,大幅简化任务,使小模型也能获得高性能。 独特能力: 支持词级时间戳生成(如表1所示),这在同类Speech-LLM工作中较为少见。 主要实验结果: 在中英文基准测试上,DM-ASR用0.6B/1.7B参数的模型,性能(cpCER/tcpCER)显著优于多种强基线(包括级联方案和7B级Speech-LLM)。例如,在AliMeeting测试集上,1.7B的DM-ASR (S2SND) 取得了19.15% cpCER 和 19.45% tcpCER,优于VibeVoice-ASR (7B) 的29.33% cpCER。消融实验表明,词级时间戳、更长上下文、更多数据和更大模型均带来稳定提升。 实际意义: 证明了在资源受限(模型、数据)的条件下,将传统语音处理模块(日志系统)的输出作为大模型的结构化提示,是一种非常有效的多模态融合范式。为会议转录等应用提供了一套高性价比、高精度的解决方案。 主要局限性: 框架性能受限于前端日志系统的质量。虽然可通过训练修正不完美日志,但论文显示在完全不依赖日志提示(LLM预测全部)的设置下,性能仍有差距,说明模型本身独立完成全任务的能力有待加强。 🏗️ 模型架构 DM-ASR的整体框架如下图所示,由四个主要组件构成: ...

2026-04-27

语音/音频论文速递 2026-04-27

语音/音频论文速递 2026-04-27 共分析 13 篇论文 ⚡ 今日概览 📥 抓取 13 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音乐信息检索 2篇 ██ #语音识别 2篇 ██ #音频生成 1篇 █ #发音错误检测 1篇 █ #说话人识别 1篇 █ #音乐理解 1篇 █ #音频场景理解 1篇 █ #语音质量评估 1篇 █ 📊 论文评分排行榜(13 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 UniSonate: A Unified Model for Speech, Music, and Sound 8.5分 前25% #音频生成 🥈 Beyond Acoustic Sparsity and Linguistic Bias: A Prompt- 8.5分 前25% #发音错误检测 🥉 DM-ASR: Diarization-aware Multi-speaker ASR with Large 8.0分 前25% #说话人识别 4. Transformer-Based Rhythm Quantization of Performance MI 8.0分 前25% #音乐信息检索 5. Audio Effect Estimation with DNN-Based Prediction and S 8.0分 前25% #音乐理解 6. Listening with Time: Precise Temporal Awareness for Lon 8.0分 前25% #音频场景理解 7. TTS-PRISM: A Perceptual Reasoning and Interpretable Spe 7.5分 前25% #语音质量评估 8. Spectrographic Portamento Gradient Analysis: A Quantita 7.5分 前25% #音乐信息检索 9. Advancing automatic speech recognition using feature fu 7.0分 前25% #语音识别 10. Identifying and typifying demographic unfairness in pho 7.0分 前50% #语音识别 11. Full-Duplex Interaction in Spoken Dialogue Systems: A C 6.5分 前25% #语音对话系统 12. Audio Video Verbal Analysis (AVVA) for Capturing Classr 6.0分 前50% #音频问答 13. Earable Platform with Integrated Simultaneous EEG Sensi 5.5分 后50% #音频事件检测 📋 论文列表 🥇 UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions 🔥 8.5/10 | 前25% | #音频生成 | #流匹配 | #扩散模型 #统一音频模型 | arxiv ...

2026-04-27

"This Wasn't Made for Me": Recentering User Experience and Emotional Impact in the Evaluation of ASR Bias

📄 “This Wasn’t Made for Me”: Recentering User Experience and Emotional Impact in the Evaluation of ASR Bias #语音识别 #模型评估 #鲁棒性 #多语言 ✅ 7.0/10 | 前50% | #语音识别 | #模型评估 | #鲁棒性 #多语言 | arxiv 学术质量 5.0/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Siyu Liang(论文中未提及所属机构) 通讯作者:论文中未说明 作者列表:Siyu Liang(未说明)、Alicia Beckford Wassink(未说明) 💡 毒舌点评 本文最大的亮点是将ASR偏见研究从冰冷的错误率数字转向了活生生的人类体验,深刻揭示了技术失败带来的“隐形劳动”和心理伤害,视角极具人文关怀和社会价值。但其短板也显而易见:作为一篇“评估”论文,它完全依赖定性的用户研究,缺乏任何定量的、可复现的基准测试或模型对比实验,使得“评估”本身难以被标准化和扩展。 📌 核心摘要 要解决什么问题:现有自动语音识别(ASR)偏见研究主要关注对代表性不足方言的错误率报告,忽视了系统失败对用户实际生活体验、情感反应和心理负担的深层影响。 方法核心是什么:在美国四个代表不同英语方言社区的地点(亚特兰大、墨西哥湾沿岸、迈阿密海滩、图森)开展用户体验研究,通过开放式叙事进行定性分析。 与已有方法相比新在哪里:将评估维度从单纯的“准确性”扩展到“用户体验”和“情感影响”,首次系统性地量化了用户为使失败系统运作而付出的“隐形劳动”(如语码转换、过度发音、情绪管理)和内化的“不足感”。 主要实验结果如何:研究发现,大多数参与者认为技术未考虑其文化背景,需不断调整才能使用基本功能。尽管如此,他们仍对ASR性能抱有高期望并愿意贡献改进。定性分析揭示了深层代价:参与者报告了沮丧、恼怒和不足感,尽管意识到系统非为他们设计,却常将失败内化为个人缺陷。他们进行了大量隐形劳动,而其语言文化知识未被技术认可。论文未提供具体的错误率数字或定量对比表格。 实际意义是什么:证明了仅基于准确性的算法公平性评估是片面的,呼吁ASR评估必须纳入情感劳动、认知负担和心理伤害等关键维度,推动更全面、更以人为本的公平性研究。 主要局限性是什么:论文中未明确说明局限性。根据摘要推断,其局限可能包括:研究样本的代表性、定性分析的主观性、以及缺乏与具体ASR模型性能的直接定量关联。 🏗️ 模型架构 本文是一篇用户研究与定性分析论文,不涉及提出新的算法或模型架构。因此,本节不适用。论文中未提及任何模型架构图。 💡 核心创新点 评估视角的转换:从“系统性能”转向“用户生活体验”。之前方法局限于测量ASR对特定方言的词错误率(WER)等客观指标,本文创新性地将评估焦点放在系统失败如何塑造用户的“生活经验”和“情感反应”上。 量化“隐形劳动”与情感成本:识别并概念化了用户为适应有偏见的系统而付出的“隐形劳动”(如代码转换、超清晰发音、情绪管理),以及由此产生的“不足感”等心理代价。这是对“偏见危害”内涵的重要扩展。 挑战单一的公平性指标:通过实证研究论证,仅靠准确率(如WER)来评估ASR公平性会遗漏关键的危害维度,即情感劳动、认知负担和心理伤害,为构建更全面的公平性评估框架提供了依据。 🔬 细节详述 训练数据:论文中未说明。本文为用户研究,未涉及模型训练。 损失函数:论文中未提及。 训练策略:论文中未提及。 关键超参数:论文中未提及。 训练硬件:论文中未提及。 推理细节:论文中未提及。 正则化或稳定训练技巧:论文中未提及。 📊 实验结果 本文的核心“实验”是跨四个地点的用户研究。其“结果”以定性发现的形式呈现,论文摘要中未提供任何具体的定量数据、对比表格或图表。主要结论性发现已在“核心摘要”中总结。例如,论文指出参与者报告了“frustration, annoyance, and feelings of inadequacy”,并进行了“code-switching, hyper-articulation, and emotional management”,但未给出这些行为的发生频率或严重程度的量化数据。 ...

2026-04-24

Hierarchical Policy Optimization for Simultaneous Translation of Unbounded Speech

📄 Hierarchical Policy Optimization for Simultaneous Translation of Unbounded Speech #语音翻译 #强化学习 #大语言模型 #多语言 #流式处理 ✅ 7.5/10 | 前25% | #语音翻译 | #强化学习 | #大语言模型 #多语言 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:未说明 通讯作者:未说明 作者列表:Siqi Ouyang(未说明)、Shuoyang Ding(未说明)、Oleksii Hrinchuk(未说明)、Vitaly Lavrukhin(未说明)、Brian Yan(未说明)、Boris Ginsburg��未说明)、Lei Li(未说明) 💡 毒舌点评 这篇论文精准地抓住了LLM应用于同声传译时“数据质量差”和“计算开销大”这两个落地痛点,并用一套设计精巧的后训练策略(HPO)给出了有效的解决方案,实验结果也足够亮眼。不过,其核心创新更多是针对特定问题的优化框架组合,而非提出一种全新的模型架构或学习范式,对“如何生成高质量合成数据”这一上游问题本身并未深入探索。 📌 核心摘要 要解决什么问题:大语言模型(LLM)能显著提升同声传译(SST)质量,但计算开销巨大。现有通过将SST重构为多轮对话来复用KV缓存的方法,严重依赖高质量的监督微调(SFT)数据,而这类数据稀缺且合成方法难以保证质量。 方法核心是什么:提出分层策略优化(HPO)框架,用于后训练在不完美SFT数据上训练的模型。核心是引入一个分层奖励函数,同时优化翻译质量(使用COMET等指标)和延迟(如等待时间)这两个相互冲突的目标。 与已有方法相比新在哪里:不同于直接使用SFT或简单的强化学习微调,HPO通过分层奖励设计,更精细地平衡了质量与延迟。它不依赖完美的初始对话数据,而是通过后训练对现有模型进行优化,是一种更实用、鲁棒的训练范式。 主要实验结果如何:在英译中、德、日的任务上,HPO方法在1.5秒的平均延迟下,相比强基线取得了超过+7 COMET分数和+1.25 MetricX分数的显著提升。消融研究验证了不同质量奖励、分层奖励公式和分段策略的有效性。 实际意义是什么:该方法降低了部署高质量LLM-SST系统的门槛和成本,使得在资源受限或需要实时响应的场景下应用先进翻译模型成为可能,推动了SST技术的实用化。 主要局限性是什么:论文中未明确讨论。可能包括:对基础模型质量有一定依赖;分层奖励的设计需要针对具体任务进行调优;在极低延迟或极端语音条件下的表现有待进一步验证。 🏗️ 模型架构 论文的核心是训练框架而非全新的模型架构,它基于一个已有的、用于SST的LLM架构进行后训练优化。 图1展示了将同声传译(SST)任务重新表述为多轮对话的过程。源语音被分段输入,模型在生成翻译片段的同时,可以复用之前计算过的KV缓存,避免了重复计算,从而降低延迟和计算成本。这是本文工作的基础范式。 图2是本文提出的HPO框架的核心示意图。它显示了在基础SST模型之上,引入一个分层奖励(Hierarchical Reward) 机制。该奖励由两部分组成: ...

2026-04-24

Misinformation Span Detection in Videos via Audio Transcripts

📄 Misinformation Span Detection in Videos via Audio Transcripts #音频安全 #预训练 #多语言 #音视频 ✅ 7.5/10 | 前25% | #音频安全 | #预训练 | #多语言 #音视频 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Breno Matos (联邦米纳斯吉拉斯大学,工作完成时) 通讯作者:未说明 作者列表: Breno Matos (联邦米纳斯吉拉斯大学) Rennan C. Lima (未说明具体机构) Savvas Zannettou (未说明具体机构) Fabrício Benevenuto (未说明具体机构) Rodrygo L.T. Santos (未说明具体机构) 💡 毒舌点评 这篇论文的亮点在于敏锐地捕捉到了“视频虚假信息片段检测”这一空白任务,并提供了首个公开、标注的数据集,为后续研究铺平了道路。然而,其短板也十分明显:方法上缺乏实质创新,仅仅是现有语音转录模型(Whisper)和语言模型(BERTimbau/PTT5)的串联使用,更像是一个“数据集构建与初步验证”的工作,而非一个提出突破性算法的论文。 📌 核心摘要 问题:现有视频虚假信息检测多停留在视频级别的二分类,无法定位视频中具体哪一段内容(即虚假声明)是问题所在,这给事实核查和内容审核带来了困难。 方法核心:提出“虚假信息片段检测”任务。方法流程为:使用Whisper将视频音频转录为文本片段;利用BERTimbau模型将片段和已知的虚假声明转换为向量,通过余弦相似度匹配可能包含虚假信息的片段;最后,使用BERTimbau或PTT5作为分类器,对转录片段进行二分类(是否为虚假信息)。 创新点:首次定义并研究该任务;构建并公开了两个包含时间戳标注的葡萄牙语虚假视频数据集(BOL4Y和EI22);进行了包括时间窗口分析、跨数据集评估在内的系统性基准实验。 主要实验结果:在BOL4Y数据集上,使用BERTimbau分类器在1:75的下采样比例下取得了最佳的Macro F1分数0.68。在“编辑版”数据集(使用记者润色后的声明)上,性能有所提升,最佳F1达到0.81。跨数据集实验(BOL4Y训练,EI22测试)取得了0.71的F1分数,表明模型具有一定的泛化能力。时间分析显示,模型性能在不同月份间存在波动。 实际意义:为自动化辅助事实核查人员定位视频中的虚假内容、为社交平台在虚假声明出现时精准添加警告标签提供了技术可能和数据基础。 主要局限性:依赖于音频转录质量,Whisper的自动分段可能不够精确;数据仅限于葡萄牙语和巴西政治语境,泛化性未知;分类性能(F1=0.68)仍有较大提升空间。 🏗️ 模型架构 本文没有提出新的模型架构,而是构建了一个基于现有预训练模型的处理流水线。整体流程如下: ...

2026-04-24

Preferences of a Voice-First Nation: Large-Scale Pairwise Evaluation and Preference Analysis for TTS in Indian Languages

📄 Preferences of a Voice-First Nation: Large-Scale Pairwise Evaluation and Preference Analysis for TTS in Indian Languages #语音合成 #模型评估 #多语言 #基准测试 ✅ 7.5/10 | 前25% | #语音合成 | #模型评估 | #多语言 #基准测试 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Srija Anand(Indian Institute of Technology, Madras; AI4Bharat) 通讯作者:未说明 作者列表:Srija Anand(Indian Institute of Technology, Madras; AI4Bharat)、Ashwin Sankar(AI4Bharat)、Ishvinder Sethi(AI4Bharat)、Aaditya Pareek(AI4Bharat)、Kartik Rajput(AI4Bharat)、Gaurav Yadav(AI4Bharat)、Nikhil Narasimhan(AI4Bharat)、Adish Pandya(AI4Bharat)、Deepon Halder(AI4Bharat)、Mohammed Safi Ur Rahman Khan(AI4Bharat)、Praveen S(AI4Bharat)、Shobhit Banga(Josh Talks)、Mitesh M Khapra(Indian Institute of Technology, Madras; AI4Bharat) 💡 毒舌点评 这篇论文在印度语言TTS评估上做到了“大力出奇迹”,用海量数据和严谨框架构建了一个可靠的排行榜,其多维度感知分析(尤其是SHAP解释)是亮点。但短板在于,作为一篇评估论文,它未能深入探讨评估者间一致性(inter-rater agreement)这一核心可靠性指标,使得“1900+评估者”的数据权威性打了折扣。 ...

2026-04-24

Prosody as Supervision: Bridging the Non-Verbal--Verbal for Multilingual Speech Emotion Recognition

📄 Prosody as Supervision: Bridging the Non-Verbal–Verbal for Multilingual Speech Emotion Recognition #语音情感识别 #领域适应 #双曲神经网络 #自监督学习 #多语言 🔥 8.0/10 | 前25% | #语音情感识别 | #领域适应 | #双曲神经网络 #自监督学习 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Girish (UPES, India), Mohd Mujtaba Akhtar (Veer Bahadur Singh Purvanchal University, India) (论文注明两人贡献相等) 通讯作者:Muskaan Singh (Ulster University, UK) 作者列表:Girish (UPES, India)、Mohd Mujtaba Akhtar (Veer Bahadur Singh Purvanchal University, India)、Muskaan Singh (Ulster University, UK) 💡 毒舌点评 亮点:论文最巧妙之处在于将低资源多语言SER问题重新定义为“非语音到语音”的无监督域适应,这个视角跳出了传统“语音到语音”迁移的框架,为利用丰富但未被充分利用的非语音情感数据开辟了新路径。短板:整个框架(双曲几何、VQ、最优传输)的复杂性较高,虽然消融实验证明了各模块必要性,但这种“组合式创新”是否带来了根本性的理论突破,或者只是工程上的有效堆砌,值得进一步思考。 ...

2026-04-24

语音/音频论文速递 2026-04-24

语音/音频论文速递 2026-04-24 共分析 21 篇论文 ⚡ 今日概览 📥 抓取 21 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 3篇 ███ #语音合成 3篇 ███ #语音情感识别 2篇 ██ #音频生成 1篇 █ #音频安全 1篇 █ #语音翻译 1篇 █ #音乐理解 1篇 █ #语音生物标志物 1篇 █ 📊 论文评分排行榜(20 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Prosody as Supervision: Bridging the Non-Verbal–Verbal 8.0分 前25% #语音情感识别 🥈 Do LLM Decoders Listen Fairly? Benchmarking How Languag 7.5分 前25% #语音识别 🥉 MAGIC-TTS: Fine-Grained Controllable Speech Synthesis w 7.5分 前25% #语音合成 4. Materialistic RIR: Material Conditioned Realistic RIR G 7.5分 前25% #音频生成 5. Evaluation of Automatic Speech Recognition Using Genera 7.5分 前25% #语音识别 6. Misinformation Span Detection in Videos via Audio Trans 7.5分 前25% #音频安全 7. Preferences of a Voice-First Nation: Large-Scale Pairwi 7.5分 前25% #语音合成 8. Hierarchical Policy Optimization for Simultaneous Trans 7.5分 前25% #语音翻译 9. Beyond Rules: Towards Basso Continuo Personal Style Ide 7.0分 前50% #音乐理解 10. Time vs. Layer: Locating Predictive Cues for Dysarthric 7.0分 前25% #语音生物标志物 11. ATRIE: Adaptive Tuning for Robust Inference and Emotion 7.0分 前25% #语音合成 12. Video-Robin: Autoregressive Diffusion Planning for Inte 7.0分 前25% #音乐生成 13. “This Wasn’t Made for Me”: Recentering User Experience 7.0分 前50% #语音识别 14. Dilated CNNs for Periodic Signal Processing: A Low-Comp 6.5分 前50% #语音增强 15. DiariZen Explained: A Tutorial for the Open Source Stat 6.5分 前50% #说话人分离 16. Full-Duplex Interaction in Spoken Dialogue Systems: A C 6.5分 前25% #语音对话系统 17. Sema: Semantic Transport for Real-Time Multimodal Agent 6.5分 前50% #实时处理 18. AUDITA: A New Dataset to Audit Humans vs. AI Skill at A 6.5分 前50% #音频问答 19. MER 2026: From Discriminative Emotion Recognition to Ge 6.0分 前50% #语音情感识别 20. Low-Rank Adaptation Redux for Large Models 5.5分 前50% #大语言模型 21 Phonological Subspace Collapse Is Aetiology-Specific an N/A - - 📋 论文列表 🥇 Prosody as Supervision: Bridging the Non-Verbal–Verbal for Multilingual Speech Emotion Recognition 🔥 8.0/10 | 前25% | #语音情感识别 | #领域适应 | #双曲神经网络 #自监督学习 | arxiv ...

2026-04-24

Aligning Stuttered-Speech Research with End-User Needs: Scoping Review, Survey, and Guidelines

📄 Aligning Stuttered-Speech Research with End-User Needs: Scoping Review, Survey, and Guidelines #语音识别 #语音活动检测 #数据集 #模型评估 #多语言 🔥 8.5/10 | 前25% | #语音识别 | #模型评估 | #语音活动检测 #数据集 | arxiv 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Hawau Olamide Toyin(MBZUAI, UAE) 通讯作者:Hanan Aldarmaki(MBZUAI, UAE) 作者列表: Hawau Olamide Toyin(MBZUAI, UAE) Mutiah Apampa(SpeechCare, Portugal & UAE) Toluwani Aremu(SpeechCare, Portugal & UAE) Humaid Alblooshi(SpeechCare, Portugal & UAE) Ana Rita Valente(SLAI & CUHK (SZ), China) Gonçalo Leal(SLAI & CUHK (SZ), China) Zhengjun Yue(SLAI & CUHK (SZ), China) Zeerak Talat(University of Edinburgh, UK) Hanan Aldarmaki(MBZUAI, UAE) 💡 毒舌点评 亮点在于它系统性地揭示了口吃语音处理领域“研究自嗨”与“用户真实需求”之间的鸿沟,并提出了一个清晰的任务分类法来弥合术语混乱。短板是作为一篇“指南”类论文,它主要诊断问题,解决方案相对宏观,缺乏具体的技术路线图或可立即实施的算法改进方案。 ...

2026-04-23