A Lightweight Dual-Factor Acoustic Authentication System via Cascaded GMM-DTW Architecture for Edge Computing

📄 A Lightweight Dual-Factor Acoustic Authentication System via Cascaded GMM-DTW Architecture for Edge Computing #说话人验证 #声纹识别 #低资源 6/10 | 创新 1/2 | 严谨 1.5/1.5 | 实验 0.5/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6/10 | 前50% | #说话人验证 | #声纹识别 | #低资源 | arxiv 👥 作者与机构 Yutong Zhang (作者未提及所属机构) 💡 毒舌点评 这篇论文就像用乐高积木搭了一辆能跑的自行车。作者非常认真地介绍了每个积木块(GMM、DTW、MFCC)以及如何组装它们,并且证明了这辆“自行车”在自家后院(FSDD数据集)确实能以每秒不到10厘米的速度(9.82ms延迟)移动。然而,问题在于:第一,后院太小,只有5个小朋友(6个说话人取5个)在玩,得出的“性能卓越”结论说服力有限。第二,你并没有把积木图纸(代码)公开,也没提供新积木块的购买链接(模型权重)。第三,把两个经典方法(GMM和DTW)级联,并加入一个经验调参的双阈值约束(DLSC),这更像是一个工程实践或课程设计,而非一个能经得起顶会审稿人拷问的“科学贡献”。审稿人会追问:这和现有SOTA比如何?DLSC的Δ=6.0和γ=2.5是怎么来的?换组参数结果会崩吗?在真实嘈杂的咖啡馆或地铁站还能用吗?论文回避了这些关键问题。 📌 核心摘要 论文提出了一种面向边缘计算的轻量级双因子声学认证系统,采用级联GMM-DTW架构。系统共享基于40维MFCC(20维静态+20维动态)的特征空间。第一级使用包含4个混合分量的对角协方差GMM进行说话人声纹概率建模,并通过引入联合绝对-相对边际约束的动态似然空间约束(DLSC)机制来对抗冒名攻击和高保真重放攻击。第二级使用带Sakoe-Chiba窗口约束的DTW算法进行文本相关口令验证。实验在Free Spoken Digit Dataset上进行,评估了系统在冒名攻击和重放攻击下的错误接受率(FAR)和合法用户错误拒绝率(FRR),并在单核CPU上测试了端到端处理延迟。结果表明,DLSC机制将物理冒名者的FAR从25.60%降至2.73%,高保真重放攻击的FAR降至6.67%,但导致合法用户的FRR为16.67%。得益于Sakoe-Chiba窗口优化,最坏情况(2.5倍时间拉伸)下的端到端处理延迟为9.82毫秒。 🔗 开源详情 代码:论文中未提及任何代码仓库链接(如GitHub, GitLab)。 模型权重:论文中未提及任何预训练模型权重链接(如HuggingFace, ModelScope)。 数据集:论文使用了公开数据集 Free Spoken Digit Dataset (FSDD),但未提供具体的下载链接(尽管该数据集可在线获取)。 Demo:论文中未提及。 复现材料:论文中详细描述了系统架构、算法细节(如MFCC参数、GMM配置、DTW的Sakoe-Chiba窗口系数)和实验设置,但未提供具体的训练配置文件、检查点或附录等复现材料链接。 论文中引用的开源项目:论文引用了开源数据集 FSDD,但未提及其他具体的开源项目/工具的名称与链接。文中提及的 MFCC、GMM、DTW 等均为广泛使用的算法或技术,未指向特定开源仓库。 🏗️ 方法概述和架构 论文提出的系统是一个两级级联的声学认证框架(如图1所示),旨在同时验证说话人身份(谁在说)和口令内容(说了什么),具体流程和组件如下: ...

2026-06-10 · 更新于 2026-06-12 · 2 min · 286 words

语音/音乐/音频论文速递 2026-06-10

语音/音乐/音频论文速递 2026-06-10 共分析 45 篇论文 ⚡ 今日概览 📥 抓取 45 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 13篇 █████████████ #数据增强 3篇 ███ #自监督学习 2篇 ██ #语音合成 2篇 ██ #多模态模型 1篇 █ #语音对话系统 1篇 █ #语音生成 1篇 █ #参数高效微调 1篇 █ 📊 论文评分排行榜(45 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 ViP-VL: Vietnamese Self-supervised Speech Pretraining M 9.7分 前25% #语音识别 🥈 Spatial-Omni: Spatial Audio Understanding Integration i 9.4分 前25% #多模态模型 🥉 Multi-Faceted Interactivity Alignment in Full-Duplex Sp 9.3分 前25% #语音对话系统 4. OmniCap-IF: Benchmarking and Improving Instruction Foll 9.1分 前25% #语音生成 5. RAT: Reference-Augmented Training for ASV Anti-Spoofing 8.8分 前25% #数据增强 6. Recovering the Zipfian Distribution in Unsupervised Ter 8.7分 前50% #自监督学习 7. LLM can Read Spectrogram: Encoder-free Speech-Language 8.6分 前25% #语音识别 8. ParaBridge: Bridging Paralinguistic Perception and Dial 8.6分 前25% #参数高效微调 9. Time-frequency localization of bird calls in dense soun 8.5分 前25% #信号处理基础 10. Ethical and Technical Limits of Deepfake Speech Dataset 8.4分 前25% - 11. Speech Meets ELF: Audio Conditional Continuous-Target D 8.3分 前25% #语音识别 12. DeRA-MOS: Optimizing Text-to-Music Evaluation via Decou 8.2分 前25% #音乐评估 13. Anchoring the Unknown: Open-Set Model Attribution via P 8.0分 前25% #多语言 14. ANCHOR: Autoregressive Non-intrusive Chunk-Ordered Refi 8.0分 前25% #语音质量评估 15. ContextCodec: Content-Focused Context Guidance for Ultr 7.9分 前25% #语音编码 16. GlobeAudio: A Multilingual Multicultural Benchmark for 7.9分 前25% #语音识别 17. Dual-Branch Gated Fusion for Open-Set Audio Deepfake So 7.8分 前25% #音频深度伪造检测 18. Data Journalist Agent: Transforming Data into Verifiabl 7.7分 前25% - 19. GC-LoRA: Gated Convolutional LoRA for Parameter-Efficie 7.6分 前25% #语音识别 20. What Do Deepfake Speech Detectors Actually Hear? 7.6分 前25% - 21. KFC-KWS: Keyframe Fusion with CTC for User-Defined Keyw 7.6分 前25% #关键词检测 22. Entropy-Aware Domain-Routed Mixture-of-Experts Speech-L 7.5分 前25% #语音识别 23. Linguistically Augmented Audio Speech Data (LinguAS) 7.5分 后50% #语音伪造检测 24. AudioProcessBench: Benchmark for Identifying Process Er 7.5分 前50% - 25. Cross-Modal Knowledge Distillation without Paired Data: 7.5分 前50% #语音识别 26. AuRA: Internalizing Audio Understanding into LLMs as Lo 7.5分 前25% #语音问答 27. TRADE: Transducer-Augmented Decoder for Speech LLM 7.4分 前25% #语音识别 28. Inside the Latent Flow: Causal Deciphering of Attention 7.3分 前50% #语音分离 29. Optimality of FSQ Tokens for Continuous Diffusion for C 7.3分 前50% #语音合成 30. Speech Encoder Fusion for LLM-based Automatic Speech Re 7.2分 后50% #语音识别 31. Enhancing Multilingual LLM-based ASR with Mixture of Ex 7.0分 前50% - 32. Phoneme-First Prediction for LLM-Based Speech Recogniti 6.9分 前50% #语音识别 33. Profy: Interpretable Visualization of Expertise-Depende 6.9分 前50% #音乐信息检索 34. Optimizing 2D Input Representations and Sub-phase Fusio 6.8分 前50% #数据增强 35. SSL-GMMVC: Interpretable Voice Conversion via Locally L 6.8分 前50% #语音转换 36. Deploying Speech-Driven 3D Facial Animation in Unreal E 6.6分 前50% #语音合成 37. RespiraMFM: A Multimodal Foundation Model with Contrast 6.5分 前50% #对比学习 38. From Senses to Decisions: The Information Flow of Audit 6.5分 前50% #语音识别 39. Speaker Group Encoding in Self-supervised Speech Recogn 6.5分 前50% #语音识别 40. Towards Robust Arabic Speech Emotion Recognition with D 6.4分 前50% #语音情感识别 41. Multilingual Word-Level Forced Alignment with Self-Supe 6.3分 前50% #自监督学习 42. Overview of ESDD2: Environment-Aware Speech and Sound D 6.3分 前50% #数据增强 43. Towards Deep Contextual Reasoning from Broad Descriptio 6.2分 前50% #语音识别 44. A Lightweight Dual-Factor Acoustic Authentication Syste 6.0分 前50% #说话人验证 45. Automated Pronunciation Evaluation for Korean Toddler S 6.0分 前50% #说话人日志 📋 论文列表 🥇 ViP-VL: Vietnamese Self-supervised Speech Pretraining Model with Vector-Quantization Learning 9.7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-10 · 更新于 2026-06-12 · 26 min · 5465 words

Kinship Verification Using Voice

📄 Kinship Verification Using Voice #声纹识别 6.9/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 6.9/10 | 前50% | #声纹识别 | #声纹识别 | arxiv 👥 作者与机构 Jagabandhu Mishra, Tomi H. Kinnunen, 东芬兰大学。 💡 毒舌点评 这篇论文像一份详尽的“尸检报告”,而非“手术指南”。它用极其严谨的实验设计和统计方法,为一项目前性能堪忧的任务(语音亲缘验证)建立了评估基准和基线。其贡献在于“定义问题”和“制定游戏规则”,而非“解决问题”。提出的AS-AP后端思路有趣,但“给老的说话者嵌入做微整形”这种操作带来的提升,在任务整体32%的等错误率(EER)面前显得杯水车薪。最刺耳的真相在于:当排除同一说话者对后,EER从20.8%暴跌至39.7%,这几乎是在说:“看,我们其实主要是在认人,而不是认亲”。整篇论文充满了“控制变量”、“非参数标准化”等高级统计词汇,凸显了任务的棘手程度,但也暴露了当前语音模型在捕捉超越身份的“亲缘声学密码”方面的无能。这是一篇方法论上近乎满分(但任务本身太难)的“劝退”指南。 📌 核心摘要 本文针对语音亲缘验证(KV)任务进行了系统性基线研究。首先,论文建立了KV与说话人验证(SV)的统一理论视角,并明确区分了包含同一说话者的“整体KV”和排除后者的“严格KV”任务。其次,针对现有KAN-AV数据集,设计了一套经过多阶段清洗、采用家庭不重叠划分、并对性别和年龄差进行非参数标准化的新评估协议,以减少混杂因素影响。在此基础上,系统性地评估了三种预训练说话人嵌入模型(ECAPA-TDNN, WavLM-ECAPA, ReDimNet)在零样本和多种可训练后端(全连接网络FCN、对称仿射投影S-AP、非对称仿射投影AS-AP)下的性能。实验表明,说话人嵌入确实编码了亲缘线索,但在最严格的零样本KV任务上EER高达39.7%。所提出的AS-AP后端(基于年龄排序)在严格KV*任务上取得了最佳EER(32.0%),在整体KV上取得了18.6%的EER。论文为语音亲缘验证建立了初步的任务定义、严谨的评估标准和基线方法。 🔗 开源详情 代码:论文未提供作者自己提出的AS-AP后端、评估协议或数据清洗流程的代码仓库链接。 模型权重:论文未提供自己训练的后端模型权重的下载链接。 数据集:论文使用了KAN-AV数据集,并对其进行了筛选,但未提供最终使用的子集(6,056条语音)的具体下载链接或开源协议说明。 Demo:未提及。 复现材料:论文未提供集中的复现材料包。实验配置信息分散在论文第VII节。 论文中引用的开源项目: ECAPA-TDNN: https://github.com/TaoRuijie/ECAPA-TDNN/ WavLM-ECAPA: https://huggingface.co/microsoft/wavlm-base-sv ReDimNet: https://github.com/IDRnD/redimnet Pyannote (说话人计数): 未提供具体链接。 Audio Spectrogram Transformer (AST) (语音事件检测): 未提供具体链接。 WADA (SNR估计): 未提供具体链接。 rVAD (活动语音检测): 未提供具体链接。 🏗️ 方法概述和架构 论文的核心方法框架是利用预训练的说话人嵌入模型提取特征,并通过不同的后端策略进行亲缘关系判定。具体架构和流程如下: ...

2026-06-02 · 更新于 2026-06-12 · 2 min · 310 words

语音/音乐/音频论文速递 2026-06-02

语音/音乐/音频论文速递 2026-06-02 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 9篇 █████████ #语音合成 5篇 █████ #自监督学习 2篇 ██ #多模态模型 2篇 ██ #音频分类 2篇 ██ #计算机视觉 1篇 █ #音乐推荐 1篇 █ #语音编辑 1篇 █ 📊 论文评分排行榜(35 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Project SPARROW and the Future of Conservation Technolo 10.0分 前50% #计算机视觉 🥈 Multimodal Music Recommendation System using LLMs 10.0分 前50% #音乐推荐 🥉 Sympatheia: Emotionally Adaptive Voice Assistant with C 9.6分 前25% #语音合成 4. MOSS-Audio Technical Report 9.2分 前25% #语音识别 5. UniVocal: Unified Speech-Singing Code-Switching Synthes 8.9分 前25% #语音合成 6. PolySpeech-100: A Large-Scale Benchmark for Speech Unde 8.8分 前50% #语音识别 7. SpeechEditBench: A Bilingual Multi-Attribute Benchmark 8.7分 前25% #语音编辑 8. Context-aware child-directed speech detection from long 8.5分 前25% #自监督学习 9. RRP-Voice: A Longitudinal Dataset and Benchmark for Rec 8.3分 前50% #数据集 10. MURMUR: An Efficient Inference System for Long-Form ASR 8.3分 前50% #语音识别 11. Local Diagnostics of Continuous Normalizing Flow for Ou 8.1分 前50% #语音合成 12. WAXAL-NET: Finetuned Edge ASR Across 19 African Languag 8.0分 前25% #语音识别 13. Dynamic Interaction-Aware and Causality-Disentangled Fr 7.8分 前25% #多模态模型 14. Temporally-Aligned Evaluation for Audio-Driven Talking 7.6分 前25% #语音合成 15. HAIM: Human-AI Music Datasets for AI Music Production T 7.5分 前50% - 16. Spiking and Event-driven Neuromorphic Mamba Models for 7.5分 前50% #语音识别 17. JenBridge: Adaptive Long-Form Video Soundtracking acros 7.3分 前25% #音乐生成 18. MelT: GEMM-Native NDFT for Efficient Single-Stage Audio 7.3分 前50% #信号处理基础 19. Description and Discussion on DCASE 2026 Challenge Task 7.2分 前50% #无监督学习 20. SALSA: Speech Aware LLM Adaptation via Learned Steering 7.2分 前25% #语音识别 21. Advancing Electrolaryngeal Speech Enhancement Through S 7.1分 前50% #语音增强 22. DUET: Unified Dual-Space Emotion Control for Diffusion 7.1分 前25% #语音合成 23. When Tabular Foundation Models Transfer Across Modaliti 7.1分 前50% #音频分类 24. Echo: A Joint-Embedding Predictive Architecture for Spe 7.0分 前50% #语音识别 25. AnyMo: Scaling Any-Modality Conditional Motion Generati 7.0分 前50% #多模态模型 26. Kinship Verification Using Voice 6.9分 前50% #声纹识别 27. Quality Audio Prototyping: a prototype system for unifi 6.9分 前50% #音频检索 28. A Lightweight Slot-Attention Framework for Multi-Instru 6.7分 前50% #音乐信息检索 29. A 1000-hour EEG-EMG-audio dataset of Japanese speech pr 6.5分 前50% - 30. DAStatFormer: A Hybrid Multibranch Transformer with Sta 6.4分 前50% #音频事件检测 31. Parameter-efficient Dual-encoder Architecture with Diff 6.4分 前25% #音频分类 32. Beyond the Mouth: Upper-Face Affective Cues in Audiovis 5.5分 前50% #语音识别 33. SN-WER: Script-Normalized WER for Multi-Script Indic AS 5.3分 前50% #语音识别 34. Privacy-preserving Prosody Representation Learning 4.9分 前50% #自监督学习 35. AI Slop or AI-enhancement? Student perceptions of AI-ge 3.7分 后50% - 📋 论文列表 🥇 Project SPARROW and the Future of Conservation Technology 10.0/10 | 创新 2.0/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1.0/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-02 · 更新于 2026-06-12 · 21 min · 4469 words

Rethinking Continual Learning for Speech and Audio: A Representation-Centric Taxonomy and Open Problems

📄 Rethinking Continual Learning for Speech and Audio: A Representation-Centric Taxonomy and Open Problems #持续学习 #自监督学习 #语音识别 #语音增强 #音频事件检测 #声纹识别 #多模态模型 #参数高效微调 #正则化微调 #数据增强 ✅ 7.5/10 | 前50% | #语音识别 | #自监督学习 | #持续学习 #语音增强 | arxiv 学术质量 4.8/7 | 影响力 1.5/2 | 可复现性 1.2/2 | 置信度 中 👥 作者与机构 论文作者为:Yang Xiao, Siyi Wang, Eun-Jung Holden, Ting Dang。 未在论文中明确提及作者所属的具体机构。 💡 毒舌点评 这篇文章就像一篇精心整理的“会议纪要”,而不是一篇能发在顶会的“研究提案”。它准确地指出了“房间里的大象”——现代语音基础模型下CL问题的表征纠缠本质,并为此绘制了一张详尽的“地图”(分类法)。然而,地图画得再好,也只是静态的。审稿人最想看到的是你如何沿着地图勘探、挖掘宝藏(验证你的分类和观点),但作者只是把工具(现有方法)摆出来,说“这些工具在这些地方用起来会遇到困难”。全文充满了“应该”和“未来方向”,却缺少了“我做了什么”和“我证明了什么”。将LALM的训练流程强行塞入CL框架进行解读,立意巧妙,但更像是一个有趣的观察而非深刻的贡献,且论述缺乏形式化的支撑。总而言之,这是一篇合格的、有用的“问题导向型”综述,但其理论贡献的深度(分类法的形式化定义与验证)和实验上的空洞,使其离顶会标准尚有距离。 📌 核心摘要 本文针对语音基础模型时代持续学习(CL)面临的挑战,提出了一种以表征演化为中心的新视角和分类法。作者指出,现代语音基础模型学习的是高度纠缠的连续共享表征,因此CL的核心挑战在于保持和演化这种表征的几何结构,而非传统的任务知识保留。文章据此将语音CL场景划分为几何保持、几何扩展、几何对齐和几何特化四类,并进一步分析了现有缓解策略(回放、正则化、架构隔离)在应对纠缠表征时的局限性。同时,文章将大型语言音频模型(LALMs)的多阶段后训练流程解读为一种隐式的多模态持续学习管线,并映射到上述分类中。最后,文章提出了隐私敏感的持续预训练和缺失模态适应等开放问题。本文为语音CL研究提供了新的问题框架和方向,但作为一篇综述和理论探讨文章,缺乏实验验证,其提出的分类法的深度和实用性有待进一步检验。 🔗 开源详情 代码:论文中明确提到一个GitHub列表用于获取所有参考文献(https://github.com/yangxiao1202/RethinkingCL-speech)。该列表很可能包含了文中引用的相关项目(如wav2vec 2.0, HuBERT, Whisper等)的代码链接。 模型权重:论文未提及作者开发的新模型权重。引用的第三方基础模型的官方权重链接,推测包含在上述GitHub列表中。 数据集:论文未提及本研究使用或提供的具体数据集。文中提及“大规模、异构的音频语料库”和“静态数据集”作为训练基础,但未指明具体名称。 Demo:未提及。 复现材料:作为一篇理论综述文章,未提供具体的训练配置、模型检查点或详细的附录材料。 论文中引用的开源项目: wav2vec 2.0:官方链接通常为 https://github.com/facebookresearch/wav2vec2。 HuBERT:官方链接通常为 https://github.com/facebookresearch/hubert。 Whisper:官方链接通常为 https://github.com/openai/whisper。 LALMs:这是一个泛指类别,非单一项目。 LoRA:论文引用自 https://arxiv.org/abs/2106.09685,通常伴随代码实现。 EWC 和 LwF:为经典方法,有多种开源实现,论文中未指定特定版本。 总结说明:本篇论文的核心开源信息集中于作者维护的GitHub列表。论文本身未提供用于复现新方法的代码、模型或数据。 🏗️ 方法概述和架构 本文的核心方法是提出一个理论分析框架和新的分类体系,而非具体的算法或模型。其方法论架构可分为两个相互关联的部分: ...

2026-05-27 · 更新于 2026-06-12 · 1 min · 197 words

语音/音乐/音频论文速递 2026-05-27

语音/音乐/音频论文速递 2026-05-27 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 12篇 ████████████ #语音识别 6篇 ██████ #音乐转录 2篇 ██ #多模态模型 2篇 ██ #语音编码 2篇 ██ #基准测试 1篇 █ #音频检索 1篇 █ #自监督学习 1篇 █ 📊 论文评分排行榜(39 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Hidden in Plain Tokens: Simply Robust, Gradient-Free Wa 10.0分 前25% #语音合成 🥈 Rubato: Transcribing Piano Music with Timestamps 10.0分 前10% #音乐转录 🥉 PitchBench: Measuring Pitch Hearing in Audio-Language M 9.7分 前25% #基准测试 4. AVBench: Human-Aligned and Automated Evaluation Benchma 9.7分 前25% #多模态模型 5. PilotTTS: A Disciplined Modular Recipe for Competitive 9.2分 前25% #语音合成 6. MERIT: Learning Disentangled Music Representations for 9.0分 前25% #音频检索 7. Learning When to Think While Listening in Large Audio-L 8.9分 前25% #语音识别 8. WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Re 8.5分 前25% #语音合成 9. CFMDCTCodec: A Low-Bitrate Neural Speech Codec with Noi 8.4分 前25% #语音编码 10. Continual Speaker Identity Unlearning with Minimal Inte 8.3分 前25% #语音合成 11. Eroding Trust in Real Speech: A Large-Scale Study of Hu 8.2分 前50% - 12. Beyond Binary: Speech Representations Across the Cognit 8.1分 前50% #自监督学习 13. Ultra-Low-Bitrate Mel-Spectrogram-based Neural Speech C 8.1分 前10% #语音编码 14. Decoding Stimulus Reconstruction-Based Auditory Attenti 8.0分 前25% - 15. Time Segmented Beamforming via Dynamic Programming: The 8.0分 前25% #自适应滤波 16. Can We Hear from Events? Generating Speech from Event C 7.8分 前25% #语音合成 17. A Multimodal Framework for Dementia Detection via Lingu 7.7分 前50% #多模态模型 18. Test-Time Self-Adaptive Conditioning for Stable Audio-D 7.7分 前50% #语音合成 19. Rethinking Continual Learning for Speech and Audio: A R 7.5分 前50% #语音识别 20. DuoGesture: Neuro-Inspired and Biomechanically Informed 7.5分 前25% #语音合成 21. Music Transcription with (Almost) No Supervision 7.5分 前50% #音乐转录 22. LongCat-Video-Avatar 1.5 Technical Report 7.5分 前25% #语音合成 23. CosyEdit2: Speech-Editing-Oriented Reinforcement Learni 7.2分 前25% #语音编辑 24. Why Can’t They Remember? Uncovering Representation and 7.0分 前50% #语音识别 25. cSTMM: A Unified Complex Spherical Student’s \(t\) Mixtur 7.0分 前50% #语音分离 26. G-iMUSIC: Greedy Iterative MUSIC Algorithms for Multi-T 6.9分 前50% - 27. From Scores to Gibbs Correctors: Accelerating Uniform-R 6.9分 前50% #语音合成 28. Proactive for Uncertainty: Cause-Aware Error Diagnosis 6.8分 前50% #语音识别 29. FC-TTS: Style and Timbre Control in Zero-Shot Text-to-S 6.5分 前50% #语音合成 30. PashtoTTS-Bench: automated screening for low-resource n 6.5分 前50% #语音合成 31. Score-Agnostic Structure Analysis in Large-Scale Perfor 6.5分 前50% #音乐信息检索 32. Subspace Track-before-Detect for Passive Multi-Target T 6.4分 前50% #信号处理基础 33. Toward Natural Emotional Text-To-Speech System with Fin 6.3分 前50% #语音合成 34. Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for 6.0分 前50% #语音识别 35. LongAV-Compass: Towards Unified Evaluation of Minute-Sc 6.0分 前50% #音频生成 36. FalAR: A Large-scale Speaker-Annotated European Portugu 5.5分 后50% #语音识别 37. Zero-Shot Parkinson’s Disease Detection from Speech: Co 5.2分 后50% #大语言模型 38. Exploration of Perceptual Speech Features for Clinical 5.0分 前50% #语音情感识别 39. An investigation of AI integration in sound designer wo 4.6分 后50% - 📋 论文列表 🥇 Hidden in Plain Tokens: Simply Robust, Gradient-Free Watermark for Synthetic Audio 🔥 10.0/10 | 前25% | #语音合成 | #概率与图模型 | #语音转换 #生成对抗网络 | arxiv ...

2026-05-27 · 更新于 2026-06-12 · 19 min · 3918 words