声纹识别 | 语音/音乐/音频论文速递

A Lightweight Dual-Factor Acoustic Authentication System via Cascaded GMM-DTW Architecture for Edge Computing

📄 A Lightweight Dual-Factor Acoustic Authentication System via Cascaded GMM-DTW Architecture for Edge Computing #说话人验证 #声纹识别 #低资源 6/10 | 创新 1/2 | 严谨 1.5/1.5 | 实验 0.5/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6/10 | 前50% | #说话人验证 | #声纹识别 | #低资源 | arxiv 👥 作者与机构 Yutong Zhang (作者未提及所属机构) 💡 毒舌点评这篇论文就像用乐高积木搭了一辆能跑的自行车。作者非常认真地介绍了每个积木块（GMM、DTW、MFCC）以及如何组装它们，并且证明了这辆“自行车”在自家后院（FSDD数据集）确实能以每秒不到10厘米的速度（9.82ms延迟）移动。然而，问题在于：第一，后院太小，只有5个小朋友（6个说话人取5个）在玩，得出的“性能卓越”结论说服力有限。第二，你并没有把积木图纸（代码）公开，也没提供新积木块的购买链接（模型权重）。第三，把两个经典方法（GMM和DTW）级联，并加入一个经验调参的双阈值约束（DLSC），这更像是一个工程实践或课程设计，而非一个能经得起顶会审稿人拷问的“科学贡献”。审稿人会追问：这和现有SOTA比如何？DLSC的Δ=6.0和γ=2.5是怎么来的？换组参数结果会崩吗？在真实嘈杂的咖啡馆或地铁站还能用吗？论文回避了这些关键问题。 📌 核心摘要论文提出了一种面向边缘计算的轻量级双因子声学认证系统，采用级联GMM-DTW架构。系统共享基于40维MFCC（20维静态+20维动态）的特征空间。第一级使用包含4个混合分量的对角协方差GMM进行说话人声纹概率建模，并通过引入联合绝对-相对边际约束的动态似然空间约束（DLSC）机制来对抗冒名攻击和高保真重放攻击。第二级使用带Sakoe-Chiba窗口约束的DTW算法进行文本相关口令验证。实验在Free Spoken Digit Dataset上进行，评估了系统在冒名攻击和重放攻击下的错误接受率（FAR）和合法用户错误拒绝率（FRR），并在单核CPU上测试了端到端处理延迟。结果表明，DLSC机制将物理冒名者的FAR从25.60%降至2.73%，高保真重放攻击的FAR降至6.67%，但导致合法用户的FRR为16.67%。得益于Sakoe-Chiba窗口优化，最坏情况（2.5倍时间拉伸）下的端到端处理延迟为9.82毫秒。 🔗 开源详情代码：论文中未提及任何代码仓库链接（如GitHub, GitLab）。模型权重：论文中未提及任何预训练模型权重链接（如HuggingFace, ModelScope）。数据集：论文使用了公开数据集 Free Spoken Digit Dataset (FSDD)，但未提供具体的下载链接（尽管该数据集可在线获取）。 Demo：论文中未提及。复现材料：论文中详细描述了系统架构、算法细节（如MFCC参数、GMM配置、DTW的Sakoe-Chiba窗口系数）和实验设置，但未提供具体的训练配置文件、检查点或附录等复现材料链接。论文中引用的开源项目：论文引用了开源数据集 FSDD，但未提及其他具体的开源项目/工具的名称与链接。文中提及的 MFCC、GMM、DTW 等均为广泛使用的算法或技术，未指向特定开源仓库。 🏗️ 方法概述和架构论文提出的系统是一个两级级联的声学认证框架（如图1所示），旨在同时验证说话人身份（谁在说）和口令内容（说了什么），具体流程和组件如下： ...

语音/音乐/音频论文速递 2026-06-10

语音/音乐/音频论文速递 2026-06-10 共分析 45 篇论文 ⚡ 今日概览 📥 抓取 45 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 13篇 █████████████ #数据增强 3篇 ███ #自监督学习 2篇 ██ #语音合成 2篇 ██ #多模态模型 1篇 █ #语音对话系统 1篇 █ #语音生成 1篇 █ #参数高效微调 1篇 █ 📊 论文评分排行榜（45 篇，按分数降序）排名论文总分分档主任务 🥇 ViP-VL: Vietnamese Self-supervised Speech Pretraining M 9.7分前25% #语音识别 🥈 Spatial-Omni: Spatial Audio Understanding Integration i 9.4分前25% #多模态模型 🥉 Multi-Faceted Interactivity Alignment in Full-Duplex Sp 9.3分前25% #语音对话系统 4. OmniCap-IF: Benchmarking and Improving Instruction Foll 9.1分前25% #语音生成 5. RAT: Reference-Augmented Training for ASV Anti-Spoofing 8.8分前25% #数据增强 6. Recovering the Zipfian Distribution in Unsupervised Ter 8.7分前50% #自监督学习 7. LLM can Read Spectrogram: Encoder-free Speech-Language 8.6分前25% #语音识别 8. ParaBridge: Bridging Paralinguistic Perception and Dial 8.6分前25% #参数高效微调 9. Time-frequency localization of bird calls in dense soun 8.5分前25% #信号处理基础 10. Ethical and Technical Limits of Deepfake Speech Dataset 8.4分前25% - 11. Speech Meets ELF: Audio Conditional Continuous-Target D 8.3分前25% #语音识别 12. DeRA-MOS: Optimizing Text-to-Music Evaluation via Decou 8.2分前25% #音乐评估 13. Anchoring the Unknown: Open-Set Model Attribution via P 8.0分前25% #多语言 14. ANCHOR: Autoregressive Non-intrusive Chunk-Ordered Refi 8.0分前25% #语音质量评估 15. ContextCodec: Content-Focused Context Guidance for Ultr 7.9分前25% #语音编码 16. GlobeAudio: A Multilingual Multicultural Benchmark for 7.9分前25% #语音识别 17. Dual-Branch Gated Fusion for Open-Set Audio Deepfake So 7.8分前25% #音频深度伪造检测 18. Data Journalist Agent: Transforming Data into Verifiabl 7.7分前25% - 19. GC-LoRA: Gated Convolutional LoRA for Parameter-Efficie 7.6分前25% #语音识别 20. What Do Deepfake Speech Detectors Actually Hear? 7.6分前25% - 21. KFC-KWS: Keyframe Fusion with CTC for User-Defined Keyw 7.6分前25% #关键词检测 22. Entropy-Aware Domain-Routed Mixture-of-Experts Speech-L 7.5分前25% #语音识别 23. Linguistically Augmented Audio Speech Data (LinguAS) 7.5分后50% #语音伪造检测 24. AudioProcessBench: Benchmark for Identifying Process Er 7.5分前50% - 25. Cross-Modal Knowledge Distillation without Paired Data: 7.5分前50% #语音识别 26. AuRA: Internalizing Audio Understanding into LLMs as Lo 7.5分前25% #语音问答 27. TRADE: Transducer-Augmented Decoder for Speech LLM 7.4分前25% #语音识别 28. Inside the Latent Flow: Causal Deciphering of Attention 7.3分前50% #语音分离 29. Optimality of FSQ Tokens for Continuous Diffusion for C 7.3分前50% #语音合成 30. Speech Encoder Fusion for LLM-based Automatic Speech Re 7.2分后50% #语音识别 31. Enhancing Multilingual LLM-based ASR with Mixture of Ex 7.0分前50% - 32. Phoneme-First Prediction for LLM-Based Speech Recogniti 6.9分前50% #语音识别 33. Profy: Interpretable Visualization of Expertise-Depende 6.9分前50% #音乐信息检索 34. Optimizing 2D Input Representations and Sub-phase Fusio 6.8分前50% #数据增强 35. SSL-GMMVC: Interpretable Voice Conversion via Locally L 6.8分前50% #语音转换 36. Deploying Speech-Driven 3D Facial Animation in Unreal E 6.6分前50% #语音合成 37. RespiraMFM: A Multimodal Foundation Model with Contrast 6.5分前50% #对比学习 38. From Senses to Decisions: The Information Flow of Audit 6.5分前50% #语音识别 39. Speaker Group Encoding in Self-supervised Speech Recogn 6.5分前50% #语音识别 40. Towards Robust Arabic Speech Emotion Recognition with D 6.4分前50% #语音情感识别 41. Multilingual Word-Level Forced Alignment with Self-Supe 6.3分前50% #自监督学习 42. Overview of ESDD2: Environment-Aware Speech and Sound D 6.3分前50% #数据增强 43. Towards Deep Contextual Reasoning from Broad Descriptio 6.2分前50% #语音识别 44. A Lightweight Dual-Factor Acoustic Authentication Syste 6.0分前50% #说话人验证 45. Automated Pronunciation Evaluation for Korean Toddler S 6.0分前50% #说话人日志 📋 论文列表 🥇 ViP-VL: Vietnamese Self-supervised Speech Pretraining Model with Vector-Quantization Learning 9.7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

Kinship Verification Using Voice

📄 Kinship Verification Using Voice #声纹识别 6.9/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 6.9/10 | 前50% | #声纹识别 | #声纹识别 | arxiv 👥 作者与机构 Jagabandhu Mishra, Tomi H. Kinnunen, 东芬兰大学。 💡 毒舌点评这篇论文像一份详尽的“尸检报告”，而非“手术指南”。它用极其严谨的实验设计和统计方法，为一项目前性能堪忧的任务（语音亲缘验证）建立了评估基准和基线。其贡献在于“定义问题”和“制定游戏规则”，而非“解决问题”。提出的AS-AP后端思路有趣，但“给老的说话者嵌入做微整形”这种操作带来的提升，在任务整体32%的等错误率（EER）面前显得杯水车薪。最刺耳的真相在于：当排除同一说话者对后，EER从20.8%暴跌至39.7%，这几乎是在说：“看，我们其实主要是在认人，而不是认亲”。整篇论文充满了“控制变量”、“非参数标准化”等高级统计词汇，凸显了任务的棘手程度，但也暴露了当前语音模型在捕捉超越身份的“亲缘声学密码”方面的无能。这是一篇方法论上近乎满分（但任务本身太难）的“劝退”指南。 📌 核心摘要本文针对语音亲缘验证（KV）任务进行了系统性基线研究。首先，论文建立了KV与说话人验证（SV）的统一理论视角，并明确区分了包含同一说话者的“整体KV”和排除后者的“严格KV”任务。其次，针对现有KAN-AV数据集，设计了一套经过多阶段清洗、采用家庭不重叠划分、并对性别和年龄差进行非参数标准化的新评估协议，以减少混杂因素影响。在此基础上，系统性地评估了三种预训练说话人嵌入模型（ECAPA-TDNN, WavLM-ECAPA, ReDimNet）在零样本和多种可训练后端（全连接网络FCN、对称仿射投影S-AP、非对称仿射投影AS-AP）下的性能。实验表明，说话人嵌入确实编码了亲缘线索，但在最严格的零样本KV任务上EER高达39.7%。所提出的AS-AP后端（基于年龄排序）在严格KV*任务上取得了最佳EER（32.0%），在整体KV上取得了18.6%的EER。论文为语音亲缘验证建立了初步的任务定义、严谨的评估标准和基线方法。 🔗 开源详情代码：论文未提供作者自己提出的AS-AP后端、评估协议或数据清洗流程的代码仓库链接。模型权重：论文未提供自己训练的后端模型权重的下载链接。数据集：论文使用了KAN-AV数据集，并对其进行了筛选，但未提供最终使用的子集（6,056条语音）的具体下载链接或开源协议说明。 Demo：未提及。复现材料：论文未提供集中的复现材料包。实验配置信息分散在论文第VII节。论文中引用的开源项目： ECAPA-TDNN: https://github.com/TaoRuijie/ECAPA-TDNN/ WavLM-ECAPA: https://huggingface.co/microsoft/wavlm-base-sv ReDimNet: https://github.com/IDRnD/redimnet Pyannote (说话人计数): 未提供具体链接。 Audio Spectrogram Transformer (AST) (语音事件检测): 未提供具体链接。 WADA (SNR估计): 未提供具体链接。 rVAD (活动语音检测): 未提供具体链接。 🏗️ 方法概述和架构论文的核心方法框架是利用预训练的说话人嵌入模型提取特征，并通过不同的后端策略进行亲缘关系判定。具体架构和流程如下： ...

语音/音乐/音频论文速递 2026-06-02

语音/音乐/音频论文速递 2026-06-02 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 9篇 █████████ #语音合成 5篇 █████ #自监督学习 2篇 ██ #多模态模型 2篇 ██ #音频分类 2篇 ██ #计算机视觉 1篇 █ #音乐推荐 1篇 █ #语音编辑 1篇 █ 📊 论文评分排行榜（35 篇，按分数降序）排名论文总分分档主任务 🥇 Project SPARROW and the Future of Conservation Technolo 10.0分前50% #计算机视觉 🥈 Multimodal Music Recommendation System using LLMs 10.0分前50% #音乐推荐 🥉 Sympatheia: Emotionally Adaptive Voice Assistant with C 9.6分前25% #语音合成 4. MOSS-Audio Technical Report 9.2分前25% #语音识别 5. UniVocal: Unified Speech-Singing Code-Switching Synthes 8.9分前25% #语音合成 6. PolySpeech-100: A Large-Scale Benchmark for Speech Unde 8.8分前50% #语音识别 7. SpeechEditBench: A Bilingual Multi-Attribute Benchmark 8.7分前25% #语音编辑 8. Context-aware child-directed speech detection from long 8.5分前25% #自监督学习 9. RRP-Voice: A Longitudinal Dataset and Benchmark for Rec 8.3分前50% #数据集 10. MURMUR: An Efficient Inference System for Long-Form ASR 8.3分前50% #语音识别 11. Local Diagnostics of Continuous Normalizing Flow for Ou 8.1分前50% #语音合成 12. WAXAL-NET: Finetuned Edge ASR Across 19 African Languag 8.0分前25% #语音识别 13. Dynamic Interaction-Aware and Causality-Disentangled Fr 7.8分前25% #多模态模型 14. Temporally-Aligned Evaluation for Audio-Driven Talking 7.6分前25% #语音合成 15. HAIM: Human-AI Music Datasets for AI Music Production T 7.5分前50% - 16. Spiking and Event-driven Neuromorphic Mamba Models for 7.5分前50% #语音识别 17. JenBridge: Adaptive Long-Form Video Soundtracking acros 7.3分前25% #音乐生成 18. MelT: GEMM-Native NDFT for Efficient Single-Stage Audio 7.3分前50% #信号处理基础 19. Description and Discussion on DCASE 2026 Challenge Task 7.2分前50% #无监督学习 20. SALSA: Speech Aware LLM Adaptation via Learned Steering 7.2分前25% #语音识别 21. Advancing Electrolaryngeal Speech Enhancement Through S 7.1分前50% #语音增强 22. DUET: Unified Dual-Space Emotion Control for Diffusion 7.1分前25% #语音合成 23. When Tabular Foundation Models Transfer Across Modaliti 7.1分前50% #音频分类 24. Echo: A Joint-Embedding Predictive Architecture for Spe 7.0分前50% #语音识别 25. AnyMo: Scaling Any-Modality Conditional Motion Generati 7.0分前50% #多模态模型 26. Kinship Verification Using Voice 6.9分前50% #声纹识别 27. Quality Audio Prototyping: a prototype system for unifi 6.9分前50% #音频检索 28. A Lightweight Slot-Attention Framework for Multi-Instru 6.7分前50% #音乐信息检索 29. A 1000-hour EEG-EMG-audio dataset of Japanese speech pr 6.5分前50% - 30. DAStatFormer: A Hybrid Multibranch Transformer with Sta 6.4分前50% #音频事件检测 31. Parameter-efficient Dual-encoder Architecture with Diff 6.4分前25% #音频分类 32. Beyond the Mouth: Upper-Face Affective Cues in Audiovis 5.5分前50% #语音识别 33. SN-WER: Script-Normalized WER for Multi-Script Indic AS 5.3分前50% #语音识别 34. Privacy-preserving Prosody Representation Learning 4.9分前50% #自监督学习 35. AI Slop or AI-enhancement? Student perceptions of AI-ge 3.7分后50% - 📋 论文列表 🥇 Project SPARROW and the Future of Conservation Technology 10.0/10 | 创新 2.0/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1.0/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

Rethinking Continual Learning for Speech and Audio: A Representation-Centric Taxonomy and Open Problems

📄 Rethinking Continual Learning for Speech and Audio: A Representation-Centric Taxonomy and Open Problems #持续学习 #自监督学习 #语音识别 #语音增强 #音频事件检测 #声纹识别 #多模态模型 #参数高效微调 #正则化微调 #数据增强 ✅ 7.5/10 | 前50% | #语音识别 | #自监督学习 | #持续学习 #语音增强 | arxiv 学术质量 4.8/7 | 影响力 1.5/2 | 可复现性 1.2/2 | 置信度中 👥 作者与机构论文作者为：Yang Xiao, Siyi Wang, Eun-Jung Holden, Ting Dang。未在论文中明确提及作者所属的具体机构。 💡 毒舌点评这篇文章就像一篇精心整理的“会议纪要”，而不是一篇能发在顶会的“研究提案”。它准确地指出了“房间里的大象”——现代语音基础模型下CL问题的表征纠缠本质，并为此绘制了一张详尽的“地图”（分类法）。然而，地图画得再好，也只是静态的。审稿人最想看到的是你如何沿着地图勘探、挖掘宝藏（验证你的分类和观点），但作者只是把工具（现有方法）摆出来，说“这些工具在这些地方用起来会遇到困难”。全文充满了“应该”和“未来方向”，却缺少了“我做了什么”和“我证明了什么”。将LALM的训练流程强行塞入CL框架进行解读，立意巧妙，但更像是一个有趣的观察而非深刻的贡献，且论述缺乏形式化的支撑。总而言之，这是一篇合格的、有用的“问题导向型”综述，但其理论贡献的深度（分类法的形式化定义与验证）和实验上的空洞，使其离顶会标准尚有距离。 📌 核心摘要本文针对语音基础模型时代持续学习（CL）面临的挑战，提出了一种以表征演化为中心的新视角和分类法。作者指出，现代语音基础模型学习的是高度纠缠的连续共享表征，因此CL的核心挑战在于保持和演化这种表征的几何结构，而非传统的任务知识保留。文章据此将语音CL场景划分为几何保持、几何扩展、几何对齐和几何特化四类，并进一步分析了现有缓解策略（回放、正则化、架构隔离）在应对纠缠表征时的局限性。同时，文章将大型语言音频模型（LALMs）的多阶段后训练流程解读为一种隐式的多模态持续学习管线，并映射到上述分类中。最后，文章提出了隐私敏感的持续预训练和缺失模态适应等开放问题。本文为语音CL研究提供了新的问题框架和方向，但作为一篇综述和理论探讨文章，缺乏实验验证，其提出的分类法的深度和实用性有待进一步检验。 🔗 开源详情代码：论文中明确提到一个GitHub列表用于获取所有参考文献（https://github.com/yangxiao1202/RethinkingCL-speech）。该列表很可能包含了文中引用的相关项目（如wav2vec 2.0, HuBERT, Whisper等）的代码链接。模型权重：论文未提及作者开发的新模型权重。引用的第三方基础模型的官方权重链接，推测包含在上述GitHub列表中。数据集：论文未提及本研究使用或提供的具体数据集。文中提及“大规模、异构的音频语料库”和“静态数据集”作为训练基础，但未指明具体名称。 Demo：未提及。复现材料：作为一篇理论综述文章，未提供具体的训练配置、模型检查点或详细的附录材料。论文中引用的开源项目： wav2vec 2.0：官方链接通常为 https://github.com/facebookresearch/wav2vec2。 HuBERT：官方链接通常为 https://github.com/facebookresearch/hubert。 Whisper：官方链接通常为 https://github.com/openai/whisper。 LALMs：这是一个泛指类别，非单一项目。 LoRA：论文引用自 https://arxiv.org/abs/2106.09685，通常伴随代码实现。 EWC 和 LwF：为经典方法，有多种开源实现，论文中未指定特定版本。总结说明：本篇论文的核心开源信息集中于作者维护的GitHub列表。论文本身未提供用于复现新方法的代码、模型或数据。 🏗️ 方法概述和架构本文的核心方法是提出一个理论分析框架和新的分类体系，而非具体的算法或模型。其方法论架构可分为两个相互关联的部分： ...

语音/音乐/音频论文速递 2026-05-27

语音/音乐/音频论文速递 2026-05-27 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 12篇 ████████████ #语音识别 6篇 ██████ #音乐转录 2篇 ██ #多模态模型 2篇 ██ #语音编码 2篇 ██ #基准测试 1篇 █ #音频检索 1篇 █ #自监督学习 1篇 █ 📊 论文评分排行榜（39 篇，按分数降序）排名论文评分分档主任务 🥇 Hidden in Plain Tokens: Simply Robust, Gradient-Free Wa 10.0分前25% #语音合成 🥈 Rubato: Transcribing Piano Music with Timestamps 10.0分前10% #音乐转录 🥉 PitchBench: Measuring Pitch Hearing in Audio-Language M 9.7分前25% #基准测试 4. AVBench: Human-Aligned and Automated Evaluation Benchma 9.7分前25% #多模态模型 5. PilotTTS: A Disciplined Modular Recipe for Competitive 9.2分前25% #语音合成 6. MERIT: Learning Disentangled Music Representations for 9.0分前25% #音频检索 7. Learning When to Think While Listening in Large Audio-L 8.9分前25% #语音识别 8. WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Re 8.5分前25% #语音合成 9. CFMDCTCodec: A Low-Bitrate Neural Speech Codec with Noi 8.4分前25% #语音编码 10. Continual Speaker Identity Unlearning with Minimal Inte 8.3分前25% #语音合成 11. Eroding Trust in Real Speech: A Large-Scale Study of Hu 8.2分前50% - 12. Beyond Binary: Speech Representations Across the Cognit 8.1分前50% #自监督学习 13. Ultra-Low-Bitrate Mel-Spectrogram-based Neural Speech C 8.1分前10% #语音编码 14. Decoding Stimulus Reconstruction-Based Auditory Attenti 8.0分前25% - 15. Time Segmented Beamforming via Dynamic Programming: The 8.0分前25% #自适应滤波 16. Can We Hear from Events? Generating Speech from Event C 7.8分前25% #语音合成 17. A Multimodal Framework for Dementia Detection via Lingu 7.7分前50% #多模态模型 18. Test-Time Self-Adaptive Conditioning for Stable Audio-D 7.7分前50% #语音合成 19. Rethinking Continual Learning for Speech and Audio: A R 7.5分前50% #语音识别 20. DuoGesture: Neuro-Inspired and Biomechanically Informed 7.5分前25% #语音合成 21. Music Transcription with (Almost) No Supervision 7.5分前50% #音乐转录 22. LongCat-Video-Avatar 1.5 Technical Report 7.5分前25% #语音合成 23. CosyEdit2: Speech-Editing-Oriented Reinforcement Learni 7.2分前25% #语音编辑 24. Why Can’t They Remember? Uncovering Representation and 7.0分前50% #语音识别 25. cSTMM: A Unified Complex Spherical Student’s \(t\) Mixtur 7.0分前50% #语音分离 26. G-iMUSIC: Greedy Iterative MUSIC Algorithms for Multi-T 6.9分前50% - 27. From Scores to Gibbs Correctors: Accelerating Uniform-R 6.9分前50% #语音合成 28. Proactive for Uncertainty: Cause-Aware Error Diagnosis 6.8分前50% #语音识别 29. FC-TTS: Style and Timbre Control in Zero-Shot Text-to-S 6.5分前50% #语音合成 30. PashtoTTS-Bench: automated screening for low-resource n 6.5分前50% #语音合成 31. Score-Agnostic Structure Analysis in Large-Scale Perfor 6.5分前50% #音乐信息检索 32. Subspace Track-before-Detect for Passive Multi-Target T 6.4分前50% #信号处理基础 33. Toward Natural Emotional Text-To-Speech System with Fin 6.3分前50% #语音合成 34. Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for 6.0分前50% #语音识别 35. LongAV-Compass: Towards Unified Evaluation of Minute-Sc 6.0分前50% #音频生成 36. FalAR: A Large-scale Speaker-Annotated European Portugu 5.5分后50% #语音识别 37. Zero-Shot Parkinson’s Disease Detection from Speech: Co 5.2分后50% #大语言模型 38. Exploration of Perceptual Speech Features for Clinical 5.0分前50% #语音情感识别 39. An investigation of AI integration in sound designer wo 4.6分后50% - 📋 论文列表 🥇 Hidden in Plain Tokens: Simply Robust, Gradient-Free Watermark for Synthetic Audio 🔥 10.0/10 | 前25% | #语音合成 | #概率与图模型 | #语音转换 #生成对抗网络 | arxiv ...