Two kinds of robustness are not the same: disentangling fault tolerance and low-SNR robustness in multi-domain event detection on real data

📄 Two kinds of robustness are not the same: disentangling fault tolerance and low-SNR robustness in multi-domain event detection on real data #鲁棒性 #多任务学习 #迁移学习 #数据增强 8.9/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.9/10 | 前25% | #音频事件检测 | #数据增强 | #鲁棒性 #多任务学习 | arxiv 👥 作者与机构 作者:Isao Kurosawa 机构:IVXA, Japan 💡 毒舌点评 这篇论文像一个严谨的侦探,成功区分了两种常被混淆的鲁棒性(传感器丢失 vs. 低信噪比),并用控制变量法(固定配方测架构,固定架构测配方)证明了后者主要归功于“传感器丢弃”这一训练策略,而非昂贵的架构冗余。这是一个清晰、实用且实验扎实的发现,对工程实践有直接指导意义——用简单模型加训练技巧就能获得大部分鲁棒性。然而,论文的“章鱼臂”和“三心”命名虽生动但略显花哨,且“低SNR鲁棒性主要归因于传感器丢弃训练策略,而非架构冗余”这一核心结论的普适性可能受限于其特定的检测任务(相对简单)和数据域。此外,论文在理论层面(为何特定训练配方能迁移到另一种未见噪声)的解释深度有限,更多是现象描述和合理推测。 ...

2026-06-30 · 更新于 2026-07-02 · 2 min · 420 words

语音/音乐/音频论文速递 2026-06-30

语音/音乐/音频论文速递 2026-06-30 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 10篇 ██████████ #语音合成 4篇 ████ #自监督学习 2篇 ██ #语音编码 2篇 ██ #音乐生成 1篇 █ #音频事件检测 1篇 █ #语音分离 1篇 █ #数据集 1篇 █ 📊 论文评分排行榜(35 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Preference-ASR: A Preference-Aware Test Set for Benchma 9.5分 前10% #语音识别 🥈 LeVo 2: Stable and Melodious Song Generation via Hierar 9.4分 前10% #音乐生成 🥉 VIB-AVSR: Variational Information Bottleneck for Noise- 9.0分 前10% #语音识别 4. Two kinds of robustness are not the same: disentangling 8.9分 前25% #音频事件检测 5. DialogPII: A multilingual dataset of synthetic dialog t 8.9分 前25% #语音识别 6. GigaSpeechBench: A Real-World Multilingual Speech-to-Te 8.7分 前50% #语音识别 7. SICAGE: Speaker-Independent Culture-Aware Gesture Gener 8.7分 前25% #语音合成 8. How to Leverage Synthetic Speech for LLM-Based ASR Syst 8.7分 前50% #语音识别 9. Position-Aware Target Speaker Extraction for Long-Form 8.5分 前25% #语音识别 10. wav2VOT: Automatic estimation of voice onset time, clos 8.5分 前25% #自监督学习 11. Improving Large-Scale Weakly Supervised ASR by Filterin 8.4分 前25% - 12. Agent-Computer Observation Interfaces Enable Dynamic Co 8.4分 前10% #语音识别 13. DTM-Codec: Dynamic Token Masking for VFR Speech Coding 8.1分 前25% #语音编码 14. TF-MoE: Time-Frequency Mixture-of-Experts for Efficient 8.1分 前25% #语音分离 15. Underwater Source Detection and Classification for Sign 7.8分 前25% #数据集 16. AMR: Adaptive Modality Routing for Multimodal Polyglot 7.8分 前25% #说话人识别 17. FacePlex: Full-Duplex Joint Speech-Facial Motion Genera 7.8分 前25% #语音合成 18. VeRe-Flow: Guiding Flow Matching toward Clean Speech vi 7.7分 前25% #语音增强 19. CTC-Seeded Token Edit Refinement for Non-Autoregressive 7.7分 前25% #语音识别 20. Evaluation of Head-Related Transfer Functions Across Fi 7.6分 前25% #空间音频 21. Semi-Supervised Sound Event Detection with Conditional 7.6分 前25% #对比学习 22. OLIVE: View-Augmented Latent Prediction with Waveform R 7.5分 前50% #语音识别 23. EchoHawk: A Reproducible Acoustic Pipeline for Drone De 7.5分 前25% - 24. LoRA-Tuned Large Language Models for Dementia Detection 7.5分 前50% #参数高效微调 25. MeloDISinger: Melody-Aware & Duration-Preserving Si 7.4分 前50% #语音合成 26. Child-Centric Voice Anonymization in Single and Multi-S 7.2分 前50% #语音匿名化 27. SIGMA: Saliency-Guided Sparse Mask Attacks for Speech E 7.1分 前50% #语音情感识别 28. Effective Depth in Joint Source-Channel Coding: An Impl 7.0分 前50% #语音编码 29. SIMAX: A Scalable and Interpretable Framework for Multi 6.6分 后50% #语音合成 30. Clustering Unsupervised Representations as Defense agai 6.5分 前50% #自监督学习 31. Comparing Human and Automatic Recognition of Dutch Dysa 6.5分 前50% #语音识别 32. Predicting Timbre Traits for Interpretable Assessment o 6.1分 前50% #音频生成 33. TRACE: Temporal Relationship-Aware Conversational Entra 5.9分 前50% - 34. Proteus: Automated Adversarial Robustness Testing for A 5.3分 后50% #数据增强 35. Rehearsed Multi-Agent Live Product Demonstrations with 5.3分 后50% #多模态模型 📋 论文列表 🥇 Preference-ASR: A Preference-Aware Test Set for Benchmarking ASR in the Era of Speech LLMs 9.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

2026-06-30 · 更新于 2026-07-02 · 22 min · 4475 words

A Survey of Automated Presentation Coaching: Systems, Methods, and Open Challenges

📄 A Survey of Automated Presentation Coaching: Systems, Methods, and Open Challenges #语音识别 #语音合成 #自监督学习 #多模态模型 #多任务学习 5.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0.7/1.5 | 清晰 0.9/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0.1/0.5 | 工程 0.3/1.5 📝 5.4/10 | 后50% | #语音识别 | #自监督学习 | #语音合成 #多模态模型 | arxiv 👥 作者与机构 Wen Liang: Columbia University, Red Hat Li Siyan: Columbia University Zackary Rackauckas: RoleGaku Julia Hirschberg: Columbia University 💡 毒舌点评 这篇综述试图为“自动化演讲辅导”这个看似细分但实际横跨多个热门领域的课题(CAPT、TTS、L2语言学习)建立一个清晰的分类法和研究路线图。其野心值得肯定,但执行上仍有改进空间。 ...

2026-06-29 · 更新于 2026-07-02 · 3 min · 495 words

语音/音乐/音频论文速递 2026-06-29

语音/音乐/音频论文速递 2026-06-29 共分析 16 篇论文 ⚡ 今日概览 📥 抓取 16 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 4篇 ████ #语音合成 2篇 ██ #说话人识别 2篇 ██ #语音质量评估 1篇 █ #数据增强 1篇 █ #语音情感识别 1篇 █ #多模态模型 1篇 █ #语音增强 1篇 █ 📊 论文评分排行榜(16 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Screening Matters: A Comparative Study of Conventional 8.4分 前25% #语音质量评估 🥈 From General-Purpose Audio Tagging to Spatially Grounde 8.3分 前50% #数据增强 🥉 HPRO: Hierarchical Progressive Reward Optimization via 8.2分 前50% #语音合成 4. Learning from Annotation Uncertainty: Entropy-Aware Cur 7.4分 前50% #语音情感识别 5. MER-R1: Multimodal Emotion Reasoning via Slow-Fast Thin 7.4分 前25% #多模态模型 6. A Comparison of Fusion Techniques for Multi-Modal Human 7.3分 前50% - 7. Do Speech Emphasis Models Generalize across Languages a 7.0分 前25% #语音识别 8. Advancing Speaker-Based Vocal Effort Classification wit 6.8分 前50% #语音增强 9. HybridCodec: Modeling Discrete and Continuous Represent 6.5分 前50% #语音合成 10. Grammar-Guided Hierarchical Parsing for Long-form Audio 6.2分 前50% #音频事件检测 11. Room for Error: Large-Scale Simulation of Over-the-Air 6.2分 前50% #语音识别 12. What Was That Again? Certified Robustness for Automatic 6.2分 前50% - 13. Dialogue to Detection: A Multimodal Hybrid NLP Pipeline 6.0分 后50% #说话人识别 14. From Black-Box to Clinical Insight: A Multi-Stage Expla 6.0分 前50% #语音识别 15. DG^VoiC: Speaker Clustering for Fraud Investigation und 5.7分 前50% #说话人识别 16. A Survey of Automated Presentation Coaching: Systems, M 5.4分 后50% #语音识别 📋 论文列表 🥇 Screening Matters: A Comparative Study of Conventional and Crowdsourced Listening Tests 8.4/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

2026-06-29 · 更新于 2026-07-02 · 9 min · 1914 words

CodecSep: Prompt-Driven Universal Sound Separation on Neural Audio Codec Latents

📄 CodecSep: Prompt-Driven Universal Sound Separation on Neural Audio Codec Latents #Transformer #多任务学习 #多模态模型 7.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ✅ 7.7/10 | 前25% | 音频分离 | #Transformer | #多任务学习 #多模态模型 | arxiv 👥 作者与机构 作者:Adhiraj Banerjee, Vipul Arora 机构:印度理工学院坎普尔分校电气工程系 💡 毒舌点评 论文提出了一个想法清��的模型:利用已经训练好的音频压缩模型(DAC)的紧凑表示和一个强大的文本-音频对齐模型(CLAP)的文本特征,通过一个轻量级的Transformer掩码器实现高效的文本引导音频分离。这个思路在计算效率上确实取得了显著优势,尤其是在边缘部署场景下,GMACs大幅降低。然而,“首个”的宣称需要谨慎对待,因为 CodecFormer 等工作已经探索了NAC在分离中的应用,本文的核心是加入了文本引导。实验评估全面,覆盖了多个数据集和不同的提示粒度。主要问题在于:1) 代码和模型权重未开源,严重削弱了可复现性和社区验证的基础;2) 论文第3.3节关于“为什么NAC潜在空间更好”的讨论篇幅过长,部分内容(如与RVQ层级结构的关联)更像是推测而非由严格实验证明的因果结论;3) 核心结论“掩码优于生成”虽然得到表格3的支持,但对照组(CodecFormer)是固定类别分离模型,与文本引导设置不完全对等,使得比较的公平性稍打折扣。总体而言,这是一篇扎实的增量工作,解决了具体且重要的部署效率问题,但缺乏代码开源和更底层的理论分析。 📌 核心摘要 CodecSep是首个将神经音频编解码器(NAC)与文本引导相结合,用于通用音频源分离的模型。它通过将预训练的DAC作为编解码骨干,冻结其参数,并利用CLAP生成的文本嵌入,通过FiLM条件调制一个Transformer掩码器。掩码器在DAC编码的紧凑潜在空间上操作,预测源掩码,从而实现高效的分离。该方法在分离保真度(SI-SDR)上超越了AudioSep,同时保持了有竞争力的感知质量(ViSQOL),并将代码流部署下的计算成本降低了约54倍。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及。 数据集: dnr-v2 (Divide and Remaster v2.0):论文中提及该数据集的引用,但未提供具体下载链接。 AudioCaps:论文中提及该数据集的引用,但未提供具体下载链接。 ESC-50:论文中提及该数据集的引用,但未提供具体下载链接。 Clotho-v2:论文中提及该数据集的引用,但未提供具体下载链接。 AudioSet-eval:论文中提及该数据集的引用,但未提供具体下载链接。 VGGSound:论文中提及该数据集的引用,但未提供具体下载链接。 LibriSpeech, FMA (Free Music Archive), FSD50K:论文中提及作为dnr-v2的组成部分,但未提供具体下载链接。 Demo:论文中未提及。 复现材料:论文中未提及单独的复现材料包(如预训练检查点、完整训练配置文件等)。论文在第4.3节“训练”中详细描述了训练配置(如优化器、学习率、硬件环境等),但未提供可直接使用的材料链接。 论文中引用的开源项目: CLAP (Contrastive Language-Audio Pretraining):论文中引用,但未提供具体代码仓库链接。 DAC (Descript Audio Codec):论文中引用,但未提供具体代码仓库链接。 CodecFormer:论文中引用,但未提供具体代码仓库链接。 SDCodec:论文中引用,但未提供具体代码仓库链接。 AudioSep:论文中引用,但未提供具体代码仓库链接。 Torchprofile:用于计算MACs的工具,论文中提供了其GitHub链接:https://github.com/zhijian-liu/torchprofile。 TDANet:论文中引用,但未提供具体代码仓库链接。 DPTNet, SepFormer, Wave-UNet, Demucs, MM-DenseLSTM, DCCRN, Spleeter:论文中引用,但均未提供具体代码仓库链接。 🏗️ 方法概述和架构 CodecSep采用编码器-掩码器-解码器的架构,在DAC的潜在空间中进行操作。 ...

2026-06-26 · 更新于 2026-07-02 · 3 min · 477 words

语音/音乐/音频论文速递 2026-06-26

语音/音乐/音频论文速递 2026-06-26 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 3篇 ███ #语音质量评估 2篇 ██ #语音合成 2篇 ██ #扩散模型 1篇 █ 歌唱评估 1篇 █ 音频编解码 1篇 █ 音频事件检测 1篇 █ 音频分离 1篇 █ 📊 论文评分排行榜(21 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 DNSMOS-C: Improving End-to-end Speech Quality Models vi 9.3分 前50% #语音质量评估 🥈 UnityShots: Memory-Driven Multi-Shot Audio-Video Genera 8.9分 前25% #扩散模型 🥉 Listening Like a Judge: A Music-Aware Framework for Aut 8.8分 前25% 歌唱评估 4. Elastic Time: Dynamic Frame Rate Bottlenecks for Neural 8.3分 前50% 音频编解码 5. Soroll-IA: A Weakly Labeled Audio Dataset for Real-Worl 8.3分 前25% 音频事件检测 6. A Large-Scale Database and Predictive Model of Listener 8.1分 前25% #语音质量评估 7. SamaVaani: Auditing and Debiasing Multilingual Clinical 7.8分 前25% #语音识别 8. CodecSep: Prompt-Driven Universal Sound Separation on N 7.7分 前25% 音频分离 9. VoiceTTA: Enhancing Zero-Shot Text-to-Speech via Reinfo 7.6分 前50% #语音合成 10. What We are Missing in Multimodal LLM Evaluation? 7.0分 前50% - 11. RedVox: Safety and Fairness Gaps in Speech Models Acros 6.8分 前50% #基准测试 12. WQ-Fusion: Dynamic Gated Attention for Cross-Domain Aud 6.7分 前50% #音频分类 13. Thinking While Speaking: Inference-Time Knowledge Trans 6.7分 后50% #知识蒸馏 14. When Does Quality-Aware Multimodal Fusion Matter? A Lea 6.6分 前50% #语音情感识别 15. voxmap-studio: An open-source speaker diarization annot 6.5分 前50% #说话人日志 16. FBK's Long-form SpeechLLMs for IWSLT 2026 Instructi 6.5分 前50% #语音识别 17. wav2tok 2.0: Scalable Audio Tokenization Maintaining Ex 6.4分 前50% #语音检索 18. Generative AI and Copyright Infringement: A Legal-Techn 6.0分 前50% #音乐生成 19. Closing the Quality Gap in Low-Resource Text-to-Speech: 6.0分 后50% #语音合成 20. Neural Speaker Diarization via Multilingual Training: E 5.5分 前50% #语音分离 21. Low Resource Multimodal Translation of Nepali Spoken Wo 5.3分 后50% #语音识别 22 Phonetic and semantic analyses of spoken corpora of Bei N/A - - 📋 论文列表 🥇 DNSMOS-C: Improving End-to-end Speech Quality Models via Contrastive Learning 9.3/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

2026-06-26 · 更新于 2026-07-02 · 12 min · 2421 words

Does Translation-Enhanced Speech Encoder Pre-training Affect Speech LLMs?

📄 Does Translation-Enhanced Speech Encoder Pre-training Affect Speech LLMs? #语音识别 #语音合成 #语音翻译 #多任务学习 #大语言模型 7.1/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.1/10 | 前50% | #语音识别 | #多任务学习 | #语音合成 #语音翻译 | arxiv 👥 作者与机构 作者:Tomoya Mizumoto, Yusuke Fujita 机构:SB Intuitions Inc. 邮箱:tomoya.mizumoto@sbintuitions.co.jp, yusuke.fujita@sbintuitions.co.jp 💡 毒舌点评 这篇论文像一篇严谨的“消融实验报告”。它精确地回答了一个问题:在训练语音编码器时,加入翻译任务到底有没有用、有多大用?答案是“有用,且双向翻译比单向翻译更有用”。优点在于实验设计非常干净(控制变量),结论清晰直接。然而,这种清晰也暴露了其局限:研究范围被严格限定在“将预训练好的编码器接入冻结LLM”这一特定范式内,没有探索更灵活的架构(如端到端训练)。130k小时的训练数据对于如今的大模型时代来说显得“小家碧玉”,更像是在验证一个想法而非冲击SOTA。开源方面的完全缺席,对于需要复现或在该方向上继续推进的同行来说,无疑是一种遗憾。 📌 核心摘要 本文的核心研究问题是:在预训练语音编码器时,引入翻译任务(尤其是双向翻译)能否改善其与冻结的大语言模型的集成效果?作者认为,传统基于ASR的编码器学习到的是语言特定的表示,这与LLM统一的语义空间存在结构错位。为解决此问题,他们提出在预训练阶段加入跨语言翻译任务,特别是要求模型在英语与其他语言之间进行双向翻译,以迫使编码器学习语言无关的语义表示。实验对比了三种预训练目标:仅ASR、ASR + 单向翻译(X→en)、ASR + 双向翻译(X↔en)。结果表明,双向翻译预训练(X↔en)在语音翻译、意图分类等任务上带来了显著且一致的性能提升,并且能够泛化到预训练未见过的语言对,同时不损害依赖声学信息的情感识别任务性能。论文将这一优势归因于双向翻译目标提供了更对称、更彻底的语义抽象路径。 ...

2026-06-25 · 更新于 2026-07-02 · 2 min · 400 words

语音/音乐/音频论文速递 2026-06-25

语音/音乐/音频论文速递 2026-06-25 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 6篇 ██████ #语音合成 5篇 █████ #语音增强 2篇 ██ #音乐生成 1篇 █ #语音翻译 1篇 █ #语音伪造检测 1篇 █ #自监督学习 1篇 █ #端到端 1篇 █ 📊 论文评分排行榜(27 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Fully Differentiable Neural Forced Alignment via Soft D 8.3分 前25% - 🥈 Attractive and Repulsive Pattern Control in Sequence Ge 8.1分 前25% #音乐生成 🥉 STEB: A Speech-to-Speech Translation Expressiveness Ben 7.8分 前50% #语音翻译 4. Supervised Post-training of Speech Foundation Models fo 7.6分 前50% #语音伪造检测 5. Joint Residual Reweighting for Classifier Free Guidance 7.5分 前50% #语音合成 6. Velocity Prediction in Automatic Guitar Transcription 7.5分 前25% - 7. SE-AGCNet: An End-to-End Framework for Joint Speech Enh 7.4分 前50% #语音增强 8. MJEPA: A Simple and Scalable Joint-Embedding Predictive 7.4分 前25% #自监督学习 9. Sarashina2.2-TTS: Tackling Kanji Polyphony in Japanese 7.3分 前50% #语音合成 10. One Model, Many Latencies: Universal Speech Enhancement 7.2分 前50% #语音增强 11. From Sounds to Scenes: A Benchmark for Evaluating Conte 7.2分 前50% #语音识别 12. Wan-Streamer v0.1: End-to-end Real-time Interactive Fou 7.2分 前25% #语音合成 13. Does Translation-Enhanced Speech Encoder Pre-training A 7.1分 前50% #语音识别 14. Adaptive Oscillatory Inductive Bias for Modeling Sharp 7.0分 前50% #语音合成 15. End-to-End Voice Intent Recognition for Spontaneous Hum 7.0分 前50% #端到端 16. Real-Time Voice AI Hears but Does Not Listen 7.0分 前50% - 17. FoleySet: A Multi-Level Human-Annotated Foley Sound Dat 7.0分 前50% #音频分类 18. EmotionAI: A Privacy-Preserving Computational Intellige 6.9分 前50% #语音情感识别 19. Frequency-Aware Self-Supervised Music Representation Le 6.8分 前50% #音乐信息检索 20. BCoughBench: Benchmarking Respiratory Acoustic Foundati 6.7分 前50% #基准测试 21. SpeechEQ: Benchmarking Emotional Intelligence Quotient 6.7分 前25% #语音对话系统 22. Graph-Based Phonetic Error Correction of Noisy ASR 6.7分 前50% #语音识别 23. What Does a Pathological Speech Assessment Model Know a 6.4分 前50% #语音可懂度评估 24. Phoneme-Level Mispronunciation Screening in Polish-Spea 6.2分 前50% #语音识别 25. Error-Aware TF-IDF Retrieval-Augmented Generation for A 6.1分 前50% #语音识别 26. Evaluating Japanese Dialect Robustness Across Speech an 5.8分 前50% #语音识别 27. CrossAccent-TTS: Cross-Lingual Accent-Intensity Control 5.5分 前50% #语音合成 📋 论文列表 🥇 Fully Differentiable Neural Forced Alignment via Soft Dynamic Programming 8.3/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.0/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ...

2026-06-25 · 更新于 2026-07-02 · 16 min · 3249 words

Analyzing Language and Geographical Variation in Speech Representations Across 60 Indic Languages

📄 Analyzing Language and Geographical Variation in Speech Representations Across 60 Indic Languages #语音识别 #多语言 #多任务学习 6.5/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 6.5/10 | 前50% | #语音识别 | #多任务学习 | #多语言 | arxiv 👥 作者与机构 Pavan Kumar J^{1}, Agneedh Basu^{2}, Pranav Bhat^{2}, Sujith Pulikodan^{2}, Visruth Sanka^{2}, Nihar Desai^{2}, Prasanta Kumar Ghosh^{2} 1 AI & Robotics Technology Park (ARTPARK), I-Hub @ IISc, Bangalore, India 2 Department of Electrical Engineering, Indian Institute of Science, Bangalore, India 邮箱: pavanjk@artpark.in ...

2026-06-19 · 更新于 2026-07-02 · 2 min · 397 words

Transcript-Free Flow-Matching Text-to-Speech via Speech Feature Conditioning

📄 Transcript-Free Flow-Matching Text-to-Speech via Speech Feature Conditioning #语音合成 #自监督学习 #语音增强 #多任务学习 #对比学习 7.7/10 | 创新 1.3/2 | 严谨 1/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.7/10 | 前25% | #语音合成 | #自监督学习 | #语音增强 #多任务学习 | arxiv 👥 作者与机构 作者:SooHwan Eom, Hee Suk Yoon, Eunseop Yoon, Mark Hasegawa-Johnson, Chang D. Yoo 机构:1 Korea Advanced Institute of Science and Technology, South Korea; 2 University of Illinois Urbana-Champaign, United States ...

2026-06-19 · 更新于 2026-07-02 · 2 min · 363 words