STAR-VAE: Structured Topology-Aware Regularization for Audio Reconstruction and Generation

📄 STAR-VAE: Structured Topology-Aware Regularization for Audio Reconstruction and Generation #音频生成 #变分自编码器 #正则化微调 8.8/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.8/10 | 前25% | #音频生成 | #变分自编码器 | #正则化微调 | arxiv 👥 作者与机构 未说明机构信息。作者:Huadai Liu, Wen Wang, Kaicheng Luo, Qian Chen, Xiangang Li, Wei Xue。 💡 毒舌点评 这篇论文定位清晰,问题(R-D-R三难困境)定义具有洞察力,提出的STAR正则化在理论上合理且实验上有效。STAR-VAE的混合架构设计和STAR-Gen的LLM流匹配框架都展示了不错的工程整合能力。然而,论文的“开源”声明需要澄清——实际上只提供了项目主页,并未开源代码或模型权重,这对于一篇声称“通用”和“优越范式”的工作来说略显不足。实验比较全面,但部分消融分析(如Appendix C.1的γ值选择)可以更深入。最大的弱点在于对“Reconstruction Drift”现象的实证分析主要依赖间接指标(如ablation),缺乏更直接的可视化或量化证据来证明高容量编码器在各向同性约束下会优先丢失纹理信息。 📌 核心摘要 本文针对连续音频变分自编码器(VAE)中各向同性高斯先验导致的“率-失真-正则化三难困境”提出了系统解决方案。通过形式化定义三难困境,作者指出平坦的潜空间拓扑无法容纳音频的层级信息结构(结构化的低频与随机的高频)。为此,提出结构化拓扑感知正则化(STAR),通过Gamma增长函数对潜空间通道施加非均匀的KL惩罚,诱导形成与音频信息密度对齐的容量梯度,从而将结构信息路由至高容量通道,随机纹理分配至低容量通道。基于此,构建了STAR-VAE,采用混合CNN-Mamba架构,在保证线性复杂度全局建模能力的同时,借助STAR正则化避免了高容量编码器可能出现的“重建漂移”。进一步,提出了STAR-Gen,一个基于LLM的流匹配框架,利用STAR-VAE的结构化潜空间实现高质量的文本到音频生成,避免了向量量化伪影。大量实验表明,STAR-VAE在相同潜空间率下显著优于现有基线,STAR-Gen也达到了文本到音频生成的新水平。 ...

2026-06-23 · 更新于 2026-07-02 · 5 min · 1004 words

语音/音乐/音频论文速递 2026-06-23

语音/音乐/音频论文速递 2026-06-23 共分析 83 篇论文 ⚡ 今日概览 📥 抓取 83 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 19篇 ███████████████ #语音合成 14篇 ██████████████ #音乐生成 3篇 ███ #说话人验证 3篇 ███ #语音增强 3篇 ███ #对比学习 2篇 ██ #自监督学习 2篇 ██ #音频水印 2篇 ██ 📊 论文评分排行榜(83 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 CoughPhase-CLR: Designing an acoustics-informed foundat 10.0分 前10% #对比学习 🥈 Libretto: Giving LLM Agents a Sense of Musical Structur 9.2分 前50% #音乐生成 🥉 Speaker Identity in Non-Verbal Vocalizations: Condition 9.1分 前25% #说话人验证 4. PHAST-Net: Attention-Guided, Physics-Informed Network f 9.0分 前10% #音乐信息检索 5. Domain-incremental audio classification using domain-sp 9.0分 前50% #音频分类 6. MSU-Bench: Towards Speaker-Centric Understanding in Con 9.0分 前10% - 7. How Well Do Self-Supervised Speech Models Encode Age an 9.0分 前50% #自监督学习 8. CAAD: Contrastive Audio-Aware Distillation for Efficien 8.9分 前25% #语音识别 9. STAR-VAE: Structured Topology-Aware Regularization for 8.8分 前25% #音频生成 10. An Evaluation Framework for Text-to-Speech Voice Recons 8.8分 前25% #语音合成 11. An Analysis of Untrained Deep Reservoir Networks for Au 8.8分 前50% #音频事件检测 12. Towards Detecting Neural Audio Codec Synthesized Heart 8.7分 前50% #自监督学习 13. Bridging the Age Gap: Towards Detecting Neural Audio Co 8.6分 前50% #语音伪造检测 14. ATCCaps: A Call-Sign-Aware Speech Dataset for Air Traff 8.6分 前25% #语音识别 15. InstructFX2FX: A Multi-turn Text-to-Preset Demo for Ite 8.6分 前50% #对比学习 16. When EER Hides Deployment Failure: Auditing Threshold T 8.6分 前25% - 17. CapRiCorn-1K: A Comprehensive Benchmark for Video Capti 8.6分 前50% #语音识别 18. Compiling Differentiable Audio Graphs to Real-Time DSP 8.5分 前25% - 19. Improving Text-to-Music Generation with Human Preferenc 8.5分 前50% #音乐生成 20. Don't Listen to Me: A Lightweight, Low-Latency Mode 8.4分 前50% #语音增强 21. HALAS: A Human-Annotated Dataset of Hallucinations of M 8.4分 前50% #语音识别 22. Benchmarking Large Language Models for Grapheme-to-Phon 8.4分 前25% #语音合成 23. Cross-lingual Retrieval-Augmented Classification for Dy 8.4分 前25% #语音识别 24. Bagpiper-TTS: Natural Language Guided Universal Speech 8.4分 前25% #语音合成 25. Using Phonological-Level Wav2Vec2 for Mandarin Automati 8.3分 前25% #语音识别 26. Word Lengthening as a Function of Utterance Position: A 8.1分 前25% #语音合成 27. LambdaMark: Semantic Audio Watermarking for Robustness 8.0分 前25% #音频水印 28. OpenWER: Improving Cross-Lingual ASR Evaluation and Ena 8.0分 前50% #语音识别 29. AudioCALM: Continuous Autoregressive Language Modeling 7.9分 前25% #语音合成 30. AOR-Bench: Do Large Audio Language Models Over-Refuse P 7.9分 前50% #音频问答 31. Gradient-Based Learning of Parametric Engine Sound Repr 7.8分 前50% #参数高效微调 32. Toward Open-Set Speaker Attribute Prediction with Keywo 7.8分 前25% #多模态模型 33. Time-Frequency Weighted Losses for Phoneme Reconstructi 7.8分 前25% #语音增强 34. An implicitization-based solution to the minimal 4s/6r 7.8分 前50% - 35. CORTIS: Text-Only Adaptation of Spoken Language Models 7.7分 前50% #语音识别 36. What Do Neural Networks Learn for TDOA Estimation? A Cr 7.7分 前50% #声源定位 37. Kiwano: A Cutting-Edge Open-Source Toolkit for Speaker 7.6分 前50% #说话人验证 38. Learning to Evade: Adaptive Attacks on Audio Watermarki 7.6分 前50% #音频水印 39. Bagpiper-Edit: Zero-Shot Open-Ended Audio Editing via R 7.6分 前25% #语音合成 40. From Text Metrics to Model Internals: A Study of Whispe 7.5分 前50% #语音识别 41. Bridging Self-Supervised Learning and Speech Enhancemen 7.5分 前25% #语音增强 42. Integrating Facial Generation into Full-Duplex Spoken D 7.5分 前25% - 43. ESPnet3: Infrastructure for Scalable Speech and Audio R 7.5分 前25% #语音识别 44. On the Effect of Segmentation Width and Cluster Size on 7.4分 前25% #语音合成 45. The Anatomy of the CTC Oracle Gap: Acoustic Exhaustion 7.3分 前50% #语音识别 46. FlowTTS-GRPO: Online Reinforcement Learning with Multi- 7.2分 前50% - 47. DisSpeech: Low-Resource Controllable Mandarin Stuttered 7.2分 前25% #语音合成 48. SDP-Codec: A Speaker-Decoupled Speech Codec with Pitch 7.2分 前50% #语音编码 49. Synthesizing the Lombard Effect: Multi-Level Control of 7.2分 前50% #语音合成 50. Scaling Audio Models Efficiently: A Joint Study of Comp 7.2分 前50% #语音识别 51. Online Predictive Coding for Dual-Mode Self-Supervised 7.2分 前50% #语音识别 52. Exploiting Neural Audio Codec Latents for Adversarial A 7.2分 前50% #生成对抗网络 53. Audio Editing in the Era of Foundation Models: A Survey 7.0分 前25% - 54. Adding Robust Code-Switching Capabilities to High Perfo 7.0分 前50% #语音识别 55. Unlocking In-Context Learning in Audio-Language Models 7.0分 前50% #联邦学习 56. Backdoor Attacks on Speech Emotion Recognition via TTS- 7.0分 前50% #语音情感识别 57. LK Jam: System Architecture and Implementation of a Rea 7.0分 前50% #音乐生成 58. An Acoustic Landmark Database of the English Lexicon vi 6.9分 前50% #语音合成 59. Learning from Audio-Dependency Errors: Data Curation St 6.9分 前50% #音频问答 60. The Watermark Shortcut: How Provenance Marking Sabotage 6.8分 前50% #数据增强 61. LISE : Listenable Interpretable Speaker Embeddings 6.8分 前50% #说话人验证 62. PIVOTSBench: Evaluating Fine-Grained Interpersonal Rela 6.8分 前50% #基准测试 63. AugCodec: A Low-Bitrate Disentangled Neural Speech Code 6.7分 前50% #数据增强 64. Vaani Benchmark V1.0: An Inclusive Multimodal Benchmark 6.7分 前50% #语音识别 65. Physics-Informed Neural Operator for Speech Production 6.7分 前50% #语音合成 66. Streaming T5-based Text-to-Speech Synthesis with Limite 6.7分 前25% #语音合成 67. ProsoCodec: Prosody-Oriented Speech Codec for Voice Con 6.6分 前50% #语音转换 68. Beyond ROC-AUC: Operating-Point Performance Reporting f 6.6分 前50% - 69. ISCSLP 2026 CoT-TTS Challenge: Chain-of-Thought Reasoni 6.6分 前50% #语音合成 70. A DDSP Framework for Adaptive Room Equalization 6.5分 前50% #自适应滤波 71. EmoInstruct-TTS: Dual-Path Instruction-Guided Emotional 6.5分 前50% - 72. Interleaved Speech Language Models Latently Work In Tex 6.4分 前50% #语音识别 73. DSSCNet: A Transfer Learning Framework for Cross-Corpus 6.3分 前50% #迁移学习 74. Sea-Scan: High-Accuracy, ML-based Dark Vessel Detection 6.3分 前50% - 75. Catching Lies Without Sending the Video: Privacy-Preser 6.2分 前50% #多模态模型 76. MindAlign: Decoding Inner Speech from fMRI Signals via 5.8分 前50% #语音识别 77. Acoustic Landmark Detector based on Conformer and HuBER 5.5分 前50% #语音识别 78. Explainable AI in Speaker Recognition – Attention Map 5.5分 前50% #说话人识别 79. Imitation Learning for Elder-Facing Speech Synthesis 5.5分 前50% #语音合成 80. Improving Engine Sound Analysis in Hot-Test Environment 4.9分 后50% #音频降噪 81. Direct Raw Audio Signal Processing via Reservoir Comput 4.5分 后50% #语音识别 82. A Generalized Formalism of Auto-Regressive Decoding for 4.1分 后50% #自回归模型 83. Noise-Driven Instrument Based on Coherent Quantum and S 3.8分 后50% - 📋 论文列表 🥇 CoughPhase-CLR: Designing an acoustics-informed foundation model for coughing sound classification 10.0/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.0/1.5 ...

2026-06-23 · 更新于 2026-07-02 · 48 min · 10123 words

MUNI: Multimodal Unified Latent Diffusion for Coherent Any-to-Any Generation

📄 MUNI: Multimodal Unified Latent Diffusion for Coherent Any-to-Any Generation #语音生成 #音频生成 #多模态模型 #扩散模型 #流匹配 #变分推断 #变分自编码器 6.9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0.1/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 6.9/10 | 前50% | #语音生成 | #变分推断 | #音频生成 #多模态模型 | arxiv 👥 作者与机构 作者:Kyeongmin Yeo, Yunhong Min, Minhyuk Sung 机构:KAIST 💡 毒舌点评 本文立意不错,试图从变分推断第一性原理出发解决多模态生成中的“一致性”痛点。理论分析部分逻辑清晰,提出了三个潜在空间准则并设计了相应的路由目标,这种“讲道理”的方式值得肯定。实验也表明其在无条件联合生成的一致性指标上有显著提升。然而,论文的核心创新点在于理论分析和目标设计,而实现这些目标的架构(编码器、解码器、先验)本身并无革命性变化。此外,理论证明依赖于多个理想化假设,其现实适用性存疑。最遗憾的是,缺少了对自身关键设计选择(如路由策略、不同聚合规则)的消融实验,使得理论分析与实际性能提升之间的因果链条不够坚固。在影响力方面,对于本领域的读者而言,这项工作的直接可借鉴性有限,更像一个针对视觉主导的多模态生成的“特解”。 📌 核心摘要 MUNI是一个面向任意多模态生成(any-to-any generation)的统一框架。它扩展了联合训练的单模态潜在扩散模型到多模态场景,核心在于两点:1)架构上,引入模态特定的编码器、表达力强的解码器和一个共享的流匹配先验;2)目标上,设计了一个路由训练目标,该目标通过非混合聚合、目标解耦的自重建以及仅在留一子集上训练先验等策略,使共享潜在变量同时满足一致性充分、预测充分和最小性这三个准则。实验在合成和真实图像-文本-音频数据上进行,结果表明MUNI在条件生成任务上不弱于强基线,而在更难的无条件联合生成任务上,其生成的模态间一致性显著优于现有方法。 ...

2026-06-16 · 更新于 2026-07-02 · 3 min · 438 words

语音/音乐/音频论文速递 2026-06-16

语音/音乐/音频论文速递 2026-06-16 共分析 62 篇论文 ⚡ 今日概览 📥 抓取 62 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 9篇 █████████ #语音合成 6篇 ██████ #多模态模型 5篇 █████ #自监督学习 4篇 ████ #音频生成 3篇 ███ #生成模型 2篇 ██ #语音生成 2篇 ██ #音乐信息检索 2篇 ██ 📊 论文评分排行榜(62 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 TuneJury: An Open Metric for Improving Music Generation 9.7分 前25% #多模态模型 🥈 Acoustic, VOC, and Multimodal Stress Source Localizatio 9.7分 前50% #声源定位 🥉 VoxWatermark: A Large-Scale Benchmark for Audio Waterma 9.4分 前50% #鲁棒性 4. Phonetically Explainable Speech Deepfake Detection 9.0分 前50% #语音伪造检测 5. FreeSonic: Training-Free Temporal-Aware Decoupled Atten 9.0分 前25% #音频生成 6. MambAdapter: Lightweight Mamba-Based Adapters for Param 8.9分 前25% #语音识别 7. XAI-Grounded Explanation Generation for Speech Deepfake 8.9分 前25% #多模态模型 8. Unified Audio Generation and Editing via Joint Conditio 8.7分 前25% #音频生成 9. AdaTT: Text-Guided Instrument Timbre Transfer with Targ 8.7分 前25% #音频生成 10. DuraMark: Duration-Embedded Watermarking in LLM-based T 8.7分 前25% #生成模型 11. When the Same Musical Knowledge Forgets Differently: A 8.6分 前10% - 12. Probing Low Frame Rate Degradation in Neural Audio Code 8.6分 前25% #语音生成 13. Rhythm of the Deep: A Computational-Linguistic Test of 8.5分 前25% #自监督学习 14. Beyond Artifacts: Towards Generalizable Synthetic Song 8.4分 前25% #音乐信息检索 15. Acoustic Prompting via Stage-wise Modulation for Few-Sh 8.3分 前50% #音频分类 16. ArtNet: A JEPA-Like Articulatory Predictive Framework f 8.3分 前50% #语音识别 17. MatchLM2Lite: A Scalable MLLM-to-Lite Framework for Rep 8.3分 前25% #音频分类 18. Bridging the SEA Gap: An Initial Benchmark for Neural A 8.2分 前25% #语音合成 19. An Empirical Study on Learning Latent Representations f 8.2分 后50% #语音合成 20. From Physics to Representation: Audio Learning with Syn 8.2分 前25% #自监督学习 21. An Asymmetric Formula for Interval Consonance and its R 8.0分 前25% #音乐信息检索 22. Universal adaptive beamforming: A Bayesian approach 8.0分 前50% #自适应滤波 23. Learning Input-Channel Permutation Equivariance for Mul 7.9分 前50% #音乐源分离 24. Stabilizing Short Duration Speaker Verification through 7.9分 前50% #说话人验证 25. AUDEDIT: Inversion-Free Text-Guided Editing with Pretra 7.8分 前25% #生成模型 26. Interpretable and Frugal Learning Systems Employing Mul 7.8分 前25% - 27. MuVAP: Multimodal Multiparty Voice Activity Projection 7.8分 前25% #语音对话系统 28. Dynamic Prosody Prediction in LLM-based TTS for Improvi 7.6分 前25% #语音合成 29. Scaling Human and G2P Supervision for Robust Phonetic T 7.6分 前25% #语音识别 30. SPRI: SVD-Partitioned Residual Initialization for Data- 7.6分 前25% #语音翻译 31. CraBERT: Efficient Phoneme Encoder Pre-Training via Cas 7.5分 前50% #语音合成 32. Pixel-TTS: Image based Text Rendering for Robust Text-t 7.5分 前50% #语音合成 33. AP-GRPO: Anchor-Gated Phonetic Alignment with Policy Op 7.4分 前50% #语音识别 34. Spectro-Temporal Interference Confounds Phase Encoding 7.4分 前50% #自监督学习 35. Teacher-Student Structure for Domain Adaptation in Ense 7.4分 前50% #多模态模型 36. SciText2Eq: Assessing LLMs for Explainable Equation Gen 7.3分 前50% #大语言模型 37. Confidence Score Guided Incremental and Speaker Adaptiv 7.2分 前50% #语音识别 38. Geometrically Constrained Decentralized Independent Vec 7.2分 前50% #语音分离 39. Dual-Granularity Orthogonal Disentanglement for General 7.2分 前50% #课程学习 40. Data-Driven Decoding of Russell's Circumplex Model 7.2分 前50% #语音情感识别 41. Connecting Speech to Words through Images 7.1分 前50% #无监督学习 42. Bridging the Usability Gap: Lessons from Interpreting S 7.1分 前50% #语音翻译 43. TMASC: Transmasculine Attitude and Speech Corpus 7.0分 前50% - 44. MUNI: Multimodal Unified Latent Diffusion for Coherent 6.9分 前50% #语音生成 45. Decoding while Adapting: Zero-Shot Online Speaker Adapt 6.8分 前50% #语音识别 46. Joycent: Diffusion-based Accent TTS without Accented Ph 6.8分 前50% #语音合成 47. Semi-Supervised Speech Confidence Detection using Pseud 6.8分 前50% - 48. Robust Spoofed Speech Detection via Temporal Pyramid Mo 6.7分 前50% #音频深度伪造检测 49. From Awareness to Adherence: Bridging the Context Gap i 6.7分 前50% #语音识别 50. ArtBoost: Synthetic Articulatory Data Augmentation for 6.5分 前50% #语音识别 51. DDPO-VC: Speaker De-Identification via Diffusion Denois 6.5分 前50% #语音转换 52. NVMOS: Non-Verbal Vocalization Quality Assessment in Sp 6.2分 前50% #自监督学习 53. Unifying Acoustic Features and Text with Multimodal LLM 6.2分 前50% #多模态模型 54. ROMPAR: Morphological Completion and Demographic Unlear 6.2分 前50% #语音识别 55. EChO-Agent: Evidence Chain Orchestration Agent for Audi 6.1分 前50% #音频问答 56. Beyond Classification: A Cough Regression Benchmark for 6.0分 前50% #音频事件检测 57. Towards Robust Generative Speech Enhancement Using Vect 5.9分 前50% #语音增强 58. Fast When, Careful Who: Dual-Process Multiparty Turn-Ta 5.9分 前50% #语音活动检测 59. MAF: Multimodal Adaptive Few-shot Prompting for Sentime 5.9分 前50% #多模态模型 60. An auscultation location specific study on the relation 5.8分 前50% - 61. Closed-Loop Triplet Synergistic Generation for Long-For 5.5分 前50% - 62. LLM-Based Synthetic Ground Truth Generation for Audio-B 5.3分 后50% #数据增强 📋 论文列表 🥇 TuneJury: An Open Metric for Improving Music Generation Preference Alignment 9.7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1.0/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.0/1.5 ...

2026-06-16 · 更新于 2026-07-02 · 36 min · 7668 words

SARA: A Dual-Stream VAE for High-Fidelity Speech Generation via Integrating Semantic and Acoustic Representations

📄 SARA: A Dual-Stream VAE for High-Fidelity Speech Generation via Integrating Semantic and Acoustic Representations #语音合成 #变分自编码器 #自监督学习 #语音识别 #多任务学习 #语音生成 #数据集 7.9/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 ✅ 7.9/10 | 前25% | #语音合成 | #变分自编码器 | #自监督学习 #语音识别 | arxiv 👥 作者与机构 作者:Peijie Chen*, Wenhao Guan, Weijie Wu, Kadi Wang, Daiyu Huang, Zhuanling Zha, Junbo Li, Jun Fang, Qingyang Hong†, Lin Li 机构:1 厦门大学信息学院,中国;2 厦门大学电子科学与工程学院,中国;3 滴滴全球公司,北京,中国 联系邮箱:peijiechen@stu.xmu.edu.cn ...

2026-06-11 · 更新于 2026-07-02 · 3 min · 429 words

语音/音乐/音频论文速递 2026-06-11

语音/音乐/音频论文速递 2026-06-11 共分析 36 篇论文 ⚡ 今日概览 📥 抓取 36 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 7篇 ███████ #语音合成 7篇 ███████ #基准测试 2篇 ██ #音乐信息检索 2篇 ██ #语音情感识别 2篇 ██ #低资源 1篇 █ #音频问答 1篇 █ #音频质量评估 1篇 █ 📊 论文评分排行榜(36 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Massive Open-Vocabulary Keyword Spotting 9.8分 前50% #语音识别 🥈 Tight Boundary Prediction in Speaker Diarization Using 9.6分 前25% #低资源 🥉 RAIL: Rethinking Auditory Intelligence in Large Audio-L 9.6分 前10% #音频问答 4. Quality Adaptive Angular Margin Learning for Respirator 9.5分 前50% #音频质量评估 5. CS-YODAS: A Mined Dataset of In-the-Wild Code-Switched 9.2分 前50% #多语言 6. Gumbel-BEARD: Automatic Layer Selection for Self-Superv 9.1分 前25% #语音识别 7. PianoKontext: Expressive Performance Rendering from Dea 9.1分 前50% #音乐生成 8. Benchmarking Neural Speech Compression from a Rate-Dist 9.0分 前25% #基准测试 9. Fast-SDE: Efficient Single-Microphone Sound Source Dist 8.8分 前50% - 10. Evaluating Bias in Phoneme-Based Automatic Speech Recog 8.8分 前50% #语音识别 11. Real-Time Language Model Jamming: A Case Study for Live 8.7分 前25% #音乐信息检索 12. HALO: Half-Frame-Rate Adaptive Learnable Operator for L 8.4分 前50% #语音增强 13. The Dynamics of Human and AI-Generated Language: How Se 8.1分 前25% #语音合成 14. UR-BERT: Scaling Text Encoders for Massively Multilingu 8.1分 前25% #语音合成 15. SARA: A Dual-Stream VAE for High-Fidelity Speech Genera 7.9分 前25% #语音合成 16. SpAArSIST: Sparsified AASIST for Efficient and Reliable 7.7分 前50% #模型压缩 17. Interpreting and Steering a Text-to-Speech Language Mod 7.7分 前25% #语音合成 18. Which Speech Representation Better Matches Text-Native 7.5分 前50% #语音识别 19. MA-DLE: Speech-based Automatic Depression Level Estimat 7.5分 前25% #语音情感识别 20. The Hidden Cost of Pairwise Verification in Synthetic S 7.5分 前50% #语音合成 21. Sensitivity Analysis of Generative Spatial Audio Metric 7.2分 前50% #音频生成 22. Snapping Matters: Context-Aware Onset Refinement for Au 7.1分 前25% #音乐信息检索 23. Feature-Aligned Speech Watermarking for Robustness to R 7.1分 前25% #鲁棒性 24. Context-Aware Multimodal Claim Verification in Spoken D 7.1分 前50% #多模态模型 25. Afrispeech Semantics: Evaluating Audio Semantic Reasoni 7.0分 前50% #数据集 26. Lung-SRAD: Spectral-Aware Regularized Audio DASS with D 6.8分 前50% #对比学习 27. Lip Forcing: Few-Step Autoregressive Diffusion for Real 6.8分 前50% #语音合成 28. Frozen Multimodal Embeddings for Personality and Cognit 6.7分 前50% #语音情感识别 29. Fast Speech Foundation Model Distillation Using Interle 6.6分 前50% #知识蒸馏 30. Steering Where to Listen: Instruction-Based Activation 6.5分 前50% - 31. Pretrained self-supervised speech models can recognize 6.5分 前50% #语音识别 32. Towards Data-free and Training-free Compression for Spe 6.4分 前50% #语音识别 33. Additive Noise, Shift Recovery, and Signed Signals in t 6.1分 前50% #信号处理基础 34. I Understand How You Feel: Enhancing Deeper Emotional S 5.8分 前50% #语音识别 35. Overcoming State Inertia in Full-Duplex Spoken Language 5.5分 前50% #基准测试 36. BadRobot: Jailbreaking Embodied LLM Agents in the Physi 5.2分 后50% #语音合成 📋 论文列表 🥇 Massive Open-Vocabulary Keyword Spotting 9.8/10 | 创新 1.6/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-11 · 更新于 2026-07-02 · 22 min · 4642 words

NüshuVoice: Reviving the Voice of Endangered Nüshu with Pitch-Aware Text-to-Speech

📄 NüshuVoice: Reviving the Voice of Endangered Nüshu with Pitch-Aware Text-to-Speech #语音合成 #变分自编码器 #生成对抗网络 #低资源 #多任务学习 7/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7/10 | 前50% | #语音合成 | #变分自编码器 | #生成对抗网络 #低资源 | arxiv 👥 作者与机构 Hongkun Yang (1), Xinhui Yi (2), Xiyan Zhao (2), Yibo Meng (3), Lionel Z. Wang (2), Lixu Wang (4), Yaqi Zhang (5), Ruiqi Chen (6), Xuanyue Zhao (4), Lanxin Zhang (4), Yu Zeng (7), Weijia Chu (2), Yiming Ma (8), Chenyu Liu (2), Jianghao Lin (7), Xin Xu (2) ...

2026-06-09 · 更新于 2026-07-02 · 3 min · 466 words

语音/音乐/音频论文速递 2026-06-09

语音/音乐/音频论文速递 2026-06-09 共分析 48 篇论文 ⚡ 今日概览 📥 抓取 48 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 10篇 ██████████ #语音识别 9篇 █████████ #自监督学习 3篇 ███ #多模态模型 3篇 ███ #语音增强 2篇 ██ #音频生成 2篇 ██ #说话人验证 2篇 ██ #大语言模型 1篇 █ 📊 论文评分排行榜(48 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 A Finetuned SpeechLLM for Joint Multi-Granular L2 Asses 10.0分 前25% #大语言模型 🥈 G-MaP-SE: Guided Speech Enhancement via GMM-Based Prior 9.3分 前50% #语音增强 🥉 HoliDubber: Holistic Video Dubbing for Complex Acoustic 9.0分 前10% #语音合成 4. Probing Token Spaces under Generator Shift in AI-Genera 9.0分 前10% #音频编码 5. A Comparative Study of Pre-trained Speech Encoders and 8.9分 前50% #自监督学习 6. AVI-Bench: Toward Human-like Audio-Visual Intelligence 8.8分 前25% #语音识别 7. Liberating LLM Capabilities in Full-Duplex Speech Model 8.7分 前25% #多模态模型 8. MeCo: One-Step MeanFlow-based Corrector for Multi-Chann 8.4分 前25% #语音分离 9. Your U-Net Dereverberation Model is Secretly an RIR Enc 8.3分 前50% #对比学习 10. Predictive Fixed-Filter Active Noise Control (PFANC) Us 8.3分 前25% - 11. TLDR: Compressing Audio Tokens for Efficient Autoregres 8.2分 前25% #语音合成 12. Subtitle-Aligned Fine-Tuning of Whisper for Swiss Germa 8.2分 前25% #语音识别 13. Discovering Functionally Selective Brain Regions with a 8.2分 前25% #多模态模型 14. Parameter-Efficient Continual Learning for Automatic Sp 8.1分 前25% #语音识别 15. OmniMem: Perturbation-aware Memory Compression for Stre 8.0分 前25% #高效推理 16. OpenBibleTTS: Large-Scale Speech Resources and TTS Mode 8.0分 前25% #语音合成 17. FlashTTS: Fast Streaming TTS with MTP Acceleration and 7.9分 前25% #语音合成 18. Multi-View Speech Representation Learning for Parkinson 7.9分 前50% #自监督学习 19. Is Text All You Need? Text as a Universal Information B 7.6分 前50% #语音识别 20. End-to-End Training for Discrete Token LLM based TTS Sy 7.6分 前50% #语音合成 21. Conan-embedding-v3: Fusing Modality-Specific Models for 7.6分 前25% #音频检索 22. Cross-Modal Masking for Robust Silent Speech Synthesis 7.5分 前50% #语音合成 23. Rethinking Depth: A study of the Recursive-Transformer 7.5分 前25% #语音识别 24. What Makes Synthetic Speech Sound Sarcastic? A Prosody- 7.5分 前25% #语音合成 25. FXplorer: A Map-Based Interface for Exploratory Audio E 7.5分 前25% #音频生成 26. Assessing the Energy and Carbon Emissions of Neural Spe 7.4分 前50% #说话人验证 27. Exploring the Scale and Diversity of Speech Anti-spoofi 7.4分 前50% #数据增强 28. From A to B to A: Palindromic Zero-Shot Voice Conversio 7.3分 前50% - 29. A study on the impact of region specific data on the pe 7.2分 前50% #语音识别 30. Speaker-Invariant Representation Learning for Spoofing 7.1分 前25% #对抗训练 31. BareWave: Waveform-Native Flow-Matching Text-to-Speech 7.0分 前50% #语音合成 32. SMC-ITA: Sequential Monte Carlo Inference-Time Alignmen 7.0分 前50% #音频生成 33. Quality-Diversity Search in Sound Generation: Investiga 7.0分 前50% - 34. Can LLMs understand LilyPond? A benchmark for symbolic 7.0分 前50% #音乐生成 35. NüshuVoice: Reviving the Voice of Endangered Nüshu with 7.0分 前50% #语音合成 36. Factors affecting ASR performance: A study using state 6.9分 前50% #语音识别 37. MeanVC 2: Robust Low-Latency Streaming Zero-Shot Voice 6.9分 前50% #语音转换 38. Few-shot Class-variable Incremental Audio Classificatio 6.9分 前50% #音频分类 39. A Hierarchical Feature Engineering Framework for Automa 6.8分 前50% - 40. Fast and Robust On-Device Speaker Diarization: Relative 6.6分 前50% #说话人分离 41. On Low-Bit Quantization Errors in Speaker Verification: 6.6分 前50% #说话人验证 42. Paediatric-HGNN: A Hybrid Heterogeneous Graph Neural Ne 6.5分 后50% #语音合成 43. TinyGiantALM: A Compact Audio-Language Model for Intent 6.4分 前50% #多模态模型 44. Overcoming Decoder Inconsistencies in Whisper for Dravi 6.2分 后50% #语音识别 45. Bridging Traditional Explainability Methods and Multimo 5.4分 后50% #语音识别 46. Sound Field Interpolation Using Physics-Informed Extrem 5.3分 后50% #语音增强 47. A Comparison of SSL-Based Feature Extractors and Back-E 5.0分 后50% #自监督学习 48. AeroSpectra Sentinel: An Auditable LLM Prompt-Chaining 4.5分 后50% #音频事件检测 📋 论文列表 🥇 A Finetuned SpeechLLM for Joint Multi-Granular L2 Assessment and Natural-Language Rationales 10.0/10 | 创新 2.0/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-09 · 更新于 2026-07-02 · 29 min · 6000 words

SwanVoice: Expressive Long-Form Zero-Shot Speech Synthesis for Both Monologue and Dialogue

📄 SwanVoice: Expressive Long-Form Zero-Shot Speech Synthesis for Both Monologue and Dialogue #语音合成 #语音转换 #数据增强 #变分自编码器 #扩散模型 #强化学习 #课程学习 🔥 8.9/10 | 前50% | #语音合成 | #变分自编码器 | #语音转换 #数据增强 | arxiv 学术质量 6.3/7 | 影响力 1.5/2 | 可复现性 1.1/2 | 置信度 高 👥 作者与机构 作者:Ruiqi Li (1), Yu Zhang (1), Changhao Pan (1,2), Ke Lei (1,2), Xiang Yin (1), Cheng Yang (1) 单位:1 ByteDance, 2 Zhejiang University 通讯作者及贡献:1为共同贡献,2为通讯作者(根据原文格式推断)。 💡 毒舌点评 这篇论文工整地完成了一个大型工业级语音合成系统应做的所有事:堆砌了看似合理的数据处理流程、模型架构和训练策略,最后在自建的Benchmark上宣称自己最好。其核心工作(SwanVoice模型本身)在架构上(VAE+Flow-matching DiT)并非独创,更多是工程上的整合与优化。最大的“贡献”似乎是那个数据处理管道(SwanData-Speech),但这更像是一个内部产品开发文档,而非可复用、可验证的学术方法。论文通篇都在强调“表现力”得分最高,但关键的“内容准确性”却是短板,这在一个语音合成系统中是相当尴尬的权衡。更值得玩味的是,评估所用的核心模型(如SpeechJudge)未开源,这使得其“表现力”领先的结论大打折扣。整篇论文更像是一份技术报告,而非一篇能推动领域进步的学术论文。 ...

2026-06-01 · 更新于 2026-07-02 · 3 min · 453 words

语音/音乐/音频论文速递 2026-06-01

语音/音乐/音频论文速递 2026-06-01 共分析 23 篇论文 ⚡ 今日概览 📥 抓取 23 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 6篇 ██████ #音乐生成 3篇 ███ #语音翻译 2篇 ██ #语音识别 2篇 ██ #自监督学习 1篇 █ #口音识别 1篇 █ #生成对抗网络 1篇 █ #音频事件检测 1篇 █ 📊 论文评分排行榜(23 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Chatterbox-Flash: Prior-Calibrated Block Diffusion for 10.0分 前25% #语音合成 🥈 UniAudio-Token: Empowering Semantic Speech Tokenizers w 10.0分 前25% #语音合成 🥉 Escaping the Linearity Trap: Manifold Detours for Black 9.7分 前25% #自监督学习 4. ImmersiveTTS: Environment-Aware Text-to-Speech with Mul 9.3分 前25% #语音合成 5. SwanVoice: Expressive Long-Form Zero-Shot Speech Synthe 8.9分 前50% #语音合成 6. AnchorSteer: Self-Discovered Concept Injection for Stru 8.6分 前50% #音乐生成 7. MindVoice: Reconstructing Intelligible Speech from Non- 8.5分 前25% #语音合成 8. Extracting accent features in spoken Brazilian Portugue 8.3分 前50% #口音识别 9. UNISON: A Unified Sound Generation and Editing Framewor 8.2分 前25% #语音合成 10. FiPA-SR – FiLM-Conditioned Perceptually Informed Audio 8.1分 前25% #生成对抗网络 11. DOA: Training-Free Decoder-Only Attention Policy for Lo 7.8分 前25% #语音翻译 12. GaMi: Geometry-Agnostic Material Identification via Cro 7.8分 前50% - 13. Improving acoustic drone detection generalization throu 7.7分 前50% #音频事件检测 14. Audio Pirates: Black-box Audio Watermark Removal via Di 7.4分 前25% #扩散模型 15. Latent Space Disentanglement via Activation Steering fo 7.3分 后50% #音乐生成 16. Scaling Conversational Hungarian ASR: The BEA-Dialogue+ 7.2分 前50% #语音识别 17. On the Use of Dereverberation for Acoustic Feedback Can 6.7分 前50% #语音增强 18. Towards Streaming Synchronized Spatial Audio Generation 6.5分 前50% #自回归模型 19. 3DAE: Binaural Quality Assessment for Audio Novel View 6.5分 前50% #音频质量评估 20. OpenSTBench: Beyond Semantic Evaluation for Speech Tran 6.0分 前50% #语音翻译 21. Sound effects in media:A comparative analysis of record 5.7分 前50% #音频生成 22. Mental Damage: Caption Poisoning Attacks on Retrieval-A 5.6分 前50% #音乐生成 23. A Unified and Reproducible Experimentation Framework fo 5.5分 前50% #语音识别 📋 论文列表 🥇 Chatterbox-Flash: Prior-Calibrated Block Diffusion for Streaming Zero-Shot TTS 🔥 10.0/10 | 前25% | #零样本语音合成 | #Transformer | #块扩散解码 #流式处理 | arxiv ...

2026-06-01 · 更新于 2026-07-02 · 12 min · 2552 words