A Text-Steerable Instrument for Sketching Procedural Soundscapes via Language Models

📄 A Text-Steerable Instrument for Sketching Procedural Soundscapes via Language Models #音乐生成 #大语言模型 #实时处理 #数据集 6.8/10 | 创新 1/2 | 严谨 0.8/1.5 | 实验 0.4/1.5 | 清晰 0.8/1 | 影响 0.5/1.5 | 开源 1.5/1.5 | 复现 0.3/0.5 | 工程 1.5/1.5 ✅ 6.8/10 | 前50% | #音乐生成 | #大语言模型 | #实时处理 #数据集 | arxiv 👥 作者与机构 第一作者:Prabal Gupta(Rama Labs) 通讯作者:未提及;仅有一位作者,可视为同一人。 作者列表:Prabal Gupta(Rama Labs) 💡 毒舌点评 这篇工作用一个聪明的异步生成器架构,巧妙地把LLM的笨重延迟藏了起来,让“打字即演奏音景”的玩法在工程上变得可行。然而,华丽的开源工程外壳下,评估部分几乎形同虚设:核心语义对齐结论依赖的CLAP指标与系统构建存在循环论证,却没有任何独立的人类感知实验来兜底;仅有五人的非正式反馈被包装得仿佛有价值的证据,而和任何现有文本到音频系统的比较实验完全空白。这使得论文除了展示一个精巧的工具箱外,在科学论证层面贡献甚微。 📌 核心摘要 本文提出了Latentscore,一种将自然语言描述实时转化为程序化音景的可演奏乐器。其核心方法并非直接生成音频波形,而是利用大语言模型(LLM)或嵌入检索模型,将文本提示词映射到一个包含34个人类可读参数的配置空间,再通过确定性程序化引擎实时渲染音频。为隐藏LLM长达5-12秒的响应延迟,系统设计了一个异步实时生成器架构:在后台解析新指令时,前台持续播放当前音频,并通过交叉淡入淡出实现无缝过渡。该方法用可控、可解释的符号化参数作为中介,换取了实时性、确定性和精细的可操控性,与直接生成波形的神经文本到音频系统形成互补。实验采用LAION-CLAP作为代理指标,结果显示基于嵌入检索的配置(0.163)优于随机有效配置(0.139);外部LLM(Gemini)得分为0.158但schema合格率仅89%;微调的270M小模型得分与随机持平(0.140),生成耗时却长达近100秒,实用性极差。主要实际意义在于为现场编码、游戏音效、互动装置等场景提供了一套CPU友好、完全可复现的实时文本控音工具。主��局限是音色风格范围窄、缺乏与神经音频系统的对比、以及语义对齐评估存在循环指标问题。 🔗 开源详情 代码: https://github.com/prabal-rje/latentscore 模型权重: https://huggingface.co/guprab/latentscore-gemma3-270m-v5-merged 数据集: https://huggingface.co/datasets/guprab/latentscore-data 以及 https://huggingface.co/datasets/guprab/latentscore-clap-benchmark Demo: https://latentscore.com 以及补充视频材料 https://zenodo.org/records/19944277 论文引用的开源项目: LAION-CLAP, Sentence-BERT, Common Pile, Gemma 3, Outlines. 🏗️ 方法概述和架构 整个系统分为离线构建和在线运行两大阶段。 ...

2026-07-02 · 更新于 2026-07-02 · 2 min · 257 words

语音/音乐/音频论文速递 2026-07-02

语音/音乐/音频论文速递 2026-07-02 共分析 16 篇论文 ⚡ 今日概览 📥 抓取 16 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音频理解 3篇 ███ #说话人验证 2篇 ██ #语音合成 2篇 ██ #语音识别 1篇 █ #音视频理解 1篇 █ #语音增强 1篇 █ #语音情感识别 1篇 █ #音乐生成 1篇 █ 📊 论文评分排行榜(16 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 NPUsper: Eliminating Redundant Computation for Real-Tim 9.0分 前10% #语音识别 🥈 AV-SyncBench: Decoupled Benchmarking of Temporal and Se 8.5分 前25% #音视频理解 🥉 ORCA: Open-ended Response Correctness Assessment for Au 7.9分 前25% #音频理解 4. AmbiDrop: Ambisonics-Based Array-Agnostic Neural Speech 7.5分 前25% #语音增强 5. From Objectives to Applications: Aligning Architectural 7.5分 前25% #音频理解 6. Positive-Incentive Noise Predictor for Adversarial Puri 7.4分 前50% #说话人验证 7. Automatic Detection of Stress from Speech in the Trier 7.4分 前50% #语音情感识别 8. Enhancing Flow Matching with A Unified Guidance Framewo 7.1分 前50% #语音合成 9. MG-RWKV: Multi-Grained Context-Aware RWKV for Temporal 6.9分 前50% - 10. A Text-Steerable Instrument for Sketching Procedural So 6.8分 前50% #音乐生成 11. A Geometric Perspective on Composable Emotion Steering 6.6分 前50% #语音合成 12. Do Multimodal Large Language Models Need Reasoning to C 6.5分 前50% #语音属性识别 13. Evaluating Pretrained Music Embeddings for Cross-Perfor 5.8分 前50% #音乐检索 14. Disentangling Speaker and Language Effects in Cross-Lin 5.6分 前50% #说话人验证 15. Adaptive Perturbation Selection for Contrastive Audio D 5.3分 后50% #音频理解 16. Speech Playground: An Interactive Tool for Speech Analy 4.1分 后50% - 📋 论文列表 🥇 NPUsper: Eliminating Redundant Computation for Real-Time Whisper on Mobile NPUs 9.0/10 | 创新 1.4/2 | 严谨 1.4/1.5 | 实验 1.0/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-07-02 · 更新于 2026-07-02 · 13 min · 2691 words

One Model, Many Latencies: Universal Speech Enhancement for Diverse Real-Time Applications

📄 One Model, Many Latencies: Universal Speech Enhancement for Diverse Real-Time Applications #实时处理 #多语言 #语音增强 7.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 7.2/10 | 前50% | #语音增强 | #实时处理 | #多语言 | arxiv 👥 作者与机构 作者:Szu-Wei Fu, Rong Chao, Xuesong Yang, Sung-Feng Huang, Ante Jukić, Yu Tsao, Yu-Chiang Frank Wang 机构:1. 台湾大学电机工程系;2. 中央研究院资讯科技创新研究中心。机构信息在论文作者名字的上标中标明。 💡 毒舌点评 这篇论文试图解决一个很实际的问题:用一个模型应对不同延迟要求的实时语音增强。想法很酷,但实现细节经不起推敲。并行卷积层(类似MoE)和早退机制的组合听起来很灵活,但所谓的“通用性”是建立在一个巨大的前提之下的——你得在部署时针对每个硬件和延迟预算重新测试并剪枝模型,这在实际应用中可能并不“通用”。所谓的“两阶段训练”本质上是个后处理的补丁,用来弥补早退机制带来的性能损失。实验数据虽多,但大部分是URGENT Challenge这个特定竞赛的数据集和设定,模型在VoiceBank-DEMAND上跑出的数字(PESQ 2.76)看着不错,但别忘了它可是用了3倍于DeepFilterNet3的参数量(2.9M vs 2.14M)才达到的,性价比存疑。最让人不安的是关于实时性的讨论:作者在论文里都承认12层模型在A100上RTF>1,不满足实时要求,却依然把它纳入“30种配置”中来宣传,这有点自欺欺人。总的来说,这是一篇工程整合度高于学术创新性的论文。 ...

2026-06-25 · 更新于 2026-07-02 · 3 min · 558 words

语音/音乐/音频论文速递 2026-06-25

语音/音乐/音频论文速递 2026-06-25 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 6篇 ██████ #语音合成 5篇 █████ #语音增强 2篇 ██ #音乐生成 1篇 █ #语音翻译 1篇 █ #语音伪造检测 1篇 █ #自监督学习 1篇 █ #端到端 1篇 █ 📊 论文评分排行榜(27 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Fully Differentiable Neural Forced Alignment via Soft D 8.3分 前25% - 🥈 Attractive and Repulsive Pattern Control in Sequence Ge 8.1分 前25% #音乐生成 🥉 STEB: A Speech-to-Speech Translation Expressiveness Ben 7.8分 前50% #语音翻译 4. Supervised Post-training of Speech Foundation Models fo 7.6分 前50% #语音伪造检测 5. Joint Residual Reweighting for Classifier Free Guidance 7.5分 前50% #语音合成 6. Velocity Prediction in Automatic Guitar Transcription 7.5分 前25% - 7. SE-AGCNet: An End-to-End Framework for Joint Speech Enh 7.4分 前50% #语音增强 8. MJEPA: A Simple and Scalable Joint-Embedding Predictive 7.4分 前25% #自监督学习 9. Sarashina2.2-TTS: Tackling Kanji Polyphony in Japanese 7.3分 前50% #语音合成 10. One Model, Many Latencies: Universal Speech Enhancement 7.2分 前50% #语音增强 11. From Sounds to Scenes: A Benchmark for Evaluating Conte 7.2分 前50% #语音识别 12. Wan-Streamer v0.1: End-to-end Real-time Interactive Fou 7.2分 前25% #语音合成 13. Does Translation-Enhanced Speech Encoder Pre-training A 7.1分 前50% #语音识别 14. Adaptive Oscillatory Inductive Bias for Modeling Sharp 7.0分 前50% #语音合成 15. End-to-End Voice Intent Recognition for Spontaneous Hum 7.0分 前50% #端到端 16. Real-Time Voice AI Hears but Does Not Listen 7.0分 前50% - 17. FoleySet: A Multi-Level Human-Annotated Foley Sound Dat 7.0分 前50% #音频分类 18. EmotionAI: A Privacy-Preserving Computational Intellige 6.9分 前50% #语音情感识别 19. Frequency-Aware Self-Supervised Music Representation Le 6.8分 前50% #音乐信息检索 20. BCoughBench: Benchmarking Respiratory Acoustic Foundati 6.7分 前50% #基准测试 21. SpeechEQ: Benchmarking Emotional Intelligence Quotient 6.7分 前25% #语音对话系统 22. Graph-Based Phonetic Error Correction of Noisy ASR 6.7分 前50% #语音识别 23. What Does a Pathological Speech Assessment Model Know a 6.4分 前50% #语音可懂度评估 24. Phoneme-Level Mispronunciation Screening in Polish-Spea 6.2分 前50% #语音识别 25. Error-Aware TF-IDF Retrieval-Augmented Generation for A 6.1分 前50% #语音识别 26. Evaluating Japanese Dialect Robustness Across Speech an 5.8分 前50% #语音识别 27. CrossAccent-TTS: Cross-Lingual Accent-Intensity Control 5.5分 前50% #语音合成 📋 论文列表 🥇 Fully Differentiable Neural Forced Alignment via Soft Dynamic Programming 8.3/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.0/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ...

2026-06-25 · 更新于 2026-07-02 · 16 min · 3249 words

Next-Turn: Duration-Aware Streaming Endpoint Detection via Time-to-Next-Speech-Onset Prediction

📄 Next-Turn: Duration-Aware Streaming Endpoint Detection via Time-to-Next-Speech-Onset Prediction #语音合成 #语音识别 #流式处理 #多任务学习 #自监督学习 #参数高效微调 #实时处理 7.9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ✅ 7.9/10 | 前50% | #语音合成 | #多任务学习 | #语音识别 #流式处理 | arxiv 👥 作者与机构 Tristan Tsoi, Jiajun Deng, Yingke Zhu, Huu Quyen Dang, Tianxiang Cao, Nikita Kuzmin, Tao Zhong, Simon Lui 华为中央媒体技术学院, 香港中文大学, 南洋理工大学 ...

2026-06-17 · 更新于 2026-07-02 · 3 min · 585 words

MeCo: One-Step MeanFlow-based Corrector for Multi-Channel Speech Separation

📄 MeCo: One-Step MeanFlow-based Corrector for Multi-Channel Speech Separation #语音分离 #生成模型 #多通道 #实时处理 8.4/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 🔥 8.4/10 | 前25% | #语音分离 | #生成对抗网络 | #生成模型 #多通道 | arxiv 👥 作者与机构 Dohwan Kim (通讯作者),Jung-Woo Choi。机构:韩国科学技术院(KAIST)电气工程学院。 💡 毒舌点评 这篇论文精准地切入了一个实际痛点:判别模型指标好听感差,生成模型听感好但太慢。提出的MeCo(基于MeanFlow的一步修正器)思路清晰,工程实现上有亮点(DSO策略)。然而,其核心创新“MeanFlow”和“一步生成”概念并非首创,主要贡献在于将现有技术有效组合并应用于多通道语音分离这一具体场景。实验部分比较全面,但所有实验均在自己构建的模拟数据集上进行,缺乏真实录音场景的验证,这在一定程度上削弱了结论的普适性声称。作者将“独立说话人细化”列为局限性,但回避了更根本的问题:该级联系统的性能上限完全受限于前端判别模型,MeCo的修正能力在前端估计极差时是否依然鲁棒?未来工作部分提到的“显式空间建模”是必要的,但略显空泛。 📌 核心摘要 本文针对多通道语音分离任务中判别模型(信号保真度高但听感差)与生成模型(听感自然但计算慢且多通道方案少)的局限,提出了一种名为MeCo(MeanFlow-based One-Step Corrector)的一步式生成修正器。MeCo基于MeanFlows框架,学习从判别模型输出(t=1)到干净语音流形(t=0)的平均速度场,实现单步映射,避免了迭代生成的延迟。核心创新在于提出了数据空间优化(DSO)策略,通过结合 \(\mathbf{x}_{r}\)-损失(隐式优化生成轨迹)和端点SI-SDR损失(直接优化最终一步生成的信号保真度),最大化一步生成的性能。实验表明,MeCo在域内(WSJ0+WHAM!)和域外(Librispeech+DEMAND、低资源语言+DEMAND)数据集上,在参考性指标(PESQ, ESTOI, SI-SDR)和参考性人类听感指标(DNSMOS, UTMOS, NISQA)上均取得了最优性能,且计算开销极小。 🔗 开源详情 代码:https://github.com/rlaehghks5/MECO (论文明确声明并链接) 模型权重:论文中未提及提供预训练模型权重的下载链接。 数据集:论文中提及了以下公开数据集用于构建实验数据: WSJ0语料库(用于训练/测试) WHAM! 噪声数据集(用于训练/测试) Librispeech 语料库(用于域外评估) DEMAND 噪声数据集(用于域外评估) 低资源语言数据集(sodimana2018multilingual,用于域外语言评估) (论文未提供上述数据集的具体下载链接或开源协议说���,需研究者自行获取) Demo:论文中未提及。 复现材料:论文在4.2节“Implementation details”中声明:“所有模型的详细配置可在我们的公共仓库中找到。”(指代上述GitHub仓库)。未单独提供训练配置文件或检查点。 论文中引用的开源项目: gpuRIR (diaz2021gpurir):用于模拟房间脉冲响应(RIR)。 NCSN++ (Richter_2023SGMSE):作为生成模型(Fast-GeCo, MeanFlow, MeCo)的骨干网络。 Adam优化器 (kingma2014adam):用于模型训练。 (论文引用了项目名称,但未提供这些项目本身的链接) 🏗️ 方法概述和架构 MeCo是一个级联系统中的生成修正模块,其核心架构基于条件MeanFlows,并引入数据空间优化(DSO)进行训练。 ...

2026-06-09 · 更新于 2026-07-02 · 4 min · 841 words

Time Segmented Beamforming via Dynamic Programming: Theory and Implementation

📄 Time Segmented Beamforming via Dynamic Programming: Theory and Implementation #实时处理 ✅ 7.7/10 | 前25% | #实时处理 | #实时处理 | arxiv 学术质量 6.2/7 | 影响力 1.5/2 | 可复现性 0/2 | 置信度 高 👥 作者与机构 Manan Mittal, Ryan M. Corey, Diego Cuji, John R. Buck, Andrew C. Singer Manan Mittal 和 Diego Cuji 与石溪大学电气与计算机工程系(Stony Brook University)。Ryan M. Corey 与伊利诺伊大学芝加哥分校电气与计算机工程系(University of Illinois, Chicago)。John R. Buck 与马萨诸塞大学达特茅斯分校电气与计算机工程系(University of Massachusetts Dartmouth)。Andrew C. Singer 与石溪大学应用科学与工程学院(Stony Brook University)。 ...

2026-05-26 · 更新于 2026-07-02 · 2 min · 270 words

语音/音乐/音频论文速递 2026-05-26

语音/音乐/音频论文速递 2026-05-26 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 5篇 █████ #语音识别 3篇 ███ #音乐转录 2篇 ██ #语音情感识别 2篇 ██ #多模态模型 1篇 █ #语音编码 1篇 █ #交叉验证 1篇 █ #语音编辑 1篇 █ 📊 论文评分排行榜(27 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Music Transcription with (Almost) No Supervision 10.0分 前50% #音乐转录 🥈 Toward Native Multimodal Modeling: A Roadmap 10.0分 前25% #多模态模型 🥉 Ultra-Low-Bitrate Mel-Spectrogram-based Neural Speech C 9.9分 前25% #语音编码 4. Proactive for Uncertainty: Cause-Aware Error Diagnosis 9.6分 前25% #语音识别 5. WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Re 9.4分 前25% #语音合成 6. Decoding Stimulus Reconstruction-Based Auditory Attenti 8.9分 前50% #交叉验证 7. Exploration of Perceptual Speech Features for Clinical 8.9分 前50% #语音情感识别 8. Continual Speaker Identity Unlearning with Minimal Inte 8.6分 前25% #语音合成 9. SpongeBob: Sync-Aware Harmonious Audio-Visual Generativ 8.6分 前25% #语音编辑 10. FC-TTS: Style and Timbre Control in Zero-Shot Text-to-S 8.4分 前50% #语音合成 11. CosyEdit2: Speech-Editing-Oriented Reinforcement Learni 8.0分 前50% #语音合成 12. cSTMM: A Unified Complex Spherical Student’s \(t\) Mixtur 7.9分 前50% #语音分离 13. Time Segmented Beamforming via Dynamic Programming: The 7.7分 前25% #实时处理 14. Multilingual Phonological Feature Recognition with Self 7.7分 前25% #语音识别 15. Rubato: Transcribing Piano Music with Timestamps 7.5分 前25% #音乐转录 16. A Multimodal Framework for Dementia Detection via Lingu 7.0分 前50% #语音情感识别 17. AVBench: Human-Aligned and Automated Evaluation Benchma 7.0分 前50% #音频生成 18. Test-Time Self-Adaptive Conditioning for Stable Audio-D 7.0分 前50% - 19. The Symmetric Location Problem: a Song of Efficiency an 6.5分 前25% - 20. Hidden in Plain Tokens: Simply Robust, Gradient-Free Wa 6.2分 前25% #音频水印 21. Rethinking Continual Learning for Speech and Audio: A R 6.0分 前50% #语音识别 22. Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for 5.5分 前50% #语音增强 23. Subspace Track-before-Detect for Passive Multi-Target T 5.5分 后50% #声源定位 24. Toward Natural Emotional Text-To-Speech System with Fin 5.0分 前50% #语音合成 25. Zero-Shot Parkinson’s Disease Detection from Speech: Co 5.0分 前50% #大语言模型 26. Score-Agnostic Structure Analysis in Large-Scale Perfor 4.1分 前50% #音乐信息检索 27. StrTransformer: Source-Wise Structured Transformers for 3.3分 后50% - 📋 论文列表 🥇 Music Transcription with (Almost) No Supervision 🔥 10.0/10 | 前50% | #音乐转录 | #循环一致性 | #半监督学习 #领域自适应 | arxiv ...

2026-05-26 · 更新于 2026-07-02 · 13 min · 2671 words

StepAudio 2.5 Technical Report

📄 StepAudio 2.5 Technical Report #统一音频模型 #多任务学习 #强化学习 #语音合成 #语音识别 #实时处理 #模型评估 🔥 8.3/10 | 前25% | #统一音频模型 | #多任务强化学习对齐 | #多任务学习 #强化学习 | arxiv 学术质量 6/7 | 影响力 1.5/2 | 可复现性 0.8/2 | 置信度 高 👥 作者与机构 论文标题: StepAudio 2.5 Technical Report 作者团队: StepFun-Audio Team(贡献者按字母顺序排列,核心贡献者与一般贡献者分开列出) 机构: 未在论文中明确说明,但根据作者团队名称和项目历史推断为 StepFun (阶跃星辰) 的音频团队。 💡 毒舌点评 这份报告像一份精心包装的产品说明书,而非一篇严谨的学术论文。其优点在于清晰地呈现了一个庞大系统的工程设计哲学——“任务特化源于操作规则”,并成功地将ASR、TTS和实时交互塞进了一个共享骨干。然而,对于顶会审稿人而言,这份报告最令人抓狂的是其“技术性模糊”:核心的MoE LLM骨干到底有多大?专家数几何?音频编码器是哪款?统统“未提及”。这就像给你看一辆跑车的赛道成绩,却把引擎盖焊死了不让你看。实验部分,ASR的表格详实可信,但TTS和实时交互的评估则严重依赖自建基准和主观评测,其公平性和可复现性要打个大问号。最遗憾的是,作为一份“技术报告”,它缺乏对关键创新点(如MTP的理论收益边界、RLHF奖励模型的具体设计)的深度分析和消融实验,显得更像是一份内部研发总结,而非可供社区深入研读和复现的学术贡献。 📌 核心摘要 本文介绍了StepAudio 2.5,一个统一的音频-语言基础模型,旨在通过单一共享骨干网络,匹配或超越专用于语音识别(ASR)、语音合成(TTS)和实时语音交互(Realtime)的专用系统。论文的核心论点是,一旦文本和音频共享一个高质量的多模态表示空间,任务间的差异便从架构设计转向了“操作机制”:即数据构建、优化目标和解码约束。基于此,作者提出了一种以强化学习从人类反馈(RLHF)为核心的后训练范式,将其作为定义复杂优化目标的主要机制。该范式结合任务特定的监督微调(SFT)和解码策略,将共享骨干塑造成三种不同的操作模式:ASR分支通过可验证的多头预测(MTP)提升转录效率;TTS分支通过基于偏好的RLHF和上下文丰富的监督实现可控、富有表现力的合成;Realtime分支则通过生成奖励建模在RLHF框架内实现低延迟、角色一致的对话。在标准基准测试上,StepAudio 2.5在ASR、TTS和实时交互任务上均取得了有竞争力的结果。 🔗 开源详情 代码:论文提及了一个用于生成ASR长形式评���数据集(WenetSpeech testnet long)的代码仓库:https://github.com/lawlict/wenetspeech-testnet-long.git。论文未提及StepAudio 2.5模型主体的完整代码开源链接。 模型权重:论文未提及模型权重的公开下载链接(如HuggingFace, ModelScope)。 数据集: 论文中使用的公开数据集包括:AISHELL-1, AISHELL-2, WenetSpeech, FLEURS, LibriSpeech, Common Voice, VoxPopuli, Earnings22。论文未提供这些数据集的直接获取链接。 论文描述了其用于ASR长形式评估的“WenetSpeech testnet long”子集的构建方法,并提供了生成代码的GitHub仓库。 论文未提及TTS和Realtime训练所用具体数据集(特别是其角色矩阵和副语言标注数据)的公开获取方式。 Demo:论文中未提及在线演示链接。 复现材料:论文详细描述了模型架构、训练流程(包括各阶段超参数)和评估方法,但未提供具体的训练配置文件、检查点下载或实验附录的直接链接。 🏗️ 方法概述和架构 StepAudio 2.5的核心架构是一个共享的音频-语言骨干,采用非对称设计(图1)。该架构由三个主要组件构成:1)冻结的音频编码器:负责将原始音频波形转换为紧凑的声学嵌入表示,其参数在训练过程中保持固定,以确保声学特征提取的稳定性。2)轻量级适配器:一个可训练的模块,负责将音频编码器输出的声学嵌入映射到语言模型(LLM)解码器的隐藏空间中。3)大型语言模型解码器:从预训练的文本LLM初始化,是模型的核心,承载语义理解、上下文管理、指令遵循和生成任务。这种设计有意让编码器专注于稳定的声学抽象,而将语义和生成的重担交给解码器,从而使得不同下游任务可以共享大部分模型。 ...

2026-05-25 · 更新于 2026-07-02 · 2 min · 376 words

语音/音乐/音频论文速递 2026-05-25

语音/音乐/音频论文速递 2026-05-25 共分析 19 篇论文 ⚡ 今日概览 📥 抓取 19 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音质量评估 3篇 ███ #语音识别 3篇 ███ #信号处理 3篇 ███ #音频分类 1篇 █ #语音编码 1篇 █ #音频深度伪造检测 1篇 █ #统一音频模型 1篇 █ #医疗音频 1篇 █ 📊 论文评分排行榜(19 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Frame-Aligned Fusion of Canary and WavLM for Non-Intrus 10.0分 前10% #语音质量评估 🥈 Evaluating the Temporal Detection Capability of Integra 10.0分 前10% #音频分类 🥉 UniSRM: A Unified Speech Reward Model for Reasoning-Bas 10.0分 前10% #语音质量评估 4. AffectCodec: Emotion-Preserving Neural Speech Codec wit 10.0分 前10% #语音编码 5. MixFake: Benchmarking and Enhancing Audio Deepfake Dete 10.0分 前10% #音频深度伪造检测 6. A study on weakly-supervised training approaches for ph 9.7分 前10% #语音识别 7. Broad learning system with robust adaptive kernel 8.7分 前25% #信号处理 8. Articulatory strategy as a source of variation in acous 8.5分 前25% #语音识别 9. StepAudio 2.5 Technical Report 8.3分 前25% #统一音频模型 10. Comprehensive Dataset and Signal Processing Framework f 8.0分 前25% #医疗音频 11. Word-Level Modeling with Alignment-Aware Acoustic Fusio 7.7分 前25% #语音质量评估 12. Convex Low-resource Accent-Robust Language Detection in 7.5分 前25% #语音识别 13. Diffusion Domain Expansion: Learning to Coordinate Pre- 7.4分 前50% #扩散模型 14. EvalVerse: Pipeline-Aware and Expert-Calibrated Benchma 7.1分 前50% #音视频 15. Copula-Induced Correntropy for Robust Conjugate Gradien 7.0分 前50% #信号处理 16. Cost-Effective Model Evaluation with Meta-Learning 5.4分 后50% #迁移学习 17. Natural Yet Challenging to Detect: Robust In-the-Wild T 5.2分 后50% #语音合成 18. Self-Calibration DOA Estimation for Movable Antenna Sys 4.0分 后50% #声源定位 19. 6G Communication Networks Enabling Embodied Agents: Arc 2.7分 后50% #信号处理 📋 论文列表 🥇 Frame-Aligned Fusion of Canary and WavLM for Non-Intrusive Intelligibility Prediction of Hearing-Aid-Processed Speech 🔥 10.0/10 | 前10% | #语音质量评估 | #模型融合 | #多模态模型 #预训练 | arxiv ...

2026-05-25 · 更新于 2026-07-02 · 9 min · 1773 words