SagnacAssisted Enhanced OTDR for Distributed Acoustic Sensing: A Standardized Benchmark and Engineering Evaluation Framework

📄 SagnacAssisted Enhanced OTDR for Distributed Acoustic Sensing: A Standardized Benchmark and Engineering Evaluation Framework #信号处理基础 6.6/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ✅ 6.6/10 | 前50% | #信号处理基础 | #信号处理基础 | arxiv 👥 作者与机构 Weiguang Wang, Fugen Wu, Hailing Wang, Xuechen Liang, Xiaobin Li, Ru Han, Tianchang Xie. Affiliations: East China Jiaotong University; School of Materials and Energy, Guangdong University of Technology; Jiangxi Tonghui Technology Group Co., Ltd.; School of Artificial Intelligence and Big Data, Guangzhou Vocational University of Science and Technology. ...

2026-06-05 · 更新于 2026-07-03 · 2 min · 341 words

语音/音乐/音频论文速递 2026-06-05

语音/音乐/音频论文速递 2026-06-05 共分析 47 篇论文 ⚡ 今日概览 📥 抓取 47 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 11篇 ███████████ #语音合成 6篇 ██████ #语音情感识别 3篇 ███ #大语言模型 2篇 ██ #语音增强 2篇 ██ #说话人识别 2篇 ██ #流式处理 1篇 █ #音频编码 1篇 █ 📊 论文评分排行榜(47 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Audio Interaction Model 9.8分 前50% #流式处理 🥈 USAD 2.0: Scaling Representation Distillation for Unive 9.0分 前25% #音频编码 🥉 M2S-AVSR: Modality-aware Multi-view Self-supervised Rep 9.0分 前25% #语音识别 4. Vortex: Efficient and Programmable Sparse Attention Ser 8.9分 前25% #大语言模型 5. UniVoice: A Unified Model for Speech and Singing Voice 8.7分 前25% #语音合成 6. Ouvia: A User-centered Framework for Measuring Usabilit 8.6分 前25% #语音翻译 7. Age-Aware Adapter Tuning for Children's Speech Reco 8.4分 前25% #语音识别 8. MCBench: A Multicontext Safety Assessment Benchmark for 8.4分 后50% #语音识别 9. SuperMemory-VQA: An Egocentric Visual Question-Answerin 8.4分 前25% #基准测试 10. GLASS: GRPO-Trained LoRA for Acoustic Style Steering in 8.2分 前25% #语音合成 11. A Model of Multi-turn Human Persuadability Using Probab 8.2分 前50% - 12. Learning Emotion-discriminative Representations for Zer 8.1分 前25% #语音情感识别 13. FORTE: FOL-guided Optimal Refinement for Text-audio rEt 8.1分 前25% #参数高效微调 14. FiLM-Based Speaker Conditioning of a SpeechLLM for Path 8.0分 前50% #语音识别 15. Task-Vector Arithmetic for Emotional Expressivity Contr 7.9分 前25% #语音合成 16. An Ultra-Low-Bitrate Neural Speech Codec with Plain-to- 7.7分 前25% #语音合成 17. Exploring LLMs for South Asian Music Understanding and 7.7分 前50% #音乐生成 18. SB-RF: Schrödinger Bridge Rectified Flow for One-Step R 7.6分 前25% #语音增强 19. nnAudio 2: Overcoming Dynamic Compilation Barriers and 7.5分 前50% #开源工具 20. Beyond Waveform Robustness: Robust Feature-Vocoder Adve 7.5分 前25% #语音识别 21. FoeGlass: Simple In-Context Learning Is Enough for Red 7.5分 前25% #音频生成 22. ProSarc: Prosody-Aware Sarcasm Recognition Framework vi 7.5分 前25% #语音情感识别 23. Probing Spatial Structure in Pretrained Audio Represent 7.4分 前25% - 24. Forgive or forget: Understanding the context of hate in 7.4分 前50% #音频检索 25. SpeechJBB: Probing Safety Alignment and Comprehension i 7.3分 前25% #语音识别 26. VoCodec: A Low-bitrate Streamable Neural Speech Codec w 7.2分 前50% #语音编码 27. F3-Tokenizer: Taming Audio Autoencoder Latents for Unde 7.2分 前25% #语音合成 28. Beyond WER: A Paired Acoustic Stress Test for Ambient C 7.1分 前50% #语音识别 29. InfoShield: Privacy-Preserving Speech Representations f 7.1分 前50% - 30. Multi-task Learning is Not Enough: Representational Ent 6.9分 前50% #语音识别 31. Sound Effects Dataset Unification With the Universal Ca 6.9分 前50% #音频分类 32. To Be Multimodal or Not to Be: Query-Adaptive Audio-Vis 6.8分 前50% #说话人识别 33. SHALA-LLM: Smartly Handling Ambiguous Labels in Alignin 6.8分 前50% #语音情感识别 34. SagnacAssisted Enhanced OTDR for Distributed Acoustic S 6.6分 前50% #信号处理基础 35. Domain-Aware Mispronunciation Detection and Diagnosis U 6.6分 前50% #图神经网络 36. CoSTA: Cognitive-State-Conditioned TTS Data Augmentatio 6.5分 前50% #语音合成 37. Beyond Text Following: Repairable Arbitration Reversals 6.4分 前50% #音频问答 38. Enhancing Audio Captioning with Auxiliary AudioSet Sema 6.3分 前50% - 39. Do speech foundation models perceive speaker similarity 6.3分 前50% #说话人识别 40. Efficient Punctuation Restoration via Weighted Lookahea 6.3分 前50% #大语言模型 41. Automatic Labelling of Speech Translation Errors 6.1分 前50% #语音识别 42. Towards Truly Multilingual ASR: Generalizing Code-Switc 5.9分 前50% #语音识别 43. An ERP Study on Recursive Locative Processing in Mandar 5.9分 前50% - 44. Multilingual Detection of Alzheimer's Disease from 5.7分 后50% #迁移学习 45. DBHN-Net: Dual-Branch Hybrid Neural Network For Low-Com 5.4分 前25% #语音增强 46. Beyond Generative Decoding: Discriminative Hidden-State 5.3分 前50% #多模态模型 47. Revisiting Lexicon Evaluation in Unsupervised Word Disc 1.0分 前25% #语音识别 📋 论文列表 🥇 Audio Interaction Model 9.8/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1.0/1 | 影响 1.5/1.5 | 开源 1.1/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-05 · 更新于 2026-07-03 · 28 min · 5851 words

A Second-Order Cepstral Signature of Contact-Vibration Sounds Reproduced by Laptop Loudspeakers: A Synthetic Case Study

📄 A Second-Order Cepstral Signature of Contact-Vibration Sounds Reproduced by Laptop Loudspeakers: A Synthetic Case Study #倒谱分析 #信号处理基础 4.8/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 0.5/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 0.3/1.5 📝 4.8/10 | 后50% | #信号处理基础 | #倒谱分析 | arxiv 👥 作者与机构 Jim Salsman, TalkNicer, Inc. 💡 毒舌点评 一篇非常初步的、探索性的合成案例研究。其核心思想(用“二阶倒谱”描述接触振动声)是新颖的,但实现方式极其简化,验证严重不足。论文花费大量篇幅构建并描述了一个六阶段的合成信号链,但这本质上是一个“自证预言”的玩具模型——你精心设计了每一步,然后去验证你预先设定的结论。整个分析缺乏任何真实世界的验证,使得所有结论都停留在“如果我的模型正确,那么……”的层面。作者诚实地列出了局限性,但这也正说明了本文目前只能算一个技术备忘录,远未达到发表级别。创新性虽有,但被其薄弱的实验基础和几乎为零的工程实用性所抵消。 📌 核心摘要 本文提出使用二阶倒谱(即对一阶倒谱再次进行倒谱分析)作为一种探索性描述符,来刻画通过笔记本电脑扬声器播放的手机振动接触声音的感知独特性。作者构建了一个包含六个阶段的合成信号链模型(机械产生、表面/空气传播、麦克风采集、编码/解码、笔记本播放、再录制/后处理),并在此合成数据上进行分析。结果显示,一阶倒谱的周期性在整个信号链中得以保留,而更清晰的二阶倒谱双峰性结构在机械源阶段(阶段1)和笔记本扬声器播放阶段(阶段5)最为明显。作者将此结果解释为支持一个假设:笔记本电脑的播放可能重新强调了潜在于接触振动中的、在中间录制和编码形式中表达不够清晰的周期性结构。 🔗 开源详情 代码:未提供。论文声明使用ChatGPT 5.5协助生成代码,但未公开。 模型权重:未提及。 数据集:合成数据。论文中称“合成数据……可按需提供”,但未提供下载链接或访问方式。 Demo:未提及。 复现材料:未提及。 论文中引用的开源项目:未提及。 🏗️ 方法概述和架构 本文的核心方法是构建一个六阶段的合成信号链,并对每个阶段的输出信号进行一阶和二阶倒谱分析。 ...

2026-06-04 · 更新于 2026-07-03 · 2 min · 260 words

The Differentiable Auditory Loop (DAL): An ML Framework for Hyper-Personalized Hearing Aids

📄 The Differentiable Auditory Loop (DAL): An ML Framework for Hyper-Personalized Hearing Aids #语音增强 #信号处理基础 7.1/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.9/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.1/10 | 前50% | #语音增强 | #信号处理基础 | arxiv 👥 作者与机构 Alejandro Ballesta Rosen, Jason Mikiel-Hunter, Julian Maclaren, Jack Collins, Richard F. Lyon, Simon Carlile. 机构:Google Research Australia 和 Macquarie University. ...

2026-06-04 · 更新于 2026-07-03 · 2 min · 313 words

语音/音乐/音频论文速递 2026-06-04

语音/音乐/音频论文速递 2026-06-04 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 3篇 ███ #音频分类 2篇 ██ #音频生成 2篇 ██ #语音增强 2篇 ██ #多模态模型 1篇 █ #语音编码 1篇 █ #空间音频 1篇 █ #音乐生成 1篇 █ 📊 论文评分排行榜(22 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Multilingual Long-Form Speech Instruction Following: KI 10.0分 前10% #语音识别 🥈 Drift-Augmented Scoring: Text-Derived Noise Robustness 10.0分 前25% #音频分类 🥉 DetectZoo: A Unified Toolkit for AI-Generated Content D 9.3分 前25% #多模态模型 4. CleanCodec: Efficient and Robust Speech Tokenization vi 8.8分 前25% #语音编码 5. Read What You Hear: Reference-Free Hypotheses Evaluatio 8.6分 前25% #语音识别 6. UAT: Unified Audio-Text Diffusion for Audio Generation, 8.5分 前25% #音频生成 7. Flow-HOA: Generative Joint Optimization for Ambisonics 7.9分 前25% #空间音频 8. Test-Time Compute Scaling for ASR with Depth-Conditione 7.8分 前25% #语音识别 9. Channel-Oriented Design for EEG-to-Music Reconstruction 7.7分 前25% #音乐生成 10. Entity Binding Failures in Speech LLM Reasoning: Diagno 7.5分 前25% #语音问答 11. Video2LoRA: Parametric Video Internalization for Vision 7.5分 前50% #参数高效微调 12. Feasibility of Time-Domain DNN-Based Speech Enhancement 7.2分 前50% #语音增强 13. Differentiable Articulatory Copy-Synthesis of Biphonic 7.1分 前50% #音频生成 14. The Differentiable Auditory Loop (DAL): An ML Framework 7.1分 前50% #语音增强 15. Masked Wavelet Scattering Transform Neural Field for So 6.7分 前50% #音频质量评估 16. SHB-AE: Spherical harmonic beamforming based Ambisonics 6.7分 前50% #音频编码 17. SURF: Separation via Unsupervised Remixing Flow 6.4分 前25% #无监督学习 18. Gauss Circle Lattices with Geometric Convolutions for S 6.0分 前50% - 19. Plan First, Judge Later, Run Better: A DMAIC-Inspired A 5.8分 前50% #工业应用 20. Representation Matters in Randomized Smoothing for Audi 5.7分 前50% #音频分类 21. Neural Radiated-Noise Fields for Unmanned Underwater Ve 5.1分 前50% - 22. A Second-Order Cepstral Signature of Contact-Vibration 4.8分 后50% #信号处理基础 📋 论文列表 🥇 Multilingual Long-Form Speech Instruction Following: KIT's Submission to IWSLT 2026 10.0/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-04 · 更新于 2026-07-03 · 14 min · 2920 words

MelT: GEMM-Native NDFT for Efficient Single-Stage Audio Frontends on Modern Accelerators

📄 MelT: GEMM-Native NDFT for Efficient Single-Stage Audio Frontends on Modern Accelerators #信号处理基础 7.3/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ✅ 7.3/10 | 前50% | #信号处理基础 | #信号处理基础 | arxiv 👥 作者与机构 Augusto Camargo, Marcelo Finger Instituto de Ciências Matemáticas e de Computação, University of São Paulo, Brazil 💡 毒舌点评 这篇论文的核心论点——“把信号处理流水线硬塞进GEMM里能更快”——在工程上完全正确,也经受住了多平台基准测试的考验。但它在顶会主会(NeurIPS/ICML)的“创新性”标尺下会显得有些“薄”。论文的主要贡献是“重新表述”和“评估”,而非提出一个全新的数学变换或架构。对于追求理论突破的审稿人来说,这可能被看作是一篇扎实的“系统应用”或“工程优化”论文,其价值更易被MLSys或ICLR的“Systems for ML”轨道认可。不过,文中坦诚地指出了与传统方法的数学非等价性(先投影再能量 vs. 先能量再聚合),这种诚实值得称赞,避免了常见的夸大其词。跨硬件、测能耗、开源代码,这套组合拳打得很实在,为“绿色AI”在音频前端的落地提供了一个具体的范例。然而,下游任务的验证仅限于相对简单的分类,缺乏在语音识别(ASR)、音频理解等更复杂端到端任务上的锤炼,这使得“表示保真度”的论证略显单薄。 ...

2026-06-02 · 更新于 2026-07-03 · 3 min · 500 words

语音/音乐/音频论文速递 2026-06-02

语音/音乐/音频论文速递 2026-06-02 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 9篇 █████████ #语音合成 5篇 █████ #自监督学习 2篇 ██ #多模态模型 2篇 ██ #音频分类 2篇 ██ #计算机视觉 1篇 █ #音乐推荐 1篇 █ #语音编辑 1篇 █ 📊 论文评分排行榜(35 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Project SPARROW and the Future of Conservation Technolo 10.0分 前50% #计算机视觉 🥈 Multimodal Music Recommendation System using LLMs 10.0分 前50% #音乐推荐 🥉 Sympatheia: Emotionally Adaptive Voice Assistant with C 9.6分 前25% #语音合成 4. MOSS-Audio Technical Report 9.2分 前25% #语音识别 5. UniVocal: Unified Speech-Singing Code-Switching Synthes 8.9分 前25% #语音合成 6. PolySpeech-100: A Large-Scale Benchmark for Speech Unde 8.8分 前50% #语音识别 7. SpeechEditBench: A Bilingual Multi-Attribute Benchmark 8.7分 前25% #语音编辑 8. Context-aware child-directed speech detection from long 8.5分 前25% #自监督学习 9. RRP-Voice: A Longitudinal Dataset and Benchmark for Rec 8.3分 前50% #数据集 10. MURMUR: An Efficient Inference System for Long-Form ASR 8.3分 前50% #语音识别 11. Local Diagnostics of Continuous Normalizing Flow for Ou 8.1分 前50% #语音合成 12. WAXAL-NET: Finetuned Edge ASR Across 19 African Languag 8.0分 前25% #语音识别 13. Dynamic Interaction-Aware and Causality-Disentangled Fr 7.8分 前25% #多模态模型 14. Temporally-Aligned Evaluation for Audio-Driven Talking 7.6分 前25% #语音合成 15. HAIM: Human-AI Music Datasets for AI Music Production T 7.5分 前50% - 16. Spiking and Event-driven Neuromorphic Mamba Models for 7.5分 前50% #语音识别 17. JenBridge: Adaptive Long-Form Video Soundtracking acros 7.3分 前25% #音乐生成 18. MelT: GEMM-Native NDFT for Efficient Single-Stage Audio 7.3分 前50% #信号处理基础 19. Description and Discussion on DCASE 2026 Challenge Task 7.2分 前50% #无监督学习 20. SALSA: Speech Aware LLM Adaptation via Learned Steering 7.2分 前25% #语音识别 21. Advancing Electrolaryngeal Speech Enhancement Through S 7.1分 前50% #语音增强 22. DUET: Unified Dual-Space Emotion Control for Diffusion 7.1分 前25% #语音合成 23. When Tabular Foundation Models Transfer Across Modaliti 7.1分 前50% #音频分类 24. Echo: A Joint-Embedding Predictive Architecture for Spe 7.0分 前50% #语音识别 25. AnyMo: Scaling Any-Modality Conditional Motion Generati 7.0分 前50% #多模态模型 26. Kinship Verification Using Voice 6.9分 前50% #声纹识别 27. Quality Audio Prototyping: a prototype system for unifi 6.9分 前50% #音频检索 28. A Lightweight Slot-Attention Framework for Multi-Instru 6.7分 前50% #音乐信息检索 29. A 1000-hour EEG-EMG-audio dataset of Japanese speech pr 6.5分 前50% - 30. DAStatFormer: A Hybrid Multibranch Transformer with Sta 6.4分 前50% #音频事件检测 31. Parameter-efficient Dual-encoder Architecture with Diff 6.4分 前25% #音频分类 32. Beyond the Mouth: Upper-Face Affective Cues in Audiovis 5.5分 前50% #语音识别 33. SN-WER: Script-Normalized WER for Multi-Script Indic AS 5.3分 前50% #语音识别 34. Privacy-preserving Prosody Representation Learning 4.9分 前50% #自监督学习 35. AI Slop or AI-enhancement? Student perceptions of AI-ge 3.7分 后50% - 📋 论文列表 🥇 Project SPARROW and the Future of Conservation Technology 10.0/10 | 创新 2.0/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1.0/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-02 · 更新于 2026-07-03 · 21 min · 4469 words

On the Use of Dereverberation for Acoustic Feedback Cancellation

📄 On the Use of Dereverberation for Acoustic Feedback Cancellation #语音增强 #信号处理基础 ✅ 6.7/10 | 前50% | #语音增强 | #信号处理基础 | arxiv 学术质量 4.8/7 | 影响力 1/2 | 可复现性 0.9/2 | 置信度 高 👥 作者与机构 本文作者为 Basil Liekens、Arnout Roebben、Toon van Waterschoot 和 Marc Moonen。他们均隶属于比利时鲁汶大学(KU Leuven)的 ESAT 实验室。其中 Basil Liekens 和 Arnout Roebben 被标注为同等贡献。研究得到了鲁汶大学研究委员会项目 C14-21-0075 以及比利时佛兰德斯研究基金会(FWO)的博士后奖学金 11PDH24N 的资助。 📌 核心摘要 本文提出了一种将声学反馈消除(AFC)问题重新诠释为去混响(DR)问题的理论框架。核心论点是,在“闭环延迟足够长”和“闭环传递函数可合理近似为FIR滤波器”这两个温和条件下,麦克风信号中的反馈分量可以被视为源信号晚期混响的一部分。因此,现有的去混响算法(如WPE)可以直接用于联合执行去混响与反馈消除任务。论文通过理论推导和仿真实验证明了该视角的可行性,并展示了所提方案在干扰抑制、信号质量和语音可懂度指标上优于传统的连续自适应滤波器(CAF)基线。 🔗 开源详情 代码:论文指出代码已在引用文献 [11] 中提供(“with code made available in [11]”),表明作者公开了实现。但论文本身未直接给出代码仓库链接。 模型权重:论文中未提及模型权重。 数据集:论文中提及使用了以下数据集,但未提供具体获取链接或开源协议信息: ...

2026-06-01 · 更新于 2026-07-03 · 2 min · 226 words

Sound effects in media:A comparative analysis of recorded and synthetic samples in live-action and animation

📄 Sound effects in media:A comparative analysis of recorded and synthetic samples in live-action and animation #音频生成 #音频质量评估 #信号处理基础 📝 5.7/10 | 前50% | #音频生成 | #音频质量评估 | #信号处理基础 | arxiv 学术质量 4/7 | 影响力 1.2/2 | 可复现性 0.5/2 | 置信度 中 👥 作者与机构 作者:Nelly Garcia, Joshua Reiss 机构:Centre for Digital Music (C4DM), Queen Mary University of London 💡 毒舌点评 这篇论文像是一个音频专业的本科毕业设计,野心不小但手上功夫差了点。想用机器学习和用户研究来评判“程序化音频”这把双刃剑到底锋不锋利,想法是好的。但问题在于,你的尺子(MUSHRA评估)根本量不准你想量的东西(合成声音本身的质量)。你让一群专家评价“整体音效设计”,里面混着混音、同步、创意,最后得出“合成声音在动画日常场景里不行”的结论,这不是隔靴搔痒吗?方法部分写的像实验笔记,特征选择理由一笔带过,统计结果报告得乱七八糟,自由度都没有。最搞笑的是,你号称发现了“至少三个需要优化的声音效应”,结果通篇没说清楚是哪三个。这就像医生告诉你病了三个地方,但不说具体是哪。结论呢?又把“上下文很重要”这种老生常谈当宝贝。说白了,这篇论文最大的贡献可能是为后续研究者提供了一个“如何设计不严谨音频评估实验”的反面案例。 📌 核心摘要 本研究旨在评估程序化合成音效在不同类型(动画与真人实拍)视频场景中,相较于传统录音库样本的“可信度”。研究者构建了一个包含8个场景(4个动画,4个真人实拍)的数据集,每个场景制作了三种音效设计版本(全真实样本、混合合成样本、随机错误样本)。客观分析上,使用Essentia库提取了78个低层音频特征,利用XGBoost和Random Forest进行二分类(合成 vs. 真实),并通过SHAP和PCA分析关键特征。主观评估上,邀请了20名音频领域专业人士(最终有效样本18人),通过WebMUSHRA工具对视频的“整体音效设计质量”进行0-100分评分,并使用Google表单收集对不真实合成声音的定性反馈。研究发现:1) 真实音效设计在所有场景中评分均高于混合合成设计;2) 在模拟日常生活的动画场景(如“Drama (C)”)和科幻动画场景中,真实与混合设计的评分差异在统计上最为显著;3) 通过分类结果和用户反馈,识别出如“液体”、“身体击打”等模型需要优化,并关联到“增强低频”、“强调首次冲击”等改进方向及对应的音频特征域(如频率域、时频域)。 🔗 开源详情 代码:论文中未提及作者公开任何分析代码(如特征提取脚本、机器学习训练/评估代码)。 模型权重:论文中未提及公开任何训练好的分类模型。 数据集: 描述:自建了一个包含1616个音频样本的数据集,分为32个类别(16个合成类别,16个库样本类别)。样本格式为单声道、16位、44.1kHz、5秒长度。 来源:合成样本来自Nemisindo在线程序音频引擎;库样本来自BBC Sound Effects Library, Hybrid Sound Library, 50-ESC dataset [16], Soundsnap。 公开状态:论文中未提供该自建数据集的公开下载链接或开源协议。 Demo: 用于主观评估的视频可在作者YouTube频道观看:https://www.youtube.com/@nellyngz/videos (此为内容展示,非可下载数据集)。 用于主观评估的WebMUSHRA在线测试工具链接:论文未提供作者自己的测试实例链接,仅提到了工具名称。 用于收集定性反馈的Google表单链接:https://docs.google.com/forms/d/e/1FAIpQLSd4_IwgM0plWo2ug5Odu89mgm3yYfWCrwwrR1e75-iryGI3aw/viewform 复现材料:论文未提供训练配置、特征提取后的数据文件、模型检查点、或用于复现主观实验的视频包等具体复现材料。复现主要依赖于文本描述的方法和提供的外部工具/数据源链接。 论文中引用的开源项目: Essentia: https://essentia.upf.edu Nemisindo: https://nemisindo.com BBC Sound Effects Library: https://sound-effects.bbcrewind.co.uk Soundsnap: https://www.soundsnap.com WebMUSHRA: 论文未提供其项目主页链接。 XGBoost, Random Forest, SHAP, PCA: 论文仅引用,未提供项目链接。 🏗️ 方法概述和架构 本文研究方法可分为三个相互关联的阶段:数据集构建、客观特征分析和主观用户评估。 ...

2026-06-01 · 更新于 2026-07-03 · 2 min · 299 words

语音/音乐/音频论文速递 2026-06-01

语音/音乐/音频论文速递 2026-06-01 共分析 23 篇论文 ⚡ 今日概览 📥 抓取 23 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 6篇 ██████ #音乐生成 3篇 ███ #语音翻译 2篇 ██ #语音识别 2篇 ██ #自监督学习 1篇 █ #口音识别 1篇 █ #生成对抗网络 1篇 █ #音频事件检测 1篇 █ 📊 论文评分排行榜(23 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Chatterbox-Flash: Prior-Calibrated Block Diffusion for 10.0分 前25% #语音合成 🥈 UniAudio-Token: Empowering Semantic Speech Tokenizers w 10.0分 前25% #语音合成 🥉 Escaping the Linearity Trap: Manifold Detours for Black 9.7分 前25% #自监督学习 4. ImmersiveTTS: Environment-Aware Text-to-Speech with Mul 9.3分 前25% #语音合成 5. SwanVoice: Expressive Long-Form Zero-Shot Speech Synthe 8.9分 前50% #语音合成 6. AnchorSteer: Self-Discovered Concept Injection for Stru 8.6分 前50% #音乐生成 7. MindVoice: Reconstructing Intelligible Speech from Non- 8.5分 前25% #语音合成 8. Extracting accent features in spoken Brazilian Portugue 8.3分 前50% #口音识别 9. UNISON: A Unified Sound Generation and Editing Framewor 8.2分 前25% #语音合成 10. FiPA-SR – FiLM-Conditioned Perceptually Informed Audio 8.1分 前25% #生成对抗网络 11. DOA: Training-Free Decoder-Only Attention Policy for Lo 7.8分 前25% #语音翻译 12. GaMi: Geometry-Agnostic Material Identification via Cro 7.8分 前50% - 13. Improving acoustic drone detection generalization throu 7.7分 前50% #音频事件检测 14. Audio Pirates: Black-box Audio Watermark Removal via Di 7.4分 前25% #扩散模型 15. Latent Space Disentanglement via Activation Steering fo 7.3分 后50% #音乐生成 16. Scaling Conversational Hungarian ASR: The BEA-Dialogue+ 7.2分 前50% #语音识别 17. On the Use of Dereverberation for Acoustic Feedback Can 6.7分 前50% #语音增强 18. Towards Streaming Synchronized Spatial Audio Generation 6.5分 前50% #自回归模型 19. 3DAE: Binaural Quality Assessment for Audio Novel View 6.5分 前50% #音频质量评估 20. OpenSTBench: Beyond Semantic Evaluation for Speech Tran 6.0分 前50% #语音翻译 21. Sound effects in media:A comparative analysis of record 5.7分 前50% #音频生成 22. Mental Damage: Caption Poisoning Attacks on Retrieval-A 5.6分 前50% #音乐生成 23. A Unified and Reproducible Experimentation Framework fo 5.5分 前50% #语音识别 📋 论文列表 🥇 Chatterbox-Flash: Prior-Calibrated Block Diffusion for Streaming Zero-Shot TTS 🔥 10.0/10 | 前25% | #零样本语音合成 | #Transformer | #块扩散解码 #流式处理 | arxiv ...

2026-06-01 · 更新于 2026-07-03 · 12 min · 2552 words