The effect of micro-changes in the pluck trajectory on the sound of an acoustic guitar

📄 The effect of micro-changes in the pluck trajectory on the sound of an acoustic guitar #声学测量 #信号处理基础 6.8/10 | 创新 0.8/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 6.8/10 | 前50% | #信号处理基础 | #声学测量 | arxiv 👥 作者与机构 作者:Marek Pluta, Jan Jasiński, Daniel Tokarczyk, Julia Grygiel 机构:AGH University of Krakow, al. Mickiewicza 30, Krakow, Poland ...

2026-06-24 · 更新于 2026-07-02 · 2 min · 343 words

语音/音乐/音频论文速递 2026-06-24

语音/音乐/音频论文速递 2026-06-24 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 6篇 ██████ #语音增强 6篇 ██████ #语音合成 2篇 ██ #多模态模型 2篇 ██ #音乐生成 2篇 ██ #信号处理基础 2篇 ██ #音频深度伪造检测 1篇 █ #对比学习 1篇 █ 📊 论文评分排行榜(39 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 ZONOS2 Technical Report 10.0分 前25% #语音合成 🥈 Layer-wise Probing of wav2vec 2.0 and Whisper for Conso 9.5分 前50% #语音识别 🥉 CN-NewsTTS Bench: a target-level automatic benchmark fo 9.2分 前10% #语音合成 4. BanglaFake: Constructing and Evaluating a Specialized B 9.0分 后50% #音频深度伪造检测 5. Data Scale, Not Latency, Shapes Cross-Lingual Encoder T 9.0分 前25% #语音识别 6. Breaking Shortcut Learning for Cross-Trial EEG-Guided T 8.6分 前50% #对比学习 7. AVOC: Enhancing Hour-Level Audio-Video Understanding in 8.4分 前25% #多模态模型 8. SphereVBx: Spherical Variational Bayes Clustering for S 8.3分 前50% #无监督学习 9. ParaPairAudioBench: Paralinguistic Pairwise Audio Bench 8.2分 前50% #语音质量评估 10. video-SALMONN-R\(^3\): Learning to ReWatch, ReAsk, and Re 8.2分 前10% #多模态模型 11. Audio-visual Contrastive Alignment for Diffusion-based 8.1分 前25% #语音增强 12. Perceptual Evaluation of Higher-Order Ambisonic Codecs 8.0分 前50% #音频编码 13. DTT-BSR+: A Generative-Regression Cascade for Music Sou 8.0分 前25% #生成对抗网络 14. Heterogeneous 2D/1D Signal Representation Fusion for Un 7.6分 前50% - 15. Selective Capability Unlearning in End-to-End Spoken La 7.6分 前25% - 16. A Multi-Stage Separation-and-Classification Framework G 7.5分 前50% #音频分类 17. Progressive Alignment Objectives for Aligner-Encoder ba 7.5分 前25% #语音识别 18. Comparative Reasoning: Making an Audio Language Model B 7.5分 前25% #语音情感识别 19. VieSpeaker: A Large-Scale Vietnamese Speaker Recognitio 7.5分 前25% #说话人识别 20. Suppressing spectral edge effects in Schroeder Harmonic 7.3分 前50% #语音增强 21. Real-Time Interactive Music Generation via Data-Free St 7.1分 前50% #音乐生成 22. A Methodology for Characterizing Underwater Radiated No 7.0分 前50% #信号处理基础 23. A Fusion-Aware Two-Stage Framework for Mispronunciation 7.0分 前25% #语音识别 24. Neuromorphic Speech Enhancement with Dual-Branch Spikin 7.0分 前50% #语音增强 25. NeuroSonic: Conditional Flow Matching for EEG-to-Speech 7.0分 前50% #语音生成 26. The effect of micro-changes in the pluck trajectory on 6.8分 前50% #信号处理基础 27. Evaluation of Headrest-Integrated Loudspeakers for Enha 6.8分 前50% - 28. Statistical validation and full-sphere extension of a B 6.7分 前50% #音频质量评估 29. Beyond U-Net: A Latent-Representation-Aligned Skip-Free 6.6分 前50% #语音增强 30. Measuring User's Mental Models of Speech Translatio 6.6分 前50% #语音翻译 31. Audio–Image Alignment as a Continued-Pretraining Stage 6.2分 前50% #语音识别 32. Poster: Exploring the Limits of Audio-Based Detection o 6.2分 前50% - 33. Joint Learning of Covariance Estimation and White Noise 5.8分 前50% #语音增强 34. Sonus Health: Calibrated Heart-Murmur Detection from Sm 5.7分 前50% #音频事件检测 35. Autoencoder based optimized SSL representations: Comple 5.5分 前50% #语音识别 36. It's Complicated: On the Design and Evaluation of A 5.5分 前50% #大语言模型 37. Digital Revival: Acoustic Documentation and Digital Rea 5.3分 后50% #音乐生成 38. Aligning MusicLLM with Emotion using Instruction Tuning 4.9分 后50% #音乐情感识别 39. A Variational-Flow Analysis of StoRM under Noise-Power 4.4分 前50% #语音增强 📋 论文列表 🥇 ZONOS2 Technical Report 10.0/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

2026-06-24 · 更新于 2026-07-02 · 21 min · 4472 words

Single frequency filtering based multi-speaker direction of arrival estimation from stereo recordings

📄 Single frequency filtering based multi-speaker direction of arrival estimation from stereo recordings #信号处理基础 #语音增强 7/10 | 创新 1/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7/10 | 前50% | #语音增强 | #信号处理基础 | arxiv 👥 作者与机构 Sushmita Thakallapalli (1), Sudarsana Reddy Kadiri (2), Nilesh Madhu (3), Suryakanth V Gangashetty (1) International Institute of Information Technology, Hyderabad, India University of Southern California, USA Ghent University - imec, Belgium 💡 毒舌点评 这篇论文就像一位精心调校的老派工程师,对信号处理的经典工具(GCC, SFF)进行了系统性的“体检”和“改装”。优点在于实验做得扎实、数据集公开、对比公平,甚至“发明”了一套让SFF和STFT参数可比的方法,这份严谨在信号处理领域值得尊敬。缺点是创新性确实乏力,SFF-PHAT-env本质上就是给已有的SFF-env“贴了张PHAT的标签”,核心思想是“拿来主义+微调”,在深度学习横行的今天显得有些“复古”。摘要里罗列四大贡献点,读起来像在凑数,反而让核心贡献模糊了。更致命的是,没有提供代码,对于一个强调“公平对比”和“参数选择方法”的论文来说,这极大削弱了其可复现性和说服力——毕竟,谁愿意去调那些神秘的\(r\)值和字典大小呢?总的来说,这是一篇扎实但缺乏惊喜的信号处理工作,适合作为基准论文,而非开创性研究。 ...

2026-06-17 · 更新于 2026-07-02 · 2 min · 262 words

语音/音乐/音频论文速递 2026-06-17

语音/音乐/音频论文速递 2026-06-17 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 9篇 █████████ #语音合成 4篇 ████ #音频分类 3篇 ███ #语音增强 2篇 ██ #多模态模型 2篇 ██ #强化学习 1篇 █ #语音活动检测 1篇 █ #说话人验证 1篇 █ 📊 论文评分排行榜(35 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 One-Step Token-to-Waveform Generation with MeanFlow in 9.3分 前10% #语音合成 🥈 Synergizing Zero-Shot Cross-Lingual Alzheimer Detection 9.1分 前25% - 🥉 When Multiple Scripts Matter: Evaluating ASR in Clinica 9.1分 前10% #语音识别 4. Grounding Spoken LLMs in Multi-Speaker Audio via Diariz 8.5分 前25% #语音识别 5. ELSA: Acoustic Event-Level Semantic Alignment for Fine- 8.5分 前25% - 6. A 399uW 114.3 dB DR Companding Readout ASIC for MEMS Mi 8.2分 前25% - 7. Are you speaking my languages? On spoken language adher 8.0分 后50% #语音识别 8. From Signals to Patterns: Non-Invasive Tuberculosis Det 7.9分 前25% - 9. Next-Turn: Duration-Aware Streaming Endpoint Detection 7.9分 前50% #语音合成 10. Decision-Driven Geosteering Under Uncertainty: A Unifie 7.8分 前50% #强化学习 11. Perceptual compensation for tonal context in self-super 7.7分 前50% #语音识别 12. JoyAI-VL-Interaction: Real-Time Vision-Language Interac 7.7分 前50% #语音合成 13. PhASE-Flow: Phonetic-Conditioned Acoustic Flow Matching 7.6分 前25% #语音增强 14. Non-Autoregressive Minimum Bayes' Risk Decoding for 7.6分 前25% - 15. SpeechDx: A Multi-Task Benchmark for Clinical Speech AI 7.6分 前25% #语音识别 16. Vibrato Expression Control for Singing Voice Conversion 7.5分 前25% - 17. Improving low-resource ASR using bilingual fine-tuning 7.5分 前50% #语音识别 18. Turning music identification into a neural forward pass 7.4分 前50% #音频分类 19. Direction of arrival estimation from distant microphone 7.3分 前50% #语音活动检测 20. DeSRPA: Decoupled Speech Role-Playing Agent via Inferen 7.3分 前50% #语音合成 21. L-Proto: Language-Aware Episodic Prototypical Training 7.1分 前50% #说话人验证 22. Single frequency filtering based multi-speaker directio 7.0分 前50% #语音增强 23. MLLP-VRAIN UPV system for the IWSLT 2026 Simultaneous S 6.9分 前50% #语音识别 24. Reading between the Lines: Leveraging Large Language Mo 6.8分 前50% #语音情感识别 25. A Closer Look at Failure Modes in Temporal Understandin 6.6分 前50% #多模态模型 26. MVEB: Massive Video Embedding Benchmark 6.5分 前50% #基准测试 27. Transductive Zero-Shot Audio Classification with Audio- 6.4分 前50% #音频分类 28. A Neuromorphic Trigger for Efficient Audio Event Detect 6.2分 前50% #音频事件检测 29. Learning task-specific subspaces via interventional pos 6.2分 前50% #自监督学习 30. Embedded Machine Learning for Microcontroller-Class Edg 6.0分 前50% - 31. Descriptor: Certus Caliber Classification Gunshot Datas 5.9分 前50% #音频分类 32. AI-based Cognitive-linguistic Features for Dementia Ass 5.8分 前50% #语音识别 33. An Analysis of the Effectiveness of Synthetic Speech Da 5.7分 前50% #语音识别 34. OlfactProfile: Profile-Conditioned Odor Prediction from 5.6分 前50% #多模态模型 35. Intelligibility of Speech in Noise: Investigating Contr 5.5分 前50% - 📋 论文列表 🥇 One-Step Token-to-Waveform Generation with MeanFlow in Latent Space 9.3/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

2026-06-17 · 更新于 2026-07-02 · 21 min · 4445 words

Dolph2Vec: Self-Supervised Representations of Dolphin Vocalizations

📄 Dolph2Vec: Self-Supervised Representations of Dolphin Vocalizations #音频分类 #自监督学习 #生物声学 #信号处理基础 7.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.2/10 | 前50% | #音频分类 | #自监督学习 | #生物声学 #信号处理基础 | arxiv 👥 作者与机构 作者: Chiara Semenzin (École Normale Supérieure, Paris, France) Faadil Mustun (École Normale Supérieure, Paris, France) Roberto Dessì (Not Diamond, San Francisco, USA) Pierre Orhan (Institut du Cerveau, Paris, France) Alexis Emanuelli (École Normale Supérieure, Paris, France) Yair Lakretz (École Normale Supérieure, Paris, France) Gonzalo de Polavieja (Champalimaud Foundation, Lisbon, Portugal) Germán Sumbre (École Normale Supérieure, Paris, France) 机构:École Normale Supérieure (巴黎高等师范学院), Not Diamond, Institut du Cerveau, Champalimaud Foundation。 💡 毒舌点评 这篇论文的出发点——为特定物种构建自监督学习(SSL)模型——是生物声学中一个有价值且清晰的方向。然而,其“顶会级”的呈现背后存在明显短板。首先,核心宣称的“首个大规模物种特异性SSL模型”和“发布数据集”存在水分。论文仅在一个来源、环境高度特定(半圈养红海宽吻海豚)的种群数据上训练,其“大规模”仅指相对过去的小数据集,但数据的生态多样性和泛化能力存疑。宣称“发布”数据集,但正文和附录均未提供任何实际链接,这削弱了可复现性和影响力声明。其次,实验评估相对基础且避重就轻。仅使用线性探测(逻辑回归)评估冻结表征,这是SSL的初步评估标准,但论文未进行任何微调实验以证明模型潜力,也未在更广泛的海豚声音数据集或与其他物种的交叉评估上验证其主张的“物种特异性优势”。在检测任务上,Dolph2Vec与BioLingual几乎持平(67.8 vs 67.6 mAP),但在分类任务上的提升(82.0% vs 74.5%)虽显著,却未通过统计检验论证其显著性。最后,对代码本(codebook)的可解释性分析流于表面。虽然展示了单元与哨声类别的关联,但未能提供令人信服的证据表明这些单元真正编码了“亚哨声结构”而非仅仅是统计上的高频片段,也未设计实验来验证这些单元的预测性或功能性作用。总而言之,这是一篇扎实的系统论文,但创新声明需更多实质性证据支撑,评估深度有待加强。 ...

2026-06-12 · 更新于 2026-07-02 · 2 min · 314 words

语音/音乐/音频论文速递 2026-06-12

语音/音乐/音频论文速递 2026-06-12 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 6篇 ██████ #语音识别 4篇 ████ #音频分类 2篇 ██ #语音翻译 2篇 ██ #语音增强 2篇 ██ #音频生成 1篇 █ #多模态模型 1篇 █ #说话人识别 1篇 █ 📊 论文评分排行榜(27 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Self-Guidance: Enhancing Neural Codecs via Decoder Mani 9.7分 前25% #语音合成 🥈 Ontology Memory-Augmented ASR Correction for Long Text- 9.6分 前25% #语音识别 🥉 Emo-LiPO: Listwise Preference Optimization for Fine-Gra 9.3分 前50% #语音合成 4. AudioX-Turbo: A Unified Framework for Efficient Anythin 9.0分 前10% #音频生成 5. M*: A Modular, Extensible, Serving System for Multimoda 8.9分 前25% #多模态模型 6. Decoding Insect Song: A Multitask Semisupervised Orthop 8.7分 前50% #音频分类 7. Missing-Token Prompted Reliability-Aware Fusion for Rob 8.6分 前25% #说话人识别 8. Leveraging Audio-LLMs to Filter Speech-to-Speech Traini 8.4分 前25% #语音翻译 9. Endpoint Anticipation for Low-Latency Spoken Dialogue 8.2分 前25% #多任务学习 10. A Dual-Mode Faust-to-CLAP Compilation System 8.1分 前50% - 11. PRISM: Prosody-Integrated Multi-Agent Reasoning Framewo 8.1分 前25% #语音合成 12. Positional Encoding in the Context of Memristor-Based A 8.0分 前50% #语音识别 13. From Tokens to Faces: Investigating Discrete Speech Rep 7.9分 前25% #语音合成 14. Low-Latency Real-Time Audio Game Commentary System via 7.9分 前25% #语音合成 15. MiniMax Sparse Attention 7.7分 前25% #高效推理 16. BASENet: Band-Adapted Speech Enhancement Network with C 7.5分 前50% #语音增强 17. Dolph2Vec: Self-Supervised Representations of Dolphin V 7.2分 前50% #音频分类 18. Balancing ASR and diarization in end-to-end LLMs for mu 7.1分 前50% #语音识别 19. NaturalFlow: Reducing Disruptive Pauses for Natural Spe 7.0分 前50% #语音翻译 20. Adaptive Turn-Taking for Real-time Multi-Party Voice Ag 6.7分 后50% #数据增强 21. Predicting Cognitive Load from Speech and Interaction D 6.7分 前50% #语音情感识别 22. PiDA: Phonetically-Informed Data Augmentation for Robus 6.5分 前50% - 23. Generating Training Targets for Real-World Speech Enhan 6.4分 前50% #语音增强 24. Towards Personalized Federated Learning for Dysarthric 6.2分 前50% #语音识别 25. The Moving Drone: Negotiating Agency Between the Voice 6.0分 前50% - 26. Generative Modeling of Bach-Style Symbolic Music: A Com 5.7分 前50% #音乐生成 27. Vocal Identity Under Siege by AI Voice Cloning Technolo 3.2分 前50% #语音合成 📋 论文列表 🥇 Self-Guidance: Enhancing Neural Codecs via Decoder Manifold Alignment 9.7/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

2026-06-12 · 更新于 2026-07-02 · 16 min · 3281 words

Additive Noise, Shift Recovery, and Signed Signals in the Cumulative Distribution Transform

📄 Additive Noise, Shift Recovery, and Signed Signals in the Cumulative Distribution Transform #信号处理基础 6.1/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 0.7/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.6/1.5 ✅ 6.1/10 | 前50% | #信号处理基础 | #信号处理基础 | arxiv 👥 作者与机构 Harbir Antil, Ratna Khatri, Aryan Saxena 1 Center for Mathematics and Artificial Intelligence and Department of Mathematical Sciences, George Mason University, Fairfax, Virginia 22030. 2 U.S. Naval Research Laboratory, Washington D.C ...

2026-06-11 · 更新于 2026-07-02 · 2 min · 350 words

语音/音乐/音频论文速递 2026-06-11

语音/音乐/音频论文速递 2026-06-11 共分析 36 篇论文 ⚡ 今日概览 📥 抓取 36 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 7篇 ███████ #语音合成 7篇 ███████ #基准测试 2篇 ██ #音乐信息检索 2篇 ██ #语音情感识别 2篇 ██ #低资源 1篇 █ #音频问答 1篇 █ #音频质量评估 1篇 █ 📊 论文评分排行榜(36 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Massive Open-Vocabulary Keyword Spotting 9.8分 前50% #语音识别 🥈 Tight Boundary Prediction in Speaker Diarization Using 9.6分 前25% #低资源 🥉 RAIL: Rethinking Auditory Intelligence in Large Audio-L 9.6分 前10% #音频问答 4. Quality Adaptive Angular Margin Learning for Respirator 9.5分 前50% #音频质量评估 5. CS-YODAS: A Mined Dataset of In-the-Wild Code-Switched 9.2分 前50% #多语言 6. Gumbel-BEARD: Automatic Layer Selection for Self-Superv 9.1分 前25% #语音识别 7. PianoKontext: Expressive Performance Rendering from Dea 9.1分 前50% #音乐生成 8. Benchmarking Neural Speech Compression from a Rate-Dist 9.0分 前25% #基准测试 9. Fast-SDE: Efficient Single-Microphone Sound Source Dist 8.8分 前50% - 10. Evaluating Bias in Phoneme-Based Automatic Speech Recog 8.8分 前50% #语音识别 11. Real-Time Language Model Jamming: A Case Study for Live 8.7分 前25% #音乐信息检索 12. HALO: Half-Frame-Rate Adaptive Learnable Operator for L 8.4分 前50% #语音增强 13. The Dynamics of Human and AI-Generated Language: How Se 8.1分 前25% #语音合成 14. UR-BERT: Scaling Text Encoders for Massively Multilingu 8.1分 前25% #语音合成 15. SARA: A Dual-Stream VAE for High-Fidelity Speech Genera 7.9分 前25% #语音合成 16. SpAArSIST: Sparsified AASIST for Efficient and Reliable 7.7分 前50% #模型压缩 17. Interpreting and Steering a Text-to-Speech Language Mod 7.7分 前25% #语音合成 18. Which Speech Representation Better Matches Text-Native 7.5分 前50% #语音识别 19. MA-DLE: Speech-based Automatic Depression Level Estimat 7.5分 前25% #语音情感识别 20. The Hidden Cost of Pairwise Verification in Synthetic S 7.5分 前50% #语音合成 21. Sensitivity Analysis of Generative Spatial Audio Metric 7.2分 前50% #音频生成 22. Snapping Matters: Context-Aware Onset Refinement for Au 7.1分 前25% #音乐信息检索 23. Feature-Aligned Speech Watermarking for Robustness to R 7.1分 前25% #鲁棒性 24. Context-Aware Multimodal Claim Verification in Spoken D 7.1分 前50% #多模态模型 25. Afrispeech Semantics: Evaluating Audio Semantic Reasoni 7.0分 前50% #数据集 26. Lung-SRAD: Spectral-Aware Regularized Audio DASS with D 6.8分 前50% #对比学习 27. Lip Forcing: Few-Step Autoregressive Diffusion for Real 6.8分 前50% #语音合成 28. Frozen Multimodal Embeddings for Personality and Cognit 6.7分 前50% #语音情感识别 29. Fast Speech Foundation Model Distillation Using Interle 6.6分 前50% #知识蒸馏 30. Steering Where to Listen: Instruction-Based Activation 6.5分 前50% - 31. Pretrained self-supervised speech models can recognize 6.5分 前50% #语音识别 32. Towards Data-free and Training-free Compression for Spe 6.4分 前50% #语音识别 33. Additive Noise, Shift Recovery, and Signed Signals in t 6.1分 前50% #信号处理基础 34. I Understand How You Feel: Enhancing Deeper Emotional S 5.8分 前50% #语音识别 35. Overcoming State Inertia in Full-Duplex Spoken Language 5.5分 前50% #基准测试 36. BadRobot: Jailbreaking Embodied LLM Agents in the Physi 5.2分 后50% #语音合成 📋 论文列表 🥇 Massive Open-Vocabulary Keyword Spotting 9.8/10 | 创新 1.6/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-11 · 更新于 2026-07-02 · 22 min · 4642 words

Time-frequency localization of bird calls in dense soundscapes

📄 Time-frequency localization of bird calls in dense soundscapes #迁移学习 #信号处理基础 8.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.5/10 | 前25% | #信号处理基础 | #迁移学习 | arxiv 👥 作者与机构 Simen Hexeberg1,2, Fanghui Tong3, Hari Vishnu1, and Mandar Chitre1,2 Acoustic Research Laboratory, National University of Singapore Tropical Marine Science Institute, National University of Singapore 未在作者列表中明确机构 💡 毒舌点评 这篇论文像一个勤恳的工程师,而不是一个富有想象力的科学家。它将一个成熟的计算机视觉模型(YOLO)直接“移植”到一个音频任务上,并为此提供了一个不错的标注工具。主要贡献是“证明了可行性”和“提出了一个可能有用的评估指标(IoMin)”。然而,创新性显得薄弱,技术深度有限,实验分析可以更深入。论文读起来更像是一个应用报告,而非一篇能推动领域理论或方法前进的顶会论文。它解决了“如何做”,但对于“为什么这样做特别好”或“如何做得根本性更好”的回答不够有力。 ...

2026-06-10 · 更新于 2026-07-02 · 2 min · 327 words

语音/音乐/音频论文速递 2026-06-10

语音/音乐/音频论文速递 2026-06-10 共分析 45 篇论文 ⚡ 今日概览 📥 抓取 45 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 13篇 █████████████ #数据增强 3篇 ███ #自监督学习 2篇 ██ #语音合成 2篇 ██ #多模态模型 1篇 █ #语音对话系统 1篇 █ #语音生成 1篇 █ #参数高效微调 1篇 █ 📊 论文评分排行榜(45 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 ViP-VL: Vietnamese Self-supervised Speech Pretraining M 9.7分 前25% #语音识别 🥈 Spatial-Omni: Spatial Audio Understanding Integration i 9.4分 前25% #多模态模型 🥉 Multi-Faceted Interactivity Alignment in Full-Duplex Sp 9.3分 前25% #语音对话系统 4. OmniCap-IF: Benchmarking and Improving Instruction Foll 9.1分 前25% #语音生成 5. RAT: Reference-Augmented Training for ASV Anti-Spoofing 8.8分 前25% #数据增强 6. Recovering the Zipfian Distribution in Unsupervised Ter 8.7分 前50% #自监督学习 7. LLM can Read Spectrogram: Encoder-free Speech-Language 8.6分 前25% #语音识别 8. ParaBridge: Bridging Paralinguistic Perception and Dial 8.6分 前25% #参数高效微调 9. Time-frequency localization of bird calls in dense soun 8.5分 前25% #信号处理基础 10. Ethical and Technical Limits of Deepfake Speech Dataset 8.4分 前25% - 11. Speech Meets ELF: Audio Conditional Continuous-Target D 8.3分 前25% #语音识别 12. DeRA-MOS: Optimizing Text-to-Music Evaluation via Decou 8.2分 前25% #音乐评估 13. Anchoring the Unknown: Open-Set Model Attribution via P 8.0分 前25% #多语言 14. ANCHOR: Autoregressive Non-intrusive Chunk-Ordered Refi 8.0分 前25% #语音质量评估 15. ContextCodec: Content-Focused Context Guidance for Ultr 7.9分 前25% #语音编码 16. GlobeAudio: A Multilingual Multicultural Benchmark for 7.9分 前25% #语音识别 17. Dual-Branch Gated Fusion for Open-Set Audio Deepfake So 7.8分 前25% #音频深度伪造检测 18. Data Journalist Agent: Transforming Data into Verifiabl 7.7分 前25% - 19. GC-LoRA: Gated Convolutional LoRA for Parameter-Efficie 7.6分 前25% #语音识别 20. What Do Deepfake Speech Detectors Actually Hear? 7.6分 前25% - 21. KFC-KWS: Keyframe Fusion with CTC for User-Defined Keyw 7.6分 前25% #关键词检测 22. Entropy-Aware Domain-Routed Mixture-of-Experts Speech-L 7.5分 前25% #语音识别 23. Linguistically Augmented Audio Speech Data (LinguAS) 7.5分 后50% #语音伪造检测 24. AudioProcessBench: Benchmark for Identifying Process Er 7.5分 前50% - 25. Cross-Modal Knowledge Distillation without Paired Data: 7.5分 前50% #语音识别 26. AuRA: Internalizing Audio Understanding into LLMs as Lo 7.5分 前25% #语音问答 27. TRADE: Transducer-Augmented Decoder for Speech LLM 7.4分 前25% #语音识别 28. Inside the Latent Flow: Causal Deciphering of Attention 7.3分 前50% #语音分离 29. Optimality of FSQ Tokens for Continuous Diffusion for C 7.3分 前50% #语音合成 30. Speech Encoder Fusion for LLM-based Automatic Speech Re 7.2分 后50% #语音识别 31. Enhancing Multilingual LLM-based ASR with Mixture of Ex 7.0分 前50% - 32. Phoneme-First Prediction for LLM-Based Speech Recogniti 6.9分 前50% #语音识别 33. Profy: Interpretable Visualization of Expertise-Depende 6.9分 前50% #音乐信息检索 34. Optimizing 2D Input Representations and Sub-phase Fusio 6.8分 前50% #数据增强 35. SSL-GMMVC: Interpretable Voice Conversion via Locally L 6.8分 前50% #语音转换 36. Deploying Speech-Driven 3D Facial Animation in Unreal E 6.6分 前50% #语音合成 37. RespiraMFM: A Multimodal Foundation Model with Contrast 6.5分 前50% #对比学习 38. From Senses to Decisions: The Information Flow of Audit 6.5分 前50% #语音识别 39. Speaker Group Encoding in Self-supervised Speech Recogn 6.5分 前50% #语音识别 40. Towards Robust Arabic Speech Emotion Recognition with D 6.4分 前50% #语音情感识别 41. Multilingual Word-Level Forced Alignment with Self-Supe 6.3分 前50% #自监督学习 42. Overview of ESDD2: Environment-Aware Speech and Sound D 6.3分 前50% #数据增强 43. Towards Deep Contextual Reasoning from Broad Descriptio 6.2分 前50% #语音识别 44. A Lightweight Dual-Factor Acoustic Authentication Syste 6.0分 前50% #说话人验证 45. Automated Pronunciation Evaluation for Korean Toddler S 6.0分 前50% #说话人日志 📋 论文列表 🥇 ViP-VL: Vietnamese Self-supervised Speech Pretraining Model with Vector-Quantization Learning 9.7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-10 · 更新于 2026-07-02 · 26 min · 5465 words