Dolph2Vec: Self-Supervised Representations of Dolphin Vocalizations

📄 Dolph2Vec: Self-Supervised Representations of Dolphin Vocalizations #音频分类 #自监督学习 #生物声学 #信号处理基础 7.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.2/10 | 前50% | #音频分类 | #自监督学习 | #生物声学 #信号处理基础 | arxiv 👥 作者与机构 作者: Chiara Semenzin (École Normale Supérieure, Paris, France) Faadil Mustun (École Normale Supérieure, Paris, France) Roberto Dessì (Not Diamond, San Francisco, USA) Pierre Orhan (Institut du Cerveau, Paris, France) Alexis Emanuelli (École Normale Supérieure, Paris, France) Yair Lakretz (École Normale Supérieure, Paris, France) Gonzalo de Polavieja (Champalimaud Foundation, Lisbon, Portugal) Germán Sumbre (École Normale Supérieure, Paris, France) 机构:École Normale Supérieure (巴黎高等师范学院), Not Diamond, Institut du Cerveau, Champalimaud Foundation。 💡 毒舌点评 这篇论文的出发点——为特定物种构建自监督学习(SSL)模型——是生物声学中一个有价值且清晰的方向。然而,其“顶会级”的呈现背后存在明显短板。首先,核心宣称的“首个大规模物种特异性SSL模型”和“发布数据集”存在水分。论文仅在一个来源、环境高度特定(半圈养红海宽吻海豚)的种群数据上训练,其“大规模”仅指相对过去的小数据集,但数据的生态多样性和泛化能力存疑。宣称“发布”数据集,但正文和附录均未提供任何实际链接,这削弱了可复现性和影响力声明。其次,实验评估相对基础且避重就轻。仅使用线性探测(逻辑回归)评估冻结表征,这是SSL的初步评估标准,但论文未进行任何微调实验以证明模型潜力,也未在更广泛的海豚声音数据集或与其他物种的交叉评估上验证其主张的“物种特异性优势”。在检测任务上,Dolph2Vec与BioLingual几乎持平(67.8 vs 67.6 mAP),但在分类任务上的提升(82.0% vs 74.5%)虽显著,却未通过统计检验论证其显著性。最后,对代码本(codebook)的可解释性分析流于表面。虽然展示了单元与哨声类别的关联,但未能提供令人信服的证据表明这些单元真正编码了“亚哨声结构”而非仅仅是统计上的高频片段,也未设计实验来验证这些单元的预测性或功能性作用。总而言之,这是一篇扎实的系统论文,但创新声明需更多实质性证据支撑,评估深度有待加强。 ...

2026-06-12 · 更新于 2026-06-12 · 2 min · 314 words

语音/音乐/音频论文速递 2026-06-12

语音/音乐/音频论文速递 2026-06-12 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 6篇 ██████ #语音识别 4篇 ████ #音频分类 2篇 ██ #语音翻译 2篇 ██ #语音增强 2篇 ██ #音频生成 1篇 █ #多模态模型 1篇 █ #说话人识别 1篇 █ 📊 论文评分排行榜(27 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Self-Guidance: Enhancing Neural Codecs via Decoder Mani 9.7分 前25% #语音合成 🥈 Ontology Memory-Augmented ASR Correction for Long Text- 9.6分 前25% #语音识别 🥉 Emo-LiPO: Listwise Preference Optimization for Fine-Gra 9.3分 前50% #语音合成 4. AudioX-Turbo: A Unified Framework for Efficient Anythin 9.0分 前10% #音频生成 5. M*: A Modular, Extensible, Serving System for Multimoda 8.9分 前25% #多模态模型 6. Decoding Insect Song: A Multitask Semisupervised Orthop 8.7分 前50% #音频分类 7. Missing-Token Prompted Reliability-Aware Fusion for Rob 8.6分 前25% #说话人识别 8. Leveraging Audio-LLMs to Filter Speech-to-Speech Traini 8.4分 前25% #语音翻译 9. Endpoint Anticipation for Low-Latency Spoken Dialogue 8.2分 前25% #多任务学习 10. A Dual-Mode Faust-to-CLAP Compilation System 8.1分 前50% - 11. PRISM: Prosody-Integrated Multi-Agent Reasoning Framewo 8.1分 前25% #语音合成 12. Positional Encoding in the Context of Memristor-Based A 8.0分 前50% #语音识别 13. From Tokens to Faces: Investigating Discrete Speech Rep 7.9分 前25% #语音合成 14. Low-Latency Real-Time Audio Game Commentary System via 7.9分 前25% #语音合成 15. MiniMax Sparse Attention 7.7分 前25% #高效推理 16. BASENet: Band-Adapted Speech Enhancement Network with C 7.5分 前50% #语音增强 17. Dolph2Vec: Self-Supervised Representations of Dolphin V 7.2分 前50% #音频分类 18. Balancing ASR and diarization in end-to-end LLMs for mu 7.1分 前50% #语音识别 19. NaturalFlow: Reducing Disruptive Pauses for Natural Spe 7.0分 前50% #语音翻译 20. Adaptive Turn-Taking for Real-time Multi-Party Voice Ag 6.7分 后50% #数据增强 21. Predicting Cognitive Load from Speech and Interaction D 6.7分 前50% #语音情感识别 22. PiDA: Phonetically-Informed Data Augmentation for Robus 6.5分 前50% - 23. Generating Training Targets for Real-World Speech Enhan 6.4分 前50% #语音增强 24. Towards Personalized Federated Learning for Dysarthric 6.2分 前50% #语音识别 25. The Moving Drone: Negotiating Agency Between the Voice 6.0分 前50% - 26. Generative Modeling of Bach-Style Symbolic Music: A Com 5.7分 前50% #音乐生成 27. Vocal Identity Under Siege by AI Voice Cloning Technolo 3.2分 前50% #语音合成 📋 论文列表 🥇 Self-Guidance: Enhancing Neural Codecs via Decoder Manifold Alignment 9.7/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

2026-06-12 · 更新于 2026-06-12 · 16 min · 3281 words

Additive Noise, Shift Recovery, and Signed Signals in the Cumulative Distribution Transform

📄 Additive Noise, Shift Recovery, and Signed Signals in the Cumulative Distribution Transform #信号处理基础 6.1/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 0.7/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.6/1.5 ✅ 6.1/10 | 前50% | #信号处理基础 | #信号处理基础 | arxiv 👥 作者与机构 Harbir Antil, Ratna Khatri, Aryan Saxena 1 Center for Mathematics and Artificial Intelligence and Department of Mathematical Sciences, George Mason University, Fairfax, Virginia 22030. 2 U.S. Naval Research Laboratory, Washington D.C ...

2026-06-11 · 更新于 2026-06-12 · 2 min · 350 words

语音/音乐/音频论文速递 2026-06-11

语音/音乐/音频论文速递 2026-06-11 共分析 36 篇论文 ⚡ 今日概览 📥 抓取 36 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 7篇 ███████ #语音合成 7篇 ███████ #基准测试 2篇 ██ #音乐信息检索 2篇 ██ #语音情感识别 2篇 ██ #低资源 1篇 █ #音频问答 1篇 █ #音频质量评估 1篇 █ 📊 论文评分排行榜(36 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Massive Open-Vocabulary Keyword Spotting 9.8分 前50% #语音识别 🥈 Tight Boundary Prediction in Speaker Diarization Using 9.6分 前25% #低资源 🥉 RAIL: Rethinking Auditory Intelligence in Large Audio-L 9.6分 前10% #音频问答 4. Quality Adaptive Angular Margin Learning for Respirator 9.5分 前50% #音频质量评估 5. CS-YODAS: A Mined Dataset of In-the-Wild Code-Switched 9.2分 前50% #多语言 6. Gumbel-BEARD: Automatic Layer Selection for Self-Superv 9.1分 前25% #语音识别 7. PianoKontext: Expressive Performance Rendering from Dea 9.1分 前50% #音乐生成 8. Benchmarking Neural Speech Compression from a Rate-Dist 9.0分 前25% #基准测试 9. Fast-SDE: Efficient Single-Microphone Sound Source Dist 8.8分 前50% - 10. Evaluating Bias in Phoneme-Based Automatic Speech Recog 8.8分 前50% #语音识别 11. Real-Time Language Model Jamming: A Case Study for Live 8.7分 前25% #音乐信息检索 12. HALO: Half-Frame-Rate Adaptive Learnable Operator for L 8.4分 前50% #语音增强 13. The Dynamics of Human and AI-Generated Language: How Se 8.1分 前25% #语音合成 14. UR-BERT: Scaling Text Encoders for Massively Multilingu 8.1分 前25% #语音合成 15. SARA: A Dual-Stream VAE for High-Fidelity Speech Genera 7.9分 前25% #语音合成 16. SpAArSIST: Sparsified AASIST for Efficient and Reliable 7.7分 前50% #模型压缩 17. Interpreting and Steering a Text-to-Speech Language Mod 7.7分 前25% #语音合成 18. Which Speech Representation Better Matches Text-Native 7.5分 前50% #语音识别 19. MA-DLE: Speech-based Automatic Depression Level Estimat 7.5分 前25% #语音情感识别 20. The Hidden Cost of Pairwise Verification in Synthetic S 7.5分 前50% #语音合成 21. Sensitivity Analysis of Generative Spatial Audio Metric 7.2分 前50% #音频生成 22. Snapping Matters: Context-Aware Onset Refinement for Au 7.1分 前25% #音乐信息检索 23. Feature-Aligned Speech Watermarking for Robustness to R 7.1分 前25% #鲁棒性 24. Context-Aware Multimodal Claim Verification in Spoken D 7.1分 前50% #多模态模型 25. Afrispeech Semantics: Evaluating Audio Semantic Reasoni 7.0分 前50% #数据集 26. Lung-SRAD: Spectral-Aware Regularized Audio DASS with D 6.8分 前50% #对比学习 27. Lip Forcing: Few-Step Autoregressive Diffusion for Real 6.8分 前50% #语音合成 28. Frozen Multimodal Embeddings for Personality and Cognit 6.7分 前50% #语音情感识别 29. Fast Speech Foundation Model Distillation Using Interle 6.6分 前50% #知识蒸馏 30. Steering Where to Listen: Instruction-Based Activation 6.5分 前50% - 31. Pretrained self-supervised speech models can recognize 6.5分 前50% #语音识别 32. Towards Data-free and Training-free Compression for Spe 6.4分 前50% #语音识别 33. Additive Noise, Shift Recovery, and Signed Signals in t 6.1分 前50% #信号处理基础 34. I Understand How You Feel: Enhancing Deeper Emotional S 5.8分 前50% #语音识别 35. Overcoming State Inertia in Full-Duplex Spoken Language 5.5分 前50% #基准测试 36. BadRobot: Jailbreaking Embodied LLM Agents in the Physi 5.2分 后50% #语音合成 📋 论文列表 🥇 Massive Open-Vocabulary Keyword Spotting 9.8/10 | 创新 1.6/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-11 · 更新于 2026-06-12 · 22 min · 4642 words

Time-frequency localization of bird calls in dense soundscapes

📄 Time-frequency localization of bird calls in dense soundscapes #迁移学习 #信号处理基础 8.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.5/10 | 前25% | #信号处理基础 | #迁移学习 | arxiv 👥 作者与机构 Simen Hexeberg1,2, Fanghui Tong3, Hari Vishnu1, and Mandar Chitre1,2 Acoustic Research Laboratory, National University of Singapore Tropical Marine Science Institute, National University of Singapore 未在作者列表中明确机构 💡 毒舌点评 这篇论文像一个勤恳的工程师,而不是一个富有想象力的科学家。它将一个成熟的计算机视觉模型(YOLO)直接“移植”到一个音频任务上,并为此提供了一个不错的标注工具。主要贡献是“证明了可行性”和“提出了一个可能有用的评估指标(IoMin)”。然而,创新性显得薄弱,技术深度有限,实验分析可以更深入。论文读起来更像是一个应用报告,而非一篇能推动领域理论或方法前进的顶会论文。它解决了“如何做”,但对于“为什么这样做特别好”或“如何做得根本性更好”的回答不够有力。 ...

2026-06-10 · 更新于 2026-06-12 · 2 min · 327 words

语音/音乐/音频论文速递 2026-06-10

语音/音乐/音频论文速递 2026-06-10 共分析 45 篇论文 ⚡ 今日概览 📥 抓取 45 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 13篇 █████████████ #数据增强 3篇 ███ #自监督学习 2篇 ██ #语音合成 2篇 ██ #多模态模型 1篇 █ #语音对话系统 1篇 █ #语音生成 1篇 █ #参数高效微调 1篇 █ 📊 论文评分排行榜(45 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 ViP-VL: Vietnamese Self-supervised Speech Pretraining M 9.7分 前25% #语音识别 🥈 Spatial-Omni: Spatial Audio Understanding Integration i 9.4分 前25% #多模态模型 🥉 Multi-Faceted Interactivity Alignment in Full-Duplex Sp 9.3分 前25% #语音对话系统 4. OmniCap-IF: Benchmarking and Improving Instruction Foll 9.1分 前25% #语音生成 5. RAT: Reference-Augmented Training for ASV Anti-Spoofing 8.8分 前25% #数据增强 6. Recovering the Zipfian Distribution in Unsupervised Ter 8.7分 前50% #自监督学习 7. LLM can Read Spectrogram: Encoder-free Speech-Language 8.6分 前25% #语音识别 8. ParaBridge: Bridging Paralinguistic Perception and Dial 8.6分 前25% #参数高效微调 9. Time-frequency localization of bird calls in dense soun 8.5分 前25% #信号处理基础 10. Ethical and Technical Limits of Deepfake Speech Dataset 8.4分 前25% - 11. Speech Meets ELF: Audio Conditional Continuous-Target D 8.3分 前25% #语音识别 12. DeRA-MOS: Optimizing Text-to-Music Evaluation via Decou 8.2分 前25% #音乐评估 13. Anchoring the Unknown: Open-Set Model Attribution via P 8.0分 前25% #多语言 14. ANCHOR: Autoregressive Non-intrusive Chunk-Ordered Refi 8.0分 前25% #语音质量评估 15. ContextCodec: Content-Focused Context Guidance for Ultr 7.9分 前25% #语音编码 16. GlobeAudio: A Multilingual Multicultural Benchmark for 7.9分 前25% #语音识别 17. Dual-Branch Gated Fusion for Open-Set Audio Deepfake So 7.8分 前25% #音频深度伪造检测 18. Data Journalist Agent: Transforming Data into Verifiabl 7.7分 前25% - 19. GC-LoRA: Gated Convolutional LoRA for Parameter-Efficie 7.6分 前25% #语音识别 20. What Do Deepfake Speech Detectors Actually Hear? 7.6分 前25% - 21. KFC-KWS: Keyframe Fusion with CTC for User-Defined Keyw 7.6分 前25% #关键词检测 22. Entropy-Aware Domain-Routed Mixture-of-Experts Speech-L 7.5分 前25% #语音识别 23. Linguistically Augmented Audio Speech Data (LinguAS) 7.5分 后50% #语音伪造检测 24. AudioProcessBench: Benchmark for Identifying Process Er 7.5分 前50% - 25. Cross-Modal Knowledge Distillation without Paired Data: 7.5分 前50% #语音识别 26. AuRA: Internalizing Audio Understanding into LLMs as Lo 7.5分 前25% #语音问答 27. TRADE: Transducer-Augmented Decoder for Speech LLM 7.4分 前25% #语音识别 28. Inside the Latent Flow: Causal Deciphering of Attention 7.3分 前50% #语音分离 29. Optimality of FSQ Tokens for Continuous Diffusion for C 7.3分 前50% #语音合成 30. Speech Encoder Fusion for LLM-based Automatic Speech Re 7.2分 后50% #语音识别 31. Enhancing Multilingual LLM-based ASR with Mixture of Ex 7.0分 前50% - 32. Phoneme-First Prediction for LLM-Based Speech Recogniti 6.9分 前50% #语音识别 33. Profy: Interpretable Visualization of Expertise-Depende 6.9分 前50% #音乐信息检索 34. Optimizing 2D Input Representations and Sub-phase Fusio 6.8分 前50% #数据增强 35. SSL-GMMVC: Interpretable Voice Conversion via Locally L 6.8分 前50% #语音转换 36. Deploying Speech-Driven 3D Facial Animation in Unreal E 6.6分 前50% #语音合成 37. RespiraMFM: A Multimodal Foundation Model with Contrast 6.5分 前50% #对比学习 38. From Senses to Decisions: The Information Flow of Audit 6.5分 前50% #语音识别 39. Speaker Group Encoding in Self-supervised Speech Recogn 6.5分 前50% #语音识别 40. Towards Robust Arabic Speech Emotion Recognition with D 6.4分 前50% #语音情感识别 41. Multilingual Word-Level Forced Alignment with Self-Supe 6.3分 前50% #自监督学习 42. Overview of ESDD2: Environment-Aware Speech and Sound D 6.3分 前50% #数据增强 43. Towards Deep Contextual Reasoning from Broad Descriptio 6.2分 前50% #语音识别 44. A Lightweight Dual-Factor Acoustic Authentication Syste 6.0分 前50% #说话人验证 45. Automated Pronunciation Evaluation for Korean Toddler S 6.0分 前50% #说话人日志 📋 论文列表 🥇 ViP-VL: Vietnamese Self-supervised Speech Pretraining Model with Vector-Quantization Learning 9.7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-10 · 更新于 2026-06-12 · 26 min · 5465 words

SagnacAssisted Enhanced OTDR for Distributed Acoustic Sensing: A Standardized Benchmark and Engineering Evaluation Framework

📄 SagnacAssisted Enhanced OTDR for Distributed Acoustic Sensing: A Standardized Benchmark and Engineering Evaluation Framework #信号处理基础 6.6/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ✅ 6.6/10 | 前50% | #信号处理基础 | #信号处理基础 | arxiv 👥 作者与机构 Weiguang Wang, Fugen Wu, Hailing Wang, Xuechen Liang, Xiaobin Li, Ru Han, Tianchang Xie. Affiliations: East China Jiaotong University; School of Materials and Energy, Guangdong University of Technology; Jiangxi Tonghui Technology Group Co., Ltd.; School of Artificial Intelligence and Big Data, Guangzhou Vocational University of Science and Technology. ...

2026-06-05 · 更新于 2026-06-12 · 2 min · 341 words

语音/音乐/音频论文速递 2026-06-05

语音/音乐/音频论文速递 2026-06-05 共分析 47 篇论文 ⚡ 今日概览 📥 抓取 47 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 11篇 ███████████ #语音合成 6篇 ██████ #语音情感识别 3篇 ███ #大语言模型 2篇 ██ #语音增强 2篇 ██ #说话人识别 2篇 ██ #流式处理 1篇 █ #音频编码 1篇 █ 📊 论文评分排行榜(47 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Audio Interaction Model 9.8分 前50% #流式处理 🥈 USAD 2.0: Scaling Representation Distillation for Unive 9.0分 前25% #音频编码 🥉 M2S-AVSR: Modality-aware Multi-view Self-supervised Rep 9.0分 前25% #语音识别 4. Vortex: Efficient and Programmable Sparse Attention Ser 8.9分 前25% #大语言模型 5. UniVoice: A Unified Model for Speech and Singing Voice 8.7分 前25% #语音合成 6. Ouvia: A User-centered Framework for Measuring Usabilit 8.6分 前25% #语音翻译 7. Age-Aware Adapter Tuning for Children's Speech Reco 8.4分 前25% #语音识别 8. MCBench: A Multicontext Safety Assessment Benchmark for 8.4分 后50% #语音识别 9. SuperMemory-VQA: An Egocentric Visual Question-Answerin 8.4分 前25% #基准测试 10. GLASS: GRPO-Trained LoRA for Acoustic Style Steering in 8.2分 前25% #语音合成 11. A Model of Multi-turn Human Persuadability Using Probab 8.2分 前50% - 12. Learning Emotion-discriminative Representations for Zer 8.1分 前25% #语音情感识别 13. FORTE: FOL-guided Optimal Refinement for Text-audio rEt 8.1分 前25% #参数高效微调 14. FiLM-Based Speaker Conditioning of a SpeechLLM for Path 8.0分 前50% #语音识别 15. Task-Vector Arithmetic for Emotional Expressivity Contr 7.9分 前25% #语音合成 16. An Ultra-Low-Bitrate Neural Speech Codec with Plain-to- 7.7分 前25% #语音合成 17. Exploring LLMs for South Asian Music Understanding and 7.7分 前50% #音乐生成 18. SB-RF: Schrödinger Bridge Rectified Flow for One-Step R 7.6分 前25% #语音增强 19. nnAudio 2: Overcoming Dynamic Compilation Barriers and 7.5分 前50% #开源工具 20. Beyond Waveform Robustness: Robust Feature-Vocoder Adve 7.5分 前25% #语音识别 21. FoeGlass: Simple In-Context Learning Is Enough for Red 7.5分 前25% #音频生成 22. ProSarc: Prosody-Aware Sarcasm Recognition Framework vi 7.5分 前25% #语音情感识别 23. Probing Spatial Structure in Pretrained Audio Represent 7.4分 前25% - 24. Forgive or forget: Understanding the context of hate in 7.4分 前50% #音频检索 25. SpeechJBB: Probing Safety Alignment and Comprehension i 7.3分 前25% #语音识别 26. VoCodec: A Low-bitrate Streamable Neural Speech Codec w 7.2分 前50% #语音编码 27. F3-Tokenizer: Taming Audio Autoencoder Latents for Unde 7.2分 前25% #语音合成 28. Beyond WER: A Paired Acoustic Stress Test for Ambient C 7.1分 前50% #语音识别 29. InfoShield: Privacy-Preserving Speech Representations f 7.1分 前50% - 30. Multi-task Learning is Not Enough: Representational Ent 6.9分 前50% #语音识别 31. Sound Effects Dataset Unification With the Universal Ca 6.9分 前50% #音频分类 32. To Be Multimodal or Not to Be: Query-Adaptive Audio-Vis 6.8分 前50% #说话人识别 33. SHALA-LLM: Smartly Handling Ambiguous Labels in Alignin 6.8分 前50% #语音情感识别 34. SagnacAssisted Enhanced OTDR for Distributed Acoustic S 6.6分 前50% #信号处理基础 35. Domain-Aware Mispronunciation Detection and Diagnosis U 6.6分 前50% #图神经网络 36. CoSTA: Cognitive-State-Conditioned TTS Data Augmentatio 6.5分 前50% #语音合成 37. Beyond Text Following: Repairable Arbitration Reversals 6.4分 前50% #音频问答 38. Enhancing Audio Captioning with Auxiliary AudioSet Sema 6.3分 前50% - 39. Do speech foundation models perceive speaker similarity 6.3分 前50% #说话人识别 40. Efficient Punctuation Restoration via Weighted Lookahea 6.3分 前50% #大语言模型 41. Automatic Labelling of Speech Translation Errors 6.1分 前50% #语音识别 42. Towards Truly Multilingual ASR: Generalizing Code-Switc 5.9分 前50% #语音识别 43. An ERP Study on Recursive Locative Processing in Mandar 5.9分 前50% - 44. Multilingual Detection of Alzheimer's Disease from 5.7分 后50% #迁移学习 45. DBHN-Net: Dual-Branch Hybrid Neural Network For Low-Com 5.4分 前25% #语音增强 46. Beyond Generative Decoding: Discriminative Hidden-State 5.3分 前50% #多模态模型 47. Revisiting Lexicon Evaluation in Unsupervised Word Disc 1.0分 前25% #语音识别 📋 论文列表 🥇 Audio Interaction Model 9.8/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1.0/1 | 影响 1.5/1.5 | 开源 1.1/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-05 · 更新于 2026-06-12 · 28 min · 5851 words

A Second-Order Cepstral Signature of Contact-Vibration Sounds Reproduced by Laptop Loudspeakers: A Synthetic Case Study

📄 A Second-Order Cepstral Signature of Contact-Vibration Sounds Reproduced by Laptop Loudspeakers: A Synthetic Case Study #倒谱分析 #信号处理基础 4.8/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 0.5/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 0.3/1.5 📝 4.8/10 | 后50% | #信号处理基础 | #倒谱分析 | arxiv 👥 作者与机构 Jim Salsman, TalkNicer, Inc. 💡 毒舌点评 一篇非常初步的、探索性的合成案例研究。其核心思想(用“二阶倒谱”描述接触振动声)是新颖的,但实现方式极其简化,验证严重不足。论文花费大量篇幅构建并描述了一个六阶段的合成信号链,但这本质上是一个“自证预言”的玩具模型——你精心设计了每一步,然后去验证你预先设定的结论。整个分析缺乏任何真实世界的验证,使得所有结论都停留在“如果我的模型正确,那么……”的层面。作者诚实地列出了局限性,但这也正说明了本文目前只能算一个技术备忘录,远未达到发表级别。创新性虽有,但被其薄弱的实验基础和几乎为零的工程实用性所抵消。 📌 核心摘要 本文提出使用二阶倒谱(即对一阶倒谱再次进行倒谱分析)作为一种探索性描述符,来刻画通过笔记本电脑扬声器播放的手机振动接触声音的感知独特性。作者构建了一个包含六个阶段的合成信号链模型(机械产生、表面/空气传播、麦克风采集、编码/解码、笔记本播放、再录制/后处理),并在此合成数据上进行分析。结果显示,一阶倒谱的周期性在整个信号链中得以保留,而更清晰的二阶倒谱双峰性结构在机械源阶段(阶段1)和笔记本扬声器播放阶段(阶段5)最为明显。作者将此结果解释为支持一个假设:笔记本电脑的播放可能重新强调了潜在于接触振动中的、在中间录制和编码形式中表达不够清晰的周期性结构。 🔗 开源详情 代码:未提供。论文声明使用ChatGPT 5.5协助生成代码,但未公开。 模型权重:未提及。 数据集:合成数据。论文中称“合成数据……可按需提供”,但未提供下载链接或访问方式。 Demo:未提及。 复现材料:未提及。 论文中引用的开源项目:未提及。 🏗️ 方法概述和架构 本文的核心方法是构建一个六阶段的合成信号链,并对每个阶段的输出信号进行一阶和二阶倒谱分析。 ...

2026-06-04 · 更新于 2026-06-12 · 2 min · 260 words

The Differentiable Auditory Loop (DAL): An ML Framework for Hyper-Personalized Hearing Aids

📄 The Differentiable Auditory Loop (DAL): An ML Framework for Hyper-Personalized Hearing Aids #语音增强 #信号处理基础 7.1/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.9/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.1/10 | 前50% | #语音增强 | #信号处理基础 | arxiv 👥 作者与机构 Alejandro Ballesta Rosen, Jason Mikiel-Hunter, Julian Maclaren, Jack Collins, Richard F. Lyon, Simon Carlile. 机构:Google Research Australia 和 Macquarie University. ...

2026-06-04 · 更新于 2026-06-12 · 2 min · 313 words