Graph-Based Phonetic Error Correction of Noisy ASR

📄 Graph-Based Phonetic Error Correction of Noisy ASR #图神经网络 #大语言模型 6.7/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.4/0.5 | 工程 0.7/1.5 ✅ 6.7/10 | 前50% | #语音识别 | #图神经网络 | #大语言模型 | arxiv 👥 作者与机构 Pratik Rakesh Singh, Mohammadi Zaki, Aneesh Mukkamala, Pankaj Wasnik,均来自 Sony Research India。 💡 毒舌点评 论文解决了一个实际问题(ASR后处理),动机清晰:ASR错误,尤其是对语义关键的实体、否定词等,并非随机,而是具有语音相似性的结构化错误。作者提出的方法(G-SPIN)逻辑链条是完整的:先用MLM(XLM-RoBERTa)做上下文异常检测找出疑似错误词,然后用一个在语音相似性上训练的图神经网络(GraphSAGE)生成候选词,再结合MLM打分进行Beam Search,最后让指令微调的大模型(Gemma-3-4b-it)在候选集里做最终选择。这个“先限制搜索空间,再在其中做精细选择”的思路本身是合理且符合直觉的。论文在四种语言(英、西、印地、泰卢固)上做了实验,显示WER等指标优于基线,这部分工作量是实打实的。附录还提供了一些理论分析和伪代码,体现了工作的完整性。然而,最大的问题在于开源和可复现性。论文声称方法“即插即用、无需重训练”,但没有提供代码、训练好的GNN权重、甚至完整的数据集链接。这使得“plug-and-play”的宣称大打折扣,读者无法验证或直接应用。实验对比的基线中,RLLM-CF作为最近的工作,其描述略显单薄,且图表(图2、图3)的绘制比较粗糙,缺乏清晰的图例和误差线。此外,方法在处理插入和删除错误上的效果有限,这在论文中承认了,但也暗示了该方法更适用于特定类型的ASR错误(语音混淆导致的替换)。总体而言,这是一篇方法设计有一定巧劲、实验尚可、但因开源缺失而显得“不够透明、难以检验”的工作,适合顶会中的“技术展示”类别,但离“必读”或“高影响力”尚有距离。 📌 核心摘要 论文针对自动语音识别(ASR)输出中残留的、具有语音相似性结构的错误,提出了一种基于图神经网络的结构化纠错框架G-SPIN。该框架包含三个主要阶段:1)使用掩码语言模型(MLM)进行上下文异常检测,以识别疑似错误词;2)利用在词汇表的音素相似性图上训练的图神经网络(GNN),为每个疑似错误词检索一组语音上合理的候选词;3)通过MLM打分进行Beam Search生成候选集,并最终由一个指令微调的大语言模型(LLM)在上下文约束下选出最佳纠正词。该方法的核心在于先利用语音结构约束候选空间,再依赖LLM进行上下文选择,从而避免无约束生成带来的幻觉和过度纠正。论文在英语、西班牙语、印地语和泰卢固语的Loquacious-Set数据集上进行了实验,结果表明G-SPIN在WER等指标上优于DoCIA、RLLM-CF等基线方法。理论分析(附录)表明,将纠正操作限制在语音邻域内可以提高冻结LLM的局部稳定性。 🔗 开源详情 代码:论文中未提供代码仓库链接。 模型权重:论文中未提供训练好的GNN或其他模型的权重下载链接。 数据集:论文使用了Loquacious-Set (Parcollet et al., 2025),但未在论文中提供获取该数据集的具体链接或说明。 Demo:论文中未提及。 复现材料:论文附录提供了GNN架构配置(表4)、ASR纠错伪代码(算法1)以及LLM提示模板(图4),这些信息为复现提供了重要参考,但不足以完全复现实验。 论文中引用的开源项目: XLM-RoBERTa:https://huggingface.co/facebook/xlm-roberta-large Gemma-3-4b-it:https://huggingface.co/google/gemma-3-4b-it seamless-m4t-v2-large:https://huggingface.co/facebook/seamless-m4t-v2-large GraphSAGE:论文引用了Hamilton et al. (2017),原始论文链接为 https://arxiv.org/abs/1706.02216。 BERTScore:论文引用了Zhang et al. (2020),其官方GitHub仓库为 https://github.com/Tiiiger/bert_score。 SeMaScore:论文引用了 Sasindran et al. (2024),但未提供具体链接。 🏗️ 方法概述和架构 论文提出的G-SPIN框架将ASR纠错任务分解为三个顺序执行的推理时阶段,其整体架构如图1所示(Phase II)。核心组件与流程如下: ...

2026-06-25 · 更新于 2026-07-02 · 2 min · 339 words

语音/音乐/音频论文速递 2026-06-25

语音/音乐/音频论文速递 2026-06-25 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 6篇 ██████ #语音合成 5篇 █████ #语音增强 2篇 ██ #音乐生成 1篇 █ #语音翻译 1篇 █ #语音伪造检测 1篇 █ #自监督学习 1篇 █ #端到端 1篇 █ 📊 论文评分排行榜(27 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Fully Differentiable Neural Forced Alignment via Soft D 8.3分 前25% - 🥈 Attractive and Repulsive Pattern Control in Sequence Ge 8.1分 前25% #音乐生成 🥉 STEB: A Speech-to-Speech Translation Expressiveness Ben 7.8分 前50% #语音翻译 4. Supervised Post-training of Speech Foundation Models fo 7.6分 前50% #语音伪造检测 5. Joint Residual Reweighting for Classifier Free Guidance 7.5分 前50% #语音合成 6. Velocity Prediction in Automatic Guitar Transcription 7.5分 前25% - 7. SE-AGCNet: An End-to-End Framework for Joint Speech Enh 7.4分 前50% #语音增强 8. MJEPA: A Simple and Scalable Joint-Embedding Predictive 7.4分 前25% #自监督学习 9. Sarashina2.2-TTS: Tackling Kanji Polyphony in Japanese 7.3分 前50% #语音合成 10. One Model, Many Latencies: Universal Speech Enhancement 7.2分 前50% #语音增强 11. From Sounds to Scenes: A Benchmark for Evaluating Conte 7.2分 前50% #语音识别 12. Wan-Streamer v0.1: End-to-end Real-time Interactive Fou 7.2分 前25% #语音合成 13. Does Translation-Enhanced Speech Encoder Pre-training A 7.1分 前50% #语音识别 14. Adaptive Oscillatory Inductive Bias for Modeling Sharp 7.0分 前50% #语音合成 15. End-to-End Voice Intent Recognition for Spontaneous Hum 7.0分 前50% #端到端 16. Real-Time Voice AI Hears but Does Not Listen 7.0分 前50% - 17. FoleySet: A Multi-Level Human-Annotated Foley Sound Dat 7.0分 前50% #音频分类 18. EmotionAI: A Privacy-Preserving Computational Intellige 6.9分 前50% #语音情感识别 19. Frequency-Aware Self-Supervised Music Representation Le 6.8分 前50% #音乐信息检索 20. BCoughBench: Benchmarking Respiratory Acoustic Foundati 6.7分 前50% #基准测试 21. SpeechEQ: Benchmarking Emotional Intelligence Quotient 6.7分 前25% #语音对话系统 22. Graph-Based Phonetic Error Correction of Noisy ASR 6.7分 前50% #语音识别 23. What Does a Pathological Speech Assessment Model Know a 6.4分 前50% #语音可懂度评估 24. Phoneme-Level Mispronunciation Screening in Polish-Spea 6.2分 前50% #语音识别 25. Error-Aware TF-IDF Retrieval-Augmented Generation for A 6.1分 前50% #语音识别 26. Evaluating Japanese Dialect Robustness Across Speech an 5.8分 前50% #语音识别 27. CrossAccent-TTS: Cross-Lingual Accent-Intensity Control 5.5分 前50% #语音合成 📋 论文列表 🥇 Fully Differentiable Neural Forced Alignment via Soft Dynamic Programming 8.3/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.0/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ...

2026-06-25 · 更新于 2026-07-02 · 16 min · 3249 words

MaskedFOP: Polyglot Speaker Identification under Missing Visual Modality via Cascaded Graph Label Propagation

📄 MaskedFOP: Polyglot Speaker Identification under Missing Visual Modality via Cascaded Graph Label Propagation #说话人识别 #图神经网络 #多任务学习 9.2/10 | 创新 1.6/2 | 严谨 1.4/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9.2/10 | 前25% | #说话人识别 | #多任务学习 | #图神经网络 | arxiv 👥 作者与机构 Ayoub Elkhouzari, Youssef Iraqi, Loubna Mekouar College of Computing, University Mohammed VI Polytechnic, Ben Guerir, Morocco ...

2026-06-15 · 更新于 2026-07-02 · 2 min · 301 words

语音/音乐/音频论文速递 2026-06-15

语音/音乐/音频论文速递 2026-06-15 共分析 26 篇论文 ⚡ 今日概览 📥 抓取 26 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 4篇 ████ #语音合成 4篇 ████ #说话人识别 3篇 ███ #数据增强 2篇 ██ #音频问答 2篇 ██ #语音增强 1篇 █ #音乐信息检索 1篇 █ #强化学习 1篇 █ 📊 论文评分排行榜(26 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Listening with Attention: Entropy-Guided Explainability 9.6分 前25% #语音识别 🥈 MaskedFOP: Polyglot Speaker Identification under Missin 9.2分 前25% #说话人识别 🥉 HIDVAS: A Hearing Instrument Dataset in Various Acousti 9.0分 前25% #语音增强 4. BayLing-Duplex: Native Full-Duplex Speech Dialogue with 9.0分 前10% #语音合成 5. Moonlight in Latent Space: Chirality and Structural Cor 8.7分 前50% #音乐信息检索 6. Who Spoke When in Multi-Conversation: Target Speaker Ta 8.6分 前50% #说话人识别 7. Learning to Hear Hesitation: Continual Learning for Dis 8.3分 前25% #语音识别 8. The Holistic Storage of Verb+Up Phrases in Text-based a 8.2分 前50% #语音识别 9. OmniVideo-100K: A Dataset for Audio-Visual Reasoning th 8.2分 前50% #数据增强 10. Orchestra-o1: Omnimodal Agent Orchestration 8.1分 前50% #强化学习 11. Unsupervised Approaches for Global Prosodic Embedding E 7.8分 前25% #语音合成 12. Instantaneous Pitch Estimation via Wave-U-Net-Based Fun 7.7分 前25% #数据增强 13. A Deep Zero-Inflated Model of North Atlantic Right Whal 7.6分 前50% #概率图模型 14. FAConformer: Frequency-Aware Convolutional Transformer 7.5分 前25% #Transformer 15. From Self-Supervised Speech Models to Mixture-of-Expert 7.5分 前50% #自监督学习 16. The Perceived Fragility of Explanations in Audio Models 7.5分 前25% - 17. A Multi-Domain Feature Fusion Framework for Generalizab 7.4分 前50% #多模态模型 18. AudioDER: A Deduplication-Enhanced Reasoning Dataset fo 7.3分 前50% #音频问答 19. Beyond task performance: Decoding bioacoustic embedding 7.1分 前50% - 20. Explainable and Trustworthy Speech Emotion Recognition 7.0分 前50% #语音情感识别 21. FoleyGenEx: Unified Video-to-Audio Generation with Mult 7.0分 前50% #语音合成 22. Spatio-Temporal Audio Language Modeling for Dynamic Sou 6.9分 前25% #音频问答 23. Mask, Sample, Revise: A Revisable CTMC Inference Stack 6.8分 前25% #语音合成 24. MoDiCoL: A Modular Diagnostic Continual Learning Datase 6.5分 前50% #语音识别 25. Multimodal Speaker Identification in Classroom Environm 6.0分 前50% #说话人识别 26. Efficiency-Performance Trade-offs in Neural Speaker Dia 5.1分 后50% #说话人日志 📋 论文列表 🥇 Listening with Attention: Entropy-Guided Explainability for Transformer-Based Audio Models 9.6/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ...

2026-06-15 · 更新于 2026-07-02 · 15 min · 3122 words

Paediatric-HGNN: A Hybrid Heterogeneous Graph Neural Network for Detecting Disfluency in Children's Speech via Multiscale Acoustic Fusion

📄 Paediatric-HGNN: A Hybrid Heterogeneous Graph Neural Network for Detecting Disfluency in Children's Speech via Multiscale Acoustic Fusion #语音合成 #语音增强 #图神经网络 #多模态模型 #数据增强 6.5/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.5/10 | 后50% | #语音合成 | #图神经网络 | #语音增强 #多模态模型 | arxiv 👥 作者与机构 Rashini Liyanarachchi, Rachael Mackay, Alison Short, Aditya Joshi, Erik Meijering 1 University of New South Wales (UNSW), Sydney, Australia 2 Western Sydney University, Sydney, Australia 3 Resourced Music Therapy, Sydney, Australia ...

2026-06-09 · 更新于 2026-07-02 · 3 min · 447 words

语音/音乐/音频论文速递 2026-06-09

语音/音乐/音频论文速递 2026-06-09 共分析 48 篇论文 ⚡ 今日概览 📥 抓取 48 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 10篇 ██████████ #语音识别 9篇 █████████ #自监督学习 3篇 ███ #多模态模型 3篇 ███ #语音增强 2篇 ██ #音频生成 2篇 ██ #说话人验证 2篇 ██ #大语言模型 1篇 █ 📊 论文评分排行榜(48 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 A Finetuned SpeechLLM for Joint Multi-Granular L2 Asses 10.0分 前25% #大语言模型 🥈 G-MaP-SE: Guided Speech Enhancement via GMM-Based Prior 9.3分 前50% #语音增强 🥉 HoliDubber: Holistic Video Dubbing for Complex Acoustic 9.0分 前10% #语音合成 4. Probing Token Spaces under Generator Shift in AI-Genera 9.0分 前10% #音频编码 5. A Comparative Study of Pre-trained Speech Encoders and 8.9分 前50% #自监督学习 6. AVI-Bench: Toward Human-like Audio-Visual Intelligence 8.8分 前25% #语音识别 7. Liberating LLM Capabilities in Full-Duplex Speech Model 8.7分 前25% #多模态模型 8. MeCo: One-Step MeanFlow-based Corrector for Multi-Chann 8.4分 前25% #语音分离 9. Your U-Net Dereverberation Model is Secretly an RIR Enc 8.3分 前50% #对比学习 10. Predictive Fixed-Filter Active Noise Control (PFANC) Us 8.3分 前25% - 11. TLDR: Compressing Audio Tokens for Efficient Autoregres 8.2分 前25% #语音合成 12. Subtitle-Aligned Fine-Tuning of Whisper for Swiss Germa 8.2分 前25% #语音识别 13. Discovering Functionally Selective Brain Regions with a 8.2分 前25% #多模态模型 14. Parameter-Efficient Continual Learning for Automatic Sp 8.1分 前25% #语音识别 15. OmniMem: Perturbation-aware Memory Compression for Stre 8.0分 前25% #高效推理 16. OpenBibleTTS: Large-Scale Speech Resources and TTS Mode 8.0分 前25% #语音合成 17. FlashTTS: Fast Streaming TTS with MTP Acceleration and 7.9分 前25% #语音合成 18. Multi-View Speech Representation Learning for Parkinson 7.9分 前50% #自监督学习 19. Is Text All You Need? Text as a Universal Information B 7.6分 前50% #语音识别 20. End-to-End Training for Discrete Token LLM based TTS Sy 7.6分 前50% #语音合成 21. Conan-embedding-v3: Fusing Modality-Specific Models for 7.6分 前25% #音频检索 22. Cross-Modal Masking for Robust Silent Speech Synthesis 7.5分 前50% #语音合成 23. Rethinking Depth: A study of the Recursive-Transformer 7.5分 前25% #语音识别 24. What Makes Synthetic Speech Sound Sarcastic? A Prosody- 7.5分 前25% #语音合成 25. FXplorer: A Map-Based Interface for Exploratory Audio E 7.5分 前25% #音频生成 26. Assessing the Energy and Carbon Emissions of Neural Spe 7.4分 前50% #说话人验证 27. Exploring the Scale and Diversity of Speech Anti-spoofi 7.4分 前50% #数据增强 28. From A to B to A: Palindromic Zero-Shot Voice Conversio 7.3分 前50% - 29. A study on the impact of region specific data on the pe 7.2分 前50% #语音识别 30. Speaker-Invariant Representation Learning for Spoofing 7.1分 前25% #对抗训练 31. BareWave: Waveform-Native Flow-Matching Text-to-Speech 7.0分 前50% #语音合成 32. SMC-ITA: Sequential Monte Carlo Inference-Time Alignmen 7.0分 前50% #音频生成 33. Quality-Diversity Search in Sound Generation: Investiga 7.0分 前50% - 34. Can LLMs understand LilyPond? A benchmark for symbolic 7.0分 前50% #音乐生成 35. NüshuVoice: Reviving the Voice of Endangered Nüshu with 7.0分 前50% #语音合成 36. Factors affecting ASR performance: A study using state 6.9分 前50% #语音识别 37. MeanVC 2: Robust Low-Latency Streaming Zero-Shot Voice 6.9分 前50% #语音转换 38. Few-shot Class-variable Incremental Audio Classificatio 6.9分 前50% #音频分类 39. A Hierarchical Feature Engineering Framework for Automa 6.8分 前50% - 40. Fast and Robust On-Device Speaker Diarization: Relative 6.6分 前50% #说话人分离 41. On Low-Bit Quantization Errors in Speaker Verification: 6.6分 前50% #说话人验证 42. Paediatric-HGNN: A Hybrid Heterogeneous Graph Neural Ne 6.5分 后50% #语音合成 43. TinyGiantALM: A Compact Audio-Language Model for Intent 6.4分 前50% #多模态模型 44. Overcoming Decoder Inconsistencies in Whisper for Dravi 6.2分 后50% #语音识别 45. Bridging Traditional Explainability Methods and Multimo 5.4分 后50% #语音识别 46. Sound Field Interpolation Using Physics-Informed Extrem 5.3分 后50% #语音增强 47. A Comparison of SSL-Based Feature Extractors and Back-E 5.0分 后50% #自监督学习 48. AeroSpectra Sentinel: An Auditable LLM Prompt-Chaining 4.5分 后50% #音频事件检测 📋 论文列表 🥇 A Finetuned SpeechLLM for Joint Multi-Granular L2 Assessment and Natural-Language Rationales 10.0/10 | 创新 2.0/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-09 · 更新于 2026-07-02 · 29 min · 6000 words

Domain-Aware Mispronunciation Detection and Diagnosis Using Language-Specific Statistical Graphs

📄 Domain-Aware Mispronunciation Detection and Diagnosis Using Language-Specific Statistical Graphs #图神经网络 #自监督学习 6.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.0/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 6.6/10 | 前50% | #图神经网络 | #图神经网络 | #自监督学习 | arxiv 👥 作者与机构 Huu Tuong Tu (1), Hanh Nguyen (1), Thien Van Luong (2), Nguyen Tien Cuong (1), Vu Huan (1), Nguyen Thi Thu Trang (3) ...

2026-06-05 · 更新于 2026-07-02 · 2 min · 340 words

语音/音乐/音频论文速递 2026-06-05

语音/音乐/音频论文速递 2026-06-05 共分析 47 篇论文 ⚡ 今日概览 📥 抓取 47 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 11篇 ███████████ #语音合成 6篇 ██████ #语音情感识别 3篇 ███ #大语言模型 2篇 ██ #语音增强 2篇 ██ #说话人识别 2篇 ██ #流式处理 1篇 █ #音频编码 1篇 █ 📊 论文评分排行榜(47 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Audio Interaction Model 9.8分 前50% #流式处理 🥈 USAD 2.0: Scaling Representation Distillation for Unive 9.0分 前25% #音频编码 🥉 M2S-AVSR: Modality-aware Multi-view Self-supervised Rep 9.0分 前25% #语音识别 4. Vortex: Efficient and Programmable Sparse Attention Ser 8.9分 前25% #大语言模型 5. UniVoice: A Unified Model for Speech and Singing Voice 8.7分 前25% #语音合成 6. Ouvia: A User-centered Framework for Measuring Usabilit 8.6分 前25% #语音翻译 7. Age-Aware Adapter Tuning for Children's Speech Reco 8.4分 前25% #语音识别 8. MCBench: A Multicontext Safety Assessment Benchmark for 8.4分 后50% #语音识别 9. SuperMemory-VQA: An Egocentric Visual Question-Answerin 8.4分 前25% #基准测试 10. GLASS: GRPO-Trained LoRA for Acoustic Style Steering in 8.2分 前25% #语音合成 11. A Model of Multi-turn Human Persuadability Using Probab 8.2分 前50% - 12. Learning Emotion-discriminative Representations for Zer 8.1分 前25% #语音情感识别 13. FORTE: FOL-guided Optimal Refinement for Text-audio rEt 8.1分 前25% #参数高效微调 14. FiLM-Based Speaker Conditioning of a SpeechLLM for Path 8.0分 前50% #语音识别 15. Task-Vector Arithmetic for Emotional Expressivity Contr 7.9分 前25% #语音合成 16. An Ultra-Low-Bitrate Neural Speech Codec with Plain-to- 7.7分 前25% #语音合成 17. Exploring LLMs for South Asian Music Understanding and 7.7分 前50% #音乐生成 18. SB-RF: Schrödinger Bridge Rectified Flow for One-Step R 7.6分 前25% #语音增强 19. nnAudio 2: Overcoming Dynamic Compilation Barriers and 7.5分 前50% #开源工具 20. Beyond Waveform Robustness: Robust Feature-Vocoder Adve 7.5分 前25% #语音识别 21. FoeGlass: Simple In-Context Learning Is Enough for Red 7.5分 前25% #音频生成 22. ProSarc: Prosody-Aware Sarcasm Recognition Framework vi 7.5分 前25% #语音情感识别 23. Probing Spatial Structure in Pretrained Audio Represent 7.4分 前25% - 24. Forgive or forget: Understanding the context of hate in 7.4分 前50% #音频检索 25. SpeechJBB: Probing Safety Alignment and Comprehension i 7.3分 前25% #语音识别 26. VoCodec: A Low-bitrate Streamable Neural Speech Codec w 7.2分 前50% #语音编码 27. F3-Tokenizer: Taming Audio Autoencoder Latents for Unde 7.2分 前25% #语音合成 28. Beyond WER: A Paired Acoustic Stress Test for Ambient C 7.1分 前50% #语音识别 29. InfoShield: Privacy-Preserving Speech Representations f 7.1分 前50% - 30. Multi-task Learning is Not Enough: Representational Ent 6.9分 前50% #语音识别 31. Sound Effects Dataset Unification With the Universal Ca 6.9分 前50% #音频分类 32. To Be Multimodal or Not to Be: Query-Adaptive Audio-Vis 6.8分 前50% #说话人识别 33. SHALA-LLM: Smartly Handling Ambiguous Labels in Alignin 6.8分 前50% #语音情感识别 34. SagnacAssisted Enhanced OTDR for Distributed Acoustic S 6.6分 前50% #信号处理基础 35. Domain-Aware Mispronunciation Detection and Diagnosis U 6.6分 前50% #图神经网络 36. CoSTA: Cognitive-State-Conditioned TTS Data Augmentatio 6.5分 前50% #语音合成 37. Beyond Text Following: Repairable Arbitration Reversals 6.4分 前50% #音频问答 38. Enhancing Audio Captioning with Auxiliary AudioSet Sema 6.3分 前50% - 39. Do speech foundation models perceive speaker similarity 6.3分 前50% #说话人识别 40. Efficient Punctuation Restoration via Weighted Lookahea 6.3分 前50% #大语言模型 41. Automatic Labelling of Speech Translation Errors 6.1分 前50% #语音识别 42. Towards Truly Multilingual ASR: Generalizing Code-Switc 5.9分 前50% #语音识别 43. An ERP Study on Recursive Locative Processing in Mandar 5.9分 前50% - 44. Multilingual Detection of Alzheimer's Disease from 5.7分 后50% #迁移学习 45. DBHN-Net: Dual-Branch Hybrid Neural Network For Low-Com 5.4分 前25% #语音增强 46. Beyond Generative Decoding: Discriminative Hidden-State 5.3分 前50% #多模态模型 47. Revisiting Lexicon Evaluation in Unsupervised Word Disc 1.0分 前25% #语音识别 📋 论文列表 🥇 Audio Interaction Model 9.8/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1.0/1 | 影响 1.5/1.5 | 开源 1.1/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-05 · 更新于 2026-07-02 · 28 min · 5851 words

Edge-specific signal propagation on mature chromophore-region 3D mechanism graphs for fluorescent protein quantum-yield prediction

📄 Edge-specific signal propagation on mature chromophore-region 3D mechanism graphs for fluorescent protein quantum-yield prediction #蛋白质工程 #图神经网络 #特征工程 #分子属性预测 ✅ 7.5/10 | 前25% | #蛋白质工程 | #图神经网络 | #特征工程 #分子属性预测 | arxiv 学术质量 7.5/7 | 选题价值 6.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yuchen Xiong(厦门大学马来西亚分校,中国-东盟海洋学院) 通讯作者:Swee Keong Yeap(厦门大学马来西亚分校,中国-东盟海洋学院)、Steven Aw Yoong Kit(厦门大学马来西亚分校,中国-东盟海洋学院) 作者列表:Yuchen Xiong(厦门大学马来西亚分校,中国-东盟海洋学院)、Swee Keong Yeap(厦门大学马来西亚分校,中国-东盟海洋学院)、Steven Aw Yoong Kit(厦门大学马来西亚分校,中国-东盟海洋学院) 💡 毒舌点评 这篇论文的亮点在于其“物理直觉先行”的建模思路:不是让模型自己从数据中“黑箱”学习,而是先将荧光蛋白发光的核心——发色团(CRO)及其微环境——拆解成可解释的“通道-信号-区域”传播图,这比直接用通用大模型“炼丹”更有说服力。但短板也同样明显:代码和数据均需“申请获取”,这种“半开源”状态在2024年显得有些保守,极大限制了结果的快速复现和领域内的竞争性验证。 📌 核心摘要 问题:荧光蛋白的量子产率(QY)由成熟发色团及其三维微环境决定,但现有预测方法(如序列相似性、通用蛋白质语言模型)未能显式建模局部物理信号如何作用于发色团的特定区域。 方法核心:提出一种以发色团为中心的“机制图”算法。将蛋白质PDB结构转化为分类型的3D残基图,对成熟发色团进行轻量级规则注册并将其分解为酚盐、桥连、咪唑啉酮三个功能区域,然后通过特定的物理接触通道(本文因结构数据限制,仅激活了立体位阻和疏水接触)将周围残基的物理化学信号(如体积、柔性、电荷、氢键能力等)传播至各区域,形成可解释的富集特征。最终,从121个候选特征中筛选出52个非身份特征池,并训练波段特异性的ExtraTrees回归模型。 创新性:与已有方法相比,其创新在于:① 问题表示从序列/通用图转变为以成熟发色团为锚点的三维机制图;② 引入“边缘特定信号传播”,将物理接触路径(通道)与传递的物化信号解耦,并明确作用区域,使每个特征都成为一个“通道-信号-区域”元组;③ 通过系统移除残基身份特征(如is_Tyr),构建了一个更具迁移性的非身份特征池,以提升对远缘同源蛋白的泛化能力。 主要结果:在包含531个荧光蛋白的基准数据集上,该方法在随机交叉验证中取得了最佳的预测性能,优于Band mean, ESM-C, SaProt等基线。关键优势体现在远缘同源性评估中,其在最困难的远缘区间(序列相似性<50%)性能显著高于所有基线。在需要筛选高/低QY蛋白的Top-K任务中,该方法也表现最佳。稳定选择的特征形成了可解释的波段特异性模式。 ...

2026-05-08 · 更新于 2026-07-02 · 3 min · 449 words

PC-MNet: Dual-Level Congruity Modeling for Multimodal Sarcasm Detection via Polarity-Modulated Attention

📄 PC-MNet: Dual-Level Congruity Modeling for Multimodal Sarcasm Detection via Polarity-Modulated Attention #多模态讽刺检测 #对比学习 #图神经网络 #多模态模型 #语音情感识别 🔥 8.0/10 | 前25% | #多模态讽刺检测 | #对比学习 | #图神经网络 #多模态模型 | arxiv 学术质量 6.2/7 | 选题价值 1.0/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Maoheng Li(澳门科技大学计算机科学与工程学院) 通讯作者:Ling Zhou(澳门科技大学计算机科学与工程学院),Xiaohua Huang(南京工程学院欧路学院) 作者列表: Maoheng Li(澳门科技大学计算机科学与工程学院) Ling Zhou(澳门科技大学计算机科学与工程学院) Xiaohua Huang(南京工程学院欧路学院) Rubing Huang(澳门科技大学计算机科学与工程学院,澳门科技大学珠海研究院) Wenming Zheng(东南大学儿童发展与学习科学教育部重点实验室,东南大学生物科学与医学工程学院) Guoying Zhao(芬兰奥卢大学机器视觉与信号分析中心) 💡 毒舌点评 这篇论文在针对讽刺检测任务的“矛盾建模”思路上做出了精巧的设计,极性调制注意力机制堪称“对症下药”,比简单拼接或计算相似性的方法高明不少。然而,其性能严重依赖于提供的连续情感值(Valence)标签进行冷启动,这在现实场景中往往是稀缺甚至不存在的监督信号,极大地限制了该模型的通用性和可迁移性。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中提及了以下数据集,但未提供具体下载链接。 MUStARD [3] MUStARD++ [22] MUStARD++ Balanced [37] Demo:论文中未提及 复现材料:论文提供了详细的实现细节,包括模型架构、超参数设置(如编码维度 d_enc=512,极性空间维度 d_p=16,图卷积层数 L_mac=2,上下文窗口 J=3 等)以及优化策略(两阶段优化、损失权重 λ_val=1.0, λ_cls=0.2, λ_con=0.8 等),这些信息构成了复现材料。但未提供预训练检查点或完整配置文件的直接链接。 论文中引用的开源项目: BERT:论文中使用了BERT-large模型。主要开源仓库:https://github.com/huggingface/transformers Wav2Vec 2.0:论文中使用了Wav2Vec 2.0-base模型。主要开源仓库:https://github.com/facebookresearch/wav2vec2 和 https://github.com/huggingface/transformers YOLOv8:论文中用于视觉目标检测。主要开源仓库:https://github.com/ultralytics/ultralytics CLIP:论文中使用了CLIP ViT-B/32模型。主要开源仓库:https://github.com/openai/CLIP 和 https://github.com/huggingface/transformers GPT-4o:作为基线模型被比较,但论文未提供其使用代码链接。 Llama 3-8B:作为基线模型被比较。主要开源仓库:https://github.com/meta-llama/llama Qwen 2-7B:作为基线模型被比较。主要开源仓库:https://github.com/QwenLM/Qwen2 论文中提到的其他基线模型(如ESAM [33])的代码,论文作者在文中提到“我们显式复现了最近的ESAM [33]模型”,但未提供具体链接。 补充信息 以下是对已有分析结果的补充,这些信息在原始全文中有明确陈述,但未在深度分析中得到体现。 ...

2026-05-05 · 更新于 2026-07-02 · 3 min · 464 words