HALAS: A Human-Annotated Dataset of Hallucinations of Modern ASR Systems

📄 HALAS: A Human-Annotated Dataset of Hallucinations of Modern ASR Systems #语音识别 #数据集 #基准测试 8.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 🔥 8.4/10 | 前50% | #语音识别 | #数据集 | #基准测试 | arxiv 👥 作者与机构 Mateusz Barański, Jan Jasiński, Julitta Bartolewska, Marcin Witkowski, Konrad Kowalczyk Signal Processing Group, Institute of Electronics, AGH University of Krakow, Poland ...

2026-06-23 · 更新于 2026-07-03 · 2 min · 425 words

PIVOTSBench: Evaluating Fine-Grained Interpersonal Relationship Reasoning in Multimodal Large Language Models

📄 PIVOTSBench: Evaluating Fine-Grained Interpersonal Relationship Reasoning in Multimodal Large Language Models #基准测试 6.8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.8/10 | 前50% | #基准测试 | #基准测试 | arxiv 👥 作者与机构 作者:Shuxiang Zhang (中山大学), Yiting Yin (密歇根大学), Wenxuan Song (清华大学), Yuhang Wu† (清华大学), Miao Liu† (清华大学)。通讯作者为Yuhang Wu和Miao Liu。 💡 毒舌点评 这篇论文的定位很明确——在通用的多模态大模型评估领域“圈地”,提出了一个看似“填补空白”的社交推理基准。其核心动机(现有评估不够细粒度)是合理的,但实际执行和深度存在明显短板。最大的问题是“雷声大雨点小”:声称是“首个”基准,但数据集规模(191个视频)在当今大模型时代显得过于迷你,难以支撑具有统计显著性的结论。消融实验设计得颇为花哨,涵盖了模态、预测设置和提示策略,但分析深度不足,很多结论停留在现象描述(如“在YouTube上变差”),缺乏对模型内部机制(如为何联合预测对深度场景无效)的挖掘。实验对比部分,与开源模型的差距被过分强调,而与当前最强闭源模型(如GPT-4o)的细致对比和差距分析缺失。论文最大的亮点在于其心理学框架的引入,但这更像一个“理论包装”,实际评估任务的设计(如关键帧识别)是否能真正衡量“推理”能力值得怀疑。总体而言,这是一篇在选题上讨巧,但在贡献的坚实性、实验的深度和结论的普适性上都亟待提升的工作。 📌 核心摘要 本文针对多模态大语言模型(MLLMs)在细粒度人际关系推理能力评估的空白,提出了PIVOTSBench基准。该基准基于心理学理论定义了六维双向人际关系评分框架,并设计了三项层次化任务(评分、关键帧识别、因果分析)来系统性评估模型能力。数据集融合了Social-IQ 2.0的显式社交场景和YouTube的隐式深度互动场景。实验表明,以GPT-5为代表的专有模型在所有任务上显著优于Qwen3系列开源模型。消融研究揭示,视觉模态和显式社会角色信息在不同场景下的贡献存在差异,而联合/成对预测策略及启发式提示的效果高度依赖于场景的显性程度。论文指出,当前MLLMs在理解隐式社交线索方面仍存在明显局限,且单一的建模策略无法应对复杂多变的真实社交动态。 ...

2026-06-23 · 更新于 2026-07-03 · 3 min · 451 words

语音/音乐/音频论文速递 2026-06-23

语音/音乐/音频论文速递 2026-06-23 共分析 83 篇论文 ⚡ 今日概览 📥 抓取 83 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 19篇 ███████████████ #语音合成 14篇 ██████████████ #音乐生成 3篇 ███ #说话人验证 3篇 ███ #语音增强 3篇 ███ #对比学习 2篇 ██ #自监督学习 2篇 ██ #音频水印 2篇 ██ 📊 论文评分排行榜(83 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 CoughPhase-CLR: Designing an acoustics-informed foundat 10.0分 前10% #对比学习 🥈 Libretto: Giving LLM Agents a Sense of Musical Structur 9.2分 前50% #音乐生成 🥉 Speaker Identity in Non-Verbal Vocalizations: Condition 9.1分 前25% #说话人验证 4. PHAST-Net: Attention-Guided, Physics-Informed Network f 9.0分 前10% #音乐信息检索 5. Domain-incremental audio classification using domain-sp 9.0分 前50% #音频分类 6. MSU-Bench: Towards Speaker-Centric Understanding in Con 9.0分 前10% - 7. How Well Do Self-Supervised Speech Models Encode Age an 9.0分 前50% #自监督学习 8. CAAD: Contrastive Audio-Aware Distillation for Efficien 8.9分 前25% #语音识别 9. STAR-VAE: Structured Topology-Aware Regularization for 8.8分 前25% #音频生成 10. An Evaluation Framework for Text-to-Speech Voice Recons 8.8分 前25% #语音合成 11. An Analysis of Untrained Deep Reservoir Networks for Au 8.8分 前50% #音频事件检测 12. Towards Detecting Neural Audio Codec Synthesized Heart 8.7分 前50% #自监督学习 13. Bridging the Age Gap: Towards Detecting Neural Audio Co 8.6分 前50% #语音伪造检测 14. ATCCaps: A Call-Sign-Aware Speech Dataset for Air Traff 8.6分 前25% #语音识别 15. InstructFX2FX: A Multi-turn Text-to-Preset Demo for Ite 8.6分 前50% #对比学习 16. When EER Hides Deployment Failure: Auditing Threshold T 8.6分 前25% - 17. CapRiCorn-1K: A Comprehensive Benchmark for Video Capti 8.6分 前50% #语音识别 18. Compiling Differentiable Audio Graphs to Real-Time DSP 8.5分 前25% - 19. Improving Text-to-Music Generation with Human Preferenc 8.5分 前50% #音乐生成 20. Don't Listen to Me: A Lightweight, Low-Latency Mode 8.4分 前50% #语音增强 21. HALAS: A Human-Annotated Dataset of Hallucinations of M 8.4分 前50% #语音识别 22. Benchmarking Large Language Models for Grapheme-to-Phon 8.4分 前25% #语音合成 23. Cross-lingual Retrieval-Augmented Classification for Dy 8.4分 前25% #语音识别 24. Bagpiper-TTS: Natural Language Guided Universal Speech 8.4分 前25% #语音合成 25. Using Phonological-Level Wav2Vec2 for Mandarin Automati 8.3分 前25% #语音识别 26. Word Lengthening as a Function of Utterance Position: A 8.1分 前25% #语音合成 27. LambdaMark: Semantic Audio Watermarking for Robustness 8.0分 前25% #音频水印 28. OpenWER: Improving Cross-Lingual ASR Evaluation and Ena 8.0分 前50% #语音识别 29. AudioCALM: Continuous Autoregressive Language Modeling 7.9分 前25% #语音合成 30. AOR-Bench: Do Large Audio Language Models Over-Refuse P 7.9分 前50% #音频问答 31. Gradient-Based Learning of Parametric Engine Sound Repr 7.8分 前50% #参数高效微调 32. Toward Open-Set Speaker Attribute Prediction with Keywo 7.8分 前25% #多模态模型 33. Time-Frequency Weighted Losses for Phoneme Reconstructi 7.8分 前25% #语音增强 34. An implicitization-based solution to the minimal 4s/6r 7.8分 前50% - 35. CORTIS: Text-Only Adaptation of Spoken Language Models 7.7分 前50% #语音识别 36. What Do Neural Networks Learn for TDOA Estimation? A Cr 7.7分 前50% #声源定位 37. Kiwano: A Cutting-Edge Open-Source Toolkit for Speaker 7.6分 前50% #说话人验证 38. Learning to Evade: Adaptive Attacks on Audio Watermarki 7.6分 前50% #音频水印 39. Bagpiper-Edit: Zero-Shot Open-Ended Audio Editing via R 7.6分 前25% #语音合成 40. From Text Metrics to Model Internals: A Study of Whispe 7.5分 前50% #语音识别 41. Bridging Self-Supervised Learning and Speech Enhancemen 7.5分 前25% #语音增强 42. Integrating Facial Generation into Full-Duplex Spoken D 7.5分 前25% - 43. ESPnet3: Infrastructure for Scalable Speech and Audio R 7.5分 前25% #语音识别 44. On the Effect of Segmentation Width and Cluster Size on 7.4分 前25% #语音合成 45. The Anatomy of the CTC Oracle Gap: Acoustic Exhaustion 7.3分 前50% #语音识别 46. FlowTTS-GRPO: Online Reinforcement Learning with Multi- 7.2分 前50% - 47. DisSpeech: Low-Resource Controllable Mandarin Stuttered 7.2分 前25% #语音合成 48. SDP-Codec: A Speaker-Decoupled Speech Codec with Pitch 7.2分 前50% #语音编码 49. Synthesizing the Lombard Effect: Multi-Level Control of 7.2分 前50% #语音合成 50. Scaling Audio Models Efficiently: A Joint Study of Comp 7.2分 前50% #语音识别 51. Online Predictive Coding for Dual-Mode Self-Supervised 7.2分 前50% #语音识别 52. Exploiting Neural Audio Codec Latents for Adversarial A 7.2分 前50% #生成对抗网络 53. Audio Editing in the Era of Foundation Models: A Survey 7.0分 前25% - 54. Adding Robust Code-Switching Capabilities to High Perfo 7.0分 前50% #语音识别 55. Unlocking In-Context Learning in Audio-Language Models 7.0分 前50% #联邦学习 56. Backdoor Attacks on Speech Emotion Recognition via TTS- 7.0分 前50% #语音情感识别 57. LK Jam: System Architecture and Implementation of a Rea 7.0分 前50% #音乐生成 58. An Acoustic Landmark Database of the English Lexicon vi 6.9分 前50% #语音合成 59. Learning from Audio-Dependency Errors: Data Curation St 6.9分 前50% #音频问答 60. The Watermark Shortcut: How Provenance Marking Sabotage 6.8分 前50% #数据增强 61. LISE : Listenable Interpretable Speaker Embeddings 6.8分 前50% #说话人验证 62. PIVOTSBench: Evaluating Fine-Grained Interpersonal Rela 6.8分 前50% #基准测试 63. AugCodec: A Low-Bitrate Disentangled Neural Speech Code 6.7分 前50% #数据增强 64. Vaani Benchmark V1.0: An Inclusive Multimodal Benchmark 6.7分 前50% #语音识别 65. Physics-Informed Neural Operator for Speech Production 6.7分 前50% #语音合成 66. Streaming T5-based Text-to-Speech Synthesis with Limite 6.7分 前25% #语音合成 67. ProsoCodec: Prosody-Oriented Speech Codec for Voice Con 6.6分 前50% #语音转换 68. Beyond ROC-AUC: Operating-Point Performance Reporting f 6.6分 前50% - 69. ISCSLP 2026 CoT-TTS Challenge: Chain-of-Thought Reasoni 6.6分 前50% #语音合成 70. A DDSP Framework for Adaptive Room Equalization 6.5分 前50% #自适应滤波 71. EmoInstruct-TTS: Dual-Path Instruction-Guided Emotional 6.5分 前50% - 72. Interleaved Speech Language Models Latently Work In Tex 6.4分 前50% #语音识别 73. DSSCNet: A Transfer Learning Framework for Cross-Corpus 6.3分 前50% #迁移学习 74. Sea-Scan: High-Accuracy, ML-based Dark Vessel Detection 6.3分 前50% - 75. Catching Lies Without Sending the Video: Privacy-Preser 6.2分 前50% #多模态模型 76. MindAlign: Decoding Inner Speech from fMRI Signals via 5.8分 前50% #语音识别 77. Acoustic Landmark Detector based on Conformer and HuBER 5.5分 前50% #语音识别 78. Explainable AI in Speaker Recognition – Attention Map 5.5分 前50% #说话人识别 79. Imitation Learning for Elder-Facing Speech Synthesis 5.5分 前50% #语音合成 80. Improving Engine Sound Analysis in Hot-Test Environment 4.9分 后50% #音频降噪 81. Direct Raw Audio Signal Processing via Reservoir Comput 4.5分 后50% #语音识别 82. A Generalized Formalism of Auto-Regressive Decoding for 4.1分 后50% #自回归模型 83. Noise-Driven Instrument Based on Coherent Quantum and S 3.8分 后50% - 📋 论文列表 🥇 CoughPhase-CLR: Designing an acoustics-informed foundation model for coughing sound classification 10.0/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.0/1.5 ...

2026-06-23 · 更新于 2026-07-03 · 48 min · 10123 words

IHBench: Evaluating Post-Interruption Recovery in Voice Agents with Structured Workflows

📄 IHBench: Evaluating Post-Interruption Recovery in Voice Agents with Structured Workflows #语音对话系统 #多模态模型 #基准测试 7.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 0.9/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.5/10 | 前25% | #语音对话系统 | #多模态模型 | #基准测试 | arxiv 👥 作者与机构 Ahmad Salimi, Wentao Ma, Yuzhi Tang (Boson AI, Toronto, ON, Canada); Dongming Shen, Mu Li, Alex Smola (Boson AI, Santa Clara, CA, USA) ...

2026-06-19 · 更新于 2026-07-03 · 3 min · 441 words

语音/音乐/音频论文速递 2026-06-19

语音/音乐/音频论文速递 2026-06-19 共分析 40 篇论文 ⚡ 今日概览 📥 抓取 40 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 10篇 ██████████ #语音识别 8篇 ████████ #语音转换 2篇 ██ #语音增强 2篇 ██ #自监督学习 2篇 ██ #说话人验证 1篇 █ #模型压缩 1篇 █ #多模态模型 1篇 █ 📊 论文评分排行榜(40 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 FlowEdit: Associative Memory for Lifelong Pronunciation 10.0分 前25% #语音合成 🥈 Low-Burden Data Augmentation for Dysarthric ASR via Zer 8.7分 前25% #语音识别 🥉 S-JEPA : Soft Clustering Anchors for Self-Supervised Sp 8.7分 前25% #语音识别 4. Personalized Keyword Spotting for User-Defined Keywords 8.6分 前25% #说话人验证 5. FlowFake: Liquid Networks for Audio Deepfake Detection 8.5分 前25% #模型压缩 6. Systematic Study of Dysarthric Speech Recognition: Spec 8.3分 前50% #语音识别 7. PerceptionDLM: Parallel Region Perception with Multimod 8.1分 前25% #多模态模型 8. RIVET: Robust Idempotent Voice Attribute Editing 8.0分 前50% #语音转换 9. Repurposing a Speech Classifier for Guided Diffusion-Ba 7.9分 前50% #语音合成 10. Exploring Feature Extraction Technique Parameters for A 7.9分 前50% #音频事件检测 11. Transcript-Free Flow-Matching Text-to-Speech via Speech 7.7分 前25% #语音合成 12. How Do Instructions Shape Speech? Cross-Attention Attri 7.7分 前50% #语音合成 13. Hybrid Diffusion Transformer for Instruction-Guided Aud 7.6分 前50% #Transformer 14. Improving Code-Switching ASR with Code-Mixing Guided Sy 7.6分 前25% #语音识别 15. PolSeT: Polish Semantics of Timbre Dataset 7.5分 后50% - 16. IHBench: Evaluating Post-Interruption Recovery in Voice 7.5分 前25% #语音对话系统 17. A Survey of Full-Duplex Spoken Dialogue Systems: Archit 7.4分 前50% #语音合成 18. PhysDrift: Bridging the Embodiment Gap in Humanoid Co-S 7.4分 前50% #语音合成 19. PrefSQA: Pairwise Preference Prediction for Speech Qual 7.3分 前50% #语音质量评估 20. Latency-Configurable Streaming Speech Enhancement via A 7.2分 前50% #语音增强 21. A Comparative Study of Pretrained Transformer Models fo 7.2分 前50% #语音识别 22. Pitch Spelling Jazz Lead Sheets, Solo Transcriptions, C 7.2分 前50% - 23. Stuttering Classification and Segmentation with Attenti 7.0分 前50% - 24. Time-Unconditional Generative Speech Enhancement via Au 7.0分 前25% #语音增强 25. Investigating Human-Model Discrepancies in Speech Quali 6.9分 前25% #语音合成 26. Prismriver: Formalization of Music Theory and Algorithm 6.9分 前50% - 27. NEST: Narrative Event Structures in Time for Long Video 6.8分 前50% - 28. Cross-Dataset, Age, and Gender Generalization: A Compre 6.7分 前50% #语音识别 29. Exploring Pre-training Benefits on Phoneme Addition thr 6.7分 前50% - 30. Analyzing Language and Geographical Variation in Speech 6.5分 前50% #语音识别 31. Improving End-to-End Speech Recognition for Dysarthric 6.5分 前50% #语音识别 32. Segment-Level Mandarin Chinese Speech-Based Cognitive I 6.5分 前50% #对比学习 33. Light-weight Pronunciation Assessment via Discrete Spee 6.4分 前50% #自监督学习 34. ReNikud: Audio-Supervised Hebrew Grapheme-to-Phoneme Co 6.2分 前50% #语音合成 35. Zero-VC: Zero-Lookahead Streaming Voice Conversion via 6.1分 前50% #语音转换 36. MixProLAP: Mixture-Induced Uncertainty Modeling for Pro 5.7分 前50% #音频检索 37. MaineCoon: Pursuing A Real-Time Audio-Visual Social Wor 5.7分 前50% #语音合成 38. Leveraging systems' non-linearity to tackle the sca 5.5分 后50% #数据增强 39. Interpreting Content and Speaker Characteristics in Fac 5.0分 后50% #语音合成 40. Beyond Speaker Independence: Evaluating Cross-Lingual A 4.9分 后50% #自监督学习 📋 论文列表 🥇 FlowEdit: Associative Memory for Lifelong Pronunciation Adaptation in Flow-Matching TTS 10.0/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-19 · 更新于 2026-07-03 · 23 min · 4844 words

IndicContextEval: A Benchmark for Evaluating Context Utilisation in Audio Large Language Models Across 8 Indic Languages

📄 IndicContextEval: A Benchmark for Evaluating Context Utilisation in Audio Large Language Models Across 8 Indic Languages #语音识别 #基准测试 #低资源 #多语言 9.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9.5/10 | 前25% | #语音识别 | #基准测试 | #低资源 #多语言 | arxiv 👥 作者与机构 作者:Sakshi Joshi, Rathi, Singh, George, Hari, Bhogale, Khapra, Dhruv Subhash, Sanskar, Eldho Ittan, R J, Kaushal, Mitesh M。 机构:1 AI4Bharat, Indian Institute of Technology Madras, India; 2 Sarvam AI, India。 第一作者邮箱:sakshijcom@gmail.com。通讯作者邮箱:miteshk@dsai.iitm.ac.in。 ...

2026-06-18 · 更新于 2026-07-03 · 3 min · 450 words

Montreal Forced Aligner and the state of speech-to-text alignment in 2026

📄 Montreal Forced Aligner and the state of speech-to-text alignment in 2026 #语音识别 #基准测试 #低资源 #概率图模型 7.5/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ✅ 7.5/10 | 前25% | #语音识别 | #概率图模型 | #基准测试 #低资源 | arxiv 👥 作者与机构 作者:Michael McAuliffe, Kaylynn Gunter, Michael Wagner, Morgan Sonderegger 机构:1. University of Wisconsin–Madison, USA; 2. McGill University and Centre for Brain, Language, and Music, Canada; 3. University of Oregon, USA ...

2026-06-18 · 更新于 2026-07-03 · 4 min · 763 words

语音/音乐/音频论文速递 2026-06-18

语音/音乐/音频论文速递 2026-06-18 共分析 36 篇论文 ⚡ 今日概览 📥 抓取 36 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 7篇 ███████ #多模态模型 5篇 █████ #语音合成 5篇 █████ #空间音频 1篇 █ #音乐生成 1篇 █ #模型评估 1篇 █ #声源定位 1篇 █ #音频生成 1篇 █ 📊 论文评分排行榜(36 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 IndicContextEval: A Benchmark for Evaluating Context Ut 9.5分 前25% #语音识别 🥈 Native Active Perception as Reasoning for Omni-Modal Un 9.1分 前10% #语音识别 🥉 Who Wins the Conflict? Mechanistic Interpretability of 8.8分 前25% #多模态模型 4. Generalised Transcoding Framework for Arbitrary Spatial 8.7分 前50% #空间音频 5. Closing the Loop: PID Feedback Control for Interpretabl 8.7分 前50% #音乐生成 6. GRIDEX: Grid-Grounded Forensic Explanations for Deepfak 8.6分 前50% #语音合成 7. Continuous-Speech Parkinson's Disease Detection Usi 8.3分 前25% - 8. Mitigating Scoring Errors and Compensating for Nonverba 8.0分 前25% #多模态模型 9. A Survey of Methods for the Discretization of Phonograp 8.0分 前50% - 10. Adaptive Speech-to-Spike Encoding for Spiking Neural Ne 8.0分 前25% - 11. MagpieTTS-LF: Inference-Time Long-Form Speech Generatio 7.9分 前25% #语音合成 12. Beyond AHI: An Interpretable Causal-Discovery-Guided Fr 7.9分 前25% - 13. Evaluating Dynamic Range Compressor Models Using Contro 7.8分 前50% #模型评估 14. NeuralMUSIC: A Hybrid Neural-Subspace Framework for Rob 7.8分 前50% #声源定位 15. Fair Cognitive Impairment Detection Through Unlearning 7.7分 前25% #多模态模型 16. Audio-to-Audio via Diffusion Warm Initialization 7.6分 前25% #音频生成 17. FineCombo-TTS: Collaborative and Precise Controllable S 7.6分 前25% #语音合成 18. Constraining to Generalize: Subspace Tuning for Few-sho 7.5分 前25% #音频分类 19. Learning Robust Pair Confidence for Multimodal Emotion- 7.5分 前50% #多模态模型 20. Montreal Forced Aligner and the state of speech-to-text 7.5分 前25% #语音识别 21. Scoring Backends Matter More Than Pooling: A Systematic 7.4分 前50% - 22. Reliable Neural-Codec Text-to-Speech by ASR Self-Verifi 7.4分 前50% #语音合成 23. Reference-Driven Multi-Speaker Audio Scene Generation f 7.3分 前50% #语音合成 24. QC-GAN: A Parameter-Efficient Quaternion Conformer GAN 7.1分 前50% #语音增强 25. Augmenting Dysarthric Speech Severity Assessment with M 7.0分 前50% #语音质量评估 26. Continuous Audio Thinking for Large Audio Language Mode 6.9分 前50% - 27. Human-AI Coevolution Dynamics: A Formal Theory of Socia 6.7分 前50% - 28. DASH: Dual-View Self-Distillation with Multi-Layer Hidd 6.6分 前50% #语音识别 29. Reference-Based Recursive Least-Squares Mitigation of R 6.6分 前50% - 30. Responsible ASR: Overcoming Challenges of Foundational 6.5分 前50% #语音识别 31. Risk Stratification for ICU Delirium using Pervasive Am 6.5分 前50% #多模态模型 32. ThinkDeception: A Progressive Reinforcement Learning Fr 6.3分 前50% #强化学习 33. EMORSION: Examining the Impact of Audio Parameters on E 6.0分 前50% - 34. Speech-Driven End-to-End Language Discrimination toward 5.8分 前50% #语音识别 35. Low-resource Language Discrimination Towards Chinese Di 5.5分 前50% #语音识别 36. SingFox: A Multi-Lingual Singfake Detection Corpus 5.4分 后50% #语音伪造检测 📋 论文列表 🥇 IndicContextEval: A Benchmark for Evaluating Context Utilisation in Audio Large Language Models Across 8 Indic Languages 9.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.0/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

2026-06-18 · 更新于 2026-07-03 · 21 min · 4449 words

MVEB: Massive Video Embedding Benchmark

📄 MVEB: Massive Video Embedding Benchmark #基准测试 6.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 6.5/10 | 前50% | #基准测试 | #基准测试 | arxiv 👥 作者与机构 Adnan El Assadi (哈佛大学), Roman Solomatin (SaluteDevices, MIRAI), Isaac Chung (Zendesk), Chenghao Xiao (上海财经大学), Deep Shah (Google LLC), Manan Dey (Salesforce), Shriya Sudhakar (康奈尔大学), Zacharie Bugaud (Astera Institute), Wissam Siblini (独立贡献者), Ayush Sunil Munot (印度理工学院克勒格布尔分校), Yashwanth Devavarapu (巴克莱银行), Rakshitha Ireddi (巴克莱银行), Michelle Yang (独立贡献者), Márton Kardos (奥胡斯大学), Niklas Muennighoff (斯坦福大学), Kenneth Enevoldsen (奥胡斯大学)。 ...

2026-06-17 · 更新于 2026-07-03 · 3 min · 449 words

When Multiple Scripts Matter: Evaluating ASR in Clinical Settings

📄 When Multiple Scripts Matter: Evaluating ASR in Clinical Settings #语音识别 #多语言 #数据集 #基准测试 #低资源 9.1/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 1.1/1 | 影响 1.0/1.5 | 开源 1.3/1.5 | 复现 1.2/0.5 | 工程 1.1/1.5 🔥 9.1/10 | 前10% | #语音识别 | #多语言 | #数据集 #基准测试 | arxiv 👥 作者与机构 Jean Seo (1,2), Minkyu Kim (1), Jeonguk Lee (1), Jisoo Jung (1), Wooseok Han (3), Eunho Yang (1)。机构:1 AITRICS, 2 University of Copenhagen, 3 KAIST。 ...

2026-06-17 · 更新于 2026-07-03 · 2 min · 398 words