流式处理 | 语音/音乐/音频论文速递

ICML 2026 语音/音频论文详细分析

ICML 2026 语音/音频论文详细分析共分析 137 篇 ICML 2026 论文 🎯 任务分类点击任务标签查看该方向所有论文：音视频理解（18篇）音视频生成（10篇）音频分类（9篇）音频理解（8篇）音乐生成（8篇）语音合成（8篇）音视频问答（8篇）语音识别（5篇）语音伪造检测（4篇）语音交互（4篇）语音增强（4篇）语音编码（4篇）多模态模型（3篇）音频伪造检测（3篇）音频分离（2篇）空间音频（2篇）音频编码（2篇）音频修复（2篇）语音属性识别（2篇）音频生成（2篇） ⚡ 会议概览 📥 ICML 2026 接收 6341 篇论文 → 🔍 关键词 + LLM 筛选 137 篇音频/语音/音乐相关 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音视频理解 18篇 ██████████████████ #音视频生成 10篇 ██████████ #音频分类 9篇 █████████ #音频理解 8篇 ████████ #音乐生成 8篇 ████████ #语音合成 8篇 ████████ #音视频问答 8篇 ████████ #语音识别 5篇 █████ #语音伪造检测 4篇 ████ #语音交互 4篇 ████ #语音增强 4篇 ████ #语音编码 4篇 ████ #多模态模型 3篇 ███ #音频伪造检测 3篇 ███ #音频分离 2篇 ██ 📊 论文评分排行榜（137 篇，按分数降序）排名论文评分分档主任务 🥇 TimeChat-Captioner: Scripting Multi-Scene Videos with T 9.4分前10% #音视频理解 🥈 Joint Enhancement and Classification using Coupled Diff 9.3分前10% #语音识别 🥉 Learning Tight Rejection Boundaries without Negatives f 9.3分前10% #语音伪造检测 4. AVTrack: Audio-Visual Tracking in Human-centric Complex 9.3分前10% #音视频理解 5. A Semantically Consistent Dataset for Data-Efficient Qu 9.2分前10% #音频分离 6. SAM Audio: Segment Anything in Audio 9.2分前10% #音频分离 7. MECAT: A Multi-Experts Constructed Benchmark for Fine-G 9.1分前10% #音频理解 8. $\tau$-Voice: Benchmarking Full-Duplex Voice Agents on 9.1分前10% #语音交互 9. PhaseCoder: Microphone Geometry-Agnostic Spatial Audio 8.7分前25% #空间音频 10. BAT: Better Audio Transformer Guided by Convex Gated Pr 8.6分前25% #音频分类 11. SPEAR: A Unified SSL Framework for Learning Speech and 8.4分前25% #音频理解 12. Dual-View Predictive Diffusion: Lightweight Speech Enha 8.4分前25% #语音增强 13. Unlocking Cross-Modal Biosignal Synthesis: A Temporally 8.3分前25% - 14. CoLA: Cross-Modal Low-rank Adaptation for Multimodal Do 8.3分前25% #音视频理解 15. Speech-Audio Compositional Attacks on Multimodal LLMs a 8.3分前25% #音频理解 16. MoST: Mixing Speech and Text with Modality-Aware Mixtur 8.2分前25% - 17. IVQ: Structured and Lightweight Vector Quantization via 8.2分前25% #音频编码 18. Spherical Procrustes Alignment for Reliable Medical Aud 8.2分前25% #音频分类 19. Attend to Anything: Foundation Model for Unified Human 8.2分前25% #音视频理解 20. VocSim A Training-free Benchmark for Zero-shot Content 8.2分前25% #音频检索 21. JAEGER: Joint 3D Audio-Visual Grounding and Reasoning i 8.1分前25% #声源定位 22. LALM-as-a-Judge: Benchmarking Large Audio-Language Mode 8.1分前25% #语音交互 23. Pianist Transformer: Towards Expressive Piano Performan 8.1分前25% #音乐生成 24. Simultaneous Speech-to-Speech Translation Without Align 8.0分前25% #语音翻译 25. PHALAR: Phasors for Learned Musical Audio Representatio 8.0分前25% #音乐生成 26. Optimality of FSQ Tokens for Continuous Diffusion for C 8.0分前25% #语音合成 27. SonicMaster: Towards Controllable All-in-One Music Rest 8.0分前25% #音频修复 28. Do Audio LLMs Listen or Read? Analyzing and Mitigating 8.0分前25% #语音属性识别 29. Multiple Choice Learning of Low-Rank Adapters for Langu 8.0分前25% #多模态模型 30. Bridging the Stability-Expressivity Gap: Synthetic Data 8.0分前25% #语音合成 31. FutureOmni: Evaluating Future Forecasting from Omni-Mod 8.0分前25% #音视频问答 32. Acoustic Interference: A New Paradigm Weaponizing Acous 8.0分前25% #音频理解 33. ReGen: Hierarchical Multi-Prompt Representation Generat 8.0分前25% #语音编码 34. DiscoForcing: A Unified Framework for Real-Time Audio-D 8.0分前25% #音乐生成 35. DreamID-Omni: Unified Framework for Controllable Human- 8.0分前25% #音视频生成 36. AgentSteerTTS: A Multi-Agent Closed-Loop Framework for 7.9分前25% #语音合成 37. STAR-VAE: Structured Topology-Aware Regularization for 7.9分前25% #音频生成 38. HyperPotter: Spell the Charm of High-Order Interactions 7.9分前25% #音频伪造检测 39. T2AV-Compass: Towards Unified Evaluation for Text-to-Au 7.9分前25% #音视频生成 40. Decoupling The “What” and “Where” With Polar Coordinate 7.8分前25% #音乐生成 41. V-LynX: Token Interface Alignment for Video+X LLMs 7.8分前25% #音视频问答 42. Ariadne’s Thread of LipSync: Unraveling Forgeries via I 7.8分前25% #音视频理解 43. SONAR: Spectral‑Contrastive Audio Residuals for General 7.8分前25% #语音伪造检测 44. TMD-Bench: A Multi-Level Evaluation Paradigm for Music– 7.7分前25% #音视频生成 45. AudioMosaic: Contrastive Masked Audio Representation Le 7.7分前25% #音频分类 46. BFCL Audio: An Audio Function Calling Evaluation for La 7.7分前25% #语音交互 47. SALSA-V: Shortcut-Augmented Long-form Synchronized Audi 7.6分前25% #音视频生成 48. BEAT: Tokenizing and Generating Symbolic Music by Unifo 7.6分前25% #音乐生成 49. From Inpainting to Editing: Unlocking Robust Mask-Free 7.6分前25% #扩散模型 50. Hearing Without Noticing? Attention-Aware Stealthy Blac 7.6分前25% #语音识别 51. AVGen-Bench: A Task-Driven Benchmark for Multi-Granular 7.6分前25% #音视频生成 52. Alethia: a Foundational Encoder for Voice Deepfakes 7.6分前25% #语音伪造检测 53. AG-REPA: Causal Layer Selection for Representation Alig 7.6分前25% #语音合成 54. AVI-Bench: Toward Human-like Audio-Visual Intelligence 7.6分前25% #音视频理解 55. Two-dimensional quantization for geometry-aware audio c 7.6分前25% #语音编码 56. Abstraction Induces the Brain Alignment of Language and 7.5分前25% #语音编码 57. Self-Guidance: Enhancing Neural Codecs via Decoder Mani 7.5分前25% #语音编码 58. OmniVideo-R1: Reinforcing Audio-visual Reasoning with Q 7.5分前25% #音视频问答 59. Listening Through the Noise: Cauchy-Driven Diffusion Br 7.4分前50% #音频修复 60. MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 7.4分前50% - 61. Omni-Perception Policy Optimization for Multimodal Emot 7.4分前50% #音视频理解 62. video-SALMONN S: Memory-Enhanced Streaming Audio-Visual 7.3分前50% #音视频问答 63. Group Cognition Learning: Making Everything Better Thro 7.3分前50% #音视频理解 64. REST: Diffusion-based Real-time End-to-end Streaming Ta 7.3分前50% #音视频生成 65. PhoStream: Benchmarking Real-World Streaming for Omnimo 7.3分前50% #音视频问答 66. ProactiveLLM: Learning Active Interaction for Streaming 7.2分前50% #语音识别 67. Stream RAG: Instant and Accurate Spoken Dialogue System 7.2分前50% #流式处理 68. Probing Cross-modal Information Hubs in Audio-Visual LL 7.2分前50% #音视频理解 69. Efficient Multi-modal Dataset Distillation via Analytic 7.2分前50% #对比学习 70. Self-Supervised Flow Matching for Scalable Multi-Modal 7.2分前50% #音视频生成 71. CoCoEmo: Composable and Controllable Human-Like Emotion 7.1分前50% #语音合成 72. Scaling Transformers for End-to-End Discrete Audio Toke 7.1分前50% #音频编码 73. Query-Based Asymmetric Modeling with Decoupled Input–Ou 7.1分前50% #语音增强 74. OmniSIFT: Modality-Asymmetric Token Compression for Eff 7.1分前50% #音视频问答 75. Sparse Autoencoders for Interpretable Emotion Control i 7.0分前50% #语音合成 76. The Silent Thought: Modeling Internal Cognition in Full 7.0分前50% #知识蒸馏 77. Hidden in Plain Tokens: Simply Robust, Gradient-Free Wa 7.0分前50% #音频水印 78. Efficient Distributed MLLM Training with Cornstarch 7.0分前50% #音视频理解 79. Reasoning LLM Improves Speaker Recognition in Long-form 7.0分前50% - 80. Real-World Unsupervised Models Generalize to Predict Br 6.9分前50% #模型评估 81. From Talking to Singing: A New Challenge for Audio-Visu 6.9分前50% #音视频理解 82. OmniShow: Unifying Multimodal Conditions for Human-Obje 6.9分前50% #音视频生成 83. E-VAds: An E-commerce Short Videos Understanding Benchm 6.9分前50% #音视频问答 84. STARCaster: Spatio-Temporal AutoRegressive Video Diffus 6.8分前50% #音视频生成 85. Zero-Shot Rankability: Revealing Latent Ordinal Structu 6.8分前50% #音视频理解 86. An Exterior Method for Nonnegative Matrix Factorization 6.8分前50% #音频分类 87. FoeGlass: Simple In-Context Learning Is Enough for Red 6.8分前50% #语音伪造检测 88. Native Active Perception as Reasoning for Omni-Modal Un 6.8分前50% #音视频理解 89. Unlocking Speech–Text Compositional Powers: Instruction 6.7分前50% #语音交互 90. UltraLIF: Fully Differentiable Spiking Neural Networks 6.7分前50% #音频分类 91. Towards Streaming Synchronized Spatial Audio Generation 6.6分前50% #音视频生成 92. TextME: Bridging Unseen Modalities Through Text Descrip 6.6分前50% - 93. Evaluating and Rewarding LALMs for Expressive Role-Play 6.6分前50% #语音合成 94. PADS-TAL: Padding-Annealed Diffusion Sampling in Text-A 6.6分前50% #音乐生成 95. ADEPT: RL-Aligned Agentic Decoding of Emotion via Evide 6.5分前50% #语音情感识别 96. Universal Algorithm-Implicit Learning 6.5分前50% #音频分类 97. SARSteer: Safeguarding Large Audio Language Models via 6.5分前50% - 98. MetaPerch: Learning from metadata for bioacoustics foun 6.5分前50% #音频分类 99. Polyphonia: Zero-Shot Timbre Transfer in Polyphonic Mus 6.5分前50% #音乐生成 100. CMI-RewardBench: Evaluating Music Reward Models with Co 6.4分前50% #音乐生成 101. Multimodal Fact-Level Attribution for Verifiable Reason 6.4分前50% #音频理解 102. MedMosaic: A Challenging Large Scale Benchmark of Diver 6.4分前50% #音频理解 103. INFER: Learning Implicit Neural Frequency Response Fiel 6.4分前50% #空间音频 104. Characterizing the Predictive Impact of Modalities with 6.4分前50% - 105. PCRNet: Phase-aware Complex Refinement Network for EEG- 6.4分前50% #实时处理 106. OmniFit: Bridging Modalities via Layer-Adaptive Token C 6.3分前50% #音视频理解 107. EchoingPixels: Aliasing-Resistant Joint Token Reduction 6.3分前50% #音视频理解 108. Quaternion Self-Attention with Shared Scores 6.3分前50% #语音增强 109. LightAVSeg: Lightweight Audio-Visual Segmentation 6.3分前50% #模型压缩 110. SURF: Separation via Unsupervised Remixing Flow 6.2分前50% #语音分离 111. Neural-Inspired Modeling of Auditory Selection and Comp 6.2分前50% #音视频语音分离 112. AuTAgent: A Reinforcement Learning Framework for Tool-A 6.2分前50% #音频理解 113. Multimodal Latent Language Modeling with Next-Token Dif 6.1分前50% #语音合成 114. FakeWorld 1.0: An Omni-modal Benchmark for Fake Media a 6.1分前50% #可解释性 115. ConsMSA: Semantic Distribution Consistency Learning for 6.1分前50% #多模态模型 116. MusicDET: Zero-Shot AI-Generated Music Detection 6.1分前50% #音频伪造检测 117. Convex Low-resource Accent-Robust Language Detection in 6.0分前50% #语音识别 118. NeuroCLUS: A Foundation Model with Functional Clusterin 6.0分前50% #语音识别 119. Sparse Tokens Suffice: Jailbreaking Audio Language Mode 5.9分前50% #模型剪枝 120. Scaling Behavior in Model Fine-tuning for Audio DeepFak 5.9分前50% #音频伪造检测 121. Bioacoustic Geolocation: Species Sounds as Geographic S 5.8分前50% #音频理解 122. AudioChat: Unified Audio Storytelling, Editing, and Und 5.8分前50% #音频生成 123. Omni-Diffusion: Unified Multimodal Understanding and Ge 5.8分前50% - 124. Robust Signal Enhancement via Fractional Detail Views a 5.7分前50% #语音增强 125. Multimodal Fusion via Self-Consistent Task-Gradient Fie 5.5分前50% #鲁棒性 126. NAACA: Training-Free NeuroAuditory Attentive Cognitive 5.5分前50% #音频事件检测 127. Language Model Augmented Semi-Supervised Statistical In 5.4分后50% #语音属性识别 128. MER-DG: Modality-Entropy Regularization for Multimodal 5.4分后50% #音视频理解 129. Towards Understanding Modality Interaction in Multimoda 5.3分后50% #音视频理解 130. Stable Spectral Copula Alignment for Robust Multimodal 5.2分后50% #鲁棒性 131. Multimodal Meta-Verifier with Explicit Structured Recal 5.2分后50% #多模态模型 132. WaveSSM: Multiscale State-Space Models for Non-stationa 4.8分后50% #音频分类 133. Efficient, Property-Aligned Fan-Out Retrieval via RL-Co 4.7分后50% #音乐检索 134. VIBE: Disentangling Social Dynamics via Kinematics-Info 4.6分后50% - 135. UniFLoW: Universal Multi-Modal Federated LoRA Fine-Tuni 4.4分后50% #音视频问答 136. Rethinking Attention in Spiking Transformers: Overcomin 3.6分后50% #音频分类 137. PRIM：Cooperative Dynamic Token Compression for Efficien 3.6分后50% #音视频理解 📋 论文列表 🥇 TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions 🔥 9.4/10 | 前10% | #音视频理解 | 创新 1.7/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 影响 0.9/1.5 | 开源 1.5/1.5 ...

Faster IndexTTS-2: Accelerating and Streaming Autoregressive Zero-Shot Text-to-Speech Synthesis on GPUs

📄 Faster IndexTTS-2: Accelerating and Streaming Autoregressive Zero-Shot Text-to-Speech Synthesis on GPUs 标签：#语音合成 #高效推理 #流式处理 #模型压缩 #音频理解 7.6/10 | 创新 1.3/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 0.9/1 | 影响 1.1/1.5 | 开源 0.2/1.5 | 复现 0/0.5 | 工程 1.5/1.5 ✅ 7.6/10 | 前25% | 文档类型：系统技术报告 | 评分置信度：高 | #语音合成 | #模型压缩 | #高效推理 #流式处理 | arxiv 👥 作者与机构第一作者：Muyang Du（未说明）通讯作者：未说明作者列表：Muyang Du（未说明）、Shuang Yu（未说明）、Junjie Lai（未说明） 💡 毒舌点评这篇工程报告的亮点在于将为大语言模型设计的推理框架（TensorRT-LLM）系统性地适配到语音生成GPT模型，并提供了一套完整的、面向生产的加速方案，工程细节扎实。但最大短板在于，其核心贡献是“对已有优秀模型的推理优化”，创新性主要体现在系统集成和工程改造，而非算法或模型架构的突破。此外，完全未开源任何代码或模型权重，作为一篇声称提供“可复用方法论”的论文，其对社区的诚意和可复现性打了折扣。 ...

Safeguards for Speech2Speech LLM-Assistants: A Case Study in Automotive Applications

📄 Safeguards for Speech2Speech LLM-Assistants: A Case Study in Automotive Applications 标签：#语音交互 #大语言模型 #语音大模型 #流式处理 #实时处理 6.5/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.1/0.5 | 工程 1.2/1.5 ✅ 6.5/10 | 前50% | 文档类型：系统技术报告 | 评分置信度：高 | #语音交互 | #大语言模型 | #语音大模型 #流式处理 | arxiv 👥 作者与机构第一作者：Gregor Endler (codemanufaktur GmbH, Germany) 通讯作者：未说明作者列表：Gregor Endler (codemanufaktur GmbH, Germany), Sebastian Kraus (codemanufaktur GmbH, Germany), Lukas Stappen (BMW Group, Germany) 💡 毒舌点评本文精准地抓住了将前沿S2S LLM助手部署到汽车等安全关键领域时，核心防护措施面临的工程“落地难”问题，实验设计扎实、数据详实，工程参考价值很高。然而，论文本质上是一份高质量的“评测报告”而非技术创新方案，其核心贡献在于系统性地揭示现有方案的瓶颈（延迟、确定性不足），而非提出突破性的新防护方法，因此创新性受限。 ...

CAPS: A Cascaded Reconstruction Model to Power Saving in Hearables Using Sub-Nyquist Sampling with Bandwidth Extension

📄 CAPS: A Cascaded Reconstruction Model to Power Saving in Hearables Using Sub-Nyquist Sampling with Bandwidth Extension 标签：#语音增强 #多模态模型 #低资源 #流式处理 #音频理解 6.6/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 ✅ 6.6/10 | 前50% | 文档类型：系统技术报告 | 评分置信度：高 | #语音增强 | #多模态模型 | #低资源 #流式处理 | arxiv 👥 作者与机构第一作者：Tarikul Islam Tamiti (Cyber-Security Engineering, George Mason University, USA) 通讯作者：未说明作者列表：Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Baja-Ricketts, David Vergano, Anomadarshi Barua (Cyber-Security Engineering, George Mason University, USA) 💡 毒舌点评论文亮点在于从硬件（ADC）功耗这一实际约束出发，设计并原型验证了一套完整的“降采样-无线传输-神经网络重建”系统，将BWE与多模态SE首次结合，并展示了在移动端部署的实时能力，工程实践完整度很高。短板同样突出：作为声称达到SOTA的工作，未开源任何代码、模型或数据集，严重削弱了其学术可信度和可复现性；泛化性证据仅基于小规模自采数据，影响了结论的普遍性。 ...

Cumsum-Composable Phase Transport for Low-Cost Streaming Keyword Spotting

📄 Cumsum-Composable Phase Transport for Low-Cost Streaming Keyword Spotting 标签：#语音唤醒 #CNN #流式处理 #参数高效微调 #音频理解 5.9/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 0.7/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 📝 5.9/10 | 前50% | 文档类型：系统技术报告 | 评分置信度：高 | #语音唤醒 | #CNN | #流式处理 #参数高效微调 | arxiv 👥 作者与机构第一作者：Mahesh Godavarti（A Carrot, Inc）通讯作者：Mahesh Godavarti（A Carrot, Inc）作者列表：Mahesh Godavarti（A Carrot, Inc） 💡 毒舌点评本文将相位传输与累积和巧妙结合，为关键词检测提供了一个理论上精确的流式推理方案，其“精确批处理/流式等价性”的洞察有一定价值。然而，论文的实验支撑力严重不足：仅在一个非常简单、规模小的基准（Speech Commands v2）上进行了单次运行测试，缺乏与主流、更强基线（如DS-CNN、Conformer）的对比，其声称的“竞争力”建立在薄弱的对比之上。此外，作者自己也承认“所有结果均为单次运行”，这使得结论的统计可靠性存疑。一个完全不开源的系统性论文，其对社区的实际影响力几乎为零。 ...

SimulS2ST-Omni: Data-Efficient Streaming Speech-to-Speech Translation via Explicit Trajectory Supervision

📄 SimulS2ST-Omni: Data-Efficient Streaming Speech-to-Speech Translation via Explicit Trajectory Supervision 标签：#语音翻译 #流式处理 #多任务学习 #参数高效微调 #音频理解 7.3/10 | 创新 1.3/2 | 严谨 1/1.5 | 实验 1.3/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 1.4/1.5 ✅ 7.3/10 | 前50% | 文档类型：系统技术报告 | 评分置信度：高 | #语音翻译 | #多任务学习 | #流式处理 #参数高效微调 | arxiv 👥 作者与机构第一作者：Rongshen He（The Chinese University of Hong Kong, Shenzhen）通讯作者：Zhizheng Wu（The Chinese University of Hong Kong, Shenzhen）作者列表：Rongshen He（The Chinese University of Hong Kong, Shenzhen）、Xinyu Liang（The Chinese University of Hong Kong, Shenzhen）、Dekun Chen（The Chinese University of Hong Kong, Shenzhen）、Jiaqi Li（The Chinese University of Hong Kong, Shenzhen）、Mingjie Chen（The Chinese University of Hong Kong, Shenzhen）、Zhizheng Wu（The Chinese University of Hong Kong, Shenzhen） 💡 毒舌点评论文在数据稀缺条件下，通过精巧的轨迹监督和架构分解实现了有竞争力的流式S2ST，工程优化思路清晰，实验设计扎实。然而，核心依赖对齐质量且完全不开源，使其贡献的可验证性和可复用性大打折扣，更像是一个精心打造的内部技术报告而非开放研究。 ...

Fretiq: Browser-Native Electric Guitar String Classification via Engineered Spectral Features and Held-Out Free-Play Evaluation

📄 Fretiq: Browser-Native Electric Guitar String Classification via Engineered Spectral Features and Held-Out Free-Play Evaluation 标签：#音频分类 #音乐转录 #流式处理 #实时处理 #音频理解 7.5/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.9/1.5 | 清晰 0.9/1 | 影响 0.7/1.5 | 开源 1.2/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 ✅ 7.5/10 | 前25% | 文档类型：系统技术报告 | 评分置信度：高 | #音频分类 | #音乐转录 | #流式处理 #实时处理 | arxiv 👥 作者与机构第一作者：Aadi Garg（California Polytechnic State University, San Luis Obispo, Department of Physics）通讯作者：未说明（邮箱 agarg35@calpoly.edu 提供但未标注通讯作者）作者列表：Aadi Garg（California Polytechnic State University, San Luis Obispo, Department of Physics） 💡 毒舌点评这篇论文最大的优点是极其诚实——作者主动报告了97.1%验证准确率与87.8%自由演奏准确率之间的巨大差距，坦承比较训练方法“对某些弦对反而更差”，甚至记录了两次关键的工程失败模式，这种透明度在同级别工作中罕见。然而，核心方法就是MFCC加一个两层全连接网络，这在2025年甚至不算是一个值得单独报告的模型架构；当一个如此简单的模型在验证集上达到97%时，审稿人更应该质疑的是数据泄漏或评估设置的问题，而不是庆祝这个数字本身。 ...

From a Multilingual Streaming ASR Backbone to Kenyan-Language Systems: Data-Centric Adaptation of Nemotron 3.5 for Kikuyu, Dholuo, and Kalenjin

📄 From a Multilingual Streaming ASR Backbone to Kenyan-Language Systems: Data-Centric Adaptation of Nemotron 3.5 for Kikuyu, Dholuo, and Kalenjin 标签：#语音识别 #低资源 #流式处理 #数据清洗 #音频理解 6.5/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 ✅ 6.5/10 | 前50% | 文档类型：系统技术报告 | 评分置信度：高 | #语音识别 | #低资源 | #流式处理 #数据清洗 | arxiv 👥 作者与机构第一作者：Mark Gatere（C-elo Labs）通讯作者：Mark Gatere（C-elo Labs）作者列表：Mark Gatere（C-elo Labs） 💡 毒舌点评这篇论文堪称低资源语音识别领域‘数据清洁工’的典范，其对工程流程、数据审计和部署细节的记录之详尽，足以成为一份高质量的内部技术文档，对复现和构建类似系统极具参考价值。然而，其最大的短板在于核心模型与数据均未开源，评估局限于内部且被多次审视的集合，使得其声称的‘工程贡献’的外部可验证性和影响力大打折扣，更像是一份精良的私有项目日志而非推动社区进步的开放研究。 ...

When to Use Extra Context: Evidence-Grounded Terminology Adaptation for Simultaneous Speech Translation

📄 When to Use Extra Context: Evidence-Grounded Terminology Adaptation for Simultaneous Speech Translation 标签：#语音翻译 #提示学习 #流式处理 #音频理解 #Transformer 6.7/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1.1/1.5 | 清晰 0.9/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 6.7/10 | 前50% | 文档类型：系统技术报告 | 评分置信度：高 | #语音翻译 | #提示学习 | #流式处理 #音频理解 | arxiv 👥 作者与机构第一作者：Zeyu Yang（香港中文大学（深圳））通讯作者：Zeyu Yang（香港中文大学（深圳））作者列表：Zeyu Yang（香港中文大学（深圳））、Satoshi Nakamura（香港中文大学（深圳）） 💡 毒舌点评论文的亮点在于洞察精准——将上下文收益归结于术语恢复而非通用语义增强，并且将其实现为轻量的推理时框架。shuffled-memory控制实验设计严谨，有效地验证了性能提升源于与正确证据的对齐，而非通用偏向。短板也很明显：核心组件“术语提取器”是一个闭源的大语言模型API（Qwen3-30B-Instruct），其准确性、偏差和可复现性是硬伤。验证数据集规模有限且场景高度特化（ACL技术会议），在更通用或低资源场景下的价值存疑。方法高度依赖文档级上下文质量，这限制了其适用范围。 ...

Video = World + Event Stream

📄 Video = World + Event Stream 标签：#自监督学习 #流式处理 #音频理解 #Transformer #模型评估 4.9/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.1/1.5 | 清晰 0.8/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.1/0.5 | 工程 1.2/1.5 📝 4.9/10 | 后50% | 文档类型：系统技术报告 | 评分置信度：高 | #音频理解 | #自监督学习 | #流式处理 #Transformer | arxiv 👥 作者与机构第一作者：Lianghua Huang（阿里巴巴集团）通讯作者：Lianghua Huang（阿里巴巴集团，通讯邮箱：lianghua.huang.cs@gmail.com）作者列表：Lianghua Huang（阿里巴巴集团）、Zhi-Fan Wu（阿里巴巴集团）、Yupeng Shi（阿里巴巴集团）、Wei Wang（阿里巴巴集团）、Mengyang Feng（阿里巴巴集团）、Cheng Yu（阿里巴巴集团）、Chen Liang（阿里巴巴集团）、Junjie He（阿里巴巴集团）、Chen-Wei Xie（阿里巴巴集团）、Yu Liu（阿里巴巴集团）、Jingren Zhou（阿里巴巴集团）、Ang Wang（阿里巴巴集团）、Bang Zhang（阿里巴巴集团）、Baole Ai（阿里巴巴集团）、Chongyang Zhong（阿里巴巴集团）、Jinwei Qi（阿里巴巴集团）、Kai Zhu（阿里巴巴集团）、Pandeng Li（阿里巴巴集团）、Peng Zhang（阿里巴巴集团）、Wenyuan Zhang（阿里巴巴集团）、Xinhua Cheng（阿里巴巴集团）、Yitong Huang（阿里巴巴集团）、Yun Zheng（阿里巴巴集团）、Yuxiang Bao（阿里巴巴集团）、Yuzheng Wang（阿里巴巴集团）、Zhiwei Lin（阿里巴巴集团）、Zoubin Bi（阿里巴巴集团） 💡 毒舌点评论文将实时音视频交互系统重构为“世界+事件流”框架，并扩展了智能体的行为空间，这是一个有启发性的概念视角。同时，在保持v0.2的延迟指标（~200ms模型侧延迟）下实现了640×368@25FPS的流式输出，展示了工程集成能力。然而，作为一篇系统技术报告，其核心问题在于验证的严重缺失：1）“通用预训练”是论文的核心声称，但未提供任何预训练任务的定量结果、下游任务迁移效果的对比（甚至未与仅用交互数据训练的v0.2对比）、或消融实验来证明框架各组件的有效性；2）对新增的“开放词汇行为控制”，仅凭定性观察，缺乏对行为生成质量、一致性、合理性的量化评估；3）系统完全闭源，且关键实现细节（模型架构、数据、训练）缺失，严重削弱了可复现性和工程参考价值。论文更像是一个高规格的产品技术博客，而非一篇具备完整科学论证的会议论文。 ...