Posts

ICML 2026 语音/音频论文详细分析

ICML 2026 语音/音频论文详细分析共分析 137 篇 ICML 2026 论文 🎯 任务分类点击任务标签查看该方向所有论文：音视频理解（18篇）音视频生成（10篇）音频分类（9篇）音频理解（8篇）音乐生成（8篇）语音合成（8篇）音视频问答（8篇）语音识别（5篇）语音伪造检测（4篇）语音交互（4篇）语音增强（4篇）语音编码（4篇）多模态模型（3篇）音频伪造检测（3篇）音频分离（2篇）空间音频（2篇）音频编码（2篇）音频修复（2篇）语音属性识别（2篇）音频生成（2篇） ⚡ 会议概览 📥 ICML 2026 接收 6341 篇论文 → 🔍 关键词 + LLM 筛选 137 篇音频/语音/音乐相关 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音视频理解 18篇 ██████████████████ #音视频生成 10篇 ██████████ #音频分类 9篇 █████████ #音频理解 8篇 ████████ #音乐生成 8篇 ████████ #语音合成 8篇 ████████ #音视频问答 8篇 ████████ #语音识别 5篇 █████ #语音伪造检测 4篇 ████ #语音交互 4篇 ████ #语音增强 4篇 ████ #语音编码 4篇 ████ #多模态模型 3篇 ███ #音频伪造检测 3篇 ███ #音频分离 2篇 ██ 📊 论文评分排行榜（137 篇，按分数降序）排名论文评分分档主任务 🥇 TimeChat-Captioner: Scripting Multi-Scene Videos with T 9.4分前10% #音视频理解 🥈 Joint Enhancement and Classification using Coupled Diff 9.3分前10% #语音识别 🥉 Learning Tight Rejection Boundaries without Negatives f 9.3分前10% #语音伪造检测 4. AVTrack: Audio-Visual Tracking in Human-centric Complex 9.3分前10% #音视频理解 5. A Semantically Consistent Dataset for Data-Efficient Qu 9.2分前10% #音频分离 6. SAM Audio: Segment Anything in Audio 9.2分前10% #音频分离 7. MECAT: A Multi-Experts Constructed Benchmark for Fine-G 9.1分前10% #音频理解 8. $\tau$-Voice: Benchmarking Full-Duplex Voice Agents on 9.1分前10% #语音交互 9. PhaseCoder: Microphone Geometry-Agnostic Spatial Audio 8.7分前25% #空间音频 10. BAT: Better Audio Transformer Guided by Convex Gated Pr 8.6分前25% #音频分类 11. SPEAR: A Unified SSL Framework for Learning Speech and 8.4分前25% #音频理解 12. Dual-View Predictive Diffusion: Lightweight Speech Enha 8.4分前25% #语音增强 13. Unlocking Cross-Modal Biosignal Synthesis: A Temporally 8.3分前25% - 14. CoLA: Cross-Modal Low-rank Adaptation for Multimodal Do 8.3分前25% #音视频理解 15. Speech-Audio Compositional Attacks on Multimodal LLMs a 8.3分前25% #音频理解 16. MoST: Mixing Speech and Text with Modality-Aware Mixtur 8.2分前25% - 17. IVQ: Structured and Lightweight Vector Quantization via 8.2分前25% #音频编码 18. Spherical Procrustes Alignment for Reliable Medical Aud 8.2分前25% #音频分类 19. Attend to Anything: Foundation Model for Unified Human 8.2分前25% #音视频理解 20. VocSim A Training-free Benchmark for Zero-shot Content 8.2分前25% #音频检索 21. JAEGER: Joint 3D Audio-Visual Grounding and Reasoning i 8.1分前25% #声源定位 22. LALM-as-a-Judge: Benchmarking Large Audio-Language Mode 8.1分前25% #语音交互 23. Pianist Transformer: Towards Expressive Piano Performan 8.1分前25% #音乐生成 24. Simultaneous Speech-to-Speech Translation Without Align 8.0分前25% #语音翻译 25. PHALAR: Phasors for Learned Musical Audio Representatio 8.0分前25% #音乐生成 26. Optimality of FSQ Tokens for Continuous Diffusion for C 8.0分前25% #语音合成 27. SonicMaster: Towards Controllable All-in-One Music Rest 8.0分前25% #音频修复 28. Do Audio LLMs Listen or Read? Analyzing and Mitigating 8.0分前25% #语音属性识别 29. Multiple Choice Learning of Low-Rank Adapters for Langu 8.0分前25% #多模态模型 30. Bridging the Stability-Expressivity Gap: Synthetic Data 8.0分前25% #语音合成 31. FutureOmni: Evaluating Future Forecasting from Omni-Mod 8.0分前25% #音视频问答 32. Acoustic Interference: A New Paradigm Weaponizing Acous 8.0分前25% #音频理解 33. ReGen: Hierarchical Multi-Prompt Representation Generat 8.0分前25% #语音编码 34. DiscoForcing: A Unified Framework for Real-Time Audio-D 8.0分前25% #音乐生成 35. DreamID-Omni: Unified Framework for Controllable Human- 8.0分前25% #音视频生成 36. AgentSteerTTS: A Multi-Agent Closed-Loop Framework for 7.9分前25% #语音合成 37. STAR-VAE: Structured Topology-Aware Regularization for 7.9分前25% #音频生成 38. HyperPotter: Spell the Charm of High-Order Interactions 7.9分前25% #音频伪造检测 39. T2AV-Compass: Towards Unified Evaluation for Text-to-Au 7.9分前25% #音视频生成 40. Decoupling The “What” and “Where” With Polar Coordinate 7.8分前25% #音乐生成 41. V-LynX: Token Interface Alignment for Video+X LLMs 7.8分前25% #音视频问答 42. Ariadne’s Thread of LipSync: Unraveling Forgeries via I 7.8分前25% #音视频理解 43. SONAR: Spectral‑Contrastive Audio Residuals for General 7.8分前25% #语音伪造检测 44. TMD-Bench: A Multi-Level Evaluation Paradigm for Music– 7.7分前25% #音视频生成 45. AudioMosaic: Contrastive Masked Audio Representation Le 7.7分前25% #音频分类 46. BFCL Audio: An Audio Function Calling Evaluation for La 7.7分前25% #语音交互 47. SALSA-V: Shortcut-Augmented Long-form Synchronized Audi 7.6分前25% #音视频生成 48. BEAT: Tokenizing and Generating Symbolic Music by Unifo 7.6分前25% #音乐生成 49. From Inpainting to Editing: Unlocking Robust Mask-Free 7.6分前25% #扩散模型 50. Hearing Without Noticing? Attention-Aware Stealthy Blac 7.6分前25% #语音识别 51. AVGen-Bench: A Task-Driven Benchmark for Multi-Granular 7.6分前25% #音视频生成 52. Alethia: a Foundational Encoder for Voice Deepfakes 7.6分前25% #语音伪造检测 53. AG-REPA: Causal Layer Selection for Representation Alig 7.6分前25% #语音合成 54. AVI-Bench: Toward Human-like Audio-Visual Intelligence 7.6分前25% #音视频理解 55. Two-dimensional quantization for geometry-aware audio c 7.6分前25% #语音编码 56. Abstraction Induces the Brain Alignment of Language and 7.5分前25% #语音编码 57. Self-Guidance: Enhancing Neural Codecs via Decoder Mani 7.5分前25% #语音编码 58. OmniVideo-R1: Reinforcing Audio-visual Reasoning with Q 7.5分前25% #音视频问答 59. Listening Through the Noise: Cauchy-Driven Diffusion Br 7.4分前50% #音频修复 60. MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 7.4分前50% - 61. Omni-Perception Policy Optimization for Multimodal Emot 7.4分前50% #音视频理解 62. video-SALMONN S: Memory-Enhanced Streaming Audio-Visual 7.3分前50% #音视频问答 63. Group Cognition Learning: Making Everything Better Thro 7.3分前50% #音视频理解 64. REST: Diffusion-based Real-time End-to-end Streaming Ta 7.3分前50% #音视频生成 65. PhoStream: Benchmarking Real-World Streaming for Omnimo 7.3分前50% #音视频问答 66. ProactiveLLM: Learning Active Interaction for Streaming 7.2分前50% #语音识别 67. Stream RAG: Instant and Accurate Spoken Dialogue System 7.2分前50% #流式处理 68. Probing Cross-modal Information Hubs in Audio-Visual LL 7.2分前50% #音视频理解 69. Efficient Multi-modal Dataset Distillation via Analytic 7.2分前50% #对比学习 70. Self-Supervised Flow Matching for Scalable Multi-Modal 7.2分前50% #音视频生成 71. CoCoEmo: Composable and Controllable Human-Like Emotion 7.1分前50% #语音合成 72. Scaling Transformers for End-to-End Discrete Audio Toke 7.1分前50% #音频编码 73. Query-Based Asymmetric Modeling with Decoupled Input–Ou 7.1分前50% #语音增强 74. OmniSIFT: Modality-Asymmetric Token Compression for Eff 7.1分前50% #音视频问答 75. Sparse Autoencoders for Interpretable Emotion Control i 7.0分前50% #语音合成 76. The Silent Thought: Modeling Internal Cognition in Full 7.0分前50% #知识蒸馏 77. Hidden in Plain Tokens: Simply Robust, Gradient-Free Wa 7.0分前50% #音频水印 78. Efficient Distributed MLLM Training with Cornstarch 7.0分前50% #音视频理解 79. Reasoning LLM Improves Speaker Recognition in Long-form 7.0分前50% - 80. Real-World Unsupervised Models Generalize to Predict Br 6.9分前50% #模型评估 81. From Talking to Singing: A New Challenge for Audio-Visu 6.9分前50% #音视频理解 82. OmniShow: Unifying Multimodal Conditions for Human-Obje 6.9分前50% #音视频生成 83. E-VAds: An E-commerce Short Videos Understanding Benchm 6.9分前50% #音视频问答 84. STARCaster: Spatio-Temporal AutoRegressive Video Diffus 6.8分前50% #音视频生成 85. Zero-Shot Rankability: Revealing Latent Ordinal Structu 6.8分前50% #音视频理解 86. An Exterior Method for Nonnegative Matrix Factorization 6.8分前50% #音频分类 87. FoeGlass: Simple In-Context Learning Is Enough for Red 6.8分前50% #语音伪造检测 88. Native Active Perception as Reasoning for Omni-Modal Un 6.8分前50% #音视频理解 89. Unlocking Speech–Text Compositional Powers: Instruction 6.7分前50% #语音交互 90. UltraLIF: Fully Differentiable Spiking Neural Networks 6.7分前50% #音频分类 91. Towards Streaming Synchronized Spatial Audio Generation 6.6分前50% #音视频生成 92. TextME: Bridging Unseen Modalities Through Text Descrip 6.6分前50% - 93. Evaluating and Rewarding LALMs for Expressive Role-Play 6.6分前50% #语音合成 94. PADS-TAL: Padding-Annealed Diffusion Sampling in Text-A 6.6分前50% #音乐生成 95. ADEPT: RL-Aligned Agentic Decoding of Emotion via Evide 6.5分前50% #语音情感识别 96. Universal Algorithm-Implicit Learning 6.5分前50% #音频分类 97. SARSteer: Safeguarding Large Audio Language Models via 6.5分前50% - 98. MetaPerch: Learning from metadata for bioacoustics foun 6.5分前50% #音频分类 99. Polyphonia: Zero-Shot Timbre Transfer in Polyphonic Mus 6.5分前50% #音乐生成 100. CMI-RewardBench: Evaluating Music Reward Models with Co 6.4分前50% #音乐生成 101. Multimodal Fact-Level Attribution for Verifiable Reason 6.4分前50% #音频理解 102. MedMosaic: A Challenging Large Scale Benchmark of Diver 6.4分前50% #音频理解 103. INFER: Learning Implicit Neural Frequency Response Fiel 6.4分前50% #空间音频 104. Characterizing the Predictive Impact of Modalities with 6.4分前50% - 105. PCRNet: Phase-aware Complex Refinement Network for EEG- 6.4分前50% #实时处理 106. OmniFit: Bridging Modalities via Layer-Adaptive Token C 6.3分前50% #音视频理解 107. EchoingPixels: Aliasing-Resistant Joint Token Reduction 6.3分前50% #音视频理解 108. Quaternion Self-Attention with Shared Scores 6.3分前50% #语音增强 109. LightAVSeg: Lightweight Audio-Visual Segmentation 6.3分前50% #模型压缩 110. SURF: Separation via Unsupervised Remixing Flow 6.2分前50% #语音分离 111. Neural-Inspired Modeling of Auditory Selection and Comp 6.2分前50% #音视频语音分离 112. AuTAgent: A Reinforcement Learning Framework for Tool-A 6.2分前50% #音频理解 113. Multimodal Latent Language Modeling with Next-Token Dif 6.1分前50% #语音合成 114. FakeWorld 1.0: An Omni-modal Benchmark for Fake Media a 6.1分前50% #可解释性 115. ConsMSA: Semantic Distribution Consistency Learning for 6.1分前50% #多模态模型 116. MusicDET: Zero-Shot AI-Generated Music Detection 6.1分前50% #音频伪造检测 117. Convex Low-resource Accent-Robust Language Detection in 6.0分前50% #语音识别 118. NeuroCLUS: A Foundation Model with Functional Clusterin 6.0分前50% #语音识别 119. Sparse Tokens Suffice: Jailbreaking Audio Language Mode 5.9分前50% #模型剪枝 120. Scaling Behavior in Model Fine-tuning for Audio DeepFak 5.9分前50% #音频伪造检测 121. Bioacoustic Geolocation: Species Sounds as Geographic S 5.8分前50% #音频理解 122. AudioChat: Unified Audio Storytelling, Editing, and Und 5.8分前50% #音频生成 123. Omni-Diffusion: Unified Multimodal Understanding and Ge 5.8分前50% - 124. Robust Signal Enhancement via Fractional Detail Views a 5.7分前50% #语音增强 125. Multimodal Fusion via Self-Consistent Task-Gradient Fie 5.5分前50% #鲁棒性 126. NAACA: Training-Free NeuroAuditory Attentive Cognitive 5.5分前50% #音频事件检测 127. Language Model Augmented Semi-Supervised Statistical In 5.4分后50% #语音属性识别 128. MER-DG: Modality-Entropy Regularization for Multimodal 5.4分后50% #音视频理解 129. Towards Understanding Modality Interaction in Multimoda 5.3分后50% #音视频理解 130. Stable Spectral Copula Alignment for Robust Multimodal 5.2分后50% #鲁棒性 131. Multimodal Meta-Verifier with Explicit Structured Recal 5.2分后50% #多模态模型 132. WaveSSM: Multiscale State-Space Models for Non-stationa 4.8分后50% #音频分类 133. Efficient, Property-Aligned Fan-Out Retrieval via RL-Co 4.7分后50% #音乐检索 134. VIBE: Disentangling Social Dynamics via Kinematics-Info 4.6分后50% - 135. UniFLoW: Universal Multi-Modal Federated LoRA Fine-Tuni 4.4分后50% #音视频问答 136. Rethinking Attention in Spiking Transformers: Overcomin 3.6分后50% #音频分类 137. PRIM：Cooperative Dynamic Token Compression for Efficien 3.6分后50% #音视频理解 📋 论文列表 🥇 TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions 🔥 9.4/10 | 前10% | #音视频理解 | 创新 1.7/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 影响 0.9/1.5 | 开源 1.5/1.5 ...

ICASSP 2026 语音/音频论文详细分析

ICASSP 2026 语音/音频论文详细分析共分析 898 篇 ICASSP 2026 论文 🎯 任务分类点击任务标签查看该方向所有论文：语音识别（102篇）语音增强（75篇）语音合成（63篇）语音情感识别（49篇）音频分类（39篇）音频生成（39篇）音乐生成（31篇）空间音频（31篇）音频深度伪造检测（29篇）音乐信息检索（26篇）语音分离（25篇）语音生物标志物（24篇）音频事件检测（21篇）模型评估（16篇）声源定位（15篇）音频问答（15篇）生物声学（12篇）音频安全（11篇）音频检索（11篇）音乐理解（11篇）语音对话系统（10篇）语音匿名化（10篇）说话人验证（10篇）说话人分离（9篇）语音转换（9篇）语音质量评估（8篇）语音翻译（8篇）语音伪造检测（8篇）多模态模型（6篇）音视频（6篇）语音编码（5篇）基准测试（5篇）语音评估（5篇）语音活动检测（5篇）歌唱语音合成（5篇）语音克隆（4篇）语音问答（3篇）情感分析（3篇）音频场景理解（3篇）音频增强（3篇）语音识别 #语音翻译（3篇）数据集（3篇）音乐检索（3篇）语音大模型（3篇）歌唱语音转换（3篇）视觉语音识别（2篇）多模态情感识别（2篇）信号处理（2篇）语音理解（2篇）领域适应（2篇）听觉注意力解码（2篇）多模态情感分析（2篇）情感识别（2篇）跨模态（2篇）音频压缩（2篇）音乐源分离（2篇）关键词检测（2篇）说话人日志（2篇）跨模态检索（2篇）水下声学目标识别（2篇）视频生成（2篇）听觉注意解码（1篇）视频高光检测（1篇）多音高估计 #音符跟踪（1篇）歌唱语音转录（1篇）异常声音检测（1篇）脑机接口（1篇）脑信号编码（1篇）实体消歧（1篇）音频检索 #音频分类（1篇）目标说话人提取（1篇）语音转换 #语音增强（1篇）音频超分辨率（1篇）基频估计（1篇）语音发现（1篇）语音表示学习（1篇）数据集对齐（1篇）预训练（1篇）医疗AI（1篇）语音解码（1篇）说话人合成（1篇）说话人脸生成（1篇）说话人检测（1篇）多模态对话意图识别（1篇）视频理解（1篇）音乐推荐（1篇）视频设备识别（1篇）说话人识别（1篇）房间脉冲响应去噪（1篇）音频质量评估（1篇）主动降噪（1篇）舞蹈生成（1篇）歌唱旋律提取（1篇）声场估计（1篇）语音编码器（1篇）音频编辑（1篇）零样本关键词检测（1篇）音频分离（1篇）音频无损编码（1篇）语音增强 #对抗防御（1篇）音视频实例分割（1篇）视频到音频生成（1篇）语音摘要（1篇）音频水印（1篇）说话人日志 #语音分离（1篇）联邦学习（1篇）音乐混合（1篇）视频片段检索（1篇）神经解码（1篇）视频检索（1篇）语音驱动动作生成（1篇）视频问答（1篇）音频分类 #零样本学习（1篇）主题建模（1篇）说话人生成（1篇）对抗样本（1篇）音频描述（1篇）主动噪声控制（1篇）音乐分离（1篇）音乐源提取（1篇）音乐转录（1篇）房间脉冲响应（1篇）语音识别 #语音合成（1篇）音频场景分类（1篇）多通道（1篇）音频效果估计（1篇）音频信号处理（1篇）回声消除（1篇）语音生成（1篇）实时处理（1篇）音频大模型（1篇）声学建模（1篇）迁移学习（1篇）课堂阶段分割（1篇）噪声控制（1篇）音频字幕生成（1篇）轻度认知障碍检测（1篇）音乐分类（1篇）槽填充（1篇）多模态学习（1篇） ⚡ 今日概览 📥 898 篇 → 🔬 深度分析完成 ...

ICLR 2026 语音/音频论文详细分析

ICLR 2026 语音/音频论文详细分析共分析 133 篇 ICLR 2026 论文 🎯 任务分类点击任务标签查看该方向所有论文：语音合成（10篇）音频生成（9篇）语音识别（9篇）基准测试（9篇）音乐生成（9篇）语音对话系统（8篇）音频分类（6篇）音频问答（6篇）语音情感识别（5篇）多模态模型（5篇）音视频（4篇）音频检索（4篇）语音分离（3篇）模型评估（2篇）语音翻译（2篇）音乐信息检索（2篇）生成模型（2篇）音乐理解（2篇）视频生成（2篇）跨模态生成（1篇）脑编码（1篇）模型可解释性（1篇）音视频深度伪造检测（1篇）图像生成（1篇）数据集（1篇）语音增强 #对抗样本（1篇）语音大模型（1篇）音频编辑（1篇）音视频事件检测（1篇）生态计算（1篇）视频描述生成（1篇）视频摘要（1篇）语音问答（1篇）基准测试 #数据集（1篇）音频安全（1篇）神经网络架构（1篇）语音转换 #语音匿名化（1篇）声源定位（1篇）序列解耦（1篇）空间音频（1篇）音频分离（1篇）机器人操作（1篇）动作生成（1篇）音频场景理解（1篇）跨模态检索（1篇）语音增强（1篇）多模态推理（1篇）语音合成评估（1篇）语音生成（1篇）生物声学（1篇）模型比较（1篇）音视频联合推理（1篇）语音识别 #语音合成（1篇） ⚡ 今日概览 📥 133 篇 → 🔬 深度分析完成 ...

An Evaluation Framework for Structured Audio Captions Validated by Controlled Perturbations

📄 An Evaluation Framework for Structured Audio Captions Validated by Controlled Perturbations 标签：#数据集 #基准测试 #大语言模型 #音频理解 #Transformer 5.3/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 0.7/1.5 | 清晰 0.8/1 | 影响 0.2/1.5 | 开源 0/1.5 | 复现 0.1/0.5 | 工程 1/1.5 📝 5.3/10 | 后50% | 文档类型：数据集与基准 | 评分置信度：高 | #数据集 | #大语言模型 | #基准测试 #音频理解 | arxiv 👥 作者与机构第一作者：Liang-Yuan Wu 通讯作者：未说明作者列表：Liang-Yuan Wu， Sripathi Sridhar， Mark Cartwright， Magdalena Fuentes 机构：未在论文正文中明确说明 💡 毒舌点评亮点：论文直击结构化音频描述评估的痛点，提出了一个系统化的多轴评估框架，并创新性地引入受控扰动协议来验证评估指标本身的可靠性，方法论设计严谨且有洞察。对LLM法官的实证分析也提供了实用的选型建议。短板：1. 评估对象严重局限于“音效”（Sound Effects）数据集（AudioCards），与语音、音乐等音频核心领域的关联极弱，框架的通用性未得到任何验证。2. 论文仅通过“扰动真值”的方式验证指标有效性，缺乏对真实模型输出（如当前SOTA音频描述模型）的评估对比，其实用价值存疑。3. 所有核心产出（增强数据集、代码、评估框架）均未开源，仅有承诺，无法复现或使用，削弱了其作为“基准”的实际影响力。 ...

Designed Vocalizations Dataset: Sound-Designed Human and Animal Voices for Non-human Voice Conversion

📄 Designed Vocalizations Dataset: Sound-Designed Human and Animal Voices for Non-human Voice Conversion 标签：#语音转换 #数据集 #基准测试 #音频生成 #音频理解 7.9/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 1.5/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 7.9/10 | 前25% | 文档类型：数据集与基准 | 评分置信度：高 | #语音转换 | #数据集 | #基准测试 #音频生成 | arxiv 👥 作者与机构第一作者：Seolhee Lee（NC AI Co., Ltd, Republic of Korea）通讯作者：未说明作者列表：Seolhee Lee（NC AI Co., Ltd）、Minsu Kang（NC AI Co., Ltd）、Yangsun Lee（NC AI Co., Ltd）、Woosun Min（Sogang University）、Choonghyeon Lee（NC AI Co., Ltd）、Namhyun Cho（NC AI Co., Ltd） 💡 毒舌点评本文精准识别了“非人类设计声音转换”领域在公开资源和标准化评估上的空白，并为此构建了一个专业且实用的数据集与基准，其价值在于为该小众但关键的子领域奠定了可复现研究的基础。主要不足在于实验验证环节略显单薄：仅采用一个具有代表性的基线模型进行测试，未能充分展示该基准在驱动模型创新、进行更广泛方法比较上的潜力，使其更像一份“基础设施建设报告”而非深入的方法研究。此外，对于评估指标（如CER/WER在设计声音上的适用性）的讨论深度有待加强。 ...

DONDO: Open w2v-BERT Speech-Recognition Base Models for African Languages

📄 DONDO: Open w2v-BERT Speech-Recognition Base Models for African Languages 标签：#语音识别 #预训练 #自监督学习 #低资源 #音频理解 8.1/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1.3/1.5 | 开源 1.2/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 🔥 8.1/10 | 前25% | 文档类型：系统技术报告 | 评分置信度：高 | #语音识别 | #预训练 | #自监督学习 #低资源 | arxiv 👥 作者与机构第一作者：Paul Azunre (Khaya AI) 通讯作者：未说明作者列表：Paul Azunre (Khaya AI) 项目名称：Democratizing Oral Neural Dialect Ontology (DONDO) 💡 毒舌点评亮点在于一个工程完整度极高的低资源ASR开源项目，覆盖27种非洲语言并给出了可复现的训练配方，对社区有直接价值。短板是实验设计相对保守，缺乏与Whisper、MMS等同类多语言模型的直接对比和深入的消融分析，使得其“base model”的定位说服力略有不足。 ...

Faster IndexTTS-2: Accelerating and Streaming Autoregressive Zero-Shot Text-to-Speech Synthesis on GPUs

📄 Faster IndexTTS-2: Accelerating and Streaming Autoregressive Zero-Shot Text-to-Speech Synthesis on GPUs 标签：#语音合成 #高效推理 #流式处理 #模型压缩 #音频理解 7.6/10 | 创新 1.3/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 0.9/1 | 影响 1.1/1.5 | 开源 0.2/1.5 | 复现 0/0.5 | 工程 1.5/1.5 ✅ 7.6/10 | 前25% | 文档类型：系统技术报告 | 评分置信度：高 | #语音合成 | #模型压缩 | #高效推理 #流式处理 | arxiv 👥 作者与机构第一作者：Muyang Du（未说明）通讯作者：未说明作者列表：Muyang Du（未说明）、Shuang Yu（未说明）、Junjie Lai（未说明） 💡 毒舌点评这篇工程报告的亮点在于将为大语言模型设计的推理框架（TensorRT-LLM）系统性地适配到语音生成GPT模型，并提供了一套完整的、面向生产的加速方案，工程细节扎实。但最大短板在于，其核心贡献是“对已有优秀模型的推理优化”，创新性主要体现在系统集成和工程改造，而非算法或模型架构的突破。此外，完全未开源任何代码或模型权重，作为一篇声称提供“可复用方法论”的论文，其对社区的诚意和可复现性打了折扣。 ...

From Read Speech to Spoken Digits: A Task-Specific Evaluation of Speech Privacy With Informed Attackers

📄 From Read Speech to Spoken Digits: A Task-Specific Evaluation of Speech Privacy With Informed Attackers 标签：#语音识别 #音频理解 #Transformer #模型评估 7.5/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 1.2/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 7.5/10 | 前25% | 文档类型：应用研究 | 评分置信度：高 | #语音识别 | #音频理解 | #Transformer #模型评估 | arxiv 👥 作者与机构第一作者：Jule Pohlhausen（Institute of Hearing Technology and Audiology, Jade University of Applied Sciences, Oldenburg, Germany）通讯作者：未说明作者列表：Jule Pohlhausen（Institute of Hearing Technology and Audiology, Jade University of Applied Sciences）、Anjana Rajasekhar（Dept. of Medical Physics and Acoustics, Carl von Ossietzky Universität Oldenburg）、Anna Leschanowsky（Fraunhofer Institute for Integrated Circuits (IIS), Erlangen）、Joerg Bitzer（Dept. of Medical Physics and Acoustics, Carl von Ossietzky Universität Oldenburg） 💡 毒舌点评本文将数字识别作为任务特定场景，评估三种轻量级语音混淆技术（时间平滑与子采样、重采样、音频切碎）在知情攻击模型下的有效性。问题定义清晰，旨在挑战通用WER评估范式，实验设计系统化地考虑了模态、语速、攻击者类型等变量，并开源了代码。但核心短板在于：所评估的混淆技术均为已有的、相对简单的信号处理方法，创新性有限，且未与更先进的基于深度学习的隐私保护方法进行对比。实验完全局限于英文的0-9数字序列，通过简单拼接生成，与真实世界电话号码的韵律和协同发音存在显著差异，其结论向更复杂、多语言场景的泛化能力存疑。此外，作为“知情资源有限”攻击者代表的DNN模型设计过于简单（仅使用MFCC统计特征），可能低估了专用攻击模型的威胁。 ...

Improving the performance of an ASV system using hybrid speech features

📄 Improving the performance of an ASV system using hybrid speech features 标签：#说话人验证 #Transformer #音频理解 #模型评估 5.0/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.6/1.5 | 清晰 0.8/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 📝 5.0/10 | 后50% | 文档类型：方法研究 | 评分置信度：高 | #说话人验证 | #Transformer | #音频理解 #模型评估 | arxiv 👥 作者与机构第一作者：Stanisław Ciszkiewicz（未说明）通讯作者：未说明作者列表：Stanisław Ciszkiewicz（未说明）、Artur Janicki（未说明） 💡 毒舌点评论文在将基于物理声带模型的RAB特征与传统特征结合方面提出了一个有趣的方向，并在噪声条件下验证了其有效性，为特征工程提供了一个新的小工具。然而，整个研究建立在规模极小的数据集（30位说话人）和过于简单的GMM-UBM后端之上，使其结论的普遍性和实际参考价值大打折扣，难以令人信服其方法在真实世界复杂系统中的表现。 📌 核心摘要本文旨在通过组合多种声学特征（混合特征集）来提升自动说话人验证（ASV）系统在噪声环境下的性能。论文的核心方法是探索将传统频谱特征（MFCC、CQCC、PNCC）与基于非线性声带物理模型的RAB描述符进行拼接，以期获得互补信息。论文主要的新意在于首次系统性地将RAB特征引入ASV领域并与其他特征结合。实验在Google Speech Commands（GSC）数据集上进行，仅使用GMM-UBM作为后端。结果表明，在干净条件下，性能接近饱和的MFCC/PNCC特征难以通过组合提升；但在babble和volvo噪声下，PNCC+RAB的混合特征集相比单独使用PNCC，在低信噪比（0 dB）时EER最高可降低4-7个百分点。该研究的实际意义在于为特征工程提供了一种可解释的新思路。主要局限性包括：实验数据集规模小、说话人数量少，无法验证方法在大规模、真实场景下的泛化能力；后端模型陈旧，未与任何现代神经网络后端（如ECAPA-TDNN）结合评估，限制了结论的说服力；噪声类型和信噪比设置不够全面。 ...

Instruct-FD: Can Your Full-Duplex Speech System Follow Turn-Taking Instructions?

📄 Instruct-FD: Can Your Full-Duplex Speech System Follow Turn-Taking Instructions? 标签：#语音交互 #音频理解 #Transformer #模型评估 7.2/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 7.2/10 | 前50% | 文档类型：数据集与基准 | 评分置信度：高 | #语音交互 | #Transformer | #音频理解 #模型评估 | arxiv 👥 作者与机构第一作者：Yuzhi Tang（Boson AI）通讯作者：Yuzhi Tang（Boson AI）作者列表：Yuzhi Tang, Wentao Ma, Xiling Zhao, Ahmad Salimi, Sepehr Harfi Moridani, Dongming Shen, Jixuan Wang, Abdulrahman Abdulrazzag, Murdock Aubry, Yu-Hua Chen, Daniel Lee, Jaewon Lee, Jonah Mackey, Silin Meng, Nicholas Stranges, Chenxu Xiong, Hao Yu, Yi Zhu, Mu Li, Alex Smola （全部来自Boson AI） 💡 毒舌点评本文敏锐地抓住了全双工对话系统中“可控轮次管理”这一被忽略的关键评估缺口，并构建了一套逻辑自洽、设计巧妙的评估框架，将轮次行为形式化为指令跟随任务，是基准建设工作的良好范例。主要短板在于作为一项旨在成为“标准基准”的工作，其核心产物（代码、数据集）完全未开源，严重限制了社区的复用和后续发展；评估模型数量（6个）和语言覆盖（仅英语）的局限性也影响了其作为广泛适用基准的即时影响力。此外，依赖合成数据和LLM判官的评估范式，其向复杂真实场景的泛化能力仍需进一步验证。 ...