低资源 | 语音/音乐/音频论文速递

When Synthetic Speech Is All You Have: Better Call GRPO

📄 When Synthetic Speech Is All You Have: Better Call GRPO 标签：#语音识别 #低资源 #参数高效微调 #强化学习 7.8/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.4/0.5 | 工程 1.2/1.5 ✅ 7.8/10 | 前25% | 文档类型：方法研究 | 评分置信度：高 | #语音识别 | #强化学习 | #低资源 #参数高效微调 | arxiv 👥 作者与机构第一作者：Shashi Kumar, Yanis Labrak (论文中标注为共同第一作者) 通讯作者：未说明作者列表：Shashi Kumar (1,2,), Yanis Labrak (1,), Hasindri Watawana (1,2), Sergio Burdisso (1), Esaú Villatoro-Tello (1), Kadri Hacioğlu (3), Petr Motlicek (1,4), Andreas Stolcke (3) 机构列表： Idiap Research Institute, Martigny, Switzerland École polytechnique fédérale de Lausanne (EPFL), Switzerland Uniphore Brno University of Technology, Czech Republic 💡 毒舌点评论文的核心亮点在于将NLP领域成熟的GRPO方法系统地应用于语音识别中的合成数据适应问题，并提供了详尽的机制分析（如插入错误、停止校准、注意力锚定），其WCR/WER下降的幅度令人印象深刻。然而，其核心短板也同样明显：奖励函数设计过于简单，仅为1-WER，缺乏对生成过程更精细的引导；且整个研究局限于英语单一语言的银行电话场景，模型和方法的通用性未经验证，颇有“好马配好鞍”的定向优化之嫌。 ...

语音/音乐/音频论文速递 2026-07-10

语音/音乐/音频论文速递 2026-07-10 共分析 19 篇论文 ⚡ 今日概览 📥 抓取 19 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 4篇 ████ #音乐转录 2篇 ██ #语音质量评估 2篇 ██ #多模态模型 2篇 ██ #音乐生成 1篇 █ #音频事件检测 1篇 █ #语音分离 1篇 █ #语音情感识别 1篇 █ 📊 论文评分排行榜（19 篇，按分数降序）排名论文总分分档文档类型主任务 🥇 A Quantized Native Runtime for On-Device Semantic Audio 8.4分前25% 系统技术报告 #音乐生成 🥈 MuScriptor: An Open Model for Multi-Instrument Music Tr 8.3分前25% 系统技术报告 #音乐转录 🥉 A Self-Supervised Approach for Minimal-Annotation Hydro 8.3分前25% 系统技术报告 #音频事件检测 4. COALA: Robust Contextualized Speech-augmented Language 8.2分前25% 方法研究 #语音识别 5. PS4: Proxy-Supervised Joint Training for Real Target Sp 8.0分前25% 系统技术报告 #语音分离 6. MulTTiPop: A Multitrack Transcription Dataset for Pop M 7.7分前25% 数据集与基准 #音乐转录 7. SHAP-Weighted Cross-Modal Expert Fusion for Emotion and 7.7分前25% 方法研究 #语音情感识别 8. When Synthetic Speech Is All You Have: Better Call GRPO 7.7分前25% 方法研究 #语音识别 9. Structural Bottlenecks on Frequency Representation in E 7.6分前25% 方法研究 #音频生成 10. A Reliability Assessment of LALM Audio Judges for Full- 7.1分前50% 系统技术报告 #语音质量评估 11. Inverse-designed meta processing units for multi-task n 6.9分前50% 系统技术报告 #音频理解 12. Multimodal Unlearning Across Vision, Language, Video, a 6.9分前50% 综述 #多模态模型 13. Best-of-\(N\) TTS Evaluation is Confounded by ASR Family 6.7分前50% 方法研究 #语音质量评估 14. Why Do You Say It Like That? A Phoneme-Level Framework 6.5分前50% 方法研究 #语音伪造检测 15. It Takes Few to TANGO: A Quantized Distributed Model fo 6.5分前50% 系统技术报告 #语音增强 16. On the Role of Conversational Timing in Synthetic Train 6.4分前50% 方法研究 #语音识别 17. Diarization-Guided Qwen-ASR Adaptation for Multilingual 5.7分前50% 系统技术报告 #语音识别 18. Multimodal Digital Biomarker for Asthma: Complementary 5.3分后50% 应用研究 #多模态模型 19. Vidu S1: A Real-Time Interactive Video Generation Model 5.2分后50% 系统技术报告 #音视频交互 📋 论文列表 🥇 A Quantized Native Runtime for On-Device Semantic Audio Generation 8.4/10 | 创新 1.3/2 | 严谨 1.3/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 1.5/1.5 ...

Decoupling Conversational Dynamics in Full-Duplex Spoken Models through Reinforcement Learning

📄 Decoupling Conversational Dynamics in Full-Duplex Spoken Models through Reinforcement Learning #语音交互 #多模态模型 #自监督学习 #低资源 8.2/10 | 创新 1.8/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.2/10 | 前25% | #语音交互 | #强化学习 | #多模态模型 #自监督学习 | arxiv 👥 作者与机构第一作者：Yuxin Li（Nanyang Technological University）通讯作者：未说明作者列表：Yuxin Li（Nanyang Technological University）、Donghang Wu（Nanyang Technological University）、Guan-Ting Lin（National Taiwan University）、Hung-yi Lee（National Taiwan University）、Chengwei Qin（The Hong Kong University of Science and Technology）、Zhehuai Chen（NVIDIA）、Chen Chen（NVIDIA） 💡 毒舌点评该工作聪明地将全双工对话中“何时说话”与“说什么”解耦，用精心设计的局部窗口采样和因子化奖励把发声时机变成一个独立的 RL 优化目标，既保住了指令跟随能力又把交互指标拉满。但奖励函数的八个超参数和繁杂的惩罚项像是精心调制的独门秘方，其跨语言、跨风格的泛化性未经验证，且代码与模型均未开源，让社区难以深入复现和改进。 ...

Transformer-based segmentation of prosodic boundaries in Brazilian Portuguese

📄 Transformer-based segmentation of prosodic boundaries in Brazilian Portuguese #语音识别 #低资源 #自监督学习 4/10 | 创新 0.3/2 | 严谨 0.6/1.5 | 实验 0.5/1.5 | 清晰 0.6/1 | 影响 0.3/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 0.9/1.5 📝 4/10 | 后50% | #语音识别 | #迁移学习 | #低资源 #自监督学习 | arxiv 👥 作者与机构第一作者：Rodrigo de Freitas Lima（论文中未提供机构信息）通讯作者：未说明作者列表：Rodrigo de Freitas Lima（未说明）、Julio Cesar Galdino（未说明）、Marcos Vinicius Treviso（未说明） 💡 毒舌点评论文试图把巴西葡萄牙语韵律边界分割包装成独立贡献，但本质上只是将英语PSST!框架的“转录+边界标记”策略照搬到小语种，外加几个音频滤波器做消遣性实验。工程实现完整、写作通顺，但学术增量几乎为零：无方法创新、无与传统方法的量化对比、滤波器效果在统计噪声级别。更致命的是，论文自我定位不清——既不提供可部署的系统，又不做深入的语言学分析，卡在技术报告和学术论文之间，两头不讨好。放在顶会语境下，更像一篇硕士论文的中间产物，距离NeurIPS/ICML/ICLR的录用标准差距显著。 📌 核心摘要本文面向巴西葡萄牙语（BP）语音中的终端韵律边界自动分割任务，提出SAMPA模型。方法直接沿用英语任务中的PSST!框架，将韵律边界预测转化为在ASR转录文本中插入特殊分隔符 !!!!! 的序列到序列任务，通过微调Whisper large-v3实现端到端学习。实验在NURC-SP Minimal Corpus和CATNA-MT合并数据集（共约31小时，训练/验证28h44m，测试2h58m）和域外MuPe-Diversidades数据集（2.5小时）上进行，探索了五种训练滤波配置（无滤波、LP 3200 Hz、HP 400 Hz、HP 600 Hz、数据增强）和多种测试时滤波策略。最佳模型在域内测试集上获得 \(F_1=0.731\)（二分类），域外数据集上获得 \(F_1=0.796\)（二分类）。此外，通过n-gram分析和Praat声学可视化定性展示了模型利用了形态句法、语义和韵律线索，并分析了假阳性案例。主要局限包括：方法完全缺乏创新性；未与任何已有的BP韵律分割方法（规则法、LDA、随机森林等）进行直接量化比较；模型仅标注终端边界而非完整韵律层级；滤波器实验效果微小（\(\lt 0.3\) 百分点），其实际意义存疑。 ...

语音/音乐/音频论文速递 2026-07-09

语音/音乐/音频论文速递 2026-07-09 共分析 13 篇论文 ⚡ 今日概览 📥 抓取 13 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 4篇 ████ #音乐理解 2篇 ██ #基准测试 1篇 █ #语音交互 1篇 █ #语音情感识别 1篇 █ #语音活动检测 1篇 █ #音乐生成 1篇 █ #说话人验证 1篇 █ 📊 论文评分排行榜（13 篇，按分数降序）排名论文总分分档主任务 🥇 MMGenre: Benchmarking Singing Voice Synthesis across Mu 8.3分前25% #基准测试 🥈 Decoupling Conversational Dynamics in Full-Duplex Spoke 8.2分前25% #语音交互 🥉 MADB: A Large-Scale Music Aesthetics Dataset with Profe 8.1分前25% #音乐理解 4. Gradient-Based Speech-to-Text Alignment for Any ASR Mod 7.3分前50% #语音识别 5. UBG-Net: An Uncertainty-aware Bayesian Gating Network f 7.1分前50% #语音识别 6. Compress the Cache, Not the Speech Embedding: KV Compre 7.0分前50% #语音识别 7. Audio Sentiment Analysis via Distillation and Cross-Mod 6.9分前50% #语音情感识别 8. Multimodal Voice Activity Projection for Turn-Taking in 6.7分前50% #语音活动检测 9. Extending Xenakis: From Architectural Geometry to Sonif 5.6分前50% #音乐生成 10. Text-Independent Speaker Verification Using Discrete Au 5.2分后50% #说话人验证 11. Transformer-based segmentation of prosodic boundaries i 4.0分后50% #语音识别 12. Rag Classification of Tagore Songs using Symbolic Music 3.0分后50% #音乐理解 13. EscFOA: Enhancing Spatial Learning for Visually Impaire 2.8分后50% #教育 📋 论文列表 🥇 MMGenre: Benchmarking Singing Voice Synthesis across Multiple Musical Genres 8.3/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.5/1.5 | 复现 0.2/0.5 | 工程 1/1.5 ...

From Sinhala to Dhivehi: Cross-Lingual Transfer Learning for Low-Resource Speech Recognition

📄 From Sinhala to Dhivehi: Cross-Lingual Transfer Learning for Low-Resource Speech Recognition #语音识别 #迁移学习 #自监督学习 #低资源 #多语言 6.6/10 | 创新 1.2/2 | 严谨 0.8/1.5 | 实验 1/1.5 | 清晰 0.9/1 | 影响 0.6/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 ✅ 6.6/10 | 前50% | #语音识别 | #迁移学习 | #自监督学习 #低资源 | arxiv 👥 作者与机构第一作者：Lukmal Ilyas（未说明机构）通讯作者：未明确说明作者列表：Lukmal Ilyas（未说明机构）、Nevidu Jayatilleke（未说明机构） 💡 毒舌点评亮点是系统性地对比了五种迁移范式并发现语言ID令牌在低资源双语场景下的反直觉损害，同时用土耳其语控制实验干净地剥离了语言相关性效应；短板则在于全篇无多次重复实验与统计检验，部分架构不一致（XLS‑R与Wav2Vec2‑BERT混用）且未做音素级错误分析，使“最佳策略”的可靠性打了折扣，而且KenLM带来的绝对增益远超任何迁移策略，显得迁移学习本身收益甚微。 📌 核心摘要问题：低资源语言Dhivehi缺乏足够语音数据，本文研究利用语言亲缘关系较近且资源较多的Sinhala进行跨语言迁移，提升Dhivehi语音识别性能。方法核心：以Wav2Vec/XLS‑R预训练编码器为基础，比较五种迁移范式——仅Dhivehi微调、顺序微调（先Sinhala后Dhivehi）、多语言联合微调（含/不含语言ID令牌）、继续预训练（在Sinhala音频上继续自监督学习后微调Dhivehi）以及土耳其语无关语言控制实验；解码端统一采用5‑gram KenLM浅融合与CTC束搜索。新意：首次在Sinhala→Dhivehi方向上进行受控跨语言迁移研究，揭示语言ID令牌在低资源双语条件下可能有害，并通过无关语言控制实验验证了语言亲缘关系对迁移的贡献。主要实验：在Common Voice Dhivehi验证集上，最佳系统（继续预训练+KenLM）达12.89% WER、2.70% CER，优于Dhivehi‑only基线（13.50% WER / 3.02% CER）。KenLM解码平均降低约27个WER百分点。多语言微调不含语言ID令牌（13.26% WER）优于含令牌（18.46% WER）。土耳其控制实验（13.77% WER）劣于Sinhala多语言微调，验证了语言亲缘性的作用。具体结果见表。配置 LM WER(%) CER(%) Dhivehi only ✓ 13.50 3.02 Dhivehi only ✕ 41.27 6.19 Sequential (Si→Dv) ✓ 15.15 3.48 Sequential (Si→Dv) ✕ 43.55 6.69 Multi 60h Si + LID ✓ 18.46 3.72 Multi 60h Si + LID ✕ 42.29 6.40 Multi 60h Si, no LID ✓ 13.26 3.08 Multi 60h Si, no LID ✕ 42.09 6.30 Multi 30h Si, no LID ✓ 13.34 3.04 Multi 30h Si, no LID ✕ 41.94 6.33 Cont. pretrain Si→Dv ✓ 12.89 2.70 Cont. pretrain Si→Dv ✕ 40.54 5.95 Turkish ctrl, no LID ✓ 13.77 3.24 Turkish ctrl, no LID ✕ 43.02 6.60 实际意义：为极度低资源语音识别提供了可复用的迁移学习框架与解码策略经验，明确指出外部语言模型的重要性不亚于迁移策略本身，对类似小众语言对的技术落地有直接参考价值。主要局限：仅进行单次运行无统计检验，继续预训练采用不同架构（XLS‑R）导致与其他实验可比性不足，缺乏音素级错误分析，解码超参数调优有限，且评估局限于单一测试集。 🔗 开源详情代码：https://github.com/lukmalilyas/From-Sinhala-to-Dhivehi-ASR 模型权重：论文中未提及提供，代码仓库中未确认包含数据集： Sinhala：OpenSLR SLR52，https://www.openslr.org/52/ Dhivehi：Mozilla Common Voice版本24.0 Dhivehi子集，https://commonvoice.mozilla.org/ Turkish：Mozilla Common Voice版本22.0土耳其语子集，https://commonvoice.mozilla.org/ Demo：论文中未提及复现材料：提供实验脚本地址，并声称覆盖17个实验运行、5种迁移范式的全部组合。脚本中应包含论文所述的主要超参数设置，但缺少预训练模型、KenLM文件及详细环境配置，离一键复现仍有距离。 🏗️ 方法概述和架构整体流程：输入原始16kHz单声道音频，经Wav2Vec/XLS‑R系列自监督编码器提取上下文语音表征；表征通过一个线性层映射到字符级标签空间，用CTC损失进行监督训练；推理阶段，CTC输出的声学得分与外部5‑gram KenLM语言模型得分通过浅融合束搜索进行联合解码，产生最终文本。整个系统是模块化的“自监督编码器 + CTC微调 + LM解码”流水线。 ...

Learning-based Physics-Constrained Neural Kernel for Sound Field Estimation With Source-Position-Dependent Directional Weighting

📄 Learning-based Physics-Constrained Neural Kernel for Sound Field Estimation With Source-Position-Dependent Directional Weighting #声源定位 #空间音频 #低资源 #预训练 5.2/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 0.6/1.5 | 清晰 0.6/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.1/0.5 | 工程 0.9/1.5 📝 5.2/10 | 后50% | #声源定位 | #预训练 | #空间音频 #低资源 | arxiv 👥 作者与机构第一作者：Mattia Marella（National Institute of Informatics, Tokyo, Japan / University of Ferrara, Ferrara, Italy）通讯作者：未明确标注，推测为Shoichi Koyama（同为NII，且为项目资助获得者）全部作者：Mattia Marella（NII / Univ. Ferrara）、Shoichi Koyama（NII） 💡 毒舌点评这篇文章试图用一个直白且合理的想法——把源位置喂进INR让方向权重学会跨源共享——来解决物理约束神经核单快照过拟合的问题。想法本身没有毛病，方向权重朝向镜像源聚焦的可视化也算亮点。但通篇实验在一个玩具级的模拟房间里打转，声称可推广到“practical measurements”却毫无实测数据支撑，跨房间泛化更是只字不提，这跟只在MNIST上验证一个声称能解决通用视觉问题的方法有什么本质区别？致命的是，代码、模型、数据一概没有，训练细节缺失到让人怀疑作者自己能不能把实验复现出来。放在NeurIPS/ICML的bench上，这篇工作目前的状态顶多算个workshop poster。 ...

语音/音乐/音频论文速递 2026-07-08

语音/音乐/音频论文速递 2026-07-08 共分析 26 篇论文 ⚡ 今日概览 📥 抓取 26 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音属性识别 3篇 ███ #音频分类 3篇 ███ #语音合成 3篇 ███ #语音识别 3篇 ███ #声源定位 2篇 ██ #音乐生成 2篇 ██ #语音交互 1篇 █ #音频事件检测 1篇 █ 📊 论文评分排行榜（26 篇，按分数降序）排名论文总分分档主任务 🥇 Hierarchical Acoustic-Semantic Modeling: Modality Separ 9.2分前10% #语音交互 🥈 Propose and Attend: Training-free MLLM Grounding Confid 8.2分前25% #音频事件检测 🥉 Music I Care About: Automated Multimodal Benchmarking o 7.8分前25% #音乐理解 4. Escaping the Procrustean Bed: Groupwise Orthogonal Conn 7.8分前25% #语音属性识别 5. TriA Pipeline: A Large-Scale Automatic Audio Annotation 7.4分前50% #音频分类 6. InsideSSL: Understanding Self-Supervised Speech Represe 7.4分前50% #语音属性识别 7. Precise Video-to-Audio Generation with Cross-Modal Alig 7.4分前50% #音视频生成 8. WordVoice: Explicit and Decoupled Multi-Dimensional Wor 7.2分前50% #语音合成 9. ForestIR: Physics-Informed Forest Sound Simulation for 7.2分前50% #声源定位 10. Uncovering Latent Depression Severity for Binary Depres 7.0分前50% #音视频理解 11. Determinantal point process sampling for bioacoustic ac 6.9分前50% #音频分类 12. From Sinhala to Dhivehi: Cross-Lingual Transfer Learnin 6.6分前50% #语音识别 13. Goodbye Equal Error Rate, Hello Local Information Discl 6.5分前50% #语音转换 14. BlueMagpie-TTS: A Token-Efficient Tokenizer, Language M 6.5分前50% #语音合成 15. Fréchet Distance Loss on Speech Representations for Tex 6.5分前50% #语音合成 16. NAVER LABS System Re-implementation for the IWSLT 2026 6.4分前50% #语音翻译 17. Few-Shot Class-Incremental Audio Classification Using P 6.3分前50% #音频分类 18. Gemma 4 Technical Report 6.2分前50% #语音识别 19. Revisiting the Relation Between Language Model Perplexi 6.0分前50% #语音识别 20. Multimodal Video-to-Music Recommendation via Semantic R 5.4分后50% #音乐检索 21. Designing Maintainable Hybrid Generative Systems: A Qua 5.3分后50% #音乐生成 22. Learning-based Physics-Constrained Neural Kernel for So 5.2分后50% #声源定位 23. Distributed Multichannel Wiener Filtering for Topology- 5.1分后50% #语音增强 24. Flow Matching-Based Speech Source Separation with Best- 4.9分后50% #语音分离 25. Umm… With Transformers? Insights from Filled Pause Us 4.8分后50% #语音属性识别 26. From Textural Counterpoint to Feature Encoding: A Multi 2.1分后50% #音乐生成 📋 论文列表 🥇 Hierarchical Acoustic-Semantic Modeling: Modality Separation and Semantic Coherence for Full-Duplex SLMs 9.2/10 | 创新 1.8/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 0.8/1 | 影响 1.3/1.5 | 开源 1.2/1.5 | 复现 0.3/0.5 | 工程 1.5/1.5 ...

Adaptive Diversity-Uncertainty Active Learning with Redundancy Control for Bioacoustic Event Classification

📄 Adaptive Diversity-Uncertainty Active Learning with Redundancy Control for Bioacoustic Event Classification #音频事件检测 #低资源 6.2/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.9/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 0.7/1.5 ✅ 6.2/10 | 前50% | #音频事件检测 | #低资源 | arxiv 👥 作者与机构第一作者：Gabriel Dubus（未说明）通讯作者：未说明作者列表：Gabriel Dubus（未说明）、Hugo Magaldi（未说明）、Anatole Gros-Martial（未说明） 💡 毒舌点评论文为多标签生物声学事件分类定制了一套自适应不确定性-多样性主动学习策略，并加上MMR去冗余，在鸟类数据集上确实跑赢了CoreSet和Margin，工程思路清晰。但海洋场景近乎翻车、基线缺少信息论方法、连BALD的影子都没见着，而TypiClust又被漏掉了。代码和数据全无，让这份“挑战赛报告”的复现与推广价值打了不小的折扣。 📌 核心摘要要解决的问题：在生物声学事件多标签分类中，标注代价高昂且声学环境异质性强，需设计能动态平衡探索与利用、并控制批次冗余的主动学习采样策略。方法核心：提出ADU-MMR，通过全局模型置信度驱动的自适应权重将预测不确定性与嵌入空间多样性结合，并用贪婪最大边际相关性（MMR）控制批次内样本冗余。与已有方法的区别：自适应权重根据未标注池的全局归一化熵非线性动态调整，早期偏重多样性探索，后期转向不确定性利用；同时显式引入MMR减少批次冗余，区别于固定权重或纯不确定/多样性方法。主要实验结果：在BirdSet（HSN、POW、UHH）和ATBFL上，平均AULC 0.505、mAP 0.590，优于CoreSet、Margin、TypiClust和Random。HSN上AULC领先CoreSet 7.6个百分点，ATBFL上所有方法差距微小且Random略优。实际意义：为生态监测中的多标签声学事件标注提供了更高效的主动学习策略，尤其适用于结构化声景，可直接嵌入BaseAL等主动学习框架。主要局限性：严重依赖PerchV2嵌入质量，在低频海洋场景优势消失；未开源且缺少BALD等更强基线；自适应阈值τ凭经验设定，缺乏灵敏度分析。 🔗 开源详情代码：未提供代码链接模型权重：未提供模型权重下载链接（使用预训练PerchV2嵌入，但未给出具体权重链接）数据集：使用BirdSet（引用[6]）和ATBFL（引用[4]），论文未提供可直接访问的数据集下载链接 Demo：未提及复现材料：未提供训练配置、检查点或其他复现材料论文引用的开源项目： PerchV2（预训练音频嵌入模型，引用[5,2]）— 常见获取方式为Google Research的Perch项目仓库（https://github.com/google-research/perch ） BirdSet（大规模鸟类声学数据集，引用[6]）— 常见链接：https://huggingface.co/datasets/multispecies/BirdSet ATBFL（Acoustic Trends Blue Fin Library，引用[4]）— 论文未提供链接，可能通过 https://data.csiro.au/ 获取 CoreSet选择方法（引用[8]）— 开源实现常见于 https://github.com/dsgissin/DiscriminativeActiveLearning TypiClust（引用未在片段中给出完整信息）— 作为多样性感知基线 BaseAL框架（BioDCASE 2026 Task 4提供）— 论文未提供链接，可能由挑战组织方提供 🏗️ 方法概述和架构该方法基于固定预训练嵌入空间，整体流程为：在每一轮主动学习迭代中，从无标注池中选择一个批次（大小 \(B=25\)）提交标注，更新多标签分类器，重复直到总预算500耗尽。核心是ADU-MMR采样策略，由三个模块级联：不确定性估计、多样性距离计算、自适应加权与MMR批次选择。 ...

CHILDES-Aligned: A Curated Children's Speech Dataset via Multi-Model Timestamp Ensembling

📄 CHILDES-Aligned: A Curated Children's Speech Dataset via Multi-Model Timestamp Ensembling #语音识别 #模型集成 #数据集 #数据清洗 #低资源 7.2/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 1.2/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 ✅ 7.2/10 | 前50% | #语音识别 | #模型集成 | #数据集 #数据清洗 | arxiv 👥 作者与机构第一作者：Haolong Zheng（University of Illinois Urbana-Champaign）通讯作者：Mark A. Hasegawa-Johnson（University of Illinois Urbana-Champaign）作者列表：Haolong Zheng（UIUC）、Yuanzhuo Hu（CUHK, Shenzhen）、Xinyu Liang（CUHK, Shenzhen）、Vishal Sunder（IBM Research）、Dancheng Liu（University at Buffalo, SUNY）、Jinjun Xiong（University at Buffalo, SUNY）、Samuel Thomas（IBM Research）、Brian Kingsbury（IBM Research）、Zhizheng Wu（CUHK, Shenzhen）、Mark A. Hasegawa-Johnson（UIUC） 💡 毒舌点评这篇论文把一个务实的工程问题解决得相当漂亮：用多模型集成投票替代脆弱的单系统对齐，把那个乱糟糟的 CHILDES 时间戳修到可用水平，并且大方地放出了数据和代码。不过方法本身的创新深度有限，本质上是对齐+投票的组合拳，缺少对组件或超参数的深入消融分析，实验部分更像是产品交付报告而非严格的研究验证，微调实验关键细节的缺失让复现性打了折扣。 ...