FSA-GRPO: Teaching Auditory LLMs to Use Few-shot Demonstrations

📄 FSA-GRPO: Teaching Auditory LLMs to Use Few-shot Demonstrations #语音识别 #低资源 #强化学习 8.1/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.6/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.1/10 | 前50% | #语音识别 | #强化学习 | #低资源 | arxiv 👥 作者与机构 Haolong Zheng (University of Illinois Urbana Champaign), Siyin Wang (Tsinghua University), Xulin Fan (University of Illinois Urbana Champaign), Zengrui Jin (Tsinghua University), Mark Hasegawa-Johnson (University of Illinois Urbana Champaign) ...

2026-06-03 · 更新于 2026-06-12 · 2 min · 366 words

SketchSong: Hierarchical Song Generation with Sketch Planning and Fine-Grained Multi-Track Modeling

📄 SketchSong: Hierarchical Song Generation with Sketch Planning and Fine-Grained Multi-Track Modeling #音乐生成 #音频生成 #多模态模型 #数据增强 #低资源 8.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 8.6/10 | 前25% | #音乐生成 | #数据增强 | #音频生成 #多模态模型 | arxiv 👥 作者与机构 论文作者:Xiaoyue Duan, Nanxing Hu, Yutang Feng, Xudong Yan, Jiatao Chen, Jinchao Zhang, Jie Zhou 机构:腾讯微信AI模式识别中心 (Pattern Recognition Center, WeChat AI, Tencent Inc.) 通讯作者:Jinchao Zhang (†Work done during an internship at WeChat AI, Tencent Inc. ‡Corresponding author) 💡 毒舌点评 这篇工作在概念层面抓住了当前歌曲生成模型的两个痛点:宏观结构规划不足和伴奏部分建模粗糙。提出的“草图规划”和“四轨建模”思路直接、清晰,且能互补。实验设计比较扎实,消融研究有力地支撑了各自组件的贡献。然而,方法的工程实现存在明显的“补丁”感,尤其是第二阶段多轨道模型却沿用第一阶段(或基线)为混合信号训练的伴奏解码器,这就像声称做了精细分轨烹饪,最后却用同一个大锅炒在一起,严重削弱了“细粒度”声称的冲击力。论文在局限性部分诚实地指出了这一点,但这也使得其作为一项完整工作的贡献打了折扣。与经过充分后训练(如DPO、对齐优化)的开源系统相比,本系统在部分主观指标上仍有差距,这进一步说明了其“潜力”与“现状”的差距。总体而言,这是一篇扎实的系统性工作,但缺乏一个令人惊艳的、完全自洽的闭环。 ...

2026-06-03 · 更新于 2026-06-12 · 5 min · 933 words

语音/音乐/音频论文速递 2026-06-03

语音/音乐/音频论文速递 2026-06-03 共分析 40 篇论文 ⚡ 今日概览 📥 抓取 40 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 7篇 ███████ #语音识别 7篇 ███████ #音乐生成 3篇 ███ #音频生成 2篇 ██ #语音增强 2篇 ██ #多模态模型 2篇 ██ #语音情感识别 2篇 ██ #语音翻译 2篇 ██ 📊 论文评分排行榜(40 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 AnyAudio-Judge: A Dynamic Rubric-Based Benchmark and Ev 10.0分 前10% #语音合成 🥈 Cosmos 3: Omnimodal World Models for Physical AI 10.0分 前10% #音频生成 🥉 WavTTS: Towards High-Quality Zero-Shot TTS via Direct R 9.2分 前25% #语音合成 4. CoughSense: Five-Class Respiratory Disease Classificati 9.1分 前25% #数据增强 5. SoulX-Transcriber: A Robust End-to-End Framework for Mu 8.8分 前50% #语音识别 6. SVHalluc: Benchmarking Speech-Vision Hallucination in A 8.7分 前25% #语音识别 7. Benchmarking Speech-to-Speech Translation Models 8.7分 前25% #语音合成 8. The DeepSpeak-Agentic Dataset 8.7分 前50% #语音合成 9. EntangleCodec: A Unified Discrete Audio Tokenizer via S 8.6分 前10% #语音合成 10. SketchSong: Hierarchical Song Generation with Sketch Pl 8.6分 前25% #音乐生成 11. SegTune: Structured and Fine-Grained Control for Song G 8.5分 前25% #音乐生成 12. Exploiting Noise Inseparability for Weakly-Supervised D 8.5分 前50% #语音增强 13. A Comparison of Generative and Discriminative Methods f 8.3分 前25% #语音增强 14. FSA-GRPO: Teaching Auditory LLMs to Use Few-shot Demons 8.1分 前50% #语音识别 15. Tonal parsimony in chord-sequence analysis: combining m 8.1分 前25% #音乐信息检索 16. Efficient ASR Training with Conversations that Never Ha 8.0分 前50% #语音识别 17. LiveBand: Live Accompaniment Generation in the Audio Do 8.0分 前25% #音乐生成 18. Sandboxed Coding Agents are Competitive Omni-modal Task 7.9分 前25% #强化学习 19. OmniHalluc-L: Counterfactual Benchmarking and Modality- 7.8分 前25% #多模态模型 20. BaltiVoice: A Speech Corpus and Fine-tuned Whisper ASR 7.8分 前25% #语音识别 21. Speech Emotion Recognition using Attention-based LSTM-N 7.5分 前50% #语音情感识别 22. SpeakerCard-1M: An Evidence-Grounded Speaker Card Corpu 7.4分 前25% #说话人验证 23. C2GA: A Class-Controllable Generative Augmentation Fram 7.3分 前50% #音频分类 24. AlignAtt4LLM: Fast AlignAtt for Decoder-Only LLMs at IW 7.3分 前50% #语音翻译 25. Before Fusion, Ask What to Keep: Contextual Calibration 7.2分 前50% #语音情感识别 26. Diffusion-Based Heart Sound Generation: Evaluation with 7.1分 前50% #语音合成 27. SiamCTC: Learning Speech Representations through Monoto 7.0分 前50% #语音识别 28. Foley-Omni: A Unified Multimodal Generation Model from 7.0分 前25% #音频生成 29. Inference-Time Scaling for Joint Audio-Video Generation 6.9分 前50% #语音合成 30. Breaking the Pair: Evaluating Dyadic Interaction via Sp 6.9分 前50% - 31. Localizing broadband noise sources using the Loève spec 6.9分 前50% #声源定位 32. A Pocket Offline Model for Simultaneous Speech Translat 6.8分 前50% #语音翻译 33. Stable Hybrid Cross-Attention Fusion for Audio-Visual E 6.7分 后50% #自监督学习 34. A Training-Efficient Transformer-Based Anti-Spoofing Ne 6.7分 后50% #Transformer 35. MoDAl: Self-Supervised Neural Modality Discovery via De 6.6分 前25% #自监督学习 36. Audio Spotforming via Post-Filtering Using Cross-Array 6.6分 前50% #维纳滤波 37. Logit Distillation on Manifolds: Mapping by Learning 6.5分 前50% #语音识别 38. Domain-Agnostic Incremental Learning for Sound Classifi 6.1分 前50% - 39. Wavelet as Tokenizer: Preliminary Results on a Shared W 5.4分 后50% #多模态模型 40. In-the-Loop Training of Deep Feedback Cancellation for 5.3分 前50% #自适应滤波 📋 论文列表 🥇 AnyAudio-Judge: A Dynamic Rubric-Based Benchmark and Evaluator for Audio Instruction Following 10.0/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

2026-06-03 · 更新于 2026-06-12 · 26 min · 5337 words

Advancing Electrolaryngeal Speech Enhancement Through Speech-Text Representation Learning

📄 Advancing Electrolaryngeal Speech Enhancement Through Speech-Text Representation Learning #语音增强 #多模态模型 #低资源 #数据增强 7.1/10 | 创新 1.5/2 | 严谨 1.1/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.4/1.5 ✅ 7.1/10 | 前50% | #语音增强 | #数据增强 | #多模态模型 #低资源 | arxiv 👥 作者与机构 Ding Ma, Jinyi Mi, Fengji Li, Lester Phillip Violeta, Jiajun He, Wenchin Huang, Kazuhiro Kobayashi, Tomoki Toda. 主要机构:名古屋大学 (Nagoya University) 信息科学研究生院及信息技术中心,北京航空航天大学 (Beihang University) 生物与医学工程学院,TARVO, Inc.。通讯作者为 Ding Ma。 ...

2026-06-02 · 更新于 2026-06-12 · 3 min · 598 words

PolySpeech-100: A Large-Scale Benchmark for Speech Understanding Across 100+ Languages and Dialects

📄 PolySpeech-100: A Large-Scale Benchmark for Speech Understanding Across 100+ Languages and Dialects #多语言 #低资源 #语音识别 #语音合成 8.8/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 🔥 8.8/10 | 前50% | #语音识别 | #多语言 | #低资源 #语音合成 | arxiv 👥 作者与机构 论文作者为 Sicheng Yang, Shulan Ruan, Shiwei Wu, Yu Liu, Lu Fan, Zhi Li, You He。主要机构包括清华大学深圳国际研究生院、清华大学电子工程系以及京东AI研究。 ...

2026-06-02 · 更新于 2026-06-12 · 2 min · 244 words

SALSA: Speech Aware LLM Adaptation via Learned Steering Activation Vectors

📄 SALSA: Speech Aware LLM Adaptation via Learned Steering Activation Vectors #参数高效微调 #低资源 #多语言 #多模态模型 7.2/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.2/10 | 前25% | #语音识别 | #参数高效微调 | #低资源 #多语言 | arxiv 👥 作者与机构 作者: Yekaterina Yegorova, Argyrios Gerogiannis, Haolong Zheng, Julia Hockenmaier, Chang D. Yoo, Mark A. Hasegawa-Johnson 机构: 1University of Illinois Urbana-Champaign, 2Korea Advanced Institute of Science and Technology (注:原文作者列表为“Argyrios Gerogiannis”,已有分析中为“Gerogiannis”,已修正。) ...

2026-06-02 · 更新于 2026-06-12 · 1 min · 143 words

WAXAL-NET: Finetuned Edge ASR Across 19 African Languages

📄 WAXAL-NET: Finetuned Edge ASR Across 19 African Languages #语音识别 #低资源 #参数高效微调 8/10 | 创新 2/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 1.5/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 0/1.5 🔥 8/10 | 前25% | #语音识别 | #参数高效微调 | #低资源 | arxiv 👥 作者与机构 Victor Tolulope Olufemi1,2, Oreoluwa Babatunde2, Ramsey Njema1, Bolarinwa Gbotemi2, Wanchi Lucia Yen1, John Uzodinma1, Sunday Ajayi1, Oluwademilade Williams2, Kausar Moshood2, Innocent Elendu Anyaele1, Akebert Arefaine1, Candace Hunzwi1, Wongel Dawit Daniel1, Emmilly Namuganga1, Cleophas Kadima1, Athanase Bahizire1, Onitsiky Ranaivoson1, Emmanuel Aaron1, Nicholaus Ladislaus1, Idris Muhammed1, Jonathan Enoch Simenya1, Martin Koome1, Matewos Tegete Endaylalu1, Peter Ifeoluwa Adeyemo1, Hondi Prisca Birindwa1, Ukachi Agnes Eze-Mbey1, Yacoba Oduro-Yeboah1, Pericles Adjovi1, Mikel K. Ngueajio1, Toluwani Aremu3, Prasenjit Mitra1。 1CMU Africa, 2LyngualLabs, 3MBZUAI。 ...

2026-06-02 · 更新于 2026-06-12 · 3 min · 561 words

语音/音乐/音频论文速递 2026-06-02

语音/音乐/音频论文速递 2026-06-02 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 9篇 █████████ #语音合成 5篇 █████ #自监督学习 2篇 ██ #多模态模型 2篇 ██ #音频分类 2篇 ██ #计算机视觉 1篇 █ #音乐推荐 1篇 █ #语音编辑 1篇 █ 📊 论文评分排行榜(35 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Project SPARROW and the Future of Conservation Technolo 10.0分 前50% #计算机视觉 🥈 Multimodal Music Recommendation System using LLMs 10.0分 前50% #音乐推荐 🥉 Sympatheia: Emotionally Adaptive Voice Assistant with C 9.6分 前25% #语音合成 4. MOSS-Audio Technical Report 9.2分 前25% #语音识别 5. UniVocal: Unified Speech-Singing Code-Switching Synthes 8.9分 前25% #语音合成 6. PolySpeech-100: A Large-Scale Benchmark for Speech Unde 8.8分 前50% #语音识别 7. SpeechEditBench: A Bilingual Multi-Attribute Benchmark 8.7分 前25% #语音编辑 8. Context-aware child-directed speech detection from long 8.5分 前25% #自监督学习 9. RRP-Voice: A Longitudinal Dataset and Benchmark for Rec 8.3分 前50% #数据集 10. MURMUR: An Efficient Inference System for Long-Form ASR 8.3分 前50% #语音识别 11. Local Diagnostics of Continuous Normalizing Flow for Ou 8.1分 前50% #语音合成 12. WAXAL-NET: Finetuned Edge ASR Across 19 African Languag 8.0分 前25% #语音识别 13. Dynamic Interaction-Aware and Causality-Disentangled Fr 7.8分 前25% #多模态模型 14. Temporally-Aligned Evaluation for Audio-Driven Talking 7.6分 前25% #语音合成 15. HAIM: Human-AI Music Datasets for AI Music Production T 7.5分 前50% - 16. Spiking and Event-driven Neuromorphic Mamba Models for 7.5分 前50% #语音识别 17. JenBridge: Adaptive Long-Form Video Soundtracking acros 7.3分 前25% #音乐生成 18. MelT: GEMM-Native NDFT for Efficient Single-Stage Audio 7.3分 前50% #信号处理基础 19. Description and Discussion on DCASE 2026 Challenge Task 7.2分 前50% #无监督学习 20. SALSA: Speech Aware LLM Adaptation via Learned Steering 7.2分 前25% #语音识别 21. Advancing Electrolaryngeal Speech Enhancement Through S 7.1分 前50% #语音增强 22. DUET: Unified Dual-Space Emotion Control for Diffusion 7.1分 前25% #语音合成 23. When Tabular Foundation Models Transfer Across Modaliti 7.1分 前50% #音频分类 24. Echo: A Joint-Embedding Predictive Architecture for Spe 7.0分 前50% #语音识别 25. AnyMo: Scaling Any-Modality Conditional Motion Generati 7.0分 前50% #多模态模型 26. Kinship Verification Using Voice 6.9分 前50% #声纹识别 27. Quality Audio Prototyping: a prototype system for unifi 6.9分 前50% #音频检索 28. A Lightweight Slot-Attention Framework for Multi-Instru 6.7分 前50% #音乐信息检索 29. A 1000-hour EEG-EMG-audio dataset of Japanese speech pr 6.5分 前50% - 30. DAStatFormer: A Hybrid Multibranch Transformer with Sta 6.4分 前50% #音频事件检测 31. Parameter-efficient Dual-encoder Architecture with Diff 6.4分 前25% #音频分类 32. Beyond the Mouth: Upper-Face Affective Cues in Audiovis 5.5分 前50% #语音识别 33. SN-WER: Script-Normalized WER for Multi-Script Indic AS 5.3分 前50% #语音识别 34. Privacy-preserving Prosody Representation Learning 4.9分 前50% #自监督学习 35. AI Slop or AI-enhancement? Student perceptions of AI-ge 3.7分 后50% - 📋 论文列表 🥇 Project SPARROW and the Future of Conservation Technology 10.0/10 | 创新 2.0/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1.0/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-02 · 更新于 2026-06-12 · 21 min · 4469 words

A Unified and Reproducible Experimentation Framework for Speech Understanding

📄 A Unified and Reproducible Experimentation Framework for Speech Understanding #语音识别 #语音合成 #语音情感识别 #语音翻译 #低资源 #基准测试 📝 5.5/10 | 前50% | #语音识别 | #语音合成 | #语音情感识别 #语音翻译 | arxiv 学术质量 5.5/7 | 影响力 5.0/2 | 可复现性 1.5/2 | 置信度 中 👥 作者与机构 论文作者来自上海交通大学X-LANCE实验室、南京大学、杭州电子科技大学、香港中文大学(深圳)以及AISpeech Ltd。主要联系人为上海交通大学的Peng Du和Kai Yu。 💡 毒舌点评 这篇工作本质上是一份详尽的“实验工具使用说明”和“初步评测报告”,而非一篇技术方法论或系统性突破的论文。它正确地指出了语音理解领域评测标准不统一、结果不可比和训练难复现的痛点,但给出的解决方案——一个评测框架和一套转换脚本——更像是一个工程团队或社区维护的“基础设施”,而非NeurIPS级别论文应有的理论或算法贡献。核心“创新”在于“统一”和“标准化”,但这些都是朴素且早该做的事情。最大的亮点是那个“智能体辅助转换流水线”,这听起来很时髦,但论文里只用了两个模型做了个“概念验证”,说服力严重不足。整篇论文读起来像是一个大型项目README的学术化版本,充满了链接、格式说明和“我们发布了…”的宣告。给5.5分,是对其指出正确问题并迈出第一步的鼓励,但其学术贡献的深度和广度远未达到顶会论文的标准。 📌 核心摘要 针对语音理解领域模型评估标准不统一、结果不可比以及训练过程难以复现的问题,本文提出了一个名为SURE的统一实验框架。该框架通过三个核心赛道进行设计:1) 面向真实场景的前端语音任务压力测试(Track I);2) 全栈语音理解能力的横向对比评估(Track II);3) 通过智能体辅助的代码转换流程,实现基于统一协议和开源数据的受控从头训练初步探索(Track III)。框架提供了统一的预测格式、归一化方法、评分脚本及动态的相对性能评分(RPS)指标。实验发现,在干净条件下级联管道在核心感知任务上仍有竞争力,情感识别是普遍挑战,且初步的受控训练结果显示不同模型在各任务上表现与其设计重点相关。 🔗 开源详情 代码: 项目主页:https://sure-eval-framework.github.io/speechllm_series/ 统一评估流水线:https://anonymous.4open.science/r/evaluation-pipeline-839C 代理辅助训练转换流水线:https://anonymous.4open.science/r/ReproAgent-9898 模型权重:论文中未提及开源模型权重。 数据集:论文中提及了多个开源数据集(VoxPopuli-en, AISHELL-5, AMI, AliMeeting, CS-Dialogue, KeSpeech, ContextASR, LibriSpeech, AISHELL-1, CoVoST2, IEMOCAP, MELD, SLURP, MMSU-Reason),并指出测试和训练套件已发布在ModelScope:https://modelscope.cn/datasets/SUREBenchmark/SURE_Test_Suites。 Demo:论文中未提及。 复现材料:论文未提供具体的训练配置、检查点或附录链接。但论文详细描述了代理辅助转换流程,该流程可将论文和代码转换为可运行的swift训练流程,并提供版本化的转换计划和验证报告。 论文中引用的开源项目: meeteval:用于计算DER和cpWER的后端工具。 sacrebleu:用于计算BLEU和chrF2的工具。 swift:用于可控训练的开源框架。 (注:以上工具在论文脚注中提供了链接) 🏗️ 方法概述和架构 SURE是一个端到端的实验套件,其核心架构分为统一评估流水线和智能体辅助训练转换流水线两大部分。 ...

2026-06-01 · 更新于 2026-06-12 · 3 min · 535 words

Extracting accent features in spoken Brazilian Portuguese without sociolinguistic labels

📄 Extracting accent features in spoken Brazilian Portuguese without sociolinguistic labels #口音识别 #低资源 🔥 8.3/10 | 前50% | #口音识别 | #低资源 | arxiv 学术质量 5.9/7 | 影响力 1.5/2 | 可复现性 0.9/2 | 置信度 高 👥 作者与机构 Pedro H. L. Leite, PEE/COPPE, 巴西里约热内卢联邦大学 (UFRJ); Pedro Benevenuto Valadares, 巴西坎皮纳斯州立大学 (UNICAMP) 电气与计算机工程学院; Luiz W. P. Biscainho, 巴西里约热内卢联邦大学 (UFRJ) 电子工程系与电气工程研究生院。工作部分由巴西国家科学与技术发展委员会 (CNPq) 资助。 💡 毒舌点评 这篇论文在立意上就很有自知之明——既然搞不到靠谱的标签,那就干脆别用了。思路很“土”但很实用:用强制对齐器当“语音手术刀”,精准切出/s/、/r/、/d/-/t/这几个发音关键点,再用传统的声学特征(谱矩、MFCC)和对齐器自身的概率分布去分析,居然在几个特定任务上吊打了那些从头训到尾、动辄几百维的通用SSL巨兽(如XLS-R)。这像是拿着显微镜和手术刀的外科医生,在特定手术上战胜了带着全套影像设备但目标不明确的全科医生。方法的可解释性是一大亮点,每个特征系数都能在语言学图谱上找到对应。不过,这种“精准打击”策略也注定了其泛化能力的天花板——作者也承认,仅靠这三个音位变量远不足以覆盖巴西丰富的口音差异。最大的槽点在于开源情况:代码和模型权重都没提供,复现全靠一个展示结果的网页,这在顶会论文里是减分项。实验设计上,跨数据集评估只做了PE vs SP的二分类,四分类实验的数据源虽多但类别定义(如“mineiro”)稍显主观,且每个类别样本量差异很大(24-135人),结果说服力打了点折扣。 📌 核心摘要 本文提出一种无需社会语言学标签、仅依赖声学标签来提取巴西葡萄牙语(pt-BR)口音特征的新工作流。核心思想是:大型自监督学习(SSL)语音模型虽然强大,但其训练目标会稀释掉细粒度的社会语音信息。因此,本文主张利用强制对齐器(ZIPA)在语音中精确定位特定的口音标记音位(/s/尾音、/r/尾音、/d/-/t/腭化),并在这些时间点提取低维、可解释的声学特征(谱矩、MFCC)和对齐器概率分布。实验表明,在针对这些特定音位变量的分类任务上,所提出的局部特征(如“ZIPA v2 (7D)”向量)能够达到甚至超越大型SSL模型(如HuBERT、XLS-R)的性能,尤其在跨数据集评估中展现出优势。这证明了在特定语音任务中,基于领域知识的精准特征工程可以比通用的高维表征更有效、更可解释。 🔗 开源详情 代码:论文中未提供代码仓库链接。仅有一个伴侣网页(https://gpa-smt-ufrj.github.io/accent-features)用于展示实验结果。 模型权重: XLSR-53 葡萄牙语微调模型:提供了链接 https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-portuguese。 论文提出的口音标记检测模型(如“ZIPA v2 (7D)”向量对应的分类器权重):未提供。 数据集: CORAA:未提供直接链接,但提及为常用数据集。 Mozilla Common Voice:未提供直接链接。 ColingPB:提供链接 https://repositorio.ufpb.br/jspui/handle/123456789/23184。 BRSpeechDF:未提供直接链接。 CML-TTS:未提供直接链接。 Certas Palavras:未提供直接链接。 CETUC:未提供直接链接。 gneutralspeech (male/female):未提供直接链接。 TAGARELA:提供链接 https://huggingface.co/datasets/freds0/TAGARELA。 Sotaque Brasileiro:提供链接 https://sotaque-brasileiro.github.io/。 Ynoguti:未提供直接链接。 C-ORAL Brasil:未提供直接链接,但提及通过CORAA分发。 数据集获取方式:部分可直接获取(如ColingPB, TAGARELA),部分为公开数据集(如Common Voice),部分需根据作者/机构信息进一步查询。 Demo:未提及。 复现材料:伴侣网页包含消融研究结果,但未明确说明是否提供训练配置、检查点或代码。 论文中引用的开源项目: ZIPA:通过脚注链接间接指向 https://huggingface.co/pyannote/speaker-diarization-3.1,但此链接实为PyAnnote,ZIPA本身的代码/模型链接未明确给出。 PyAnnote (Speaker Diarization):https://huggingface.co/pyannote/speaker-diarization-3.1。 Allosaurus:仅通过引用编号[17]提及,未提供链接。 CUPE:仅通过引用编号[22]提及,未提供链接。 Resemblyzer:https://github.com/resemble-ai/resemblyzer。 SSL模型(用于对比):Wav2Vec 2.0[4], HuBERT[13], ECAPA-TDNN[11], XLSR-53[10]均通过引用编号提及,未提供具体链接。 🏗️ 方法概述和架构 本文提出的方法是一个多阶段、基于领域知识的流水线,旨在从语音中提取与区域口音相关的、可解释的特征,而无需使用不可靠的社会语言学标签。其架构可分为四个核心阶段: ...

2026-06-01 · 更新于 2026-06-12 · 3 min · 441 words