Extracting accent features in spoken Brazilian Portuguese without sociolinguistic labels

📄 Extracting accent features in spoken Brazilian Portuguese without sociolinguistic labels #口音识别 #低资源 🔥 8.3/10 | 前50% | #口音识别 | #低资源 | arxiv 学术质量 5.9/7 | 影响力 1.5/2 | 可复现性 0.9/2 | 置信度 高 👥 作者与机构 Pedro H. L. Leite, PEE/COPPE, 巴西里约热内卢联邦大学 (UFRJ); Pedro Benevenuto Valadares, 巴西坎皮纳斯州立大学 (UNICAMP) 电气与计算机工程学院; Luiz W. P. Biscainho, 巴西里约热内卢联邦大学 (UFRJ) 电子工程系与电气工程研究生院。工作部分由巴西国家科学与技术发展委员会 (CNPq) 资助。 💡 毒舌点评 这篇论文在立意上就很有自知之明——既然搞不到靠谱的标签,那就干脆别用了。思路很“土”但很实用:用强制对齐器当“语音手术刀”,精准切出/s/、/r/、/d/-/t/这几个发音关键点,再用传统的声学特征(谱矩、MFCC)和对齐器自身的概率分布去分析,居然在几个特定任务上吊打了那些从头训到尾、动辄几百维的通用SSL巨兽(如XLS-R)。这像是拿着显微镜和手术刀的外科医生,在特定手术上战胜了带着全套影像设备但目标不明确的全科医生。方法的可解释性是一大亮点,每个特征系数都能在语言学图谱上找到对应。不过,这种“精准打击”策略也注定了其泛化能力的天花板——作者也承认,仅靠这三个音位变量远不足以覆盖巴西丰富的口音差异。最大的槽点在于开源情况:代码和模型权重都没提供,复现全靠一个展示结果的网页,这在顶会论文里是减分项。实验设计上,跨数据集评估只做了PE vs SP的二分类,四分类实验的数据源虽多但类别定义(如“mineiro”)稍显主观,且每个类别样本量差异很大(24-135人),结果说服力打了点折扣。 📌 核心摘要 本文提出一种无需社会语言学标签、仅依赖声学标签来提取巴西葡萄牙语(pt-BR)口音特征的新工作流。核心思想是:大型自监督学习(SSL)语音模型虽然强大,但其训练目标会稀释掉细粒度的社会语音信息。因此,本文主张利用强制对齐器(ZIPA)在语音中精确定位特定的口音标记音位(/s/尾音、/r/尾音、/d/-/t/腭化),并在这些时间点提取低维、可解释的声学特征(谱矩、MFCC)和对齐器概率分布。实验表明,在针对这些特定音位变量的分类任务上,所提出的局部特征(如“ZIPA v2 (7D)”向量)能够达到甚至超越大型SSL模型(如HuBERT、XLS-R)的性能,尤其在跨数据集评估中展现出优势。这证明了在特定语音任务中,基于领域知识的精准特征工程可以比通用的高维表征更有效、更可解释。 🔗 开源详情 代码:论文中未提供代码仓库链接。仅有一个伴侣网页(https://gpa-smt-ufrj.github.io/accent-features)用于展示实验结果。 模型权重: XLSR-53 葡萄牙语微调模型:提供了链接 https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-portuguese。 论文提出的口音标记检测模型(如“ZIPA v2 (7D)”向量对应的分类器权重):未提供。 数据集: CORAA:未提供直接链接,但提及为常用数据集。 Mozilla Common Voice:未提供直接链接。 ColingPB:提供链接 https://repositorio.ufpb.br/jspui/handle/123456789/23184。 BRSpeechDF:未提供直接链接。 CML-TTS:未提供直接链接。 Certas Palavras:未提供直接链接。 CETUC:未提供直接链接。 gneutralspeech (male/female):未提供直接链接。 TAGARELA:提供链接 https://huggingface.co/datasets/freds0/TAGARELA。 Sotaque Brasileiro:提供链接 https://sotaque-brasileiro.github.io/。 Ynoguti:未提供直接链接。 C-ORAL Brasil:未提供直接链接,但提及通过CORAA分发。 数据集获取方式:部分可直接获取(如ColingPB, TAGARELA),部分为公开数据集(如Common Voice),部分需根据作者/机构信息进一步查询。 Demo:未提及。 复现材料:伴侣网页包含消融研究结果,但未明确说明是否提供训练配置、检查点或代码。 论文中引用的开源项目: ZIPA:通过脚注链接间接指向 https://huggingface.co/pyannote/speaker-diarization-3.1,但此链接实为PyAnnote,ZIPA本身的代码/模型链接未明确给出。 PyAnnote (Speaker Diarization):https://huggingface.co/pyannote/speaker-diarization-3.1。 Allosaurus:仅通过引用编号[17]提及,未提供链接。 CUPE:仅通过引用编号[22]提及,未提供链接。 Resemblyzer:https://github.com/resemble-ai/resemblyzer。 SSL模型(用于对比):Wav2Vec 2.0[4], HuBERT[13], ECAPA-TDNN[11], XLSR-53[10]均通过引用编号提及,未提供具体链接。 🏗️ 方法概述和架构 本文提出的方法是一个多阶段、基于领域知识的流水线,旨在从语音中提取与区域口音相关的、可解释的特征,而无需使用不可靠的社会语言学标签。其架构可分为四个核心阶段: ...

2026-06-01 · 更新于 2026-06-12 · 3 min · 441 words

语音/音乐/音频论文速递 2026-06-01

语音/音乐/音频论文速递 2026-06-01 共分析 23 篇论文 ⚡ 今日概览 📥 抓取 23 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 6篇 ██████ #音乐生成 3篇 ███ #语音翻译 2篇 ██ #语音识别 2篇 ██ #自监督学习 1篇 █ #口音识别 1篇 █ #生成对抗网络 1篇 █ #音频事件检测 1篇 █ 📊 论文评分排行榜(23 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Chatterbox-Flash: Prior-Calibrated Block Diffusion for 10.0分 前25% #语音合成 🥈 UniAudio-Token: Empowering Semantic Speech Tokenizers w 10.0分 前25% #语音合成 🥉 Escaping the Linearity Trap: Manifold Detours for Black 9.7分 前25% #自监督学习 4. ImmersiveTTS: Environment-Aware Text-to-Speech with Mul 9.3分 前25% #语音合成 5. SwanVoice: Expressive Long-Form Zero-Shot Speech Synthe 8.9分 前50% #语音合成 6. AnchorSteer: Self-Discovered Concept Injection for Stru 8.6分 前50% #音乐生成 7. MindVoice: Reconstructing Intelligible Speech from Non- 8.5分 前25% #语音合成 8. Extracting accent features in spoken Brazilian Portugue 8.3分 前50% #口音识别 9. UNISON: A Unified Sound Generation and Editing Framewor 8.2分 前25% #语音合成 10. FiPA-SR – FiLM-Conditioned Perceptually Informed Audio 8.1分 前25% #生成对抗网络 11. DOA: Training-Free Decoder-Only Attention Policy for Lo 7.8分 前25% #语音翻译 12. GaMi: Geometry-Agnostic Material Identification via Cro 7.8分 前50% - 13. Improving acoustic drone detection generalization throu 7.7分 前50% #音频事件检测 14. Audio Pirates: Black-box Audio Watermark Removal via Di 7.4分 前25% #扩散模型 15. Latent Space Disentanglement via Activation Steering fo 7.3分 后50% #音乐生成 16. Scaling Conversational Hungarian ASR: The BEA-Dialogue+ 7.2分 前50% #语音识别 17. On the Use of Dereverberation for Acoustic Feedback Can 6.7分 前50% #语音增强 18. Towards Streaming Synchronized Spatial Audio Generation 6.5分 前50% #自回归模型 19. 3DAE: Binaural Quality Assessment for Audio Novel View 6.5分 前50% #音频质量评估 20. OpenSTBench: Beyond Semantic Evaluation for Speech Tran 6.0分 前50% #语音翻译 21. Sound effects in media:A comparative analysis of record 5.7分 前50% #音频生成 22. Mental Damage: Caption Poisoning Attacks on Retrieval-A 5.6分 前50% #音乐生成 23. A Unified and Reproducible Experimentation Framework fo 5.5分 前50% #语音识别 📋 论文列表 🥇 Chatterbox-Flash: Prior-Calibrated Block Diffusion for Streaming Zero-Shot TTS 🔥 10.0/10 | 前25% | #零样本语音合成 | #Transformer | #块扩散解码 #流式处理 | arxiv ...

2026-06-01 · 更新于 2026-06-12 · 12 min · 2552 words

Identity Leakage Through Accent Cues in Voice Anonymisation

📄 Identity Leakage Through Accent Cues in Voice Anonymisation #语音匿名化 #隐私保护 #公平性 #口音识别 #模型评估 ✅ 7.0/10 | 前50% | #语音匿名化 | #模型评估 | #隐私保护 #公平性 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Rayane Bakari(Orange Innovation, France; EURECOM, Sophia Antipolis, France) 通讯作者:未说明 作者列表:Rayane Bakari (Orange Innovation, EURECOM), Olivier Le Blouch (Orange Innovation), Nicolas Gengembre (Orange Innovation), Nicholas Evans (EURECOM), Michele Panariello (EURECOM) 💡 毒舌点评 亮点:论文敏锐地抓住了语音匿名化评估中一个关键盲点——非时域线索(口音)的残留风险,并系统性地利用多种嵌入(时域、非时域、口音相关)和攻击场景进行量化分析,逻辑严谨,论证有力,提出的公平性问题也很有价值。 短板:对于其提出的改进方案B4*,分析略显“止步于现象”,缺乏对其内部机制(字符级条件反射如何具体抑制口音线索)的深入解构或对比消融;此外,实验部分因部分参赛系统代码不可用,导致对比不够完整,削弱了结论的普适性。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 382 words