VoxPrivacy: A Benchmark for Evaluating Interactional Privacy of Speech Language Models

📄 VoxPrivacy: A Benchmark for Evaluating Interactional Privacy of Speech Language Models #语音对话系统 #基准测试 #隐私保护 #多用户 🔥 8.0/10 | 前25% | #语音对话系统 | #基准测试 | #隐私保护 #多用户 学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yuxiang Wang(香港中文大学(深圳),深圳湾区研究院) 通讯作者:未明确说明(根据署名惯例,最后一位作者Zhizheng Wu可能为通讯作者,但论文未明确标注)。 作者列表: Yuxiang Wang (香港中文大学(深圳),深圳湾区研究院) Hongyu Liu (香港中文大学(深圳)) Dekun Chen (香港中文大学(深圳)) Xueyao Zhang (香港中文大学(深圳)) Zhizheng Wu (香港中文大学(深圳),深圳湾区研究院,澳门城市大学,Amphion Technology Co., Ltd.) 💡 毒舌点评 亮点:论文像一位敏锐的侦探,为“语音大模型在共享环境中如何保守秘密”这一被忽视的关键问题立了案、建了卷宗(三层级基准),并通过大规模“审讯”(评估)揪出了当前模型“嘴不严”(交互隐私能力弱)的通病,为领域敲响了警钟。 短板:然而,论文的“破案”能力(分析)远强于“结案”能力(解决方案)。其提出的微调路径更像是一个证明方向可行的“示例”,而非一个完整、鲁棒的解决方案。同时,整个“案发现场”(基准)完全由合成语音构成,尽管做了验证,但“真实犯罪现场”(真实隐私泄露场景)的复杂性可能被低估。 🔗 开源详情 代码:论文中未提及具体代码仓库链接,但承诺将开源基准数据集、训练集和微调模型。 模型权重:承诺开源基于Kimi-Audio微调的模型权重(“Ours: Kimi-Audio-sft”)。 数据集:承诺公开VoxPrivacy基准数据集(32.86小时)、Real-VoxPrivacy验证子集(586 utterances)以及用于训练的4000+小时数据集。具体获取方式未在提供的内容中说明。 Demo:论文开头提供了一个Demo页面链接:https://myflashbarry.github.io/VoxPrivacy.github.io/。 复现材料:附录提供了详尽的材料,包括:所有提示模板(生成、润色、评估)、评估标准详细规则(A/B/C分类)、训练集统计数据与示例、对抗攻击详情、说话者验证能力分析等。 论文中引用的开源项目:CosyVoice2(TTS), Whisper-large-v3(ASR), Deepseek, Gemini, ChatGPT(用于数据生成), 以及多个用于构建训练集的公开语音/音频数据集。 📌 核心摘要 问题:随着语音语言模型(SLS)进入智能家居等多用户共享环境,模型需要区分不同说话者以管理信息流。一个关键的未被评估的能力是“交互隐私”——即防止���个用户的私密信息被泄露给另一个用户。现有基准要么只评估对话能力,要么只关注全局敏感信息,忽略了依赖上下文和说话者身份的隐私。 方法核心:提出VoxPrivacy,首个系统评估SLS交互隐私的基准。其核心是设计了三层级任务结构:Tier 1(遵循“别告诉别人”的直接命令)、Tier 2(使用声纹作为密钥,只向主人披露)、Tier 3(在无明确指令下,自主推断信息是否私密并加以保护)。基准包含7107个样本,32.86小时英中双语合成音频,并构建了一个小型真人录音子集(Real-VoxPrivacy)用于验证。 创新性:与已有工作相比,VoxPrivacy首次将交互隐私和说话者感知的响应生成作为独立的评估维度;其三层任务设计覆盖了从简单指令到复杂常识推理的能力谱;基准构建结合了多LLM生成、自动清洗、人工验证和可控TTS合成,保证了质量和多样性。 主要实验结果:对9个SLS的评估显示,交互隐私是当前模型的重大缺陷。大多数开源模型在Tier 2和Tier 3上的准确率接近50%(随机猜测)。强闭源模型(如Gemini-2.5-pro)表现更好,但在更难的Tier 3(主动推理)上也出现明显性能下降。关键数据见下表。在Real-VoxPrivacy上的评估证实了合成数据上的结论。 表2: Tier 1(直接命令)部分模型性能(Accuracy (%)) ...

2026-05-02 · 更新于 2026-06-25 · 2 min · 361 words

WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM

📄 WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM #多模态模型 #音频检索 #视频检索 #对比学习 #多任务学习 🔥 8.5/10 | 前10% | #音频检索 #视频检索 | #对比学习 #多任务学习 | #多模态模型 #音频检索 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Changli Tang (清华大学) 通讯作者:Chao Zhang (清华大学) 作者列表:Changli Tang (清华大学), Qinfan Xiao (清华大学), Ke Mei (腾讯微信视觉), Tianyi Wang (腾讯微信视觉), Fengyun Rao (腾讯微信视觉), Chao Zhang (清华大学) 💡 毒舌点评 亮点:该工作勇敢地填补了基于LLM的统一音频-视觉嵌入的空白,其提出的分层特征融合与联合训练策略在多项检索和QA任务上取得了令人信服的SOTA结果,显示了强大的跨模态理解与对齐能力。 短板:模型的通用性在一定程度上受限于其基础架构(Qwen2.5-Omni),且论文中提出的“versatile audio-visual learning”新基准未在附录或实验部分详细说明其构成与评估方式,略显缺失。 ...

2026-05-02 · 更新于 2026-06-25 · 2 min · 391 words

WearVox: An Egocentric Multichannel Voice Assistant Benchmark for Wearables

📄 WearVox: An Egocentric Multichannel Voice Assistant Benchmark for Wearables #语音对话系统 #基准测试 #多通道 #语音大模型 #鲁棒性 ✅ 7.5/10 | 前25% | #语音对话系统 | #基准测试 | #多通道 #语音大模型 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Zhaojiang Lin(Meta,标记为联合第一作者) 通讯作者:未说明(论文未明确指定通讯作者,但提供了邮箱zhaojiang@meta.com, sunkaicn@meta.com, yongxu@meta.com, lunadong@meta.com) 作者列表:Zhaojiang Lin(Meta)、Yong Xu(Meta,联合第一作者)、Kai Sun(Meta,联合第一作者)、Jing Zheng(Meta)、Yin Huang(Meta)、Surya Teja Appini(Meta)、Krish Narang(Meta)、Renjie Tao(Meta)、Ishan Kapil Jain(Meta)、Siddhant Arora(Carnegie Mellon University,工作于Meta)、Ruizhi Li(Meta)、Yiteng Huang(Meta)、Kaushik Patnaik(Meta)、Wenfang Xu(Meta)、Suwon Shon(Meta)、Yue Liu(Meta)、Ahmed A Aly(Meta)、Anuj Kumar(Meta)、Florian Metze(Meta)、Xin Luna Dong(Meta) 💡 毒舌点评 亮点在于它精准地定义了可穿戴语音助手独有的“坑”(自我中心音频、多通道、运动噪声、旁听对话),并用一个设计精良、场景丰富的测试集(WearVox)把这些坑量化了,直接戳穿了当前所谓“先进”语音大模型在真实世界中的脆弱性。短板则是案例研究部分提出的多通道模型(MC WearLlama)虽然验证了方向,但更像是一个概念验证(PoC)而非一套完整的解决方案,模型本身未开源,且多通道处理方式(仅拼接两个通道)相对简单,离真正的端到端多模态融合还有距离。 ...

2026-05-02 · 更新于 2026-06-25 · 2 min · 422 words

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

📄 WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs #基准测试 #多模态模型 #音视频 #模型评估 #模型比较 🔥 8.5/10 | 前25% | #基准测试 | #多模态模型 | #音视频 #模型评估 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jack Hong(小红书) 通讯作者:Shilin Yan(小红书) 作者列表:Jack Hong(小红书)、Shilin Yan†(小红书)、Jiayin Cai(小红书)、Xiaolong Jiang(小红书)、Yao Hu(小红书)、Weidi Xie‡(上海交通大学) 💡 毒舌点评 这篇论文的价值在于它像一盆冷水,明确指出了当前多模态大模型在“听懂并看懂真实世界”这件事上还差得很远(最佳开源模型约25%,最强商用模型仅65.1%),而音频模态是普遍短板。不过,其评估形式局限于多选题,可能无法完全评估模型生成式理解和复杂推理的真实水平。 🔗 开源详情 代码:论文提供了项目主页链接(https://jaaackhongggg.github.io/WorldSense),但未明确提及评估代码或数据处理脚本的开源仓库。 模型权重:未提及。本文为评估基准,未提出新模型。 数据集:已公开。WorldSense数据集可通过项目主页获取,采用CC BY-NC-SA 4.0许可证。 Demo:论文中未提及在线演示。 复现材料:论文提供了详细的评估提示词模板(附录A.4)、标注协议描述(3.3节和附录A.2)以及模型评估设置说明(4.1节和附录A.3),为复现评估结果提供了充分信息。 论文中引用的开源项目:主要引用了作为数据源的FineVideo和MusicAVQA数据集,以及用于数据质量控制的Qwen2-VL、VideoLLaMA2和OneLLM等模型。 论文中未提及开源计划:评估代码、质量控制自动化脚本。 📌 核心摘要 问题:现有针对多模态大语言模型的评估基准大多忽略音频模态,或仅处理弱耦合的音视频信息,无法全面评估模型在真实世界中同时理解和推理视觉与听觉信息的能力。 方法核心:提出了WorldSense,首个专注于评估多模态视频理解中音视频模态强耦合能力的基准。该基准包含1,662个音视频同步视频,设计了3,172个多选问答对,覆盖8大领域、67个子类和26种任务。 新在哪里:与已有基准相比,WorldSense的创新在于:(i) 强调音视频模态的强耦合性,回答问题必须同时依赖两者;(ii) 覆盖真实世界多样化场景和音频类型(语音、环境声、音乐);(iii) 采用高质量人工标注和严格的多重质量控制流程。 主要实验结果:实验评估了多种主流多模态模型。结果显示,最佳开源多模态视频模型准确率仅为54.0%(Qwen3-Omni),而多数开源音视频模型表现接近随机猜测(约25%)。最强商用模型Gemini 2.5 Pro准确率也仅为65.1%。消融实验表明,加入原始音频相比仅用字幕能带来更大性能提升。 实际意义:该基准为评估和推动多模态模型向更鲁棒、更接近人类的真实世界理解能力发展提供了重要平台,并揭示了当前模型在音频理解、跨模态融合和复杂推理方面的关键不足。 主要局限性:基准采用多选题形式,在一定程度上限制了对模型生成式能力和开放性推理的评估;此外,尽管覆盖广泛,但视频和问题的分布可能仍无法完全代表所有真实世界场景。 🏗️ 模型架构 本文的核心贡献是提出了一个评估基准(Benchmark),而非一个新的模型。因此,其“架构”指的是基准的设计框架。该框架主要由两部分构成:数据构建流水线和评估范式。 ...

2026-05-02 · 更新于 2026-06-25 · 2 min · 353 words

XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models

📄 XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models #基准测试 #多模态模型 #跨模态 #音频问答 #模型评估 🔥 9.0/10 | 前25% | #基准测试 | #多模态模型 | #跨模态 #音频问答 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Xingrui Wang (1, 2) - 1. Advanced Micro Devices (AMD), 2. Johns Hopkins University 通讯作者:Jiang Liu (1) - Advanced Micro Devices (AMD) 作者列表:Xingrui Wang (AMD, Johns Hopkins University)、Jiang Liu (AMD,通讯作者)、Chao Huang (AMD, University of Rochester)、Xiaodong Yu (AMD)、Ze Wang (AMD)、Ximeng Sun (AMD)、Jialian Wu (AMD)、Alan Yuille (Johns Hopkins University)、Emad Barsoum (AMD)、Zicheng Liu (AMD) 💡 毒舌点评 亮点: 该论文精准打击了当前多模态大模型“看似通用,实则偏科”的痛点,其系统性地通过“模态置换”来测试模型是否真正在理解语义而非记忆模态关联,这种诊断思路比单纯刷分的基准更具洞察力。 短板: 论文像一份极其详尽的“体检报告”,清晰指出了模型的“病灶”(如音频理解弱、方向不平衡),但并未提供任何“治疗方案”(即如何构建更一致的模型),其价值完全依赖于后续研究者如何利用这份诊断报告。 ...

2026-05-02 · 更新于 2026-06-25 · 2 min · 312 words

YuE: Scaling Open Foundation Models for Long-Form Music Generation

📄 YuE: Scaling Open Foundation Models for Long-Form Music Generation #音乐生成 #预训练 #歌唱语音合成 #自回归模型 ✅ 7.5/10 | 前10% | #音乐生成 | #预训练 | #歌唱语音合成 #自回归模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Ruibin Yuan(香港科技大学,MAP) 通讯作者:未说明(论文列出了多位通讯作者,按字母排序:Jiaheng Liu, Jian Yang, Wenhao Huang, Wei Xue, Xu Tan, Yike Guo) 作者列表:Ruibin Yuan(香港科技大学,MAP), Hanfeng Lin(香港科技大学,MAP), Shuyue Guo(MAP), Ge Zhang(MAP,密歇根大学), Jiahao Pan(香港科技大学,MAP), Yongyi Zang(独立), Haohe Liu(萨里大学,MAP), Yiming Liang(MAP), Wenye Ma(MBZUAI,MAP), Xingjian Du(罗切斯特大学,MAP), Xeron Du(MAP), Zhen Ye(香港科技大学), Tianyu Zheng(MAP), Zhengxuan Jiang(MAP), Yinghao Ma(MAP,伦敦玛丽女王大学), Minghao Liu(2077AI,MAP), Zeyue Tian(香港科技大学,MAP), Ziya Zhou(香港科技大学,MAP), Liumeng Xue(香港科技大学,MAP), Xingwei Qu(MAP), Yizhi Li(MAP,曼彻斯特大学), Shangda Wu(中央音乐学院,MAP), Tianhao Shen(MAP), Ziyang Ma(MAP,上海交通大学,南洋理工大学), Jun Zhan(复旦大学), Chunhui Wang(吉利汽车), Yatian Wang(香港科技大学), Xiaowei Chi(香港科技大学), Xinyue Zhang(香港科技大学), Zhenzhu Yang(香港科技大学), Xiangzhou Wang(MAP), Shansong Liu(美团), Lingrui Mei(美团), Peng Li(香港科技大学), Junjie Wang(清华大学), Jianwei Yu(月之暗面), Guojian Pang(MAP), Xu Li(小红书), Zihao Wang(浙江大学,卡内基梅隆大学), Xiaohuan Zhou(MAP), Lijun Yu(卡内基梅隆大学), Emmanouil Benetos(伦敦玛丽女王大学,MAP), Yong Chen(吉利汽车), Chenghua Lin(曼彻斯特大学,MAP), Xie Chen(上海交通大学), Gus Xia(MBZUAI,MAP), Zhaoxiang Zhang(中国科学院), Chao Zhang(清华大学), Wenhu Chen(滑铁卢大学,MAP), Xinyu Zhou(月之暗面), Xipeng Qiu(复旦大学), Roger Dannenberg(卡内基梅隆大学,MAP)。 (注:“MAP”指Multimodal Art Projection团队) 💡 毒舌点评 亮点:首个开源且能生成长达五分钟、歌词对齐的完整歌曲的基础模型系列,其双轨分离预测和结构化渐进条件等技术,为解决长时序、多信号音乐生成提供了坚实且可扩展的方案。短板:尽管在结构控制和音域广度上与商业模型持平甚至超越,但其主观音质评估(人声与伴奏质感)与Suno V4仍有清晰可见的差距,且论文中未提供其超大模型(7B)在完整训练集上所需的、惊人的计算资源细节。 ...

2026-05-02 · 更新于 2026-06-25 · 2 min · 354 words

语音/音乐/音频论文速递 2026-05-02

语音/音乐/音频论文速递 2026-05-02 共分析 4 篇论文 ⚡ 今日概览 📥 抓取 4 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音对话系统 1篇 █ #语音合成 1篇 █ #基准测试 1篇 █ #语音识别 1篇 █ 📊 论文评分排行榜(4 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal 8.5分 前25% #语音对话系统 🥈 JaiTTS: A Thai Voice Cloning Model 8.0分 前25% #语音合成 🥉 InteractWeb-Bench: Can Multimodal Agent Escape Blind Ex 7.5分 前25% #基准测试 4. AppTek Call-Center Dialogues: A Multi-Accent Long-Form 6.5分 前50% #语音识别 📋 论文列表 🥇 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction 🔥 8.5/10 | 前25% | #语音对话系统 | #端到端 | #多模态模型 #流式处理 | arxiv ...

2026-05-02 · 更新于 2026-06-25 · 4 min · 724 words

A Knowledge-Driven Approach to Target Speech Extraction in the Presence of Background Sound Effects for Cinematic Audio Source Separation (CASS)

📄 A Knowledge-Driven Approach to Target Speech Extraction in the Presence of Background Sound Effects for Cinematic Audio Source Separation (CASS) #语音分离 #知识蒸馏 #数据增强 #音频场景理解 ✅ 7.0/10 | 前50% | #语音分离 | #知识蒸馏 | #数据增强 #音频场景理解 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Chun-wei Ho (Georgia Institute of Technology, USA) 通讯作者:未说明 (论文未明确指定通讯作者,但通常第一作者承担主要联系责任) 作者列表:Chun-wei Ho (Georgia Institute of Technology, USA), Sabato Marco Siniscalchi (University of Palermo, Italy), Kai Li (Dolby Laboratory, China), Chin-Hui Lee (Dolby Laboratory, China) 💡 毒舌点评 亮点:论文开创性地将语言学中的“发音方式”(Manner of Articulation)知识作为辅助信号引入到电影音频语音分离任务中,为解决背景音效干扰下的短语音提取提供了新颖且可解释的思路。短板:尽管思路巧妙,但实验说服力略显不足,提升幅度有限(约1dB),且所有实验仅在一个为该挑战赛定制的数据集上完成,未能证明该方法在更复杂、更多样的真实电影场景中的普适性和鲁棒性。 ...

2026-05-01 · 更新于 2026-06-25 · 2 min · 336 words

ABC: Any-Subset Autoregression via Non-Markovian Diffusion Bridges in Continuous Time and Space

📄 ABC: Any-Subset Autoregression via Non-Markovian Diffusion Bridges in Continuous Time and Space #生成模型 #扩散模型 #连续时间 #随机过程 #自回归模型 🔥 8.0/10 | 前25% | #条件生成 | #扩散模型 | #生成模型 #连续时间 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:未说明 通讯作者:未说明 作者列表:Gabe Guo(未说明)、Thanawat Sornwanee(未说明)、Lutong Hao(未说明)、Elon Litman(未说明)、Stefano Ermon(未说明)、Jose Blanchet(未说明) 💡 毒舌点评 亮点:直击现有扩散模型用于条件生成随机过程时的核心痛点(起点噪声、时间感知、条件灵活性),并提出了一个理论上更优的统一框架,逻辑清晰且有理论支撑。 短板:摘要中完全没有任何定量实验结果来支撑“superiority”的结论,让一个方法论看起来很漂亮的论文说服力大打折扣——没有数字的优越性宣称,在顶会顶刊里等于空谈。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中未提及 Demo:论文中未提及 复现材料:论文中未提及 论文中引用的开源项目:未提及 补充信息 [模型架构] 补充:论文标题和核心方法名“Any-Subset Autoregression via Non-Markovian Diffusion Bridges in Continuous Time and Space”明确指出了其模型的两个关键设计理念:1)非马尔可夫 (Non-Markovian):强调该过程不依赖于马尔可夫性,这与通过“路径依赖”的变分测度进行条件建模直接相关。2)扩散桥 (Diffusion Bridges):暗示该SDE不仅是一个简单的扩散过程,更是一个“桥”,连接已知的条件状态(如起始帧和结束帧),从而在给定条件下生成两端被约束的路径。这在模型架构描述中虽被“连续SDE”和“路径依赖”所涵盖,但明确点出“非马尔可夫扩散桥”这一核心概念有助于更精准地理解其理论定位。 ...

2026-05-01 · 更新于 2026-06-25 · 1 min · 148 words

Accent Conversion: A Problem-Driven Survey of Sociolinguistic and Technical Constraints

📄 Accent Conversion: A Problem-Driven Survey of Sociolinguistic and Technical Constraints #语音转换 #语音合成 #综述 #跨语言 ✅ 7.5/10 | 前50% | #语音转换 | #综述 | #语音合成 #跨语言 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Yurii Halychanskyi(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算与数据科学学院,国家超级计算应用中心) 通讯作者:Yurii Halychanskyi(同上) 作者列表:Yurii Halychanskyi(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算与数据科学学院,国家超级计算应用中心)、Jianfeng Steven Guo(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算与数据科学学院,国家超级计算应用中心)、Volodymyr Kindratenko(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算与数据科学学院,国家超级计算应用中心,东亚语言文化系) 💡 毒舌点评 亮点:成功地将口音转换这一技术问题,嵌入到社会语言学约束(偏见、公平)和技术瓶颈(对齐、解耦、低资源)的双重框架中进行系统性梳理,视角比传统工程综述更深刻。短板:本质上是对现有工作的“重新包装”和“排序”,缺乏算法层面的新见解或对某一具体问题的深度技术突破,对于寻求具体模型设计灵感的读者帮助有限。 🔗 开源详情 代码:论文中未提及代码链接。该论文是一篇综述文章,未提出新的算法或开源代码仓库。 模型权重:论文中未提及。 数据集:论文在第7节“Datasets”和表1中总结并引用了多个常用于口音转换研究的英语语音数据集。这些数据集为第三方公开数据集,论文本身未提供新的数据集或直接下载链接。具体引用的数据集及其获取途径(根据论文引用推断)如下: VCTK: https://datashare.ed.ac.uk/handle/10283/3443 (论文引用 [VCTK]) Common Voice: https://commonvoice.mozilla.org/ (论文引用 [CommonVoice]) Speech Accent Archive (SAA): https://accent.gmu.edu/ (论文引用中对应为 [47],指向A.C. Cohn的论文) CMU Arctic: http://www.festvox.org/cmu_arctic/ (论文引用 [CMU-Arctic]) L2-Arctic: https://btsync.csl.illinois.edu/BTSync/publicpage/publicprojects/L2-ARCTIC.html (论文引用 [L2-Arctic]) AccentDB: https://github.com/rahuly1/AccentDB (论文引用 [AccentDB]) UME-ERJ: 论文中提及但未给出明确链接,通常需通过原论文获取。 LibriLight, LibriSpeech, LibriTTS, LibriTTS-R, LJSpeech: 这些是常用于语音合成与识别的通用数据集,并非为口音转换专门设计,但论文指出AC研究常借用它们。获取链接如 LibriSpeech 等,但论文本身未给出。 Demo:论文中未提及。 复现材料:论文中未提及。该论文为综述,未提供自身的实验细节、训练配置或检查点。 论文中引用的开源项目:论文主要引用了数据集和方法(如DTW、PSOLA等),并未明确引用除数据集外的其他独立开源项目或工具。因此,此部分标记为“未提及”。 补充信息 [核心摘要/细节详述] 补充:论文第5节明确阐述了口音转换(AC)与其他语音处理任务的具体关系,指出: ...

2026-05-01 · 更新于 2026-06-25 · 1 min · 181 words