JaiTTS: A Thai Voice Cloning Model

📄 JaiTTS: A Thai Voice Cloning Model #语音合成 #语音克隆 #自回归模型 #泰语 #语音大模型 🔥 8.0/10 | 前25% | #语音合成 | #自回归模型 | #语音克隆 #泰语 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Jullajak Karnjanaekarin (Jasmine Technology Solution) 通讯作者:未明确说明(论文提供了团队邮箱 jts.ai.team@gmail.com) 作者列表: Jullajak Karnjanaekarin (Jasmine Technology Solution) Pontakorn Trakuekul (Jasmine Technology Solution) Narongkorn Panitsrisit (Jasmine Technology Solution) Sumana Sumanakul (Jasmine Technology Solution) Vichayuth Nitayasomboon (Jasmine Technology Solution) Nithid Guntasin (Sirindhorn International Institute of Technology, 实习于Jasmine Technology Solution) Thanavin Denkavin (Sirindhorn International Institute of Technology) Attapol T. Rutherford (Jasmine Technology Solution; Chulalongkorn University, Department of Linguistics) 💡 毒舌点评 亮点:论文在泰语语音克隆上实现了SOTA,CER甚至优于人类基准,并在400次盲测中以70%胜率击败商业巨头,展示了强大的工程落地和数据调优能力。短板:模型核心架构源自VoxCPM,原创性有限;更关键的是“代码、模型、数据”三无状态,使得其优异的实验结果暂时停留在“不可复现的宣称”阶段,大大削弱了学术贡献的可验证性和社区价值。 ...

2026-05-02 · 更新于 2026-06-22 · 2 min · 425 words

MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction

📄 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction #语音对话系统 #多模态模型 #端到端 #流式处理 #强化学习 🔥 8.5/10 | 前25% | #语音对话系统 | #端到端 | #多模态模型 #流式处理 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文作者列表未明确标注) 通讯作者:未说明(论文中未明确标注) 作者列表:Junbo Cui, Bokai Xu, Chongyi Wang, Tianyu Yu, Weiyue Sun, Yingjing Xu, Tianran Wang, Zhihui He, Wenshuo Ma, Tianchi Cai, Jiancheng Gui, Luoyuan Zhang, Xian Sun, Fuwei Huang, Moye Chen, Zhuo Lin, Hanyu Liu, Qingxin Gui, Qingzhe Han, Yuyang Wen, Huiping Liu, Rongkang Wang, Yaqi Zhang, Hongliang Wei, Chi Chen, You Li, Kechen Fang, Jie Zhou, Yuxuan Li, Guoyang Zeng, Chaojun Xiao, Yankai Lin, Xu Han, Maosong Sun, Zhiyuan Liu, Yuan Yao 机构列表:MiniCPM-o Team, OpenBMB(根据署名推断) 💡 毒舌点评 这篇论文真正瞄准了多模态交互范式的“圣杯”——实时全双工,其技术方案完整度和边缘部署效率令人印象深刻,是该方向的一个坚实里程碑。不过,论文对全双工交互的“主动性”和“鲁棒性”的评估相对薄弱,更像是一个高效的技术原型,离真正“类人”的复杂场景交互还有相当距离。 ...

2026-05-02 · 更新于 2026-06-22 · 2 min · 406 words

语音/音乐/音频论文速递 2026-05-02

语音/音乐/音频论文速递 2026-05-02 共分析 4 篇论文 ⚡ 今日概览 📥 抓取 4 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音对话系统 1篇 █ #语音合成 1篇 █ #基准测试 1篇 █ #语音识别 1篇 █ 📊 论文评分排行榜(4 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal 8.5分 前25% #语音对话系统 🥈 JaiTTS: A Thai Voice Cloning Model 8.0分 前25% #语音合成 🥉 InteractWeb-Bench: Can Multimodal Agent Escape Blind Ex 7.5分 前25% #基准测试 4. AppTek Call-Center Dialogues: A Multi-Accent Long-Form 6.5分 前50% #语音识别 📋 论文列表 🥇 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction 🔥 8.5/10 | 前25% | #语音对话系统 | #端到端 | #多模态模型 #流式处理 | arxiv ...

2026-05-02 · 更新于 2026-06-22 · 4 min · 724 words

A Knowledge-Driven Approach to Target Speech Extraction in the Presence of Background Sound Effects for Cinematic Audio Source Separation (CASS)

📄 A Knowledge-Driven Approach to Target Speech Extraction in the Presence of Background Sound Effects for Cinematic Audio Source Separation (CASS) #语音分离 #知识蒸馏 #数据增强 #音频场景理解 ✅ 7.0/10 | 前50% | #语音分离 | #知识蒸馏 | #数据增强 #音频场景理解 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Chun-wei Ho (Georgia Institute of Technology, USA) 通讯作者:未说明 (论文未明确指定通讯作者,但通常第一作者承担主要联系责任) 作者列表:Chun-wei Ho (Georgia Institute of Technology, USA), Sabato Marco Siniscalchi (University of Palermo, Italy), Kai Li (Dolby Laboratory, China), Chin-Hui Lee (Dolby Laboratory, China) 💡 毒舌点评 亮点:论文开创性地将语言学中的“发音方式”(Manner of Articulation)知识作为辅助信号引入到电影音频语音分离任务中,为解决背景音效干扰下的短语音提取提供了新颖且可解释的思路。短板:尽管思路巧妙,但实验说服力略显不足,提升幅度有限(约1dB),且所有实验仅在一个为该挑战赛定制的数据集上完成,未能证明该方法在更复杂、更多样的真实电影场景中的普适性和鲁棒性。 ...

2026-05-01 · 更新于 2026-06-22 · 2 min · 336 words

ABC: Any-Subset Autoregression via Non-Markovian Diffusion Bridges in Continuous Time and Space

📄 ABC: Any-Subset Autoregression via Non-Markovian Diffusion Bridges in Continuous Time and Space #生成模型 #扩散模型 #连续时间 #随机过程 #自回归模型 🔥 8.0/10 | 前25% | #条件生成 | #扩散模型 | #生成模型 #连续时间 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:未说明 通讯作者:未说明 作者列表:Gabe Guo(未说明)、Thanawat Sornwanee(未说明)、Lutong Hao(未说明)、Elon Litman(未说明)、Stefano Ermon(未说明)、Jose Blanchet(未说明) 💡 毒舌点评 亮点:直击现有扩散模型用于条件生成随机过程时的核心痛点(起点噪声、时间感知、条件灵活性),并提出了一个理论上更优的统一框架,逻辑清晰且有理论支撑。 短板:摘要中完全没有任何定量实验结果来支撑“superiority”的结论,让一个方法论看起来很漂亮的论文说服力大打折扣——没有数字的优越性宣称,在顶会顶刊里等于空谈。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中未提及 Demo:论文中未提及 复现材料:论文中未提及 论文中引用的开源项目:未提及 补充信息 [模型架构] 补充:论文标题和核心方法名“Any-Subset Autoregression via Non-Markovian Diffusion Bridges in Continuous Time and Space”明确指出了其模型的两个关键设计理念:1)非马尔可夫 (Non-Markovian):强调该过程不依赖于马尔可夫性,这与通过“路径依赖”的变分测度进行条件建模直接相关。2)扩散桥 (Diffusion Bridges):暗示该SDE不仅是一个简单的扩散过程,更是一个“桥”,连接已知的条件状态(如起始帧和结束帧),从而在给定条件下生成两端被约束的路径。这在模型架构描述中虽被“连续SDE”和“路径依赖”所涵盖,但明确点出“非马尔可夫扩散桥”这一核心概念有助于更精准地理解其理论定位。 ...

2026-05-01 · 更新于 2026-06-22 · 1 min · 148 words

Accent Conversion: A Problem-Driven Survey of Sociolinguistic and Technical Constraints

📄 Accent Conversion: A Problem-Driven Survey of Sociolinguistic and Technical Constraints #语音转换 #语音合成 #综述 #跨语言 ✅ 7.5/10 | 前50% | #语音转换 | #综述 | #语音合成 #跨语言 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Yurii Halychanskyi(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算与数据科学学院,国家超级计算应用中心) 通讯作者:Yurii Halychanskyi(同上) 作者列表:Yurii Halychanskyi(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算与数据科学学院,国家超级计算应用中心)、Jianfeng Steven Guo(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算与数据科学学院,国家超级计算应用中心)、Volodymyr Kindratenko(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算与数据科学学院,国家超级计算应用中心,东亚语言文化系) 💡 毒舌点评 亮点:成功地将口音转换这一技术问题,嵌入到社会语言学约束(偏见、公平)和技术瓶颈(对齐、解耦、低资源)的双重框架中进行系统性梳理,视角比传统工程综述更深刻。短板:本质上是对现有工作的“重新包装”和“排序”,缺乏算法层面的新见解或对某一具体问题的深度技术突破,对于寻求具体模型设计灵感的读者帮助有限。 🔗 开源详情 代码:论文中未提及代码链接。该论文是一篇综述文章,未提出新的算法或开源代码仓库。 模型权重:论文中未提及。 数据集:论文在第7节“Datasets”和表1中总结并引用了多个常用于口音转换研究的英语语音数据集。这些数据集为第三方公开数据集,论文本身未提供新的数据集或直接下载链接。具体引用的数据集及其获取途径(根据论文引用推断)如下: VCTK: https://datashare.ed.ac.uk/handle/10283/3443 (论文引用 [VCTK]) Common Voice: https://commonvoice.mozilla.org/ (论文引用 [CommonVoice]) Speech Accent Archive (SAA): https://accent.gmu.edu/ (论文引用中对应为 [47],指向A.C. Cohn的论文) CMU Arctic: http://www.festvox.org/cmu_arctic/ (论文引用 [CMU-Arctic]) L2-Arctic: https://btsync.csl.illinois.edu/BTSync/publicpage/publicprojects/L2-ARCTIC.html (论文引用 [L2-Arctic]) AccentDB: https://github.com/rahuly1/AccentDB (论文引用 [AccentDB]) UME-ERJ: 论文中提及但未给出明确链接,通常需通过原论文获取。 LibriLight, LibriSpeech, LibriTTS, LibriTTS-R, LJSpeech: 这些是常用于语音合成与识别的通用数据集,并非为口音转换专门设计,但论文指出AC研究常借用它们。获取链接如 LibriSpeech 等,但论文本身未给出。 Demo:论文中未提及。 复现材料:论文中未提及。该论文为综述,未提供自身的实验细节、训练配置或检查点。 论文中引用的开源项目:论文主要引用了数据集和方法(如DTW、PSOLA等),并未明确引用除数据集外的其他独立开源项目或工具。因此,此部分标记为“未提及”。 补充信息 [核心摘要/细节详述] 补充:论文第5节明确阐述了口音转换(AC)与其他语音处理任务的具体关系,指出: ...

2026-05-01 · 更新于 2026-06-22 · 1 min · 181 words

Advancing automatic speech recognition using feature fusion with self-supervised learning features: A case study on Fearless Steps Apollo corpus

📄 Advancing automatic speech recognition using feature fusion with self-supervised learning features: A case study on Fearless Steps Apollo corpus #语音识别 #自监督学习 #特征融合 #鲁棒性 ✅ 7.0/10 | 前25% | #语音识别 | #自监督学习 | #特征融合 #鲁棒性 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Szu-Jui Chen (Center for Robust Speech Systems, Erik Jonsson School of Engineering & Computer Science, University of Texas at Dallas) 通讯作者:未明确标注(根据作者顺序和致谢,推测John H. L. Hansen为项目负责人) 作者列表:Szu-Jui Chen (Center for Robust Speech Systems, Erik Jonsson School of Engineering & Computer Science, University of Texas at Dallas)、John H. L. Hansen (Center for Robust Speech Systems, Erik Jonsson School of Engineering & Computer Science, University of Texas at Dallas) 💡 毒舌点评 本文的核心亮点在于提出了一个设计精巧、动机明确的深度交叉注意力(DCA)融合方法,并首次对极具挑战性的FSC Phase-4数据集进行了系统性的ASR分析和基线建立。然而,其短板在于计算复杂度显著高于简单的线性投影方法,但最终带来的绝对性能提升(在FSC Phase-4上为1.1% WER)相对温和,且缺乏开源代码限制了其即时的可复现性和社区影响力。 ...

2026-05-01 · 更新于 2026-06-22 · 2 min · 344 words

AppTek Call-Center Dialogues: A Multi-Accent Long-Form Benchmark for English ASR

📄 AppTek Call-Center Dialogues: A Multi-Accent Long-Form Benchmark for English ASR #语音识别 #基准测试 #数据集 #鲁棒性 #英语变体 ✅ 6.5/10 | 前25% | #语音识别 | #基准测试 | #数据集 #鲁棒性 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Eugen Beck(AppTek.ai) 通讯作者:未说明 作者列表:Eugen Beck(AppTek.ai)、Sarah Beranek(AppTek.ai)、Uma Moothiringote(AppTek.ai)、Daniel Mann(AppTek.ai)、Wilfried Michel(AppTek.ai)、Katie Nguyen(AppTek.ai)、Taylor Tragemann(AppTek.ai) 💡 毒舌点评 亮点:这篇论文精准地指出了当前ASR评测的一个核心痛点(用短读音、无口音标注的基准来评估需要处理长对话、多口音的系统),并花大力气构建了一个规模空前、针对性极强的“考卷”,其14种英语变体和128.6小时的体量本身就是一个重要贡献。短板:评测对象完全是“角色扮演”的对话,这虽然比朗读录音更真实,但与真实呼叫中心场景中用户可能存在的高度紧张、方言极重、信号更差等情况仍有差距,其生态效度可以打个问号。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重的具体链接。论文评估了多个开源ASR模型,但未提供其下载地址,仅在参考文献中引用了相关工作。 数据集:AppTek Call-Center Dialogues 数据集。 获取链接:https://huggingface.co/datasets/apptek-com/apptek_callcenter_dialogues 开源协议:Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)。 协议链接:https://creativecommons.org/licenses/by-sa/4.0/ Demo:论文中未提及。 复现材料:论文中未提及具体的训练配置或检查点。但提到了以下评估与归一化材料: 论文提供了一个数据集专用的归一化脚本(normalization script),用于在评估前统一处理模型输出,但未提供该脚本的直接链接。 论文引用了 Hugging Face OpenASR leaderboard 的评估协议。 论文中引用的开源项目: Silero VAD:用于音频分割。 链接:https://github.com/snakers4/silero-vad Hugging Face OpenASR Leaderboard:用于定义评分协议。 链接:https://huggingface.co/spaces/open_asr_leaderboard OpenAI GPT5.2:用于论文校对。 论文引用为 [singh2025openaigpt5card],未提供直接链接。 gpt-oss-120B:本地用于生成评分归一化映射文件和验证拼写。 论文引用为 [openai2025gptoss120bgptoss20bmodel],未提供直接链接。 补充信息 模型架构 补充:分析结果中提到“未提出新的模型架构”,这是正确的,但遗漏了论文对所评测的各类ASR系统架构的简要归类与共性说明。论文在引言和基准测试部分指出,所评测的系统(如Parakeet, Canary, Qwen3-ASR, Whisper, Granite等)多为自回归或端到端模型,并严重依赖外部语音活动检测(VAD)或固定分割进行预处理。这一共性是理解为何“分割策略”成为核心评测变量的模型基础,也是论文评估框架设计的动机之一。 ...

2026-05-01 · 更新于 2026-06-22 · 2 min · 357 words

Audio Effect Estimation with DNN-Based Prediction and Search Algorithm

📄 Audio Effect Estimation with DNN-Based Prediction and Search Algorithm #音乐理解 #音频分类 #深度学习 #黑盒优化 #音频处理 🔥 8.0/10 | 前25% | #音乐理解 | #深度学习 | #音频分类 #黑盒优化 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 中 👥 作者与机构 第一作者:Youichi Okita 通讯作者:未说明 作者列表:Youichi Okita、Haruhiro Katayose(所属机构论文中未明确提供,仅通过arXiv作者页可查到与京都大学的关联,但根据指令禁止基于外部信息猜测,故仅列出姓名)。 💡 毒舌点评 亮点:论文没有陷入单纯“炼丹”堆叠模型,而是聪明地借鉴了人类专家“先猜后试”的思路,构建了“预测+搜索”的混合框架,尤其对干信号的估计为后续搜索奠定了良好基础,这在音频效果估计领域是一个系统且有洞察力的工程设计。 短板:实验验证局限于三种简单的吉他效果器和短链组合,真实音乐制作中效果器种类、参数范围、链式复杂程度和信号非线性可能远超此范围,论文在结论中虽提及此局限,但未能进一步探讨框架在更复杂场景下的普适性,使得其实用价值打了折扣。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开的模型权重。 数据集:论文描述了数据生成方法,并提到了所使用的原始数据集名称,但未提供生成的湿信号数据集或访问方式。 Demo:论文提供了一个在线演示链接:https://okitayouichi.github.io/afx-pred-sch-demo/。 复现材料:论文提供了详细的训练参数、损失函数、数据生成流程等描述,为复现提供了较好的文本指南。但缺少可直接运行的代码和配置文件。 论文中引用的开源项目:使用了pedalboard库用于音频效果处理,以及Optuna库用于黑盒优化算法实现。 📌 核心摘要 要解决什么问题:从已经应用了音频效果(“湿信号”)的音频中,反向推断出所使用的效果器类型、参数配置以及原始音频(“干信号”)。 方法核心是什么:提出了一种两阶段混合方法。第一阶段(预测):利用深度神经网络(DNN)初步估计干信号以及效果器类型或完整配置。第二阶段(搜索):以预测的干信号为基础,通过黑盒优化算法(如CMA-ES)调整效果器参数,使得重新合成的湿信号与原始湿信号的相似度最大化,从而修正和优化第一阶段的预测结果。 与已有方法相比新在哪里:整合了传统数据驱动的预测方法和基于重建的搜索方法。预测方法速度快但可能不准,搜索方法精度高但依赖良好的初始值。本文方法通过在预测阶段同时估计干信号,为搜索阶段提供了可靠的起点和评估依据,克服了两类方法单独使用的局限。 主要实验结果如何:在自建的吉他效果链数据集上,该混合方法在湿信号重建质量(SI-SDR)上显著优于纯预测方法(Bypass-Config-Iter)。例如,使用“预测类型组合+搜索顺序和参数”策略时,SI-SDR从基线的18.18 dB提升至23.07 dB。在效果链类型分类任务中,该策略的F1分数(0.958)也优于其他策略。 实际意义是什么:该方法可以辅助音乐制作人和音频工程师从现有作品中学习和复现特定的声音设计技巧,降低专业门槛;也可用于音频分析、版权检测(如识别特征性效果器组合)等场景。 主要局限性:研究局限于少数几种(3种)简单的吉他效果器(合唱、失真、混响)和长度最多3个效果的链,未涵盖更多效果类型(如延迟、均衡器、压缩器)、更长或更复杂的链以及不同乐器信号,现实适用性有待验证。 🏗️ 模型架构 论文的核心是预测-搜索两阶段框架。预测阶段的模型架构主要参考了SunAFXiNet [13]。 ...

2026-05-01 · 更新于 2026-06-22 · 2 min · 267 words

Audio Video Verbal Analysis (AVVA) for Capturing Classroom Dialogues

📄 Audio Video Verbal Analysis (AVVA) for Capturing Classroom Dialogues #音视频 #模型评估 #开源工具 ✅ 6.0/10 | 前50% | #音频问答 | #模型评估 | #音视频 #开源工具 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -1.0 | 置信度 高 👥 作者与机构 第一作者:Vivek Upadhyay(Indian Institute of Science, Bangalore,联系方式为viveku@iisc.ac.in) 通讯作者:Vivek Upadhyay(Indian Institute of Science, Bangalore) 作者列表:Vivek Upadhyay(Indian Institute of Science, Bangalore)、Amaresh Chakrabarti(Indian Institute of Science, Bangalore) 💡 毒舌点评 这篇论文的亮点在于它将社会科学研究方法(Verbal Analysis)与多模态数据分析进行了系统性整合,并创新性地引入了基于Bootstrap的置信区间和“粒度不变性”等稳定性评估标准来处理时间序列数据的聚合问题,方法论上十分扎实。然而,其短板在于“验证”部分仅使用了自家框架对有限数据(23小时)的单次应用,缺乏与现有成熟工具(如NVivo、ATLAS.ti内置分析)或其他量化方法在精度、效率上的直接对比实验,说服力稍显不足,更像一份详尽的“用户手册”而非具有突破性的研究论文。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:论文中描述了自行收集的课堂音视频数据,但未说明是否公开或如何获取。 Demo:未提及。 复现材料:论文详细描述了AVVA框架的10个步骤、编码规则、训练流程和统计验证方法,提供了较强的方法论复现指南。但未提供用于具体计算的脚本、配置或原始数据。 论文中引用的开源项目:论文中提及了若干用于自动编码的预训练模型(如LLaMA-3)及其微调工具(TRL, Unsloth框架),但这些是方法示例的一部分,并非本论文提供的开源贡献。 📌 核心摘要 这篇论文旨在解决课堂话语分析中从丰富的音视频多模态数据提取可量化信息的系统性方法缺失问题。核心是提出“音视频语言分析”框架,这是一个包含数据收集、转录、编码、分析等10个步骤的标准化流程,并将三角互证作为核心设计原则。与传统方法相比,AVVA框架的创新点在于:1)系统性地整合了定性解读与定量建模;2)特别针对时间序列观测数据提出了“时间单元可修改性问题”的解决方案,包括基础率过滤、Bootstrap置信区间以及基于四个标准(符号一致性、置信区间重叠、零排除、幅度稳定性)的稳定性评估。主要实验结果为对23小时印度学校课堂录音的应用分析,展示了框架的可行性(例如,通过图3中的森林图展示了变量对在不同时间粒度下的稳定性特征),并识别出如“粒度不变型”等变量关系模式。该框架的实际意义在于为将丰富的课堂话语转化为可分析数据集提供了可扩展的标准化路径。主要局限性在于实验规模有限且缺乏与外部方法的对比验证,且分析焦点主要落在语言模态,对非语言模态的深度利用不足。 ...

2026-05-01 · 更新于 2026-06-22 · 1 min · 160 words