语音合成 | 语音/音乐/音频论文速递

Multilingual Multi-Speaker Unit Vocoders: A Systematic Analysis of Discrete Speech Representations

📄 Multilingual Multi-Speaker Unit Vocoders: A Systematic Analysis of Discrete Speech Representations #语音合成 #自监督学习 #多语言 #语音编码 8.4/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.4/10 | 前25% | #语音合成 | #自监督学习 | #多语言 #语音编码 | arxiv 👥 作者与机构作者：Naman Kothari, Arjun Gangwar, Adarsh S, Umesh 机构：National Institute of Technology, Trichy; Indian Institute of Technology, Madras ...

Towards Unified Song Generation and Singing Voice Conversion with Accompaniment Co-Generation

📄 Towards Unified Song Generation and Singing Voice Conversion with Accompaniment Co-Generation #语音合成 #多任务学习 #扩散模型 7.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.2/1.5 | 复现 0.2/0.5 | 工程 0.6/1.5 ✅ 7.7/10 | 前25% | #语音合成 | #多任务学习 | #扩散模型 | arxiv 👥 作者与机构作者：Ziyu Zhang, Chunyu Qiang, Xiaopeng Wang, Yuxin Guo, Kang Yin, Wenjie Tian, Jingbin Hu, Tianlun Zuo, Zhao Guo, Teng Ma, Yuzhe Liang, Chen Zhang, Lei Xie 机构：1 Northwestern Polytechnical University, China; 2 Kuaishou Technology, China; 3 Beijing Institute of Technology, China; 4 Institute of Automation, Chinese Academy of Sciences, China; 5 University of Science and Technology of China, China; 6 Shanghai Jiao Tong University, China 邮箱：ziyu_zhang@mail.nwpu.edu.cn, lxie@nwpu.edu.cn ...

VoxCPM2 Technical Report

📄 VoxCPM2 Technical Report #语音合成 #语音克隆 #多语言 9.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 9.5/10 | 前50% | #语音合成 | #语音克隆 | #多语言 | arxiv 👥 作者与机构核心贡献者：Yixuan Zhou, Guoyang Zeng, Xin Liu, Xiang Li, Renjie Yu, Jiancheng Gui, Jiaheng Wu, Ziyang Wang, Xudong Shen, Runchuan Ye, Zhisheng Zhang, Jiuyang Zhou, Bingsong Bai, Weiyue Sun, Mengyuan Deng, Qundong Shi, Zhiyong Wu, Zhiyuan Liu 其他贡献者：Biyuan Lin, Caixian Chen, Chao Jia, Chenzhe Jing, Daixi Zeng, Jiayi Zhang, Jie Zhou, Jilong Ma, Jie Sun, Ling Zheng, Minmin Fan, Siyuan Huang, Shuo Wang, Susu Bai, Wenxi Yang, YingJiao Wang, Yitong Wang, Zhen Luo, Zhizheng Yang, Zhong Zhuang 机构：清华大学深圳国际研究生院人机语音交互实验室（THUHCSI），清华大学自然语言处理实验室（THUNLP），ModelBest ...

An Ultra-Low-Bitrate Neural Speech Codec with Plain-to-Pseudo Synergistic Vector Quantization

📄 An Ultra-Low-Bitrate Neural Speech Codec with Plain-to-Pseudo Synergistic Vector Quantization #语音合成 #低资源 7.7/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7.7/10 | 前25% | #语音合成 | #低资源 | arxiv 👥 作者与机构 Xiao-Hang Yang, Fei Liu, Rui-Chen Jiang, Jian-Qing Gao, Zhen-Hua Ling, Ji Wu 机构：中国科学技术大学 (1), 科大讯飞 (2), 清华大学 (3) 💡 毒舌点评这篇论文解决的是一个真实且重要的问题：如何在比特率压到极限（0.5 kbps）时还能保持语音质量。P2PSVQ的思路——用预测来模拟量化——确实巧妙，相当于“脑补”出了额外的细节，且不花带宽。这比单纯堆大模型（如BigCodec）要优雅。然而，论文的软肋在于“验证”部分。主观测试样本量小，难以服众；对比FSQ方法（SQCodec）时，对方官方代码不支持0.5 kbps，这成了一个无法验证的“借口”。更关键的是，伪VQ的引入让模型复杂度（参数量）翻了三倍多，虽然FLOPs增长不多，但推理时的内存占用和延迟可能是个隐患，论文却对此轻描淡写。消融实验揭示了一个尴尬事实：伪VQ加多了，基本token信息变少，预测反而变难，质量会掉。这使得核心设计（伪VQ数量）的选择更像是在走钢丝。总体而言，一个不错的idea，但支撑它的实验和分析还不够扎实，像是匆忙毕业的作品。 ...

CoSTA: Cognitive-State-Conditioned TTS Data Augmentation Using ASR Transcripts for Alzheimer's Disease Detection

📄 CoSTA: Cognitive-State-Conditioned TTS Data Augmentation Using ASR Transcripts for Alzheimer's Disease Detection #语音合成 #语音识别 #自监督学习 #低资源 #数据增强 6.5/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 0.9/1 | 影响 0.7/1.5 | 开源 0.3/1.5 | 复现 0.4/0.5 | 工程 0.7/1.5 ✅ 6.5/10 | 前50% | #语音合成 | #自监督学习 | #语音识别 #低资源 | arxiv 👥 作者与机构作者：Yin-Long Liu, Yuanchao Li, Yiming Wang, Yue Li, Rui Feng, Jiaxin Chen, Shaobo Liu, Liu He, Yuang Chen, Jiahong Yuan, Zhen-Hua Ling 机构：中国科学技术大学，爱丁堡大学 ...

F3-Tokenizer: Taming Audio Autoencoder Latents for Understanding and Generation

📄 F3-Tokenizer: Taming Audio Autoencoder Latents for Understanding and Generation #语音合成 #音频生成 #语音识别 #自监督学习 #多任务学习 7.2/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 0.8/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7.2/10 | 前25% | #语音合成 | #自监督学习 | #音频生成 #语音识别 | arxiv 👥 作者与机构 Dinghao Zhou, Xingchen Song, Di Wu, Pengyu Cheng, Shengfan Shen, Sixiang Lv。第一作者单位为南京大学，第二作者单位为WeNet开源社区。论文标注作者贡献相等。 💡 毒舌点评这篇论文的工作量扎实，试图解决音频标记器在“理解”与“生成”目标间的固有矛盾，技术路线清晰。但“新颖性”的成色需要仔细考量，其核心组件（归一化瓶颈、RQ-MTP、流匹配头）均为已有技术的组合与适配，缺少原理层面的根本性突破。更令人皱眉的是，作为一篇顶会论文，在“开源”和“可复现性”上的表现堪称“裸奔”——不提供代码、模型权重或详细的训练配置，这让所有令人印象深刻的实验结果都成了“黑箱表演”，极大地削弱了其可验证性和社区贡献度。实验部分虽然全面，但在生成任务上与最新SOTA（如Qwen3-TTS、Ming-Omni系列）的比较略显取巧，Token Rate不统一且SIM分数缺失，难以进行公平对比。总体来说，这是一篇完成度不错、但“诚意”不足的“应用整合式”论文。 ...

FoeGlass: Simple In-Context Learning Is Enough for Red Teaming Audio Deepfake Detectors

📄 FoeGlass: Simple In-Context Learning Is Enough for Red Teaming Audio Deepfake Detectors #大语言模型 #音频生成 #语音合成 #数据增强 7.5/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.5/10 | 前25% | #音频生成 | #数据增强 | #大语言模型 #语音合成 | arxiv 👥 作者与机构作者：Sepehr Dehdashtian, Jacob H. Seidman, Vishnu Naresh Boddeti, Gaurav Bharaj 机构：未明确说明作者所属机构。 💡 毒舌点评优点： ...

GLASS: GRPO-Trained LoRA for Acoustic Style Steering in Zero-Shot Text-to-Speech

📄 GLASS: GRPO-Trained LoRA for Acoustic Style Steering in Zero-Shot Text-to-Speech #语音合成 #强化学习 #参数高效微调 8.2/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.2/10 | 前25% | #语音合成 | #强化学习 | #参数高效微调 | arxiv 👥 作者与机构作者：Jaehoon Kang, Yejin Lee, Kyuhong Shim 单位：Department of Artificial Intelligence, Sungkyunkwan University, Korea 联系邮箱：{morateng, yj.lee, khshim}@skku.edu 💡 毒舌点评 “这篇工作就像给一个功能完备的智能音箱装上了几个精心调校的‘情绪旋钮’。思路清晰、模块化做得不错，实验也扎实地证明了‘旋钮’拧得动。但旋钮种类目前只有两个（语速和音高），且背后的‘电机’（奖励函数）设计得有点简陋——主要靠查字数（WER）和量音调（F0），这让‘情绪’的丰富性大打折扣。最大的槽点在于，作者自己都承认在组合多个旋钮时可能会‘翻车’（过冲），这使得其宣称的‘可组合性’打了折扣。整体而言，是一篇合格的工程优化论文，离‘优雅的学术突破’还差那么点意思。” ...

MCBench: A Multicontext Safety Assessment Benchmark for Omni Large Language Models

📄 MCBench: A Multicontext Safety Assessment Benchmark for Omni Large Language Models #语音识别 #多模态模型 #语音合成 8.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.4/10 | 后50% | #语音识别 | #多模态模型 | #语音合成 | arxiv 👥 作者与机构论文标题：MCBench: A Multicontext Safety Assessment Benchmark for Omni Large Language Models 作者：Luong Tien, Abraham Tamas, Kim Junae, Kaur Amar, Omari Rollin, Haffari Gholamreza, Vu Trang, Qu Lizhen, Phung Dinh 机构：1 Monash University, Australia; 2 Defence Science and Technology Group, Australia ...

SpeechJBB: Probing Safety Alignment and Comprehension in Large Audio Language Models under Code-Switched Speech

📄 SpeechJBB: Probing Safety Alignment and Comprehension in Large Audio Language Models under Code-Switched Speech #语音识别 #多语言 #语音合成 #数据集 7.3/10 | 创新 1.5/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.3/1.5 | 复现 0.3/0.5 | 工程 0.5/1.5 ✅ 7.3/10 | 前25% | #语音识别 | #多语言 | #语音合成 #数据集 | arxiv 👥 作者与机构 Virginia Ceccatelli1,2， Yejin Jeon1,2， David Ifeoluwa Adelani1,2,3。1 Mila - Quebec AI Institute， 2 McGill University, Canada， 3 Canada CIFAR AI Chair. ...