语音合成 | 语音/音乐/音频论文速递

Low-Latency Real-Time Audio Game Commentary System via LLM-Based Parallel Text Generation

📄 Low-Latency Real-Time Audio Game Commentary System via LLM-Based Parallel Text Generation #语音合成 #音频生成 7.9/10 | 创新 1.6/2 | 严谨 1.4/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ✅ 7.9/10 | 前25% | #语音合成 | #音频生成 | arxiv 👥 作者与机构 Ryota Kawamatsu (东京大学, 产业技术综合研究所) Anum Afzal (产业技术综合研究所, 慕尼黑工业大学) Yuki Saito (东京大学) Shinnosuke Takamichi (庆应义塾大学, 东京大学) Graham Neubig (卡内基梅隆大学) Katsuhito Sudoh (奈良女子大学) Hiroya Takamura (产业技术综合研究所) Tatsuya Ishigaki (产业技术综合研究所) ...

NaturalFlow: Reducing Disruptive Pauses for Natural Speech Flow in Simultaneous Speech-to-Speech Translation

📄 NaturalFlow: Reducing Disruptive Pauses for Natural Speech Flow in Simultaneous Speech-to-Speech Translation #语音翻译 #语音合成 7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.7/1.5 ✅ 7/10 | 前50% | #语音翻译 | #语音合成 | arxiv 👥 作者与机构作者：Dongwook Lee, Youngho Cho, Sangkwon Park, Heeseung Kim†, Sungroh Yoon† 机构：首尔大学 (1IPAI, 2ECE), 首尔市立大学 (3Department of AI) 💡 毒舌点评这篇论文精准地指出了同传S2ST领域一个被长期忽视但至关重要的问题：过度优化延迟导致的输出“结巴”。其“银牌偏好”策略在理论上是巧妙的“安全带”，能有效防止模型为了追求“丝滑”而彻底放弃“信达雅”。然而，审稿人必须指出，所谓的“显著改善”在某些场景下略显“雷声大雨点小”，比如在最短的CVSS-C数据集上，SR的绝对值本身就极低，从0.24降到0.11（高SR子集）的统计意义需结合实际听感判断。此外，论文将自身定位为通用优化框架，但所有实验仅限于法英对，结尾却轻率地展望“广泛语言对扩展”，这种“画饼”行为在顶会审稿人看来是典型的过度推断，缺乏严谨性。最后，开源信息的全面缺失（无代码、无权重）让其“可复现性”大打折扣，对于一篇强调方法论普适性的工作而言，这是一个明显的短板。 ...

PRISM: Prosody-Integrated Multi-Agent Reasoning Framework for Empathetic Spoken Dialogue

📄 PRISM: Prosody-Integrated Multi-Agent Reasoning Framework for Empathetic Spoken Dialogue #语音合成 #语音识别 8.1/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8.1/10 | 前25% | #语音合成 | #语音识别 | arxiv 👥 作者与机构 Wen Zhang, Xiaocui Yang, Zhuoyue Gao, Daling Shi, Yifei Feng, Daling Wang, Yifei Zhang。隶属于东北大学计算机科学与工程学院。 💡 毒舌点评这篇工作试图用多智能体框架解决共情语音对话这个“老大难”问题，方向是好的。但就像一个组装精良却忘了拧紧螺丝的机器，理论框架看起来挺完整，可细节经不起推敲。那个拍脑袋定权重的“确定性分数”，简直是对“科学计算”四个字的侮辱。实验倒是把所有能拿的指标都拿上了，但缺少最硬核的声学评估，就像评价一个歌手只看他写了多少词，却从不听他唱得怎么样。最要命的是，声称“可解释”，但各模块间的“协调”机制描述得像黑话，这“多智能体”的协作到底有多智能，恐怕连作者自己都说不清。 📌 核心摘要本文提出PRISM，一个用于共情语音对话的多智能体框架。该框架将语音感知、对话管理和语音合成分解为专门模块（Perceiver, Manager, Responder, Vocalizer），并通过引入“韵律到语言”转换机制，将低级声学线索转化为LLM可处理的文本描述，从而增强共情推理的可控性与稳定性。此外，框架支持按需调用外部知识工具。在AvaMERG数据集上的实验表明，PRISM在多个自动指标和人工评估上优于多种基线模型。 ...

Self-Guidance: Enhancing Neural Codecs via Decoder Manifold Alignment

📄 Self-Guidance: Enhancing Neural Codecs via Decoder Manifold Alignment #语音合成 #语音编码 #自监督学习 #正则化微调 #低资源 #模型压缩 9.7/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9.7/10 | 前25% | #语音合成 | #自监督学习 | #语音编码 #正则化微调 | arxiv 👥 作者与机构作者：Xiang Li, Yixuan Zhou, Jingran Xie, Zhiyong Wu, Hui Wang。论文未明确提及作者所属机构。 💡 毒舌点评这篇工作提出了一个简单有效且即插即用的训练技巧（Self-Guidance），确实能提升编解码器性能并减少码本大小，对下游LLM任务有益。但审稿人普遍会质疑其“新颖性”上限——这本质上是一种特征级别的对齐或正则化手段，在自蒸馏、特征模仿等领域早有类似思想。论文在理论分析上较为薄弱，缺乏对“为何对齐解码器特定层特征就如此有效”的深入数学或信息论解释。下游TTS实验规模太小，像一个仓促的验证，难以充分支撑“显著提升”的结论。整体而言，这是一篇扎实的工程改进工作，但离理论贡献或范式突破尚有距离。 📌 核心摘要本文针对VQ-VAE神经语音编解码器中量化误差限制重建质量的问题，提出了一种轻量级训练机制“自引导”（Self-Guidance, SG）。SG在训练时为解码器引入一个辅助分支，输入连续的预量化潜在向量（teacher路径），并通过一个特征映射损失（\(\\mathcal{L}_{\\text{guide}}\)）对齐该分支与原始量化输入分支（student路径）在解码器最后一个Transformer块输出的隐藏特征。此举旨在提升解码器对量化误差的鲁棒性，使其在推理时仅处理量化token也能生成更高质量的波形。实验表明，SG在XCodec2模型上取得了多项指标的SOTA，并能以1/4码本大小达到基线性能，从而有益于简化下游LLM的语音token建模。该机制泛化性良好，适用于不同的量化器和解码器架构。 ...

Vocal Identity Under Siege by AI Voice Cloning Technologies

📄 Vocal Identity Under Siege by AI Voice Cloning Technologies #语音合成 3.2/10 | 创新 0.8/2 | 严谨 1/1.5 | 实验 0/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0/1.5 | 复现 0/0.5 | 工程 0/1.5 📝 3.2/10 | 前50% | #语音合成 | #语音合成 | arxiv 👥 作者与机构论文作者：Jyh-An Lee (李俊安) 与 Xuan Sun (孙萱)。所属机构：香港中文大学法律学院 (The Chinese University of Hong Kong Faculty of Law)。其他信息：第一作者同时担任法律创新与数字社会中心 (Centre for Legal Innovation and Digital Society, CLINDS) 的教授及执行主任。 ...

Interpreting and Steering a Text-to-Speech Language Model with Sparse Autoencoders

📄 Interpreting and Steering a Text-to-Speech Language Model with Sparse Autoencoders #语音合成 #自监督学习 7.7/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.7/10 | 前25% | #语音合成 | #自监督学习 | arxiv 👥 作者与机构作者: Nikita Koriagin, Georgii Aparin, Nikita Balagansky, Daniil Gavrilov 机构: T-Tech (Koriagin, Balagansky, Gavrilov)， AI Foundation and Algorithm Lab (Aparin) 💡 毒舌点评这篇工作方向不错，把可解释性工具搬到多模态TTS场景，但执行上有点“半成品”。最大的问题是“自己评自己”——用Gemini标，再用Gemini评，这分数的可信度得打个大折扣。实验只盯着一个0.5B的小模型，结论能不能推广到主流的大参数TTS系统里，完全是个问号。引导实验看起来数字亮眼，但全是自动指标，没几个人类评估，怎么知道生成的“笑声”是自然的还是机械的鬼畜？另外，方法虽然适配了新场景，但核心SAE和auto-interp都是前人的工作，谈不上有多大突破。总的来说，是个有用的探索，但离让人信服的结论还差得远。 ...

SARA: A Dual-Stream VAE for High-Fidelity Speech Generation via Integrating Semantic and Acoustic Representations

📄 SARA: A Dual-Stream VAE for High-Fidelity Speech Generation via Integrating Semantic and Acoustic Representations #语音合成 #变分自编码器 #自监督学习 #语音识别 #多任务学习 #语音生成 #数据集 7.9/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 ✅ 7.9/10 | 前25% | #语音合成 | #变分自编码器 | #自监督学习 #语音识别 | arxiv 👥 作者与机构作者：Peijie Chen*, Wenhao Guan, Weijie Wu, Kadi Wang, Daiyu Huang, Zhuanling Zha, Junbo Li, Jun Fang, Qingyang Hong†, Lin Li 机构：1 厦门大学信息学院，中国；2 厦门大学电子科学与工程学院，中国；3 滴滴全球公司，北京，中国联系邮箱：peijiechen@stu.xmu.edu.cn ...

The Dynamics of Human and AI-Generated Language: How Semantics Fluctuates across Different Timescales

📄 The Dynamics of Human and AI-Generated Language: How Semantics Fluctuates across Different Timescales #语音合成 #时间序列分析 8.1/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 🔥 8.1/10 | 前25% | #语音合成 | #时间序列分析 | arxiv 👥 作者与机构作者：Han-Jen Chang, Yasir Çatal, Angelika Wolman, Agustín Ibáñez, David Smith, I-Wen Su, Kai-Yuan Cheng, Georg Northoff。机构信息未在论文中明确列出，但从内容推断涉及渥太华大学等机构。 💡 毒舌点评这篇论文试图用动力系统理论的“时间尺度”概念来统一理解语言语义的动态，想法很宏大。其核心是提出一个“语义时间尺度分析管道”，把离散的词和句子变成连续的语义信号，然后用自相关窗（ACW-0）等工具去量化其时间结构。实验上用了三套数据（人录音、人文本TTS、LLM文本TTS）和四种精心设计的洗牌对照组，论证还算扎实。主要发现是“通用词汇对应长的时间尺度，具体词汇对应短的时间尺度”，并且这个关系在洗牌后就消失或反转，说明不是偶然。然而，这篇文章的“软肋”也很明显：首先，它号称比较“人类与AI语言”，但LLM-TTS条件本身是个“四不像”——文本是LLM生成的，但语音是TTS合成的，无法干净地剥离AI在文本生成和语音合成上的各自贡献，这个比较很牵强。其次，语义代理指标的选择存在争议：WordNet深度是一个静态的、层级化的词汇特异性指标，它忽略了语境，论文自己也承认“比较粗糙”；SBERT窗口参数（100秒）的选择主观性较强，论文虽做了敏感性分析（补图10），但缺乏更系统的论证。再者，样本量很小（17人），且叙事文本的普适性存疑。最后，整篇论文更像一个方法论的“先导研究”或“概念验证”，虽然框架有趣，但离真正揭示“人类与AI语言动态差异”的终极问题还差得远，结论的推广需要非常谨慎。 ...

The Hidden Cost of Pairwise Verification in Synthetic Speech Source Tracing

📄 The Hidden Cost of Pairwise Verification in Synthetic Speech Source Tracing #语音合成 7.5/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.5/10 | 前50% | #语音合成 | #语音合成 | arxiv 👥 作者与机构作者：Anton Firc, Zbyněk Liča, Vojtěch Staněk, Kamil Malinka 机构：Security@FIT, Brno University of Technology, Czech Republic 💡 毒舌点评这篇论文的工作比较扎实，但创新性有限。它本质上是将生物识别领域中成熟的全局锚定与成对验证方法在合成语音溯源这个特定任务上进行了系统性的再验证和比较。实验控制得很严格，这点值得肯定，但结论的普适性可能受限于特定的主干网络（XLS-R）和聚合头（MHFA）。作者声称成对验证“隐藏成本”在于嵌入空间的方向性塑造，这个解释有一定洞察力，但并未提供充分的理论分析或更广泛的损失函数（如对比损失、三元组损失）验证来夯实这一论点。此外，论文对“开放集”特性的探讨稍显不足，更多是在闭集协议下的验证性能对比。最终提出的实践准则（先用全局锚定）虽然实用，但更像一个基于经验观察的建议，而非一个有理论支撑的范式。 📌 核心摘要本研究系统比较了在开放集合成语音溯源任务中，全局锚定（以分类作为代理任务）与成对验证（源自生物识别的度量学习）两种训练目标的性能差异。在严格控制主干网络、训练数据与计算预算的条件下，实验表明全局锚定在MLAAD（域内）数据集上取得了更低的等错误率（EER 8.61%）和更好的低误报率下检测率，而多种成对验证变体（包括引入难负样本挖掘与XLS-R微调）的EER仍处于12-15%区间。通过嵌入空间分析（\(k_{99}\)指标）发现，成对验证导致更严重的维度坍缩（\(k_{99}\approx13\)），但强制对全局基线施加低维瓶颈（10/13维）后性能依然具有竞争力，表明性能差距并非源于维度本身，而是目标函数对嵌入方向的筛选。在跨域STOPA数据集上，所有方法性能急剧下降且差异变小。论文最终提出一个简单的实践准则：在合成语音溯源中应优先尝试全局锚定方法。 ...

UR-BERT: Scaling Text Encoders for Massively Multilingual TTS Through Universal Romanization and Speech Token Prediction

📄 UR-BERT: Scaling Text Encoders for Massively Multilingual TTS Through Universal Romanization and Speech Token Prediction #自监督学习 #多语言 #语音合成 #低资源 8.1/10 | 创新 8/2 | 严谨 7/1.5 | 实验 9/1.5 | 清晰 8/1 | 影响 8/1.5 | 开源 7/1.5 | 复现 8/0.5 | 工程 8/1.5 🔥 8.1/10 | 前25% | #语音合成 | #自监督学习 | #多语言 #低资源 | arxiv 👥 作者与机构作者：Sangmin Lee, Eekgyun Ahn, Woongjib Choi, Hong-Goo Kang 机构：延世大学电子与电气工程系，首尔，韩国 💡 毒舌点评这篇论文选题重要，想法直白有效（用罗马化替代G2P来扩展语言覆盖面），实验量也足够撑起一个“大规模”的宣称。但细看之下，作者的论证有些“偷懒”。罗马化这个核心决策本身带来的信息损失和对齐歧义问题，他们只是轻描淡写地提了一句，完全没有深入分析。你号称覆盖495种语言（表格里写1162，正文495，数据对不上？），但对那些音系复杂的语言，比如声调语言或含有送气/非送气对立的语言，罗马化到底丢了多少关键信息？STP目标真的补回来了吗？作者没给证据。另外，所有下游微调都绑死在VITS上，UR-BERT作为一个“通用”编码器，在其他TTS架构上是否依然坚挺？这个实验没做。最让我不爽的是，缺乏一个关键的消融基线：在同样罗马化文本上，只做纯文本MLM而不加STP的BERT。没有这个对比，你STP到底贡献了多大价值，是骡子是马没法完全说清楚。实验设计整体不错，但关键的自我剖析和更严格的对照缺失了，让其“重大贡献”的宣称打了点折扣。 ...