论文速递 | 语音/音乐/音频论文速递

Bridging the SEA Gap: An Initial Benchmark for Neural Audio Codec-Synthesized Speech Deepfakes in South-East Asian Languages

📄 Bridging the SEA Gap: An Initial Benchmark for Neural Audio Codec-Synthesized Speech Deepfakes in South-East Asian Languages #语音合成 #语音识别 #多模态模型 #低资源 8.2/10 | 创新 1.3/2 | 严谨 1/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 🔥 8.2/10 | 前25% | #语音合成 | #语音识别 | #多模态模型 #低资源 | arxiv 👥 作者与机构论文作者为 Orchid Chetia Phukan (IIIT-Delhi, 通讯作者), Girish (IIIT-Delhi, UPES), Mohd Mujtaba Akhtar (IIIT-Delhi, VBSPU), Arun Balaji Buduru (IIIT-Delhi)。所属机构为印度信息技术学院德里分校（IIIT-Delhi）、UPES 和 VBSPU。 ...

Bridging the Usability Gap: Lessons from Interpreting Studies for Machine Interpreting Design

📄 Bridging the Usability Gap: Lessons from Interpreting Studies for Machine Interpreting Design #语音翻译 7.1/10 | 创新 1.8/2 | 严谨 1.3/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7.1/10 | 前50% | #语音翻译 | #语音翻译 | arxiv 👥 作者与机构 Claudio Fantinuoli， University of Mainz 💡 毒舌点评一篇“务虚”的理论檄文，向当前机器口译（MI）领域唯“准确度”马首是瞻的风气开炮。作者作为口译圈内人，痛斥工程师们把活生生的交流场景塞进BLEU和WER的罐头里，得出“准确度错觉”这个刺眼结论。文章框架清晰，从定义MI，到指出其缺失的五项人类译员特质，再到提出“代理性-接地性-经验”三支柱设计哲学，逻辑链条完整。然而，通篇高屋建瓴，却无一处实验数据、一个消融研究、一条开源代码来支撑其宏大的设计蓝图。这就像一位将军画出了完美的战略地图，却没给一兵一卒和粮草清单。其价值在于为社区敲响警钟并指明方向，但工程价值约等于零——毕竟，从“设计优先级”到“可运行的系统”之间，还隔着无数需要具体算法和实验填平的鸿沟。 📌 核心摘要本文指出，当前机器口译（MI）系统存在“准确度错觉”：在标准测试中表现优异，但在支持实时、目标导向的交互方面体验远差于人类口译员。作者认为，MI应被定义为一个独立的子领域，其核心特征是即时性和交互嵌入性，并应以沟通有效性而非文本相似性来评估。通过回顾口译研究，论文识别出当前系统忽略的五项人类口译关键特征：作为意义保持的忠实性、实时条件下的流畅性、操作灵活性、情境感知和文化适应以及错误管理。基于此，论文提出了三个相互依存的人机交互启发设计优先级：1）代理性（上下文敏感的主动性和修复）；2）接地性（多模态和话语层面的情境意识）；3）经验（通过真实交互进行适应性改进）。这三个优先级为未来MI系统指明了缩小可用性差距、实现实时多语言沟通的路径。 🔗 开源详情代码：未提供模型权重：未提供数据集：未提供 Demo：未提供复现材料：未提供论文中引用的开源项目：提到了多个现有研究作为设计思路参考，但未提供可直接链接使用的项目。 🏗️ 方法概述和架构本文并非提出一个具体的算法或模型架构，而是构建了一个高阶的、概念性的系统设计框架。其“方法”本质上是论证与综合的过程： ...

Closed-Loop Triplet Synergistic Generation for Long-Form Video

📄 Closed-Loop Triplet Synergistic Generation for Long-Form Video 5.5/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 0.5/1.5 📝 5.5/10 | 前50% | arxiv 👥 作者与机构论文作者：Xinlei Yin (中国科学技术大学)，Xiulian Peng (微软亚洲研究院)，Xiao Li (微软亚洲研究院)，Zhiwei Xiong (中国科学技术大学)，Yan Lu (微软亚洲研究院)。机构为中国科学技术大学和微软亚洲研究院。 💡 毒舌点评这篇论文像一位精心编排的导演，试图用“闭环协同”这个时髦概念来解决长视频生成中老大难的一致性问题。想法不错，但实现和评估上存在几个明显的“穿帮镜头”。首先，作者声称是“智能体框架”，但核心部件（VLM分析器、图像生成器）严重依赖OpenAI等公司的闭源黑盒模型（GPT-Image-1.5, o3, GPT-5），这让“智能体”的自主性和可复现性大打折扣，本质上是在用昂贵的API调用模拟一个系统。其次，虽然提出了StoryBench基准，但规模（30个故事）和评估方式（依赖另一个闭源VLM o3打分）都显得单薄，容易引发对结论普适性和客观性的质疑。更关键的是，论文几乎完全没有讨论其方法的局限性、计算成本、失败案例或对特定叙事类型的泛化能力，这种“报喜不报忧”的作风在顶级会议上通常不会被宽容。简单说，它展示了一个在特定条件下可能work的pipeline，但离成为一个robust、可复用的基础方法还有距离，且其“贡献”中相当一部分被锁在了商业公司的闭源墙后。 📌 核心摘要本文针对多镜头长视频生成中因顺序执行而导致的身份漂移和不一致性累积问题，提出了CoTriSyGen框架。该框架将生成过程建模为“视觉-文本-记忆”三元组的闭环协同，引入一个基于视觉语言模型（VLM）的分析器智能体进行持续推理和修正。其核心是一个以实体为中心的动态记忆库，它不仅存储静态参考图像，还作为可演化的视觉状态库，通过链接（base_entity）跟踪角色换装、视角变化等状态演进。协同精炼通过两条路径进行：1）镜头内精炼：在关键帧生成后，分析器评估其是否符合记忆和提示，触发重生成或调整视频动作提示以匹配已实现的视觉布局；2）镜头间精炼：在视频片段生成后，分析器从视频中提取新出现或演化的实体状态更新记忆，并改写下一镜头的提示，以传播视觉证据。作者还策划了StoryBench基准（包含角色换装和延迟出场等挑战），实验证明该方法在跨镜头一致性、提示遵循度和叙事流畅性上优于基线。 🔗 开源详情代码：论文中未提及任何代码仓库或开源地址。模型权重：论文中未开源任何模型权重。其框架依赖于闭源模型GPT-Image-1.5, OpenAI o3, GPT-5以及开源模型Wan2.2-I2V-A14B。数据集：论文中策划了StoryBench基准，但未提供下载链接、开放地址或开源协议。 Demo：论文中未提及演示链接。复现材料：论文提供了详尽的提示词工程细节（附录8.2.2），但未提供训练配置、故事脚本完整列表、生成中间结果等复现所需材料。 🏗️ 方法概述和架构 CoTriSyGen框架旨在通过闭环反馈克服多镜头视频生成中的开环问题，其整体架构包含四个核心模块：故事规划器（Story Planner）、记忆库（Memory Bank）、生成器（Generator）和分析器（Analyzer）。流程始于规划器（使用GPT-5）将故事拆分为一系列镜头的初始文本提示\((q_t^0, m_t^0)\)，分别对应关键帧描述和视频动作描述。 ...

Confidence Score Guided Incremental and Speaker Adaptive Pseudo-Labeling for Semi-Supervised Elderly Speech Recognition

📄 Confidence Score Guided Incremental and Speaker Adaptive Pseudo-Labeling for Semi-Supervised Elderly Speech Recognition #语音识别 #参数高效微调 #低资源 #数据增强 #课程学习 7.2/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.2/10 | 前50% | #语音识别 | #参数高效微调 | #低资源 #数据增强 | arxiv 👥 作者与机构作者：Chengxi Deng, Xurong Xie, Shujie Hu, Jiajun Deng, Mengzhe Geng, Youjun Chen, Huimeng Wang, Haoning Xu, Guinan Li, Xunying Liu。机构：1. 香港中文大学；2. 中国科学院软件研究所；3. 加拿大国家研究委员会。 ...

Connecting Speech to Words through Images

📄 Connecting Speech to Words through Images #无监督学习 7.1/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.1/10 | 前50% | #无监督学习 | #无监督学习 | arxiv 👥 作者与机构作者：Gabriel Pirlogeanu, Dan Oneata, Horia Cucu, Herman Kamper。论文未明确标注作者所属机构。 💡 毒舌点评这论文干的活儿挺有意思，想在没有文字转录的情况下，靠看图说话就把语音和单词对上号。想法挺巧，但就像给一个没有标签的拼图找对应块，全靠“看着像”。用三个图像字幕模型取交集来造词汇表，这招有点“人多力量大”但“众口铄金”的意思，虽然能提高准确率，但也可能把一些真有用但只被一个模型认出来的词给过滤掉了。实验做得很规矩，消融研究也到位，把字幕系统组合的影响分析得挺清楚。不过，这方法的天花板肉眼可见——完全依赖图像描述的质量。如果描述本身和语音对不上，或者像“box”和“ring”这种老是同时出现，系统就懵了。作者自己也承认这是大问题，但解决方案似乎得指望更牛的字幕模型或者更聪明的上下文利用。总的来说，是篇扎实的工作，为无监督跨模态连接开了个好头，但离真正的实用还有距离，特别是在真实世界的嘈杂环境里。 📌 核心摘要本文提出一种无监督方法，旨在解决在没有文本转录的情况下，如何将书面词与语音片段关联起来的问题。该方法的核心思想是利用图像作为视觉锚点，通过图像字幕生成文本伪标签，再借助无监督词发现技术进行语音对齐。具体流程分为两步：第一步是词汇构建，使用三个预训练的图像字幕模型（Tag2Text, BLIP-2, GIT）为数据集中的图像生成描述，通过词形还原和取模型输出的交集，得到一个与视觉概念强相关的、频率最高的100个词的词汇表。第二步是关键词定位，对于词汇表中的每个目标词，首先筛选出所有图像字幕包含该词的语音-图像对。然后，针对筛选出的语音片段，利用无监督对齐技术（本文提出离散特征对齐DFA和连续特征对齐CFA两种变体）进行两两对齐。最后，采用“区间堆叠”技术聚合所有对齐结果，得分最高的连续区域被预测为目标词的语音片段。整个过程仅使用图像和语音数据，无需任何文本监督。在MIT Places Audio Captions数据集上的实验表明，所提方法在关键词定位和检索任务上均优于一个更新的神经网络基线（Attention CNN），其中CFA变体在更严格的定位指标（IoU=0.75）上取得最佳性能。消融研究证实，使用多个图像字幕系统的交集能有效提升字幕精度，进而改善下游定位性能。本文的工作为在无转录场景下（如低资源语言）建立语音到书面语的关联提供了可行路径。 🔗 开源详情代码：论文中未提供官方代码仓库链接。模型权重：论文中未提供其方法生成的模型权重。但使用了外部预训练模型（如HuBERT），其链接为：https://huggingface.co/facebook/hubert-base-ls960。数据集：论文使用了MIT Places Audio Captions数据集。该数据集可通过以下官方链接获取：https://places.csail.mit.edu/download.html。 Demo：论文中未提及。复现材料：论文中未提及。 🏗️ 方法概述和架构本文方法的核心目标是：给定一个“图像-语音对”数据集，自动发现语音片段与书面词的对应关系。方法架构如图1所示，整体流程可分解为词汇构建和关键词定位两个级联的步骤，后者是核心创新。 ...

CraBERT: Efficient Phoneme Encoder Pre-Training via Cascade Fusion of Subword Representations for Text-to-Speech

📄 CraBERT: Efficient Phoneme Encoder Pre-Training via Cascade Fusion of Subword Representations for Text-to-Speech #自监督学习 #低资源 #数据增强 #模型压缩 7.5/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7.5/10 | 前50% | #语音合成 | #自监督学习 | #低资源 #数据增强 | arxiv 👥 作者与机构论文作者：Dong Yang, Yuki Saito, Wataru Nakata, and Hiroshi Saruwatari。所属机构：The University of Tokyo, Japan。 ...

Data-Driven Decoding of Russell's Circumplex Model of Affect

📄 Data-Driven Decoding of Russell's Circumplex Model of Affect #语音情感识别 7.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.2/10 | 前50% | #语音情感识别 | #语音情感识别 | arxiv 👥 作者与机构 Amdjed Belaref1 2, Samir Sadok3, Zineb Noumir1, and Renaud Seguier2 1 Alten, France, 2 CentraleSupélec IETR UMR CNRS 6164, France 3 Inria at Univ. Grenoble Alpes, CNRS, LJK, France ...

DDPO-VC: Speaker De-Identification via Diffusion Denoising Policy Optimization

📄 DDPO-VC: Speaker De-Identification via Diffusion Denoising Policy Optimization #语音转换 #扩散模型 #强化学习 6.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 6.5/10 | 前50% | #语音转换 | #强化学习 | #扩散模型 | arxiv 👥 作者与机构作者：Liming Wang, Cody Karjadi, Rhoda Au, James Glass 机构：MIT CSAIL；波士顿大学阿尔茨海默病中心 💡 毒舌点评动机有点“既要又要”的浪漫主义——既要脱敏又要保真，尤其是在医疗数据上，这本身就是个两难困境。论文提出的RL方法算是条务实的路子，但离“通用解”还差得远。实验设计还算扎实，和一堆主流方法（KNN-VC, LinearVC, TriAAN-VC, VEVO, FACodec, VALL-E）都比了，数据集也选了公认的ADReSS和FHS gold 92。但结果嘛，只能说赢了一部分，离“显著优于所有基线”还有距离，特别是在FHS gold 92的零样本设定上。消融实验做了几项，聊胜于无。但关键的点，比如“可训练奖励教师”为什么在更嘈杂数据上会让零样本AUC下降？作者给出的解释（分布偏移）有点轻描淡写，这问题值得深挖。自然度（UTMOS）和认知效用（AUC）经常不一致这个发现很有意思，点出了当前评估体系的盲点。但论文没进一步给出一个更好的综合评估指标，只是提了个醒。开源态度不错，给了代码和Demo。但模型权重、训练好的教师模型、完整数据集预处理脚本都没给，想完美复现还是得自己折腾，减分。 📌 核心摘要本文针对说话人去识别任务中隐私保护与下游任务效用（特别是认知健康评估）难以兼顾的挑战，提出了一种基于扩散模型（DDPM）与强化学习后训练（DDPO）的框架DDPO-VC。该方法无需对隐私与效用变量做解耦假设，而是通过组合来自隐私教师（说话人验证器）和效用教师（痴呆分类器）的奖励信号，直接优化扩散模型以生成既“匿名”又“保真”的语音。在ADReSS和FHS gold 92两个痴呆语音数据集上的实验表明，DDPO-VC在零样本和微调设定下的认知效用（AUC）和隐私保护（EER）上均能取得有竞争力的结果，并通过消融实验分析了教师类型、后训练技术（DDPO vs DPO）和奖励权重的影响。 ...

Decoding while Adapting: Zero-Shot Online Speaker Adaptation via Audio-Textual Prompts for Elderly Speech Recognition

📄 Decoding while Adapting: Zero-Shot Online Speaker Adaptation via Audio-Textual Prompts for Elderly Speech Recognition #语音识别 #提示学习 #低资源 #参数高效微调 6.8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.8/10 | 前50% | #语音识别 | #提示学习 | #低资源 #参数高效微调 | arxiv 👥 作者与机构作者列表（按论文顺序）： Chengxi Deng, Xurong Xie, Shujie Hu, Mengzhe Geng, Tianzi Wang, Youjun Chen, Huimeng Wang, Haoning Xu, Jiajun Deng, Xunying Liu 机构： ...

Dual-Granularity Orthogonal Disentanglement for Generalizable Audio Deepfake Detection

📄 Dual-Granularity Orthogonal Disentanglement for Generalizable Audio Deepfake Detection #课程学习 7.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7.2/10 | 前50% | #课程学习 | #课程学习 | arxiv 👥 作者与机构作者: Zhuodong Liu, Hugen Lv, Xiangyu Li, Chunhong Yuan 机构: 1 北京交通大学, 中国; 2 上海交通大学, 中国; 3 ITMO University, 俄罗斯邮箱: 22711104@bjtu.edu.cn, 23722056@bjtu.edu.cn, xiangyuli@sjtu.edu.cn, 521031@niuitmo.ru 💡 毒舌点评这篇论文像一份精心包装的“轻量级”方案，试图用两个损失项和一个学习率调度器来解决音频深度伪造检测中的一个核心难题——身份泄漏。优点是问题定义明确，框架相对简洁，且在跨数据集评估中确实比简单的梯度反转（GRL）要好。但审稿人必须指出：1）其所谓的“双粒度”正交性（余弦相似度和交叉协方差）在数学上并非完全独立，存在一定的概念重叠；2）核心贡献“避免辅助网络或对抗训练”的优势在论文中被过度强调，因为相关领域（如ALDEN, Beyond Identity）已经展示了更复杂但可能更强大的解耦方法，而本文并未在同等条件下（如相同数据增强、相同评估协议）与这些最前沿方法进行公平、直接的数值对比，只是以“不直接可比”为由简单带过；3）论文声称的“参数效率”（与300M+参数的SSL模型相比）虽然属实，但这种对比本身有些取巧，因为SSL模型的目标和泛化能力通常更广，而本文的模型是高度特化的；4）实验仅在有限的几个数据集和一种训练-测试划分（训练于ASV21-DF，测试于ITW）上验证了跨数据集泛化，对于真实世界中千变万化的合成器类型和录音条件，其泛化边界并未得到充分探索。总体而言，这是一篇扎实的工作，但离顶会要求的“突破性”或“系统性”仍有距离。 ...