MAGIC-TTS: Fine-Grained Controllable Speech Synthesis with Explicit Local Duration and Pause Control

📄 MAGIC-TTS: Fine-Grained Controllable Speech Synthesis with Explicit Local Duration and Pause Control #语音合成 #流匹配 #零样本 #可控合成 #流式处理 ✅ 7.0/10 | 前25% | #语音合成 | #流匹配 | #零样本 #可控合成 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Jialong Mai(华南理工大学) 通讯作者:Xiaofen Xing(华南理工大学) 作者列表:Jialong Mai(华南理工大学)、Xiaofen Xing(华南理工大学,通讯作者)、Xiangmin Xu(华南理工大学) 💡 毒舌点评 这篇论文精准地瞄准了现代TTS系统中一个被忽视但实际应用中很关键的痛点——缺乏token级别的精细时长和停顿控制,并为此设计了一套从数据准备到训练机制的系统性解决方案,实验也做得很扎实。其短板也很明显:为了获得这种控制能力,模型在无控制的“自发合成”模式下,语音识别错误率(WER/CER)有明显上升,这表明精细控制与生成自然度之间存在一个不容忽视的权衡,而且目前没有任何开源迹象。 📌 核心摘要 解决的问题:现有的文本到语音(TTS)系统通常只能提供句子级的语速或时长控制,缺乏对每个token(音素或字符)内容发音时长和停顿时长的显式、精细控制能力,这限制了需要精确节奏控制的应用场景。 方法核心:提出了MAGIC-TTS,一种基于流匹配(Flow Matching)的零样本TTS模型。其核心是在文本表示中显式注入每个token的内容时长(d_i)和停顿时长(p_i)作为条件。通过精心设计的两阶段训练(大规模时长条件预训练+高置信度时长监督微调)、零值校正(使零时长输入不产生残差)和缺失控制鲁棒性训练(随机丢弃时长条件),使模型既能可靠地遵循时长指令,又能在无时长指令时保持自然合成。 与已有方法相比新在哪里:与现有提供全局语速或风格控制的系统不同,MAGIC-TTS是首个提供显式、token级内容时长和停顿控制的TTS模型。与一些将时长作为内部中间变量的系统不同,它将时长设计为外部可直接操控的高置信度条件,而非需要隐式推断的潜在变量。 主要实验结果: 在时长控制准确性上,提供显式时长条件后,内容时长MAE从36.88ms降至10.56ms,相关性从0.588提升至0.918;停顿MAE从18.92ms降至8.32ms(详见表1)。 在局部编辑基准测试中,模型能根据指令调整局部时长,例如将目标内容时长从170ms编辑为225ms后,实现均值为207.40ms(绝对偏差17.60ms)(详见表2)。 消融实验表明,零值校正和高置信度时长监督对提升内容时长控制精度至关重要(详见表3)。 关键权衡:在无控制模式下,与同等规模持续预训练的基线相比,最终模型的英文WER从1.994升至3.434,中文CER从1.772升至2.215(详见表7)。 实际意义:为需要精确节奏控制的语音生成场景(如导航提示、引导式朗读、无障碍辅助阅读代码/验证码)提供了解决方案,能够实现可复现的均匀节奏基线,并支持局部编辑。 主要局限性:获得精细控制能力的代价是无控制模式下的合成质量(清晰度)有所下降;评估依赖于MFA强制对齐,存在测量误差;论文未提及代码和模型的开源。 🏗️ 模型架构 MAGIC-TTS建立在非自回归的零样本TTS骨干网络(F5-TTS)之上,该骨干基于条件流匹配(Conditional Flow Matching)生成梅尔频谱图。 ...

2026-04-28

Meta-Ensemble Learning with Diverse Data Splits for Improved Respiratory Sound Classification

📄 Meta-Ensemble Learning with Diverse Data Splits for Improved Respiratory Sound Classification #音频分类 #集成学习 #元学习 #数据增强 #生物声学 🔥 8.0/10 | 前25% | #音频分类 | #集成学习 | #元学习 #数据增强 | arxiv 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:June-Woo Kim (Wonkwang University, Electronic Engineering) 通讯作者:Kyunghoon Kim (Seoul National University Bundang Hospital) 作者列表: June-Woo Kim (Wonkwang University, Electronic Engineering) Miika Toikkanen (RSC LAB, MODULABS) Heejoon Koo (RSC LAB, MODULABS) Yoon Tae Kim (RSC LAB, MODULABS) Doyoung Kwon (AICU Global Inc.) Kyunghoon Kim (Seoul National University Bundang Hospital) 💡 毒舌点评 亮点在于将“数据划分多样性”这个简单思想系统性地与元学习框架结合,并在医疗音频的泛化难题上取得了扎实的验证;短板是作为核心的元模型(两层MLP)过于朴素,且整个框架高度依赖所选的基础模型(BTS),缺乏对自身架构为何有效的深入理论分析。 ...

2026-04-28

Opening the Design Space: Two Years of Performance with Intelligent Musical Instruments

📄 Opening the Design Space: Two Years of Performance with Intelligent Musical Instruments #音乐生成 #自回归模型 #少样本 #开源工具 #实时处理 ✅ 6.5/10 | 前50% | #音乐生成 | #自回归模型 | #少样本 #开源工具 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Charles Patrick Martin(澳大利亚国立大学) 通讯作者:Charles Patrick Martin(charles.martin@anu.edu.au,澳大利亚国立大学) 作者列表:Charles Patrick Martin(澳大利亚国立大学,堪培拉,ACT,澳大利亚) 💡 毒舌点评 本文最大亮点在于其“平民化”立场和扎实的艺术实践:它用15美元的硬件和艺术家自己收集的数据,证明了生成式AI可以脱离巨型实验室,成为乐手手中可玩、可折腾的“电子乐器模块”。然而,短板也同样明显:它本质上是一篇以“艺术创作”为名的系统设计报告,其核心模型(MDRNN)和硬件(树莓派)都是现成的技术,论文的创新更侧重于“如何组合与应用”而非技术突破,且所有“实验结果”都是主观的音乐表演描述,缺乏客观的性能评估与对比,学术硬度稍显不足。 📌 核心摘要 本文旨在解决生成式AI工具在音乐领域“艺术家不友好”、难以集成到现有硬件乐器与现场实践中的问题。作者提出了一个基于树莓派和MIDI通信的低成本、便携式生成式AI乐器平台(IMPSY),并采用“第一人称艺术研究”方法,通过设计、使用五款原型乐器(如Intelligent Volca, Intelligent MicroFreak等)在两年间的15场演出中进行探索。与已有方法相比,其新在于:1)强调“小型数据”与艺术家自主训练模型,而非依赖工业级大数据;2)平台设计高度依赖灵活的MIDI映射而非频繁重训练模型;3)探索了极快速的“呼叫-响应”式人机控制交替作为新的协同创作策略。主要实验结果是定性的艺术体验描述:如AI能同时控制多个合成器参数产生“非人类”音色变化(图5、7),快速控制权切换带来有趣的协作感,以及廉价硬件降低了准入门槛(表1显示最便宜的Zero 2 W启动需114秒)。实际意义是为音乐科技社区提供了一个可负担的、可扩展的AI乐器原型设计与实验工具包,推动以艺术家为中心的可持续AI音乐实践。主要局限性包括:研究基于作者单人视角,缺乏更广泛的用户研究;模型训练与迭代的长期影响未系统探讨;所有评估基于主观艺术判断,缺乏客观性能指标。 🏗️ 模型架构 图1:智能音乐乐器系统示意图。展示了平台如何连接硬件合成器:树莓派运行AI软件,通过MIDI接收人类演奏者的信号(键盘、旋钮),同时发送AI生成的MIDI信号(音符、控制变化)来控制合成器的发声与音色。 系统核心是运行在树莓派上的Python程序,其内部架构如下: AI模型:采用混合密度循环神经网络(MDRNN)。这是一个自回归的LSTM模型(通常使用2层,每层64个LSTM单元),其输出不是单一值,而是一组概率分布参数(混合高斯模型的权重、均值、方差),用于生成下一个数据点。模型输出两个值:一个表示音乐参数值(0.0-1.0),一个表示时间增量(秒)。该模型可以并行建模多个参数(1-8个),每个参数对应一个输出通道。 MIDI接口模块:负责双向通信。输入:监听来自外部乐器(键盘、控制器)的MIDI音符开/关、控制变化消息。输出:将AI生成的参数值转换为对应的MIDI消息(如将0.0-1.0映射到0-127的MIDI音高或控制值),并根据生成的时间增量调度发送。支持通过USB MIDI、串口(UART,需简单电路)、网络(OSC/WebSocket)等多种方式连接。 映射与配置引擎:这是平台灵活性的核心。用户通过Web界面配置:a) AI模型监听哪些MIDI输入(哪些通道、哪些控制号);b) AI模型的输出如何映射到MIDI输出(哪个通道、哪个控制号);c) 输入与输出之间是否存在直接的“透视”映射(即人类控制直通到设备)。这种配置无需修改代码或重新训练模型。 数据记录器:自动记录所有通过MIDI接口接收和发送的数据,保存为带时间戳的日志文件。这些日志构成了用于未来模型重训练的“小型数据集”。 Web服务器:提供配置界面、日志文件下载、新模型上传功能,便于用户在电脑浏览器中管理树莓派上的平台。 工作流程:人类操作乐器 -> MIDI信号发送到树莓派 -> 映射引擎将部分或全部信号路由给AI模型 -> AI模型根据历史序列和当前输入生成新的参数值与时间延迟 -> 映射引擎将AI输出转换为MIDI消息 -> 发送到目标乐器控制发声。整个过程强调实时性。 ...

2026-04-28

Predictive Directional Selective Fixed-Filter Active Noise Control for Moving Sources via a Convolutional Recurrent Neural Network

📄 Predictive Directional Selective Fixed-Filter Active Noise Control for Moving Sources via a Convolutional Recurrent Neural Network #声源定位 #卷积循环神经网络 #麦克风阵列 #实时处理 #信号处理 ✅ 7.5/10 | 前25% | #声源定位 | #卷积循环神经网络 | #麦克风阵列 #实时处理 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Boxiang Wang (南洋理工大学电气与电子工程学院,boxiang001@e.ntu.edu.sg) 通讯作者:Zhengding Luo (南洋理工大学电气与电子工程学院,luoz0021@e.ntu.edu.sg) 作者列表:Boxiang Wang (南洋理工大学电气与电子工程学院)、Zhengding Luo* (南洋理工大学电气与电子工程学院)、Dongyuan Shi (西北工业大学智能声学与沉浸式通信中心)、Junwei Ji (西北工业大学智能声学与沉浸式通信中心)、Xiruo Su (西北工业大学智能声学与沉浸式通信中心)、Woon-Seng Gan (南洋理工大学电气与电子工程学院) 💡 毒舌点评 这篇论文的亮点在于巧妙地将卷积循环神经网络(CRNN)的“预测”能力引入到方向选择性固定滤波器主动噪声控制(D-SFANC)框架中,通过提前选择滤波器有效解决了运动源跟踪的延迟问题,思路清晰且具有实用性。然而,论文的对比基线略显陈旧(如传统的FxLMS),且实验设置高度简化(单声源、远场假设、固定圆形轨迹),在复杂真实声场(如多声源、强混响、非规则运动)下的鲁棒性尚未得到验证,其宣称的“优越性”仍有局限。 📌 核心摘要 要解决什么问题:传统的方向选择性固定滤波器主动噪声控制(D-SFANC)方法对非平稳运动噪声源的响应存在延迟,导致降噪性能下降。 方法核心是什么:提出一种预测性方向选择性固定滤波器主动噪声控制(PD-SFANC)方法,利用卷积循环神经网络(CRNN)从多帧上下文中提取时空特征,预测下一帧噪声源的到达方向(DoA),并提前选择对应的控制滤波器,实现“主动”降噪。 与已有方法相比新在哪里:新在将CRNN的预测能力集成到SFANC框架中,变被动响应为主动选择;相比传统的自适应FxLMS算法,收敛快且无发散风险;相比无预测能力的D-SFANC,解决了滤波器切换延迟;相比依赖传统信号处理的DFG-SFANC,无需人工调参。 主要实验结果如何:在恒速和变速运动场景的仿真中,PD-SFANC的平均降噪水平(NRL)稳定在15 dB以上,优于FxLMS、D-SFANC和DFG-SFANC。CRNN在不同混响和信噪比条件下的DoA分类准确率超过87%,在20dB及以上信噪比时超过90%。 实际意义是什么:为移动设备(如吸尘器、无人机)产生的噪声提供了一种低延迟、高性能的主动降噪解决方案,其双模块架构(协处理器+实时控制器)适合在资源受限的嵌入式设备上部署。 主要局限性是什么:研究基于单声源和远场假设,未验证多声源场景;仿真实验的运动轨迹(圆形)相对简单,未测试更复杂的现实运动模式;CRNN的泛化能力在极端混响和低信噪比下有所下降。 🏗️ 模型架构 论文中的系统架构包含两个并行模块:实时控制器和协处理器。整体数据流与交互如下: ...

2026-04-28

Psychologically-Grounded Graph Modeling for Interpretable Depression Detection

📄 Psychologically-Grounded Graph Modeling for Interpretable Depression Detection #语音情感识别 #图神经网络 #数据增强 #可解释AI #临床应用 🔥 8.0/10 | 前25% | #语音情感识别 | #图神经网络 | #数据增强 #可解释AI | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Rishitej Reddy Vyalla (与Kritarth Prasad贡献相等) 通讯作者:未说明 作者列表:Rishitej Reddy Vyalla(IIIT Delhi),Kritarth Prasad(IIIT Delhi),Avinash Anand(Singapore Institute of Technology),Erik Cambria(Singapore Institute of Technology;Nanyang Technological University;ELLIS Institute Finland;University of Turku),Shaoxiong Ji(未说明),Faten S. Alamri(Princess Nourah bint Abdulrahman University),Zhengkui Wang(未说明) 💡 毒舌点评 论文的亮点在于其临床心理学理论与图神经网络建模的扎实结合,提出的“心理表达单元”和人格感知上下文为抑郁症检测提供了有临床意义的解释性框架。但其短板也很明显:数据增强的“有效性”和“安全性”高度依赖人工验证(未提供量化结果)与LLM生成质量,且声称“超越GPT-5”的结论在缺乏更严格、更多样化基准测试的情况下,说服力有待商榷。 ...

2026-04-28

RAS: a Reliability Oriented Metric for Automatic Speech Recognition

📄 RAS: a Reliability Oriented Metric for Automatic Speech Recognition #语音识别 #强化学习 #鲁棒性 ✅ 7.5/10 | 前25% | #语音识别 | #强化学习 | #鲁棒性 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Wenbin Huang (hartmann_psi@sjtu.edu.cn) 通讯作者:未明确说明(提供的邮箱中包含 kai.yu@sjtu.edu.cn,且 Kai Yu 为资深作者,可能为通讯作者) 作者列表:Wenbin Huang、Yuhang Qiu (qiuyuhang@sjtu.edu.cn)、Bohan Li、Yiwei Guo、Jing Peng、Hankun Wang、Xie Chen、Kai Yu (kai.yu@sjtu.edu.cn) 机构列表: 上海交通大学计算机科学与技术学院,X-LANCE实验室 教育部人工智能重点实验室;江苏省语言计算重点实验室 💡 毒舌点评 亮点: 问题切中要害,将“ASR可靠性”从抽象概念落地为可量化、可优化的指标(RAS)和具体模型行为(占位符输出),思路清晰且实用。 短板: 实验主要基于轻量级Whisper-Tiny模型,未探讨该框架在大规模(Large)语音模型上的表现与挑战,这使得其结论的广度和深度打了折扣,也让“可靠性提升”的上限变得模糊。 📌 核心摘要 要解决什么问题:传统自动语音识别(ASR)系统在嘈杂或模糊条件下常输出“看似自信实则错误”的转录,现有评估指标(如WER)仅衡量准确性,无法评估系统的可靠性(即何时应保持沉默)。 方法核心是什么:提出一个“放弃式转录”框架,允许模型在不确定时输出专用占位符(PH)。为此,设计了可靠性导向指标RAS,它通过动态规划平衡转录的“有用性”和“错误成本”,并通过人类偏好测试校准关键参数α。训练流程包括监督预训练(教模型识别并标记错误)和强化学习(以RAS为奖励优化策略)。 与已有方法相比新在哪里: 将“选择性预测”从实例级(整句接受/拒绝)扩展到序列的片段级。 提出了一个全新的、与人类偏好对齐的评估指标RAS,用于直接优化可靠性。 建立了结合监督学习和RL的端到端训练流程,使模型内生地具备不确定性感知和主动放弃能力。 主要实验结果如何:在LibriSpeech(干净)和TALCS(语码转换)数据集上,所提方法(Base+PH-Supv+RL)的RAS指标显著优于基线。例如在TALCS上,RAS从-0.1093提升至0.4786。在噪声环境下(SNR=0dB),RAS相比基础模型提升0.2657。消融实验证实RL阶段能进一步提升性能。主要结果对比如下: 方法 LibriSpeech RAS↑ TALCS RAS↑ Base (Whisper-Tiny) 0.8603 -0.1093 Base+Logit 0.8650 -0.0650 Base+PH-Supv+RL (Ours) 0.8811 0.4786 GT-guided (Oracle上界) 0.9031 0.3772 实际意义是什么:为ASR系统引入“知之为知之,不知为不知”的能力,减少误导性错误,提升在医疗、法律等关键领域的可用性和信任度。RAS指标为评估和优化ASR可靠性提供了新标准。 主要局限性是什么:实验主要在轻量级模型(Whisper-Tiny)上进行,未验证该框架在大规模或多语言ASR模型上的通用性。人类偏好测试的数据规模(980标注)和来源(医疗、会议)虽具代表性,但仍有扩展空间。引入占位符增加了输出复杂度,可能影响下游任务的直接使用。 🏗️ 模型架构 本文的核心并非提出一个新的端到端ASR模型架构,而是在现有ASR模型(如Whisper)之上,引入一个放弃式转录框架和相应的评估与训练方法。 ...

2026-04-28

Robust Audio-Text Retrieval via Cross-Modal Attention and Hybrid Loss

📄 Robust Audio-Text Retrieval via Cross-Modal Attention and Hybrid Loss #音频检索 #对比学习 #跨模态 #鲁棒性 ✅ 7.5/10 | 前25% | #音频检索 | #对比学习 | #跨模态 #鲁棒性 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Meizhu Liu(论文中未说明所属机构) 通讯作者:未说明 作者列表:Meizhu Liu(未说明)、Matthew Rowe(未说明)、Amit Agarwal(未说明)、Michael Avendi(未说明)、Yassi Abbasi(未说明)、Paul Li(未说明)、Hitesh Laxmichand Patel(未说明)、Kyu J. Han(未说明)、Tao Sheng(未说明)、Sujith Ravi(未说明)、Dan Roth(未说明) 注:论文作者列表中未提供任何作者的机构信息。 💡 毒舌点评 这篇论文的核心优势在于它敏锐地发现了现有音频-文本检索方法(如CLAP)在噪声、小批次训练和长音频下的“水土不服”,并通过精心设计的混合损失(L1+余弦+对比)和仅在训练时引入的跨模态注意力来系统性地解决这些问题,实验结果扎实,说服力强。短板在于其提出的每个单独模块(Transformer投影、交叉注意力、注意力池化)都不是新东西,文章更像是一篇优秀的工程优化集成,理论深度和原创性上稍显不足,且未开源代码,让“复现”停留在了纸面。 📌 核心摘要 这篇论文旨在解决现有音频-文本检索方法(如CLAP、Wav2CLIP)在处理长时、噪声、弱标签音频时性能下降,且依赖大批次训练的问题。方法核心是提出一个训练时使用、推理时弃用的跨模态嵌入优化模块(包含Transformer投影、线性映射和双向注意力),并设计了一个混合损失函数(结合余弦相似度、L1损失和对比损失)。与已有方法相比,新在:1)训练时引入细粒度跨模态交互以提升对齐质量;2)混合损失降低了对大批次的依赖,提升了噪声下的训练稳定性;3)采用静音感知分块和注意力池化来有效处理长音频。实验在Clotho、AudioCaps等基准上进行,在音频到文本和文本到音频检索任务上,其方法在多数指标(如mAP@10,Recall@K)上优于Microsoft-CLAP和LAION-CLAP。例如在AudioCaps数据集上,音频到文本检索的mAP@10达到0.486,显著高于基线。实际意义在于提升多媒体搜索、无障碍访问等场景下检索系统的实用性和鲁棒性。主要局限性包括对预训练编码器质量的依赖,在极端噪声或复杂声学环境下的性能仍需验证,以及静音分块是一种粗略启发式方法。 主要实验结果 表1:标准测试集上音频-文本检索结果(摘录关键部分) 模型 数据集 模态 R@1 R@5 R@10 mAP@10 Microsoft-CLAP AudioCaps a2t 0.381 0.697 0.814 0.319 LAION-CLAP AudioCaps a2t 0.444 0.768 0.889 0.438 Proposed (ours) AudioCaps a2t 0.451 0.793 0.905 0.486 Microsoft-CLAP AudioCaps t2a 0.289 0.630 0.770 0.432 LAION-CLAP AudioCaps t2a 0.341 0.697 0.827 0.490 Proposed (ours) AudioCaps t2a 0.352 0.715 0.844 0.521 表2:不同噪声等级下(SNR 5-15)音频到文本检索鲁棒性测试(mAP@10,摘录关键部分) ...

2026-04-28

RTCFake: Speech Deepfake Detection in Real-Time Communication

📄 RTCFake: Speech Deepfake Detection in Real-Time Communication #语音伪造检测 #一致性学习 #数据集 #实时处理 ✅ 7.0/10 | 前25% | #语音伪造检测 | #一致性学习 | #数据集 #实时处理 | arxiv 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Jun Xue(武汉大学,计算机科学与工程学院,网络空间安全专业,Key Laboratory of Aerospace Information Security and Trusted Computing, Ministry of Education) 通讯作者:Yanzhen Ren(武汉大学,计算机科学与工程学院) 作者列表:Jun Xue(武汉大学,计算机科学与工程学院)、Zhuolin Yi(武汉大学,计算机科学与工程学院)、Yihuan Huang(武汉大学,计算机科学与工程学院)、Yanzhen Ren(武汉大学,计算机科学与工程学院)、Yujie Chen(北京航空航天大学)、Cunhang Fan(安徽大学,计算机科学与技术学院)、Zicheng Su(武汉大学,计算机科学与工程学院)、Yongcheng Zhang(武汉大学,计算机科学与工程学院)、Bo Cai(武汉大学,计算机科学与工程学院) 💡 毒舌点评 亮点:论文首次系统性地指出了真实RTC传输环境对语音伪造检测的“黑盒”挑战,并针对性地构建了大规模配对数据集和基于语言学单元的训练策略,问题定义精准且工程落地意图明确。短板:所提的“音素引导一致性学习”本质上是特征对齐的损失函数改进,创新性相对有限;实验部分虽然全面,但核心方法(PCL)相比简单的混合训练(Mix)带来的提升幅度(EER从7.33%降至5.81%)并非革命性,说服力中等。 📌 核心摘要 解决的问题:现有的语音深度伪造检测研究主要针对离线场景,忽略了真实实时通信(RTC)过程中由噪声抑制、编解码、数据包丢失等黑盒处理模块引入的复杂、耦合且动态的失真,导致检测模型跨平台泛化和噪声鲁棒性差。 方法核心:提出首个针对RTC场景的大规模语音深度伪造数据集RTCFake(约600小时),并通过主流通信平台进行真实传输构建配对的离线/在线语音。基于观察到音素级表征比帧级表征在传输前后更稳定,提出了音素引导的一致性学习(PCL)策略,在训练时约束模型学习跨传输条件的音素级不变特征。 新在哪里:数据层面,首次构建了覆盖多生成模型、多RTC平台、多噪声场景的配对数据集;方法层面,首次利用语音的音素结构作为稳定锚点,引导检测模型学习领域不变的鉴别性特征,区别于以往基于帧级特征或简单数据增强的方法。 主要实验结果: 在RTCFake评估集上,提出的PCL方法取得了最佳的平均EER(5.81%),优于仅离线训练(9.60%)、仅在线训练(8.96%)和混合数据训练(7.33%)。 跨平台泛化实验表明,PCL方法在已见和未见通信平台上均显著优于基线方法,尤其在未见平台上的EER稳定且最低。 噪声鲁棒性实验证明,在多种未见噪声条件下,PCL方法的性能稳定性优于其他训练策略。 实际意义:为在真实、复杂的RTC环境中部署语音伪造检测系统提供了关键的数据基础和一种有效的建模范式,有助于提升视频会议、社交软件等场景下的语音交互安全。 主要局限性:未考虑真实世界中录音/播放硬件的异质性、用户行为多样性等终端侧变量与平台处理管线的交互影响;在极端噪声或某些平台的强非线性失真下仍存在性能差距。 🏗️ 模型架构 本文并未提出一个全新的检测模型架构,而是在已有的SOTA检测模型框架上引入了一种新的训练策略。其核心流程如下: ...

2026-04-28

Scaling Properties of Continuous Diffusion Spoken Language Models

📄 Scaling Properties of Continuous Diffusion Spoken Language Models #语音大模型 #预训练 #扩散模型 #多语言 🔥 8.0/10 | 前25% | #语音生成 | #扩散模型 | #语音大模型 #预训练 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Jason Ramapuram(†工作完成于Apple) 通讯作者:Jason Ramapuram (jason@ramapuram.net);Eeshan Gunesh Dhekane (eeshan@apple.com);Amitis Shidani (amitis_shidani@apple.com);Tatiana Likhomanenko (antares@apple.com) (论文未明确指定单一通讯作者,以上四位均列出) 作者列表: Jason Ramapuram† Eeshan Gunesh Dhekane* Amitis Shidani* Dan Busbridge Bogdan Mazoure† Zijin Gu Russ Webb Tatiana Likhomanenko⋆ Navdeep Jaitly†⋆ 所属机构:全部隶属于 Apple。⋆和†符号分别表示核心建议者和工作在Apple完成,但作者单位均标注为Apple。 💡 毒舌点评 本文严谨地证明了连续扩散语音模型同样遵循缩放定律,且在高计算预算下展现出比自回归模型更优的“效率前沿”,为语音生成范式之争提供了坚实的数据支撑。然而,最精妙的16B模型实验仍未能攻克长篇连贯性的终极难题,无情地揭示了当前范式与文本模型之间的能力鸿沟,可能预示着语音原生生成道路的艰辛。 ...

2026-04-28

Spectro-Temporal Modulation Representation Framework for Human-Imitated Speech Detection

📄 Spectro-Temporal Modulation Representation Framework for Human-Imitated Speech Detection #语音伪造检测 #时频分析 #信号处理 #生物声学 ✅ 6.5/10 | 前50% | #语音伪造检测 | #时频分析 | #信号处理 #生物声学 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 低 👥 作者与机构 第一作者:Khalid Zaman(日本先进科学技术大学院大学) 通讯作者:Masashi Unoki(日本先进科学技术大学院大学) 作者列表:Khalid Zaman(日本先进科学技术大学院大学)、Masashi Unoki(日本先进科学技术大学院大学) 💡 毒舌点评 这篇论文成功地将听觉通路的建模(从耳蜗到皮层)包装成一个“框架”,并应用于“人类模仿语音检测”这个小众但有趣的任务,达到了接近人类听众的准确率(71% vs. 70%),这是其亮点。然而,其核心“创新”很大程度上是现有特征工程(STM)和听觉模型(GTFB/GCFB)的组合应用,且实验仅在一个规模极小(100个样本)且未公开的数据集上进行,使得其结论的普适性和说服力大打折扣,这是其明显短板。 📌 核心摘要 这篇论文旨在解决人类模仿语音(由人自然发出)检测这一比检测AI合成语音更具挑战性的问题,因为模仿语音保留了高度的自然性。其核心方法是提出一种受听觉感知启发的频谱-时间调制(STM)表示框架,该框架分别使用Gammatone(GTFB)和Gammachirp(GCFB)耳蜗滤波器组提取子带信号,并通过希尔伯特变换提取包络后,再进行二维快速傅里叶变换以联合分析频谱和时间维度的调制模式。与已有方法相比,其新颖之处在于:1)系统性地应用了更符合人耳非对称特性的GCFB模型;2)引入了分段STM(Segmental-STM)以捕捉短时时变调制模式;3)将检测任务与人类听觉处理机制更紧密地对齐。主要实验结果表明,在一个包含100个样本的小型数据集上,分段STM(GCFB)特征配合Extra Trees分类器达到了71%的准确率,略高于人类听众70%的准确率,而传统的Mel频谱和音色特征表现较差。该工作的实际意义在于为语音鉴伪提供了一种基于生物启发式特征的新思路。主要局限性是实验所用数据集规模极小且未公开,限制了结果的可靠性和可复现性。 🏗️ 模型架构 本文提出的并非一个端到端的深度学习模型,而是一个基于传统信号处理和特征提取的“框架”,用于生成可分类的特征向量。其整体流程如图1所示。 输入与听觉滤波:输入语音信号首先通过一个模拟耳蜗功能的听觉滤波器组(GTFB或GCFB)。GTFB是耳蜗频率选择性的一阶近似(64通道,覆盖60Hz-7.6kHz),而GCFB在此基础上进一步模拟了随声级变化的滤波器非对称性。此步骤将宽带信号分解为多个符合临界带结构的子带信号。 包络提取:对每个子带信号,通过希尔伯特变换计算其解析信号,取模平方后经低通滤波器(截止频率64Hz)得到功率包络 e_k^2[n]。这模拟了听觉神经对子带信号的缓慢振幅变化的编码。 调制分析: 全局STM:将所有通道、所有时间点的包络组成一个二维矩阵,进行2D-FFT,取幅度谱得到 STM_GTFB 或 STM_GCFB。这捕捉了整个语音段在频谱调制(SM)和时间调制(TM)上的能量分布。 分段STM (Segmental-STM):为捕捉短时动态,将包络重采样到160Hz后,分割为1秒长、50%重叠的片段(如图2所示)。对每个片段独立进行上述2D-FFT操作,得到 STM_seg(i),并将所有片段的STM沿时间轴拼接成一个三维张量 STM_seg ∈ R^{K×M×S}。 分类:将最终得到的STM特征(展平、标准化后)输入至SVM、KNN或Extra Trees分类器,进行真假语音的二分类。 设计选择动机:整个架构的设计动机是模拟从耳蜗到听觉皮层的处理层级(图1),并利用调制域分析来捕捉对人类感知至关重要、但可能被传统频谱特征忽略的动态信息。 ...

2026-04-28