Automatic Stage Lighting Control: Is it a Rule-Driven Process or Generative Task?

📄 Automatic Stage Lighting Control: Is it a Rule-Driven Process or Generative Task? #音乐生成 #自回归模型 #端到端 #多模态模型 #生成模型 🔥 8.5/10 | 前25% | #音乐生成 | #自回归模型 | #端到端 #多模态模型 学术质量 8.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Zijian Zhao(The Hong Kong University of Science and Technology) 通讯作者:Xiaoyu Zhang(City University of Hong Kong) 作者列表:Zijian Zhao(The Hong Kong University of Science and Technology),Dian Jin(The Hong Kong Polytechnic University),Zijing Zhou(The University of Hong Kong),Xiaoyu Zhang(City University of Hong Kong) 💡 毒舌点评 亮点: 论文最具价值之处在于开创性地将“自动舞台灯光控制”从传统的分类-映射范式重新定义为端到端的生成任务,并提供了从数据集构建到模型设计、评估的完整解决方案,思路清晰,闭环完整。 短板: 模型架构的核心(Skip-BART)是对现有BART模型的适配与改进,而非全新架构设计;“生成”的概念虽新,但任务本身的复杂度和数据规模(699个样本)使其技术深度相较于文本或图像生成领域的突破性工作仍有距离。 ...

2026-05-02 · 更新于 2026-06-12 · 3 min · 454 words

Closing the Gap Between Text and Speech Understanding in LLMs

📄 Closing the Gap Between Text and Speech Understanding in LLMs #语音对话系统 #知识蒸馏 #端到端 #大语言模型 #跨模态 ✅ 7.5/10 | 前25% | #语音对话系统 | #知识蒸馏 | #端到端 #大语言模型 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Santiago Cuervo(Université de Toulon, Aix Marseille Université, CNRS, LIS;论文注释表明工作在Apple实习期间完成) 通讯作者:未明确说明 作者列表:Santiago Cuervo(Université de Toulon, Aix Marseille Université, CNRS, LIS),Skyler Seto(Apple),Maureen de Seyssel(Apple),Richard He Bai(Apple),Zijin Gu(Apple),Tatiana Likhomanenko(Apple),Navdeep Jaitly(Apple),Zakaria Aldeneh(Apple) 💡 毒舌点评 这篇论文最大的亮点是把“语音LLM为什么不如文本LLM”这个模糊问题,清晰地拆解成了“遗忘”和“跨模态错位”两个可测量的指标,并据此设计了高效的两阶段训练策略,在数据量远小于同行的情况下取得了有竞争力的结果。但不足之处也很明显:方法验证严重依赖特定的合成语音(Kokoro TTS),其生成的语音质量与自然语音的差异,以及对非英语内容、复杂领域的覆盖,可能被低估了,而这些恰恰是真实场景中的关键挑战;此外,Stage II的主动选择策略虽然有效,但提升幅度有限,且需要预先为大量文本生成语音进行“探针”测量,其实际部署的成本效益比值得商榷。 ...

2026-05-02 · 更新于 2026-06-12 · 3 min · 579 words

Deep Learning with Learnable Product-Structured Activations

📄 Deep Learning with Learnable Product-Structured Activations #端到端 #音频分类 #模型评估 #开源工具 ✅ 7.5/10 | 前25% | #音频分类 | #端到端 | #模型评估 #开源工具 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Saanjali Maharaj(University of Toronto) 通讯作者:未明确标注,根据署名顺序推断为Prasanth B. Nair(University of Toronto) 作者列表:Saanjali Maharaj(University of Toronto)、Prasanth B. Nair(University of Toronto) 💡 毒舌点评 LRNNs通过将乘积结构激活函数“可学习化”,确实为表示高阶交互提供了一个理论上优雅、实验上高效的框架,特别是在信号表示任务上超越了SIREN等知名方法。然而,其每层的计算开销(涉及大量小MLP)和内存占用(中间乘积项)不容小觑,论文对此的优化策略(如核融合)仅停留在概念层面,并未给出实际性能数据,这在实际部署时可能成为瓶颈。 🔗 开源详情 代码:论文提供了代码仓库链接:https://github.com/dacelab/lrnn。 模型权重:论文中未提及是否公开预训练模型权重。 数据集:论文中使用的图像(Cameraman, Retina, ImageNet, DIV2K, Kodak, Parrot)、音频、PDE数据集和CT数据集,未说明是否公开或如何获取。 Demo:论文中未提及在线演示。 复现材料:论文在附录B和各实验章节提供了详细的架构规格、超参数和训练流程。复现材料主要依赖这些文本描述和提供的代码仓库。 论文中引用的开源项目:PyTorch深度学习框架。 📌 核心摘要 要解决什么问题:现代神经网络受限于固定的激活函数,难以自适应地学习任务相关的表示,尤其在捕捉高阶特征交互和控制频谱偏差(如对高频信号的表示)方面存在不足。 方法核心是什么:提出深层低秩分离神经网络(LRNNs),其核心是为每个神经元设计“可学习的乘积结构激活函数”。具体地,输入先经过线性投影,然后通过多个可学习的、参数化的小型单变量函数变换,最后将这些变换结果相乘,形成一个高度灵活的非线性激活。 与已有方法相比新在哪里:与固定激活函数(ReLU, SIREN)相比,LRNN的激活函数本身是可学习的,并且其乘积结构天然擅长建模特征间的乘性/高阶交互。与同样使用可学习激活函数的KANs相比,LRNN通过结构化的乘积形式,在理论上能以更少的参数缓解维数灾难,并在实践中训练更稳定。 主要实验结果如何:在多个基准测试上达到或超越SOTA。图像表示:在1000张ImageNet图像上,LRNN-SPDER在40dB PSNR目标上达到100%成功率,远超SIREN(1.8%)和SPDER(26.4%)。音频表示:MSE比基线低3-11倍。PDE求解:误差比SIREN低两个数量级,且参数减少8倍。稀疏CT重建:PSNR(29.13 dB)和SSIM(0.7455)均为最优。 实际意义是什么:为构建更高效、表达能力更强的神经网络提供了一种新的通用构建块。在需要高精度信号表示(如医学成像、科学计算)和处理高维数据交互的任务中具有显著优势。 主要局限性是什么:计算和内存开销相对较高,特别是反向传播时需要存储大量中间乘积项;虽然提供了优化思路(如核融合、混合精度),但未给出具体实现和验证;架构的有效性高度依赖于单变量组件函数的设计(如使用周期激活函数)。 🏗️ 模型架构 LRNN是对MLP的推广,其核心是引入了“乘积结构激活函数”的神经元。 ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 326 words

DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations

📄 DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations #语音对话系统 #大语言模型 #端到端 #自回归模型 #语音合成 🔥 8.5/10 | 前25% | #语音对话系统 | #大语言模型 | #端到端 #自回归模型 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Chao-Hong Tan (未明确标注,但作者列表首名) 通讯作者:论文中未明确指定通讯作者。 作者列表:Chao-Hong Tan, Qian Chen, Wen Wang, Chong Deng, Qinglin Zhang, Luyao Cheng, Hai Yu, Xin Zhang, Xiang Lv, Tianyu Zhao, Chong Zhang, Yukun Ma, Yafeng Chen, Hui Wang, Jiaqing Liu, Xiangang Li, Jieping Ye (Tongyi Fun Team, Alibaba Group) 💡 毒舌点评 亮点:DrVoice 提出的双分辨率语音表示(DRSR)设计精巧,通过分组将输入帧率降至5Hz,大幅降低了计算成本(训练时间减少近50%),并成功缓解了语音与文本token的频率失配问题,在保持甚至超越SOTA性能的同时提升了效率。短板:模型在语音质量(UTMOS)上与最强基线(如Qwen2.5-Omni)持平,但在语音与文本对齐(ASR-WER)上仍有差距,说明其生成的语音在精确还原文本内容上还有提升空间,且全双工交互能力未实现。 ...

2026-05-02 · 更新于 2026-06-12 · 3 min · 496 words

Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

📄 Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention #语音分离 #知识蒸馏 #端到端 #音视频 #实时处理 🔥 9.0/10 | 前10% | #语音分离 | #知识蒸馏 | #端到端 #音视频 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Kai Li(清华大学计算机科学与技术系、清华大学IDG/McGovern脑科学研究院) 通讯作者:Xiaolin Hu(清华大学计算机科学与技术系、清华大学IDG/McGovern脑科学研究院、北京脑科学与类脑研究中心) 作者列表:Kai Li(清华大学计算机科学与技术系、清华大学IDG/McGovern脑科学研究院)、Kejun Gao(清华大学计算机科学与技术系)、Xiaolin Hu(清华大学计算机科学与技术系、清华大学IDG/McGovern脑科学研究院、北京脑科学与类脑研究中心) 注:Kai Li和Kejun Gao贡献均等(*标记),Xiaolin Hu为通讯作者(†标记)。 💡 毒舌点评 Dolphin的双路径视觉编码器设计和基于热扩散方程的局部注意力模块非常聪明,用极低的计算开销(MACs降低2.4倍)实现了SOTA分离性能,为AVSS的实际部署扫清了关键障碍。但其离散视觉token的设计可能丢弃了连续唇部运动中的一些细微发音线索,未来或可探索混合离散-连续表示来进一步提升。 🔗 开源详情 代码:论文中承诺在GitHub上开源代码(Apache-2.0许可证),并提供了一个Demo页面链接(https://cslikai.cn/Dolphin),但未在文中直接给出具体代码仓库URL。因此,具体链接需以论文被接收后的发布为准。 模型权重:论文中提到会公开预训练权重(“pretrained weights for the video backbone”),但未提供具体下载链接。 数据集:使用的LRS2, LRS3, VoxCeleb2为公开数据集,但需根据其出版方规定获取。论文承诺会提供预处理脚本。 Demo:提供了一个在线演示页面链接:https://cslikai.cn/Dolphin。 复现材料:提供了极其详细的复现信息,包括:conda环境规范、完整配置文件、所有超参数(附录E)、评估指标和损失函数的正式定义(附录D)、模型各组件的详细结构(附录A, B)、训练细节(附录A.3)。 引用的开源项目:论文中提到了依赖的开源工具/模型,包括:PyTorch, PyTorch Lightning, VQ实现(vector-quantize-pytorch on PyPI), AV-HuBERT(作为蒸馏教师模型)。 总体:开源意愿强烈,复现支持非常充分,是高质量开源论文的典范。论文中未提及具体的GitHub仓库链接,但根据“我们的代码和演示页面公开可访问于此链接”的表述及Demo链接,可认为代码已或即将公开。 📌 核心摘要 本文旨在解决音频-视觉语音分离(AVSS)模型计算成本过高、难以实际部署的问题。论文提出了一个名为Dolphin的高效AVSS模型。其核心创新包括:1) 设计了一个轻量级双路径视频编码器DP-LipCoder,通过向量量化(VQ)和知识蒸馏将唇部运动映射为与音频对齐的离散语义token;2) 构建了一个基于TDANet的轻量级编解码分离器,并引入全局-局部注意力(GLA)模块,在每个层内同时建模长程依赖和局部特征,从而实现单次迭代的高质量分离。与现有的SOTA方法(如IIANet)相比,Dolphin在三个基准数据集(LRS2, LRS3, VoxCeleb2)上取得了更好的分离性能(例如,在LRS2上SI-SNRi达到16.8dB,比IIANet高0.8dB),同时参数量减少超过50%,计算量(MACs)降低超过2.4倍,GPU推理速度提升超过6倍。这证明了Dolphin是一个兼顾高性能与高效率的实用解决方案。主要局限性在于模型对相对干净、同步的唇部视频有一定依赖,且在极端资源受限设备上的部署仍需进一步优化。 ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 358 words

End-to-end Listen, Look, Speak and Act

📄 End-to-end Listen, Look, Speak and Act #多模态模型 #语音对话系统 #机器人控制 #混合专家 #端到端 🔥 8.5/10 | 前25% | #语音对话系统 | #混合专家 | #多模态模型 #机器人控制 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Siyin Wang (清华大学), Wenyi Yu (清华大学) (共同第一作者) 通讯作者:Chao Zhang (清华大学) 作者列表:Siyin Wang (清华大学), Wenyi Yu (清华大学), Xianzhao Chen (字节跳动), Xiaohai Tian (字节跳动), Jun Zhang (字节跳动), Lu Lu (字节跳动), Yuxuan Wang (字节跳动), Chao Zhang (清华大学) 💡 毒舌点评 这篇论文在架构设计上确实有巧思,将全双工多模态交互与MoE范式结合,实现了首个能“听说读写做”的端到端模型,在模拟环境中的全面表现也很亮眼。但核心实验全在���真环境里打转,离真正理解“人类如何一边聊天一边倒水”还有巨大鸿沟,且其声称的“首个”全双工多模态端到端模型,在缺乏与同期所有相关工作进行系统性对比的情况下,说服力稍显不足。 ...

2026-05-02 · 更新于 2026-06-12 · 3 min · 444 words

From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training

📄 From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training #语音对话系统 #扩散模型 #语音大模型 #端到端 #预训练 ✅ 7.5/10 | 前25% | #语音对话系统 | #扩散模型 | #语音大模型 #端到端 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Tianqiao Liu(广东智慧教育研究院、好未来教育集团) 通讯作者:Xueyi Li(广东智慧教育研究院) 作者列表:Tianqiao Liu(广东智慧教育研究院、好未来教育集团)、Xueyi Li(广东智慧教育研究院)、Hao Wang(北京大学)、Haoxuan Li(北京大学)、Zhichao Chen(北京大学)、Weiqi Luo(广东智慧教育研究院)、Zitao Liu(广东智慧教育研究院) 💡 毒舌点评 亮点在于敏锐地指出了用单一自回归目标训练文本和音频模态的“结构性不匹配”,并巧妙地利用离散扩散模型的任意序自回归特性,构建了一个理论自洽的混合生成框架。短板在于,虽然模型在多个任务上超越了基线,但其性能与一些大型(7B以上)模型仍有差距,且实验部分主要依赖合成数据进行扩展,其在大规模真实交互场景中的鲁棒性和长期对话能力尚待更深入的验证。 🔗 开源详情 代码:是,提供了GitHub仓库链接:https://github.com/ai4ed/TtT。 模型权重:未提及是否公开模型检查点或权重。 数据集:论文中详细列出了训练所用数据集名称和部分规模,但未说明是否公开整合后的训练数据集或提供下载方式。 Demo:未提及在线演示。 复现材料:提供了非常详尽的训练细节(优化器、学习率、批量大小、随机策略概率等)和推理配置(扩散步数、块大小、引导尺度等),并说明了评估使用的具体ASR和LLM-as-a-Judge模型。附录包含数据格式示例。 论文中引用的开源项目:明确使用了Qwen2.5作为主干模型,并沿用了GLM-4-Voice的音频Tokenizer和Decoder设计。训练数据引用了VoiceAssistant-400K, CosyVoice2, FineWeb-Edu等。评估中使用了Whisper, Paraformer-zh, Qwen3-30B-A3B等。 📌 核心摘要 问题:现有的端到端语音对话模型(如Moshi, GLM-4-Voice)普遍采用单一自回归(AR)方法同时生成文本和音频,但这忽视了两种模态的本质依赖差异:文本生成是强目标间(target-target)依赖,而音频生成更依赖源-目标(source-target)依赖,即主要由输入文本决定。 方法核心:提出了Text-to-Talk (TtT),一个统一的音频-文本多模态大语言模型框架。其核心是将AR用于文本生成,与基于吸收离散扩散的非自回归(NAR)方法用于音频生成,整合到同一个Transformer中。文本生成遵循标准因果顺序,而音频段内的生成被建模为可以任意顺序进行(得益于扩散模型的性质),但整体仍受制于因果的跨段依赖。 创新点: 理论框架:利用吸收离散扩散模型等价于“任意序自回归模型”的理论,为混合AR-NAR训练目标提供了上界分析,证明了其合理性。 架构设计:设计了模态感知注意力机制,强制对文本使用因果注意力,而对音频段内允许双向注意力,同时保持跨段的因果依赖。 训练策略:提出了三项训练策略(批量AR/NAR混合、前缀保留掩码、随机段截断)来弥合训练时部分掩码音频与推理时完整音频之间的差异。 主要实验结果:在多个基准测试(Audio-QA, ASR, AAC, URO-Bench)上,TtT(3B参数)持续优于强大的纯AR和纯NAR基线模型。例如,在Audio-QA的LLaMAQuestions数据集上,TtT-3B得分34.68,而纯AR的Qwen2.5-3B仅得10.00;在AISHELL-2 ASR任务上,TtT-3B的WER为12.53,显著低于AR基线的54.94。与更大的模型相比,TtT在某些任务上也展现出竞争力。 实际意义:为构建更高效、更自然的端到端语音对话系统提供了一种新的架构范式,通过尊重模态差异来减少误差传播,并实现音频的并行生成,有望降低延迟。 主要局限性:当前实验主要基于3B参数的模型,其能力上限和在更复杂推理任务上的表现有待更大规模模型的验证;部分训练数据依赖TTS合成,可能引入领域偏差。 🏗️ 模型架构 TtT模型基于一个预训练的纯文本LLM(论文中使用Qwen2.5-Base)进行构建,通过扩展其词表以包含音频离散码元(来自GLM-4-Voice的音频分词器)和特殊控制符(如<SOA>、<EOA>、<EOS>)。整个框架是一个统一的Transformer编码器-解码器(在论文中记为fθ),共享一个输出头W用于在整个扩展词表V上预测logits。 ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 400 words

Hierarchical Semantic-Acoustic Modeling via Semi-Discrete Residual Representations for Expressive End-to-End Speech Synthesis

📄 Hierarchical Semantic-Acoustic Modeling via Semi-Discrete Residual Representations for Expressive End-to-End Speech Synthesis #语音合成 #自回归模型 #零样本 #扩散模型 #端到端 🔥 8.5/10 | 前25% | #语音合成 | #自回归模型 | #零样本 #扩散模型 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.6 | 置信度 高 👥 作者与机构 第一作者:Yixuan Zhou(清华大学深圳国际研究生院) 通讯作者:Zhiyong Wu(清华大学深圳国际研究生院) 作者列表:Yixuan Zhou(清华大学深圳国际研究生院)、Guoyang Zeng(ModelBest Inc.)、Xin Liu(ModelBest Inc.)、Xiang Li(清华大学深圳国际研究生院)、Renjie Yu(清华大学深圳国际研究生院)、Ziyang Wang(ModelBest Inc.)、Runchuan Ye(清华大学深圳国际研究生院)、Weiyue Sun(ModelBest Inc.)、Jiancheng Gui(ModelBest Inc.)、Kehan Li(清华大学深圳国际研究生院)、Zhiyong Wu(清华大学深圳国际研究生院,通讯作者)、Zhiyuan Liu(清华大学计算机科学与技术系) 💡 毒舌点评 论文巧妙地利用有限标量量化(FSQ)作为“强制分心”的瓶颈,逼着语言模型先管好内容和语调的大局,再把声学细节的脏活累活交给另一个模块,这种设计既有理论优雅性又有工程实用性;不过,尽管在客观指标和克隆相似度上表现亮眼,论文在主观自然度(N-MOS)上并未全面碾压IndexTTS2等强敌,暗示着“稳定”与“极致自然”之间可能还存在细微的权衡,尤其是在中文的韵律控制上可能还有提升空间。 🔗 开源详情 代码:论文明确表示“We will release code and models to support future research”,但未提供具体的代码仓库链接。附录中给出了推断代码的占位符 codes.zip。 模型权重:承诺发布,但未说明具体平台或链接。 数据集:使用了公开的Emilia数据集(9.5万小时),并提及了内部大规模双语数据集(超过100万小时,未公开)。 Demo:提供了在线演示页面链接:https://voxcpm.github.io/VoxCPM-demopage/。 复现材料:提供了非常充分的复现材料,包括:详细的模型架构参数表(附录表5)、训练阶段的学习率调度与批处理大小(附录表6)、所有消融实验的设置、硬件配置(GPU型号与数量)、以及多处关于训练技巧的说明(如WSD策略的重要性)。附录F部分包含了大量实验的细节和结果表格。 论文中引用的开源项目:主要引用了作为基线的其他TTS系统(如CosyVoice, F5-TTS等),以及预训练的语言模型MiniCPM-4。在实现上,使用了Megatron框架。 📌 核心摘要 要解决的问题:端到端语音合成中表达力(连续表示)与稳定性(离散表示)之间的根本性矛盾。离散化会损失细节,而连续建模则因任务纠缠(语义规划与声学渲染混杂)容易导致长序列上的误差累积和不稳定。 方法核心:提出一个统一的端到端框架,通过“层次化语义-声学建模”和“半离crete残差表示”来解决上述矛盾。核心是在文本语义语言模型(TSLM)和残差声学语言模型(RALM)之间插入一个可微分的有限标量量化(FSQ)瓶颈。该瓶颈自然诱导了任务分离:TSLM专注于生成稳定的语义-韵律“骨架”,RALM负责恢复被量化的细粒度声学细节。两者生成的条件信号共同指导一个基于扩散的局部Transformer解码器(LocDiT)生成最终语音。 与已有方法相比新在哪里: 新在统一框架:将显式的层次化设计(语义 vs. 声学)与残差学习结合在一个可端到端训练的统一框架内,避免了传统多阶段流水线的割裂和对外部预训练分词器的依赖。 新在瓶颈机制:不同于将量化作为预测目标,本工作将FSQ作为正则化瓶颈和归纳偏置,强制信息流进行分层,从而在保持可微性的同时实现了隐式的任务解耦。 新在训练范式:整个层次化模型(包括量化瓶颈)仅使用简单的扩散目标进行端到端训练,简化了流程并实现了协同优化。 主要实验结果: 主实验:在超过100万小时的双语数据上训练的0.5B参数模型VoxCPM,在开源模型中取得了最先进(SOTA)的零样本TTS性能。在SEED-TTS-EVAL基准上,英文WER为1.85%,中文CER为0.93%,说话人相似度(SIM)分别为72.9%(EN)和77.2%(ZH),优于CosyVoice2, IndexTTS2等模型。 关键对比数据: 模型 参数量 训练数据 英文WER↓ 英文SIM↑ 中文CER↓ 中文SIM↑ CosyVoice2 0.5B 170K hrs 3.09 65.9 1.38 75.7 IndexTTS 2 1.5B 55K hrs 2.23 70.6 1.03 76.5 VoxCPM 0.5B 1.8M hrs 1.85 72.9 0.93 77.2 消融实验:证实了FSQ瓶颈和残差声学模型(RALM)是性能关键。移除FSQ导致中文硬例句CER从18.19%飙升至24.92%;移除RALM(退化为单一连续模型)导致性能显著下降。FSQ维度选择也至关重要,256维是较优平衡点。 可视化分析:t-SNE可视化显示TSLM-FSQ输出形成与文本内容相关的语义结构,而RALM残差输出则聚类为说话人相关的声学特征,验证了隐式解耦。 实际意义:提供了一种新的、统一的端到端语音合成架构范式,证明了通过精心设计的瓶颈结构可以在连续空间中实现稳定且富有表达力的生成,无需外部离散编码器。这对于推动开源、高质量、可定制的语音合成技术具有重要意义。 主要局限性:论文中已提及和暗示的局限包括:在极致语音自然度(N-MOS)上并非所有场景都绝对领先(如中文部分测试落后于IndexTTS2);实时流式合成能力虽被提及(因果VAE、低延迟),但实验未深入展示其在长序列对话等复杂流式场景下的稳定性与表现;模型依赖大规模高质量数据(超过100万小时)以达最佳性能,其在低资源场景下的有效性未充分验证。 🏗️ 模型架构 VoxCPM是一个端到端的、自回归的层次化语音生成模型,其核心在于层次化的条件生成与半离散残差表示学习。整体架构如下图所示: ...

2026-05-02 · 更新于 2026-06-12 · 3 min · 457 words

Learnable Fractional Superlets with a Spectro-Temporal Emotion Encoder for Speech Emotion Recognition

📄 Learnable Fractional Superlets with a Spectro-Temporal Emotion Encoder for Speech Emotion Recognition #语音情感识别 #时频分析 #端到端 #音频分类 ✅ 7.5/10 | 前25% | #语音情感识别 | #时频分析 | #端到端 #音频分类 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Alaa Nfissi (Concordia University, Concordia Institute for Information Systems Engineering; Université TÉLUQ, Data Science Laboratory (DOT-Lab)) 通讯作者:Brian L. Mishara (University of Québec at Montréal, Psychology Department; Center for Research and Intervention on Suicide, Ethical Issues and End-of-Life Practices)(根据作者列表顺序及机构性质推断) 作者列表:Alaa Nfissi(Concordia University, Université TÉLUQ)、Wassim Bouachir(Université TÉLUQ, Data Science Laboratory (DOT-Lab))、Nizar Bouguila(Concordia University, Concordia Institute for Information Systems Engineering)、Brian L. Mishara(University of Québec at Montréal, Psychology Department; Center for Research and Intervention on Suicide, Ethical Issues and End-of-Life Practices) 💡 毒舌点评 这篇论文将经典的信号处理理论(Superlet)与现代可微学习框架结合得堪称教科书级别,数学推导和实验设计都非常严谨扎实,特别是那张展示学习到的分数阶分布与频率关系的可视化图(图5)非常直观地展示了模型的“可解释性”。但其短板在于,以“紧凑”为名的STEE编码器在搭配LFST前端后,实际计算开销(FLOPs、延迟、显存)远高于STFT、LEAF等基线(见附录表5),这使得“高效”二字在实时或资源受限场景下需要打上问号,论文在“效率-性能”权衡的讨论上稍显不足。 ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 329 words

MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction

📄 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction #语音对话系统 #多模态模型 #端到端 #流式处理 #强化学习 🔥 8.5/10 | 前25% | #语音对话系统 | #端到端 | #多模态模型 #流式处理 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文作者列表未明确标注) 通讯作者:未说明(论文中未明确标注) 作者列表:Junbo Cui, Bokai Xu, Chongyi Wang, Tianyu Yu, Weiyue Sun, Yingjing Xu, Tianran Wang, Zhihui He, Wenshuo Ma, Tianchi Cai, Jiancheng Gui, Luoyuan Zhang, Xian Sun, Fuwei Huang, Moye Chen, Zhuo Lin, Hanyu Liu, Qingxin Gui, Qingzhe Han, Yuyang Wen, Huiping Liu, Rongkang Wang, Yaqi Zhang, Hongliang Wei, Chi Chen, You Li, Kechen Fang, Jie Zhou, Yuxuan Li, Guoyang Zeng, Chaojun Xiao, Yankai Lin, Xu Han, Maosong Sun, Zhiyuan Liu, Yuan Yao 机构列表:MiniCPM-o Team, OpenBMB(根据署名推断) 💡 毒舌点评 这篇论文真正瞄准了多模态交互范式的“圣杯”——实时全双工,其技术方案完整度和边缘部署效率令人印象深刻,是该方向的一个坚实里程碑。不过,论文对全双工交互的“主动性”和“鲁棒性”的评估相对薄弱,更像是一个高效的技术原型,离真正“类人”的复杂场景交互还有相当距离。 ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 406 words