Latency-Configurable Streaming Speech Enhancement via Asymmetric Temporal Padding

📄 Latency-Configurable Streaming Speech Enhancement via Asymmetric Temporal Padding #语音增强 #流式处理 7.2/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.4/0.5 | 工程 1.2/1.5 ✅ 7.2/10 | 前50% | #语音增强 | #流式处理 | arxiv 👥 作者与机构 Yunsik Kim, Yoonyoung Chung 1 Department of Electrical Engineering, Pohang University of Science and Technology (POSTECH), Pohang 37673, Republic of Korea 2 Intus Co. Ltd., Pohang 37673, Republic of Korea ...

2026-06-19 · 更新于 2026-07-02 · 2 min · 316 words

MaineCoon: Pursuing A Real-Time Audio-Visual Social World Model

📄 MaineCoon: Pursuing A Real-Time Audio-Visual Social World Model #语音合成 #自监督学习 #多模态模型 #流式处理 5.7/10 | 创新 1.3/2 | 严谨 1/1.5 | 实验 0.6/1.5 | 清晰 0.9/1 | 影响 0.7/1.5 | 开源 0.1/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 📝 5.7/10 | 前50% | #语音合成 | #自监督学习 | #多模态模型 #流式处理 | arxiv 👥 作者与机构 未提及 💡 毒舌点评 这篇论文试图为“社交世界”下一个定义并打造第一个模型,野心不小。技术上,把22B参数的怪兽塞进单GPU跑到47.5 FPS,听起来像在炫耀工程肌肉。然而,审稿人的嗅觉告诉我,“社交交互优化”这个标签贴得有点急——你的benchmark里有“社交”吗?还是说只要能实时出视频就算社交了?那抖音特效是不是早就达标了?技术细节像走马观花,Self-resampling,ROPD,听着很酷,但具体怎么干的、干得有多好,全靠读者脑补。最要命的是,连代码、权重、数据都不开源,这“可复现性”基本是零分预定。这篇论文更像一个声势浩大的“我们开始了”的宣言,而非一个论证扎实、可供他人跟进的完整研究。 📌 核心摘要 该工作首次定义了“社交世界模型”这一研究方向,旨在生成以人类社交动态为中心的交互式音视频内容,区别于专注于物理环境或游戏世界探索的先前世界模型。为探索该方向,作者构建了MaineCoon原型,这是一个具有22B参数的首个实时音视频自回归模型。它支持实时流式生成和亚秒级交互,在单GPU上实现了高达47.5 FPS的帧率。论文声称,这是首个针对社交交互应用优化的实时音视频生成模型。为实现高效稳定的训练与推理,论文引入了多项新技术:Self-resampling、跨模态表征对齐、领域感知偏好优化以及强化在线策略蒸馏(ROPD)。同时,设计了首个智能体流式推理框架,通过智能体缓存管理和提示规划,支持千秒级甚至更长的生成并缓解漂移问题。这些创新加速了训练并优化了实时推理性能。作者认为该工作不仅为高质量、低延迟、长时域音视频自回归模型设立了新的性能基准,也指出了下一代AI原生社交平台所需的范式转变。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重获取链接。 数据集:论文中未提及。 Demo:论文中未提及。 复现材料:论文中未提及。 论文中引用的开源项目:未提及。 🏗️ 方法概述和架构 MaineCoon是一个端到端的自回归音视频生成模型,旨在实现实时交互式社交世界生成。其核心架构与训练流程可概括如下: ...

2026-06-19 · 更新于 2026-07-02 · 1 min · 137 words

Zero-VC: Zero-Lookahead Streaming Voice Conversion via Speaker Anonymization

📄 Zero-VC: Zero-Lookahead Streaming Voice Conversion via Speaker Anonymization #语音转换 #流式处理 #生成对抗网络 6.1/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 0.5/1.5 ✅ 6.1/10 | 前50% | #语音转换 | #生成对抗网络 | #流式处理 | arxiv 👥 作者与机构 Li Yudong, Fang Zihao, Qiu Junwen, Jing Ruihai, Shen Ruixiang, Wu Zhizheng. 机构:1. 香港中文大学(深圳) 2. 深圳湾区研究院 3. 深圳传音控股股份有限公司 4. Amphion Technology Co.,Ltd. ...

2026-06-19 · 更新于 2026-07-02 · 2 min · 292 words

Next-Turn: Duration-Aware Streaming Endpoint Detection via Time-to-Next-Speech-Onset Prediction

📄 Next-Turn: Duration-Aware Streaming Endpoint Detection via Time-to-Next-Speech-Onset Prediction #语音合成 #语音识别 #流式处理 #多任务学习 #自监督学习 #参数高效微调 #实时处理 7.9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ✅ 7.9/10 | 前50% | #语音合成 | #多任务学习 | #语音识别 #流式处理 | arxiv 👥 作者与机构 Tristan Tsoi, Jiajun Deng, Yingke Zhu, Huu Quyen Dang, Tianxiang Cao, Nikita Kuzmin, Tao Zhong, Simon Lui 华为中央媒体技术学院, 香港中文大学, 南洋理工大学 ...

2026-06-17 · 更新于 2026-07-02 · 3 min · 585 words

Efficiency-Performance Trade-offs in Neural Speaker Diarization via Structured Pruning and Low-Bit Quantization

📄 Efficiency-Performance Trade-offs in Neural Speaker Diarization via Structured Pruning and Low-Bit Quantization #说话人日志 #模型压缩 #流式处理 5.1/10 | 创新 0.5/2 | 严谨 0.9/1.5 | 实验 1.1/1.5 | 清晰 0.9/1 | 影响 0.5/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.4/1.5 📝 5.1/10 | 后50% | #说话人日志 | #模型压缩 | #流式处理 | arxiv 👥 作者与机构 Rishit Chatterjee, Tahiya Chowdhury Department of Computer Science, Colby College, Waterville, Maine, United States 💡 毒舌点评 这篇文章就像一份详尽的“产品规格说明书”,而不是一篇提出新思想的科研论文。它非常诚实地告诉你:“别指望剪枝或量化能让你的端到端系统跑得更快,模型小了,但整体速度几乎没变。” 这对于幻想“一键压缩加速”的工程人员来说是一盆冷水,但其价值也仅限于此。论文的贡献在于系统地验证了一个略显悲观的工程现实:在成熟的复杂流水线中,单一组件的优化(分割模型)对端到端性能的提升存在瓶颈。这种“发现”虽然实用,但缺乏学术上的兴奋点。更关键的是,所有结论都基于一个非常特定的、模拟的、仅有两个说话人的数据集(SIMSAMU)和一个固定的BiLSTM管道,其结论的普适性大打折扣。说白了,它是在一个自己搭建的、条件受限的沙盒里做了一套完整的性能测试,然后给出了一个谨慎的结论。作为顶会论文,其技术深度和影响力都显得不足。 ...

2026-06-15 · 更新于 2026-07-02 · 2 min · 317 words

Adaptive Turn-Taking for Real-time Multi-Party Voice Agents

📄 Adaptive Turn-Taking for Real-time Multi-Party Voice Agents #数据增强 #流式处理 6.7/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 6.7/10 | 后50% | #数据增强 | #数据增强 | #流式处理 | arxiv 👥 作者与机构 Soumyajit Mitra, Prabhat Pandey, Abhinav Jain, Shanmukha Sahith, K V Vijay Girish。机构:Amazon AGI, IIT Kharagpur, India。 💡 毒舌点评 这篇论文试图用“角色扮演”来解决一个语音对话中的棘手问题——“谁该说话”,想法是不错的。但它就像一个训练有素的演员,在剧本(合成数据)和特定舞台(RolePlayConv评估集)上表现完美,可一旦到了真实、混乱、没有剧本的会议(NOTSOFAR-1)或者去掉提词器(文本转录),演技就大打折扣。最致命的是,它精心设计的整套“表演”系统——从数据、评估到角色分配——大部分都是自产自销、自我验证的闭环,代码和数据集都锁在仓库里,这严重削弱了它声称的“突破性”价值。说白了,这是一篇工程上细致、实验上自洽,但在开放性和真实世界通用性上自我设限的系统论文。 📌 核心摘要 本文针对多方语音对话中轮次转换(即决定何时发言)的难题,提出了ModeratorLM。这是一个基于语音大语言模型(LLM)的角色扮演代理,其是否介入对话的行为取决于一个明确指定的角色(如“主持人”)。系统采用分块流式处理方式。作者还引入了ModeratorLM-Think变体,它在做出决策前,会结合对话上下文和指定角色进行链式思维推理。为了训练模型,他们构建了大规模合成数据集RolePlayConv。实验表明,与没有角色条件的基线模型相比,ModeratorLM-Think在轮次转换的精确率、召回率上均有大幅提升(精确率提升超40%,召回率提升超70%),并显著减少了误打断。消融实验分析了分块策略和文本转录的影响。 ...

2026-06-12 · 更新于 2026-07-02 · 2 min · 349 words

Endpoint Anticipation for Low-Latency Spoken Dialogue

📄 Endpoint Anticipation for Low-Latency Spoken Dialogue #多任务学习 #流式处理 8.2/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 8.2/10 | 前25% | #多任务学习 | #多任务学习 | #流式处理 | arxiv 👥 作者与机构 Udupa (Sathvik Udupa), Watanabe (Shinji Watanabe), Schwarz (Petr Schwarz), Cernocky (Jan Černocký)。 1 Brno University of Technology, Czechia 2 Carnegie Mellon University, United States 联系邮箱:{udupa, schwarzp, cernocky}@fit.vut.cz, shinjiw@ieee.org ...

2026-06-12 · 更新于 2026-07-02 · 2 min · 340 words

Lip Forcing: Few-Step Autoregressive Diffusion for Real-time Lip Synchronization

📄 Lip Forcing: Few-Step Autoregressive Diffusion for Real-time Lip Synchronization #自回归模型 #扩散模型 #流式处理 6.8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 6.8/10 | 前50% | #语音合成 | #自回归模型 | #扩散模型 #流式处理 | arxiv 👥 作者与机构 论文标题: Lip Forcing: Few-Step Autoregressive Diffusion for Real-time Lip Synchronization arXiv ID: 2606.11180 作者: Paul Hyunbin Cho, Jinhyuk Jang, SeokYoung Lee, Joungbin Lee, Siyoon Jin, Heeseong Shin, Jung Yi, Yunjin Park, Chulmin Park, Seungryong Kim† 机构: 1KAIST AI, 2AIPARK ...

2026-06-11 · 更新于 2026-07-02 · 3 min · 437 words

ANCHOR: Autoregressive Non-intrusive Chunk-Ordered Refinement for Joint Multi-Resolution Speech Quality Modeling

📄 ANCHOR: Autoregressive Non-intrusive Chunk-Ordered Refinement for Joint Multi-Resolution Speech Quality Modeling #语音质量评估 #自回归模型 #多任务学习 #流式处理 8/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.4/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8/10 | 前25% | #语音质量评估 | #多任务学习 | #自回归模型 #流式处理 | arxiv 👥 作者与机构 Zhuoyan Tao (University of Southern California, USA), Jiatong Shi (Carnegie Mellon University, USA), Hye-jin Shim, Shinji Watanabe ...

2026-06-10 · 更新于 2026-07-02 · 2 min · 318 words

FlashTTS: Fast Streaming TTS with MTP Acceleration and X-pred Mean Flow Distillation

📄 FlashTTS: Fast Streaming TTS with MTP Acceleration and X-pred Mean Flow Distillation #语音合成 #流式处理 7.9/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ✅ 7.9/10 | 前25% | #语音合成 | #流式处理 | arxiv 👥 作者与机构 Hanke Xie, Xiaming Ren, Dake Guo, Ruonan You, Wenhao Li, Jingbin Hu, Guobin Ma, Huakang Chen, Kejie Xu, Rui Huang, Weiguo Tan, Xianrong Wang, Lei Xi Audio, Speech and Language Processing Group (ASLP@NPU), School of Software, Northwestern Polytechnical University; Huawei Technologies Co., Ltd ...

2026-06-09 · 更新于 2026-07-02 · 2 min · 284 words