MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction

📄 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction #语音对话系统 #多模态模型 #端到端 #流式处理 #强化学习 🔥 8.5/10 | 前25% | #语音对话系统 | #端到端 | #多模态模型 #流式处理 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文作者列表未明确标注) 通讯作者:未说明(论文中未明确标注) 作者列表:Junbo Cui, Bokai Xu, Chongyi Wang, Tianyu Yu, Weiyue Sun, Yingjing Xu, Tianran Wang, Zhihui He, Wenshuo Ma, Tianchi Cai, Jiancheng Gui, Luoyuan Zhang, Xian Sun, Fuwei Huang, Moye Chen, Zhuo Lin, Hanyu Liu, Qingxin Gui, Qingzhe Han, Yuyang Wen, Huiping Liu, Rongkang Wang, Yaqi Zhang, Hongliang Wei, Chi Chen, You Li, Kechen Fang, Jie Zhou, Yuxuan Li, Guoyang Zeng, Chaojun Xiao, Yankai Lin, Xu Han, Maosong Sun, Zhiyuan Liu, Yuan Yao 机构列表:MiniCPM-o Team, OpenBMB(根据署名推断) 💡 毒舌点评 这篇论文真正瞄准了多模态交互范式的“圣杯”——实时全双工,其技术方案完整度和边缘部署效率令人印象深刻,是该方向的一个坚实里程碑。不过,论文对全双工交互的“主动性”和“鲁棒性”的评估相对薄弱,更像是一个高效的技术原型,离真正“类人”的复杂场景交互还有相当距离。 ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 406 words

STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models

📄 STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models #语音大模型 #自回归模型 #语音对话系统 #流式处理 ✅ 7.5/10 | 前25% | #语音对话系统 | #自回归模型 | #语音大模型 #流式处理 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Cheng-Han Chiang(台湾大学;微软) 通讯作者:Xiaofei Wang(微软) 作者列表: Cheng-Han Chiang (台湾大学, 微软), Xiaofei Wang (微软), Linjie Li (微软), Chung-Ching Lin (微软), Kevin Lin (微软), Shujie Liu (微软), Zhendong Wang (微软), Zhengyuan Yang (微软), Hung-yi Lee (台湾大学), Lijuan Wang (微软) 💡 毒舌点评 这篇论文巧妙地利用“音频播放时间”来“偷”时间进行内部推理,为语音大模型引入“边想边说”能力,解决了传统“先想后说”带来的延迟问题,思路很工程化且有效。但论文的“突破性”有限,核心是将文本CoT技术适配到特定语音模型架构(GLM-4-Voice)的生成流程上,并非提出全新的模型范式;同时,实验主要局限于英语数学问答,对多语言、复杂对话场景的验证有待加强。 ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 319 words

Towards True Speech-to-Speech Models Without Text Guidance

📄 Towards True Speech-to-Speech Models Without Text Guidance #语音对话系统 #大语言模型 #端到端 #预训练 #流式处理 🔥 9.1/10 | 前10% | #语音对话系统 | #大语言模型 #端到端 | #大语言模型 #端到端 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Xingjian Zhao (Fudan University, MOSI.AI) 通讯作者:Xipeng Qiu (Fudan University, Shanghai Innovation Institute) 作者列表:Xingjian Zhao (Fudan University, MOSI.AI)、Zhe Xu (Fudan University, Shanghai Innovation Institute, MOSI.AI)、Luozhijie Jin (Fudan University, Shanghai Innovation Institute, MOSI.AI)、Yang Wang (Fudan University, MOSI.AI)、Hanfu Chen (Fudan University, MOSI.AI)、Yaozhou Jiang (Fudan University, MOSI.AI)、Ke Chen (Fudan University, Shanghai Innovation Institute, MOSI.AI)、Ruixiao Li (Fudan University, Shanghai Innovation Institute, MOSI.AI)、Mingshu Chen (Fudan University, MOSI.AI)、Ruiming Wang (Fudan University, MOSI.AI)、Wenbo Zhang (Fudan University, Shanghai Innovation Institute, MOSI.AI)、Qinyuan Cheng (Fudan University, MOSI.AI)、Zhaoye Fei (Fudan University, MOSI.AI)、Shimin Li (MOSI.AI)、Xipeng Qiu (Fudan University, Shanghai Innovation Institute) 机构:复旦大学、上海创新研究院、MOSI.AI。 💡 毒舌点评 这篇工作真正意义上逼近了“无文本指导”的语音大模型愿景,其“模态分层”设计从隐藏状态相似性分析中获得灵感,是工程直觉与理论分析的漂亮结合。然而,其高质量合成数据的依赖(特别是助理端语音)和庞大的模型参数量,可能使其在“真实性”和部署门槛上面临现实挑战,离真正廉价、通用的语音交互还有一步之遥。 ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 368 words

TVTSyn: Content-Synchronous Time-Varying Timbre for Streaming Voice Conversion and Anonymization

📄 TVTSyn: Content-Synchronous Time-Varying Timbre for Streaming Voice Conversion and Anonymization #语音转换 #语音匿名化 #自监督学习 #端到端 #流式处理 ✅ 7.5/10 | 前25% | #语音转换 | #端到端 | #语音匿名化 #自监督学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Waris Quamer (德克萨斯A&M大学计算机科学与工程系) 通讯作者:未说明 作者列表:Waris Quamer (德克萨斯A&M大学计算机科学与工程系)、Mu-Ruei Tseng (德克萨斯A&M大学计算机科学与工程系)、Ghady Nasrallah (德克萨斯A&M大学计算机科学与工程系)、Ricardo Gutierrez-Osuna (德克萨斯A&M大学计算机科学与工程系) 💡 毒舌点评 亮点:论文一针见血地指出了流式语音转换/匿名化系统中“静态说话人嵌入 vs 动态内容嵌入”这一核心矛盾,并为此设计了一个逻辑自洽、模块化的优雅解决方案(TVT表示),将说话人条件也“动态化”。 短板:虽然方法新颖,但其“内容同步时变音色”的精细控制(如选择性屏蔽情绪而保留性别特征)尚停留在愿景层面,未在实验中验证;此外,论文的实证主要局限于英文和特定数据集,对于该方法在复杂多语言、多说话人交互场景下的泛化能力缺乏探讨。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开的预训练模型权重。 数据集:使用了公开数据集LibriTTS, LibriSpeech, VoxCeleb等,但论文中未提供其处理脚本或专用数据集。 Demo:提供了音频样例演示页面链接:https://anonymized0826.github.io/TVTSyn/ 复现材料:论文附录提供了非常详细的架构配置(表5)和流式实现细节(表6),包括超参数、模块尺寸、缓存机制等,为复现提供了重要信息。但未提供训练脚本、配置文件或检查点。 引用的开源项目:依赖的开源项目包括SpeechBrain(用于预训练说话人编码器)和fairseq(用于HuBERT模型获取伪标签)。 总体:论文中未提及完整的开源计划,尽管提供了详尽的架构细节和音频样例,但缺乏核心代码和模型,可复现性受限。 📌 核心摘要 解决的问题:当前的实时语音转换(VC)和说话人匿名化(SA)系统存在核心的表征失配问题:语言内容是时变的序列,而说话人身份通常作为静态的全局向量注入。这种动态-静态失配会导致合成语音音色过度平滑、表现力下降,并影响匿名化效果与语音自然度之间的平衡。 方法核心:提出了TVTSyn,一个端到端的流式语音合成器。其核心是引入了内容同步的时变音色(TVT)表示:通过一个全局音色记忆(GTM) 将全局说话人嵌入扩展为多个紧凑的“音色面”;帧级内容特征通过注意力机制检索相关的音色面;一个学习的门控调节音色变化的程度;并通过球面线性插值(Slerp) 在全局和时变路径之间平滑过渡,以保持身份几何结构。此外,采用分解向量量化(VQ)瓶颈来正则化内容网络,减少残余说话人信息泄漏。 与已有方法的创新点: 表示创新:首次在流式VC/SA中提出让说话人条件与内容在时间粒度上对齐,从根本上解决动态-静态失配问题。 架构创新:设计了完全因果、低延迟的流式架构(GPU延迟<80ms),集成了GTM、VQ瓶颈和音高/能量预测器,实现了自然度、说话人保真度和匿名化强度之间的平衡。 全面评估:在VC和SA任务上,针对感知质量、说话人相似度、隐私(EER)、效用(WER)和实时性能进行了全面基准测试和消融研究。 主要实验结果:在VC任务上,TVTSyn在人类听测中获得了最高MOS(3.82)和说话人可验证率(74.33%)。在SA任务上(遵循VPC‘24协议),TVTSyn在保持高可懂度(WER=5.35%,优于所有流式基线)的同时,取得了有竞争力的匿名化效果(EER-lazy: 47.55%)。消融实验显示,移除TVT或VQ会显著降低合成自然度(MOS从3.91降至3.42-3.45)。流式性能方面,TVTSyn在GPU上延迟约79ms,实时因子(RTF)为0.308,满足实时要求。 实际意义:该工作为需要实时、低延迟的语音隐私保护(如安全通信、匿名会议)和高表现力语音转换(如配音、个性化合成)场景提供了一个可扩展的解决方案,展示了在严格延迟预算下实现隐私-效用更好平衡的可能性。 主要局限性:1)论文展望了更精细的、可控的匿名化(如选择性屏蔽情绪但保留性别��,但未进行实验验证。2)主要实验在英文数据集上进行,对多语言和跨语言场景的适用性未被探讨。3)在匿名化任务中使用了固定的28个伪说话人,未来可结合生成模型进行更丰富的伪说话人生成。 🏗️ 模型架构 TVTSyn是一个端到端的流式语音转换/匿名化系统,包含四个核心模块(见图1): ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 396 words

语音/音乐/音频论文速递 2026-05-02

语音/音乐/音频论文速递 2026-05-02 共分析 4 篇论文 ⚡ 今日概览 📥 抓取 4 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音对话系统 1篇 █ #语音合成 1篇 █ #基准测试 1篇 █ #语音识别 1篇 █ 📊 论文评分排行榜(4 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal 8.5分 前25% #语音对话系统 🥈 JaiTTS: A Thai Voice Cloning Model 8.0分 前25% #语音合成 🥉 InteractWeb-Bench: Can Multimodal Agent Escape Blind Ex 7.5分 前25% #基准测试 4. AppTek Call-Center Dialogues: A Multi-Accent Long-Form 6.5分 前50% #语音识别 📋 论文列表 🥇 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction 🔥 8.5/10 | 前25% | #语音对话系统 | #端到端 | #多模态模型 #流式处理 | arxiv ...

2026-05-02 · 更新于 2026-06-12 · 4 min · 724 words

MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction

📄 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction #语音对话系统 #多模态模型 #端到端 #流式处理 #强化学习 🔥 8.5/10 | 前25% | #语音对话系统 | #多模态模型 | #端到端 #流式处理 | arxiv 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Junbo Cui(论文中未明确标注“第一作者”,根据作者列表排序推断) 通讯作者:未明确说明(论文中标注为“Corresponding authors”,但未指明具体个人) 作者列表:Junbo Cui, Bokai Xu, Chongyi Wang, Tianyu Yu, Weiyue Sun, Yingjing Xu, Tianran Wang, Zhihui He, Wenshuo Ma, Tianchi Cai, Jiancheng Gui, Luoyuan Zhang, Xian Sun, Fuwei Huang, Moye Chen, Zhuo Lin, Hanyu Liu, Qingxin Gui, Qingzhe Han, Yuyang Wen, Huiping Liu, Rongkang Wang, Yaqi Zhang, Hongliang Wei, Chi Chen, You Li, Kechen Fang, Jie Zhou, Yuxuan Li, Guoyang Zeng, Chaojun Xiao, Yankai Lin, Xu Han, Maosong Sun, Zhiyuan Liu, Yuan Yao. (所属机构为MiniCPM-o Team, OpenBMB,论文未提供各作者具体所属部门) 💡 毒舌点评 亮点在于将“全双工多模态交互”这一前沿概念落地为一个可运行的、高效的开源系统,其Omni-Flow框架的设计思想具有启发性。短板在于,虽然展示了强大的基础能力,但论文中对于模型在复杂、长时、动态真实场景下的“主动行为”鲁棒性和稳定性验证相对有限,更像是一个能力很强的“全能选手”初登舞台,而非经过严苛实战检验的“特种兵”。 ...

2026-05-01 · 更新于 2026-06-12 · 3 min · 461 words

Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation

📄 Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation #音视频 #扩散模型 #知识蒸馏 #流式处理 🔥 8.5/10 | 前25% | #音视频 | #扩散模型 | #知识蒸馏 #流式处理 | arxiv 学术质量 6.2/7 | 选题价值 1.6/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 请基于当前提供的论文内容尽量完整提取作者与机构信息,要求: 明确标注第一作者(如论文可判断),否则写“未说明” 明确标注通讯作者(如论文可判断),否则写“未说明” 列出能确认的作者姓名及其所属机构(大学、实验室、公司) 机构信息尽量具体到实验室或部门;如果文本里没有,就写到能确认的层级 禁止猜测机构信息;无法确认时明确写“未说明” 输出格式示例: 第一作者:张三(清华大学计算机系) 通讯作者:李四(Google DeepMind) 作者列表:张三(清华大学计算机系)、李四(Google DeepMind)、王五(未说明) 第一作者:Chunyu Li(Shanghai Innovation Institute, Fudan University,论文注释*Equal contribution表明为共同第一作者) 通讯作者:Siyu Zhu(Shanghai Innovation Institute, Fudan University,论文注释†Corresponding authors) 作者列表:Chunyu Li(Shanghai Innovation Institute, Fudan University)、Jiaye Li(Fudan University,论文注释*Equal contribution表明为共同第一作者)、Ruiqiao Mei(Fudan University)、Haoyuan Xia(Shanghai Innovation Institute, University of Science and Technology of China)、Hao Zhu(Nanjing University)、Jingdong Wang(Baidu)、Siyu Zhu(Shanghai Innovation Institute, Fudan University) ...

2026-04-30 · 更新于 2026-06-12 · 2 min · 344 words

Text-Utilization for Encoder-dominated Speech Recognition Models

📄 Text-Utilization for Encoder-dominated Speech Recognition Models #语音识别 #数据增强 #流式处理 #端到端 ✅ 6.5/10 | 前50% | #语音识别 | #数据增强 | #流式处理 #端到端 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Albert Zeyer(论文中未说明其所属机构) 通讯作者:未说明 作者列表:Albert Zeyer(未说明)、Tim Posielek(未说明)、Ralf Schlüter(未说明)、Hermann Ney(未说明) 💡 毒舌点评 亮点在于其“反直觉”的实验发现——简单配置(如随机时长模型)和“头重脚轻”(大编码器小解码器)的架构可能更有效,这直接挑战了当前优化复杂模型的潮流,为工程实践提供了更简洁的思路。短板是摘要未提供与当前最强基线的直接量化对比(如具体WER数字),使得“equal or surpass”的结论缺乏最直接的证据支撑,说服力稍弱。 🔗 开源详情 代码:论文中明确提到“All code and recipes are made publicly available”,但未提供具体的代码仓库链接(如GitHub地址)。 模型权重:未提及是否公开预训练模型权重。 数据集:使用了公开的LibriSpeech数据集,但未说明论文本身是否提供额外或处理过的数据。 Demo:未提及是否提供在线演示。 复现材料:提到“recipes”公开,这通常包含训练脚本和配置,可能有助于复现。但关键的训练细节(如超参数)在摘要中未详述。 论文中引用的开源项目:论文摘要中未提及依赖的开源工具或模型。 📌 核心摘要 要解决什么问题:论文研究如何在“编码器主导”的语音识别模型中,高效地利用纯文本数据来提升识别性能,这类模型旨在实现更快的识别速度。 方法核心是什么:论文系统比较了多种将纯文本数据整合进语音识别模型的技术,重点包括“模态匹配”和“动态下采样”以在编码器内部达到文本级别的表示。 与已有方法相比新在哪里:新在对“编码器主导”架构下文本数据利用方法的系统性比较,并提出了一个关键发现:简单配置(如随机时长模型)往往比复杂替代方案更有效。 主要实验结果如何:在LibriSpeech语料库上的实验表明,一个更大的编码器搭配一个更小的解码器的架构,其性能可以等于甚至超过那些拥有更大解码器的架构。具体性能数值(如WER)未提供。 实际意义是什么:证明了可以通过优化编码器并简化训练流程(使用简单有效的方法)来构建高性能且更快的语音识别模型,降低了训练管线的复杂性。 主要局限性是什么:仅在LibriSpeech一个数据集上进行验证;论文摘要未说明与当前最先进模型的直接对比结果;未提供具体的性能数字以供精确评估。 🏗️ 模型架构 论文摘要未提供详细的模型架构图或具体的组件描述。根据描述,研究对象是“encoder-dominated speech recognition models”,即编码器部分占据主导地位的语音识别模型。可以推断,其核心架构可能包含: ...

2026-04-30 · 更新于 2026-06-12 · 1 min · 135 words

A Generative-First Neural Audio Autoencoder

📄 A Generative-First Neural Audio Autoencoder #音乐生成 #音频大模型 #生成模型 #流式处理 #多语言 🔥 8.5/10 | 前25% | #音乐生成 | #生成模型 | #音频大模型 #流式处理 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jonah Casebeer(Adobe Research) 通讯作者:未说明 作者列表:Jonah Casebeer(Adobe Research),Ge Zhu(Adobe Research),Zhepei Wang(Adobe Research),Nicholas J. Bryan(Adobe Research) 💡 毒舌点评 亮点在于其“生成优先”的设计哲学非常务实,通过一系列巧妙的工程优化(如SnakeLite、下采样策略)实现了编码速度一个数量级的提升,这对大规模生成模型训练是关键杠杆。短板是论文作为ICASSP 2026投稿,其声称的SOTA对比基线(如CoDiCodec)虽然最新,但缺乏更广泛的跨领域音频编解码器(如面向语音的极低比特率模型)对比,其“统一模型”的普适性边界尚待更多下游任务验证。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开模型权重。 数据集:使用25K小时经许可的音乐,但论文中未公开此数据集或提供获取方式。 Demo:未提及在线演示。 复现材料:提供了非常详细的训练细节、模型超参数配置、架构描述和消融实验设置,但未提供预训练检查点或具体配置文件。 论文中引用的开源项目:未在文中明确列出依赖的开源项目/模型。基线模型(DAC, EnCodec, SAO, CoDiCodec)本身是开源项目,但论文未说明是否基于其代码进行实验。 总结:论文中未提及开源计划(代码、模型、数据均未提供)。 📌 核心摘要 问题:现有的神经音频自编码器(如SoundStream, EnCodec, DAC)主要针对“重建优先”设计,存在潜变量率高、编码速度慢、需要针对不同音频格式(单声道、立体声、中侧声道)维护不同模型等问题,这阻碍了它们在需要大规模、快速编码的生成模型(如扩散模型、语言模型)中的高效应用。 方法核心:提出“生成优先自编码器”(GenAE),这是一个单一的编码器-瓶颈-解码器架构。通过一系列架构优化(高效激活函数SnakeLite、早期下采样、可分离卷积、激进的时间下采样、梅尔谱融合、窗口化自注意力)和训练优化(多��式数据增强、辅助梅尔损失、互质多分辨率损失),在压缩率、重建质量和处理速度之间取得更佳平衡。 创新点:1) 提出了一种统一的架构,支持连续(KL)和离散(VQ)潜变量,以及单声道、立体声、中侧声道等多种音频格式,无需单独变体;2) 通过架构修改,将时间下采样率从2048倍提升至3360倍,并实现了10倍更快的编码速度;3) 提出了一种后训练离散化步骤,允许在训练好的连续模型上添加RVQ瓶颈以支持离散潜变量,无需重训骨干网络。 实验结果:GenAE(13.125 Hz)在SI-SDR、多分辨率STFT损失、梅尔谱L1距离等指标上,以仅60%的基线(SAO)潜变量率达到了更优的重建质量;编码速度比SAO快12倍,内存占用仅为SAO的1/3。一个60秒的单声道信号仅压缩为788个令牌。具体数值见下表。 模型 潜变量率 (Hz) 上下文长度 (秒) ↑ L/R 梅尔↓ M/S 梅尔↓ EnCodec-48 150 73 0.5485 0.6602 DAC 86 127 0.5144 0.5114 CoDiCodec-FSQ 11 993 0.9586 1.0553 GenAE-VQ (ours) 13.125 832 0.5956 0.5943 SAO 21.5 106 0.6863 0.7506 CoDiCodec 11 206 0.9252 1.0218 GenAE-KL (ours) 13.125 173 0.5384 0.5369 GenAE-KL (ours) 36.75 62 0.4005 0.4054 实际意义:显著降低了使用神经音频编解码器进行生成模型训练和推理的计算成本(时间和内存),使得在有限资源下处理长音频上下文成为可能,从而能够开发更强大、更高效的音频/音乐生成与理解应用。 主要局限性:论文未提供代码、预训练模型或训练数据集,阻碍了立即复现;评估主要集中在44.1kHz音乐音频上,在其他音频类型(如语音、环境声)上的性能未充分验证;与CoDiCodec相比,在极高压缩率下(11Hz)的重建质量仍有差距。 🏗️ 模型架构 GenAE是一个编码器-瓶颈-解码器结构的自编码器,整体架构如下图所示。其输入为原始音频波形,输出为重构的波形。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 296 words

An Efficient Neural Network for Modeling Human Auditory Neurograms for Speech

📄 An Efficient Neural Network for Modeling Human Auditory Neurograms for Speech #听觉编码 #语音增强 #卷积神经网络 #流式处理 #信号处理 ✅ 7.0/10 | 前25% | #语音增强 | #卷积神经网络 | #听觉编码 #流式处理 学术质量 6.5/7 | 选题价值 7.5/2 | 复现加成 8.0 | 置信度 高 👥 作者与机构 第一作者:Eylon Zohar(Ben-Gurion University of the Negev,电气与计算机工程学院) 通讯作者:Boaz Rafaely(Ben-Gurion University of the Negev,电气与计算机工程学院) 作者列表:Eylon Zohar(Ben-Gurion University of the Negev,电气与计算机工程学院),Israel Nelken(The Hebrew University of Jerusalem,神经生物学系),Boaz Rafaely(Ben-Gurion University of the Negev,电气与计算机工程学院) 💡 毒舌点评 本文在工程实现上做到了“螺丝壳里做道场”,将复杂的Bruce听觉外周模型用紧凑的TCN网络高效复现,实时性优势显著;但研究过于聚焦于对已知生理模型的精确复刻,应用场景局限于理想条件下的前端编码,对于听觉系统更复杂的功能(如随机放电、双耳处理)及噪声环境下的鲁棒性探讨不足,显得有些“精致的实用主义”。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 300 words