PersonaKit (PK): A Plug-and-Play Platform for User Testing Diverse Roles in Full-Duplex Dialogue

📄 PersonaKit (PK): A Plug-and-Play Platform for User Testing Diverse Roles in Full-Duplex Dialogue #全双工对话系统 #开源工具平台 #角色行为评估 #中断策略 #语音活动检测 ✅ 6.0/10 | 前50% | #全双工对话系统评估 | #开源工具平台 | #全双工对话系统 #角色行为评估 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Hyunbae Jeon(Emory University, Department of Computer Science) 通讯作者:Hyunbae Jeon(Emory University, Department of Computer Science)(论文提供了其邮箱harry.jeon@emory.edu) 作者列表:Hyunbae Jeon(Emory University, Department of Computer Science)、Jinho D. Choi(Emory University, Department of Computer Science) 💡 毒舌点评 PersonaKit精准地瞄准了全双工语音对话研究中一个令人头疼的工程难题:想测试不同“脾气”的角色(比如一个暴躁的酒馆老板和一个顺从的AI助手)被打断时的不同反应,每次都得从头搭建复杂的WebRTC和VAD环境。它为此提供了一个“一键部署”的解决方案工厂,设计上确实巧妙(比如把中断策略变成了可随意编辑的JSON文件)。然而,为了证明这个“工厂”造出来的“产品”(不同策略)真的符合用户预期,论文只请了5位用户做了个探索性体验,这好比宣称一款新药有效,却只做了5个人的临床前试验,结论的说服力大打折扣。工具的“形”很完备,但验证的“魂”太薄弱。 ...

2026-05-08 · 更新于 2026-05-19 · 3 min · 607 words

语音/音频论文速递 2026-05-08

语音/音频论文速递 2026-05-08 共分析 23 篇论文 ⚡ 今日概览 📥 抓取 23 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #多模态压缩 1篇 █ #语音增强 1篇 █ #音频事件检测 1篇 █ #语音大模型 1篇 █ #语音克隆 1篇 █ #语音情感识别 1篇 █ #语音生成 1篇 █ #数据集 1篇 █ 📊 论文评分排行榜(23 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 LiVeAction: a Lightweight, Versatile, and Asymmetric Ne 8.5分 前25% #多模态压缩 🥈 Predictive-Generative Drift Decomposition for Speech En 8.5分 前25% #语音增强 🥉 MultiLinguahah : A New Unsupervised Multilingual Acoust 8.5分 前25% #音频事件检测 4. Minimizing Modality Gap from the Input Side: Your Speec 8.0分 前25% #语音大模型 5. X-Voice: Enabling Everyone to Speak 30 Languages via Ze 8.0分 前25% #语音克隆 6. Modality-Aware Contrastive and Uncertainty-Regularized 8.0分 前25% #语音情感识别 7. WavCube: Unifying Speech Representation for Understandi 7.5分 前25% #语音生成 8. PianoCoRe: Combined and Refined Piano MIDI Dataset 7.5分 前25% #数据集 9. Do Melody and Rhythm Coevolve? 7.5分 前25% #音乐认知 10. Automated Clinical Report Generation for Remote Cogniti 7.5分 扎实工作,位于前列 #临床报告生成 11. Linear Semantic Segmentation for Low-Resource Spoken Di 7.5分 前25% #语义分割 12. Edge-specific signal propagation on mature chromophore- 7.5分 前25% #蛋白质工程 13. Cross-Modal Navigation with Multi-Agent Reinforcement L 7.5分 前25% #具身导航 14. Pro-KLShampoo: Projected KL-Shampoo with Whitening Reco 7.5分 前25% #大语言模型 15. Optimal Transport Audio Distance with Learned Riemannia 7.0分 前10% #音频质量评估 16. PairAlign: A Framework for Sequence Tokenization via Se 7.0分 前25% #音频编码 17. Topological Signatures of Grokking 7.0分 前25% #模型可解释性 18. Task-Aware Answer Preservation under Audio Compression 6.5分 前25% #音频问答 19. NDF+: Joint Neural Directional Filtering and Diffuse So 6.5分 前30% #空间音频 20. Quantum Kernels for Audio Deepfake Detection Using Spec 6.5分 前50% #音频深度伪造检测 21. More Than Can Be Said: A Benchmark and Framework for Pr 6.5分 前25% #基准测试 22. PersonaKit (PK): A Plug-and-Play Platform for User Test 6.0分 前50% #全双工对话系统评估 23. Preliminary Insights in Chronos Frequency Data Understa 6.0分 前25% #模型评估 📋 论文列表 🥇 LiVeAction: a Lightweight, Versatile, and Asymmetric Neural Codec Design for Real-time Operation 🔥 8.5/10 | 前25% | #多模态压缩 | #神经网络编解码器 | #实时处理 #边缘计算 | arxiv ...

2026-05-08 · 更新于 2026-05-19 · 17 min · 3434 words