📄 ActorMind: Emulating Human Actor Reasoning for Speech Role-Playing #语音对话系统 #大语言模型 #多智能体 #基准测试
🔥 评分:8.0/10 | arxiv
👥 作者与机构 第一作者:Xi Chen (陈曦) (香港科技大学,联系邮箱:chenxi.mail.1005@gmail.com) 通讯作者:Wei Xue (薛巍) (香港科技大学,weixue@ust.hk) 其他作者:Yike Guo (郭毅可) (香港科技大学) 💡 毒舌点评 亮点:论文巧妙地将“演员表演方法论”转化为一个可计算的“眼-耳-脑-口”多智能体框架,为冷冰冰的语音合成注入了“角色灵魂”,在概念和系统设计上颇具巧思。槽点:整个系统像个“工具箱大杂烩”,依赖一堆现成的ASR、情感识别、LLM和TTS模块拼装而成,创新更多体现在“编剧和导演”层面,而非“演员”本身的演技突破。实验数据只用了《老友记》第一季,让人担心这套方法演不了莎士比亚。
📌 核心摘要 这篇论文旨在解决现有角色扮演研究局限于文本模态,而忽视了日常交流中主导的语音模态的问题。为此,作者首先定义了“语音角色扮演”任务,要求模型能根据角色、场景和对话历史,生成带有个性化语音特征(如特定情感、语调)的自发性回应。为此,他们构建了ActorMindBench,这是一个基于《老友记》第一季的三层级(话语级、场景级、角色级)基准测试,包含7653条话语。核心贡献是提出了ActorMind,一个受演员表演流程启发的多智能体链式推理框架。该框架通过四个协同工作的智能体模拟表演过程:Eye Agent读取角色和场景描述,Ear Agent从对话语音中感知情感线索,Brain Agent推理出下一句台词应具有的情感状态,最后Mouth Agent通过检索情感相似的语音样本,驱动TTS模型合成目标台词。实验表明,ActorMind在角色一致性和情感表达上显著优于多个基线LLAM和TTS模型,并展现出良好的模型无关泛化性。其局限性在于基准数据领域单一,且框架性能依赖于所集成外部工具的水平。
🏗️ 模型架构 ActorMind是一个多智能体链式推理框架,其整体流程模拟人类演员的表演过程,从接收剧本到最终演绎出台词。具体输入输出流程如下:
输入:当前场景描述(S_j^desc)、当前角色的档案(R_k)、历史对话的文本(U_p^t, ..., U_{q-1}^t)和语音(U_p^s, ..., U_{q-1}^s),以及目标台词的文本(U_q^t)。
处理流程:
Eye Agent(阅读):这是一个记忆模块,负责读取并存储角色档案(R_k)、场景描述(S_j^desc)和历史对话文本。它不进行复杂计算,仅为后续智能体提供上下文文本信息。 Ear Agent(倾听):这是一个感知模块。它接收历史对话的语音信号(U_p^s, ..., U_{q-1}^s),调用一个外部的语音情感描述工具(SECAP),将每段语音转化为文本形式的情感描述(E_p, ..., E_{q-1})。其核心功能是将非结构化的语音情感信息结构化为文本。 Brain Agent(思考):这是整个框架的核心推理大脑。它接收来自Eye Agent的所有文本信息(角色、场景、历史对话文本)和来自Ear Agent的历史情感描述,以及目标台词文本(U_q^t)。然后,它调用一个大语言模型(LLM,论文中使用LLaMA3),通过精心设计的提示词,推理出当前角色在说出目标台词时应处的情感状态描述(E_q~)。这个过程相当于演员结合内外部信息,决定“我该用什么情绪来说下一句台词”。 Mouth Agent(演绎):这是语音生成模块。它接收Brain Agent输出的情感状态描述(E_q~)和目标台词文本(U_q^t)。首先,它通过一个检索增强生成(RAG) 机制,在一个为当前角色(R_k)构建的语音数据库(Database_Uk) 中,检索出一条情感描述与E_q~最相似的历史语音片段(U_x^s)。这个数据库中的每条语音都关联了其由SECAP生成的情感描述。然后,它以检索到的语音(U_x^s)作为“情感和音色提示”,以目标文本(U_q^t)作为内容,驱动一个零样本语音合成模型(论文中使用IndexTTS) 生成最终的语音输出(U_q^s~)。 输出:带有特定角色音色和情感状态的语音U_q^s~。
关键设计选择:
多智能体分工:将复杂的角色扮演任务分解为感知、记忆、推理、生成四个清晰的子任务,提高了系统的模块化和可解释性。 文本化中间表示:Ear Agent将语音情感转化为文本描述,Brain Agent基于文本进行推理,这使得整个流程可以利用强大的纯文本LLM进行复杂推理,避免了直接在多模态空间进行复杂操作的困难。 RAG驱动的情感语音合成:不直接让TTS模型理解抽象的情感标签,而是通过检索“情感相似的参考语音”来提供具体、可模仿的声学范例,这是一种非常实用且有效的“in-context learning”思路。 💡 核心创新点 首个面向语音的角色扮演基准测试(ActorMindBench):
...