多智能体 | 语音/音频论文速递

Virtual Speech Therapist: A Clinician-in-the-Loop AI Speech Therapy Agent for Personalized and Supervised Therapy

📄 Virtual Speech Therapist: A Clinician-in-the-Loop AI Speech Therapy Agent for Personalized and Supervised Therapy #语音治疗系统 #自监督学习 #大语言模型 #医疗健康 #多智能体 ✅ 7.5/10 | 前25% | #语音治疗系统 | #多智能体 | #自监督学习 #大语言模型 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Shakeel A. Sheikh（Novartis Institute for Biomedical Research; IAI, TCG CREST）通讯作者：未明确标注，但提供了shakeelzmail608@gmail.com和patrick.marmaroli@gmail.com作为联系邮箱。作者列表：Shakeel A. Sheikh（Novartis Institute for Biomedical Research; IAI, TCG CREST）、Patrick Marmaroli（Microsoft / Vocametrix）、Md Sahidullah（未说明具体单位，可能同IAI, TCG CREST）、Slim Ouni（Université de Lorraine, CNRS, Inria, LORIA）、Fabrice Hirsch（Laboratoire Praxiling, UMR5267, CNRS et Université Paul-Valéry Montpellier 3）、Gonçalo Leal（Speechcare iStutter, Portuguese Catholic University）、Björn W. Schuller（CHI – Chair of Health Informatics, TUM University Hospital; GLAM – Group on Language, Audio, & Music, Imperial College London）。 💡 毒舌点评这篇论文巧妙地将深度学习语音分析、LLM多智能体推理和临床医生监督这三块“积木”搭建成一个看似完整的口吃治疗规划系统，其最大亮点在于对“临床医生在环”这一安全与有效性保障机制的系统性设计与实现。然而，论文的短板也显而易见：其核心价值主张——“高质量、个性化的治疗方案”——目前主要依赖于16个案例的专家定性背书，缺乏严谨的对照实验、患者结局研究或与人工规划的定量比较，使得“AI增效”的说服力大打折扣。 ...

AUDIOGENIE-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning

📄 AUDIOGENIE-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning #音频问答 #音频场景理解 #多智能体 #迭代优化 #大语言模型 ✅ 7.0/10 | 前25% | #音频问答 | #多智能体 | #音频场景理解 #迭代优化学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构请基于当前提供的论文内容尽量完整提取作者与机构信息，要求：明确标注第一作者（如论文可判断），否则写“未说明” 明确标注通讯作者（如论文可判断），否则写“未说明” 列出能确认的作者姓名及其所属机构（大学、实验室、公司）机构信息尽量具体到实验室或部门；如果文本里没有，就写到能确认的层级禁止猜测机构信息；无法确认时明确写“未说明” 输出格式示例：第一作者：张三（清华大学计算机系）通讯作者：李四（Google DeepMind）作者列表：张三（清华大学计算机系）、李四（Google DeepMind）、王五（未说明）第一作者：Yan Rong（香港科技大学（广州））通讯作者：Li Liu（香港科技大学（广州））作者列表：Yan Rong（香港科技大学（广州））、Chenxing Li（腾讯AI Lab）、Dong Yu（腾讯AI Lab）、Li Liu（香港科技大学（广州）） 💡 毒舌点评用 2-3 句话做有信息量的点评，必须同时包含至少 1 个亮点和 1 个短板。可以犀利，但不要空泛嘲讽，不要只喊“很强”或“很水”。 ...

ActorMind: Emulating Human Actor Reasoning for Speech Role-Playing

📄 ActorMind: Emulating Human Actor Reasoning for Speech Role-Playing #语音对话系统 #大语言模型 #多智能体 #基准测试 🔥 评分：8.0/10 | arxiv 👥 作者与机构第一作者：Xi Chen (陈曦) (香港科技大学，联系邮箱：chenxi.mail.1005@gmail.com) 通讯作者：Wei Xue (薛巍) (香港科技大学，weixue@ust.hk) 其他作者：Yike Guo (郭毅可) (香港科技大学) 💡 毒舌点评亮点：论文巧妙地将“演员表演方法论”转化为一个可计算的“眼-耳-脑-口”多智能体框架，为冷冰冰的语音合成注入了“角色灵魂”，在概念和系统设计上颇具巧思。槽点：整个系统像个“工具箱大杂烩”，依赖一堆现成的ASR、情感识别、LLM和TTS模块拼装而成，创新更多体现在“编剧和导演”层面，而非“演员”本身的演技突破。实验数据只用了《老友记》第一季，让人担心这套方法演不了莎士比亚。 🔗 开源详情代码：论文明确指出代码将开源，并提供了GitHub仓库地址：https://github.com/OzymandiasChen/ActorMind。模型权重：论文中使用的模型（LLaMA3, IndexTTS, SECAP等）均为公开可用的模型。ActorMind框架本身不训练新模型，因此不涉及发布新的模型权重。数据集：ActorMindBench的标注文件（角色档案、场景描述、话语对齐等）将公开发布。原始音频数据因版权原因不直接分发，研究者需自行通过合法渠道获取《老友记》剧集。预训练权重：不适用，框架集成的是现有预训练模型。在线 Demo：论文中未提及。依赖的开源项目：论文明确提到了多个依赖工具：resemble-enhance（语音增强），pyannote-audio（说话人日志），Whisper（语音识别），LLaMA3（推理），OpenAI text-embedding-3-large（检索），IndexTTS（语音合成）。 📌 核心摘要这篇论文旨在解决现有角色扮演研究局限于文本模态，而忽视了日常交流中主导的语音模态的问题。为此，作者首先定义了“语音角色扮演”任务，要求模型能根据角色、场景和对话历史，生成带有个性化语音特征（如特定情感、语调）的自发性回应。为此，他们构建了ActorMindBench，这是一个基于《老友记》第一季的三层级（话语级、场景级、角色级）基准测试，包含7653条话语。核心贡献是提出了ActorMind，一个受演员表演流程启发的多智能体链式推理框架。该框架通过四个协同工作的智能体模拟表演过程：Eye Agent读取角色和场景描述，Ear Agent从对话语音中感知情感线索，Brain Agent推理出下一句台词应具有的情感状态，最后Mouth Agent通过检索情感相似的语音样本，驱动TTS模型合成目标台词。实验表明，ActorMind在角色一致性和情感表达上显著优于多个基线LLAM和TTS模型，并展现出良好的模型无关泛化性。其局限性在于基准数据领域单一，且框架性能依赖于所集成外部工具的水平。 🏗️ 模型架构 ActorMind是一个多智能体链式推理框架，其整体流程模拟人类演员的表演过程，从接收剧本到最终演绎出台词。具体输入输出流程如下：输入：当前场景描述（S_j^desc）、当前角色的档案（R_k）、历史对话的文本（U_p^t, ..., U_{q-1}^t）和语音（U_p^s, ..., U_{q-1}^s），以及目标台词的文本（U_q^t）。处理流程： Eye Agent（阅读）：这是一个记忆模块，负责读取并存储角色档案（R_k）、场景描述（S_j^desc）和历史对话文本。它不进行复杂计算，仅为后续智能体提供上下文文本信息。 Ear Agent（倾听）：这是一个感知模块。它接收历史对话的语音信号（U_p^s, ..., U_{q-1}^s），调用一个外部的语音情感描述工具（SECAP），将每段语音转化为文本形式的情感描述（E_p, ..., E_{q-1}）。其核心功能是将非结构化的语音情感信息结构化为文本。 Brain Agent（思考）：这是整个框架的核心推理大脑。它接收来自Eye Agent的所有文本信息（角色、场景、历史对话文本）和来自Ear Agent的历史情感描述，以及目标台词文本（U_q^t）。然后，它调用一个大语言模型（LLM，论文中使用LLaMA3），通过精心设计的提示词，推理出当前角色在说出目标台词时应处的情感状态描述（E_q~）。这个过程相当于演员结合内外部信息，决定“我该用什么情绪来说下一句台词”。 Mouth Agent（演绎）：这是语音生成模块。它接收Brain Agent输出的情感状态描述（E_q~）和目标台词文本（U_q^t）。首先，它通过一个检索增强生成（RAG）机制，在一个为当前角色（R_k）构建的语音数据库（Database_Uk）中，检索出一条情感描述与E_q~最相似的历史语音片段（U_x^s）。这个数据库中的每条语音都关联了其由SECAP生成的情感描述。然后，它以检索到的语音（U_x^s）作为“情感和音色提示”，以目标文本（U_q^t）作为内容，驱动一个零样本语音合成模型（论文中使用IndexTTS）生成最终的语音输出（U_q^s~）。输出：带有特定角色音色和情感状态的语音U_q^s~。 ...

语音/音频论文速递 2026-04-20

语音/音频论文速递 2026-04-20 共分析 24 篇论文 ⚡ 今日概览 📥 抓取 24 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布基准测试 6篇 ██████ 多模态模型 5篇 █████ 语音对话系统 4篇 ████ 大语言模型 4篇 ████ 多语言 4篇 ████ 数据集 4篇 ████ 跨模态 3篇 ███ 模型评估 3篇 ███ 📊 论文评分排行榜（24 篇，按分数降序）排名论文评分 🥇 Qwen3.5-Omni Technical Report 9.5分 🥈 Beyond Monologue: Interactive Talking-Listening Avatar 9.0分 🥉 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 8.5分 4 Generalizable Audio-Visual Navigation via Binaural Diff 8.5分 5 Hierarchical Codec Diffusion for Video-to-Speech Genera 8.5分 6 VoxMind: An End-to-End Agentic Spoken Dialogue System 8.5分 7 ArtifactNet: Detecting AI-Generated Music via Forensic 8.0分 8 Full-Duplex-Bench-v3: Benchmarking Tool Use for Full-Du 8.0分 9 ActorMind: Emulating Human Actor Reasoning for Speech R 8.0分 10 Elucidating the SNR-t Bias of Diffusion Probabilistic M 8.0分 11 HARNESS: Lightweight Distilled Arabic Speech Foundation 7.5分 12 NaijaS2ST: A Multi-Accent Benchmark for Speech-to-Speec 7.5分 13 NVBench: A Benchmark for Speech Synthesis with Non-Verb 7.5分 14 AST: Adaptive, Seamless, and Training-Free Precise Spee 7.5分 15 Temporal Contrastive Decoding: A Training-Free Method f 7.5分 16 Joint-Centric Dual Contrastive Alignment with Structure 7.5分 17 Discrete Token Modeling for Multi-Stem Music Source Sep 7.0分 18 Spatial-Aware Conditioned Fusion for Audio-Visual Navig 7.0分 19 BlasBench: An Open Benchmark for Irish Speech Recogniti 7.0分 20 TinyMU: A Compact Audio-Language Model for Music Unders 6.5分 21 Interactive ASR: Towards Human-Like Interaction and Sem 6.5分 22 PS-TTS: Phonetic Synchronization in Text-to-Speech for 6.0分 23 MUSCAT: MUltilingual, SCientific ConversATion Benchmark 6.0分 24 The Acoustic Camouflage Phenomenon: Re-evaluating Speec 2.5分 📋 论文列表 🥇 Qwen3.5-Omni Technical Report 🔥 9.5分 | #语音对话系统， #音频大模型， #多模态模型， #预训练， | arxiv ...