Leveraging Large Speech Language Models as Evaluators for Expressive Speech

📄 Leveraging Large Speech Language Models as Evaluators for Expressive Speech #语音情感识别 #语音大模型 #模型评估 #预训练 #数据集 ✅ 6.5/10 | 前50% | #语音情感识别 | #语音大模型 | #模型评估 #预训练 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 中 👥 作者与机构 第一作者:未说明(论文署名为 Bismarck Bamfo Odoom, Philipp Koehn,未明确区分第一作者) 通讯作者:未说明 作者列表:Bismarck Bamfo Odoom(Johns Hopkins University, Center for Language and Speech Processing)、Philipp Koehn(Johns Hopkins University, Center for Language and Speech Processing) 💡 毒舌点评 这篇论文巧妙地将表达性语音评估任务转化为一个“听懂并描述”问题,让SLM兼职当“考官”,思路值得肯定。但遗憾的是,“考官”的评分体系(微调后的分类性能)虽然在数字上有所提升,却更像是完成了一份填空题答卷,而非输出了能指导TTS优化的深度分析报告,其“评估器”的真正价值尚未被充分挖掘和验证。 ...

2026-04-29

LongSpeech: A Scalable Benchmark for Transcription, Translation and Understanding in Long Speech

📄 LongSpeech: A Scalable Benchmark for Transcription, Translation and Understanding in Long Speech #基准测试 #数据集 #语音识别 #语音翻译 #多语言 ✅ 7.8/10 | 前25% | #基准测试 | #数据集 | #语音识别 #语音翻译 学术质量 5.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Fei Yang(上海交通大学;阿里巴巴国际数字商务) 通讯作者:Chenyang Lyu(阿里巴巴国际数字商务) 作者列表: Fei Yang(上海交通大学;阿里巴巴国际数字商务) Xuanfan Ni(阿里巴巴国际数字商务) Renyi Yang(代尔夫特理工大学;阿里巴巴国际数字商务) Jiahui Geng(林雪平大学) Qing Li(格罗宁根大学) Chenyang Lyu(阿里巴巴国际数字商务) Yichao Du(阿里巴巴国际数字商务) Longyue Wang(阿里巴巴国际数字商务) Weihua Luo(阿里巴巴国际数字商务) Kaifu Zhang(阿里巴巴国际数字商务) 💡 毒舌点评 亮点:论文直面语音模型从“短句能手”到“长卷大师”转型过程中的评测荒漠,构建了一个任务全面、数据量级宏大(10万+段,每段约10分钟)的“压力测试场”,其“内容分离”和“时序定位”等任务设计尤其刁钻,能有效暴露模型在长上下文推理上的短板。短板:作为基准,其自身的“创新”更多是工程整合与任务设计,论文对实验结果的剖析深度略显不足(例如,为何某些模型在特定任务上崩溃?),且完全依赖GPT-4作为某些任务的评估器,引入了“用更贵的模型评估便宜的模型”的黑箱与成本问题。 📌 核心摘要 解决问题:现有语音基准测试(如LibriSpeech)主要针对短音频,无法有效评估模型处理真实世界长时音频(如会议、讲座)的能力,特别是在需要跨片段理解、推理和跟踪复杂信息时。 ...

2026-04-29

LOTUSDIS: A Thai Far-Field Meeting Corpus for Robust Conversational ASR

📄 LOTUSDIS: A Thai Far-Field Meeting Corpus for Robust Conversational ASR #语音识别 #数据集 #远场语音 #迁移学习 #低资源 ✅ 7.5/10 | 前25% | #语音识别 | #数据集 | #远场语音 #迁移学习 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文作者列表未按顺序标注第一作者) 通讯作者:未说明(论文未明确标注通讯作者) 作者列表:Pattara Tipaksorn (NECTEC Speech and Text Understanding Research Team), Sumonmas Thatphithakkul (NECTEC Speech and Text Understanding Research Team), Vataya Chunwijitra (NECTEC Speech and Text Understanding Research Team), Kwanchiva Thangthai (NECTEC Speech and Text Understanding Research Team) 💡 毒舌点评 亮点:数据集设计非常“接地气”——在真实的、有冰箱和空调噪音的办公室里,用从领夹麦到10米远蓝牙音箱的多种普通设备录音,完美模拟了真实会议中“设备杂、距离远、有混响”的痛点,比用专业阵列录音更有工程实践价值。短板:论文的学术贡献主要停留在“造轮子立规矩”阶段,虽然验证了Whisper微调的有效性,但缺乏对ASR模型本身更深入的技术探索(例如如何更好地处理重叠或超远场语音),更像是一个详实的“产品说明书”和“测试报告”。 ...

2026-04-29

Marco-Voice: A Unified Framework for Expressive Speech Synthesis with Voice Cloning

📄 Marco-Voice: A Unified Framework for Expressive Speech Synthesis with Voice Cloning #语音合成 #语音克隆 #流匹配 #情感合成 #数据集 🔥 8.0/10 | 前25% | #语音合成 | #流匹配 | #语音克隆 #情感合成 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文作者列表未按顺序注明第一作者) 通讯作者:Chenyang Lyu(标注为) 作者列表:Fengping Tian, Peng Bai, Xuanfan Ni, Haoqin Sun, Qingjuan Li, Zhiqiang Qian, Chenyang Lyu*, Haijun Li, Longyue Wang, Zhao Xu, Weihua Luo, Kaifu Zhang 机构列表:Alibaba International Digital Commerce(阿里巴巴国际数字商业) 💡 毒舌点评 亮点:该工作最大的亮点在于将“说话人身份”与“情感表达”的解耦做到了一个相当精细和可控的程度,通过旋转嵌入、正交约束等系列“组合拳”,不仅理论动机清晰,实验效果(尤其是说话人相似度和情感表达分数)也远超基线,且贡献了宝贵的中文情感语音数据集。短板:其创新更多是模块化组合的“系统工程”优势,对每个单独模块(如对比学习、交叉注意力)的分析深度相对有限,且情感类别的准确率(最高0.75)仍有提升空间,表明对复杂情感的建模仍是难点。 ...

2026-04-29

MCF: Text LLMS for Multimodal Emotional Causality

📄 MCF: Text LLMS for Multimodal Emotional Causality #情感分析 #多模态模型 #大语言模型 #数据集 🔥 8.0/10 | 前25% | #情感分析 | #多模态模型 | #大语言模型 #数据集 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yulong Li(西安交通大学-利物浦大学;穆罕默德·本·扎耶德人工智能大学) 通讯作者:Yichen Li(华中科技大学);Chong Li(西安交通大学-利物浦大学);Jionglong Su(西安交通大学-利物浦大学) 作者列表: Yulong Li(西安交通大学-利物浦大学;穆罕默德·本·扎耶德人工智能大学) Yuxuan Zhang(西安交通大学-利物浦大学) Rui Chen(西安交通大学-利物浦大学) Man Lei(西安交通大学-利物浦大学) Yibo Yuan(西安交通大学-利物浦大学) Xiwei Liu(穆罕默德·本·扎耶德人工智能大学) Runyi Lin(西安交通大学-利物浦大学) Tianrui Li(西安交通大学-利物浦大学) Mingze Jiang(西安交通大学-利物浦大学) Anyi Liu(西安交通大学-利物浦大学) Yichen Li(华中科技大学) Chong Li(西安交通大学-利物浦大学) Jionglong Su(西安交通大学-利物浦大学) 💡 毒舌点评 亮点在于其核心思想颇具巧思:与其让笨重的多模态模型学会复杂推理,不如让擅长推理的文本LLM通过一个精巧的“翻译框架”(MCF)来“看懂”和“听懂”视频音频,最终效果甚至超越了原生多模态巨头。短板则在于该框架极度依赖其专门发布的GENESIS数据集和特定组件(如DFER-CLIP, SenseVoice),在完全不同的文化背景、视频风格或对话场景下是否依然有效,是个巨大的问号,论文并未提供跨域泛化的证据。 ...

2026-04-29

MNV-17: A High-Quality Performative Mandarin Dataset for Nonverbal Vocalization Recognition in Speech

📄 MNV-17: A High-Quality Performative Mandarin Dataset for Nonverbal Vocalization Recognition in Speech #语音识别 #数据集 #语音大模型 #多任务学习 #开源工具 ✅ 7.5/10 | 前25% | #语音识别 | #数据集 | #语音大模型 #多任务学习 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jialong Mai(华南理工大学) 通讯作者:Xiaofen Xing(华南理工大学) 作者列表: Jialong Mai(华南理工大学) Jinxin Ji(香港理工大学,同济大学) Xiaofen Xing(华南理工大学) Chen Yang(上海交通大学) Weidong Chen(香港中文大学) Jingyuan Xing(华南理工大学) Xiangmin Xu(华南理工大学,佛山大学) 💡 毒舌点评 亮点:论文精准切中了非语语音识别领域“数据荒”的痛点,并提供了一套从数据采集(LLM脚本生成)、标注(多模态LLM分割)到模型评估的完整解决方案,其17类平衡数据集的发布具有明确的实用价值。 短板:数据集总时长仅7.55小时,且采用“表演性”录制,其在真实、自发对话场景中的适用性存疑;实验虽全面但深度有限,仅评估了四个现成模型的微调性能,缺乏对数据本身声学特性或更复杂交互建模的深入探讨。 📌 核心摘要 问题:主流自动语音识别系统无法识别语音中嵌入的非语语音(如笑声、叹气、咳嗽),这限制了对人类交流中情感和意图的全面理解。主要瓶颈在于缺乏高质量、标注精准且类别平衡的训练数据集。 方法:本文提出了MNV-17数据集,一个7.55小时的普通话“表演性”语音数据集,包含17类常见非语语音。通过大语言模型生成上下文自然的脚本,确保类别平衡和分布合理。录音后,利用音频多模态大模型(Gemini)进行精确的句子级时间戳标注,并用ASR模型(Whisper)进行质量过滤。 新意:相比于现有数据集(类别3-10个,最大/最小频率比高达516),MNV-17拥有最多的17个类别,且类别分布极为平衡(最大/最小频率比仅为2.7)。其“表演性”采集方式旨在获得清晰、明确的非语语音实例。 结果:在四个主流ASR模型(SenseVoice, Paraformer, Qwen2-Audio, Qwen2.5-Omni)上进行了联合转录与非语语音分类基准测试。关键结果如表2所示:Qwen2.5-Omni在联合字符错误率上取得最佳3.60%。关键结果如表3所示:非语语音识别准确率(要求类型、数量、顺序完全匹配)最高为SenseVoice和Qwen2.5-Omni的57.29%。关键结果如表4所示:多任务预训练模型在增加非语语音识别任务后,其核心ASR性能损失很小甚至有所提升(Qwen2-Audio的CER从3.05%降至2.60%)。 意义:为表达性语音理解提供了关键资源,验证了大型多任务音频模型能有效整合非语语音识别能力,且不损害甚至提升其核心转录性能,为未来更人性化的对话系统奠定了基础。 局限性:数据集总规模较小;“表演性”数据与真实自发语音可能存在差异;实验评估集中于现有模型的微调,未提出针对该任务的新型模型架构。 🏗️ 模型架构 本文并未提出新的模型架构,而是将MNV-17数据集应用于评估四种现有的主流ASR架构,并对其进行联合任务微调。主要架构类型为: ...

2026-04-29

Multimodal LLMs as Expert Speech Annotators: Acoustic Macro-Descriptors for Parkinson's Detection

📄 Multimodal LLMs as Expert Speech Annotators: Acoustic Macro-Descriptors for Parkinson’s Detection #语音生物标志物 #多模态模型 #音频大模型 #零样本 #数据集 ✅ 6.5/10 | 前50% | #语音生物标志物 | #多模态模型 | #音频大模型 #零样本 学术质量 4.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:David Ortiz-Perez(阿利坎特大学计算机技术系,INESC-ID) 通讯作者:Catarina Botelho(INESC-ID, 当前就职于Sword Health) 作者列表:David Ortiz-Perez(阿利坎特大学计算机技术系,INESC-ID)、Catarina Botelho(INESC-ID, 当前就职于Sword Health)、Anna Pompili(INESC-ID)、Alberto Abad(里斯本高等技术学院,INESC-ID)、Jose Garcia-Rodriguez(阿利坎特大学计算机技术系) 💡 毒舌点评 亮点:论文提出了“声学宏观描述符”这一可解释的中间层概念,巧妙地将MLLM的输出从不稳定的直接诊断转化为结构化的专家模拟评分,并证明了这种“模拟专家”的方式在PD分类上甚至可以超越真实专家标注的性能(Ultravox模型80.47% UAR vs 专家78.93% UAR)。 短板:研究主要局限在两种西班牙语数据集上,对于模型在其他语言、方言及不同语音任务上的泛化能力未做验证;且对模型为何能产生有效但“不像”专家的描述符(如Ultravox)缺乏深入的机制分析。 📌 核心摘要 问题:帕金森病(PD)的语音评估依赖专家,具有主观性且难以扩展;直接用多模态大语言模型(MLLM)进行疾病诊断则不稳定且缺乏可解释性。 方法核心:提出将MLLM作为“专家语音标注员”,通过精心设计的提示,引导模型直接从语音中输出14个高阶、可解释的“声学宏观描述符”(对应GRBAS和VAF专家评估维度),再将这些描述符作为特征输入传统机器学习分类器进行PD检测。 创新点:与直接诊断或使用低阶声学特征的方法不同,本文创新性地利用MLLM模拟临床专家的感知评估流程,生成语义明确的特征,增强了可解释性,并探索了不同MLLM在该任务上的能力差异。 主要实验结果:在NeuroVoz数据集上,GPT-4o与专家评分的一致性最高(Gwet‘s AC1 = 0.643)。然而,在PD分类任务中,Ultravox模型提取的描述符取得了最佳性能,达到80.47%的UAR(加权平均召回率),超过了使用真实专家标注(最高78.93%)。跨数据集(PC-GITA)评估显示,Ultravox提取的描述符仍保持了较好的鲁棒性。 模型 GRBAS UAR (%) VAF UAR (%) All UAR (%) 人类专家 62.86 78.93 77.02 Ultravox 78.24 79.56 80.47 GPT-4o 71.15 71.90 71.14 Phi-4 57.47 63.99 72.71 实际意义:提供了一种可扩展、可解释的语音生物标志物提取范式,有望辅助临床筛查,并推动语音在神经退行性疾病诊断中的应用。 主要局限性:研究语种单一(西班牙语);评估的语音任务有限(主要是句子朗读);模型作为“黑盒”标注员的内在机制未被充分探究;未与当前最先进的端到端PD检测模型进行直接对比。 🏗️ 模型架构 本文的核心是利用现成的多模态大语言模型(MLLM) 作为“感知评估专家”,其本身并非提出新的网络架构。整体流程可分为两个阶段: ...

2026-04-29

Multimodal Transformer with Multiperspective Training for Predicting Self-Expression Skills from Video Interview

📄 Multimodal Transformer with Multiperspective Training for Predicting Self-Expression Skills from Video Interview #多模态模型 #多模态学习 #数据集 #预训练 ✅ 7.0/10 | 前25% | #多模态模型 | #多模态模型 | #多模态学习 #数据集 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 -1.0 | 置信度 中 👥 作者与机构 第一作者:Ryo Masumura(NTT, Inc., Japan) 通讯作者:未说明 作者列表:Ryo Masumura(NTT, Inc., Japan)、Shota Orihashi(NTT, Inc., Japan)、Mana Ihori(NTT, Inc., Japan)、Tomohiro Tanaka(NTT, Inc., Japan)、Naoki Makishima(NTT, Inc., Japan)、Suzuka Yamada(NTT, Inc., Japan)、Taiga Yamane(NTT, Inc., Japan)、Naotaka Kawata(NTT, Inc., Japan)、Satoshi Suzuki(NTT, Inc., Japan) 💡 毒舌点评 亮点:论文开创性地定义了“自我表达技能”的多视角自动评估任务,并巧妙设计了多视角训练策略,让模型既能进行多模态融合判断,也能对单一维度进行评估,实验显示其性能可比肩人类评估员。 短板:所用数据集和模型均未开源,对于一个标注成本高昂的新任务而言,这无疑大大限制了后续研究的跟进和验证,使得其“有效模型”的结论暂时只能停留在论文层面。 ...

2026-04-29

MuseTok: Symbolic Music Tokenization for Generation and Semantic Understanding

📄 MuseTok: Symbolic Music Tokenization for Generation and Semantic Understanding #音乐生成 #音乐理解 #预训练 #数据集 🔥 8.5/10 | 前25% | #音乐生成 | #预训练 | #音乐理解 #数据集 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Jingyue Huang(University of California San Diego, USA) 通讯作者:未说明 作者列表:Jingyue Huang(University of California San Diego, USA)、Zachary Novack(University of California San Diego, USA)、Phillip Long(University of California San Diego, USA)、Yupeng Hou(University of California San Diego, USA)、Ke Chen(University of California San Diego, USA)、Taylor Berg-Kirkpatrick(University of California San Diego, USA)、Julian McAuley(University of California San Diego, USA) 💡 毒舌点评 本文首次尝试为符号音乐构建一个“通用”的离散表示学习框架,并通过生成和多个语义理解任务进行了验证,这种“一体两面”的评估视角比多数只关注单一任务的工作更为全面。然而,其在核心的旋律提取任务上表现远低于专用模型(81.92% vs. 92.62%),暴露了当前“通用”表示在捕获细粒度、关键音乐结构上的根本局限,说明“通用”与“专用”之间的鸿沟依然显著。 ...

2026-04-29

No Verifiable Reward for Prosody: Toward Preference-Guided Prosody Learning in TTS

📄 No Verifiable Reward for Prosody: Toward Preference-Guided Prosody Learning in TTS #语音合成 #强化学习 #偏好学习 #数据集 🔥 8.0/10 | 前25% | #语音合成 | #强化学习 | #偏好学习 #数据集 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Seungyoun Shin(Channel Corporation, Seoul, South Korea) 通讯作者:Sungwook Jeon(NAVER Cloud, South Korea)† 作者列表:Seungyoun Shin(Channel Corporation),Dongha Ahn(Kernelspace),Jiwoo Kim(成均馆大学, Sungkyunkwan University),Sungwook Jeon(NAVER Cloud) 💡 毒舌点评 论文精准地“诊断”了现有RL训练TTS的通病——用CER/NLL当奖励,模型就只会当“背稿机器”,丢了人说话的腔调。提出的“每轮用200对人类偏好对打补丁”的迭代DPO方案,确实用最小的数据代价把韵律给“救”回来了,ELO分数吊打一众基线,这是其最大亮点。但短板在于,DPO本身已不是新方法,论文的创新更多是“对症下药”的工程应用和验证,而非方法论上的突破,且每轮都要人工标注,扩展性存疑。 📌 核心摘要 要解决什么问题:在神经TTS中,使用基于转录错误率(CER)和负对数似然(NLL)的强化学习(如GRPO)优化模型,虽然提升了语音识别准确性,但会导致生成的语音韵律单调、不自然(“韵律坍塌”)。同时,简单加入说话人相似度奖励会破坏训练稳定性。 方法核心是什么:提出迭代的直接偏好优化(DPO)方案。从当前模型出发生成候选语音,由人工标注偏好对(更自然 vs. 不自然),然后使用DPO损失直接优化模型,使其倾向于生成被偏好的语音。该过程迭代进行,每轮使用少量(约200对)新鲜的偏好数据。 与已有方法相比新在哪里:不同于以往将重点放在设计复杂的复合奖励函数上,本文指出瓶颈在于“奖励设计”,并采用了一种无需单独训练奖励模型、直接使用人类偏好作为可验证信号的优化路径。该路径通过迭代进行,能有效平衡韵律自然度与转录鲁棒性。 主要实验结果如何:在全新的KoCC-TTS评测集上,迭代DPO方法在人类偏好(ELO分数)上取得了最高分(Round 2: 1190.1),显著优于GRPO(753.7)和商业系统(如Supertone: 1046.9)。同时,其字符错误率(CER)保持在有竞争力的水平(Round 2: 3.60%),远优于GRPO的扩展版本(42.63%)。 ...

2026-04-29