ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents

📄 ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents #基准测试 #模型评估 #多模态模型 #大语言模型 #动态环境 ✅ 7.0/10 | 前25% | #基准测试 | #模型评估 | #多模态模型 #大语言模型 | arxiv 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Fanqing Meng (Evolvent AI, National University of Singapore) - 根据论文附录,其有*号标记为共同贡献者。 通讯作者:Mengkang Hu†, Michael Qizhe Shieh† (Evolvent AI, National University of Singapore) - 根据论文附录,其有†号标记为通讯作者。 作者列表:Fanqing Meng (Evolvent AI, National University of Singapore), Lingxiao Du (National University of Singapore), Zijian Wu (National University of Singapore), Guanzheng Chen (National University of Singapore), Xiangyan Liu (National University of Singapore), Jiaqi Liao (Independent Researcher), Chonghe Jiang (Massachusetts Institute of Technology), Zhenglin Wan (National University of Singapore), Jiawei Gu (University of Washington), Pengfei Zhou (National University of Singapore), Rui Huang (The University of Hong Kong), Ziqi Zhao (The Hong Kong Polytechnic University), Shengyuan Ding (Fudan University), Ailing Yu (Independent Researcher), Bo Peng (Shanghai Jiao Tong University), Bowei Xia (University of Electronic Science and Technology of China), Hao Sun (Peking University), Haotian Liang (University of Science and Technology of China), Ji Xie (Zhejiang University), Jiajun Chen (National University of Singapore), Jiajun Song (Renmin University of China), Liu Yang (The Hong Kong Polytechnic University), Ming Xu (National University of Singapore), Qionglin Qiu (Hunan University), Runhao Fu (Anhui University), Shengfang Zhai (National University of Singapore), Shijian Wang (Southeast University), Tengfei Ma (The Chinese University of Hong Kong), Tianyi Wu (National University of Singapore), Weiyang Jin (The University of Hong Kong), Yan Wang (Tongji University), Yang Dai (National University of Singapore), Yao Lai (The University of Hong Kong), Youwei Shu (National University of Singapore), Yue Liu (National University of Singapore), Yunzhuo Hao (Zhejiang University), Yuwei Niu (Peking University), Jinkai Huang (Evolvent AI, National University of Singapore), Jiayuan Zhuo (Evolvent AI, National University of Singapore), Zhennan Shen (The Hong Kong University of Science and Technology), Linyu Wu (National University of Singapore), Cihang Xie (University of California, Santa Cruz), Yuyin Zhou (University of California, Santa Cruz), Jiaheng Zhang (National University of Singapore), Zeyu Zheng (University of California, Berkeley), Mengkang Hu (Evolvent AI, National University of Singapore), Michael Qizhe Shieh (Evolvent AI, National University of Singapore)。 💡 毒舌点评 亮点:提出了一个设计极其严谨、评估维度(多天、动态环境、全模态)全面且完全杜绝“LLM当裁判”评分模糊性的智能体基准测试,填补了重要空白。短板:作为基准测试,其本身不产出新的模型或算法,对推动模型能力提升的作用是间接的;且100个任务的规模对于构建稳健的排行榜可能稍显不足。 ...

2026-04-29

Combining Multi-Order Attention and Multi-Resolution Discriminator for High-Fidelity Neural Vocoder

📄 Combining Multi-Order Attention and Multi-Resolution Discriminator for High-Fidelity Neural Vocoder #语音合成 #生成模型 #音频生成 #注意力机制 #模型评估 ✅ 6.5/10 | 前50% | #语音合成 | #生成模型 | #音频生成 #注意力机制 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:未明确标注(根据署名顺序,Yan Shi 和 Minchuan Chen 标有星号,可能为共同第一作者) 通讯作者:未明确标注 作者列表:Yan Shi(平安科技,联系邮箱shiyanilj@163.com),Jin Shi(平安科技),Minchuan Chen(平安科技,联系邮箱chenminchuan109@pingan.com.cn),Ziyang Zhuang(平安科技),Peng Qi(上海交通大学重庆人工智能研究院),Shaojun Wang(平安科技),Jing Xiao(平安科技) 💡 毒舌点评 论文提出的MSCA模块将空间与通道注意力以级联方式组合,思路清晰,实验对比也做得非常全面,几乎把主流GAN声码器都拉来对比了一遍。但整篇论文读下来更像是一个“工程优化报告”,缺乏对“为什么这样组合就有效”的深入理论剖析,消融实验虽多,但对模块内部设计选择(如不同卷积核尺寸、扩张率)的探索不足,创新天花板可见。 📌 核心摘要 问题:基于GAN的神经声码器虽然在推理速度和感知质量间取得了平衡,但仍存在两大问题:合成语音存在相位不一致和伪影,以及常见的信号处理导致的模糊伪影。 方法核心:提出两个新模块:多阶空间通道注意力(MSCA) 和 多分辨率全带鉴别器(MRFBD)。MSCA嵌入生成器,通过多阶空间注意力(使用不同尺度的并行深度卷积)和通道注意力(使用自注意力)来增强声学特征表示。MRFBD作为鉴别器,将幅度谱、实部谱和虚部谱作为多分辨率输入,利用多尺度通道注意力和全局特征提取器来同时捕捉局部频谱细节和全局波形一致性。 新意:MSCA通过“多阶”(低、中、高阶特征)和“空间-通道”两阶段注意力来精炼特征。MRFBD的创新在于联合处理幅度、实部和虚部谱(显式利用相位信息),并结合多分辨率分析和轻量通道注意力来提升鉴别能力。 实验结果:在LJ Speech和VCTK数据集上,将MSCA集成到HiFi-GAN (M-H)、BigVGAN (M-B)和Vocos (M-I)中,与原基线模型相比,在UTMOS、MCD、PESQ等客观指标和MOS主观评分上均有提升。例如,M-B在LJ Speech上MOS达到4.42±0.06(BigVGAN为4.39±0.08),在VCTK上MOS为4.02±0.12(BigVGAN为3.84±0.10)。MRFBD的消融实验表明,同时输入幅度、实部、虚部谱的效果优于只用单一谱。M-I配置在保持低FLOPs(13.46G)的同时,获得了较高的语音质量(MOS 4.30±0.09)。 实际意义:为提升GAN声码器的合成质量,尤其是减少模糊伪影和改善高频细节,提供了有效的模块化改进方案。MSCA和MRFBD可作为即插即用组件,应用于其他GAN声码器。 主要局限性:论文对MSCA和MRFBD内部设计选择(如多阶特征的维度划分、注意力头数等)的探索和分析不够深入;作者与机构信息不全,削弱了研究的可信度和溯源性;未提供模型权重和完整复现代码,降低了开源价值。 🏗️ 模型架构 本文主要改进了两个部分:生成器中的特征提取模块(MSCA) 和 鉴别器(MRFBD)。 ...

2026-04-29

Content Leakage in Librispeech and its Impact on the Privacy Evaluation of Speaker Anonymization

📄 Content Leakage in Librispeech and its Impact on the Privacy Evaluation of Speaker Anonymization #语音匿名化 #模型评估 #数据集 #鲁棒性 ✅ 7.5/10 | 前25% | #语音匿名化 | #模型评估 #数据集 | #模型评估 #数据集 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Carlos Franzreb(DFKI, 德国) 通讯作者:未说明 作者列表:Carlos Franzreb(DFKI, 德国)、Arnab Das(DFKI, 德国)、Tim Polzehl(DFKI, 德国)、Sebastian Möller(柏林工业大学, 德国) 💡 毒舌点评 亮点:论文像一名侦探,敏锐地抓住了“说话人匿名化”评估中的一个核心悖论——如果匿名化旨在隐藏身份但保留内容,而内容本身却能暴露身份,那么评估就失去了公平性。研究通过严密的实验设计,将这个潜在的“房间里的大象”清晰地揭示了出来。 短板:文章的核心贡献是提出了问题并推荐了一个更好的“考场”(EdAcc),而非提供解决“考试作弊”(内容泄露攻击)的新“防作弊技术”或新的匿名化算法。对于寻求具体算法改进的读者而言,其直接的技术增量有限。 📌 核心摘要 问题:当前评估说话人匿名化系统(隐私保护能力)的标准数据集Librispeech存在严重缺陷:由于是有声书录音,不同说话人朗读的书籍内容差异巨大,导致攻击者可以仅通过识别说话的“词汇内容”来识别身份,即使身份信息(音色等)已被完美匿名化。 方法:作者提出并验证了这一假设。他们采用了一个“完美”的匿名化器(STT-TTS流水线),它转换了所有副语言信息,只保留转录文本。通过设计仅利用音素频率、音素时长或纯音素序列的攻击者,证明了即使匿名化后,Librispeech的说话人仍能被较好地识别(EER低至32.3%),其根源就是泄露的内容。 创新:1) 首次系统性地揭示了Librispeech内容泄露对隐私评估的干扰;2) 提出并证明EdAcc(自发对话数据集)的内容泄露显著更少,是更公平的评估数据集;3) 提出利用EdAcc的丰富元数据(如口音)进行“人口统计学分段”的隐私评估(内/组间EER),以检测匿名化对不同人群的公平性。 主要实验结果:关键数据见下表。实验表明,对于STT-TTS匿名化后的Librispeech,使用音素时长特征攻击的EER(34.5%)与使用频谱图特征(34.8%)几乎相同,证实了攻击完全基于内容。而EdAcc在相同条件下的EER显著更高(45.0%),证明其内容泄露更少。 数据集 特征 原始语音EER(%) STT-TTS匿名化EER(%) Librispeech 频谱图 0.4 34.8 音素+时长 23.7 34.5 纯音素 30.4 32.3 EdAcc 频谱图 6.5 45.9 音素+时长 39.0 45.0 纯音素 42.1 48.5 实际意义:该研究对语音隐私评估社区有重要警示作用,建议在评估匿名化系统时,必须考虑或换用像EdAcc这样内容泄露更少的数据集,以获得更准确、更公平的隐私保护性能估计。其提出的分段评估方法有助于发现匿名化对不同人群的不公平性。 局限性:EdAcc数据集规模远小于Librispeech(22小时 vs 数百小时),可能带来训练数据不足的问题。论文主要诊断了问题,但并未提出直接针对“内容泄露攻击”的新防御方法。内容泄露在EdAcc中依然存在(尽管较弱),并非完全解决。 🏗️ 模型架构 本文并非提出一个新的端到端匿名化模型,而是一项针对评估方法论的分析研究。其核心“架构”是评估流程: ...

2026-04-29

Cutscene Agent: An LLM Agent Framework for Automated 3D Cutscene Generation

📄 Cutscene Agent: An LLM Agent Framework for Automated 3D Cutscene Generation #大语言模型 #生成模型 #多模态 #模型评估 #工业应用 🔥 8.5/10 | 前25% | #生成模型 | #大语言模型 | #多模态 #模型评估 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文提及“See Contributions section for a full author list”,但未在当前文本中提供完整列表及机构分配详情) 通讯作者:未说明 作者列表:Lanshan He, Haozhou Pang, Qi Gan, Xin Shen, Ziwei Zhang, Yibo Liu, Gang Fang, Bo Liu, Kai Sheng, Shengfeng Zeng, Chaofan Li, Zhen Hui, Keer Zhou, Lan Zhou, Shujun Dai(所属机构均为:Kuaishou GameMind Lab) 💡 毒舌点评 这篇论文最大的亮点在于它跳出了“生成像素视频”的范式,直接面向游戏工业生产的实际痛点,构建了一个能生成可编辑、可迭代的UE引擎原生资产的智能体框架,系统性很强;但其核心创新更多是巧妙的工程集成与系统设计,而非底层模型或算法的突破,且当前能力边界清晰(主要针对对话驱动的过场动画),离“通用3D叙事生成”还有距离。 ...

2026-04-29

DISSR: Disentangling Speech Representation for Degradation-Prior Guided Cross-Domain Speech Restoration

📄 DISSR: Disentangling Speech Representation for Degradation-Prior Guided Cross-Domain Speech Restoration #语音增强 #扩散模型 #对比学习 #领域适应 #模型评估 ✅ 7.5/10 | 前25% | #语音增强 | #扩散模型 | #对比学习 #领域适应 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Ziqi Liang(蚂蚁集团,杭州) 通讯作者:Jian Wang(蚂蚁集团,杭州,bobblair.wj@antgroup.com) 作者列表:Ziqi Liang(蚂蚁集团),Zhijun Jia(蚂蚁集团),Chang Liu(中国科学技术大学,合肥),Minghui Yang(蚂蚁集团),Zhihong Lu(蚂蚁集团),Jian Wang(蚂蚁集团)。 注:作者贡献标注为† Equal Contribution,故Ziqi Liang与Zhijun Jia贡献相当。 💡 毒舌点评 亮点:论文直击现有语音修复模型跨说话人风格泛化能力差的痛点,并提出了一个新颖的假设——降质信息与说话人风格解耦,并据此设计了引导扩散模型的先验模块,思路清晰且具有启发性。短板:支撑“降质信息包含在说话人风格中”这一核心假设的实验(图3)略显间接,分类器收敛快慢并不能直接等同于“说话人风格”特征包含了全部且纯粹的“降质”信息,论证链不够坚实。 📌 核心摘要 解决的问题:现有语音修复方法多为针对单一失真的特定模型,泛化能力差,尤其是面对训练时未见过的说话人风格(跨域)时性能下降明显。 方法核心:提出DisSR模型,核心思想是将退化语音解纠缠为内容、说话人风格和降质表示。其中,降质表示被设计为说话人无关的先验信息,并用于条件引导一个基于扩散模型的恢复网络。同时,引入跨域对齐训练来最小化不同说话人分布间的差距。 创新点:1) 提出并实验验证了降质信息主要存在于说话人风格表示中的假设;2) 利用说话人无关的降质先验引导扩散模型进行通用语音修复;3) 设计了针对降质编码器的跨域对齐训练策略以提升模型泛化能力。 主要实验结果:在跨语言(英→中/日)跨说话人测试集上,DisSR在DNSMOS、PESQ-wb、MCD三项指标上均优于VoiceFixer、SelfRemaster和SGMSE+M基线模型(例如在LibriTTS→VCTK英文测试集上,PESQ-wb为3.02,相比最优基线SGMSE+M的2.74有显著提升)。在单任务修复(如带宽扩展、去噪)中,DisSR也展现出竞争力,总体感知质量(COVL)占优。消融实验表明,所提出的各组件(多层级降质先验、降质表示学习、跨域对齐损失)均对性能有贡献。 实际意义:为构建能处理多种失真且对新说话人鲁棒的通用语音修复系统提供了一种新思路,具有较强的实用价值。 主要局限性:核心假设的直接验证稍显薄弱;实验中假设“每条语音内降质相同,语音间变化”,这与真实世界复杂场景可能存在差距;未公开代码与模型,限制了可复现性。 🏗️ 模型架构 DisSR的整体架构如图2所示,主要分为两个协同工作的模块:说话人无关的降质解纠缠模块和跨域语音恢复模块。 ...

2026-04-29

Do Bias Benchmarks Generalise? Evidence from Voice-Based Evaluation of Gender Bias in Speechllms

📄 Do Bias Benchmarks Generalise? Evidence from Voice-Based Evaluation of Gender Bias in Speechllms #模型评估 #基准测试 #语音大模型 #数据集 🔥 8.0/10 | 前25% | #模型评估 | #基准测试 | #语音大模型 #数据集 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1 | 置信度 高 👥 作者与机构 第一作者:Shree Harsha Bokkahalli Satish(KTH皇家理工学院语音、音乐与听觉系) 通讯作者:未说明 作者列表:Shree Harsha Bokkahalli Satish(KTH皇家理工学院语音、音乐与听觉系)、Gustav Eje Henter(KTH皇家理工学院语音、音乐与听觉系)、Éva Székely(KTH皇家理工学院语音、音乐与听觉系) 💡 毒舌点评 亮点:论文直击当前AI公平性评估的软肋,通过巧妙的“注入偏差-测试迁移”实验设计,系统性地质疑了MCQA基准的有效性,逻辑清晰,实验设计具有启发性。短板:所有模型测试均基于合成TTS语音,现实世界中自然语音的变异性可能更大,偏差表现可能不同,这使得结论的普适性打了点折扣;且实验仅关注性别偏差,未扩展到其他社会属性。 📌 核心摘要 问题:当前评估语音大模型(SpeechLLMs)性别偏差主要依赖多选题(MCQA)基准,但此类基准是否能可靠预测模型在更自然、更长篇任务中的真实偏差表现尚不清楚。 方法:研究者使用LoRA微调技术,刻意诱导三个SpeechLLM在SAGE和Spoken StereoSet两个MCQA基准上表现出刻板、反刻板或中性/不确定的行为。然后,他们评估这些诱导出的行为是否会跨基准迁移,以及是否会迁移到更现实的长篇生成任务(SAGE-LF评估套件)。 创新:与以往侧重缓解偏差或仅讨论MCQA局限性的工作不同,本研究首次在语音领域通过实验证明了MCQA偏差基准的跨任务(跨MCQA基准)和跨格式(MCQA到长篇任务)迁移存在严重不一致性。同时,引入了新的、针对语音和真实场景(如AI治疗、职业建议)的评估套件SAGE。 主要结果:实验显示,在单一MCQA基准上微调诱导的行为能近乎完美地保留(如SAGE→SAGE),但跨基准迁移(SAGE→SSS)效果不一致且显著削弱。更关键的是,MCQA上训练出的“反刻板”或“无偏见”行为,在长篇任务中几乎无法可靠地转化为对应的公平输出,效果微弱且维度不一致。例如,微调使LLaMA-Omni模型在长篇任务中为女性建议护理角色,为男性建议管理角色的情况依然存在。 实际意义:研究强烈表明,仅依赖MCQA基准来评估和声称SpeechLLMs的公平性是不可靠的。当前基准可能只捕捉到偏差的狭窄切片,无法预测模型在真实应用场景中的行为。这呼吁学术界和工业界转向更全面、更贴近实际使用的多维度评估框架。 局限性:实验使用的语音输入均为商业TTS生成,可能缺乏人类语音的自然变异性;评估长篇任务的“公平性”依赖LLM评判器,尽管有人工验证,但仍可能存在偏差;研究仅聚焦性别偏差,未涉及种族等其他交叉性社会属性。 🏗️ 模型架构 本文并未提出新的模型架构,而是对现有的三个SpeechLLM进行微调和评估。整体实验流程与架构如下: 基础模型:选用了三个不同的SpeechLLM作为研究对象: Qwen2-Audio-7B-Instruct:专为音频和指令跟随任务构建。 LTU-AS (Listen, Think and Understand-Audio Speech):联合训练用于语音、语言理解和音频推理。 LLaMA-Omni:具备语音处理能力的多模态模型。 微调方法:对所有模型的LLM主干网络应用LoRA适配器。适配器被应用到所有注意力(q/k/v/o投影)和前馈网络(gate/up/down投影)的投影矩阵上,以改变LLM处理和利用语音编码器生成的表示的方式,同时保持语音编码器本身的性别相关表示不变。 数据流:输入为语音音频(可能包含特定性别的TTS声音)和对应的文本问题/指令。语音信号经由模型的语音编码器处理成嵌入表示,随后与文本提示一起输入LLM主干网络(经由LoRA适配)进行处理,最终输出多选题答案或长篇文本生成。 关键设计选择:选择LoRA进行轻量级微调,目的是在不大幅修改模型参数的前提下,有针对性地诱导特定行为(如总是选择刻板选项),以便清晰地测试这种行为的迁移性。仅修改LLM主干而保留语音编码器,是为了隔离变量,观察偏差在“处理”阶段而非“感知”阶段的变化。 💡 核心创新点 对评估范式的系统性质疑:不同于以往研究可能隐含假设基准有效性,本文明确将“基准通用性”作为核心研究问题,并通过控制变量实验(诱导特定行为并测试其迁移)来系统性验证,为评估方法论本身提供了批判性实证。 引入面向语音的、贴近现实的评估套件(SAGE & SAGE-LF):针对现有语音偏差评估数据集的不足,作者创建了SAGE MCQA套件(解决共指歧义、关联职业与声音���和SAGE-LF长篇任务套件(涵盖治疗、职业建议、面试筛选、故事生成),使评估更贴近SpeechLLMs的真实应用场景。 “注入-测试”迁移性实验范式:方法论上具有创新性。不同于直接评估模型现有偏差或微调后整体偏差水平,本文通过LoRA主动诱导三种对比鲜明的偏差行为(刻板、反刻板、中性),再严格测试这些特定行为的可迁移性。这提供了更干净的因果证据,证明基准行为与下游行为之间的关联性薄弱。 🔬 细节详述 训练数据: MCQA微调与评估:使用Spoken StereoSet (SSS) 性别子集(2847个样本,其中285个留作测试)和新建的SAGE MCQA套件(600个核心样本 + 400个无歧义样本,其中200个留作测试)。SAGE由15个场景、20个TTS声音(10男10女)、2个职业位置排列生成。 长篇评估:使用新建的SAGE-LF评估套件,包含80个样本(20个声音 × 4个任务),任务基于AI治疗、职业建议、面试筛选和故事生成。 损失函数:未说明(标准的语言建模交叉熵损失用于监督微调)。 训练策略: 微调方法:LoRA适配器。 适配器秩 (Rank):在{4, 8}中选择,以控制模型内化行为的能力。 训练目标:为每个模型训练5个变体:2个反刻板、2个刻板、1个中性(因SSS中有“无关”选项,故不训练选择“无关”)。标签是期望的答案字母后跟完整答案文本。 训练过程:在保留集上微调直至收敛。未提供具体的学习率、批大小、优化器、训练步数/轮数。 关键超参数: 推理温度:所有生成均使用温度0.7,并在0.0和1.0时进行抽查。 训练硬件:未说明。 推理细节:解码策略未明确说明,但温度0.7暗示使用了采样。 正则化或稳定训练技巧:未提及。 评估方法: MCQA评估:计算选择刻板、反刻板、中性、无关选项的百分比。 长篇任务评估:使用gemini-2.5-flash-lite-preview-06-17 API作为LLM评委,对每个输出在4个任务对应的12个维度上进行1-5分评分(见表1)。评估时未向评委暴露输入性别。 统计检验:使用Mann-Whitney U检验判断微调模型与基线模型间评分是否存在显著差异。 人工验证:在60个随机抽样的响应(180个评分)上,3位人类标注者与LLM评委的总体一致性为85.7%,标注者间一致性为75.2%。 📊 实验结果 跨基准MCQA迁移结果 (Table 2) 论文报告了跨基准微调后的选择比例。关键结论是:同基准微调效果极佳(如SAGE→SAGE,S→S比例接近100%),但跨基准迁移效果弱且不一致。 表2. MCQA微调结果(跨基准测试集,LoRA rank=8) ...

2026-04-29

Do Speech LLMs Learn Crossmodal Embedding Spaces?

📄 Do Speech LLMs Learn Crossmodal Embedding Spaces? #语音大模型 #模型评估 #跨模态 #音频检索 ✅ 6.5/10 | 前50% | #音频检索 | #模型评估 | #语音大模型 #跨模态 学术质量 5.5/7 | 选题价值 0.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Carlos Escolano(TALP Research Center, Universitat Politècnica de Catalunya) 通讯作者:未说明 作者列表:Carlos Escolano(TALP Research Center, Universitat Politècnica de Catalunya)、Gerard Sant(University of Zurich)、José A.R. Fonollosa(TALP Research Center, Universitat Politècnica de Catalunya) 💡 毒舌点评 本文最大的亮点是提供了一个系统且可量化的框架来“解剖”语音大模型的黑箱内部,明确指出了当前主流架构在“让模型听懂语义”与“保留说话人特征”之间难以兼得的根本困境,为后续研究提供了清晰的“病历本”。短板在于,作为一篇诊断性工作,它揭示了问题却几乎没开药方,且仅对比了几个特定模型,结论的普适性有待更广泛模型的验证。 📌 核心摘要 要解决的问题:语音大模型(Speech LLMs)需要将语音信号映射到LLM的文本嵌入空间,但这一映射过程的性质(是否形成良好的跨模态嵌入空间)和代价(是否会丢失副语言信息)尚未被系统研究。 方法核心:提出一套评估指标(各向同性分数IsoScore、Hubness的Robin Hood分数、关系相似性RS),并结合跨模态检索、性别分类、口音分类等探针任务,对不同架构的语音大模型(保留连续语音编码器表示 vs. 从头学习离散语音单元)进行系统分析。 与已有方法相比新在哪里:首次从嵌入空间几何属性(各向同性、Hubness、同构性)的角度,定量对比了纯编码器模型(SONAR)与多种解码器架构的语音大模型(Spire, Qwen2-Audio, Phi4-Multimodal)。明确揭示了现有语音大模型在跨模态对齐质量上仍逊于专门的多模态编码器,并发现了两种主流设计范式(连续表示 vs. 离散表示)在语义对齐和副语言信息保留方面存在的根本性权衡。 主要实验结果: 跨模态映射属性:在FLEURS数据集上,所有语音大模型的IsoScore均低于0.05,远低于SONAR的0.0425;RH分数(越低越好)均高于0.35,差于SONAR的0.25;RS分数(越高越好)均低于0.55,远低于SONAR的0.94。 检索性能:在FLEURS(精确句对)和Spoken SQuAD(主题匹配)数据集上,语音大模型的Top-1检索准确率(FLEURS @1)在16-18%之间,与SONAR(19.19%)接近,但Spire稍弱(11.54%)。 副语言信息保留与权衡:使用连续编码器的模型(Phi4, Qwen2)在浅层能很好地区分性别(准确率~85%)和口音,但随着层深增加,性能显著下降(见图1)。而使用离散单元的Spire则能稳定保留性别信息(全层>82%),但在SD-QA数据集的口音分类上,对某些口音(如IND-S, NGA)的准确率下降近20%,显示鲁棒性不足(见表2)。 关键数据表格: 模型 IsoScore ↑ RH ↓ RS ↑ FLEURS @1 ↑ Spoken SQUAD @1 ↑ SONAR 0.0425 0.25 0.94 54.25% 19.19% Phi4-Multimodal 0.0004 0.35 0.53 54.04% 16.37% Qwen2-Audio 0.0002 0.41 0.55 53.55% 18.35% Spire 0.0001 0.43 0.16 50.17% 11.54% 实际意义:为语音大模型的设计提供了重要启示:1)当前基于LLM的架构在跨模态嵌入空间质量上仍有很大提升空间,可能需要更复杂的非线性映射。2)模型设计者必须在“保持语义对齐强度”与“保留丰富的副语言信息/对多样口音的鲁棒性”之间做出明确权衡。 主要局限性:研究局限于对4个特定模型的分析,结论的普适性需要在更多模型上验证;所提出的评估框架本身可能需要更多验证;论文主要进行诊断分析,未提出具体的改进模型或算法来解决所发现的权衡问题。 🏗️ 模型架构 本文是一篇分析性论文,核心是评估而非提出新模型。因此,模型架构部分主要描述所评估的四个模型�� ...

2026-04-29

Do You Hear What I Mean? Quantifying the Instruction-Perception GAP in Instruction-Guided Expressive Text-to-Speech Systems

📄 Do You Hear What I Mean? Quantifying the Instruction-Perception GAP in Instruction-Guided Expressive Text-to-Speech Systems #语音合成 #模型评估 #数据集 #语音情感识别 #人类感知评估 🔥 8.0/10 | 前25% | #语音合成 | #模型评估 | #数据集 #语音情感识别 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yi-Cheng Lin(National Taiwan University) 通讯作者:未说明 作者列表:Yi-Cheng Lin(National Taiwan University)、Huang-Cheng Chou(University of Southern California)、Tzu-Chieh Wei(University of Michigan)、Kuan-Yu Chen(National Taiwan University)、Hung-yi Lee(National Taiwan University) 💡 毒舌点评 亮点在于精准定义了指令引导TTS领域一个被忽视的关键问题——“指令-感知鸿沟”,并首次系统性地引入了程度副词和情感强度形容词这两个细粒度维度进行量化评估,为未来研究提供了明确的改进靶点和高质量的基准数据集(E-VOC)。短板是,虽然评估框架设计精巧,但论文在分析环节更侧重于现象描述(如“模型倾向于生成成人声音”),对于导致这些现象的模型架构差异、训练数据偏差等深层原因挖掘不足,使得结论的启发性略打折扣。 📌 核心摘要 要解决什么问题:当前指令引导的文本转语音(ITTS)系统虽允许用户通过自然语言控制语音风格,但用户指令与听众感知之间的实际对齐程度,尤其是对细粒度属性(如不同强度的情感、不同年龄的声音)的控制能力,尚未被系统性量化研究,存在一个“指令-感知鸿沟”。 方法核心:本文提出了一个全新的评估框架,首次引入“程度副词”(如 slightly, extremely)和“情感强度形容词”(如 Content, Happy, Ecstatic)作为控制维度,结合传统的说话人年龄和词汇重音控制任务,对ITTS系统进行综合评估。为此,他们构建了一个名为E-VOC(Expressive VOice Control)的大规模人类评估数据集,包含超过60,000个人类评分。 与已有方法相比新在哪里:不同于以往研究仅使用粗粒度的情感或风格标签(如“快乐”),或依赖自动分类器进行客观评估,本工作首次在人类感知评估中纳入了连续、分级的表达属性(程度和情感强度),并通过大规模众包获得了可靠的人类感知基准,更直接地反映了用户意图与最终感知的差异。 主要实验结果如何:评估了5个代表性ITTS系统。结果显示:(1) gpt-4o-mini-tts是唯一能在响度、音高、语速和情感强度上可靠遵循程度指令并产生可感知梯度变化的模型。(2) 所有模型在控制说话人年龄方面表现均不佳(最佳准确率仅29.4%),且普遍倾向于生成“成人”声音,即使指令要求“儿童”或“老人”声音。(3) 词汇重音控制极具挑战性,最佳模型(gpt-4o)的准确率也仅为26.5%。具体关键数据见下表。 任务 模型 关键指标(数值) 说话人年龄 (Age) 总体准确率 (最高) 0.294 (Parler-large) 总体准确率 (gpt-4o) 0.289 F1-score (Child, 最高) 0.113 (Parler-large) F1-score (Elderly, 最高) 0.339 (UniAudio) 词汇重音 (Emphasis) 总体准确率 (最高) 0.265 (gpt-4o) 总体准确率 (随机基线) ≈0.143 实际意义是什么:本工作为ITTS系统的评估和开发建立了新的、更贴近真实用户需求的基准。E-VOC数据集的公开将极大推动该领域在细粒度控制、人类感知对齐等方面的研究,并为开发更可靠的自动评估工具提供了训练数据。 主要局限性是:研究仅评估了5个模型,结论的普适性需验证;论文未对导致“指令-感知鸿沟”的具体模型架构或训练因素进行深入分析;评估仅限英语,未涉及多语言场景。 🏗️ 模型架构 论文中未提供具体的模型架构图或详细描述。本文的核心贡献是评估框架、数据集和分析方法,而非提出一个新的TTS模型。文中所评估的ITTS系统(如Parler-TTS, PromptTTS++, gpt-4o-mini-tts)均为已有系统,论文重点在于评估它们在新维度上的表现,而非剖析其内部架构。 ...

2026-04-29

DSRMS-TransUnet: A Decentralized Non-Shifted Transunet for Shallow Water Acoustic Source Range Estimation

📄 DSRMS-TransUnet: A Decentralized Non-Shifted Transunet for Shallow Water Acoustic Source Range Estimation #声源定位 #自回归模型 #端到端 #鲁棒性 #模型评估 🔥 8.0/10 | 前10% | #声源定位 | #端到端 | #自回归模型 #鲁棒性 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Bin Zhang(中国海洋大学计算机科学与技术系) 通讯作者:Peishun Liu(中国海洋大学计算机科学与技术系) 作者列表:Bin Zhang† (中国海洋大学计算机科学与技术系), Jiawen He† (中国海洋大学计算机科学与技术系), Liang Wang‡ (中国海洋大学海洋技术系), Wenxu Wang† (中国海洋大学计算机科学与技术系), Ruichun Tang† (中国海洋大学计算机科学与技术系), Peishun Liu†⋆ (中国海洋大学计算机科学与技术系) 💡 毒舌点评 论文亮点在于巧妙地将复杂的复值协方差矩阵分解为双通道实值图像进行处理,避免了复杂的复数运算,同时用深度可分离卷积和RMSNorm大幅降低了原始TransUNet的计算量,实现了“轻量化”与“高性能”的结合。然而,论文标题和摘要中强调的“去中心化”和“非移位”这两个关键特性,在正文的方法描述和实验中几乎找不到具体的实现细节或与传统集中式、移位机制的对比实验,使得这部分贡献显得有些悬空。 📌 核心摘要 要解决什么问题? 水下声学被动定位中,声源测距任务受介质吸收、多径效应和噪声影响严重,传统匹配场处理方法对信噪比敏感且依赖精确的环境参数,性能不稳定。 方法核心是什么? 提出DSRMS-TransUNet模型。核心在于:a) 将接收信号的复协方差矩阵分解为实部和虚部两个独立通道输入,保留了完整的空间结构;b) 在编码器-解码器框架中用深度可分离卷积替代标准卷积以减少参数;c) 引入基于RMSNorm的轻量化视觉Transformer(RViT)以增强全局特征捕获能力并简化计算。 与已有方法相比新在哪里? 首次提出将复协方差矩阵分解为双通道实值特征图输入深度学习模型。创新性地结合了DSC的轻量化和ViT的长程依赖建模能力,并对ViT进行了针对水声特征的RMSNorm优化。采用端到端的网格分类方式进行测距。 主要实验结果如何? 在模拟数据上,模型在噪声条件下相比基线(TransUNet)准确率提升超过19%。在真实数据集SWellEx-96的两个阵列(HLAH, HLAS)上,分别取得了91%和94%的准确率,均方根误差(RMSE)低至0.0426和0.1011,在准确率和误差指标上均优于MFP、Transformer、Conformer等传统及深度学习方法。关键实验数据见下表。 模型 参数量 仿真-无噪声准确率 HLAH准确率 HLAS准确率 HLAH RMSE HLAS RMSE Baseline (TransUNet) 74,905,776 74.75% 78% 78% 0.1426 0.3597 DS-TransUnet 54,834,050 82.75% 84% 87% 0.0991 0.3249 DSRMS-TransUnet 54,817,666 100.00% 91% 94% 0.0426 0.1011 MFP (传统方法) - - - - 0.2679 0.4897 实际意义是什么? 为浅海环境下的水下被动声源测距提供了一种高精度、高鲁棒性的深度学习解决方案,其轻量化的设计有利于在资源受限的水下设备上部署。 主要局限性是什么? a) 论文标题中的“去中心化”和“非移位”特性在方法描述中未详细阐述,具体实现机制不明确;b) 对于水下声学这一高度依赖物理模型的领域,纯数据驱动模型的泛化性和在极端未知环境下的鲁棒性有待更多验证;c) 训练策略、超参数等复现关键信息缺失。 🏗️ 模型架构 DSRMS-TransUNet是一个端到端的深度学习模型,整体分为特征提取、特征学习、特征评估三个阶段。 ...

2026-04-29

Efficient Audio-Visual Inference Via Token Clustering And Modality Fusion

📄 Efficient Audio-Visual Inference Via Token Clustering And Modality Fusion #音频问答 #音视频 #多模态模型 #预训练 #模型评估 ✅ 7.5/10 | 前25% | #音频问答 | #音频大模型 #多模态模型 | #音视频 #多模态模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Chenjie Pan(华南师范大学) 通讯作者:Chenyou Fan(华南师范大学) 作者列表:Chenjie Pan(华南师范大学)、Yi Zhu(华南师范大学)、Songkai Ning(华南师范大学)、Xiangyang Liu(华南师范大学)、Weiping Zheng(华南师范大学)、Chenyou Fan(华南师范大学) 💡 毒舌点评 亮点:论文精准地抓住了当前音视频LLM中音频模态token冗余这一关键痛点,提出的无参动态聚类压缩策略(ATCC)在大幅削减token数量(96%)和计算量(54%)的同时,性能不降反升,这证明其压缩确实保留了有效信息,而非简单丢弃。 短板:创新性更多体现在“组合”与“针对特定场景的优化”上,其核心的聚类算法和双向交叉注意力融合均为成熟技术的直接应用;此外,论文声称的性能提升幅度(0.6%-3.7%)相对有限,且绝对数值并未显著超越表中列出的所有最强基线(如PAVE在Music-AVQA上仍略高)。 📌 核心摘要 解决的问题:多模态大语言模型在处理音视频问答任务时,因音频和视觉token数量庞大导致计算和内存开销高,且现有的融合方法往往忽略了音频token的冗余问题,影响了效率和跨模态对齐效果。 方法核心:提出高效音视频推理框架(EAVI),包含两个核心组件:(1) 音频token聚类压缩(ATCC),通过动态阈值聚类在保留时序结构的前提下压缩音频token;(2) 双向模态融合模块,通过交叉注意力让压缩后的音频特征与视觉特征相互增强。 与已有方法的新颖之处:不同于以往工作主要压缩视觉token或进行简单拼接,EAVI首次专门针对音频模态设计了一种无需额外训练参数的动态聚类压缩方法,并引入了双向的跨模态注意力机制,使融合更加充分。 主要实验结果:在三个AVQA基准数据集上,EAVI相比强基线VideoLLaMA2,准确率提升了0.6%-3.7%。效率方面,音频token数量平均减少96%,总token减少66%,导致FLOPs降低54%,KV缓存使用减少65%,推理延迟降低15%。 主要对比结果: 模型 Music-AVQA VGGSound AVSD CREMA (2025) 75.6 67 - VideoLLaMA2 (2024) 80.9 71.4 57.2 PAVE (2025) 82.3 - 42.5 EAVI (Ours) 81.5 (+0.6) 75.1 (+3.7) 58.7 (+1.5) 效率对比: 模型 Tokens (Audio / Total) FLOPs (T) Latency (S) KV cache (MB) VideoLLaMA2 1496 / 2172 40.3 1.13 120 EAVI (Ours) 66 / 742 15.4 0.96 42 实际意义:为在资源受限的设备上部署实时、高效的音视频问答模型提供了可行的技术路径,通过压缩减少了对计算和内存资源的需求。 主要局限性:聚类压缩可能导致细微语义信息的丢失;模型的最终性能仍强依赖于底层预训练的视觉和音频编码器;在对话理解(AVSD)等任务上的提升幅度相对较小。 🏗️ 模型架构 EAVI框架的整体架构如图2(左)所示。它建立在类似VideoLLaMA2的架构之上,主要改进了音频处理和跨模态融合部分。 ...

2026-04-29