Gemini Embedding 2: A Native Multimodal Embedding Model from Gemini

📄 Gemini Embedding 2: A Native Multimodal Embedding Model from Gemini #多模态模型 #对比学习 #语音识别 ✅ 7.9/10 | 前25% | #语音识别 | #对比学习 | #多模态模型 | arxiv 学术质量 5.9/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 Madhuri Shanbhogue, Zhe Li, Shanfeng Zhang, Gustavo Hernández Ábrego, Shih-Cheng Huang, Aashi Jain, Daniel Salz, Sonam Goenka, Chaitra Hegde, Ji Ma, Feiyang Chen, Jiaxing Wu, Tanmaya Dabral, Babak Samari, Kevin Poulet, Daniel Cer, Kaifeng Chen, Paul Suganathan, Hui Hui, Jovan Andonov, Philippe Schlattner, Jay Han, Iftekhar Naim, Wing Lowe, Vladimir Pchelin, Albert Yang, Yi-Ting Chen, Zhongli Ding, Grace Zhang, Georg Heigold, Yichang Chen, Antoine Reveillon, Brendan Mccloskey, Wenlei Zhou, Dahun Kim, Rui Meng, Emma Wang, Jack Zheng, Halley Fede, Zhen Yang, Keegan Mosley, Brian Potetz, Sahil Dua, Henrique Schechter Vera, Shen Gao, Hesen Zhang, Andreas Hess, Hengxuan Ying, Alberto Montes, Karan Gill, Min Choi, Sebastian Russo, Anja Hauth, Jinhyuk Lee, Michael Boratko, Megan Barnes, Vikram Rao, Claudiu Musat, Cyril Allauzen, Ehsan Variani, Shankar Kumar, Tom Bagby, Junyi Jiao, Yang Gu, Tengxin Li, Ayush Agrawal, Roberto Santana, Dev Nath, Stephen Karukas, Shuoxuan Han, Lucia Loher, Alice Twu, Nidhi Vyas, Siddharth Bhai, Frank Palma Gomez, Wangyuan Zhang, Chaoren Liu, Jizheng Yang, Steve Qiu, Shijie Zhang, Sujay Kulkarni, Sascha Rothe, Sean Nakamoto, Raphael Hoffmann, Zach Gleicher, Yunhsuan Sung, Qin Yin, Tom Duerig, Mojtaba Seyedhosseini(共81位作者)。 ...

2026-05-28 · 更新于 2026-06-19 · 3 min · 634 words

MTAVG-Bench 2.0: Diagnosing Failure Modes of Cinematic Expressiveness in Multi-Talker Audio-Video Generation

📄 MTAVG-Bench 2.0: Diagnosing Failure Modes of Cinematic Expressiveness in Multi-Talker Audio-Video Generation #语音生成 #多模态模型 #基准测试 🔥 9.9/10 | 前25% | #语音生成 | #多模态模型 | #基准测试 | arxiv 学术质量 6.3/7 | 影响力 1.7/2 | 可复现性 1.9/2 | 置信度 高 👥 作者与机构 Haitian Li, Yanghao Zhou, Heyan Huang, Liangji Chen, YiMing Cheng, Xu Liu, Dian Jin, Jiajun Xu, Jingyun Liao, Tian Lan, Ziqin Zhou, Yueying Liu, Yu Bai, Changsen Yuan, Jinxing Zhou, Xian-Ling Mao, Xuefeng Chen, Yousheng Feng。机构包括:上海大学、北京理工大学、上海戏剧学院、清华大学、合肥工业大学、字节跳动(Inkeverse)、阿德莱德大学、北京工业大学、北京人工智能研究院、OpenNLP Lab。 ...

2026-05-28 · 更新于 2026-06-19 · 3 min · 486 words

SMILE-Next: Teaching Large Language Models to Detect, Classify, and Reason about Laughter

📄 SMILE-Next: Teaching Large Language Models to Detect, Classify, and Reason about Laughter #多模态模型 #参数高效微调 #语音情感识别 #指令微调 #大语言模型 🔥 8.7/10 | 前25% | #语音情感识别 | #参数高效微调 | #多模态模型 #指令微调 | arxiv 学术质量 6.1/7 | 影响力 1.5/2 | 可复现性 1.1/2 | 置信度 高 👥 作者与机构 Lee Jung-Mok, Kim Sung-Bin, Joohyun Chang, Lee Hyun, Tae-Hyun Oh (通讯作者)。机构:1) 韩国高等科学技术院(KAIST)电气工程学院;2) 浦项科技大学(POSTECH)电气工程系;3) 韩国高等科学技术院(KAIST)计算学院。 💡 毒舌点评 这篇工作就像给大语言模型装上了一个“笑声解码器”。作者很聪明地避开了处理原始音视频的泥潭,转而将所有多模态信号“翻译”成文本,让LLM用它最擅长的阅读理解来分析笑声。SMILE-Next数据集和MoLE框架都是扎实的工程贡献。然而,审稿人看到“文本化”这招会觉得有点似曾相识(论文自己也承认受Hyun et al., 2024启发),创新深度有限。更关键的是,把笑声这种极度依赖语境和微妙非语言线索的行为完全文本化,可能丢失了大量信息,而论文对此的验证不足。此外,数据集Fleiss’ Kappa仅为0.42(中等一致性),这就像用一把刻度不准的尺子去量东西,最后模型的“优越性”打了多少折扣?7.5分,算是对扎实工作的肯定,但离顶会突破性工作还有距离。 📌 核心摘要 本文针对笑声这一复杂社交信号的理解提出了综合性框架。研究者首先构建了SMILE-Next数据集,包含笑声检测、类型分类(愉快、礼貌、讽刺)和推理三项任务,数据来源于多种真实对话场景,并提供了将视觉、声学、关系等多模态信息转换后的文本化表示及问答标注。基于此,他们提出两个核心组件:1) 笑声特定自指令:利用GPT-4合成多样化指令数据以增强泛化能力;2) 混合笑声专家框架:一种基于LoRA的参数高效微调方法,通过动态路由器为不同任务分配专门的专家模块。实验表明,结合自指令和MoLE的纯文本LLM方案在各项指标上均优于直接处理原始音视频的多模态LLM(如Qwen2.5-Omni)和视觉LLM(如Video-LLaVA)。消融研究证实了多模态文本化表示、自指令和MoLE的有效性。论文贡献了首个综合性多任务笑声理解数据集,并证明了将多模态信号文本化后输入LLM是一种有效的笑声分析范式。 🔗 开源详情 代码:论文中未提及提供代码仓库。 模型权重:论文中未提及提供预训练模型下载链接。 数据集:论文中提及了SMILE-Next数据集,并提供了项目主页(https://mok0102.github.io/smile-next/),但未明确说明数据集是否公开发布及具体的下载协议。 Demo:论文中未提及在线演示。 复现材料:论文在附录和正文中提供了较多实现细节(如LoRA配置\(r=8, \alpha=16\),训练使用DeepSpeed ZeRO-3,批次大小,学习率等),但缺少完整的训练代码和预处理脚本,完全复现仍存在障碍。 论文中引用的开源项目:主要包括WhisperX, DeepSpeed, LoRA, Self-Instruction框架,以及Vicuna, LLaMA, Qwen系列等模型和MiniCPM-o, Video-LLaVA等基线模型。具体链接已在论文中给出或为众所周知的项目。 🏗️ 方法概述和架构 本文提出一个用于笑声理解的统一LLM框架,其核心思想是将多模态信号文本化后,利用LLM的推理能力进行处理。该框架主要包含两个关键组件:笑声特定自指令和混合笑声专家框架。 ...

2026-05-28 · 更新于 2026-06-19 · 2 min · 359 words

Unified Synthesis of Compositional Speech and Sound from Free-Form Text Prompts

📄 Unified Synthesis of Compositional Speech and Sound from Free-Form Text Prompts #语音合成 #多任务学习 #自回归模型 #生成模型 #对比学习 #多模态模型 #数据增强 🔥 8/10 | 前25% | #语音合成 | #多任务学习 | #自回归模型 #生成模型 | arxiv 学术质量 6/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 第一作者:Yuyue Wang(中国人民大学) 通讯作者:Xihua Wang(中国人民大学) 机构:中国人民大学 💡 毒舌点评 一篇动机明确、架构清晰的工作,定义了‘自由文本到统一音频生成’这一有潜力的任务,并提出了一个不错的解决方案。然而,如同许多初次尝试定义新任务的工作,其‘统一’的光环在实验部分略显褪色。基线选择过于保守,仅与较早的VoiceLDM和流水线方法对比,对近期涌现的AudioBox、Fugatto等强力竞争对手视而不见,这让其‘优越性’的宣称打了折扣。实验部分更像是精心设计的‘能力展示’而非公平‘竞技场’,尤其是主观评估样本量仅50个,说服力有限。论文的‘未来工作’比‘当前工作’更有吸引力。整体是一篇扎实但不够大胆的论文,创新有余,验证不足。 📌 核心摘要 本文针对“自由文本提示生成统一音频”这一新任务,提出了PlanAudio框架。该任务旨在直接从自然语言提示合成包含语音、音效及其复合交互的统一音频流。PlanAudio是一个基于自回归LLM的统一模型,其核心创新是引入“语义潜在思维链”机制,在连续语义空间进行隐式规划,以桥接高语义理解与低层声学生成。模型采用单一Transformer骨干,直接处理文本,无需外部文本编码器或重写模块。作者还构建了专用的复合音频评估基准PlanAudio-Bench。实验表明,PlanAudio在复合场景下优于基线方法,并在单独音效和语音任务上保持竞争力。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重的公开链接。 数据集:论文中提及基于以下公开数据集构建训练数据,并合成了新的基准数据集。具体获取方式如下: AudioSet: 论文用于合成复合音频数据,未提供数据集本身的直接链接。 AudioCaps: 论文用于声音生成评估,未提供链接。 WavCaps: 论文用于声音生成,未提供链接。 LibriTTS: 论文用于语音生成评估,未提供链接。 PlanAudio-Bench:论文中提出的新基准测试集,论文中未提及公开获取链接。 Demo:论文中未提及。 复现材料:论文中未提及训练配置、检查点等复现材料的公开链接。 论文中引用的开源项目: Qwen2.5-1.5B: 作为模型初始化的基础LLM。 链接: https://huggingface.co/Qwen/Qwen2.5-1.5B AudioCraft tokenizer: 用于将音频离散化为分层标记。 链接: https://github.com/facebookresearch/audiocraft AF3Encoder (Audio Flamingo 3 Encoder): 用于提取语义表示。 论文中未提供具体链接。 Whisper: 用于生成转录。 论文中未提供具体链接。 Gemini-2.5 Pro: 用于数据标注和文本改写。 论文中未将其列为开源项目。 🏗️ 方法概述和架构 PlanAudio是一个端到端的自回归LLM框架,旨在直接从自由形式文本提示生成包含语音和音效的统一音频波形。其核心架构(如图2所示)基于单一Transformer骨干(初始化自Qwen2.5-1.5B),将文本、潜在规划特征和离散音频token组织成一个统一序列进行处理。 ...

2026-05-28 · 更新于 2026-06-19 · 3 min · 506 words

Why We Need Speech to Evaluate Speech Translation

📄 Why We Need Speech to Evaluate Speech Translation #语音翻译 #多模态模型 #参数高效微调 #数据增强 🔥 8.3/10 | 前50% | #语音翻译 | #参数高效微调 | #多模态模型 #数据增强 | arxiv 学术质量 5.2/7 | 影响力 1.5/2 | 可复现性 1.6/2 | 置信度 高 👥 作者与机构 Maike Züfle (1), Danni Liu (1), Vilém Zouhar (2), Jan Niehues (1) 1 Karlsruhe Institute of Technology (KIT), 2 ETH Zurich 💡 毒舌点评 这篇论文像一位严谨的诊断医生,成功地揭示了一个重要但被忽视的病症:当前的语音翻译评估指标(无论是文本还是语音输入)对性别一致性和韵律等语音特有现象几乎完全失明。其诊断过程(系统性的元评估、新模型训练、深入的探测实验)无可挑剔,结论有理有据。然而,它最大的缺点在于“只诊断,不治病”。论文明确指出了三个病根(编码器信息丢失、模型忽略语音源、训练数据不足),却未能提出任何有效的解决方案或有潜力的治疗方向。这使得文章的贡献止步于“揭示问题”,而非“解决问题”。对于期望看到方法创新或突破性结果的审稿人来说,这无疑会拉低评价。不过,这种扎实的“问题定位”工作为后续研究铺平了道路,价值不容否认。 📌 核心摘要 本文针对语音翻译(ST)评估中存在的盲点展开研究。核心发现是:现有的文本和语音质量估计(QE)指标,包括直接使用语音输入的BLASER和SpeechQE,均无法评估语音翻译中至关重要的性别一致性和韵律现象,其表现接近随机猜测。为探究原因,作者训练了SpeechCOMET模型家族(基于SONAR和Whisper编码器)并评估了SpeechLLM作为评估器。两者在标准QE任务(IWSLT数据集上的相关性评分)上表现良好,甚至超越了文本基线COMETKiwi,但在语音特有现象评估上同样失败。通过探测实验,论文揭示了三个根本原因:1)SONAR等编码器抑制了声学特征;Whisper和SpeechLLM的编码器保留声学特征但模型未使用;2)QE模型在训练中倾向于忽略语音源信号;3)标准QE训练数据中缺乏相关示例。论文开源了所有模型和代码,并呼吁开发专门的语音特定数据集和真正依赖语音的模型。 🔗 开源详情 代码:https://github.com/MaikeZuefle/speechCOMET 模型权重:论文中未提及模型权重的直接下载链接,需根据代码和超参数自行训练。 数据集:使用了 IWSLT 2026 Metrics Shared Train Dev, MuST-SHE, ContraProST, WMT Human All 数据集,均为第三方公开数据集,论文未提供直接获取链接。 Demo:论文中未提及在线演示链接。 复现材料:论文在附录中提供了详尽的训练超参数(表4,表5)、模型架构细节(第3.1、3.2节)、数据处理方法(附录A.3)和消融实验结果(附录B),这些信息均包含在论文正文及附录中,可复现性高。 论文中引用的开源项目: COMET/COMETKiwi: 用于质量估计的基线模型。链接:https://github.com/unilm/comet SONAR: 用于语音编码的多语言模型。链接:https://github.com/facebookresearch/SONAR Whisper: 用于语音编码和语音识别的模型。链接:https://github.com/openai/whisper Qwen2.5 Omni: 论文中作为SpeechLLM进行评估的多模态大模型。链接:https://github.com/QwenLM/Qwen2.5-Omni (根据论文作者和名称推断) LlamaFactory: 用于微调大语言模型的框架(用于SpeechLLM的微调)。链接:https://github.com/hiyouga/LLaMA-Factory spaCy: 用于语言特征探测的NLP工具。链接:https://github.com/explosion/spaCy Kokoro TTS & MMS TTS: 用于合成训练数据的文本转语音系统。链接:https://github.com/hexgrad/kokoro (Kokoro), https://github.com/facebookresearch/fairseq/tree/main/examples/mms (MMS TTS) 🏗️ 方法概述和架构 本文方法主要分为三部分:1)对现有指标的元评估,2)训练新的语音感知QE模型SpeechCOMET,3)评估SpeechLLM作为QE模型。 ...

2026-05-28 · 更新于 2026-06-19 · 4 min · 684 words

语音/音乐/音频论文速递 2026-05-28

语音/音乐/音频论文速递 2026-05-28 共分析 30 篇论文 ⚡ 今日概览 📥 抓取 30 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 8篇 ████████ #语音合成 4篇 ████ #音频问答 2篇 ██ #语音情感识别 2篇 ██ #语音翻译 2篇 ██ #多模态模型 2篇 ██ #语音生成 1篇 █ #音频检索 1篇 █ 📊 论文评分排行榜(30 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 When Helpful Context Leaks: Privacy Risks in Domain-Ada 10.0分 前50% #语音识别 🥈 TARQ: Tail-Aware Reconstruction Quantization for Rare-W 10.0分 前10% #语音识别 🥉 Comprehensive Benchmarking of Long-Form Speech Generati 9.9分 前25% #语音合成 4. MTAVG-Bench 2.0: Diagnosing Failure Modes of Cinematic 9.9分 前25% #语音生成 5. OmniRetriever: Any-to-Any Audio-Video-Text Retrieval vi 9.2分 前25% #音频检索 6. Audio-Mind: An Auditable Agentic Framework for Audio Un 8.7分 前50% #音频问答 7. From Talking to Singing: A New Challenge for Audio-Visu 8.7分 前50% #语音伪造检测 8. SMILE-Next: Teaching Large Language Models to Detect, C 8.7分 前25% #语音情感识别 9. Dasheng AudioGen: A Unified Model for Generating Cohere 8.6分 前25% #音频生成 10. Why We Need Speech to Evaluate Speech Translation 8.3分 前50% #语音翻译 11. Bandwidth-Efficient and Privacy-Preserving Edge-Cloud M 8.1分 前25% #语音翻译 12. EigeNet: Geometry-Informed Multi-Modal Learning for Few 8.0分 前50% #多模态模型 13. Unified Synthesis of Compositional Speech and Sound fro 8.0分 前25% #语音合成 14. Gemini Embedding 2: A Native Multimodal Embedding Model 7.9分 前25% #语音识别 15. HOME-KGQA: A Benchmark Dataset for Multimodal Knowledge 7.5分 后50% - 16. Building Community-Centred NLP Resources for Puno Quech 7.2分 前50% #语音识别 17. Utilizing Missed Detections in Directional Sensitivity- 7.1分 前50% #语音识别 18. Diffusion Large Language Models for Visual Speech Recog 7.0分 前25% #语音识别 19. LoSATok: Low-dimensional Semantic-Acoustic Tokenizer fo 7.0分 前50% #语音合成 20. Affective Music Recommendation: A Rollout-Based World M 7.0分 前50% #音乐推荐 21. VoiceGiraffe: A Benchmark for Extreme Long-Context Audi 7.0分 前25% #音频问答 22. AgenticVBench: Can AI Agents Complete Real-World Post-P 7.0分 前50% #基准测试 23. Do Audio LLMs Listen or Read? Analyzing and Mitigating 6.8分 前50% #语音情感识别 24. A Conflict-Aware Penalty and Statistical Loss Framework 6.8分 前50% #多模态模型 25. I Hear, Therefore I Trust: A Socio-Technical Investigat 6.5分 前50% #语音合成 26. DEMON: Diffusion Engine for Musical Orchestrated Noise 6.0分 前50% #音乐生成 27. Breaking the Script Barrier: Enabling Automatic Alignme 6.0分 前50% #语音识别 28. Robust Quantum-MUSIC for DoA Estimation Using Rydberg A 5.7分 前50% - 29. Benchmarking AI for low-resource contexts: Thinking bey 5.1分 后50% #语音识别 30. Cross-modal characterization of infant cry: validation 5.0分 前50% #信号处理基础 📋 论文列表 🥇 When Helpful Context Leaks: Privacy Risks in Domain-Adapted ASR 🔥 10.0/10 | 前50% | #语音识别 | #迁移学习 | #隐私安全 #领域自适应 | arxiv ...

2026-05-28 · 更新于 2026-06-19 · 15 min · 3187 words

A Multimodal Framework for Dementia Detection via Linguistic and Acoustic Representation Learning

📄 A Multimodal Framework for Dementia Detection via Linguistic and Acoustic Representation Learning #多模态模型 #自监督学习 #数据集 ✅ 7.7/10 | 前50% | #多模态模型 | #自监督学习 | #数据集 | arxiv 学术质量 5.3/7 | 影响力 1.5/2 | 可复现性 0.9/2 | 置信度 中 👥 作者与机构 Loukas Ilias, Dimitris Askounis 决策支持系统实验室,电气与计算机工程学院,雅典国立技术大学,15780 希腊雅典 (电子邮件: lilias@epu.ntua.gr; askous@epu.ntua.gr)。 💡 毒舌点评 这篇论文就像给痴呆症检测装了一套“混合动力系统”——一边是BERT的文本理解,一边是HuBERT的听声辨症,还用了个互信息损失(MINE)当“胶水”把两者粘起来。思路清晰,工程上也还算扎实。但问题是,这套系统跑在两个并不算大的数据集上(ADReSS只有156人),就宣称达到了“competitive performance”,这底气有点不足。更让人皱眉的是,在PROCESS-2数据集上,这个复杂的多模态模型居然只比一个简单的BERT基线好那么一丁点儿,甚至在关键的召回率和F1上还略输,这让“多模态融合能捕获互补信息”的主要卖点打了折扣。消融实验倒是做得挺细,从池化、模型选择到融合方式都试了一遍,但这也暴露了它的性能对设计选择非常敏感,稍微换点东西就可能掉下来。总而言之,这是一篇工整但缺乏惊喜的工作,像是完成了一份标准作业,距离真正的临床应用或技术突破还有距离。 📌 核心摘要 本文提出了一种用于基于自发语音的痴呆症自动检测的端到端可训练多模态深度学习框架。该框架分别使用预训练的HuBERT模型和BERT模型从10秒语音片段及转录文本中提取声学和文本表示。为更好捕捉与认知衰退相关的时序声学特征,采用了注意力统计池化(ASP)来聚合帧级声学嵌入。文本表示采用BERT的<S>[CLS]<S> token嵌入。两种模态表示通过一个基于注意力的音频-文本融合(AT-Fusion)机制结合。此外,引入了互信息神经估计(MINE)目标函数,以显式最大化声学与文本表示间的互信息,改善跨模态对齐。在ADReSS Challenge和PROCESS-2两个公开数据集上的实验表明,所提方法在ADReSS测试集的召回率(88.33%)、F1分数(84.31%)和准确率(83.33%)上优于对比的多模态基线。在PROCESS-2数据集(二分类任务)上,取得了81.75%的准确率和83.50%的特异性。消融实验验证了注意力统计池化、MINE目标、HuBERT模型选择以及AT-Fusion策略的有效性。 🔗 开源详情 代码:论文中未提及提供官方代码仓库。 模型权重:论文中未提及提供训练好的模型权重。 数据集: ADReSS Challenge:论文未给出具体下载链接,仅引用了文献[28]。 PROCESS-2:论文提供了公开链接:https://huggingface.co/datasets/CognoSpeak/PROCESS-2。 Demo:论文中未提及。 复现材料:论文未提供训练检查点或完整的复现材料包。但提供了关键的训练配置信息:使用PyTorch实现;在单张NVIDIA A100 PCIe 80GB GPU上训练;批大小为8;使用StepLR学习率调度器(步长为4,衰减系数 γ=0.1);早停策略(验证损失连续8个epoch不下降则停止);互信息损失权重 λ=0.25。 论文中引用的开源项目: BERT: https://github.com/google-research/bert HuBERT: https://github.com/facebookresearch/hubert wav2vec 2.0: https://github.com/facebookresearch/wav2vec XLS-R: 论文中提到 XLS-R 为 wav2vec 2.0 的扩展,共享同一代码库,即 https://github.com/facebookresearch/wav2vec 🏗️ 方法概述和架构 本文提出一个多模态痴呆症检测框架,其整体架构包含文本编码、声学编码、多模态融合与分类四个核心模块,通过端到端训练联合优化。具体流程如下: ...

2026-05-27 · 更新于 2026-06-19 · 4 min · 675 words

AVBench: Human-Aligned and Automated Evaluation Benchmark for Audio-Video Generative Models

📄 AVBench: Human-Aligned and Automated Evaluation Benchmark for Audio-Video Generative Models #多模态模型 #基准测试 #多模态模型 🔥 9.7/10 | 前25% | #多模态模型 | #基准测试 | arxiv 学术质量 6.5/7 | 影响力 1.6/2 | 可复现性 1.6/2 | 置信度 高 👥 作者与机构 作者:Jialiang Yang, Bin Xia, Ruihang Chu, Dingdong Wang, Wanke Xia, Zhun Mou, Tianyang Zhong, Yiting Zhao, Wenming Yang。 机构:清华大学、香港中文大学。 💡 毒舌点评 这篇论文旨在解决音视频生成领域一个真实存在的痛点——评估。作者们观察到现有评估方法(如VBench, VABench)的不足:要么只关注单模态,要么依赖通用的VQA模型,无法捕捉人像场景下微妙的跨模态错误。AVBench提出了一套“全自动、专有化、与人类对齐”的评估方案,其核心在于用精心设计的困难负样本对多模态大模型进行监督微调,使其成为“专业裁判”。这个思路本身是正确且有实用价值的。然而,作为审稿人,我必须指出其局限性。首先,整套方案的“全自动”高度依赖于基础模型(Qwen系列)和外部评估器(如SyncNet, DOVER++),其性能瓶颈可能转移到了这些组件上,论文对此的讨论不足。其次,虽然构建了庞大的训练集(300KK样本),但“困难负样本”的生成策略(如基于LLM的文本微扰、音视频轨道的人工偏移)在多大程度上覆盖了真实生成模型可能犯的“所有”错误,缺乏理论或更充分的实验验证。最后,论文宣称的“可微分奖励信号”潜力很吸引人,但并未提供任何在实际RLHF流程中应用的案例,更像一个远景声明。论文写作清晰,实验对比了多个主流模型,数据表格详实。但评审意见的深度可以更进一步,例如对评测器自身鲁棒性的分析(如对抗样本)、对训练集分布偏差的讨论等仍有空间。总体来说,这是一篇扎实的、解决实际问题的系统工作,但距离“终极评估框架”还有距离。 📌 核心摘要 本文介绍了AVBench,一个针对人像中心音视频生成模型的自动化评估基准。现有评估方法存在忽略细粒度人像相关性、滥用通用模型以及缺乏精确连续评分等问题。AVBench通过两个核心设计来解决:1) 提出了涵盖视觉质量、音频质量及多层跨模态一致性的十维评估指标,专门针对人像场景;2) 构建了大规模(300KK样本)且包含多样化困难负样本(如微小时移、情感错配、LLM驱动的语义突变)的训练集,通过监督微调(SFT)训练出专用的评估器。这些评估器(音视频、音频文本、视频文本)通过归一化预测概率产生连续、可微分的评分。实验表明,AVBench的自动评分与人类偏好判断高度相关(最高皮尔逊相关系数达0.9779),且在硬样本测试中能有效识别模型弱点,为评估和优化音视频生成系统提供了可靠工具。 🔗 开源详情 代码:未提供代码仓库链接。 模型权重:未提供模型权重链接。 数据集:未提供数据集直接下载链接。论文使用了OpenHumanVid数据集构建训练集,但未提供该数据集链接。 Demo:提供了项目主页链接:https://yajialiang.github.io/AVBench-site/ 复现材料:未提及训练配置文件、检查点或可复现材料包。 论文中引用的开源项目: OpenHumanVid:未提供链接,仅提及名称。 CLAP:提供了GitHub链接。 ViCLIP:提供了GitHub链接。 ImageBind:提供了GitHub链接。 Qwen3-Omni:未提供链接,仅提及名称。 Qwen-3 Max:未提供链接,仅提及名称。 Qwen2.5-Omni:提供了GitHub链接。 Qwen2-Audio:提供了GitHub链接。 Whisper-large-v3:提供了GitHub链接。 DF_Arena:提供了GitHub链接。 NISQAv2:未提供链接,仅提及名称和论文引用。 Audiobox-Aesthetics:提供了GitHub链接。 DOVER++:提供了GitHub链接。 LAION-Aesthetics:提供了GitHub链接。 SyncNet:提供了项目链接。 LatentSync:未提供链接,仅提及名称和引用。 🏗️ 方法概述和架构 AVBench的框架建立在两个并行支柱上:高质量评测集构建与专用评估器训练。 ...

2026-05-27 · 更新于 2026-06-19 · 2 min · 331 words

CosyEdit2: Speech-Editing-Oriented Reinforcement Learning Unlocks Better Zero-Shot TTS

📄 CosyEdit2: Speech-Editing-Oriented Reinforcement Learning Unlocks Better Zero-Shot TTS #语音编辑 #强化学习 #多模态模型 #自回归模型 #语音识别 #数据增强 ✅ 7.2/10 | 前25% | #语音编辑 | #强化学习 | #多模态模型 #自回归模型 | arxiv 学术质量 7.2/7 | 影响力 7.5/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 Junyang Chen (陈俊阳), Yuhang Jia (贾宇航), Hui Wang (王辉), Jiaming Zhou (周佳明), Yongchang Gan (甘永昌), Yong Qin (覃勇)。 机构:南开大学计算机科学学院(1),南开大学人工智能学院(2)。通讯作者:chenjunyang@mail.nankai.edu.cn, qinyong@nankai.edu.cn。第一作者与通讯作者标注。 💡 毒舌点评 摘要写得像广告文案,充满了“substantially”、“deeper”、“unlocks”这类形容词。方法部分看似复杂,但核心就是给GRPO换了一套更适合编辑任务的奖励函数。实验结果在多个benchmark上看起来都不错,但仔细一想,和SOTA的差距有时只有零点几个百分点,而且很多baseline其实并不强。最有趣的是,这篇论文发现一个编辑模型居然能提升其基础TTS模型的性能,这到底是编辑任务的特殊性,还是仅仅因为用更多数据(虽然是构造的)和RL微调了一遍LLM?此外,声称“首个编辑导向的奖励组合”需要打上问号,因为相关工作ECPA已经用了GRPO,奖励设计思路有重叠。代码、模型权重均未开源,复现门槛极高。 📌 核心摘要 本文提出了CosyEdit2,一个基于两阶段后训练框架的语音编辑模型。第一阶段使用监督微调(SFT)在配对编辑数据上初始化模型能力。第二阶段引入编辑导向的组相对策略优化(GRPO),核心创新在于使用无需目标语音的构造数据(将任意TTS语料转换为编辑提示)和针对编辑任务设计的多奖励信号(内容正确性、声学保持、说话人一致性)对语言模型进行强化学习。实验表明,该模型在语音编辑任务上达到了与强基线可比或更优的性能,尤其在声学一致性方面表现突出,并且其获得的强化学习优化能力能够意外地提升基础模型的零样本TTS性能,揭示了两个任务间的相互促进关系。 🔗 开源详情 代码:论文未提供CosyEdit2的代码仓库链接。演示页面 https://cjy1018.github.io/CosyEdit2 主要用于展示音频样本,未提及包含代码。 模型权重: CosyEdit2模型:论文中未提供CosyEdit2(包括各阶段微调后的LLM、Flow、BigVGAN)的权重下载链接。 CosyVoice2模型:作为基础模型,其链接为 https://huggingface.co/FunAudioLLM/CosyVoice2-0.5B。 数据集: GigaEdit-S:阶段一训练数据,源自GigaSpeech-S,未提供独立下载链接。 LibriTTS / LibriTTS-R / YODAS2:用于训练BigVGAN的混合数据集。论文引用了LibriTTS,但提供的Hugging Face链接 https://huggingface.co/datasets/keithito/lj_speech 实际是LJ Speech,并非LibriTTS,此处表述有误。YODAS2和Ming-Freeform-Audio-Edit等评估集均未提供链接。 VoiceBank-DEMAND-16k:用于声码器重建实验,链接为 https://huggingface.co/datasets/JacobLinCool/VoiceBank-DEMAND-16k。 SEED-TTS-EVAL:评估基准,链接为 https://github.com/bytedance/Seed-TTS-Eval。 Demo:提供了音频样本演示页面 https://cjy1018.github.io/CosyEdit2。 复现材料: 训练细节与模型配置:附录B-D详细描述了架构、超参数和训练流程,是复现的关键信息。 评估脚本与指标:提及使用了评估脚本和指标(WER, SS, DNSMOS, MCD),但未提供具体评估代码。 论文中引用的开源项目:包括CosyVoice2、Qwen2.5、WhisperX、BigVGAN(提供链接 https://huggingface.co/nvidia/bigvgan_v2_22khz_80band_256x)、nlpaug、RoBERTa、pymcd等。 🏗️ 方法概述和架构 CosyEdit2构建于CosyVoice2的语音-语言建模骨干之上,将其零样本提示式接口重构为语音编辑任务。其架构包含五个核心模块:文本分词器、语音分词器、自回归文本-语音语言模型(LLM)、条件流匹配模型(Flow)和BigVGAN声码器。 ...

2026-05-27 · 更新于 2026-06-19 · 2 min · 425 words

DuoGesture: Neuro-Inspired and Biomechanically Informed Dual-Stream Co-Speech Gesture Generation

📄 DuoGesture: Neuro-Inspired and Biomechanically Informed Dual-Stream Co-Speech Gesture Generation #多模态模型 #变分自编码器 #正则化微调 #自回归模型 ✅ 7.5/10 | 前25% | #语音合成 | #变分自编码器 | #多模态模型 #正则化微调 | arxiv 学术质量 5.1/7 | 影响力 1.2/2 | 可复现性 1.2/2 | 置信度 高 👥 作者与机构 Ferdinand Paar,Max Planck Institute for Psycholinguistics,Radboud University,Nijmegen;Lanmiao Liu,Utrecht University,Max Planck Institute for Psycholinguistics;Aslı Özyürek,Radboud University,Nijmegen,Max Planck Institute for Psycholinguistics;Serge Thill,Radboud University,Nijmegen,Donders Institute;Esam Ghaleb,Max Planck Institute for Psycholinguistics。 💡 毒舌点评 一篇将认知神经科学与生物力学启发的模型应用于协同语音手势生成的扎实工作,提出了一个有趣且合理的双流分解框架。其核心创新在于将手势显式地分解为语义流和节拍流,并为每个流设计了专门的条件化和正则化机制。然而,其贡献主要集中在视觉动画生成领域,对“语音”本身的处理深度有限,本质上是将语音作为条件信号。实验结果在特定指标(FGD)上声称取得最佳,但在其他指标上表现平平,且作者也坦诚了泛化性验证的缺失。代码与权重的未开源,以及对预训练文本到运动(Text-To-Motion)模型的强依赖,严重限制了其可复现性和对社区的直接贡献。总体而言,是一篇不错的视觉/多模态论文,但对纯语音处理领域的读者来说,影响力有限。 📌 核心摘要 DuoGesture 提出了一种受神经科学启发并结合生物力学信息的双流模型,用于协同语音手势生成。该模型将生成过程分解为语义流(负责基于词汇内容的手势)和节拍流(负责与语音韵律对齐的节奏性手势)。语义流通过运动语义条件化(MGSC)进行调节,该模块利用预训练的 Text-To-Motion 模型表示,将语义线索与运动动力学对齐,以改善长尾词汇手势触发的语义表达。节拍流则通过惯性节拍先验(IBP)进行正则化,该先验基于人体测量学数据对关节链速度一致性进行约束,旨在减少抖动并提高节奏连贯性。两个流由语义变分信息瓶颈(S-VIB)协调,这是一个帧级随机门控机制,学习何时激活语义流,并避免门控坍缩为单一路径。在 BEAT2 数据集上的实验表明,DuoGesture 在 Fréchet Gesture Distance (FGD) 这一主要分布度量上取得了最佳结果,同时在节拍对齐(BA)、多样性等辅助指标上保持了竞争力。消融研究证实了三个模块的互补作用。 ...

2026-05-27 · 更新于 2026-06-19 · 4 min · 708 words