Project SPARROW and the Future of Conservation Technology

📄 Project SPARROW and the Future of Conservation Technology #计算机视觉 10/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 10/10 | 前50% | #计算机视觉 | #计算机视觉 | arxiv 👥 作者与机构 共同第一作者:Juan M. Lavista Ferres, Carl Chalmers, Bruno Demuro Segundo, Zhongqi Miao 合作作者:Andres Hernandez Celis, Federico Alves Torres, Isai Daniel Chacon Silva, Anthony Cintron Roman, Allen Kim, Meygha Machado, Luana Marotti, Amy Michaels, Daniela Ruiz Lopez, Catherine Romero, Rahul Dodhia, Inbal Becker-Reshef, Pablo Arbelaez 机构: ...

2026-06-02 · 更新于 2026-06-19 · 2 min · 356 words

Quality Audio Prototyping: a prototype system for unified sound retrieval and procedural generation

📄 Quality Audio Prototyping: a prototype system for unified sound retrieval and procedural generation #音频检索 6.9/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 6.9/10 | 前50% | #音频检索 | #音频检索 | arxiv 👥 作者与机构 论文中未明确提及作者具体姓名及所属机构。 💡 毒舌点评 这篇论文好比在厨房里把现有的搅拌机、烤箱和菜谱App用一根网线连接起来,然后宣称解决了烹饪的所有痛点。系统集成做得扎实,但每个组件都非自研,创新主要体现在“把它们放在一起”这个动作上。MUSHRA评分普遍不高(最佳优化仅40-52分),用户评估样本小(16人)且方式不一,这让“实用性”的结论打了折扣。它像一篇优秀的工程项目报告,但距离NeurIPS/ICML/ICLR所期待的算法或理论创新还有显著距离。 📌 核心摘要 本文针对声音设计工作流中检索与程序化生成工具割裂的问题,提出了名为QuAP的原型系统。该系统集成了基于MobileNetV3的内容检索引擎、六个经优化的嵌入式程序化音频模型(物理/模态/减法合成),以及一个基于规则(非LLM)的感知参数引导助手。核心创新在于将检索与生成统一于一个迭代式的、以创作者为中心的界面中,旨在减少从叙事概念到声音实现的“程序距离”。评估包括三部分:1)MUSHRA主观测试显示六个模型中五个经特征驱动优化后质量显著提升;2)消融研究表明MobileNetV3在FSD50K数据集上的检索性能优于ResNet18-IBN基线;3)对16名从业者的小规模用户评估确认了工具的工作流效用,所有参与者认为参数助手降低了交互门槛并保留了创作自主权。 🔗 开源详情 代码:论文中未提及代码仓库链接(如GitHub)。 模型权重:论文中未提及模型权重的具体下载链接。 数据集: FSD50K:用于嵌入模型的微调和评估。论文中未提供特定链接,但该数据集为公开数据集。 6KSFX:用于程序化音频模型的特征优化。论文中未提供特定链接。 AudioSet:用于预训练音频嵌入模型。论文中未提供特定链接,但该数据集为公开数据集。 Demo:在线演示链接:论文中未提及。 复现材料: 项目网站:https://saop-project.netlify.app (提供优化细节)。 视频教程:https://quap.netlify.app (用户评估中提及)。 论文中提及一项相关研究正在审稿中 [25],但未提供具体链接。 论文中引用的开源项目: JUCE:用于开发QuAP原型系统。链接:https://juce.com FAISS:用于高效向量检索。链接:论文中引用了文献 [4],未提供直接URL。 Essentia:用于提取低级音频特征。链接:论文中引用了文献 [22],未提供直接URL。 Nemisindo:用于提供嵌入的程序化音频合成引擎。链接:https://nemisindo.com Splice:商业工具参考。链接:https://splice.com Krotos:商业工具参考。链接:https://krotos.com ElevenLabs:商业工具参考。链接:https://elevenlabs.com iZotope:商业工具参考。链接:https://www.izotope.com 🏗️ 方法概述和架构 QuAP系统旨在将声音检索与程序化生成统一于单一环境,其架构分为离线与在线两个主要阶段,并包含四个核心组件。如图1所示,系统架构清晰地展示了数据流与交互。 ...

2026-06-02 · 更新于 2026-06-19 · 1 min · 210 words

RRP-Voice: A Longitudinal Dataset and Benchmark for Recurrent Respiratory Papillomatosis Detection

📄 RRP-Voice: A Longitudinal Dataset and Benchmark for Recurrent Respiratory Papillomatosis Detection #数据集 #基准测试 8.3/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8.3/10 | 前50% | #数据集 | #自监督学习 | #基准测试 | arxiv 👥 作者与机构 Wenze Ren¹, Ke-Han Lu¹, Kai-Wei Chang⁴, Tiantian Feng⁷, Ching Fang⁸, Zhi-Chi Liao², Dao Thi Hai Yen², Syu-Siang Wang⁶, Yu Tsao³, Chi-Te Wang⁵, Shih-Hau Fang² ¹ National Taiwan University, ² National Taiwan Normal University, ³ Academia Sinica, ⁴ Massachusetts Institute of Technology, ⁵ Far Eastern Memorial Hospital, ⁶ Yuan Ze University, ⁷ University of Southern California, ⁸ Taipei Municipal Zhongshan Girls High School ...

2026-06-02 · 更新于 2026-06-19 · 5 min · 854 words

SALSA: Speech Aware LLM Adaptation via Learned Steering Activation Vectors

📄 SALSA: Speech Aware LLM Adaptation via Learned Steering Activation Vectors #参数高效微调 #低资源 #多语言 #多模态模型 7.2/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.2/10 | 前25% | #语音识别 | #参数高效微调 | #低资源 #多语言 | arxiv 👥 作者与机构 作者: Yekaterina Yegorova, Argyrios Gerogiannis, Haolong Zheng, Julia Hockenmaier, Chang D. Yoo, Mark A. Hasegawa-Johnson 机构: 1University of Illinois Urbana-Champaign, 2Korea Advanced Institute of Science and Technology (注:原文作者列表为“Argyrios Gerogiannis”,已有分析中为“Gerogiannis”,已修正。) ...

2026-06-02 · 更新于 2026-06-19 · 1 min · 143 words

SN-WER: Script-Normalized WER for Multi-Script Indic ASR Evaluation

📄 SN-WER: Script-Normalized WER for Multi-Script Indic ASR Evaluation #语音识别 #多语言 #语音合成 #预训练 5.3/10 | 创新 0.5/2 | 严谨 1/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 0/1.5 📝 5.3/10 | 前50% | #语音识别 | #预训练 | #多语言 #语音合成 | arxiv 👥 作者与机构 作者:Priyaranjan Pattnayak 单位:Oracle America Inc. 联系邮箱:priyaranjanpattnayak@gmail.com 领域:cs.CL (计算语言学) 💡 毒舌点评 这是一篇典型的“解决问题比方法创新更重要”的论文。核心思想——计算WER前先统一脚本——在业界实践中早已是常识,作者自己也承认不是新概念。论文的贡献主要在于系统性地量化了印度语言ASR中脚本不匹配效应,并为一个实用的评估补充指标提供了详尽的实证依据。它就像一个精心制作的工具说明书,虽然工具本身(标准化后再计算)不复杂,但说明书(实验设计和验证)非常扎实。对于顶会来说,缺乏方法论的突破或理论深度是一个明显短板。不过,其清晰的定位(伴侣指标)和严谨的验证过程,使其在特定应用场景(多语言ASR评估)中仍有一定价值。 📌 核心摘要 本文针对多语言ASR评估中,假设文本为罗马化而参考文本为原生脚本时传统WER被高估的问题,提出了Script-Normalized WER (SN-WER)。这是一个仅用于评估的伴侣指标,其核心是在计算WER前,使用确定性转写器将参考和假设文本都转换为该语言的规范脚本(通常为原生脚本)。通过在5种印度语言、2个数据集和3个ASR模型上的系统评估,论文证明:1)SN-WER能在干净数据集(FLEURS)上显著缩小因脚本不匹配造成的模型评估差距(最高达12%);2)在噪声数据集(Common Voice)上,SN-WER效果较小,能更好地暴露真实的识别缺陷;3)SN-WER对真正的识别错误保持与WER几乎相同的敏感性;4)方法对转写器选择和规范化选项鲁棒。作者强调SN-WER应作为WER/CER的补充报告,而非替代品,特别适用于脚本选择与下游任务无关的场景(如搜索、索引)。 🔗 开源详情 代码:论文中未提及提供SN-WER的实现代码或评估脚本。 模型权重:论文中使用的ASR模型(Whisper-large-v3, Whisper-small, MMS)均为公开模型,可通过HuggingFace Hub等平台获取,但论文本身未提供直接链接或特定版本。 数据集: FLEURS: https://huggingface.co/datasets/google/fleurs Common Voice v17: https://commonvoice.mozilla.org/en/datasets 论文明确使用了这些数据集。 Demo:未提及。 复现材料:未提供训练配置、检查点、附录等详细复现材料。论文重点在于提出评估方法(SN-WER),并提供了完整的评估框架描述(转写工具、归一化步骤)和结果分析表格,为自行实现提供了蓝图。 论文中引用的开源项目: Whisper (OpenAI):https://github.com/openai/whisper Massively Multilingual Speech (MMS, Meta AI):https://github.com/facebookresearch/fairseq/tree/main/examples/mms ICU (International Components for Unicode):https://icu.unicode.org/ FLEURS 数据集:https://huggingface.co/datasets/google/fleurs Common Voice 数据集:https://commonvoice.mozilla.org/en/datasets IAST-style和ITRANS-style转写方案的具体实现通常集成在ICU或如indic-transliteration等开源库中,但论文未提供特定库链接。 🏗️ 方法概述和架构 SN-WER是一个评估流水线,旨在量化多语言ASR评估中由脚本不匹配导致的WER失真。其核心架构可拆分为以下几个关键组件: ...

2026-06-02 · 更新于 2026-06-19 · 3 min · 488 words

SpeechEditBench: A Bilingual Multi-Attribute Benchmark for Instruction-Guided Speech Editing

📄 SpeechEditBench: A Bilingual Multi-Attribute Benchmark for Instruction-Guided Speech Editing #语音编辑 #多任务学习 8.7/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.7/10 | 前25% | #语音编辑 | #多任务学习 | arxiv 👥 作者与机构 Hanlin Zhang (香港城市大学计算机科学系, 共同第一作者), Daxin Tan (华为Leibniz研究中心AI实验室, 共同第一作者), Dehua Tao (华为Leibniz研究中心AI实验室), Xiao Chen (华为Leibniz研究中心AI实验室, †共同通讯作者), Haochen Tan (华为Leibniz研究中心AI实验室), Linqi Song (香港城市大学计算机科学系, †共同通讯作者)。 ...

2026-06-02 · 更新于 2026-06-19 · 4 min · 712 words

Spiking and Event-driven Neuromorphic Mamba Models for Efficient Speech Recognition

📄 Spiking and Event-driven Neuromorphic Mamba Models for Efficient Speech Recognition #语音识别 #模型压缩 7.5/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 7.5/10 | 前50% | #语音识别 | #模型压缩 | arxiv 👥 作者与机构 Tauseef Ahmed (单位1, 2, 3),Tao Sun (单位1),Jeronimo Castrillon (单位3, 4),Kanishkan Vadivel (单位2),Guangzhi Tang (单位1)。论文中未具体说明单位1、2、3、4对应的具体机构名称。 基金支持:NGF.1609.243.044 (AiNed XS Europe), 01IS18026A-D (ScaDS.AI), 101226463 (MSCA Doctoral Network REACT)。 ...

2026-06-02 · 更新于 2026-06-19 · 2 min · 366 words

Sympatheia: Emotionally Adaptive Voice Assistant with Continuous Affect Conditioning

📄 Sympatheia: Emotionally Adaptive Voice Assistant with Continuous Affect Conditioning #参数高效微调 #语音合成 #语音识别 9.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9.6/10 | 前25% | #语音合成 | #参数高效微调 | #语音识别 | arxiv 👥 作者与机构 Sukru Samet Dindar, Riki Shimizu, Xilin Jiang, Nima Mesgarani。单位:Columbia University。未在论文中注明具体会议或期刊,仅为arXiv预印本。 💡 毒舌点评 论文提出的框架在理念上清晰且有实际意义,试图解决语音助手缺乏情感适应性的痛点。其模块化接口的设计思路值得肯定,为整合多模态情感信号提供了灵活方案。然而,论文的“主要贡献”中,声称构建了“首个”用于情感条件语音对话的合成数据集,这一说法可能需要更严谨的文献调研来支撑,因为近期类似工作(如BLSP-Emo的配套数据构建)已在该方向上有所探索。此外,所有实验均基于合成数据构建、合成数据训练、合成语音评估的闭环,虽然论文提供了真实语音的评估,但核心结论的普适性仍需在更复杂、更真实的交互场景中得到验证。方法部分对连续VA控制信号的“连续性”优势有所强调,但消融实验仅展示了对锚点加噪的鲁棒性,未能充分展示在连续空间内插值或外推时的生成行为变化,对于“连续”这一核心主张的验证略显不足。 📌 核心摘要 本文提出了Sympatheia,一个情感自适应语音对话框架,旨在解决日常对话中情感线索微弱或模糊的挑战。该框架结合了从用户语音中隐式推断情感,以及通过连续效价-唤醒度(VA)控制信号进行显式情感调节的能力。VA信号可来自外部多模态感知模块(如面部表情、生物信号、文本描述)或用户界面。为训练模型,作者构建并开源了Sympatheia-18k数据集,包含约18,000个情感条件合成语音对话对,分为情感子集(约12k样本)和中性子集(500个中性查询各对应12种情感响应)。模型基于GLM-4-Voice-9B,通过LoRA进行微调。实验表明,Sympatheia在情感适配度、情感MOS及韵律控制等方面优于多个强语音对话基线。论文还证明了其模块化接口能有效集成多种外部情感感知模块的输出,提升在用户语音情感模糊时的响应对齐度。 🔗 开源详情 代码:https://github.com/susameddin/sympatheia (Apache 2.0) 模型权重:https://huggingface.co/susameddin/Sympatheia (Apache 2.0,与GLM-4-Voice基础模型许可绑定) 数据集:Sympatheia-18k, https://huggingface.co/datasets/susameddin/Sympatheia-18k (CC BY 4.0) Demo:https://susameddin.github.io/sympatheia/ 复现材料:论文提供了极其详细的复现信息,包括: 训练配置:LoRA参数(rank 32, \(\alpha\)=32, dropout 0.1),优化器(AdamW, \(\beta_1\)=0.9, \(\beta_2\)=0.999),学习率(\(10^{-4}\)),批大小(16),训练轮次(5 epochs),检查点选择(基于验证损失和人工检查,步数2800)。 数据集创建细节:提供了用于生成查询和响应的完整提示模板(表5,表6,表7),以及情感风格控制策略。 VA锚点坐标:表4列出了12个情感锚点的具体VA坐标。 评估协议:提供了LLM评判官的提示模板(表8,表9)和人类评估的详细方案。 计算资源:描述了训练和评估所用的GPU类型及时间估计。 论文中引用的开源项目: 基础模型:GLM-4-Voice-9B, Qwen3-32B-Instruct, Qwen3-TTS, Qwen3-Omni, Qwen2.5-Omni, Kimi-Audio 评估基线与数据集:VoiceBench CommonEval, AffectNet+, SEED-VII, YAAD, ISEAR 工具模型:HSEmotion, Emotion English DistilRoBERTa-base, all-MiniLM-L6-v2, UTMOS, BERTScore, ROUGE-L, LoRA (PEFT), DeepSpeed ZeRO 许可证与使用条款:论文明确列出了所有外部资产(表20)的许可证或访问条款,并声明仅用于研究目的。 🏗️ 方法概述和架构 Sympatheia框架是一个端到端的语音到语音对话系统,其核心目标是生成语义合适且情感对齐的语音响应。系统由两大部分组成:(1) Sympatheia核心语音对话模型;(2) 可插拔的上游情感感知模块。二者通过一个简洁的连续效价-唤醒度(VA)接口解耦。 ...

2026-06-02 · 更新于 2026-06-19 · 2 min · 401 words

Temporally-Aligned Evaluation for Audio-Driven Talking Head Generation

📄 Temporally-Aligned Evaluation for Audio-Driven Talking Head Generation 7.6/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 0.9/1 | 影响 0.9/1.5 | 开源 0.3/1.5 | 复现 0.4/0.5 | 工程 1.2/1.5 ✅ 7.6/10 | 前25% | #语音合成 | arxiv 👥 作者与机构 第一作者:Zhicheng Zhang,邮箱:zhicheng.zhang2@unsw.edu.au,单位:新南威尔士大学商学院。 第二作者:Lei Wang,邮箱:l.wang4@griffith.edu.au,单位:格里菲斯大学工程与建筑环境学院。 其他作者:Yu Zhang,单位:新南威尔士大学商学院;Yongsheng Gao,单位:格里菲斯大学工程与建筑环境学院;另标注有来自CSIRO/Data61的贡献。 💡 毒舌点评 这篇论文精准地戳中了音频驱动说话头生成领域评估的“阿喀琉斯之踵”——那个被默认却漏洞百出的“帧级对齐”假设。作者们没有满足于抱怨,而是老老实实地搬出了Soft-DTW这个经典工具,给一堆现有指标来了次“时序校准”,并顺手设计了一个看起来更合理的运动平滑度指标。论文的工程量是实打实的:从117个候选方法里筛出20个能跑的,在5个现有数据集上精心切片,还费劲搞了Wild和Avatar两个新子集,最后用15个指标(包括一堆新提出的时序版)把这20个方法从头到脚评了一遍。这就像给一群习惯了在短跑跑道上计时的选手,突然换到了有弯道和起伏的真实越野赛道上,谁强谁弱、有什么特点,确实看得更清楚了。范式级的分析结论(唇部中心擅长同步,多条件融合保身份,运动解耦重效率,整体模型拼真实感)听起来也很有指导性。但作为NeurIPS/ICLR级别的审稿人,我还是得挑点刺:第一,创新性上,把Soft-DTW“套用”到已有指标上,技术上并无新意,核心贡献在于“提出问题”和“系统性验证”,这更像是一份扎实的“评估协议升级报告”和“领域现状体检表”。第二,所有评估都基于预训练模型且不微调,这公平但保守,无法回答“这些模型潜力有多大”的问题。第三,那个号称“解耦”的70维运动特征,其内部63维表情特征(21个3D关键点)与“刚性头部姿态”的7维特征如何共同作用、是否真的解耦彻底,缺乏更细致的分析。最后,作为一篇评估论文,其自身提出的新指标的有效性,最终还是需要通过大规模的人类偏好研究来“验收”,而论文承认这正是其局限之一。 📌 核心摘要 本文针对音频驱动说话头生成领域现有评估协议主要依赖帧级指标的问题,指出了其隐含的“严格时序对应”假设与包含时序偏移、语速变化和风格差异的真实语音驱动面部动作不匹配,导致评估不公平且掩盖了模型间的真实权衡。为此,作者提出将评估问题重新定义为序列级轨迹对齐问题。具体地,引入Soft-DTW将感知相似性(LPIPS)、身份保持(CSIM)和音画同步(SyncNet)等指标从帧级平均重构为序列级轨迹匹配,该框架在保持时序顺序的同时,允许弹性的对齐,从而对小范围的时序错位具有鲁棒性。同时,运动平滑度评估被重新设计,从像素空间的插值误差改为基于从运动编码器中提取的、解耦的头部姿态(7维)和表情变形(63维)特征的显式语义轨迹建模。基于这一统一的评估框架,论文在7个数据集(包括5个标准数据集、1个Wild子集和1个Avatar子集)上对20种主流方法进行了大规模基准测试。实验结果表明,时序对齐指标对温度参数γ不敏感,比帧级指标更稳定;不同建模范式展现出稳定且互补的优势(如唇部中心方法同步性最佳,多条件融合方法身份保持最强,运动空间解耦方法效率更高,整体全运动方法感知真实性更好);并且指标间存在结构性权衡,例如像素重建与感知真实性的脱钩。该工作强调了时序对应是评估动态生成模型的基本原则,并为未来研究提供了更公平、鲁棒的评估基础。 🔗 开源详情 代码:论文中提及了20种被评估方法的代码实现(在Table 1中为每个方法标注了“GitHub”和星数),但未提供这些方法的具体GitHub仓库链接,也未提供本文所提出的评估框架、数据集构建脚本或实验代码的开源链接。 模型权重:论文中未提及提供任何模型权重的下载链接(如HuggingFace/ModelScope)。 数据集:论文中使用了五个公开数据集(HDTF, VoxCeleb2, CelebV-HQ, MEAD, RAVDESS)并构建了标准化子集,还构建了两个新的评估子集(Wild, Avatar)。但未提供这些具体子集的下载链接、划分标准或开源协议信息。 Demo:论文中未提及在线演示链接。 复现材料:论文中未提及提供训练配置、检查点文件或详细的复现指南(如环境配置、脚本命令)。 论文中引用的开源项目:论文中提及了以下开源项目名称,但未提供具体链接: 被评估的20种方法:如SadTalker, Wav2Lip, Hallo, MuseTalk, AniPortrait等(具体列表见论文Table 1)。 特征提取器/工具: LPIPS (Learned Perceptual Image Patch Similarity) InsightFace (用于CSIM计算的预训练人脸识别模型) SyncNet (用于音视频同步评估) LivePortrait (用于提取头部姿态和表情的运动编码器,具体实现未开源说明) 总结:论文本身未开源任何核心代码、模型权重或数据集子集,其评估结果的复现高度依赖对引用的外部开源项目和预训练模型的再利用。 补充链接(自动提取): ...

2026-06-02 · 更新于 2026-06-19 · 2 min · 324 words

UniVocal: Unified Speech-Singing Code-Switching Synthesis

📄 UniVocal: Unified Speech-Singing Code-Switching Synthesis #语音合成 #语音生成 #音频生成 #音乐生成 #自监督学习 #课程学习 #数据增强 8.9/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 0/1.5 🔥 8.9/10 | 前25% | #语音合成 | #自监督学习 | #语音生成 #音频生成 | arxiv 👥 作者与机构 作者: Yufei Shi, Qian Chen, Wen Wang, Xiangang Li, Zhen-Hua Ling, Yang Ai 机构: Tongyi Fun Team, Alibaba Group; Independent Researcher ...

2026-06-02 · 更新于 2026-06-19 · 1 min · 132 words