MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks

📄 MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks #基准测试 #多模态模型 #多语言 #大语言模型 #语音识别 🔥 8.5/10 | 前25% | #基准测试 | #多模态模型 | #多语言 #大语言模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Sara Papi(Fondazione Bruno Kessler (Italy)) 通讯作者:未说明(论文未明确指定通讯作者) 作者列表:Sara Papi (Fondazione Bruno Kessler), Maike Züfle (Karlsruhe Institute of Technology), Marco Gaido (Fondazione Bruno Kessler), Beatrice Savoldi (Fondazione Bruno Kessler), Danni Liu (Karlsruhe Institute of Technology), Ioannis Douros (Fondazione Bruno Kessler), Luisa Bentivogli (Fondazione Bruno Kessler), Jan Niehues (Karlsruhe Institute of Technology) 💡 毒舌点评 亮点:论文填补了多模态、跨语言、长上下文指令跟随评测的关键空白,创建了一个系统对齐、人工标注的高质量基准,对推动通用多模态大模型发展有明确价值。 短板:论文的核心贡献是建立评测基准,而非提出新的建模方法,对现有模型“能力不足”的诊断虽清晰,但并未直接提供解决方案;评测模型均为已发表的开源或商用模型,缺乏对自身新方法的验证。 ...

2026-05-04 · 更新于 2026-06-18 · 2 min · 289 words

Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion

📄 Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion #语音翻译 #多模态模型 #多语言 #低资源 #大语言模型 🔥 8.5/10 | 前25% | #语音翻译 | #多模态模型 | #多语言 #低资源 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.7 | 置信度 高 👥 作者与机构 第一作者:Yexing Du(哈尔滨工业大学,鹏城实验室) 通讯作者:Youcheng Pan(鹏城实验室), Yang Xiang(鹏城实验室), Ming Liu(哈尔滨工业大学,鹏城实验室) 作者列表:Yexing Du(哈尔滨工业大学,鹏城实验室)、 Youcheng Pan(鹏城实验室)、 Zekun Wang(哈尔滨工业大学)、 Zheng Chu(哈尔滨工业大学)、 Yichong Huang(哈尔滨工业大学)、 Kaiyuan Liu(哈尔滨工业大学,鹏城实验室)、 Bo Yang(鹏城实验室)、 Yang Xiang(鹏城实验室)、 Ming Liu(哈尔滨工业大学,鹏城实验室)、 Bing Qin(哈尔滨工业大学,鹏城实验室) 💡 毒舌点评 亮点:论文思路非常聪明,绕过了图像多模态翻译的数据瓶颈,利用语音(尤其是TTS生成的合成语音)作为补充信息源,实现了多语言覆盖的飞跃。短板:框架对上游TTS模型的质量和语言覆盖有强依赖,论文中自进化机制的“正样本”筛选标准(S2 > S1)略显简单粗暴,可能无法捕获语音信息更复杂的交互模式。此外,论文声称“语音提供韵律线索”,但在实验中缺乏对韵律特征的具体分析或可视化,更多是效果验证。 ...

2026-05-04 · 更新于 2026-06-18 · 2 min · 329 words

Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences

📄 Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences #语音识别 #数据集 #大语言模型 #多模态模型 #多语言 ✅ 7.5/10 | 前25% | #语音识别 | #大语言模型 | #数据集 #多模态模型 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Dmitrii Korzh(AXXX, Moscow, Russia;MTUCI, Moscow, Russia) 通讯作者:论文中未明确标注通讯作者 作者列表:Dmitrii Korzh(AXXX, MTUCI),Dmitrii Tarasov(FusionBrain Lab, AXXX; HSE University),Artyom Iudin(AXXX; MTUCI),Elvir Karimov(AXXX; MTUCI; Applied AI Institute),Matvey Skripkin(FusionBrain Lab, AXXX; Applied AI Institute),Nikita Kuzmin(AXXX; MTUCI; Applied AI Institute),Andrey Kuznetsov(FusionBrain Lab, AXXX; Innopolis University),Oleg Y. Rogov(AXXX; MTUCI; Applied AI Institute),Ivan Oseledets(AXXX; Applied AI Institute; Moscow State University) 💡 毒舌点评 亮点在于,论文贡献了一个规模空前、标注细致的开源S2L数据集,并系统性地探索了从ASR后校正到端到端Audio-LLM的多种技术路线,为这个细分领域确立了坚实的基准和评估框架。短板是,无论是ASR后校正还是端到端方法,模型架构本身均无显著创新,更多是现有技术的组合与应用,其性能提升很大程度上依赖于新构建的高质量数据集。 ...

2026-05-04 · 更新于 2026-06-18 · 2 min · 288 words

SumRA: Parameter Efficient Fine-tuning with Singular Value Decomposition and Summed Orthogonal Basis

📄 SumRA: Parameter Efficient Fine-tuning with Singular Value Decomposition and Summed Orthogonal Basis #语音识别 #迁移学习 #参数高效微调 #多语言 #低资源 ✅ 7.5/10 | 前25% | #语音识别 | #迁移学习 | #参数高效微调 #多语言 学术质量 5.8/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Chin Yuen Kwok(南洋理工大学 数字信任中心 & 计算与数据科学学院) 通讯作者:Yongsen Zheng(南洋理工大学 数字信任中心 & 计算与数据科学学院) 作者列表: Chin Yuen Kwok(南洋理工大学 数字信任中心 & 计算与数据科学学院) Yongsen Zheng(南洋理工大学 数字信任中心 & 计算与数据科学学院) Jia Qi Yip(南洋理工大学 计算与数据科学学院) Kwok-Yan Lam(南洋理工大学 数字信任中心 & 计算与数据科学学院) Eng Siong Chng(南洋理工大学 数字信任中心 & 计算与数据科学学院) 💡 毒舌点评 亮点:论文巧妙地将“模型平均”的思想压缩到了单一LoRA适配器的初始化阶段,通过将多个奇异向量求和来构建更“博学”的冻结矩阵A,这个想法精巧且实现简单。短板:实验验证仅限于多语言ASR,作者自己也承认对需要“局部”知识适应的任务(如NLU)无效,这让人怀疑该方法是普适的参数高效技巧,还是一个仅对特定任务类型(全局风格/口音迁移)有效的“特解”。 ...

2026-05-04 · 更新于 2026-06-18 · 2 min · 420 words

SupCLAP: Controlling Optimization Trajectory Drift in Audio-Text Contrastive Learning with Support Vector Regularization

📄 SupCLAP: Controlling Optimization Trajectory Drift in Audio-Text Contrastive Learning with Support Vector Regularization #对比学习 #音频检索 #多语言 #零样本 #预训练 ✅ 7.0/10 | 前25% | #音频检索 | #对比学习 | #多语言 #零样本 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jiehui Luo(中央音乐学院),Yuguo Yin(北京大学)(论文注明贡献相等) 通讯作者:Yuguo Yin(北京大学) 作者列表: Jiehui Luo(中央音乐学院) Yuguo Yin(北京大学) Yuxin Xie(北京大学) Jinghan Ru(北京大学) Xianwei Zhuang(北京大学) Minghua He(北京大学) Aofan Liu(北京大学) Zihan Xiong(电子科技大学) Dongchao Yang(香港中文大学) 💡 毒舌点评 这篇论文的亮点在于将对比学习中的“力分解”具象化,并精准指出垂直分量是“双刃剑”,由此设计的SVR正则化方法理论自洽且实验增益稳定。短板则是其创新核心(一个可学习的正则化项)相对朴素,且论文未开源代码,使得这篇发表在顶会上的工作在社区传播和快速迭代上打了折扣。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及公开的预训练或微调后的模型权重。 数据集:使用了公开的AudioCaps和Clotho数据集。多语言翻译版本的数据集未提及是否公开。 Demo:未提及。 复现材料:论文提供了较为详细的实现细节(如编码器选择、优化器、学习率、批次大小、温度等),并在附录中补充了部分消融实验和统计显著性分析。 论文中引用的开源项目:CED-Base(音频编码器), SONAR-TE(文本编码器), Deepseek V3(用于翻译和回译分析)。 📌 核心摘要 本文针对音频-文本对比学习(CLAP)中标准InfoNCE损失存在的优化轨迹漂移问题展开研究。作者发现,来自负样本的推力可分解为与拉力方向平行和垂直的分量;其垂直分量虽包含丰富信息,但其不受控的特性会导致优化路径发生侧向偏移,影响训练稳定性和最终对齐质量。 ...

2026-05-04 · 更新于 2026-06-18 · 2 min · 376 words

Tell me Habibi, is it Real or Fake?

📄 Tell me Habibi, is it Real or Fake? #音视频深度伪造检测 #数据集 #多语言 #零样本 🔥 8.5/10 | 前25% | #音视频深度伪造检测 | #数据集 | #多语言 #零样本 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Kartik Kuckreja (MBZUAI) 通讯作者:未明确标注,但通讯邮箱主要为 kartik.kuckreja@mbzuai.ac.ae 和 parul@monash.edu 作者列表:Kartik Kuckreja (MBZUAI)、Parul Gupta (Monash University)、Injy Hamed (MBZUAI)、Thamar Solorio (MBZUAI)、Muhammad Haris Khan (MBZUAI)、Abhinav Dhall (Monash University) 💡 毒舌点评 亮点:该论文精准地击中了当前深度伪造检测领域的一个重大盲点——对多语言,尤其是像阿拉伯语这样广泛使用“代码切换”的语言场景的忽视,并为此构建了迄今规模最大、最复杂的专用数据集,为社区提供了极具价值的“练兵场”。短板:论文的重点在于“提出问题”和“提供工具”,而在于“解决问题”(即提出更先进的检测模型)方面着墨较少,其提出的检测方法仅为现有模型的基准测试。数据集生成依赖于GPT-4.1-mini等模型,其指令跟随的局限性可能导致部分“语义+翻译”模式的伪造文本语义变化不足,作者也承认了这一点。 🔗 开源详情 代码:论文中未提及具体的代码仓库链接,但声明“Data-generation code and evaluation scripts will be made public”。 模型权重:论文中未提及公开生成管道所用的TTS和唇形同步模型的具体权重链接,这些模型均为第三方已发表模型。 数据集:论文明确声明“The dataset is public.”,并提供了访问需要签署的EULA协议图示。 Demo:未提及。 复现材料:论文提供了生成管道的详细描述、文本篡改的提示示例(附录A.6)、数据分布图表、以及评估协议。但超参数、具体配置文件等未在文中给出。 论文中引用的开源项目:XTTS-v2, OpenVoice-v2, Fairseq, Diff2Lip, LatentSync, Whisper, YOLO-v5, wav2vec2, Jais-3B, Qwen-2.5-7B等。 📌 核心摘要 这篇论文旨在解决深度伪造检测研究中对多语言,特别是阿拉伯语-英语“代码切换”(在同一次话语中混合使用两种语言)场景严重忽视的问题。为解决此问题,论文提出了一个全新的核心贡献:构建并开源了首个大规模的阿拉伯语-英语音视频深度伪造数据集 ArEnAV。该数据集包含约38.7万个视频(超过765小时),通过一个创新的生成管道创建,该管道整合了多个文本转语音(TTS)和唇形同步模型,并利用GPT-4.1-mini进行8种不同规则的文本篡改,以模拟真实世界的代码切换和方言变体。与现有的多语言数据集(如PolyGlotFake)相比,ArEnAV首次专注于并显式生成“句内代码切换”的伪造内容。实验表明,当前最先进的深度伪造检测模型在ArEnAV上的性能出现断崖式下跌(例如,BA-TFD+模型的AP@0.5从AV-1M上的44.42%降至3.74%),甚至人类参与者的检测准确率也仅为60%,这证明了该数据集的挑战性和新场景的真实性。该工作的实际意义在于为开发更鲁棒、适用于全球多语言环境的深度伪造检测系统提供了必需的基准资源。主要局限性包括:数据生成管线依赖现有ASR和LLM,可能导致转录噪声和语义变化不足;数据集目前仅覆盖阿拉伯语和英语两种语言。 ...

2026-05-04 · 更新于 2026-06-18 · 2 min · 276 words

TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

📄 TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems #语音合成 #模型评估 #基准测试 #多语言 ✅ 7.5/10 | 前25% | #语音合成评估 | #基准测试 | #语音合成 #模型评估 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Christoph Minixhofer(爱丁堡大学语音技术研究中心) 通讯作者:论文中未明确指定,根据作者邮箱统一格式,可能为同一机构课题组 作者列表:Christoph Minixhofer(爱丁堡大学语音技术研究中心)、Ondrej Klejch(爱丁堡大学语音技术研究中心)、Peter Bell(爱丁堡大学语音技术研究中心) 💡 毒舌点评 亮点在于构建了首个覆盖14种语言、横跨多个真实世界域(含噪声、野生、儿童语音)的TTS客观评估基准与自动化流水线,实用价值高。但核心创新点(TTSDS2)是对原有TTSDS指标的增量改进,更多是工程优化和鲁棒性验证,而非提出全新评估范式,且其计算开销(CPU-bound)限制了快速迭代。 🔗 开源详情 代码:提供代码仓库链接(github.com/ttsds/pipeline),用于自动化数据创建和基准测试。 模型权重:论文评估的20个系统多为开源,TTSDS2本身不涉及需训练的模型,但依赖的特征提取模型(如mHuBERT-147)是公开的。 数据集:公开发布了包含11,282条评分的人类评估数据集(hf.co/datasets/ttsds/listening_test)。自动化流水线可创建多语言数据集。 Demo:提供在线基准排行榜网站(ttsdsbenchmark.com)。 复现材料:论文详细描述了评估设置、问卷内容、流水线算法(Algorithm 1)、特征选择标准,并提供了特征分布可视化示例(图1)。 论文中引用的开源项目:大量引用了开源工具和模型,如Whisper, Demucs, Pyannote, XNLI模型, VERSA工具包, 以及所评估的20个开源TTS系统。 📌 核心摘要 解决的问题:现代文本转语音(TTS)系统已能生成以假乱真的语音,导致传统主观评估(如MOS)难以跨研究对比,而常用的客观指标缺乏在多领域、多语言下的鲁棒性验证。 方法核心:提出TTSDS2,一个改进的分布评估指标。它通过比较合成语音与真实语音在通用性、说话人、韵律、可懂度四个因子上多个特征分布的2-Wasserstein距离,综合评分。得分越高表明合成语音分布越接近真实语音分布而非噪声分布。 与已有的方法相比新在哪里: 特征集升级:相较于TTSDS,替换了表现不佳的特征(如用Whisper和wav2vec 2.0的ASR激活替代WER),并为多语言场景引入了mHuBERT-147和XLSR-53等模型。 跨域鲁棒性验证:在CLEAN(干净朗读)、NOISY(噪声)、WILD(野生/对话)、KIDS(儿童语音)四个不同域上验证了指标与人类评分的相关性。 自动化多语言基准:发布了一个可重复运行的流水线,用于自动创建多语言YouTube数据集并生成持续更新的TTS系统排名,覆盖14种语言。 主要实验结果: 在20个开源TTS系统、16个客观指标的对比中,TTSDS2是唯一一个在所有4个域、3种主观评分(MOS, CMOS, SMOS)上均取得Spearman相关系数ρ > 0.50的指标,平均ρ ≈ 0.67。 与次优的说话人相似度指标(RawNet3, X-Vector)平均相关性0.6相比,TTSDS2更具一致性和连续性。 消融实验表明,简单的因子平均策略比学习权重策略在未见域上泛化更好。 多语言TTSDS2分数与语言学距离(Uriel+)相关性(ρ = -0.51)高于原版TTSDS(ρ = -0.39)。 Metric Clean (MOS) Clean (CMOS) Clean (SMOS) Noisy (MOS) Noisy (CMOS) Noisy (SMOS) Wild (MOS) Wild (CMOS) Wild (SMOS) Kids (MOS) Kids (CMOS) Kids (SMOS) TTSDS2 (Ours) 0.75 0.69 0.73 0.59 0.54 0.71 0.75 0.71 0.75 0.61 0.50 0.70 TTSDS (Original) 0.60 0.62 0.52 0.49 0.61 0.66 0.67 0.57 0.67 0.70 0.52 0.60 RawNet3 0.36 0.26 0.52 0.44 0.37 0.82 0.85 0.80 0.64 0.73 0.61 0.77 X-Vector 0.46 0.42 0.56 0.40 0.29 0.77 0.82 0.82 0.62 0.70 0.57 0.75 SQUIM 0.68 0.46 0.37 0.48 0.48 0.60 0.62 0.75 0.79 0.57 0.55 0.45 表:主要客观指标与主观评分的Spearman相关系数对比(节选)。TTSDS2在所有条件下均保持高于0.50的强相关。 ...

2026-05-04 · 更新于 2026-06-18 · 2 min · 365 words

UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice

📄 UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice #语音翻译 #大语言模型 #语音合成 #端到端 #多语言 🔥 8.0/10 | 前25% | #语音翻译 | #大语言模型 | #语音合成 #端到端 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Sitong Cheng(香港科技大学) 通讯作者:Yike Guo(香港科技大学),Wei Xue(香港科技大学) 作者列表:Sitong Cheng(香港科技大学)、Weizhen Bian(香港科技大学)、Xinsheng Wang(Soul AI Lab)、Ruibin Yuan(香港科技大学)、Jianyi Chen(香港科技大学)、Shunshun Yin(Soul AI Lab)、Yike Guo(香港科技大学)、Wei Xue(香港科技大学) 💡 毒舌点评 该论文的亮点在于其“大道至简”的哲学,用一个基于标准LLM的单阶段模型同时解决了翻译、声音和情感保持的复杂问题,性能数据非常亮眼。然而,其核心竞争力部分建立在自建的、通过TTS合成的超大规模数据集UniST之上,这使得结果的说服力打了些折扣——毕竟,如果给其他SOTA模型同样规模的定制数据,结果差距可能会缩小。此外,其多标记符的复杂分词策略在工程实现和通用性上是否是最优解,也值得商榷。 🔗 开源详情 代码:论文中未提及代码仓库链接。仅提供了演示网站。 模型权重:基于Qwen2.5-1.5B-Instruct,论文未明确说明是否提供训练后的UniSS模型权重下载。但演示网站可能托管了模型。 数据集:UniST数据集已构建,论文提到“公开”(release),但未提供具体的获取方式链接。数据构建流程和数据源已详细说明。 Demo:提供了在线演示网站:https://cmots.github.io/uniss-demo/ 复现材料:在附录B.1中提供了极其详细的训练配置(阶段、数据、学习率、批次大小等),在附录C和E中提供了评估指标和数据构建细节。复现信息相当充分,主要缺省是官方代码仓库。 论文中引用的开源项目:Qwen2.5-1.5B-Instruct (LLM骨干), BiCodec (语音分词/解码器), GLM-4 (语音分词器), Paraformer (数据清洗ASR), SparkTTS (合成TTS), Whisper (评估ASR), vLLM (推理加速), Megatron-LM (训练框架), webMUSHRA (主观评估) 等。 📌 核心摘要 这篇论文要解决的是表达式语音到语音翻译(S2ST)中的三大挑战:保留说话人声音和情感的配对数据稀缺、处理流程复杂、以及难以迁移文本LLM的翻译能力。方法核心是提出一个名为UniSS的单阶段、统一的文本-语音语言模型,它基于预训练的Qwen2.5-1.5B-Instruct构建,使用三种语音标记(说话人标记、语言标记、语义标记)来分别编码风格、内容和生成目标。其关键创新是引入了跨模态思维链(CoT)提示,在推理时将复杂的S2ST任务分解为“听、译、说”三个顺序步骤,从而显式地利用LLM强大的文本翻译能力来指导语音生成。为了训练该模型,论文还构建了一个大规模、高质量的合成数据集UniST(44.8k小时)。实验结果(主要见表1)表明,在CVSS-T数据集上,UniSS(质量模式)在翻译保真度(Speech-BLEU: EN-ZH 32.20, ZH-EN 24.28)、时长一致性(SLC 0.2: 0.98/0.87)和语音质量(UTMOS: 3.76/3.86)上均显著优于现有的端到端和级联系统。主观评估(表2)也证实其在情感相似度(MOS 4.51)和说话人相似度(4.42)上的优势。该工作的实际意义在于提供了一种更简洁、有效的下一代表达式S2ST系统构建范式。主要局限性是目前仅支持中英双语,且其分词器来自不同模型,导致词表膨胀。 ...

2026-05-04 · 更新于 2026-06-18 · 2 min · 306 words

VowelPrompt: Hearing Speech Emotions from Text via Vowel-level Prosodic Augmentation

📄 VowelPrompt: Hearing Speech Emotions from Text via Vowel-level Prosodic Augmentation #语音情感识别 #强化学习 #多语言 #大语言模型 🔥 8.5/10 | 前25% | #语音情感识别 | #强化学习 | #多语言 #大语言模型 学术质量 6.2/7 | 选题价值 1.8/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Yancheng Wang(Arizona State University; Meta Superintelligence Labs) 通讯作者:Osama Hanna(Meta Superintelligence Labs,基于邮箱推测) 作者列表: Yancheng Wang (Arizona State University, Meta Superintelligence Labs) Osama Hanna (Meta Superintelligence Labs) Ruiming Xie (Meta Superintelligence Labs) Xianfeng Rui (Meta Superintelligence Labs) Maohao Shen (Massachusetts Institute of Technology; Meta Superintelligence Labs) Xuedong Zhang (Meta Superintelligence Labs) Christian Fuegen (Meta Superintelligence Labs) Jilong Wu (Meta Superintelligence Labs) Debjyoti Paul (Meta Superintelligence Labs) Arthur Guo (Meta Superintelligence Labs) Zhihong Lei (Meta Superintelligence Labs) Ozlem Kalinli (Meta Superintelligence Labs) Qing He (Meta Superintelligence Labs) Yingzhen Yang (Arizona State University) 💡 毒舌点评 亮点在于从语音学常识(元音承载韵律)出发,设计了一套精巧且可解释的“翻译”流程,将隐晦的语音信号转化为LLM能读的文本,比直接灌入黑盒音频嵌入“高级”不少。短板则是其效果高度依赖强制对齐的准确性,对于口音重、背景噪或语速极快的语音,这套“元音显微镜”可能会失灵,且忽略辅音区域可能存在的互补情感线索(如送气、鼻化)。 ...

2026-05-04 · 更新于 2026-06-18 · 2 min · 335 words

语音/音乐/音频论文速递 2026-05-04

语音/音乐/音频论文速递 2026-05-04 共分析 14 篇论文 ⚡ 今日概览 📥 抓取 14 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音频生成 2篇 ██ #说话人验证 1篇 █ #声源定位 1篇 █ #音频深度伪造检测 1篇 █ #模型评估 1篇 █ #多模态模型 1篇 █ #主动噪声控制 1篇 █ #音乐理解 1篇 █ 📊 论文评分排行榜(14 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 LASE: Language-Adversarial Speaker Encoding for Indic C 8.5分 前25% #说话人验证 🥈 Towards Improving Speaker Distance Estimation through G 8.5分 前25% #声源定位 🥉 Alethia: A Foundational Encoder for Voice Deepfakes 8.0分 前25% #音频深度伪造检测 4. Beyond Decodability: Reconstructing Language Model Repr 7.5分 前25% #模型评估 5. Fast Text-to-Audio Generation with One-Step Sampling vi 7.5分 前25% #音频生成 6. MMAudio-LABEL: Audio Event Labeling via Audio Generatio 7.5分 前25% #音频生成 7. Group Cognition Learning: Making Everything Better Thro 7.5分 前25% #多模态模型 8. Transformer-based End-to-End Control Filter Generation 7.0分 前25% #主动噪声控制 9. GaMMA: Towards Joint Global-Temporal Music Understandin 7.0分 前25% #音乐理解 10. RoboKA: KAN Informed Multimodal Learning for RoboCall S 7.0分 前25% #语音伪造检测 11. From Birdsong to Rumbles: Classifying Elephant Calls wi 6.5分 前50% #音频分类 12. Timing is Everything: Temporal Scaffolding of Semantic 6.5分 前50% #音频事件检测 13. CustomDancer: Customized Dance Recommendation by Text-D 6.5分 前50% #音频检索 #音乐理解 14. MMAudioReverbs: Video-Guided Acoustic Modeling for Dere 6.0分 前50% #语音增强 📋 论文列表 🥇 LASE: Language-Adversarial Speaker Encoding for Indic Cross-Script Identity Preservation 🔥 8.5/10 | 前25% | #说话人验证 | #领域适应 | #多语言 #开源工具 | arxiv ...

2026-05-04 · 更新于 2026-06-18 · 9 min · 1720 words