基准测试 | 语音/音乐/音频论文速递

LRS-VoxMM: A benchmark for in-the-wild audio-visual speech recognition

📄 LRS-VoxMM: A benchmark for in-the-wild audio-visual speech recognition #语音识别 #数据集 #基准测试 #鲁棒性 🔥 9.0/10 | 前25% | #语音识别 | #数据集 | #基准测试 #鲁棒性 | arxiv 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Doyeop Kwak（韩国高等科技院 KAIST）通讯作者：未明确标注，根据惯例和论文末位，可能为 Joon Son Chung（韩国高等科技院 KAIST）作者列表：Doyeop Kwak（韩国高等科技院 KAIST）、Jeongsoo Choi（韩国高等科技院 KAIST）、Suyeon Lee（韩国高等科技院 KAIST）、Joon Son Chung（韩国高等科技院 KAIST） 💡 毒舌点评亮点：精准地切中了当前AVSR评测体系的一个真实痛点——现有主流基准过于“干净”和饱和，难以评估视觉信息的真正价值，并为此提供了从构建协议到失真测试集的一整套标准化解决方案，实用性极强。短板：作为一项数据集/基准工作，其学术贡献主要在于“整合”和“定义”，在模型或算法层面并无直接创新；对基准难度的分析虽充分，但最终仍依赖现有模型来展示，未能提出新的分析范式。 🔗 开源详情代码：https://github.com/kaistmm/VoxMM 模型权重：论文中提及使用了官方公开发布的 AV-HuBERT、Auto-AVSR 和 Llama-AVSR 检查点，但未提供这些检查点的具体获取链接。数据集：VoxMM 官方项目主页（包含 LRS-VoxMM 下载说明）：https://mm.kaist.ac.kr/projects/voxmm Demo：论文中未提及复现材料：论文中提及复现了 Auto-AVSR 模型 (Auto-AVSR*)，但未提供具体的训练配置文件、复现检查点或详细附录的链接。论文中引用的开源项目： VoxMM 预处理工具：https://github.com/kaistmm/VoxMM DEMAND 噪声数据库：论文中提及用于加性噪声合成，但未提供具体链接。 Wav2vec 2.0 LARGE 模型：论文中提及用于词级时间戳的强制对齐，但未提供具体链接。 SyncNet：论文中提及用于同步性置信度评分，但未提供具体链接。 LRS2/LRS3 数据集：论文中多次提及并比较，但未提供其原始数据集链接。 The request was rejected because it was considered high risk ...

Mapping the Methodological Space of Classroom Interaction Research: Scale, Duration, and Modality in an Age of AI

📄 Mapping the Methodological Space of Classroom Interaction Research: Scale, Duration, and Modality in an Age of AI #教育研究 #方法论框架 #多模态模型 #基准测试 #跨模态 ✅ 6.0/10 | 前50% | #模型评估 | #基准测试 | #教育研究 #方法论框架 | arxiv 学术质量 5.5/7 | 选题价值 3.0/2 | 复现加成 -1.0 | 置信度中 👥 作者与机构第一作者：未说明（论文中未明确标注）通讯作者：未说明（论文中未明确标注）作者列表： Dorottya Demszky（未说明） Edith Bouton（未说明） Alison Twiner（未说明） Sara Hennessy（未说明） Richard Correnti（未说明） 💡 毒舌点评这篇论文试图在教育研究与AI技术之间架起一座方法论的桥梁，其提出的“尺度-时长-模态”三维分析框架视角新颖，对于整合长期割裂的大规模量化研究与深度质性研究具有启发性。然而，作为一个纯理论框架论文，它缺乏任何实证数据、算法实现或案例验证来支撑其框架的有效性和实用性，读起来更像一篇优秀的研究议程提案，而非一份扎实的学术成果报告。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及数据集：论文中未提及 Demo：论文中未提及复现材料：论文中未提及论文中引用的开源项目：未提及补充信息 [核心摘要] 补充：框架的提出直接源于对课堂互动研究中“大规模量化观察”与“小样本质性民族志”长期割裂现状的观察，旨在弥合这一方法论鸿沟。论文中用于例证框架的两个研究（Howe et al., 2019; Snell & Lefstein, 2018）在三维空间中的具体定位有清晰对比：前者代表大尺度、中期持续、以音频转录为主的文本分析；后者代表小尺度（单案例）、长期追踪、以视频为主的多模态（含视觉线索）分析。这一对比具体展示了框架如何定位和对比不同研究的侧重点。 ...

MCPHunt: An Evaluation Framework for Cross-Boundary Data Propagation in Multi-Server MCP Agents

📄 MCPHunt: An Evaluation Framework for Cross-Boundary Data Propagation in Multi-Server MCP Agents #模型评估 #基准测试 #大语言模型 #开源工具 #鲁棒性 ✅ 7.5/10 | 前25% | #模型评估 | #基准测试 | #大语言模型 #开源工具 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Haonan Li（中国地质大学（北京）教育部长江三峡库区地壳活动与地质灾害重点实验室，中国地质大学（北京）地球物理与信息技术学院）通讯作者：未说明（论文未明确标注通讯作者）作者列表：Haonan Li（同上）、Tianjun Sun（同上）、Yongqing Wang（同上）、Qisheng Zhang（同上） 💡 毒舌点评这篇论文的亮点在于它犀利地指出了一个常被忽视的“非恶意”安全风险：AI代理在“乖乖干活”时如何因工作流拓扑结构而“被迫”泄露数据，其提出的CRS分层方法清晰地区分了“任务要求”和“安全失败”，框架设计严谨且开源彻底。短板在于其所有评估任务均为研究者设计的合成场景，能否完全代表真实企业部署中复杂多变的工作流尚存疑问，且对“数据传播”仅限于可字符串匹配的金丝雀，未涉及更隐晦的语义泄露。 🔗 开源详情代码：https://github.com/lihaonan0716/MCPHunt 模型权重：论文中未提及（论文评估的模型通过API端点调用，未提供模型权重本身）数据集：https://huggingface.co/datasets/lihaonan0716/mcphunt-agent-traces （包含所有6,321条追踪记录；开源协议为CC BY 4.0） Demo：论文中未提及复现材料：代码仓库包含完整的评估框架、标注管线（labeling pipeline）和Croissant元数据。可复现配置：每个输出JSON文件包含版本信息（schema_version, pipeline_git_commit, task_taxonomy_version, labeling_rules_version）。重标注脚本：relabel_traces.py 可从原始事件数据重新计算所有风险信号并生成汇总统计。任务注册表：完整的147个任务列表定义于 src/mcphunt/taxonomy.py。模型配置：添加新模型仅需一个YAML配置条目，支持任何OpenAI兼容的端点。检查点/恢复：收集工具在每个追踪后保存状态，支持从API中断中恢复。论文中引用的开源项目： MCP服务器（论文中用于评估的8个服务器）： @modelcontextprotocol/server-filesystem：文件系统服务器。 mcp-server-git：Git服务器。 @modelcontextprotocol/server-memory：记忆/知识图谱服务器。 mcp-server-sqlite：SQLite数据库服务器。 mcp-server-fetch：用于HTTP请求。 mcp-server-time：用于时区查询。 shell-command-mcp：受限制的Shell命令服务器。浏览器自动化服务器（本地实现，未指定包名）。其他框架与工具（论文中提及但未提供具体项目链接）： PRUDENTIA NeMo Guardrails Invariant 补充信息 [模型架构] 补充：在“3 Method”章节开头，论文明确定义了其威胁模型：“We study a non-adversarial setting: a user issues a legitimate task, the agent has access to k MCP servers, and no adversary manipulates prompts, tools, or data.” 这强调了本研究与主流对抗性安全评估的根本区别，是理解整个工作定位的关键前提。 ...

TTS-PRISM: A Perceptual Reasoning and Interpretable Speech Model for Fine-Grained Diagnosis

📄 TTS-PRISM: A Perceptual Reasoning and Interpretable Speech Model for Fine-Grained Diagnosis #语音质量评估 #指令微调 #基准测试 #开源工具 #语音合成 ✅ 7.5/10 | 前25% | #语音质量评估 | #指令微调 | #基准测试 #开源工具 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：未说明（论文作者列表未明确排序，但根据邮箱 xi-wang24@mails.tsinghua.edu.cn 和作者列表首位推测，第一作者可能为 Xi Wang）。通讯作者：未说明（论文作者列表未明确标注，根据邮箱 zywu@sz.tsinghua.edu.cn 推测，通讯作者可能为 Zhiyong Wu）。作者列表：Xi Wang (1, 2), Jie Wang (3), Xingchen Song (2), Baijun Song (1), Jingran Xie (1), Jiahe Shao (1), Zijian Lin (1), Di Wu (1), Meng Meng (1), Jian Luan (2), Zhiyong Wu (1)。机构列表：1. 清华大学，中国；2. 小米公司 MiLM Plus，中国；3. 东京大学，日本。 💡 毒舌点评这篇论文像一个严谨的“语音体检医生”，为TTS系统量身定做了一套包含12个指标的“体检表”和基于大模型生成数据的“训练集”，确实让评估从“整体印象”走向了“分项诊断”。但尴尬的是，这位“医生”自己在“发音”这个最基础的体检项目上却可能受制于自身的“学术出身”（ASR预训练偏差），体检结论的权威性打了点折扣。 ...

语音/音乐/音频论文速递 2026-05-01

语音/音乐/音频论文速递 2026-05-01 共分析 21 篇论文 ⚡ 今日概览 📥 抓取 21 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 7篇 ███████ #模型评估 2篇 ██ #语音对话系统 1篇 █ #条件生成 1篇 █ #语音转换 1篇 █ #音频事件检测 1篇 █ #语音合成 1篇 █ #个性化联邦学习 1篇 █ 📊 论文评分排行榜（21 篇，按分数降序）排名论文评分分档主任务 🥇 LRS-VoxMM: A benchmark for in-the-wild audio-visual spe 9.0分前25% #语音识别 🥈 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal 8.5分前25% #语音对话系统 🥉 ABC: Any-Subset Autoregression via Non-Markovian Diffus 8.0分前25% #条件生成 4. Accent Conversion: A Problem-Driven Survey of Socioling 7.5分前50% #语音转换 5. Few-Shot Accent Synthesis for ASR with LLM-Guided Phone 7.5分前25% #语音识别 6. EdgeSpike: Spiking Neural Networks for Low-Power Autono 7.5分前25% #音频事件检测 7. JaiTTS: A Thai Voice Cloning Model 7.5分前25% #语音合成 8. Taming Noise-Induced Prototype Degradation for Privacy- 7.5分前25% #个性化联邦学习 9. MCPHunt: An Evaluation Framework for Cross-Boundary Dat 7.5分前25% #模型评估 10. Beyond the Baseband: Adaptive Multi-Band Encoding for F 7.0分前25% #生物声学 11. A Knowledge-Driven Approach to Target Speech Extraction 7.0分前50% #语音分离 12. Predicting Upcoming Stuttering Events from Three-Second 7.0分前25% #语音生物标志物 13. Dual-LoRA: Parameter-Efficient Adversarial Disentanglem 7.0分前25% #说话人验证 14. HATS: An Open data set Integrating Human Perception App 7.0分前50% #语音识别 15. Do Sparse Autoencoders Capture Concept Manifolds? 7.0分前25% #可解释性 16. BUT System Description for CHiME-9 MCoRec Challenge 6.5分前25% #语音识别 17. AppTek Call-Center Dialogues: A Multi-Accent Long-Form 6.5分前25% #语音识别 18. Qualitative Evaluation of Language Model Rescoring in A 6.5分前25% #语音识别 19. Mapping the Methodological Space of Classroom Interacti 6.0分前50% #模型评估 20. Selective Augmentation: Improving Universal Automatic P 6.0分前50% #语音识别 21. Normativity and Productivism: Ableist Intelligence? A D 3.5分后50% #语音翻译 📋 论文列表 🥇 LRS-VoxMM: A benchmark for in-the-wild audio-visual speech recognition 🔥 9.0/10 | 前25% | #语音识别 | #数据集 | #基准测试 #鲁棒性 | arxiv ...

Preferences of a Voice-First Nation: Large-Scale Pairwise Evaluation and Preference Analysis for TTS in Indian Languages

📄 Preferences of a Voice-First Nation: Large-Scale Pairwise Evaluation and Preference Analysis for TTS in Indian Languages #语音合成 #模型评估 #多语言 #人类评估 #基准测试 ✅ 7.5/10 | 前25% | #语音合成 | #模型评估 | #多语言 #人类评估 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Srija Anand (AI4Bharat, srijaanand@ai4bharat.org) 通讯作者：未说明作者列表：Srija Anand¹,² (AI4Bharat), Ashwin Sankar² (AI4Bharat), Ishvinder Sethi³ (Josh Talks), Aaditya Pareek² (AI4Bharat), Kartik Rajput² (AI4Bharat), Gaurav Yadav² (AI4Bharat), Nikhil Narasimhan² (AI4Bharat), Adish Pandya² (AI4Bharat), Deepon Halder² (AI4Bharat), Mohammed Safi Ur Rahman Khan² (AI4Bharat), Praveen S V² (AI4Bharat), Shobhit Banga² (AI4Bharat), Mitesh M Khapra¹ (印度理工学院马德拉斯分校)。注：上标1,2,3对应论文中提到的机构：1. Indian Institute of Technology, Madras; 2. AI4Bharat; 3. Josh Talks。 💡 毒舌点评这篇论文堪称语音合成领域的“Consumer Reports”，通过严谨、大规模的控制实验和多维度分析，为印度语言TTS模型的优劣提供了目前最可信的排名和诊断报告，其实证数据的价值很高。然而，它的核心方法论（受控成对评估）并非首创，且“表达力驱动用户偏好”这一结论在缺乏客观声学指标（如MCD, F0轮廓）支撑的情况下，略显单薄，更像是对评估数据的重新解读而非深入机理的揭示。 ...

PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech

📄 PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech #语音合成 #模型评估 #自监督学习 #多语言 #基准测试 🔥 9.0/10 | 前25% | #语音合成 | #模型评估 | #自监督学习 #多语言 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Venkata Pushpak Teja Menta（未说明）通讯作者：Venkata Pushpak Teja Menta（未说明）作者列表：Venkata Pushpak Teja Menta（未说明） 💡 毒舌点评亮点：这篇论文精准地抓住了印度语言TTS评估中“可懂度高但口音不地道”的痛点，提出的PSP框架将“口音”拆解得明明白白，并用自动化声学探针方法替代了不靠谱的ASR，设计思路非常清晰务实。短板：V1版本的实验规模（每种语言10句话）实在太小，使得统计显著性存疑，论文自己也承认排名差异在5个百分点内无法区分，更像是一个“概念验证”而非最终的权威评测报告。 🔗 开源详情代码：提供了完整的开源代码仓库链接：github.com/praxelhq/psp-eval，包含评分、引导采样和模态相关代码，采用MIT许可证。模型权重：未提及发布PSP评估框架本身的模型权重（它是一个评估流程，依赖预训练模型如XLS-R，但未修改或发布这些权重）。数据集：已公开发布。包括：原生语音质心（CC-BY许可证）：Praxel/psp-native-centroids on HuggingFace。用于FAD的1000片段语料库级XLS-R嵌入。用于PSD的500片段语料库级韵律特征矩阵。每种语言300句的“黄金测试集”文本文件。 Demo：论文中未提及在线��示。复现材料：提供了详细的复现说明（见GitHub仓库README），包括所需的Modal账户设置和运行命令。论文中提到了所有关键超参数（如提取层、坍缩阈值）。论文中引用的开源项目/模型： Wav2Vec2-XLS-R：用作嵌入提取器。 CTC对齐器：引用了多个社区模型（anuragshas/wav2vec2-large-xlsr-53-telugu, ai4bharat/indicwav2vec-hindi, Harveenchadha/vakyansh-wav2vec2-tamil-tam-250）。 Chatterbox：Praxy Voice系统所基于的开源TTS框架。 Indic Parler-TTS：作为被评估的开源基线系统。 📌 核心摘要问题：现有的文本转语音（TTS）评估指标（如WER、MOS）无法有效量化合成语音的“口音”是否地道，尤其是在印度语言中，卷舌音、送气音、元音长度等音韵特征对本地听众至关重要。方法核心：提出PSP（音素替换档案），一个可解释的、按音韵维度分解的印度语言TTS口音评估基准。它定义了六个维度：卷舌音坍缩率（RR）、送气保真度（AF）、长度保真度（LF）、泰米尔语“ழ”保真度（ZF）、Fréchet音频距离（FAD）和韵律特征发散度（PSD）。前四个维度通过强制对齐提取音素片段，计算其在Wav2Vec2-XLS-R嵌入空间中与本地人质心和替代音素质心的相似度来评估；后两个维度在语料库级别计算分布距离。与已有方法相比新在哪里：与针对美式-英式英语的、基于规则的PSR基准不同，PSP是基于声学探针的、针对印度语言的，并且将评估分解为多个可解释的音韵维度，而非单一标量。它不依赖高精度的目标语言ASR。主要实验结果：在印地语、泰卢固语、泰米尔语的10句测试集上，对四个商业系统和一个开源系统（Praxy Voice）进行基准测试。关键结果包括：卷舌音错误率随语言难度单调增长（印地语1%，泰卢固语40%，泰米尔语~68%）；PSP排序与WER排序不一致，例如，WER最优的ElevenLabs在印地语上FAD排名第二，在泰卢固语上PSD表现极差（韵律扁平）；没有一个系统在所有六个维度上都最优。例如在泰米尔语，Indic Parler-TTS在RR、ZF、LF、PSD四个维度领先，而Sarvam在FAD上领先。语言系统 RR坍缩率↓ FAD↓ PSD↓ 泰卢固语 Praxy R6 + Sarvam参考 26.7% 291.3 13.1 泰卢固语 Sarvam Bulbul 33.3% 250.4 11.1 泰卢固语 Indic Parler-TTS 33.3% 325.0 10.4 泰卢固语 Cartesia Sonic-3 50.0% 458.1 33.8 泰米尔语 Indic Parler-TTS 64.3% 233.1 27.1 泰米尔语 Sarvam Bulbul 70.5% 200.3 72.3 印地语所有系统 ≤4.5% 211.8~267.4 未提供 5. 实际意义：为印度语言TTS系统开发和优化提供了一个可解释的诊断工具，能够精确定位系统在哪些音韵特征上失分，指导针对性的改进（如提示词、训练数据调整）。 6. 主要局限性：V1版本使用小规模测试集（10句/语言），统计效力有限；依赖的CTC对齐器在泰卢固语和泰米尔语上精度较低，导致本地语音的PSP分数存在较高的“噪声地板”；未与主观MOS测试进行正式相关性校准。 🏗️ 模型架构本文提出的不是生成模型，而是一个评估框架/基准。其核心架构流程如下： ...

Similarity Choice and Negative Scaling in Supervised Contrastive Learning for Deepfake Audio Detection

📄 Similarity Choice and Negative Scaling in Supervised Contrastive Learning for Deepfake Audio Detection #音频深度伪造检测 #对比学习 #自监督学习 #鲁棒性 #基准测试 🔥 8.0/10 | 前25% | #音频深度伪造检测 | #对比学习 #自监督学习 | #对比学习 #自监督学习 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jaskirat Sudan (University of Michigan, Dearborn) 通讯作者：未说明（论文未明确指定）作者列表：Jaskirat Sudan (University of Michigan, Dearborn)、Hashim Ali (University of Michigan, Dearborn)、Surya Subramani (University of Michigan, Dearborn)、Hafiz Malik (University of Michigan, Dearborn) 💡 毒舌点评亮点：实验设计极其严谨，通过固定所有其他变量（模型、优化器、增强等），孤立地研究了相似度函数和负样本队列的影响，并揭示了二者之间复杂的非单调交互关系，为该领域的实践者提供了扎实的调参依据。短板：所有结论都建立在单一模型（XLS-R 300M）和单一训练集（ASVspoof 2019 LA）上，其发现是否能迁移到其他自监督模型或其他伪造检测数据集上，文中未做任何探讨，这在一定程度上削弱了结论的普适性。 ...

Step-Audio-R1.5 Technical Report

📄 Step-Audio-R1.5 Technical Report #语音对话系统 #强化学习 #语音大模型 #预训练 #基准测试 ✅ 7.5/10 | 前25% | #语音对话系统 | #强化学习 | #语音大模型 #预训练 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Yuxin Zhang（StepFun；上海交通大学；Nanyang Technological University）通讯作者：Fei Tian（StepFun；邮箱：tianfei@stepfun.com）作者列表：Yuxin Zhang（StepFun，上海交通大学，Nanyang Technological University），Xiangyu Tony Zhang（University of New South Wales），Daijiao Liu（StepFun，University of New South Wales），Fei Tian（StepFun），Yayue Deng（StepFun），Jun Chen（StepFun），Qingjian Lin（StepFun），Haoyang Zhang（StepFun，Nanyang Technological University），Yuxin Li（StepFun，Nanyang Technological University），Jinglan Gong（StepFun），Yechang Huang（StepFun），Liang Zhao（StepFun），Chengyuan Yao（StepFun），Hexin Liu（Nanyang Technological University），Eng Siong Chng（Nanyang Technological University），Xuerui Yang（StepFun），Gang Yu（StepFun），Xiangyu Zhang（StepFun），Daxin Jiang（StepFun） 💡 毒舌点评这篇论文敏锐地指出了当前音频推理模型训练中“为答对而答”的机械感问题，并提出了一个颇具潜力的解决方案（RLHF），实验也显示其对话能力有显著提升。然而，模型在最能体现交互能力的AudioMC基准上得分（41.15）仍落后于Gemini 3系列，且核心的“评分标准奖励模型”的具体实现和训练数据细节未在文中公开，这让其宣称的“突破”打了折扣，更像是一个工程改进而非范式革新。 ...

语音/音乐/音频论文速递 2026-04-30

语音/音乐/音频论文速递 2026-04-30 共分析 25 篇论文 ⚡ 今日概览 📥 抓取 25 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 4篇 ████ #音频深度伪造检测 2篇 ██ #声源定位 2篇 ██ #音视频 1篇 █ #语音克隆 1篇 █ #说话人验证 1篇 █ #语音匿名化 1篇 █ #语音情感识别 1篇 █ 📊 论文评分排行榜（25 篇，按分数降序）排名论文评分分档主任务 🥇 PSP: An Interpretable Per-Dimension Accent Benchmark fo 9.0分前25% #语音合成 🥈 Hallo-Live: Real-Time Streaming Joint Audio-Video Avata 8.5分前25% #音视频 🥉 One Voice, Many Tongues: Cross-Lingual Voice Cloning fo 8.0分前25% #语音克隆 4. Similarity Choice and Negative Scaling in Supervised Co 8.0分前25% #音频深度伪造检测 5. Praxy Voice: Voice-Prompt Recovery + BUPS for Commercia 8.0分前25% #语音合成 6. Dual-LoRA: Parameter-Efficient Adversarial Disentanglem 7.5分前25% #说话人验证 7. SPG-Codec: Exploring the Role and Boundaries of Semanti 7.5分前25% #语音合成 8. DiffAnon: Diffusion-based Prosody Control for Voice Ano 7.5分前25% #语音匿名化 9. Diffusion Reconstruction towards Generalizable Audio De 7.5分前25% #音频深度伪造检测 10. EmoTransCap: Dataset and Pipeline for Emotion Transitio 7.5分前25% #语音情感识别 11. Hankel and Toeplitz Rank-1 Decomposition of Arbitrary M 7.5分前50% #声源定位 12. A New Location Estimator for Mixed LOS & NLOS scena 7.5分前25% #声源定位 13. Multimodal LLMs are not all you need for Pediatric Spee 7.5分前25% #语音分类 14. StarDrinks: An English and Korean Test Set for SLU Eval 7.5分前25% #数据集 15. Tatemae: Detecting Alignment Faking via Tool Selection 7.5分前25% #大语言模型 16. Step-Audio-R1.5 Technical Report 7.5分前25% #语音对话系统 17. Preferences of a Voice-First Nation: Large-Scale Pairwi 7.5分前25% #语音合成 18. The False Resonance: A Critical Examination of Emotion 7.0分前25% #语音情感识别 #模型评估 19. A Toolkit for Detecting Spurious Correlations in Speech 7.0分前50% #模型评估 20. Multiple Additive Neural Networks for Structured and Un 7.0分前50% #表格数据预测 21. Random Cloud: Finding Minimal Neural Architectures With 7.0分前50% #模型架构搜索 22. Recurrence-Based Nonlinear Vocal Dynamics as Digital Bi 6.5分前50% #语音生物标志物 23. Full band denoising of room impulse response in the wav 6.5分前50% #音频信号处理 24. Text-Utilization for Encoder-dominated Speech Recogniti 6.5分前50% #语音识别 25. Fitting Large Nonlinear Mixed Effects Models Using Vari 6.5分前50% #统计计算 📋 论文列表 🥇 PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech 🔥 9.0/10 | 前25% | #语音合成 | #模型评估 | #自监督学习 #多语言 | arxiv ...