Full-Duplex Interaction in Spoken Dialogue Systems: A Comprehensive Study from the ICASSP 2026 HumDial Challenge

📄 Full-Duplex Interaction in Spoken Dialogue Systems: A Comprehensive Study from the ICASSP 2026 HumDial Challenge #语音对话系统 #端到端 #基准测试 #多模态模型 ✅ 6.5/10 | 前25% | #语音对话系统 | #端到端 | #基准测试 #多模态模型 | arxiv 学术质量 4.0/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:未说明(作者列表按姓氏字母顺序排列,未明确指出第一作者) 通讯作者:未说明(论文中未明确标注通讯作者,但提供了共同联系邮箱) 作者列表:Chengyou Wang (Audio, Speech and Language Processing Group (ASLP@NPU), School of Computer Science, Northwestern Polytechnical University, Xi’an, China)、Hongfei Xue (同上)、Guojian Li (同上)、Zhixian Zhao (同上)、Shuiyuan Wang (未说明具体单位,仅列姓名)、Shuai Wang (未说明具体单位,仅列姓名)、Xin Xu (未说明具体单位,仅列姓名)、Hui Bu (AISHELL, China)、Lei Xie (Audio, Speech and Language Processing Group (ASLP@NPU), School of Computer Science, Northwestern Polytechnical University, Xi’an, China) 💡 毒舌点评 本文为全双工语音对话系统的研究提供了一套详尽、实用的“考试大纲”和“模拟题库”,其数据集构建和评测框架设计是当前该领域急需的公共产品,对推动后续研究非常有益;但作为一篇“综合性研究”,它更像是一个挑战赛报告和资源发布文档,缺乏自身提出的、经过严格验证的新型模型或核心算法,学术增量主要体现在“评测”而非“建模”上。 ...

2026-05-01 · 更新于 2026-06-15 · 2 min · 319 words

Listening with Time: Precise Temporal Awareness for Long-Form Audio Understanding

📄 Listening with Time: Precise Temporal Awareness for Long-Form Audio Understanding #音频大模型 #音频场景理解 #基准测试 #强化学习 #数据集 🔥 8.0/10 | 前25% | #音频场景理解 | #音频大模型 | #基准测试 #强化学习 | arxiv 学术质量 5.8/7 | 选题价值 1.5/2 | 复现加成 0.7 | 置信度 高 👥 作者与机构 第一作者:Mingchen Shao(西北工业大学) 通讯作者:Lei Xie(西北工业大学) 作者列表:Mingchen Shao(西北工业大学)、Hang Su(独立研究者)、Wenjie Tian(西北工业大学)、Bingshen Mu(西北工业大学)、Zhennan Lin(西北工业大学)、Lichun Fan(独立研究者)、Zhenbo Luo(独立研究者,清华大学相关)、Jian Luan(独立研究者)、Lei Xie(西北工业大学) 💡 毒舌点评 这篇论文的亮点在于其“庖丁解牛”式的系统设计:面对长音频时间感知这一老大难问题,没有硬磕模型本身,而是从数据、评测、推理范式三个层面给出了一套“组合拳”,尤其是构建全球-局部时间线的TWA-CoT思路清晰有效。然而,其短板也很明显:框架的计算开销和多轮推理的延迟使其在实时或流式场景下的应用面临挑战,且最终性能的天花板依然受限于所采用的骨干模型(Qwen3-Omni)的基础能力。 🔗 开源详情 代码:论文承诺开源,并提供了GitHub仓库链接:https://github.com/alanshaoTT/LAT-Audio-Repo。 模型权重:论文提及基于Qwen3-Omni-30B进行训练,但未明确说明最终模型权重是否开源。根据仓库名推测,模型权重可能也会开源。 数据集:LAT-Chronicle数据集和LAT-Bench基准承诺开源,但未说明具体获取方式(如需申请或直接下载)。 Demo:论文中未提及提供在线演示。 复现材料:论文提供了详细的三阶段训练策略、关键超参数(学习率、批大小、组大小)、奖励函数设计以及数据集的构成统计,复现材料较为充分。 引用的开源项目/工具: 骨干模型:Qwen3-Omni-30B-A3B-Instruct (Team, 2025c) 训练框架:Swift (Zhao et al., 2025) 对比模型/工具:Audio-Flamingo3 (Goel et al., 2025)、Gemini系列 (Team, 2025a)、Step-Audio-R1.1 (Tian et al., 2025)、Time-Audio (Wang et al., 2026) 评估指标:FENSE (Zhou et al., 2022; Dinkel et al., 2025) 原子标注中使用的模型:Gemini-2.5-Pro、LLM-ForceAligner (Mu et al., 2026) 强化学习算法:Group Relative Policy Optimization (Shao et al., 2024) 📌 核心摘要 本文针对大型音频语言模型在长音频理解任务(尤其是需要精确时间感知的任务)中性能显著下降的问题,提出了一套综合解决方案。 ...

2026-05-01 · 更新于 2026-06-15 · 2 min · 378 words

LRS-VoxMM: A benchmark for in-the-wild audio-visual speech recognition

📄 LRS-VoxMM: A benchmark for in-the-wild audio-visual speech recognition #语音识别 #数据集 #基准测试 #鲁棒性 🔥 9.0/10 | 前25% | #语音识别 | #数据集 | #基准测试 #鲁棒性 | arxiv 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Doyeop Kwak(韩国高等科技院 KAIST) 通讯作者:未明确标注,根据惯例和论文末位,可能为 Joon Son Chung(韩国高等科技院 KAIST) 作者列表:Doyeop Kwak(韩国高等科技院 KAIST)、Jeongsoo Choi(韩国高等科技院 KAIST)、Suyeon Lee(韩国高等科技院 KAIST)、Joon Son Chung(韩国高等科技院 KAIST) 💡 毒舌点评 亮点:精准地切中了当前AVSR评测体系的一个真实痛点——现有主流基准过于“干净”和饱和,难以评估视觉信息的真正价值,并为此提供了从构建协议到失真测试集的一整套标准化解决方案,实用性极强。短板:作为一项数据集/基准工作,其学术贡献主要在于“整合”和“定义”,在模型或算法层面并无直接创新;对基准难度的分析虽充分,但最终仍依赖现有模型来展示,未能提出新的分析范式。 🔗 开源详情 代码:https://github.com/kaistmm/VoxMM 模型权重:论文中提及使用了官方公开发布的 AV-HuBERT、Auto-AVSR 和 Llama-AVSR 检查点,但未提供这些检查点的具体获取链接。 数据集:VoxMM 官方项目主页(包含 LRS-VoxMM 下载说明):https://mm.kaist.ac.kr/projects/voxmm Demo:论文中未提及 复现材料:论文中提及复现了 Auto-AVSR 模型 (Auto-AVSR*),但未提供具体的训练配置文件、复现检查点或详细附录的链接。 论文中引用的开源项目: VoxMM 预处理工具:https://github.com/kaistmm/VoxMM DEMAND 噪声数据库:论文中提及用于加性噪声合成,但未提供具体链接。 Wav2vec 2.0 LARGE 模型:论文中提及用于词级时间戳的强制对齐,但未提供具体链接。 SyncNet:论文中提及用于同步性置信度评分,但未提供具体链接。 LRS2/LRS3 数据集:论文中多次提及并比较,但未提供其原始数据集链接。 The request was rejected because it was considered high risk ...

2026-05-01 · 更新于 2026-06-15 · 2 min · 228 words

Mapping the Methodological Space of Classroom Interaction Research: Scale, Duration, and Modality in an Age of AI

📄 Mapping the Methodological Space of Classroom Interaction Research: Scale, Duration, and Modality in an Age of AI #教育研究 #方法论框架 #多模态模型 #基准测试 #跨模态 ✅ 6.0/10 | 前50% | #模型评估 | #基准测试 | #教育研究 #方法论框架 | arxiv 学术质量 5.5/7 | 选题价值 3.0/2 | 复现加成 -1.0 | 置信度 中 👥 作者与机构 第一作者:未说明(论文中未明确标注) 通讯作者:未说明(论文中未明确标注) 作者列表: Dorottya Demszky(未说明) Edith Bouton(未说明) Alison Twiner(未说明) Sara Hennessy(未说明) Richard Correnti(未说明) 💡 毒舌点评 这篇论文试图在教育研究与AI技术之间架起一座方法论的桥梁,其提出的“尺度-时长-模态”三维分析框架视角新颖,对于整合长期割裂的大规模量化研究与深度质性研究具有启发性。然而,作为一个纯理论框架论文,它缺乏任何实证数据、算法实现或案例验证来支撑其框架的有效性和实用性,读起来更像一篇优秀的研究议程提案,而非一份扎实的学术成果报告。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中未提及 Demo:论文中未提及 复现材料:论文中未提及 论文中引用的开源项目:未提及 补充信息 [核心摘要] 补充:框架的提出直接源于对课堂互动研究中“大规模量化观察”与“小样本质性民族志”长期割裂现状的观察,旨在弥合这一方法论鸿沟。论文中用于例证框架的两个研究(Howe et al., 2019; Snell & Lefstein, 2018)在三维空间中的具体定位有清晰对比:前者代表大尺度、中期持续、以音频转录为主的文本分析;后者代表小尺度(单案例)、长期追踪、以视频为主的多模态(含视觉线索)分析。这一对比具体展示了框架如何定位和对比不同研究的侧重点。 ...

2026-05-01 · 更新于 2026-06-15 · 1 min · 153 words

MCPHunt: An Evaluation Framework for Cross-Boundary Data Propagation in Multi-Server MCP Agents

📄 MCPHunt: An Evaluation Framework for Cross-Boundary Data Propagation in Multi-Server MCP Agents #模型评估 #基准测试 #大语言模型 #开源工具 #鲁棒性 ✅ 7.5/10 | 前25% | #模型评估 | #基准测试 | #大语言模型 #开源工具 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Haonan Li(中国地质大学(北京)教育部长江三峡库区地壳活动与地质灾害重点实验室,中国地质大学(北京)地球物理与信息技术学院) 通讯作者:未说明(论文未明确标注通讯作者) 作者列表:Haonan Li(同上)、Tianjun Sun(同上)、Yongqing Wang(同上)、Qisheng Zhang(同上) 💡 毒舌点评 这篇论文的亮点在于它犀利地指出了一个常被忽视的“非恶意”安全风险:AI代理在“乖乖干活”时如何因工作流拓扑结构而“被迫”泄露数据,其提出的CRS分层方法清晰地区分了“任务要求”和“安全失败”,框架设计严谨且开源彻底。短板在于其所有评估任务均为研究者设计的合成场景,能否完全代表真实企业部署中复杂多变的工作流尚存疑问,且对“数据传播”仅限于可字符串匹配的金丝雀,未涉及更隐晦的语义泄露。 🔗 开源详情 代码:https://github.com/lihaonan0716/MCPHunt 模型权重:论文中未提及(论文评估的模型通过API端点调用,未提供模型权重本身) 数据集:https://huggingface.co/datasets/lihaonan0716/mcphunt-agent-traces (包含所有6,321条追踪记录;开源协议为CC BY 4.0) Demo:论文中未提及 复现材料: 代码仓库包含完整的评估框架、标注管线(labeling pipeline)和Croissant元数据。 可复现配置:每个输出JSON文件包含版本信息(schema_version, pipeline_git_commit, task_taxonomy_version, labeling_rules_version)。 重标注脚本:relabel_traces.py 可从原始事件数据重新计算所有风险信号并生成汇总统计。 任务注册表:完整的147个任务列表定义于 src/mcphunt/taxonomy.py。 模型配置:添加新模型仅需一个YAML配置条目,支持任何OpenAI兼容的端点。 检查点/恢复:收集工具在每个追踪后保存状态,支持从API中断中恢复。 论文中引用的开源项目: MCP服务器(论文中用于评估的8个服务器): @modelcontextprotocol/server-filesystem:文件系统服务器。 mcp-server-git:Git服务器。 @modelcontextprotocol/server-memory:记忆/知识图谱服务器。 mcp-server-sqlite:SQLite数据库服务器。 mcp-server-fetch:用于HTTP请求。 mcp-server-time:用于时区查询。 shell-command-mcp:受限制的Shell命令服务器。 浏览器自动化服务器(本地实现,未指定包名)。 其他框架与工具(论文中提及但未提供具体项目链接): PRUDENTIA NeMo Guardrails Invariant 补充信息 [模型架构] 补充:在“3 Method”章节开头,论文明确定义了其威胁模型:“We study a non-adversarial setting: a user issues a legitimate task, the agent has access to k MCP servers, and no adversary manipulates prompts, tools, or data.” 这强调了本研究与主流对抗性安全评估的根本区别,是理解整个工作定位的关键前提。 ...

2026-05-01 · 更新于 2026-06-15 · 3 min · 434 words

TTS-PRISM: A Perceptual Reasoning and Interpretable Speech Model for Fine-Grained Diagnosis

📄 TTS-PRISM: A Perceptual Reasoning and Interpretable Speech Model for Fine-Grained Diagnosis #语音质量评估 #指令微调 #基准测试 #开源工具 #语音合成 ✅ 7.5/10 | 前25% | #语音质量评估 | #指令微调 | #基准测试 #开源工具 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文作者列表未明确排序,但根据邮箱 xi-wang24@mails.tsinghua.edu.cn 和作者列表首位推测,第一作者可能为 Xi Wang)。 通讯作者:未说明(论文作者列表未明确标注,根据邮箱 zywu@sz.tsinghua.edu.cn 推测,通讯作者可能为 Zhiyong Wu)。 作者列表:Xi Wang (1, 2), Jie Wang (3), Xingchen Song (2), Baijun Song (1), Jingran Xie (1), Jiahe Shao (1), Zijian Lin (1), Di Wu (1), Meng Meng (1), Jian Luan (2), Zhiyong Wu (1)。 机构列表:1. 清华大学,中国;2. 小米公司 MiLM Plus,中国;3. 东京大学,日本。 💡 毒舌点评 这篇论文像一个严谨的“语音体检医生”,为TTS系统量身定做了一套包含12个指标的“体检表”和基于大模型生成数据的“训练集”,确实让评估从“整体印象”走向了“分项诊断”。但尴尬的是,这位“医生”自己在“发音”这个最基础的体检项目上却可能受制于自身的“学术出身”(ASR预训练偏差),体检结论的权威性打了点折扣。 ...

2026-05-01 · 更新于 2026-06-15 · 2 min · 327 words

语音/音乐/音频论文速递 2026-05-01

语音/音乐/音频论文速递 2026-05-01 共分析 21 篇论文 ⚡ 今日概览 📥 抓取 21 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 7篇 ███████ #模型评估 2篇 ██ #语音对话系统 1篇 █ #条件生成 1篇 █ #语音转换 1篇 █ #音频事件检测 1篇 █ #语音合成 1篇 █ #个性化联邦学习 1篇 █ 📊 论文评分排行榜(21 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 LRS-VoxMM: A benchmark for in-the-wild audio-visual spe 9.0分 前25% #语音识别 🥈 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal 8.5分 前25% #语音对话系统 🥉 ABC: Any-Subset Autoregression via Non-Markovian Diffus 8.0分 前25% #条件生成 4. Accent Conversion: A Problem-Driven Survey of Socioling 7.5分 前50% #语音转换 5. Few-Shot Accent Synthesis for ASR with LLM-Guided Phone 7.5分 前25% #语音识别 6. EdgeSpike: Spiking Neural Networks for Low-Power Autono 7.5分 前25% #音频事件检测 7. JaiTTS: A Thai Voice Cloning Model 7.5分 前25% #语音合成 8. Taming Noise-Induced Prototype Degradation for Privacy- 7.5分 前25% #个性化联邦学习 9. MCPHunt: An Evaluation Framework for Cross-Boundary Dat 7.5分 前25% #模型评估 10. Beyond the Baseband: Adaptive Multi-Band Encoding for F 7.0分 前25% #生物声学 11. A Knowledge-Driven Approach to Target Speech Extraction 7.0分 前50% #语音分离 12. Predicting Upcoming Stuttering Events from Three-Second 7.0分 前25% #语音生物标志物 13. Dual-LoRA: Parameter-Efficient Adversarial Disentanglem 7.0分 前25% #说话人验证 14. HATS: An Open data set Integrating Human Perception App 7.0分 前50% #语音识别 15. Do Sparse Autoencoders Capture Concept Manifolds? 7.0分 前25% #可解释性 16. BUT System Description for CHiME-9 MCoRec Challenge 6.5分 前25% #语音识别 17. AppTek Call-Center Dialogues: A Multi-Accent Long-Form 6.5分 前25% #语音识别 18. Qualitative Evaluation of Language Model Rescoring in A 6.5分 前25% #语音识别 19. Mapping the Methodological Space of Classroom Interacti 6.0分 前50% #模型评估 20. Selective Augmentation: Improving Universal Automatic P 6.0分 前50% #语音识别 21. Normativity and Productivism: Ableist Intelligence? A D 3.5分 后50% #语音翻译 📋 论文列表 🥇 LRS-VoxMM: A benchmark for in-the-wild audio-visual speech recognition 🔥 9.0/10 | 前25% | #语音识别 | #数据集 | #基准测试 #鲁棒性 | arxiv ...

2026-05-01 · 更新于 2026-06-15 · 12 min · 2481 words

Preferences of a Voice-First Nation: Large-Scale Pairwise Evaluation and Preference Analysis for TTS in Indian Languages

📄 Preferences of a Voice-First Nation: Large-Scale Pairwise Evaluation and Preference Analysis for TTS in Indian Languages #语音合成 #模型评估 #多语言 #人类评估 #基准测试 ✅ 7.5/10 | 前25% | #语音合成 | #模型评估 | #多语言 #人类评估 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Srija Anand (AI4Bharat, srijaanand@ai4bharat.org) 通讯作者:未说明 作者列表:Srija Anand¹,² (AI4Bharat), Ashwin Sankar² (AI4Bharat), Ishvinder Sethi³ (Josh Talks), Aaditya Pareek² (AI4Bharat), Kartik Rajput² (AI4Bharat), Gaurav Yadav² (AI4Bharat), Nikhil Narasimhan² (AI4Bharat), Adish Pandya² (AI4Bharat), Deepon Halder² (AI4Bharat), Mohammed Safi Ur Rahman Khan² (AI4Bharat), Praveen S V² (AI4Bharat), Shobhit Banga² (AI4Bharat), Mitesh M Khapra¹ (印度理工学院马德拉斯分校)。注:上标1,2,3对应论文中提到的机构:1. Indian Institute of Technology, Madras; 2. AI4Bharat; 3. Josh Talks。 💡 毒舌点评 这篇论文堪称语音合成领域的“Consumer Reports”,通过严谨、大规模的控制实验和多维度分析,为印度语言TTS模型的优劣提供了目前最可信的排名和诊断报告,其实证数据的价值很高。然而,它的核心方法论(受控成对评估)并非首创,且“表达力驱动用户偏好”这一结论在缺乏客观声学指标(如MCD, F0轮廓)支撑的情况下,略显单薄,更像是对评估数据的重新解读而非深入机理的揭示。 ...

2026-04-30 · 更新于 2026-06-15 · 3 min · 444 words

PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech

📄 PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech #语音合成 #模型评估 #自监督学习 #多语言 #基准测试 🔥 9.0/10 | 前25% | #语音合成 | #模型评估 | #自监督学习 #多语言 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Venkata Pushpak Teja Menta(未说明) 通讯作者:Venkata Pushpak Teja Menta(未说明) 作者列表:Venkata Pushpak Teja Menta(未说明) 💡 毒舌点评 亮点:这篇论文精准地抓住了印度语言TTS评估中“可懂度高但口音不地道”的痛点,提出的PSP框架将“口音”拆解得明明白白,并用自动化声学探针方法替代了不靠谱的ASR,设计思路非常清晰务实。短板:V1版本的实验规模(每种语言10句话)实在太小,使得统计显著性存疑,论文自己也承认排名差异在5个百分点内无法区分,更像是一个“概念验证”而非最终的权威评测报告。 🔗 开源详情 代码:提供了完整的开源代码仓库链接:github.com/praxelhq/psp-eval,包含评分、引导采样和模态相关代码,采用MIT许可证。 模型权重:未提及发布PSP评估框架本身的模型权重(它是一个评估流程,依赖预训练模型如XLS-R,但未修改或发布这些权重)。 数据集:已公开发布。包括: 原生语音质心(CC-BY许可证):Praxel/psp-native-centroids on HuggingFace。 用于FAD的1000片段语料库级XLS-R嵌入。 用于PSD的500片段语料库级韵律特征矩阵。 每种语言300句的“黄金测试集”文本文件。 Demo:论文中未提及在线���示。 复现材料:提供了详细的复现说明(见GitHub仓库README),包括所需的Modal账户设置和运行命令。论文中提到了所有关键超参数(如提取层、坍缩阈值)。 论文中引用的开源项目/模型: Wav2Vec2-XLS-R:用作嵌入提取器。 CTC对齐器:引用了多个社区模型(anuragshas/wav2vec2-large-xlsr-53-telugu, ai4bharat/indicwav2vec-hindi, Harveenchadha/vakyansh-wav2vec2-tamil-tam-250)。 Chatterbox:Praxy Voice系统所基于的开源TTS框架。 Indic Parler-TTS:作为被评估的开源基线系统。 📌 核心摘要 问题:现有的文本转语音(TTS)评估指标(如WER、MOS)无法有效量化合成语音的“口音”是否地道,尤其是在印度语言中,卷舌音、送气音、元音长度等音韵特征对本地听众至关重要。 方法核心:提出PSP(音素替换档案),一个可解释的、按音韵维度分解的印度语言TTS口音评估基准。它定义了六个维度:卷舌音坍缩率(RR)、送气保真度(AF)、长度保真度(LF)、泰米尔语“ழ”保真度(ZF)、Fréchet音频距离(FAD)和韵律特征发散度(PSD)。前四个维度通过强制对齐提取音素片段,计算其在Wav2Vec2-XLS-R嵌入空间中与本地人质心和替代音素质心的相似度来评估;后两个维度在语料库级别计算分布距离。 与已有方法相比新在哪里:与针对美式-英式英语的、基于规则的PSR基准不同,PSP是基于声学探针的、针对印度语言的,并且将评估分解为多个可解释的音韵维度,而非单一标量。它不依赖高精度的目标语言ASR。 主要实验结果:在印地语、泰卢固语、泰米尔语的10句测试集上,对四个商业系统和一个开源系统(Praxy Voice)进行基准测试。关键结果包括:卷舌音错误率随语言难度单调增长(印地语1%,泰卢固语40%,泰米尔语~68%);PSP排序与WER排序不一致,例如,WER最优的ElevenLabs在印地语上FAD排名第二,在泰卢固语上PSD表现极差(韵律扁平);没有一个系统在所有六个维度上都最优。例如在泰米尔语,Indic Parler-TTS在RR、ZF、LF、PSD四个维度领先,而Sarvam在FAD上领先。 语言 系统 RR坍缩率↓ FAD↓ PSD↓ 泰卢固语 Praxy R6 + Sarvam参考 26.7% 291.3 13.1 泰卢固语 Sarvam Bulbul 33.3% 250.4 11.1 泰卢固语 Indic Parler-TTS 33.3% 325.0 10.4 泰卢固语 Cartesia Sonic-3 50.0% 458.1 33.8 泰米尔语 Indic Parler-TTS 64.3% 233.1 27.1 泰米尔语 Sarvam Bulbul 70.5% 200.3 72.3 印地语 所有系统 ≤4.5% 211.8~267.4 未提供 5. 实际意义:为印度语言TTS系统开发和优化提供了一个可解释的诊断工具,能够精确定位系统在哪些音韵特征上失分,指导针对性的改进(如提示词、训练数据调整)。 6. 主要局限性:V1版本使用小规模测试集(10句/语言),统计效力有限;依赖的CTC对齐器在泰卢固语和泰米尔语上精度较低,导致本地语音的PSP分数存在较高的“噪声地板”;未与主观MOS测试进行正式相关性校准。 🏗️ 模型架构 本文提出的不是生成模型,而是一个评估框架/基准。其核心架构流程如下: ...

2026-04-30 · 更新于 2026-06-15 · 2 min · 410 words

Similarity Choice and Negative Scaling in Supervised Contrastive Learning for Deepfake Audio Detection

📄 Similarity Choice and Negative Scaling in Supervised Contrastive Learning for Deepfake Audio Detection #音频深度伪造检测 #对比学习 #自监督学习 #鲁棒性 #基准测试 🔥 8.0/10 | 前25% | #音频深度伪造检测 | #对比学习 #自监督学习 | #对比学习 #自监督学习 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jaskirat Sudan (University of Michigan, Dearborn) 通讯作者:未说明(论文未明确指定) 作者列表:Jaskirat Sudan (University of Michigan, Dearborn)、Hashim Ali (University of Michigan, Dearborn)、Surya Subramani (University of Michigan, Dearborn)、Hafiz Malik (University of Michigan, Dearborn) 💡 毒舌点评 亮点:实验设计极其严谨,通过固定所有其他变量(模型、优化器、增强等),孤立地研究了相似度函数和负样本队列的影响,并揭示了二者之间复杂的非单调交互关系,为该领域的实践者提供了扎实的调参依据。短板:所有结论都建立在单一模型(XLS-R 300M)和单一训练集(ASVspoof 2019 LA)上,其发现是否能迁移到其他自监督模型或其他伪造检测数据集上,文中未做任何探讨,这在一定程度上削弱了结论的普适性。 ...

2026-04-30 · 更新于 2026-06-15 · 3 min · 493 words