语音/音频论文速递 2026-05-14

语音/音频论文速递 2026-05-14 共分析 16 篇论文 ⚡ 今日概览 📥 抓取 16 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 2篇 ██ #音频分类 2篇 ██ #语音对话系统 1篇 █ #模型评估 1篇 █ #多智能体协同 1篇 █ #音频事件检测 1篇 █ #乐谱生成 1篇 █ #音频生成 1篇 █ 📊 论文评分排行榜(16 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 EVA-Bench: A New End-to-end Framework for Evaluating Vo 8.0分 前25% #语音对话系统 🥈 Senses Wide Shut: A Representation-Action Gap in Omnimo 8.0分 前50% #模型评估 🥉 EVOCHAMBER: Test-Time Co-evolution of Multi-Agent Syste 8.0分 前25% #多智能体协同 4. NAACA: Training-Free NeuroAuditory Attentive Cognitive 7.0分 前25% #音频事件检测 5. Text2Score: Generating Sheet Music From Textual Prompts 7.0分 前25% #乐谱生成 6. Seconds-Aligned PCA-DAC Latent Diffusion for Symbolic-t 7.0分 前50% #音频生成 7. Bypassing Direct Reconstruction: Speech Detection from 7.0分 前25% #语音活动检测 8. Decoupled Azimuth Elevation AoA Estimation Exploiting K 7.0分 前25% #声源定位 9. WARDEN: Endangered Indigenous Language Transcription an 7.0分 前25% #语音识别 10. Vividh-ASR: A Complexity-Tiered Benchmark and Optimizat 7.0分 前50% #语音识别 11. Scaling few-shot spoken word classification with genera 7.0分 前50% #音频分类 12. GeoBuildBench: A Benchmark for Interactive and Executab 7.0分 前25% #几何推理 13. Keep What Audio Cannot Say: Context-Preserving Token Pr 7.0分 前25% #音视频 14. PresentAgent-2: Towards Generalist Multimodal Presentat 6.5分 前25% #生成模型 15. Does language matter for spoken word classification? A 6.0分 前50% #音频分类 16. Leveraging Multimodal Self-Consistency Reasoning in Cod 6.0分 前50% #动机访谈编码 📋 论文列表 🥇 EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents 🔥 8.0/10 | 前25% | #语音对话系统 | #基准测试 | #语音质量评估 #端到端 | arxiv ...

2026-05-14 · 更新于 2026-05-19 · 11 min · 2240 words

A Semi-Supervised Framework for Speech Confidence Detection using Whisper

📄 A Semi-Supervised Framework for Speech Confidence Detection using Whisper #语音自信度检测 #半监督学习 #伪标签 #迁移学习 #Whisper #数据增强 #低资源 #语音大模型 ✅ 6.5/10 | 未提及 | #语音自信度检测 | #半监督学习 | #伪标签 #迁移学习 | arxiv 学术质量 6.0/8 | 影响力 0.6/2 | 可复现性 0.7/1 | 置信度 高 👥 作者与机构 第一作者:Adam Wynn 通讯作者:未说明 作者列表:Adam Wynn(未说明具体学术机构,但论文脚注提及由IEEE Publication Technology Group制作,地址在Piscataway, NJ),Jingyun Wang(未说明) 💡 毒舌点评 这篇论文为“感知自信度检测”这一小众且缺乏基准的任务构建了一个完整、实验扎实的半监督框架。其核心思路——结合Whisper的语义能力与可解释声学特征(eGeMAPS + 辅助模型)进行晚期融合,并通过“不确定性感知”伪标签扩充数据——在解决数据稀缺问题上逻辑自洽且有效。然而,其创新性更多体现在系统集成和工程优化,而非方法论的根本突破。文中多个关键超参数(如伪标签阈值τ、融合权重λ、损失权重18.0)的选择依据仅提及“经验消融”或“经验性确定”,缺乏充分的实验展示或理论推导,使得部分设计略显“黑箱”。尽管实验结果支持了其框架的有效性,但单一、未公开的小规模数据集评估限制了结论的泛化说服力。 📌 核心摘要 要解决什么问题:自动检测语音中的感知说话人自信度对于自适应计算和情感交互至关重要,但面临标注数据稀缺(任务主观且无公开基准)和现有方法局限(纯声学特征泛化差,纯自监督模型可能忽略细粒度韵律线索)的挑战。 方法核心是什么:提出一个五阶段半监督混合框架:(A) 构建并标注小型数据集;(B) 提取Whisper语义嵌入和94维声学特征向量(eGeMAPS + 辅助不流畅/压力模型概率);(C) 训练辅助的不流畅性和压力检测模型;(D) 用仅基于声学特征向量训练的MLP对无标签数据生成伪标签,并通过高置信度阈值(τ=0.8)过滤;(E) 训练一个双流晚期融合的混合模型,融合Whisper流和特征向量流的输出,并使用源增强损失函数在真值+伪标签数据上训练。 与已有方法相比新在哪里:首次为感知自信度检测提出专用半监督框架。核心创新点在于:(1) 架构创新:明确提出并实现了将Whisper深度语义表示与可解释声学特征(含辅助任务线索)进行晚期融合,以显式引入韵律纠正信号;(2) 策略创新:引入“不确定性感知”伪标签策略,强调通过严格的置信度过滤来保证伪标签质量,而非单纯追求数量。 ...

2026-05-13 · 更新于 2026-05-19 · 3 min · 570 words

语音/音频论文速递 2026-05-13

语音/音频论文速递 2026-05-13 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #声源定位 2篇 ██ #音频编码 2篇 ██ #语音识别 2篇 ██ #多模态检索 1篇 █ #深度伪造检测 1篇 █ #音视频 1篇 █ #基准测试 1篇 █ #多模态推理 1篇 █ 📊 论文评分排行榜(21 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 jina-embeddings-v5-omni: Text-Geometry-Preserving Multi 7.5分 前25% #多模态检索 🥈 Adaptive Diagonal Loading using Krylov Subspaces for Ro 7.0分 前25% #声源定位 🥉 Spatial Power Estimation via Riemannian Covariance Matc 7.0分 前25% #声源定位 4. The Deepfakes We Missed: We Built Detectors for a Threa 7.0分 前50% #深度伪造检测 5. OmniRefine: Alignment-Aware Cooperative Compression for 7.0分 前25% #音视频 6. Exploring Token-Space Manipulation in Latent Audio Toke 6.7分 前25% #音频编码 7. MMTB: Evaluating Terminal Agents on Multimedia-File Tas 6.7分 前25% #基准测试 8. UniPath: Adaptive Coordination of Understanding and Gen 6.6分 前25% #多模态推理 9. The SMC Blind Spot: A Failure Mode Analysis of State-of 6.5分 前35% #节拍跟踪 10. Too Good to Be True: A Study on Modern Automatic Speech 6.2分 前50% #语音增强 11. Towards Fine-Grained Multi-Dimensional Speech Understan 6.0分 前25% #语音理解 12. A Semi-Supervised Framework for Speech Confidence Detec 6.0分 前50% #语音自信度检测 13. AffectCodec: Emotion-Preserving Neural Speech Codec for 5.8分 前25% #音频编码 14. STRUM: A Spectral Transcription and Rhythm Understandin 5.5分 前25% #音乐转录 15. Chunkwise Aligners for Streaming Speech Recognition 5.5分 前50% #语音识别 16. Poly-SVC: Polyphony-Aware Singing Voice Conversion with 5.5分 前50% #歌唱语音转换 17. What makes a word hard to learn? Modeling L1 influence 5.5分 前50% #词汇难度预测 18. Mind the Pause: Disfluency-Aware Objective Tuning for M 5.5分 前25% #语音编辑 19. OmniNFT: Modality-wise Omni Diffusion Reinforcement for 5.5分 前25% #音视频生成 20. Mechanistic Interpretability of ASR models using Sparse 5.0分 前60% #语音识别 21. Boosting Omni-Modal Language Models: Staged Post-Traini 5.0分 前50% #多模态模型评估 22 AuDirector: A Self-Reflective Closed-Loop Framework for N/A - - 📋 论文列表 🥇 jina-embeddings-v5-omni: Text-Geometry-Preserving Multimodal Embeddings via Frozen-Tower Composition ✅ 7.5/10 | 前25% | #多模态检索 | #迁移学习 | #多模态模型 #模型评估 | arxiv ...

2026-05-13 · 更新于 2026-05-19 · 14 min · 2798 words

Bangla-WhisperDiar: Fine-Tuning Whisper and PyAnnote for Bangla Long-Form Speech Recognition and Speaker Diarization

📄 Bangla-WhisperDiar: Fine-Tuning Whisper and PyAnnote for Bangla Long-Form Speech Recognition and Speaker Diarization #语音识别 #说话人日志 #低资源 #数据增强 #迁移学习 📝 5.5/10 | 前50% | #语音识别 #说话人日志 | #迁移学习 #数据增强 | #语音识别 #说话人日志 | arxiv 学术质量 5.5/8 | 影响力 0.8/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Mohammed Aman Bhuiyan(North South University, Department of ECE) 通讯作者:论文中未明确指定 作者列表:Mohammed Aman Bhuiyan(North South University, Department of ECE),Md Sazzad Hossain Adib(North South University, Department of ECE),Samiul Basir Bhuiyan(North South University, Department of ECE),Amit Chakraborty(North South University, Department of ECE),Aritra Islam Saswato(North South University, Department of ECE),Ahmed Faizul Haque Dhrubo(North South University, Department of ECE),Mohammad Ashrafuzzaman Khan(North South University, Department of ECE) 💡 毒舌点评 亮点:本文作为一篇竞赛报告,系统性地整合了主流工具链(Whisper + PyAnnote),并针对孟加拉语这一低资源语言场景进行了细致的工程适配(如文本规范化、ASR引导的对齐、全面的数据增强),最终在特定竞赛集上取得了显著的性能提升,体现了较强的工程实践能力和问题解决导向。方法描述详尽,流程图清晰,代码开源。 短板:核心方法本质上是“在预训练模型上微调 + 设计数据增强流水线”,缺乏本质性的算法或理论创新。部分关键设计选择(如仅微调说话人日志的分段模型)虽经实验证明有效,但缺乏充分的消融实验支撑,使其贡献更偏向于特定场景的“配方优化”而非普适性方法论的突破。论文自身在局限性部分的表述存在前后矛盾(关于是否进行了全参数微调),且验证集过小的问题直接影响了结论的可靠性。 ...

2026-05-12 · 更新于 2026-05-19 · 3 min · 505 words

Dolphin-CN-Dialect: Where Chinese Dialects Matter

📄 Dolphin-CN-Dialect: Where Chinese Dialects Matter #语音识别 #端到端 #多语言 #低资源 #数据增强 📝 5.5/10 | 前50% | #语音识别 | #端到端 | #多语言 #低资源 | arxiv 学术质量 5.5/8 | 影响力 1.5/2 | 可复现性 0.5/1 | 置信度 中 👥 作者与机构 第一作者:Yangyang Meng, Huihang Zhong, Guodong Lin, Guanbo Wang, Hu Du(论文中标注为共同第一作者,*) 通讯作者:Zhiming Shao, Wei-Qiang Zhang(论文中标注为通讯作者,†) 作者列表:Yangyang Meng (Dataocean AI), Huihang Zhong (Dataocean AI), Guodong Lin (Dataocean AI), Guanbo Wang (Dataocean AI), Hu Du (Dataocean AI), Zhiming Shao (Speech and Audio Technology Lab, Dept. EE, Tsinghua University), Yukai Huang (Dataocean AI), Ke Li (Dataocean AI), Wei-Qiang Zhang (Speech and Audio Technology Lab, Dept. EE, Tsinghua University) 💡 毒舌点评 亮点:工程实践导向明确,提出的温度采样策略有效缓解了方言数据长尾问题,且在小参数量模型上取得了有竞争力的结果,对工业部署友好。双路热词偏置框架的评估较为全面,包括了Oracle分析。 短板:核心贡献多为对已有技术的组合与工程调优,缺乏模型架构或训练范式上的根本性创新;关键超参数(如α)的选择和消融实验缺失,影响了方法深度;大量依赖未公开的内部数据集,使得对比实验的公平性和复现性存疑。 ...

2026-05-12 · 更新于 2026-05-19 · 4 min · 696 words

语音/音频论文速递 2026-05-12

语音/音频论文速递 2026-05-12 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 3篇 ███ #音乐生成 2篇 ██ #语音合成 2篇 ██ #语音增强 2篇 ██ #音频深度伪造检测 2篇 ██ #基准测试 2篇 ██ #语音质量评估 1篇 █ #音频编码 1篇 █ 📊 论文评分排行榜(39 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Polyphonia: Zero-Shot Timbre Transfer in Polyphonic Mus 7.5分 前30% #音乐生成 🥈 PoDAR: Power-Disentangled Audio Representation for Gene 7.3分 前25% #语音合成 🥉 Evaluating the Expressive Appropriateness of Speech in 7.2分 前25% #语音质量评估 4. Reducing Linguistic Hallucination in LM-Based Speech En 7.2分 前25% #语音增强 5. Encoding and Decoding Temporal Signals with Spiking Ban 7.0分 前25% #音频编码 6. Mitigating Multimodal Inconsistency via Cognitive Dual- 7.0分 前50% #意图识别 7. SF-Flow: Sound field magnitude estimation via flow matc 6.8分 前25% #空间音频 8. Probing Cross-modal Information Hubs in Audio-Visual LL 6.5分 前25% #模型分析 9. Towards Trustworthy Audio Deepfake Detection: A Systema 6.5分 前25% #音频深度伪造检测 10. Unison: Harmonizing Motion, Speech, and Sound for Human 6.5分 前30% #音视频生成 11. CORTEG: Foundation Models Enable Cross-Modality Represe 6.5分 前25% #脑机接口 12. Omni-Persona: Systematic Benchmarking and Improving Omn 6.5分 前25% #基准测试 13. DiffVQE: Hybrid Diffusion Voice Quality Enhancement Und 6.2分 前30% #语音增强 14. A Cold Diffusion Approach for Percussive Dereverberatio 6.2分 前35% #音频修复 15. APEX: Audio Prototype EXplanations for Classification T 6.2分 前25% #音频分类 16. How Should LLMs Listen While Speaking? A Study of User- 6.0分 前25% #语音对话系统 17. RADAR Challenge 2026: Robust Audio Deepfake Recognition 6.0分 前50% #音频深度伪造检测 18. ShipEcho – An Interactive Tool for Global Mapping of U 6.0分 前25% #水下声学 19. Rethinking Entropy Minimization in Test-Time Adaptation 6.0分 前40% #语音识别 20. Separate First, Fuse Later: Mitigating Cross-Modal Inte 6.0分 前50% #音视频问答 21. ChladniSonify: A Visual-Acoustic Mapping Method for Chl 6.0分 前50% #音频生成 22. Omni-DeepSearch: A Benchmark for Audio-Driven Omni-Moda 6.0分 前25% #基准测试 23. Online Segmented Beamforming via Dynamic Programming 6.0分 前25% #声源定位 24. FLARE: Full-Modality Long-Video Audiovisual Retrieval B 6.0分 前25% #音频检索 25. Speech-based Psychological Crisis Assessment using LLMs 5.8分 前25% #语音情感识别 26. EAR: Enhancing Uni-Modal Representations for Weakly Sup 5.8分 前25% #音频事件检测 27. Kinetic-Optimal Scheduling with Moment Correction for M 5.5分 前50% #语音合成 28. Dolphin-CN-Dialect: Where Chinese Dialects Matter 5.5分 前50% #语音识别 29. Latent Secret Spin: Keyed Orthogonal Rotations for Blin 5.5分 前50% #音频水印 30. Bangla-WhisperDiar: Fine-Tuning Whisper and PyAnnote fo 5.5分 前50% #语音识别 #说话人日志 31. Remix the Timbre: Diffusion-Based Style Transfer Across 5.5分 前30% #音色迁移 32. Low-Cost Detection of Degraded Voice Clones via Source- 5.3分 前50% #语音伪造检测 33. Single-Microphone Audio Point Source Discriminative Loc 5.0分 前50% #说话人分离 34. Responsible Benchmarking of Fairness for Automatic Spee 5.0分 前50% #语音识别 35. Sub-JEPA: Subspace Gaussian Regularization for Stable E 5.0分 前50% #世界模型 36. AllocMV: Optimal Resource Allocation for Music Video Ge 4.8分 前50% #音乐视频生成 37. Multi-layer attentive probing improves transfer of audi 4.0分 中等偏上 #生物声学 #音频分类 38. Drum Synthesis from Expressive Drum Grids via Neural Au 4.0分 前50% #音乐生成 39. Voice Biomarkers for Depression and Anxiety 1.0分 后50% #语音生物标志物 📋 论文列表 🥇 Polyphonia: Zero-Shot Timbre Transfer in Polyphonic Music with Acoustic-Informed Attention Calibration ✅ 7.5/10 | 前30% | #音乐生成 | #扩散模型 | #注意力机制 #零样本 | arxiv ...

2026-05-12 · 更新于 2026-05-19 · 28 min · 5761 words

Automated Clinical Report Generation for Remote Cognitive Remediation: Comparing Knowledge-Engineered Templates and LLMs in Low-Resource Settings

📄 Automated Clinical Report Generation for Remote Cognitive Remediation: Comparing Knowledge-Engineered Templates and LLMs in Low-Resource Settings #临床报告生成 #低资源 #零样本 #大语言模型 #认知康复 #人类评估 ✅ 7.5/10 | 扎实工作,位于前列 | #临床报告生成 | #零样本 | #低资源 #大语言模型 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yongxin Zhou(Univ. Grenoble Alpes, CNRS, Grenoble INP, LIG) 通讯作者:论文未明确指定唯一通讯作者。三位作者(Yongxin Zhou, Fabien Ringeval, François Portet)的邮箱地址格式相同(firstname.lastname@univ-grenoble-alpes.fr),且位于同一机构,可视为对等贡献者或共同联系人。 作者列表: Yongxin Zhou(Univ. Grenoble Alpes, CNRS, Grenoble INP, LIG, 38000 Grenoble, France) Fabien Ringeval(Univ. Grenoble Alpes, CNRS, Grenoble INP, LIG, 38000 Grenoble, France) François Portet(Univ. Grenoble Alpes, CNRS, Grenoble INP, LIG, 38000 Grenoble, France) 💡 毒舌点评 亮点:论文展现了严谨的“专家在环”系统工程方法论,从领域知识提取、特征分类到评估设计都深度依赖并回馈给临床专家,确保了生成报告的临床相关性。这种迭代合作模式为医疗AI应用提供了优秀的范例。 短板:对GPT-4的“零样本”控制存在不完全性——即使提示词明确指定了格式,模型仍经常性地忽略生成表格和附录。这暴露了当前LLM在严格遵循结构化输出指令上的不稳定性,也使得两种生成范式之间的“受控对比”在输出结构层面打了折扣。此外,8名评估者的规模限制了统计结论的强度,论文也承认了这一局限性。 ...

2026-05-08 · 更新于 2026-05-19 · 3 min · 543 words

Linear Semantic Segmentation for Low-Resource Spoken Dialects

📄 Linear Semantic Segmentation for Low-Resource Spoken Dialects #语义分割 #大语言模型 #多语言 #低资源 #基准测试 #阿拉伯语方言 ✅ 7.5/10 | 前25% | #语义分割 | #大语言模型 | #多语言 #低资源 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Kirill Chirkunov(Mohamed bin Zayed University of Artificial Intelligence) 通讯作者:Hanan Aldarmaki(Mohamed bin Zayed University of Artificial Intelligence) 作者列表:Kirill Chirkunov(Mohamed bin Zayed University of Artificial Intelligence),Younes Samih(IBM Research AI),Abed Alhakim Freihat(Mohamed bin Zayed University of Artificial Intelligence),Hanan Aldarmaki(Mohamed bin Zayed University of Artificial Intelligence) 💡 毒舌点评 亮点:论文的贡献是系统性的,而非单一的模型突破。其核心价值在于填补了一个关键空白:首次为低资源口语阿拉伯方言提供了经过严格人工标注的、涵盖多种口语体裁的线性语义分割基准(DialSeg-Ar),并在此基础上证明了现有强大模型(包括监督模型和“开箱即用”的LLM)在该任务上的系统性失效。论文提出的解决方案——在多语言LLM基础上进行领域自适应的微调,并引入辅助的分割恢复任务——有效且实用,为该领域设立了可靠的基线。短板:核心模型的创新确实更多体现在“领域适配”而非“架构发明”上,即对现有Gemma-3模型进行任务特异性微调。此外,研究完全基于文本转录,忽略了音频中的韵律、停顿等声学线索,这在处理真实口语对话时是一个明确的局限性,作者也在文末承认了这一点。评估也局限于分割任务本身,未验证对下游任务的影响。 ...

2026-05-08 · 更新于 2026-05-19 · 4 min · 738 words

Quantum Kernels for Audio Deepfake Detection Using Spectrogram Patch Features

📄 Quantum Kernels for Audio Deepfake Detection Using Spectrogram Patch Features #音频深度伪造检测 #量子内核 #时频分析 #低资源 #音频安全 ✅ 6.5/10 | 前50% | #音频深度伪造检测 | #量子内核 | #时频分析 #低资源 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Lisan Al Amin(论文原文上标“1”指示其所属机构) 通讯作者:未说明 作者列表:Lisan Al Amin^1, Rakib Hossain^1, Mahbubul Islam^2, Faisal Quader^3, Thanh Thi Nguyen^4^5 注意:原文中作者姓名后附有上标数字(如^1, ^2等),通常对应于文末或首页脚注的机构列表,表明每位作者的所属单位。但所提供的论文原文片段未包含具体的机构列表,因此无法明确各作者的具体机构信息。 💡 毒舌点评 本文提出了一种将量子内核与音频频谱图的局部时频补丁结构相结合的新颖框架,其设计动机清晰,且为在NISQ时代构建硬件高效的量子电路提供了务实的思路。然而,其核心论证建立在一个规模极小(仅100个样本)、伪造生成方式极为简单(高斯噪声与频谱失真)且完全基于理想模拟的受控实验之上。这使得其声称的性能提升和实用价值显得非常初步,更像一个在严格控制条件下的概念验证,距离解决真实世界音频伪造检测的复杂性和鲁棒性挑战还非常遥远。 📌 核心摘要 解决的问题:现有的音频深度伪造检测方法常将频谱图视为通用图像,忽略了其独特的时间-频率结构。此外,在数据有限、新攻击频发的低资源场景下,现有检测器的泛化能力面临挑战。 方法核心:提出了Q-Patch框架。该方法首先从音频生成对数梅尔频谱图,然后将其划分为4×4的非重叠“补丁”,每个补丁被压缩为一个四维声学描述向量(平均激活、频谱质心、带宽、帧间相干性)。基于能量(平均激活)选择最显著的两个补丁,其8维特征被直接用作量子电路的旋转角度,通过一个浅层(深度≤3)、具有邻域纠缠的量子电路编码为量子态。最终,通过计算量子态的保真度作为量子内核,输入到量子支持向量机(QSVM)中进行分类。 与已有方法相比新在哪里: 表示层面:首次为量子内核学习设计了明确针对音频频谱图时间-频率结构的“补丁”表示,而非将其视为通用图像。 量子电路层面:设计了轻量级、硬件高效的量子特征映射,限制了量子比特数(8个)和电路深度(≤3层),并引入了模拟空间邻接性的纠缠结构,更适合近期的NISQ设备。 框架层面:提出了一种在低资源音频安全任务中应用量子内核的端到端框架,并系统地与规模匹配的基线进行对比分析。 主要实验结果:在从LJ Speech数据集构建的100个样本的平衡子集(训练集80个样本,开发集20个样本)上,Q-Patch在开发集取得了0.87的AUROC和14.8%的EER,优于使用相同补丁特征的RBF-SVM(0.82 AUROC, 18.2% EER)和一个参数量≤100k(具体为98.4k)的微型CNN(0.85 AUROC, 16.3% EER)。内核分析显示,同类样本间相似度(约0.62-0.68)高于跨类相似度(约0.61-0.62),表明量子内核能捕捉与真实/伪造相关的结构。 方法 AUROC EER (%) 复杂度 RBF-SVM 0.82 18.2 支持向量机 Tiny CNN 0.85 16.3 98.4K参数 Q-Patch 0.87 14.8 8量子比特 图4展示了开发集上量子内核的相似度矩阵。图中样本按类别排序,可见同一类别内(对角线附近块)颜色更亮(相似度更高),不同类别间颜色较暗(相似度更低),直观证实了量子内核能诱导出与真实/伪造类别一致的相似性结构。 ...

2026-05-08 · 更新于 2026-05-19 · 2 min · 399 words

语音/音频论文速递 2026-05-08

语音/音频论文速递 2026-05-08 共分析 23 篇论文 ⚡ 今日概览 📥 抓取 23 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #多模态压缩 1篇 █ #语音增强 1篇 █ #音频事件检测 1篇 █ #语音大模型 1篇 █ #语音克隆 1篇 █ #语音情感识别 1篇 █ #语音生成 1篇 █ #数据集 1篇 █ 📊 论文评分排行榜(23 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 LiVeAction: a Lightweight, Versatile, and Asymmetric Ne 8.5分 前25% #多模态压缩 🥈 Predictive-Generative Drift Decomposition for Speech En 8.5分 前25% #语音增强 🥉 MultiLinguahah : A New Unsupervised Multilingual Acoust 8.5分 前25% #音频事件检测 4. Minimizing Modality Gap from the Input Side: Your Speec 8.0分 前25% #语音大模型 5. X-Voice: Enabling Everyone to Speak 30 Languages via Ze 8.0分 前25% #语音克隆 6. Modality-Aware Contrastive and Uncertainty-Regularized 8.0分 前25% #语音情感识别 7. WavCube: Unifying Speech Representation for Understandi 7.5分 前25% #语音生成 8. PianoCoRe: Combined and Refined Piano MIDI Dataset 7.5分 前25% #数据集 9. Do Melody and Rhythm Coevolve? 7.5分 前25% #音乐认知 10. Automated Clinical Report Generation for Remote Cogniti 7.5分 扎实工作,位于前列 #临床报告生成 11. Linear Semantic Segmentation for Low-Resource Spoken Di 7.5分 前25% #语义分割 12. Edge-specific signal propagation on mature chromophore- 7.5分 前25% #蛋白质工程 13. Cross-Modal Navigation with Multi-Agent Reinforcement L 7.5分 前25% #具身导航 14. Pro-KLShampoo: Projected KL-Shampoo with Whitening Reco 7.5分 前25% #大语言模型 15. Optimal Transport Audio Distance with Learned Riemannia 7.0分 前10% #音频质量评估 16. PairAlign: A Framework for Sequence Tokenization via Se 7.0分 前25% #音频编码 17. Topological Signatures of Grokking 7.0分 前25% #模型可解释性 18. Task-Aware Answer Preservation under Audio Compression 6.5分 前25% #音频问答 19. NDF+: Joint Neural Directional Filtering and Diffuse So 6.5分 前30% #空间音频 20. Quantum Kernels for Audio Deepfake Detection Using Spec 6.5分 前50% #音频深度伪造检测 21. More Than Can Be Said: A Benchmark and Framework for Pr 6.5分 前25% #基准测试 22. PersonaKit (PK): A Plug-and-Play Platform for User Test 6.0分 前50% #全双工对话系统评估 23. Preliminary Insights in Chronos Frequency Data Understa 6.0分 前25% #模型评估 📋 论文列表 🥇 LiVeAction: a Lightweight, Versatile, and Asymmetric Neural Codec Design for Real-time Operation 🔥 8.5/10 | 前25% | #多模态压缩 | #神经网络编解码器 | #实时处理 #边缘计算 | arxiv ...

2026-05-08 · 更新于 2026-05-19 · 17 min · 3434 words