语音/音频论文速递 2026-04-20

语音/音频论文速递 2026-04-20 共分析 24 篇论文 ⚡ 今日概览 📥 抓取 24 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 基准测试 6篇 ██████ 多模态模型 5篇 █████ 语音对话系统 4篇 ████ 大语言模型 4篇 ████ 多语言 4篇 ████ 数据集 4篇 ████ 跨模态 3篇 ███ 模型评估 3篇 ███ 📊 论文评分排行榜(24 篇,按分数降序) 排名 论文 评分 🥇 Qwen3.5-Omni Technical Report 9.5分 🥈 Beyond Monologue: Interactive Talking-Listening Avatar 9.0分 🥉 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 8.5分 4 Generalizable Audio-Visual Navigation via Binaural Diff 8.5分 5 Hierarchical Codec Diffusion for Video-to-Speech Genera 8.5分 6 VoxMind: An End-to-End Agentic Spoken Dialogue System 8.5分 7 ArtifactNet: Detecting AI-Generated Music via Forensic 8.0分 8 Full-Duplex-Bench-v3: Benchmarking Tool Use for Full-Du 8.0分 9 ActorMind: Emulating Human Actor Reasoning for Speech R 8.0分 10 Elucidating the SNR-t Bias of Diffusion Probabilistic M 8.0分 11 HARNESS: Lightweight Distilled Arabic Speech Foundation 7.5分 12 NaijaS2ST: A Multi-Accent Benchmark for Speech-to-Speec 7.5分 13 NVBench: A Benchmark for Speech Synthesis with Non-Verb 7.5分 14 AST: Adaptive, Seamless, and Training-Free Precise Spee 7.5分 15 Temporal Contrastive Decoding: A Training-Free Method f 7.5分 16 Joint-Centric Dual Contrastive Alignment with Structure 7.5分 17 Discrete Token Modeling for Multi-Stem Music Source Sep 7.0分 18 Spatial-Aware Conditioned Fusion for Audio-Visual Navig 7.0分 19 BlasBench: An Open Benchmark for Irish Speech Recogniti 7.0分 20 TinyMU: A Compact Audio-Language Model for Music Unders 6.5分 21 Interactive ASR: Towards Human-Like Interaction and Sem 6.5分 22 PS-TTS: Phonetic Synchronization in Text-to-Speech for 6.0分 23 MUSCAT: MUltilingual, SCientific ConversATion Benchmark 6.0分 24 The Acoustic Camouflage Phenomenon: Re-evaluating Speec 2.5分 📋 论文列表 🥇 Qwen3.5-Omni Technical Report 🔥 9.5分 | #语音对话系统, #音频大模型, #多模态模型, #预训练, | arxiv ...

2026-04-20 · 更新于 2026-05-20 · 10 min · 2068 words

Few-Shot and Pseudo-Label Guided Speech Quality Evaluation with Large Language Models

📄 Few-Shot and Pseudo-Label Guided Speech Quality Evaluation with Large Language Models #音频理解 #大语言模型 #少样本 #低资源 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Ryandhimas E. Zezario(推断为台湾中央研究院资讯科学研究所,根据论文[23]引用及常见合作模式) 通讯作者:Hsin-Min Wang(台湾中央研究院资讯科学研究所),Yu Tsao(台湾中央研究院资讯科学研究所) 其他作者:Dyah A. M. G. Wisnu(印度尼西亚玛琅国立大学电气工程系),Szu-Wei Fu(台湾中央研究院资讯科学研究所),Sabato Marco Siniscalchi(意大利卡塔尼亚大学电子工程系) (注:论文HTML全文未明确列出所有作者的具体机构,以上信息根据论文引用格式、常见合作网络及作者邮箱域名推断得出。) 💡 毒舌点评 亮点在于巧妙地将大语言模型(LLM)定位为“元评估器”,通过整合轻量级声学特征和现有模型的伪标签(DNSMOS, VQScore),而非直接处理原始音频,规避了LLM在音频理解上的短板,思路颇具巧思。槽点则是实验数据集过于单一(仅VoiceBank-DEMAND),且在“全样本评估”中少样本版本性能反而下降,暴露出其方法对示例选择的高度敏感性,结论的普适性有待商榷,有“为了用LLM而用LLM”之嫌。 🔗 开源详情 代码:论文提到代码将在GitHub上发布(“Report GitHub Issue ×”提示了代码仓库的存在),但HTML全文未提供具体链接。论文中未给出可访问的GitHub地址。 模型权重:GatherMOS本身不涉及训练新模型权重。它依赖的DNSMOS和VQScore的预训练权重分别在各自的GitHub仓库公开。所使用的LLM(GPT-5)为闭源API。 数据集:评估使用公开的VoiceBank-DEMAND数据集。少样本示例来自另一个公开数据集CHiME-7 UDASE任务。 预训练权重:不适用。 在线 Demo:论文中未提及。 论文中引用的开源项目:明确提到了使用DNSMOS和VQScore的官方GitHub检查点。 📌 核心摘要 本文旨在解决非侵入式语音质量评估在标注数据有限场景下的性能瓶颈。作者提出了GatherMOS框架,其核心是将大语言模型(如GPT-5)作为一个元评估器,通过精心设计的文本提示,融合多类异构信号:包括手工声学描述符(如RMS、ZCR、MFCC统计量)和来自轻量级模型DNSMOS与VQScore的伪标签。该框架支持零样本和少样本两种推理模式。实验表明,在VoiceBank-DEMAND数据集上,零样本GatherMOS已优于基线方法,而精心匹配的少样本引导能带来显著提升(在子集上SRCC达0.8473)。然而,当少样本示例与测试集分布不匹配时,性能会下降,揭示了其泛化性挑战。该研究证明了利用LLM聚合弱信号以进行可靠质量预测的可行性,为低资源场景下的语音质量评估提供了新思路。 🏗️ 模型架构 GatherMOS并非一个从头训练的模型,而是一个推理框架,其核心是利用预训练LLM的上下文学习能力。整体架构和流程如下: 输入:一段原始语音波形 x。 特征与伪标签提取(并行进行): 手工声学描述符提取器:从 x 中提取一系列低级特征,包括: 时域能量:RMS(均方根)。 频域/噪声相关:ZCR(过零率)。 信号完整性:是否削波(Clipping)、时长(Duration)。 频谱包络:13维MFCC的帧平均值。 频谱分布:梅尔频谱图的每-bin均值和方差、全局最大/最小值。 伪标签生成器(冻结): DNSMOS:输入语音,输出一个1到5之间的连续分数 s_DNS,代表感知质量。 VQScore:输入语音,输出一个0到1之间的分数 s_VQ,代表语音质量。 输入序列化与提示构建:将所有提取的描述符 {d_i}、伪标签 s_DNS 和 s_VQ,以及针对LLM的指令(例如:“您是语音质量评估专家…请估计分数…”),共同组织成一个结构化的文本提示(Prompt)。对于少样本版本,还会在提示中加入K个“支持样本”(few-shot examples),每个样本包含其特征、伪标签和对应的真实MOS分数。 LLM推理:将构建好的文本提示输入给大型语言模型(论文中为GPT-5)。LLM根据其内置的推理能力,对提示中的所有信息进行综合分析、权衡和“推理”。 输出:LLM生成两部分文本输出: 主输出:预测的连续MOS分数 ŝ。 辅助输出:解释性属性 a,如噪声水平、是否削波、混响程度以及一段解释性文字,说明其预测依据。 关键设计选择理由: ...

2026-04-19 · 更新于 2026-05-20 · 2 min · 234 words

语音/音频论文速递 2026-04-19

语音/音频论文速递 2026-04-19 共分析 42 篇论文 ⚡ 今日概览 📥 抓取 42 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音频理解 12篇 ████████████ #基准测试 10篇 ██████████ #音频大模型 9篇 █████████ #多模态模型 7篇 ███████ #信号处理 6篇 ██████ #强化学习 6篇 ██████ #自监督学习 6篇 ██████ #大语言模型 5篇 █████ 📊 论文评分排行榜(42 篇,按分数降序) 排名 论文 评分 🥇 ControlFoley: Unified and Controllable Video-to-Audio G 9.2分 🥈 ClariCodec: Optimising Neural Speech Codes for 200bps C 9.0分 🥉 X-VC: Zero-shot Streaming Voice Conversion in Codec Spa 9.0分 4 Why Your Tokenizer Fails in Information Fusion: A Timin 9.0分 5 Hijacking Large Audio-Language Models via Context-Agnos 8.8分 6 UniPASE: A Generative Model for Universal Speech Enhanc 8.5分 7 VoxSafeBench: Not Just What Is Said, but Who, How, and 8.5分 8 Who is Speaking or Who is Depressed? A Controlled Study 8.5分 9 ProSDD: Learning Prosodic Representations for Speech De 8.5分 10 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 8.5分 11 Four Decades of Digital Waveguides 8.5分 12 Audio-Cogito: Towards Deep Audio Reasoning in Large Aud 8.5分 13 An Ultra-Low Latency, End-to-End Streaming Speech Synth 8.5分 14 Listen, Pause, and Reason: Toward Perception-Grounded H 8.5分 15 Geo2Sound: A Scalable Geo-Aligned Framework for Soundsc 8.5分 16 SpotSound: Enhancing Large Audio-Language Models with F 8.5分 17 Beyond Transcription: Unified Audio Schema for Percepti 8.5分 18 CoSyncDiT: Cognitive Synchronous Diffusion Transformer 8.5分 19 Diffusion Language Models for Speech Recognition 8.5分 20 WavAlign: Enhancing Intelligence and Expressiveness in 8.5分 21 AVID: A Benchmark for Omni-Modal Audio-Visual Inconsist 8.5分 22 SpeakerRPL v2: Robust Open-set Speaker Identification t 8.3分 23 Towards Fine-grained Temporal Perception: Post-Training 8.3分 24 Room compensation for loudspeaker reproduction using a 8.2分 25 StreamMark: A Deep Learning-Based Semi-Fragile Audio Wa 8.2分 26 From Reactive to Proactive: Assessing the Proactivity o 8.2分 27 Elastic Net Regularization and Gabor Dictionary for Cla 8.2分 28 Sky-Ear: An Unmanned Aerial Vehicle-Enabled Victim Soun 8.0分 29 Contextual Biasing for ASR in Speech LLM with Common Wo 8.0分 30 A Manual Bar-by-Bar Tempo Measurement Protocol for Poly 7.8分 31 Classical Machine Learning Baselines for Deepfake Audio 7.8分 32 Adaptive Test-Time Scaling for Zero-Shot Respiratory Au 7.8分 33 Dual-Axis Generative Reward Model Toward Semantic and T 7.8分 34 Tora3: Trajectory-Guided Audio-Video Generation with Ph 7.8分 35 Few-Shot and Pseudo-Label Guided Speech Quality Evaluat 7.5分 36 VoxEffects: A Speech-Oriented Audio Effects Dataset and 7.5分 37 TokenSE: a Mamba-based discrete token speech enhancemen 7.5分 38 Audio Source Separation in Reverberant Environments usi 7.5分 39 On the Distillation Loss Functions of Speech VAE for Un 7.5分 40 Listening Deepfake Detection: A New Perspective Beyond 7.5分 41 Comparison of window shapes and lengths in short-time f 6.5分 42 Transformer Based Machine Fault Detection From Audio In 6.5分 📋 论文列表 🥇 ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling 🔥 9.2分 | #音频生成 #多模态模型 #扩散模型 #基准测试 | arxiv ...

2026-04-19 · 更新于 2026-05-20 · 15 min · 3104 words

语音/音频论文速递 2026-04-18

语音/音频论文速递 2026-04-18 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #基准测试 11篇 ███████████ #音频理解 10篇 ██████████ #数据集 7篇 ███████ #音频大模型 7篇 ███████ #大语言模型 6篇 ██████ #信号处理 6篇 ██████ #音频生成 5篇 █████ #音频分类 5篇 █████ 🏆 高分论文 TOP 10 排名 论文 评分 🥇 StreamMark: A Deep Learning-Based Semi-Fragile Audio Wa 9.2分 🥈 A Manual Bar-by-Bar Tempo Measurement Protocol for Poly 8.5分 🥉 ClariCodec: Optimising Neural Speech Codes for 200bps C 8.5分 4 UniPASE: A Generative Model for Universal Speech Enhanc 8.5分 5 Who is Speaking or Who is Depressed? A Controlled Study 8.5分 6 SpeakerRPL v2: Robust Open-set Speaker Identification t 8.5分 7 ProSDD: Learning Prosodic Representations for Speech De 8.5分 8 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 8.5分 9 X-VC: Zero-shot Streaming Voice Conversion in Codec Spa 8.5分 10 An Ultra-Low Latency, End-to-End Streaming Speech Synth 8.5分 📄 StreamMark: A Deep Learning-Based Semi-Fragile Audio Watermarking for Proactive Deepfake Detection #音频安全 #音频深度伪造检测 #语音伪造检测 #基准测试 ...

2026-04-18 · 更新于 2026-05-20 · 43 min · 9080 words