多语言 | 语音/音频论文速递

SumRA: Parameter Efficient Fine-tuning with Singular Value Decomposition and Summed Orthogonal Basis

📄 SumRA: Parameter Efficient Fine-tuning with Singular Value Decomposition and Summed Orthogonal Basis #语音识别 #参数高效微调 #多语言 #低资源 ✅ 7.5/10 | 前25% | #语音识别 | #参数高效微调 | #多语言 #低资源学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Chin Yuen Kwok（南洋理工大学数字信任中心 & 计算与数据科学学院）通讯作者：Yongsen Zheng（南洋理工大学数字信任中心 & 计算与数据科学学院）作者列表：Chin Yuen Kwok（南洋理工大学数字信任中心 & 计算与数据科学学院）、Yongsen Zheng（南洋理工大学数字信任中心 & 计算与数据科学学院）、Jia Qi Yip（南洋理工大学计算与数据科学学院）、Kwok-Yan Lam（南洋理工大学数字信任中心 & 计算与数据科学学院）、Eng Siong Chng（南洋理工大学数字信任中心 & 计算与数据科学学院） 💡 毒舌点评本文巧妙地将SVD的数学结构与LoRA的参数效率需求结合，通过“求和奇异向量”这一简洁操作，在冻结A矩阵的同时显著提升了多语言ASR的微调效果，证明了好的初始化比训练时的参数自由度有时更重要。然而，论文的实验完全集中在语音领域，对方法在更广泛NLP任务（如摘要中提到的GLUE）上的失效缺乏深入剖析，且未开源任何代码或模型，使得其“参数高效”在可复现性和实际部署上打了折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了公开的Common Voice数据集，但未提供具体的划分脚本或处理后的数据。 Demo：未提及。复现材料：给出了模型配置（Whisper small/large-v2）、训练轮数、batch size、优化器、学习率调度器名称、LoRA插入位置、α设置等关键训练细节。提供了方法的数学公式和算法描述。论文中引用的开源项目：引用了Whisper（Radford et al., 2023）、SpeechBrain（用于学习率调度器）以及Common Voice数据集。总结：论文中未提及开源计划。 📌 核心摘要问题：现有的参数高效微调方法（如LoRA-FA、PiSSA）在冻结部分矩阵以节省存储和内存时，其初始化策略（如仅使用前几个主奇异向量）限制了模型对预训练知识空间的整体适应能力，尤其在需要全局知识迁移的多语言ASR任务中。方法核心：提出SumRA，一种改进的LoRA矩阵A的初始化策略。其核心是将通过SVD分解预训练权重W₀得到的所有奇异向量（按Σ^(1/2)V⊤的形式）进行求和压缩，分配到矩阵A的每一行中，从而使A的每行能同时影响多个知识概念子集。同时，论文提出了“交错求和”和“贪心求和”策略来均匀分配重要奇异向量，避免干扰。与已有方法相比的新颖性：相比于PiSSA仅使用顶部r个主奇异向量初始化A，SumRA通过求和方式利用了全部奇异向量（从主到次），从而让A矩阵能在更广的知识子空间上进行操作。这可以看作是在单次训练前就高效地“集成”了多个不同初始化方向的LoRA（如图5所示）。主要实验结果：在Common Voice数据集上使用5种新语言（每种仅10小时数据）对Whisper模型进行适配的实验中： SumRA在WER（词错误率）上显著优于LoRA、PiSSA和CorDA等基线。例如，在Whisper-large-v2上，SumRA将WER从LoRA的14.42%降至12.41%（相对改进约14%），同时参数量减半（17.6M vs 34.3M）。消融实验（表3）表明，提出的“交错求和”与“贪心求和”策略性能接近且均优于简单的“块求和”。实际意义：在需要为大量语言或个性化用户部署微调模型的场景中，SumRA通过共享冻结的A矩阵、仅存储每个任务的B矩阵，能显著降低总存储成本（如图4所示），同时保持甚至提升性能，为大规模、可扩展的语音模型适配提供了更优的解决方案。主要局限性：方法对全局属性的适应（如口音、说话风格）有效，但对局部适应（如添加少量领域术语）帮助有限。在NLP的GLUE基准测试等任务上初步实验未见明显提升，表明其优势可能局限于需要广泛表示空间调整的任务。 🏗️ 模型架构本文的SumRA本身不是一个独立的模型架构，而是对现有LoRA（低秩适应）模块初始化方式的改进，用于适配大型预训练语音模型（如Whisper）的线性层。整体流程如下： ...

SupCLAP: Controlling Optimization Trajectory Drift in Audio-Text Contrastive Learning with Support Vector Regularization

📄 SupCLAP: Controlling Optimization Trajectory Drift in Audio-Text Contrastive Learning with Support Vector Regularization #对比学习 #音频检索 #多语言 #预训练 ✅ 7.5/10 | 前25% | #音频检索 | #对比学习 | #多语言 #预训练学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Jiehui Luo（中央音乐学院，2∗）通讯作者：Yuguo Yin（北京大学，1†）作者列表： Jiehui Luo（中央音乐学院） Yuguo Yin（北京大学） Yuxin Xie（北京大学） Jinghan Ru（北京大学） Xianwei Zhuang（北京大学） Minghua He（北京大学） Aofan Liu（北京大学） Zihan Xiong（电子科技大学） Dongchao Yang（香港中文大学） 💡 毒舌点评本文的亮点在于从优化动力学的角度（力分解）为对比学习中的“轨迹漂移”现象提供了新颖的理论解释，并据此设计出简洁有效的SVR正则化方法，理论自洽且实验证据扎实。短板在于其验证主要依赖于相对较小规模的数据集（AudioCaps， Clotho），且未与更多、更强的近期基线（如一些大规模的CLIP式音频-文本模型）进行对比，其实效性和普适性在更大规模场景下有待进一步证明。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及公开预训练模型权重。数据集：使用了公开的AudioCaps和Clotho数据集，并自行构建了多语言翻译版本。多语言测试集的质量在附录E.9中进行了评估。 Demo：论文中未提及在线演示。复现材料：论文在正文和附录中提供了较为详尽的训练设置（超参数、优化器、硬件）、模型架构细节（编码器型号、MLP结构）以及评估方法，为复现提供了基础。引用的开源项目：论文依赖的编码器模型为CED（Dinkel et al., 2024）和SONAR-TE（Duquenne et al., 2023），均为公开可用模型。总结：论文中未提及开源计划。 📌 核心摘要本文针对音频-文本对比语言-音频预训练（CLAP）中优化轨迹漂移的问题，该问题源于负样本推力中不受控的垂直分量，导致训练不稳定和收敛缓慢。方法核心是提出支持向量正则化（SVR），通过在原损失函数中添加一个辅助损失项，利用构造的文本“支持向量”来选择性地抑制推力的垂直分量，从而稳定优化轨迹。与已有方法（如InfoNCE、SigLIP）相比，本文新在：(1) 首次从梯度力分解视角明确剖析了轨迹漂移问题；(2) 设计了SVR方法进行针对性干预，且无需额外数据和推理开销；(3) 提出了无监督的语义半径建模策略（StaticSVR 和 DynamicSVR）来控制干预强度。主要实验结果：在AudioCaps和Clotho数据集上，bi-DynamicSVR 方法在单语和多语言文本-音频检索任务上均显著超越InfoNCE和SigLIP基线。例如，在AudioCaps的T2A R@1指标上，InfoNCE为41.87，而bi-DynamicSVR达到44.16（提升约2.3%）；在零样本ESC-50分类上，InfoNCE为89.6，bi-DynamicSVR为92.1（提升2.5%）。实际意义在于，该方法以极低的额外计算成本（训练开销可忽略），提升了对比学习的训练效率和最终对齐质量，可直接应用于各种基于对比学习的音频-文本模型训练流程中。主要局限性包括：(1) 实验数据集规模相对较小；(2) 与更先进的、可能已包含复杂技巧的基线对比不完全；(3) DynamicSVR的性能依赖于预测半径的准确性，在极端噪声环境下可能不稳定（论文附录E.7对其鲁棒性有一定分析）。 🏗️ 模型架构 SupCLAP的架构并未提出全新的编码器模型，而是在标准的对称对比学习框架（由音频编码器和文本编码器组成）之上，修改了训练目标函数。 ...

Tell me Habibi, is it Real or Fake?

📄 Tell me Habibi, is it Real or Fake? #音频深度伪造检测 #数据集 #多语言 #语音克隆 #音视频 🔥 8.0/10 | 前25% | #音频深度伪造检测 | #数据集 | #多语言 #语音克隆学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Kartik Kuckreja (MBZUAI) 通讯作者：未说明作者列表：Kartik Kuckreja (MBZUAI), Parul Gupta (Monash University), Injy Hamed (MBZUAI), Thamar Solorio (MBZUAI), Muhammad Haris Khan (MBZUAI), Abhinav Dhall (Monash University) 💡 毒舌点评这篇论文精准地抓住了现有深度伪造检测数据集在多语言（尤其是阿拉伯语-英语语码转换）场景下的巨大空白，并提供了一个规模空前的数据集（387k视频），填补了这一重要缺口。然而，其数据生成管道高度依赖多个前沿但复杂的TTS/唇同步模型组合以及GPT-4的文本编辑，虽然保证了多样性，但也使得“伪造”样本的生成过程本身成为一个“黑盒”集成，其质量的上限和下限都极大程度地受限于这些商业/开源模型的能力，而非论文提出的统一框架。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及。数据集：论文明确表示将公开数据集，并提供了获取所需的EULA表单（图7）。访问需通过机构IRB批准和签署EULA。 Demo：未提及在线演示。复现材料：论文提供了数据生成管道的详细描述、关键工具（Whisper-v2, GPT-4.1-mini, XTTS-v2, OpenVoice-v2, Fairseq, Diff2Lip, LatentSync）以及评估脚本的开源承诺。附录中提供了详细的文本操作提示（图6）、数据分布、扰动列表和身份重叠分析等复现相关信息。论文中引用的开源项目：Whisper, wav2vec 2.0, XTTS-v2, OpenVoice-v2, Fairseq, Diff2Lip, LatentSync, XLSR-Mamba, Jais-3B, Qwen2.5等。 📌 核心摘要问题：现有的深度伪造检测研究主要针对单语内容，忽略了全球普遍存在的多语言，特别是阿拉伯语-英语语码转换（CSW）场景下的检测挑战。方法核心：提出了ArEnAV，首个大规模阿拉伯-英语音视频深度伪造数据集，并设计了一个三阶段数据生成流程：利用GPT-4.1-mini进行受控的文本（语码转换）操纵，使用4种TTS和2种唇同步模型组合生成伪造的音频和视频。创新点：数据集首次系统性地包含了句内语码转换、方言变体和纯阿拉伯语内容；生成流程专门针对阿拉伯语-英语混合内容设计；提供了多维度的基准测试，包括与现有单语/多语言数据集的对比、SOTA模型评估及用户研究。主要实验结果：数据集对比：ArEnAV是目前最大的多语言音视频深度伪造数据集（387k视频，765小时），远超PolyGlotFake（15k）和Illusion（1.37M但非重点CSW）。伪造片段更长，检测更难。检测性能：现有SOTA模型（如BA-TFD+）在ArEnAV上性能大幅下降。在测试集上，BA-TFD+（AV-1M预训练）的AP@0.5仅为3.74，而微调后AUC可达79.97%。跨数据集泛化：在DFDC, FF++, CelebDF上表现良好的模型（如Face-X-Ray, LipForensics），在ArEnAV上AUC接近随机猜测（~50%）。用户研究：人类参与者的检测准确率仅为60.00%，定位精度（AP@0.5）仅0.79，证明该任务极具挑战性。85%的失败案例发生在语码转换中的英语单词部分。实际意义：为构建更具鲁棒性、能应对真实世界多语言语码转换场景的深度伪造检测模型提供了关键资源和基准，推动了该领域向全球化、多样化方向发展。主要局限性：生成管道复杂，依赖外部模型（Whisper, GPT-4, TTS，唇同步模型），其质量和特性直接影响数据集质量；“含义+翻译”模式下，LLM有时未能充分改变语义；数据集目前仅限于阿拉伯语和英语。 🏗️ 模型架构本文的主要贡献是数据集而非一个新的检测模型架构。论文的核心是ArEnAV数据生成管道，其架构如图1所示：整个流程分为三个主要阶段： ...

TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

📄 TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems #语音合成 #模型评估 #基准测试 #多语言 #鲁棒性 ✅ 7.0/10 | 前25% | #模型评估 | #基准测试 | #语音合成 #多语言学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Christoph Minixhofer（爱丁堡大学语音技术研究中心）通讯作者：未说明作者列表：Christoph Minixhofer（爱丁堡大学语音技术研究中心）、Ondrej Klejch（爱丁堡大学语音技术研究中心）、Peter Bell（爱丁堡大学语音技术研究中心） 💡 毒舌点评亮点：论文构建了迄今最全面的TTS系统公开评测框架，涵盖20个系统、4个测试域、14种语言，并发布了超过1万条主观评分数据，这本身就是一项耗时耗力的重要基础设施贡献。短板：TTSDS2指标本身创新有限，本质是多个特征分布的Wasserstein距离集成，且计算开销大（每分需约10分钟CPU时间），其最大优势——“跨域一致性”更像是一个精心设计和调优的工程成果，而非理论突破。 🔗 开源详情代码：提供了流水线代码仓库链接：github.com/ttsds/pipeline。模型权重：TTSDS2本身是一个评估算法，不涉及模型权重。论文中评估的20个TTS系统中，大部分开源代码和权重（见表6附录A）。数据集：a) 主观评测数据集：hf.co/datasets/ttsds/listening_test；b) 自动化生成的评测数据集：可通过上述流水线重建，噪声参考集在 hf.co/datasets/ttsds/noise-reference。 Demo：提供了多语言基准排行榜网站 ttsdsbenchmark.com，可查看各系统分数。论文未提及交互式Demo。复现材料：论文提供了详细的算法伪代码（算法1）、因子特征选择表（表1）、附录中的听测问卷细节（附录B）、以及所有实验数据的详细表格（附录C-H）。论文中引用的开源项目：Whisper（语音识别与转录）、FastText（语言识别）、Pyannote（说话人分割）、Demucs（音乐分离）、VERSA（评估工具包）、以及所有被评测的20个TTS系统。 📌 核心摘要解决的问题：现有TTS评估方法（主观MOS耗时费力且不可比，客观指标在域外泛化差且与主观分相关性弱）已无法满足评估高质量、接近真人水平的现代TTS系统的需求。方法核心：提出TTSDS2，一个分布式的、因子化的客观评估指标。它从Generic、Speaker、Prosody、Intelligibility四个感知维度，提取多种特征，并计算合成语音特征分布与真实语音分布、噪声分布之间的2-Wasserstein距离，归一化后得到分数。与已有方法相比新在哪里：a) 是首个在4个差异巨大的域（干净朗读、嘈杂、野外、儿童语音）和14种语言上，都能与主观评分（MOS/CMOS/SMOS）保持 Spearman 相关系数 ρ > 0.5 的单一指标。b) 发布了一个持续更新、可自动化复现的多语言TTS评测基准和流程。c) 收集并发布了大规模、跨系统的主观评测数据集（11,282条有效评分）。主要实验结果： TTSDS2在所有4个域、3类主观评分（共12个评测点）上的平均Spearman相关系数为0.67，是唯一一个在所有评测点上ρ > 0.5的指标（表3）。相比之下，其他15个指标中表现最好的Speaker Similarity类指标（RawNet3）平均相关系数为0.6，但存在域失效；MOS预测网络（SQUIM）平均为0.57。对20个开源TTS系统的排名中，TTSDS2与MOS和CMOS在Top 4和Bottom 3系统上达成一致（图2）。实际意义：为TTS社区提供了一个可靠、稳健、可自动化的跨语言、跨域评估标尺和持续更新的基准排行榜，有助于更公平、更高效地比较和推进TTS技术，尤其对评估那些声称达到“人机难辨”水平的系统至关重要。主要局限性：a) 计算成本高（CPU-bound）。b) 仍无法完全替代主观评测（最高相关系数约0.8）。c) 无法检测TTS系统可能存在的语义错误（如转录不忠实），需辅以WER等指标。d) 评估粒度为句子级别，不支持长文本。 🏗️ 模型架构 TTSDS2并非一个生成模型，而是一个评估指标框架。其核心架构如下： ...

VowelPrompt: Hearing Speech Emotions from Text via Vowel-level Prosodic Augmentation

📄 VowelPrompt: Hearing Speech Emotions from Text via Vowel-level Prosodic Augmentation #语音情感识别 #大语言模型 #数据增强 #多语言 #强化学习 ✅ 7.5/10 | 前25% | #语音情感识别 | #数据增强 | #大语言模型 #多语言学术质量 7.0/7 | 选题价值 0.3/2 | 复现加成 0.2 | 置信度高 👥 作者与机构第一作者：Yancheng Wang（Arizona State University， Meta Superintelligence Labs）通讯作者：未说明作者列表：Yancheng Wang（Arizona State University, Meta Superintelligence Labs）， Osama Hanna（Meta Superintelligence Labs）， Ruiming Xie（Meta Superintelligence Labs）， Xianfeng Rui（Meta Superintelligence Labs）， Maohao Shen（Massachusetts Institute of Technology, Meta Superintelligence Labs）， Xuedong Zhang（Meta Superintelligence Labs）， Christian Fuegen（Meta Superintelligence Labs）， Jilong Wu（Meta Superintelligence Labs）， Debjyoti Paul（Meta Superintelligence Labs）， Arthur Guo（Meta Superintelligence Labs）， Zhihong Lei（Meta Superintelligence Labs）， Ozlem Kalinli（Meta Superintelligence Labs）， Qing He（Meta Superintelligence Labs）， Yingzhen Yang（Arizona State University） 💡 毒舌点评亮点是提出了一个新颖且可解释的语音情感识别框架，将语言学知识（元音是韵律的主要载体）与大语言模型的推理能力相结合，实验全面覆盖零样本、微调、跨域和多语言场景。短板是系统依赖外部强制对齐工具（如MFA）的准确性和可用性，这增加了实际部署的复杂度，且论文未讨论在噪声或说话人识别失败时的鲁棒性。 ...

语音/音频论文速递 2026-05-02

语音/音频论文速递 2026-05-02 共分析 4 篇论文 ⚡ 今日概览 📥 抓取 4 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音对话系统 1篇 █ #语音合成 1篇 █ #基准测试 1篇 █ #语音识别 1篇 █ 📊 论文评分排行榜（4 篇，按分数降序）排名论文评分分档主任务 🥇 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal 8.5分前25% #语音对话系统 🥈 JaiTTS: A Thai Voice Cloning Model 8.0分前25% #语音合成 🥉 InteractWeb-Bench: Can Multimodal Agent Escape Blind Ex 7.5分前25% #基准测试 4. AppTek Call-Center Dialogues: A Multi-Accent Long-Form 6.5分前50% #语音识别 📋 论文列表 🥇 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction 🔥 8.5/10 | 前25% | #语音对话系统 | #端到端 | #多模态模型 #流式处理 | arxiv ...

DM-ASR: Diarization-aware Multi-speaker ASR with Large Language Models

📄 DM-ASR: Diarization-aware Multi-speaker ASR with Large Language Models #语音识别 #说话人日志 #大语言模型 #多语言 #结构化预测 🔥 8.0/10 | 前25% | #说话人识别 | #大语言模型 | #语音识别 #说话人日志 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Li Li（武汉大学人工智能学院）通讯作者：Ming Li（香港中文大学（深圳））作者列表：Li Li（武汉大学人工智能学院），Ming Cheng（武汉大学计算机科学学院），Weixin Zhu（腾讯天籁音频实验室），Yannan Wang（腾讯天籁音频实验室），Juan Liu（武汉大学人工智能学院），Ming Li（香港中文大学（深圳），通讯作者） 💡 毒舌点评亮点：论文最大的贡献在于提出了一种务实的“半端到端”框架，在当前端到端大模型尚未完全称霸的阶段，巧妙地将“说话人日志”这一成熟技术的输出作为结构化提示（Prompt）注入大语言模型（LLM），实现了用更小的模型、更少的数据达到甚至超越超大模型的效果，这为实际落地提供了一条高性价比路径。短板：框架高度依赖外部说话人日志系统的质量。尽管论文通过标签扰动训练提升了一定的鲁棒性，但本质上仍是“管道式”思维的变体，未能完全摆脱对上游模块的依赖。当面临日志系统完全失效的场景时，其性能上限可能会受到制约。 🔗 开源详情代码：论文中未提及DM-ASR的完整代码仓库链接。仅在评估部分引用了公开的评估工具MeetEval。模型权重：未提及是否会公开DM-ASR的训练后模型权重。数据集：训练所用的数据集大多为公开数据集（如AMI, ICSI, Fisher, AISHELL-4, AliMeeting等），论文中未提及使用私有数据。论文未提供统一的数据获取入口或脚本。 Demo：未提及提供在线演示。复现材料：论文详细说明了训练设置，包括：使用的预训练模型：Whisper-large-v3-turbo, Gemma3-270m, Qwen3-0.6B/1.7B。微调方法：LoRA (r=16, α=32)。优化器：AdamW，峰值学习率 1e-4，线性warmup-decay。硬件与批次：8 x NVIDIA A6000 48GB GPU，每卡 batch size 2。数据处理：切片长度15-25秒，使用MFA生成词级时间戳。缺失信息：未明确总训练步数/轮数、warmup比例、具体解码参数（如beam size）、以及是否提供预训练检查点。论文中引用的开源项目： Whisper (语音编码器), Gemma, Qwen (LLM解码器), MFA (词级时间戳对齐), MeetEval (评估工具), DiariZen, S2SND (前端日志系统)。总结：论文提供了充分的复现思路和关键配置，但缺乏直接可用的“一键复现”材料（如代码仓库、模型权重），因此公开程度为中等偏上。 📌 核心摘要要解决什么问题：传统多说话人ASR（联合说话人识别、时间定位和文本转录）在级联方案中存在误差传播问题，而纯端到端大模型方案则需要海量数据和算力，训练成本高昂。论文旨在寻找一种更高效、更精确的平衡方案。方法核心：提出DM-ASR框架，将多说话人转录重构为多轮对话生成任务。给定音频和来自外部日志系统的分段说话人及时间信息，模型以这些信息为结构化提示（包含说话人ID和时间戳的特殊token），分“轮次”转录每个说话人在对应时段的文本内容。此外，模型可选地进行词级时间戳预测。与已有方法相比新在哪里：不同于级联方案：不将日志结果用于音频分割再送入单说话人ASR，而是保留完整多说话人音频上下文，让LLM直接处理混合语音。不同于端到端Speech-LLM：不依赖模型从零学习日志能力，而是显式地将日志作为结构化先验输入，大幅简化任务，使小模型也能获得高性能。独特能力：支持词级时间戳生成（如表1所示），这在同类Speech-LLM工作中较为少见。主要实验结果：在中英文基准测试上，DM-ASR用0.6B/1.7B参数的模型，性能（cpCER/tcpCER）显著优于多种强基线（包括级联方案和7B级Speech-LLM）。例如，在AliMeeting测试集上，1.7B的DM-ASR (S2SND) 取得了19.15% cpCER 和 19.45% tcpCER，优于VibeVoice-ASR (7B) 的29.33% cpCER。消融实验表明，词级时间戳、更长上下文、更多数据和更大模型均带来稳定提升。实际意义：证明了在资源受限（模型、数据）的条件下，将传统语音处理模块（日志系统）的输出作为大模型的结构化提示，是一种非常有效的多模态融合范式。为会议转录等应用提供了一套高性价比、高精度的解决方案。主要局限性：框架性能受限于前端日志系统的质量。虽然可通过训练修正不完美日志，但论文显示在完全不依赖日志提示（LLM预测全部）的设置下，性能仍有差距，说明模型本身独立完成全任务的能力有待加强。 🏗️ 模型架构 DM-ASR的整体框架如下图所示，由四个主要组件构成： ...

Selective Augmentation: Improving Universal Automatic Phonetic Transcription via G2P Bootstrapping

📄 Selective Augmentation: Improving Universal Automatic Phonetic Transcription via G2P Bootstrapping #语音识别 #数据增强 #多语言 #低资源 ✅ 6.0/10 | 前50% | #语音识别 | #数据增强 | #多语言 #低资源 | arxiv 学术质量 5.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：未说明通讯作者：未说明作者列表：Tobias Bystrich（未说明）、Julia M. Pritzen（未说明）、Christoph A. Schmidt（未说明）、Claudia Wich-Reif（未说明） 💡 毒舌点评亮点：论文提出了一种新颖的“选择性增强”思路，巧妙地从目标语言（德语）的辅助语言（印地语）中“借用”语音学区别特征来改善训练数据，为解决通用语音转写中“干净、多样化”数据不足的核心痛点提供了新视角。短板：但摘要所呈现的实验规模非常有限（仅验证了德语塞音的送气和清浊两个特征），且严重依赖外部语言模型（MultIPA）和辅助语言数据，其普适性、对最终端到端系统性能的提升效果，以及跨语言迁移的边界和风险，文中均未提供充分证据。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及数据集：论文中未提及 Demo：论文中未提及复现材料：论文中未提及论文中引用的开源项目： MultIPA：论文中提到“基于模型 MultIPA”，但未给出其具体开源链接。 Kaldi：论文中提到“使用了 Kaldi 工具包”，但未给出具体版本或链接。补充信息 [模型架构] 补充：论文明确指出实验是基于MultIPA模型进行的，且该模型基于Transformer架构。这是对方法技术基础的关键说明，而非仅仅是一个“外部依赖”。 [模型架构/创新点/细节详述] 补充：论文明确指出，所提出的“选择性增强”是一个引导式方法。具体而言，它利用G2P（字素到音素）引导的概念。这一方法论框架是创新点的核心组成部分，表明其利用了语言学知识来指导数据增强过程。 [细节详述] 补充：关于训练数据，论文原文提供了更具体的信息：增强操作是针对德语（目标语言）的现有训练转写进行的，而所使用的语音区别特征信息（如送气和清浊）来源于印地语（辅助语言）。这明确了“跨语言特征迁移”的具体操作对象和数据来源。 ...

语音/音频论文速递 2026-05-01

语音/音频论文速递 2026-05-01 共分析 21 篇论文 ⚡ 今日概览 📥 抓取 21 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 7篇 ███████ #模型评估 2篇 ██ #语音对话系统 1篇 █ #条件生成 1篇 █ #语音转换 1篇 █ #音频事件检测 1篇 █ #语音合成 1篇 █ #个性化联邦学习 1篇 █ 📊 论文评分排行榜（21 篇，按分数降序）排名论文评分分档主任务 🥇 LRS-VoxMM: A benchmark for in-the-wild audio-visual spe 9.0分前25% #语音识别 🥈 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal 8.5分前25% #语音对话系统 🥉 ABC: Any-Subset Autoregression via Non-Markovian Diffus 8.0分前25% #条件生成 4. Accent Conversion: A Problem-Driven Survey of Socioling 7.5分前50% #语音转换 5. Few-Shot Accent Synthesis for ASR with LLM-Guided Phone 7.5分前25% #语音识别 6. EdgeSpike: Spiking Neural Networks for Low-Power Autono 7.5分前25% #音频事件检测 7. JaiTTS: A Thai Voice Cloning Model 7.5分前25% #语音合成 8. Taming Noise-Induced Prototype Degradation for Privacy- 7.5分前25% #个性化联邦学习 9. MCPHunt: An Evaluation Framework for Cross-Boundary Dat 7.5分前25% #模型评估 10. Beyond the Baseband: Adaptive Multi-Band Encoding for F 7.0分前25% #生物声学 11. A Knowledge-Driven Approach to Target Speech Extraction 7.0分前50% #语音分离 12. Predicting Upcoming Stuttering Events from Three-Second 7.0分前25% #语音生物标志物 13. Dual-LoRA: Parameter-Efficient Adversarial Disentanglem 7.0分前25% #说话人验证 14. HATS: An Open data set Integrating Human Perception App 7.0分前50% #语音识别 15. Do Sparse Autoencoders Capture Concept Manifolds? 7.0分前25% #可解释性 16. BUT System Description for CHiME-9 MCoRec Challenge 6.5分前25% #语音识别 17. AppTek Call-Center Dialogues: A Multi-Accent Long-Form 6.5分前25% #语音识别 18. Qualitative Evaluation of Language Model Rescoring in A 6.5分前25% #语音识别 19. Mapping the Methodological Space of Classroom Interacti 6.0分前50% #模型评估 20. Selective Augmentation: Improving Universal Automatic P 6.0分前50% #语音识别 21. Normativity and Productivism: Ableist Intelligence? A D 3.5分后50% #语音翻译 📋 论文列表 🥇 LRS-VoxMM: A benchmark for in-the-wild audio-visual speech recognition 🔥 9.0/10 | 前25% | #语音识别 | #数据集 | #基准测试 #鲁棒性 | arxiv ...

EmoTransCap: Dataset and Pipeline for Emotion Transition-Aware Speech Captioning in Discourses

📄 EmoTransCap: Dataset and Pipeline for Emotion Transition-Aware Speech Captioning in Discourses #语音情感识别 #语音合成 #多任务学习 #数据集 #多语言 ✅ 7.5/10 | 前25% | #语音情感识别 | #多任务学习 | #语音合成 #数据集 | arxiv 学术质量 7.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Shuhao Xu（机构未明确说明，作者列表中编号为1）通讯作者：Rui Liu（作者列表中编号为1，且标注为Corresponding Author）作者列表：Shuhao Xu (1), Yifan Hu (1), Jingjing Wu (1), Zhihao Du (1), Zheng Lian (2), Rui Liu (1) 机构信息：论文正文和作者列表中仅标注了编号1和2，未提供具体机构名称。作者Zheng Lian (2)来自编号2的机构。根据致谢部分，该研究获得国家自然科学基金等资助，但未说明具体所属单位。 💡 毒舌点评亮点：本文首次系统性地定义并攻克“语篇级情感转换描述”这一任务，构建的首个大规模双语合成数据集（EmoTransSpeech）为这个被忽视但重要的领域提供了宝贵的燃料。短板：数据集完全依赖合成，情感转换的标注也主要依赖模型（MTETR）和LLM自动生成，这虽然高效，但可能使得数据分布过于“干净”和可控，削弱了其在复杂、模糊的真实对话场景中的验证价值。 ...