Ontology Memory-Augmented ASR Correction for Long Text-Speech Interleaved Conversations

📄 Ontology Memory-Augmented ASR Correction for Long Text-Speech Interleaved Conversations #提示学习 #大语言模型 9.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 9.6/10 | 前25% | #语音识别 | #提示学习 | #大语言模型 | arxiv 👥 作者与机构 作者:Xinxin Li, Huiyao Chen, Meishan Zhang, Yunxin Li, Zulong Chen, Zhibo Ren, Xiaoqing Dong, Baotian Hu, Min Zhang 机构: 哈尔滨工业大学(深圳)计算与智能研究所 深圳环岛研究院 💡 毒舌点评 这篇论文的出发点不错,将“本体”和“记忆”这两个概念塞进ASR后纠正任务里,试图解决长上下文对话中信息稀疏和噪声干扰的问题。想法算是有点新意,但读下来总觉得哪里差点意思。方法上,所谓的“本体工作记忆”本质上是个动态更新的实体/术语库加检索,没什么理论深度。最让人困惑的是,论文声称提出一个“框架”,但很多关键组件(如本体提取器 E_ϕ、检索器 Retrieve_η)的实现细节完全黑箱,就用个“实现无关”一笔带过,这到底是框架还是个实验性pipeline?实验部分倒是铺得挺开,用了不少模型,但Baseline的选择有点迷惑。那个用Gemma-4-26B做的“Full-History”baseline,直接把所有历史文本塞给模型,这不就等于验证了“塞太长上下文对LLM也没用”这个大家都知道的结论吗?这对验证你本体记忆的有效性有什么帮助?最实在的贡献可能还是那个RAMC-Corr数据集,流程说得很细,是个不错的评测基准。总而言之,想法可取,工程实现有待商榷,论证不够严密,像一篇做了很多实验但没想透彻的早期工作。 ...

2026-06-12 · 更新于 2026-06-12 · 2 min · 407 words

PiDA: Phonetically-Informed Data Augmentation for Robust Vietnamese Speech Translation

📄 PiDA: Phonetically-Informed Data Augmentation for Robust Vietnamese Speech Translation 6.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1/1.5 | 清晰 0.9/1 | 影响 0.5/1.5 | 开源 0.2/1.5 | 复现 0.4/0.5 | 工程 0.7/1.5 ✅ 6.5/10 | 前50% | arxiv 👥 作者与机构 作者:Giang Son Nguyen, Tung X. Nguyen, Hieu Minh Truong, Nhu Vo, Wray Buntine, Dung D. Le。 机构:越南VinUniversity,澳大利亚University of Technology Sydney,澳大利亚Monash University。 💡 毒舌点评 这篇论文像一个精心打磨的“单线程”应用题:针对越南语翻译中一个具体痛点(ASR错误传播),提出了一个巧妙且相对完整的技术解决方案(基于音素嵌入的错误模拟)。优点是问题定义清晰,实验对比充分,方法有一定启发性。但作为一篇顶会论文,它的“格局”打开了吗?并未。所有实验都绑定在越南语和FLEURS这一个“小池塘”里,方法核心局限于“音节内替换错误”这一种错误类型,像是给一座特定的房子换了一把好锁,却声称解决了整个社区的安防问题。创新性受限于语言和任务的具体性,难以直接泛化。更关键的是,声称解决了级联系统的鲁棒性问题,却回避了与端到端模型的正面交锋,说服力打了折扣。总体而言,这是一篇扎实的“领域适配”工作,但距离定义新方向的开创性研究还有明显距离。 📌 核心摘要 本文针对越南语级联语音翻译中ASR错误传播导致性能下降的问题,进行了首次系统性研究。通过对ASR替换错误进行音素层面的分类,并利用线性混合效应模型量化其对翻译的影响,证实了大多数错误源于系统性的音素混淆。基于此发现,提出了音素感知数据增强方法(PiDA)。该方法利用预训练的音素嵌入模型(XPhoneBERT)计算音节间的音素相似度,在训练数据中合成与真实ASR错误分布相似的替换错误。在FLEURS数据集上的实验表明,使用PiDA增强数据微调的NMT模型,在翻译带有错误的ASR输出时,BLEU分数显著优于基线方法,并且保持了对干净文本的翻译性能。 🔗 开源详情 代码:论文未提供PiDA方法本身的代码仓库链接。 模型权重: ASR模型: PhoWhisper-large: 论文中提及,但未给出具体模型权重链接。 wav2vec2-base-vietnamese-250h: 论文中提及,并提供了其GitHub仓库链接:https://github.com/vietai/ASR。 NMT模型: VinAI-Translate (vinai-translate-vi2en-v2): 论文中提及,但未给出具体模型权重链接。 语音嵌入模型: XPhoneBERT (xphonebert-base): 论文中提及,但未给出具体模型权重链接。 数据集: FLEURS (越南语-英语子集): 论文中作为主要评估和实验数据集。链接:https://google.github.io/fleurs/。 MultiMed-ST: 论文中提及并评估,但指出其质量存在问题。链接:论文中未直接提供,但引用了相关论文。 Demo:论文中未提及。 复现材料:论文中提供了详细的实验设置、超参数(如表4所示的k和τ)和训练协议,但未提供具体的训练脚本、配置文件或预训练检查点链接。 论文中引用的开源项目: PhoWhisper (ASR模型): 论文中引用,链接:https://openreview.net/forum?id=x3c3MkJfpG。 wav2vec 2.0: 论文中引用,链接:https://arxiv.org/abs/2006.11477。 Whisper: 论文中引用,链接:https://proceedings.mlr.press/v202/radford23a.html。 XPhoneBERT: 论文中引用,链接:https://doi.org/10.48550/arXiv.2306.12258 (根据引用信息推断)。 CharsiuG2P (G2P工具): 论文中提及,引用了相关论文。 FAISS (索引库): 论文中提及,引用了相关论文。 wordfreq (词频库): 论文中提及,链接:https://doi.org/10.5281/zenodo.7199437。 Gemini 2.5 Flash (LLM): 论文中提及,引用了相关报告。 Llama-SEA-LION-v3.5-8B-R: 论文中提及,链接:https://huggingface.co/aisingapore/Llama-SEA-LION-v3.5-8B-R。 Vistral-7B-Chat: 论文中提及,引用了相关论文。 FLEURS (数据集): 论文中引用,链接:https://google.github.io/fleurs/。 MultiMed-ST (数据集): 论文中引用,链接:论文中未直接提供,但引用了相关论文。 PWESuite / PSET (评估基准): 论文中引用,链接:分别为https://aclanthology.org/2024.lrec-main.1168/ 和 https://aclanthology.org/2025.emnlp-main.373/。 PanPhon: 论文中引用,链接:https://aclanthology.org/C16-1328/。 Phoneme2Vec: 论文中引用,链接:https://doi.org/10.1145/3397271.3401050。 作者与机构 作者:Giang Son Nguyen, Tung X. Nguyen, Hieu Minh Truong, Nhu Vo, Wray Buntine, Dung D. Le。 机构:越南VinUniversity,澳大利亚University of Technology Sydney,澳大利亚Monash University。 ...

2026-06-12 · 更新于 2026-06-12 · 3 min · 629 words

Positional Encoding in the Context of Memristor-Based Analog Computation for Automatic Speech Recognition

📄 Positional Encoding in the Context of Memristor-Based Analog Computation for Automatic Speech Recognition #语音识别 #低资源 #模型压缩 8/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8/10 | 前50% | #语音识别 | #模型压缩 | #低资源 | arxiv 👥 作者与机构 作者:Benedikt Hilmes, Nick Rossenbach, Ralf Schlüter 机构:RWTH Aachen University 机器学习与人类语言技术组, Apptek GmbH (德国亚琛) 💡 毒舌点评 这篇论文精准地切入了一个“硬件-算法协同设计”的细分痛点:在忆阻器这种新兴模拟计算硬件上,一个原本能提升性能的常规组件(相对位置编码)反而成了性能毒药。文章的价值在于揭示了这种“水土不服”的现象并给出了工程上的补救方案。然而,作为一篇投向顶会的论文,其贡献的“宽度”和“深度”略显不足。它更像一份扎实的硬件部署问题诊断报告,而非一篇提出全新算法或深刻理论洞察的论文。问题本身有趣,但解决方案(调整ADC位数、移除线性层)相对直接,缺乏令人眼前一亮的创新。此外,结论中“∼50%”和“∼30%”的表述需要更精确的定义和基准,否则容易产生误导。 ...

2026-06-12 · 更新于 2026-06-12 · 2 min · 385 words

Predicting Cognitive Load from Speech and Interaction Dynamics in Dyadic Conversations

📄 Predicting Cognitive Load from Speech and Interaction Dynamics in Dyadic Conversations #语音情感识别 6.7/10 | 创新 1.3/2 | 严谨 1/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.4/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 6.7/10 | 前50% | #语音情感识别 | #语音情感识别 | arxiv 👥 作者与机构 Tahiya Chowdhury,Department of Computer Science, Colby College, Waterville, Maine, USA。 💡 毒舌点评 论文试图在“自然对话”和“认知负荷”这个有点棘手的交叉点上做点事,动机值得肯定,特别是在远程协作普及的当下。但坦白说,整体感觉像是用一套相对标准、甚至略显保守的方法(eGeMAPS + GRU + RF)去验证一个假设。交互特征的引入算是个亮点,但“基于VAD的说话时间/轮次”这种特征集实在算不上新颖。更关键的是,53对对话、475个样本,这点数据量喂给GRU这种序列模型,能学到的“时序动态”恐怕有限,文中甚至承认了带注意力的GRU效果没提升,这直接削弱了“动态”这个卖点。结论说“交互特征提供了更强的预测力”,但看绝对数值(CCC最高0.51),离实际可用还差得远,更像是说“在这些特定特征上找到了一点统计相关性”。作者自己也提到了一个致命问题:这些交互模式可能只是任务结构的反映(比如,时间紧的任务自然会导致更多打断),而非纯粹的认知负荷。论文对此有探讨,但显然没有解决,这让整个工作的解释力打了个折扣。总的来说,是一篇中规中矩的探索性工作,证明了“有点信号”,但离“可靠预测”和“深入理解”还有明显距离。 📌 核心摘要 本文探讨了在自然双人协作对话中,利用语音和交互动态预测主观认知负荷(NASA-TLX量表得分)的可能性。研究使用AVCAffe数据集(53对参与者,9项任务),提取了静态声学特征(eGeMAPS)、时序动态声学特征(一阶差分)和基于语音活动的交互特征(如说话时间比例、轮次转换率)。作者将问题建模为回归任务,使用双头GRU编码器处理成对的参与者语音特征序列,并与随机森林基线进行对比。实验采用留一法交叉验证以确保泛化能力。结果表明,仅使用声学特征即可对时间需求(CCC≈0.42)和智力需求(CCC≈0.22)进行高于偶然水平的预测。加入交互特征后,预测性能显著提升,尤其是时间需求(CCC提升至0.51)。特征重要性分析显示,时间需求与轮次转换、重叠等交互动态相关,而智力需求与说话时间分配不平衡相关。然而,模型(GRU与随机森林)之间的性能差异在统计上不显著。研究结论认为,语音和交互动态包含了可泛化的认知负荷信号,但预测性能受数据集规模、标签粒度及交互特征与任务模式混淆等因素限制。 🔗 开源详情 代码:论文中未提及提供代码链接或仓库。 模型权重:论文中未提及提供模型权重。 数据集:论文中引用了AVCAffe数据集,具体获取链接需参考该数据集论文(sarkar2023avcaffe)。本文未提供直接链接。 Demo:论文中未提及。 复现材料:论文中未提供。论文详细描述了模型结构、训练参数和评估流程,理论上可辅助复现。 论文中引用的开源项目: OpenSMILE:https://github.com/audeering/opensmile (用于提取eGeMAPS声学特征)。 Silero VAD:https://github.com/snakers4/silero-vad (用于语音活动检测)。 🏗️ 方法概述和架构 本文提出的方法主要包含三个核心阶段:特征提取、模型构建与评估。 ...

2026-06-12 · 更新于 2026-06-12 · 2 min · 306 words

PRISM: Prosody-Integrated Multi-Agent Reasoning Framework for Empathetic Spoken Dialogue

📄 PRISM: Prosody-Integrated Multi-Agent Reasoning Framework for Empathetic Spoken Dialogue #语音合成 #语音识别 8.1/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8.1/10 | 前25% | #语音合成 | #语音识别 | arxiv 👥 作者与机构 Wen Zhang, Xiaocui Yang, Zhuoyue Gao, Daling Shi, Yifei Feng, Daling Wang, Yifei Zhang。隶属于东北大学计算机科学与工程学院。 💡 毒舌点评 这篇工作试图用多智能体框架解决共情语音对话这个“老大难”问题,方向是好的。但就像一个组装精良却忘了拧紧螺丝的机器,理论框架看起来挺完整,可细节经不起推敲。那个拍脑袋定权重的“确定性分数”,简直是对“科学计算”四个字的侮辱。实验倒是把所有能拿的指标都拿上了,但缺少最硬核的声学评估,就像评价一个歌手只看他写了多少词,却从不听他唱得怎么样。最要命的是,声称“可解释”,但各模块间的“协调”机制描述得像黑话,这“多智能体”的协作到底有多智能,恐怕连作者自己都说不清。 📌 核心摘要 本文提出PRISM,一个用于共情语音对话的多智能体框架。该框架将语音感知、对话管理和语音合成分解为专门模块(Perceiver, Manager, Responder, Vocalizer),并通过引入“韵律到语言”转换机制,将低级声学线索转化为LLM可处理的文本描述,从而增强共情推理的可控性与稳定性。此外,框架支持按需调用外部知识工具。在AvaMERG数据集上的实验表明,PRISM在多个自动指标和人工评估上优于多种基线模型。 ...

2026-06-12 · 更新于 2026-06-12 · 3 min · 506 words

Self-Guidance: Enhancing Neural Codecs via Decoder Manifold Alignment

📄 Self-Guidance: Enhancing Neural Codecs via Decoder Manifold Alignment #语音合成 #语音编码 #自监督学习 #正则化微调 #低资源 #模型压缩 9.7/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9.7/10 | 前25% | #语音合成 | #自监督学习 | #语音编码 #正则化微调 | arxiv 👥 作者与机构 作者:Xiang Li, Yixuan Zhou, Jingran Xie, Zhiyong Wu, Hui Wang。论文未明确提及作者所属机构。 💡 毒舌点评 这篇工作提出了一个简单有效且即插即用的训练技巧(Self-Guidance),确实能提升编解码器性能并减少码本大小,对下游LLM任务有益。但审稿人普遍会质疑其“新颖性”上限——这本质上是一种特征级别的对齐或正则化手段,在自蒸馏、特征模仿等领域早有类似思想。论文在理论分析上较为薄弱,缺乏对“为何对齐解码器特定层特征就如此有效”的深入数学或信息论解释。下游TTS实验规模太小,像一个仓促的验证,难以充分支撑“显著提升”的结论。整体而言,这是一篇扎实的工程改进工作,但离理论贡献或范式突破尚有距离。 📌 核心摘要 本文针对VQ-VAE神经语音编解码器中量化误差限制重建质量的问题,提出了一种轻量级训练机制“自引导”(Self-Guidance, SG)。SG在训练时为解码器引入一个辅助分支,输入连续的预量化潜在向量(teacher路径),并通过一个特征映射损失(\(\\mathcal{L}_{\\text{guide}}\))对齐该分支与原始量化输入分支(student路径)在解码器最后一个Transformer块输出的隐藏特征。此举旨在提升解码器对量化误差的鲁棒性,使其在推理时仅处理量化token也能生成更高质量的波形。实验表明,SG在XCodec2模型上取得了多项指标的SOTA,并能以1/4码本大小达到基线性能,从而有益于简化下游LLM的语音token建模。该机制泛化性良好,适用于不同的量化器和解码器架构。 ...

2026-06-12 · 更新于 2026-06-12 · 3 min · 545 words

The Moving Drone: Negotiating Agency Between the Voice and the Virtual

📄 The Moving Drone: Negotiating Agency Between the Voice and the Virtual 6/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 0.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6/10 | 前50% | arxiv 👥 作者与机构 Nithya Shikarpur: Massachusetts Institute of Technology (MIT) Victor Arul: Massachusetts Institute of Technology (MIT) Anna Huang: Massachusetts Institute of Technology (MIT) 💡 毒舌点评 论文的核心是一场艺术表演的记录,其价值主要在概念批判和实践层面。作为一篇投稿NIME的论文,它成功地将AI技术与具体音乐文化实践结合,提出了一个发人深省的立场。然而,若以严谨的技术论文标准衡量,其技术贡献薄弱,实验部分仅为一场独奏演出的描述,缺乏任何对比、量化评估或用户研究。 “低质量”AI生成的讨论是全文最具批判性和启发性的部分,明确挑战了当前AI研究的主流范式。但这一论点几乎完全依赖艺术家的主观选择和陈述,缺少任何客观的声学分析或感知实验来佐证“低保真度”究竟带来了何种特定的美学效果或交互影响。 系统描述(Max/MSP循环器+GaMaDHaNi)在技术上并不复杂,且关键实现细节(如模型推理的具体延迟、资源消耗、实时性保证)未提及。表演者反思中关于认知适应的描述生动,但属于个人体验,难以构成普适性的设计原则。 表格1展示了四个拉格(raga)之间的音高移位关系,这是系统设计的一个具体且有趣的实例。然而,论文未解释这些特定拉格和移位量的选择依据,也未说明这种“跳跃”对音乐情感或即兴创作的可预见影响,使得这部分设计显得较为任意。 论文承认了局限性(如缺乏听众研究),这很好。但更深层的问题在于,其结论——“将AI置于文化音乐实践中”——对于NIME社区来说已是共识,本文更多是一次个案实践,而非提供了新的方法论或可推广的技术方案。 📌 核心摘要 本文报告了“The Moving Drone”这一艺术表演项目的设计与实践。项目旨在将印度斯坦音乐中传统上静态、服务于人声的持续音(tanpura),通过技术手段转变为一个具有渐进自主性的虚拟合作者。核心系统由四个Max/MSP循环器和一个名为GaMaDHaNi的条件化生成式AI模型构成。表演通过三个阶段展开:首先,循环器以反应方式记录人声,形成有机演化的持续音;其次,通过预设的音高移位实现“跳跃循环”,使持续音在旋律维度上更为主动;最后,利用GaMaDHaNi模型对循环音频进行重合成,在音色维度上赋予持续音自主性。该工作明确倡导有意识地使用低保真度、有噪的AI生成内容,以此批判当前AI音乐生成领域对高保真度和现实感的普遍追求,并将技术置于具体的文化音乐实践与协商关系中进行审视。 ...

2026-06-12 · 更新于 2026-06-12 · 2 min · 318 words

Towards Personalized Federated Learning for Dysarthric Speech Recognition

📄 Towards Personalized Federated Learning for Dysarthric Speech Recognition #联邦学习 6.2/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.2/10 | 前50% | #语音识别 | #联邦学习 | arxiv 👥 作者与机构 作者:Zhong Tao, Geng Mengzhe, Deng Jiajun, Hu Shujie, Liu Xunying。机构:香港中文大学,加拿大国家研究委员会。 💡 毒舌点评 这篇论文抓住了一个重要且实际的问题——在隐私保护的前提下,如何让ASR模型更好地适应构音障碍患者高度异质的语音模式。想法很直接:把模型拆成“公共部分”和“私人部分”,然后用相似性来决定“私人部分”怎么聚合。但这种“直觉式”的创新在顶会看来可能不够深。最大问题是缺乏“硬核”的消融实验:你的模型分割、两种相似度计算、β权重调节,到底哪个是真正起作用的?混合策略(Sys.10)效果更好,是“1+1>2”还是简单的加权组合?论文没有回答。对比基线虽然不错,但只对比了一个自定义的“正则化FedAvg”和少量相关工作,没有与更多主流的个性化联邦学习算法(如FedPer, FedRep, pFedMe等)进行定量比较,这大大削弱了其在个性化FL领域的贡献说服力。理论分析空白,隐私保护部分只有概念性描述(采样、均值池化),缺乏对隐私泄露风险的定量评估或与差分隐私等技术的比较。总而言之,是一篇工程上有效、但科学深度欠奉的工作,更像一篇扎实的应用报告,离顶级会议对方法创新和理论深度的要求还有距离。 📌 核心摘要 本文探索了联邦学习(FL)在构音障碍语音识别中的应用,核心问题是说话人之间的高度异质性导致单一全局模型性能不佳。为此,作者提出了两种个性化联邦学习聚合策略。方法核心是将模型(HuBERT)分割为说话人独立(SI)和说话人依赖(SD)两部分。SI部分在所有客户端共享并采用标准聚合。SD部分的聚合则结合了传统的数据量加权与一种新颖的基于说话人相似性的加权:1) 参数相似度法:基于客户端模型参数更新的余弦相似度计算相似性;2) 嵌入相似度法:基于SI部分输出的嵌入向量计算相似度。相似性权重通过一个超参数β与数据量权重进行线性组合,用于引导SD部分的聚合。实验在UASpeech和TORGO两个构音障碍数据集上进行,结果表明,所提方法相比一个强正则化FedAvg基线,在WER上取得了统计显著的降低(UASpeech最高0.99%,TORGO最高0.56%),证明了该策略的有效性。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中引用了预训练的 HuBERT 模型,提供了其 HuggingFace 链接:https://huggingface.co/facebook/hubert-large-ls960-ft 数据集: UASpeech:公开的构音障碍语音识别数据集,论文中提供了文献引用,未提供直接获取链接。 TORGO:公开的构音障碍语音识别数据集,论文中提供了文献引用,未提供直接获取链接。 Demo:论文中未提及。 复现材料:论文中描述了详细的模型配置(HuBERT 模型、CTC 损失、Transformer 层数)和部分实验设置(通信轮数100、GPU 型号、数据划分、正则化权重、β值)。未提供训练配置文件、检查点或代码。复现依赖于上述数据集和模型权重,且部分关键训练超参数缺失。 论文中引用的开源项目: HuBERT: https://huggingface.co/facebook/hubert-large-ls960-ft Librispeech 数据集:论文中引用为训练 HuBERT 的数据集,但未提供具体链接。 🏗️ 方法概述和架构 本文的核心方法是提出两种面向个性化联邦学习的模型聚合策略,以应对构音障碍语音识别中说话人高度异质性的挑战。 ...

2026-06-12 · 更新于 2026-06-12 · 2 min · 417 words

Vocal Identity Under Siege by AI Voice Cloning Technologies

📄 Vocal Identity Under Siege by AI Voice Cloning Technologies #语音合成 3.2/10 | 创新 0.8/2 | 严谨 1/1.5 | 实验 0/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0/1.5 | 复现 0/0.5 | 工程 0/1.5 📝 3.2/10 | 前50% | #语音合成 | #语音合成 | arxiv 👥 作者与机构 论文作者:Jyh-An Lee (李俊安) 与 Xuan Sun (孙萱)。 所属机构:香港中文大学法律学院 (The Chinese University of Hong Kong Faculty of Law)。 其他信息:第一作者同时担任法律创新与数字社会中心 (Centre for Legal Innovation and Digital Society, CLINDS) 的教授及执行主任。 ...

2026-06-12 · 更新于 2026-06-12 · 1 min · 157 words

语音/音乐/音频论文速递 2026-06-12

语音/音乐/音频论文速递 2026-06-12 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 6篇 ██████ #语音识别 4篇 ████ #音频分类 2篇 ██ #语音翻译 2篇 ██ #语音增强 2篇 ██ #音频生成 1篇 █ #多模态模型 1篇 █ #说话人识别 1篇 █ 📊 论文评分排行榜(27 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Self-Guidance: Enhancing Neural Codecs via Decoder Mani 9.7分 前25% #语音合成 🥈 Ontology Memory-Augmented ASR Correction for Long Text- 9.6分 前25% #语音识别 🥉 Emo-LiPO: Listwise Preference Optimization for Fine-Gra 9.3分 前50% #语音合成 4. AudioX-Turbo: A Unified Framework for Efficient Anythin 9.0分 前10% #音频生成 5. M*: A Modular, Extensible, Serving System for Multimoda 8.9分 前25% #多模态模型 6. Decoding Insect Song: A Multitask Semisupervised Orthop 8.7分 前50% #音频分类 7. Missing-Token Prompted Reliability-Aware Fusion for Rob 8.6分 前25% #说话人识别 8. Leveraging Audio-LLMs to Filter Speech-to-Speech Traini 8.4分 前25% #语音翻译 9. Endpoint Anticipation for Low-Latency Spoken Dialogue 8.2分 前25% #多任务学习 10. A Dual-Mode Faust-to-CLAP Compilation System 8.1分 前50% - 11. PRISM: Prosody-Integrated Multi-Agent Reasoning Framewo 8.1分 前25% #语音合成 12. Positional Encoding in the Context of Memristor-Based A 8.0分 前50% #语音识别 13. From Tokens to Faces: Investigating Discrete Speech Rep 7.9分 前25% #语音合成 14. Low-Latency Real-Time Audio Game Commentary System via 7.9分 前25% #语音合成 15. MiniMax Sparse Attention 7.7分 前25% #高效推理 16. BASENet: Band-Adapted Speech Enhancement Network with C 7.5分 前50% #语音增强 17. Dolph2Vec: Self-Supervised Representations of Dolphin V 7.2分 前50% #音频分类 18. Balancing ASR and diarization in end-to-end LLMs for mu 7.1分 前50% #语音识别 19. NaturalFlow: Reducing Disruptive Pauses for Natural Spe 7.0分 前50% #语音翻译 20. Adaptive Turn-Taking for Real-time Multi-Party Voice Ag 6.7分 后50% #数据增强 21. Predicting Cognitive Load from Speech and Interaction D 6.7分 前50% #语音情感识别 22. PiDA: Phonetically-Informed Data Augmentation for Robus 6.5分 前50% - 23. Generating Training Targets for Real-World Speech Enhan 6.4分 前50% #语音增强 24. Towards Personalized Federated Learning for Dysarthric 6.2分 前50% #语音识别 25. The Moving Drone: Negotiating Agency Between the Voice 6.0分 前50% - 26. Generative Modeling of Bach-Style Symbolic Music: A Com 5.7分 前50% #音乐生成 27. Vocal Identity Under Siege by AI Voice Cloning Technolo 3.2分 前50% #语音合成 📋 论文列表 🥇 Self-Guidance: Enhancing Neural Codecs via Decoder Manifold Alignment 9.7/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

2026-06-12 · 更新于 2026-06-12 · 16 min · 3281 words