UniAudio-Token: Empowering Semantic Speech Tokenizers with General Audio Perception

📄 UniAudio-Token: Empowering Semantic Speech Tokenizers with General Audio Perception #语音合成 #语音识别 #多模态模型 #低资源 🔥 10/10 | 前25% | #语音合成 | #语音识别 | #多模态模型 #低资源 | arxiv 学术质量 6.5/7 | 影响力 1.8/2 | 可复现性 1.7/2 | 置信度 高 👥 作者与机构 作者:Yuhan Song¹, Linhao Zhang², Aiwei Liu², Chuhan Wu², Sijun Zhang², Wei Jia², Yuan Liu², Houfeng Wang¹, Xiao Zhou² (通讯作者) 机构:¹北京大学计算机科学学院,多媒体信息处理国家重点实验室;²腾讯微信事业群基础模型技术中心 💡 毒舌点评 这篇论文切中了当前Audio-LLM领域一个真实且重要的痛点:语义语音分词器为了对齐文本,把音频里丰富的声学细节给“弄瞎”了,导致处理音乐、环境音时抓瞎。提出的SAP监督和SAE门控机制在思路上确实巧妙且直觉上合理,实验数据也显示出全面的性能提升。然而,其“通用”的宣称可能有些过于乐观——训练和评估仍重度依赖英语和中文资源,非语音音频的重建质量也承认远不如专用编解码器。此外,其数据创建流程完全依赖Qwen3系列大模型,这本身就引入了新的偏差和可复现性门槛。总的来说,这是一篇扎实的、解决了具体问题的增量工作,但距离真正的“通用音频接口”还有明显距离,尤其在多语言覆盖和高保真非语音重建方面。 📌 核心摘要 本文针对现有语义语音分词器在通用音频感知上的“声学失明”(acoustic blindness)问题,提出了UniAudio-Token框架。该框架旨在不牺牲语音生成能力的前提下,为语义分词器赋予通用音频感知能力。其核心创新包括两点:(1)语义-声学原语(Semantic-Acoustic Primitives, SAP):一种结构化监督协议,将音频分解为语言内容、声音属性和听觉场景原语进行监督,以解耦内容与风格。(2)语义-声学平衡(Semantic-Acoustic Equilibrium, SAE):一种内容感知的门控机制,能够自适应地从浅层注入细粒度声学细节到深层语义流中,以缓解声学失明,同时不破坏语义表征。大量实验证明,UniAudio-Token学到了全面的通用表征,同时保持了高保真度的语音生成。当集成到下游LLM中,其在理解和生成任务上均超越了所有单码本基线分词器。 🔗 开源详情 代码:https://github.com/Tencent/Universal_Audio_Tokenizer (包含训练和推理脚本) 模型权重:论文明确在摘要和引言中声明,将随代码仓库发布模型检查点(checkpoints),但未提供独立的HuggingFace或ModelScope链接。 数据集:训练使用了多个公开数据集,论文附录C.1(表7)提供了完整列表和时长。具体数据集获取方式通常如下: LibriSpeech: https://www.openslr.org/12 Multilingual LibriSpeech: https://github.com/facebookresearch/libri-light GigaSpeech: https://github.com/SpeechColab/GigaSpeech Yodas: https://github.com/facebookresearch/yodas Hi-Fi TTS: 论文引用Bakhturina et al., 链接可能为 https://github.com/keithito/tacotron-2-data 或相关发布。 VCTK: https://datashare.ed.ac.uk/handle/10283/2651 LibriTTS: https://www.openslr.org/60 AISHELL-1: https://www.openslr.org/33 WenetSpeech: https://github.com/wenet-e2e/WenetSpeech Common Voice: https://commonvoice.mozilla.org/ Emilia: https://github.com/EMI-PMC/emilia-dataset AudioSet: https://research.google.com/audioset/ Demo:论文中未提及在线演示链接。 复现材料:提供了完整的训练细节,包括数据集组成(附录C.1, 表7)、超参数配置(附录C.2, 表8)。SAP数据标注样例见附录A(图5-7)。 论文中引用的其他开源项目: WavTokenizer: https://github.com/jishengpeng/WavTokenizer CosyVoice: https://github.com/FunAudioLLM/CosyVoice GLM-4-Voice: https://github.com/THUDM/GLM-4-Voice StableToken: 论文中未提供明确链接。 Whisper: https://github.com/openai/whisper (使用whisper-large-v3) Qwen3系列模型:论文用于生成SAP数据和评估,但未提供具体下载链接。 Qwen2.5: 用于下游Audio-LLM实验,未提供链接。 MOSNet: https://github.com/dongchao-py/MOSNet CAM++: https://github.com/alibaba/damo-academy ERes2Net: 论文中提及但未提供链接。 🏗️ 方法概述和架构 UniAudio-Token 的核心目标是解决语义语音分词器的“声学失明”问题,即它们为了对齐语言内容而主动抑制声学细节,导致其在非语音任务上表现不佳。该方法通过两个核心组件协同工作:SAP(解决监督冲突)和SAE(解决架构瓶颈),最终输出一个能统一表征语音和通用音频的离散码本。 ...

2026-06-01 · 更新于 2026-06-16 · 3 min · 485 words

UNISON: A Unified Sound Generation and Editing Framework via Deep LLM Fusion

📄 UNISON: A Unified Sound Generation and Editing Framework via Deep LLM Fusion #语音合成 #语音转换 #音频生成 🔥 8.2/10 | 前25% | #语音合成 | #语音转换 | #音频生成 | arxiv 学术质量 5.9/7 | 影响力 1.7/2 | 可复现性 0.6/2 | 置信度 高 👥 作者与机构 Zhaoqing Li, Haoning Xu (香港中文大学); Jingran Su (香港理工大学); Yaofang Liu (香港城市大学); Zhefan Rao, Haoxuan Che (香港科技大学); Huimeng Wang, Jiajun Deng, Tianzi Wang, Xunying Liu (香港中文大学); Zengrui Jin (清华大学); Rui Liu (华为香港研究中心)。论文同时列出了六所机构作为合作单位。 ...

2026-06-01 · 更新于 2026-06-16 · 4 min · 838 words

语音/音乐/音频论文速递 2026-06-01

语音/音乐/音频论文速递 2026-06-01 共分析 23 篇论文 ⚡ 今日概览 📥 抓取 23 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 6篇 ██████ #音乐生成 3篇 ███ #语音翻译 2篇 ██ #语音识别 2篇 ██ #自监督学习 1篇 █ #口音识别 1篇 █ #生成对抗网络 1篇 █ #音频事件检测 1篇 █ 📊 论文评分排行榜(23 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Chatterbox-Flash: Prior-Calibrated Block Diffusion for 10.0分 前25% #语音合成 🥈 UniAudio-Token: Empowering Semantic Speech Tokenizers w 10.0分 前25% #语音合成 🥉 Escaping the Linearity Trap: Manifold Detours for Black 9.7分 前25% #自监督学习 4. ImmersiveTTS: Environment-Aware Text-to-Speech with Mul 9.3分 前25% #语音合成 5. SwanVoice: Expressive Long-Form Zero-Shot Speech Synthe 8.9分 前50% #语音合成 6. AnchorSteer: Self-Discovered Concept Injection for Stru 8.6分 前50% #音乐生成 7. MindVoice: Reconstructing Intelligible Speech from Non- 8.5分 前25% #语音合成 8. Extracting accent features in spoken Brazilian Portugue 8.3分 前50% #口音识别 9. UNISON: A Unified Sound Generation and Editing Framewor 8.2分 前25% #语音合成 10. FiPA-SR – FiLM-Conditioned Perceptually Informed Audio 8.1分 前25% #生成对抗网络 11. DOA: Training-Free Decoder-Only Attention Policy for Lo 7.8分 前25% #语音翻译 12. GaMi: Geometry-Agnostic Material Identification via Cro 7.8分 前50% - 13. Improving acoustic drone detection generalization throu 7.7分 前50% #音频事件检测 14. Audio Pirates: Black-box Audio Watermark Removal via Di 7.4分 前25% #扩散模型 15. Latent Space Disentanglement via Activation Steering fo 7.3分 后50% #音乐生成 16. Scaling Conversational Hungarian ASR: The BEA-Dialogue+ 7.2分 前50% #语音识别 17. On the Use of Dereverberation for Acoustic Feedback Can 6.7分 前50% #语音增强 18. Towards Streaming Synchronized Spatial Audio Generation 6.5分 前50% #自回归模型 19. 3DAE: Binaural Quality Assessment for Audio Novel View 6.5分 前50% #音频质量评估 20. OpenSTBench: Beyond Semantic Evaluation for Speech Tran 6.0分 前50% #语音翻译 21. Sound effects in media:A comparative analysis of record 5.7分 前50% #音频生成 22. Mental Damage: Caption Poisoning Attacks on Retrieval-A 5.6分 前50% #音乐生成 23. A Unified and Reproducible Experimentation Framework fo 5.5分 前50% #语音识别 📋 论文列表 🥇 Chatterbox-Flash: Prior-Calibrated Block Diffusion for Streaming Zero-Shot TTS 🔥 10.0/10 | 前25% | #零样本语音合成 | #Transformer | #块扩散解码 #流式处理 | arxiv ...

2026-06-01 · 更新于 2026-06-16 · 12 min · 2552 words

A Multi-Probe Audit of Clinical-Interview Depression Detection Benchmarks

📄 A Multi-Probe Audit of Clinical-Interview Depression Detection Benchmarks #语音情感识别 #迁移学习 #低资源 🔥 9.6/10 | 前10% | #语音情感识别 | #迁移学习 | #低资源 | arxiv 学术质量 6.1/7 | 影响力 1.8/2 | 可复现性 1.7/2 👥 作者与机构 论文作者为 Takehiro Ishikawa(通讯作者)和 Jon Duke。Takehiro Ishikawa 隶属于 Georgia Institute of Technology 的 College of Computing, Jon Duke 同时隶属于 Georgia Institute of Technology 的 College of Computing 和 Georgia Tech Research Institute。 💡 毒舌点评 这篇论文像一位严谨的审计师,把抑郁症检测这个领域里大家心照不宣的“皇帝新衣”扒了个干净。四个探头下去,基准数据集的评估漏洞、模型泛化能力的虚火、文本模态性能的水分,全都现了形。它不发明新轮子,而是认真检查旧轮子的螺丝松没松,这对依赖这些基准的社区来说,价值堪比一次强制性的车辆年检。然而,审计报告写得再好,它本身也不是新车。创新性上就吃亏了。另外,报告里有些结论下得有点急,比如把文本模型的“症状敏感”说得像发现了新大陆,其实大家心里多少有数。最后,这车主要是修给特定车型(语音/多模态抑郁检测)的,对搞纯文本或纯视觉的修车师傅来说,参考价值得打个折扣。 📌 核心摘要 本文对临床访谈式抑郁症检测的基准评估进行了系统性审计。研究指出,当前领域过度依赖如E-DAIC这样的单一小规模官方划分进行模型排名,导致评估结果不稳定;同时,领域内表现接近上限的公开基线(如CMDC和ANDROIDS上的模型)在跨语料库零样本迁移时性能大幅下降,表明其高分可能源于对源数据特有模式的过拟合而非普适的抑郁症标志。此外,分析发现E-DAIC上文本模型的高性能主要依赖于访谈中症状密集的内容片段。为解决这些问题,论文设计了四个互补的探测研究:1)在E-DAIC上建立受试者严格隔离的LOSO交叉验证基线;2)测试官方划分的排名稳定性;3)对外部强基线进行零样本验证;4)对文本和音频模型进行症状密度压力测试。结果为社区提供了更稳健的评估锚点,并揭示了现有基准和评估实践的深层局限。 ...

2026-05-30 · 更新于 2026-06-16 · 3 min · 569 words

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

📄 Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs #语音识别 #语音合成 #多模态模型 #数据增强 #低资源 #参数高效微调 #多语言 ✅ 7.2/10 | 前50% | #语音识别 | #数据增强 | #语音合成 #多模态模型 | arxiv 学术质量 7.5/7 | 影响力 7.0/2 | 可复现性 0.3/2 | 置信度 中 👥 作者与机构 论文作者为 Nguyen Quang Trung, Cheng Yi Lewis Sun, Minh Duc He, Yingxu Shuo, Ai Ti Aw。机构包括 Institute for Infocomm Research (I2R), A*STAR, Singapore 和 Nanyang Technological University, Singapore。 ...

2026-05-30 · 更新于 2026-06-16 · 2 min · 274 words

EchoDistill:Alignment Noisy-to-Clean Self-Distillation for Robust Audio LLMs

📄 EchoDistill:Alignment Noisy-to-Clean Self-Distillation for Robust Audio LLMs #强化学习 #多模态模型 #数据增强 🔥 9.1/10 | 前50% | #强化学习 | #强化学习 | #多模态模型 #数据增强 | arxiv 学术质量 6.1/7 | 影响力 1.7/2 | 可复现性 1.3/2 | 置信度 高 👥 作者与机构 论文共有11位作者,隶属于7个机构。其中,Liang Lin, Chunxi Luo, Kaiwen Luo为共同第一作者(*Equal contribution.)。Kun Wang和Junhao Dong为通讯作者(\(\uparrow\)Corresponding author)。 主要机构包括:南洋理工大学(NTU)、上海大学(SHU)、中国科学院信息工程研究所(ICT, CAS)、杭州电子科技大学(HDU)、北京邮电大学(BUPT)、中国科学技术大学(USTC)、网络与信息安全国家重点实验室(SKL-NST, BUPT)。论文作者机构信息在“已有分析结果”中未提及。 💡 毒舌点评 这论文的“自蒸馏”包装得挺花哨,但核心思想就是拿干净数据的老师傅带带嘈杂数据里的学生,思路不新,但做成了一个相对完整的框架。最大亮点是那个“音频证据稀疏性”的分析,确实点出了问题的关键——模型容易被噪音带跑偏,而不是真正“听懂”了音频。实验做得比较扎实,跨了多个模型和领域,GSR指标提升看起来不错。但仔细一看,实验只在MMAU和MMAR这两个特定数据集上做,泛化性存疑。而且,需要配对噪声/干净音频的训练数据,这在真实世界里可不好搞,局限性不小。代码倒是给了,算是个加分项。总的来说,是一篇工科味道很浓、解决具体工程问题的工作,理论上没什么突破,但实验上花了不少功夫。 📌 核心摘要 音频大语言模型(ALLMs)在真实世界的复杂噪声下非常脆弱,容易产生语义漂移和幻觉。现有方法主要依赖波形级增强或表示抑制,未能从训练层面根本提升模型鲁棒性。本文提出EchoDistill,一种基于对齐的“噪声-清洁”自蒸馏框架。该框架利用一个冻结的、以清洁音频为输入的教师模型,为以噪声音频为输入的学生模型提供语义参考。训练时,学生模型在噪声音频下采样生成候选响应,通过群组相对策略优化(GRPO)结合教师-学生的token级一致性作为奖励,来优化学生的生成轨迹,使其更符合清洁音频的语义证据。此外,引入音频感知的奖励塑造机制,以区分那些仅仅正确和真正基于音频证据的响应。在多个ALLM(Qwen2.5-Omni, MiniCPM-o-2.6, Step-Audio2)和多个音频领域(音乐、声音、语音)上的实验表明,EchoDistill能显著提升以GSR为导向的生成鲁棒性,且不增加额外的推断成本。 🔗 开源详情 代码:论文提供了匿名代码仓库链接:https://anonymous.4open.science/r/echodistill-10DE。 模型权重:论文中未提及提供预训练模型(教师/学生)或最终训练好的模型权重的下载地址。 数据集:论文使用了MMAR和noisy MMAU数据集。训练/验证数据格式有示例(表6),但未提供这些数据集的直接下载链接。 Demo:论文中未提及在线演示(Demo)。 复现材料:论文在附录C详细说明了评估协议、三个指标(Acc, Noisy, GSR)的计算公式和实例化方式,以及一个训练数据格式的示例表格(表6)。但未提供训练超参数配置(如学习率、优化器、训练轮数等)或用于初始化的预训练检查点的下载链接。 引用的开源项目:论文提到了基础模型(Qwen2.5-Omni, MiniCPM-o-2.6, Step-Audio2)和对比方法(DFL, SEEN)的名称,但未给出这些项目对应的官方代码仓库地址。 🏗️ 方法概述和架构 EchoDistill是一个完整的训练框架,旨在提升音频大语言模型在噪声输入下的语义生成鲁棒性。其核心思想是利用训练时可获取的配对噪声/清洁音频数据,通过“噪声-清洁”自蒸馏,引导模型学习从噪声输入中生成更符合清洁音频语义证据的响应。 ...

2026-05-30 · 更新于 2026-06-16 · 3 min · 510 words

MIRAGE: Adaptive Multimodal Gating for Whole-Brain fMRI Encoding

📄 MIRAGE: Adaptive Multimodal Gating for Whole-Brain fMRI Encoding #Transformer 🔥 8.2/10 | 前50% | #Transformer | #Transformer | arxiv 学术质量 5.5/7 | 影响力 1/2 | 可复现性 1.7/2 | 置信度 高 👥 作者与机构 Abdulkadir Gocke, Badr AlKhamissi, Martin Schrimpf,均来自EPFL的NeuroAI Lab。 💡 毒舌点评 论文试图解决一个有价值的问题:如何利用新兴的全能基础模型更有效地编码全脑fMRI响应。MIRAGE框架在概念上是合理的,并且在Algonauts 2025挑战赛中取得了SOTA成绩,这是值得肯定的。然而,审稿人必须指出其局限性。最核心的弱点在于验证数据集极其有限(仅4名受试者),这严重削弱了所有统计结论的可靠性和模型的泛化性声称。尽管作者在讨论中承认了这一点,但这并非“局限性”,而是一个根本性的实验设计缺陷,限制了该工作的影响力范围。此外,将一个超大参数量(30B)的冻结模型作为特征提取器,虽然性能卓越,但其巨大的计算和存储成本(每次特征提取需约700 GPU小时)使其难以被更广泛的社区采纳和复现,这与论文声称的“可复现性”目标背道而驰。论文将核心创新点之一归结为“可解释性”,但提供的注意力权重分析仅停留在模型层面,而非更符合科学假设的皮层层级,这种“解释性”的深度有限。 📌 核心摘要 本文提出了MIRAGE,一个用于从自然视听刺激预测全脑fMRI响应的自适应多模态门控编码框架。该框架使用一个冻结的多模态基础模型(Qwen3-Omni)提取特征,并通过每个模态独立的、基于可学习查询的跨注意力层聚合模块,自适应地融合不同网络层的信息。核心发现是:(1)在多个架构层级和骨干网络上,来自同一多模态模型的原生融合特征,始终优于从独立单模态模型提取特征再进行后融合的策略;(2)学习到的注意力权重具有可解释性,揭示了不同模态对骨干网络层深度的偏好;(3)在Algonauts 2025挑战赛的分布外基准上,MIRAGE取得了最佳成绩(单模型r=0.217,集成模型r=0.227)。论文结论认为,将多模态融合作为预训练模型的原生特性,并通过自适应层聚合进行利用,是构建通用、可解释且准确的全脑编码模型的有效路径。 🔗 开源详情 代码:https://github.com/epflneuroailab/mirage 模型权重:https://huggingface.co/epfl-neuroai/mirage 数据集:未直接提供数据集下载链接。数据为Algonauts 2025挑战赛数据,源自Courtois NeuroMod项目。训练集和验证集通过公开发布获取;测试集需通过官方Codabench评估平台访问。许可证:Courtois NeuroMod数据集采用CC-BY-SA 4.0协议,Algonauts 2025挑战赛数据遵循其特定衍生协议。 演示:https://mirage-brain.epfl.ch 复现材料:论文附录(A.1-A.8节)提供了极其详细的训练配置、超参数、优化器设置、计算资源要求和集成方法。附录B详细报告了关键超参数(交叉注意力查询数量)的消融实验结果。 论文中引用的开源项目: Qwen3-Omni-30B-A3B-Thinking (Apache-2.0) Qwen3-Omni-30B-A3B-Instruct (Apache-2.0) Qwen2.5-Omni-7B (Apache-2.0) Llama-3.2-3B (Llama 3.2 Community License) Wav2Vec-BERT-2.0 (MIT) V-JEPA 2 (CC-BY-NC 4.0) Schaefer 1000-parcel atlas (MIT) Yeo–Krienen 7 networks (通过FreeSurfer获取,Open non-commercial research use) PyTorch (BSD-3-Clause) Python (PSF License) HuggingFace Transformers (Apache-2.0) 🏗️ 方法概述和架构 MIRAGE的架构可分为四个核心阶段,详细如下: ...

2026-05-30 · 更新于 2026-06-16 · 2 min · 365 words

PiAnnotate: A Web Annotation Tool for Piano Fingering, with a Diagnostic Probe

📄 PiAnnotate: A Web Annotation Tool for Piano Fingering, with a Diagnostic Probe ✅ 6.0/10 | 前50% | arxiv 学术质量 6.0/7 | 影响力 5.5/2 | 可复现性 1.0/2 | 置信度 高 👥 作者与机构 未在提供的文本中明确提及作者与所属机构。论文标题为“PiAnnotate: A Web Annotation Tool for Piano Fingering, with a Diagnostic Probe”。 💡 毒舌点评 这篇论文更像是一个精心设计的“工具+工作流”的技术报告,而非一篇理论创新的机器学习研究。它解决的痛点真实存在(钢琴指法标注成本高昂),提出的方案(Web工具+规则/人工双轨+诊断探针)也务实。但作为一篇投递顶级机器学习会议的工作,其核心贡献——那个“诊断探针”——显得过于“小”了。它本质上是在一个特定数据集上训练并微调了一个标准的、小型的Transformer编码器,用来学习规则与人工标注之间的差异。实验部分花了大量篇幅论证这个探针“安全”(低误改率)且能带来微小的精度提升(+2.83 pp),但这更像是对工具实用性的验证,而非提出新的学习范式或解决根本性难题。最大的创新点在于“成对轨道”这一数据组织形式,但这属于数据工程范畴。论文自我定位为“诊断”和“审计”工具是诚实的,但也限制了其在追求突破性算法贡献的会议中的潜力。它更适合作为一份优秀的系统描述发表在专注于工具、数据集或应用的场合。 📌 核心摘要 本文介绍了PiAnnotate,一个用于为钢琴演奏数据集添加专家指法标注的Web流水线工具。该工具集成了钢琴卷帘视图、原始视频和3D MANO手部网格,使标注者能结合音乐和物理上下文进行审查。其核心设计特点是保留成对的规则标注(\(f_{\text{rule}}\))和人工编辑标注(\(f_{\text{edited}}\))轨道,使标注历史可审计。作为诊断探针,作者训练了一个小型Transformer编码器模型,利用上述成对轨道数据学习规则错误中的可学习结构。该探针在留出的乐曲上表现出保守的改进(精度提升,极低误改率),并揭示了时间戳相关的标注伪影。 🔗 开源详情 代码:https://github.com/joonhyungbae/PiAnnotate 模型权重:论文中未提及模型权重下载链接。 数据集:论文中发布的是标注工具和流程,而非完整的标注数据集。人工编辑的指法标签(\(f_{\text{edited}}\))未随代码发布。论文指出,标注语料基于 FürElise 数据集,但该原始数据集需用户自行获取,论文未提供具体下载链接。发布的代码包含探针训练代码和分析脚本,但需要配合自有或重新标注的数据运行。 Demo:论文中未提及在线演示链接。 复现材料:代码仓库包含工具代码、探针训练与评估脚本以及可能用于生成论文中分析结果的代码。但复现完整实验仍需获取未公开的编辑后标签和外部的FürElise数据集。 论文中引用的开源项目: Praat:语音分析软件。论文中作为时间对齐工具示例提及。官网链接:https://www.fon.hum.uva.nl/praat/ ELAN:多模态注释工具。论文中作为时间对齐工具示例提及。官网链接:https://archive.mpi.nl/tla/elan Sonic Visualiser:音频可视化与注释工具。论文中作为时间对齐工具示例提及。官网链接:https://www.sonicvisualiser.org/ MANO:手部模型。论文中用于渲染3D手部网格。论文中引用为[15],官方页面通常为:http://mano.is.tue.mpg.de/ Vite / React:用于构建前端。论文中提及为工具技术栈。官方链接分别为:https://vitejs.dev/ 和 https://react.dev/ Flask:用于构建后端。论文中提及为工具技术栈。官方链接:https://flask.palletsprojects.com/ Gradient-Boosted Decision Trees (GBDT):作为对比的非序列基线模型。论文中引用为[6],未指定具体实现库。该算法有多种开源实现(如 scikit-learn, XGBoost)。 🏗️ 方法概述和架构 PiAnnotate是一个旨在支持专家对钢琴指法进行高质量标注的半自动工作流系统,其架构可分为三个核心阶段:基于规则的初始标注、Web工具辅助的人工审校与编辑、以及用于诊断和质量控制的模型训练。 ...

2026-05-30 · 更新于 2026-06-16 · 2 min · 305 words

Raon-Speech Technical Report

📄 Raon-Speech Technical Report #语音合成 #语音识别 #知识蒸馏 #多模态模型 #数据增强 ✅ 6.5/10 | 前25% | #语音识别 | #知识蒸馏 | #语音合成 #多模态模型 | arxiv 学术质量 3.5/7 | 影响力 1.5/2 | 可复现性 1.5/2 | 置信度 高 👥 作者与机构 核心贡献者来自KRAFTON。论文作者列表按角色划分,核心贡献者包括:建模(Ethan Ewer等)、数据(Beomsoo Kim等)、评估(Haechan Kim等)、服务与工程(Hyeonghwan Kim等)、基础设施(Jiyun Kim等)。项目负责人为Kangwook Lee和Jaewoong Cho。致谢部分还提到了多位提供支持的个人。 💡 毒舌点评 这是一份扎实但缺乏惊喜的工业级技术报告。模型在韩语上的性能提升确实显著,但论文在论证“最强整体表现”时,巧妙地选择了对自家有利的8个基线模型,并在多轮对话(FDB v2.0)上露出了短板。所谓“开源一切”的承诺,在正文中连代码仓库和模型权重的具体链接都找不到,实在不够诚恳。全双工模型设计了不少“状态建模”技巧,却没有任何消融实验来证明其有效性,这让贡献打了折扣。整体来看,它更像一份详尽的模型发布说明书,而非一篇经得起严格推敲的学术论文,顶会门槛确实还没到。 📌 核心摘要 本文介绍了Raon-Speech,一个针对英语和韩语优化的9B参数语音语言模型,以及其全双工对话扩展Raon-SpeechChat。Raon-Speech通过三阶段训练(对齐、端到端预训练+知识蒸馏、偏好优化后训练)将预训练LLM转化为兼具语音理解和生成能力的模型,并在42个基准测试中展示了其在语音相关任务上的优越性能,尤其是在韩语任务上。Raon-SpeechChat引入了因果编码器、交错的文本-语音序列和交互状态建模(SIL, BOW, BC),以支持实时对话。该模型在FDB v1.0的转接行为上表现出色,但在更复杂的多轮对话场景(FDB v2.0)中并非最优。论文声称开源了模型、代码和演示,但未提供具体链接。 🔗 开源详情 代码:论文中未提及具体的代码仓库链接(如GitHub地址)。 模型权重:论文中未提及具体的模型权重下载链接(如HuggingFace/ModelScope页面)。 数据集: KVoiceBench: https://huggingface.co/datasets/KRAFTON/KVoiceBench KOpenAudioBench: https://huggingface.co/datasets/KRAFTON/KOpenAudioBench KMMAU: https://huggingface.co/datasets/KRAFTON/KMMAU Demo:论文中未提及在线交互式演示的具体链接。 复现材料:论文未提供独立的复现材料包。论文详细说明了模型架构(附录B、C)、训练流程与超参数(表2、第3节)、数据处理流程(第4节、附录D),这些信息构成了复现所需的核心材料,但部分细节仍需参考附录。 论文中引用的开源项目: 骨干LLM: Qwen3-VL-8B-Instruct 语音编码器(理解对齐): AuT模型 语音编解码器: Mimi 说话人编码器: speechbrain/spkrec-ecapa-voxceleb 因果语音编码器(全双工): Voxtral-Mini-4B-Realtime-2602 RCP初始化: Qwen3-Omni-30B-A3B-Instruct TTS: Qwen3-TTS ASR: Whisper, 内部基于Zipformer的ASR模型 偏好优化方法: SimPO 全双工基准测试: Full-Duplex-Bench (FDB) v1.0, v1.5, v2.0 全双工对话模型基线: Moshi, Freeze-Omni, PersonaPlex, OmniFlatten 🏗️ 方法概述和架构 Raon-Speech的核心是将预训练LLM(Qwen3-VL-8B-Instruct)作为骨干,通过添加模块扩展其语音能力。架构分为理解与生成两侧。理解侧:输入语音经由一个预训练的非因果语音编码器(AuT)提取特征(12.5Hz),再通过一个随机初始化的2层MLP输入适配器投影至LLM嵌入空间。适配器后使用缩放为0.02的RMSNorm以稳定对齐。处理后的语音嵌入与文本嵌入拼接后送入LLM。生成侧:使用Mimi编解码器(保留前16个残差码本)。生成过程是自回归的:上一帧的编解码器嵌入经输出适配器映射至LLM输入空间,LLM的隐藏状态被一个4层解码器-仅Transformer语音生成专家(SGE)用于预测语义token(第一层码本)。随后,一个15层的残差码本预测器(RCP,初始化自Qwen3-Omni-30B-A3B-Instruct)自回归地预测剩余15层的声学token。最终所有层的token反量化、求和得到编解码器嵌入,输入编解码器解码器合成语音,并反馈至输出适配器用于下一帧生成。说话人控制:通过一个预训练的说话人编码器(speechbrain/spkrec-ecapa-voxceleb)从目标语音中提取2-8秒的片段,其嵌入被插入LLM输入序列以条件化生成语音的说话人身份。 ...

2026-05-30 · 更新于 2026-06-16 · 4 min · 730 words

语音/音乐/音频论文速递 2026-05-30

语音/音乐/音频论文速递 2026-05-30 共分析 6 篇论文 ⚡ 今日概览 📥 抓取 6 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 2篇 ██ #语音情感识别 1篇 █ #强化学习 1篇 █ #Transformer 1篇 █ 📊 论文评分排行榜(6 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 A Multi-Probe Audit of Clinical-Interview Depression De 9.6分 前10% #语音情感识别 🥈 EchoDistill:Alignment Noisy-to-Clean Self-Distillation 9.1分 前50% #强化学习 🥉 MIRAGE: Adaptive Multimodal Gating for Whole-Brain fMRI 8.2分 前50% #Transformer 4. Direct Preference Optimization for English-Mandarin Cod 7.2分 前50% #语音识别 5. Raon-Speech Technical Report 6.5分 前25% #语音识别 6. PiAnnotate: A Web Annotation Tool for Piano Fingering, 6.0分 前50% - 📋 论文列表 🥇 A Multi-Probe Audit of Clinical-Interview Depression Detection Benchmarks 🔥 9.6/10 | 前10% | #语音情感识别 | #迁移学习 | #音频信号处理 #预训练语言模型 | arxiv ...

2026-05-30 · 更新于 2026-06-16 · 3 min · 583 words