EigeNet: Geometry-Informed Multi-Modal Learning for Few-shot Novel View RIR Prediction

📄 EigeNet: Geometry-Informed Multi-Modal Learning for Few-shot Novel View RIR Prediction #多模态模型 #多任务学习 🔥 8/10 | 前50% | #多模态模型 | #多任务学习 | arxiv 学术质量 5.1/7 | 影响力 1.4/2 | 可复现性 1.5/2 | 置信度 高 👥 作者与机构 作者:Chong Jing, Zitong Lan, Junan Zhang, Zhizheng Wu 机构:香港中文大学(深圳)(Chong Jing, Junan Zhang, Zhizheng Wu),宾夕法尼亚大学(Zitong Lan) 💡 毒舌点评 这篇工作在工程应用上做得扎实,但理论原创性的天花板清晰可见。它成功地将视觉领域的“交替注意力”机制“移植”到了音频这个新场景,并辅以一个动机良好的物理调制模块,最终在特定任务上取得了SOTA。这种“旧瓶装新酒”的范式在应用层屡试不爽,但作为顶会论文,其核心贡献的“新颖性”需要打折。更令人遗憾的是,作为一篇同时期的工作,却完全回避了与最直接竞争对手FLAC的正面比较(仅以“并发工作”一笔带过),这在实验对比的完整性上留下了无法回避的短板。论文的强项在于细致的消融实验,特别是掩码探针实验设计巧妙,试图解释模型行为,这比单纯刷分更有价值。然而,写作上的细节疏忽(图表引用混乱)和某些技术描述的含糊(如DiT块的具体操作)拉低了整体的精致感。总的来说,这是一篇扎实的系统工作(systems paper),而非一篇具有颠覆性思想的理论突破。 📌 核心摘要 本文针对从稀疏观测预测新视角房间脉冲响应(RIR)的逆问题,提出了EigeNet框架。该框架旨在解决现有方法在多视角时空关系建模不足和物理可解释性缺失两大瓶颈。核心创新包括:1)提出交叉视角交替注意力Transformer(CVAT),交替进行视角内局部和跨视角全局注意力,以显式建模局部声学结构和全局空间关系;2)设计几何信息调制模块与基于7倍频带功率谱的辅助损失,显式建立几何特征与RIR功率谱的关联,将单任务转化为多任务学习。在模拟数据集AcousticRooms和真实数据集HAA上的实验表明,EigeNet在EDT、C50、T60等指标上显著优于xRIR等基线,并展现出良好的跨模态泛化性和物理可解释性。 🔗 开源详情 代码:https://github.com/FEAfeatherTHER/EigeNet 模型权重:https://github.com/FEAfeatherTHER/EigeNet 数据集: AcousticRooms:论文中声明通过Treble平台获取(https://www.treble.tech/),但未提供直接���预处理数据下载链接。 Hearing-Anything-Anywhere (HAA):论文中未提供任何公开获取链接。 Demo:论文中未提及。 复现材料:未提供单独的复现材料包(如训练脚本、配置文件)。复现依赖于上述GitHub仓库的代码以及自行获取的数据集。 🏗️ 方法概述和架构 EigeNet框架旨在利用稀疏的参考视角RIR及其对应的几何信息,预测目标新视角的RIR。其整体架构如图1所示,包含编码、调制、核心Transformer处理和解码预测四个主要阶段。 问题形式化与输入: 给定\(N\)个参考视角,每个视角\(i\)包含:源位置\(tx_i \in \mathbb{R}^3\),接收器位置(设为坐标原点)\(rx_i \in \mathbb{R}^3\),以及对应的RIR信号\(h_i \in \mathbb{R}^{1 \times L}\)。同时,为目标视角(索引为0)提供接收器位置处的全景深度图\(D\)。目标是估计目标视角在\(tx_0\)处的RIR \(h_0\)。 ...

2026-05-28 · 更新于 2026-06-12 · 2 min · 403 words

Unified Synthesis of Compositional Speech and Sound from Free-Form Text Prompts

📄 Unified Synthesis of Compositional Speech and Sound from Free-Form Text Prompts #语音合成 #多任务学习 #自回归模型 #生成模型 #对比学习 #多模态模型 #数据增强 🔥 8/10 | 前25% | #语音合成 | #多任务学习 | #自回归模型 #生成模型 | arxiv 学术质量 6/7 | 影响力 1.5/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 第一作者:Yuyue Wang(中国人民大学) 通讯作者:Xihua Wang(中国人民大学) 机构:中国人民大学 💡 毒舌点评 一篇动机明确、架构清晰的工作,定义了‘自由文本到统一音频生成’这一有潜力的任务,并提出了一个不错的解决方案。然而,如同许多初次尝试定义新任务的工作,其‘统一’的光环在实验部分略显褪色。基线选择过于保守,仅与较早的VoiceLDM和流水线方法对比,对近期涌现的AudioBox、Fugatto等强力竞争对手视而不见,这让其‘优越性’的宣称打了折扣。实验部分更像是精心设计的‘能力展示’而非公平‘竞技场’,尤其是主观评估样本量仅50个,说服力有限。论文的‘未来工作’比‘当前工作’更有吸引力。整体是一篇扎实但不够大胆的论文,创新有余,验证不足。 📌 核心摘要 本文针对“自由文本提示生成统一音频”这一新任务,提出了PlanAudio框架。该任务旨在直接从自然语言提示合成包含语音、音效及其复合交互的统一音频流。PlanAudio是一个基于自回归LLM的统一模型,其核心创新是引入“语义潜在思维链”机制,在连续语义空间进行隐式规划,以桥接高语义理解与低层声学生成。模型采用单一Transformer骨干,直接处理文本,无需外部文本编码器或重写模块。作者还构建了专用的复合音频评估基准PlanAudio-Bench。实验表明,PlanAudio在复合场景下优于基线方法,并在单独音效和语音任务上保持竞争力。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重的公开链接。 数据集:论文中提及基于以下公开数据集构建训练数据,并合成了新的基准数据集。具体获取方式如下: AudioSet: 论文用于合成复合音频数据,未提供数据集本身的直接链接。 AudioCaps: 论文用于声音生成评估,未提供链接。 WavCaps: 论文用于声音生成,未提供链接。 LibriTTS: 论文用于语音生成评估,未提供链接。 PlanAudio-Bench:论文中提出的新基准测试集,论文中未提及公开获取链接。 Demo:论文中未提及。 复现材料:论文中未提及训练配置、检查点等复现材料的公开链接。 论文中引用的开源项目: Qwen2.5-1.5B: 作为模型初始化的基础LLM。 链接: https://huggingface.co/Qwen/Qwen2.5-1.5B AudioCraft tokenizer: 用于将音频离散化为分层标记。 链接: https://github.com/facebookresearch/audiocraft AF3Encoder (Audio Flamingo 3 Encoder): 用于提取语义表示。 论文中未提供具体链接。 Whisper: 用于生成转录。 论文中未提供具体链接。 Gemini-2.5 Pro: 用于数据标注和文本改写。 论文中未将其列为开源项目。 🏗️ 方法概述和架构 PlanAudio是一个端到端的自回归LLM框架,旨在直接从自由形式文本提示生成包含语音和音效的统一音频波形。其核心架构(如图2所示)基于单一Transformer骨干(初始化自Qwen2.5-1.5B),将文本、潜在规划特征和离散音频token组织成一个统一序列进行处理。 ...

2026-05-28 · 更新于 2026-06-12 · 3 min · 506 words

语音/音乐/音频论文速递 2026-05-28

语音/音乐/音频论文速递 2026-05-28 共分析 30 篇论文 ⚡ 今日概览 📥 抓取 30 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 8篇 ████████ #语音合成 4篇 ████ #音频问答 2篇 ██ #语音情感识别 2篇 ██ #语音翻译 2篇 ██ #多模态模型 2篇 ██ #语音生成 1篇 █ #音频检索 1篇 █ 📊 论文评分排行榜(30 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 When Helpful Context Leaks: Privacy Risks in Domain-Ada 10.0分 前50% #语音识别 🥈 TARQ: Tail-Aware Reconstruction Quantization for Rare-W 10.0分 前10% #语音识别 🥉 Comprehensive Benchmarking of Long-Form Speech Generati 9.9分 前25% #语音合成 4. MTAVG-Bench 2.0: Diagnosing Failure Modes of Cinematic 9.9分 前25% #语音生成 5. OmniRetriever: Any-to-Any Audio-Video-Text Retrieval vi 9.2分 前25% #音频检索 6. Audio-Mind: An Auditable Agentic Framework for Audio Un 8.7分 前50% #音频问答 7. From Talking to Singing: A New Challenge for Audio-Visu 8.7分 前50% #语音伪造检测 8. SMILE-Next: Teaching Large Language Models to Detect, C 8.7分 前25% #语音情感识别 9. Dasheng AudioGen: A Unified Model for Generating Cohere 8.6分 前25% #音频生成 10. Why We Need Speech to Evaluate Speech Translation 8.3分 前50% #语音翻译 11. Bandwidth-Efficient and Privacy-Preserving Edge-Cloud M 8.1分 前25% #语音翻译 12. EigeNet: Geometry-Informed Multi-Modal Learning for Few 8.0分 前50% #多模态模型 13. Unified Synthesis of Compositional Speech and Sound fro 8.0分 前25% #语音合成 14. Gemini Embedding 2: A Native Multimodal Embedding Model 7.9分 前25% #语音识别 15. HOME-KGQA: A Benchmark Dataset for Multimodal Knowledge 7.5分 后50% - 16. Building Community-Centred NLP Resources for Puno Quech 7.2分 前50% #语音识别 17. Utilizing Missed Detections in Directional Sensitivity- 7.1分 前50% #语音识别 18. Diffusion Large Language Models for Visual Speech Recog 7.0分 前25% #语音识别 19. LoSATok: Low-dimensional Semantic-Acoustic Tokenizer fo 7.0分 前50% #语音合成 20. Affective Music Recommendation: A Rollout-Based World M 7.0分 前50% #音乐推荐 21. VoiceGiraffe: A Benchmark for Extreme Long-Context Audi 7.0分 前25% #音频问答 22. AgenticVBench: Can AI Agents Complete Real-World Post-P 7.0分 前50% #基准测试 23. Do Audio LLMs Listen or Read? Analyzing and Mitigating 6.8分 前50% #语音情感识别 24. A Conflict-Aware Penalty and Statistical Loss Framework 6.8分 前50% #多模态模型 25. I Hear, Therefore I Trust: A Socio-Technical Investigat 6.5分 前50% #语音合成 26. DEMON: Diffusion Engine for Musical Orchestrated Noise 6.0分 前50% #音乐生成 27. Breaking the Script Barrier: Enabling Automatic Alignme 6.0分 前50% #语音识别 28. Robust Quantum-MUSIC for DoA Estimation Using Rydberg A 5.7分 前50% - 29. Benchmarking AI for low-resource contexts: Thinking bey 5.1分 后50% #语音识别 30. Cross-modal characterization of infant cry: validation 5.0分 前50% #信号处理基础 📋 论文列表 🥇 When Helpful Context Leaks: Privacy Risks in Domain-Adapted ASR 🔥 10.0/10 | 前50% | #语音识别 | #迁移学习 | #隐私安全 #领域自适应 | arxiv ...

2026-05-28 · 更新于 2026-06-12 · 15 min · 3187 words

Hidden in Plain Tokens: Simply Robust, Gradient-Free Watermark for Synthetic Audio

📄 Hidden in Plain Tokens: Simply Robust, Gradient-Free Watermark for Synthetic Audio #语音合成 #语音转换 #生成对抗网络 #对比学习 #扩散模型 #多任务学习 🔥 10/10 | 前25% | #语音合成 | #生成对抗网络 | #语音转换 #对比学习 | arxiv 学术质量 6.5/7 | 影响力 2/2 | 可复现性 1.5/2 | 置信度 高 👥 作者与机构 Georgios Milis, Yubin Qin, Yihan Wu, Heng Huang。论文未明确提及作者所属机构。 💡 毒舌点评 本文提出了一种思路精巧且理论扎实的音频水印方法,其核心贡献在于发现了重标记化错误的结构性并利用图社区检测来缓解,实现了“无梯度训练”下的显著性能提升,这在当前需要白盒微调的解决方案中是一股清流。然而,审稿人认为其评估存在明显偏科和不足:1)对音频质量影响的评估深度不足,仅报告了FAD和预测MOS,缺乏如PESQ、STOI或主观听测(如ABX测试)等更全面的音频质量客观指标和人类评估,尤其是在声称“对生成质量影响微小”时,说服力有限。2)对“语义相邻”的假设和聚类结果缺乏深入分析,论文观察到错误具有结构性,但未提供任何可视化或量化证据(如混淆矩阵热图、聚类可视化)来向读者直观展示这种“语义相邻”到底是什么样子,以及Leiden算法究竟聚出了什么样的集群。3)局限性讨论可以更深入,例如,方法依赖于对特定编解码器进行离线聚类,当编解码器版本更新或部署环境变化时,聚类可能失效,如何维护?此外,将令牌聚类为簇,本质上是降低了水印的“分辨率”和熵,这可能在更长的上下文或更复杂的模型中带来新的、未被探讨的统计特性(如检测p值的分布变化)。4)实验比较的选择性,主要对比了Base和WMAR,但缺少与同属“训练无关”范畴的、其他可能的令牌聚类或特征空间对齐方法的比较,削弱了结论的普适性。 📌 核心摘要 本文针对自回归音频生成模型中令牌级水印因重标记化错误而失效的问题,提出了一种新颖的、梯度无关的解决方案。核心思想是:观察到重标记化错误并非随机,而是将令牌混淆为少量“语义邻居”,这种结构性冗余可以通过图社区检测算法(Leiden)发现并利用。方法将音频编解码器的令牌词表建模为图,边权为混淆概率,然后运行社区检测算法得到“令牌簇”。水印机制(基于KGW)在簇级别而非原始令牌级别上实施,从而对重标记化噪声变得鲁棒。理论分析量化了令牌匹配率\(r\)和簇匹配率\(r_{cl}\)对水印检测统计量\(\mathbb{E}[z|H_1]\)的指数级影响。在Moshi(Mimi编解码器)和MusicGen(EnCodec)上的全面实验表明,该方法在检测性能上比基线(包括微调编解码器的WMAR方法)提高了数个数量级,对常见的音频处理攻击(如滤波、压缩、时移)保持强鲁棒性,且对音频质量(FAD、预测MOS)影响较小。此外,该方法在CosyVoice3和Spark-TTS等基于流匹配的文本转语音模型上也验证了有效性。 🔗 开源详情 代码:提供项目主页链接:https://g-milis.github.io/projects/nograd-audio-wm.html,用于发布音频样本和代码。 模型权重:论文中未提及。 数据集:实验使用了开源数据集LibriSpeech、MusicCaps、Free Music Archive和LibriTTS,但未在论文中提供具体下载链接。 Demo:论文中未提及。 复现材料:论文在附录E (Experimental Details) 中提供了详细的复现信息,包括: 构建词汇缩减所用音频数据集(Mimi/TTS用LibriSpeech开发集,EnCodec用MusicCaps)。 聚类超参数网格搜索过程(分辨率\(\rho\)和噪声阈值\(m\))。 最终选定的超参数(表8)。 水印参数(\(\gamma, \delta, h\), 生成长度)。 各种鲁棒性攻击的具体设置(滤波器截止频率、噪声标准差、MP3比特率、时移比例、裁剪比例等)。 论文中引用的第三方开源项目(论文正文仅提及名称,未提供具体链接):Mimi, MusicGen, EnCodec, Leiden, Louvain, Whisper, WMAR, CosyVoice3, Spark-TTS, FaCodec, SpeechTokenizer, DAC, LibriSpeech, MusicCaps, Free Music Archive, LibriTTS。 🏗️ 方法概述和架构 本文方法的核心架构是一个两阶段的离线准备与在线水印方案,其设计动机是解决令牌级水印在连续模态(如音频)中因重标记化(retokenization)不一致导致的鲁棒性崩溃问题,且完全不依赖于梯度信息或对编解码器进行微调。 ...

2026-05-27 · 更新于 2026-06-12 · 2 min · 243 words

LongCat-Video-Avatar 1.5 Technical Report

📄 LongCat-Video-Avatar 1.5 Technical Report #语音合成 #多模态模型 #自监督学习 #多任务学习 #强化学习 ✅ 7.5/10 | 前25% | #语音合成 | #自监督学习 | #多模态模型 #多任务学习 | arxiv 学术质量 5/7 | 影响力 1.5/2 | 可复现性 1/2 | 置信度 高 👥 作者与机构 美团LongCat团队(Meituan LongCat Team)。论文中列出了贡献者与致谢名单,项目负责人为Yong Zhang,赞助人为Xunliang Cai和Xiaoming Wei。 💡 毒舌点评 这是一份典型的、扎实的“工业级”技术报告,其价值主要体现在工程实现和系统集成上,而非基础算法创新。论文将“稳定”和“可部署”作为核心贡献,这对于实际应用至关重要,但在顶级学术会议上,这种“工程导向”的报告往往会因理论创新不足而被低估。其最大的贡献——详尽的多阶段数据策展流程——本质上是一项关键的“脏活累活”,但难以转化为新颖的算法思想。实验评估虽然全面且包含大规模人类评估,但所有测试集和评估代码未公开,使得“优于商业闭源系统”的声明难以被独立验证。开源仅提供了一个空的GitHub仓库链接,这对于推动学术研究复现毫无帮助,更像是商业宣传。总体而言,这是一份面向工业部署的合格答卷,但对于寻求算法突破的学术研究者而言,吸引力有限。 📌 核心摘要 LongCat-Video-Avatar 1.5是美团开源的一个音频驱动数字人视频生成框架的升级版,专注于提升生成质量的稳定性、鲁棒性和部署效率,以缩小研究原型与商业应用之间的差距。核心改进包括:1) 将音频编码器从Wav2Vec2升级为Whisper-large,显著提升唇形同步和语音动态捕捉能力;2) 提出并实施了一套复杂的多阶段数据策展流程,包括通用、多人、静默和情感数据的专用处理管线,以生成高质量、结构化的训练数据;3) 扩展了基于逐帧奖励的GRPO训练,进行细粒度时序质量控制;4) 采用参数高效的单个DiT+多LoRA架构进行DMD2蒸馏,将推理步数压缩至8步,实现了效率与质量的平衡。论文在超过500个样本的基准上进行了大规模众包和专家评估,结果显示其在人类相似度、物理合理性、时间稳定性和身份一致性等维度上达到或超越了包括HeyGen、OmniHuman 1.5在内的多种领先闭源系统。报告强调,通过严谨的系统工程优化,开源方案也能满足多样化的商业应用需求。 🔗 开源详情 代码:https://github.com/meituan-longcat/LongCat-Video (论文中提及,但仓库内容未知,未说明是否包含模型权重或训练代码) 模型权重:论文中未提及提供下载链接或开源计划。 数据集:论文中未提及公开训练或测试数据集。 Demo:论文中未提及在线演示。 复现材料:论文未提供配置文件、检查点或数据处理脚本下载。提供了表1所示的训练阶段大纲(包括任务、尺寸、批大小、学习率、迭代次数),但这仅是概览。 论文中引用的开源项目: Whisper-large: https://github.com/openai/whisper EMOTIVEFFLIB: https://github.com/av-savchenko/EmotiEffLib Qwen3-Omni 和 Qwen3-VL: https://github.com/QwenLM/Qwen3 ByteTrack: https://github.com/ifzhang/ByteTrack YOLOv6: https://github.com/meituan/YOLOv6 TalkNet: https://github.com/melfm/audio-visual-talking-head UniTalk: https://github.com/taconite/UniTalk DMD2 (Distribution Matching Distillation): https://github.com/YinZhengxun/DMD2 Wav2Vec2:论文中提及,未提供具体链接。 UMT5:论文中提及,未提供具体链接。 LoRA:论文中提及,未提供具体链接。 Flow Matching:论文中提及,未提供具体链接。 GRPO (Group Relative Policy Optimization):论文中提及,未提供具体链接。 🏗️ 方法概述和架构 LongCat-Video-Avatar 1.5继承了v1.0的统一DiT(Diffusion Transformer)视频扩散架构。该架构基于3D变分自编码器(VAE),每个DiT块包含3D自注意力、文本交叉注意力和前馈网络(FFN)。文本嵌入由UMT5编码器生成,视觉令牌使用3D旋转位置编码(RoPE)进行时空位置编码。该统一架构支持文本到视频、文本-图像到视频以及视频续写等多种任务,通过不同的潜在序列输入配置(参考潜在序列、运动潜在序列、噪声潜在序列)实现。 ...

2026-05-27 · 更新于 2026-06-12 · 2 min · 279 words

PilotTTS: A Disciplined Modular Recipe for Competitive Speech Synthesis

📄 PilotTTS: A Disciplined Modular Recipe for Competitive Speech Synthesis #语音合成 #语音生成 #自回归模型 #生成对抗网络 #数据增强 #低资源 #多任务学习 #语音克隆 🔥 9.2/10 | 前25% | #语音合成 | #生成对抗网络 | #语音生成 #自回归模型 | arxiv 学术质量 5.7/7 | 影响力 1.8/2 | 可复现性 1.7/2 | 置信度 高 👥 作者与机构 作者:Bowen Li, Shaotong Guo, Zhen Wang, Yang Xiang, Mingli Jin, Yihang Lin, Jiahui Zhao, Weibo Xiong, Dongrui Li, Keming Chen, Yunze Gao, Yuze Zhou, Zeyang Lin, Yue Liu 机构:高德(Amap, Alibaba Group);香港中文大学(深圳) ...

2026-05-27 · 更新于 2026-06-12 · 3 min · 480 words

Proactive for Uncertainty: Cause-Aware Error Diagnosis and Interactive Clarification for Spoken Dialogue Systems

📄 Proactive for Uncertainty: Cause-Aware Error Diagnosis and Interactive Clarification for Spoken Dialogue Systems #语音识别 #音频事件检测 #多任务学习 ✅ 6.8/10 | 前50% | #语音识别 | #多任务学习 | #音频事件检测 | arxiv 学术质量 4.9/7 | 影响力 1.5/2 | 可复现性 0.4/2 | 置信度 中 👥 作者与机构 作者:Yizhou Peng(平等贡献),Ziyang Ma(平等贡献),Changsong Liu,Yi-Wen Chao,Xie Chen,Eng Siong Chng 机构:南洋理工大学,新加坡;上海交通大学,中国 💡 毒舌点评 这篇论文的想法“原因感知”听起来很高大上,本质上就是给ASR错误打上更细的标签(失真、理解、删除),然后让LLM根据标签生成不同的“请再说一遍”。这种“小模块+LLM”的组合拳在最近的顶会很常见,创新性有,但不算特别突破。实验设计有巧思(模拟用户闭环评估),但也暴露了短板(只用模拟用户,没有真人评估)。最大的问题在于,它声称的“主动”澄清能力,完全受限于一个能力平平的错误检测器和僵化的优先级规则。把“错误原因分析”和“澄清策略生成”解耦得过于彻底,使得系统缺乏端到端的优化,像是在用人工规则硬拧。论文的工程价值大于学术价值,更适合出现在ICASSP而不是NeurIPS/ICML/ICLR。 📌 核心摘要 本文针对级联ASR-LLM口语对话系统中的错误传播问题,提出了一种原因感知的错误诊断与交互式澄清框架。核心思想是利用冻结ASR模型的内部表征,训练一组轻量级检测器,在token级别区分并诊断三类错误:感知错误(声学失真)、理解错误(语言不匹配)和删除错误(内容缺失)。同时,独立训练了一个声学事件检测器来识别环境类别。这些诊断信息通过一个结构化的错误摘要输入给LLM对话管理器。LLM根据预设的优先级规则(理解 > 感知 > 删除),生成针对性的澄清策略(如请求重复、询问环境、请求拼写等),通过最多K轮交互来修正转录文本。实验在多个数据集和失真条件下验证了该方法,声称在域偏移错误上的召回率比熵基线提高了一倍以上,并在词错率和下游任务性能上取得了显著提升。 🔗 开源详情 代码:承诺在论文提交后发布,提供匿名仓库链接:https://anonymous.4open.science/r/Cause-Aware-Error-Detection-and-Correction-7E4D。 模型权重: ASR骨干:Parakeet-tdt-0.6b-v2 (NVIDIA),链接:https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2。 四个错误检测器:承诺包含在上述代码仓库中。 数据集:实验使用的所有数据集均为公开数据集(LibriSpeech, SPGISpeech2, AESRC2020, Gigaspeech, WSJ, OpenHermes, Alpaca)。论文未提供统一获取链接,但详细信息见附录A.2。 复现材料:承诺发布包含数据预处理、失真模拟、模型训练、推理脚本及交互式LLM澄清模块的完整代码库。训练超参数见附录A.4。 引用的开源项目: AudioBench: https://github.com/AudioLLMs/AudioBench CosyVoice、HyPoradise等模型/项目:仅被引用,未提供代码链接。 MUSAN语料库:用于生成噪声和RIR,被提及但未提供链接。 🏗️ 方法概述和架构 该系统是一个多阶段、模块化的交互式错误恢复管道(见图1和图2)。 ...

2026-05-27 · 更新于 2026-06-12 · 2 min · 241 words

Rubato: Transcribing Piano Music with Timestamps

📄 Rubato: Transcribing Piano Music with Timestamps #音乐转录 #音乐信息检索 #时间序列分析 #多任务学习 🔥 10/10 | 前10% | #音乐转录 | #多任务学习 | #音乐信息检索 #时间序列分析 | arxiv 学术质量 6.7/7 | 影响力 1.8/2 | 可复现性 1.6/2 | 置信度 高 👥 作者与机构 作者:Nazif Can Tamer, Victoria Ebert, Guang Yang, Noah A. Smith 机构:Paul G. Allen School of Computer Science & Engineering, University of Washington; Allen Institute for AI 💡 毒舌点评 这篇论文像一个精心设计的“全套服务”。它没有满足于只做一个更好的钢琴MIDI转录器(AMT)或一个更好的MIDI到乐谱转换器(如M2ST),而是野心勃勃地想用一个模型(Rubato)端到端地完成从音频到带时间戳乐谱(TAST)的“终极任务”。这种雄心是值得称赞的,并且通过设计InterMo这种精巧的表示法和多任务训练框架(方言系统)在一定程度上实现了。然而,毒舌的批评在于:1)其核心模型架构(~180M参数的Canary变体)相对保守,并非架构创新,主要贡献在于任务定义、表示法和训练策略。2)所有实验严格局限于钢琴独奏,这是一个相对受限且声学/记谱法结构都较规整的领域。论文对“推广到其他乐器或多乐器”的讨论非常轻描淡写(仅在结论提一句),这是其影响力的天花板。3)尽管多任务训练看起来很美好,但“方言系统”显著增加了概念复杂度和训练配方的工程难度,论文并未提供方言间相互影响的深入分析或消融。4)作为顶会论文,在评估上花了大力气(OMR-NED、检索MAP、偏移约定分析),但这些评估指标本身(尤其是OMR-NED)是否真正代表了“乐谱质量”或“对人类演奏者的实用性”,存在讨论空间。总的来说,这是一篇扎实的“系统性”工作,在限定的领域内做到了当前最好,但距离一个能广泛适用于各种乐器、各种音乐风格的通用音乐转录系统,还有相当距离。 📌 核心摘要 本文针对自动音乐转录(AMT)中级联方法导致误差累积和中间表示信息丢失的问题,提出了时间对齐乐谱转录(TAST)作为端到端任务,联合预测音乐记谱法及其时间戳。核心贡献包括:1) 设计了名为InterMo的文本乐谱表示法,其局部节拍算术、有界开合匹配等特性适合自回归序列建模;2) 构建了名为Rubato的提示条件化编码器-解码器模型,通过“方言”系统在多个相关任务上进行多任务训练;3) 大量实验表明,Rubato在乐谱转录精度(OMR-NED)上优于所有基线系统(包括使用真实中间表示的级联系统),并在节拍检测等辅助任务上具有竞争力。论文深度分析了级联系统的瓶颈在于中间表示的信息丢失而非前端预测误差,并揭示了MIDI转录评估中偏移约定对结果的巨大影响。 ...

2026-05-27 · 更新于 2026-06-12 · 3 min · 515 words

语音/音乐/音频论文速递 2026-05-27

语音/音乐/音频论文速递 2026-05-27 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 12篇 ████████████ #语音识别 6篇 ██████ #音乐转录 2篇 ██ #多模态模型 2篇 ██ #语音编码 2篇 ██ #基准测试 1篇 █ #音频检索 1篇 █ #自监督学习 1篇 █ 📊 论文评分排行榜(39 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Hidden in Plain Tokens: Simply Robust, Gradient-Free Wa 10.0分 前25% #语音合成 🥈 Rubato: Transcribing Piano Music with Timestamps 10.0分 前10% #音乐转录 🥉 PitchBench: Measuring Pitch Hearing in Audio-Language M 9.7分 前25% #基准测试 4. AVBench: Human-Aligned and Automated Evaluation Benchma 9.7分 前25% #多模态模型 5. PilotTTS: A Disciplined Modular Recipe for Competitive 9.2分 前25% #语音合成 6. MERIT: Learning Disentangled Music Representations for 9.0分 前25% #音频检索 7. Learning When to Think While Listening in Large Audio-L 8.9分 前25% #语音识别 8. WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Re 8.5分 前25% #语音合成 9. CFMDCTCodec: A Low-Bitrate Neural Speech Codec with Noi 8.4分 前25% #语音编码 10. Continual Speaker Identity Unlearning with Minimal Inte 8.3分 前25% #语音合成 11. Eroding Trust in Real Speech: A Large-Scale Study of Hu 8.2分 前50% - 12. Beyond Binary: Speech Representations Across the Cognit 8.1分 前50% #自监督学习 13. Ultra-Low-Bitrate Mel-Spectrogram-based Neural Speech C 8.1分 前10% #语音编码 14. Decoding Stimulus Reconstruction-Based Auditory Attenti 8.0分 前25% - 15. Time Segmented Beamforming via Dynamic Programming: The 8.0分 前25% #自适应滤波 16. Can We Hear from Events? Generating Speech from Event C 7.8分 前25% #语音合成 17. A Multimodal Framework for Dementia Detection via Lingu 7.7分 前50% #多模态模型 18. Test-Time Self-Adaptive Conditioning for Stable Audio-D 7.7分 前50% #语音合成 19. Rethinking Continual Learning for Speech and Audio: A R 7.5分 前50% #语音识别 20. DuoGesture: Neuro-Inspired and Biomechanically Informed 7.5分 前25% #语音合成 21. Music Transcription with (Almost) No Supervision 7.5分 前50% #音乐转录 22. LongCat-Video-Avatar 1.5 Technical Report 7.5分 前25% #语音合成 23. CosyEdit2: Speech-Editing-Oriented Reinforcement Learni 7.2分 前25% #语音编辑 24. Why Can’t They Remember? Uncovering Representation and 7.0分 前50% #语音识别 25. cSTMM: A Unified Complex Spherical Student’s \(t\) Mixtur 7.0分 前50% #语音分离 26. G-iMUSIC: Greedy Iterative MUSIC Algorithms for Multi-T 6.9分 前50% - 27. From Scores to Gibbs Correctors: Accelerating Uniform-R 6.9分 前50% #语音合成 28. Proactive for Uncertainty: Cause-Aware Error Diagnosis 6.8分 前50% #语音识别 29. FC-TTS: Style and Timbre Control in Zero-Shot Text-to-S 6.5分 前50% #语音合成 30. PashtoTTS-Bench: automated screening for low-resource n 6.5分 前50% #语音合成 31. Score-Agnostic Structure Analysis in Large-Scale Perfor 6.5分 前50% #音乐信息检索 32. Subspace Track-before-Detect for Passive Multi-Target T 6.4分 前50% #信号处理基础 33. Toward Natural Emotional Text-To-Speech System with Fin 6.3分 前50% #语音合成 34. Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for 6.0分 前50% #语音识别 35. LongAV-Compass: Towards Unified Evaluation of Minute-Sc 6.0分 前50% #音频生成 36. FalAR: A Large-scale Speaker-Annotated European Portugu 5.5分 后50% #语音识别 37. Zero-Shot Parkinson’s Disease Detection from Speech: Co 5.2分 后50% #大语言模型 38. Exploration of Perceptual Speech Features for Clinical 5.0分 前50% #语音情感识别 39. An investigation of AI integration in sound designer wo 4.6分 后50% - 📋 论文列表 🥇 Hidden in Plain Tokens: Simply Robust, Gradient-Free Watermark for Synthetic Audio 🔥 10.0/10 | 前25% | #语音合成 | #概率与图模型 | #语音转换 #生成对抗网络 | arxiv ...

2026-05-27 · 更新于 2026-06-12 · 19 min · 3918 words

StepAudio 2.5 Technical Report

📄 StepAudio 2.5 Technical Report #统一音频模型 #多任务学习 #强化学习 #语音合成 #语音识别 #实时处理 #模型评估 🔥 8.3/10 | 前25% | #统一音频模型 | #多任务强化学习对齐 | #多任务学习 #强化学习 | arxiv 学术质量 6/7 | 影响力 1.5/2 | 可复现性 0.8/2 | 置信度 高 👥 作者与机构 论文标题: StepAudio 2.5 Technical Report 作者团队: StepFun-Audio Team(贡献者按字母顺序排列,核心贡献者与一般贡献者分开列出) 机构: 未在论文中明确说明,但根据作者团队名称和项目历史推断为 StepFun (阶跃星辰) 的音频团队。 💡 毒舌点评 这份报告像一份精心包装的产品说明书,而非一篇严谨的学术论文。其优点在于清晰地呈现了一个庞大系统的工程设计哲学——“任务特化源于操作规则”,并成功地将ASR、TTS和实时交互塞进了一个共享骨干。然而,对于顶会审稿人而言,这份报告最令人抓狂的是其“技术性模糊”:核心的MoE LLM骨干到底有多大?专家数几何?音频编码器是哪款?统统“未提及”。这就像给你看一辆跑车的赛道成绩,却把引擎盖焊死了不让你看。实验部分,ASR的表格详实可信,但TTS和实时交互的评估则严重依赖自建基准和主观评测,其公平性和可复现性要打个大问号。最遗憾的是,作为一份“技术报告”,它缺乏对关键创新点(如MTP的理论收益边界、RLHF奖励模型的具体设计)的深度分析和消融实验,显得更像是一份内部研发总结,而非可供社区深入研读和复现的学术贡献。 📌 核心摘要 本文介绍了StepAudio 2.5,一个统一的音频-语言基础模型,旨在通过单一共享骨干网络,匹配或超越专用于语音识别(ASR)、语音合成(TTS)和实时语音交互(Realtime)的专用系统。论文的核心论点是,一旦文本和音频共享一个高质量的多模态表示空间,任务间的差异便从架构设计转向了“操作机制”:即数据构建、优化目标和解码约束。基于此,作者提出了一种以强化学习从人类反馈(RLHF)为核心的后训练范式,将其作为定义复杂优化目标的主要机制。该范式结合任务特定的监督微调(SFT)和解码策略,将共享骨干塑造成三种不同的操作模式:ASR分支通过可验证的多头预测(MTP)提升转录效率;TTS分支通过基于偏好的RLHF和上下文丰富的监督实现可控、富有表现力的合成;Realtime分支则通过生成奖励建模在RLHF框架内实现低延迟、角色一致的对话。在标准基准测试上,StepAudio 2.5在ASR、TTS和实时交互任务上均取得了有竞争力的结果。 🔗 开源详情 代码:论文提及了一个用于生成ASR长形式评���数据集(WenetSpeech testnet long)的代码仓库:https://github.com/lawlict/wenetspeech-testnet-long.git。论文未提及StepAudio 2.5模型主体的完整代码开源链接。 模型权重:论文未提及模型权重的公开下载链接(如HuggingFace, ModelScope)。 数据集: 论文中使用的公开数据集包括:AISHELL-1, AISHELL-2, WenetSpeech, FLEURS, LibriSpeech, Common Voice, VoxPopuli, Earnings22。论文未提供这些数据集的直接获取链接。 论文描述了其用于ASR长形式评估的“WenetSpeech testnet long”子集的构建方法,并提供了生成代码的GitHub仓库。 论文未提及TTS和Realtime训练所用具体数据集(特别是其角色矩阵和副语言标注数据)的公开获取方式。 Demo:论文中未提及在线演示链接。 复现材料:论文详细描述了模型架构、训练流程(包括各阶段超参数)和评估方法,但未提供具体的训练配置文件、检查点下载或实验附录的直接链接。 🏗️ 方法概述和架构 StepAudio 2.5的核心架构是一个共享的音频-语言骨干,采用非对称设计(图1)。该架构由三个主要组件构成:1)冻结的音频编码器:负责将原始音频波形转换为紧凑的声学嵌入表示,其参数在训练过程中保持固定,以确保声学特征提取的稳定性。2)轻量级适配器:一个可训练的模块,负责将音频编码器输出的声学嵌入映射到语言模型(LLM)解码器的隐藏空间中。3)大型语言模型解码器:从预训练的文本LLM初始化,是模型的核心,承载语义理解、上下文管理、指令遵循和生成任务。这种设计有意让编码器专注于稳定的声学抽象,而将语义和生成的重担交给解码器,从而使得不同下游任务可以共享大部分模型。 ...

2026-05-25 · 更新于 2026-06-12 · 2 min · 376 words