Posts

Pianist Transformer: Towards Expressive Piano Performance Rendering via Scalable Self-Supervised Pre-Training

📄 Pianist Transformer: Towards Expressive Piano Performance Rendering via Scalable Self-Supervised Pre-Training #音乐生成 #预训练 #自监督学习 #Transformer #SFT 8.1/10 | 创新 1.1/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 1.1/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8.1/10 | 前25% | #音乐生成 | #预训练 | #自监督学习 #Transformer | arxiv 👥 作者与机构第一作者：Hong-Jie You（南京大学计算机软件新技术国家重点实验室、人工智能学院）通讯作者：Yu-Feng Li（南京大学计算机软件新技术国家重点实验室、人工智能学院）作者列表：Hong-Jie You（南京大学）、Jie-Jing Shao（南京大学人工智能学院）、Xiao-Wen Yang（南京大学人工智能学院）、Lin-Han Jia（南京大学人工智能学院）、Lan-Zhe Guo（南京大学智能科学与技术学院）、Yu-Feng Li（南京大学人工智能学院） 💡 毒舌点评本文将一个在NLP/CV中已被验证的预训练范式成功迁移到钢琴演奏渲染这一小众领域，并用漂亮的客观/主观双料SOTA数据说明了其有效性，故事逻辑完整。但“范式转变”的帽子扣得略大，本质上仍是“Masked Token Prediction + SFT”的标准配方，且10B-token预训练带来的性能增益在消融中仅依赖“有/无预训练”的二值比较，缺乏更细致的scaling law分析，使得“10B”这个数字更像一个资源配置的结果而非深刻的科学洞察。局限性讨论过于温和，对为何在踏板维度上未能全面领先SOTA避而不谈。 ...

Polyphonia: Zero-Shot Timbre Transfer in Polyphonic Music with Acoustic-Informed Attention Calibration

📄 Polyphonia: Zero-Shot Timbre Transfer in Polyphonic Music with Acoustic-Informed Attention Calibration #音乐生成 #扩散模型 #零样本 6.5/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 0.8/1 | 影响 0.5/1.5 | 开源 0.5/1.5 | 复现 0.2/0.5 | 工程 1.2/1.5 ✅ 6.5/10 | 前50% | #音乐生成 | #扩散模型 | #零样本 | arxiv 👥 作者与机构第一作者：Haowen Li（华南理工大学未来技术学院）通讯作者：Qi Liu（华南理工大学未来技术学院）作者列表：Haowen Li（华南理工大学未来技术学院）、Tianxiang Li（华南理工大学未来技术学院）、Yi Yang（华南理工大学未来技术学院）、Boyu Cao（华南理工大学未来技术学院）、Qi Liu†（华南理工大学未来技术学院）(*表示共同第一作者，†表示通讯作者) 💡 毒舌点评这篇论文找到了一个非常漂亮的insight——将BSS的判别式输出（IRM）转化为扩散模型里的软注意力约束，以此解决复调音乐中纯语义注意力“找不到北”的问题。想法本身是成立的，实验也基本撑住了SOTA的claim。但问题是，整个框架厚重地寄生在预训练AudioLDM 2的躯体上，推理慢如牛（10秒音频需24秒），且对BSS模型的质量有硬依赖——本质上是用一个黑箱去修另一个黑箱的缺陷。更致命的是，最强对手PPAE被以“复现困难”为由直接踢出局，这让实验的公平性打上问号。代码和模型权重均未公开，同态可复现性堪忧，这让论文更像一场精巧的概念验证秀，而非社区可信赖的基线。 📌 核心摘要问题：本文要解决的是零样本、声部级（stem-specific）的复调音乐音色迁移——即精准改变特定声部的音色（如人声→小提琴），同时严格保留其他声部和整体音乐结构不变。现有方法（如Melodia、SteerMusic）因依赖纯语义交叉注意力而缺乏频谱分辨率，在密集混音中遭遇“语义-声学不对齐”（Semantic-Acoustic Misalignment），导致非目标声部失真（Non-target Distortion）或目标声部编辑失败（Target Misalignment）。方法核心：提出Polyphonia框架，核心是“声学先验校准注意力”（Acoustic-Informed Attention Calibration）。通过盲源分离（BSS）模型HT-Demucs提取概率化的理想比率掩码（IRM）作为声学先验 \(G_{IRM}\)，将其注入预训练扩散模型AudioLDM 2的T-UNet注意力层，实施两种校准操作：源插值（Source Interpolation）保背景，声学调制（Acoustic Modulation）强目标，从而在粗粒度频谱边界内进行精粒度语义合成。新颖性：首次形式化复调音乐编辑中的“语义-声学不对齐”问题；将判别式的BSS输出（IRM）转化为生成式扩散模型内的软注意力偏差，统一了判别与生成范式；提出了在Pre-Softmax logit空间进行注意力干预的机制，利用Softmax的非线性放大效应以实现更锐利的决策边界。主要实验结果：在MUSDB18-HQ和MusicDelta数据集上，使用自建的PolyEvalPrompts基准（1170个编辑任务）进行评测。Polyphonia的CLAP分数比最优基线Melodia提升约15.5%（MusicDelta: 0.437 vs. 0.380）。在结构保持与音色对齐的综合指标（ASB, AMB）上取得最优平衡，但在LPAPS和CQT1-PCC等结构保真度指标上并非最优，展现了灵敏度-保真度的清晰trade-off。主观评估中，Polyphonia在目标音色准确性（TTA）和全局音频一致性（GAC）上得分最高。实际意义：为音乐制作提供了一种零样本的声部级精确编辑工具，避免了对昂贵监督微调（如Music ControlNet）的依赖，具有直接集成的工程潜力。主要局限性：推理速度慢（扩散迭代100步），高度依赖BSS模型的分离质量和预训练生成模型的能力天花板。作者声称将探索flow-matching等加速策略。 🔗 开源详情代码：未提供任何代码仓库链接。模型权重：未发布 Polyphonia 自身的模型权重。实验依赖于预训练的第三方模型：AudioLDM 2 的 cvssp/audioldm checkpoint、MusicGen 的 facebook/musicgen-melody checkpoint、HT-Demucs、Open-Unmix 等，这些均为公开可获取的开放权重。数据集：使用公开数据集 MUSDB18-HQ 和 MusicDelta（来自MedleyDB）。自建的 PolyEvalPrompts 数据集已公开在Demo页面，但未提供直接下载链接。 Demo：https://polyphonia2026.github.io/polyphonia-demo/ 复现材料：论文附录（C、E、G、J）提供了详细的实现细节、超参数配置与评估方法，并包含核心算法的伪代码。但缺少实际源码、配置文件或模型权重，不能直接复现。论文中引用的开源项目： AudioLDM 2：https://github.com/haoheliu/AudioLDM2 HT-Demucs：https://github.com/facebookresearch/demucs Open-Unmix：https://github.com/sigsep/open-unmix-pytorch LAION-CLAP：https://github.com/LAION-AI/CLAP MusicGen（来自 AudioCraft）：https://github.com/facebookresearch/audiocraft T5（text-to-text-transfer-transformer） GPT-2：https://github.com/openai/gpt-2 nnAudio：https://github.com/KinWaiCheuk/nnAudio Qwen-Audio：https://github.com/QwenLM/Qwen-Audio Qwen3：https://github.com/QwenLM/Qwen3 fadtk（FAD 工具）：https://github.com/gudgud96/fadtk 🏗️ 方法概述和架构 Polyphonia是一个基于预训练AudioLDM 2扩散模型的双路径零样本编辑框架。其核心思想是：利用盲源分离（BSS）获得的概率化频谱掩码作为外部声学先验，在扩散模型的逆序推理（Inversion）和编辑去噪（Editing）过程中，对T-UNet的注意力图进行校准，从而解决纯语义注意力在复调音乐中无法精确定位目标声部的问题。整体流程分为三个阶段： ...

PRIM：Cooperative Dynamic Token Compression for Efficient Large Multimodal Models

📄 PRIM：Cooperative Dynamic Token Compression for Efficient Large Multimodal Models #多模态模型 #音视频理解 3.6/10 | 创新 1/2 | 严谨 0.8/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0/1.5 | 开源 0/1.5 | 复现 0/0.5 | 工程 0/1.5 📝 3.6/10 | 后50% | #音视频理解 | #多模态模型 | arxiv 👥 作者与机构第一作者：Song Li（北京邮电大学网络与交换技术国家重点实验室）通讯作者：Yongping Xiong（北京邮电大学网络与交换技术国家重点实验室）其他作者：无。论文仅列出两位作者。 💡 毒舌点评本文基于对多模态大模型中注意力的观察，构建了一套无训练的推理阶段令牌压缩流水线。这种“观察-设计-验证”的套路本身并无新意，且每个模块（早期融合、注意力剪枝、频域压缩）均是现有技术的直接借用或微调。更致命的是，论文声称“高效推理”，却完全没有提供任何代码、模型权重或复现配置，这使得所有所谓的效率提升、记忆开销减少和延迟降低都成了无法核实的“纸上谈兵”。在开源已成为顶级会议标配的今天，这种做法严重削弱了论文的可信度和影响力，对于注重实践和复现的语音/音频社区而言，这更是一篇参考价值几乎为零的工作。 📌 核心摘要这篇论文旨在解决大型多模态模型（LMMs）在推理长音视频内容时，因输入令牌数量巨大而导致的计算和内存开销过高的问题。文章通过对LLM内部注意力分布的分析，做出了两个核心观察：（1）跨模态交互主要集中在LLM的浅层，深层则趋于稀疏和抽象；（2）在所有层中，音频令牌获得的注意力权重始终高于视频令牌，表明音频包含更密集的语义信息，而视频则存在大量冗余。基于这些观察，作者提出了PRIM，一个无需额外训练、即插即用的推理阶段协同压缩框架。该框架包含四个主要模块：多模态交叉融合（MCF）将文本-音视频的早期交互外移至LLM之前；注意力引导的选择（AGS）利用音频显著性动态控制各时间窗口的视频令牌压缩比率；频率感知压缩（FAC）利用2D-DCT保留低频能量分量以压缩视频令牌；任务自适应剪枝（TAA）则根据指令复杂度在LLM内部动态分配令牌预算。实验在Qwen2.5-Omni、LLaVA-OneVision、LLaVA-Video等模型和多个音视频基准（如MVBench、VideoMME、AVUT）上展开，结果表明PRIM在显著降低FLOPs（低至28%）和推理延迟的同时，能保持与全量模型接近甚至更优的准确率。其声称的实际意义在于为多模态模型的部署提供了一种低成本方案。核心实验数据（基于Qwen2.5-Omni-7B）如下所示：方法保留率 FLOPs比 MVBench MLVU LongVideoBench VideoMME Overall 平均分 Qwen2.5-Omni-7B (全量) 100% 100% 59.0 58.5 67.3 60.7 61.4 PRIM (Ours) 65% 54% 58.8 58.3 67.1 60.3 61.1 PRIM (Ours) 50% 41% 57.6 58.4 65.9 59.6 60.4 PRIM (Ours) 35% 28% 54.3 53.2 62.9 56.2 56.7 主要局限包括：方法强依赖于固定时间窗口划分，无法直接处理流式输入；所有评估均基于离线长视频理解基准，缺乏对纯音频任务（如ASR、音频事件检测）的验证，在多任务/多场景下如何自动、泛化地分配压缩比率仍未解决；完全没有提供开源代码或模型，复现和实际应用价值存疑。 ...

ProactiveLLM: Learning Active Interaction for Streaming Large Language Models

📄 ProactiveLLM: Learning Active Interaction for Streaming Large Language Models #流式处理 #语音识别 #语音翻译 7.2/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 ✅ 7.2/10 | 前50% | #语音识别 | #知识蒸馏 | #流式处理 #语音翻译 | arxiv 👥 作者与机构第一作者：Junlong Tong（上海交通大学，Eastern Institute of Technology, Ningbo）通讯作者：Xiaoyu Shen（Eastern Institute of Technology, Ningbo）作者列表：Junlong Tong（上海交通大学，Eastern Institute of Technology, Ningbo）、Yao Zhang（Eastern Institute of Technology, Ningbo）、Anhao Zhao（Eastern Institute of Technology, Ningbo，香港理工大学）、Yingqi Fan（Eastern Institute of Technology, Ningbo）、Yunpu Ma（Munich Center for Machine Learning, LMU）、Xiaoyu Shen（Eastern Institute of Technology, Ningbo）该论文发表于 ICML 2026（Proceedings of the 43rd International Conference on Machine Learning, Seoul, South Korea. PMLR 306, 2026） 💡 毒舌点评该论文提出了一种巧妙的"内生信号驱动"范式，用自蒸馏和掩码训练替代外部对齐标注，让流式LLM学会"审时度势"，在非单调对齐任务（如QA）上展现了惊艳的上下文裁剪能力（如仅用78%上下文恢复97%性能）。然而，其决策头（熵/注意力驱动）的设计相对简单，本质上只是一个阈值触发器，远未触及学习型策略的上限。与强学习型基线的对比仅用了2000条数据，难以令人信服地论证内生策略的绝对优势。更令人担忧的是，在单调任务MT上，Proactive-Entr的延迟实际上高于Wait-9（AIL 8.36 vs 6.87），论文正文中"maintaining lower latency"的笼统宣称有过度包装之嫌——读者需仔细区分Proactive-Attn和Proactive-Entr的不同表现，不可被论文的修辞所误导。 ...

Probing Cross-modal Information Hubs in Audio-Visual LLMs

📄 Probing Cross-modal Information Hubs in Audio-Visual LLMs #音视频理解 #可解释性 #多模态模型 7.2/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.6/1.5 | 开源 1/1.5 | 复现 0.4/0.5 | 工程 1/1.5 ✅ 7.2/10 | 前50% | #音视频理解 | #多模态模型 | #可解释性 | arxiv 👥 作者与机构第一作者：Jihoo Jung（KAIST 电气工程系）通讯作者：Joon Son Chung（KAIST 电气工程系）作者列表：Jihoo Jung（KAIST 电气工程系）、Chaeyoung Jung（KAIST 电气工程系）、Ji-Hoon Kim（中央大学先进影像科学研究生院）、Joon Son Chung（KAIST 电气工程系） 💡 毒舌点评论文提出了一个有趣的反直觉发现：在音视频大模型中，承载跨模态融合信息的并非承载物体语义的"对象token"，而是一类被视为信息盲区的"attention sink token"。这个发现本身对多模态LLM的机制理解有一定价值。但是，作者基于此洞察提出的ASD方法虽然训练免费，却带来了高达3.7倍的推理延迟，这对于一个"即插即用"的工程方案而言，实用价值大打折扣。更致命的是，所有实验仅局限于captioning任务，对更广泛的QA、推理等场景的适用性存疑。此外，AVLLM的可解释性领域整体体量尚小，该工作的实际影响力还有待时间检验。总体来看，洞察有趣但应用路径尚有距离，是一篇典型的"机制分析强但下游应用弱"的论文。 ...

Quaternion Self-Attention with Shared Scores

📄 Quaternion Self-Attention with Shared Scores #语音增强 #高效推理 #模型压缩 6.3/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 0.7/1 | 影响 0.5/1.5 | 开源 1/1.5 | 复现 0.4/0.5 | 工程 0.7/1.5 ✅ 6.3/10 | 前50% | #语音增强 | #Transformer | #高效推理 #模型压缩 | arxiv 👥 作者与机构第一作者：Shogo Yamauchi（The Asahi Shimbun Company, Tokyo, Japan）通讯作者：Shogo Yamauchi（The Asahi Shimbun Company）、Tohru Nitta（Tokyo Woman’s Christian University, Tokyo, Japan）、Hideaki Tamori（The Asahi Shimbun Company）作者列表：Shogo Yamauchi（The Asahi Shimbun Company）、Tohru Nitta（Tokyo Woman’s Christian University）、Hideaki Tamori（The Asahi Shimbun Company） 💡 毒舌点评用一个四元数内积替换汉密尔顿积做注意力打分，把4路独立softmax砍成1路，在语音增强上RTF最高砍半，还证明了组件独立本质是冗余——这个洞察确实漂亮。但实验仅限0.8M以下的小模型，跟2019年的Tay et al.基线比完就收工，连线性注意力、FlashAttention这类通用加速方案的影子都没见着，更别说拿Mamba来硬碰硬。整个评估像在自家花园里赛跑，说服力打折严重。声明的"首次提出共享分数"也值得商讨，因为实数Transformer从Vaswani et al.起就在用一个标量分数矩阵，本文本质是给四元数空间做了同样的事。 ...

Query-Based Asymmetric Modeling with Decoupled Input–Output Rates for Speech Restoration

📄 Query-Based Asymmetric Modeling with Decoupled Input–Output Rates for Speech Restoration #语音增强 #语音超分 #流式处理 #生成对抗网络 7.1/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.4/0.5 | 工程 1/1.5 ✅ 7.1/10 | 前50% | #语音增强 | #Transformer | #语音超分 #流式处理 | arxiv 👥 作者与机构第一作者：Ui-Hyeop Shin (Sogang University, Department of Electronic Engineering) 通讯作者：Hyung-Min Park (Sogang University, Department of Electronic Engineering / Department of Artificial Intelligence) 作者列表：Ui-Hyeop Shin, Jaehyun Ko, Woocheol Jeong, Hyung-Min Park (均来自 Sogang University) 💡 毒舌点评论文在“解耦输入输出采样率”这一问题上的定义干净，非对称编码器-解码器与频率扩展查询的设计动机清晰，实验覆盖度也属同类工作的上乘。但损失函数的设计（尤其是缩放 log1p）依赖对误差分布的经验观察，缺乏更深入的理论支撑，使得这部分工作显得更像是工程技巧的堆砌。在关键的SOTA声明上较为保守，模型在纯去噪等传统任务上未能超越专用模型，距离真正推动范式迁移尚有距离。未提供代码和模型权重，对社区的直接影响存疑。 ...

Real-World Unsupervised Models Generalize to Predict Brain Responses to Out-of-Distribution Stimuli

📄 Real-World Unsupervised Models Generalize to Predict Brain Responses to Out-of-Distribution Stimuli #模型评估 6.9/10 | 创新 1.3/2 | 严谨 1/1.5 | 实验 1.3/1.5 | 清晰 0.7/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 ✅ 6.9/10 | 前50% | #模型评估 | #无监督学习 | arxiv 👥 作者与机构第一作者：Chenggang Chen（约翰霍普金斯大学生物医学工程系）通讯作者：Chenggang Chen（约翰霍普金斯大学生物医学工程系）作者列表：Chenggang Chen（约翰霍普金斯大学生物医学工程系）、Zhiyu Yang（约翰霍普金斯大学生物医学工程系）、Xiaoqin Wang（约翰霍普金斯大学生物医学工程系）修正说明：原文作者名单中，所有三位作者均归属于同一机构（约翰霍普金斯大学生物医学工程系），使用数字上标“1”标注。原分析中重复标注机构的方式已修正。 💡 毒舌点评本文以扎实的实验论证了“真实世界数据+无监督学习”对脑反应预测的碾压级优势，跨模态OOD泛化令人印象深刻，且逻辑链条清晰。但作为顶会spotlight，方法原创性偏弱——本质是对已有无监督模型的组合与评估，缺少新算法或理论洞见；关键的贡献仅停留在“数据分布最重要”的benchmark结论层面，若不能在后续给出可操作的模型设计原则或理论解释（为何真实世界统计特性如此关键），其影响力将随模型迭代而快速衰减。视觉部分的架构混杂问题削弱了论证力度，整体仍是一篇优秀但未达卓越的验证性工作。 📌 核心摘要本文旨在回答“什么样的训练数据和目标能让深度神经网络更准确地预测大脑感觉皮层的反应”。作者提出，模型的生态效度关键在于训练数据的真实世界统计特性（而非架构或规模），且无监督目标更符合生物学习的约束。方法上，系统比较了19个听觉模型（包括HuBERT、Wav2Vec2等无监督模型，以及多种监督模型）在人类听觉皮层的两个fMRI数据集上的预测表现，同时将分析延伸至视觉皮层（婴儿视角视频训练的ResNeXt）。核心新意在于显式地解耦数据分布、学习目标和架构的贡献，并首次展示无监督真实世界模型对OOD刺激的跨语种/跨域泛化能力。主要结果：在听觉皮层预测上，基于真实多场景普通话训练的HuBERT_speech和Wav2Vec2_speech在NH2015数据集上分别达到0.773和0.743的噪声校正解释方差，比之前的最佳监督模型（CochResNet50-MultiTask, 0.729）提升6%和1.9%；在视觉皮层，婴儿视角无监督模型在Brain-Score上领先第二名（swin-small）47%以上，且camSAY-ResNeXt（0.249-0.259）与大规模ID评估的DINOv2/v3模型（0.251-0.262）分数相当，尽管其训练数据规模远小且为OOD评估。实际意义在于为神经科学计算建模提供了“数据分布 > 监督信号”的明确证据，并暗示真实环境的噪声、长尾分布和高动态范围可能是获得类脑表征的关键归因偏置。主要局限是评价指标仍限于相关性和预测对齐而非因果机制，且未在多种母语/文化背景下验证。 🔗 开源详情代码：论文中未提及本研究相关的独立代码仓库链接。模型权重： HuBERT_speech 与 Wav2Vec2_speech（在 WenetSpeech 上预训练的 Base 版本）：https://huggingface.co/TencentGameMate HuBERT_LS（LibriSpeech 预训练）：https://huggingface.co/facebook/hubert-base Wav2Vec2_LS（LibriSpeech 预训练）：https://huggingface.co/facebook/wav2vec2-base HuBERT_core (AVES-core)：https://github.com/earthspecies/aves camSAY 模型（婴儿视角预训练）：https://github.com/eminorhan/baby-vision 其他公开模型（AST、VGGish、S2T、Wav2Vec2FT、CochCNN9/ResNet50 等）的权重可从各自原始项目获取（见下方开源项目列表），论文未直接给出这些模型的独立权重文件链接。数据集： WenetSpeech：https://wenet-e2e.github.io/WenetSpeech/ LibriSpeech：http://www.openslr.org/12 FSD50k：https://zenodo.org/record/4060432 AudioSet：https://research.google.com/audioset/ YouTube-8M：https://research.google.com/youtube8m/ Million Song Dataset：http://millionsongdataset.com/ SAYCam：https://saycam.stanford.edu/ Word-Speaker-Noise 数据集 (Feather et al., 2019)：论文中未提供公开下载链接。 fMRI 数据集 (NH2015, B2021)：分别来自 Norman-Haignere et al. (2015) 与 Boebinger et al. (2021)，可向原始作者索取，论文未提供直接下载链接。 Brain-Score 中的视觉 fMRI 数据集（Coggan & Tong, 2023; Bracci et al., 2019）：随 Brain-Score 项目一起分发（见下方）。 Demo：论文中未提及。复现材料：无统一实验代码或一键复现脚本。论文中引用的开源项目： HuggingFace Transformers：https://github.com/huggingface/transformers Fairseq（S2T, Wav2Vec2 等）：https://github.com/facebookresearch/fairseq AVES（HuBERTcore）：https://github.com/earthspecies/aves Baby Vision（camSAY 模型）：https://github.com/eminorhan/baby-vision AST（Audio Spectrogram Transformer）：https://github.com/YuanGongND/ast VGGish：https://github.com/tensorflow/models/tree/master/research/audioset/vggish Brain-Score：https://github.com/brain-score/brain-score Librosa（音频分析）：https://github.com/librosa/librosa Silero VAD（语音活动检测）：https://github.com/snakers4/silero-vad pyannote.audio（说话人分类）：https://github.com/pyannote/pyannote-audio DNSMOS（语音质量评估）：https://github.com/microsoft/DNS-Challenge TencentGameMate Chinese Speech Pretrain：https://github.com/TencentGameMate/chinese_speech_pretrain 🏗️ 方法概述和架构本文并非提出新的神经网络架构，而是一套系统的模型-脑对齐评估流水线，用于比较不同预训练范式下的听觉与视觉模型在预测人类fMRI反应上的性能。 ...

Reasoning LLM Improves Speaker Recognition in Long-form TV Dramas

📄 Reasoning LLM Improves Speaker Recognition in Long-form TV Dramas 7/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1.1/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 0.3/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 7/10 | 前50% | #强化学习 | arxiv 👥 作者与机构第一作者：Yuxuan Li（清华大学）、Lingxi Xie（华为公司）（*同等贡献）通讯作者：Lingxi Xie（华为公司）、Qi Tian（华为公司、广东省人工智能与数字经济实验室（深圳））作者列表：Yuxuan Li（清华大学）、Lingxi Xie（华为公司）、Xinyue Huo（华为公司）、Jihao Qiu（中国科学院大学）、Jiacheng Shao（华为公司）、Pengfei Chen（华为公司）、Jiannan Ge（华为公司）、Kaiwen Duan（华为公司）、Qi Tian（华为公司、广东省人工智能与数字经济实验室（深圳）） 💡 毒舌点评本文为长剧集说话人识别这个复杂但略小众的任务贡献了大规模基准和基于推理LLM的Agent解决方案，工程框架和实验设计都比较完善。但光彩照人之处多在工程层面：核心方法本质上是已有模型和工具的熟练组合，虽通过GRPO让LLM学会了工具调度的时机，对“为何如此调度”的机理洞察却比较有限。此外，评价协议中对多说话人台词的处理颇为讨巧，这在一定程度上遮掩了模型在真实重叠语音中的根本短板，而且离线蒸馏数据的成本与可复现性问题也是隐忧。 📌 核心摘要问题：长剧集说话人识别（SR）要求在数十到上百个角色构成的候选池中，为每句台词准确标注说话人身份。与标准说话人日志（SD）不同，此任务需融合听觉、视觉和语言线索，以应对短时语音特征不可靠、说话人不在画面中、高角色密度等复杂情况。方法核心：首先基于声纹嵌入和“视觉锚点”假设（说话人会在台词时间戳附近出现），进行标签传播（Label Propagation）获得初始伪标签。然后训练一个基于Qwen3-8B的推理大模型（DramaSR-LRM），使其能在推理过程中自主调用三个工具——voice_sim（声纹相似度）、video_cap（层级化视频描述）、char_relation（角色关系图谱），进行多证据链式推理（CoT），最终输出修正后的说话人标注。与已有方法的新颖之处：将长剧集说话人识别重新定义为Agent式的多工具推理任务，让模型学习在声学确定性低时主动寻求视觉和关系证据，而非仅做声学匹配。通过GRPO强化学习，模型在“何时信任何种证据”这个策略上得到了优化，这一点在极短台词上的显著提升中得到了体现。主要实验结果：在自建的DramaSR-532K基准的11部测试剧集（428K句台词）上，DramaSR-LRM（带置信度采样）较标签传播基线实现绝对准确率提升2.30%（85.49% \(\rightarrow\) 87.79%）。尤其在极短台词（<0.5秒）上提升9.20%，在Lost剧集上提升5.16%。实际意义：为长视频内容理解提供了可落地的高精度说话人标注工具，能直接改善下游视频摘要和QA任务的性能；DramaSR-532K基准本身也填补了该领域大规模评测资源的空白。主要局限性：评价协议对多说话人台词处理过于乐观；训练高度依赖闭源大模型Gemini-3-Pro生成的CoT数据，可复现性存疑；方法依赖精确的字幕和时间戳，无法端到端处理原始音频；视觉锚点假设限制了其对全程画外音旁白的识别能力。 🔗 开源详情代码：链接为 https://www.github.com/198808xc/DramaSR-LRM，但目前为无效占位符，无代码。模型权重：论文中未提及会发布模型权重。数据集：DramaSR-532K声称将公开，但未提供独立的获取链接或托管平台。 Demo：论文中未提及。复现材料：论文中未提及。论文提及的开源项目（未提供直接链接）：ERes2Net, pyannote, Qwen系列模型, vLLM, CLIP, PaddleOCR, InsightFace, 3D-Speaker toolkit, BAAI bge等。 🏗️ 方法概述和架构本论文提出DramaSR-LRM，这是一个基于大推理模型的多阶段说话人识别Agent系统。其整体流程分为两个宏观阶段：初始化阶段（标签传播）和迭代精炼阶段（LRM推理）。 ...

ReGen: Hierarchical Multi-Prompt Representation Generation for Efficient Waveform Diffusion Models

📄 ReGen: Hierarchical Multi-Prompt Representation Generation for Efficient Waveform Diffusion Models #语音编码 #语音合成 8/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.9/1 | 影响 1.2/1.5 | 开源 0.4/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8/10 | 前25% | #语音编码 | #流匹配 | #语音合成 | arxiv 👥 作者与机构第一作者：Sang-Hoon Lee（Ajou University, Department of Artificial Intelligence）通讯作者：Sang-Hoon Lee（Ajou University, Department of Artificial Intelligence）第二作者：Ha-Yeong Choi（KT Corp., Seoul, Korea） 💡 毒舌点评本文将火爆的表示对齐（REPA）升级为层次化多提示表示生成，配合自己捣鼓的“广义流匹配（GFM）”，在12.5Hz极低维度下重建出可懂语音，胆识过人不假。但GFM只是GED的简单速度场移植，理论深度存疑；排斥项的超参搜索如同开盲盒，且对比基线全倾向GAN编解码器，与同宗同源的纯扩散基线（如FlowDec）连个照面都没打。代码和权重还锁在保险柜里，评审能给的信任额度实在有限。 ...