Logit Distillation on Manifolds: Mapping by Learning

📄 Logit Distillation on Manifolds: Mapping by Learning #知识蒸馏 #参数高效微调 6.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 0.3/1.5 ✅ 6.5/10 | 前50% | #语音识别 | #知识蒸馏 | #参数高效微调 | arxiv 👥 作者与机构 Yiru Yang (University of Zurich), Junling Wang (ETH Zurich), Nishant Kumar Singh (University of Zurich), Luohong Wu (University of Zurich), Haoran Yan (Deutsche Bank Securities) ...

2026-06-03 · 更新于 2026-06-19 · 3 min · 509 words

MoDAl: Self-Supervised Neural Modality Discovery via Decorrelation for Speech Neuroprosthesis

📄 MoDAl: Self-Supervised Neural Modality Discovery via Decorrelation for Speech Neuroprosthesis #自监督学习 #对比学习 #多模态模型 #参数高效微调 6.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.6/10 | 前25% | #自监督学习 | #自监督学习 | #对比学习 #多模态模型 | arxiv 👥 作者与机构 作者:Yuanhao Chen, Peter Chin 机构:Dartmouth College, Hanover, NH, USA 💡 毒舌点评 一篇动机良好、理论包装扎实的工作,但将一个在单个数据集、单个参与者上的工程优化,拔高到了“模态发现”的哲学高度。最大的卖点——Area 44信号的“起死回生”——其普适性存疑,且缺乏与最先进级联系统的公平比较。理论命题(Proposition 3.1 & 3.2)虽优雅,但与现实训练条件(τ为有限值)脱节,更像一个解释现象的后验故事而非设计指南。代码未开源是硬伤,严重阻碍了验证与复现。 ...

2026-06-03 · 更新于 2026-06-19 · 2 min · 400 words

OmniHalluc-L: Counterfactual Benchmarking and Modality-Perturbation Reliability Calibration for Long-Form Omni Hallucination

📄 OmniHalluc-L: Counterfactual Benchmarking and Modality-Perturbation Reliability Calibration for Long-Form Omni Hallucination #多模态模型 #模型评估 7.8/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 7.8/10 | 前25% | #多模态模型 | #模型评估 | arxiv 👥 作者与机构 Zixuan Dong, Jiafu Tang, Zhide Lei, Zhe Cao, Zijie Zhang, Yanghai Wang, Shihao Li, Xiaodong Wang, Baoyun Peng, Jiaheng Liu. 作者来自国防科技大学和南京大学。 ...

2026-06-03 · 更新于 2026-06-19 · 3 min · 438 words

Sandboxed Coding Agents are Competitive Omni-modal Task Solvers

📄 Sandboxed Coding Agents are Competitive Omni-modal Task Solvers #强化学习 #基准测试 7.9/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.9/10 | 前25% | #强化学习 | #强化学习 | #基准测试 | arxiv 👥 作者与机构 论文作者为Dongping Chen, Xuanao Huang, Zhihan Hu, Qingyuan Shi, Dianqi Li, Tianyi Zhou。机构包括马里兰大学(University of Maryland)和穆罕默德·本·扎耶德人工智能大学(MBZUAI)。 💡 毒舌点评 这篇论文像一个聪明的“工具人”(编码代理)突然发现自己能干“多媒体专家”(原生全模态模型)的活,而且还干得又快又省(少令牌)。作者不仅展示了这个现象,还像产品经理一样分析了“工具人”的故障模式,并手把手教它(Code-X训练)以及设计了新的“技能考核标准”(TerminalBench-O)。优点是思路清晰,实证充分,对“原生感知必要性”这个假设发起了有价值的挑战。缺点在于,部分实验设计有“田忌赛马”的嫌疑,比较基准的选择和设置可能对原生模型不够公平;结论的普适性被自身承认的局限性所削弱;且“处理”任务的新基准(TerminalBench-O)虽然立意好,但目前结果过于惨淡,难以支撑起“下一个前沿”的宏大宣言。总体是一篇扎实的系统性工作,但离改变范式还有一段距离。 📌 核心摘要 本文挑战了“全模态任务必须由原生全模态模型解决”的传统假设。研究发现,仅具备文本+图像访问能力的沙箱化编码代理,通过编写代码、调用ffmpeg、Whisper等工具从原始媒体中提取证据,能够将全模态任务转化为检索与信息处理问题。在OmniGAIA等多个基准上,此类代理(如GPT-5.4 xhigh)的性能可匹配甚至超越Gemini 3.1 Pro等原生全模态模型,同时消耗的令牌更少。论文通过失败分类法和过程级评估分析了代理的局限,并提出三种技能注入方法以提升性能。为探索开源能力,论文提出Code-X训练方案(SFT+可验证奖励RL)和OmniCoding数据集,并在Qwen开源模型上获得提升。此外,论文引入了首个面向全模态处理任务的基准TerminalBench-O,揭示当前代理在该任务上的不足。 ...

2026-06-03 · 更新于 2026-06-19 · 4 min · 720 words

SegTune: Structured and Fine-Grained Control for Song Generation

📄 SegTune: Structured and Fine-Grained Control for Song Generation #音乐生成 #生成模型 #多模态模型 #数据增强 #参数高效微调 8.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.5/10 | 前25% | #音乐生成 | #数据增强 | #生成模型 #多模态模型 | arxiv 👥 作者与机构 Yuejiao Wang, Zihao Ji, Pengfei Cai, Xu Li, Haorui Zheng, Zewen Song, Zhongliang Liu, Chen Zhang, Pengfei Wan。机构为Kling Team, Kuaishou Technology;University of Science and Technology of China;Peking University。论文在Kuaishou Technology的Kling Team实习期间完成。 ...

2026-06-03 · 更新于 2026-06-19 · 3 min · 451 words

SiamCTC: Learning Speech Representations through Monotonic Temporal Alignment

📄 SiamCTC: Learning Speech Representations through Monotonic Temporal Alignment #自监督学习 #语音识别 #数据增强 7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7/10 | 前50% | #语音识别 | #自监督学习 | #数据增强 | arxiv 👥 作者与机构 作者:SooHwan Eom, Mark Hasegawa-Johnson, Chang D. Yoo 机构:Korea Advanced Institute of Science and Technology (KAIST), University of Illinois Urbana-Champaign (UIUC) ...

2026-06-03 · 更新于 2026-06-19 · 2 min · 328 words

SketchSong: Hierarchical Song Generation with Sketch Planning and Fine-Grained Multi-Track Modeling

📄 SketchSong: Hierarchical Song Generation with Sketch Planning and Fine-Grained Multi-Track Modeling #音乐生成 #音频生成 #多模态模型 #数据增强 #低资源 8.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 8.6/10 | 前25% | #音乐生成 | #数据增强 | #音频生成 #多模态模型 | arxiv 👥 作者与机构 论文作者:Xiaoyue Duan, Nanxing Hu, Yutang Feng, Xudong Yan, Jiatao Chen, Jinchao Zhang, Jie Zhou 机构:腾讯微信AI模式识别中心 (Pattern Recognition Center, WeChat AI, Tencent Inc.) 通讯作者:Jinchao Zhang (†Work done during an internship at WeChat AI, Tencent Inc. ‡Corresponding author) 💡 毒舌点评 这篇工作在概念层面抓住了当前歌曲生成模型的两个痛点:宏观结构规划不足和伴奏部分建模粗糙。提出的“草图规划”和“四轨建模”思路直接、清晰,且能互补。实验设计比较扎实,消融研究有力地支撑了各自组件的贡献。然而,方法的工程实现存在明显的“补丁”感,尤其是第二阶段多轨道模型却沿用第一阶段(或基线)为混合信号训练的伴奏解码器,这就像声称做了精细分轨烹饪,最后却用同一个大锅炒在一起,严重削弱了“细粒度”声称的冲击力。论文在局限性部分诚实地指出了这一点,但这也使得其作为一项完整工作的贡献打了折扣。与经过充分后训练(如DPO、对齐优化)的开源系统相比,本系统在部分主观指标上仍有差距,这进一步说明了其“潜力”与“现状”的差距。总体而言,这是一篇扎实的系统性工作,但缺乏一个令人惊艳的、完全自洽的闭环。 ...

2026-06-03 · 更新于 2026-06-19 · 5 min · 933 words

SoulX-Transcriber: A Robust End-to-End Framework for Multi-Speaker Speech Transcription

📄 SoulX-Transcriber: A Robust End-to-End Framework for Multi-Speaker Speech Transcription #语音识别 #说话人日志 #大语言模型 8.8/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 8.8/10 | 前50% | #语音识别 | #说话人日志 | #大语言模型 | arxiv 👥 作者与机构 作者: Yuhang Dai (共同贡献), Haopeng Lin (共同贡献), Zhennan Lin, Jiale Qian, Jun Wu, Hanke Xie, Hao Meng, Hanlin Wen, Chuang Ding, Shunshun Yin, Ming Tao, Lei Xie, Xinsheng Wang (通讯作者) 机构: Audio, Speech and Language Processing Group (ASLP@NPU), Northwestern Polytechnical University, Xi’an, China Soul AI Lab, China Moonstep AI, China 💡 毒舌点评 这篇技术报告(Technical Report)展示了一个工程能力扎实的系统。优点是端到端的思路清晰,两阶段训练的动机明确,且在公开基准上取得了SOTA或极具竞争力的结果,尤其是长语音和中文场景。数据生成管线的细节描述相当详尽,是重要的工程贡献。然而,作为一篇论文投稿,其“新意”和“深度”略显不足。模型架构本身(基于Qwen3-Omni)并非原创,核心创新在于将多个说话人相关任务(STP, TSER, SV)整合到预训练阶段,这更像是一个精心设计的“训练技巧”组合,而非理论上的突破。最大的软肋在于依赖大量未公开的内部数据集,这严重削弱了结论的普适性和工作的可复现性。此外,缺乏对关键组件(如多任务预训练中各任务贡献)的消融研究,使得我们无法判断哪些部分真正有效。最终,这篇工作更像是一份优秀的工程实践报告,而非一篇能推动该领域基础认知前进的学术论文。 ...

2026-06-03 · 更新于 2026-06-19 · 3 min · 454 words

SpeakerCard-1M: An Evidence-Grounded Speaker Card Corpus for In-the-Wild Speaker Verification

📄 SpeakerCard-1M: An Evidence-Grounded Speaker Card Corpus for In-the-Wild Speaker Verification #说话人验证 #多模态模型 #数据集 #自监督学习 #预训练 7.4/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.4/10 | 前25% | #说话人验证 | #自监督学习 | #多模态模型 #数据集 | arxiv 👥 作者与机构 Junyi Peng, Oldřich Plchot, Xiao Song, Dading Chong, Lichun Fan, Hang Su, Themos Stafylakis, Junjie Li, Kong Aik Lee, Shuai Wang, Jan Černocký (论文未在摘要中提供具体机构,通常包括布拉格捷克技术大学、小米、OPPO等) ...

2026-06-03 · 更新于 2026-06-19 · 3 min · 508 words

Speech Emotion Recognition using Attention-based LSTM-Network with Residual Connection

📄 Speech Emotion Recognition using Attention-based LSTM-Network with Residual Connection #语音情感识别 7.5/10 | 创新 1/2 | 严谨 1.1/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.5/10 | 前50% | #语音情感识别 | #语音情感识别 | arxiv 👥 作者与机构 作者:Daniil Krasnoproshin, Maxim Vashkevich。论文未明确提及作者所属机构。 💡 毒舌点评 这篇论文的工作像一位严谨的工程师在解决一个明确的工程问题:如何用更少的参数做语音情感识别。它没有追求花哨的理论创新,而是扎实地将“残差连接”这个成熟技巧移植到了LSTM-SA框架上,并在单一数据集上做了充分的对比实验。优点在于实验设计(严格说话人独立划分、多次运行报告均值和标准差、贝叶斯超参优化)相对规范,结论清晰。缺点是格局较小:模型比较的“天花板”是那些较老的CNN方法,对标的“轻量级”最新工作缺失;应用场景的“边缘设备”部署只停留在口头,没有任何推理速度、功耗的实证数据。总的来说,是一篇合格的、完成度较高的应用型短文,但离顶会级别的“重大贡献”还有显著距离。 📌 核心摘要 本文提出了一种用于语音情感识别的轻量级架构 ResLSTM-SA。该架构在经典的 LSTM + 软注意力机制(LSTM-SA)基础上,增加了一个隐藏层维度与输入特征维度相匹配的初始 LSTM 层,并引入残差连接,以增强时序特征的建模能力。在 RAVDESS 数据集上,采用严格的说话人独立划分进行评估,并使用贝叶斯超参数优化寻找最佳配置。最佳变体 ResLSTM-SA-h64 仅用 46.8k 参数,取得了 0.6232 的平均 UAR(最高 0.6517),在参数效率上显著优于基线 LSTM-SA 模型和一些更大的 CNN 模型,与大规模自监督模型相比,在精度上存在差距但具有显著的参数优势。 ...

2026-06-03 · 更新于 2026-06-19 · 3 min · 459 words