C2GA: A Class-Controllable Generative Augmentation Framework for Respiratory Sound Classification
📄 C2GA: A Class-Controllable Generative Augmentation Framework for Respiratory Sound Classification #音频分类 #数据增强 #生成模型 7.3/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.3/10 | 前50% | #音频分类 | #变分自编码器 | #数据增强 #生成模型 | arxiv 👥 作者与机构 作者:Ziqi Ma, Mengyu Han, Anteng Cai, Zhanchong Liu, Bowen Feng, Hang Yu, Sheng Hu 机构:上海大学计算机工程与科学学院;西交利物浦大学创业与技术学院(太仓)人工智能与先进计算学院;大阪大学情报科学研究科 💡 毒舌点评 这篇论文工作量扎实,试图用离散表示和Transformer来解决呼吸音分类这个老大难问题。动机清晰,痛点抓得准,方法设计也算精巧,特别是那个“原型融合”的想法。但作者在讲故事时,有些关键的“证据链”断了。你说你的方法“临床有效”,请问有医生背书吗?生成的湿啰音,是能骗过老中医还是能骗过听诊器?另外,实验都在自家精心清洗过的数据集上,这就像在无尘车间里测试防尘口罩——看起来很美好,但离真实世界的“脏乱差”还有多远?最后,代码、数据、权重,三无产品,让想复现的同行只能对着公式空想。总之,是个不错的工作,但离“临床可用”和“广泛可复现”的终点,还有好几公里的坑要填。 ...