当我们在谈论迁移学习时,到底在迁移什么?

本文的讨论源于近期开展的亚细胞水平细胞分型实验。一项相关研究中,利用snRNA-seq的丰富标签辅助了空间转录组(spatial transcriptomics)的细胞类型注释。鉴于snRNA-seq数据量大、成本低廉且标签信息丰富,而空间转录组的细胞注释则相对昂贵,针对这一问题,经典的解决方案是利用snRNA-seq数据训练一个分类器,进而对空间转录组数据进行细胞类型分类。这正是典型的Teacher-Student(教师-学生)学习范式。

这种迁移学习模式到底是在迁移什么知识?

snRNA-seq向spatial transcriptomics迁移的一个显著特点是基因能够对齐,且基因间的相互作用关系具有保守性。这意味着无论snRNA-seq数据是否带有标签,这种基因间的保守关系都不会受到影响。随后的实验也证实,主动引入标签信息甚至可能破坏这种固有的关系。因此,在处理这类具有深层生物学关联的数据迁移学习问题时,我们应更深入地探究其内在机制。从某种程度上说,在这种特定情境下,数据的标签信息不仅可能无用,甚至可能产生负面影响,这使得问题自然地转向了无监督学习范式。这也印证了“无监督学习是深度学习未来重要发展方向”这一观点。