|
|
1
2
在每次拆分时,您都将数据集拆分为越来越小的子集。从单个数据文件开始。将其作为流打开,一次只处理一行,以确定要拆分的属性。一旦有了第一个决策功能,就可以将原始数据文件拆分为两个较小的数据文件,每个文件都包含拆分数据的一个分支。复发。数据文件应该越来越小,直到您可以将它们加载到内存中。这样,您就不必标记行并在一个巨大的数据文件中不断地跳跃。 |