我使用iterableDataset是因为我有大量的数据。由于IterableDataset不会将所有数据存储在内存中,因此我们无法在训练前直接计算整个数据集的最小值/最大值。这是因为对于最小最大值,我们需要计算数据中观察到的最小x值和最大x值。我的问题是,你会如何应用最小最大缩放?
你会怎么继续说下去?
我不确定如何解决这个问题,因为我真的必须扩展数据。
在训练之前,作为数据处理的一部分,您必须迭代数据集以计算最小/最大值。迭代一次,迭代时在线计算最小/最大值,然后保存以备将来使用。
对于太大而无法存储在内存中的数据集,使用类似库可能会有所帮助 datasets 它使用apachearrow作为后端。这允许您使用完整的数据集,而无需将其加载到内存中。