代码之家  ›  专栏  ›  技术社区  ›  Saffy

如何在IterableDataset上应用最小最大缩放?

  •  0
  • Saffy  · 技术社区  · 4 月前

    我使用iterableDataset是因为我有大量的数据。由于IterableDataset不会将所有数据存储在内存中,因此我们无法在训练前直接计算整个数据集的最小值/最大值。这是因为对于最小最大值,我们需要计算数据中观察到的最小x值和最大x值。我的问题是,你会如何应用最小最大缩放?

    你会怎么继续说下去?

    我不确定如何解决这个问题,因为我真的必须扩展数据。

    1 回复  |  直到 4 月前
        1
  •  0
  •   Karl    4 月前

    在训练之前,作为数据处理的一部分,您必须迭代数据集以计算最小/最大值。迭代一次,迭代时在线计算最小/最大值,然后保存以备将来使用。

    对于太大而无法存储在内存中的数据集,使用类似库可能会有所帮助 datasets 它使用apachearrow作为后端。这允许您使用完整的数据集,而无需将其加载到内存中。

    推荐文章