代码之家  ›  专栏  ›  技术社区  ›  Will Heitman

图像分类器训练数据中每个类的大小必须相等吗?

  •  0
  • Will Heitman  · 技术社区  · 8 年前

    我目前正在使用Nvidia数字训练图像分类器。我下载了1000000张图片作为 ILSVRC12 数据集。如您所知,该数据集由1000个类组成,每个类有1000个图像。问题是,很多图片都是从死了的Flickr URL下载的,因此我的数据集中有相当一部分(约5-10%)填充了下面显示的通用“不可用”图片。我计划遍历并删除这个“通用”图像的每个副本,这样我的数据集就只剩下与每个类相关的图像。

    换句话说,我可以删除这些通用图像而不影响分类器的准确性吗?提前感谢您的反馈。
    file not available image

    1 回复  |  直到 8 年前
        1
  •  0
  •   Shai    8 年前

    每个类的训练数据数量不必完全相等。10%的差异不会显著影响训练过程。
    如果您仍然担心标签不平衡,可以考虑使用 "InfogainLoss" 层以补偿缺少的示例。

    附言
    看见 this answer 例如,在下载imagenet照片时如何过滤这些图像。

    推荐文章