代码之家 › 专栏 › 技术社区 › Will Heitman

图像分类器训练数据中每个类的大小必须相等吗?

nvidia-digits caffe computer-vision machine-learning

0

Will Heitman · 技术社区 · 8 年前

我目前正在使用Nvidia数字训练图像分类器。我下载了1000000张图片作为 ILSVRC12 数据集。如您所知,该数据集由1000个类组成,每个类有1000个图像。问题是,很多图片都是从死了的Flickr URL下载的,因此我的数据集中有相当一部分(约5-10%)填充了下面显示的通用“不可用”图片。我计划遍历并删除这个“通用”图像的每个副本,这样我的数据集就只剩下与每个类相关的图像。

换句话说,我可以删除这些通用图像而不影响分类器的准确性吗?提前感谢您的反馈。

1 回复 | 直到 8 年前

1

0

Shai 8 年前

每个类的训练数据数量不必完全相等。10%的差异不会显著影响训练过程。
如果您仍然担心标签不平衡,可以考虑使用 "InfogainLoss" 层以补偿缺少的示例。

附言
看见 this answer 例如,在下载imagenet照片时如何过滤这些图像。