我目前正在使用Nvidia数字训练图像分类器。我下载了1000000张图片作为 ILSVRC12 数据集。如您所知,该数据集由1000个类组成,每个类有1000个图像。问题是,很多图片都是从死了的Flickr URL下载的,因此我的数据集中有相当一部分(约5-10%)填充了下面显示的通用“不可用”图片。我计划遍历并删除这个“通用”图像的每个副本,这样我的数据集就只剩下与每个类相关的图像。
换句话说,我可以删除这些通用图像而不影响分类器的准确性吗?提前感谢您的反馈。
每个类的训练数据数量不必完全相等。10%的差异不会显著影响训练过程。 如果您仍然担心标签不平衡,可以考虑使用 "InfogainLoss" 层以补偿缺少的示例。
"InfogainLoss"
附言 看见 this answer 例如,在下载imagenet照片时如何过滤这些图像。