我正在为自定义数据集上的对象检测实现YOLO v2和3。虽然YOLO v2和3使用了大约5个锚定框,但我通常会对每张图像进行50-100次检测。我的感觉是,如果只有5个锚盒,那么每个图像最多有5个检测,对吗?因此,我试图了解是否需要根据我的数据集调整锚定框的数量。
这样,我就永远不会遇到没有相应锚箱的探测。这是适应YOLO的正确方式吗?
如果我的直觉是正确的,那么我需要用k-均值来聚类地面真相图像中的边界框,并设置锚框坐标。然后我将使用本文中指定的常用回归方法 blog post .
416x416x3 输出是 13x13xN
416x416x3
13x13xN
假设图像中有50个边界框,每个边界框应根据边界框中心与单元中心的距离分配给一个单元。现在,对于这个单元,从5个提供最佳欠条的锚框中选择一个。对于每个单元,构建一个标签,该标签应包含所有5个锚定框(除所选锚定框外,其他锚定框将标记为零)的置信度分数、框位置和尺寸以及类别分数。
关于链接中提到的k-means聚类,它描述了它们是如何到达五个锚箱的。你最好只使用5个边界框,除非你有任何特定的理由包含更多的边界框,或者如果有任何特定的要求,你可以使用不同的形状。
锚箱的数量 部分地 影响检测到的框的数量。
C是你试图检测的类的数量。因此,输出为13*13=169 网格单元
每个网格单元都可以检测到 信心 价值观网格单元的每个B边界框都有一个置信度,介于0和1之间。如果盒子的置信度大于 门槛 .
[0.02,0.3,0.001,0.9,0.03](B=5)
所以如果你想减少检测到的盒子数量, 我建议你提高门槛