代码之家 › 专栏 › 技术社区 › Flush

如何在计算机视觉的多类分类任务中分割数据集?

optimizer-deeplearning computer-vision pytorch

Flush · 技术社区 · 2 年前

我一般都在谈论零样本学习。我觉得目前用于多任务分类的数据分割方法不是很合理,因为验证集和测试集包含完全不同的类。这很容易导致在验证集上调整的参数在测试集上表现不佳,从而使选择真正产生高性能的参数变得困难。

据我所见,唯一的解决方案是调整验证集上的参数,同时评估测试集上的性能。否则,很难知道模型本身的发展方向。然而,这种方法不是很标准,几乎等同于直接在测试集上调整参数。当然,我目前的理解仅限于视频分类领域。我不确定其他字段是否遵循相同的分类方法。

0 回复 | 直到 2 年前

Paplepel93 2 年前

在机器学习中,在测试集上调整参数总是一个坏主意。对模型的可推广性进行合理近似的唯一方法是在看不见的数据上进行测试。一旦你将建模过程的任何决定建立在测试集的基础上,你就会引入偏差,从而降低真正可推广性的近似值。

我真的不明白为什么你需要评估测试集的性能才能知道模型的发展方向。这也可以在验证集上完成。

我以前遇到过需要第二个验证集的情况,因此将数据集划分为4个块(train、val1、val2、test)。这不是标准的,但也许这可以解决你的情况。

推荐文章

anfas2 · 如何使用MediaPipe在Python中检测到的地标上叠加自定义形状?

1 年前

Hui Liu · 为什么在透视投影过程中需要使用齐次坐标作为相机/世界坐标?

1 年前

Jaime Manuel Garcia Dominguez · 为什么图像结果翻转了90度?

2 年前