什么是目标检测?大多数人最初学习计算机视觉都是通过图像分类。简单来说,就是给模型输入一张图像,模型利用之前见过的数据来预测图像的内容。例如,你的模型可能会看到下图,并判断这是一张狗的图片。这很有用,但真实的图像通常比这复杂得多。如果像这样的照片里有多只狗,会发生什么呢?或者一张有多只狗和一把椅子的照片?从这些图像中我们可以看出,仅仅一个明确的标签是不够的。为了让这个计算机视觉模型能够实用地应用于许多实际任务,它还需要做更多的事情。它需要告诉我们每个物体是什么,以及每个物体位于哪里。从宏观层面来看,目标检测结合了两项任务。分类:这是什么 物体?定位:对象在哪里?这个位置通常用边界框表示,边界框就是围绕物体的一个矩形。