目标检测 的任务是:

- 识别出图像中有什么物体(分类问题)。
- 定位出每个物体在图像中的具体位置(回归问题)。
输出通常是一个列表,每个物体包含:
- 边界框:一个矩形框,常用
(x_min, y_min, x_max, y_max)或(x_center, y_center, width, height)表示。 - 类别标签:如“人”、“汽车”、“狗”。
- 置信度分数:模型对该预测的把握程度(0~1之间)。
与相关任务的对比:
- 图像分类:只回答“图像里主要是什么?”(如:这是一张猫的图片)。
- 目标检测:回答“图像里有什么,它们分别在哪?”(如:图中有3个人和1只狗,并给出它们的位置框)。
- 语义分割:为图像的每一个像素分类(如:所有属于“人”的像素被标记为同一类,不区分个体)。
- 实例分割:目标检测+语义分割,即区分每个独立的物体实例,并为每个实例的像素进行标记。
核心任务分解
-
分类:
- 判断边界框内的物体属于预定义类别中的哪一种(如COCO数据集的80类)。
- 是一个多类别分类问题。
-
定位:
- 确定物体所在矩形框的精确坐标。
- 是一个回归问题,模型需要预测出连续的空间坐标值。
关键概念与技术组件
-
边界框:
物体位置的数学表示,是目标检测的基础输出形式。
-
交并比:
- IoU 是衡量预测框与真实框重叠程度的指标。
IoU = 交集面积 / 并集面积- 用于评估定位精度、匹配预测与真实框(通常IoU > 0.5视为匹配成功)、以及在非极大值抑制中衡量框之间的重叠。
-
非极大值抑制:
- NMS 是后处理关键步骤,用于解决一个物体被多个边界框检测到的问题。
- 步骤: a. 将所有预测框按置信度排序。 b. 选出置信度最高的框,加入最终输出列表。 c. 计算该框与剩余所有框的IoU,剔除IoU超过设定阈值(如0.5)的框(认为它们检测的是同一物体)。 d. 重复b、c步骤,直到所有框被处理。
-
评估指标:
- 精度:预测为正的样本中,真实为正的比例。
- 召回率:所有真实为正的样本中,被正确预测出来的比例。
- 平均精度:这是最核心的指标,在不同置信度阈值下,计算“精度-召回率”曲线下的面积。mAP 则是所有类别AP的平均值,是衡量模型整体性能的黄金标准。
主流方法演进
-
传统方法(2014年前):
- 思路:区域选择(滑动窗口) -> 特征提取(如HOG, SIFT) -> 分类器分类(如SVM)。
- 缺点:速度慢,精度低,窗口冗余。
- 代表:Viola-Jones(人脸检测), HOG + SVM。
-
两阶段检测器:
- 思路:生成候选区域 -> 对每个候选区域分类和微调边界框。
- 特点:精度高,速度相对慢。
- 代表系列:
- R-CNN:开创性工作,但速度极慢。
- Fast R-CNN:引入ROI Pooling,共享卷积特征,大幅提速。
- Faster R-CNN:引入区域提议网络,实现端到端训练,成为两阶段标杆。
-
一阶段检测器:
- 思路:将图像网格化,直接在每个网格位置预测边界框和类别。
- 特点:速度快,精度略低于同期两阶段模型,但不断改进。
- 代表系列:
- YOLO: “You Only Look Once”,将检测视为单一的回归问题,速度极快。
- SSD: 在不同尺度的特征图上进行预测,对小物体检测更好。
- RetinaNet: 提出Focal Loss,有效解决正负样本极端不平衡问题,使一阶段模型精度匹敌两阶段。
-
Anchor-Based vs. Anchor-Free:
- Anchor-Based:Faster R-CNN, YOLOv2-v4, SSD,预先定义一系列不同大小和长宽比的“锚框”作为参考,模型预测的是相对于锚框的偏移量。
- Anchor-Free:CornetNet, CenterNet, FCOS,摒弃锚框,直接预测关键点(如物体中心点或角点)或到边界框四边的距离,简化设计。
-
Transformer与端到端检测:
- DETR:首次将Transformer成功应用于目标检测,将检测视为一个集合预测问题,完全摒弃了锚框、NMS等手工设计组件,实现真正的端到端。
- 后续改进:如Deformable DETR,解决了DETR收敛慢、小物体检测差的问题。
重要数据集
- PASCAL VOC:早期基准数据集(20个类别)。
- MS COCO:当前最主流的基准数据集(80个类别),背景更复杂,物体更小、更密集,评估标准(mAP)更严格。
- Open Images:大规模数据集,包含更多类别和图像。
主要应用场景
- 自动驾驶:车辆、行人、交通标志检测。
- 视频监控:异常行为检测、人流统计。
- 智慧零售:客流量分析、货架商品检测。
- 医学影像:病灶检测与定位。
- 无人机与遥感:农田分析、城市规划、目标搜查。
- 智能手机:人像模式、AR特效、扫码。
目标检测的核心是 “定位+分类” ,其发展主线是从传统手工特征到基于深度学习的特征表达,从多步骤流水线到端到端一体化,从两阶段高精度到一阶段高效率,再到Anchor-Free和Transformer带来的新范式,理解 IoU、NMS、mAP、Anchor、两阶段/一阶段 这些核心概念,是掌握目标检测的基础。
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。