一、核心定义与目标

星博讯 AI基础认知 1

目标检测 的任务是:

一、核心定义与目标-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

  1. 识别出图像中有什么物体(分类问题)。
  2. 定位出每个物体在图像中的具体位置(回归问题)。

输出通常是一个列表,每个物体包含:

  • 边界框:一个矩形框,常用 (x_min, y_min, x_max, y_max)(x_center, y_center, width, height) 表示。
  • 类别标签:如“人”、“汽车”、“狗”。
  • 置信度分数:模型对该预测的把握程度(0~1之间)。

与相关任务的对比

  • 图像分类:只回答“图像里主要是什么?”(如:这是一张猫的图片)。
  • 目标检测:回答“图像里有什么,它们分别在哪?”(如:图中有3个人和1只狗,并给出它们的位置框)。
  • 语义分割:为图像的每一个像素分类(如:所有属于“人”的像素被标记为同一类,不区分个体)。
  • 实例分割:目标检测+语义分割,即区分每个独立的物体实例,并为每个实例的像素进行标记。

核心任务分解

  1. 分类

    • 判断边界框内的物体属于预定义类别中的哪一种(如COCO数据集的80类)。
    • 是一个多类别分类问题。
  2. 定位

    • 确定物体所在矩形框的精确坐标。
    • 是一个回归问题,模型需要预测出连续的空间坐标值。

关键概念与技术组件

  1. 边界框

    物体位置的数学表示,是目标检测的基础输出形式。

  2. 交并比

    • IoU 是衡量预测框与真实框重叠程度的指标。
    • IoU = 交集面积 / 并集面积
    • 用于评估定位精度、匹配预测与真实框(通常IoU > 0.5视为匹配成功)、以及在非极大值抑制中衡量框之间的重叠。
  3. 非极大值抑制

    • NMS 是后处理关键步骤,用于解决一个物体被多个边界框检测到的问题。
    • 步骤: a. 将所有预测框按置信度排序。 b. 选出置信度最高的框,加入最终输出列表。 c. 计算该框与剩余所有框的IoU,剔除IoU超过设定阈值(如0.5)的框(认为它们检测的是同一物体)。 d. 重复b、c步骤,直到所有框被处理。
  4. 评估指标

    • 精度:预测为正的样本中,真实为正的比例。
    • 召回率:所有真实为正的样本中,被正确预测出来的比例。
    • 平均精度:这是最核心的指标,在不同置信度阈值下,计算“精度-召回率”曲线下的面积。mAP 则是所有类别AP的平均值,是衡量模型整体性能的黄金标准。

主流方法演进

  1. 传统方法(2014年前)

    • 思路:区域选择(滑动窗口) -> 特征提取(如HOG, SIFT) -> 分类器分类(如SVM)
    • 缺点:速度慢,精度低,窗口冗余。
    • 代表:Viola-Jones(人脸检测), HOG + SVM
  2. 两阶段检测器

    • 思路:生成候选区域 -> 对每个候选区域分类和微调边界框
    • 特点:精度高,速度相对慢。
    • 代表系列:
      • R-CNN:开创性工作,但速度极慢。
      • Fast R-CNN:引入ROI Pooling,共享卷积特征,大幅提速。
      • Faster R-CNN:引入区域提议网络,实现端到端训练,成为两阶段标杆。
  3. 一阶段检测器

    • 思路:将图像网格化,直接在每个网格位置预测边界框和类别
    • 特点:速度快,精度略低于同期两阶段模型,但不断改进。
    • 代表系列:
      • YOLO: “You Only Look Once”,将检测视为单一的回归问题,速度极快。
      • SSD: 在不同尺度的特征图上进行预测,对小物体检测更好。
      • RetinaNet: 提出Focal Loss,有效解决正负样本极端不平衡问题,使一阶段模型精度匹敌两阶段。
  4. Anchor-Based vs. Anchor-Free

    • Anchor-Based:Faster R-CNN, YOLOv2-v4, SSD,预先定义一系列不同大小和长宽比的“锚框”作为参考,模型预测的是相对于锚框的偏移量。
    • Anchor-Free:CornetNet, CenterNet, FCOS,摒弃锚框,直接预测关键点(如物体中心点或角点)或到边界框四边的距离,简化设计。
  5. Transformer与端到端检测

    • DETR:首次将Transformer成功应用于目标检测,将检测视为一个集合预测问题,完全摒弃了锚框、NMS等手工设计组件,实现真正的端到端。
    • 后续改进:如Deformable DETR,解决了DETR收敛慢、小物体检测差的问题。

重要数据集

  • PASCAL VOC:早期基准数据集(20个类别)。
  • MS COCO:当前最主流的基准数据集(80个类别),背景更复杂,物体更小、更密集,评估标准(mAP)更严格。
  • Open Images:大规模数据集,包含更多类别和图像。

主要应用场景

  • 自动驾驶:车辆、行人、交通标志检测。
  • 视频监控:异常行为检测、人流统计。
  • 智慧零售:客流量分析、货架商品检测。
  • 医学影像:病灶检测与定位。
  • 无人机与遥感:农田分析、城市规划、目标搜查。
  • 智能手机:人像模式、AR特效、扫码。

目标检测的核心是 “定位+分类” ,其发展主线是从传统手工特征基于深度学习的特征表达,从多步骤流水线端到端一体化,从两阶段高精度一阶段高效率,再到Anchor-FreeTransformer带来的新范式,理解 IoU、NMS、mAP、Anchor、两阶段/一阶段 这些核心概念,是掌握目标检测的基础。

标签: 核心定义 目标

抱歉,评论功能暂时关闭!

微信咨询Xboxun188
QQ:1320815949
在线时间
10:00 ~ 2:00