目标: 将原始的、像素级的图像数据(二维/三维阵列)转化为对世界有意义的符号化描述或决策。 关键挑战: 图像数据具有多变性(光照变化、视角变化、遮挡、形变、背景杂乱等),计算机必须学会忽略这些“噪声”,提取出不变的、本质的特征。

核心处理流程(经典视角)
计算机视觉系统通常遵循一个由低到高、逐步抽象的流程:
-
图像获取
- 输入: 通过摄像头、扫描仪、医学成像设备、激光雷达等传感器,将物理世界的光信号转换为数字图像(像素矩阵)。
- 格式: 通常是RGB(彩色)或灰度图。
-
预处理
- 目的: 改善图像质量,为后续分析做准备。
- 操作:
- 去噪: 消除图像采集过程中引入的噪声(高斯滤波、中值滤波)。
- 增强: 调整对比度、亮度,使特征更明显。
- 几何变换: 缩放、旋转、校正。
- 颜色空间转换: 从RGB转换到HSV、Lab等更符合人类感知或更易于处理的空间。
-
特征提取
- 目的: 这是最核心的步骤之一,从预处理后的图像中提取有区分度的、鲁棒的信息块,这些信息是后续理解的基础。
- 传统特征示例:
- 边缘: 识别物体边界(使用Sobel、Canny等算子)。
- 角点: 图像中两个边缘相交的点,对视角变化较稳定(Harris角点)。
- 纹理: 描述物体表面的 patterns(LBP, 灰度共生矩阵)。
- 局部特征描述符: 对关键点周围区域进行数学描述,使其可匹配(如 SIFT, SURF, ORB),它们是“视觉词汇”。
- 现代特征: 深度神经网络(如CNN)的卷积层可以自动学习并提取从低级到高级的层次化特征。
-
检测/分割
- 目的: 定位图像中感兴趣的目标区域。
- 任务:
- 目标检测: 用矩形框(Bounding Box)标出物体位置及类别(如“人”、“车”)。
- 语义分割: 为图像中每一个像素分配一个类别标签(输出一个彩色掩码图)。
- 实例分割: 在语义分割的基础上,区分同一类别的不同个体。
-
高级理解与识别
- 目的: 对检测到的目标或整个场景进行解释。
- 任务:
- 图像分类: 判断整张图像属于哪个类别(如“海滩”、“森林”)。
- 目标识别: 识别检测框内物体的具体类别(如“这是一只拉布拉多犬”)。
- 场景理解: 解析场景中各元素的关系(如“一个人正在骑自行车”)。
- 三维重建: 从多张二维图像中恢复场景的三维结构。
核心原理与技术层次
可以按处理信息的抽象程度分为三个层次:
-
低层视觉:
- 处理原始像素,关注图像本身的属性。
- 原理: 信号处理、数学变换(傅里叶变换、小波变换)。
- 任务: 图像滤波、边缘检测、图像增强等。
-
中层视觉:
- 将像素组织成有意义的区域和结构。
- 原理: 几何学、概率模型。
- 任务: 特征提取、运动估计、双目立体视觉(计算深度)、图像分割等。
-
高层视觉:
- 将区域和结构转化为符号化描述,并进行认知层面的理解。
- 原理: 模式识别、机器学习(尤其是深度学习)、知识表示。
- 任务: 目标识别、场景分类、行为分析、图像描述生成(看图说话)等。
驱动现代CV的革命性技术:深度学习
传统CV方法严重依赖手工设计的特征,而深度学习(尤其是卷积神经网络CNN) 改变了这一范式:
- 端到端学习: 网络直接从原始像素数据中,通过多层非线性变换,自动学习到最适合任务的特征表示,取代了手工设计特征。
- 卷积操作: CNN的核心,它使用一个小的过滤器(卷积核)在图像上滑动,通过局部连接和权值共享,高效地提取局部特征(如边缘、纹理),并逐步组合成更复杂的图案(如眼睛、车轮)。
- 层次化特征:
- 浅层网络: 学习低级特征(边缘、角点、颜色)。
- 中层网络: 学习中级特征(纹理、部件,如眼睛、车门)。
- 深层网络: 学习高级语义特征(整个物体、人脸、车辆)。
- 代表性架构:
- 分类网络: AlexNet, VGG, ResNet(解决了深层网络退化问题)。
- 检测网络: R-CNN系列, YOLO, SSD(实现快速、准确的实时检测)。
- 分割网络: U-Net, FCN, Mask R-CNN。
- 生成网络: GAN(生成对抗网络),用于图像生成、风格迁移、超分辨率。
主要应用领域
- 人脸识别: 门禁、支付、安防。
- 自动驾驶: 车道线检测、交通标志识别、行人车辆检测。
- 医学影像分析: 肿瘤检测、病灶分割、X光片分析。
- 增强现实: 虚拟物体与真实世界的融合与跟踪。
- 工业检测: 产品缺陷检测、质量监控。
- 内容理解与推荐: 图像/视频内容打标、智能相册分类。
计算机视觉的基础原理是模拟人类视觉的感知与理解过程,通过数学、信号处理和机器学习方法,将高维、冗余、多变的图像数据转化为简洁、鲁棒、有语义的信息,其核心在于特征的有效表示与学习,而深度学习技术通过数据驱动的方式,让机器自动学习这些特征,极大地推动了该领域的发展,使其成为当今人工智能最成功和应用最广泛的分支之一。
标签: 挑战