基本定义
图像分割是指根据图像的特征相似性(如颜色、纹理、灰度、形状等)将图像划分为若干个互不重叠的区域,使每个区域内部特征一致,而不同区域间特征差异明显。

核心目标
- 定位与识别:确定每个对象在图像中的位置与边界。
- 简化表示:将图像转换为更抽象的、易于分析的区域集合。
- 为高层任务提供基础:如目标检测、场景理解、图像编辑等。
主要分割类型
语义分割(Semantic Segmentation)
- 为每个像素分配一个类别标签(如人、车、树),不区分同一类别的不同实例。
- 示例:街景图中所有“汽车”像素被标记为同一类别。
实例分割(Instance Segmentation)
- 在语义分割基础上,区分同一类别的不同实例(如区分图像中的多辆车)。
- 示例:自动驾驶中识别并分离每个行人或车辆。
全景分割(Panoptic Segmentation)
- 结合语义分割与实例分割,同时识别可数对象(如车辆)和不可数区域(如天空、道路)。
传统分割方法
基于阈值的分割
- 根据像素灰度值设置阈值,将图像分为前景和背景。
- 缺点:对噪声敏感,适用于简单场景。
基于边缘的分割
- 检测图像中灰度/颜色突变的边界(如Canny、Sobel算子)。
- 缺点:边缘不连续时难以形成闭合区域。
基于区域的分割
- 区域生长:从种子点出发合并相似像素。
- 分裂合并:递归分裂图像再合并相似区域。
基于聚类的分割
- 将像素特征(颜色、位置)聚类成区域,如K-means、Mean-Shift。
- 示例:将颜色相似的像素归为一类。
基于图论的分割
- 将图像视为图结构(像素为节点,边表示相似性),通过最小割或归一化割进行分割。
- 经典算法:GrabCut、GraphCut。
深度学习分割方法
全卷积网络(FCN,2015)
- 首次用卷积层替换全连接层,实现端到端的像素级预测。
- 通过反卷积层上采样恢复空间分辨率。
U-Net(2015)
- 对称的编码器-解码器结构,通过跳跃连接融合浅层细节与深层语义。
- 在医学图像分割中表现突出。
SegNet(2015)
- 编码器使用池化索引,解码器根据索引进行上采样,减少参数。
DeepLab系列
- 空洞卷积:扩大感受野而不增加参数。
- ASPP:多尺度空洞卷积捕获上下文信息。
- CRF后处理:优化边界细节。
Mask R-CNN(2017)
- 在Faster R-CNN基础上增加分割分支,实现实例分割。
Transformer分割模型
- ViT:将图像分块输入Transformer进行全局建模。
- Swin Transformer:引入层次化结构和滑动窗口,提升效率。
关键评价指标
- 像素精度:正确分类像素比例。
- 平均像素精度:每类精度平均值。
- 平均交并比:预测区域与真实区域交集与并集之比。
- Dice系数:衡量重叠度,常用于医学图像。
应用领域
- 医学影像:肿瘤分割、器官定位。
- 自动驾驶:道路、行人、车辆分割。
- 遥感图像:地物分类、变化检测。
- 工业检测:缺陷识别。
- 增强现实:背景替换、虚拟道具添加。
当前挑战
- 小样本分割:标注数据稀缺。
- 实时性:移动端或嵌入式设备部署。
- 域适应:模型在不同场景下的泛化能力。
- 细节保留:复杂边界与微小对象的分割精度。
学习建议
- 基础理论:掌握数字图像处理、卷积神经网络原理。
- 代码实践:从U-Net、DeepLab等经典模型复现开始。
- 数据集:尝试PASCAL VOC、COCO、Cityscapes等公开数据集。
- 工具框架:熟悉PyTorch、TensorFlow及MMSegmentation等开源库。
图像分割技术正从单一模态向多模态融合(如RGB-D图像、文本引导分割)发展,结合自监督学习与大模型(如SAM分割基础模型)的方法成为新趋势。
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。