5 Image Segmentation

1. 任务定义与分类

图像分割的核心是将图像中的每个像素分类到某个特定的标签。

语义分割 (Semantic Segmentation)：将图像中的像素分类为“猫”、“草地”、“天空”等类别。不区分同一类别的不同实例（例如，两头牛被视为同一个“牛”类别的区域）。
实例分割 (Instance Segmentation)：不仅要分类像素，还要区分同一类别的不同物体（例如，牛A和牛B是不同的实例）。
分类 vs. 分割：
- 图像分类：输入 $3 \times H \times W$，输出一个 1000 维的向量（类别概率）。
- 语义分割：输入 $3 \times H \times W$，输出 $C \times H \times W$ 的特征图（每个像素的类别概率）。

2. 早期方法与演进

2.1 滑动窗口 (Sliding Window)

最直观的方法是用一个小窗口遍历图像，提取每个窗口的特征并分类中心像素。

缺点：计算效率极低。相邻窗口有大量重叠区域，重复计算严重，且感受野受限，无法捕捉全局上下文。

2.2 全卷积化 (Fully Convolutional)

为了解决效率问题，我们将全连接层 (FC) 转换为卷积层。

操作：将分类网络末端的 $1 \times 1$ 向量输出，改为空间维度 $H’ \times W’$ 的特征图输出。
优势：可以接受任意尺寸的输入图像，并保留空间结构信息。

3. 核心架构：FCN 与 U-Net

这是深度学习时代语义分割的基石。

3.1 FCN (Fully Convolutional Networks)

FCN 的核心思想是：预训练的编码器 + 上采样解码器 + 跳跃连接。

下采样 (Encoder)：使用预训练的分类网络（如 VGG, ResNet），通过卷积和池化逐步减小特征图尺寸（例如从 $H \times W$ 降到 $H/32 \times W/32$），提取高层语义特征。
上采样 (Decoder)：通过反卷积 (Deconvolution / Transposed Convolution) 或双线性插值，将低分辨率特征图恢复到原图尺寸。
跳跃连接 (Skip Connections)：直接上采样得到的分割图往往边缘粗糙。FCN 将浅层（高分辨率、低语义）的特征图与深层（低分辨率、高语义）的上采样结果相加，融合细节与语义，显著提升了边缘精度。
3.2 U-Net
U-Net 是 FCN 的一种变体，最初用于生物医学图像分割，具有对称的编码器-解码器 (Encoder-Decoder) 结构。

结构：形状呈 “U” 型。左侧是收缩路径（下采样），右侧是扩张路径（上采样）。
特征融合：与 FCN 的相加不同，U-Net 使用 Concat (拼接) 操作，将编码器同层级的高分辨率特征拼接到解码器对应的层级。
优势：极大地保留了位置信息，使得网络在通过少量样本训练后也能获得非常精细的分割结果。U-Net 及其变体目前仍是扩散模型（如 Stable Diffusion）和医学影像分析的主流架构。

4. 上采样技术 (Upsampling Methods)

为了将低分辨率特征图恢复到原图尺寸，需要使用上采样操作。

4.1 插值法 (Interpolation)

最近邻插值 (Nearest Neighbor)：简单复制像素，产生锯齿状边缘。
双线性插值 (Bilinear)：基于距离加权平均，结果更平滑，不需要学习参数。

4.2 反池化 (Unpooling)

Max Unpooling：在 Max Pooling 阶段记录最大值的位置索引 (Indices)。在反池化阶段，将数值填回原来的位置，其余位置补零。这种方法保留了强特征的空间结构。

4.3 转置卷积 (Transposed Convolution / Deconvolution)

这是一种可学习的上采样方法。

原理：可以理解为卷积的逆运算（在数学形式上），或者是对输入像素周围填充零后再进行卷积。它允许网络学习最佳的上采样方式，而不仅仅是固定的插值。
棋盘效应 (Checkerboard Artifacts)：如果不当设置步长和核大小，转置卷积容易产生棋盘状的伪影。

5. 前沿进展：Transformers 与 SAM

5.1 Vision Transformers (ViT) for Segmentation

随着 Transformer 在视觉领域的崛起（如 ViT），研究者开始用 Transformer 替代 CNN 作为骨干网络。

SETR (Segmentation Transformer)：直接将图像切块 (Patch) 输入 Transformer 编码器，利用自注意力机制捕捉全局上下文，然后通过简单的解码器恢复分辨率。
优势：相比 CNN 局部的感受野，Transformer 天生具有全局感受野，能更好地处理长距离依赖。

5.2 Segment Anything Model (SAM)

这是 Meta 提出的通用分割大模型。

特点：
- 提示工程 (Promptable)：支持点、框、文本等多种交互式提示。
- 零样本泛化 (Zero-shot)：在海量数据（SA-1B 数据集）上预训练后，无需微调即可分割从未见过的物体。
- 架构：基于强大的 Image Encoder (ViT) 和轻量级的 Prompt Encoder + Mask Decoder。

6. 总结 (Summary)

核心范式：Pixel-in, Pixel-out（像素进，像素出）。
关键架构：
- FCN：开创了全卷积分割的先河，引入跳跃连接。
- U-Net：对称结构 + Concat 跳跃连接，不仅恢复语义，还完美保留了细节。
上采样：不仅有固定的插值，还有可学习的转置卷积。
最新趋势：Transformer 架构（全局建模）和基础模型（如 SAM）正在重新定义分割任务的边界。