现代卷积神经网络

深度卷积神经网络(AlexNet)

首次证明了学习到的特征可以超越手工设计的特征,AlexNet和LeNet的架构非常相似,但也存在显著差异。

  1. AlexNet比相对较小的LeNet5要深得多。AlexNet由八层组成:五个卷积层、两个全连接隐藏层和一个全连接输出层。
  2. AlexNet使用ReLU而不是sigmoid作为其激活函数。

../_images/alexnet.svg


模型设计

AlexNet的第一层,卷积窗口的形状是$11×11$。 由于ImageNet中大多数图像的宽和高比MNIST图像的多10倍以上,因此,需要一个更大的卷积窗口来捕获目标。 第二层中的卷积窗口形状被缩减为$5×5$,然后是$3×3$。 此外,在第一层、第二层和第五层卷积层之后,加入窗口形状为$3×3$、步幅为2的最大汇聚层。 而且,AlexNet的卷积通道数目是LeNet的10倍。

在最后一个卷积层后有两个全连接层,分别有4096个输出。 这两个巨大的全连接层拥有将近1GB的模型参数。

此外,AlexNetsigmoid激活函数改为更简单的ReLU激活函数。 一方面,ReLU激活函数的计算更简单,它不需要如sigmoid激活函数那般复杂的求幂运算。 另一方面,当使用不同的参数初始化方法时,ReLU激活函数使训练模型更加容易。 当sigmoid激活函数的输出非常接近于0或1时,这些区域的梯度几乎为0,因此反向传播无法继续更新一些模型参数。 相反,ReLU激活函数在正区间的梯度总是1。 因此,如果模型参数没有正确初始化,sigmoid函数可能在正区间内得到几乎为0的梯度,从而使模型无法得到有效的训练。


容量控制和预处理

AlexNet通过暂退法(dropout)控制全连接层的模型复杂度,而LeNet只使用了权重衰减。 为了进一步扩充数据,AlexNet在训练时增加了大量的图像增强数据,如翻转、裁切和变色。 这使得模型更健壮,更大的样本量有效地减少了过拟合。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
import torch
from torch import nn
from d2l import torch as d2l

net = nn.Sequential(
# 这里使用一个11*11的更大窗口来捕捉对象。
# 同时,步幅为4,以减少输出的高度和宽度。
# 另外,输出通道的数目远大于LeNet
nn.Conv2d(1, 96, kernel_size=11, stride=4, padding=1), nn.ReLU(),
nn.MaxPool2d(kernel_size=3, stride=2),
# 减小卷积窗口,使用填充为2来使得输入与输出的高和宽一致,且增大输出通道数
nn.Conv2d(96, 256, kernel_size=5, padding=2), nn.ReLU(),
nn.MaxPool2d(kernel_size=3, stride=2),
# 使用三个连续的卷积层和较小的卷积窗口。
# 除了最后的卷积层,输出通道的数量进一步增加。
# 在前两个卷积层之后,汇聚层不用于减少输入的高度和宽度
nn.Conv2d(256, 384, kernel_size=3, padding=1), nn.ReLU(),
nn.Conv2d(384, 384, kernel_size=3, padding=1), nn.ReLU(),
nn.Conv2d(384, 256, kernel_size=3, padding=1), nn.ReLU(),
nn.MaxPool2d(kernel_size=3, stride=2),
nn.Flatten(),
# 这里,全连接层的输出数量是LeNet中的好几倍。使用dropout层来减轻过拟合
nn.Linear(6400, 4096), nn.ReLU(),
nn.Dropout(p=0.5),
nn.Linear(4096, 4096), nn.ReLU(),
nn.Dropout(p=0.5),
# 最后是输出层。由于这里使用Fashion-MNIST,所以用类别数为10,而非论文中的1000
nn.Linear(4096, 10))

我们构造一个高度和宽度都为224的单通道数据,来观察每一层输出的形状。 它与图中的AlexNet架构相匹配。

1
2
3
4
X = torch.randn(1, 1, 224, 224)
for layer in net:
X=layer(X)
print(layer.__class__.__name__,'output shape:\t',X.shape)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
Conv2d output shape:         torch.Size([1, 96, 54, 54])
ReLU output shape: torch.Size([1, 96, 54, 54])
MaxPool2d output shape: torch.Size([1, 96, 26, 26])
Conv2d output shape: torch.Size([1, 256, 26, 26])
ReLU output shape: torch.Size([1, 256, 26, 26])
MaxPool2d output shape: torch.Size([1, 256, 12, 12])
Conv2d output shape: torch.Size([1, 384, 12, 12])
ReLU output shape: torch.Size([1, 384, 12, 12])
Conv2d output shape: torch.Size([1, 384, 12, 12])
ReLU output shape: torch.Size([1, 384, 12, 12])
Conv2d output shape: torch.Size([1, 256, 12, 12])
ReLU output shape: torch.Size([1, 256, 12, 12])
MaxPool2d output shape: torch.Size([1, 256, 5, 5])
Flatten output shape: torch.Size([1, 6400])
Linear output shape: torch.Size([1, 4096])
ReLU output shape: torch.Size([1, 4096])
Dropout output shape: torch.Size([1, 4096])
Linear output shape: torch.Size([1, 4096])
ReLU output shape: torch.Size([1, 4096])
Dropout output shape: torch.Size([1, 4096])
Linear output shape: torch.Size([1, 10])

训练AlexNet

与LeNet相比,这里的主要变化是使用更小的学习速率训练,这是因为网络更深更广、图像分辨率更高,训练卷积神经网络就更昂贵。

1
2
3
4
5
6
batch_size = 128
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, resize=224)
lr, num_epochs = 0.01, 10
d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())
#loss 0.328, train acc 0.882, test acc 0.881
#3205.9 examples/sec on cuda:0

../_images/output_alexnet_180871_38_1.svg

在原始的Fashion-MNIST数据集中,每个图像的大小是28x28像素,而这个resize=224参数告诉数据加载函数,在返回图像数据之前,将每个图像的大小调整为224x224像素。

  • AlexNet的架构与LeNet相似,但使用了更多的卷积层和更多的参数来拟合大规模的ImageNet数据集。
  • 今天,AlexNet已经被更有效的架构所超越,但它是从浅层网络到深层网络的关键一步。
  • 尽管AlexNet的代码只比LeNet多出几行,但学术界花了很多年才接受深度学习这一概念,并应用其出色的实验结果。这也是由于缺乏有效的计算工具。

使用块的网络(VGG)

VGG块

经典卷积神经网络的基本组成部分是下面的这个序列:

  1. 带填充以保持分辨率的卷积层;
  2. 非线性激活函数,如ReLU;
  3. 汇聚层,如最大汇聚层。

而一个VGG块与之类似,由一系列卷积层组成,后面再加上用于空间下采样的最大汇聚层

作者使用了带有$3×3$卷积核、填充为1(保持高度和宽度)的卷积层,和带有2×2汇聚窗口、步幅为2(每个块后的分辨率减半)的最大汇聚层。在下面的代码中,我们定义了一个名为vgg_block的函数来实现一个VGG块。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
import torch  
from torch import nn
from d2l import torch as d2l

# 定义vgg_block函数,接受三个参数:卷积层数量(num_convs)、输入通道数(in_channels)和输出通道数(out_channels)。
def vgg_block(num_convs, in_channels, out_channels):
# 初始化一个空列表,用于存放卷积块中的层。
layers = []
# 开始一个循环,根据num_convs的值重复添加卷积层和ReLU激活层。
for _ in range(num_convs):
# 向layers列表中添加一个2D卷积层。这个卷积层将具有指定的输入和输出通道数,核大小为3,并使用padding使得输入和输出的空间维度不变。
layers.append(nn.Conv2d(in_channels, out_channels, kernel_size=3, padding=1))
# 在每个卷积层后面添加一个ReLU激活函数层。
layers.append(nn.ReLU())
# 将输入通道数更新为输出通道数,以便下一个卷积层可以接受当前卷积层的输出作为其输入。
in_channels = out_channels
# 在卷积层后面添加一个最大池化层,其核大小为2,步长也为2,用于减少特征图的空间维度。
layers.append(nn.MaxPool2d(kernel_size=2, stride=2))
# 使用nn.Sequential将所有层组合成一个连续的模块,并返回这个模块。这样,vgg_block就可以作为一个整体在VGG网络中被重复使用。
return nn.Sequential(*layers)



VGG网络

与AlexNet、LeNet一样,VGG网络可以分为两部分:第一部分主要由卷积层和汇聚层组成,第二部分由全连接层组成

../_images/vgg.svg

VGG神经网络连接图中的几个VGG块(在vgg_block函数中定义)。其中有超参数变量conv_arch。该变量指定了每个VGG块里卷积层个数和输出通道数。全连接模块则与AlexNet中的相同。

原始VGG网络有5个卷积块,其中前两个块各有一个卷积层,后三个块各包含两个卷积层。 第一个模块有64个输出通道,每个后续模块将输出通道数量翻倍,直到该数字达到512。由于该网络使用8个卷积层和3个全连接层,因此它通常被称为VGG-11

1
conv_arch = ((1, 64), (1, 128), (2, 256), (2, 512), (2, 512))

下面的代码实现了VGG-11。可以通过在conv_arch上执行for循环来简单实现

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
def vgg(conv_arch):  # 定义vgg函数,接受一个卷积架构参数conv_arch。
conv_blks = [] # 初始化一个空列表,用于存储网络中的所有卷积块。
in_channels = 1 # 初始的输入通道数设为1,假设输入图像是灰度图。

# 卷积层部分
for (num_convs, out_channels) in conv_arch:
# 遍历conv_arch列表,每个元素包含卷积层数和该块的输出通道数。
conv_blks.append(vgg_block(num_convs, in_channels, out_channels))
# 使用vgg_block函数构建卷积块,并将其添加到conv_blks列表中。
in_channels = out_channels
# 更新in_channels为当前卷积块的输出通道数,以供下一个卷积块使用。

return nn.Sequential(
*conv_blks,
# 将所有卷积块添加到Sequential模型中。
nn.Flatten(),
# 添加一个Flatten层,将卷积层的多维输出扁平化为一维,以便全连接层处理。
# 全连接层部分
nn.Linear(out_channels * 7 * 7, 4096),
# 第一个全连接层,输入节点数依赖于最后一个卷积块的输出通道数和假设的特征图大小(7*7)。
nn.ReLU(), # ReLU激活函数。
nn.Dropout(0.5), # Dropout层,以0.5的概率丢弃节点,防止过拟合。
nn.Linear(4096, 4096), # 第二个全连接层,节点数保持为4096。
nn.ReLU(), # 又一个ReLU激活函数。
nn.Dropout(0.5), # 又一个Dropout层。
nn.Linear(4096, 10) # 最后一个全连接层,输出节点数为10,对应于分类任务的类别数。
)

# 假设conv_arch是已定义的卷积架构参数
net = vgg(conv_arch) # 使用vgg函数和conv_arch参数创建VGG网络模型。


训练

由于VGG-11比AlexNet计算量更大,因此我们构建了一个通道数较少的网络,足够用于训练Fashion-MNIST数据集。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
# 定义通道数缩减的比例
ratio = 4
# 定义一个简化的VGG网络架构。这里通过conv_arch定义的每个元组(pair)代表一个VGG块,
# 元组中的第一个数字代表该块中卷积层的数量,第二个数字代表输出通道数。
# 通过遍历conv_arch并除以ratio,我们减少了每个VGG块的通道数,从而得到一个计算量更小的模型。
small_conv_arch = [(pair[0], pair[1] // ratio) for pair in conv_arch]
# 使用简化的架构创建VGG网络
net = vgg(small_conv_arch)

# 设置学习率、训练轮数和批量大小
lr, num_epochs, batch_size = 0.05, 10, 128
# 加载Fashion-MNIST数据集,resize参数指定将图像大小调整为224x224,以匹配VGG网络期望的输入尺寸。
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, resize=224)
# 使用d2l.train_ch6函数训练模型。该函数封装了训练循环,包括在每个epoch进行训练和验证,并打印出性能指标。
# try_gpu尝试使用GPU进行训练,如果不可用,则默认使用CPU。
d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())

1
2
loss 0.172, train acc 0.936, test acc 0.913
1680.2 examples/sec on cuda:0

../_images/output_vgg_4a7574_71_1.svg

  • VGG-11使用可复用的卷积块构造网络。不同的VGG模型可通过每个块中卷积层数量和输出通道数量的差异来定义。
  • 块的使用导致网络定义的非常简洁。使用块可以有效地设计复杂的网络。
  • 在VGG论文中,Simonyan和Ziserman尝试了各种架构。特别是他们发现深层且窄的卷积(即3×3)比较浅层且宽的卷积更有效。

网络中的网络(NiN)

LeNetAlexNetVGG都有一个共同的设计模式:通过一系列的卷积层与汇聚层来提取空间结构特征;然后通过全连接层对特征的表征进行处理。 AlexNetVGGLeNet的改进主要在于如何扩大和加深这两个模块。

然而,如果使用了全连接层,可能会完全放弃表征的空间结构。 网络中的网络NiN)提供了一个非常简单的解决方案:在每个像素的通道上分别使用多层感知机

NiN块

卷积层的输入和输出由四维张量组成,张量的每个轴分别对应样本、通道、高度和宽度。 另外,全连接层的输入和输出通常是分别对应于样本和特征的二维张量。 NiN的想法是在每个像素位置(针对每个高度和宽度)应用一个全连接层。 如果我们将权重连接到每个空间位置,我们可以将其视为1×1卷积层,或作为在每个像素位置上独立作用的全连接层。 从另一个角度看,即将空间维度中的每个像素视为单个样本,将通道维度视为不同特征(feature)。

../_images/nin.svg

图中说明了VGG和NiN及它们的块之间主要架构差异。 NiN块以一个普通卷积层开始,后面是两个1×1的卷积层。这两个$1×1$卷积层充当带有ReLU激活函数的逐像素全连接层。 第一层的卷积窗口形状通常由用户设置。 随后的卷积窗口形状固定为$1×1$。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
def nin_block(in_channels, out_channels, kernel_size, strides, padding):
# 定义一个NiN块,该块接收五个参数:
# in_channels:输入通道数。
# out_channels:输出通道数。
# kernel_size:卷积核的大小。
# strides:卷积的步长。
# padding:卷积的填充量。

return nn.Sequential(
nn.Conv2d(in_channels, out_channels, kernel_size, strides, padding),
# 第一个卷积层,它将接收指定的输入通道数和输出通道数,并使用指定的卷积核大小、步长和填充进行卷积操作。
nn.ReLU(),
# ReLU激活函数,用于引入非线性,提高模型的表达能力。

nn.Conv2d(out_channels, out_channels, kernel_size=1), nn.ReLU(),
# 第二个卷积层,这是一个1x1卷积,用于在每个像素位置上应用一个全连接层的效果。
# 它的输入和输出通道数相同,都是out_channels。这样做可以在不改变特征图深度的情况下,增加网络的深度和复杂度。

nn.Conv2d(out_channels, out_channels, kernel_size=1), nn.ReLU())
# 第三个卷积层,同样是一个1x1卷积,后面也跟着一个ReLU激活函数。
# 这个连续使用1x1卷积的设计有助于进一步增加网络对于空间信息的学习能力,同时控制参数数量和计算复杂度。


NiN网络

最初的NiN网络是在AlexNet后不久提出的,显然从中得到了一些启示。 NiN使用窗口形状为$11×11$、$5×5$和$3×3$的卷积层,输出通道数量与AlexNet中的相同。 每个NiN块后有一个最大汇聚层,汇聚窗口形状为$3×3$,步幅为2。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
net = nn.Sequential(
# 输入层
nin_block(1, 96, kernel_size=11, strides=4, padding=0),
# 使用nin_block定义第一个NiN块。这里处理的是单通道输入(例如灰度图),使用96个输出通道。
# 卷积核大小为11,步长为4,无填充。这种设置用于在输入层上捕获更大范围的特征。

nn.MaxPool2d(3, stride=2),
# 紧接着一个最大池化层,核大小为3,步长为2。池化层用于减少特征图的尺寸,提高模型的空间不变性。

# 第二层
nin_block(96, 256, kernel_size=5, strides=1, padding=2),
# 第二个NiN块,输入通道数从96变为256,卷积核大小减小到5,步长为1,填充为2。
# 通过增加输出通道数,网络能够学习更多的特征表示。

nn.MaxPool2d(3, stride=2),
# 又一个最大池化层。

# 第三层
nin_block(256, 384, kernel_size=3, strides=1, padding=1),
# 第三个NiN块,进一步增加模型的深度,此处输入通道数为256,输出通道数为384。
# 卷积核大小为3,这是一个比较常见的选择,能够有效捕捉局部特征。

nn.MaxPool2d(3, stride=2),
# 第三个最大池化层。

nn.Dropout(0.5),
# Dropout层,随机丢弃一部分神经元(这里是50%的比例),用于减少过拟合。

# 输出层
nin_block(384, 10, kernel_size=3, strides=1, padding=1),
# 最后一个NiN块,将输出通道数调整为10,对应于10个分类标签。

nn.AdaptiveAvgPool2d((1, 1)),
# 适应性平均池化层,将特征图的大小调整为1x1,这样做的目的是为了将空间维度的特征压缩成单个数值,
# 这相当于对每个通道进行全局平均池化,确保输出大小与分类标签数相匹配。

nn.Flatten())
# 将四维的输出(批量大小, 通道数, 高度, 宽度)扁平化为二维的输出(批量大小, 通道数),
# 这是因为最终的分类器期望的输入是一维向量形式。

我们创建一个数据样本来查看每个块的输出形状。

1
2
3
4
X = torch.rand(size=(1, 1, 224, 224))
for layer in net:
X = layer(X)
print(layer.__class__.__name__,'output shape:\t', X.shape)
1
2
3
4
5
6
7
8
9
10
Sequential output shape:     torch.Size([1, 96, 54, 54])
MaxPool2d output shape: torch.Size([1, 96, 26, 26])
Sequential output shape: torch.Size([1, 256, 26, 26])
MaxPool2d output shape: torch.Size([1, 256, 12, 12])
Sequential output shape: torch.Size([1, 384, 12, 12])
MaxPool2d output shape: torch.Size([1, 384, 5, 5])
Dropout output shape: torch.Size([1, 384, 5, 5])
Sequential output shape: torch.Size([1, 10, 5, 5])
AdaptiveAvgPool2d output shape: torch.Size([1, 10, 1, 1])
Flatten output shape: torch.Size([1, 10])

训练

和以前一样,我们使用Fashion-MNIST来训练模型。训练NiN与训练AlexNet、VGG时相似。

1
2
3
lr, num_epochs, batch_size = 0.1, 10, 128
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, resize=224)
d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())
1
2
loss 0.348, train acc 0.871, test acc 0.848
2385.0 examples/sec on cuda:0

../_images/output_nin_8ad4f3_48_1.svg

  • NiN使用由一个卷积层和多个1×1卷积层组成的块。该块可以在卷积神经网络中使用,以允许更多的每像素非线性。
  • NiN去除了容易造成过拟合的全连接层,将它们替换为全局平均汇聚层(即在所有位置上进行求和)。该汇聚层通道数量为所需的输出数量(例如,Fashion-MNIST的输出为10)。
  • 移除全连接层可减少过拟合,同时显著减少NiN的参数。
  • NiN的设计影响了许多后续卷积神经网络的设计。

含并行连结的网络(GoogleNet)

GoogLeNet吸收了NiN中串联网络的思想,并在此基础上做了改进。 这篇论文的一个重点是解决了什么样大小的卷积核最合适的问题。 毕竟,以前流行的网络使用小到$1×1$,大到$11×11$的卷积核。 本文的一个观点是,有时使用不同大小的卷积核组合是有利的

Inception块

../_images/inception.svg

如图所示,Inception块由四条并行路径组成。 前三条路径使用窗口大小为1×1、3×3和5×5的卷积层,从不同空间大小中提取信息。 中间的两条路径在输入上执行1×1卷积,以减少通道数,从而降低模型的复杂性。 第四条路径使用3×3最大汇聚层,然后使用1×1卷积层来改变通道数。 这四条路径都使用合适的填充来使输入与输出的高和宽一致,最后我们将每条线路的输出在通道维度上连结,并构成Inception块的输出。在Inception块中,通常调整的超参数是每层输出通道数。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
import torch
from torch import nn
from torch.nn import functional as F
from d2l import torch as d2l

class Inception(nn.Module):
# c1--c4是每条路径的输出通道数
def __init__(self, in_channels, c1, c2, c3, c4, **kwargs):
super(Inception, self).__init__(**kwargs)
# 初始化Inception模块的构造函数。

# 线路1,单1x1卷积层
self.p1_1 = nn.Conv2d(in_channels, c1, kernel_size=1)
# 对输入进行1x1卷积操作,主要用于降维,减少计算量。

# 线路2,1x1卷积层后接3x3卷积层
self.p2_1 = nn.Conv2d(in_channels, c2[0], kernel_size=1)
# 第一部分是1x1卷积,用于降维。
self.p2_2 = nn.Conv2d(c2[0], c2[1], kernel_size=3, padding=1)
# 第二部分是3x3卷积,能够捕捉到更广阔的空间特征。

# 线路3,1x1卷积层后接5x5卷积层
self.p3_1 = nn.Conv2d(in_channels, c3[0], kernel_size=1)
# 同样,先进行1x1卷积进行降维。
self.p3_2 = nn.Conv2d(c3[0], c3[1], kernel_size=5, padding=2)
# 然后使用5x5卷积捕捉更大范围的特征,padding=2保证输出特征图大小不变。

# 线路4,3x3最大汇聚层后接1x1卷积层
self.p4_1 = nn.MaxPool2d(kernel_size=3, stride=1, padding=1)
# 首先使用3x3的最大汇聚层,增强模型的空间不变性。
self.p4_2 = nn.Conv2d(in_channels, c4, kernel_size=1)
# 然后通过1x1卷积进行处理,主要用于降维。

def forward(self, x):
p1 = F.relu(self.p1_1(x))
# 通过线路1的处理,并应用ReLU激活函数。
p2 = F.relu(self.p2_2(F.relu(self.p2_1(x))))
# 先通过线路2的1x1卷积,应用ReLU,然后通过3x3卷积,再次应用ReLU。
p3 = F.relu(self.p3_2(F.relu(self.p3_1(x))))
# 先通过线路3的1x1卷积,应用ReLU,然后通过5x5卷积,再次应用ReLU。
p4 = F.relu(self.p4_2(self.p4_1(x)))
# 先通过线路4的最大汇聚层,然后通过1x1卷积,应用ReLU。

# 在通道维度上连结输出
return torch.cat((p1, p2, p3, p4), dim=1)
# 将四个线路的输出在通道维度(dim=1)上拼接起来,使模型能同时学习到不同尺度的特征。

首先我们考虑一下滤波器(filter)的组合,它们可以用各种滤波器尺寸探索图像,这意味着不同大小的滤波器可以有效地识别不同范围的图像细节。 同时,我们可以为不同的滤波器分配不同数量的参数。


GoogleNet模型

GoogLeNet一共使用9个Inception块和全局平均汇聚层的堆叠来生成其估计值。Inception块之间的最大汇聚层可降低维度。 第一个模块类似于AlexNet和LeNet,Inception块的组合从VGG继承,全局平均汇聚层避免了在最后使用全连接层。

../_images/inception-full.svg

现在,我们逐一实现GoogLeNet的每个模块。第一个模块使用64个通道、$7×7$卷积层。

1
2
3
b1 = nn.Sequential(nn.Conv2d(1, 64, kernel_size=7, stride=2, padding=3),
nn.ReLU(),
nn.MaxPool2d(kernel_size=3, stride=2, padding=1))

第二个模块使用两个卷积层:第一个卷积层是64个通道、1×1卷积层;第二个卷积层使用将通道数量增加三倍的3×3卷积层。 这对应于Inception块中的第二条路径。

1
2
3
4
5
b2 = nn.Sequential(nn.Conv2d(64, 64, kernel_size=1),
nn.ReLU(),
nn.Conv2d(64, 192, kernel_size=3, padding=1),
nn.ReLU(),
nn.MaxPool2d(kernel_size=3, stride=2, padding=1))

第三个模块串联两个完整的Inception块。 第一个Inception块的输出通道数为64+128+32+32=256,四个路径之间的输出通道数量比为64:128:32:32=2:4:1:1。 第二个和第三个路径首先将输入通道的数量分别减少到96/192=1/2和16/192=1/12,然后连接第二个卷积层。第二个Inception块的输出通道数增加到128+192+96+64=480,四个路径之间的输出通道数量比为128:192:96:64=4:6:3:2。 第二条和第三条路径首先将输入通道的数量分别减少到128/256=1/2和32/256=1/8。

1
2
3
b3 = nn.Sequential(Inception(192, 64, (96, 128), (16, 32), 32),
Inception(256, 128, (128, 192), (32, 96), 64),
nn.MaxPool2d(kernel_size=3, stride=2, padding=1))

第四模块更加复杂, 它串联了5个Inception块,其输出通道数分别是192+208+48+64=512、160+224+64+64=512、128+256+64+64=512、112+288+64+64=528和256+320+128+128=832。 这些路径的通道数分配和第三模块中的类似,首先是含3×3卷积层的第二条路径输出最多通道,其次是仅含1×1卷积层的第一条路径,之后是含5×5卷积层的第三条路径和含3×3最大汇聚层的第四条路径。 其中第二、第三条路径都会先按比例减小通道数。 这些比例在各个Inception块中都略有不同。

1
2
3
4
5
6
b4 = nn.Sequential(Inception(480, 192, (96, 208), (16, 48), 64),
Inception(512, 160, (112, 224), (24, 64), 64),
Inception(512, 128, (128, 256), (24, 64), 64),
Inception(512, 112, (144, 288), (32, 64), 64),
Inception(528, 256, (160, 320), (32, 128), 128),
nn.MaxPool2d(kernel_size=3, stride=2, padding=1))

第五模块包含输出通道数为256+320+128+128=832和384+384+128+128=1024的两个Inception块。 其中每条路径通道数的分配思路和第三、第四模块中的一致,只是在具体数值上有所不同。 需要注意的是,第五模块的后面紧跟输出层,该模块同NiN一样使用全局平均汇聚层,将每个通道的高和宽变成1。 最后我们将输出变成二维数组,再接上一个输出个数为标签类别数的全连接层。

1
2
3
4
5
6
b5 = nn.Sequential(Inception(832, 256, (160, 320), (32, 128), 128),
Inception(832, 384, (192, 384), (48, 128), 128),
nn.AdaptiveAvgPool2d((1,1)),
nn.Flatten())

net = nn.Sequential(b1, b2, b3, b4, b5, nn.Linear(1024, 10))

GoogLeNet模型的计算复杂,而且不如VGG那样便于修改通道数。 为了使Fashion-MNIST上的训练短小精悍,我们将输入的高和宽从224降到96,这简化了计算。下面演示各个模块输出的形状变化。

1
2
3
4
X = torch.rand(size=(1, 1, 96, 96))
for layer in net:
X = layer(X)
print(layer.__class__.__name__,'output shape:\t', X.shape)
1
2
3
4
5
6
Sequential output shape:     torch.Size([1, 64, 24, 24])
Sequential output shape: torch.Size([1, 192, 12, 12])
Sequential output shape: torch.Size([1, 480, 6, 6])
Sequential output shape: torch.Size([1, 832, 3, 3])
Sequential output shape: torch.Size([1, 1024])
Linear output shape: torch.Size([1, 10])

训练

在训练之前,我们将图片转换为96×96分辨率。

1
2
3
lr, num_epochs, batch_size = 0.1, 10, 128
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, resize=96)
d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())
1
loss 0.243, train acc 0.908, test acc 0.888 2567.8 examples/sec on cuda:0

../_images/output_googlenet_83a8b4_111_1.svg

  • Inception块相当于一个有4条路径的子网络。它通过不同窗口形状的卷积层和最大汇聚层来并行抽取信息,并使用1×1卷积层减少每像素级别上的通道维数从而降低模型复杂度。
  • GoogLeNet将多个设计精细的Inception块与其他层(卷积层、全连接层)串联起来。其中Inception块的通道数分配之比是在ImageNet数据集上通过大量的实验得来的。
  • GoogLeNet和它的后继者们一度是ImageNet上最有效的模型之一:它以较低的计算复杂度提供了类似的测试精度。

批量规范化

原理

训练深层神经网络是十分困难的,特别是在较短的时间内使他们收敛更加棘手。 本节将介绍批量规范化(batch normalization),这是一种流行且有效的技术,可持续加速深层网络的收敛速度

对于典型的多层感知机或卷积神经网络。当我们训练时,中间层中的变量(例如,多层感知机中的仿射变换输出)可能具有更广的变化范围:不论是沿着从输入到输出的层,跨同一层中的单元,或是随着时间的推移,模型参数的随着训练更新变幻莫测。 批量规范化的发明者非正式地假设,这些变量分布中的这种偏移可能会阻碍网络的收敛。 直观地说,我们可能会猜想,如果一个层的可变值是另一层的100倍,这可能需要对学习率进行补偿调整。

批量规范化应用于单个可选层(也可以应用到所有层),其原理如下:在每次训练迭代中,我们首先规范化输入,即通过减去其均值并除以其标准差,其中两者均基于当前小批量处理。 接下来,我们应用比例系数比例偏移。 正是由于这个基于批量统计标准化,才有了批量规范化的名称。

从形式上来说,用$\mathbf{x} \in \mathcal{B}$表示一个来自小批量$\mathcal{B}$的输入,批量规范化$\mathrm{BN}$根据以下表达式转换$\mathbf{x}$:

$\hat{\boldsymbol{\mu}}_\mathcal{B}$是小批量$\mathcal{B}$的样本均值,$\hat{\boldsymbol{\sigma}}_\mathcal{B}$是小批量$\mathcal{B}$的样本标准差。

由于单位方差是一个主观的选择,因此我们通常包含拉伸参数$\boldsymbol{\gamma}$和偏移参数$\boldsymbol{\beta}$,它们的形状与$\mathbf{x}$相同。请注意,$\boldsymbol{\gamma}$和$\boldsymbol{\beta}$是需要与其他模型参数一起学习的参数。

由于在训练过程中,中间层的变化幅度不能过于剧烈,而批量规范化将每一层主动居中,并将它们重新调整为给定的平均值和大小

请注意,我们在方差估计值中添加一个小的常量$\epsilon > 0$,以确保我们永远不会尝试除以零,即使在经验方差估计值可能消失的情况下也是如此。估计值$\hat{\boldsymbol{\mu}}_\mathcal{B}$${\hat{\boldsymbol{\sigma}}_\mathcal{B}}$通过使用平均值和方差的噪声(noise)估计来抵消缩放问题。


批量规范化层

全连接层的规范化

通常,我们将批量规范化层置于全连接层中的仿射变换和激活函数之间。设全连接层的输入为$x$,权重参数和偏置参数分别为$\mathbf{W}$和$\mathbf{b}$,激活函数为$\phi$,批量规范化的运算符为$\mathrm{BN}$。

那么,使用批量规范化的全连接层的输出的计算详情如下:

回想一下,均值和方差是在应用变换的”相同”小批量上计算的。

卷积层的规范化

同样,对于卷积层,我们可以在卷积层之后和非线性激活函数之前应用批量规范化。当卷积有多个输出通道时,我们需要对这些通道的“每个”输出执行批量规范化,每个通道都有自己的拉伸和偏移参数,这两个参数都是标量。

假设我们的小批量包含$m$个样本,并且对于每个通道,卷积的输出具有高度$p$和宽度$q$。那么对于卷积层,我们在每个输出通道的$m \cdot p \cdot q$个元素上同时执行每个批量规范化。因此,在计算平均值和方差时,我们会收集所有空间位置的值,然后在给定通道内应用相同的均值和方差,以便在每个空间位置对值进行规范化。


代码

根据pytorch的模式进行划分:

  1. 训练模式(Training Mode)
    • 在训练模式下,所有的层都在正常状态下工作,即按照定义执行前向和后向传播。
    • 对于某些层,比如Dropout和BatchNorm,它们在训练时的行为与预测时不同。例如,Dropout层会随机丢弃一些神经元,以防止过拟合;BatchNorm层会使用当前批次的均值和方差进行归一化,并更新移动平均的均值和方差。
    • 在PyTorch中,可以使用 model.train() 将模型设置为训练模式。
  2. 评估(预测)模式
    • 在评估模式下,模型的行为会有所不同,以适应评估或预测的需求。
    • 对于BatchNorm和Dropout层,它们在评估模式下的行为会发生改变。Dropout层会停止工作,即不再丢弃任何神经元;BatchNorm层会停止更新移动平均的均值和方差,而是使用之前训练阶段累积的均值和方差。
    • 在PyTorch中,可以使用 model.eval() 将模型设置为评估模式。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
import torch
from torch import nn
from d2l import torch as d2l

def batch_norm(X, gamma, beta, moving_mean, moving_var, eps, momentum):
# 定义批量归一化操作的函数。

# 通过is_grad_enabled来判断当前模式是训练模式还是预测模式
if not torch.is_grad_enabled():
# 如果是在预测模式下,直接使用传入的移动平均所得的均值和方差进行归一化
X_hat = (X - moving_mean) / torch.sqrt(moving_var + eps)
else:
# 在训练模式下,需要根据当前批次的数据来计算均值和方差
assert len(X.shape) in (2, 4)
# 确保输入X是二维(全连接层)或四维(卷积层)的张量。

if len(X.shape) == 2:
# 对于全连接层的情况,按照特征维(每一列)计算均值和方差
mean = X.mean(dim=0)
var = ((X - mean) ** 2).mean(dim=0)
else:
# 对于二维卷积层的情况,按照通道维(第一个维度,即C)计算均值和方差,
# 并保持维度不变,以便进行后续的广播运算。
mean = X.mean(dim=(0, 2, 3), keepdim=True)
var = ((X - mean) ** 2).mean(dim=(0, 2, 3), keepdim=True)

# 用当前批次的均值和方差对输入进行标准化
X_hat = (X - mean) / torch.sqrt(var + eps)

# 更新移动平均的均值和方差,用于预测模式
moving_mean = momentum * moving_mean + (1.0 - momentum) * mean
moving_var = momentum * moving_var + (1.0 - momentum) * var

# 将归一化后的数据进行缩放和平移变换
Y = gamma * X_hat + beta
return Y, moving_mean.data, moving_var.data
# 返回批量归一化后的结果,以及更新后的移动平均均值和方差。

我们现在可以创建一个正确的BatchNorm层。 这个层将保持适当的参数:拉伸gamma和偏移beta,这两个参数将在训练过程中更新。 此外,我们的层将保存均值和方差的移动平均值,以便在模型预测期间随后使用。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
class BatchNorm(nn.Module):
# num_features:完全连接层的输出数量或卷积层的输出通道数。
# num_dims:2表示完全连接层,4表示卷积层
def __init__(self, num_features, num_dims):
super().__init__() # 调用父类nn.Module的构造函数。
if num_dims == 2:
shape = (1, num_features) # 对于全连接层,形状是(1, num_features)。
else:
shape = (1, num_features, 1, 1) # 对于卷积层,形状是(1, num_features, 1, 1)。

# 参与求梯度和迭代的拉伸(gamma)和偏移(beta)参数,分别初始化成1和0。
self.gamma = nn.Parameter(torch.ones(shape))
self.beta = nn.Parameter(torch.zeros(shape))

# 非模型参数的变量初始化为0和1。这些是用于在训练过程中计算移动平均的变量,不直接参与梯度计算。
self.moving_mean = torch.zeros(shape)
self.moving_var = torch.ones(shape)

def forward(self, X):
# 定义前向传播过程。

# 如果X不在内存上,将moving_mean和moving_var复制到X所在显存上。
# 这是为了支持模型在不同的设备上运行,比如CPU和GPU。
if self.moving_mean.device != X.device:
self.moving_mean = self.moving_mean.to(X.device)
self.moving_var = self.moving_var.to(X.device)

# 调用batch_norm函数进行批量归一化处理,返回归一化后的数据Y,
# 以及更新过的移动平均的均值和方差。
Y, self.moving_mean, self.moving_var = batch_norm(
X, self.gamma, self.beta, self.moving_mean,
self.moving_var, eps=1e-5, momentum=0.9)

return Y

通常情况下,我们用一个单独的函数定义其数学原理,比如说batch_norm。 然后,我们将此功能集成到一个自定义层中,其代码主要处理数据移动到训练设备(如GPU)、分配和初始化任何必需的变量、跟踪移动平均线(此处为均值和方差)等问题


应用到LeNet网络

1
2
3
4
5
6
7
8
net = nn.Sequential(
nn.Conv2d(1, 6, kernel_size=5), BatchNorm(6, num_dims=4), nn.Sigmoid(),
nn.AvgPool2d(kernel_size=2, stride=2),
nn.Conv2d(6, 16, kernel_size=5), BatchNorm(16, num_dims=4), nn.Sigmoid(),
nn.AvgPool2d(kernel_size=2, stride=2), nn.Flatten(),
nn.Linear(16*4*4, 120), BatchNorm(120, num_dims=2), nn.Sigmoid(),
nn.Linear(120, 84), BatchNorm(84, num_dims=2), nn.Sigmoid(),
nn.Linear(84, 10))

和以前一样,我们将在Fashion-MNIST数据集上训练网络。 这个代码与我们第一次训练LeNet时几乎完全相同,主要区别在于学习率大得多。

1
2
3
lr, num_epochs, batch_size = 1.0, 10, 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())
1
2
loss 0.273, train acc 0.899, test acc 0.807
32293.9 examples/sec on cuda:0

../_images/output_batch-norm_cf033c_51_1.svg

让我们来看看从第一个批量规范化层中学到的拉伸参数gamma和偏移参数beta

1
2
3
4
(tensor([0.4863, 2.8573, 2.3190, 4.3188, 3.8588, 1.7942], device='cuda:0',
grad_fn=<ReshapeAliasBackward0>),
tensor([-0.0124, 1.4839, -1.7753, 2.3564, -3.8801, -2.1589], device='cuda:0',
grad_fn=<ReshapeAliasBackward0>))

残差网络(ResNet)

原理

首先,假设有一类特定的神经网络架构$\mathcal{F}$,它包括学习速率和其他超参数设置。对于所有$f \in \mathcal{F}$,存在一些参数集(例如权重和偏置),这些参数可以通过在合适的数据集上进行训练而获得。

现在假设$f^$是我们真正想要找到的函数,如果是$f^ \in\mathcal{F}$*,那我们可以轻而易举的训练得到它,但通常我们不会那么幸运。

相反,我们将尝试找到一个函数$f^*_{\mathcal{F}}$,这是我们在$\mathcal{F}$中的最佳选择。例如,给定一个具有$\mathbf{X}$特性和$\mathbf{y}$标签的数据集,我们可以尝试通过解决以下优化问题来找到它:

那么,怎样得到更近似真正$f^*$的函数呢?

唯一合理的可能性是,我们需要设计一个更强大的架构$\mathcal{F}’$。换句话说,我们预计$f^_{\mathcal{F}’}$比$f^_{\mathcal{F}}$“更近似”。然而,如果$\mathcal{F} \not\subseteq \mathcal{F}’$,则无法保证新的体系“更近似”。

事实上,$f^*_{\mathcal{F}’}$可能更糟:

../_images/functionclasses.svg

因此,只有当较复杂的函数类包含较小的函数类时,我们才能确保提高它们的性能。

对于深度神经网络,如果我们能将新添加的层训练成恒等映射(identity function)$f(\mathbf{x}) = \mathbf{x}$,新模型和原模型将同样有效。同时,由于新模型可能得出更优的解来拟合训练数据集,因此添加层似乎更容易降低训练误差。

残差网络的核心思想是:每个附加层都应该更容易地包含原始函数作为其元素之一。于是,残差块(residual blocks)便诞生了,这个设计对如何建立深层神经网络产生了深远的影响。


残差块

让我们聚焦于神经网络局部:如图所示,假设我们的原始输入为$x$,而希望学出的理想映射为$f(\mathbf{x})$(作为上方激活函数的输入)。

左图虚线框中的部分需要直接拟合出该映射$f(\mathbf{x})$,而右图虚线框中的部分则需要拟合出残差映射$f(\mathbf{x}) - \mathbf{x}$。残差映射在现实中往往更容易优化。

以本节开头提到的恒等映射作为我们希望学出的理想映射$f(\mathbf{x})$,我们只需将右图虚线框内上方的加权运算(如仿射)的权重和偏置参数设成0,那么$f(\mathbf{x})$即为恒等映射。

实际中,当理想映射$f(\mathbf{x})$极接近于恒等映射时,残差映射也易于捕捉恒等映射的细微波动。在残差块中,输入可通过跨层数据线路更快地向前传播。

../_images/residual-block.svg

ResNet沿用了VGG完整的$3×3$卷积层设计。 残差块里首先有2个有相同输出通道数的$3×3$卷积层。 每个卷积层后接一个批量规范化层和ReLU激活函数。 然后我们通过跨层数据通路,跳过这2个卷积运算,将输入直接加在最后的ReLU激活函数前。 这样的设计要求2个卷积层的输出与输入形状一样,从而使它们可以相加。 如果想改变通道数,就需要引入一个额外的1×1卷积层来将输入变换成需要的形状后再做相加运算。 残差块的实现如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
class Residual(nn.Module):  # 继承自nn.Module,表示自定义的模块
def __init__(self, input_channels, num_channels,
use_1x1conv=False, strides=1):
super().__init__() # 调用父类的构造函数
# 第一个卷积层,使用3x3卷积核,保持输出尺寸不变,步长由strides参数控制。
self.conv1 = nn.Conv2d(input_channels, num_channels,
kernel_size=3, padding=1, stride=strides)
# 第二个卷积层,使用3x3卷积核,保持输出尺寸不变。
self.conv2 = nn.Conv2d(num_channels, num_channels,
kernel_size=3, padding=1)
# 可选的第三个卷积层,使用1x1卷积核调整输入的通道数,仅当use_1x1conv=True时使用。
if use_1x1conv:
self.conv3 = nn.Conv2d(input_channels, num_channels,
kernel_size=1, stride=strides)
else:
self.conv3 = None # 如果不需要调整通道数,则不使用这个层

# 两个批量归一化层,分别应用于conv1和conv2的输出上。
self.bn1 = nn.BatchNorm2d(num_channels)
self.bn2 = nn.BatchNorm2d(num_channels)

def forward(self, X):
# 通过第一个卷积层后,应用批量归一化和ReLU激活函数。
Y = F.relu(self.bn1(self.conv1(X)))
# 通过第二个卷积层后,应用批量归一化,注意这里没有立即应用ReLU。
Y = self.bn2(self.conv2(Y))
# 如果存在第三个卷积层(conv3),则通过它调整输入X的维度。
if self.conv3:
X = self.conv3(X)
# 将调整后的输入X加到第二个卷积层的输出上,实现跳跃连接。
Y += X
# 最后,应用ReLU激活函数并返回结果。
return F.relu(Y)

此代码生成两种类型的网络: 一种是当use_1x1conv=False时,应用ReLU非线性函数之前,将输入添加到输出。 另一种是当use_1x1conv=True时,添加通过1×1卷积调整通道和分辨率。

../_images/resnet-block.svg


模型

ResNet的前两层跟之前介绍的GoogLeNet中的一样: 在输出通道数为64、步幅为2的7×7卷积层后,接步幅为2的3×3的最大汇聚层。 不同之处在于ResNet每个卷积层后增加了批量规范化层。

1
2
3
b1 = nn.Sequential(nn.Conv2d(1, 64, kernel_size=7, stride=2, padding=3),
nn.BatchNorm2d(64), nn.ReLU(),
nn.MaxPool2d(kernel_size=3, stride=2, padding=1))

GoogLeNet在后面接了4个由Inception块组成的模块。 ResNet则使用4个由残差块组成的模块,每个模块使用若干个同样输出通道数的残差块。 第一个模块的通道数同输入通道数一致。 由于之前已经使用了步幅为2的最大汇聚层,所以无须减小高和宽。 之后的每个模块在第一个残差块里将上一个模块的通道数翻倍,并将高和宽减半。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
def resnet_block(input_channels, num_channels, num_residuals, first_block=False):
blk = [] # 初始化一个空列表,用于存放残差块
for i in range(num_residuals): # 遍历,创建指定数量的残差块
if i == 0 and not first_block:
# 对于非第一个ResNet块的第一个残差块,使用步长为2的1x1卷积,
# 这是为了减半高度和宽度,同时增加通道数。
# 这个操作通常用于ResNet中的过渡层,以逐渐减小特征图的空间维度,
# 同时增加通道维度,使网络能够学习更高层次的特征表示。
blk.append(Residual(input_channels, num_channels,
use_1x1conv=True, strides=2))
else:
# 对于块中的其他残差块,或者是第一个ResNet块的残差块,
# 使用标准的残差块结构,不改变特征图的大小,也不使用1x1卷积调整通道数。
blk.append(Residual(num_channels, num_channels))
return blk # 返回包含所有残差块的列表

接着在ResNet加入所有残差块,这里每个模块使用2个残差块。

1
2
3
4
b2 = nn.Sequential(*resnet_block(64, 64, 2, first_block=True))
b3 = nn.Sequential(*resnet_block(64, 128, 2))
b4 = nn.Sequential(*resnet_block(128, 256, 2))
b5 = nn.Sequential(*resnet_block(256, 512, 2))

最后,与GoogLeNet一样,在ResNet中加入全局平均汇聚层,以及全连接层输出。

1
2
3
net = nn.Sequential(b1, b2, b3, b4, b5,
nn.AdaptiveAvgPool2d((1,1)),
nn.Flatten(), nn.Linear(512, 10))

每个模块有4个卷积层(不包括恒等映射的1×1卷积层)。 加上第一个7×7卷积层和最后一个全连接层,共有18层。 因此,这种模型通常被称为ResNet-18。 通过配置不同的通道数和模块里的残差块数可以得到不同的ResNet模型,例如更深的含152层的ResNet-152。 虽然ResNet的主体架构跟GoogLeNet类似,但ResNet架构更简单,修改也更方便。这些因素都导致了ResNet迅速被广泛使用

../_images/resnet18.svg

1
2
3
4
X = torch.rand(size=(1, 1, 224, 224))
for layer in net:
X = layer(X)
print(layer.__class__.__name__,'output shape:\t', X.shape)
1
2
3
4
5
6
7
8
Sequential output shape:     torch.Size([1, 64, 56, 56])
Sequential output shape: torch.Size([1, 64, 56, 56])
Sequential output shape: torch.Size([1, 128, 28, 28])
Sequential output shape: torch.Size([1, 256, 14, 14])
Sequential output shape: torch.Size([1, 512, 7, 7])
AdaptiveAvgPool2d output shape: torch.Size([1, 512, 1, 1])
Flatten output shape: torch.Size([1, 512])
Linear output shape: torch.Size([1, 10])

训练

1
2
3
lr, num_epochs, batch_size = 0.05, 10, 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, resize=96)
d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())
1
2
loss 0.014, train acc 0.996, test acc 0.915
3856.5 examples/sec on cuda:0

../_images/output_resnet_46beba_126_1.svg

  • 学习嵌套函数(nested function)是训练神经网络的理想情况。在深层神经网络中,学习另一层作为恒等映射(identity function)较容易(尽管这是一个极端情况)。
  • 残差映射可以更容易地学习同一函数,例如将权重层中的参数近似为零。
  • 利用残差块(residual blocks)可以训练出一个有效的深层神经网络:输入可以通过层间的残余连接更快地向前传播。

稠密连接网络(DenseNet)

ResNet极大地改变了如何参数化深层网络中函数的观点。 稠密连接网络(DenseNet) 在某种程度上是ResNet的逻辑扩展。

原理

回想一下任意函数的泰勒展开式(Taylor expansion),它把这个函数分解成越来越高阶的项。在$x$接近0时,

同样,ResNet将函数展开为

也就是说,ResNet将$f$分解为两部分:一个简单的线性项和一个复杂的非线性项。 那么再向前拓展一步,

../_images/densenet-block.svg

ResNet和DenseNet的关键区别在于,DenseNet输出是连接(用图中的[,]表示)而不是如ResNet的简单相加。 因此,在应用越来越复杂的函数序列后,我们执行从$x$到其展开式的映射:

最后,将这些展开式结合到多层感知机中,再次减少特征的数量。 实现起来非常简单:我们不需要添加术语,而是将它们连接起来。 DenseNet这个名字由变量之间的“稠密连接”而得来,最后一层与之前的所有层紧密相连。

../_images/densenet.svg

稠密网络主要由2部分构成:稠密块(dense block)和过渡层(transition layer)。 前者定义如何连接输入和输出,而后者则控制通道数量,使其不会太复杂。


稠密块体

1
2
3
4
5
6
7
8
9
import torch
from torch import nn
from d2l import torch as d2l


def conv_block(input_channels, num_channels):
return nn.Sequential(
nn.BatchNorm2d(input_channels), nn.ReLU(),
nn.Conv2d(input_channels, num_channels, kernel_size=3, padding=1))

一个稠密块 由多个卷积块组成,每个卷积块使用相同数量的输出通道。 然而,在前向传播中,我们将每个卷积块的输入和输出在通道维上连结

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
class DenseBlock(nn.Module):
def __init__(self, num_convs, input_channels, num_channels):
super(DenseBlock, self).__init__()
layer = [] # 初始化一个空列表,用来存储卷积块
for i in range(num_convs):
# 对于每一个卷积层,输入通道数是前面所有层的输出通道数之和加上原始输入通道数
# 这是因为DenseBlock中的特点是将每一层的输出与原始输入在通道维度上进行拼接
layer.append(conv_block(
num_channels * i + input_channels, num_channels))
# 这里的conv_block是一个卷积块,它接受当前的输入通道数和输出通道数为参数
# 注意,这里假设conv_block已经在其他地方定义
self.net = nn.Sequential(*layer) # 使用nn.Sequential将所有卷积块组合成一个顺序模型

def forward(self, X):
for blk in self.net:
Y = blk(X) # 获取当前块的输出
# 在通道维度(dim=1)上将当前块的输出Y与原始输入X拼接
# 这样做的目的是为了实现特征重用,并增加网络的深度而不会导致梯度消失或爆炸
X = torch.cat((X, Y), dim=1)
return X # 返回最终的输出

  1. 初始输入 X 的形状(4, 3, 8, 8) 表示批量大小为4,通道数为3,高度和宽度都是8。
  2. 通过 DenseBlock 后的变化
    • DenseBlock 中有2个卷积层,每个卷积层输出的通道数为10。
    • DenseBlock 中,每个卷积层的输出都会与它的输入在通道维度上进行拼接,因此输出通道数会逐层累加。
  3. 输出 Y 的形状计算
    • 第一个卷积层接收3个通道的输入,输出10个通道,然后将这10个通道与原始的3个通道拼接,得到13个通道。
    • 第二个卷积层接收13个通道的输入(因为它接收了第一个卷积层的输出和原始输入的拼接),输出10个通道,然后将这10个通道与前面的13个通道拼接,得到23个通道。
    • 因此,最终输出 Y 的形状为 (4, 23, 8, 8),批量大小保持不变,高度和宽度由于卷积层使用了padding=1(假设conv_block内部这样设置),也保持不变,通道数增加到了23。

卷积块的通道数控制了输出通道数相对于输入通道数的增长,因此也被称为增长率(growth rate)。


过渡层

由于每个稠密块都会带来通道数的增加,使用过多则会过于复杂化模型。 而过渡层可以用来控制模型复杂度。 它通过1×1卷积层来减小通道数,并使用步幅为2的平均汇聚层减半高和宽,从而进一步降低模型复杂度。

1
2
3
4
5
def transition_block(input_channels, num_channels):
return nn.Sequential(
nn.BatchNorm2d(input_channels), nn.ReLU(),
nn.Conv2d(input_channels, num_channels, kernel_size=1),
nn.AvgPool2d(kernel_size=2, stride=2))

对上一个例子中稠密块的输出使用通道数为10的过渡层。 此时输出的通道数减为10,高和宽均减半。


模型

DenseNet首先使用同ResNet一样的单卷积层和最大汇聚层。

1
2
3
4
b1 = nn.Sequential(
nn.Conv2d(1, 64, kernel_size=7, stride=2, padding=3),
nn.BatchNorm2d(64), nn.ReLU(),
nn.MaxPool2d(kernel_size=3, stride=2, padding=1))

接下来,类似于ResNet使用的4个残差块,DenseNet使用的是4个稠密块。 与ResNet类似,我们可以设置每个稠密块使用多少个卷积层。 这里我们设成4,稠密块里的卷积层通道数(即增长率)设为32,所以每个稠密块将增加128个通道。

在每个模块之间,ResNet通过步幅为2的残差块减小高和宽,DenseNet则使用过渡层来减半高和宽,并减半通道数。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
# 初始通道数和每个DenseBlock的增长率(每个卷积层增加的通道数)
num_channels, growth_rate = 64, 32
# 每个DenseBlock中包含的卷积层数量
num_convs_in_dense_blocks = [4, 4, 4, 4]

blks = [] # 初始化一个空列表,用于存储DenseBlock和转换层
for i, num_convs in enumerate(num_convs_in_dense_blocks):
# 为每个num_convs添加一个DenseBlock到blks列表中
# DenseBlock的输入通道数为num_channels,每个卷积层增加的通道数为growth_rate
blks.append(DenseBlock(num_convs, num_channels, growth_rate))
# 更新num_channels为DenseBlock之后的输出通道数
num_channels += num_convs * growth_rate

# 除了最后一个DenseBlock外,在每个DenseBlock之后添加一个转换层
# 转换层的作用是减半通道数,从而控制模型大小和计算量
if i != len(num_convs_in_dense_blocks) - 1:
blks.append(transition_block(num_channels, num_channels // 2))
# 更新num_channels为转换层之后的输出通道数,即减半
num_channels = num_channels // 2

与ResNet类似,最后接上全局汇聚层和全连接层来输出结果。

1
2
3
4
5
6
net = nn.Sequential(
b1, *blks,
nn.BatchNorm2d(num_channels), nn.ReLU(),
nn.AdaptiveAvgPool2d((1, 1)),
nn.Flatten(),
nn.Linear(num_channels, 10))

训练

1
2
3
4
5
lr, num_epochs, batch_size = 0.1, 10, 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, resize=96)
d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())

#loss 0.140, train acc 0.948, test acc 0.881 3685.0 examples/sec on cuda:0

../_images/output_densenet_e82156_126_1.svg


总结

架构 发布年份 特点
AlexNet 2012 - 使用ReLU激活函数
- 局部响应归一化(LRN)
- 丢弃法(Dropout)
- 多GPU训练
VGG 2014 - 重复使用小卷积核(3x3)
- 堆叠卷积层以增加深度
NIN 2013 - 引入“网络中的网络”(mlpconv层)
- 1x1卷积核用于替代全连接层
- 强调了卷积层中的感受野对性能的影响
GoogLeNet (Inception) 2014 - 引入Inception模块,实现多尺度处理
- 使用1x1卷积核进行降维
- 辅助分类器减轻梯度消失问题
- 不使用全连接层,减少参数
ResNet 2015 - 引入残差学习单元,简化了深度网络的训练
- 支持构建极深的网络结构
- 恒等映射通过跳跃连接实现
DenseNet 2017 - 每层与前面所有层连接
- 极大地增强了特征的传递和复用
- 有效减少了参数数量
- 通过特征拼接而不是相加,保留了特征信息