10.0 注意力机制
注意力机制
注意力提示
定义
首先,考虑一个相对简单的状况, 即只使用非自主性提示。 要想将选择偏向于感官输入, 则可以简单地使用参数化的全连接层, 甚至是非参数化的最大汇聚层或平均汇聚层。
因此,“是否包含自主性提示”将注意力机制与全连接层或汇聚层区别开来。 在注意力机制的背景下,自主性提示被称为查询(query)。 给定任何查询,注意力机制通过注意力汇聚(attention pooling) 将选择引导至感官输入(sensory inputs,例如中间特征表示)。 在注意力机制中,这些感官输入被称为值(value)。 更通俗的解释,每个值都与一个键(key)配对, 这可以想象为感官输入的非自主提示。
如图所示,可以通过设计注意力汇聚的方式, 便于给定的查询(自主性提示)与键(非自主性提示)进行匹配, 这将引导得出最匹配的值(感官输入)。
注意力机制通过注意力汇聚将查询(自主性提示)和键(非自主性提示)结合在一起,实现对值(感官输入)的选择倾向
假设我们有一个简单的英文句子:“The cat sat on the mat.”(猫坐在垫子上。),我们希望将其翻译为中文。在翻译过程中,我们当前的任务是生成“猫”这个词的中文翻译。在这个过程中,我们将使用注意力机制来决定源句子中的哪些词对于当前的翻译任务最为重要。
- 查询(Query):假设在我们的模型中,当前的查询是由翻译模型的状态表示的,这个状态试图找到“cat”这个词的最佳中文对应。在这个例子中,查询是对“猫”这个概念的内部表示。
- 键(Key):每个英文单词都会有一个与之对应的键。这些键代表了模型对每个单词的内部表示,用于帮助模型理解每个词与当前查询的相关性。例如,”cat”, “sat”, “on”, “the”, “mat”每个词都有一个键。
- 值(Value):与键相对应,每个单词也都有一个值,这些值是实际用于计算输出的数据。在我们的翻译任务中,这些值可能包含了每个英文单词的含义、用法和上下文信息,这些信息将用于生成翻译。
可视化
平均汇聚层可以被视为输入的加权平均值, 其中各输入的权重是一样的。 实际上,注意力汇聚得到的是加权平均的总和值, 其中权重是在给定的查询和不同的键之间计算得出的。
为了可视化注意力权重,需要定义一个show_heatmaps
函数。 其输入matrices
的形状是 (要显示的行数,要显示的列数,查询的数目,键的数目)。
1 | import torch |
下面使用一个简单的例子进行演示。 在本例子中,仅当查询和键相同时,注意力权重为1,否则为0。
1 | attention_weights = torch.eye(10).reshape((1, 1, 10, 10)) |
Nadaraya-Watson 核回归
生成数据集
简单起见,考虑下面这个回归问题:给定的成对的“输入-输出”数据集$\{(x_1, y_1), \ldots, (x_n, y_n)\}$,如何学习$f$来预测任意新输入$x$的输出$\hat{y} = f(x)$?
根据下面的非线性函数生成一个人工数据集,其中加入的噪声项为$\epsilon$:
其中$\epsilon$服从均值为$0$和标准差为$0.5$的正态分布。在这里生成了$50$个训练样本和$50$个测试样本。为了更好地可视化之后的注意力模式,需要将训练样本进行排序。
1 | n_train = 50 # 训练样本数 |
下面的函数将绘制所有的训练样本(样本由圆圈表示), 不带噪声项的真实数据生成函数$f$(标记为“Truth”), 以及学习得到的预测函数(标记为“Pred”)
1 | def plot_kernel_reg(y_hat): |
平均汇聚
先使用最简单的估计器来解决回归问题。基于平均汇聚来计算所有训练样本输出值的平均值:
如图所示,这个估计器确实不够聪明。真实函数$f$(“Truth”)和预测函数(“Pred”)相差很大。
1 | #torch.repeat_interleave 是一个PyTorch函数,用于沿指定维度重复张量中的元素。 |
非参数注意力汇聚
显然,平均汇聚忽略了输入$x_i$。于是Nadaraya和Watson提出了一个更好的想法,根据输入的位置对输出$y_i$进行加权:
其中$K$是核(kernel)。公式所描述的估计器被称为Nadaraya-Watson核回归
这里不会深入讨论核函数的细节,但受此启发,我们可以从注意力机制框架的角度重写成为一个更加通用的注意力汇聚(attention pooling)公式:
其中$x$是查询,$(x_i, y_i)$是键值对。注意力汇聚是$y_i$的加权平均。将查询$x$和键$x_i$之间的关系建模为注意力权重$\alpha(x, x_i)$,这个权重将被分配给每一个对应值$y_i$。对于任何查询,模型在所有键值对注意力权重都是一个有效的概率分布:它们是非负的,并且总和为1。
为了更好地理解注意力汇聚,下面考虑一个高斯核(Gaussian kernel),其定义为:
将高斯核代入可以得到:
在公式中,如果一个键$x_i$越是接近给定的查询$x$,那么分配给这个键对应值$y_i$的注意力权重就会越大,也就“获得了更多的注意力”。
值得注意的是,Nadaraya-Watson核回归是一个非参数模型。因此,公式是非参数的注意力汇聚模型。接下来,我们将基于这个非参数的注意力汇聚模型来绘制预测结果。绘制的结果会发现新的模型预测线是平滑的,并且比平均汇聚的预测更接近真实。
1 | # X_repeat的形状:(n_test,n_train), |
现在来观察注意力的权重。 这里测试数据的输入相当于查询,而训练数据的输入相当于键。 因为两个输入都是经过排序的,因此由观察可知“查询-键”对越接近, 注意力汇聚的注意力权重就越高。
1 | d2l.show_heatmaps(attention_weights.unsqueeze(0).unsqueeze(0), |
带参数注意力汇聚
非参数的Nadaraya-Watson核回归具有一致性(consistency)的优点: 如果有足够的数据,此模型会收敛到最优结果。 尽管如此,我们还是可以轻松地将可学习的参数集成到注意力汇聚中。
在下面的查询$x$和键$x_i$之间的距离乘以可学习参数$w$:
本节的余下部分将通过训练这个模型来学习注意力汇聚的参数。
批量矩阵乘法
在注意力机制的背景中,我们可以使用小批量矩阵乘法来计算小批量数据中的加权平均值。
1 | weights = torch.ones((2, 10)) * 0.1 |
torch.bmm
- 功能:
torch.bmm
是批量矩阵乘法(Batch Matrix Multiplication)的缩写。这个函数用于计算两个张量中包含的多组矩阵的乘积。具体来说,如果你有两个三维张量,每个张量中包含了多个二维矩阵,torch.bmm
可以一次性计算这些矩阵的乘积。 - 输入:两个形状为
(b, n, m)
和(b, m, p)
的张量,其中b
是批次大小,表示有多少组矩阵需要相乘,n
,m
,p
分别是这些矩阵的维度。 - 输出:一个形状为
(b, n, p)
的张量,包含了每一组输入矩阵乘积的结果。
torch.unsqueeze
- 功能:
torch.unsqueeze
用于在指定位置增加一个维度(即增加一个轴)。这个操作不会改变张量的数据,但会改变张量的形状 - 输入:一个张量和一个指定的维度(位置)。
输出:形状改变后的张量,其在指定位置上增加了一个大小为1的维度。
weights.unsqueeze(1)
将weights
张量从形状(2, 10)
改变为(2, 1, 10)
。这里,1
表示在原有的行和列之间增加了一个新的维度。values.unsqueeze(-1)
将values
张量从形状(2, 10)
改变为(2, 10, 1)
。这里,-1
表示在张量的最后增加了一个新的维度。
接下来,将训练数据集变换为键和值用于训练注意力模型。 在带参数的注意力汇聚模型中, 任何一个训练样本的输入都会和除自己以外的所有训练样本的“键-值”对进行计算, 从而得到其对应的预测输出。
1 | # 每一行都包含着相同的训练输入 |
torch.eye(n_train)
创建一个形状为(n_train, n_train)
的单位矩阵,其中对角线上的元素为1,其余为0。1 - torch.eye(n_train)
则将这个单位矩阵取反,对角线上的元素变为0,其余变为1。.type(torch.bool)
将取反后的矩阵转换为布尔类型,对角线上的元素为False
,其余为True
。X_tile[...]
使用上述布尔矩阵作为索引,选取X_tile
中非对角线上的所有元素,即除去每行自身的重复数据。.reshape((n_train, -1))
重新塑形张量,使得每行包含n_train - 1
个元素,即除了自己之外的其他样本,形成了keys
张量。
训练带参数的注意力汇聚模型时,使用平方损失函数和随机梯度下降。
1 | net = NWKernelRegression() |
如下所示,训练完带参数的注意力汇聚模型后可以发现: 在尝试拟合带噪声的训练数据时, 预测结果绘制的线不如之前非参数模型的平滑。
1 | d2l.show_heatmaps(net.attention_weights.unsqueeze(0).unsqueeze(0), |
注意力评分函数
高斯核指数部分可以视为注意力评分函数(attention scoring function), 简称评分函数(scoring function), 然后把这个函数的输出结果输入到softmax函数中进行运算。 通过上述步骤,将得到与键对应的值的概率分布(即注意力权重)。 最后,注意力汇聚的输出就是基于这些注意力权重的值的加权和。
从宏观来看,上述算法可以用来实现注意力机制框架。图中说明了如何将注意力汇聚的输出计算成为值的加权和,其中$a$表示注意力评分函数。由于注意力权重是概率分布,因此加权和其本质上是加权平均值。
用数学语言描述,假设有一个查询$\mathbf{q} \in \mathbb{R}^q$和$m$个“键-值”对$(\mathbf{k}_1, \mathbf{v}_1), \ldots, (\mathbf{k}_m, \mathbf{v}_m)$,其中$\mathbf{k}_i \in \mathbb{R}^k$,$\mathbf{v}_i \in \mathbb{R}^v$。
注意力汇聚函数$f$就被表示成值的加权和:
其中查询$\mathbf{q}$和键$\mathbf{k}_i$的注意力权重(标量)是通过注意力评分函数$a$将两个向量映射成标量,再经过softmax运算得到的:
正如上图所示,选择不同的注意力评分函数$a$会导致不同的注意力汇聚操作。本节将介绍两个流行的评分函数,稍后将用他们来实现更复杂的注意力机制。
掩蔽softmax
正如上面提到的,softmax操作用于输出一个概率分布作为注意力权重。 在某些情况下,并非所有的值都应该被纳入到注意力汇聚中。 例如,为了在机器翻译中高效处理小批量数据集, 某些文本序列被填充了没有意义的特殊词元。
为了仅将有意义的词元作为值来获取注意力汇聚, 可以指定一个有效序列长度(即词元的个数), 以便在计算softmax时过滤掉超出指定范围的位置。 下面的masked_softmax
函数 实现了这样的掩蔽softmax操作, 其中任何超出有效长度的位置都被掩蔽并置为0。
1 | #@save |
为了演示此函数是如何工作的, 考虑由两个$2×4$矩阵表示的样本, 这两个样本的有效长度分别为2和3。 经过掩蔽softmax操作,超出有效长度的值都被掩蔽为0。
1 | masked_softmax(torch.rand(2, 2, 4), torch.tensor([2, 3])) |
加性注意力
一般来说,当查询和键是不同长度的矢量时,可以使用加性注意力作为评分函数。
给定查询$\mathbf{q} \in \mathbb{R}^q$和键$\mathbf{k} \in \mathbb{R}^k$,加性注意力(additive attention)的评分函数为
其中可学习的参数是$\mathbf W_q\in\mathbb R^{h\times q}$、$\mathbf W_k\in\mathbb R^{h\times k}$和$\mathbf w_v\in\mathbb R^{h}$。
将查询和键连结起来后输入到一个多层感知机(MLP)中,感知机包含一个隐藏层,其隐藏单元数是一个超参数$h$。通过使用$\tanh$作为激活函数,并且禁用偏置项。
下面来实现加性注意力。
1 | #@save |
通过广播,1
这个维度会被自动扩展以匹配另一个张量的相应维度(查询的1
扩展以匹配键的“键-值对的个数”,键的1
扩展以匹配查询的“查询的个数”),从而两者可以在每个维度上相加。
这个广播相加的结果是一个形状为(batch_size, 查询的个数, 键-值对的个数, num_hiddens)
的张量。这个张量的每个元素代表了一个查询与一个键在映射到共同隐藏空间后的加性组合。这个加性组合随后通过激活函数和进一步的处理来计算注意力分数。
用一个小例子来演示上面的AdditiveAttention
类, 其中查询、键和值的形状为(批量大小,步数或词元序列长度,特征大小), 实际输出为$(2,1,20)$、$(2,10,2)$和$(2,10,4)$。 注意力汇聚输出的形状为(批量大小,查询的步数,值的维度)。
1 | # 初始化输入数据 |
- 输入维度:
- 查询(Queries):初始维度为
(batch_size, 查询的个数, query_size)
。在示例中,这个维度是(2, 1, 20)
。 - 键(Keys)和值(Values):键的初始维度为
(batch_size, 键-值对的个数, key_size)
,值的维度为(batch_size, 键-值对的个数, value_size)
。在示例中,键的维度是(2, 10, 2)
,值的维度是(2, 10, 4)
。
- 查询(Queries):初始维度为
- 线性变换后的维度:
- 经过
self.W_q(queries)
和self.W_k(keys)
的线性变换后,查询和键都被映射到了num_hiddens
维度的空间。这里num_hiddens=8
。因此,变换后查询和键的维度分别变为(batch_size, 查询的个数, num_hiddens)
和(batch_size, 键-值对的个数, num_hiddens)
。在示例中,这意味着它们都变为(2, 1, 8)
和(2, 10, 8)
。
- 经过
unsqueeze
操作后的维度:- 执行
queries.unsqueeze(2)
后,查询的维度变为(batch_size, 查询的个数, 1, num_hiddens)
,在示例中为(2, 1, 1, 8)
。 - 执行
keys.unsqueeze(1)
后,键的维度变为(batch_size, 1, 键-值对的个数, num_hiddens)
,在示例中为(2, 1, 10, 8)
。
- 执行
- 广播相加后的维度:
- 在执行加法操作后,由于广播机制,最终的
features
维度为(batch_size, 查询的个数, 键-值对的个数, num_hiddens)
。在示例中,这个维度是(2, 1, 10, 8)
。
- 在执行加法操作后,由于广播机制,最终的
- 通过
self.w_v
后维度变化:- 经过
self.w_v(features)
计算得到的分数在最后一个维度为1,因此维度是(batch_size, 查询的个数, 键-值对的个数, 1)
。在示例中,维度变为(2, 1, 10, 1)
。
- 经过
squeeze
操作后的维度:- 执行
scores.squeeze(-1)
后,去除了最后一个维度,所以scores
的维度变为(batch_size, 查询的个数, 键-值对的个数)
。在示例中,这变为(2, 1, 10)
。
- 执行
- 输出维度:
- 最终的输出是通过对
values
进行加权求和得到的,其维度为(batch_size, 查询的个数, value_size)
。在示例中,输出维度是(2, 1, 4)
,这表示每个查询对应的加权值维度。
- 最终的输出是通过对
尽管加性注意力包含了可学习的参数,但由于本例子中每个键都是相同的, 所以注意力权重是均匀的,由指定的有效长度决定。
1 | d2l.show_heatmaps(attention.attention_weights.reshape((1, 1, 2, 10)), |
缩放点积注意力
使用点积可以得到计算效率更高的评分函数,但是点积操作要求查询和键具有相同的长度$d$。
假设查询和键的所有元素都是独立的随机变量,并且都满足零均值和单位方差,那么两个向量的点积的均值为$0$,方差为$d$。为确保无论向量长度如何,点积的方差在不考虑向量长度的情况下仍然是$1$,我们再将点积除以$\sqrt{d}$,则缩放点积注意力(scaled dot-product attention)评分函数为:
在实践中,我们通常从小批量的角度来考虑提高效率,例如基于$n$个查询和$m$个键-值对计算注意力,其中查询和键的长度为$d$,值的长度为$v$。
查询$\mathbf Q\in\mathbb R^{n\times d}$、
键$\mathbf K\in\mathbb R^{m\times d}$和
值$\mathbf V\in\mathbb R^{m\times v}$的缩放点积注意力是:
下面的缩放点积注意力的实现使用了暂退法进行模型正则化。
1 | #@save |
为了演示上述的DotProductAttention
类, 我们使用与先前加性注意力例子中相同的键、值和有效长度。 对于点积操作,我们令查询的特征维度与键的特征维度大小相同。
1 | queries = torch.normal(0, 1, (2, 1, 2)) |
与加性注意力演示相同,由于键包含的是相同的元素, 而这些元素无法通过任何查询进行区分,因此获得了均匀的注意力权重。
1 | d2l.show_heatmaps(attention.attention_weights.reshape((1, 1, 2, 10)), |
当查询和键是不同长度的矢量时,可以使用可加性注意力评分函数。当它们的长度相同时,使用缩放的“点-积”注意力评分函数的计算效率更高。
多头注意力
在实践中,当给定相同的查询、键和值的集合时, 我们希望模型可以基于相同的注意力机制学习到不同的行为, 然后将不同的行为作为知识组合起来, 捕获序列内各种范围的依赖关系 (例如,短距离依赖和长距离依赖关系)。 因此,允许注意力机制组合使用查询、键和值的不同 子空间表示 可能是有益的。
为此,与其只使用单独一个注意力汇聚, 我们可以用独立学习得到的ℎ组不同的 线性投影来变换查询、键和值。 然后,这ℎ组变换后的查询、键和值将并行地送到注意力汇聚中。 最后,将这ℎ个注意力汇聚的输出拼接在一起, 并且通过另一个可以学习的线性投影进行变换, 以产生最终输出。 这种设计被称为多头注意力, 对于ℎ个注意力汇聚输出,每一个注意力汇聚都被称作一个头(head)。 图中展示了使用全连接层来实现可学习的线性变换的多头注意力
模型
在实现多头注意力之前,让我们用数学语言将这个模型形式化地描述出来。
给定查询$\mathbf{q} \in \mathbb{R}^{d_q}$、键$\mathbf{k} \in \mathbb{R}^{d_k}$和值$\mathbf{v} \in \mathbb{R}^{d_v}$,每个注意力头$\mathbf{h}_i$($i = 1, \ldots, h$)的计算方法为:
其中,可学习的参数包括$\mathbf W_i^{(q)}\in\mathbb R^{p_q\times d_q}$、$\mathbf W_i^{(k)}\in\mathbb R^{p_k\times d_k}$$\mathbf W_i^{(v)}\in\mathbb R^{p_v\times d_v}$,以及代表注意力汇聚的函数$f$。$f$可以是上一节中的加性注意力和缩放点积注意力
多头注意力的输出需要经过另一个线性转换,它对应着$h$个头连结后的结果,因此其可学习参数是$\mathbf W_o\in\mathbb R^{p_o\times h p_v}$:
基于这种设计,每个头都可能会关注输入的不同部分,可以表示比简单加权平均值更复杂的函数。
实现
在实现过程中通常选择缩放点积注意力作为每一个注意力头。为了避免计算代价和参数代价的大幅增长,
我们设定$p_q = p_k = p_v = p_o / h$。 $p_q,p_k,p_v$分别代表单个注意力头的查询、键和值的维度,而 $p_o$ 是所有头合并后的输出维度。通过这种方式,每个头处理的维度更小,但总的来看,模型能够并行处理,并学习到不同子空间的表示。ℎ 是头的数量,$p_o$ 通过模型的参数(如num_hiddens
)指定。
1 | #@save |
为了能够使多个头并行计算, 上面的MultiHeadAttention
类将使用下面定义的两个转置函数。 具体来说,transpose_output
函数反转了transpose_qkv
函数的操作。
1 | #@save |
permute
函数接受一系列整数作为参数,这些整数代表了张量新的维度顺序。例如,如果有一个三维张量,其形状为(X, Y, Z)
,你可以使用permute
将其维度顺序改为(Z, X, Y)
或任何其他可能的组合。
下面使用键和值相同的小例子来测试我们编写的MultiHeadAttention
类。 多头注意力输出的形状是(batch_size
,num_queries
,num_hiddens
)。
1 | num_hiddens, num_heads = 100, 5 |
1 | batch_size, num_queries = 2, 4 |
步骤
乘以权重矩阵:
- 输入序列首先通过三个不同的线性层(权重矩阵),这些线性层分别用于生成查询($Q$)、键($K$)和值($V$)。这一步对整个输入序列进行操作,而不是针对分割后的“头”。每个线性层有其自己的权重矩阵 $(W^Q, W^K, W^V)$,它们的维度分别为 ($(d_{model}, d_k)、(d_{model}, d_k)$) 和 $(d_{model}, d_v)$,这里 $(d_k)$ 和 $(d_v)$ 分别是键/查询和值的目标维度。
分头:
- 接下来,生成的$Q$、$K$、$V$被分成多个“头”。实际上,这是通过调整它们的维度来实现的,而不是物理上将数据分割成几个部分。具体来说,如果模型设计中包含 $h$ 个头,那么每个头处理的维度是 ($d_k / h$) 和 ($d_v / h$)。将$Q$、$K$、$V$的形状从 $[batch_size, seq_length, d_k$] 调整为 $[batch_size, h, seq_length, d_k/h]$来为每个头提供数据。
计算自注意力:
- 对于每个头,独立地计算自注意力。由于步骤2中维度的调整,每个头可以并行地处理,关注输入数据的不同子空间。
合并头的输出:
- 最后,所有头的输出被合并回单一的表示中,通常是通过首先将它们连接起来,然后可能通过另一个线性层来整合这些信息。合并后的输出维度通常回到 $([batch_size, seq_length, d_{model}])$
自注意力
在深度学习中,经常使用卷积神经网络(CNN)或循环神经网络(RNN)对序列进行编码。 想象一下,有了注意力机制之后,我们将词元序列输入注意力池化中, 以便同一组词元同时充当查询、键和值。 具体来说,每个查询都会关注所有的键-值对并生成一个注意力输出。 由于查询、键和值来自同一组输入,因此被称为 自注意力
给定一个由词元组成的输入序列$\mathbf{x}_1, \ldots, \mathbf{x}_n$,其中任意$\mathbf{x}_i \in \mathbb{R}^d$($1 \leq i \leq n$)。该序列的自注意力输出为一个长度相同的序列$\mathbf{y}_1, \ldots, \mathbf{y}_n$,其中:
根据中之前定义的注意力汇聚函数$f(x) = \sum_{i=1}^n \alpha(x, x_i) y_i$,下面的代码片段是基于多头注意力对一个张量完成自注意力的计算,张量的形状为(批量大小,时间步的数目或词元序列的长度,$d$)。输出与输入的张量形状相同。
1 | num_hiddens, num_heads = 100, 5 |
num_hiddens
: 这个参数指定了查询(Query)、键(Key)、值(Value)以及最终输出向量的维度。在这个例子中,所有这些维度都被设置为100。num_heads
: 多头注意力中头的数量。在这里,设置为5,意味着注意力机制会被分成5个头进行并行计算,每个头处理的是输入数据的不同子空间。- 第三个参数
0.5
是dropout
的比率,用于防止模型过拟合,通过随机丢弃一部分注意力权重来增加模型的泛化能力。
综上所述,这段代码创建了一个具有100维隐藏层和5个注意力头的MultiHeadAttention
模型实例,并通过设置dropout
比率为0.5来帮助防止过拟合。
1 | batch_size, num_queries, valid_lens = 2, 4, torch.tensor([3, 2]) |
比较
接下来比较下面几个架构,目标都是将由$n$个词元组成的序列映射到另一个长度相等的序列,其中的每个输入词元或输出词元都由$d$维向量表示。具体来说,将比较的是卷积神经网络、循环神经网络和自注意力这几个架构的计算复杂性、顺序操作和最大路径长度。
请注意,顺序操作会妨碍并行计算,而任意的序列位置组合之间的路径越短,则能更轻松地学习序列中的远距离依赖关系
考虑一个卷积核大小为$k$的卷积层。
目前只需要知道的是,由于序列长度是$n$,输入和输出的通道数量都是$d$,所以卷积层的计算复杂度为$\mathcal{O}(knd^2)$。如图所示,卷积神经网络是分层的,因此为有$\mathcal{O}(1)$个顺序操作,最大路径长度为$\mathcal{O}(n/k)$。例如,$\mathbf{x}_1$和$\mathbf{x}_5$处于图中卷积核大小为3的双层卷积神经网络的感受野内。
当更新循环神经网络的隐状态时,$d \times d$权重矩阵和$d$维隐状态的乘法计算复杂度为$\mathcal{O}(d^2)$。由于序列长度为$n$,因此循环神经网络层的计算复杂度为$\mathcal{O}(nd^2)$。有$\mathcal{O}(n)$个顺序操作无法并行化,最大路径长度也是$\mathcal{O}(n)$。
在自注意力中,查询、键和值都是$n \times d$矩阵。考虑到缩放的”点-积“注意力,其中$n \times d$矩阵乘以$d \times n$矩阵。之后输出的$n \times n$矩阵乘以$n \times d$矩阵。因此,自注意力具有$\mathcal{O}(n^2d)$计算复杂性。每个词元都通过自注意力直接连接到任何其他词元。因此,有$\mathcal{O}(1)$个顺序操作可以并行计算,最大路径长度也是$\mathcal{O}(1)$。
总而言之,卷积神经网络和自注意力都拥有并行计算的优势,而且自注意力的最大路径长度最短。但是因为其计算复杂度是关于序列长度的二次方,所以在很长的序列中计算会非常慢。
位置编码
在处理词元序列时,循环神经网络是逐个的重复地处理词元的, 而自注意力则因为并行计算而放弃了顺序操作。 为了使用序列的顺序信息,通过在输入表示中添加 位置编码(positional encoding)来注入绝对的或相对的位置信息。 位置编码可以通过学习得到也可以直接固定得到。 接下来描述的是基于正弦函数和余弦函数的固定位置编码
假设输入表示$\mathbf{X} \in \mathbb{R}^{n \times d}$包含一个序列中$n$个词元的$d$维嵌入表示。位置编码使用相同形状的位置嵌入矩阵$\mathbf{P} \in \mathbb{R}^{n \times d}$输出$\mathbf{X} + \mathbf{P}$,矩阵第$i$行、第$2j$列和$2j+1$列上的元素为:
乍一看,这种基于三角函数的设计看起来很奇怪。在解释这个设计之前,让我们先在下面的PositionalEncoding
类中实现它。
1 | #@save |
在位置嵌入矩阵$P$中, 行代表词元在序列中的位置,列代表位置编码的不同维度。 从下面的例子中可以看到位置嵌入矩阵的第6列和第7列的频率高于第8列和第9列。 第6列和第7列之间的偏移量(第8列和第9列相同)是由于正弦函数和余弦函数的交替。
1 | encoding_dim, num_steps = 32, 60 |
绝对位置信息
为了明白沿着编码维度单调降低的频率与绝对位置信息的关系, 让我们打印出0,1,…,7的二进制表示形式。 正如所看到的,每个数字、每两个数字和每四个数字上的比特值 在第一个最低位、第二个最低位和第三个最低位上分别交替。
1 | for i in range(8): |
在二进制表示中,较高比特位的交替频率低于较低比特位, 与下面的热图所示相似,只是位置编码通过使用三角函数在编码维度上降低频率。 由于输出是浮点数,因此此类连续表示比二进制表示法更节省空间。
1 | P = P[0, :, :].unsqueeze(0).unsqueeze(0) |
Transformer
自注意力同时具有并行计算和最短的最大路径长度这两个优势。因此,使用自注意力来设计深度架构是很有吸引力的。对比之前仍然依赖循环神经网络实现输入表示的自注意力模型,Transformer模型完全基于注意力机制,没有任何卷积层或循环神经网络层。尽管Transformer最初是应用于在文本数据上的序列到序列学习,但现在已经推广到各种现代的深度学习中,例如语言、视觉、语音和强化学习领域。
模型
Transformer作为编码器-解码器架构的一个实例,其整体架构图在图中展示。正如所见到的,Transformer是由编码器和解码器组成的。Transformer的编码器和解码器是基于自注意力的模块叠加而成的,源(输入)序列和目标(输出)序列的嵌入(embedding)表示将加上位置编码(positional encoding),再分别输入到编码器和解码器中。
从宏观角度来看,Transformer的编码器是由多个相同的层叠加而成的,每个层都有两个子层(子层表示为$\mathrm{sublayer}$)。第一个子层是 多头自注意力 汇聚;第二个子层是基于位置的前馈网络。具体来说,在计算编码器的自注意力时,查询、键和值都来自前一个编码器层的输出。
受ResNet中残差网络的启发,每个子层都采用了残差连接。在Transformer中,对于序列中任何位置的任何输入$\mathbf{x} \in \mathbb{R}^d$,都要求满足$\mathrm{sublayer}(\mathbf{x}) \in \mathbb{R}^d$,以便残差连接满足$\mathbf{x} + \mathrm{sublayer}(\mathbf{x}) \in \mathbb{R}^d$。在残差连接的加法计算之后,紧接着应用层规范化,因此,输入序列对应的每个位置,Transformer编码器都将输出一个$d$维表示向量。
Transformer解码器也是由多个相同的层叠加而成的,并且层中使用了残差连接和层规范化。除了编码器中描述的两个子层之外,解码器还在这两个子层之间插入了第三个子层,称为编码器-解码器注意力层。在编码器-解码器注意力中,查询来自前一个解码器层的输出,而键和值来自整个编码器的输出。在解码器自注意力中,查询、键和值都来自上一个解码器层的输出。但是,解码器中的每个位置只能考虑该位置之前的所有位置。这种掩蔽注意力保留了自回归属性,确保预测仅依赖于已生成的输出词元。
接下来将实现Transformer模型的剩余部分。
基于位置的前馈神经
基于位置的前馈网络对序列中的所有位置的表示进行变换时使用的是同一个多层感知机(MLP),这就是称前馈网络是基于位置的 原因。在下面的实现中,输入X
的形状(批量大小,时间步数或序列长度,隐单元数或特征维度)将被一个两层的感知机转换成形状为(批量大小,时间步数,ffn_num_outputs
)的输出张量。
1 | #@save |
下面的例子显示,改变张量的最里层维度的尺寸,会改变成基于位置的前馈网络的输出尺寸。因为用同一个多层感知机对所有位置上的输入进行变换,所以当所有这些位置的输入相同时,它们的输出也是相同的
1 | ffn = PositionWiseFFN(4, 4, 8) |
最后会输出(2,3,8)的张量,前馈神经网络只会把输入的最后一个维度改变成指定的输出维度
残差连接和层规范化
现在让我们关注图中的加法和规范化(add&norm)组件。正如在本节开头所述,这是由残差连接和紧随其后的层规范化组成的。两者都是构建有效的深度架构的关键。
批量规范化batchnorm
中解释了在一个小批量的样本内基于批量规范化对数据进行重新中心化和重新缩放的调整。层规范化和批量规范化的目标相同,但层规范化是基于特征维度进行规范化。尽管批量规范化在计算机视觉中被广泛应用,但在自然语言处理任务中(输入通常是变长序列)批量规范化通常不如层规范化的效果好。
现在可以使用残差连接和层规范化来实现AddNorm
类。暂退法也被作为正则化方法使用。
1 | #@save |
比较层规范化和批量规范化
特性/应用 | 层规范化 (LN) | 批量规范化 (BN) |
---|---|---|
规范化维度 | 对单个样本内的所有特征进行规范化 | 对批次内的同一特征进行规范化 |
计算统计量 | 每个样本独立计算均值和方差 | 跨整个批次的样本计算均值和方差 |
适用场景 | 循环神经网络(RNN)、Transformer | 卷积神经网络(CNN) |
优点 | 适用于变长输入,不依赖于批次大小 | 可以加速训练过程,有助于稳定训练 |
缺点 | 可能不如BN在某些卷积网络中有效 | 对小批量大小敏感,可能影响模型在小批量数据上的表现 |
自回归任务 | 适合,因为不泄露未来信息 | 需要特别设计以避免未来信息泄露 |
并行计算 | 容易实现,因为计算独立于其他样本 | 需要整个批次的数据进行计算 |
编码器
有了组成Transformer编码器的基础组件,现在可以先实现编码器中的一个层。下面的EncoderBlock
类包含两个子层:多头自注意力和基于位置的前馈网络,这两个子层都使用了残差连接和紧随的层规范化。
- 自注意力机制(Self-Attention Mechanism):使编码器能够在处理序列的每个元素时,考虑到序列中的所有其他元素。这有助于编码器捕获输入序列内部的复杂依赖关系。
- 前馈神经网络(Feed-Forward Neural Network):在自注意力机制之后,每个位置的输出将传递给一个前馈神经网络。虽然对于不同位置的元素,该前馈网络是相同的,但它们分别独立地作用于每个位置。
1 | #@save |
正如从代码中所看到的,Transformer编码器中的任何层都不会改变其输入的形状
1 | X = torch.ones((2, 100, 24)) |
下面实现的Transformer编码器的代码中,堆叠了num_layers
个EncoderBlock
类的实例。由于这里使用的是值范围在−1和1之间的固定位置编码,因此通过学习得到的输入的嵌入表示的值需要先乘以嵌入维度的平方根进行重新缩放,然后再与位置编码相加。
1 | #@save |
下面我们指定了超参数来创建一个两层的Transformer编码器。 Transformer编码器输出的形状是(批量大小,时间步数目,num_hiddens
)。
1 | encoder = TransformerEncoder( |
解码器
Transformer解码器也是由多个相同的层组成。在DecoderBlock
类中实现的每个层包含了三个子层:解码器自注意力、“编码器-解码器”注意力和基于位置的前馈网络。这些子层也都被残差连接和紧随的层规范化围绕。
- 掩蔽自注意力机制(Masked Self-Attention Mechanism):与编码器中的自注意力机制相似,但增加了掩蔽操作,以防止位置信息泄露未来的信息。这确保了解码器在生成第$n$个元素时,只能使用到第$n−1$个及之前的元素。
- 编码器-解码器注意力机制(Encoder-Decoder Attention Mechanism):这使得解码器能够关注(即“注意”)到输入序列的不同部分。解码器的这一层使用解码器的输出作为查询,而将编码器的输出作为键和值。
- 前馈神经网络:与编码器中的类似,解码器的每个位置也会经过一个前馈神经网络。
正如在本节前面所述,在掩蔽多头解码器自注意力层(第一个子层)中,查询、键和值都来自上一个解码器层的输出。关于序列到序列模型,在训练阶段,其输出序列的所有位置(时间步)的词元都是已知的;然而,在预测阶段,其输出序列的词元是逐个生成的。因此,在任何解码器时间步中,只有生成的词元才能用于解码器的自注意力计算中。为了在解码器中保留自回归的属性,其掩蔽自注意力设定了参数dec_valid_lens
,以便任何查询都只会与解码器中所有已经生成词元的位置(即直到该查询位置为止)进行注意力计算。
1 | class DecoderBlock(nn.Module): |
为了便于在“编码器-解码器”注意力中进行缩放点积计算和残差连接中进行加法计算,编码器和解码器的特征维度都是num_hiddens
。
1 | decoder_blk = DecoderBlock(24, 24, 24, 24, [100, 24], 24, 48, 8, 0.5, 0) |
现在我们构建了由num_layers
个DecoderBlock
实例组成的完整的Transformer解码器。最后,通过一个全连接层计算所有vocab_size
个可能的输出词元的预测值。解码器的自注意力权重和编码器解码器注意力权重都被存储下来,方便日后可视化的需要。
1 | class TransformerDecoder(d2l.AttentionDecoder): |
在一个英语翻译成中文的模型中,编码器和解码器处理的输入语言是不同的:
- 编码器的输入:编码器接收的是源语言的序列,即英语文本。它的任务是理解这个英语文本,并将这个理解压缩成一个固定长度的向量表示或一系列上下文向量,这些向量富含了输入文本的语义信息和上下文关系。
- 解码器的输入:
- 在开始翻译过程时,解码器首先接收一个特殊的开始符号(如
<start>
),表示开始生成目标语言序列,即中文文本。 - 随后,在序列生成的每一步中,解码器接收到目前为止已生成的中文文本序列(包括开始符号和解码器之前步骤生成的中文词元)作为输入,用来预测下一个中文词元。
- 同时,解码器还会利用编码器的输出(即对英语文本的编码表示)来辅助生成翻译后的中文文本。这种辅助通常是通过编码器-解码器注意力机制实现的,使解码器能够关注输入英文序列中与当前生成步骤最相关的部分。
- 在开始翻译过程时,解码器首先接收一个特殊的开始符号(如
简而言之,在英语翻译成中文的模型中,编码器处理的是英语输入序列,旨在理解其含义;而解码器则基于编码器的理解以及到目前为止已生成的中文序列来逐步生成中文翻译。这种分工使得Transformer模型能够有效地在两种语言之间进行信息转换和翻译。
状态
在Transformer模型中,从编码器和解码器的输入到输出的过程中,数据经历了一系列形状(维度)的变化。以下是这一过程的详细描述,假设我们正在处理一个从英语到中文的翻译任务:
编码器
输入:假设源序列(英语)长度为
src_seq_length
,模型的嵌入维度为embedding_dim
,批量大小为batch_size
。- 输入形状:
[batch_size, src_seq_length]
(每个元素是词汇表索引)。
- 输入形状:
嵌入层:将词汇表索引转换为嵌入向量。
- 形状变化:
[batch_size, src_seq_length]
->[batch_size, src_seq_length, embedding_dim]
。
- 形状变化:
位置编码:添加位置信息到嵌入向量中。
- 形状保持不变:
[batch_size, src_seq_length, embedding_dim]
。
- 形状保持不变:
通过编码器层:输入序列通过多个相同的编码器层(每层包含自注意力和前馈网络)。
- 形状保持不变:
[batch_size, src_seq_length, embedding_dim]
。
- 形状保持不变:
编码器输出:编码器的最终输出是源序列的上下文感知表示。
- 输出形状:
[batch_size, src_seq_length, embedding_dim]
。
- 输出形状:
解码器
输入:目标序列(中文)到当前为止的生成部分,假设当前长度为
tgt_seq_length
。- 输入形状:
[batch_size, tgt_seq_length]
(每个元素是词汇表索引)。
- 输入形状:
嵌入层和位置编码:与编码器类似,将词汇表索引转换为嵌入向量,并添加位置信息。
- 形状变化:
[batch_size, tgt_seq_length]
->[batch_size, tgt_seq_length, embedding_dim]
。
- 形状变化:
掩蔽自注意力层:防止位置关注到未来的位置。
- 形状保持不变:
[batch_size, tgt_seq_length, embedding_dim]
。
- 形状保持不变:
编码器-解码器注意力层:解码器利用编码器的输出来关注输入序列中与当前生成最相关的部分。
- 编码器输出作为输入:
[batch_size, src_seq_length, embedding_dim]
。 - 解码器当前状态:
[batch_size, tgt_seq_length, embedding_dim]
。 - 输出形状保持不变:
[batch_size, tgt_seq_length, embedding_dim]
。
- 编码器输出作为输入:
通过解码器层:与编码器类似,但包括掩蔽自注意力和编码器-解码器注意力。
- 形状保持不变:
[batch_size, tgt_seq_length, embedding_dim]
。
- 形状保持不变:
生成预测:最后通过一个线性层和softmax层生成对下一个词元的预测。
- 形状变化:
[batch_size, tgt_seq_length, embedding_dim]
->[batch_size, tgt_seq_length, vocab_size]
,其中vocab_size
是目标语言词汇表的大小,表示每个位置上每个词的概率分布。
- 形状变化:
编码器和解码器处理的输入和输出在整个过程中主要保持相同的第一和第二维(批量大小和序列长度),而第三维(特征或嵌入维度)在进入模型之前通过嵌入层设定,并在整个模型中保持不变,直到最后的预测步骤,此时输出变为每个可能词元的概率分布。这些设计使得Transformer模型能够有效处理序列到序列的任务,如机器翻译。
训练
依照Transformer架构来实例化编码器-解码器模型。在这里,指定Transformer的编码器和解码器都是2层,都使用4头注意力
1 | # 设置模型参数 |
训练结束后,使用Transformer模型将一些英语句子翻译成法语,并且计算它们的BLEU分数。
1 | engs = ['go .', "i lost .", 'he\'s calm .', 'i\'m home .'] |
当进行最后一个英语到法语的句子翻译工作时,让我们可视化Transformer的注意力权重。编码器自注意力权重的形状为(编码器层数,注意力头数,num_steps
或查询的数目,num_steps
或“键-值”对的数目)。
1 | enc_attention_weights = torch.cat(net.encoder.attention_weights, 0).reshape((num_layers, num_heads, |
在编码器的自注意力中,查询和键都来自相同的输入序列。因为填充词元是不携带信息的,因此通过指定输入序列的有效长度可以避免查询与使用填充词元的位置计算注意力。接下来,将逐行呈现两层多头注意力的权重。每个注意力头都根据查询、键和值的不同的表示子空间来表示不同的注意力。
1 | d2l.show_heatmaps( |
为了可视化解码器的自注意力权重和“编码器-解码器”的注意力权重,我们需要完成更多的数据操作工作。例如用零填充被掩蔽住的注意力权重。值得注意的是,解码器的自注意力权重和“编码器-解码器”的注意力权重都有相同的查询:即以序列开始词元(beginning-of-sequence,BOS)打头,再与后续输出的词元共同组成序列。
1 | dec_attention_weights_2d = [head[0].tolist() |
由于解码器自注意力的自回归属性,查询不会对当前位置之后的“键-值”对进行注意力计算。
1 | # Plusonetoincludethebeginning-of-sequencetoken |
与编码器的自注意力的情况类似,通过指定输入序列的有效长度,输出序列的查询不会与输入序列中填充位置的词元进行注意力计算。
1 | d2l.show_heatmaps( |
尽管Transformer架构是为了序列到序列 的学习而提出的,但正如本书后面将提及的那样,Transformer编码器或Transformer解码器通常被单独用于不同的深度学习任务中。
- Transformer是编码器-解码器架构的一个实践,尽管在实际情况中编码器或解码器可以单独使用。
- 在Transformer中,多头自注意力用于表示输入序列和输出序列,不过解码器必须通过掩蔽机制来保留自回归属性。
- Transformer中的残差连接和层规范化是训练非常深度模型的重要工具。
- Transformer模型中基于位置的前馈网络使用同一个多层感知机,作用是对所有序列位置的表示进行转换。