8.0 循环神经网络
循环神经网络
序列模型
处理序列数据需要统计工具和新的深度神经网络架构。
为了简单起见,我们以图中所示的股票价格(富时100指数)为例。
其中,用$x_t$表示价格,即在时间步(time step)$t \in \mathbb{Z}^+$时,观察到的价格$x_t$。请注意,$t$对于本文中的序列通常是离散的,并在整数或其子集上变化。假设一个交易员想在$t$日的股市中表现良好,于是通过以下途径预测$x_t$:
自回归模型
为了实现这个预测,交易员可以使用回归模型,仅有一个主要问题:输入数据的数量,输入$x_{t-1}, \ldots, x_1$本身因$t$而异。也就是说,输入数据的数量这个数字将会随着我们遇到的数据量的增加而增加,因此需要一个近似方法来使这个计算变得容易处理。
本章后面的大部分内容将围绕着如何有效估计$P(x_t \mid x_{t-1}, \ldots, x_1)$展开。简单地说,它归结为以下两种策略。
第一种策略,假设在现实情况下相当长的序列$x_{t-1}, \ldots, x_1$可能是不必要的,因此我们只需要满足某个长度为$\tau$的时间跨度,即使用观测序列$x_{t-1}, \ldots, x_{t-\tau}$。当下获得的最直接的好处就是参数的数量总是不变的,至少在$t > \tau$时如此,这就使我们能够训练一个上面提及的深度网络。这种模型被称为自回归模型,因为它们是对自己执行回归。
第二种策略,如图所示,是保留一些对过去观测的总结$h_t$,并且同时更新预测$\hat{x}_t$和总结$h_t$。这就产生了基于$\hat{x}_t = P(x_t \mid h_{t})$估计$x_t$,以及公式$h_t = g(h_{t-1}, x_{t-1})$更新的模型。由于$h_t$从未被观测到,这类模型也被称为隐变量自回归模型。
这两种情况都有一个显而易见的问题:如何生成训练数据?
一个经典方法是使用历史观测来预测下一个未来观测。显然,我们并不指望时间会停滞不前。然而,一个常见的假设是虽然特定值$x_t$可能会改变,但是序列本身的动力学不会改变。这样的假设是合理的,因为新的动力学一定受新的数据影响,而我们不可能用目前所掌握的数据来预测新的动力学。统计学家称不变的动力学为静止的。因此,整个序列的估计值都将通过以下的方式获得:
注意,如果我们处理的是离散的对象(如单词),而不是连续的数字,则上述的考虑仍然有效。唯一的差别是,对于离散的对象,我们需要使用分类器而不是回归模型来估计$P(x_t \mid x_{t-1}, \ldots, x_1)$。
马尔科夫模型
回想一下,在自回归模型的近似法中,我们使用$x_{t-1}, \ldots, x_{t-\tau}$而不是$x_{t-1}, \ldots, x_1$来估计$x_t$。只要这种是近似精确的,我们就说序列满足马尔可夫条件(Markov condition)。特别是,如果$\tau = 1$,得到一个一阶马尔可夫模型,$P(x)$由下式给出:
当假设$x_t$仅是离散值时,这样的模型特别棒,因为在这种情况下,使用动态规划可以沿着马尔可夫链精确地计算结果。例如,我们可以高效地计算$P(x_{t+1} \mid x_{t-1})$:
利用这一事实,我们只需要考虑过去观察中的一个非常短的历史:$P(x_{t+1} \mid x_t, x_{t-1}) = P(x_{t+1} \mid x_t)$。
隐马尔可夫模型中的动态规划超出了本节的范围,而动态规划这些计算工具已经在控制算法和强化学习算法广泛使用。
训练
首先,我们生成一些数据:使用正弦函数和一些可加性噪声来生成序列数据, 时间步为1,2,…,1000。
1 | %matplotlib inline |
接下来,我们将这个序列转换为模型的特征-标签(feature-label)对。基于嵌入维度$\tau$,我们将数据映射为数据对$y_t = x_t$和$\mathbf{x}_t = [x_{t-\tau}, \ldots, x_{t-1}]$。
这比我们提供的数据样本少了$\tau$个,因为我们没有足够的历史记录来描述前$\tau$个数据样本。一个简单的解决办法是:如果拥有足够长的序列就丢弃这几项;另一个方法是用零填充序列。
在这里,我们仅使用前600个“特征-标签”对进行训练。
1 | # 假定x是先前定义的包含时间序列数据的张量,T是时间序列的总长度 |
在这里,我们使用一个相当简单的架构训练模型: 一个拥有两个全连接层的多层感知机,ReLU激活函数和平方损失。
1 | # 初始化网络权重的函数 |
1 | def train(net, train_iter, loss, epochs, lr): |
预测
由于训练损失很小,因此我们期望模型能有很好的工作效果。 让我们看看这在实践中意味着什么。 首先是检查模型预测下一个时间步的能力, 也就是单步预测
1 | onestep_preds = net(features) |
正如我们所料,单步预测效果不错。 即使这些预测的时间步超过了600+4(n_train + tau
), 其结果看起来仍然是可信的。 然而有一个小问题:如果数据观察序列的时间步只到604, 我们需要一步一步地向前迈进:
通常,对于直到$x_t$的观测序列,其在时间步$t+k$处的预测输出$\hat{x}_{t+k}$称为$k$步预测由于我们的观察已经到了$x_{604}$,它的$k$步预测是$\hat{x}_{604+k}$。换句话说,我们必须使用我们自己的预测(而不是原始数据)来进行多步预测。让我们看看效果如何。
1 | # 初始化一个全零的张量用于存储多步预测的结果,长度与时间序列相同 |
如上面的例子所示,绿线的预测显然并不理想。经过几个预测步骤之后,预测的结果很快就会衰减到一个常数。
事实是由于错误的累积:假设在步骤$1$之后,我们积累了一些错误$\epsilon_1 = \bar\epsilon$。于是,步骤$2$的输入被扰动了$\epsilon_1$,结果积累的误差是依照次序的$\epsilon_2 = \bar\epsilon + c \epsilon_1$,其中$c$为某个常数,后面的预测误差依此类推。
因此误差可能会相当快地偏离真实的观测结果。例如,未来$24$小时的天气预报往往相当准确,但超过这一点,精度就会迅速下降。基于$k = 1, 4, 16, 64$,通过对整个序列预测的计算,让我们更仔细地看一下$k$步预测的困难。
1 | max_steps = 64 # 定义最大预测步长 |
以上例子清楚地说明了当我们试图预测更远的未来时,预测的质量是如何变化的。 虽然“4步预测”看起来仍然不错,但超过这个跨度的任何预测几乎都是无用的。
文本预处理
本节中,我们将解析文本的常见预处理步骤。 这些步骤通常包括:
- 将文本作为字符串加载到内存中。
- 将字符串拆分为词元(如单词和字符)。
- 建立一个词表,将拆分的词元映射到数字索引。
- 将文本转换为数字索引序列,方便模型操作。
读取数据集
首先,我们从H.G.Well的《时光机器》中加载文本。 这是一个相当小的语料库,只有30000多个单词,但足够我们小试牛刀, 而现实中的文档集合可能会包含数十亿个单词。 下面的函数将数据集读取到由多条文本行组成的列表中,其中每条文本行都是一个字符串。 为简单起见,我们在这里忽略了标点符号和字母大写。
1 | #@save |
文本预处理:
- 对于
lines
列表中的每一行文本,函数使用正则表达式re.sub('[^A-Za-z]+', ' ', line)
来替换所有非字母字符为一个空格。这样做的目的是清理文本数据,保留文本中的字母字符,并去除数字、标点符号等非字母字符。 .strip()
方法用于去除字符串首尾的空白字符。.lower()
方法将所有字母字符转换为小写。这是文本处理中常用的归一化步骤,旨在减少词汇的变体,使模型更容易处理文本数据。
词元化
下面的tokenize
函数将文本行列表(lines
)作为输入, 列表中的每个元素是一个文本序列(如一条文本行)。 每个文本序列又被拆分成一个词元列表,词元(token)是文本的基本单位。 最后,返回一个由词元列表组成的列表,其中的每个词元都是一个字符串(string)。
1 | def tokenize(lines, token='word'): #@save |
词表
词元的类型是字符串,而模型需要的输入是数字,因此这种类型不方便模型使用。 现在,让我们构建一个字典,通常也叫做词表(vocabulary), 用来将字符串类型的词元映射到从0开始的数字索引中。 我们先将训练集中的所有文档合并在一起,对它们的唯一词元进行统计, 得到的统计结果称之为语料(corpus)。 然后根据每个唯一词元的出现频率,为其分配一个数字索引。 很少出现的词元通常被移除,这可以降低复杂性。 另外,语料库中不存在或已删除的任何词元都将映射到一个特定的未知词元“<pad>
); 序列开始词元(<bos>
); 序列结束词元(<eos>
)。
1 | import collections |
我们首先使用《时间机器》数据集作为语料库来构建词表,然后打印前几个高频词元及其索引
1 | vocab = Vocab(tokens) |
现在,我们可以将每一条文本行转换成一个数字索引列表
1 | for i in [0, 10]: |
整合
在使用上述函数时,我们将所有功能打包到load_corpus_time_machine
函数中, 该函数返回corpus
(词元索引列表)和vocab
(时光机器语料库的词表)。 我们在这里所做的改变是:
- 为了简化后面章节中的训练,我们使用字符(而不是单词)实现文本词元化;
- 时光机器数据集中的每个文本行不一定是一个句子或一个段落,还可能是一个单词,因此返回的
corpus
仅处理为单个列表,而不是使用多词元列表构成的一个列表。
1 | def load_corpus_time_machine(max_tokens=-1): #@save |
语言模型和数据集
我们了解了如何将文本数据映射为词元,以及将这些词元可以视为一系列离散的观测,例如单词或字符。
假设长度为$T$的文本序列中的词元依次为$x_1, x_2, \ldots, x_T$。于是,$x_t$($1 \leq t \leq T$)可以被认为是文本序列在时间步$t$处的观测或标签。
在给定这样的文本序列时,语言模型的目标是估计序列的联合概率
例如,只需要一次抽取一个词元$x_t \sim P(x_t \mid x_{t-1}, \ldots, x_1)$,一个理想的语言模型就能够基于模型本身生成自然文本。与猴子使用打字机完全不同的是,从这样的模型中提取的文本都将作为自然语言(例如,英语文本)来传递。只需要基于前面的对话片断中的文本,就足以生成一个有意义的对话。显然,我们离设计出这样的系统还很遥远,因为它需要“理解”文本,而不仅仅是生成语法合理的内容。
尽管如此,语言模型依然是非常有用的。例如,短语“to recognize speech”和“to wreck a nice beach”读音上听起来非常相似。这种相似性会导致语音识别中的歧义,但是这很容易通过语言模型来解决,因为第二句的语义很奇怪。同样,在文档摘要生成算法中,“狗咬人”比“人咬狗”出现的频率要高得多。
学习语言模型
显而易见,我们面对的问题是如何对一个文档,甚至是一个词元序列进行建模。
假设在单词级别对文本数据进行词元化
让我们从基本概率规则开始:
例如,包含了四个单词的一个文本序列的概率是:
为了训练语言模型,我们需要计算单词的概率,以及给定前面几个单词后出现某个单词的条件概率。这些概率本质上就是语言模型的参数。
训练数据集中词的概率可以根据给定词的相对词频来计算。例如,可以将估计值$\hat{P}(\text{deep})$计算为任何以单词“deep”开头的句子的概率。一种(稍稍不太精确的)方法是统计单词“deep”在数据集中的出现次数,然后将其除以整个语料库中的单词总数。这种方法效果不错,特别是对于频繁出现的单词。接下来,我们可以尝试估计
其中$n(x)$和$n(x, x’)$分别是单个单词和连续单词对的出现次数。不幸的是,由于连续单词对“deep learning”的出现频率要低得多,所以估计这类单词正确的概率要困难得多。特别是对于一些不常见的单词组合,要想找到足够的出现次数来获得准确的估计可能都不容易。
而对于三个或者更多的单词组合,情况会变得更糟。许多合理的三个单词组合可能是存在的,但是在数据集中却找不到。除非我们提供某种解决方案,来将这些单词组合指定为非零计数,否则将无法在语言模型中使用它们。如果数据集很小,或者单词非常罕见,那么这类单词出现一次的机会可能都找不到。
马尔科夫模型与n元语法
如果$P(x_{t+1} \mid x_t, \ldots, x_1) = P(x_{t+1} \mid x_t)$,则序列上的分布满足一阶马尔可夫性质。阶数越高,对应的依赖关系就越长。这种性质推导出了许多可以应用于序列建模的近似公式:
通常,涉及一个、两个和三个变量的概率公式分别被称为 一元语法(unigram)、二元语法(bigram)和三元语法(trigram)模型。 下面,我们将学习如何去设计更好的模型。
自然语言统计
根据时光机器数据集构建词表, 并打印前10个最常用的(频率最高的)单词。
1 | import random |
这些词通常被称为停用词(stop words),因此可以被过滤掉。 尽管如此,它们本身仍然是有意义的,我们仍然会在模型中使用它们。 此外,还有个明显的问题是词频衰减的速度相当地快。 例如,最常用单词的词频对比,第10个还不到第1个的1/5。 为了更好地理解,我们可以画出的词频图:
1 | freqs = [freq for token, freq in vocab.token_freqs] |
通过此图我们可以发现:词频以一种明确的方式迅速衰减。 将前几个单词作为例外消除后,剩余的所有单词大致遵循双对数坐标图上的一条直线。 这意味着单词的频率满足齐普夫定律(Zipf’s law), 即第$i$个最常用单词的频率$n_i$为:
等价于
其中$\alpha$是刻画分布的指数,$c$是常数。 这告诉我们想要通过计数统计和平滑来建模单词是不可行的, 因为这样建模的结果会大大高估尾部单词的频率,也就是所谓的不常用单词。
我们直观地对比三种模型中的词元频率:一元语法、二元语法和三元语法。
除了一元语法词,单词序列似乎也遵循齐普夫定律, 尽管公式中的指数$\alpha$更小 (指数的大小受序列长度的影响)
读取长序列数据
假设我们将使用神经网络来训练语言模型, 模型中的网络一次处理具有预定义长度 (例如$n$个时间步)的一个小批量序列。 现在的问题是如何随机生成一个小批量数据的特征和标签以供读取。
首先,由于文本序列可以是任意长的, 例如整本《时光机器》(The Time Machine), 于是任意长的序列可以被我们划分为具有相同时间步数的子序列。 当训练我们的神经网络时,这样的小批量子序列将被输入到模型中。 假设网络一次只处理具有n个时间步的子序列,图中画出了从原始文本序列获得子序列的所有不同的方式, 其中n=5,并且每个时间步的词元对应于一个字符。 请注意,因为我们可以选择任意偏移量来指示初始位置,所以我们有相当大的自由度。
因此,我们应该从图中选择哪一个呢? 事实上,他们都一样的好。 然而,如果我们只选择一个偏移量, 那么用于训练网络的、所有可能的子序列的覆盖范围将是有限的。 因此,我们可以从随机偏移量开始划分序列, 以同时获得覆盖性(coverage)和随机性(randomness)。 下面,我们将描述如何实现随机采样(random sampling)和 顺序分区(sequential partitioning)策略。
随机采样
在随机采样中,每个样本都是在原始的长序列上任意捕获的子序列。 在迭代过程中,来自两个相邻的、随机的、小批量中的子序列不一定在原始序列上相邻。 对于语言建模,目标是基于到目前为止我们看到的词元来预测下一个词元, 因此标签是移位了一个词元的原始序列。
下面的代码每次可以从数据中随机生成一个小批量。 在这里,参数batch_size
指定了每个小批量中子序列样本的数目, 参数num_steps
是每个子序列中预定义的时间步数。
1 | def seq_data_iter_random(corpus, batch_size, num_steps): #@save |
下面我们生成一个从0到34的序列。 假设批量大小为2,时间步数为5,这意味着可以生成 ⌊(35−1)/5⌋=6个“特征-标签”子序列对。 如果设置小批量大小为2,我们只能得到3个小批量。
1 | my_seq = list(range(35)) |
顺序分区
在迭代过程中,除了对原始序列可以随机抽样外, 我们还可以保证两个相邻的小批量中的子序列在原始序列上也是相邻的。 这种策略在基于小批量的迭代过程中保留了拆分的子序列的顺序,因此称为顺序分区。
1 | def seq_data_iter_sequential(corpus, batch_size, num_steps): #@save |
基于相同的设置,通过顺序分区读取每个小批量的子序列的特征X
和标签Y
。 通过将它们打印出来可以发现: 迭代期间来自两个相邻的小批量中的子序列在原始序列中确实是相邻的。
1 | for X, Y in seq_data_iter_sequential(my_seq, batch_size=2, num_steps=5): |
现在,我们将上面的两个采样函数包装到一个类中, 以便稍后可以将其用作数据迭代器。
1 | class SeqDataLoader: #@save |
最后,我们定义了一个函数load_data_time_machine
, 它同时返回数据迭代器和词表, 因此可以与其他带有load_data
前缀的函数
1 | def load_data_time_machine(batch_size, num_steps, #@save |
循环神经网络
之前我们介绍了$n$元语法模型,其中单词$x_t$在时间步$t$的条件概率仅取决于前面$n-1$个单词。对于时间步$t-(n-1)$之前的单词,如果我们想将其可能产生的影响合并到$x_t$上,需要增加$n$,然而模型参数的数量也会随之呈指数增长,因为词表$\mathcal{V}$需要存储$|\mathcal{V}|^n$个数字,因此与其将$P(x_t \mid x_{t-1}, \ldots, x_{t-n+1})$模型化,
不如使用隐变量模型:
其中$h_{t-1}$是隐状态(hidden state),也称为隐藏变量(hidden variable),它存储了到时间步$t-1$的序列信息。通常,我们可以基于当前输入$x_{t}$和先前隐状态$h_{t-1}$来计算时间步$t$处的任何时间的隐状态:
对于公式中的函数$f$,隐变量模型不是近似值。毕竟$h_t$是可以仅仅存储到目前为止观察到的所有数据,然而这样的操作可能会使计算和存储的代价都变得昂贵。
回想一下,我们在多层感知机中讨论过的具有隐藏单元的隐藏层。值得注意的是,隐藏层和隐状态指的是两个截然不同的概念。如上所述,隐藏层是在从输入到输出的路径上(以观测角度来理解)的隐藏的层,而隐状态则是在给定步骤所做的任何事情(以技术角度来定义)的输入,并且这些状态只能通过先前时间步的数据来计算。
无隐状态的神经网络
让我们来看一看只有单隐藏层的多层感知机。设隐藏层的激活函数为$\phi$,给定一个小批量样本$\mathbf{X} \in \mathbb{R}^{n \times d}$,其中批量大小为$n$,输入维度为$d$,则隐藏层的输出$\mathbf{H} \in \mathbb{R}^{n \times h}$通过下式计算:
在公式中,我们拥有的隐藏层权重参数为$\mathbf{W}_{xh} \in \mathbb{R}^{d \times h}$,偏置参数为$\mathbf{b}_h \in \mathbb{R}^{1 \times h}$,以及隐藏单元的数目为$h$。因此求和时可以应用广播机制接下来,将隐藏变量$\mathbf{H}$用作输出层的输入。输出层由下式给出:
其中,$\mathbf{O} \in \mathbb{R}^{n \times q}$是输出变量,
$\mathbf{W}_{hq} \in \mathbb{R}^{h \times q}$是权重参数,
$\mathbf{b}_q \in \mathbb{R}^{1 \times q}$是输出层的偏置参数。
如果是分类问题,我们可以用$\text{softmax}(\mathbf{O})$来计算输出类别的概率分布。这完全类似于之前在之前股票预测问题中解决的回归问题,因此我们省略了细节。无须多言,只要可以随机选择“特征-标签”对,并且通过自动微分和随机梯度下降能够学习网络参数就可以了。
有隐状态的神经网络
有了隐状态后,情况就完全不同了。假设我们在时间步$t$有小批量输入$\mathbf{X}_t \in \mathbb{R}^{n \times d}$。换言之,对于$n$个序列样本的小批量,$\mathbf{X}_t$的每一行对应于来自该序列的时间步$t$处的一个样本。接下来,用$\mathbf{H}_t \in \mathbb{R}^{n \times h}$表示时间步$t$的隐藏变量。
与多层感知机不同的是,我们在这里保存了前一个时间步的隐藏变量$\mathbf{H}_{t-1}$,并引入了一个新的权重参数$\mathbf{W}_{hh} \in \mathbb{R}^{h \times h}$,来描述如何在当前时间步中使用前一个时间步的隐藏变量。具体地说,当前时间步隐藏变量由当前时间步的输入与前一个时间步的隐藏变量一起计算得出:
与原公式相比,有隐状态多添加了一项$\mathbf{H}_{t-1} \mathbf{W}_{hh}$,从而实例化了隐状态,从相邻时间步的隐藏变量$\mathbf{H}_t$和$\mathbf{H}_{t-1}$之间的关系可知,这些变量捕获并保留了序列直到其当前时间步的历史信息,就如当前时间步下神经网络的状态或记忆,因此这样的隐藏变量被称为隐状态
由于在当前时间步中,隐状态使用的定义与前一个时间步中使用的定义相同,因此公式中的计算是循环的。于是基于循环计算的隐状态神经网络被命名为循环神经网络(recurrent neural network)。在循环神经网络中执行计算的层称为循环层
有许多不同的方法可以构建循环神经网络,公式中定义的隐状态的循环神经网络是非常常见的一种。对于时间步$t$,输出层的输出类似于多层感知机中的计算:
循环神经网络的参数包括隐藏层的权重$\mathbf{W}_{xh} \in \mathbb{R}^{d \times h}, \mathbf{W}_{hh} \in \mathbb{R}^{h \times h}$和偏置$\mathbf{b}_h \in \mathbb{R}^{1 \times h}$,以及输出层的权重$\mathbf{W}_{hq} \in \mathbb{R}^{h \times q}$和偏置$\mathbf{b}_q \in \mathbb{R}^{1 \times q}$。值得一提的是,即使在不同的时间步,循环神经网络也总是使用这些模型参数。因此,循环神经网络的参数开销不会随着时间步的增加而增加。
循环神经网络(RNN)的参数包括以下几部分,这些参数共同定义了RNN的行为:
隐藏层的权重 ($W_{xh} \in \mathbb{R}^{d \times h}$):这是输入层到隐藏层的权重矩阵。其中(d)代表输入特征的维度,(h)代表隐藏层单元的数量。该矩阵负责将输入转换到隐藏状态空间。
隐藏层自回归的权重 ($W_{hh} \in \mathbb{R}^{h \times h}$):这是从前一时间步的隐藏层到当前时间步的隐藏层的权重矩阵。它使网络能够学习时间序列数据中的序列依赖性。
隐藏层的偏置 ($b_h \in \mathbb{R}^{1 \times h}$):这是隐藏层的偏置向量,用于添加到隐藏状态的线性转换中。
输出层的权重 ($W_{hq} \in \mathbb{R}^{h \times q}$):这是从隐藏层到输出层的权重矩阵。(q)代表输出特征的维度。该矩阵负责将隐藏状态转换为最终的输出。
输出层的偏置 ($b_q \in \mathbb{R}^{1 \times q}$):这是输出层的偏置向量,用于添加到输出层的线性转换中。
RNN的特点是在所有时间步中重复使用这些参数。这种参数共享机制意味着,即使序列数据的长度变化,RNN模型的参数数量保持不变,从而使RNN能够处理不同长度的序列数据。这种设计不仅减少了模型的参数量,还帮助模型捕捉长期依赖,是RNN处理时间序列数据的关键特性。
展示了循环神经网络在三个相邻时间步的计算逻辑。在任意时间步$t$,隐状态的计算可以被视为:
- 拼接当前时间步$t$的输入$\mathbf{X}_t$和前一时间步$t-1$的隐状态$\mathbf{H}_{t-1}$
- 将拼接的结果送入带有激活函数$\phi$的全连接层。全连接层的输出是当前时间步$t$的隐状态$\mathbf{H}_t$。
在本例中,模型参数是$\mathbf{W}_{xh}$和$\mathbf{W}_{hh}$的拼接,以及$\mathbf{b}_h$的偏置,所有这些参数都来自公式,当前时间步$t$的隐状态$\mathbf{H}_t$将参与计算下一时间步$t+1$的隐状态$\mathbf{H}_{t+1}$。而且$\mathbf{H}_t$还将送入全连接输出层,用于计算当前时间步$t$的输出$\mathbf{O}_t$。
基于循环神经网络的字符级语言模型
回想一下之前的语言模型, 我们的目标是根据过去的和当前的词元预测下一个词元, 因此我们将原始序列移位一个词元作为标签。接下来,我们看一下如何使用循环神经网络来构建语言模型。 设小批量大小为1,批量中的文本序列为“machine”。 为了简化后续部分的训练,我们考虑使用 字符级语言模型, 将文本词元化为字符而不是单词。
图中演示了 如何通过基于字符级语言建模的循环神经网络, 使用当前的和先前的字符预测下一个字符。
在训练过程中,我们对每个时间步的输出层的输出进行$softmax$操作, 然后利用交叉熵损失计算模型输出和标签之间的误差。 由于隐藏层中隐状态的循环计算,图中的第3个时间步的输出$O_3$ 由文本序列“m”“a”和“c”确定。 由于训练数据中这个文本序列的下一个字符是“h”, 因此第3个时间步的损失将取决于下一个字符的概率分布, 而下一个字符是基于特征序列“m”“a”“c”和这个时间步的标签“h”生成的。
在实践中,我们使用的批量大小为$n>1$,每个词元都由一个$d$维向量表示。因此,在时间步$t$输入$\mathbf X_t$将是一个$n\times d$矩阵,这与我们在上一小节中的讨论相同。
困惑度
最后,让我们讨论如何度量语言模型的质量, 这将在后续部分中用于评估基于循环神经网络的模型。 一个好的语言模型能够用高度准确的词元来预测我们接下来会看到什么。
我们可以通过计算序列的似然概率来度量模型的质量。 然而这是一个难以理解、难以比较的数字。 毕竟,较短的序列比较长的序列更有可能出现, 因此评估模型产生托尔斯泰的巨著《战争与和平》的可能性 不可避免地会比产生圣埃克苏佩里的中篇小说《小王子》可能性要小得多。 而缺少的可能性值相当于平均数。
如果想要压缩文本,我们可以根据当前词元集预测的下一个词元。 一个更好的语言模型应该能让我们更准确地预测下一个词元。 因此,它应该允许我们在压缩序列时花费更少的比特。 所以我们可以通过一个序列中所有的$n$个词元的交叉熵损失的平均值来衡量:
其中$P$由语言模型给出,$x_t$是在时间步$t$从该序列中观察到的实际词元。这使得不同长度的文档的性能具有了可比性。由于历史原因,自然语言处理的科学家更喜欢使用一个叫做困惑度(perplexity)的量。简而言之,是交叉熵损失的平均值的指数
困惑度的最好的理解是“下一个词元的实际选择数的调和平均数”。 我们看看一些案例。
- 在最好的情况下,模型总是完美地估计标签词元的概率为1。 在这种情况下,模型的困惑度为1。
- 在最坏的情况下,模型总是预测标签词元的概率为0。 在这种情况下,困惑度是正无穷大。
- 在基线上,该模型的预测是词表的所有可用词元上的均匀分布。 在这种情况下,困惑度等于词表中唯一词元的数量。 事实上,如果我们在没有任何压缩的情况下存储序列, 这将是我们能做的最好的编码方式。 因此,这种方式提供了一个重要的上限, 而任何实际模型都必须超越这个上限。
从零实现
1 | %matplotlib inline |
独热编码
回想一下,在train_iter
中,每个词元都表示为一个数字索引, 将这些索引直接输入神经网络可能会使学习变得困难。 我们通常将每个词元表示为更具表现力的特征向量。 最简单的表示称为独热编码
我们每次采样的小批量数据形状是二维张量: (批量大小,时间步数)。 one_hot
函数将这样一个小批量数据转换成三维张量, 张量的最后一个维度等于词表大小(len(vocab)
)。 我们经常转换输入的维度,以便获得形状为 (时间步数,批量大小,词表大小)的输出。 这将使我们能够更方便地通过最外层的维度, 一步一步地更新小批量数据的隐状态。
初始化模型参数
接下来,我们初始化循环神经网络模型的模型参数。 隐藏单元数num_hiddens
是一个可调的超参数。 当训练语言模型时,输入和输出来自相同的词表。 因此,它们具有相同的维度,即词表的大小。
1 | def get_params(vocab_size, num_hiddens, device): |
模型
为了定义循环神经网络模型, 我们首先需要一个init_rnn_state
函数在初始化时返回隐状态。 这个函数的返回是一个张量,张量全用0填充, 形状为(批量大小,隐藏单元数)。 在后面的章节中我们将会遇到隐状态包含多个变量的情况, 而使用元组可以更容易地处理些。
1 | def init_rnn_state(batch_size, num_hiddens, device): |
下面的rnn
函数定义了如何在一个时间步内计算隐状态和输出。 循环神经网络模型通过inputs
最外层的维度实现循环, 以便逐时间步更新小批量数据的隐状态H
。 这里使用$tanh$作为激活函数,当元素在实数上满足均匀分布时,$tanh$函数的平均值为0。
1 | def rnn(inputs, state, params): |
定义了所有需要的函数之后,接下来我们创建一个类来包装这些函数, 并存储从零开始实现的循环神经网络模型的参数。
1 | class RNNModelScratch: |
让我们检查输出是否具有正确的形状。 例如,隐状态的维数是否保持不变。
1 | num_hiddens = 512 |
我们可以看到输出形状是(时间步数×批量大小,词表大小), 而隐状态形状保持不变,即(批量大小,隐藏单元数)。
预测
让我们首先定义预测函数来生成prefix
之后的新字符, 其中的prefix
是一个用户提供的包含多个字符的字符串。 在循环遍历prefix
中的开始字符时, 我们不断地将隐状态传递到下一个时间步,但是不生成任何输出。 这被称为预热(warm-up)期, 因为在此期间模型会自我更新(例如,更新隐状态), 但不会进行预测。 预热期结束后,隐状态的值通常比刚开始的初始值更适合预测, 从而预测字符并输出它们。
1 | def predict_ch8(prefix, num_preds, net, vocab, device): #@save |
现在我们可以测试predict_ch8
函数。 我们将前缀指定为time traveller
, 并基于这个前缀生成10个后续字符。 鉴于我们还没有训练网络,它会生成荒谬的预测结果。
1 | predict_ch8('time traveller ', 10, net, vocab, d2l.try_gpu()) |
梯度剪裁
这个grad_clipping
函数的目的是在训练神经网络时对梯度进行裁剪,以防止梯度爆炸问题,这是在训练循环神经网络(RNNs)时经常需要采取的一种措施。函数的工作原理如下:
1 | def grad_clipping(net, theta): #@save |
梯度裁剪通过限制梯度的范数,避免了在训练过程中由于梯度过大导致的参数更新过猛,从而引起的模型不稳定或梯度爆炸问题。
训练
在训练模型之前,让我们定义一个函数在一个迭代周期内训练模型。 它与softmax训练模型的方式有三个不同之处。
- 序列数据的不同采样方法(随机采样和顺序分区)将导致隐状态初始化的差异。
- 我们在更新模型参数之前裁剪梯度。 这样的操作的目的是,即使训练过程中某个点上发生了梯度爆炸,也能保证模型不会发散。
- 我们用困惑度来评价模型。 这样的度量确保了不同长度的序列具有可比性。
顺序分区:我们只在每个迭代周期的开始位置初始化隐状态。 由于下一个小批量数据中的第$i$个子序列样本 与当前第$i$个子序列样本相邻, 因此当前小批量数据最后一个样本的隐状态, 将用于初始化下一个小批量数据第一个样本的隐状态。 这样,存储在隐状态中的序列的历史信息 可以在一个迭代周期内流经相邻的子序列。 然而,在任何一点隐状态的计算, 都依赖于同一迭代周期中前面所有的小批量数据, 这使得梯度计算变得复杂。 为了降低计算量,在处理任何一个小批量数据之前, 我们先分离梯度,使得隐状态的梯度计算总是限制在一个小批量数据的时间步内。
随机抽样:因为每个样本都是在一个随机位置抽样的, 因此需要为每个迭代周期重新初始化隐状态。 与softmax中的 train_epoch_ch3
函数相同, updater
是更新模型参数的常用函数。 它既可以是从头开始实现的d2l.sgd
函数, 也可以是深度学习框架中内置的优化函数。
1 | #@save |
在训练循环神经网络(RNN)时,detach_()
方法的调用是为了截断反向传播时的梯度流。这是因为在RNN中,通过时间反向传播(Backpropagation Through Time, BPTT)是用来计算梯度的。BPTT会追溯每一步的计算,这可能会导致两个主要问题:
- 梯度消失或梯度爆炸:当梯度通过很长的序列传播时,它们可能会变得非常小(消失)或非常大(爆炸),这使得网络难以学习。
- 计算成本高:随着序列长度的增加,存储过去所有状态的梯度所需的计算资源(如内存)会显著增加。
为了缓解这些问题,detach_()
方法被用于将状态变量(state
)从前一时间步的计算历史中分离出来。这样做的结果是,在当前时间步计算梯度时,梯度不会被反向传播到这个状态变量之前的任何时间步。换句话说,这限制了梯度反向传播的深度,从而减少了梯度消失或爆炸的风险,并减少了每次迭代的计算负担。
1 | #@save |
现在,我们训练循环神经网络模型。 因为我们在数据集中只使用了10000个词元, 所以模型需要更多的迭代周期来更好地收敛。
1 | num_epochs, lr = 500, 1 |
最后,让我们检查一下使用随机抽样方法的结果。
1 | net = RNNModelScratch(len(vocab), num_hiddens, d2l.try_gpu(), get_params, |
简洁实现
1 | import torch |