GitHub - whut-zhangwx/RNN-With-Numpy

项目简介

这是一个没有使用深度学习框架，只借助Python和Numpy实现的RNN网络。由于没有类似Pytorch的自动求梯度的功能，我们需要手动计算Loss到网络各层参数的梯度，这涉及到数学公式的推导，我们将数学公式的推导过程呈现在README文档中。如果文档不能正常显示数学公式，请移步我的博客 Recurrent Neural Networks 查看。

Conda环境

conda create --name env_for_rnn python=3.9 numpy pandas matplotlib sympy ipykernel scikit-learn
conda activate env_for_rnn

Recurrent Neural Networks

RNN的数学描述

输入层

网络的输入是一串m维向量序列 $x^{1}, x^{2}, \dots, x^{t}, \dots$

x^{1} = [\begin{matrix} x_{1}^{1} \\ x_{2}^{1} \\ ⋮ \\ x_{m}^{1} \end{matrix}], x^{2} = [\begin{matrix} x_{1}^{2} \\ x_{2}^{2} \\ ⋮ \\ x_{m}^{2} \end{matrix}], \dots, x^{t} = [\begin{matrix} x_{1}^{t} \\ x_{2}^{t} \\ ⋮ \\ x_{m}^{t} \end{matrix}], \dots

循环层

网络的状态是一串n维向量序列 $s^{0}, s^{1}, s^{2} \dots, s^{t}, \dots$

\begin{matrix} [\begin{matrix} s_{1}^{t} \\ s_{2}^{t} \\ ⋮ \\ s_{n}^{t} \end{matrix}] = f ([\begin{matrix} u_{11} & u_{12} & \dots & u_{1 m} \\ u_{21} & u_{22} & \dots & u_{2 m} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ u_{n 1} & u_{n 2} & \dots & u_{n m} \end{matrix}] [\begin{matrix} x_{1}^{t} \\ x_{2}^{t} \\ ⋮ \\ x_{m}^{t} \end{matrix}] + [\begin{matrix} w_{11} & w_{12} & \dots & w_{1 n} \\ w_{21} & w_{22} & \dots & w_{2 n} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ w_{n 1} & w_{n 2} & \dots & w_{n n} \end{matrix}] [\begin{matrix} s_{1}^{t - 1} \\ s_{2}^{t - 1} \\ ⋮ \\ s_{n}^{t - 1} \end{matrix}] + [\begin{matrix} b_{1}^{R} \\ b_{2}^{R} \\ ⋮ \\ b_{n}^{R} \end{matrix}]) \\ t = 1, 2, \dots \end{matrix}

输出层

网络的输出是一串m维的向量序列 $o^{1}, o^{2}, \dots, o^{t}, \dots$

\begin{matrix} [\begin{matrix} o_{1}^{t} \\ o_{2}^{t} \\ ⋮ \\ o_{m}^{t} \end{matrix}] = g ([\begin{matrix} v_{11} & v_{12} & \dots & v_{1 n} \\ v_{21} & v_{22} & \dots & v_{2 n} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ v_{m 1} & v_{m 2} & \dots & v_{m n} \end{matrix}] [\begin{matrix} s_{1}^{t} \\ s_{2}^{t} \\ ⋮ \\ s_{n}^{t} \end{matrix}] + [\begin{matrix} b_{1}^{O} \\ b_{2}^{O} \\ ⋮ \\ b_{m}^{O} \end{matrix}]) \\ t = 1, 2, \dots \end{matrix}

网络的输出

网络在 $t$ 时刻的输出 $o^{t}$ 由前面各时刻的输入 $x^{t}, x^{t - 1}, \dots, x^{1}$ 和初始状态 $s^{0}$ 决定

(下面的推导式中省略了偏置项 $b$ )

\begin{aligned} o^{t} & = g (V s^{t}) \\ = g (V f (U x^{t} + W s^{t - 1})) \\ = g (V f (U x^{t} + W f (U x^{t - 1} + W s^{t - 2}))) \\ ⋮ \\ = g (V f (U x^{t} + W f (U x^{t - 1} + W f (U x^{t - 2} + \dots + W f (U x^{1} + W s^{0}))))) \end{aligned}

网络输出的误差

网络在每个 $t$ 时刻的输出 $o^{t}$ 都对应一个目标向量 $t^{t}$ (target), 每个时刻都对应一个误差, 用$E^t$来表示 , $E^{t}$ 是关于 $o^{t}$ 和 $t^{t}$ 的函数, 例如采用二范数的平方表示误差, 误差函数如下计算

\begin{aligned} E^{t} & = \frac{1}{2} ∥ o^{t} - t^{t} ∥_{2}^{2} \\ = \frac{1}{2} \sum_{i = 1}^{m} (o_{i}^{t} - t_{i}^{t})^{2} \end{aligned}

梯度的计算(Back Propagate Through Time, BPTT)

循环层到输出层

记输出层 $t$ 时刻的输入向量为 $ξ^{t}$

\begin{array}{r} [\begin{array}{c} o_{1}^{t} \\ o_{2}^{t} \\ ⋮ \\ o_{m}^{t} \end{array}] = g ([\begin{array}{c} ξ_{1}^{t} \\ ξ_{2}^{t} \\ ⋮ \\ ξ_{m}^{t} \end{array}]), [\begin{array}{c} ξ_{1}^{t} \\ ξ_{2}^{t} \\ ⋮ \\ ξ_{m}^{t} \end{array}] = [\begin{array}{c} v_{11} & v_{12} & \dots & v_{1 n} \\ v_{21} & v_{22} & \dots & v_{2 n} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ v_{m 1} & v_{m 2} & \dots & v_{m n} \end{array}] [\begin{array}{c} s_{1}^{t} \\ s_{2}^{t} \\ ⋮ \\ s_{n}^{t} \end{array}] + [\begin{array}{c} b_{1}^{O} \\ b_{2}^{O} \\ ⋮ \\ b_{m}^{O} \end{array}] \end{array}

\begin{aligned} \frac{\partial E^{t}}{\partial v_{i j}} & = \frac{\partial E^{t}}{\partial ξ_{i}^{t}} \cdot \frac{\partial ξ_{i}^{t}}{\partial v_{i j}} = \frac{\partial E^{t}}{\partial ξ_{i}^{t}} \cdot s_{j}^{t} \\ \frac{\partial E^{t}}{\partial b_{i}^{O}} & = \frac{\partial E^{t}}{\partial ξ_{i}^{t}} \cdot \frac{\partial ξ_{i}^{t}}{\partial b_{i}^{O}} = \frac{\partial E^{t}}{\partial ξ_{i}^{t}} \cdot 1 \end{aligned} i = 1, \dots, m j = 1, \dots, n

向量化计算梯度

\frac{\partial E^{t}}{\partial b^{O}} = [\begin{matrix} \frac{\partial E^{t}}{\partial ξ_{1}^{t}} \\ \frac{\partial E^{t}}{\partial ξ_{2}^{t}} \\ ⋮ \\ \frac{\partial E^{t}}{\partial ξ_{m}^{t}} \end{matrix}], \frac{\partial E^{t}}{\partial V} = [\begin{matrix} \frac{\partial E^{t}}{\partial ξ_{1}^{t}} \\ \frac{\partial E^{t}}{\partial ξ_{2}^{t}} \\ ⋮ \\ \frac{\partial E^{t}}{\partial ξ_{m}^{t}} \end{matrix}] [\begin{matrix} s_{1}^{t} & s_{2}^{t} & \dots & s_{n}^{t} \end{matrix}] = [\begin{matrix} \frac{\partial E^{t}}{\partial ξ_{1}^{t}} s_{1}^{t} & \frac{\partial E^{t}}{\partial ξ_{1}^{t}} s_{2}^{t} & \dots & \frac{\partial E^{t}}{\partial ξ_{1}^{t}} s_{n}^{t} \\ \frac{\partial E^{t}}{\partial ξ_{2}^{t}} s_{1}^{t} & \frac{\partial E^{t}}{\partial ξ_{2}^{t}} s_{2}^{t} & \dots & \frac{\partial E^{t}}{\partial ξ_{2}^{t}} s_{n}^{t} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ \frac{\partial E^{t}}{\partial ξ_{m}^{t}} s_{1}^{t} & \frac{\partial E^{t}}{\partial ξ_{m}^{t}} s_{2}^{t} & \dots & \frac{\partial E^{t}}{\partial ξ_{m}^{t}} s_{n}^{t} \end{matrix}]

输入层到循环层

记循环层 $t$ 时刻的输入向量为 $η^{t}$

[\begin{matrix} s_{1}^{t} \\ s_{2}^{t} \\ ⋮ \\ s_{n}^{t} \end{matrix}] = f ([\begin{matrix} η_{1}^{t} \\ η_{2}^{t} \\ ⋮ \\ η_{n}^{t} \end{matrix}]), [\begin{matrix} η_{1}^{t} \\ η_{2}^{t} \\ ⋮ \\ η_{n}^{t} \end{matrix}] = [\begin{matrix} u_{11} & u_{12} & \dots & u_{1 m} \\ u_{21} & u_{22} & \dots & u_{2 m} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ u_{n 1} & u_{n 2} & \dots & u_{n m} \end{matrix}] [\begin{matrix} x_{1}^{t} \\ x_{2}^{t} \\ ⋮ \\ x_{m}^{t} \end{matrix}] + [\begin{matrix} w_{11} & w_{12} & \dots & w_{1 n} \\ w_{21} & w_{22} & \dots & w_{2 n} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ w_{n 1} & w_{n 2} & \dots & w_{n n} \end{matrix}] [\begin{matrix} s_{1}^{t - 1} \\ s_{2}^{t - 1} \\ ⋮ \\ s_{n}^{t - 1} \end{matrix}] + [\begin{matrix} b_{1}^{R} \\ b_{2}^{R} \\ ⋮ \\ b_{n}^{R} \end{matrix}]

关于矩阵U的偏导

由上面的记号, $t$ 时刻循环层的输入为$\boldsymbol{\eta}^t$, $η^{t}$ 是网络在 $t$ 时刻的输入 $x^{t}$ 和上一时刻的状态 $s^{t - 1}$ 的线性变换

\begin{matrix} η^{t} = U x^{t} + W s^{t - 1} + b^{R} \\ s^{t - 1} = f (η^{t - 1}) \end{matrix}

下面的公式推导出一个 $\partial E^{t} / \partial U$ 关于时间的递推式, 我们记 $\frac{\partial E^{t}}{\partial U} (t)$ 为 $t$ 时刻网络输出的误差 $E$ 关于

Unable to render expression.

$$\begin{split}
\frac{\partial E^t}{\partial U}
% 第一个等号
&=
\frac{\partial E^t}{\partial \boldsymbol{\eta}^t}
\frac{\partial \boldsymbol{\eta}^t}{\partial U} \\\
(\boldsymbol{\eta}^t = U\boldsymbol{x}^t + W\boldsymbol{s}^{t-1}+\boldsymbol{b}^R)\rightarrow
% 第二个等号
&=
\frac{\partial E^t}{\partial \boldsymbol{\eta}^t}
% 第二个等号括号中的内容
\left(
\frac{\partial U\boldsymbol{x}^t}{\partial U} +
\frac{\partial W\boldsymbol{s}^{t-1}}{\partial U}
\right) \\\
% 第三个等号
&=
\frac{\partial E^t}{\partial \boldsymbol{\eta}^t}
% 第三个等号括号中的内容
\left(
\frac{\partial U\boldsymbol{x}^t}{\partial U} +
W\frac{\partial \boldsymbol{s}^{t-1}}{\partial \boldsymbol{\eta}^{t-1}}
\frac{\partial \boldsymbol{\eta}^{t-1}}{\partial U}
\right) \\\
% 第四个等号
将\frac{\partial E^t}{\partial \boldsymbol{\eta}^t}乘进括号中去\rightarrow
&=
% 第四个等号加号左边的内容
\frac{\partial E^t}{\partial \boldsymbol{\eta}^t}
\frac{\partial U\boldsymbol{x}^t}{\partial U} +
% 第四个等号加号右边的内容
\frac{\partial E^t}{\partial \boldsymbol{\eta}^t}
\frac{\partial W\boldsymbol{s}^{t-1}}{\partial \boldsymbol{\eta}^{t-1}}
\frac{\partial \boldsymbol{\eta}^{t-1}}{\partial U} \\\
\left(\frac{\partial W\boldsymbol{s}^{t-1}}{\partial \boldsymbol{\eta}^{t-1}}=
\frac{\partial \boldsymbol{\eta}^t}{\partial \boldsymbol{\eta}^{t-1}}\right)\rightarrow
% 第五个等号
&=
\frac{\partial E^t}{\partial \boldsymbol{\eta}^t}
\frac{\partial U\boldsymbol{x}^t}{\partial U} +
\frac{\partial E^t}{\partial \boldsymbol{\eta}^t}
\frac{\partial \boldsymbol{\eta}^t}{\partial \boldsymbol{\eta}^{t-1}}
\frac{\partial \boldsymbol{\eta}^{t-1}}{\partial U} \\\
&=
\frac{\partial E^t}{\partial \boldsymbol{\eta}^t}
\frac{\partial U\boldsymbol{x}^t}{\partial U} +
\frac{\partial E^t}{\partial \boldsymbol{\eta}^{t-1}}
\frac{\partial \boldsymbol{\eta}^{t-1}}{\partial U}
\end{split}$$

由这个递推式可以得到

\begin{aligned} \frac{\partial E^{t}}{\partial U} & = \frac{\partial E^{t}}{\partial η^{t}} \frac{\partial η^{t}}{\partial U} \\ = \frac{\partial E^{t}}{\partial η^{t}} \frac{\partial U x^{t}}{\partial U} + \frac{\partial E^{t}}{\partial η^{t - 1}} \frac{\partial η^{t - 1}}{\partial U} \\ = \frac{\partial E^{t}}{\partial η^{t}} \frac{\partial U x^{t}}{\partial U} + \frac{\partial E^{t}}{\partial η^{t - 1}} \frac{\partial U x^{t - 1}}{\partial U} + \frac{\partial E^{t}}{\partial η^{t - 2}} \frac{\partial η^{t - 2}}{\partial U} \\ = \frac{\partial E^{t}}{\partial η^{t}} \frac{\partial U x^{t}}{\partial U} + \frac{\partial E^{t}}{\partial η^{t - 1}} \frac{\partial U x^{t - 1}}{\partial U} + \frac{\partial E^{t}}{\partial η^{t - 2}} \frac{\partial U x^{t - 2}}{\partial U} + \dots + \frac{\partial E^{t}}{\partial η^{2}} \frac{\partial U x^{2}}{\partial U} + \frac{\partial E^{t}}{\partial η^{1}} \frac{\partial U x^{1}}{\partial U} \end{aligned}

计算 $\frac{\partial E^{t}}{\partial η^{k}} \frac{\partial U x^{k}}{\partial U}$

计算 $\frac{\partial E^{t}}{\partial η^{t}}$

Unable to render expression.

$$\begin{split}
\frac{\partial E^t}{\partial \boldsymbol{\eta}^t}
&=
\frac{\partial E^t}{\partial \boldsymbol{\xi}^t}
\frac{\partial \boldsymbol{\xi}^t}{\partial \boldsymbol{s}^t}
\frac{\partial \boldsymbol{s}^t}{\partial \boldsymbol{\eta}^t}
\\\
&=
% 第二行的行向量
\begin{bmatrix}
\frac{\partial E^t}{\partial \xi^t_1}&\frac{\partial E^t}{\partial \xi^t_2}&\cdots&\frac{\partial E^t}{\partial \xi^t_m}
\end{bmatrix}
% 第二行的第一个矩阵
\begin{bmatrix}
\frac{\partial \xi^t_1}{\partial s^t_1} & \frac{\partial \xi^t_1}{\partial s^t_2} & \cdots & \frac{\partial \xi^t_1}{\partial s^t_n} \\\
\frac{\partial \xi^t_2}{\partial s^t_1} & \frac{\partial \xi^t_2}{\partial s^t_2} & \cdots & \frac{\partial \xi^t_2}{\partial s^t_n} \\\
\vdots&\vdots&\ddots&\vdots\\\
\frac{\partial \xi^t_m}{\partial s^t_1} & \frac{\partial \xi^t_m}{\partial s^t_2} & \cdots & \frac{\partial \xi^t_m}{\partial s^t_n} \\\
\end{bmatrix}
% 第二行的第二个矩阵
\begin{bmatrix}
\frac{\partial s^t_1}{\partial \eta^t_1} & \frac{\partial s^t_1}{\partial s^t_2} & \cdots & \frac{\partial s^t_1}{\partial s^t_n} \\\
\frac{\partial s^t_2}{\partial \eta^t_1} & \frac{\partial s^t_2}{\partial \eta^t_2} & \cdots & \frac{\partial s^t_2}{\partial \eta^t_n} \\\
\vdots&\vdots&\ddots&\vdots\\\
\frac{\partial s^t_n}{\partial \eta^t_1} & \frac{\partial s^t_n}{\partial \eta^t_2} & \cdots & \frac{\partial s^t_n}{\partial \eta^t_n} \\\
\end{bmatrix}
\\\
&=
% 第三行的行向量
\begin{bmatrix}
\frac{\partial E^t}{\partial \xi^t_1}&\frac{\partial E^t}{\partial \xi^t_2}&\cdots&\frac{\partial E^t}{\partial \xi^t_m}
\end{bmatrix}
% 第三行的V矩阵
\begin{bmatrix}
v_{11}&v_{12}&\cdots&v_{1n}\\\
v_{21}&v_{22}&\cdots&v_{2n}\\\
\vdots&\vdots&\ddots&\vdots\\\
v_{m1}&v_{m2}&\cdots&v_{mn}\\\
\end{bmatrix}
% 第三行的对角矩阵
\begin{bmatrix}
\frac{\partial s^t_1}{\partial \eta^t_1} & 0 & \cdots & 0 \\\
0 & \frac{\partial s^t_2}{\partial \eta^t_2} & \cdots & 0 \\\
\vdots&\vdots&\ddots&\vdots\\\
0 & 0 & \cdots & \frac{\partial s^t_n}{\partial \eta^t_n} \\\
\end{bmatrix}
\\\
&=
\left[
\frac{\partial s^t_1}{\partial \eta^t_1}
\sum_{i=1}^m(\frac{\partial E^t}{\partial \xi^t_i}v_{i1})
,\quad
\frac{\partial s^t_2}{\partial \eta^t_2}
\sum_{i=1}^m(\frac{\partial E^t}{\partial \xi^t_i}v_{i2})
,\quad
\cdots
,\quad
\frac{\partial s^t_n}{\partial \eta^t_n}
\sum_{i=1}^m(\frac{\partial E^t}{\partial \xi^t_i}v_{in})
\right]
\\\
记为&=
\begin{bmatrix}
\delta^{tt}_1&\delta^{tt}_2&\cdots&\delta^{tt}_n
\end{bmatrix}
\end{split}$$

\frac{\partial E^{t}}{\partial η^{t}}

的结果记为

δ^{t t}

, 称为循环层

t

时刻(第二个

t

)的输入的误差项 (网络 $t$ 时刻输出的误差关于循环层 $t$ 时刻输入的偏导数)

计算 $\frac{\partial E^{t}}{\partial η^{k}}$

Unable to render expression.

$$\begin{split}
\frac{\partial \boldsymbol{\eta}^t}{\partial \boldsymbol{\eta}^{t-1}}
&=
\frac{\partial W\boldsymbol{s}^{t-1}}{\partial \boldsymbol{\eta}^{t-1}}=
W\frac{\partial \boldsymbol{s}^{t-1}}{\partial \boldsymbol{\eta}^{t-1}}=
W
% 第一个矩阵
\begin{bmatrix}
\frac{\partial s^{t-1}_{1}}{\partial \eta^{t-1}_{1}}&
\frac{\partial s^{t-1}_{1}}{\partial \eta^{t-1}_{2}}&
\cdots&
\frac{\partial s^{t-1}_{1}}{\partial \eta^{t-1}_{n}}
\\\
\frac{\partial s^{t-1}_{2}}{\partial \eta^{t-1}_{1}}&
\frac{\partial s^{t-1}_{2}}{\partial \eta^{t-1}_{2}}&
\cdots&
\frac{\partial s^{t-1}_{2}}{\partial \eta^{t-1}_{n}}
\\\
\vdots&\vdots&\ddots&\vdots\\\
\frac{\partial s^{t-1}_{n}}{\partial \eta^{t-1}_{1}}&
\frac{\partial s^{t-1}_{n}}{\partial \eta^{t-1}_{2}}&
\cdots&
\frac{\partial s^{t-1}_{n}}{\partial \eta^{t-1}_{n}}
\end{bmatrix}=
% 第二个矩阵
W\begin{bmatrix}
\frac{\partial s^{t-1}_{1}}{\partial \eta^{t-1}_{1}}&0&\cdots&0
\\\
0&\frac{\partial s^{t-1}_{2}}{\partial \eta^{t-1}_{2}}&\cdots&0
\\\
\vdots&\vdots&\ddots&\vdots\\\
0&0&\cdots&\frac{\partial s^{t-1}_{n}}{\partial \eta^{t-1}_{n}}
\end{bmatrix}
\\\
&=
W\begin{bmatrix}
f'(\eta^{t-1}_{1})&0&\cdots&0
\\\
0&f'(\eta^{t-1}_{2})&\cdots&0
\\\
\vdots&\vdots&\ddots&\vdots\\\
0&0&\cdots&f'(\eta^{t-1}_{n})
\end{bmatrix}
\end{split}$$

\begin{aligned} \frac{\partial E^{t}}{\partial η^{k}} & = \frac{\partial E^{t}}{\partial ξ^{t}} \frac{\partial ξ^{t}}{\partial s^{t}} \frac{\partial s^{t}}{\partial η^{t}} (\frac{\partial η^{t}}{\partial η^{t - 1}} \dots \frac{\partial η^{k + 1}}{\partial η^{k}}) \\ = [\begin{array}{c} δ_{1}^{t t} & δ_{2}^{t t} & \dots & δ_{n}^{t t} \end{array}] \prod_{i = (t - 1)}^{k} (W [\begin{array}{c} f^{'} (η_{1}^{i}) & \dots & 0 \\ ⋮ & ⋱ & ⋮ \\ 0 & \dots & f^{'} (η_{n}^{i}) \end{array}]) \\ 记 为 & = [\begin{array}{c} δ_{1}^{t k} & δ_{2}^{t k} & \dots & δ_{n}^{t k} \end{array}] (t \geq k \geq 1) \end{aligned}

$\frac{\partial E^{t}}{\partial η^{k}}$ 的结果记为 $δ^{t k}$ , 称为循环层 $k$ 时刻输入的误差项 (网络 $t$ 时刻输出的误差关于循环层 $k$ 时刻输入的偏导数)

实际计算中我们会一步一步地计算 $δ^{t t}, δ^{t (t - 1)}, \dots, δ^{t 1}$ , 而不是使用连乘运算

\begin{aligned} [\begin{array}{c} δ_{1}^{t (t - 1)} & δ_{2}^{t (t - 1)} & \dots & δ_{n}^{t (t - 1)} \end{array}] & = [\begin{array}{c} δ_{1}^{t k} & δ_{2}^{t k} & \dots & δ_{n}^{t k} \end{array}] W [\begin{array}{c} f^{'} (η_{1}^{t - 1}) & \dots & 0 \\ ⋮ & ⋱ & ⋮ \\ 0 & \dots & f^{'} (η_{n}^{t - 1}) \end{array}] \\ [\begin{array}{c} δ_{1}^{t (t - 2)} & δ_{2}^{t (t - 2)} & \dots & δ_{n}^{t (t - 2)} \end{array}] & = [\begin{array}{c} δ_{1}^{t (t - 1)} & δ_{2}^{t (t - 1)} & \dots & δ_{n}^{t (t - 1)} \end{array}] W [\begin{array}{c} f^{'} (η_{1}^{t - 2}) & \dots & 0 \\ ⋮ & ⋱ & ⋮ \\ 0 & \dots & f^{'} (η_{n}^{t - 2}) \end{array}] \\ ⋮ \\ [\begin{array}{c} δ_{1}^{t 1} & δ_{2}^{t 1} & \dots & δ_{n}^{t 1} \end{array}] & = [\begin{array}{c} δ_{1}^{t (2)} & δ_{2}^{t (2)} & \dots & δ_{n}^{t (2)} \end{array}] W [\begin{array}{c} f^{'} (η_{1}^{1}) & \dots & 0 \\ ⋮ & ⋱ & ⋮ \\ 0 & \dots & f^{'} (η_{n}^{1}) \end{array}] \end{aligned}

计算 $\frac{\partial U x^{k}}{\partial U}$

\frac{\partial U x^{k}}{\partial U} = [\begin{matrix} (\begin{matrix} \frac{\partial η_{1}^{k}}{\partial u_{11}} & \dots & \frac{\partial η_{1}^{k}}{\partial u_{1 m}} \\ ⋮ & ⋱ & ⋮ \\ \frac{\partial η_{1}^{k}}{\partial u_{n 1}} & \dots & \frac{\partial η_{1}^{k}}{\partial u_{n m}} \end{matrix}) \\ ⋮ \\ (\begin{matrix} \frac{\partial η_{i}^{k}}{\partial u_{11}} & \dots & \frac{\partial η_{i}^{k}}{\partial u_{1 m}} \\ ⋮ & ⋱ & ⋮ \\ \frac{\partial η_{i}^{k}}{\partial u_{n 1}} & \dots & \frac{\partial η_{i}^{k}}{\partial u_{n m}} \end{matrix}) \\ ⋮ \\ (\begin{matrix} \frac{\partial η_{n}^{k}}{\partial u_{11}} & \dots & \frac{\partial η_{n}^{k}}{\partial u_{1 m}} \\ ⋮ & ⋱ & ⋮ \\ \frac{\partial η_{n}^{k}}{\partial u_{n 1}} & \dots & \frac{\partial η_{n}^{k}}{\partial u_{n m}} \end{matrix}) \end{matrix}] = [\begin{matrix} (\begin{matrix} x_{1}^{k} & x_{2}^{k} & \dots & x_{m}^{k} \\ 0 & 0 & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & 0 \end{matrix}) \\ ⋮ \\ (\begin{matrix} 0 & 0 & \dots & 0 \\ ⋮ & ⋮ & ⋮ \\ x_{1}^{k} & x_{2}^{k} & \dots & x_{m}^{k} \\ ⋮ & ⋮ & ⋮ \\ 0 & 0 & \dots & 0 \end{matrix}) \begin{matrix} 1 \\ ⋮ \\ i \\ ⋮ \\ n \end{matrix} \\ ⋮ \\ (\begin{matrix} 0 & 0 & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & 0 \\ x_{1}^{k} & x_{2}^{k} & \dots & x_{m}^{k} \end{matrix}) \end{matrix}] (t \geq k \geq 1)

计算 $\frac{\partial E^{t}}{\partial η^{k}} \frac{\partial U x^{k}}{\partial U}$

\frac{\partial E^{t}}{\partial η^{k}} \cdot \frac{\partial U x^{k}}{\partial U} = [\begin{matrix} δ_{1}^{t k} & δ_{2}^{t k} & \dots & δ_{n}^{t k} \end{matrix}] [\begin{matrix} (\begin{matrix} x_{1}^{k} & x_{2}^{k} & \dots & x_{m}^{k} \\ 0 & 0 & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & 0 \end{matrix}) \\ ⋮ \\ (\begin{matrix} 0 & 0 & \dots & 0 \\ ⋮ & ⋮ & ⋮ \\ x_{1}^{k} & x_{2}^{k} & \dots & x_{m}^{k} \\ ⋮ & ⋮ & ⋮ \\ 0 & 0 & \dots & 0 \end{matrix}) \begin{matrix} 1 \\ ⋮ \\ i \\ ⋮ \\ n \end{matrix} \\ ⋮ \\ (\begin{matrix} 0 & 0 & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & 0 \\ x_{1}^{k} & x_{2}^{k} & \dots & x_{m}^{k} \end{matrix}) \end{matrix}] = [\begin{matrix} δ_{1}^{t k} \\ δ_{2}^{t k} \\ ⋮ \\ δ_{n}^{t k} \end{matrix}] [\begin{matrix} x_{1}^{k} & x_{2}^{k} & \dots & x_{m}^{k} \end{matrix}] (t \geq k \geq 1)

最后结果U的梯度

\frac{\partial E^{t}}{\partial U} = \sum_{k = 1}^{t} ([\begin{matrix} δ_{1}^{t k} \\ δ_{2}^{t k} \\ ⋮ \\ δ_{n}^{t k} \end{matrix}] [\begin{matrix} x_{1}^{k} & x_{2}^{k} & \dots & x_{m}^{k} \end{matrix}])

关于矩阵W的偏导

\begin{aligned} \frac{\partial E^{t}}{\partial W} & = \frac{\partial E^{t}}{\partial η^{t}} \frac{\partial η^{t}}{\partial W} \\ (η^{t} = U x^{t} + W s^{t - 1} + b^{R}) \to & = \frac{\partial E^{t}}{\partial η^{t}} (\frac{\partial W s^{t - 1}}{\partial W}) \\ (莱 布 尼 茨 法 则) \to & = \frac{\partial E^{t}}{\partial η^{t}} (\frac{\partial W}{\partial W} s^{t - 1} + W \frac{\partial s^{t - 1}}{\partial W}) \\ = \frac{\partial E^{t}}{\partial η^{t}} \frac{\partial W}{\partial W} s^{t - 1} + \frac{\partial E^{t}}{\partial η^{t}} W \frac{\partial s^{t - 1}}{\partial η^{t - 1}} \frac{\partial η^{t - 1}}{\partial W} \\ (\frac{\partial W s^{t - 1}}{\partial η^{t - 1}} = \frac{\partial η^{t}}{\partial η^{t - 1}}) \to & = \frac{\partial E^{t}}{\partial η^{t}} \frac{\partial W}{\partial W} s^{t - 1} + \frac{\partial E^{t}}{\partial η^{t}} \frac{\partial η^{t}}{\partial η^{t - 1}} \frac{\partial η^{t - 1}}{\partial W} \\ = \frac{\partial E^{t}}{\partial η^{t}} \frac{\partial W}{\partial W} s^{t - 1} + \frac{\partial E^{t}}{\partial η^{t - 1}} \frac{\partial η^{t - 1}}{\partial W} \end{aligned}

\begin{aligned} \frac{\partial E^{t}}{\partial W} & = \frac{\partial E^{t}}{\partial η^{t}} \frac{\partial η^{t}}{\partial W} \\ = \frac{\partial E^{t}}{\partial η^{t}} \frac{\partial W}{\partial W} s^{t - 1} + \frac{\partial E^{t}}{\partial η^{t - 1}} \frac{\partial η^{t - 1}}{\partial W} \\ = \frac{\partial E^{t}}{\partial η^{t}} \frac{\partial W}{\partial W} s^{t - 1} + \frac{\partial E^{t}}{\partial η^{t - 1}} \frac{\partial W}{\partial W} s^{t - 2} + \frac{\partial E^{t}}{\partial η^{t - 2}} \frac{\partial η^{t - 2}}{\partial W} \\ = \frac{\partial E^{t}}{\partial η^{t}} \frac{\partial W}{\partial W} s^{t - 1} + \frac{\partial E^{t}}{\partial η^{t - 1}} \frac{\partial W}{\partial W} s^{t - 2} + \frac{\partial E^{t}}{\partial η^{t - 2}} \frac{\partial W}{\partial W} s^{t - 3} + \dots + \frac{\partial E^{t}}{\partial η^{2}} \frac{\partial W}{\partial W} s^{1} + \frac{\partial E^{t}}{\partial η^{1}} \frac{\partial W}{\partial W} s^{0} \end{aligned}

计算 $\frac{\partial E^{t}}{\partial η^{k}} \frac{\partial W}{\partial W} s^{k - 1}$

计算 $\frac{\partial W}{\partial W}$

\begin{aligned} \frac{\partial W}{\partial W} & = \frac{\partial (\begin{array}{c} w_{11} & \dots & w_{n 1} \\ ⋮ & ⋱ & ⋮ \\ w_{n 1} & \dots & w_{n n} \end{array})}{\partial (\begin{array}{c} w_{11} & \dots & w_{n 1} \\ ⋮ & ⋱ & ⋮ \\ w_{n 1} & \dots & w_{n n} \end{array})} \\ = [\begin{array}{c} (\begin{matrix} 1 & 0 & \dots & 0 \\ 0 & 0 & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & 0 \end{matrix}) & \dots & (\begin{matrix} 0 & 0 & \dots & 1 \\ 0 & 0 & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & 0 \end{matrix}) \\ ⋮ & ⋱ & ⋮ \\ (\begin{matrix} 0 & 0 & \dots & 0 \\ 0 & 0 & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 1 & 0 & \dots & 0 \end{matrix}) & \dots & (\begin{matrix} 0 & 0 & \dots & 0 \\ 0 & 0 & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & 1 \end{matrix}) \end{array}] \end{aligned}

计算 $\frac{\partial E^{t}}{\partial η^{k}} \frac{\partial W}{\partial W} s^{k - 1}$

\begin{aligned} \frac{\partial E^{t}}{\partial η^{k}} \frac{\partial W}{\partial W} s^{k - 1} & = [\begin{array}{c} δ_{1}^{t k} & δ_{2}^{t k} & \dots & δ_{n}^{t k} \end{array}] [\begin{array}{c} (\begin{matrix} 1 & 0 & \dots & 0 \\ 0 & 0 & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & 0 \end{matrix}) & \dots & (\begin{matrix} 0 & 0 & \dots & 1 \\ 0 & 0 & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & 0 \end{matrix}) \\ ⋮ & ⋱ & ⋮ \\ (\begin{matrix} 0 & 0 & \dots & 0 \\ 0 & 0 & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 1 & 0 & \dots & 0 \end{matrix}) & \dots & (\begin{matrix} 0 & 0 & \dots & 0 \\ 0 & 0 & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & 1 \end{matrix}) \end{array}] [\begin{array}{c} s_{1}^{k - 1} \\ s_{2}^{k - 1} \\ ⋮ \\ s_{n}^{k - 1} \end{array}] \\ = [\begin{array}{c} δ_{1}^{t k} \\ δ_{2}^{t k} \\ ⋮ \\ δ_{n}^{t k} \end{array}] [\begin{array}{c} s_{1}^{k - 1} & s_{2}^{k - 1} & \dots & s_{n}^{k - 1} \end{array}] (t \geq k \geq 1) \end{aligned}

最后结果W的梯度

\frac{\partial E^{t}}{\partial W} = \sum_{k = 1}^{t} ([\begin{matrix} δ_{1}^{t k} \\ δ_{2}^{t k} \\ ⋮ \\ δ_{n}^{t k} \end{matrix}] [\begin{matrix} s_{1}^{k - 1} & s_{2}^{k - 1} & \dots & s_{n}^{k - 1} \end{matrix}])

关于偏置项 $b^{R}$ 的偏导

\begin{aligned} \frac{\partial E^{t}}{\partial b^{R}} & = \frac{\partial E^{t}}{\partial η^{t}} \frac{\partial η^{t}}{\partial b^{R}} \\ (η^{t} = U x^{t} + W s^{t - 1} + b^{R}) \to & = \frac{\partial E^{t}}{\partial η^{t}} (\frac{\partial b^{R}}{\partial b^{R}} + \frac{\partial W s^{t - 1}}{\partial b^{R}}) \\ = \frac{\partial E^{t}}{\partial η^{t}} \frac{\partial b^{R}}{\partial b^{R}} + \frac{\partial E^{t}}{\partial η^{t}} \frac{\partial W s^{t - 1}}{\partial η^{t - 1}} \frac{\partial η^{t - 1}}{\partial b^{R}} \\ (\frac{\partial W s^{t - 1}}{\partial η^{t - 1}} = \frac{\partial η^{t}}{\partial η^{t - 1}}) \to & = \frac{\partial E^{t}}{\partial η^{t}} \frac{\partial b^{R}}{\partial b^{R}} + \frac{\partial E^{t}}{\partial η^{t}} \frac{\partial η^{t}}{\partial η^{t - 1}} \frac{\partial η^{t - 1}}{\partial b^{R}} \\ = \frac{\partial E^{t}}{\partial η^{t}} \frac{\partial b^{R}}{\partial b^{R}} + \frac{\partial E^{t}}{\partial η^{t - 1}} \frac{\partial η^{t - 1}}{\partial b^{R}} \end{aligned}

\begin{aligned} \frac{\partial E^{t}}{\partial b^{R}} & = \frac{\partial E^{t}}{\partial η^{t}} \frac{\partial η^{t}}{\partial b^{R}} \\ = \frac{\partial E^{t}}{\partial η^{t}} \frac{\partial b^{R}}{\partial b^{R}} + \frac{\partial E^{t}}{\partial η^{t - 1}} \frac{\partial η^{t - 1}}{\partial b^{R}} \\ = \frac{\partial E^{t}}{\partial η^{t}} \frac{\partial b^{R}}{\partial b^{R}} + \frac{\partial E^{t}}{\partial η^{t - 1}} \frac{\partial b^{R}}{\partial b^{R}} + \frac{\partial E^{t}}{\partial η^{t - 2}} \frac{\partial η^{t - 2}}{\partial b^{R}} \\ = \frac{\partial E^{t}}{\partial η^{t}} \frac{\partial b^{R}}{\partial b^{R}} + \frac{\partial E^{t}}{\partial η^{t - 1}} \frac{\partial b^{R}}{\partial b^{R}} + \frac{\partial E^{t}}{\partial η^{t - 2}} \frac{\partial b^{R}}{\partial b^{R}} + \dots + \frac{\partial E^{t}}{\partial η^{1}} \frac{\partial b^{R}}{\partial b^{R}} \end{aligned}

计算 $\frac{\partial E^{t}}{\partial η^{k}} \frac{\partial b^{R}}{\partial b^{R}}$

\frac{\partial E^{t}}{\partial η^{k}} \frac{\partial b^{R}}{\partial b^{R}} = \frac{\partial E^{t}}{\partial η^{k}} \cdot I_{n n} = \frac{\partial E^{t}}{\partial η^{k}} = [\begin{matrix} δ_{1}^{t k} \\ δ_{2}^{t k} \\ ⋮ \\ δ_{n}^{t k} \end{matrix}]

最后结果 $b^{R}$ 的梯度

\frac{\partial E^{t}}{\partial b^{R}} = \sum_{k = 1}^{t} ([\begin{matrix} δ_{1}^{t k} \\ δ_{2}^{t k} \\ ⋮ \\ δ_{n}^{t k} \end{matrix}])

Name	Name	Last commit message	Last commit date
Latest commit whut-zhangwx update readme Apr 21, 2024 7dc90d0 · Apr 21, 2024 History 7 Commits
data	data	rnn with numpy	Apr 21, 2024
README.md	README.md	update readme	Apr 21, 2024
rnn_with_numpy.ipynb	rnn_with_numpy.ipynb	rnn with numpy	Apr 21, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

项目简介

Conda环境

Recurrent Neural Networks

RNN的数学描述

输入层

循环层

输出层

网络的输出

网络输出的误差

梯度的计算(Back Propagate Through Time, BPTT)

循环层到输出层

输入层到循环层

关于矩阵W的偏导

About

Releases

Packages

Languages

whut-zhangwx/RNN-With-Numpy

Folders and files

Latest commit

History

Repository files navigation

项目简介

Conda环境

Recurrent Neural Networks

RNN的数学描述

输入层

循环层

输出层

网络的输出

网络输出的误差

梯度的计算(Back Propagate Through Time, BPTT)

循环层到输出层

输入层到循环层

关于矩阵W的偏导

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages