PaddlePaddle · LemonCherryFu · Nov 19, 2021
diff --git a/docs/tutorials/meta_learning/metric_based_meta_learning/MN.md b/docs/tutorials/meta_learning/metric_based_meta_learning/MN.md
@@ -52,13 +52,11 @@ $f$ 与 $g$ 表示施加在测试样本与训练样本上的嵌入函数 (Embedd
 从而使得从 $x_{i}$ 到 $\hat{x}$ 的注意力机制为 0 ，
 则上式等价于 KNN 。
 
-图1是 MN 的网络结构示意图。
+图 1 是 MN 的网络结构示意图。
 
 ![MN](../../../images/meta_learning/metric_based_meta_learning/MN/MN.png)
-<center>
-图1	MN 示意图。
-</center>
 
+图 1	MN 示意图
 
 ### 1.2 Full Context Embeddings
 
@@ -130,7 +128,7 @@ $$
 ## 5 MN 分类结果
 
 <center>
-表1	MN 在 Omniglot 上的分类结果。
+表 1	MN 在 Omniglot 上的分类结果
 </center>
 
 | Model | Matching Fn | Fine Tune | 5-way 1-shot | 5-way 5-shot | 20-way 1-shot | 20-way 5-shot |  
@@ -147,7 +145,7 @@ $$
 
 
 <center>
-表1	MN 在 miniImageNet 上的分类结果。
+表 2	MN 在 miniImageNet 上的分类结果
 </center>
 
 | Model | Matching Fn | Fine Tune | 5-way 1-shot | 5-way 5-shot | 

diff --git a/docs/tutorials/meta_learning/metric_based_meta_learning/PN.md b/docs/tutorials/meta_learning/metric_based_meta_learning/PN.md
@@ -42,12 +42,11 @@ $$
 J(\phi)= \underset{\phi}{\operatorname{argmin}}\left(\sum_{k=1}^{K}-\log \left(p_{\phi}\left(\boldsymbol{y}=k \mid \boldsymbol{x}_{k}\right)\right)\right)
 $$
 
-PN 示意图如图1所示。
+PN 示意图如图 1 所示。
 
 ![PN](../../../images/meta_learning/metric_based_meta_learning/PN/PN.png)
-<center>
-图1	PN 示意图。
-</center>
+
+图 1	PN 示意图
 
 ## 2 PN 算法流程
 
@@ -76,10 +75,11 @@ PN 示意图如图1所示。
 - $N_{Q}$ 是每类中 query set 的样本个数;
 - $\mathrm{RANDOMSAMPLE}(S, N)$ 表示从集合 $\mathrm{S}$ 中随机选出 $\mathrm{N}$ 个元素。
 
+
 ## 3 PN 分类结果
 
 <center>
-表1	PN 在 Omniglot 上的分类结果。
+表 1	PN 在 Omniglot 上的分类结果
 </center>
 
 | Model | Dist. | Fine Tune | 5-way 1-shot | 5-way 5-shot | 20-way 1-shot | 20-way 5-shot |  
@@ -91,7 +91,7 @@ PN 示意图如图1所示。
 | PROTOTYPICAL NETWORKS | Euclid. | N | **98.8** $\%$ |  99.7 $\%$ | **96.0** $\%$  | **98.9** $\%$ |
 
 <center>
-表1	PN 在 miniImageNet 上的分类结果。
+表 2	PN 在 miniImageNet 上的分类结果
 </center>
 
 | Model | Dist. | Fine Tune | 5-way 1-shot | 5-way 5-shot | 

diff --git a/docs/tutorials/meta_learning/metric_based_meta_learning/RN.md b/docs/tutorials/meta_learning/metric_based_meta_learning/RN.md
@@ -8,12 +8,11 @@ Relation Network (RN) 使用有监督度量学习估计样本点之间的距离
 RN 包括两个组成部分：嵌入模块和关系模块，且两者都是通过有监督学习得到的。
 嵌入模块从输入数据中提取特征，关系模块根据特征计算任务之间的距离，
 判断任务之间的相似性，找到过去可借鉴的经验进行加权平均。
-RN 结构如图1所示。
+RN 结构如图 1 所示。
 
 ![RN Architecture](../../../images/meta_learning/metric_based_meta_learning/RN/RNArchitecture.png)
-<center>
-图1	RN 结构。
-</center>
+
+图 1	RN 结构
 
 嵌入模块记为 $f_{\varphi}$，关系模块记为 $g_{\phi}$，
 支持集中的样本记为 $\boldsymbol{x}_{i}$，
@@ -51,12 +50,11 @@ $$
 
 嵌入模块和关系模块的选取有很多种，包括卷积网络、残差网络等。
 
-图2给出了 [1] 中使用的 RN 模型结构。
+图 2 给出了 [1] 中使用的 RN 模型结构。
 
 ![RN Model](../../../images/meta_learning/metric_based_meta_learning/RN/RNModel.png)
-<center>
-图2	RN 模型结构。
-</center>
+
+图 2	RN 模型结构
 
 ### 3.1 嵌入模块结构
 
@@ -75,7 +73,7 @@ $$
 ## 4 RN 分类结果
 
 <center>
-表1	RN 在 Omniglot 上的分类结果。
+表 1	RN 在 Omniglot 上的分类结果
 </center>
 
 | Model | Fine Tune | 5-way 1-shot | 5-way 5-shot | 20-way 1-shot | 20-way 5-shot |  
@@ -93,7 +91,7 @@ $$
 | RELATION NET | N | **99.6 $\pm$ 0.2** $\%$ | **99.8 $\pm$ 0.1** $\%$ | **97.6 $\pm$ 0.2** $\%$ | **99.1 $\pm$ 0.1** $\%$ |
 
 <center>
-表1	RN 在 miniImageNet 上的分类结果。
+表 2	RN 在 miniImageNet 上的分类结果
 </center>
 
 | Model | FT | 5-way 1-shot | 5-way 5-shot | 

diff --git a/docs/tutorials/meta_learning/metric_based_meta_learning/SNAIL.md b/docs/tutorials/meta_learning/metric_based_meta_learning/SNAIL.md
@@ -60,25 +60,23 @@ $$
 ### 2.1 SNAIL 基础结构
 
 两个时序卷积层（橙色）和一个因果关系层（绿色）的组合是 SNAIL 的基础结构，
-如图1所示。
+如图 1 所示。
 在监督学习设置中，
 SNAIL 接收标注样本 $\left(x_{1}, y_{1}\right), \ldots,\left(x_{t-1}, y_{t-1}\right)$ 和末标注的 $\left(x_{t},-\right)$，
 然后基于标注样本对 $y_{t}$ 进行预测。
 
 ![SNAIL](../../../images/meta_learning/metric_based_meta_learning/SNAIL/SNAIL.png)
-<center>
-图1	SNAIL 基础结构示意图。
-</center>
+
+图 1	SNAIL 基础结构示意图
 
 ### 2.2 Modular Building Blocks
 
 对于构建 SNAIL 使用了两个主要模块：
 Dense Block 和 Attention Block。
 
 ![SNAIL Building Blocks](../../../images/meta_learning/metric_based_meta_learning/SNAIL/SNAILBuildingBlocks.png)
-<center>
-图1	SNAIL 中的 Dense Block 和 Attention Block。(a) Dense Block 应用因果一维卷积，然后将输出连接到输入。TC Block 应用一系列膨胀率呈指数增长的 Dense Block。(b) Attention Block 执行(因果)键值查找，并将输出连接到输入。
-</center>
+
+图 2	SNAIL 中的 Dense Block 和 Attention Block。(a) Dense Block 应用因果一维卷积，然后将输出连接到输入。TC Block 应用一系列膨胀率呈指数增长的 Dense Block。(b) Attention Block 执行(因果)键值查找，并将输出连接到输入。
 
 **Densen Block** 
 用了一个简单的因果一维卷积（空洞卷积），
@@ -120,7 +118,7 @@ $$
 ## 3 SNAIL 分类结果
 
 <center>
-表1	SNAIL 在 Omniglot 上的分类结果。
+表 1	SNAIL 在 Omniglot 上的分类结果
 </center>
 
 | Method | 5-way 1-shot | 5-way 5-shot | 20-way 1-shot | 20-way 5-shot |  
@@ -134,7 +132,7 @@ $$
 | SNAIL | **99.07 $\pm$ 0.16** $\%$ | **99.78 $\pm$ 0.09** $\%$ | **97.64 $\pm$ 0.30** $\%$ | **99.36 $\pm$ 0.18** $\%$ |
 
 <center>
-表1	SNAIL 在 miniImageNet 上的分类结果。
+表 2	SNAIL 在 miniImageNet 上的分类结果
 </center>
 
 | Method | 5-way 1-shot | 5-way 5-shot |

diff --git a/docs/tutorials/meta_learning/model_based_meta_learning/Learning_to_Learn.md b/docs/tutorials/meta_learning/model_based_meta_learning/Learning_to_Learn.md
@@ -42,11 +42,11 @@ optimizer $g$ 的更新则由 $f$, $\nabla f$ 及 $\phi$ 决定。
 
 ### 2.1 学习机制
 
-图1是 Learning to Learn 中 optimizer 和 optimizee 的工作原理。
+图 1 是 Learning to Learn 中 optimizer 和 optimizee 的工作原理。
 
 ![LearningToLearn](../../../images/meta_learning/model_based_meta_learning/Learning_to_Learn/LearningToLearnOptimizerOptimizee.png)
 
-图1	Learning to Learn 中 optimizer 和 optimizee 工作原理。
+图 1	Learning to Learn 中 optimizer 和 optimizee 工作原理。
 optimizer 为 optimizee 提供更新策略，
 optimizee 将损失信息反馈给 optimizer，协助 optimizer 更新。
 
@@ -68,11 +68,11 @@ $$
 $\omega_{t} \in \mathbb{R}_{\geq 0}$ 是各个优化时刻的任意权重，
 $\nabla_{t}=\nabla_{\theta} f\left(\theta_{t}\right)$ 。
 
-图2是 Learning to Learn 计算图。
+图 2 是 Learning to Learn 计算图。
 
 ![LearningToLearn](../../../images/meta_learning/model_based_meta_learning/Learning_to_Learn/LearningToLearnComputationalGraph.png)
 
-图1	Learning to Learn 计算图。
+图 2	Learning to Learn 计算图。
 梯度只沿实线传递，不沿虚线传递（因为 optimizee 的梯度不依赖于 optimizer 的参数，即
 $\partial \nabla_{t} / \partial \phi = 0$ ），这样可以避免计算 $f$ 的二阶导。
 
@@ -97,11 +97,11 @@ optimizer 的参数 $\phi$ 共享，隐层状态 $h_{i}$ 不共享。
 这样设计的 LSTM 变相实现了优化与维度无关，
 这与 RMSprop 和 ADAM 的优化方式类似（为每个维度的参数施行同样的梯度更新规则）。
 
-图3是 LSTM 优化器的一步更新过程。
+图 3 是 LSTM 优化器的一步更新过程。
 
 ![Learning2Learn](../../../images/meta_learning/model_based_meta_learning/Learning_to_Learn/LearningToLearnLSTMOptimizer.png)
 
-图3	LSTM 优化器的一步更新过程。所有 LSTM 的 $\phi$ 共享，$h_{i}$ 不共享。
+图 3	LSTM 优化器的一步更新过程。所有 LSTM 的 $\phi$ 共享，$h_{i}$ 不共享。
 
 ### 2.3 预处理和后处理
 

diff --git a/docs/tutorials/meta_learning/model_based_meta_learning/Meta_Learner_LSTM.md b/docs/tutorials/meta_learning/model_based_meta_learning/Meta_Learner_LSTM.md
@@ -100,18 +100,16 @@ $$
 
 ## 3 Meta-Learner LSTM 算法流程
 
-Meta-Learner LSTM 前向传递计算如图1所示，其中，
+Meta-Learner LSTM 前向传递计算如图 1 所示，其中，
 基学习器 $\mathrm{M}$，包含可训练参数 $\theta$；元学习器 $R$，包含可训练参数 $\Theta$。
 
 ![Meta-Learner LSTM](../../../images/meta_learning/model_based_meta_learning/Meta_Learner_LSTM/MetaLearnerLSTM.png)
 
-<center>
-图1	Meta-Learner LSTM 前向传递计算图。
+图 1	Meta-Learner LSTM 前向传递计算图。
 Learner 计算损失函数值和损失函数梯度值，
 Meta-Learner 使用 Learner 提供的信息，更新 Learner 中的参数和自身参数。
 在任务中，每个批次的训练数据处理完成后，Meta-Learner 为 Learner 更新一次参数，
 任务中所有批次的训练数据处理完成后，Meta-Learner 进行一次更新。
-</center>
 
 **Meta-Learner LSTM 算法流程**
 
@@ -169,7 +167,7 @@ Meta-Learner LSTM 中的元学习器只能是 LSTM 结构，基学习器可以
 ## 6 Meta-Learner LSTM 分类结果
 
 <center>
-表1	Meta-Learner LSTM 在 miniImageNet 上的分类结果。
+表1	Meta-Learner LSTM 在 miniImageNet 上的分类结果
 </center>
 
 | Method | 5-way 1-shot | 5-way 5-shot |

diff --git a/docs/tutorials/meta_learning/optimization_based_meta_learning/LEO.md b/docs/tutorials/meta_learning/optimization_based_meta_learning/LEO.md
@@ -8,11 +8,11 @@ Latent Embedding Optimization (LEO) 学习模型参数的低维潜在嵌入，
 在元学习器中，使用 SGD 最小化任务验证集损失函数，
 使得模型的泛化能力最大化，计算元参数，元学习器将元参数输入基础学习器，
 继而，基础学习器最小化任务训练集损失函数，快速给出任务上的预测结果。
-LEO 结构如图1所示。
+LEO 结构如图 1 所示。
 
 ![LEO Structure](../../../images/meta_learning/optimization_based_meta_learning/LEO/LEOStructure.png)
 
-图1	LEO 结构图。$D^{\mathrm{tr}}$ 是任务 $\varepsilon$ 的 support set，
+图 1	LEO 结构图。$D^{\mathrm{tr}}$ 是任务 $\varepsilon$ 的 support set，
 $D^{\mathrm{val}}$ 是任务 $\varepsilon$ 的 query set，
 $z$ 是通过编码器计算的 $N$ 个类别的类别特征，$f_{\theta}$ 是基学习器， 
 $\theta$ 是基学习器参数， 
@@ -86,9 +86,8 @@ $$
 $g_{\phi_{d}}$ 是从特征向量到基础学习器参数的映射。
 
 ![LEO Schematic](../../../images/meta_learning/optimization_based_meta_learning/LEO/LEOSchematic.png)
-<center>
-图2	LEO 基础学习器工作原理图。
-</center>
+
+图 2	LEO 基础学习器工作原理图
 
 ### 2.3  基础学习器更新过程
 在基础学习器中，任务 $\varepsilon$ 的交叉熵损失函数是：
@@ -195,9 +194,9 @@ $$
 
 ## 5 LEO 模型结构
 
-LEO 是一种与模型无关的元学习，[1] 中给出的各部分模型结构及参数如表1所示。
+LEO 是一种与模型无关的元学习，[1] 中给出的各部分模型结构及参数如表 1 所示。
 <center>
-表1	LEO 各部分模型结构及参数。
+表 1	LEO 各部分模型结构及参数
 </center>
 
 | Part of the model | Architecture | Hiddenlayer | Shape of the output |
@@ -211,7 +210,7 @@ LEO 是一种与模型无关的元学习，[1] 中给出的各部分模型结构
 ## 6 LEO 分类结果
 
 <center>
-表1	LEO 在 miniImageNet 上的分类结果。
+表 2	LEO 在 miniImageNet 上的分类结果
 </center>
 
 | Model | 5-way 1-shot | 5-way 5-shot |
@@ -233,7 +232,7 @@ LEO 是一种与模型无关的元学习，[1] 中给出的各部分模型结构
 | LEO | **61.76 $\pm$ 0.08** $\%$ | **77.59 $\pm$ 0.12** $\%$ |
 
 <center>
-表1	LEO 在 tieredImageNet 上的分类结果。
+表3	LEO 在 tieredImageNet 上的分类结果
 </center>
 
 | Model | 5-way 1-shot | 5-way 5-shot |

diff --git a/docs/tutorials/meta_learning/optimization_based_meta_learning/MAML.md b/docs/tutorials/meta_learning/optimization_based_meta_learning/MAML.md
@@ -14,24 +14,29 @@ MAML 是典型的双层优化结构，其内层和外层的优化方式如下：
 
 ### 1.1 MAML 内层优化方式
 
-内层优化涉及到基学习器，从任务分布 $p(T)$ 中随机采样第 $i$ 个任务 $T_{i}$。任务 $T_{i}$ 上，基学习器的目标函数是：
+内层优化涉及到基学习器，从任务分布 $p(T)$ 中随机采样第 $i$ 个任务 $T_{i}$。
+任务 $T_{i}$ 上，基学习器的目标函数是：
 
 $$ 
 \min _{\phi} L_{T_{i}}\left(f_{\phi}\right) 
 $$
 
-其中，$f_{\phi}$ 是基学习器，$\phi$ 是基学习器参数，$L_{T_{i}}\left(f_{\phi}\right)$ 是基学习器在 $T_{i}$ 上的损失。更新基学习器参数：
+其中，$f_{\phi}$ 是基学习器，$\phi$ 是基学习器参数，
+$L_{T_{i}}\left(f_{\phi}\right)$ 是基学习器在 $T_{i}$ 上的损失。
+更新基学习器参数：
 
 $$
 \theta_{i}^{N}=\theta_{i}^{N-1}-\alpha\left[\nabla_{\phi}
 L_{T_{i}}\left(f_{\phi}\right)\right]_{\phi=\theta_{i}^{N-1}} 
 $$
 
-其中，$\theta$ 是元学习器提供给基学习器的参数初始值 $\phi=\theta$，在任务 $T_{i}$ 上更新 $N$ 后 $\phi=\theta_{i}^{N-1}$.
+其中，$\theta$ 是元学习器提供给基学习器的参数初始值 $\phi=\theta$，
+在任务 $T_{i}$ 上更新 $N$ 后 $\phi=\theta_{i}^{N-1}$ 。
 
 ### 1.2 MAML 外层优化方式
 
-外层优化涉及到元学习器，将 $\theta_{i}^{N}$ 反馈给元学匀器，此时元目标函数是：
+外层优化涉及到元学习器，将 $\theta_{i}^{N}$ 反馈给元学匀器，
+此时元目标函数是：
 
 $$ 
 \min _{\theta} \sum_{T_{i}\sim p(T)} L_{T_{i}}\left(f_{\theta_{i}^{N}}\right) 
@@ -55,12 +60,14 @@ $$
 >   4. update $\theta \leftarrow \theta-\beta \sum_{T_{i} \sim p(T)} \nabla_{\theta}\left[L_{T_{i}}\left(f_{\phi}\right)\right]_{\phi=\theta_{i}^{N}} $
 >3. end while
 
-MAML 中执行了两次梯度下降 (gradient by gradient)，分别作用在基学习器和元学习器上。图1给出了 MAML 中特定任务参数 $\theta_{i}^{*}$ 和元级参数 $\theta$ 的更新过程。
+MAML 中执行了两次梯度下降 (gradient by gradient)，分别作用在基学习器和元学习器上。
+图 1 给出了 MAML 中特定任务参数 $\theta_{i}^{*}$ 和元级参数 $\theta$ 的更新过程。
 
 ![MAML Schematic Diagram](../../../images/meta_learning/optimization_based_meta_learning/MAML/MAMLSchematicDiagram.png)
-<center>
-图1	MAML 示意图。灰色线表示特定任务所产生的梯度值（方向）；黑色线表示元级参数选择更新的方向（黑色线方向是几个特定任务产生方向的平均值）；虚线代表快速适应，不同的方向代表不同任务更新的方向。
-</center>
+
+图 1	MAML 示意图。灰色线表示特定任务所产生的梯度值（方向）；
+黑色线表示元级参数选择更新的方向（黑色线方向是几个特定任务产生方向的平均值）；
+虚线代表快速适应，不同的方向代表不同任务更新的方向。
 
 
 ## 3 MAML 模型结构
@@ -76,7 +83,7 @@ and 2 $\times$ 2 max-pooling。
 ## 4 MAML 分类结果
 
 <center>
-表1	MAML 在 Omniglot 上的分类结果。
+表 1	MAML 在 Omniglot 上的分类结果
 </center>
 
 | Method | 5-way 1-shot | 5-way 5-shot | 20-way 1-shot | 20-way 5-shot |  
@@ -90,7 +97,7 @@ and 2 $\times$ 2 max-pooling。
 | MAML | **98.7 $\pm$ 0.4** $\%$ | **99.9 $\pm$ 0.1** $\%$ | **95.8 $\pm$ 0.3** $\%$ | **98.9 $\pm$ 0.2** $\%$ |
 
 <center>
-表1	MAML 在 miniImageNet 上的分类结果。
+表 2	MAML 在 miniImageNet 上的分类结果
 </center>
 
 | Method | 5-way 1-shot | 5-way 5-shot |