Skip to content

calibrate the Table and Figure number #792

New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Open
wants to merge 1 commit into
base: master
Choose a base branch
from
Open
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
10 changes: 4 additions & 6 deletions docs/tutorials/meta_learning/metric_based_meta_learning/MN.md
Original file line number Diff line number Diff line change
Expand Up @@ -52,13 +52,11 @@ $f$ 与 $g$ 表示施加在测试样本与训练样本上的嵌入函数 (Embedd
从而使得从 $x_{i}$ 到 $\hat{x}$ 的注意力机制为 0 ,
则上式等价于 KNN 。

图1是 MN 的网络结构示意图。
图 1 是 MN 的网络结构示意图。

![MN](../../../images/meta_learning/metric_based_meta_learning/MN/MN.png)
<center>
图1 MN 示意图。
</center>

图 1 MN 示意图

### 1.2 Full Context Embeddings

Expand Down Expand Up @@ -130,7 +128,7 @@ $$
## 5 MN 分类结果

<center>
表1 MN 在 Omniglot 上的分类结果
表 1 MN 在 Omniglot 上的分类结果
</center>

| Model | Matching Fn | Fine Tune | 5-way 1-shot | 5-way 5-shot | 20-way 1-shot | 20-way 5-shot |
Expand All @@ -147,7 +145,7 @@ $$


<center>
表1 MN 在 miniImageNet 上的分类结果
表 2 MN 在 miniImageNet 上的分类结果
</center>

| Model | Matching Fn | Fine Tune | 5-way 1-shot | 5-way 5-shot |
Expand Down
12 changes: 6 additions & 6 deletions docs/tutorials/meta_learning/metric_based_meta_learning/PN.md
Original file line number Diff line number Diff line change
Expand Up @@ -42,12 +42,11 @@ $$
J(\phi)= \underset{\phi}{\operatorname{argmin}}\left(\sum_{k=1}^{K}-\log \left(p_{\phi}\left(\boldsymbol{y}=k \mid \boldsymbol{x}_{k}\right)\right)\right)
$$

PN 示意图如图1所示
PN 示意图如图 1 所示

![PN](../../../images/meta_learning/metric_based_meta_learning/PN/PN.png)
<center>
图1 PN 示意图。
</center>

图 1 PN 示意图

## 2 PN 算法流程

Expand Down Expand Up @@ -76,10 +75,11 @@ PN 示意图如图1所示。
- $N_{Q}$ 是每类中 query set 的样本个数;
- $\mathrm{RANDOMSAMPLE}(S, N)$ 表示从集合 $\mathrm{S}$ 中随机选出 $\mathrm{N}$ 个元素。


## 3 PN 分类结果

<center>
表1 PN 在 Omniglot 上的分类结果
表 1 PN 在 Omniglot 上的分类结果
</center>

| Model | Dist. | Fine Tune | 5-way 1-shot | 5-way 5-shot | 20-way 1-shot | 20-way 5-shot |
Expand All @@ -91,7 +91,7 @@ PN 示意图如图1所示。
| PROTOTYPICAL NETWORKS | Euclid. | N | **98.8** $\%$ | 99.7 $\%$ | **96.0** $\%$ | **98.9** $\%$ |

<center>
表1 PN 在 miniImageNet 上的分类结果
表 2 PN 在 miniImageNet 上的分类结果
</center>

| Model | Dist. | Fine Tune | 5-way 1-shot | 5-way 5-shot |
Expand Down
18 changes: 8 additions & 10 deletions docs/tutorials/meta_learning/metric_based_meta_learning/RN.md
Original file line number Diff line number Diff line change
Expand Up @@ -8,12 +8,11 @@ Relation Network (RN) 使用有监督度量学习估计样本点之间的距离
RN 包括两个组成部分:嵌入模块和关系模块,且两者都是通过有监督学习得到的。
嵌入模块从输入数据中提取特征,关系模块根据特征计算任务之间的距离,
判断任务之间的相似性,找到过去可借鉴的经验进行加权平均。
RN 结构如图1所示
RN 结构如图 1 所示

![RN Architecture](../../../images/meta_learning/metric_based_meta_learning/RN/RNArchitecture.png)
<center>
图1 RN 结构。
</center>

图 1 RN 结构

嵌入模块记为 $f_{\varphi}$,关系模块记为 $g_{\phi}$,
支持集中的样本记为 $\boldsymbol{x}_{i}$,
Expand Down Expand Up @@ -51,12 +50,11 @@ $$

嵌入模块和关系模块的选取有很多种,包括卷积网络、残差网络等。

图2给出了 [1] 中使用的 RN 模型结构。
图 2 给出了 [1] 中使用的 RN 模型结构。

![RN Model](../../../images/meta_learning/metric_based_meta_learning/RN/RNModel.png)
<center>
图2 RN 模型结构。
</center>

图 2 RN 模型结构

### 3.1 嵌入模块结构

Expand All @@ -75,7 +73,7 @@ $$
## 4 RN 分类结果

<center>
表1 RN 在 Omniglot 上的分类结果
表 1 RN 在 Omniglot 上的分类结果
</center>

| Model | Fine Tune | 5-way 1-shot | 5-way 5-shot | 20-way 1-shot | 20-way 5-shot |
Expand All @@ -93,7 +91,7 @@ $$
| RELATION NET | N | **99.6 $\pm$ 0.2** $\%$ | **99.8 $\pm$ 0.1** $\%$ | **97.6 $\pm$ 0.2** $\%$ | **99.1 $\pm$ 0.1** $\%$ |

<center>
表1 RN 在 miniImageNet 上的分类结果
表 2 RN 在 miniImageNet 上的分类结果
</center>

| Model | FT | 5-way 1-shot | 5-way 5-shot |
Expand Down
16 changes: 7 additions & 9 deletions docs/tutorials/meta_learning/metric_based_meta_learning/SNAIL.md
Original file line number Diff line number Diff line change
Expand Up @@ -60,25 +60,23 @@ $$
### 2.1 SNAIL 基础结构

两个时序卷积层(橙色)和一个因果关系层(绿色)的组合是 SNAIL 的基础结构,
如图1所示
如图 1 所示
在监督学习设置中,
SNAIL 接收标注样本 $\left(x_{1}, y_{1}\right), \ldots,\left(x_{t-1}, y_{t-1}\right)$ 和末标注的 $\left(x_{t},-\right)$,
然后基于标注样本对 $y_{t}$ 进行预测。

![SNAIL](../../../images/meta_learning/metric_based_meta_learning/SNAIL/SNAIL.png)
<center>
图1 SNAIL 基础结构示意图。
</center>

图 1 SNAIL 基础结构示意图

### 2.2 Modular Building Blocks

对于构建 SNAIL 使用了两个主要模块:
Dense Block 和 Attention Block。

![SNAIL Building Blocks](../../../images/meta_learning/metric_based_meta_learning/SNAIL/SNAILBuildingBlocks.png)
<center>
图1 SNAIL 中的 Dense Block 和 Attention Block。(a) Dense Block 应用因果一维卷积,然后将输出连接到输入。TC Block 应用一系列膨胀率呈指数增长的 Dense Block。(b) Attention Block 执行(因果)键值查找,并将输出连接到输入。
</center>

图 2 SNAIL 中的 Dense Block 和 Attention Block。(a) Dense Block 应用因果一维卷积,然后将输出连接到输入。TC Block 应用一系列膨胀率呈指数增长的 Dense Block。(b) Attention Block 执行(因果)键值查找,并将输出连接到输入。

**Densen Block**
用了一个简单的因果一维卷积(空洞卷积),
Expand Down Expand Up @@ -120,7 +118,7 @@ $$
## 3 SNAIL 分类结果

<center>
表1 SNAIL 在 Omniglot 上的分类结果
表 1 SNAIL 在 Omniglot 上的分类结果
</center>

| Method | 5-way 1-shot | 5-way 5-shot | 20-way 1-shot | 20-way 5-shot |
Expand All @@ -134,7 +132,7 @@ $$
| SNAIL | **99.07 $\pm$ 0.16** $\%$ | **99.78 $\pm$ 0.09** $\%$ | **97.64 $\pm$ 0.30** $\%$ | **99.36 $\pm$ 0.18** $\%$ |

<center>
表1 SNAIL 在 miniImageNet 上的分类结果
表 2 SNAIL 在 miniImageNet 上的分类结果
</center>

| Method | 5-way 1-shot | 5-way 5-shot |
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -42,11 +42,11 @@ optimizer $g$ 的更新则由 $f$, $\nabla f$ 及 $\phi$ 决定。

### 2.1 学习机制

图1是 Learning to Learn 中 optimizer 和 optimizee 的工作原理。
图 1 是 Learning to Learn 中 optimizer 和 optimizee 的工作原理。

![LearningToLearn](../../../images/meta_learning/model_based_meta_learning/Learning_to_Learn/LearningToLearnOptimizerOptimizee.png)

图1 Learning to Learn 中 optimizer 和 optimizee 工作原理。
图 1 Learning to Learn 中 optimizer 和 optimizee 工作原理。
optimizer 为 optimizee 提供更新策略,
optimizee 将损失信息反馈给 optimizer,协助 optimizer 更新。

Expand All @@ -68,11 +68,11 @@ $$
$\omega_{t} \in \mathbb{R}_{\geq 0}$ 是各个优化时刻的任意权重,
$\nabla_{t}=\nabla_{\theta} f\left(\theta_{t}\right)$ 。

图2是 Learning to Learn 计算图。
图 2 是 Learning to Learn 计算图。

![LearningToLearn](../../../images/meta_learning/model_based_meta_learning/Learning_to_Learn/LearningToLearnComputationalGraph.png)

图1 Learning to Learn 计算图。
图 2 Learning to Learn 计算图。
梯度只沿实线传递,不沿虚线传递(因为 optimizee 的梯度不依赖于 optimizer 的参数,即
$\partial \nabla_{t} / \partial \phi = 0$ ),这样可以避免计算 $f$ 的二阶导。

Expand All @@ -97,11 +97,11 @@ optimizer 的参数 $\phi$ 共享,隐层状态 $h_{i}$ 不共享。
这样设计的 LSTM 变相实现了优化与维度无关,
这与 RMSprop 和 ADAM 的优化方式类似(为每个维度的参数施行同样的梯度更新规则)。

图3是 LSTM 优化器的一步更新过程。
图 3 是 LSTM 优化器的一步更新过程。

![Learning2Learn](../../../images/meta_learning/model_based_meta_learning/Learning_to_Learn/LearningToLearnLSTMOptimizer.png)

图3 LSTM 优化器的一步更新过程。所有 LSTM 的 $\phi$ 共享,$h_{i}$ 不共享。
图 3 LSTM 优化器的一步更新过程。所有 LSTM 的 $\phi$ 共享,$h_{i}$ 不共享。

### 2.3 预处理和后处理

Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -100,18 +100,16 @@ $$

## 3 Meta-Learner LSTM 算法流程

Meta-Learner LSTM 前向传递计算如图1所示,其中,
Meta-Learner LSTM 前向传递计算如图 1 所示,其中,
基学习器 $\mathrm{M}$,包含可训练参数 $\theta$;元学习器 $R$,包含可训练参数 $\Theta$。

![Meta-Learner LSTM](../../../images/meta_learning/model_based_meta_learning/Meta_Learner_LSTM/MetaLearnerLSTM.png)

<center>
图1 Meta-Learner LSTM 前向传递计算图。
图 1 Meta-Learner LSTM 前向传递计算图。
Learner 计算损失函数值和损失函数梯度值,
Meta-Learner 使用 Learner 提供的信息,更新 Learner 中的参数和自身参数。
在任务中,每个批次的训练数据处理完成后,Meta-Learner 为 Learner 更新一次参数,
任务中所有批次的训练数据处理完成后,Meta-Learner 进行一次更新。
</center>

**Meta-Learner LSTM 算法流程**

Expand Down Expand Up @@ -169,7 +167,7 @@ Meta-Learner LSTM 中的元学习器只能是 LSTM 结构,基学习器可以
## 6 Meta-Learner LSTM 分类结果

<center>
表1 Meta-Learner LSTM 在 miniImageNet 上的分类结果
表1 Meta-Learner LSTM 在 miniImageNet 上的分类结果
</center>

| Method | 5-way 1-shot | 5-way 5-shot |
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -8,11 +8,11 @@ Latent Embedding Optimization (LEO) 学习模型参数的低维潜在嵌入,
在元学习器中,使用 SGD 最小化任务验证集损失函数,
使得模型的泛化能力最大化,计算元参数,元学习器将元参数输入基础学习器,
继而,基础学习器最小化任务训练集损失函数,快速给出任务上的预测结果。
LEO 结构如图1所示
LEO 结构如图 1 所示

![LEO Structure](../../../images/meta_learning/optimization_based_meta_learning/LEO/LEOStructure.png)

图1 LEO 结构图。$D^{\mathrm{tr}}$ 是任务 $\varepsilon$ 的 support set,
图 1 LEO 结构图。$D^{\mathrm{tr}}$ 是任务 $\varepsilon$ 的 support set,
$D^{\mathrm{val}}$ 是任务 $\varepsilon$ 的 query set,
$z$ 是通过编码器计算的 $N$ 个类别的类别特征,$f_{\theta}$ 是基学习器,
$\theta$ 是基学习器参数,
Expand Down Expand Up @@ -86,9 +86,8 @@ $$
$g_{\phi_{d}}$ 是从特征向量到基础学习器参数的映射。

![LEO Schematic](../../../images/meta_learning/optimization_based_meta_learning/LEO/LEOSchematic.png)
<center>
图2 LEO 基础学习器工作原理图。
</center>

图 2 LEO 基础学习器工作原理图

### 2.3 基础学习器更新过程
在基础学习器中,任务 $\varepsilon$ 的交叉熵损失函数是:
Expand Down Expand Up @@ -195,9 +194,9 @@ $$

## 5 LEO 模型结构

LEO 是一种与模型无关的元学习,[1] 中给出的各部分模型结构及参数如表1所示
LEO 是一种与模型无关的元学习,[1] 中给出的各部分模型结构及参数如表 1 所示
<center>
表1 LEO 各部分模型结构及参数
表 1 LEO 各部分模型结构及参数
</center>

| Part of the model | Architecture | Hiddenlayer | Shape of the output |
Expand All @@ -211,7 +210,7 @@ LEO 是一种与模型无关的元学习,[1] 中给出的各部分模型结构
## 6 LEO 分类结果

<center>
表1 LEO 在 miniImageNet 上的分类结果
表 2 LEO 在 miniImageNet 上的分类结果
</center>

| Model | 5-way 1-shot | 5-way 5-shot |
Expand All @@ -233,7 +232,7 @@ LEO 是一种与模型无关的元学习,[1] 中给出的各部分模型结构
| LEO | **61.76 $\pm$ 0.08** $\%$ | **77.59 $\pm$ 0.12** $\%$ |

<center>
表1 LEO 在 tieredImageNet 上的分类结果
表3 LEO 在 tieredImageNet 上的分类结果
</center>

| Model | 5-way 1-shot | 5-way 5-shot |
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -14,24 +14,29 @@ MAML 是典型的双层优化结构,其内层和外层的优化方式如下:

### 1.1 MAML 内层优化方式

内层优化涉及到基学习器,从任务分布 $p(T)$ 中随机采样第 $i$ 个任务 $T_{i}$。任务 $T_{i}$ 上,基学习器的目标函数是:
内层优化涉及到基学习器,从任务分布 $p(T)$ 中随机采样第 $i$ 个任务 $T_{i}$。
任务 $T_{i}$ 上,基学习器的目标函数是:

$$
\min _{\phi} L_{T_{i}}\left(f_{\phi}\right)
$$

其中,$f_{\phi}$ 是基学习器,$\phi$ 是基学习器参数,$L_{T_{i}}\left(f_{\phi}\right)$ 是基学习器在 $T_{i}$ 上的损失。更新基学习器参数:
其中,$f_{\phi}$ 是基学习器,$\phi$ 是基学习器参数,
$L_{T_{i}}\left(f_{\phi}\right)$ 是基学习器在 $T_{i}$ 上的损失。
更新基学习器参数:

$$
\theta_{i}^{N}=\theta_{i}^{N-1}-\alpha\left[\nabla_{\phi}
L_{T_{i}}\left(f_{\phi}\right)\right]_{\phi=\theta_{i}^{N-1}}
$$

其中,$\theta$ 是元学习器提供给基学习器的参数初始值 $\phi=\theta$,在任务 $T_{i}$ 上更新 $N$ 后 $\phi=\theta_{i}^{N-1}$.
其中,$\theta$ 是元学习器提供给基学习器的参数初始值 $\phi=\theta$,
在任务 $T_{i}$ 上更新 $N$ 后 $\phi=\theta_{i}^{N-1}$ 。

### 1.2 MAML 外层优化方式

外层优化涉及到元学习器,将 $\theta_{i}^{N}$ 反馈给元学匀器,此时元目标函数是:
外层优化涉及到元学习器,将 $\theta_{i}^{N}$ 反馈给元学匀器,
此时元目标函数是:

$$
\min _{\theta} \sum_{T_{i}\sim p(T)} L_{T_{i}}\left(f_{\theta_{i}^{N}}\right)
Expand All @@ -55,12 +60,14 @@ $$
> 4. update $\theta \leftarrow \theta-\beta \sum_{T_{i} \sim p(T)} \nabla_{\theta}\left[L_{T_{i}}\left(f_{\phi}\right)\right]_{\phi=\theta_{i}^{N}} $
>3. end while

MAML 中执行了两次梯度下降 (gradient by gradient),分别作用在基学习器和元学习器上。图1给出了 MAML 中特定任务参数 $\theta_{i}^{*}$ 和元级参数 $\theta$ 的更新过程。
MAML 中执行了两次梯度下降 (gradient by gradient),分别作用在基学习器和元学习器上。
图 1 给出了 MAML 中特定任务参数 $\theta_{i}^{*}$ 和元级参数 $\theta$ 的更新过程。

![MAML Schematic Diagram](../../../images/meta_learning/optimization_based_meta_learning/MAML/MAMLSchematicDiagram.png)
<center>
图1 MAML 示意图。灰色线表示特定任务所产生的梯度值(方向);黑色线表示元级参数选择更新的方向(黑色线方向是几个特定任务产生方向的平均值);虚线代表快速适应,不同的方向代表不同任务更新的方向。
</center>

图 1 MAML 示意图。灰色线表示特定任务所产生的梯度值(方向);
黑色线表示元级参数选择更新的方向(黑色线方向是几个特定任务产生方向的平均值);
虚线代表快速适应,不同的方向代表不同任务更新的方向。


## 3 MAML 模型结构
Expand All @@ -76,7 +83,7 @@ and 2 $\times$ 2 max-pooling。
## 4 MAML 分类结果

<center>
表1 MAML 在 Omniglot 上的分类结果
表 1 MAML 在 Omniglot 上的分类结果
</center>

| Method | 5-way 1-shot | 5-way 5-shot | 20-way 1-shot | 20-way 5-shot |
Expand All @@ -90,7 +97,7 @@ and 2 $\times$ 2 max-pooling。
| MAML | **98.7 $\pm$ 0.4** $\%$ | **99.9 $\pm$ 0.1** $\%$ | **95.8 $\pm$ 0.3** $\%$ | **98.9 $\pm$ 0.2** $\%$ |

<center>
表1 MAML 在 miniImageNet 上的分类结果
表 2 MAML 在 miniImageNet 上的分类结果
</center>

| Method | 5-way 1-shot | 5-way 5-shot |
Expand Down
Loading