Skip to content

Commit 9a97866

Browse files
committed
内容修改 v1.0
1 parent 888b274 commit 9a97866

File tree

20 files changed

+18
-18
lines changed

20 files changed

+18
-18
lines changed

NLPinterview/DialogueSystem/readme.md

+1-1
Original file line numberDiff line numberDiff line change
@@ -23,7 +23,7 @@
2323
- 类别:
2424
- 基于 海量 FAQ 的检索方式
2525
- 端到端方式
26-
26+
2727
### 1.2 这几种对话系统的区别?
2828

2929
- 区别:是否有明确的目标和任务

NLPinterview/KG/KBQA/readme.md

+1-1
Original file line numberDiff line numberDiff line change
@@ -9,7 +9,7 @@
99
![](img/微信截图_20210204081440.png)
1010

1111
## 一、基于词典和规则的方法
12-
12+
1313
### 1.1 介绍
1414

1515
#### 1.1.1 开源知识图谱

NLPinterview/KG/readme.md

+1-1
Original file line numberDiff line numberDiff line change
@@ -6,7 +6,7 @@
66
>
77
88
![](img/微信截图_20210129233513.png)
9-
9+
1010
## 一、知识图谱简介
1111

1212
### 1.1 引言

NLPinterview/PreTraining/bert/readme.md

+1-1
Original file line numberDiff line numberDiff line change
@@ -20,7 +20,7 @@
2020
- 维度鸿沟问题:词语的编码往往是随机的,导致不能很好地刻画词与词之间的相似性。
2121

2222
### 1.2【演变史】wordvec 存在问题?
23-
23+
2424
- 多义词问题
2525
- 因为 word2vec 为静态方式,即训练好后,每个词表达固定;
2626

NLPinterview/PreTraining/bert_big/readme.md

+1-1
Original file line numberDiff line numberDiff line change
@@ -17,7 +17,7 @@
1717
## 二、Bert 变大篇
1818

1919
### 2.1 认识 XLNet 么?能不能讲一下? 和 Bert 的 区别在哪里?
20-
20+
2121
- AR vs AE
2222
- AR:只利用到单向 context 的信息(前向或后向);
2323
- AE(这里特指 BERT):Pre-training 阶段引入的 [MASK] 占位符在 Fine-tuning 阶段并不存在;同一个 sequence 如果有多个位置 [MASK],BERT 假定它们之间是独立的,这与事实不符

NLPinterview/PreTraining/bert_zip/readme.md

+1-1
Original file line numberDiff line numberDiff line change
@@ -19,7 +19,7 @@
1919
- 限制了 Bert 系列模型在移动和物联网等嵌入式设备上的部署;
2020

2121
## 二、Bert 模型压缩对比表
22-
22+
2323
<table>
2424
<tr>
2525
<td>论文</td>

NLPinterview/PreTraining/fasttext/readme.md

+1-1
Original file line numberDiff line numberDiff line change
@@ -17,7 +17,7 @@
1717
- 介绍:基于word单词作为基本单位的,这种方式虽然能够很好的对词库中每一个词进行向量表示
1818

1919
### 1.2 word-level Model 存在什么问题?
20-
20+
2121
- OOV 问题
2222
- 问题描述:容易出现单词不存在于词汇库中的情况;
2323
- 解决方法:最佳语料规模,使系统能够获得更多的词汇量;

NLPinterview/PreTraining/tfidf/readme.md

+1-1
Original file line numberDiff line numberDiff line change
@@ -24,7 +24,7 @@
2424

2525
- 维度长:向量的维度为 **词典大小**
2626
- 一一其零:每个向量**只有一个维度为1**,其余维度全部为0,**为1的位置表示该词语在词典的位置**
27-
27+
2828
### 1.4 one-hot 存在哪些问题?
2929

3030
- 维度灾难:容易受维数灾难的困扰,每个词语的维度就是语料库字典的长度;

NLPinterview/PreTraining/word2vec/readme.md

+1-1
Original file line numberDiff line numberDiff line change
@@ -19,7 +19,7 @@
1919
- CBOW vs Skip-gram
2020

2121
### 1.2 Wordvec 中 CBOW 指什么?
22-
22+
2323
- CBOW
2424
- 思想:用周围词预测中心词
2525
- 输入输出介绍:输入是某一个特征词的上下文相关的词对应的词向量,而输出就是这特定的一个词的词向量

NLPinterview/QA/FAQ/readme.md

+1-1
Original file line numberDiff line numberDiff line change
@@ -22,7 +22,7 @@
2222
- 如何根据 这个 query,你怎么返回一个标准答案呢?
2323
- 如何从 问题库 里面找 答案?
2424
- 如何 判断 你 找到 答案 是 对的?
25-
25+
2626
### 1.2 问答系统 是什么?
2727

2828
- 介绍:问答系统是信息检索的一种高级形式,能够更加准确地理解用户用自然语言提出的问题,并通过检索语料库、知识图谱或问答知识库返回简洁、准确的匹配答案。相较于搜索引擎,问答系统能更好地理解用户提问的真实意图, 进一步能更有效地满足用户的信息需求。

NLPinterview/QA/readme.md

Whitespace-only changes.

NLPinterview/TextMatch/bert_similairity/readme.md

+1-1
Original file line numberDiff line numberDiff line change
@@ -24,7 +24,7 @@
2424
- 解析:c 可一定程度表示整个句子的语义
2525
- 举例
2626
- 原文中有提到“ The final hidden state (i.e., output of Transformer) corresponding to this token is used as the aggregate sequence representation for classification tasks.”这句话中的“this token”就是CLS位。
27-
27+
2828
## 二、cosine similairity
2929

3030
- 方法:

NLPinterview/TextMatch/readme.md

Whitespace-only changes.

NLPinterview/ner/ChineseNer/readme.md

+1-1
Original file line numberDiff line numberDiff line change
@@ -11,7 +11,7 @@
1111
![](img/微信截图_20210206163209.png)
1212

1313
## 一、动机篇
14-
14+
1515
### 1.1 中文命名实体识别 与 英文命名实体识别的区别?
1616

1717
和英文 NER 每个单词都使用空格分隔不同,中文 NER 是基于字的表示方法,所以一般会涉及到中文分词和中文NER技术,导致 中文 NER 技术容易受到中文分词的误差的影响。

NLPinterview/ner/NERtrick/NERtrick.md

+1-1
Original file line numberDiff line numberDiff line change
@@ -9,7 +9,7 @@
99
> 【注:手机阅读可能图片打不开!!!】
1010
1111
![](img/微信截图_20210224224353.png)
12-
12+
1313
## trick 1:领域词典匹配
1414

1515
- 场景:对于某些 常见短语,可以 采用 词典匹配 的方式。

NLPinterview/ner/crf/readme.md

+1-1
Original file line numberDiff line numberDiff line change
@@ -17,7 +17,7 @@
1717
### 1.1 什么是概率图模型?
1818

1919
概率图模型(Probabilistic Graphical Model, PGM),简称图模型(Graphical Model,GM),是指一种用图结构来描述**多元随机变量之间条件独立性的概率模型(注意条件独立性)**,从而给研究高维空间的概率模型带来了很大的便捷性。
20-
20+
2121
### 1.2 什么是 随机场?
2222

2323
每个位置按照某种分布随机赋予一个值 所构成 的 整体。

NLPinterview/ner/readme.md

+1-1
Original file line numberDiff line numberDiff line change
@@ -12,7 +12,7 @@
1212
1313

1414

15-
15+
1616

1717

1818
## 参考资料

NLPinterview/textclassifier/ClassifierTrick/readme.md

+1-1
Original file line numberDiff line numberDiff line change
@@ -23,7 +23,7 @@
2323
5. 词干化 加入训练数据会收到比较好的效果;
2424
6. 主题向量 加入训练数据会收到比较好的效果;
2525
7. 位置向量 加入训练数据会收到比较好的效果;【位置向量则是将当前词汇的位置进行embedding,然后和词向量进行拼接】
26-
26+
2727
### 1.3 噪声数据处理问题
2828

2929
- 噪声类型:【数据集D(X, Y)】

Trick/SmallSampleProblem/EDA/eda.md

+1-1
Original file line numberDiff line numberDiff line change
@@ -27,7 +27,7 @@
2727
## 二、常见的数据增强方法篇
2828

2929
### 2.1 词汇替换篇
30-
30+
3131
#### 2.1.1 什么是基于词典的替换方法?
3232

3333
- 介绍:基于同义词替换的方法是从句子中以一定的概率随机选取一个单词,利用一些同义词数据库(注:英文可以用 WordNet 数据库,中文可以用 synonyms python 同义词词典) 将其替换成对应的同义词。

python/readme.md

+1-1
Original file line numberDiff line numberDiff line change
@@ -5,7 +5,7 @@
55
> 项目地址:https://github.com/km1994/nlp_paper_study
66
>
77
> 个人介绍:大佬们好,我叫杨夕,该项目主要是本人在研读顶会论文和复现经典论文过程中,所见、所思、所想、所闻,可能存在一些理解错误,希望大佬们多多指正。
8-
8+
99
- [【关于 python 】 的那些你不知道的事](#关于-python--的那些你不知道的事)
1010
- [一、什么是*args 和 **kwargs?](#一什么是args-和-kwargs)
1111
- [1.1 为什么会有 *args 和 **kwargs?](#11-为什么会有-args-和-kwargs)

0 commit comments

Comments
 (0)