File tree 5 files changed +50
-0
lines changed
5 files changed +50
-0
lines changed Original file line number Diff line number Diff line change
1
+ data /conll-abbyy /*
2
+ data /conll2003 /*
3
+ data /embeddings /*
4
+ data /gazetteers /*
Original file line number Diff line number Diff line change
1
+ 2.7.11
Original file line number Diff line number Diff line change
1
+ # Окружение
1
2
3
+ * Python 2.7.11
4
+ * [ torch] ( http://torch.ch/docs/getting-started.html )
5
+ * Корпус [ CoNLL-2003] ( http://www.cnts.ua.ac.be/conll2003/ner/ )
6
+
7
+ # Подготовка
8
+
9
+ 1 . Положить корпуса CoNLL-2003 в папку data/conll2003.
10
+ В результате должно быть так:
11
+ - data/conll2003/eng.testa.dev;
12
+ - data/conll2003/eng.testb.test;
13
+ - data/conll2003/eng.train.
14
+ 2 . Запустить скрипт ` bash prepare-senna-data.sh ` . Он скачивает [ senna embeddings] ( http://ml.nec-labs.com/senna/download.html ) ,
15
+ газетиры и кладет их в папку data/.
16
+
17
+ # Эксперименты
18
+
19
+ Все эксперименты проводились на AWS g2.2xlarge с использование GPU.
20
+
21
+ 1 .
22
+ Запустить скрипт ` bash experiments/convolution-net.sh ` . По прошествию примерно 5 часов
23
+ обучится модель с F1 в районе 87.5%.
24
+ В папку snapshots сохраняется модель с лучшей F1 мерой каждые 2 эпохи.
25
+ В ней же можно посмотреть логи обучения.
26
+
27
+ # Ссылки
28
+
29
+ - [ Natural Language Processing (almost) from Scratch] ( https://arxiv.org/abs/1103.0398 )
30
+ - http://ml.nec-labs.com/senna/
31
+ - https://github.com/patverga/torch-ner-nlp-from-scratch
32
+ - https://github.com/attardi/deepnl
Original file line number Diff line number Diff line change
1
+ mkdir tmp
2
+ mkdir -p data/embeddings
3
+ mkdir -p data/gazetteers/
4
+ cd tmp && wget http://ml.nec-labs.com/senna/senna-v3.0.tgz && tar -zxvf senna-v3.0.tgz
5
+ cd ..
6
+ paste tmp/senna/hash/words.lst tmp/senna/embeddings/embeddings.txt | expand -t 1 > data/embeddings/senna.w2v
7
+ cp tmp/senna/hash/ner.loc.lst data/gazetteers/
8
+ cp tmp/senna/hash/ner.misc.lst data/gazetteers/
9
+ cp tmp/senna/hash/ner.org.lst data/gazetteers/
10
+ cp tmp/senna/hash/ner.per.lst data/gazetteers/
11
+ rm -rf tmp
Original file line number Diff line number Diff line change
1
+ numpy
2
+ scipy
3
+ scikit-learn
You can’t perform that action at this time.
0 commit comments