Skip to content

Commit c409eb5

Browse files
committed
prepare-senna-data.sh script added
1 parent bff330d commit c409eb5

File tree

5 files changed

+50
-0
lines changed

5 files changed

+50
-0
lines changed

.gitignore

+4
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,4 @@
1+
data/conll-abbyy/*
2+
data/conll2003/*
3+
data/embeddings/*
4+
data/gazetteers/*

.python-version

+1
Original file line numberDiff line numberDiff line change
@@ -0,0 +1 @@
1+
2.7.11

README.md

+31
Original file line numberDiff line numberDiff line change
@@ -1 +1,32 @@
1+
# Окружение
12

3+
* Python 2.7.11
4+
* [torch](http://torch.ch/docs/getting-started.html)
5+
* Корпус [CoNLL-2003](http://www.cnts.ua.ac.be/conll2003/ner/)
6+
7+
# Подготовка
8+
9+
1. Положить корпуса CoNLL-2003 в папку data/conll2003.
10+
В результате должно быть так:
11+
- data/conll2003/eng.testa.dev;
12+
- data/conll2003/eng.testb.test;
13+
- data/conll2003/eng.train.
14+
2. Запустить скрипт `bash prepare-senna-data.sh`. Он скачивает [senna embeddings](http://ml.nec-labs.com/senna/download.html),
15+
газетиры и кладет их в папку data/.
16+
17+
# Эксперименты
18+
19+
Все эксперименты проводились на AWS g2.2xlarge с использование GPU.
20+
21+
1.
22+
Запустить скрипт `bash experiments/convolution-net.sh`. По прошествию примерно 5 часов
23+
обучится модель с F1 в районе 87.5%.
24+
В папку snapshots сохраняется модель с лучшей F1 мерой каждые 2 эпохи.
25+
В ней же можно посмотреть логи обучения.
26+
27+
# Ссылки
28+
29+
- [Natural Language Processing (almost) from Scratch](https://arxiv.org/abs/1103.0398)
30+
- http://ml.nec-labs.com/senna/
31+
- https://github.com/patverga/torch-ner-nlp-from-scratch
32+
- https://github.com/attardi/deepnl

prepare-senna-data.sh

+11
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,11 @@
1+
mkdir tmp
2+
mkdir -p data/embeddings
3+
mkdir -p data/gazetteers/
4+
cd tmp && wget http://ml.nec-labs.com/senna/senna-v3.0.tgz && tar -zxvf senna-v3.0.tgz
5+
cd ..
6+
paste tmp/senna/hash/words.lst tmp/senna/embeddings/embeddings.txt | expand -t 1 > data/embeddings/senna.w2v
7+
cp tmp/senna/hash/ner.loc.lst data/gazetteers/
8+
cp tmp/senna/hash/ner.misc.lst data/gazetteers/
9+
cp tmp/senna/hash/ner.org.lst data/gazetteers/
10+
cp tmp/senna/hash/ner.per.lst data/gazetteers/
11+
rm -rf tmp

requirements.txt

+3
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,3 @@
1+
numpy
2+
scipy
3+
scikit-learn

0 commit comments

Comments
 (0)