prepare-senna-data.sh script added

sld · sld · commit c409eb53d418 · 2016-05-20T21:43:33.000+03:00
diff --git a/.gitignore b/.gitignore
@@ -0,0 +1,4 @@
+data/conll-abbyy/*
+data/conll2003/*
+data/embeddings/*
+data/gazetteers/*
diff --git a/.python-version b/.python-version
@@ -0,0 +1 @@
+2.7.11
diff --git a/README.md b/README.md
@@ -1 +1,32 @@
+# Окружение
 
+* Python 2.7.11
+* [torch](http://torch.ch/docs/getting-started.html)
+* Корпус [CoNLL-2003](http://www.cnts.ua.ac.be/conll2003/ner/)
+
+# Подготовка
+
+1. Положить корпуса CoNLL-2003 в папку data/conll2003.
+В результате должно быть так:
+  - data/conll2003/eng.testa.dev;
+  - data/conll2003/eng.testb.test;
+  - data/conll2003/eng.train.
+2. Запустить скрипт `bash prepare-senna-data.sh`. Он скачивает [senna embeddings](http://ml.nec-labs.com/senna/download.html),
+газетиры и кладет их в папку data/.
+
+# Эксперименты
+
+Все эксперименты проводились на AWS g2.2xlarge с использование GPU.
+
+1.
+  Запустить скрипт `bash experiments/convolution-net.sh`. По прошествию примерно 5 часов
+  обучится модель с F1 в районе 87.5%.
+  В папку snapshots сохраняется модель с лучшей F1 мерой каждые 2 эпохи.
+  В ней же можно посмотреть логи обучения.
+
+# Ссылки
+
+- [Natural Language Processing (almost) from Scratch](https://arxiv.org/abs/1103.0398)
+- http://ml.nec-labs.com/senna/
+- https://github.com/patverga/torch-ner-nlp-from-scratch
+- https://github.com/attardi/deepnl
diff --git a/prepare-senna-data.sh b/prepare-senna-data.sh
@@ -0,0 +1,11 @@
+mkdir tmp
+mkdir -p data/embeddings
+mkdir -p data/gazetteers/
+cd tmp && wget http://ml.nec-labs.com/senna/senna-v3.0.tgz && tar -zxvf senna-v3.0.tgz
+cd ..
+paste tmp/senna/hash/words.lst tmp/senna/embeddings/embeddings.txt | expand -t 1 > data/embeddings/senna.w2v
+cp tmp/senna/hash/ner.loc.lst data/gazetteers/
+cp tmp/senna/hash/ner.misc.lst data/gazetteers/
+cp tmp/senna/hash/ner.org.lst data/gazetteers/
+cp tmp/senna/hash/ner.per.lst data/gazetteers/
+rm -rf tmp
diff --git a/requirements.txt b/requirements.txt
@@ -0,0 +1,3 @@
+numpy
+scipy
+scikit-learn