Утилита, которая на основе данного пользователем текста генерирует новый. Используется только чистый python и встроенные библиотеки.
- model.py - основный скрипт, в котором описана вся логика модел: fit и generate, загрузка и сохранение.
- learning.py - скрипт, который запускает обучение модели.
- generation.py - скрипт, который генерирует новый текст.
- tokenizer.py - дополнительный скрипт для токенизации текста.
- data - папка для данных для обучения. В которой хранится train.txt - "Война и Мир", текст, на котором можно провести обучение модели.
Файл learning.py, имеет 2 аргумента:
- input_path - местоположение файла с данными в формате .txt или папки, в которой данные хранятся.
- --path_to_save_model - путь для сохранения сохранить модель. По умолчанию 'textgen_model'.
Файл generation.py, имеет 5 аргументов:
- file - местоположение файла с натренированной моделью.
- --length - длинна генерируемой строки. По умолчанию - 10.
- --is_rand - является ли результат полностью случайным или выбор будет осущесвляться из самых частотных слов. По умолчанию - false.
- --num_of_word_to_choose - если is_rand равен false, то выбор следующего слова в последовательности осуществляется из рандомного слова из num_of_word_to_choose самых частотных слов после предыдущего члена последовательности. По умолчанию - 5.
- --seed - сид. По умолчанию - 1.