Tinkoff образование: генерация текста, задача для прохождения вступительных испытаний

Утилита, которая на основе данного пользователем текста генерирует новый. Используется только чистый python и встроенные библиотеки.

Репозиторий содержит 4 файла и 1 папку

model.py - основный скрипт, в котором описана вся логика модел: fit и generate, загрузка и сохранение.
learning.py - скрипт, который запускает обучение модели.
generation.py - скрипт, который генерирует новый текст.
tokenizer.py - дополнительный скрипт для токенизации текста.
data - папка для данных для обучения. В которой хранится train.txt - "Война и Мир", текст, на котором можно провести обучение модели.

Файл learning.py, имеет 2 аргумента:

input_path - местоположение файла с данными в формате .txt или папки, в которой данные хранятся.
--path_to_save_model - путь для сохранения сохранить модель. По умолчанию 'textgen_model'.

Файл generation.py, имеет 5 аргументов:

file - местоположение файла с натренированной моделью.
--length - длинна генерируемой строки. По умолчанию - 10.
--is_rand - является ли результат полностью случайным или выбор будет осущесвляться из самых частотных слов. По умолчанию - false.
--num_of_word_to_choose - если is_rand равен false, то выбор следующего слова в последовательности осуществляется из рандомного слова из num_of_word_to_choose самых частотных слов после предыдущего члена последовательности. По умолчанию - 5.
--seed - сид. По умолчанию - 1.

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
data		data
README.md		README.md
generation.py		generation.py
learning.py		learning.py
model.py		model.py
tokenizer.py		tokenizer.py