Skip to content

azarenkovgd/tinkoff-textgen

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

12 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Tinkoff образование: генерация текста, задача для прохождения вступительных испытаний

Утилита, которая на основе данного пользователем текста генерирует новый. Используется только чистый python и встроенные библиотеки.

Репозиторий содержит 4 файла и 1 папку

  1. model.py - основный скрипт, в котором описана вся логика модел: fit и generate, загрузка и сохранение.
  2. learning.py - скрипт, который запускает обучение модели.
  3. generation.py - скрипт, который генерирует новый текст.
  4. tokenizer.py - дополнительный скрипт для токенизации текста.
  5. data - папка для данных для обучения. В которой хранится train.txt - "Война и Мир", текст, на котором можно провести обучение модели.

Обучение

Файл learning.py, имеет 2 аргумента:

  1. input_path - местоположение файла с данными в формате .txt или папки, в которой данные хранятся.
  2. --path_to_save_model - путь для сохранения сохранить модель. По умолчанию 'textgen_model'.

Генерация

Файл generation.py, имеет 5 аргументов:

  1. file - местоположение файла с натренированной моделью.
  2. --length - длинна генерируемой строки. По умолчанию - 10.
  3. --is_rand - является ли результат полностью случайным или выбор будет осущесвляться из самых частотных слов. По умолчанию - false.
  4. --num_of_word_to_choose - если is_rand равен false, то выбор следующего слова в последовательности осуществляется из рандомного слова из num_of_word_to_choose самых частотных слов после предыдущего члена последовательности. По умолчанию - 5.
  5. --seed - сид. По умолчанию - 1.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages