n0obcoder
diff --git a/‎changes_to_be_made.txt
-2 b/‎changes_to_be_made.txt
-2
diff --git a/‎config.py
+54 b/‎config.py
+54
diff --git a/‎datasets.py
+152 b/‎datasets.py
+152
diff --git a/‎main.py
+182 b/‎main.py
+182
@@ -0,0 +1,54 @@
+import os, torch
+
+DEVICE = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
+print('DEVICE: ', DEVICE)
+
+DATA_SOURCE           = 'gensim' # or 'toy'
+DATA_SOURCE           = 'toy'
+MODEL_ID              = DATA_SOURCE #'toy'# 'gensim'
+DISPLAY_BATCH_LOSS    = True
+
+if DATA_SOURCE=='toy':
+    DISPLAY_EVERY_N_BATCH = 5000
+    SAVE_EVERY_N_EPOCH    = 100
+    BATCH_SIZE            = 32
+    NUM_EPOCHS            = int(1e+3)
+
+    CONTEXT_SIZE          = 3
+    FRACTION_DATA         = 1
+    SUBSAMPLING           = False
+    SAMPLING_RATE         = 0.001
+    NEGATIVE_SAMPLES      = 0 # set it to 0 if you don't want to use negative samplings  
+
+    EMBEDDING_DIM         = 3
+    LR                    = 0.001
+
+    TEST_WORDS            = ['word1', 'word3', 'word6', 'word13', 'word14']
+    TEST_WORDS_VIZ        = ['word1', 'word2', 'word3', 'word4', 'word5', 'word6', 'word7', 'word8', 'word9', 'word10', 'word11', 'word12', 'word13', 'word14', 'word15']
+
+elif DATA_SOURCE=='gensim':
+    DISPLAY_EVERY_N_BATCH = 1000
+    SAVE_EVERY_N_EPOCH    = 1
+    BATCH_SIZE            = 1024*16
+    NUM_EPOCHS            = 10
+
+    CONTEXT_SIZE          = 5
+    FRACTION_DATA         = 0.1
+    SUBSAMPLING           = True
+    SAMPLING_RATE         = 0.001
+    NEGATIVE_SAMPLES      = 10 # set it to 0 if you don't want to use negative samplings  
+
+    EMBEDDING_DIM         = 64
+    LR                    = 0.0011
+
+    if FRACTION_DATA == 1:
+        TEST_WORDS            = ['india', 'computer', 'gold', 'football', 'cars', 'war', 'apple', 'music', 'helicopter']
+        TEST_WORDS_VIZ        = ['india', 'asia', 'guitar', 'piano', 'album', 'music', 'war', 'soldiers', 'helicopter']
+    else:
+        TEST_WORDS            = ['human', 'boy', 'office', 'woman']
+        TEST_WORDS_VIZ        = TEST_WORDS
+
+PREPROCESSED_DATA_DIR  = os.path.join(MODEL_ID, 'preprocessed_data')
+PREPROCESSED_DATA_PATH = os.path.join(PREPROCESSED_DATA_DIR, 'preprocessed_data_' + MODEL_ID + '_' + str(FRACTION_DATA) + '.pickle')
+SUMMARY_DIR            = os.path.join(MODEL_ID, 'summary') 
+MODEL_DIR              = os.path.join(MODEL_ID, 'models')
@@ -0,0 +1,152 @@
+from __future__ import print_function
+
+import nltk
+nltk.download('punkt')
+nltk.download('stopwords')
+nltk.download('wordnet')
+
+from nltk.stem.wordnet import WordNetLemmatizer 
+from nltk.tokenize import word_tokenize
+from nltk.tokenize import sent_tokenize
+from nltk.corpus import stopwords 
+
+import numpy as np
+import os, glob, cv2, sys, torch, pdb, random
+from torch.utils.data import Dataset
+
+import pdb, sys, os, time
+import pandas as pd
+from tqdm import tqdm
+
+lem = WordNetLemmatizer()
+
+from utils_modified import q
+
+class word2vec_dataset(Dataset):
+    def __init__(self, DATA_SOURCE, CONTEXT_SIZE, FRACTION_DATA, SUBSAMPLING, SAMPLING_RATE):
+
+        print("Parsing text and loading training data...")
+        vocab, word_to_ix, ix_to_word, training_data = self.load_data(DATA_SOURCE, CONTEXT_SIZE, FRACTION_DATA, SUBSAMPLING, SAMPLING_RATE)
+
+        self.vocab = vocab
+        self.word_to_ix = word_to_ix
+        self.ix_to_word = ix_to_word
+
+        # training_data is a list of list of 2 indices
+        self.data = torch.tensor(training_data, dtype = torch.long)   
+        
+    def __getitem__(self, index):  
+        x = self.data[index, 0]
+        y = self.data[index, 1]
+        return x, y
+
+    def __len__(self):
+        return len(self.data)              
+    
+    def gather_training_data(self, split_text, word_to_ix, context_size):        
+        training_data = []
+        all_vocab_indices = list(range(len(word_to_ix)))
+        
+        #for each sentence
+        print('preparing training data (x, y)...')
+        for sentence in tqdm(split_text):
+            indices = [word_to_ix[word] for word in sentence]
+            
+            #for each word treated as center word
+            for center_word_pos in range(len(indices)):
+                
+                #for each window  position
+                for w in range(-context_size, context_size+1):                
+                    context_word_pos = center_word_pos + w
+
+                    #make sure we dont jump out of the sentence
+                    if context_word_pos < 0 or context_word_pos >= len(indices) or center_word_pos == context_word_pos:
+                        continue
+                    
+                    context_word_idx = indices[context_word_pos]
+                    center_word_idx  = indices[center_word_pos]
+                    
+                    if center_word_idx == context_word_idx: # same words might be present in the close vicinity of each other. we want to avoid such cases
+                        continue
+
+                    training_data.append([center_word_idx, context_word_idx])
+        
+        return training_data
+            
+    def load_data(self, data_source, context_size, fraction_data, subsampling, sampling_rate):
+
+        stop_words = set(stopwords.words('english')) 
+
+        if data_source == 'toy':
+            sents = [
+                    'word1 word2 word3 word4 word5',
+                    'word6 word7 word8 word9 word10',
+                    'word11 word12 word13 word14 word15'
+                    ]
+            # sents = ['word6 word7 word8 word9 word10', 'word1 word1 word1 word2 word2 word3 word4 word5', 'word11 word12 word13 word14 word15']
+
+        elif data_source == 'gensim':
+            import gensim.downloader as api
+            dataset = api.load("text8")
+            data = [d for d in dataset][:int(fraction_data*len([d_ for d_ in dataset]))]
+            print(f'fraction of data taken: {fraction_data}/1')
+            
+            sents = []
+            print('forming sentences by joining tokenized words...')
+            for d in tqdm(data):
+                sents.append(' '.join(d))
+
+        sent_list_tokenized = [word_tokenize(s) for s in sents]
+        print('len(sent_list_tokenized): ', len(sent_list_tokenized))
+
+        # remove the stopwords
+        sent_list_tokenized_filtered = []
+        print('lemmatizing and removing stopwords...')
+        for s in tqdm(sent_list_tokenized):
+            sent_list_tokenized_filtered.append([lem.lemmatize(w, 'v') for w in s if w not in stop_words])
+        
+        sent_list_tokenized_filtered, vocab, word_to_ix, ix_to_word = self.gather_word_freqs(sent_list_tokenized_filtered, subsampling, sampling_rate)        
+        
+        training_data = self.gather_training_data(sent_list_tokenized_filtered, word_to_ix, context_size)
+        
+        return vocab, word_to_ix, ix_to_word, training_data
+
+    def gather_word_freqs(self, split_text, subsampling, sampling_rate): #here split_text is sent_list
+
+        vocab = {}
+        ix_to_word = {}
+        word_to_ix = {}
+        total = 0.0
+
+        print('building vocab...')
+        for word_tokens in tqdm(split_text):
+            for word in word_tokens: #for every word in the word list(split_text), which might occur multiple times
+                if word not in vocab: #only new words allowed
+                    vocab[word] = 0
+                    ix_to_word[len(word_to_ix)] = word
+                    word_to_ix[word] = len(word_to_ix)
+                vocab[word] += 1.0 #count of the word stored in a dict
+                total += 1.0 #total number of words in the word_list(split_text)
+        
+        print('\nsubsampling: ', subsampling)
+        if subsampling:
+
+            print('performing subsampling...')
+            for sent in tqdm(split_text):
+                word_tokens = sent
+                # print('word_tokens: ', word_tokens)
+                # print('len(word_tokens): ', len(word_tokens), '\n')
+                for i , word in enumerate(word_tokens):
+                    # print(i, word_tokens[i])
+
+                    frac = vocab[word]/total
+                    prob = 1 - np.sqrt(sampling_rate/frac)
+
+                    sampling = np.random.sample()
+                    #print(sampling, prob)
+                    if (sampling < prob):
+                        # print('freq: ', vocab[word_tokens[i]])
+                        del word_tokens[i]
+                        i -= 1
+
+        return split_text, vocab, word_to_ix, ix_to_word
@@ -0,0 +1,182 @@
+from __future__ import print_function
+from tqdm import tqdm
+# from tqdm import tqdm_gui
+import matplotlib
+# matplotlib.use('Agg')
+import matplotlib.pyplot as plt
+import numpy as np
+import sys, pdb, os, shutil, pickle
+from pprint import pprint 
+
+import torch
+import torch.optim as optim
+import torch.nn as nn
+
+# it is a little tricky on run SummaryWriter by installing a suitable version of pytorch. so if you are able to import SummaryWriter from torch.utils.tensorboard, this script will record summaries. Otherwise it would not.
+try:
+    from torch.utils.tensorboard import SummaryWriter
+    write_summary = True
+except:
+    write_summary = False
+
+from model import Word2Vec_neg_sampling
+from utils_modified import count_parameters
+from datasets import word2vec_dataset
+from  config import *
+from test import print_nearest_words
+from utils_modified import q
+
+# for tensorboard to work properly on embeddings projections
+import tensorflow as tf
+import tensorboard as tb
+tf.io.gfile = tb.compat.tensorflow_stub.io.gfile
+
+# remove MODEL_DIR if it exists
+if os.path.exists(MODEL_DIR):
+    shutil.rmtree(MODEL_DIR)
+# create MODEL_DIR    
+os.makedirs(MODEL_DIR)
+
+# SUMMARY_DIR is the path of the directory where the tensorboard SummaryWriter files are written
+if write_summary:
+    if os.path.exists(SUMMARY_DIR):
+        # the directory is removed, if it already exists
+        shutil.rmtree(SUMMARY_DIR)
+
+    writer = SummaryWriter(SUMMARY_DIR) # this command automatically creates the directory at SUMMARY_DIR
+    summary_counter = 0
+
+# make training data
+if not os.path.exists(PREPROCESSED_DATA_PATH):
+    train_dataset = word2vec_dataset(DATA_SOURCE, CONTEXT_SIZE, FRACTION_DATA, SUBSAMPLING, SAMPLING_RATE)
+
+    if not os.path.exists(PREPROCESSED_DATA_DIR):
+        os.makedirs(PREPROCESSED_DATA_DIR)
+
+    # pickle dump
+    print('\ndumping pickle...')
+    outfile = open(PREPROCESSED_DATA_PATH,'wb')
+    pickle.dump(train_dataset, outfile)
+    outfile.close()
+    print('pickle dumped\n')
+
+else:
+    # pickle load
+    print('\nloading pickle...')
+    infile = open(PREPROCESSED_DATA_PATH,'rb')
+    train_dataset = pickle.load(infile)
+    infile.close()
+    print('pickle loaded\n')
+
+vocab = train_dataset.vocab
+word_to_ix = train_dataset.word_to_ix
+ix_to_word = train_dataset.ix_to_word
+
+train_loader = torch.utils.data.DataLoader(train_dataset, batch_size = BATCH_SIZE, shuffle = not True)
+print('len(train_dataset): ', len(train_dataset))
+print('len(train_loader): ', len(train_loader))
+print('len(vocab): ', len(vocab), '\n')
+
+# make noise distribution to sample negative examples from
+word_freqs = np.array(list(vocab.values()))
+unigram_dist = word_freqs/sum(word_freqs)
+noise_dist = torch.from_numpy(unigram_dist**(0.75)/np.sum(unigram_dist**(0.75)))
+
+losses = []
+
+model = Word2Vec_neg_sampling(EMBEDDING_DIM, len(vocab), DEVICE, noise_dist, NEGATIVE_SAMPLES).to(DEVICE)
+print('\nWe have {} Million trainable parameters here in the model'.format(count_parameters(model)))
+
+# optimizer = optim.SGD(model.parameters(), lr = 0.008, momentum=0.9)
+optimizer = optim.Adam(model.parameters(), lr = LR)
+# print(model, '\n')
+
+for epoch in tqdm(range(NUM_EPOCHS)):
+    print('\n===== EPOCH {}/{} ====='.format(epoch + 1, NUM_EPOCHS))    
+    # print('\nTRAINING...')
+
+    # model.train()
+    for batch_idx, (x_batch, y_batch) in enumerate(train_loader):
+        print('batch# ' + str(batch_idx+1).zfill(len(str(len(train_loader)))) + '/' + str(len(train_loader)), end = '\r')
+        
+        model.train()
+
+        x_batch           = x_batch.to(DEVICE)
+        y_batch           = y_batch.to(DEVICE)
+        
+        optimizer.zero_grad()
+        loss = model(x_batch, y_batch)
+        
+        loss.backward()
+        optimizer.step()    
+        
+        losses.append(loss.item())
+        if write_summary:
+            # write tensorboard summaries
+            writer.add_scalar(f'batch_loss', loss.item(), summary_counter)
+            summary_counter += 1
+
+        if batch_idx%DISPLAY_EVERY_N_BATCH == 0 and DISPLAY_BATCH_LOSS:
+            print(f'Batch: {batch_idx+1}/{len(train_loader)}, Loss: {loss.item()}')    
+            # show 5 closest words to some test words
+            print_nearest_words(model, TEST_WORDS, word_to_ix, ix_to_word, top = 5)        
+
+    # write embeddings every SAVE_EVERY_N_EPOCH epoch
+    if epoch%SAVE_EVERY_N_EPOCH == 0:      
+        writer.add_embedding(model.embeddings_input.weight.data, metadata=[ix_to_word[k] for k in range(len(ix_to_word))], global_step=epoch)
+
+        torch.save({'model_state_dict': model.state_dict(), 
+                    'losses': losses,
+                    'word_to_ix': word_to_ix,
+                    'ix_to_word': ix_to_word
+                    },                  
+                    '{}/model{}.pth'.format(MODEL_DIR, epoch))
+
+plt.figure(figsize = (50, 50))
+plt.xlabel("batches")
+plt.ylabel("batch_loss")
+plt.title("loss vs #batch")
+
+plt.plot(losses)
+plt.savefig('losses.png')
+plt.show()
+
+# '''
+EMBEDDINGS = model.embeddings_input.weight.data
+print('EMBEDDINGS.shape: ', EMBEDDINGS.shape)
+
+from sklearn.manifold import TSNE
+
+print('\n', 'running TSNE...')
+tsne = TSNE(n_components = 2).fit_transform(EMBEDDINGS.cpu())
+print('tsne.shape: ', tsne.shape) #(15, 2)
+
+############ VISUALIZING ############
+x, y = [], []
+annotations = []
+for idx, coord in enumerate(tsne):
+    # print(coord)
+    annotations.append(ix_to_word[idx])
+    x.append(coord[0])
+    y.append(coord[1])   
+
+# test_words = ['king', 'queen', 'berlin', 'capital', 'germany', 'palace', 'stays']
+# test_words = ['sun', 'moon', 'earth', 'while', 'open', 'run', 'distance', 'energy', 'coal', 'exploit']
+# test_words = ['amazing', 'beautiful', 'work', 'breakfast', 'husband', 'hotel', 'quick', 'cockroach']
+
+test_words = TEST_WORDS_VIZ
+print('test_words: ', test_words)
+
+plt.figure(figsize = (50, 50))
+for i in range(len(test_words)):
+    word = test_words[i]
+    #print('word: ', word)
+    vocab_idx = word_to_ix[word]
+    # print('vocab_idx: ', vocab_idx)
+    plt.scatter(x[vocab_idx], y[vocab_idx])
+    plt.annotate(word, xy = (x[vocab_idx], y[vocab_idx]), \
+        ha='right',va='bottom')
+
+plt.savefig("w2v.png")
+plt.show()
+# '''