tf-idf model added to find the most significant words in each book; pandas dataframe added to show similarities of books; updated the file run.py

KajaBraz · KajaBraz · commit 3a7cbf9364f3 · 2020-11-30T01:42:46.000+01:00
diff --git a/BooksSimilarity/run.py b/BooksSimilarity/run.py
@@ -1,5 +1,5 @@
 from prepare_texts import get_texts, read, preprocess, stemming
-from words_occurrences import get_dict, bows, most_common
+from words_occurrences import get_dict, bows, most_common, tf_idf
 
 
 def discover_similar_books():
@@ -22,8 +22,11 @@ def discover_similar_books():
     bags_of_words = bows(stems_dict, stemmed)
     # print(bags_of_words[0])
 
-    df = most_common(0, bags_of_words, stemmed)
-    print(df)
+    common_words_0 = most_common(0, bags_of_words, stemmed)
+    print(common_words_0)
+
+    books_similarities = tf_idf(bags_of_words, titles)
+    print(books_similarities)
 
 
 if __name__ == '__main__':
diff --git a/BooksSimilarity/words_occurrences.py b/BooksSimilarity/words_occurrences.py
@@ -1,4 +1,5 @@
-from gensim import corpora
+from gensim import corpora, similarities
+from gensim.models import TfidfModel
 import pandas as pd
 
 
@@ -19,3 +20,10 @@ def most_common(book_ind, bag_of_words, stems):
     occurences.insert(2, 'tokens', tokens)
     occ_sorted = occurences.sort_values(by=['occurences'], ascending=False, inplace=False)
     return occ_sorted
+
+
+def tf_idf(bag_of_words, titles):
+    model = TfidfModel(bag_of_words)
+    similar = similarities.MatrixSimilarity(model[bag_of_words])
+    similar_df = pd.DataFrame(similar, index=titles, columns=titles)
+    return similar_df