RobyRiyanto
diff --git a/‎Customer_Segmentation_Part1.ipynb
Lines changed: 809 additions & 0 deletions b/‎Customer_Segmentation_Part1.ipynb
Lines changed: 809 additions & 0 deletions
diff --git a/‎Customer_Segmentation_Part2.ipynb
Lines changed: 1858 additions & 0 deletions b/‎Customer_Segmentation_Part2.ipynb
Lines changed: 1858 additions & 0 deletions
diff --git a/‎cluster.pkl
1.59 KB b/‎cluster.pkl
1.59 KB
diff --git a/‎modeling.py
Lines changed: 109 additions & 0 deletions b/‎modeling.py
Lines changed: 109 additions & 0 deletions
diff --git a/‎plot_kategorikal_data.png
37 KB b/‎plot_kategorikal_data.png
37 KB
diff --git a/‎plot_numerik_data.png
61.5 KB b/‎plot_numerik_data.png
61.5 KB
diff --git a/‎prepare_data.py
Lines changed: 129 additions & 0 deletions b/‎prepare_data.py
Lines changed: 129 additions & 0 deletions
@@ -0,0 +1,109 @@
+from kmodes.kmodes import KModes  
+from kmodes.kprototypes import KPrototypes  
+import pandas as pd
+import seaborn as sns
+import matplotlib.pyplot as plt
+import pickle
+
+class Model_segmen:
+    def __init__(self, df_model):
+        self.df_model = df_model
+
+    def find_optimalCluster(self): # Mencari Jumlah Cluster yang Optimal
+        # Melakukan Iterasi untuk Mendapatkan nilai Cost  
+        cost = {}  
+        for k in range(2,10):  
+            kproto = KPrototypes(n_clusters = k, random_state = 75)  
+            kproto.fit_predict(self.df_model, categorical = [0,1,2])  
+            cost[k]= kproto.cost_
+        
+        # Memvisualisasikan Elbow Plot  
+        sns.pointplot(x = list(cost.keys()), y = list(cost.values()))  
+        plt.show()
+
+    def making_model(self):
+        kproto = KPrototypes ( n_clusters = 5, random_state = 75)  
+        kproto = kproto.fit(self.df_model, categorical=[0,1,2])  
+        
+        #Save Model  
+        pickle.dump(kproto, open('cluster.pkl', 'wb'))
+
+        self.kproto = kproto
+
+    def use_model(self):
+        df = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/customer_segments.txt", sep="\t") 
+        # Menentukan segmen tiap pelanggan    
+        clusters =  self.kproto.predict(self.df_model, categorical=[0,1,2])    
+        print('segmen pelanggan: {}\n'.format(clusters))    
+            
+        # Menggabungkan data awal dan segmen pelanggan    
+        df_final = df.copy()    
+        df_final['cluster'] = clusters
+        print(df_final.head())
+
+        self.df_final = df_final
+
+    def Showing_EachCustomerCluster(self):
+        # Menampilkan data pelanggan berdasarkan cluster nya  
+        for i in range (0,5):  
+            print('\nPelanggan cluster: {}\n'.format(i))
+            print(self.df_final[self.df_final['cluster'] == i])
+
+    def VisualizationClusteringResults_BoxPlot(self):
+        # Data Numerical
+        kolom_numerik = ['Umur','NilaiBelanjaSetahun']  
+        
+        for i in kolom_numerik:  
+            plt.figure(figsize=(6,4))  
+            ax = sns.boxplot(x = 'cluster',y = i, data = self.df_final)  
+            plt. title('\nBox Plot {}\n'.format(i), fontsize=12)  
+            plt.show()
+
+    def VisualizationClusteringResults_CountPlot(self):
+        # Data Kategorikal  
+        kolom_categorical = ['Jenis Kelamin','Profesi','Tipe Residen']  
+        
+        for i in kolom_categorical:  
+            plt.figure(figsize=(6,4))  
+            ax = sns.countplot(data = self.df_final, x = 'cluster', hue = i )  
+            plt.title('\nCount Plot {}\n'.format(i), fontsize=12)  
+            ax. legend (loc="upper center")  
+            for p in ax.patches:  
+                ax.annotate(format(p.get_height(), '.0f'),  
+                            (p.get_x() + p.get_width() / 2., p.get_height()),  
+                            ha = 'center',  
+                            va = 'center',  
+                            xytext = (0, 10),  
+                            textcoords = 'offset points')  
+            
+            sns.despine(right=True, top = True, left = True)  
+            ax.axes.yaxis.set_visible(False)  
+            plt.show()
+
+    def NamingCluster(self):
+        # Mapping nama kolom  
+        self.df_final['segmen'] = self.df_final['cluster'].map({  
+            0: 'Diamond Young Member',  
+            1: 'Diamond Senior Member',  
+            2: 'Silver Member',  
+            3: 'Gold Young Member',  
+            4: 'Gold Senior Member'  
+        })
+
+        print(self.df_final.info())
+        print(self.df_final.head())
+
+        # Save to CSV
+        self.df_final.to_csv (r'data\df-customer-segmentation-final.csv', index = False)
+        print('\nDataframe Sudah Tersimpan!')
+
+df_model = pd.read_csv('https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/df-customer-segmentation.csv')
+
+app = Model_segmen(df_model)
+# app.find_optimalCluster()
+app.making_model()
+app.use_model()
+app.Showing_EachCustomerCluster()
+# app.VisualizationClusteringResults_BoxPlot()
+# app.VisualizationClusteringResults_CountPlot()
+app.NamingCluster()
@@ -0,0 +1,129 @@
+import pandas as pd
+import matplotlib.pyplot as plt
+import seaborn as sns
+from sklearn.preprocessing import LabelEncoder
+from kmodes.kmodes import KModes
+from kmodes.kprototypes import KPrototypes
+import pickle
+from pathlib import Path
+import matplotlib.pyplot as plt
+import seaborn as sns
+from sklearn.preprocessing import StandardScaler
+
+class Cust_segment:
+    def __init__(self):
+        self.data = data
+
+    def read_data(self):
+        # import dataset  
+        df = pd.read_csv(data, sep="\t")  
+        
+        # menampilkan data  
+        print(df.head())
+
+        # Menampilkan informasi data  
+        print(df.info())
+
+        return df
+
+    def eksplorasi_dataNumerik(self, df):
+        sns.set(style='white')
+        plt.clf()
+        
+        # Fungsi untuk membuat plot  
+        def observasi_num(features):  
+            fig, axs = plt.subplots(2, 2, figsize=(10, 9))
+            for i, kol in enumerate(features):
+                sns.boxplot(df[kol], ax = axs[i][0])
+                sns.distplot(df[kol], ax = axs[i][1])
+                axs[i][0].set_title('mean = %.2f\n median = %.2f\n std = %.2f'%(df[kol].mean(), df[kol].median(), df[kol].std()))
+            plt.setp(axs)
+            plt.tight_layout()
+            plt.show()  
+
+        # Memanggil fungsi untuk membuat Plot untuk data numerik  
+        kolom_numerik = ['Umur','NilaiBelanjaSetahun'] 
+        observasi_num(kolom_numerik)
+
+    def eksplorasi_dataKategorikal(self, df):
+        sns.set(style='white')
+        plt.clf()
+        
+        # Menyiapkan kolom kategorikal  
+        kolom_kategorikal = ['Jenis Kelamin','Profesi','Tipe Residen']  
+
+        # Membuat canvas
+        fig, axs = plt.subplots(3,1,figsize=(7,10)) 
+
+        # Membuat plot untuk setiap kolom kategorikal  
+        for i, kol in enumerate(kolom_kategorikal):  
+            # Membuat Plot
+            sns.countplot(df[kol], order = df[kol].value_counts().index, ax = axs[i])  
+            axs[i].set_title('\nCount Plot %s\n'%(kol), fontsize=15)  
+            
+            # Memberikan anotasi  
+            for p in axs[i].patches:  
+                axs[i].annotate(format(p.get_height(), '.0f'),  
+                                (p.get_x() + p.get_width() / 2., p.get_height()),  
+                                ha = 'center',  
+                                va = 'center',  
+                                xytext = (0, 10),  
+                                textcoords = 'offset points') 
+                
+            # Setting Plot  
+            sns.despine(right=True,top = True, left = True)  
+            axs[i].axes.yaxis.set_visible(False) 
+            plt.setp(axs[i])
+        #     plt.setp(ax)
+            plt.tight_layout()
+
+        # Tampilkan plot
+        plt.show()
+    
+    def preparation_data(self, df):
+        # Standarisasi Kolom Numerik
+        kolom_numerik = ['Umur','NilaiBelanjaSetahun']  
+        
+        # Statistik sebelum Standardisasi  
+        print('Statistik Sebelum Standardisasi\n')  
+        print(df[kolom_numerik].describe().round(1))
+
+        # Standardisasi  
+        df_std = StandardScaler().fit_transform(df[kolom_numerik])
+
+        # Membuat DataFrame  
+        df_std = pd.DataFrame(data=df_std, index=df.index, columns=df[kolom_numerik].columns)
+
+        # Menampilkan contoh isi data dan summary statistic
+        print('Contoh hasil standardisasi\n') 
+        print(df_std.head())
+        
+        print('Statistik hasil standardisasi\n')
+        print(df_std.describe().round(0))
+
+        # Konversi Kategorikal Data                
+        # Inisiasi nama kolom kategorikal  
+        kolom_kategorikal = ['Jenis Kelamin','Profesi','Tipe Residen']  
+        
+        # Membuat salinan data frame  
+        df_encode = df[kolom_kategorikal].copy()  
+        
+        # Melakukan labelEncoder untuk semua kolom kategorikal  
+        for col in kolom_kategorikal:  
+            df_encode[col]= LabelEncoder().fit_transform(df_encode[col])
+            
+        # Menampilkan data  
+        print(df_encode.head())
+        
+        # Menggabungkan data frame
+        df_model = df_encode.merge(df_std, left_index = True, right_index=True, how= 'left')  
+        print (df_model.head())
+
+
+data = "https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/customer_segments.txt"
+
+app = Cust_segment()
+data_raw = app.read_data()
+app.eksplorasi_dataNumerik(data_raw)
+app.eksplorasi_dataKategorikal(data_raw)
+final_data = app.preparation_data(data_raw)