Naplues · Nov 23, 2021
diff --git a/‎README.md
+8-2 b/‎README.md
+8-2
diff --git a/‎main.py
+24-4 b/‎main.py
+24-4
diff --git a/‎src/exps/RQ1.py
+57-42 b/‎src/exps/RQ1.py
+57-42
diff --git a/‎src/exps/RQ2.py
+2 b/‎src/exps/RQ2.py
+2
diff --git a/‎src/models/base_model.py
+3-2 b/‎src/models/base_model.py
+3-2
@@ -1,2 +1,8 @@
-# CLDP
-Code Line-level Defect Prediction
+# CLBI
+Code Line-level Bugginess Identification.
+
+
+
+
+### Script Command
+python main.py [model_name]
@@ -1,6 +1,6 @@
 # -*- coding:utf-8 -*-
 import warnings
-
+import sys
 from src.models.tools import *
 from src.models.explain import *
 from src.models.glance import *
@@ -10,6 +10,14 @@
 warnings.filterwarnings('ignore')
 simplefilter(action='ignore', category=FutureWarning)
 
+# The model name and its corresponding python class implementation
+MODEL_DICT = {'TMI-LR': TMI_LR, 'TMI-SVM': TMI_SVM, 'TMI-MNB': TMI_MNB, 'TMI-DT': TMI_DT, 'TMI-RF': TMI_RF,
+              'LineDP': LineDP,
+              'PMD': PMD, 'CheckStyle': CheckStyle,
+              'NGram': NGram, 'NGram-C': NGram_C,
+              'Glance-EA': Glance_EA, 'Glance-MD': Glance_MD, 'Glance-LR': Glance_LR,
+              }
+
 
 # ========================= Run RQ1 experiments =================================
 def run_cross_release_predict(prediction_model):
@@ -26,7 +34,7 @@ def run_cross_release_predict(prediction_model):
             model.analyze_line_level_result()
 
 
-if __name__ == '__main__':
+def run_default():
     # ======================= MI-based approaches =============================
     # run_cross_release_predict(TMI_LR)
     # run_cross_release_predict(TMI_SVM)
@@ -46,6 +54,18 @@ def run_cross_release_predict(prediction_model):
     # ======================= CM-based approaches =============================
     # run_cross_release_predict(Glance_EA)
     # run_cross_release_predict(Glance_MD)
-    run_cross_release_predict(Glance2)
+    # run_cross_release_predict(Glance_Resort)
+    run_cross_release_predict(Glance_LR)
+
 
-    pass
+def parse_args():
+    # 没有参数列表,执行当前程序中定义的方法
+    if len(sys.argv) == 1:
+        run_default()
+    else:
+        model_name = sys.argv[1]
+        run_cross_release_predict(MODEL_DICT[model_name])
+
+
+if __name__ == '__main__':
+    parse_args()
@@ -1,68 +1,83 @@
 # -*- coding: utf-8 -*-
 
 import sys
-from statistics import median, mean
-
-sys.path.append('C:/Users/gzq-712/Desktop/Git/CLDP/')
 
+import warnings
 import pandas as pd
 from pandas import DataFrame
+
+sys.path.append('C:/Users/gzq-712/Desktop/Git/CLDP/')
 from src.models.glance import *
+from statistics import *
+
+# Ignore warning information
+warnings.filterwarnings('ignore')
 
+line_level_thresholds = [.05, .10, .15, .20, .25, .30, .35, .40, .45, .50]
+indicators = ['recall', 'far', 'ce', 'd2h', 'mcc', 'ifa', 'recall_20', 'ratio']
 
-def run_Glance(prediction_model, line_level_threshold, effort_aware):
-    for project, releases in get_project_releases_dict().items():
-        print(f'========== {prediction_model.model_name} CR PREDICTION for {project} =================='[:60])
-        for i in range(len(releases) - 1):
-            # 1. Loading data. train data index = i, test data index = i + 1
-            model = prediction_model(releases[i], releases[i + 1],
-                                     line_level_threshold=line_level_threshold,
-                                     effort_aware=effort_aware,
-                                     test=True)
+output_path = '../../result/RQ1/'
+make_path(output_path)
 
-            model.file_level_prediction()
-            model.analyze_file_level_result()
 
-            model.line_level_prediction()
-            model.analyze_line_level_result()
+def select_model(file_level_classifier, line_level_threshold, train='', test=''):
+    if file_level_classifier == 'MD':
+        model = Glance_MD(train, test, line_threshold=line_level_threshold, test=True)
+    elif file_level_classifier == 'EA':
+        model = Glance_EA(train, test, line_threshold=line_level_threshold, test=True)
+    else:
+        model = Glance_LR(train, test, line_threshold=line_level_threshold, test=True)
+    return model
 
 
-def search_parameter(effort_aware=True):
-    line_level_thresholds = [.05, .10, .15, .20, .25, .30, .35, .40, ]
+def search_parameter_Glance(clf):
+    for threshold in line_level_thresholds:
+        for project, releases in get_project_releases_dict().items():
+            for i in range(len(releases) - 1):
+                # 1. Loading data. train data index = i, test data index = i + 1
+                model = select_model(clf, threshold, releases[i], releases[i + 1])
 
-    for threshold in line_level_thresholds[::-1]:
-        run_Glance(Glance, threshold, effort_aware)
+                print(f'========== {model.model_name} CR PREDICTION for {releases[i + 1]} =================='[:60])
+                model.file_level_prediction()
+                model.analyze_file_level_result()
 
+                model.line_level_prediction()
+                model.analyze_line_level_result()
 
-def test_parameter(effort_aware=True):
-    line_level_thresholds = [.05, .10, .15, .20, .25, .30, .35, .40, ]
 
-    data = dict()
-    names = list()
+def test_parameter(clf):
+    print(f'Glance {clf}')
+    # 水平展示的变化数据, 列名为与之
+    summary_data_horizontal, summary_data_vertical = list(), dict()
+    for indicator in indicators:
+        detail_data, column_names, mean_list = dict(), list(), list()
+        for threshold in line_level_thresholds:
+            model = select_model(clf, threshold)
+            column_names.append(model.model_name)
+            detail_data[model.model_name] = list(pd.read_csv(model.line_level_evaluation_file)[indicator])
 
-    mean_list = list()
-    for threshold in line_level_thresholds[::-1]:
-        m = Glance(line_level_threshold=threshold, effort_aware=effort_aware, test=True)
-        df = pd.read_csv(m.line_level_evaluation_file)
-        data[m.model_name] = list(df['d2h'])
-        names.append(m.model_name)
-        mean_list.append(mean(data[m.model_name]))
-    print(mean_list)
+            mean_list.append(round(mean(detail_data[model.model_name]), 3))
 
-    result = DataFrame(data, columns=names)
+        summary_data_horizontal.append(mean_list)
+        summary_data_vertical[indicator] = mean_list
 
-    if effort_aware:
-        result.to_csv(f'../../result/RQ1/RQ1-D2H-EA.csv', index=False)
-    else:
-        result.to_csv(f'../../result/RQ1/RQ1-D2H-MD.csv', index=False)
+        detail_result = DataFrame(detail_data, index=get_test_releases_list(), columns=column_names)
+
+        make_path(f'{output_path}RQ1-Glance-{clf}/')
+        detail_result.to_csv(f'{output_path}RQ1-Glance-{clf}/{indicator}.csv', index=True)
+
+    threshold_indices = ['5%', '10%', '15%', '20%', '25%', '30%', '35%', '40%', '45%', '50%', ]
+    summary_result = DataFrame(summary_data_horizontal, index=indicators, columns=threshold_indices)
+    summary_result.to_csv(f'{output_path}RQ1-summary-Glance-{clf}-horizontal.csv', index=True)
+    summary_result = DataFrame(summary_data_vertical, index=threshold_indices, columns=indicators)
+    summary_result.to_csv(f'{output_path}RQ1-summary-Glance-{clf}-vertical.csv', index=True)
 
 
 if __name__ == '__main__':
     #
-    # search_parameter(True)
-    # test_parameter(True)
-
-    search_parameter(False)
-    test_parameter(False)
+    file_level_classifiers = ['MD', 'EA', 'LR']
+    for classifier in file_level_classifiers:
+        # search_parameter_Glance(classifier)
+        test_parameter(classifier)
 
     pass
@@ -2,7 +2,9 @@
 from statistics import mean, median
 
 from pandas import DataFrame
+import sys
 
+sys.path.append('C:/Users/gzq-712/Desktop/Git/CLDP/')
 from src.models.explain import *
 from src.models.natural import *
 from src.models.tools import *
 
@@ -12,13 +12,14 @@
 
 
 class BaseModel(object):
-    threshold = 50
     model_name = 'BaseModel'  # need to be rewrite in subclass
 
-    def __init__(self, train_release: str = '', test_release: str = ''):
+    def __init__(self, train_release: str = '', test_release: str = '', test_result_path=''):
         # Specific the actual name of each folder or file
 
         self.result_path = f'{root_path}Result/{self.model_name}/'
+        if test_result_path != '':
+            self.result_path = test_result_path
         # folder path
         self.file_level_result_path = f'{self.result_path}file_result/'
         self.line_level_result_path = f'{self.result_path}line_result/'