Merge branch 'main' into Apriori

trimmedjay · web-flow · commit 837ec2a9fd8d · 2024-11-06T09:11:24.000Z
diff --git a/CMakeLists.txt b/CMakeLists.txt
@@ -77,10 +77,15 @@ add_executable(NeuralNetwork tests/neural_network/NeuralNetworkTest.cpp)
 target_compile_definitions(NeuralNetwork PRIVATE TEST_NEURAL_NETWORK)
 target_link_libraries(NeuralNetwork cpp_ml_library)
 
+
 add_executable(Apriori tests/association/AprioriTest.cpp)
 target_compile_definitions(Apriori PRIVATE TEST_APRIORI)
 target_link_libraries(Apriori cpp_ml_library)
 
+add_executable(Eclat tests/association/EclatTest.cpp)
+target_compile_definitions(Eclat PRIVATE TEST_ECLAT)
+target_link_libraries(Eclat cpp_ml_library)
+
 # Register individual tests
 add_test(NAME LogisticRegressionTest COMMAND LogisticRegressionTest)
 add_test(NAME PolynomialRegressionTest COMMAND PolynomialRegressionTest)
@@ -96,6 +101,7 @@ add_test(NAME HierarchicalClustering COMMAND HierarchicalClustering)
 add_test(NAME SupportVectorRegression COMMAND SupportVectorRegression)
 add_test(NAME NeuralNetwork COMMAND NeuralNetwork)
 add_test(NAME Apriori COMMAND Apriori)
+add_test(NAME Eclat COMMAND Eclat)
 
 
 # Add example executables if BUILD_EXAMPLES is ON
@@ -137,6 +143,9 @@ if(BUILD_EXAMPLES)
             target_compile_definitions(${EXAMPLE_TARGET} PRIVATE TEST_NEURAL_NETWORK)
         elseif(EXAMPLE_NAME STREQUAL "AprioriExample")
             target_compile_definitions(${EXAMPLE_TARGET} PRIVATE TEST_APRIORI)
+        elseif(EXAMPLE_NAME STREQUAL "EclatExample")
+            target_compile_definitions(${EXAMPLE_TARGET} PRIVATE TEST_ECLAT)
+
         endif()
     endforeach()
 endif()
diff --git a/examples/EclatExample.cpp b/examples/EclatExample.cpp
@@ -0,0 +1,44 @@
+#include "../ml_library_include/ml/association/Eclat.hpp"
+#include <iostream>
+
+void testEclat() {
+    // Sample transactions
+    std::vector<std::vector<int>> transactions = {
+        {1, 2, 5},
+        {2, 4},
+        {2, 3},
+        {1, 2, 4},
+        {1, 3},
+        {2, 3},
+        {1, 3},
+        {1, 2, 3, 5},
+        {1, 2, 3}
+    };
+
+    // Minimum support threshold (e.g., 22% of total transactions)
+    double min_support = 0.22;
+
+    // Create Eclat object
+    Eclat eclat(min_support);
+
+    // Run Eclat algorithm
+    std::vector<std::vector<int>> frequent_itemsets = eclat.run(transactions);
+
+    // Get support counts
+    auto support_counts = eclat.get_support_counts();
+
+    // Display frequent itemsets and their support counts
+    std::cout << "Frequent Itemsets:\n";
+    for (const auto& itemset : frequent_itemsets) {
+        std::cout << "Itemset: { ";
+        for (int item : itemset) {
+            std::cout << item << " ";
+        }
+        std::cout << "} - Support: " << support_counts.at(itemset) << "\n";
+    }
+}
+
+int main() {
+    testEclat();
+    return 0;
+}
diff --git a/ml_library_include/ml/association/Eclat.hpp b/ml_library_include/ml/association/Eclat.hpp
@@ -0,0 +1,159 @@
+#ifndef ECLAT_HPP
+#define ECLAT_HPP
+
+#include <map>
+#include <vector>
+#include <algorithm>
+#include <iostream>
+#include <string>
+#include <cmath>
+#include <stdexcept>
+
+/**
+ * @file Eclat.hpp
+ * @brief Optimized Implementation of the Eclat algorithm for frequent itemset mining.
+ */
+
+/**
+ * @class Eclat
+ * @brief Class to perform frequent itemset mining using the Eclat algorithm.
+ */
+class Eclat {
+public:
+    /**
+     * @brief Constructor for the Eclat class.
+     * @param min_support Minimum support threshold (as a fraction between 0 and 1).
+     */
+    Eclat(double min_support);
+
+    /**
+     * @brief Runs the Eclat algorithm on the provided dataset.
+     * @param transactions A vector of transactions, each transaction is a vector of items.
+     * @return A vector of frequent itemsets, where each itemset is represented as a vector of items.
+     */
+    std::vector<std::vector<int>> run(const std::vector<std::vector<int>>& transactions);
+
+    /**
+     * @brief Gets the support counts for all frequent itemsets found.
+     * @return A map where keys are itemsets (as vectors) and values are support counts.
+     */
+    std::map<std::vector<int>, int> get_support_counts() const;
+
+private:
+    /**
+     * @brief Recursively mines frequent itemsets using the Eclat algorithm.
+     * @param prefix The current itemset prefix.
+     * @param items A vector of items to consider.
+     * @param tid_sets A map from items to their transaction ID vectors.
+     */
+    void eclat_recursive(const std::vector<int>& prefix,
+                         const std::vector<int>& items,
+                         const std::map<int, std::vector<int>>& tid_sets);
+
+    double min_support; ///< Minimum support threshold.
+    int min_support_count; ///< Minimum support count (absolute number of transactions).
+    int total_transactions; ///< Total number of transactions.
+    std::map<std::vector<int>, int> support_counts; ///< Support counts for itemsets.
+};
+
+Eclat::Eclat(double min_support)
+    : min_support(min_support), min_support_count(0), total_transactions(0) {
+    if (min_support <= 0.0 || min_support > 1.0) {
+        throw std::invalid_argument("min_support must be between 0 and 1.");
+    }
+}
+
+std::vector<std::vector<int>> Eclat::run(const std::vector<std::vector<int>>& transactions) {
+    total_transactions = static_cast<int>(transactions.size());
+    min_support_count = static_cast<int>(std::ceil(min_support * total_transactions));
+
+    // Map each item to its TID vector
+    std::map<int, std::vector<int>> item_tidsets;
+    for (int tid = 0; tid < total_transactions; ++tid) {
+        for (int item : transactions[tid]) {
+            item_tidsets[item].push_back(tid);
+        }
+    }
+
+    // Sort TID vectors
+    for (auto& [item, tids] : item_tidsets) {
+        std::sort(tids.begin(), tids.end());
+    }
+
+    // Filter items that meet the minimum support
+    std::vector<int> frequent_items;
+    for (const auto& [item, tidset] : item_tidsets) {
+        if (static_cast<int>(tidset.size()) >= min_support_count) {
+            frequent_items.push_back(item);
+        }
+    }
+
+    // Sort items for consistent order
+    std::sort(frequent_items.begin(), frequent_items.end());
+
+    // Initialize support counts for single items
+    for (int item : frequent_items) {
+        std::vector<int> itemset = {item};
+        support_counts[itemset] = static_cast<int>(item_tidsets[item].size());
+    }
+
+    // Start recursive mining
+    eclat_recursive({}, frequent_items, item_tidsets);
+
+    // Collect frequent itemsets from support counts
+    std::vector<std::vector<int>> frequent_itemsets;
+    for (const auto& [itemset, count] : support_counts) {
+        if (count >= min_support_count) {
+            frequent_itemsets.push_back(itemset);
+        }
+    }
+
+    return frequent_itemsets;
+}
+
+void Eclat::eclat_recursive(const std::vector<int>& prefix,
+                            const std::vector<int>& items,
+                            const std::map<int, std::vector<int>>& tid_sets) {
+    size_t n = items.size();
+    for (size_t i = 0; i < n; ++i) {
+        int item = items[i];
+        std::vector<int> new_prefix = prefix;
+        new_prefix.push_back(item);
+
+        // Update support counts
+        int support = static_cast<int>(tid_sets.at(item).size());
+        support_counts[new_prefix] = support;
+
+        // Generate new combinations
+        std::vector<int> remaining_items;
+        std::map<int, std::vector<int>> new_tid_sets;
+
+        for (size_t j = i + 1; j < n; ++j) {
+            int next_item = items[j];
+
+            // Intersect TID sets
+            std::vector<int> intersect_tid_set;
+            const auto& tid_set1 = tid_sets.at(item);
+            const auto& tid_set2 = tid_sets.at(next_item);
+            std::set_intersection(tid_set1.begin(), tid_set1.end(),
+                                  tid_set2.begin(), tid_set2.end(),
+                                  std::back_inserter(intersect_tid_set));
+
+            if (static_cast<int>(intersect_tid_set.size()) >= min_support_count) {
+                remaining_items.push_back(next_item);
+                new_tid_sets[next_item] = std::move(intersect_tid_set);
+            }
+        }
+
+        // Recursive call
+        if (!remaining_items.empty()) {
+            eclat_recursive(new_prefix, remaining_items, new_tid_sets);
+        }
+    }
+}
+
+std::map<std::vector<int>, int> Eclat::get_support_counts() const {
+    return support_counts;
+}
+
+#endif // ECLAT_HPP
diff --git a/ml_library_include/ml/regression/MultiLinearRegression.hpp b/ml_library_include/ml/regression/MultiLinearRegression.hpp
@@ -8,11 +8,11 @@
 
 /**
  * @file MultilinearRegression.hpp
- * @brief A simple implementation of Multi Linear Regression.
+ * @brief A simple implementation of Multilinear Regression with improvements.
  */
 
 /**
- * @class Multilinear Regression
+ * @class MultilinearRegression
  * @brief A class that implements Multilinear Regression for predicting values
  * based on multiple features.
  */
@@ -23,9 +23,10 @@ class MultilinearRegression {
      *
      * @param learningRate The rate at which the model learns (default 0.01).
      * @param iterations The number of iterations for the gradient descent (default 1000).
+     * @param regularizationParameter The regularization parameter lambda (default 0.0, no regularization).
      */
-    MultilinearRegression(double learningRate = 0.01, int iterations = 1000)
-        : learningRate(learningRate), iterations(iterations) {}
+    MultilinearRegression(double learningRate = 0.01, int iterations = 1000, double regularizationParameter = 0.0)
+        : learningRate_(learningRate), iterations_(iterations), lambda_(regularizationParameter) {}
 
     /**
      * @brief Trains the Multilinear Regression model on the provided data.
@@ -39,10 +40,23 @@ class MultilinearRegression {
             throw std::invalid_argument("Features and target data sizes do not match.");
         }
 
-        int numFeatures = features[0].size();
-        weights.resize(numFeatures, 0.0);  // Initialize weights
+        size_t numSamples = features.size();
+        size_t numFeatures = features[0].size();
 
-        for (int i = 0; i < iterations; ++i) {
+        // Validate that all feature vectors have the same size
+        for (const auto& feature : features) {
+            if (feature.size() != numFeatures) {
+                throw std::invalid_argument("All feature vectors must have the same number of elements.");
+            }
+        }
+
+        // Initialize weights and bias if they haven't been initialized yet
+        if (weights_.empty()) {
+            weights_.resize(numFeatures, 0.0);
+            bias_ = 0.0;
+        }
+
+        for (int iter = 0; iter < iterations_; ++iter) {
             gradientDescentStep(features, target);
         }
     }
@@ -54,13 +68,38 @@ class MultilinearRegression {
      * @return The predicted value.
      */
     double predict(const std::vector<double>& features) const {
-        return std::inner_product(weights.begin(), weights.end(), features.begin(), 0.0);
+        if (features.size() != weights_.size()) {
+            throw std::invalid_argument("Feature vector size does not match the number of weights.");
+        }
+        double result = std::inner_product(weights_.begin(), weights_.end(), features.begin(), 0.0);
+        result += bias_;
+        return result;
+    }
+
+    /**
+     * @brief Gets the current weights of the model.
+     *
+     * @return A vector containing the weights.
+     */
+    std::vector<double> getWeights() const {
+        return weights_;
+    }
+
+    /**
+     * @brief Gets the current bias of the model.
+     *
+     * @return The bias term.
+     */
+    double getBias() const {
+        return bias_;
     }
 
 private:
-    double learningRate;            ///< The learning rate for gradient descent.
-    int iterations;                 ///< The number of iterations for training.
-    std::vector<double> weights;    ///< The weights for the model.
+    double learningRate_;            ///< The learning rate for gradient descent.
+    int iterations_;                 ///< The number of iterations for training.
+    double lambda_;                  ///< Regularization parameter (lambda).
+    std::vector<double> weights_;    ///< The weights for the model.
+    double bias_ = 0.0;              ///< Bias term.
 
     /**
      * @brief Performs a single iteration of gradient descent to update the model weights.
@@ -69,20 +108,29 @@ class MultilinearRegression {
      * @param target A vector containing the target values.
      */
     void gradientDescentStep(const std::vector<std::vector<double>>& features, const std::vector<double>& target) {
-        std::vector<double> gradients(weights.size(), 0.0);
+        size_t numSamples = features.size();
+        size_t numFeatures = weights_.size();
+
+        std::vector<double> gradients(numFeatures, 0.0);
+        double biasGradient = 0.0;
 
-        for (size_t i = 0; i < features.size(); ++i) {
+        for (size_t i = 0; i < numSamples; ++i) {
             double prediction = predict(features[i]);
             double error = prediction - target[i];
 
-            for (size_t j = 0; j < weights.size(); ++j) {
-                gradients[j] += error * features[i][j];
+            for (size_t j = 0; j < numFeatures; ++j) {
+                gradients[j] += (error * features[i][j]) + (lambda_ * weights_[j]);
             }
+
+            biasGradient += error;
         }
 
-        for (size_t j = 0; j < weights.size(); ++j) {
-            weights[j] -= (learningRate / features.size()) * gradients[j];
+        // Update weights and bias
+        for (size_t j = 0; j < numFeatures; ++j) {
+            weights_[j] -= (learningRate_ / numSamples) * gradients[j];
         }
+
+        bias_ -= (learningRate_ / numSamples) * biasGradient;
     }
 };
 
diff --git a/ml_library_include/ml/regression/PolynomialRegression.hpp b/ml_library_include/ml/regression/PolynomialRegression.hpp
diff --git a/tests/association/EclatTest.cpp b/tests/association/EclatTest.cpp