using of constant memory and pinned memory

KevinMaggi · KevinMaggi · commit 221abf1398d7 · 2021-11-03T23:40:40.000+01:00
diff --git a/CMakeLists.txt b/CMakeLists.txt
@@ -3,7 +3,7 @@ project(Image_Kernel_Processing_CUDA CUDA)
 
 set(CMAKE_CUDA_STANDARD 14)
 
-add_executable(Image_Kernel_Processing_CUDA main.cu Image.h Image.cu Utils.h Utils.cu stb_image.h stb_image_write.h Kernel.cu Kernel.h Processing.cu Processing.h CUDA_check.h)
+add_executable(Image_Kernel_Processing_CUDA main.cu Image.h Image.cu Utils.h Utils.cu stb_image.h stb_image_write.h Kernel.cu Kernel.h Processing.cu Processing.h CUDA_check.h Parameters.h)
 
 set_target_properties(Image_Kernel_Processing_CUDA PROPERTIES
         CUDA_SEPARABLE_COMPILATION ON)
diff --git a/Image.cu b/Image.cu
@@ -4,6 +4,10 @@
 
 #include "Image.h"
 #include <stdlib.h>
+#include "Parameters.h"
+#include "CUDA_check.h"
+
+#define CUDA_CHECK_RETURN(value) CheckCudaErrorAux(__FILE__,__LINE__, #value, value)
 
 Image *Image_new(int width, int height, int channels, unsigned char *data) {
     Image *img = (Image *) malloc(sizeof(Image));
@@ -13,19 +17,37 @@ Image *Image_new(int width, int height, int channels, unsigned char *data) {
     Image_setChannels(img, channels);
     Image_setPitch(img, width * channels);
 
+#ifdef PINNED_MEMORY
+    unsigned char *dataPinned;
+    CUDA_CHECK_RETURN(cudaMallocHost((void**)&dataPinned, sizeof(unsigned char) * width * height * channels));
+    memcpy(dataPinned, data, sizeof(unsigned char) * width * height * channels);
+    Image_setData(img, dataPinned);
+#else
     Image_setData(img, data);
+#endif
+
     return img;
 }
 
 Image *Image_new_empty(int width, int height, int channels) {
+#ifdef PINNED_MEMORY
+    unsigned char *data;
+    CUDA_CHECK_RETURN(cudaMallocHost((void**)&data, sizeof(unsigned char) * width * height * channels));
+#else
     unsigned char *data = (unsigned char *) malloc(sizeof(unsigned char) * width * height * channels);
+#endif
+
     return Image_new(width, height, channels, data);
 }
 
 void Image_delete(Image *img) {
     if (img != NULL) {
         if (Image_getData(img) != NULL) {
+#ifdef PINNED_MEMORY
+            CUDA_CHECK_RETURN(cudaFreeHost(Image_getData(img)));
+#else
             free(Image_getData(img));
+#endif
         }
         free(img);
     }
diff --git a/Parameters.h b/Parameters.h
@@ -0,0 +1,37 @@
+//
+// Created by kevin on 03/11/21.
+//
+
+#ifndef IMAGE_KERNEL_PROCESSING_CUDA_PARAMETERS_H
+#define IMAGE_KERNEL_PROCESSING_CUDA_PARAMETERS_H
+
+#define CONSTANT_MEMORY
+//#define SHARED_MEMORY
+//#define PINNED_MEMORY
+
+/**
+ * Min value of kernel dimension to test (MUST be odd)
+ */
+const int KERNEL_DIM_MIN = 19;
+/**
+ * Max value of kernel dimension to test (MUST be odd)
+ */
+const int KERNEL_DIM_MAX = 19;
+/**
+ * Step on values of kernel dimension (MUST be even)
+ */
+const int KERNEL_DIM_STEP = 6;
+/**
+ * Image dimension to test: 4K, 5K, 6K, 7K or 8K
+ */
+const char IMAGE_DIMENSION[] = "5K";
+/**
+ * Number of image of each dimension to test (max 3)
+ */
+const int IMAGE_QUANTITY = 3;
+/**
+ * Number of times to test each image
+ */
+const int REPETITIONS = 1;
+
+#endif //IMAGE_KERNEL_PROCESSING_CUDA_PARAMETERS_H
diff --git a/Processing.cu b/Processing.cu
@@ -4,9 +4,12 @@
 
 #include "Processing.h"
 #include "CUDA_check.h"
+#include "Parameters.h"
 
 #define CUDA_CHECK_RETURN(value) CheckCudaErrorAux(__FILE__,__LINE__, #value, value)
+#define BLOCK_SIZE 32
 
+#if !defined CONSTANT_MEMORY && !defined SHARED_MEMORY
 __global__ void
 kernel(unsigned char *input, unsigned long long int *krn, unsigned char *output, int height, int width, int channels,
        int size, double weight) {
@@ -66,8 +69,8 @@ Image *process(Image *img, Kernel *krn) {
                                  sizeof(unsigned long long int) * krn->size * krn->size,
                                  cudaMemcpyHostToDevice));
 
-    dim3 blockDim(32, 32);
-    dim3 gridDim(ceil(((float) img->width) / blockDim.x), ceil(((float) img->height) / blockDim.y));
+    dim3 blockDim(BLOCK_SIZE, BLOCK_SIZE);
+    dim3 gridDim(ceil(((float) img->width) / BLOCK_SIZE), ceil(((float) img->height) / BLOCK_SIZE));
 
     kernel<<<gridDim, blockDim>>>(d_input, d_krn, d_output, img->height, img->width, img->channels, krn->size,
                                   krn->weight);
@@ -82,4 +85,82 @@ Image *process(Image *img, Kernel *krn) {
     cudaFree(d_output);
 
     return res;
-}
+}
+#endif
+
+#if defined CONSTANT_MEMORY && !defined SHARED_MEMORY
+__constant__ unsigned long long int KERNEL[25 * 25];
+
+__global__ void
+kernelConstant(unsigned char *input, unsigned char *output, int height, int width, int channels,
+               int size, double weight) {
+    int iy = blockIdx.y * blockDim.y + threadIdx.y;
+    int ix = blockIdx.x * blockDim.x + threadIdx.x;
+
+    if (iy < height && ix < width) {
+        int kCenter = size / 2;
+        int dx, dy, px, py;
+
+        for (int ic = 0; ic < channels; ic++) {
+            // vars "i?" identify image's element
+            unsigned long long int newVal = 0;
+            for (int ky = 0; ky < size; ky++) {
+                for (int kx = 0; kx < size; kx++) {
+                    // vars "k?" identify kernel's element
+                    dx = kx - kCenter;
+                    dy = ky - kCenter;
+                    // vars "d?" identify kernel's element's position with respect to the center
+                    px = ix + dx;
+                    py = iy + dy;
+                    // vars "p?" identify the pixel to combine with kernel's element
+
+                    if (px < 0 || px >= width) {      // edge handling: extend
+                        px = (px < 0) ? 0 : (width - 1);
+                    }
+                    if (py < 0 || py >= height) {
+                        py = (py < 0) ? 0 : (height - 1);
+                    }
+
+                    newVal += (unsigned long long int) input[py * width * channels + px * channels + ic] *
+                              KERNEL[ky * size + kx];
+                }
+            }
+            newVal = (unsigned long long int) ((long double) newVal * weight);
+            output[iy * width * channels + ix * channels + ic] = (unsigned char) newVal;
+        }
+    }
+}
+
+Image *process(Image *img, Kernel *krn) {
+    Image *res = Image_new_empty(img->width, img->height, img->channels);
+
+    unsigned char *d_input;
+    unsigned char *d_output;
+
+    CUDA_CHECK_RETURN(cudaMalloc((void **) &d_input, sizeof(unsigned char) * img->width * img->height * img->channels));
+    CUDA_CHECK_RETURN(
+            cudaMalloc((void **) &d_output, sizeof(unsigned char) * img->width * img->height * img->channels));
+
+    CUDA_CHECK_RETURN(cudaMemcpy((void *) d_input, (void *) img->data,
+                                 sizeof(unsigned char) * img->width * img->height * img->channels,
+                                 cudaMemcpyHostToDevice));
+    CUDA_CHECK_RETURN(cudaMemcpyToSymbol(KERNEL, (void *) krn->coefficients,
+                                         sizeof(unsigned long long int) * krn->size * krn->size));
+
+    dim3 blockDim(BLOCK_SIZE, BLOCK_SIZE);
+    dim3 gridDim(ceil(((float) img->width) / BLOCK_SIZE), ceil(((float) img->height) / BLOCK_SIZE));
+
+    kernelConstant<<<gridDim, blockDim>>>(d_input, d_output, img->height, img->width, img->channels, krn->size,
+                                          krn->weight);
+    cudaDeviceSynchronize();
+
+    CUDA_CHECK_RETURN(cudaMemcpy((void *) res->data, (void *) d_output,
+                                 sizeof(unsigned char) * img->width * img->height * img->channels,
+                                 cudaMemcpyDeviceToHost));
+
+    cudaFree(d_input);
+    cudaFree(d_output);
+
+    return res;
+}
+#endif
diff --git a/main.cu b/main.cu
@@ -6,31 +6,7 @@
 #include "Utils.h"
 #include "Kernel.h"
 #include "Processing.h"
-
-/**
- * Min value of kernel dimension to test (MUST be odd)
- */
-const int KERNEL_DIM_MIN = 25;
-/**
- * Max value of kernel dimension to test (MUST be odd)
- */
-const int KERNEL_DIM_MAX = 25;
-/**
- * Step on values of kernel dimension (MUST be even)
- */
-const int KERNEL_DIM_STEP = 6;
-/**
- * Image dimension to test: 4K, 5K, 6K, 7K or 8K
- */
-const char IMAGE_DIMENSION[] = "4K";
-/**
- * Number of image of each dimension to test (max 3)
- */
-const int IMAGE_QUANTITY = 3;
-/**
- * Number of times to test each image
- */
-const int REPETITIONS = 1;
+#include "Parameters.h"
 
 void saveTextFile(int *kDim, double *times, char *filename) {
     FILE *file = fopen(filename, "w");