Merge branch 'master1' into 130-release-candidate

mykolamelnykml · mykolamelnykml · commit cfe25a012f50 · 2020-05-27T07:33:39.000+03:00
diff --git a/jupyter/SparkOCRGreyBackground.ipynb b/jupyter/SparkOCRGreyBackground.ipynb
@@ -205,14 +205,14 @@
     "remove_objects.setMaxSizeObject(1000)\n",
     "remove_objects.setMinSizeObject(None)\n",
     "\n",
-    "# Run OCR for each region\n",
-    "ocr_corrected = ImageToText()\n",
+    "# Run tesseract OCR for each region\n",
+    "ocr_corrected = TesseractOcr()\n",
     "ocr_corrected.setInputCol(\"corrected_image\")\n",
     "ocr_corrected.setOutputCol(\"text_corrected\")\n",
     "ocr_corrected.setPositionsCol(\"positions_corrected\")\n",
     "ocr_corrected.setConfidenceThreshold(75)\n",
     "\n",
-    "ocr = ImageToText()\n",
+    "ocr = TesseractOcr()\n",
     "ocr.setInputCol(\"image\")\n",
     "ocr.setOutputCol(\"text\")\n",
     "\n",
@@ -535,4 +535,4 @@
  },
  "nbformat": 4,
  "nbformat_minor": 2
-}
+}
diff --git a/jupyter/SparkOCRS3AccesExample.ipynb b/jupyter/SparkOCRS3AccesExample.ipynb
@@ -216,8 +216,8 @@
     "binary_to_image = BinaryToImage()\n",
     "binary_to_image.setOutputCol(\"image\")\n",
     "\n",
-    "# Run OCR for each region\n",
-    "ocr = ImageToText()\n",
+    "# Run tesseract OCR for each region\n",
+    "ocr = TesseractOcr()\n",
     "ocr.setInputCol(\"image\")\n",
     "ocr.setOutputCol(\"text\")\n",
     "ocr.setIgnoreResolution(False)\n",
diff --git a/jupyter/SparkOCRremoveBackgroundNoise.ipynb b/jupyter/SparkOCRremoveBackgroundNoise.ipynb
@@ -207,8 +207,8 @@
     "remove_objects.setOutputCol(\"corrected_image\")\n",
     "remove_objects.setMinSizeFont(30)\n",
     "\n",
-    "# Run OCR for each region\n",
-    "ocr = ImageToText()\n",
+    "# Run tesseract OCR for each region\n",
+    "ocr = TesseractOcr()\n",
     "ocr.setInputCol(\"corrected_image\")\n",
     "ocr.setOutputCol(\"text\")\n",
     "# Path to the tessdata related to the OS and version\n",
@@ -647,4 +647,4 @@
  },
  "nbformat": 4,
  "nbformat_minor": 2
-}
+}
diff --git a/jupyter/SparkOCRremoveRackgroundNoiseAndDrawRegions.ipynb b/jupyter/SparkOCRremoveRackgroundNoiseAndDrawRegions.ipynb
@@ -202,15 +202,15 @@
     "draw_regions.setInputRegionsCol(\"region\")\n",
     "draw_regions.setOutputCol(\"image_with_regions\")\n",
     "\n",
-    "# Run OCR for corrected image\n",
-    "ocr_corrected = ImageToText()\n",
+    "# Run tesseract OCR for corrected image\n",
+    "ocr_corrected = TesseractOcr()\n",
     "ocr_corrected.setInputCol(\"corrected_image\")\n",
     "ocr_corrected.setOutputCol(\"corrected_text\")\n",
     "ocr_corrected.setPositionsCol(\"corrected_positions\")\n",
     "ocr_corrected.setConfidenceThreshold(65)\n",
     "\n",
     "# Run tesseract OCR for original image\n",
-    "ocr = ImageToText()\n",
+    "ocr = TesseractOcr()\n",
     "ocr.setInputCol(\"image\")\n",
     "ocr.setOutputCol(\"text\")\n",
     "\n",
@@ -293,8 +293,8 @@
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\u001B[31mFilename:\n",
-      "file:/Users/nmelnik/IdeaProjects/spark-ocr/workshop/jupyter/data/pdfs/noised.pdf , page: 0\u001B[0m\n",
+      "\u001b[31mFilename:\n",
+      "file:/Users/nmelnik/IdeaProjects/spark-ocr/workshop/jupyter/data/pdfs/noised.pdf , page: 0\u001b[0m\n",
       "Recognized text:\n",
       " \n",
       "\n",
@@ -376,8 +376,8 @@
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\u001B[31mFilename:\n",
-      "file:/Users/nmelnik/IdeaProjects/spark-ocr/workshop/jupyter/data/pdfs/noised.pdf , page: 0\u001B[0m\n",
+      "\u001b[31mFilename:\n",
+      "file:/Users/nmelnik/IdeaProjects/spark-ocr/workshop/jupyter/data/pdfs/noised.pdf , page: 0\u001b[0m\n",
       "Recognized text:\n",
       "° Date 7/16/68\n",
       "Sanple No 5031\n",
@@ -583,4 +583,4 @@
  },
  "nbformat": 4,
  "nbformat_minor": 2
-}
+}
diff --git a/jupyter/SparkOcrHttpSource.ipynb b/jupyter/SparkOcrHttpSource.ipynb
@@ -183,8 +183,8 @@
     "    pdf_to_image.setInputCol(\"content\")\n",
     "    pdf_to_image.setOutputCol(\"image\")\n",
     "\n",
-    "    # Run OCR\n",
-    "    ocr = ImageToText()\n",
+    "    # Run tesseract OCR\n",
+    "    ocr = TesseractOcr()\n",
     "    ocr.setInputCol(\"image\")\n",
     "    ocr.setOutputCol(\"text\")\n",
     "    ocr.setConfidenceThreshold(65)\n",
@@ -438,7 +438,7 @@
     "    binary_to_image.setOutputCol(\"image\")\n",
     "\n",
     "    # Run tesseract OCR\n",
-    "    ocr = ImageToText()\n",
+    "    ocr = TesseractOcr()\n",
     "    ocr.setInputCol(\"image\")\n",
     "    ocr.setOutputCol(\"text\")\n",
     "    ocr.setConfidenceThreshold(65)\n",
@@ -606,4 +606,4 @@
  },
  "nbformat": 4,
  "nbformat_minor": 2
-}
+}
diff --git a/jupyter/SparkOcrSimpleExample.ipynb b/jupyter/SparkOcrSimpleExample.ipynb
@@ -178,8 +178,8 @@
     "    pdf_to_image.setInputCol(\"content\")\n",
     "    pdf_to_image.setOutputCol(\"image\")\n",
     "\n",
-    "    # Run OCR\n",
-    "    ocr = ImageToText()\n",
+    "    # Run tesseract OCR\n",
+    "    ocr = TesseractOcr()\n",
     "    ocr.setInputCol(\"image\")\n",
     "    ocr.setOutputCol(\"text\")\n",
     "    ocr.setConfidenceThreshold(65)\n",
@@ -543,4 +543,4 @@
  },
  "nbformat": 4,
  "nbformat_minor": 2
-}
+}
diff --git a/jupyter/SparkOcrStoreResultsToPdfWithTextLayout.ipynb b/jupyter/SparkOcrStoreResultsToPdfWithTextLayout.ipynb
@@ -181,7 +181,7 @@
     "        .setKeepInput(True)\n",
     "    \n",
     "    # Run OCR\n",
-    "    ocr = ImageToText() \\\n",
+    "    ocr = TesseractOcr() \\\n",
     "        .setInputCol(\"image\") \\\n",
     "        .setOutputCol(\"text\") \\\n",
     "        .setConfidenceThreshold(60) \\\n",
@@ -372,4 +372,4 @@
  },
  "nbformat": 4,
  "nbformat_minor": 2
-}
+}
diff --git a/jupyter/SparkOcrStoreResultsToPdfWithTextLayoutWithFallback.ipynb b/jupyter/SparkOcrStoreResultsToPdfWithTextLayoutWithFallback.ipynb
@@ -96,8 +96,8 @@
       "Requirement already satisfied: kiwisolver>=1.0.1 in /Users/nmelnik/Library/Python/3.7/lib/python/site-packages (from matplotlib!=3.0.0,>=2.0.0->scikit-image==0.16.2->spark-ocr==1.2.0) (1.1.0)\n",
       "Requirement already satisfied: six>=1.5 in /Users/nmelnik/Library/Python/3.7/lib/python/site-packages (from python-dateutil>=2.1->matplotlib!=3.0.0,>=2.0.0->scikit-image==0.16.2->spark-ocr==1.2.0) (1.14.0)\n",
       "Building wheels for collected packages: spark-ocr\n",
-      "  Building wheel for spark-ocr (setup.py) ... \u001B[?25ldone\n",
-      "\u001B[?25h  Created wheel for spark-ocr: filename=spark_ocr-1.2.0-py3-none-any.whl size=5012116 sha256=b79c63e97b4235bbb3c7e061d6a42840bb1886c0351fa6e52262964bfe8333f3\n",
+      "  Building wheel for spark-ocr (setup.py) ... \u001b[?25ldone\n",
+      "\u001b[?25h  Created wheel for spark-ocr: filename=spark_ocr-1.2.0-py3-none-any.whl size=5012116 sha256=b79c63e97b4235bbb3c7e061d6a42840bb1886c0351fa6e52262964bfe8333f3\n",
       "  Stored in directory: /Users/nmelnik/Library/Caches/pip/wheels/8f/18/a8/6a746cb146272537dd3c50b17baa2711dab0a33acc5ed77549\n",
       "Successfully built spark-ocr\n",
       "Installing collected packages: spark-ocr\n",
@@ -112,7 +112,7 @@
    ],
    "source": [
     "# or install from local path\n",
-    "#%pip install --user ../../python/dist/spark-ocr-1.3.0rc1.tar.gz"
+    "%pip install --user ../../python/dist/spark-ocr-1.2.0.tar.gz"
    ]
   },
   {
@@ -227,7 +227,7 @@
     "        .setKeepInput(True)\n",
     "    \n",
     "    # Run OCR\n",
-    "    ocr = ImageToText() \\\n",
+    "    ocr = TesseractOcr() \\\n",
     "        .setInputCol(\"image\") \\\n",
     "        .setOutputCol(\"text\") \\\n",
     "        .setConfidenceThreshold(60) \\\n",
@@ -503,4 +503,4 @@
  },
  "nbformat": 4,
  "nbformat_minor": 2
-}
+}
diff --git a/jupyter/SparkOcrStreamingPDF.ipynb b/jupyter/SparkOcrStreamingPDF.ipynb
@@ -184,8 +184,8 @@
     "pdf_to_image = PdfToImage()\n",
     "pdf_to_image.setOutputCol(\"image\")\n",
     "\n",
-    "# Run OCR for each region\n",
-    "ocr = ImageToText()\n",
+    "# Run tesseract OCR for each region\n",
+    "ocr = TesseractOcr()\n",
     "ocr.setInputCol(\"image\")\n",
     "ocr.setOutputCol(\"text\")\n",
     "ocr.setConfidenceThreshold(60)\n",
@@ -264,7 +264,7 @@
     }
    ],
    "source": [
-    "# get progress of streaming job\n",
+    "# get progress of streamig job\n",
     "query.lastProgress"
    ]
   },
@@ -274,7 +274,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "# need to run for stop streaming job\n",
+    "# need to run for stop steraming job\n",
     "query.stop()"
    ]
   },
@@ -489,4 +489,4 @@
  },
  "nbformat": 4,
  "nbformat_minor": 2
-}
+}
diff --git a/jupyter/SparkOcrWithSkewCorrection.ipynb b/jupyter/SparkOcrWithSkewCorrection.ipynb
@@ -73,7 +73,7 @@
    "outputs": [],
    "source": [
     "# or install from local path\n",
-    "# %pip install --user ../../python/dist/spark-ocr-1.3.0rc1.tar.gz"
+    "# %pip install --user ../../python/dist/spark-ocr-1.1.0rc1.tar.gz"
    ]
   },
   {
@@ -178,8 +178,8 @@
     "    skew_corrector.setOutputCol(\"corrected_image\")\n",
     "    skew_corrector.setAutomaticSkewCorrection(skew_correction)\n",
     "\n",
-    "    # Run OCR\n",
-    "    ocr = ImageToText()\n",
+    "    # Run tesseract OCR\n",
+    "    ocr = TesseractOcr()\n",
     "    ocr.setInputCol(\"corrected_image\")\n",
     "    ocr.setOutputCol(\"text\")\n",
     "    \n",