update: spark version 3.x

imperio-wxm · imperio-wxm · commit 45371472be91 · 2022-05-21T23:58:58.000+08:00
diff --git a/spark-best-practice/.gitignore b/spark-best-practice/.gitignore
@@ -0,0 +1,5 @@
+.idea
+*.iml
+target
+*.iml
+*.log*
diff --git a/spark-best-practice/pom.xml b/spark-best-practice/pom.xml
@@ -11,8 +11,6 @@
     <modules>
         <module>simple-demo</module>
         <module>spark-phoenix</module>
-        <module>spark-springboot</module>
-        <module>structured-streaming</module>
     </modules>
 
     <parent>
@@ -32,6 +30,11 @@
     </properties>
 
     <dependencies>
+        <dependency>
+            <groupId>com.thoughtworks.paranamer</groupId>
+            <artifactId>paranamer</artifactId>
+            <version>2.8</version>
+        </dependency>
 
         <dependency>
             <groupId>io.delta</groupId>
@@ -66,69 +69,59 @@
         <dependency>
             <groupId>org.scala-lang</groupId>
             <artifactId>scala-library</artifactId>
-            <version>2.11.12</version>
+            <version>2.12.15</version>
         </dependency>
 
         <dependency>
             <groupId>org.apache.spark</groupId>
-            <artifactId>spark-sql_2.11</artifactId>
-            <!--<version>2.2.0.cloudera1</version>-->
-            <version>2.4.0.cloudera2</version>
+            <artifactId>spark-sql_2.12</artifactId>
+            <version>3.2.1</version>
         </dependency>
 
         <dependency>
             <groupId>org.apache.spark</groupId>
-            <artifactId>spark-core_2.11</artifactId>
-        <!--    <version>2.2.0.cloudera1</version>-->
-            <version>2.4.0.cloudera2</version>
+            <artifactId>spark-core_2.12</artifactId>
+            <version>3.2.1</version>
         </dependency>
 
 
         <dependency>
             <groupId>org.apache.spark</groupId>
-            <artifactId>spark-avro_2.11</artifactId>
-            <version>2.4.0.cloudera2</version>
+            <artifactId>spark-avro_2.12</artifactId>
+            <version>3.2.1</version>
         </dependency>
 
         <dependency>
             <groupId>org.apache.spark</groupId>
-            <artifactId>spark-sql-kafka-0-10_2.11</artifactId>
-            <version>2.4.0.cloudera2</version>
+            <artifactId>spark-sql-kafka-0-10_2.12</artifactId>
+            <version>3.2.1</version>
         </dependency>
 
-
         <dependency>
             <groupId>org.apache.hadoop</groupId>
             <artifactId>hadoop-client</artifactId>
-            <version>2.6.0-cdh5.11.1</version>
+            <version>3.3.3</version>
             <exclusions>
                 <exclusion>
-                    <artifactId>guava</artifactId>
-                    <groupId>com.google.guava</groupId>
-                </exclusion>
-                <exclusion>
-                    <artifactId>servlet-api</artifactId>
-                    <groupId>javax.servlet</groupId>
+                    <artifactId>slf4j-reload4j</artifactId>
+                    <groupId>org.slf4j</groupId>
                 </exclusion>
             </exclusions>
         </dependency>
 
         <dependency>
             <groupId>org.apache.hadoop</groupId>
             <artifactId>hadoop-common</artifactId>
-            <version>2.6.0-cdh5.11.1</version>
+            <version>3.3.3</version>
             <exclusions>
                 <exclusion>
-                    <artifactId>guava</artifactId>
-                    <groupId>com.google.guava</groupId>
-                </exclusion>
-                <exclusion>
-                    <artifactId>servlet-api</artifactId>
-                    <groupId>javax.servlet</groupId>
+                    <artifactId>slf4j-reload4j</artifactId>
+                    <groupId>org.slf4j</groupId>
                 </exclusion>
             </exclusions>
         </dependency>
 
+
         <dependency>
             <groupId>junit</groupId>
             <artifactId>junit</artifactId>
@@ -143,21 +136,6 @@
             <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
         </repository>
 
-        <repository>
-            <id>nexus-public</id>
-            <url>http://nexus.dw.sdo.com/content/groups/public/</url>
-        </repository>
-
-        <repository>
-            <id>dw-releases</id>
-            <url>http://nexus.dw.sdo.com/content/repositories/dw-releases/</url>
-        </repository>
-
-        <repository>
-            <id>dw-snapshots</id>
-            <url>http://nexus.dw.sdo.com/content/repositories/dw-snapshots/</url>
-        </repository>
-
         <repository>
             <id>SparkPackagesRepo</id>
             <url>http://dl.bintray.com/spark-packages/maven</url>
diff --git a/spark-best-practice/simple-demo/pom.xml b/spark-best-practice/simple-demo/pom.xml
@@ -68,7 +68,6 @@
     </build>
 
 
-
     <dependencies>
         <dependency>
             <groupId>junit</groupId>
@@ -77,12 +76,29 @@
             <scope>test</scope>
         </dependency>
 
+        <dependency>
+            <groupId>org.apache.commons</groupId>
+            <artifactId>commons-lang3</artifactId>
+            <version>3.12.0</version>
+        </dependency>
+
         <dependency>
             <groupId>org.apache.hadoop</groupId>
             <artifactId>hadoop-common</artifactId>
-            <version>2.6.0-cdh5.11.1</version>
+            <version>3.3.3</version>
+            <exclusions>
+                <exclusion>
+                    <artifactId>slf4j-reload4j</artifactId>
+                    <groupId>org.slf4j</groupId>
+                </exclusion>
+                <exclusion>
+                    <groupId>io.netty</groupId>
+                    <artifactId>netty-all</artifactId>
+                </exclusion>
+            </exclusions>
         </dependency>
 
+
         <dependency>
             <groupId>mysql</groupId>
             <artifactId>mysql-connector-java</artifactId>
@@ -91,6 +107,17 @@
 
     </dependencies>
 
+
+    <dependencyManagement>
+        <dependencies>
+            <dependency>
+                <groupId>io.netty</groupId>
+                <artifactId>netty-all</artifactId>
+                <version>4.1.77.Final</version>
+            </dependency>
+        </dependencies>
+    </dependencyManagement>
+
     <repositories>
         <repository>
             <id>cloudera</id>
diff --git a/spark-best-practice/simple-demo/src/main/java/com/wxmimperio/spark/SparkSequenceFileRead.java b/spark-best-practice/simple-demo/src/main/java/com/wxmimperio/spark/SparkSequenceFileRead.java
@@ -1,6 +1,6 @@
 package com.wxmimperio.spark;
 
-import org.apache.commons.lang.StringUtils;
+import org.apache.commons.lang3.StringUtils;
 import org.apache.hadoop.conf.Configuration;
 import org.apache.hadoop.io.Text;
 import org.apache.hadoop.mapred.SequenceFileOutputFormat;
diff --git a/spark-best-practice/simple-demo/src/test/java/com/wxmimperio/spark/Test.java b/spark-best-practice/simple-demo/src/test/java/com/wxmimperio/spark/Test.java
@@ -4,6 +4,16 @@
 
 import java.sql.Timestamp;
 import java.text.SimpleDateFormat;
+import java.util.Arrays;
+import java.util.HashMap;
+import java.util.Map;
+import java.util.Set;
+import java.util.function.IntFunction;
+import java.util.stream.Collectors;
+import java.util.stream.IntStream;
+import java.util.stream.Stream;
+
+import static java.lang.Integer.parseInt;
 
 public class Test {
 
@@ -17,5 +27,80 @@ public void test001() throws Exception {
 
         System.out.println(System.currentTimeMillis());
 
+        Integer a = Integer.valueOf(1);
+        a.intValue();
+
+        int i = 45;
+        if (i >= IntegerCache.low && i <= IntegerCache.high) {
+            System.out.println(IntegerCache.cache[i + (-IntegerCache.low)]);
+        }
+
+    }
+
+    private static class IntegerCache {
+        static final int low = -128;
+        static final int high;
+        static final Integer cache[];
+
+        static {
+            // high value may be configured by property
+            int h = 127;
+            String integerCacheHighPropValue =
+                    sun.misc.VM.getSavedProperty("java.lang.Integer.IntegerCache.high");
+            if (integerCacheHighPropValue != null) {
+                try {
+                    int i = parseInt(integerCacheHighPropValue);
+                    i = Math.max(i, 127);
+                    // Maximum array size is Integer.MAX_VALUE
+                    h = Math.min(i, Integer.MAX_VALUE - (-low) - 1);
+                } catch (NumberFormatException nfe) {
+                    // If the property cannot be parsed into an int, ignore it.
+                }
+            }
+            high = h;
+
+            cache = new Integer[(high - low) + 1];
+            int j = low;
+            for (int k = 0; k < cache.length; k++)
+                cache[k] = new Integer(j++);
+
+            // range [-128, 127] must be interned (JLS7 5.1.7)
+            assert IntegerCache.high >= 127;
+        }
+
+        private IntegerCache() {
+        }
+    }
+
+    @org.junit.Test
+    public void testLeecode() {
+        int[] nums = new int[]{2, 7, 11, 15};
+        System.out.println(Arrays.toString(twoSum(nums, 9)));
+
+        System.out.println(Arrays.toString(twoSum2(nums, 9)));
+    }
+
+    public int[] twoSum(int[] nums, int target) {
+        int[] result = new int[2];
+        for (int i = 0; i < nums.length; i++) {
+            for (int j = i + 1; j < nums.length; j++) {
+                if (nums[i] + nums[j] == target) {
+                    result = new int[]{i, j};
+                }
+            }
+        }
+        return result;
+    }
+
+    public int[] twoSum2(int[] nums, int target) {
+        Map<Integer, Integer> map = new HashMap<>();
+        for (int i = 0; i < nums.length; i++) {
+            int sub = target - nums[i];
+            if (map.containsKey(sub)) {
+                return new int[]{map.get(sub), i};
+            }
+            map.put(nums[i], i);
+        }
+        return nums;
     }
 }
diff --git a/spark-best-practice/spark-phoenix/pom.xml b/spark-best-practice/spark-phoenix/pom.xml
@@ -35,20 +35,6 @@
             <artifactId>phoenix-spark</artifactId>
             <version>4.14.0-cdh5.11.2</version>
         </dependency>-->
-
-
-        <dependency>
-            <groupId>org.apache.hadoop</groupId>
-            <artifactId>hadoop-common</artifactId>
-            <version>2.6.0-cdh5.11.1</version>
-        </dependency>
-
-        <dependency>
-            <groupId>org.apache.phoenix</groupId>
-            <artifactId>phoenix-client</artifactId>
-            <version>4.14.0-cdh5.11.2-sdg-1.0.2-RELEASE</version>
-            <classifier>client</classifier>
-        </dependency>
     </dependencies>
 
    <!-- <build>

-Original file line number
+Diff line change
@@ @@ -0,0 +1,5 @@ @@
 +.idea
 +*.iml
 +target
 +*.iml
 +*.log*