bump-dependencies

amartinezcsuc · amartinezcsuc · commit 5624f6aae16a · 2022-01-11T09:39:15.000+01:00
diff --git a/README.md b/README.md
@@ -11,8 +11,9 @@ mvn clean install -DskipTests
 ```
 
 ## Command line
+https://spark.apache.org/docs/latest/submitting-applications.html
 ```
-spark-submit --master "local[*]" --class org.csuc.cli.App --packages info.picocli:picocli:4.6.2,com.crealytics:spark-excel_2.12:0.13.7,com.typesafe:config:1.3.4 --jars euroCRIS-cerif-definitions-1.6.2.jar prc-cerif-${version}.jar args
+spark-submit --master "local[*]" --class org.csuc.cli.App --packages info.picocli:picocli:4.6.2,com.crealytics:spark-excel_2.12:3.2.0_0.16.0,com.typesafe:config:1.4.1 --jars euroCRIS-cerif-definitions-1.6.2.jar prc-cerif-${version}.jar args
 ```
 ```
 Usage: prc-cerif [-fhV] -i=<PATH> [-o=<PATH>] -r=<STRING>
diff --git a/euroCRIS-cerif-definitions/pom.xml b/euroCRIS-cerif-definitions/pom.xml
@@ -20,27 +20,28 @@
         <dependency>
             <groupId>junit</groupId>
             <artifactId>junit</artifactId>
+            <version>4.13.2</version>
         </dependency>
 
         <!-- https://mvnrepository.com/artifact/javax.xml.bind/jaxb-api -->
         <dependency>
             <groupId>javax.xml.bind</groupId>
             <artifactId>jaxb-api</artifactId>
-            <version>2.3.1</version>
+            <version>2.4.0-b180830.0359</version>
         </dependency>
 
         <!-- https://mvnrepository.com/artifact/com.sun.xml.bind/jaxb-core -->
         <dependency>
             <groupId>com.sun.xml.bind</groupId>
             <artifactId>jaxb-core</artifactId>
-            <version>2.3.0.1</version>
+            <version>3.0.1</version>
         </dependency>
 
         <!-- https://mvnrepository.com/artifact/com.sun.xml.bind/jaxb-impl -->
         <dependency>
             <groupId>com.sun.xml.bind</groupId>
             <artifactId>jaxb-impl</artifactId>
-            <version>2.3.2</version>
+            <version>3.0.1</version>
         </dependency>
 
     </dependencies>
diff --git a/pom.xml b/pom.xml
@@ -22,7 +22,7 @@
         <maven.compiler.testSource>1.8</maven.compiler.testSource>
         <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
 
-        <revision>2.4.17</revision>
+        <revision>2.4.18</revision>
 
         <junit.version>4.12</junit.version>
         <picocli.version>4.6.2</picocli.version>
diff --git a/transformation/pom.xml b/transformation/pom.xml
@@ -17,14 +17,14 @@
         <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
 
         <spark.version>3.2.0</spark.version>
-        <spark.excel.version>0.13.7</spark.excel.version>
+        <spark.excel.version>3.2.0_0.16.0</spark.excel.version>
     </properties>
 
     <dependencies>
         <dependency>
             <groupId>junit</groupId>
             <artifactId>junit</artifactId>
-            <scope>test</scope>
+            <version>4.13.2</version>
         </dependency>
 
         <dependency>
@@ -36,6 +36,7 @@
         <dependency>
             <groupId>com.typesafe</groupId>
             <artifactId>config</artifactId>
+            <version>1.4.1</version>
         </dependency>
 
         <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core -->
diff --git a/transformation/src/main/java/org/csuc/cli/App.java b/transformation/src/main/java/org/csuc/cli/App.java
@@ -17,9 +17,8 @@
 import java.nio.file.Path;
 import java.time.Instant;
 import java.time.format.DateTimeFormatter;
-import java.util.ArrayList;
-import java.util.List;
 import java.util.Objects;
+import java.util.concurrent.CopyOnWriteArrayList;
 
 import static org.apache.spark.sql.functions.*;
 
@@ -73,6 +72,7 @@ public void run() {
                             .format("com.crealytics.spark.excel") // Or .format("excel") for V2 implementation
                             .option("dataAddress", String.format("'%s'!A1", SHEETS.researchers.value())) // Optional, default: "A1"
                             .option("treatEmptyValuesAsNulls", "false") // Optional, default: true
+                            .option("maxRowsInMemory", 20)
                             .option("header", "true")
                             .load(input.toString())
                             .toDF("_c0", "_c1", "_c2", "_c3")
@@ -87,6 +87,7 @@ public void run() {
                             .format("com.crealytics.spark.excel") // Or .format("excel") for V2 implementation
                             .option("dataAddress", String.format("'%s'!A1", SHEETS.departments.value())) // Optional, default: "A1"
                             .option("treatEmptyValuesAsNulls", "false") // Optional, default: true
+                            .option("maxRowsInMemory", 20)
                             .option("header", "true")
                             .load(input.toString())
                             .toDF("_c0", "_c1", "_c2", "_c3", "_c4", "_c5", "_c6")
@@ -100,7 +101,8 @@ public void run() {
                             .read()
                             .format("com.crealytics.spark.excel") // Or .format("excel") for V2 implementation
                             .option("dataAddress", String.format("'%s'!A1", SHEETS.departments_relations.value())) // Optional, default: "A1"
-                            .option("treatEmptyValuesAsNulls", "false") // Optional, default: true
+                            .option("treatEmptyValuesAsNulls", "false") // Optional, default:
+                            .option("maxRowsInMemory", 20)
                             .option("header", "true")
                             .load(input.toString())
                             .toDF("_c0", "_c1")
@@ -123,6 +125,7 @@ public void run() {
                             .format("com.crealytics.spark.excel") // Or .format("excel") for V2 implementation
                             .option("dataAddress", String.format("'%s'!A1", SHEETS.research_groups.value())) // Optional, default: "A1"
                             .option("treatEmptyValuesAsNulls", "false") // Optional, default: true
+                            .option("maxRowsInMemory", 20)
                             .option("header", "true")
                             .load(input.toString())
                             .toDF("_c0", "_c1", "_c2", "_c3", "_c4", "_c5", "_c6")
@@ -137,6 +140,7 @@ public void run() {
                             .format("com.crealytics.spark.excel") // Or .format("excel") for V2 implementation
                             .option("dataAddress", String.format("'%s'!A1", SHEETS.research_groups_relations.value())) // Optional, default: "A1"
                             .option("treatEmptyValuesAsNulls", "false") // Optional, default: true
+                            .option("maxRowsInMemory", 20)
                             .option("header", "true")
                             .load(input.toString())
                             .toDF("_c0", "_c1", "_c2", "_c3")
@@ -161,6 +165,7 @@ public void run() {
                             .format("com.crealytics.spark.excel") // Or .format("excel") for V2 implementation
                             .option("dataAddress", String.format("'%s'!A1", SHEETS.projects.value())) // Optional, default: "A1"
                             .option("treatEmptyValuesAsNulls", "false") // Optional, default: true
+                            .option("maxRowsInMemory", 20)
                             .option("header", "true")
                             .load(input.toString())
                             .toDF("_c0", "_c1", "_c2", "_c3", "_c4", "_c5", "_c6")
@@ -175,6 +180,7 @@ public void run() {
                             .format("com.crealytics.spark.excel") // Or .format("excel") for V2 implementation
                             .option("dataAddress", String.format("'%s'!A1", SHEETS.projects_relations.value())) // Optional, default: "A1"
                             .option("treatEmptyValuesAsNulls", "false") // Optional, default: true
+                            .option("maxRowsInMemory", 20)
                             .option("header", "true")
                             .load(input.toString())
                             .toDF("_c0", "_c1", "_c2", "_c3")
@@ -198,6 +204,7 @@ public void run() {
                             .format("com.crealytics.spark.excel") // Or .format("excel") for V2 implementation
                             .option("dataAddress", String.format("'%s'!A1", SHEETS.publications.value())) // Optional, default: "A1"
                             .option("treatEmptyValuesAsNulls", "false") // Optional, default: true
+                            .option("maxRowsInMemory", 20)
                             .option("header", "true")
                             .load(input.toString())
                             .toDF("_c0", "_c1", "_c2", "_c3", "_c4", "_c5", "_c6", "_c7", "_c8", "_c9", "_c10", "_c11", "_c12", "_c13", "_c14")
@@ -212,6 +219,7 @@ public void run() {
                             .format("com.crealytics.spark.excel") // Or .format("excel") for V2 implementation
                             .option("dataAddress", String.format("'%s'!A1", SHEETS.publication_relations.value())) // Optional, default: "A1"
                             .option("treatEmptyValuesAsNulls", "false") // Optional, default: true
+                            .option("maxRowsInMemory", 20)
                             .option("header", "true")
                             .load(input.toString())
                             .toDF("_c0", "_c1", "_c2", "_c3")
@@ -234,43 +242,49 @@ public void run() {
             Dataset<Row> research_groups_join = research_groups.join(research_groups_relations, col("research_groups._c4").equalTo(col("research_groups_relations._c0")), "left").drop(col("research_groups_relations._c0"));
             Dataset<Row> publication_join = publications.join(publication_relations, col("publications._c1").equalTo(col("publication_relations._c0")), "left").drop(col("publication_relations._c0"));
 
-//        projects_join.show(false);
-//        departments_join.show(false);
-//        research_groups_join.show(false);
-//        publication_join.show(false);
-
             //CERIF
             Marshaller marshaller = new Marshaller(ruct);
 
-            List<CfPersType> cfPersTypeList = new ArrayList<>();
-            List<CfOrgUnitType> cfOrgUnitTypeList = new ArrayList<>();
-            List<CfProjType> cfProjTypeList = new ArrayList<>();
-            List<CfResPublType> cfResPublTypeList = new ArrayList<>();
-
-            researchers.collectAsList().forEach(row -> {
-                cfPersTypeList.add(new Researcher(row, Semantics.getClassId(ClassId.CHECKED)));
-            });
-
-            departments_join.collectAsList().forEach(row -> {
-                cfOrgUnitTypeList.add(new Department(row, Semantics.getClassId(ClassId.DEPARTMENT_OR_INSTITUTE)));
-            });
-
-            research_groups_join.collectAsList().forEach(row -> {
-                cfOrgUnitTypeList.add(new ResearchGroup(row, Semantics.getClassId(ClassId.RESEARCH_GROUP), cfPersTypeList));
-            });
-
-            projects_join.collectAsList().forEach(row -> {
-                cfProjTypeList.add(new Project(row, cfPersTypeList));
-            });
-
-            publication_join.collectAsList().forEach(row -> {
-                cfResPublTypeList.add(new Publication(row, cfPersTypeList));
-            });
+            CopyOnWriteArrayList<CfPersType> cfPersTypeList = new CopyOnWriteArrayList<>();
+            CopyOnWriteArrayList<CfOrgUnitType> cfOrgUnitTypeList = new CopyOnWriteArrayList<>();
+            CopyOnWriteArrayList<CfOrgUnitType> cfOrgUnitTypeList_2 = new CopyOnWriteArrayList<>();
+            CopyOnWriteArrayList<CfProjType> cfProjTypeList = new CopyOnWriteArrayList<>();
+            CopyOnWriteArrayList<CfResPublType> cfResPublTypeList = new CopyOnWriteArrayList<>();
+
+            if (researchers.count() > 0) {
+                researchers.collectAsList().forEach(row -> {
+                    cfPersTypeList.add(new Researcher(row, Semantics.getClassId(ClassId.CHECKED)));
+                });
+            }
+
+            if (departments_join.count() > 0) {
+                departments_join.collectAsList().forEach(row -> {
+                    cfOrgUnitTypeList.add(new Department(row, Semantics.getClassId(ClassId.DEPARTMENT_OR_INSTITUTE)));
+                });
+            }
+
+            if (research_groups_join.count() > 0) {
+                research_groups_join.collectAsList().forEach(row -> {
+                    cfOrgUnitTypeList_2.add(new ResearchGroup(row, Semantics.getClassId(ClassId.RESEARCH_GROUP), cfPersTypeList));
+                });
+            }
+
+            if (projects_join.count() > 0) {
+                projects_join.collectAsList().forEach(row -> {
+                    cfProjTypeList.add(new Project(row, cfPersTypeList));
+                });
+            }
+
+            if (publication_join.count() > 0) {
+                publication_join.collectAsList().forEach(row -> {
+                    cfResPublTypeList.add(new Publication(row, cfPersTypeList));
+                });
+            }
 
             if (Objects.isNull(output))
-                marshaller.buld(String.format("/tmp/%s.xml", ruct), formatted, cfPersTypeList, cfOrgUnitTypeList, cfProjTypeList, cfResPublTypeList);
+                marshaller.build(String.format("/tmp/%s.xml", ruct), formatted, cfPersTypeList, cfOrgUnitTypeList, cfProjTypeList, cfResPublTypeList);
             else
-                marshaller.buld(output.toString(), formatted, cfPersTypeList, cfOrgUnitTypeList, cfProjTypeList, cfResPublTypeList);
+                marshaller.build(output.toString(), formatted, cfPersTypeList, cfOrgUnitTypeList, cfProjTypeList, cfResPublTypeList);
 
 
             sparkSession.log().info("Saved output {}", Objects.isNull(output) ? String.format("/tmp/%s.xml", ruct) : output);
diff --git a/transformation/src/main/java/org/csuc/marshal/Department.java b/transformation/src/main/java/org/csuc/marshal/Department.java
@@ -6,12 +6,13 @@
 import org.csuc.typesafe.semantics.Semantics;
 import xmlns.org.eurocris.cerif_1.*;
 
+import java.io.Serializable;
 import java.util.List;
 import java.util.Objects;
 import java.util.UUID;
 import java.util.stream.Stream;
 
-public class Department extends CfOrgUnitType {
+public class Department extends CfOrgUnitType implements Serializable {
 
     private ObjectFactory FACTORY = new ObjectFactory();
     private Row row;
@@ -114,8 +115,10 @@ private void createRelationCfPers() {
             List<Row> relations = row.getList(8);
 
             relations.forEach(relation -> {
-                if (Objects.nonNull(relation.getAs(2))) {
-                    researcher(relation.getAs(2));
+                if(relations.size() == 2){
+                    if (Objects.nonNull(relation.getAs(2))) {
+                        researcher(relation.getAs(2));
+                    }
                 }
             });
         }
diff --git a/transformation/src/main/java/org/csuc/marshal/Marshaller.java b/transformation/src/main/java/org/csuc/marshal/Marshaller.java
@@ -25,7 +25,7 @@ public Marshaller(String ruct) throws DatatypeConfigurationException {
         cerif.setSourceDatabase(ruct);
     }
 
-    public void buld(String output, boolean formatted, List... objects) throws JAXBException, FileNotFoundException {
+    public void build(String output, boolean formatted, List... objects) throws JAXBException, FileNotFoundException {
         Arrays.stream(objects).forEach(o -> {
             cerif.getCfClassOrCfClassSchemeOrCfClassSchemeDescr().addAll(o);
         });
@@ -34,7 +34,7 @@ public void buld(String output, boolean formatted, List... objects) throws JAXBE
         javax.xml.bind.Marshaller jaxbMarshaller = jaxbContext.createMarshaller();
 
         jaxbMarshaller.setProperty(javax.xml.bind.Marshaller.JAXB_ENCODING, StandardCharsets.UTF_8.toString());
-        jaxbMarshaller.setProperty(javax.xml.bind.Marshaller.JAXB_FORMATTED_OUTPUT, false);
+        jaxbMarshaller.setProperty(javax.xml.bind.Marshaller.JAXB_FORMATTED_OUTPUT, formatted);
         jaxbMarshaller.setProperty(javax.xml.bind.Marshaller.JAXB_FRAGMENT, false);
 
         jaxbMarshaller.marshal(cerif, new FileOutputStream(output));
diff --git a/transformation/src/main/java/org/csuc/marshal/Project.java b/transformation/src/main/java/org/csuc/marshal/Project.java
@@ -8,6 +8,7 @@
 import org.csuc.typesafe.semantics.Semantics;
 import xmlns.org.eurocris.cerif_1.*;
 
+import java.io.Serializable;
 import java.util.List;
 import java.util.Objects;
 import java.util.UUID;
@@ -17,7 +18,7 @@
  * |               Títol|                 URL|  Codi oficial|         Codi intern|           Programa|         Data inici|Data fi|                uuid|
  * +--------------------+--------------------+--------------+--------------------+-------------------+-------------------+-------+--------------------+
  */
-public class Project extends CfProjType {
+public class Project extends CfProjType implements Serializable {
     private ObjectFactory FACTORY = new ObjectFactory();
 
     private Row row;
diff --git a/transformation/src/main/java/org/csuc/marshal/Publication.java b/transformation/src/main/java/org/csuc/marshal/Publication.java
@@ -9,12 +9,13 @@
 import org.csuc.utils.DocumentTypes;
 import xmlns.org.eurocris.cerif_1.*;
 
+import java.io.Serializable;
 import java.util.List;
 import java.util.Objects;
 import java.util.UUID;
 import java.util.stream.Stream;
 
-public class Publication extends CfResPublType {
+public class Publication extends CfResPublType implements Serializable {
 
     private ObjectFactory FACTORY = new ObjectFactory();
     private Row row;
diff --git a/transformation/src/main/java/org/csuc/marshal/ResearchGroup.java b/transformation/src/main/java/org/csuc/marshal/ResearchGroup.java
@@ -8,12 +8,13 @@
 import org.csuc.typesafe.semantics.Semantics;
 import xmlns.org.eurocris.cerif_1.*;
 
+import java.io.Serializable;
 import java.util.List;
 import java.util.Objects;
 import java.util.UUID;
 import java.util.stream.Stream;
 
-public class ResearchGroup extends CfOrgUnitType {
+public class ResearchGroup extends CfOrgUnitType implements Serializable {
 
     private ObjectFactory FACTORY = new ObjectFactory();
     private Row row;
diff --git a/transformation/src/main/java/org/csuc/marshal/Researcher.java b/transformation/src/main/java/org/csuc/marshal/Researcher.java
@@ -9,14 +9,15 @@
 import xmlns.org.eurocris.cerif_1.CfPersType;
 import xmlns.org.eurocris.cerif_1.ObjectFactory;
 
+import java.io.Serializable;
 import java.util.Objects;
 import java.util.UUID;
 import java.util.stream.Stream;
 
 /**
  * @author amartinez
  */
-public class Researcher extends CfPersType {
+public class Researcher extends CfPersType implements Serializable {
 
     private ObjectFactory FACTORY = new ObjectFactory();
     private Row row;