Merge pull request #171 from JohnSnowLabs/add-scala-annotatars

vkocaman · web-flow · commit dd3673f5c4cd · 2021-03-19T14:34:17.000+01:00
add examples scala
diff --git a/scala/healthcare/AssertionDLApproachExample.scala b/scala/healthcare/AssertionDLApproachExample.scala
@@ -0,0 +1,67 @@
+object AssertionDLApproachExample extends App{
+
+        implicit val session=spark
+
+        val testDS=Seq(
+        "Has a past history of gastroenteritis and stomach pain, however patient shows no stomach pain now. "+
+        "We don't care about gastroenteritis here, but we do care about heart failure. "+
+        "Test for asma, no asma.").toDF("text")
+        val reader=new NegexDatasetReader
+
+        val datasetPath="src/test/resources/rsAnnotations-1-120-random.txt"
+        val trainDS=reader.readDataframe(datasetPath).withColumnRenamed("sentence","text").cache
+
+
+        val documentAssembler=new DocumentAssembler()
+        .setInputCol("text")
+        .setOutputCol("document")
+
+        val sentenceDetector=new SentenceDetector()
+        .setInputCols(Array("document"))
+        .setOutputCol("sentence")
+
+        val tokenizer=new Tokenizer()
+        .setInputCols(Array("sentence"))
+        .setOutputCol("token")
+
+        val POSTag=PerceptronModel
+        .pretrained()
+        .setInputCols("sentence","token")
+        .setOutputCol("pos")
+
+        val chunker=new Chunker()
+        .setInputCols(Array("pos","sentence"))
+        .setOutputCol("chunk")
+        .setRegexParsers(Array("(<NN>)+"))
+
+        val pubmed=WordEmbeddingsModel.pretrained("embeddings_clinical","en","clinical/models")
+        .setInputCols("sentence","token")
+        .setOutputCol("embeddings")
+        .setCaseSensitive(false)
+
+
+        val assertionStatus=new AssertionDLApproach()
+        .setGraphFolder("src/main/resources/assertion_dl/")
+        .setInputCols("sentence","chunk","embeddings")
+        .setOutputCol("assertion")
+        .setStartCol("start")
+        .setEndCol("end")
+        .setLabelCol("label")
+        .setLearningRate(0.01f)
+        .setDropout(0.15f)
+        .setBatchSize(16)
+        .setEpochs(3)
+        .setValidationSplit(0.2f)
+
+        val stages=Array(documentAssembler,sentenceDetector,tokenizer,POSTag,chunker,pubmed,
+        assertionStatus)
+
+        // train Assertion Status
+        val pipeline=new Pipeline()
+        .setStages(stages)
+
+        val model=pipeline.fit(trainDS)
+        model.write.overwrite().save("./tmp_assertiondl_negex")
+        val outDf=model.transform(testDS)
+        outDf.show(truncate=false)
+        }
diff --git a/scala/healthcare/AssertionFiltererExample.scala b/scala/healthcare/AssertionFiltererExample.scala
@@ -0,0 +1,65 @@
+object AssertionFiltererExample extends App{
+
+        implicit val session=spark
+
+        val testDS=Seq(
+        "Has a past history of gastroenteritis and stomach pain, however patient shows no stomach pain now. "+
+        "We don't care about gastroenteritis here, but we do care about heart failure. "+
+        "Test for asma, no asma.").toDF("text")
+        val reader=new NegexDatasetReader
+
+        val datasetPath="src/test/resources/rsAnnotations-1-120-random.txt"
+        val trainDS=reader.readDataframe(datasetPath).withColumnRenamed("sentence","text").cache
+
+
+        val documentAssembler=new DocumentAssembler()
+        .setInputCol("text")
+        .setOutputCol("document")
+
+        val sentenceDetector=new SentenceDetector()
+        .setInputCols(Array("document"))
+        .setOutputCol("sentence")
+
+        val tokenizer=new Tokenizer()
+        .setInputCols(Array("sentence"))
+        .setOutputCol("token")
+
+        val POSTag=PerceptronModel
+        .pretrained()
+        .setInputCols("sentence","token")
+        .setOutputCol("pos")
+
+        val chunker=new Chunker()
+        .setInputCols(Array("pos","sentence"))
+        .setOutputCol("chunk")
+        .setRegexParsers(Array("(<NN>)+"))
+
+        val pubmed=WordEmbeddingsModel.pretrained("embeddings_clinical","en","clinical/models")
+        .setInputCols("sentence","token")
+        .setOutputCol("embeddings")
+        .setCaseSensitive(false)
+
+        val assertionStatus=AssertionDLModel.pretrained("assertion_dl","en","clinical/models")
+        .setInputCols("sentence","chunk","embeddings")
+        .setOutputCol("assertion")
+        .setIncludeConfidence(true)
+
+
+        val assertionFilterer=new AssertionFilterer()
+        .setInputCols("sentence","chunk","assertion")
+        .setOutputCol("filtered")
+        .setCriteria("assertion")
+        .setWhiteList("present")
+
+        val stages=Array(documentAssembler,sentenceDetector,tokenizer,POSTag,chunker,pubmed,
+        assertionStatus,assertionFilterer)
+        val pipeline=new Pipeline()
+        .setStages(stages)
+        val model=pipeline.fit(trainDS)
+        model.write.overwrite().save("./tmp_assertiondl_negex")
+        val outDf=model.transform(testDS)
+
+
+        outDf.selectExpr("filtered").show(truncate=false)
+        outDf.selectExpr("assertion").show(truncate=false)
+        }
diff --git a/scala/healthcare/DeidentificationExample.scala b/scala/healthcare/DeidentificationExample.scala
@@ -0,0 +1,65 @@
+object DeidentificationExample extends App{
+
+        val trainDataSet=CoNLL().readDataset(SparkAccessor.spark,"src/test/resources/de-identification/train_dataset_main_small.csv")
+        var nerDlModel=NerDLModel.pretrained().setOutputCol("ner").setInputCols("sentence","token","glove")
+        var nerCrfModel=NerCrfModel.pretrained().setOutputCol("ner").setInputCols("sentence","token","pos","glove")
+        val embeddingsFile="src/test/resources/ner-corpus/embeddings.100d.test.txt"
+
+        val emptyDataset=Seq(
+        ""
+        ).toDS.toDF("text")
+
+        val documentAssembler=new DocumentAssembler()
+        .setInputCol("text")
+        .setOutputCol("document")
+
+        val sentenceDetector=new SentenceDetector()
+        .setInputCols(Array("document"))
+        .setOutputCol("sentence")
+        .setUseAbbreviations(true)
+
+        val tokenizer=new Tokenizer()
+        .setInputCols(Array("sentence"))
+        .setOutputCol("token")
+
+
+        val embeddings=WordEmbeddingsModel
+        .pretrained("embeddings_clinical","en","clinical/models")
+        .setInputCols(Array("sentence","token"))
+        .setOutputCol("embeddings")
+
+        val clinical_sensitive_entities=NerDLModel.pretrained("ner_deid_synthetic","en","clinical/models")
+        .setInputCols(Array("sentence","token","embeddings")).setOutputCol("ner")
+
+        val nerConverter=new NerConverter()
+        .setInputCols(Array("sentence","token","ner"))
+        .setOutputCol("ner_chunk")
+
+        val deIdentification=new DeIdentification()
+        .setInputCols(Array("ner_chunk","token","sentence"))
+        .setOutputCol("dei")
+        .setConsistentObfuscation(true)
+        .setMode("obfuscate")
+        .setObfuscateRefSource("faker")
+
+
+        val pipeline=new Pipeline()
+        .setStages(Array(
+        documentAssembler,
+        sentenceDetector,
+        tokenizer,
+        embeddings,
+        clinical_sensitive_entities,
+        nerConverter,
+        deIdentification
+        )).fit(emptyDataset)
+
+        val testDataset=Seq(
+        "Record date : 2093-01-13 , David Hale , M.D . , Name : Hendrickson , Ora MR . # 7194334 Date : 01/13/93 PCP : "+
+        "Oliveira , 25 years-old , Record date : 2079-11-09 . Cocke County Baptist Hospital . 0295 Keats Street"
+        ).toDS.toDF("text")
+
+        val deIdentificationDataFrame=pipeline.transform(testDataset)
+        val dataframe=deIdentificationDataFrame.select("dei.result")
+        dataframe.show(truncate=false)
+        }
diff --git a/scala/healthcare/NerChunkerFiltererExample.scala b/scala/healthcare/NerChunkerFiltererExample.scala
@@ -0,0 +1,50 @@
+object NerChunkerFiltererExample extends App{
+
+        val data=ResourceHelper.spark.createDataFrame(Seq(Tuple1("My name  Andres and I live in Colombia"))).toDF("text")
+
+        val documentAssembler=new DocumentAssembler()
+        .setInputCol("text")
+        .setOutputCol("document")
+
+        val sentenceDetector=new SentenceDetector()
+        .setInputCols("document")
+        .setOutputCol("sentence")
+        .setUseAbbreviations(false)
+
+        val tokenizer=new Tokenizer()
+        .setInputCols(Array("sentence"))
+        .setOutputCol("token")
+
+        val embeddings=WordEmbeddingsModel.pretrained()
+        .setInputCols("sentence","token")
+        .setOutputCol("embeddings")
+        .setCaseSensitive(false)
+
+        val ner=NerDLModel.pretrained()
+        .setInputCols("sentence","token","embeddings")
+        .setOutputCol("ner")
+        .setIncludeConfidence(true)
+        ner.getClasses
+
+        val chunker=new NerChunker()
+        .setInputCols(Array("sentence","ner"))
+        .setOutputCol("ner_chunk")
+        .setRegexParsers(Array("<PER>.*<LOC>"))
+
+
+        val recursivePipeline=new RecursivePipeline()
+        .setStages(Array(
+        documentAssembler,
+        sentenceDetector,
+        tokenizer,
+        embeddings,
+        ner,
+        chunker
+        ))
+
+        val nermodel=recursivePipeline.fit(data).transform(data)
+
+
+        val dataframe=nermodel.select("ner_chunk.result")
+        dataframe.show(truncate=false)
+        }
diff --git a/scala/healthcare/NerConverterInternalExample.scala b/scala/healthcare/NerConverterInternalExample.scala
@@ -0,0 +1,50 @@
+object NerConverterInternalExample extends App{
+
+        val data=ResourceHelper.spark.createDataFrame(Seq(Tuple1("My name is Andres and I live in Colombia"))).toDF("text")
+
+        val documentAssembler=new DocumentAssembler()
+        .setInputCol("text")
+        .setOutputCol("document")
+
+        val sentenceDetector=new SentenceDetector()
+        .setInputCols("document")
+        .setOutputCol("sentence")
+        .setUseAbbreviations(false)
+
+        val tokenizer=new Tokenizer()
+        .setInputCols(Array("sentence"))
+        .setOutputCol("token")
+
+        val embeddings=WordEmbeddingsModel.pretrained()
+        .setInputCols("document","token")
+        .setOutputCol("embeddings")
+        .setCaseSensitive(false)
+
+        val ner=NerDLModel.pretrained()
+        .setInputCols("sentence","token","embeddings")
+        .setOutputCol("ner")
+        .setIncludeConfidence(true)
+
+        val converter=new NerConverterInternal()
+        .setInputCols("sentence","token","ner")
+        .setOutputCol("entities")
+        .setPreservePosition(false)
+        .setThreshold(9900e-4f)
+
+        val recursivePipeline=new RecursivePipeline()
+        .setStages(Array(
+        documentAssembler,
+        sentenceDetector,
+        tokenizer,
+        embeddings,
+        ner,
+        converter
+        ))
+
+        val nermodel=recursivePipeline.fit(data).transform(data)
+
+        nermodel.select("token.result").show(1,false)
+        nermodel.select("embeddings.result").show(1,false)
+        nermodel.select("entities.result").show(1,false)
+        nermodel.select("entities").show(1,false)
+        }