PNNL-CompBio
diff --git a/‎.dockerignore
Lines changed: 7 additions & 0 deletions b/‎.dockerignore
Lines changed: 7 additions & 0 deletions
diff --git a/‎build/beatAML/GetBeatAML.py
Lines changed: 1 addition & 1 deletion b/‎build/beatAML/GetBeatAML.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎build/beatAML/build_drugs.sh
Lines changed: 1 addition & 0 deletions b/‎build/beatAML/build_drugs.sh
Lines changed: 1 addition & 0 deletions
diff --git a/‎build/beatAML/build_exp.sh
Lines changed: 1 addition & 0 deletions b/‎build/beatAML/build_exp.sh
Lines changed: 1 addition & 0 deletions
diff --git a/‎build/beatAML/build_omics.sh
Lines changed: 1 addition & 0 deletions b/‎build/beatAML/build_omics.sh
Lines changed: 1 addition & 0 deletions
diff --git a/‎build/beatAML/build_samples.sh
Lines changed: 1 addition & 0 deletions b/‎build/beatAML/build_samples.sh
Lines changed: 1 addition & 0 deletions
diff --git a/‎build/broad_sanger/02-broadSangerOmics.R
Lines changed: 13 additions & 7 deletions b/‎build/broad_sanger/02-broadSangerOmics.R
Lines changed: 13 additions & 7 deletions
diff --git a/‎build/broad_sanger/03-createDrugFile.R
Lines changed: 1 addition & 4 deletions b/‎build/broad_sanger/03-createDrugFile.R
Lines changed: 1 addition & 4 deletions
diff --git a/‎build/broad_sanger/04a-drugResponseData.R
Lines changed: 1 addition & 2 deletions b/‎build/broad_sanger/04a-drugResponseData.R
Lines changed: 1 addition & 2 deletions
diff --git a/‎build/broad_sanger/broad_sanger_samples.csv
Lines changed: 42150 additions & 0 deletions b/‎build/broad_sanger/broad_sanger_samples.csv
Lines changed: 42150 additions & 0 deletions
@@ -0,0 +1,7 @@
+local/
+tests/
+coderdata/
+dataSummary/
+docs/
+candle_bmd/
+schema/
@@ -454,7 +454,7 @@ def map_and_combine(df, data_type, entrez_map_file, improve_map_file, map_file=N
     mapped_df['source'] = 'synapse'
     mapped_df['study'] = 'BeatAML'
 
-    final_dataframe = mapped_df
+    final_dataframe = mapped_df.dropna()#pd.dropna(mapped_df,0)
     return final_dataframe
 
 
 
@@ -0,0 +1 @@
+python GetBeatAML.py --token $SYNAPSE_AUTH_TOKEN --drugs --drugFile $1
@@ -0,0 +1 @@
+python GetBeatAML.py --exp --token $SYNAPSE_AUTH_TOKEN --curSamples $1 --drugFile $2
@@ -0,0 +1 @@
+python GetBeatAML.py --token $SYNAPSE_AUTH_TOKEN --omics --curSamples $2 --genes $1
@@ -0,0 +1 @@
+python GetBeatAML.py --token $SYNAPSE_AUTH_TOKEN --samples --prevSamples $1
@@ -10,7 +10,7 @@ Sys.setenv(VROOM_CONNECTION_SIZE=100000000)
 
 ##### DEPMAP FILES
 
-depmap_filenames=list(   copy_number='https://figshare.com/ndownloader/files/40448840',
+depmap_filenames=list(copy_number='https://figshare.com/ndownloader/files/40448840',
                transcriptomics='https://figshare.com/ndownloader/files/40449128',
                               mutations='https://figshare.com/ndownloader/files/40449638')
 ##### SANGER FILES
@@ -87,11 +87,12 @@ sanger_files<-function(fi,value){
           dplyr::select(improve_sample_id,other_id)|>
           distinct()
 
-        gmap<-genes|>
-            subset(gene_symbol%in%exp_file$symbol)|>
+      gvals <- intersect(exp_file$symbol,genes$gene_symbol)
+      gmap<-genes|>
+            subset(gene_symbol%in%gvals)|>
             distinct()
 
-        print('wide to long')
+      print('wide to long')
 
       res<-exp_file|>
         dplyr::select(other_id='model_id',gene_symbol='symbol',gatk_mean_log2_copy_ratio,source,data_type,cn_category)|>
@@ -289,11 +290,12 @@ sanger_files<-function(fi,value){
     missed<-full|>subset(is.na(improve_sample_id))|>
       dplyr::select(improve_sample_id,other_id)|>
       distinct()
-    print(paste('missing',nrow(missed),'identifiers'))
+    print(paste('missing',nrow(missed),' sample identifiers'))
     print(missed)
 
     full<-full|>
-      subset(!is.na(improve_sample_id))|>
+        subset(!is.na(improve_sample_id))|>
+        subset(!is.na(entrez_id))|>
       dplyr::select(-other_id)
 
     #write_csv(full,file=gzfile(fname))
@@ -340,6 +342,7 @@ depmap_files<-function(fi,value){
           dplyr::select(-entrez_id)|>
           left_join(genes)|>
           dplyr::select(other_id,entrez_id,copy_number)|>
+          subset(!is.na(entrez_id))|>
           distinct()
       ##these are messing things up
     #  res$entrez_id<-stringr::str_replace(res$entrez_id,'\\)','')
@@ -370,7 +373,8 @@ depmap_files<-function(fi,value){
       res<-res|>
         tidyr::separate(gene_region,into=c('gene_symbol','num','start','end'),sep='_')|>
         dplyr::left_join(genes)|>
-        dplyr::distinct()
+          dplyr::distinct()|>
+          subset(!is.na(entrez_id))
 
       colnames(res)[1]<-'other_id'
       vars=c('methylation','start','end')
@@ -423,6 +427,7 @@ depmap_files<-function(fi,value){
           dplyr::select(-entrez_par)|>
           left_join(genes)|>
           dplyr::select(other_id,entrez_id,transcriptomics)|>
+          subset(!is.na(entrez_id))|>
           distinct()
 
     #mutate(entrez_id=stringr::str_replace_all(entrez_par,'\\)|\\(',''))|>
@@ -489,6 +494,7 @@ depmap_files<-function(fi,value){
       print(missed)
 
       full<-full|>dplyr::select(c('entrez_id','improve_sample_id',vars))|>
+          subset(entrez_id%in%genes$entrez_id)|>
           subset(!is.na(improve_sample_id))|>
           dplyr::distinct()|>
           dplyr::mutate(source='Broad',study='DepMap')
 
@@ -5,11 +5,8 @@ library('tidyr')
 #this is a helper file that loads the data
 source_python("pubchem_retrieval.py")
 
-
-#if(!require('PharmacoGx')){
-#  BiocManager::install("PharmacoGx",force=TRUE)
 library('PharmacoGx')
-#}
+
 
 all.dsets<-PharmacoGx::availablePSets()
 
 
@@ -3,8 +3,7 @@
 #this is a helper file that loads the data
 #source("mapDrugsToPubchem.R")
 
-#if(!require('PharmacoGx')){
-#  BiocManager::install("PharmacoGx",force=TRUE)
+
 library('PharmacoGx')
 library(readr)
 library(dplyr)
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1 @@`
	`1`	`+python GetBeatAML.py --token $SYNAPSE_AUTH_TOKEN --drugs --drugFile $1`
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1 @@`
	`1`	`+python GetBeatAML.py --exp --token $SYNAPSE_AUTH_TOKEN --curSamples $1 --drugFile $2`