Finishing up data prep for bladder pdos

RubyFore · RubyFore · commit a33d7a41635c · 2025-04-01T10:41:22.000-07:00
diff --git a/build/bladderpdo/00_createBladderPDOSampleFile.py b/build/bladderpdo/00_createBladderPDOSampleFile.py
@@ -47,4 +47,4 @@ def get_bladder_pdo_samples(synLoginObject, maxval):
 
     bladder_pdo_samples = get_bladder_pdo_samples(synObject, prev_max_improve_id)
 
-    bladder_pdo_samples.to_csv("bladderpdo_samples.csv", index=False)
+    bladder_pdo_samples.to_csv("/tmp/bladderpdo_samples.csv", index=False)
diff --git a/build/bladderpdo/01_createBladderPDOOmicsFiles.py b/build/bladderpdo/01_createBladderPDOOmicsFiles.py
@@ -123,10 +123,10 @@ def get_bladder_pdo_copynumber(synObject, samples, genes):
     samples = pd.read_csv(args.samples)
 
     if args.expression:
-        get_bladder_pdo_transcriptomics(args.geolink, samples, genes).to_csv("bladderpdo_transcriptomics.csv", index=False)
+        get_bladder_pdo_transcriptomics(args.geolink, samples, genes).to_csv("/tmp/bladderpdo_transcriptomics.csv", index=False)
 
     if args.mutation:
-        get_bladder_pdo_mutations(synObject, samples, genes).to_csv('bladderpdo_mutations.csv', index=False)
+        get_bladder_pdo_mutations(synObject, samples, genes).to_csv('/tmp/bladderpdo_mutations.csv', index=False)
     
     if args.copy:
-        get_bladder_pdo_copynumber(synObject, samples, genes).to_csv("bladderpdo_copynumber.csv", index=False)
+        get_bladder_pdo_copynumber(synObject, samples, genes).to_csv("/tmp/bladderpdo_copynumber.csv", index=False)
diff --git a/build/bladderpdo/03_createBladderPDOExperimentFile.py b/build/bladderpdo/03_createBladderPDOExperimentFile.py
@@ -0,0 +1,71 @@
+import synapseclient
+import pandas as pd
+
+
+def get_bladder_pdo_experiments(synObject, samples, drugs):
+    # get list of syn id info
+    files = list(syn.getChildren(parent='syn64765430', includeTypes=['file']))
+    # load sample sheet and format _ to .
+    # load conversion table and remove trailing _T
+    conversion_table = syn.get(files[50]['id'])
+    conversion_table_df = pd.read_excel(conversion_table.path, header=None)
+    conversion_table_df[2] = conversion_table_df[1].str.rsplit("_", expand=True)[0]#.replace(".", "_")
+    conversion_table_df[3] = conversion_table_df[2].str.replace(".", "_")
+    #print(conversion_table_df.head)
+
+    # initiate empty pd.dat.frame
+    drug_df = pd.DataFrame()
+    # for each drug, 
+    for i in range(len(files)-4):
+        drug_table_syn =syn.get(files[i]['id'])
+        drug_table = pd.read_csv(drug_table_syn.path, sep="\t")
+    # melt
+    # link to conversion table
+    # link to sample sheet
+    # Rename, add columns
+        melted_single_drug = drug_table.melt(id_vars = 'Unnamed: 0', value_vars = drug_table.columns[1:], var_name="sample")
+        melted_single_drug['linkID'] = melted_single_drug['sample'].str.split(".", expand=True)[0] 
+        drugdata = melted_single_drug.merge(conversion_table_df, left_on = 'linkID', right_on = 0, how='left')[['Unnamed: 0', 'value', 3]]
+        #print(drugdata.head)
+        drugdata_with_improvesample = drugdata.merge(samples, left_on = 3, right_on='common_name')
+    
+    #   print(drugdata_with_improvesample.head)
+        drugdata_with_improvesample = drugdata_with_improvesample[['Unnamed: 0', 'value', 'improve_sample_id']]
+        #print(drugdata_with_improvesample.columns)
+        drugdata_with_improvesample = drugdata_with_improvesample.rename({"Unnamed: 0" : "DOSE", 'value' : 'GROWTH'}, axis=1)
+        #print(drugdata_with_improvesample.columns)
+
+        selected_drugdata = drugdata_with_improvesample
+        selected_drugdata['chem_name'] = files[i]['name'].split(")")[1].split("(")[0].split(".")[0].strip().lower()
+        #print(selected_drugdata.head)
+        drugdata_with_both_improveIds = selected_drugdata.merge(drugs[['improve_drug_id', 'chem_name']], how='left')
+        final_drugdata = drugdata_with_both_improveIds[['DOSE', 'GROWTH', 'improve_sample_id', 'improve_drug_id']]
+        final_drugdata = final_drugdata.rename({'improve_drug_id' : "Drug"}, axis=1)
+        final_drugdata['study'] = "Lee etal 2018 Bladder PDOs"
+        final_drugdata['source'] = "Synapse"
+        final_drugdata['time'] = 6
+        final_drugdata['time_unit'] = 'days'
+        #print(final_drugdata.head)
+        # append to dataframe
+        dose_resp_df = pd.concat([drug_df, final_drugdata])
+    
+    return dose_resp_df
+
+
+if __name__ == "__main__": 
+    parser = argparse.ArgumentParser()
+    parser.add_argument('-t' '--token', help='Synapse authentication token')
+    parser.add_argument('-s', '--curSampleFile', help='Sample mapping file for bladder pdo samples')
+    parser.add_argument('-d', '--drugfile', help='Drug mapping file for bladder pdo samples')
+    parser.add_argument('-o', '--output', default = '/tmp/bladderpdo_doserep.tsv',help='Output file to be read into curve fitting code')
+
+    args = parser.parse_args()
+    print("Logging into Synapse")
+    PAT = args.token
+    synObject = synapseclient.login(authToken=PAT)
+    drug_df = pd.read_csv(args.drugfile, sep='\t')
+    samples_df = pd.read_csv(args.curSampleFile)
+
+    doseresponse_data = get_bladder_pdo_experiments(synObject, samples_df, drug_df)
+    doseresponse_data.to_csv(args.output, sep='\t')
+
diff --git a/build/bladderpdo/build_drugs.sh b/build/bladderpdo/build_drugs.sh
@@ -5,10 +5,10 @@ trap 'echo "Error on or near line $LINENO while executing: $BASH_COMMAND"; exit
 
 echo "Running script with token and drugFile $1"
 # for running locally (from build directory):
-python3 -m bladderpdo.02_createBladderPDODrugsFile --token $SYNAPSE_AUTH_TOKEN -d $1 -o ./bladderpdo/bladderpdo_drugs.tsv
-#python3 02_createBladderPDODrugsFile.py --token $SYNAPSE_AUTH_TOKEN -d $1 -o /tmp/bladderpdo_drugs.tsv
+#python3 -m bladderpdo.02_createBladderPDODrugsFile --token $SYNAPSE_AUTH_TOKEN -d $1 -o ./bladderpdo/bladderpdo_drugs.tsv
+python3 02_createBladderPDODrugsFile.py --token $SYNAPSE_AUTH_TOKEN -d $1 -o /tmp/bladderpdo_drugs.tsv
 
 echo "Running build_drug_desc.py..."
 #for running locally: 
-python3 utils/build_drug_desc.py --drugtable ./bladderpdo/bladderpdo_drugs.tsv --desctable ./bladderpdo/bladderpdo_drug_descriptors.tsv.gz
-#python3 build_drug_desc.py --drugtable /tmp/bladderpdo_drugs.tsv --desctable /tmp/bladderpdo_drug_descriptors.tsv.gz
+#python3 utils/build_drug_desc.py --drugtable ./bladderpdo/bladderpdo_drugs.tsv --desctable ./bladderpdo/bladderpdo_drug_descriptors.tsv.gz
+python3 build_drug_desc.py --drugtable /tmp/bladderpdo_drugs.tsv --desctable /tmp/bladderpdo_drug_descriptors.tsv.gz
diff --git a/build/bladderpdo/build_exp.sh b/build/bladderpdo/build_exp.sh
@@ -0,0 +1,9 @@
+#!/bin/bash
+set -euo pipefail
+
+trap 'echo "Error on or near line $LINENO while executing: $BASH_COMMAND"; exit 1' ERR
+
+echo "Running 04-drug_dosage_and_curves.py with drugfile $2 and curSampleFile $1"
+python 03_createBladderPDOExperimentFile.py --token $SYNAPSE_AUTH_TOKEN --drugfile $2 --curSampleFile $1 --output /tmp/bladderpdo_doserep.tsv
+
+python fit_curve.py --input /tmp/bladderpdo_doserep.tsv --output /tmp/bladderpdo_doserep.tsv
diff --git a/build/bladderpdo/build_omics.sh b/build/bladderpdo/build_omics.sh
@@ -5,8 +5,8 @@ trap 'echo "Error on or near line $LINENO while executing: $BASH_COMMAND"; exit
 
 echo "Running script with token, curSamples $2, and genes $1."
 # for mutation data (-m)
-#python3 01_createBladderPDOOmicsFiles.py --token $SYNAPSE_AUTH_TOKEN -s $2 -g $1 -m
+python3 01_createBladderPDOOmicsFiles.py --token $SYNAPSE_AUTH_TOKEN -s $2 -g $1 -m
 # for expressiondata (-e)
-#python3 01_createBladderPDOOmicsFiles.py --token $SYNAPSE_AUTH_TOKEN -s $2 -g $1 -e
+python3 01_createBladderPDOOmicsFiles.py --token $SYNAPSE_AUTH_TOKEN -s $2 -g $1 -e
 # for copynumber
 python3 01_createBladderPDOOmicsFiles.py --token $SYNAPSE_AUTH_TOKEN -s $2 -g $1 -c
diff --git a/build/bladderpdo/requirements.R b/build/bladderpdo/requirements.R
@@ -0,0 +1,4 @@
+install.packages("BiocManager")
+BiocManager::install("GEOquery",update=TRUE,ask=FALSE)
+BiocManager::install("GenomicRanges",update=TRUE,ask=FALSE)
+BiocManager::install("Homo.sapiens",update=TRUE,ask=FALSE)
diff --git a/build/bladderpdo/requirements.txt b/build/bladderpdo/requirements.txt
@@ -0,0 +1,16 @@
+pandas
+synapseclient
+argparse
+numpy==1.26.4
+matplotlib
+scikit-learn
+mordredcommunity
+rdkit
+wget
+gzip
+subprocess
+math
+tqdm
+itertools
+scipy
+multiprocessing
diff --git a/build/build_dataset.py b/build/build_dataset.py
@@ -45,7 +45,8 @@ def process_docker(dataset,validate):
         'pancpdo': ['pancpdo'],
         'cptac': ['cptac'],
         'genes': ['genes'],
-        'upload': ['upload']
+        'upload': ['upload'], 
+        'bladderpdo': ['bladderpdo']
     }
 
     # Collect container names to build based on the dataset provided. Always build 'genes'.
@@ -125,7 +126,8 @@ def process_omics(executor, dataset, should_continue):
         'cptac': ['copy_number', 'mutations', 'proteomics', 'transcriptomics'],
         'hcmi': ['mutations', 'transcriptomics'],
         'pancpdo': ['transcriptomics'],
-        'mpnstpdx':['copy_number', 'mutations', 'proteomics', 'transcriptomics']
+        'mpnstpdx':['copy_number', 'mutations', 'proteomics', 'transcriptomics'], 
+        'bladderpdo': ['copy_number', 'mutations', 'transcriptomics']
     }
 
     expected_omics = dataset_omics_files.get(dataset, [])
diff --git a/build/docker/Dockerfile.bladderpdo b/build/docker/Dockerfile.bladderpdo
@@ -0,0 +1,46 @@
+FROM r-base:4.4.1
+ENV DEBIAN_FRONTEND=noninteractive
+RUN apt-get update  --fix-missing
+#RUN apt-get install -y --fix-missing --allow-unauthenticated build-essential libpq-dev python3.10 python3-pip python3-setuptools python3-dev python3-venv libcurl4-openssl-dev libxml2-dev libglpk-dev
+
+# RUN apt-get install -y --fix-missing --allow-unauthenticated build-essential python3-pip python3-setuptools python3-dev python3-venv libcurl4-openssl-dev libglpk-dev libxml2-dev libpq-dev
+
+RUN apt-get install -y --fix-missing --allow-unauthenticated \
+    build-essential \
+    python3-pip \
+    python3-setuptools \
+    python3-dev \
+    python3-venv \
+    libcurl4-openssl-dev \
+    libglpk-dev \
+    libxml2-dev \
+    libpq-dev \
+    ca-certificates
+
+RUN python3 -m venv /opt/venv
+RUN /opt/venv/bin/pip3 install --upgrade pip
+
+
+# Set MPLCONFIGDIR to a writable directory
+ENV MPLCONFIGDIR=/app/tmp/matplotlib
+RUN mkdir -p /app/tmp/matplotlib
+
+
+ENV PYTHONPATH "${PYTHONPATH}:/app"
+WORKDIR /app
+
+ADD build/broad_sanger/obtainGSMidLink.R.R ./
+ADD build/broad_sanger/CNV-segfile-annotation.R ./
+ADD build/broad_sanger/*py ./
+ADD build/broad_sanger/*sh ./
+
+ADD build/utils/* ./
+
+ADD build/bladderpdo/requirements.txt .
+ADD build/bladderpdo/exp_requirements.r .
+
+# installing r libraries
+RUN Rscript exp_requirements.r
+
+# installing python libraries
+RUN /opt/venv/bin/pip3 install -r requirements.txt
diff --git a/build/docker/docker-compose.yml b/build/docker/docker-compose.yml
@@ -61,6 +61,7 @@ services:
         HTTPS_PROXY: ${HTTPS_PROXY}
     platform: linux/amd64
     image: mpnstpdx:latest
+
   cptac:
     build:
       context: ../../
@@ -70,6 +71,15 @@ services:
     platform: linux/amd64
     image: cptac:latest
 
+   bladderpdo:
+    build:
+      context: ../../
+      dockerfile: build/docker/Dockerfile.bladderpdo
+      args:
+        HTTPS_PROXY: ${HTTPS_PROXY}
+    platform: linux/amd64
+    image: bladderpdo:latest
+
   genes:
     build:
       context: ../../

Original file line number	Diff line number	Diff line change
`@@ -47,4 +47,4 @@ def get_bladder_pdo_samples(synLoginObject, maxval):`
`47`	`47`
`48`	`48`	`bladder_pdo_samples = get_bladder_pdo_samples(synObject, prev_max_improve_id)`
`49`	`49`
`50`		`- bladder_pdo_samples.to_csv("bladderpdo_samples.csv", index=False)`
	`50`	`+ bladder_pdo_samples.to_csv("/tmp/bladderpdo_samples.csv", index=False)`