minor tweaks

DanHUMassMed · DanHUMassMed · commit 8cadcdcf281b · 2024-06-12T15:08:48.000-04:00
diff --git a/bin/run_deseq2.R b/bin/run_deseq2.R
@@ -87,6 +87,46 @@ create_alldetected <- function(res, counts_data) {
    return(as.data.frame(joined_data))
 }
 
+#######################################################################################
+## Added but not used 
+prepGroup <- function(conds = NULL, cols = NULL, metadata = NULL, covariates = NULL) {
+    if (is.null(conds) || is.null(cols)) return (NULL)
+    coldata <- data.frame(cbind(cols, conds))
+    coldata$conds <- factor(coldata$conds)
+    colnames_coldata <- c("libname", "group")
+    if(!is.null(covariates)){
+        if(covariates!="NoCovariate"){
+            sample_column_ind <- which(apply(metadata, 2, function(x) sum(x %in% cols) == length(cols))) 
+            sample_column <- colnames(metadata)[sample_column_ind]
+            covariates <- metadata[match(cols,metadata[,sample_column]), covariates, drop = FALSE]
+            for(i in 1:ncol(covariates)){
+                cur_covariate <- covariates[,i]
+                cur_covariate <- factor(cur_covariate)
+                coldata <- data.frame(cbind(coldata, cur_covariate))
+                colnames_coldata <- c(colnames_coldata, paste0("covariate",i))   
+            }
+        }
+    }
+    colnames(coldata) <- colnames_coldata
+    coldata
+}
+
+mrn_normalize <- function(df) {
+    
+    columns <- colnames(df)
+    conds <- columns
+    coldata <- prepGroup(conds, columns)
+    df[, columns] <- apply(df[, columns], 2,
+                          function(x) as.integer(x))
+    dds <- DESeqDataSetFromMatrix(countData = as.matrix(df),
+                                  colData = coldata, design = ~group)
+    dds <- estimateSizeFactors(dds)
+    norm <- counts(dds, normalized=TRUE)
+    norm_df <- as.data.frame(norm)
+    return(norm_df)
+}
+#######################################################################################
+
 filter_and_save_csv <- function(alldetected, foldChange_cutoff, padj_cutoff, direction_change, out_directory_path) {
    
   # Filter rows based on the specified conditions
diff --git a/bin/stage_results.sh b/bin/stage_results.sh
@@ -20,6 +20,18 @@ for dir in "${sub_dirs[@]}"; do
     mkdir -p ${stage_dir}/${dir}
 done
 
+# Function to copy directories
+copy_deseq_dirs() {
+    local src_dir="$1"
+    local dest_dir="$2"
+
+    for dir in "$src_dir"/deseq_*; do
+        if [ -d "$dir" ]; then
+            cp -r "$dir" "$dest_dir"
+        fi
+    done
+}
+
 
 # Stage 00-Overview
 cp ${project_results}/overview_report.pdf ${stage_dir}/${sub_dirs[0]}/
@@ -38,7 +50,8 @@ cp ${project_results}/rsem_summary/* ${stage_dir}/${sub_dirs[2]}/
 cp ${project_data}/wormbase/*.geneIDs.csv ${stage_dir}/${sub_dirs[2]}/
 
 # Stage 03-Differential_Expression
-find "${project_results}" -type d -name "deseq_*" -exec cp -r {} "${stage_dir}/${sub_dirs[3]}/" \; 
+#find "${project_results}" -type d -name "deseq_*" -exec cp -r {} "${stage_dir}/${sub_dirs[3]}/" \; 
+copy_deseq_dirs "$project_results" "${stage_dir}/${sub_dirs[3]}"
 cp ${project_results}/deseq_report.pdf ${stage_dir}/${sub_dirs[3]}/  
 
 # Stage 04-Functional_Analysis
diff --git a/lib/WorkflowUtils.groovy b/lib/WorkflowUtils.groovy
@@ -31,6 +31,9 @@ class WorkflowUtils {
         return retVal
     }
 
-
+    public static boolean directoryExists(String path) {
+        File dir = new File(path);
+        return dir.exists() && dir.isDirectory();
+    }
 
 }
diff --git a/modules/fastqc/main.nf b/modules/fastqc/main.nf
@@ -53,6 +53,7 @@ process DESEQ_REPORT {
     script:
     """
     cp -r ${projectDir}/assests/md_to_pdf/* ./results
+    cp -r ${launchDir}/data/wormbase/*.geneIDs.csv ./results
     cp ${report_config} ./results
     cd results
     deseq_report.py --report-config "${report_config}" --input-path .
diff --git a/nextflow.config b/nextflow.config
@@ -26,13 +26,13 @@ process {
     }
 
     withLabel:process_low  {
-        queue    = 'short'
+        queue    = 'gpu'
         memory   = '16G'
         cpus     = '2'
     }
 
     withLabel:process_medium  {
-        queue    = 'short'
+        queue    = 'gpu'
         memory   = '24G'
         cpus     = '4'
     }
diff --git a/workflows/00-create-star-rsem-index.nf b/workflows/00-create-star-rsem-index.nf
@@ -26,9 +26,14 @@ include { STAR_INDEX           } from '../modules/star'
  * main script flow
  */
 workflow CREATE_STAR_RSEM_INDEX {
-  GET_WORMBASE_DATA_WF( params.wormbase_version )
-  STAR_INDEX( GET_WORMBASE_DATA_WF.out.genome_file, GET_WORMBASE_DATA_WF.out.annotation_file )
-  RSEM_INDEX( GET_WORMBASE_DATA_WF.out.genome_file, GET_WORMBASE_DATA_WF.out.annotation_file )
+  if(WorkflowUtils.directoryExists("${params.data_dir}/wormbase")){
+    STAR_INDEX( params.genome_file, params.annotation_file )
+    RSEM_INDEX( params.genome_file, params.annotation_file )
+  }else{
+    GET_WORMBASE_DATA_WF( params.wormbase_version )
+    STAR_INDEX( GET_WORMBASE_DATA_WF.out.genome_file, GET_WORMBASE_DATA_WF.out.annotation_file )
+    RSEM_INDEX( GET_WORMBASE_DATA_WF.out.genome_file, GET_WORMBASE_DATA_WF.out.annotation_file )
+  }
 
 }
 

Original file line number	Diff line number	Diff line change
`@@ -31,6 +31,9 @@ class WorkflowUtils {`
`31`	`31`	`return retVal`
`32`	`32`	`}`
`33`	`33`
`34`		`-`
	`34`	`+ public static boolean directoryExists(String path) {`
	`35`	`+ File dir = new File(path);`
	`36`	`+ return dir.exists() && dir.isDirectory();`
	`37`	`+ }`
`35`	`38`
`36`	`39`	`}`
Original file line number	Diff line number	Diff line change
`@@ -26,13 +26,13 @@ process {`
`26`	`26`	`}`
`27`	`27`
`28`	`28`	`withLabel:process_low {`
`29`		`- queue = 'short'`
	`29`	`+ queue = 'gpu'`
`30`	`30`	`memory = '16G'`
`31`	`31`	`cpus = '2'`
`32`	`32`	`}`
`33`	`33`
`34`	`34`	`withLabel:process_medium {`
`35`		`- queue = 'short'`
	`35`	`+ queue = 'gpu'`
`36`	`36`	`memory = '24G'`
`37`	`37`	`cpus = '4'`
`38`	`38`	`}`