Replaced old 00-buildGeneFile.R with new version from Sara

jjacobson95 · web-flow · commit 358e95cc4595 · 2025-01-22T12:58:15.000-08:00
diff --git a/build/genes/00-buildGeneFile.R b/build/genes/00-buildGeneFile.R
@@ -10,6 +10,8 @@ library(dplyr)
 ##get entrez ids to symbol
 entrez<-as.data.frame(org.Hs.egALIAS2EG)
 
+sym <- as.data.frame(org.Hs.egSYMBOL)
+
 ##get entriz ids to ensembl
 ens<-as.data.frame(org.Hs.egENSEMBL2EG)
 
@@ -22,26 +24,34 @@ ensembl <- useEnsembl(biomart = "genes", dataset = "hsapiens_gene_ensembl")
 tab <- getBM(attributes=c('ensembl_gene_id'),filters='biotype', values=c('protein_coding'),mart=ensembl)
 
 
-joined.df<-entrez%>%full_join(ens)%>%
-  dplyr::rename(entrez_id='gene_id',gene_symbol='alias_symbol',other_id='ensembl_id')%>%
-    mutate(other_id_source='ensembl_gene')|>
-    mutate(is_protein=other_id%in%tab$ensembl_gene_id)|>
-    subset(is_protein)|>
-    dplyr::select(-is_protein)
+joined.df<-entrez|>
+    left_join(sym)|>
+    dplyr::rename(entrez_id='gene_id',gene_symbol='symbol',other_id='alias_symbol',gene_symbol='symbol')%>%
+    mutate(other_id_source='entrez_alias')
+
+##now get aliases from ensembl
+edf <- sym|>
+    inner_join(ens)|>
+    dplyr::rename(entrez_id='gene_id',gene_symbol='symbol',other_id='ensembl_id')%>%
+    mutate(other_id_source='ensembl_gene')
+
 
-tdf<-entrez|>
-    full_join(enst)|>
-    dplyr::rename(entrez_id='gene_id',gene_symbol='alias_symbol',other_id='trans_id')|>
-    subset(entrez_id%in%joined.df$entrez_id)|>
-    subset(gene_symbol%in%joined.df$gene_symbol)|>
+tdf<-sym|>
+    inner_join(enst)|>
+    dplyr::rename(entrez_id='gene_id',gene_symbol='symbol',other_id='trans_id')|>
+    subset(entrez_id%in%edf$entrez_id)|>
+#    subset(gene_symbol%in%ed.df$gene_symbol)|>
     dplyr::mutate(other_id_source='ensembl_transcript')
 
-joined.df<-rbind(joined.df,tdf)|>
+
+prots<-subset(edf,other_id%in%tab$ensembl_gene_id)
+
+full.df<-rbind(joined.df,edf,tdf)|>
+    subset(entrez_id%in%prots$entrez_id)|>
     distinct()
 
 #save to file and version
 write.table(joined.df,'/tmp/genes.csv',sep=',',row.names=F,quote=T)
 
 ##store this file somewhere!
 
-