added udpated gene file

sgosline · sgosline · commit 585035a792bf · 2025-01-22T12:32:32.000-08:00
diff --git a/build/genes/00-buildGeneFile.R b/build/genes/00-buildGeneFile.R
@@ -10,6 +10,8 @@ library(dplyr)
 ##get entrez ids to symbol
 entrez<-as.data.frame(org.Hs.egALIAS2EG)
 
+sym <- as.data.frame(org.Hs.egSYMBOL)
+
 ##get entriz ids to ensembl
 ens<-as.data.frame(org.Hs.egENSEMBL2EG)
 
@@ -22,21 +24,30 @@ ensembl <- useEnsembl(biomart = "genes", dataset = "hsapiens_gene_ensembl")
 tab <- getBM(attributes=c('ensembl_gene_id'),filters='biotype', values=c('protein_coding'),mart=ensembl)
 
 
-joined.df<-entrez%>%full_join(ens)%>%
-  dplyr::rename(entrez_id='gene_id',gene_symbol='alias_symbol',other_id='ensembl_id')%>%
-    mutate(other_id_source='ensembl_gene')|>
-    mutate(is_protein=other_id%in%tab$ensembl_gene_id)|>
-    subset(is_protein)|>
-    dplyr::select(-is_protein)
+joined.df<-entrez|>
+    left_join(sym)|>
+    dplyr::rename(entrez_id='gene_id',gene_symbol='symbol',other_id='alias_symbol',gene_symbol='symbol')%>%
+    mutate(other_id_source='entrez_alias')
+
+##now get aliases from ensembl
+edf <- sym|>
+    inner_join(ens)|>
+    dplyr::rename(entrez_id='gene_id',gene_symbol='symbol',other_id='ensembl_id')%>%
+    mutate(other_id_source='ensembl_gene')
+
 
-tdf<-entrez|>
-    full_join(enst)|>
-    dplyr::rename(entrez_id='gene_id',gene_symbol='alias_symbol',other_id='trans_id')|>
-    subset(entrez_id%in%joined.df$entrez_id)|>
-    subset(gene_symbol%in%joined.df$gene_symbol)|>
+tdf<-sym|>
+    inner_join(enst)|>
+    dplyr::rename(entrez_id='gene_id',gene_symbol='symbol',other_id='trans_id')|>
+    subset(entrez_id%in%edf$entrez_id)|>
+#    subset(gene_symbol%in%ed.df$gene_symbol)|>
     dplyr::mutate(other_id_source='ensembl_transcript')
 
-joined.df<-rbind(joined.df,tdf)|>
+
+prots<-subset(edf,other_id%in%tab$ensembl_gene_id)
+
+full.df<-rbind(joined.df,edf,tdf)|>
+    subset(entrez_id%in%prots$entrez_id)|>
     distinct()
 
 #save to file and version
diff --git a/build/pancpdo/02a-getPancPDODataFromSynapse.py b/build/pancpdo/02a-getPancPDODataFromSynapse.py
@@ -101,6 +101,7 @@ def main():
 
     sc = synapseclient.login(args.token)
 
+    missingsamples = []
     if args.copy:
         ##query synapse view for files
         cnvs = sc.tableQuery("select * from syn64608378 where parentId='syn64608163'").asDataFrame()
@@ -115,6 +116,7 @@ def main():
                 sampid = samps.loc[samps.other_id==sname]['improve_sample_id'].values[0]
             else:
                 print('Missing sample id for '+sname)
+                missingsamples.append('copy,'+sname)
                 continue
             sampid = samps.loc[samps.other_id==sname]['improve_sample_id'].values[0]
             res = parseCNVFile(path,sampid, genes)
@@ -134,13 +136,14 @@ def main():
                 sampid = samps.loc[samps.other_id==sname]['improve_sample_id'].values[0]
             else:
                 print('Missing sample id for '+sname)
+                missingsamples.append('mutation,'+sname)
                 continue
             path = sc.get(sid).path
             sampid = samps.loc[samps.other_id==sname]['improve_sample_id'].values[0]
             res = parseMutFile(path,sampid, genes)
             alldats.append(res)
         newmut = pd.concat(alldats)
         newmut.to_csv("/tmp/pancpdo_mutations.csv.gz",compression='gzip',index=False)
-            
+    missingsamples.to_csv('missing.csv')
 if __name__=='__main__':
     main()