node_genome_mapping.Rmd

---
title: "node_genome_mapping"
output: html_document
date: "2024-11-06"
---

```{r}
library(readr)
library(tidyverse)
library(stringr)
blast_result <- read_table("workflow/out/blast/sample_1_0_02_blast_results_sample0-9_reference_metagenome.out", guess_max = 100000)

genome_seq_ids <- read_delim("workflow/out/blast/sample_1_reference_metagenome_ids.txt", delim = ";", escape_double = FALSE, trim_ws = TRUE, guess_max = 200)

tax_profile <- read_csv("workflow/out/blast/taxonomic_profile_1.csv")

query_ids <- read_table("workflow/out/blast/sample_1_0_02_ids.txt")

```


```{r}
blast_result_filtered <- blast_result %>%
  group_by(qseqid, sseqid) %>%
  distinct() %>%
  ungroup()

cat("original nrows in blast result:", nrow(blast_result), "\n")
cat("distinct rows in blast result with no duplicate query-target pairs (only one hit per query per target) :", nrow(blast_result_filtered), "\n")

qseqs_with_hits <- unique(blast_result_filtered$qseqid)
qseqs_no_hits <- setdiff(query_ids$qseqid, qseqs_with_hits)

cat("n queries with blast hits:", length(qseqs_with_hits), "\n")
cat("calculated n queries with NO blast hits:", length(qseqs_no_hits), "\n")

exp_n_qseqs_no_hits <- length(query_ids$qseqid) - length(qseqs_with_hits)
cat("expected n queries with NO blast hits:", exp_n_qseqs_no_hits, "\n")

# investigate seqs with no blast hits
View(as.data.frame(qseqs_no_hits))

write_lines(qseqs_no_hits, "workflow/out/blast/qseqs_no_blast_hits.txt")
```


```{r}
tax_table <- tax_profile %>%
  rowwise() %>%
  mutate(kingdom = strsplit(TAXPATHSN, "\\|")[[1]][1], 
         phylum = strsplit(TAXPATHSN, "\\|")[[1]][2],
         class = strsplit(TAXPATHSN, "\\|")[[1]][3],
         order = strsplit(TAXPATHSN, "\\|")[[1]][4],
         family = strsplit(TAXPATHSN, "\\|")[[1]][5],
         genus = strsplit(TAXPATHSN, "\\|")[[1]][6],
         species = strsplit(TAXPATHSN, "\\|")[[1]][7],
         strain = strsplit(TAXPATHSN, "\\|")[[1]][8])
  # mutate(species_stripped = paste(strsplit(species, " ")[[1]][1:2], collapse = " "))


genome_node_clusters <- blast_result_filtered %>%
  rowwise %>%
  mutate(node = strsplit(qseqid, ":")[[1]][1]) %>%
  left_join(., genome_seq_ids, by = c("sseqid" = "seqid")) %>%
  select(node, genome, info) %>%
  distinct() %>%
  mutate(species = case_when(genome == "Erysipelotrichaceae bacterium I46" ~ genome,
                             genome == "Actinomyces sp. oral taxon 414 strain F0588" ~ "Actinomyces sp. oral taxon 414",
                             genome == "Coriobacteriaceae bacterium 68-1-3" ~ genome,
                             !str_detect(genome, "\\bsp\\.") ~ 
                               paste(strsplit(genome, " ")[[1]][1:2], collapse = " "),
                             str_detect(genome, "\\bsp\\.") ~ 
                               paste(strsplit(genome, " ")[[1]][1:3], collapse = " "))) %>%
  left_join(., tax_table, by = c("species")) %>%
  filter(!is.na(genome))

genome_node_clusters[genome_node_clusters == ""] <- NA

write.csv("workflow/out/node_classification/nodes_by_genome_multilabel.csv")

species_node_clusters <- genome_node_clusters %>%
  select(node, species) %>%
  filter(!is.na(species)) %>%
  distinct() %>%
  group_by(node) %>%
  summarise(species = paste(species, collapse = ";")) %>%
  distinct()

write.csv(species_node_clusters, "workflow/out/taxonomy/sample_1_0_02_nodes_by_species_multilabel.csv")

genus_node_clusters <- genome_node_clusters %>%
  select(node, genus) %>%
  filter(!is.na(genus)) %>%
  distinct() %>%
  group_by(node) %>%
  summarise(species = paste(genus, collapse = ";")) %>%
  distinct()

write.csv(genus_node_clusters, "workflow/out/taxonomy/sample_1_0_02_nodes_by_genera_multilabel.csv")

genus_node_clusters <- genome_node_clusters %>%
  rowwise() %>%
  mutate(genus = ifelse(is.na(genus),
                        strsplit(genome, " ")[[1]][1], 
                        genus)) %>%
  select(node, genus, Genera) %>%
  distinct() %>%
  group_by(genus) %>% 
  mutate(Genera = case_when(is.na(Genera) ~ first(Genera[!is.na(Genera)]), 
                            TRUE ~ Genera)) %>%
  ungroup()

genus_node_clusters[genus_node_clusters == ""] <- NA

# manually adding missing values for Genera and genus heh
genus_node_clusters$Genera <- as.character(genus_node_clusters$Genera)
genus_node_clusters$Genera[genus_node_clusters$genus == "Acetivibrio"] <- "35829"
genus_node_clusters$Genera[genus_node_clusters$genus == "Anaerotignum"] <- "2039240"
genus_node_clusters$Genera[genus_node_clusters$genus == "Peptoclostridium"] <- "1481960"


genus_node_clusters$genus[genus_node_clusters$Genera == "128827"] <- "Erysipelotrichaceae"
genus_node_clusters$genus[genus_node_clusters$Genera == "39491"] <- "Agathobacter"
genus_node_clusters$genus[genus_node_clusters$Genera == "2815775"] <- "Berryella"

genus_node_clusters_filtered <- genus_node_clusters %>%
  select(node, genus) %>%
  filter(!is.na(genus)) %>%
  distinct() %>%
  group_by(node) %>%
  mutate(mult_genera = ifelse(n() > 1, 
                               "multiple_genera", 
                                genus)) %>%
  ungroup() %>%
  select(node, mult_genera) %>%
  distinct()

write.csv(genus_node_clusters_filtered, "workflow/out/blast/sample1_nodes_by_genus.csv")
write.csv(species_node_clusters, "workflow/out/blast/sample1_nodes_by_species.csv")


# determine how we should group clusters by on a genus level -- by genus or genera
nrow(subset(genus_node_clusters, is.na(genus)))
nrow(subset(genus_node_clusters, is.na(Genera)))
# way more rows have values for Genera so I guess we'll use this ugh 


```