-
Notifications
You must be signed in to change notification settings - Fork 1
/
Copy pathP1.Rmd
692 lines (523 loc) · 29.1 KB
/
P1.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
---
title: "Presentación de Estadistica y probabilidad"
output: html_notebook
---
```{r, echo = FALSE}
rm(list=ls())
```
```{r, echo = FALSE}
library(readr)
library(dplyr)
library("rgdal")
library("rgeos")
library("sp")
library("tmap")
library("leaflet")
```
```{r, echo = FALSE}
DD1920 <- read_csv("Denuncias1920.csv",col_types=cols(Suelo = col_number()))
DD18 <- read_csv("Denuncias-18.csv")
CAS <- read_csv("CAS.csv", col_types = cols(Aluminio = col_number(),
Antimonio = col_number(), `Arsénico` = col_number(),
Bario = col_number(), Berilio = col_number(),
Bismuto = col_number(), Boro = col_number(),
Cadmio = col_number(), Calcio = col_number(),
Cerio = col_number(), `Cianuro libre` = col_number(),
Cobalto = col_number(), Cobre = col_number(),
Cromo = col_number(), `Estaño` = col_number(),
Estroncio = col_number(), Fósforo = col_number(),
Hierro = col_number(), Litio = col_number(),
Magnesio = col_number(), Manganeso = col_number(),
Mercurio = col_number(), Molibdeno = col_number(),
`Níquel` = col_number(), Plata = col_number(), Zona = col_character(),
Plomo = col_number(), Potasio = col_number(),
Selenio = col_number(),Sodio = col_number(), Talio = col_number(),
Titanio = col_number(), Torio = col_number(), Uranio = col_number(), Zinc = col_number()))
```
# Determinar la relacion entre los posibles contaminantes ambientales y el suelo
## Interantes
#### -David León
#### -Harold Canto Vidal
#### -Marcelo Surco Salas
#### -Gonzalo Suárez
## Objetivo
Analizar la base de datos de los componentes de suelo por zonas tomado aleatoriamente para determinar suelos contaminados y su posible relación entre los compuestos.
## Objetivos especficos
#### Determinar los suelos contaminados.
#### Analizar si la hipótesis nula en los elementos del suelo se rechaza o no.
#### Determinar posible correlación entre los elementos.
## Importancia
Nos permite hacer una proyección de la posible contaminación de los suelos. Este tipo de información ayuda a científicos a ver posibles soluciones para el tratamiento del suelo o futuros estudios académicos.
## Observaciones completas y datos faltantes
Componentes ambientales del suelo-EAT
En componentes ambientales del suelo vemos que las observaciones incompletas y las observaciones son iguales. Se debe a que los elementos que se analizan no se encuentran en todos los suelos donde se tomaron la muestra
```{r echo=FALSE}
Observaciones <- c("Observaciones","Observaciones incompletas","Datos faltantes", "Variables Totales")
Cantidad <- c(nrow(CAS),sum(!complete.cases(CAS)),sum(is.na(CAS)), ncol(CAS))
OB2 <- data.frame(Observaciones,Cantidad)
OB2
```
## Variables
### Variables Nominales
Bases de datos de las denuncias las variables a usar son:
```{r, echo =FALSE}
Variables <- c("Zonas","Departamento", "Provincia" ,"Distrito", "Actividad económica","Tipo de contaminacion","Estado de la demanda")
`Tipo_de_Variable` <- c("Nominal","Nominal","Nominal","Nominal","Nominal", "Nominal")
Restricciones <- c("En el Peru","En el Peru", "En el Peru", "Legales","Agua, SUelo, Aire, Fauna" ,"Abierta o Cerrada")
ED <- data.frame(Variables,`Tipo_de_Variable`, Restricciones)
ED
```
### Variables Discretas:
Para la base de datos del suelo se usaran los componentes como variables, ya que nos ayudad a determinar si son suelos contaminados o no. Las unidades de medida son partes por millon (ppm).
```{r, echo=FALSE}
Variables2 <- c("ESTE","NORTE","Aluminio","Antionio","Arsénico", "Bario","Berilio","Bismuto","Boro","Cadmio","Calcio","Cerio","Cianuro libre","Cobalto","Cobre","Cromo","Cromo Hexavelante","Estaño", "Estroncio","Fósforo","Hierro","Litio","Magnecio","Manganeso","Mercurio","Molibdeno","Níquel","Plata","Plomo","Potasio","Selenio","Sodio","Talio","Torio")
`Tipo_de_Variable2` <- c("Discretas","Discretas","Discretas","Discretas","Discretas","Discretas","Discretas","Discretas","Discretas","Discretas","Discretas","Discretas","Discretas","Discretas","Discretas","Discretas","Discretas","Discretas","Discretas","Discretas","Discretas","Discretas","Discretas","Discretas","Discretas","Discretas","Discretas","Discretas","Discretas","Discretas","Discretas","Discretas","Discretas","Discretas")
Restricciones2 <- c("Coordenadas","Coordenadas", " 40973-5726 (ppm)","21.9-989 (ppm)", "<0.0017-9.698(ppm)","<0.4-94(ppm)","21.9-989(ppm)","<0.001-1.85(ppm)","<0.0008-2.63(ppm)","<0.18-91.2(ppm)","<0.0007-6.256(ppm)","-9748(ppm)","8.446-9496(ppm)","<0.3(ppm)","0.481-999(ppm)","1.5-98(ppm)","1.4-99(ppm","-0.4(ppm)","<0.1-1.9(ppm)","3.03-991","60-2946(ppm)","8250-100138(ppm)","0.338-992(ppm)","229-14458(ppm)","65.6-5629(ppm)","<0.03-0.33(ppm)","<0.003-7.3(ppm)","0.679-995(ppm)","<0.006-1.29(ppm)","3.79-997(ppm)","271-7913(ppm)","<0.004-3.78(ppm)","<1-992","<0.0002-2.168(ppm)")
ED2 <- data.frame(Variables2,`Tipo_de_Variable2`, Restricciones2)
ED2
```
## Importancia del estudio del suelo
## Cantidad de denuncia por tipo de contaminación en los años 2019-2020
La razón de porque elegimos analizar los suelos es porque del 2019 al 2020 se presentaron diferentes denuncias por diferente sector donde la mayor cantidad de denuncias era la del suelo.
###La grafica a continuacion brinda información relevante sobre las actividades economicas en el Perú que se ven afectadas por contaminantes ambientales como Bromo, Cromo, Mercurio ,etc durante el transcurso de los años 2019-2020.
```{r, echo= FALSE}
tipo <- c("AGUA","SUELO","FAUNA","AIRE","FLORA","POBLACION","EFLUENTES","RESIDUOS SOLIDOS","GASES/HUMO","MATERIAL PARTICULADO`","TALA","RADIACION NO IONIZANTE","FUENTE VISUAL","FUENTE VISUAL")
cantidad <- c(sum(DD1920$AGUA),
sum(DD1920$SUELO),sum(DD1920$FAUNA),sum(DD1920$AIRE),
sum(DD1920$FLORA),sum(DD1920$POBLACION),sum(DD1920$EFLUENTES),sum(DD1920$`RESIDUOS SOLIDOS`),sum(DD1920$`GASES/HUMO`),sum(DD1920$`MATERIAL PARTICULADO`),sum(DD1920$TALA),sum(DD1920$`RADIACION NO IONIZANTE`),sum(DD1920$`FUENTE VISUAL`),sum(DD1920$`FUENTE VISUAL`))
colores <- c("deepskyblue1","lightgoldenrod4","darkolivegreen1", "lightcyan","darkolivegreen3","gold2","navajowhite3","gray45","gray","seashell4","burlywood4", "indianred3", "skyblue3", "bisque3")
DDA<-data.frame(tipo, cantidad)
barplot(DDA[1:14,2],legend=c("AGUA","SUELO","FAUNA","AIRE","FLORA","POBLACION","EFLUENTES","RESIDUOS SOLIDOS","GASES/HUMO","MATERIAL PARTICULADO`","TALA","RADIACION NO IONIZANTE","FUENTE VISUAL","FUENTE VISUAL"), col =colores)
```
La mayor cantidad de denuncias durante los años 2019-2020 son por la contaminación de suelos, seguidos de aire y residuos solidos.
## Denuncias en los departamentetos
### En el 2019-2020
En el 2019 y 2020 Lima presenta mayor cantidad de denuncias.
```{r, echo=FALSE}
#denuncias 2019-2020
DEP1920 <- c("Lima","Ancash","Cusco", "Arequipa","Libertad", "Junin","Ica","Piura","Callao","Lambayeque","Apurimac","Ucayali","Cajamarca","Ayacucho","Loreto" ,"Moquegua","Tumbes","Pasco","Tacna","San Martin","Huanuco","Puno","Amazonas","Huancavelica","Madre de Dios")
CAN1920 <- c(sum(DD1920$DEPARTAMENTO == "LIMA"),sum(DD1920$DEPARTAMENTO == "ANCASH"),sum(DD1920$DEPARTAMENTO == "CUSCO"),sum(DD1920$DEPARTAMENTO == "AREQUIPA"),sum(DD1920$DEPARTAMENTO == "LA LIBERTAD"),sum(DD1920$DEPARTAMENTO == "JUNIN"),sum(DD1920$DEPARTAMENTO == "ICA"),sum(DD1920$DEPARTAMENTO == "PIURA"),sum(DD1920$DEPARTAMENTO == "CALLAO"),sum(DD1920$DEPARTAMENTO == "LAMBAYEQUE"),sum(DD1920$DEPARTAMENTO == "APURIMAC"),sum(DD1920$DEPARTAMENTO == "UCAYALI"),sum(DD1920$DEPARTAMENTO == "CAJAMARCA"),sum(DD1920$DEPARTAMENTO == "AYACUCHO"),sum(DD1920$DEPARTAMENTO == "LORETO"),sum(DD1920$DEPARTAMENTO == "MOQUEGUA"),sum(DD1920$DEPARTAMENTO == "TUMBES"),sum(DD1920$DEPARTAMENTO == "PASCO"),sum(DD1920$DEPARTAMENTO == "TACNA"),sum(DD1920$DEPARTAMENTO == "SAN MARTIN"),sum(DD1920$DEPARTAMENTO == "HUANUCO"),sum(DD1920$DEPARTAMENTO == "PUNO"),sum(DD1920$DEPARTAMENTO == "AMAZONAS"),sum(DD1920$DEPARTAMENTO == "HUANCAVELICA"),sum(DD1920$DEPARTAMENTO == "MADRE DE DIOS"))
Tabla1920 <- data.frame(DEP1920,CAN1920)
barplot(Tabla1920[1:25,2],legend=c("Lima","Ancash","Cusco", "Arequipa","Libertad", "Junin","Ica","Piura","Callao","Lambayeque","Apurimac","Ucayali","Cajamarca","Ayacucho","Loreto" ,"Moquegua","Tumbes","Pasco","Tacna","San Martin","Huanuco","Puno","Amazonas","Huancavelica","Madre de Dios"),col = colores, xlab="Departamento",ylab="Denuncias 2019-2020")
```
## Muestras tomadas
Son muestras elatorias de 3 deprtamentos distintos
```{r, echo=FALSE}
mapa <-readOGR("C:/Users/Dell/Documents/David/Ciclo 4/Estadistica y Probabilidad/Trabajos/Proyecto/Proyecto/P1/PP.shp")
names(mapa)[4]="Departamento"
names(mapa)
Zona <- c(sum(CAS$Zona=="17 Sur"), sum(CAS$Zona=="18 Sur"), sum(CAS$Zona=="19 Sur"))
Departamento<- c("CAJAMARCA", "UCAYALI" , "AREQUIPA")
Departamento1<-data.frame(Departamento, Zona)
map1 <- merge(mapa,Departamento1, by="Departamento")
qtm(map1,fill="Zona", col="white")
```
## Diagrama de caja de variable - data: Componentes ambientales del suelo-EAT
### Relavantes
Utilizaremos gráficas de diagrama de caja para ver los valores atípicos que pueden representar suelos contaminados o no. Aparte usaremos la distribución normal para rechazar o no la hipótesis nula. En las tablas ponemos el tipo de elemento, la cantidad de suelos no contaminados, la media y la mediana muestral.
Para todos los casos usaremos
#### tamaño de la muestra de 227
#### nivel de confianza del 95%
#### nivel de significancia del 5%
####El estadístico de prueba es la linea azul
#### z critico es la linea roja.
## Arsénico
En este diagrama de caja se observa 4 valores atípicos que se pueden interpretar como suelos contaminados por Arsénco, pero en nuestra tabla usamos un filtro en el cual la cantidad normal de arsenico en el suelo es de 0.001 a 250 partes por millon. Los suelos no contminados son 226 es decir solo 1 es contaminado.
```{r, echo=FALSE}
boxplot(CAS$Arsénico, horizontal = TRUE, main = "Arsénico", col="cornsilk2", xlab= "Arsénico (mg/m3)",pch= 19, ylim=c(0,400) )
abline(v = mean(CAS$Arsénico, na.rm = TRUE, ), col = "red")
Media <- mean(CAS$Arsénico, na.rm=TRUE, col="red")
Mediana <-median(CAS$Arsénico, na.rm=TRUE)
No_contaminado <- sum(CAS$Arsénico > 0.001 & CAS$Arsénico < 250,na.rm=TRUE)
Elemento <- c("Arsénico")
Tab <- data.frame(Elemento,No_contaminado,Media,Mediana)
Tab
```
Una muestra de 227 con un nivel de confianza del 95%. La hipótesis nula es que la media poblacional es menor o igual a 40ppm . Al ser una muestra mayor a 30 trabajaremos con qnorm.
Datos:
ho: mu<=40,
hi mu>40
```{r, echo=FALSE}
mu = 40
n=227
z <- qnorm(0.95)
Media_Muestral <- mean(CAS$Arsénico, na.rm=TRUE)
Desviacion_Estandar_Muestral <- sd(CAS$Arsénico, na.rm=TRUE)
Zcritico <- (Media_Muestral-mu)/(Desviacion_Estandar_Muestral/sqrt(n))
Xs <- seq(-4, 4, by = 0.1)
plot(Xs, dnorm(Xs), type = "l", col="black", xlab = "", ylab = "")
abline(v = z, lty = 2, col = "red")
abline(h = 0, col = "gray")
abline(v = Zcritico,lty = 1 , col = "blue")
```
El estadistico de prueba es de 0.94 y el Z critico es de 1.64 por lo tanto cae en la zona de no rechazo de la hipotesis nula. Entonces no rechazamos que la media poblacional es menor o igual a 40 ppm. Entonces podemos asumir que la media poblacional del arsénico es menor o igual a 40 partes por millon
```{r, echo=FALSE}
z <- qnorm(0.95)
Zcritico <- (Media_Muestral-mu)/(Desviacion_Estandar_Muestral/sqrt(n))
N<- c("Estadistico de prueba","Z critico")
Valores <- c(Zcritico,z)
Tab <- data.frame(N, Valores)
Tab
```
#### Bario
Para el Bario prensenta muchos valores atipicos y con el filtro de la cantidad normal de Bario en el suelo son 207 suelos no contaminados, es decir, hay 20 suelos contaminados.
```{r, echo=FALSE}
boxplot(CAS$Bario, horizontal = TRUE, main = "Bario", col="cornsilk2", xlab= "Bario (mg/m3)",pch= 19, ylim=c(0,1000) )
abline(v = mean(CAS$Bario, na.rm = TRUE, ), col = "red")
Media <- mean(CAS$Bario, na.rm=TRUE, col="red")
Mediana <-median(CAS$Bario, na.rm=TRUE)
No_contaminado <- sum(CAS$Bario > 0 & CAS$Bario < 750,na.rm=TRUE)
Elemento <- c("Bario")
Tab <- data.frame(Elemento,No_contaminado,Media,Mediana)
Tab
```
Una muestra de 227 con un nivel de confianza del 95%. La hipótesis nula es que la media es menor o igual a 3500ppm. Al ser una muestra mayor a 30 trabajaremos con qnorm.
Datos:
ho: mu<=3500,
hi mu>3500
```{r, echo=FALSE}
mu = 3500
n=227
z <- qnorm(0.95)
Media_Muestral <- mean(CAS$Bario, na.rm=TRUE)
Desviacion_Estandar_Muestral <- sd(CAS$Bario, na.rm=TRUE)
Zcritico <- (Media_Muestral-mu)/(Desviacion_Estandar_Muestral/sqrt(n))
Xs <- seq(-198, 13, by = 0.1)
plot(Xs, dnorm(Xs), type = "l", col="black", xlab = "", ylab = "")
abline(v = z, lty = 2, col = "red")
abline(h = 0, col = "gray")
abline(v = Zcritico,lty = 1 , col = "blue")
```
Para ete caso nuestro estadistic de prueba es de -197.27 y el z critico de 1.64, entonces cae en la zona de no rechaza. No rechazamos la hipótesis nula de que la media poblacional es menor o igual a 3500 ppm. Entonce podemos asumir que la media poblacional del bario es menor o igual a 3500 partes por millon.
```{r, echo=FALSE}
z <- qnorm(0.95)
Zcritico <- (Media_Muestral-mu)/(Desviacion_Estandar_Muestral/sqrt(n))
N<- c("Estadistico de prueba","Z critico")
Valores <- c(Zcritico,z)
Tab <- data.frame(N, Valores)
Tab
```
### Cadmio
Para el cadmio presenta algunos valores atípicos y en nuestra tabla tenemos suelos no contaminados por cadmio es de 104, es decir 123 suelos esta contamiados por cadmio. Comparando con los valores atípicos son menores.
```{r, echo=FALSE}
boxplot(CAS$Cadmio, horizontal = TRUE, main = "Cadmio", col="cornsilk2", xlab= "Cadmio (mg/m3)",pch= 19, ylim=c(0,9000) )
abline(v = mean(CAS$Cadmio, na.rm = TRUE, ), col = "red")
Media <- mean(CAS$Cadmio, na.rm=TRUE, col="red")
Mediana <-median(CAS$Cadmio, na.rm=TRUE)
No_contaminado <- sum(CAS$Cadmio > 0 & CAS$Cadmio < 22,na.rm=TRUE)
Elemento <- c("Cadmio")
Tab <- data.frame(Elemento,No_contaminado,Media,Mediana)
Tab
```
Una muestra de 227 con un nivel de confianza del 95%. La hipótesis nula es que la media es menor o igual a 3ppm. Al ser una muestra mayor a 30 trabajaremos con qnorm.
Datos:
ho: mu<=3,
hi mu>3
```{r, echo=FALSE}
mu = 3
n=227
z <- qnorm(0.95)
Media_Muestral <- mean(CAS$Cadmio, na.rm=TRUE)
Desviacion_Estandar_Muestral <- sd(CAS$Cadmio, na.rm=TRUE)
Zcritico <- (Media_Muestral-mu)/(Desviacion_Estandar_Muestral/sqrt(n))
Xs <- seq(-4, 11, by = 0.1)
plot(Xs, dnorm(Xs), type = "l", col="black", xlab = "", ylab = "")
abline(v = z, lty = 2, col = "red")
abline(h = 0, col = "gray")
abline(v = Zcritico,lty = 1 , col = "blue")
```
El estadistico de prueba es de 11.12 y el z critico es de 1.6 entonces cae en la zona de rechazo. Rechazamos que la media poblacional del sea menor o igual a 3 ppm. No se puede asumir que la que la media poblacional del cadmio sea menor o igual a 3 partes por millon
```{r, echo=FALSE}
z <- qnorm(0.95)
Zcritico <- (Media_Muestral-mu)/(Desviacion_Estandar_Muestral/sqrt(n))
N<- c("Estadistico de prueba","Z critico")
Valores <- c(Zcritico,z)
Tab <- data.frame(N, Valores)
Tab
```
### Ciauro libre
Para el Cianuro libre no podimos hacer un diagrama de caja porque se encontraba en pocos suelos entonces al usar otro diagrama se puede observar que el cianuero libre siempre esta en 3 partes por millon y solo se encontraron en 14 suelos.
```{r, echo=FALSE}
plot(CAS$`Cianuro libre`, main = "Cianuro Libre",ylab="Cianuro Libre (ppm)")
Media <- mean(CAS$`Cianuro libre`, na.rm=TRUE, col="red")
Mediana <-median(CAS$`Cianuro libre`, na.rm=TRUE)
No_contaminado <- sum(CAS$`Cianuro libre` > 0 & CAS$`Cianuro libre` <8 ,na.rm=TRUE)
Elemento <- c("Cianuro libre")
Tab <- data.frame(Elemento,No_contaminado,Media,Mediana)
Tab
```
### Cromo
Para el crmo econtramos varios valores atípicos pero en nuestra tabla los suelos no contaminados por cromo son 227, es decir, no hay suelos contaminados.
```{r, echo=FALSE}
boxplot(CAS$Cromo, horizontal = TRUE, main = "Cromo", col="cornsilk2", xlab= "Cromo (mg/m3)",pch= 19, ylim=c(0,100) )
abline(v = mean(CAS$Cromo, na.rm = TRUE, ), col = "red")
Media <- mean(CAS$Cromo, na.rm=TRUE, col="red")
Mediana <-median(CAS$Cromo, na.rm=TRUE)
No_contaminado <- sum(CAS$Cromo > 1 & CAS$Cromo < 1500,na.rm=TRUE)
Elemento <- c("Cromo")
Tab <- data.frame(Elemento,No_contaminado,Media,Mediana)
Tab
```
Una muestra de 227 con un nivel de confianza del 95%. La hipótesis nula es que la media menor o igual a 100ppm. Al ser una muestra mayor a 30 trabajaremos con qnorm.
Datos:
ho: mu<= 100,
hi mu>100
```{r, echo=FALSE}
mu = 100
n=227
z <- qnorm(0.95)
Media_Muestral <- mean(CAS$Cromo, na.rm=TRUE)
Desviacion_Estandar_Muestral <- sd(CAS$Cromo, na.rm=TRUE)
Zcritico <- (Media_Muestral-mu)/(Desviacion_Estandar_Muestral/sqrt(n))
Xs <- seq(-52, 5, by = 0.1)
plot(Xs, dnorm(Xs), type = "l", col="black", xlab = "", ylab = "")
abline(v = z, lty = 2, col = "red")
abline(h = 0, col = "gray")
abline(v = Zcritico,lty = 1 , col = "blue")
```
El estadístico de prueba es de -51.32 y el z critico es de 1.64 entonces cae en la zona de no rechazamo. No rechazamos que la media poblacional es menor o igual a 100 ppm. Podemos asumir que nuestra media poblacional del cromo sea menor o igual 100 partes por millon.
```{r, echo =FALSE}
z <- qnorm(0.95)
Zcritico <- (Media_Muestral-mu)/(Desviacion_Estandar_Muestral/sqrt(n))
N<- c("Estadistico de prueba","Z critico")
Valores <- c(Zcritico,z)
Tab <- data.frame(N, Valores)
Tab
```
### Mercurio
En el mercurio no presenta valores atipicos, y los suelos no contaminados por mercurio son 227. No presenta suelos contaminados.
```{r, echo=FALSE}
boxplot(CAS$Mercurio, horizontal = TRUE, main = "Mercurio", col="cornsilk2", xlab= "Mercurio (mg/m3)",pch= 19, ylim=c(0,7) )
abline(v = mean(CAS$Mercurio, na.rm = TRUE, ), col = "red")
Media <- mean(CAS$Mercurio, na.rm=TRUE, col="red")
Mediana <-median(CAS$Mercurio, na.rm=TRUE)
No_contaminado <- sum(CAS$Mercurio > 0 & CAS$Mercurio < 24,na.rm=TRUE)
Elemento <- c("Mercurio")
Tab <- data.frame(Elemento,No_contaminado,Media,Mediana)
Tab
```
Una muestra de 227 con un nivel de confianza del 95%. La hipótesis nula es que la media es menor o igual a 6.6 ppm. Al ser una muestra mayor a 30 trabajaremos con qnorm.
Datos:
ho: mu<=1.79,
hi mu>1.79
```{r, echo=FALSE}
mu = 1.79
n=227
z <- qnorm(0.95)
Media_Muestral <- mean(CAS$Mercurio, na.rm=TRUE)
Desviacion_Estandar_Muestral <- sd(CAS$Mercurio, na.rm=TRUE)
Zcritico <- (Media_Muestral-mu)/(Desviacion_Estandar_Muestral/sqrt(n))
Xs <- seq(-5, 5, by = 0.1)
plot(Xs, dnorm(Xs), type = "l", col="black", xlab = "", ylab = "")
abline(v = z, lty = 2, col = "red")
abline(h = 0, col = "gray")
abline(v = Zcritico,lty = 1 , col = "blue")
```
El estadístico de prueba es de -0.394 y el z critico de 1.64 entonces cae en la zona de no rechazo. No se rechaza que la media poblacional sea menor o igual a 1.79 ppm. Se puede asumir que la media pobalcional del mercurio sea menor o igual a 1.79 partes por millon.
```{r, echo=FALSE}
z <- qnorm(0.95)
Zcritico <- (Media_Muestral-mu)/(Desviacion_Estandar_Muestral/sqrt(n))
N<- c("Estadistico de prueba","Z critico")
Valores <- c(Zcritico,z)
Tab <- data.frame(N, Valores)
Tab
```
`
### Plomo
Para el plomo presenta varios valores atípicos y en nuestra table los suelos no contaminados son 227 es decir que no hay suelos contaminados.
```{r, echo=FALSE}
boxplot(CAS$Plomo, horizontal = TRUE, main = "Plomo", col="cornsilk2", xlab= "Plomo (mg/m3)",pch= 19, ylim=c(0,1000) )
abline(v = mean(CAS$Plomo, na.rm = TRUE, ), col = "red")
Media <- mean(CAS$Plomo, na.rm=TRUE, col="red")
Mediana <-median(CAS$Plomo, na.rm=TRUE)
No_contaminado <- sum(CAS$Plomo > 1 & CAS$Plomo < 1500,na.rm=TRUE)
Elemento <- c("Plomo")
Tab <- data.frame(Elemento,No_contaminado,Media,Mediana)
Tab
```
Una muestra de 227 con un nivel de confianza del 75%. La hipótesis nula es que la media es menor o igual a 140ppm. Al ser una muestra mayor a 30 trabajaremos con qnorm.
Datos:
ho: mu<=140,
hi mu>140
```{r, echo=FALSE}
mu = 140
n=227
z <- qnorm(0.95)
Media_Muestral <- mean(CAS$Plomo, na.rm=TRUE)
Desviacion_Estandar_Muestral <- sd(CAS$Plomo, na.rm=TRUE)
Zcritico <- (Media_Muestral-mu)/(Desviacion_Estandar_Muestral/sqrt(n))
Xs <- seq(-4, 4, by = 0.1)
plot(Xs, dnorm(Xs), type = "l", col="black", xlab = "", ylab = "")
abline(v = z, lty = 2, col = "red")
abline(h = 0, col = "gray")
abline(v = Zcritico,lty = 1 , col = "blue")
```
El estdisstico de prueba es 3.316 y el z critico es de 1.64 entonces cae en la zona de rechazo. Rechazamos la hipótesis nula de que la media poblacional es menor o igual a 140 ppm. No podemos asumir que la media poblacional del plomo sea menor o igual que 140 partes por millon.
```{r, echo=FALSE}
z <- qnorm(0.95)
Zcritico <- (Media_Muestral-mu)/(Desviacion_Estandar_Muestral/sqrt(n))
N<- c("Estadistico de prueba","Z critico")
Valores <- c(Zcritico,z)
Tab <- data.frame(N, Valores)
Tab
```
### Zinc
Para el zinc presenta dos valores atípicos y los suelos no contaminados por zinc son 227, es decir, no hay suelos contaminados por zinc.
```{r, echo=FALSE}
boxplot(CAS$Zinc, horizontal = TRUE, main = "Zinc", col="cornsilk2", xlab= "Zinc (mg/m3)",pch= 19, ylim=c(0,1000) )
abline(v = mean(CAS$Zinc, na.rm = TRUE, ), col = "red")
Media <- mean(CAS$Zinc, na.rm=TRUE, col="red")
Mediana <-median(CAS$Zinc, na.rm=TRUE)
No_contaminado <- sum(CAS$Zinc > 1 & CAS$Zinc < 1500,na.rm=TRUE)
Elemento <- c("Níquel")
Tab <- data.frame(Elemento,No_contaminado,Media,Mediana)
Tab
```
Una muestra de 227 con un nivel de confianza del 75%. La hipótesis nula es que la media es menor o igual a 300 ppm. Al ser una muestra mayor a 30 trabajaremos con qnorm.
Datos:
ho: mu<=300
hi: mu>300
```{r, echo=FALSE}
mu = 300
n=227
z <- qnorm(0.95)
Media_Muestral <- mean(CAS$Zinc, na.rm=TRUE)
Desviacion_Estandar_Muestral <- sd(CAS$Zinc, na.rm=TRUE)
Zcritico <- (Media_Muestral-mu)/(Desviacion_Estandar_Muestral/sqrt(n))
Xs <- seq(-4, 4, by = 0.1)
plot(Xs, dnorm(Xs), type = "l", col="black", xlab = "", ylab = "")
abline(v = z, lty = 2, col = "red")
abline(h = 0, col = "gray")
abline(v = Zcritico,lty = 1 , col = "blue")
```
El estadistico de prueba es de -1.44 y el z critico es de 1.64 entonces cae en la zona de no rechazo. No rechazamos la hipótesis nula de que la media poblacional es menor o igual a 300 ppm. Podemos asumir que la la media poblacional del zinc es menor o igual a 300 partes por milon.
```{r, echo=FALSE}
z <- qnorm(0.95)
Zcritico <- (Media_Muestral-mu)/(Desviacion_Estandar_Muestral/sqrt(n))
N<- c("Estadistico de prueba","Z critico")
Valores <- c(Zcritico,z)
Tab <- data.frame(N, Valores)
Tab
```
### Cobre
Para el cobre el diagrama de caja no presenta valores atípicos y los suelos no contaminados son 227, es decir, no hay suelos contaminados por cobre.
```{r, echo=FALSE}
boxplot(CAS$Cobre, horizontal = TRUE, main = "Cobre", col="cornsilk2", xlab= "Cobre (mg/m3)",pch= 19, ylim=c(0,200) )
abline(v = mean(CAS$Cobre, na.rm = TRUE, ), col = "red")
Media <- mean(CAS$Cobre, na.rm=TRUE, col="red")
Mediana <-median(CAS$Cobre, na.rm=TRUE)
No_contaminado <- sum(CAS$Cobre > 1 & CAS$Cobre < 250,na.rm=TRUE)
Elemento <- c("Cobre")
Tab <- data.frame(Elemento,No_contaminado,Media,Mediana)
Tab
```
Una muestra de 227 con un nivel de confianza del 75%. La hipótesis nula es que la media es menor o igual a 91ppm. Al ser una muestra mayor a 30 trabajaremos con qnorm.
Datos:
ho: mu<=91
hi: mu>91
```{r, echo=FALSE}
mu = 91
n=227
z <- qnorm(0.95)
Media_Muestral <- mean(CAS$Cobre, na.rm=TRUE)
Desviacion_Estandar_Muestral <- sd(CAS$Cobre, na.rm=TRUE)
Zcritico <- (Media_Muestral-mu)/(Desviacion_Estandar_Muestral/sqrt(n))
Xs <- seq(-32, 5, by = 0.2)
plot(Xs, dnorm(Xs), type = "l", col="black", xlab = "", ylab = "")
abline(v = z, lty = 2, col = "red")
abline(h = 0, col = "gray")
abline(v = Zcritico,lty = 1 , col = "blue")
```
El estadístico de prueba es de -31.57 y el z critico es de 1.64 entonces cae en la zona de no rechazo. No rechazamos la hipótesis nula de que la media poblacional es menor o igual a 91 ppm. Podemos asumir que la media poblacional del cobre es menor o igual a 91 partes por millon.
```{r, echo=FALSE}
z <- qnorm(0.95)
Zcritico <- (Media_Muestral-mu)/(Desviacion_Estandar_Muestral/sqrt(n))
N<- c("Estadistico de prueba","Z critico")
Valores <- c(Zcritico,z)
Tab <- data.frame(N, Valores)
Tab
```
### OTROS CONTAMINANTES
### Las gráficas a continuacion, muestran la dispersion que existe en los diferentes contaminantes del suelo.
### Aluminio
Para el aluminio presenta algunos valores atípicos
```{r, echo=FALSE}
boxplot(CAS$Aluminio, horizontal = TRUE, main = "Aluminio", col="cornsilk2", xlab= "Aluminio (mg/m3)",pch= 19, ylim=c(0,45000) )
abline(v = mean(CAS$Aluminio, na.rm = TRUE, ), col = "red")
Media <- mean(CAS$Aluminio, na.rm=TRUE, col="red")
Mediana <-median(CAS$Aluminio, na.rm=TRUE)
Tab <- data.frame(Media,Mediana)
Tab
```
###Antimonio
```{r, echo=FALSE}
boxplot(CAS$Antimonio, horizontal = TRUE, main = "Antimonio", col="cornsilk2", xlab= "Antimonio (mg/m3)",pch= 19, ylim=c(0,9500) )
abline(v = mean(CAS$Antimonio, na.rm = TRUE, ), col = "red")
Media <- mean(CAS$Antimonio, na.rm=TRUE, col="red")
Mediana <-median(CAS$Antimonio, na.rm=TRUE)
Tab <- data.frame(Media,Mediana)
Tab
```
### Conclusiones del análisis de diagrama de caja y hipotesís nula
Se presento diferentes diagramas de cajas en las cuales algunos tenían valores atípicos y otros no, se aplico en un filtro sobre la cantidad normal que deberia de presentar el suelo de cada compuesto. Analizando los datos los valores atípicos no significa que sean suelos contaminados como se a explicado en cada diagrama. Lo diagramas pueden presentar valores atipicos pero solo eran algunos de ellos que eran los suelos contaminados.
Para la hipotesis nula en algunos se rechaza y en otros no. Se puede asumir en algunos la media poblacional como no. Pero para algunos casos el estadístico de prueba es muy grande y esto se debe a que en alunos casos la media poblacional es mucho mas grande que la media muestral.
### Regresion lineal
Para la regresion lineal queremos analizar si exite una relacion de un compuesto con otro.
### Bario vs Cobalto
```{r, echo=FALSE}
l1 <- lm(CAS$Bario~CAS$Cobalto)
plot(CAS$Cobalto,CAS$Bario,pch=20, col=rgb(0,0,0,0.3),xlim=c(0,1300),xlab="Cobalto (ppm)", ylab="Bario (ppm)")
abline(l1, col="red")
cor(CAS$Bario,CAS$Cobalto,use="complete.obs")
summary(l1)
```
Variable dependiene: Bario
Variable independiente: Cobalto
p-value: 2.482e-08
rcudrado:0.1259
Apartir de esos datos
### Plomo vs Bario
```{r, echo=FALSE}
l1 <- lm(CAS$Plomo~CAS$Bario)
plot(CAS$Bario,CAS$Plomo,pch=20, col=rgb(0,0,0,0.3),xlim=c(0,1000),xlab="Bario (ppm)", ylab="Plomo (ppm)")
abline(l1, col="red")
cor(CAS$Plomo,CAS$Bario,use="complete.obs")
summary(l1)
```
### Cobalto vs Bario
```{r, echo=FALSE}
l1 <- lm(CAS$Cobalto~CAS$Bario)
plot(CAS$Bario,CAS$Cobalto,pch=20, col=rgb(0,0,0,0.3),xlim=c(0,1000),xlab="Bario (ppm)", ylab="Cobalto (ppm)")
abline(l1, col="red")
cor(CAS$Bario,CAS$Cobalto,use="complete.obs")
summary(l1)
```
### Cadmio vs Plomo
```{r, echo=False}
l1 <- lm(CAS$Cadmio~CAS$Plomo)
plot(CAS$Plomo,CAS$Cadmio,pch=20, col=rgb(0,0,0,0.3),xlim=c(0,1300),xlab="Plomo (ppm)", ylab="Cadmio (ppm)")
abline(l1, col="red")
cor(CAS$Plomo,CAS$Cadmio,use="complete.obs")
summary(l1)
```
### Cadmio vs Bario
Dentro de nuestra base de datos notamos que existen suelos contaminados por bario y cadmio. Estos dos componentes están presentes en el PVC (Policloruro de vinilo) el cuál genera gran contaminación en el suelo y agua. En este estudio se buscará encontrar una relación entre estos dos componentes para determinar si su presencia se debe a una posible contaminación por PVC.
```{r}
contaminado <- filter(CAS, Cadmio > 4000 & Bario > 400)
plot(contaminado$Bario,contaminado$Cadmio ,xlab="Bario (ppm)", ylab="Cadmio (ppm)", main = "Contaminados")
a1<- cor(cadmio_contaminado$Bario,cadmio_contaminado$Cadmio)
l1 <- lm(CAS$Cadmio~CAS$Bario)
plot(CAS$Bario,CAS$Cadmio,pch=20, col=rgb(0,0,0,0.3),xlim=c(0,1300),xlab="Bario (ppm)", ylab="Cadmio (ppm)")
abline(l1, col="red")
a2<- cor(CAS$Bario,CAS$Cadmio,use="complete.obs")
correlacion <- c("C. Contaminados", "C.Bario y Cadmio")
N <- c(a1,a2)
Tab<- data.frame(correlacion,N)
Tab
```
La variable contaminado es un filtro entre los suelos contaminados de cadmio y bario. La primera gráfica es el cadmio contaminado en función del bario contaminado. La segunda gráfica es el cadmio total en función de bario total. Se observan pocas observaciones en la primera tabla y no se puede concluir si es contaminado por PVC
### Conclusiones:
Para la regresión lineal tenemos correlaciones positivas débiles (0-0.5). En nuestras gráficas la mayoria son correlaciones positivas débiles. Ponemos a un elemento en función de otros pero no necesariamente están en relación. No es seguro determinar que los suelos contaminados por bario y cadmio fueron causados por presencia de PVC, ya que las cantidad de observaciones con ambos compuestos contaminados no es suficiente para hallar una correlación precisa. No buscamos relación entre los otros compuestos porque nuestra base de datos no presenta grado de contaminación respecto a los otros componentes siendo esta opción no viable.
### Bibliografia
https://www.plastico.com/temas/PVC,-Cuales-son-sus-efectos-en-el-ambiente-y-la-salud-humana+3027117?pagina=2
https://ecohabitar.org/el-pvc-en-la-construccion-y-en-nuestras-vidas/#:~:text=Los%20residuos%20de%20materiales%20de,media%20de%20los%20productos%20de