-
Notifications
You must be signed in to change notification settings - Fork 68
/
Copy pathR language tutorial - part 2.Rmd
1485 lines (985 loc) · 39.5 KB
/
R language tutorial - part 2.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
---
title: "R for bioinformatics"
subtitle: "HUST Bioinformatics course series"
author: "Wei-Hua Chen (CC BY-NC 4.0)"
institute: "HUST, China"
date: "`r format(Sys.time(), '%d %B, %Y')`"
output:
beamer_presentation:
theme: AnnArbor
colortheme: beaver
fonttheme: structurebold
highlight: tango
slide_level: 2
toc: true
includes:
in_header: mystyle.sty
---
```{r include=FALSE}
color_block = function(color) {
function(x, options) sprintf('\\color{%s}\\begin{verbatim}%s\\end{verbatim}',
color, x)
}
## 将错误信息用红色字体显示
knitr::knit_hooks$set(error = color_block('red'))
```
# section 1: R basics
## R语言简史
1993到2000这段时间R只在小范围内流传。2000年之后开始大爆发,用户数量直线上升。除去R本身的优秀之外,这种爆发与多个因素有关,比如自由软件的兴起,Linux的成熟等等;经济危机也促进大家采用免费的自由软件替代统计领域的传统强者如SPSS、SAS和Matlab等(注:均为收费软件)。
首先,越来越多的学术文章使用R作为分析工具。根据来自著名学术搜索引擎Google
Scholar(谷歌学术)的数据,R的流行趋势有以下两个特点:1)在学术领域的市场份额逐年增加,且增势迅猛,2)R是为数不多市场份额增加的统计软件之一。
接下来我们就用R把这个趋势画出来!如下面代码所示,所需代码包括4个部分:装入所需要的包,读取数据,处理数据和作图。运行这段代码,既专业又美观的图片就生成了!
## R的流行性调查
代码 \fontsize{7}{8}\selectfont
```{r warning=FALSE, message=FALSE}
library("ggplot2"); library("reshape2");
dat <- read.csv(file = "data/talk01/chaper01_preface_scholarly_impact_2012.4.9.csv");
cols.subset <- c("Year", "JMP","Minitab","Stata","Statistica","Systat","R");
Subset <- dat[ , cols.subset];
ScholarLong <- melt(Subset, id.vars = "Year");
names(ScholarLong) <- c("Year","Software", "Hits");
plot1 <-
ggplot(ScholarLong, aes(Year, Hits, group=Software)) + #准备
geom_smooth(aes(fill=Software), position="fill", method="loess") + #画图
ggtitle("Market share") + #设置图标题
scale_x_continuous("Year") + # 改变X轴标题
scale_y_continuous("Google Scholar %", labels = NULL ) +
theme(axis.ticks = element_blank(), text = element_text(size=14)) +
guides(fill=guide_legend( title = "Software", reverse = F )) +
geom_text(data = data.frame( Year = 2011, Software = "R", Hits = 0.10 ),
aes(label = Software), hjust = 0, vjust = 0.5);
```
## Market share, result
```{r plot1, fig.width=10, fig.height=5, echo=FALSE, warning=FALSE, message=FALSE }
plot1
```
**注**:这里移除了市场占有率较大的SAS和SPSS
## R的招聘趋势
其次,统计分析相关工作的招聘信息中要求申请者会用R的也越来越多了。根据美国招聘搜索引擎indeed.com的数据,自2005年(此搜索引擎提供的最早数据)起,需要用到R的招聘信息占总体招聘的比例逐年上升,目前仅排在SAS和Matlab之后,处于第3位。而且,除了Stata之外,R是唯一一个占比上升。
同样的,我们用R把这个趋势画出来!
## R job trends
代码 \fontsize{7}{8}\selectfont
```{r warning=FALSE, message=FALSE}
library("ggplot2"); ## 主作图包
##2. -- 读取数据 --
dat <- read.table(file ="data/talk01/chaper01_preface_indeed_com_stats_2015.txt",
header = T, as.is = T);
##3. 处理数据
dat$date <- as.Date(dat$date); ## 把第一列改为日期
#根据job对software进行调整
dat <- transform(dat, software = reorder(software, job));
plot2 <-
ggplot( dat, aes( date, job, group = software, colour = software) ) +
geom_line( size = 0.8 ) +
ggtitle("Job trends (data from indeed.com)") + #设置图标题
xlab("Year") + ylab("%") +
#改变字体大小;要放在theme_grey()后面
theme( text = element_text(size=14) ) +
guides(colour=guide_legend( title = "Tool", reverse = TRUE )) +
scale_colour_brewer(palette="Set1") + #改变默认颜色
geom_text(data = dat[dat$date == "2015-01-01" & dat$software %in% c("R"), ],
aes(label = software), hjust = 0, vjust = 0.5);
```
## R job trends, plot
```{r plot2,echo=FALSE,fig.width=10, fig.height=5}
plot2;
```
## Popularity of Programming language 2020
{width="70%"}
## Programming languages for bioinformatics
### Perl或Python
- 强大的文本处理能力(包括序列)
- 不错的运行速度(尤其是Python)
- 强大的生信和统计学扩展包(尤其是Python)
- 方便的并行计算
### R
- 强大的格式数据处理能力(二维表格, dplyr)
- 无以伦比的统计学专业性
- 专业而好看的数据可视化软件(ggplot2)
- 专业的生信扩展包(Bioconductor)
- 超级好用的整合开发环境IDE(RStudio)
## 我用过的 programming languages
```{=tex}
\begin{columns}
\begin{column}{0.48\textwidth}
\begin{itemize}
\item - C
\item - \textbf{Perl}
\item - \textbf{R}
\item - \textbf{PHP}
\item - \textbf{Java}
\item - \textbf{MySQL}
\item - HTML
\item - Javascript
\end{itemize}
\href{https://www.evolgenius.info/evolview}{Evolview ver3.0}
cited 225 times in 2021 (ver2+3), 166 so far (as of Aug 30, 2022)
\end{column}
\begin{column}{0.48\textwidth}
\begin{figure}
\includegraphics[width=\linewidth]{images/talk01/evolview_showcase3.png}
\caption{.Evolview showcase 3}
\label{fig:evolviewshowcase03}
\end{figure}
\end{column}
\end{columns}
```
## 网站链接、参考文献和扩展阅读
综上所述,R已经是最流行的免费统计分析软件,排名仅在几个传统的分析软件之后,而且大有赶超它们的趋势。学好R,不仅有助于在学术研究领域的发展,对找工作也有不少的帮助。
- R的官方网站: <http://www.r-project.org>
- R档案综合网络,即CRAN(Comprehensive R Archive Network):
<http://cran.r-project.org/>
- ggplot2: <http://ggplot2.org/>
- RStudio: <https://posit.co/>
- 如何从Google Scholar抓取引用数据:
<http://librestats.com/2012/04/12/statistical-software-popularity-on-google-scholar/>
- indeed招聘趋势: www.indeed.com/jobtrends
- R for data science: <https://r4ds.had.co.nz> (必读!!)
# Section 2: setting up working enviroment
## Install R
Go go <https://mirrors.tuna.tsinghua.edu.cn/CRAN/>
(清华镜像),R支持主流的操作系统包括Linux,Windows和MacOS,请根据操作系统下载对应的安装文件。如下图所示:
{width="80%"}
新版本的Mac OS
X还需要安装XQuartz(<http://xquartz.macosforge.org/landing/>)。某些还需要用到Xcode,可以从App
Store免费安装。
## Install R on Linux
目前大多Linux发行版都带有R,因此可直接使用。从CRAN下载文件进行安装稍嫌复杂,要求用户对Linux系统有一定的了解,而且需要有管理员权限。建议初级用户在Linux高手指导下安装。
点击上图中的"Download R for
Linux"后,发行版为Redhat(红帽)或Suse的用户要先阅读网站上提供的readme或readme.html文件,然后其中的指示进行安装。这里就不再累述了。
{width="80%"}
## R studio
RStudio可以从 https://posit.co/download/rstudio-desktop/ 下载,支持等主流的操作系统。
{height="50%"}
## R studio versions
RStudio 有商业和免费版本;也有server版 {width="100%"}
## R studio, cont.
RStudio运行时的界面如下图所示,除了顶部的菜单栏工具栏之外,主界面还包括4个子窗口:
{width="355"}
## R studio, cont.
### 1. 代码编辑器
- 具有代码编辑、语法高亮、代码和变量提示、代码错误检查等功能
- 选中并向R控制台(窗口2)发送并运行代码。用快捷键Ctrl+Enter(MacOS下是Cmd+Enter)进行代码发送。没有代码选中时,发送光标所在行的代码
- 可同时打开编辑多个文件
- 除R代码外,还支持C++、R MarkDown、HTML等其它文件的编辑
- 也可用于显示数据
### 2. R console
- 可在此直接输入各种命令并查看运行结果。支持代码提示
### 3. 变量列表及代码运行的历史记录
## R studio, cont.
### 4. 其它窗口
- 当前工作目录下的文件列表
- 作图结果
- 可用和已安装的扩展包;在这里可以直接安装新的和升级已有的扩展包
- 帮助
注意,子窗口之间可以通过快捷键 Ctr+子窗口编号 进行切换。如 Ctrl+1
可以切换到代码编辑子窗口, Ctrl+2 则切换到R控制台。
### 其它特点
- 创建、管理 projects
## R studio 特点详解
### 代码提示/自动完成
**子窗口1和2**都提供有代码提示功能,即:用户输入3个字母时,RStudio会列出所有前3个字母相同的变量或函数名供用户选择;用户可通过键盘的上下键选择,然后用Enter(回车)选定,非常方便。
变量或函数名前面的小图标表示了它们的类型;如果当前高亮的是函数,RStudio还会显示其部分帮助内容。
{height="20%"}
## R studio 特点详解, cont.
### 查看变量内容
**子窗口3**内会列出所有当前使用的变量、变量的类型以及大小,如下图:
{height="20%"}
有些简单变量,如数组,RStudio会直接显示其部分值;对于复杂一些的变量,比如data.frame(类似于二维表格),则可以点击变量名前边的小三角标识展开其内容。
当变量的最右侧出现小网格状图标时(如上图箭头所指位置),点击它们后可以在子窗口2内察看。
## R studio 特点详解, cont.
### 导出作图并选择导出格式
RStudio的**第4子窗口**里集中了许多有用的功能,组织在不同的'Tab'(标签)内。比如作图(plots),不仅可以察看画图的结果,还可以导出当前图像至硬盘,或拷贝至剪贴板;如下图所示。支持导出格式有png和pdf。
{height="30%"}
## R studio 特点详解, cont.
### 查看已安装的**包**
通过**第4子窗口**的"包"(Packages)标签内的工具,用户可以很方便的查看已安装的包:
{height="30%"}
## install new package(s)
同样通过**第4子窗口**的"包"(Packages)标签内的工具,安装新的包:
{height="50%"}
## Packages needed for this study
大部分包都由 RStudio
公司提供;包括:ggplot2,tidyr,readr,stringr等。可以用以下命令一次性安装。不过,为方便读者直接从后面章节阅读,在每一次使用新包时,我们会再次进行提示安装方法。
\FontSmall
```{r eval=FALSE}
install.packages( c("ggplot2", "tidyr", "readr", "stringr") );
```
\FontNormal
也可以单独安装:
\FontSmall
```{r eval=FALSE}
install.packages( "ggplot2" ); #安装作图用的ggplot2
install.packages( "tidyr" ); # 数据处理用等
```
\FontNormal
第一次运行命令 install.packages()
时,系统会提示选择镜像网站;请选择地理位置上距你最近的镜像(比如中国)。
## install packages, cont.
You can also choose your CRAN mirror manually (recommended when
installing takes a long time):
\FontSmall
```{r eval=FALSE}
chooseCRANmirror();
```
\FontNormal
{height="40%"}
You can also use `chooseBioCmirror();` to choose mirror for
[BioConductor](https://bioconductor.org/) packages.
## Packages needed for this study, cont.
实际上,以上包属于一个meta-package,我们只需要安装它就可以了:
\FontSmall
```{r eval=FALSE}
install.packages("tidyverse")
```
\FontNormal
它是以下包的集合,都由 <https://www.tidyverse.org> 开发:
{width="43%"}
## R studio server
### 特点:
- 在服务器上安装,使用服务器的强大计算资源
- 通过网页登录,使用服务器帐号密码(方便,安全)
- 一直运行
{height="30%"}
## R studio server, cont.
{width="100%"}
## R studio packages for data science
### all part of (业界良心) tidyverse
- dplyr: 强大且方便的数据处理
- tydyr:数据转换工具
- readr:方便的文件IO
- stringr:文本处理
- Tibble:代替 data.frame 的 下一代数据存储格式
- purr:(暂时还未用到的包 \~\~ )
## R studio packages for data visualisation
### tidyverse
- ggplot2:专业好用(但学习曲线很陡)的画图工具
- <http://ggplot2.tidyverse.org>
- gallery: <http://www.ggplot2-exts.org/gallery/>
{width="42%"}
## RStudio packages for data visualisation, cont.
### ggvis (currently ver0.4): <http://ggvis.rstudio.com>
- from the **ggplot2** team
- create interactive graphics in RStudio and web browser
- [top 50 ggplot2
visualisations](http://r-statistics.co/Top50-Ggplot2-Visualizations-MasterList-R-Code.html)
{width="40%"}
## RStudio packages for data visualisation, cont.
### Shiny: <http://shiny.rstudio.com/gallery/>
- build professional, interactive visualizations
- equipped with popular web widgets
- can be deployed as independent websites
{height="30%"}
## RStudio packages for data visualisation, cont.
### other packages
- rmarkdown : create professional documents
- knitr: convert rmarkdown to pdf, html and more ...
## 小结
* R语言历史
* 没有最好的语言,只有最合适的语言
* R的特色与特长
* IDE、扩展包与资源站点
# section 3: `dplyr`, efficient data wrangler
## dplyr 安装
\FontSmall
```{r eval=FALSE}
# The easiest way to get dplyr is to install the whole tidyverse:
install.packages("tidyverse")
# Alternatively, install just dplyr:
install.packages("dplyr")
```
\FontNormal
Development version
\FontSmall
```{r eval=FALSE, warning=FALSE, message=FALSE}
# install.packages("devtools")
devtools::install_github("tidyverse/dplyr")
```
\FontNormal
[Get the cheatsheet at here](https://github.com/rstudio/cheatsheets/blob/master/data-transformation.pdf)
## an example of `dplyr`
get the data ready
```{r echo=FALSE, warning=FALSE, message=FALSE}
library(tidyverse);
```
\FontSmall
```{r}
mouse.tibble <- read_delim( file = "data/talk04/mouse_genes_biomart_sep2018.txt",
delim = "\t", quote = "" );
```
## 查看 mouse.tibble 的内容
\FontSmall
```{r}
( ttype.stats <- mouse.tibble %>% count( `Transcript type` ) %>% arrange(-n) );
```
## 查看 mouse.tibble 的内容, cont.
\FontSmall
```{r}
( chr.stats <- mouse.tibble %>% count( `Chromosome/scaffold name` ) %>% arrange(-n) );
```
## 分析任务
1. 将染色体限制在常染色体和XY上(去掉未组装的小片段) ; 处理行
2. 将基因类型限制在 protein_coding, miRNA和 lincRNA 这三种;处理行
3. 统计每条染色体上不同类型基因(protein_coding, miRNA, lincRNA)的数量
4. 按染色体(正)、基因数量(倒)进行排序
## 用 `dplyr` 实现
\FontSmall
```{r}
dat <- mouse.tibble %>%
## 1.
filter( `Chromosome/scaffold name` %in% c( 1:19, "X", "Y" ) ) %>%
## 2.
filter( `Transcript type` %in% c( "protein_coding", "miRNA", "lincRNA" ) ) %>%
## change column name ...
select( CHR = `Chromosome/scaffold name`, TYPE = `Transcript type`,
GENE_ID = `Gene stable ID`,
GENE_LEN = `Transcript length (including UTRs and CDS)` ) %>%
## 3.
group_by( CHR, TYPE ) %>%
summarise( count = n_distinct( GENE_ID ), mean_len = mean( GENE_LEN ) ) %>%
## 4.
arrange( CHR , desc( count ) );
```
## 检查运行结果
\FontSmall
```{r echo=FALSE}
head( dat, n = 15 );
```
\FontNormal
这种显示格式通常被称为:**长数据格式**!!又称为**数据扁平化**
## 数据扁平化的优点?
1. 便于用 dplyr 或 tapply 等进行计算;
2. 更灵活,用于保存稀疏数据
## 适合扁平化的数据举例
### 成绩单
\FontSmall
```{r message=FALSE, warning=FALSE}
library(tidyverse);
grades <- read_tsv( file = "data/talk05/grades.txt" );
head(grades, n=20);
```
灵活性:
- 应对不同学生选择不同课程的情况
- 可随时增加新的课程
## 长数据变宽
\FontSmall
```{r}
grades2 <- grades %>% spread( course, grade );
grades2;
```
\FontNormal
可以想像,如果以此为输入,用R计算每个人的平均成绩、不及格门数、总学分,将会是很繁琐的一件事(但对其它工具(如Excel)可能会比较简单)
## use gather & dplyr functions
Question: 1. 每个人平均成绩是多少? 2. 哪个人的平均成绩最高?
\FontSmall
```{r}
res <-
grades %>%
group_by(name) %>%
summarise( avg_grades = mean( grade ), courses_count = n() ) %>%
arrange( -avg_grades );
## 显示最终结果
res;
```
## use gather & dplyr functions
问题: 每个人的最强科目是什么??
\FontSmall
```{r}
res2 <-
grades %>%
arrange( -grade ) %>%
group_by(name) %>%
summarise( best_course = first( course ),
best_grade = first( grade ),
avg_grades = mean( grade ),
courses = n() ) %>%
arrange( -avg_grades );
## 显示最终结果
res;
```
## 更多练习,使用 `starwars` tibble
\FontSmall
```{r}
head(starwars);
```
**note** 包含87行 13 列,星战部分人物的信息,包括身高、体重、肤色等
用 `?starwars` 获取更多帮助
## dplyr::filter - 行操作
任务:从星战中挑选**金发碧眼**的人物
\FontSmall
```{r}
starwars %>% select( name, ends_with("color"), gender, species ) %>%
filter( hair_color == "blond" & eye_color == "blue" );
```
## 小结
* `dpylr`等扩展包,提供了基于 行, 列, 等规则数据的快速处理
* 非常高效,语法统一,可读性强
* 灵活性尚可
* 学习曲线尚可
# section 4: `ggplot2`, elegant graphics using R
## ggplot2的四个基本组成
1. 图层(layers)
* ```geom_<图层名>```
2. scale:控制数据至美学属性的mapping
* ```scale_<属性mapping方式>```,e.g. ```scale_color_identity()```
{height=30%}
## ggplot2的scale
* ```scale_color_...```
* ```scale_shape_...```
* ```scale_size_...```
* ```scale_fill_...```
与坐标系统联动的函数
* ```scale_x_log()```
* ```scale_y_log()```
更多内容可以见《ggplot2: elegant graphics for data analysis》一书的第6章。
## ggplot2要素3: 坐标系统
* 正常
* log-transform
示例:
\FontSmall
```{r fig.height=3, fig.width=10}
ggplot(mtcars, aes( wt , mpg)) + geom_point() +
scale_y_log10()
```
## ggplot2要素3: 坐标系统,cont.
\FontSmall
```{r fig.height=3, fig.width=10}
ggplot(mtcars, aes( wt , mpg)) + geom_point() +
coord_trans( y = "log10" );
```
```coord_trans()```的其它参数:
* limx, limy: 限制xy的显示范围
## ggplot2要素3: 坐标系统,cont.
其它函数
* ```coord_flip()``` : x,y轴互换;竖bar变横bar;
* ```coord_polar()``` :
\FontSmall
```{r fig.height=3, fig.width=10}
plot1 <- ggplot(mtcars, aes(x = factor(cyl))) +
geom_bar(width = 1, colour = "black");
plot1;
```
## ggplot2要素3: 坐标系统,cont.
\FontSmall
```{r fig.height=3, fig.width=10}
plot1 + coord_polar();
```
\FontNormal
更多内容可以见《ggplot2: elegant graphics for data analysis》一书的第7章。
## ggplot2要素4: faceting ...
\FontSmall
```{r fig.height=3, fig.width=10}
qplot(displ, hwy, data=mpg, facets = . ~ year) + geom_smooth();
```
## ``` ggsci ```: palette for scientific journals!!!
\FontSmall
### install
```{r eval=FALSE}
install.packages("ggsci"); # Install ggsci from CRAN:
devtools::install_github("nanxstats/ggsci"); # or from github
```
### contents
``` scale_color_<journal> ``` 和 ``` scale_fill_<journal> ``` functions and color palettes
### supported journals
* NPG `scale_color_npg()`, `scale_fill_npg()`
* AAAS, NEJM, Lancet, JAMA ...
## ggsci 举例
\FontSmall
```{r warning=FALSE, message=FALSE}
library("ggsci")
library("ggplot2")
library("gridExtra")
data("diamonds")
p1 <- ggplot(
subset(diamonds, carat >= 2.2),
aes(x = table, y = price, colour = cut)
) +
geom_point(alpha = 0.7) +
geom_smooth(method = "loess", alpha = 0.05, size = 1, span = 1) +
theme_bw() + labs( tag = "A" )
p2 <- ggplot(
subset(diamonds, carat > 2.2 & depth > 55 & depth < 70),
aes(x = depth, fill = cut)
) +
geom_histogram(colour = "black", binwidth = 1, position = "dodge") +
theme_bw() + labs( tag = "B" )
```
\FontNormal
**要点**
* ``` library(gridExtra) ```
## ggsci 结果, Nature Style !!
\FontSmall
```{r fig.width=10, fig.height=4}
p1_npg <- p1 + scale_color_npg()
p2_npg <- p2 + scale_fill_npg()
grid.arrange(p1_npg, p2_npg, ncol = 2)
```
## combine multiple plots
Useful packages:
* `gridExtra`
* `cowplot`
* `grid`
* `lattice`
\FontSmall
install or load packages
```{r}
if (!require("gridExtra")){
install.packages("gridExtra");
}
if (!require("cowplot")){
install.packages("cowplot");
}
library( cowplot );
library( gridExtra );
```
## arranging multiple graphs using cowplot
Prepare two plots
\FontSmall
```{r}
sp <- ggplot(mpg, aes(x = cty, y = hwy, colour = factor(cyl)))+
geom_point(size=2.5)
# Bar plot
bp <- ggplot(diamonds, aes(clarity, fill = cut)) +
geom_bar() +
theme(axis.text.x = element_text(angle=70, vjust=0.5))
```
Combine the two plots (the scatter plot and the bar plot):
```{r fig.height=3, fig.width=10}
cowplot::plot_grid(sp, bp, labels=c("A", "B"), ncol = 2, nrow = 1)
```
## 用`draw_plot` 调整graph的相对大小
\FontSmall
先生成一个新的panel
```{r fig.height=3, fig.width=10}
plot.iris <- ggplot(iris, aes(Sepal.Length, Sepal.Width)) +
geom_point() + facet_grid(. ~ Species) + stat_smooth(method = "lm") +
background_grid(major = 'y', minor = "none") + # add thin horizontal lines
panel_border();
plot.iris;
```
## 用`draw_plot` 将三个panel画在一起
\FontSmall
```{r}
plot <-
ggdraw() +
draw_plot(plot.iris, x=0, y=.5, width=1, height=.5) +
draw_plot(sp, 0, 0, .5, .5) +
draw_plot(bp, .5, 0, .5, .5) +
draw_plot_label(c("A", "B", "C"), c(0, 0, 0.5), c(1, 0.5, 0.5), size = 15);
```
`draw_plot(plot, x = 0, y = 0, width = 1, height = 1)` 详解:
* plot: the plot to place (ggplot2 or a gtable)
* x: The x location of the lower left corner of the plot.
* y: The y location of the lower left corner of the plot.
* width, height: the width and the height of the plot
## `draw_plot` results
\FontSmall
```{r fig.height=6, fig.width=10}
plot
```
## 如何在图中加入公式?
显示两组数据间的相关性:
\FontSmall
```{r fig.height=3, fig.width=10}
## 作图
ggplot( swiss, aes( x = Education, y = Fertility ) ) +
geom_point( shape = 20 );
## 分析
with( swiss, cor.test( Education, Fertility )$estimate );
```
## 在图中加入公式和统计信息
先展示一下结果
```{r echo=FALSE, fig.width=10, fig.height=5, warning=FALSE, message=FALSE}
m = lm(Fertility ~ Education, swiss);
c = cor.test( swiss$Fertility, swiss$Education );
eq <- substitute( atop( paste( italic(y), " = ", a + b %.% italic(x), sep = ""),
paste( italic(r)^2, " = ", r2, ", ", italic(p)==pvalue, sep = "" ) ),
list(a = as.vector( format(coef(m)[1], digits = 2) ),
b = as.vector( format(coef(m)[2], digits = 2) ),
r2 = as.vector( format(summary(m)$r.squared, digits = 2) ),
pvalue = as.vector( format( c$p.value , digits = 2) ) )
);
eq <- as.character(as.expression(eq));
ggplot(swiss, aes( x = Education, y = Fertility ) ) +
geom_point( shape = 20 ) +
geom_smooth( se = T ) +
geom_text( data = NULL,
aes( x = 30, y = 80, label= eq, hjust = 0, vjust = 1),
size = 4, parse = TRUE, inherit.aes=FALSE);
```
## 公式详解
{height=40%}
## 公式详解,cont.
以下代码实现两个任务:
1. 将两个公式上下放置 ``` atop ( <equation_1> , <equation_2> ) ```;
2. 将公式中的某些值替换为数值 ``` substitute( <equation>, list( ... ) ) ```
\FontSmall
```{r eval=FALSE}
## 计算 ...
m = lm(Fertility ~ Education, swiss);
c = cor.test( swiss$Fertility, swiss$Education );
## 生成公式
eq <- substitute( atop( paste( italic(y), " = ", a + b %.% italic(x), sep = ""),
paste( italic(r)^2, " = ", r2, ", ", italic(p)==pvalue, sep = "" ) ),
list(a = as.vector( format(coef(m)[1], digits = 2) ),
b = as.vector( format(coef(m)[2], digits = 2) ),
r2 = as.vector( format(summary(m)$r.squared, digits = 2) ),
pvalue = as.vector( format( c$p.value , digits = 2) ) )
);
## 用 as.expression 对公式进行转化
eq <- as.character(as.expression(eq));
```
## 完整代码
\FontSmall
```{r eval=FALSE}
## 计算 ...
m = lm(Fertility ~ Education, swiss);
c = cor.test( swiss$Fertility, swiss$Education );
## 生成公式
eq <- substitute( atop( paste( italic(y), " = ", a + b %.% italic(x), sep = ""),
paste( italic(r)^2, " = ", r2, ", ", italic(p)==pvalue, sep = "" ) ),
list(a = as.vector( format(coef(m)[1], digits = 2) ),
b = as.vector( format(coef(m)[2], digits = 2) ),
r2 = as.vector( format(summary(m)$r.squared, digits = 2) ),
pvalue = as.vector( format( c$p.value , digits = 2) ) )
);
## 用 as.expression 对公式进行转化 !!!!
eq <- as.character(as.expression(eq));
## 作图,三个图层;特别是 geom_text 使用自己的 data 和 aes ...
ggplot(swiss, aes( x = Education, y = Fertility ) ) +
geom_point( shape = 20 ) +
geom_smooth( se = T ) + ## smooth line ...
geom_text( data = NULL,
aes( x = 30, y = 80, label= eq, hjust = 0, vjust = 1), ## hjust, vjust ???
size = 4, parse = TRUE, inherit.aes=FALSE); ## 注意: parse = TRUE !!!
```
## 总结,本节内容
### ggplot2 基础
* 优缺点
* 用法
* 基本组成
### ggplot2 进阶