图片来源:GEPIA2
作者:李瑞萌
审校:Jimmy
GEPIA2 是北京大学张泽民老师实验室开发的一个网站,能够对TCGA和GTEx项目共9736个肿瘤样本、8587个正常样本的RNA-seq表达数据进行分析。目前该网站已经有两篇文章发表。
参考文献:
Tang, Z. et al. (2017) GEPIA: a web server for cancer and normal gene expression profiling and interactive analyses. Nucleic Acids Res, 10.1093/nar/gkx247.
Tang, Z. et al. (2019) GEPIA2: an enhanced web server for large-scale expression profiling and interactive analysis. Nucleic Acids Res, 10.1093/nar/gkz430.
细分为8个功能
General
Differential Genes
expression DIY
Survival Analysis
Isoform Details
Correlation Analysis
Similar Genes Detection
Dimensionality Reduction
在搜索框内输入感兴趣的gene symbol或者Ensembl ID,可以得到该gene及其isoform的详细信息,并且以body map、bar plot、dot plot形式表示其在肿瘤样本和正常样本中的表达情况。当然也可以输入Isoform symbol或者Isoform ID。
其他7个功能的实现也很简单:输入基因名称(或者isoform、gene signature),选择癌症数据集,设置一些参数,即可得到基因列表或者可视化结果。以'expression DIY’为例,如下图:
这个网站用起来非常友好,哪里不会点哪里。不理解参数,点击’help';忘记肿瘤名称了,点击Cancer name。而点击'example’,会弹出一个新网页 “Examples for GEPIA2 Usage“;这个网页提供了一些用于可视化的Rscript代码。
在某一肿瘤/正常组织中差异表达的基因或者isoform,并且显示这些基因在染色体上的位置分布。
可以画四种图
(1) profile:用dot plot分析一个基因或者isoform在不同肿瘤样本(和正常样本)中的表达情况。
(2) Box Plot:分析一个基因或者isoform或者a multi-gene signature在不同肿瘤样本和正常样本中的表达情况。也可以对其在某一肿瘤不同亚型中的表达情况进行研究,如下图。
(3) Stage Plot:用violin plot分析一个基因或者isoform在肿瘤不同阶段的表达情况。
(4) Multiple Genes Comparison:用heatmap分析多个基因在不同肿瘤样本(和正常样本)中的表达情况。
(1) Survival Analysis: 一个基因、isoform或者a multi-gene signature在任意癌症中的OS或者DFS。也可以对其在任意肿瘤不同亚型中的OS或者DFS进行研究。
(2) Most Differential Survival Genes: 获得在某种癌症中,与生存相关的基因/isoform列表。
(3) Survival Map: 用heatmap表示多个基因或者isoform在多种癌症中的生存分析结果。
The heat map shows the hazard ratios in logarithmic scale (log10) for different genes. The red and blue blocks denote higher and lower risks, respectively. The rectangles with frames mean the significant unfavorable and favorable results in prognostic analyses.
(1) Isoform Usage: 结合violin plot和bar plot,可以找到肿瘤特异性的isoform以及在某一肿瘤类型中发生的isoform 'switch' 事件。
violin plot表示 the expression level (log2(TPM + 1)) of each isoform in a certain gene。
bar plot表示 the isoform usage (from 0% to 100%) distribution。
(2) isoform protein domain structure plots based on the prediction of Pfam.
对两个基因、两个isoform或者两个signature在任意肿瘤中的相关性进行分析。
在 "TCGA Tumor", "TCGA Normal" 或者 "GTEx"样本中,搜索具有相似表达特征的基因、isoform或者signature。
输入要研究的基因列表,选择感兴趣的"TCGA Tumor", "TCGA Normal" 或者 "GTEx"样本集以及其他参数,就会得到2D plot、3D plot以及每个主成分解释方差的比例(bar plot)。
该网站支持用户上传自己的肿瘤RNA-seq数据,以识别molecular subtype, TCGA immune subtype以及pan-cancer subtype。并且,基因和isoform的表达谱数据也可以与TCGA、GTEx数据进行比较。
接下来通过代码重复GEPIA2网站的可视化结果,以Stage plot和Correlation Analysis为例。
(1) 从UCSC xena下载表达量数据和临床信息
首先,下载UCSC Toil RNA-seq Recompute数据。
这个数据包含10535个样本,数据量比较大、耗内存,电脑配置不高的话可能容易死机;文件中的数据是log2(tmp+0.001),使用的注释文件是gencode v23版本。
接着,下载临床信息,后面的分析需要用到“ajcc_pathologic_tumor_stage”等信息。
(2) 下载注释文件
1.Stage plot(小提琴图)
代码运行结果:
GEPIA2网站结果(与上面的顺序一致):
2.Correlation Analysis
代码运行结果:
GEPIA2网站结果(与上面结果顺序一致):
比较与总结
1.数据源:TCGA数据有多种下载方式,最开始我重复这些图的时候,使用的数据是从GDC下载的,代码运行的结果与原图有些差异;后来搜到了这个网站,发现它使用的是UCSC xena项目的数据,并且从TCGA文献中收集不同肿瘤亚型的信息。
2.比较GEPIA2网站与'自己写代码' 的可视化结果:它们的p-value、F value等还是有些差异,可能是因为我们的数据不太一样,对基因或者样本的过滤标准也不同。比较奇怪的是,PARP1 vs PD1以及PARP1 vs mmp9的散点图与网站的可视化图形比较相似,但是p-value和R值很不一样;而PARP1 vs PDL1的结果与网站结果比较一致。这个问题先留下,以后再研究研究。
3.我觉得GEPIA2网站使用起来太友好了,哪里不会点哪里,上手特别快。如果你对R语言不太熟悉,推荐使用GEPIA2网站;如果你是生信新手,想写代码得到GEPIA2的可视化结果,推荐看看生信技能树视频,以及参考GEPIA2提供的代码。
4.“使用R语言写代码”可以通过设置一些参数,向图片上添加拟合线或者其他内容;也可以实现count、FPKM与TPM之间的转换并得到相应的可视化结果。但GEPIA2提供的plot参数比较少;并且使用的是TPM值,设置参数时可以选择是否log2(TPM + 1) ,并不提供count、FPKM值的可视化结果。
参考:
哔哩哔哩【生信技能树】-- TCGA肿瘤数据库知识图谱