TCGA | GEO | 文献阅读 | 数据库 | 理论知识
R语言 | Bioconductor | 服务器与Linux
最近有粉丝留言,TCGA数据库发生更新,下载的数据和之前的不一样。比如转录组,之前是HTSeq流程的数据,现在是STAR-Counts的数据。具体的数据信息参考:https://docs.gdc.cancer.gov/Data/Release_Notes/Data_Release_Notes/#data-release-320
下载后的数据,打开是这样的。都放在了一个文件中。
这里分享一下怎么提取数据。
数据的下载和之前的教程一样【14-TCGA数据库下载整理】。只不过这里选择的是STAR-Counts了。加入购物车后下载下面的文件。
我先写2个函数,一个是处理读入json文件的函数,该文件包括文件信息和样本barcode的关系。
jsonFile是下载的json文件的完整路径。
下面的函数是提取数据的函数。
filepath 是下载的数据路径。通过dir等类似的函数获取的路径向量。比如,我们下载的数据是一个压缩包,解压后,将文件名重新命名为data。
jsonFileInfo是processingJsonFiles函数获取的结果。
data_type是下面中的一种。
"unstranded";
"stranded_first";
"stranded_second";
"tpm_unstranded";
"fpkm_unstranded";
"fpkm_uq_unstranded"
对应文件中的信息
下面就可以获取数据了,想要什么就获取什么。一般就是TPM和FPKM。
原来TCGA数据库的下载,使用TCGAbiolinks包是否还可以处理数据,我还没有试,但下载数据应该是没有问题的。
对于之前版本的数据。我之前文章【数据库数据 | TCGA数据库33种癌症的 transcriptome profiling (RNA-Seq) 数据】有已经处理好的数据,大家可以下载。
最后,有用的给个赞赏!