推广 热搜： 行业机械设备杯系统教师经纪参数金蒸汽

首页 > 最新动态 > 相关动态

2022-TCGA数据库重大更新后RNASeq的STAR-Counts数据的下载与整理

日期：2024-11-10 移动：http://dgaty.xhstdz.com/mobile/quote/70356.html

2022-TCGA数据库重大更新后RNASeq的STAR-Counts数据的下载与整理

TCGA | GEO | 文献阅读 | 数据库 | 理论知识

R语言 | Bioconductor | 服务器与Linux

最近有粉丝留言，TCGA数据库发生更新，下载的数据和之前的不一样。比如转录组，之前是HTSeq流程的数据，现在是STAR-Counts的数据。具体的数据信息参考：https://docs.gdc.cancer.gov/Data/Release_Notes/Data_Release_Notes/#data-release-320

下载后的数据，打开是这样的。都放在了一个文件中。

这里分享一下怎么提取数据。

数据的下载和之前的教程一样【14-TCGA数据库下载整理】。只不过这里选择的是STAR-Counts了。加入购物车后下载下面的文件。

我先写2个函数，一个是处理读入json文件的函数，该文件包括文件信息和样本barcode的关系。

jsonFile是下载的json文件的完整路径。

下面的函数是提取数据的函数。

filepath 是下载的数据路径。通过dir等类似的函数获取的路径向量。比如，我们下载的数据是一个压缩包，解压后，将文件名重新命名为data。

jsonFileInfo是processingJsonFiles函数获取的结果。

data_type是下面中的一种。

"unstranded";
"stranded_first";
"stranded_second";
"tpm_unstranded";
"fpkm_unstranded";
"fpkm_uq_unstranded"

对应文件中的信息

下面就可以获取数据了，想要什么就获取什么。一般就是TPM和FPKM。

原来TCGA数据库的下载，使用TCGAbiolinks包是否还可以处理数据，我还没有试，但下载数据应该是没有问题的。

对于之前版本的数据。我之前文章【数据库数据 | TCGA数据库33种癌症的 transcriptome profiling (RNA-Seq) 数据】有已经处理好的数据，大家可以下载。

最后，有用的给个赞赏！

本文地址：http://dgaty.xhstdz.com/quote/70356.html 物流园资讯网 http://dgaty.xhstdz.com/ , 查看更多

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

0 条相关评论

相关最新动态

推荐最新动态

点击排行

网站首页 | 关于我们 | 联系方式 | 使用协议 | 版权隐私 | 网站地图 | 排名推广 | 广告服务 | 积分换礼 | 网站留言 | RSS订阅 | 违规举报 | 鄂ICP备2020018471号

(c)2008-现在物流园版权所有 xml 网站地图 | 鄂ICP备2020018471号