芯片数据分析笔记02-芯片数据库
芯片数据分析笔记【02】 | 芯片数据库
比较大的芯片数据库 有美国 NCBI 的 GEO,欧洲 EMBL-EBI 的 ArrayExpress,日本 DDBJ 的 GEA,不过这个 GEA 直 接连接到 ArrayExpress,还有TCGA数据库中也有大量肿瘤芯片数据,不要误 以为 TCGA 全是测序数据。其中 GEO 是最大的芯片数据库,其次是 ArrayExpress。
1. GEO数据库简介
GEO,全称 Gene Expression Omnibus(基因表达综合数据库),是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。它创建于2000年,收 录并整理了全球范围内研究工作者上传的微阵列芯片、二代测序以及其他形式的高通量基 因组数据,这些数据包括基于单通道和双通道微阵列的实验,检测mRNA,基因组DNA和蛋白质丰度,以及非阵列技术,如基因表达系列分析(SAGE),质谱蛋白质组学数据和高通量测序数据。也就是说只要是目前已经发表的论文,论文中涉及到的基因表达检测的数据都可以通过这个数据库中找到。关键是这个数据是免费的!随着芯片和测序技术的蓬勃发展和应用, 2000 年美国国立生 物技术信息中心, NCBI 创建了 GEO 并维护至今。2003 年到 2004 年 GEO 数据库逐渐开放供 研究者获取和分析, 2001 年到 2006 年, GEO 数据上传的规则,也就是 MIAME(The Minimum Information About a Microarray Experiment guidelines)逐渐形成并实行,并成为提交 芯片数据的全球规范。
地址:https://www.ncbi.nlm.nih.gov/geo/
GEO 数据库收录的数据类型有:
01)基因芯片或高通量测序的基因表达数据,包括 ncRNA
02)基因芯片或高通量测序的 ChIP 数据
03)基因芯片或高通量测序的基因组甲基化数据
04)高通量实时定量 PCR 的数据
05)微阵列比较基因组杂交技术(arrayCGH)的基因组变异数据
06)单核苷酸多态性(SNP)芯片数据
07)基因表达系列分析(SAGE)的数据
08)蛋白芯片数据
09)十几组大规模平行测序 MPSS 数据
10)十几组质谱 MS 数据
11)其他
2.ArrayExpress 数据库
NCBI 的基因表达综合数据库 GEO 和欧洲 生物信息学研究所(EBI)的 ArrayExpress 是芯片数据的两个主要公共数据库。尽管它们具 有不同的设计,但两个数据库都支持由 MIAME 定义的所有数据元素。因此 GEO 和 ArrayExpress 数据库及数据集结构十分相似,可以类比的学习。ArrayExpress 数据库在 2002 建立,开始收录芯片数据, 2008 年开始收录高通量测序数据,同样,近几年测序数据的增 长量逐渐超过芯片数据。ArrayExpress 是 GEO 数据的一个良好的补充。
目前【2021年8月27】有74700个实验的数据,2556953个芯片数据,60.91TB的存档数据,这都是在描述ArrayExpres数据库的数据量的大小。
ArrayExpres数据库的主页链接(https://www.ebi.ac.uk/arrayexpress/)