生物信息学常用数据库
生物信息学常用数据库
写在前面
说来惭愧,感觉读到研究生,说来说去张口闭口也就是TCGA、GEO、ARRAYEXPRESS、GTEX数据库,感觉还不如一些临床医生自学生物信息学的,平常都没去探索一些新的数据库,这边做个记录.黑色部分代表我查到的简介,而红色部分则表示我的个人看法,其实这个关于数据也有别人写过教程了https://mp.weixin.qq.com/s/rNOIuXTqh-xJg2oj3AlRDA
GEO数据库
GEO数据库全称GENE EXPRESSION OMNIBUS,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。它收录了世界各国研究机构提交的高通量基因表达数据,目前已经发表的论文中涉及到的基因表达检测的数据可以通过这个数据库中找到,并且免费提供下载
数据类型包括各种物种的各种组学的数据,可以说非常全面的一个平台了,但是有时需要注意作者可能会上传一些错误的数据上去,所以拿到数据之后还需要进行质控
网址:https://www.ncbi.nlm.nih.gov/geo/
TCGA数据库
TCGA是基因中碱基的缩写,所以看名字大家也就能知道这个数据库是基因测序的信息库,其全称是TheCancer Genome Atlas(TCGA)计划,由美国美国国家癌症和肿瘤研究所(NCI)和国家人类基因组研究所(NHGRI)于2006年联合启动,第一阶段三年耗资1亿美元,收集多形性成胶质细胞瘤和卵巢癌的数据,将肿瘤组织与癌旁组织进行测序。2009年再投2.75亿美元对20多种肿瘤进行大规模研究,目前有20多种组织类型的30多种癌症11000多个病人的临床与基因信息。
TCGA数据库可以说是我最常用的数据库之一了,主要是泛癌分析部分
ICGC数据库
这篇推文包括了如何下载数据的教程,但是是一个个数据下载的样式。
ICGC(International Cancer Genome Consortium,国际肿瘤基因组协作组),收集了50种不同癌种的数据,其中包括基因异常表达,体细胞突变,表观遗传修饰,临床数据等,是除TCGA外研究肿瘤的又一利器!
MSK-IMPACT
MSK-IMPACT检测1万余例
晚期癌症
的结果。
这个下载界面在
但是也只能一个个下载
文章里的网站
一.信息类数据库
MCODE:从PPI识别出子模块
L1000CDS2:得到药物重利用的可能性
iRegulon:预测转录调节因子
1.综合型数据库
NCBI:https://www.ncbi.nlm.nih.gov/
UCSC:http://genome.ucsc.edu/ (基因组浏览器)
Ensembl :
Genecards :
BioGPS : 大型综合数据库
MGD : 小鼠基因组
2.蛋白数据库
UniProt :https://www.uniprot.org/ 蛋白信息
SMART : 信息/结构域/修饰/互作
CR2Cancer : 信息/表达/甲基化/CNV/预后/…
COBALT : 保守性
Clustalo : 保守性
ClustalW : 保守性
multalin : 保守性
InterPro : motif分析
PROSITE : motif分析
ELM : motif分析
NLSdb : 核定位
iACP : 预测抗癌肽
3.-miRNA数据库
miRBase : 信息
Tools4miRs : 整合型
mirPath :http://snf-515788.vm.okeanos.grnet.gr/ 通路
miRPathDB : 通路
HMDD : pub/疾病
MISIM : 预测/疾病
Oncomir : 肿瘤/表达预后
miRNACancerMap : 肿瘤/表达预后
DIANA Tools : 功能/机制
ENCORI : ceRNA
4.lncRNA数据库
noncode : 信息
lncrnadb : 信息
lncipedia : 信息
LncBook : 信息
AnnoLnc :http://annolnc.cbi.pku.edu.cn 信息/表达/机制
Rsite2 : 结构
RNA-MoIP : 结构
TANRIC : 肿瘤/表达
lnCAR :https://lncar.renlab.org 表达/结构
Lnc2Cancer : pub/表达/表型
lncRNADisease : pub/疾病
HDncRNA : pub/心血管
iLoc-LncRNA : 定位/预测/Fasta
lncLocator : 定位/预测/Fasta
RNAlocate :http://www.rna-society.org/rnalocate/index.html 定位/检索
lncATLAS : 定位/基于测序
Co-LncRNA : 功能/相关性
LncBase : ceRNA
LncTar : lncRNA-RNA
LncTar: a tool for predicting the RNA targets of long noncoding RNAs
Lnc2Meth : 甲基化
LncRNASNP2 : SNP/CNV/突变
LncRNA2Target : lncRNA-蛋白/miRNA
LNCediting : A-to-I
5.circRNA数据库
circBase : 信息
circbank : 信息/ceRNA
CIRCpedia : 信息/保守性
circAtlas : 信息/ceRNA/RBP
CircInteractome : 信息/ceRNA/RBP/siRNA
circRNADb : 信息/编码蛋白
CircFunBase : 信息/功能/蛋白/miRNA
TSCD : 组织特异性分析
CSCD : 肿瘤特异性分析
circRNADisease : pub/疾病
TRCirc : 转录因子-circ
ENCORI : ceRNA/RBP
6.外泌体数据库
EVmiRNA : miRNA
exoRBase : 血液/mRNA/lnc/circ
miRandola : RNA/疾病-高通量
7.假基因数据库
dreamBase : 整合型/表达/组蛋白修饰/RNA修饰/蛋白结合/miRNA
8.融合基因数据库
ChimerDB : 整合型/pub+预测
COSMIC Fusion : pub
9.DNA修饰数据库
AWESOME :http://www.awesome-hust.com/ snp
Pancan-meQTL : SNP/甲基化-生存/调控
iDNA6mA-PseKNC : N6甲基化/Fasta
MethBank : 甲基化/多物种/注释库
10 RNA修饰数据库
RMBase :http://rna.sysu.edu.cn/rmbase/ RNA修饰/SNP
m6AVar : m6A
WHISTLE : http://180.208.58.19/whistle/index.html m6A/预测
iRNA-3typeA :http://lin-group.cn/server/iRNA-3typeA.php m1A/m6A/A-to-I/预测
LNCediting : A-to-I
11.蛋白修饰数据库
PTMD : 修饰-疾病
Phosphonet : 磷酸化
PhosphositePlus : 磷酸化
qPhos : 磷酸化
GPS : 磷酸化
GPS-MSP : 蛋白甲基化
12.药物数据库
DGIdb : 药物-基因
Pubchem : 化合物/信息/结构
CTD : 信息/化合物/互作
NRDTD :http://chengroup.cumt.edu.cn/NRDTD/ 药物-ncRNA
ETCM : 中药/靶分子/功能/疾病
BATMAN-TCM : 中药/靶分子/功能/疾病
TCMSP : 中药成分/靶分子/疾病
TCMID : http://119.3.41.228:8000/tcmid/ 中药信息
SymMap : 整合型
VigiBase :https://www.who-umc.org/vigibase/vigilyze/ 药物不良数据库
13.疾病数据库
HMDD : (疾病/miRNA/靶分子)
lncRNADisease : (疾病/lncRNA)
circRNADisease : (疾病/circRNA)
HDncRNA :http://hdncrna.cardiacdev.com (心血管疾病/ncRNA)
OsteoporosAtlas : (骨质疏松/基因/miRNA)
AlzBase : 阿尔茨海默症/GEO)
14.其他数据库
Autophagy:http://www.autophagy.lu/index.html 自噬数据库
eFORGE:https://eforge.altiusinstitute.org/ 表观遗传数据库
CellMarker:http://biocc.hrbmu.edu.cn/CellMarker/ 细胞标志物数据库
COSMIC:https://cancer.sanger.ac.uk/cosmic/ 癌症体细胞突变数据库
二.样本数据库
1.样本存储数据库
GEO : (2020)大型/众多疾病
TCGA : (2020)肿瘤
ICGC : (2020)肿瘤
CGGA : 胶质瘤
CPTAC : 肿瘤蛋白质组数据库
Treehouse : 儿童肿瘤
CCEL : 肿瘤细胞株
cbioportal : 肿瘤
Protein Atlas : 免疫组化数据库/肿瘤
GTEx : 正常样本
Cistrome : (2020)表观组数据
ReMap : ChIPseq数据
HMP : 人类菌群数据
PanglaoDB : 单细胞转录组/表达/亚群marker
2.分析平台
NetworkAnalyst : /芯片/RNAseq
GREIN : GEO-array/RNAseq-预分析
BioJupies :https://amp.pharm.mssm.edu/biojupies/ RNAseq
IRIS-EDA : RNAseq/scRNA-seq
iDEP.85 : 芯片/RNAseq
Granatum : ? state_id =c11e507cd31c35d0&tab=info 单细胞测序
MicrobiomeAnalyst : 微生物组学
Microbializer : 微生物组学
3.基于GEO/TCGA开发的数据库
GEO2R : 差异分析/芯片编号
BART : 差异分析/芯片编号/原始文件
ImaGEO : meta/芯片编号
R2 : 多种分析
CRN : 肿瘤相关
Lung cancer Explorer:http://lce.biohpc.swmed.edu/lungcancer/index.php#page-top 肺癌
GEPIA : 表达/预后/相关性
Oncomine : 表达/预后/相关性
UALCAN : 表达/预后/相关/甲基化
LinkedOmics : 表达/相关/甲基化
TRGAted : 预后/OS/DFS/DFI
KM plotter : 预后/mRNA/miRNA
MethSurv : 甲基化预后
MethHC : 甲基化-表达
MEXPRESS : 甲基化
Lung cancer Explorer:http://lce.biohpc.swmed.edu/lungcancer/index.php#page-top 肺癌
HCMDB:http://hcmdb.i-sanger.com/index 人肿瘤转移数据
三.交互数据库
1.RNA-DNA数据库
LongTarget : R-loop
R-loopDB : (R-loop)
2.(RNA-RNA) miRNA-RNA数据库
ENCORI : (ceRNA)
TargetScan : ceRNA
miRWalk : (整合型)
TarBase : pub
miRTarBase : (预测)
LncBase : 预测/lncRNA
LncACTdb 2.0 : pub/预测/ceRNA
miRTissue : http://150.145.111.118:3838/mirTissue/ 交互的影响
3.蛋白-DNA) 转录因子数据库
JASPAR :http://jaspar.genereg.net/ (2020)
AnimalTFDB : 找TF
Unibind : 转录因子信息
iTIS-PseTNC : 预测TSS
dbtoolkit : TF预测
ChIPBase : (TF-ncRNA/蛋白/共表达)
ChIP-Atlas : TF找靶分子
TRRUST : pub/预测?
miRGen : TF-miRNA
TransmiR : TF-miRNA
mirTrans : TF-miRNA
4.(蛋白-DNA) 增强子数据库
EnhancerDB : 增强子-TF-基因/miRNA
HACER : 增强子-TF-靶基因
EnhancerAtlas :http://www.enhanceratlas.org/CONTACT 增强子-基因
TiED : 组织特异性/TF/靶分子/SNP
HEDD :http://zdzlab.einstein.yu.edu/1/hedd.php (增强子-疾病)
5.蛋白-蛋白数据库
STRING : (蛋白-蛋白互作网络)
BioGRID : pub
APID :http://apid.dep.usal.es (pub/实验)
OLS:https://www.ebi.ac.uk/ols/ontologies/mi
HDOCK :http://hdock.phys.hust.edu.cn/ (预测/蛋白-蛋白)
InterEvDock2 : 预测
6.药物-蛋白数据库
DGIdb :http://www.dgidb.org/ (药物-基因)
NRDTD : (药物-ncRNA)
ETCM : 中药/靶分子/功能/疾病
BATMAN-TCM : 中药/靶分子/功能/疾病
TCMSP : 中药成分/靶分子/疾病
SEA:http://sea.bkslab.org/ 预测药物靶点
SuperPred:http://prediction.charite.de/ 预测药物靶点
KINOME: 预测药物调控激酶
VARIDT:http://varidt.idrblab.net/ttd/ 药物转运体数据库
7.肿瘤微环境数据库
CIBERSORT : 免疫浸润
TIMER : 免疫浸润
TISIDB : 基因-免疫细胞
CancerSEA : 肿瘤单细胞
四.富集数据库
1.功能数据库
Metascape : 富集分析
DAVID : 富集分析
WebGestalt : ORA/GSEA/NTA
TAM : miRNA富集分析
GSEA : GSEA
Enrichr : 富集
KOBAS : 聚类
g: Profiler : 聚类/ID转换
OmicsNet : 网络构建
FunRich:http://funrich.org/download
2.通路数据库
KEGG : 通路
Reactome : 通路
Pathview : 通路/可视化
五.实验数据库
1.试剂数据库
CiteAb : 抗体
BenchSci : 抗体
Labome : 抗体/siRNA
Selleckchem : 抑制剂
CRISPRlnc : crispr/lncRNA
MRPrimerW2 : qPCR引物
ChIPprimersDB : ChIP-PCR引物
PrimerBank:https://pga.mgh.harvard.edu/primerbank/ qPCR引物
Addgene:http://www.addgene.org/ 载体信息共享网站
2.实验protocol数据库
Jove : 视频/权限
bio-protocol : protocol
Current Protocols : protocol
Nature protocol : protocol
Springer Protocols : protocol
Cold Spring Harbor Protocols : protocol