目录

国际千人基因组计划数据库怎么用起来

国际千人基因组计划数据库怎么用起来?

从公共数据库中下载基因组或外显子组数据,一般需注意以下几项:

1. 使用权限

  1. 物种及参考基因组版本

  2. 数据来源及引用:GEO、千人基因组计划等

  3. 表型:种族、健康状况、性别、年龄和家系信息

  4. 数据类型:遗传变异、体细胞变异;SNV、InDel或SNV;基因芯片或测序(测序仪、单双端及读长)

  5. 文件类型:fastq、bam、vcf或gvcf

国际千人基因组计划

项目起始 。人类基因组计划耗费10多年后在2003年绘出人类的完整基因组图谱。作为某种延续,也得益于测序通量的提高,国际千人基因组计划(The 1000 Genomes Project, 1000G /1KGP)从2008年启动,到2012年即获得了超过1000人的基因组数据,是科学界首次实现千人规模以上的基因组对比分析(2012年)。

1000G建立的人类遗传变异资源由国际基因组样本资源(The International Genome Sample Resource, IGSR)维护和共享。IGSR官网:

https://i-blog.csdnimg.cn/blog_migrate/997429f26e70132da593103e40c90c25.png

项目规划 。1000G旨在绘制当时(2012年)最为详尽、最有医学应用价值的人类基因组遗传多态性图谱。其后数据不断扩充,分析结果不断更新和迭代。目前已经有超过2500个人的基因组。2500个人的全部基因组可产生50TB(5万GB)的数据量,包含8万亿个DNA碱基对。

参与单位 。华大基因是1000G的主要发起单位之一,承担了非洲人群和400个黄种人的全基因组测序。其它单位有英国桑格研究所和美国国立人类基因组研究所等。

人群分布 。每个亚群一般包含几十到一百多个健康人。例如:尼日利亚伊巴丹区域的约鲁巴人;肯尼亚Webuye的Luhya人和Kinyawa的Maasai人;居住于美国西南部的非洲人后裔;居住于东京的日本人;居住于北京的中国人;居住于丹佛的中国人;意大利的Toscani居民;美国犹他州的北欧和西欧人后裔;美国休斯顿的Gujarati印第安人;美国洛杉矶的墨西哥人后裔。项目后期的人群多样性有大幅增加。

https://i-blog.csdnimg.cn/blog_migrate/ca3362993b79578fbeb8ec0d998cbfa7.jpeg

https://i-blog.csdnimg.cn/blog_migrate/8286e4f93f96d0473b88fed74b9874bd.jpeg

1000G数据库的应用

任何两个人在基因水平上99%是一样的,小部分的基因组序列因人而异。每个看起来很健康的人其实都携有数百个罕见的基因变异,其中有些基因变异已证实与某些疾病风险有关。这些基因变异究竟在什么情况下才会实质性地增加患病风险,目前不得而知(聊生信:我们会关注相关的研究与应用进展)。

发现 罕见的基因变异 1000G可以帮助发现一些携带者占总人口比例不到1%的基因变异。这些罕见基因变异或许与疾病有关,例如可能增加心脏病或癌症的患病风险。对基因变异进行研究有助于开发预防、治疗相关疾病的方法。

作为人群对照 。可以帮助研究者不再泛泛地找一些人的基因组(几个或几十个)用于对比,而是直接调阅他们长期生活区域的人群基因组数据,开展更加有针对性的比较。

应用汇总 。 发现疾病发病机理、疾病的易感性、对药物和环境因素的反应性;常见疾病的诊断、个性化预测、预防和治疗;在大的范围内定位人群突变基因、帮助发现人类遗传疾病的相关基因、鉴定特定遗传病人群中的罕见致病基因、更精确地定位已发现的遗传风险因素、挖掘出更多未知的致病遗传因素;药物基因组学、人类群体遗传学、人类进化史。

样本列表的选择和下载

1000G包含的个体主要是来自不同人群的(自我声称)健康的样本(people who declared themselves to be healthy),可方便地下载到原始数据。但作为对照时需要注意:只有少部分样本进行了深度测序,大部分数据都是低深度测序。

主要数据组成

Pilot:    试点,比对到NCBI36

Phase1:约1000例,低深度和外显子数据,GRCh37

Phase2:约1700例,分析方法有更新

Phase3:约3000例,GRCh37,2504例的样本信息公开

1000 Genomes on GRCh38:约2700例样本

GRCH38的不同版本(GRCH38.p1, GRCH38.p2等)是对GRCH38的修补(patch),坐标系不会改变。

数据入口(data portal)

先选择测序技术:

https://i-blog.csdnimg.cn/blog_migrate/28d3939c145a90fd68f1acad33de5b8a.png

另有全基因组、小RNA、Nanopore、PacBio和单细胞测序,及基因型芯片数据

再选择人群:

https://i-blog.csdnimg.cn/blog_migrate/03f5774de2664383e98cabffc1e8c306.jpeg

最后选择数据集合:

https://i-blog.csdnimg.cn/blog_migrate/eca7a8f52249803c9fee4fe8d31fd780.png

先选择了外显子组(Exome);人群:CHB(北京,n=103);CHS(南方汉族人群,n=113);数据集合:30x on GRCh38。最终有216个样本符合。

点击Download the list下载得到样本名称:

https://i-blog.csdnimg.cn/blog_migrate/b8389637a8ffa3a80f2563a750eda15c.png

需要根据这些样本列表从1000G数据库下载感兴趣的各类变异文件,我们后续的推文再介绍。

撰写:宋红卫

校对:宋红卫

https://i-blog.csdnimg.cn/blog_migrate/ba7cd0f1365beec82fe0fea1f820382e.jpeg

更多人类遗传学知识、文献和分析技术

请关注和星标聊生信

往期精品(点击图片直达文字对应教程)

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

https://i-blog.csdnimg.cn/blog_migrate/dfe95951b8817a3c57021fd445d8e60a.jpeg

https://i-blog.csdnimg.cn/blog_migrate/948f99293dd7c139225073dfd08f06b3.jpeg

https://i-blog.csdnimg.cn/blog_migrate/ec109ec7a660eae56dc6abd44d9076e4.png