当前课程知识点:分子生物学 > 第三章 核酸结构及理化性质 > 3.4 基因,基因组及人类基因组的特点 > 3.4 基因,基因组及人类基因组的特点
人类基因组计划
以及由此派生出来的
后基因组时代的
以各种组学为代表的新的学科
以及包括二代三代测序和
单细胞测序在内的技术革新
我们将在线下于同学们深入探讨
今天我们来简单了解一下
人类基因组计划的过程
然后重点学习一下
人类基因组研究所揭示的
人类基因组的主要特征
基因组是生物体内遗传信息的集合
是某个特定物种细胞内
全部DNA分子的总和
人类基因组计划
于20世纪90年代启动
有美 英 德 法
日本和中国六个国家
20个测序中心
超过1000名科学家
参与了该项工程
该计划除了主要测定
人单倍体染色体组中
约30亿碱基对序列以外
还包括识别这其中的大约3万个基因
同时将这些信息建立数据库
以及开发相应的数据库
检索方式和分析软件
另外还有一部分很重要的工作
则是完善由于基因组测序
所将会带来的相应的伦理
法律和社会学规范
至2000年六月人类基因组计划
完成了基因组的工作草图
再到2003年4月完成了
人类全基因组测序
人类基因组的核苷酸序列
图其实是由30亿个
核苷酸组成完整物理图
这个基因组全序列
来自一个 代表性人类个体
其所有权在法律上不属于任何供体
它来自多个不同背景的
志愿者提供的生物样本
为了保护隐私这些供者的
信息被刻意隐去
而且最终只使用了
5-10分之一的志愿者的样本
因此实际上
这些供者自己
也不知道自己的DNA样本是否被使用
该序列在理论上
代表了全人类的基因组信息
与其它生物相比
人类基因组非常庞大
从这个表可以看出HIV病毒
大肠杆菌 酵母 果蝇
小鼠和人的基因组的大小
如果把大肠杆菌的基因组比作一页纸的话
人类基因组就相当于一套百科全书
假设一页纸上打印5000个碱基序列
人的整个基因组将打满你们
看到的这个人身后的3堆A4纸
这里面每一堆有40箱
每箱5000张A4纸
然而这还不是故事的全部
因为为了得到完整准确的全基因组序列
实际测序量需要达到基因组的六倍
因此很显然
人类基因组的测序工作
不可能是简单直观地从第一个碱基开始
测到最后一个碱基
必须要有一个高效的测序方法
这个方法就是首先对基因组进行作图
这个过程就如同我们
在阅读一套百科全书之前
首先给它划分章节一样
作图有几种不同地方法
遗传学作图(genetic map)
又称为连锁图(linkage map)
是指基因或DNA标志
在染色体上的相对位置与遗传距离
遗传距离是通过连锁分析来确定的
同源染色体能相互配对后
可能发生同源片段的重组
该重组频率与这两个位点
之间的距离呈正相关
科学上用两个位点之间的重组
频率“分摩”(cM) 来表示
其遗传学距离
计算重组率的时候需要使用的遗传标记
经典的遗传标记是
可被电泳或免疫技术检出的蛋白质标记
如红细胞ABO血型位点标记
使用的遗传标记越多
遗传学作图就越精细
现在的遗传学作图中更多地
需要使用DNA多态性遗传标记
比如
限制性片段长度多态性
串联重复多态性
单核苷酸多态性 等
另外还有物理作图
人类基因组的物理图(physical map)
是指以已知核苷酸序列的
在基因组中的单拷贝DNA 片段
这个称为序列标签位点
sequence-tagged site STS为标记
以碱基对(bp)作为
基本测量单位(图距)的基因组图
任何 DNA序列只要知道它
在基因组中的位置并且是唯一的
都能被用做 STS 标签
物理图的主要内容是
建立相互重叠连接的
相连 DNA 片段群 (contig)
并用 PCR方法予以证实
在作图的基础上
利用各种载体进行文库的构建
并不断细分成各种亚文库
不同的载体有不同的外源
基因的承载能力
例如酵母人工染色体 yeast artificial chmmosome,YAC
细菌人工染色体bacterial artificial chromosome
粘粒(cosmid)和噬菌体(bacteriophage)等
最终组成可用于测序的
片段重叠群(contig)
然后采用所谓的全基因组鸟枪法测序
将含有染色体片段
的BAC DNA亚克隆至测序载体上
大约含有2000bp的被测序片段
随机挑选带有基因组DNA的
质粒做测序反应
然后用计算机进行序列拼接
根据Poisson概率
计算我们可以看到
即便在6倍测序量下
仍然有0.25%的位点会被漏测
因此最后还需要进行
缺口填补和错误修正
最终人类全基因组测序的
结果揭示了人类基因组的一些基本特征
人类一个单倍型包含22个常染色体
X染色体与Y染色体
含有约30亿个DNA碱基对
只有A T C G四种碱基
不同个体之间
碱基序列有差异
目前已有超过300万个
单核苷酸多态(SNP)被发现
整个基因组只有不到3万个基因
数量远少于预期
但这些基因往往可以
通过比如选择性剪切来
来产生一个以上的基因产物
这些基因在基因组内并非平均分布
有“基因富集区”和“基因沙漠区”
一般来说
“基因富集区”的G-C含量
高于基因组其它部分
而“基因沙漠区”的A-T含量高
在基因富集区的基因之间
往往存在CpG二连核酸的侧翼序列
真核基因多为断裂基因
其中的外显子
也就是能够制造蛋白质的编码序列
只占总长度的不到2%
在非编码序列中
有一半以上都是重复序列
这些重复序列有
随着进化在基因组中累积的趋势
因此与其它低等生物相比
重复序列在人的基因组
中所占的比例要高得多
基因组中的重复序列分为两种
一种是串联重复(tandem repeats)
一种是散在重复
在人类基因组中
串联重复序列约占10%
串联重复序列是指以
相对恒定的短序列为重复单位
首尾相接
串联形成
又称卫星DNA (satellite DNA)
按重复单位的长度分为卫星DNA
小卫星DNA和微卫星DNA
重复单位短的仅2bp长的可达数十碱基对
重复次数少
在人群当中也有着相当大的个体差异
少则数次 多则几百次
重复序列的重复次数不同
是形成DNA长度多态性的基础
小卫星和微卫星DNA
具有极高多态性(variable number of tandem repeats)
可以用于个体识别和亲子鉴定
散在重复序列是散在
方式分布于基因组内的重复序列
根据重复单位的长度可以分为
短分散重复序列(short interspersed nuclear elements
或short interspersed repeated sequences SINEs)
在人基因组中的重复倍数达10万以上
人类基因组中有些基因来源于同一个祖先
通过基因重复而产生两个或更多的拷贝
而构成的一组结构和功能上具有
明显的相似性的基因组成一个基因家族
这些基因可以紧密排列在一起
形成一个基因簇
例如位于7号染色体
长臂3区2带的组蛋白基因家族
也可以分散在同一染色体的不同位置
或者存在于不同染色体上
在基因家族中
某些成员并不产生有功能的基因产物
称为假基因(pseudogene)
例如
类β珠蛋白基因簇中的假基因
假基因与有功能的基因同源
但由于部分位点突变使这一基因失去活性
成为无功能基因
另外
基因组中有些多拷贝基因
这些重复基因往往是
与生命活动最基本
最重要的功能相关的基因
例如rRNA基因
基因组中还有一类可移动的DNA序列
称为转座子
可以通过切割
重新整合等一系列过程
从基因组的一个位置"跳跃"到另一个位置
前面我们提到的
散在重复序列就是转座子
好了
今天关于人类基因组计划
以及人类基因组的特点
我们就先介绍到这
咱们下节课见
-1.1 a brief history of molecular biology
--分子生物学的历史
-2.1 生物大分子
-2.2 生物大分子复合物
-第二章单元测试
-3.1 核酸的结构
-3.2 核酸的理化性质
-3.3 染色体的结构
-3.4 基因,基因组及人类基因组的特点
-第三单元测试
-4.1 the discovery of genetic material
--4.1 遗传物质的发现the discovery of genetic material
-4.2 半保留复制的过程和特点
-4.3 几种特殊的复制形式
-4.4 随机复制对半保留复制的补充
-第四章单元测试
-5.1 转录的起始及RNA聚合酶
-5.2 启动子的特点及转录因子
-5.3 转录的延伸和终止
-5.4 转录后的加工
-第五章单元测试
-6.1 遗传密码子的破解和密码子的“简并性”
-6.2 tRNA的结构特点
-6.3 核糖体的结构特点
-6.4 蛋白质的翻译过程
-6.5 蛋白质的翻译后修饰
-6.6 mRNA在细胞内的非随机分布与翻译
-第六章单元测试
-7.1 氨基酸与蛋白质
-7.2 蛋白质的四级结构
--蛋白质的四级结构
-7.3 蛋白质的理化性质
--蛋白质的理化性质
-7.4 蛋白质的结构域,蛋白质家族及种系进化分析
-第七章单元测试
-8.1 操纵子模式及原核基因表达的调控
-8.2 真核基因表达转录和转录后水平的调控
-第八章单元测试
-9.1 突变概述
--9.1 突变概述
-9.2 突变的后果及修复
-9.3 人工突变,表型筛选及育种
--9.3 诱突育种
-第九章单元测试
-10.1 DNA指纹与个体识别
-10.2 基因编辑与伦理
-第十章单元测试