人类结构基因4个区域:①编码区,包括外显子与内含子;②前导区,位于编码区上游,相当于RNA5’末端非编码区(非翻译区);③尾部区,位于RNA3’编码区下游,相当于末端非编码区(非翻译区);④调控区,包括启动子和增强子等。基因编码区的两侧也称为侧翼顺序(图3-1)。
1.外显子和内含子 大多数真核生物的基因为不连续基因(interruptesd或discontinuous gene)。所谓不连续基因就是基因的编码顺序在DNA分子上是不连续的,被非编码顺序所隔开。编码的顺序称为外显子(exon),是一个基因表达为多肽链的部分;非编码顺序所称为内含子(intron),又称插入顺序(intervening sequence,IVS)。内含子只转录,在前mRNA(pre-mNRA)时被剪切掉。如果一个基因有几个内含子,一般总是把基因的外显子分隔成n+1部分。内含子的核苷酸数量可比外显子多许多倍。
2.外显子-内含子接头每个外显子和内含子接头区都有一段高度保守的一致顺序(consensus seqence),即内含了5’末端大多数是GT开始,3’末端大多是AG结束,称为GT-AG法则,是普遍存在于真核基因中RNA剪接的识别信号。
3.侧翼顺序在第一个外显子和最末一个外显子的外侧是一段不被翻译的非编码区,称为侧翼顺序(flanking sequence)。侧翼顺序含有基因调控顺序,对该基因的活性有重要影响。
4.启动子 启动子(promoter)包括下列几种不同顺序,能促进转录过程:
(1)TATA框(TATA box):其一致顺序为TATAATAAT。它约在基因转录起始点上游约-30-50bp处,基本上由A-T碱基对组成,是决定基因转录始的选择,为RNA聚合酶的结合处之一,RNA聚合酶与TATA框牢固结合之后才能开始转录。]
(2)CAAT框(CAAT box):其一致顺序为GGGTCAATCT,是真核生物基因常有的调节区,位于转录起始点上游约-80-100bp处,可能也是RNA聚合酶的一个结合处,控制着转录起始的频率。
(3)GC框(GC box):有两个拷贝,位于CAAT框的两侧,由GGCGGG组成,是一个转录调节区,有激活转录的功能。
此外,RNA聚合酶Ⅲ负责转录tRNA的DNA和5SrDNA,其启动子位于转录的DNA顺序中,称为下游启动子。
5.增强子在真核基因转录起始点的上游或下游,一般都有增强子(enhancer),它不能启动一个基因的转录,但有增强转录的作用。此外,增强子顺序可与特异性细胞因子结合而促进转录的进行。研究表明,增强子通常有组织特异性,这是因为不同细胞核有不同的特异因子与增强子结合,从而对基因表达有组织、器官、时间不同的调节作用。
例如人类单拷贝胰岛素基因5’末端上游约250 bp处有一组织特异性增强子,在胰岛β细胞中有一特异因子可
图3-1 真核生物的结构基因的结构示意图
En:增强子:P1、P2、P3:启动子(TATA框,CAAT框,GC框);E:外显子:I:内含子;
UT:非翻译区;GT-AG:外显子-内含子接头
作用于该区以增强胰岛素基因的转录和翻译,其它组织中无此因子,这是何以胰岛素基因只有在胰岛β细胞中才得以很好表达的原因。
6.终止子在一个基因的末端往往有一段特定顺序,它具有转录终止的功能,这段终止信号的顺序称为终止子(termianator)。终止子的共同顺序特征是在转录终止点之前有一段回文顺序,约7-20核苷酸对。回文顺序的两个重复部分分由几个不重复碱基对的不重复节段隔开,回文顺序的对称轴一般距转录终止点16-24bp(图3-2)。
在回文顺序的下游有6-8个A-T对,因此,这段终止子转录后形成的RNA具有发夹结构,并具有与A互补的一串U,因为A-U之间氢健结合较弱,因而RNA/DNA杂交部分易于拆开,这样对转录物从DNA模板上释放出来是有利的,也可使RNA聚合酶从DNA上解离下来,实现转录的终止。
图3-2 转录终止了顺序图解