(一)DNA的一级结构
核酸是由很多单核苷酸聚合形成的多聚核苷酸(polynucleotide),DNA的一级结构即是指四种核苷酸(dAMP、dCMP、dGMP、dTMP)按照一定的排列顺序,通过磷酸二酯键连接形成的多核苷酸,由于核苷酸之间的差异仅仅是碱基的不同,故又可称为碱基顺序。核苷酸之间的连接方式是:一个核苷酸的5′位磷酸与下一位核苷酸的3′-OH形成3′,5′磷酸二酯键,构成不分支的线性大分子,其中磷酸基和戊糖基构成DNA链的骨架,可变部分是碱基排列顺序。核酸是有方向性的分子,即核苷酸的戊糖基的5′位不再与其它核苷酸相连的5′末端,以及核苷酸的戊糖基3′位不再连有其它核苷酸的3′末端,两个末端并不相同,生物学特性也有差异。
寡核苷酸(oligonucleotide)是指二至十个甚至更多个核苷酸残基以磷酸二酯键连接而成的线性多核苷酸片段。目前多由仪器自动合成而用作DNA合成的引物(Primer)、基因探针(probe)等,在现代分子生物学研究中具有广泛的用途。
表示一个核酸分子结构的方法由繁至简有许多种(图15-2)。由于核酸分子结构除了两端和碱基排列顺序不同外,其它的均相同。因此,在核酸分子结构的简式表示方法中,仅须注明一个核酸分子的哪一端是5′末端,哪一端是3′末端,末端有无磷酸基,以及核酸分子中的碱基顺序即可。如未特别注明5′和3′末端,一般约定,碱基序列的书写是由左向右书写,左侧是5′末端,右侧为3′末端。
图15-2 核酸分子结构的表示方式
(二)基因组DNA
自然界绝大多数生物体的遗传信息贮存在DNA的核苷酸排列顺序中。DNA是巨大的生物高分子,一般将细胞内遗传信息的携带者棗染色体所包含的DNA总体称为基因组(genome)。同一物种的基因组DNA含量总是恒定的,不同物种间基因组大小和复杂程度则差异极大,一般讲,进化程度越高的生物体其基因组构成越大、越复杂,见(表15-2)。
表15-2 某些有代表性的生物体内DNA大小
分子量 | 碱基对(bp) | 千碱基对(kb) | ||
最简单的微生物 | SV40病毒 | 3×106 | 5×103 | 5 |
λ噬菌体 | 3.4×107 | 5×104 | 50 | |
细菌 | 大肠杆菌 | 2.2×109 | 4.6×106 | 4600 |
哺乳动物 | 小鼠 | 1.5×1012 | 2.3×109 | 230万 |
人 | 1.8×1012 | 2.8×109 | 280万 |
DNA分子中不同排列顺序的DNA区段构成特定的功能单位,即基因(gene)。基因的功能取决于DNA的一级结构。一个DNA分子能携带多少基因呢?如果以1000~1500bp编码一个基因计算,猿猴病毒SV40基因组DNA有5000碱基对(base pair,bp),可编码5种基因,人类基因组含3×109bp DNA,理论上可编码200万以上的基因,然而,由于哺乳动物的基因含有内含子(intorn),因而每个基因可长达5000~8000bp,少数可达20,000bp。按这样大小的基因进行推算,人类基因组相当于40~60万个基因。这可能吗?虽然现在还不知道确切数字,但利用核酸杂交已测得哺乳类细胞含50,000~100,000种mRNA,由此推论整个基因组所含基因不会超过10万个,只占全部基因组的6%,另外5~10%为rRNA等重复基因,其余80~90%属于非编码区,没有直接的遗传学功能。DNA的复性动力学研究发现这些非编码区往往都是一些大量的重复序列,这些重复序列或集中成簇,或分散在基因之间,可能在DNA复制、调控中具有重要意义,并与生物进化、种族特异性有关。可见原核细胞由于DNA分子较小,必须充分利用有限的核苷酸序列,这是真核基因组与原核基因组显然不同之处。
真核基因组与原核基因组在结构上还有很多不同的特点,归纳如下:
1.真核生物基因组结构特点
①真核生物基因组DNA与蛋白质结合形成染色体,储存于细胞核内,除配子细胞外,体细胞内的基因组是双份的(即双倍体,diploid),即有两份同源的基因组。
②真核细胞基因转录产物为单顺反子(monocistron),即一个结构基因转录、翻译成一个mRNA分子,一条多肽链。
③存在大量重复序列,即在整个DNA中有许多重复出现的核苷酸顺序,重复序列长度可长可短,短的仅含两个核苷酸,长的多达数百、乃至上千。重复频率也不尽相同;高度重复序列重复频率可达106次,包括卫星DNA、反向重复序列和较复杂的重复单位组成的重复序列;中度重复序列可达103~104次,如为数众多的Alu家族序列,KpnI家族,Hinf家族序列,以及一些编码区序列如rRNA基因、tRNA基因、组蛋白基因等;单拷贝或低度重复序列,指在整个基因组中只出现一次或很少几次的核苷酸序列,主要是编码蛋白质的结构基因,在人基因组中占约60~65%,因此所含信息量最大。
④基因组中不编码的区域多于编码区域。
⑤基因是不连续的,在真核生物结构基因的内部存在许多不编码蛋白质的间隔序列(intervening sequences),称为内含子(intron),编码区则称为外显子(exon)。内含子与外显子相间排列,转录时一起被转录下来,然后RNA中的内含子被切掉,外显子连接在一起成为成熟的mRNA,作为指导蛋白质合成的模板。
⑥基因组远大于原核生物的基因组,具有许多复制起点,而每个复制子的长度较小。