您好,欢迎来到智榕旅游。
搜索
您的当前位置:首页分子生物学

分子生物学

来源:智榕旅游
分子生物学

一、分子生物学定义

是指分子水平研究生物大分子的结构与功能从而阐明生命现象本质的科学 ,主要涉及遗传信息的传递(复制)、保持(损伤和修复)、基因的表达(转录和翻译)与等方面。 二、分子生物学发展简史

(一)孕育阶段(1820~1950年 代) 1、创世说与进化论

达尔文、1859年《物种起源》,确立了进化论的概念 2、细胞学说(1847) 细胞学说的主要内容有: ① 细胞是有机体, 一切动植物都是由单细胞发育而来, 即生物是由细胞和细胞的产物所组成; ② 所有细胞在结构和组成上基本相似; ③ 新细胞是由已存在的细胞而来; ④ 生物的疾病是因为其细胞机能失常。 3、经典的生物化学和遗传学 ● 19世纪中叶,蛋白质

●19世纪中叶到20世纪初,组成蛋白质的20种基本氨基酸被相继发现( 1935年,苏氨酸) ●著名生物化学家Fisher还论证了连接相邻氨基酸的“肽键”的形成。 4、孟德尔学说

● 1865年,孟德尔发表了他的《植物杂交实验》一文,首次阐述了生物界有规律的遗传现象。“遗传因子 ”

● 1900年,孟德尔遗传规律被证实,成为近代遗传学基础。

孟德尔Gregor Mendel (1822-1884),奥地利科学家,经典遗传学的奠基人 1857-18的7年中,进行了豌豆的杂交研究,1865 年发表了他的划时代的论文《植物杂交试验》 在论文中提出了“遗传因子”的概念,并得出了三条规律: ●显性规律(The Law of Dominance) ●分离规律(The Law of Segregation) ●自由组合规律

(The Law of Independent Assortment) 5、Morgan基因遗传理论

1910年,在孟德尔遗传学的基础上,美国著名的遗传学家Morgan又提出了基因学说和连锁遗传规律(1910);Morgan的染色体—基因遗传理论 ,即基因 存在于染色体上。进一步将“性状”与“基因”相耦联,成为现代遗传学的奠基石。 6、DNA是遗传信息的载体

● 1944年,美国微生物学家Avery证明基因就是DNA分子,提出 DNA是遗传信息的载体。 1957年,Heinz Fraenkel-Conrat和B. Singre的杂合病毒实验; 烟草花叶病毒的感染和繁殖过程-证实RNA也是重要的遗传物质 (二)创立阶段(1950~1970年代)

● 1953年, 美国科学家Watson 和英国科学家Crick提出 DNA Double Helix model ● 1958年Crick提出中心法则。

● 1958年,Meselson 和Stahl证明 DNA半保留复制。

半保留复制是遗传消息能准确传代的保证。是物质稳性的分子基础。

●1959年,美籍西班牙裔科学家Uchoa和美国Kornberg发现了DNA和RNA的生物合成机理而分享了诺贝尔生理医学奖。

● 1961年,法国科学家Jacob(雅各布) 和Monod(莫诺)提出操纵子学说 1962年Watson、 Crick与Wilkins共享诺贝尔生理医学奖。

Wilkins通过对DNA分子的X射线衍射研究证实了前两者提出的DNA的模型

第1 页 共36页

●1968年,Nirenberg、Holley和Khorana解读了遗传密码及其在蛋白质合成方面的技能而分享诺贝尔生理医学奖。

(三)发展阶段(1970年代以后)

● 1970年,Temin 和Baltimore在RNA肿瘤病毒中发现逆转录酶。1975年,获诺贝尔生理医学奖 ● 1977年,Sanger等人发明了一种测定DNA分子内核苷酸序列的方法(双脱氧链终止法)。由此,1980年共享诺贝尔化学奖。

Sanger还由于测定了牛胰岛素的一级结构而获得1958年诺贝尔化学奖。

●1983年,美国遗传学家McClintoc因发现可移动的遗传因子而获得诺贝尔生理医学奖。

● 19年Altman、 Cech发现核酶( Ribozyme,某些RNA具有酶的功能)获Nobel化学奖。 1997年,普鲁西纳朊病毒prion 三、分子生物学研究内容 ● DNA重组技术(基因工程)

1、可被用于大量生产某些在正常细胞代谢中产量很低的多肽 ; 2、可用于定向改造某些生物的基因组结构 ; 3、可被用来进行基础研究

1972年, Boyer获得第一个重组DNA分子 ● 基因的表达 信号转导研究 转录因子研究 RAN剪接

● 生物大分子的结构和功能研究(结构分子生物学) ● 基因组、功能基因组与生物信息学研究 四、分子生物学展望

21世纪是生命科学世纪,生物经济时代,结构基因组学、功能基因组学、蛋白质组学、生物信息学、信号跨膜转导成为新的热门领域。

第二章 染色体与DNA

第一节 染色体 一、细胞周期

二、染色体与染色质

1、染色体(chromosome):

是细胞在有丝时遗传物质存在的特定形式,是间期细胞染色质结构紧密包装的结果。 2、染色质(chromatin) : 是一种纤维状结构,叫做染色质丝,它是由最基本的单位—核小体(nucleosome)成串排列而成的。

真核生物的染色体在细胞生活周期的大部分时间里都是以染色质(chromatin)的形式存在的。 三、染色体的结构和组成 (一)原核生物(prokaryote)

原核细胞内,只有染色区,无染色体(质) (二)真核生物染色体的组成

核小体 } { 染色体

蛋白质 组蛋白: H1 H2A H2B H3

DNA

{ 非组蛋白 H4

1、组蛋白

组蛋白的一般特性:

第2 页 共36页

■ 进化上的保守性

保守程度:H1 < H2B < H2A < H3 、H4 1) 无组织特异性

2) 肽链氨基酸分布的不对称性

3) 组蛋白的特殊性:富含赖氨酸或精氨酸 4) 组蛋白的可修饰性 组蛋白的可修饰性

在细胞周期特定时间可发生甲基化、乙酰化、磷酸化和ADP核糖基化等。

H3、H4修饰作用较普遍,H2B有乙酰化作用、H1有磷酸化作用。所有这些修饰作用都有一个共同的特点,即降低组蛋白所携带的正电荷。 这些组蛋白修饰的意义:

一是改变染色体的结构,直接影响转录活性;二是核小体表面发生改变,使其他蛋白易于和染色质相互接触,从而间接影响转录活性。 2、DNA

1) DNA的变性和复性

① 变性(Denaturation)

DNA双链的氢键断裂,最后完全变成单链的过程称为变性。

② 增色效应(Hyperchromatic effect) 在变性过程中,260nm紫外线吸收值先缓慢上升,当达到某一温度时骤然上升,称为增色效应。

③ 融解温度(Melting temperature:Tm )

变性过程紫外线吸收值增加的中点称为融解温度。 生理条件下为85-95℃ 影响因素:G+C含量,pH值,离子强度,尿素,甲跣胺等

④ 复性(Renaturation)

热变性的DNA缓慢冷却,单链恢复成双链。

⑤ 减色效应(Hypochromatic effect)

随着DNA的复性, 260nm紫外线吸收值降低的现象。 2) C值反常现象(C-value paradox)

C值是一种生物的单倍体基因组DNA的总量。

真核细胞基因组的最大特点是它含有大量的重复序列,而且功能DNA序列大多被不编码蛋白质的非功能DNA所隔开,这就是著名的“C值反常现象”。

C值矛盾(C—value paradox):是指生物基因组的大小同生物在进化上所处的地位及复杂性之间无严格的对应关系。

C值矛盾可以用很多真核生物基因组中主要是非编码DNA来解释。 四)核小体(nucleosome) 1、核小体的定义:

用于包装染色质的结构单位,是由DNA链缠绕一个组蛋白核构成的。 2、核小体的结构 核心颗粒、连接区DNA

第3 页 共36页

3、染色体的包装—超螺旋结构

第4 页 共36页

DNA helix

double

Nucleosome (10 nm fiber)

30 Fiber

nm

Loops I

Loops II

(五)原核生物和真核生物基因组结构特点比较 1、原核生物基因组结构特点

a) 基因组很小,大多只有一条染色体 b) 结构简炼

c) 存在转录单元(trnascriptional operon)、 多顺反子(polycistron) d) 有重叠基因(Sanger 发现)

基因内基因 部分重叠基因 一个碱基重叠

chromosom

e

第5 页 共36页

2、真核生物基因组结构特点

1) 真核基因组结构庞大,3×109bp、染色质、核膜 2) 单顺反子

3) 基因不连续性,断裂基因(interrupted gene)、内含子(intron)、 外显子(exon) 4) 非编码区较多,多于编码序列(9:1) 5) 含有大量重复序列

根据 DNA复性动力学研究,DNA序列可以分成:

■ 不重复序列/单一序列:在基因组中有一个或几个拷贝。真核生物的大多数基因在单倍体中都是单拷贝的。如:蛋清蛋白、血红蛋白等 功能:主要是编码蛋白质。

14

■ 中度重复序列:在基因组中的拷贝数为10~10。 如:rRNA、tRNA

一般是不编码蛋白质的序列,在基因表达中起重要作用 ■ 高度重复序列:拷贝数达到几百个到几百万个。 ●卫星DNA:A · T含量很高的简单高度重复序列。

第二节、DNA的结构 1) 概念

指4种脱氧核苷酸的连接及其排列顺序, DNA序列是这一概念的简称。碱基序列 2)特征:

●双链反向平行配对而成

●脱氧核糖和磷酸交替连接,构成DNA骨架,碱基排在内侧 ●内侧碱基通过氢键互补形成碱基对(A:T,C:G)。 3)DNA结构的表示法 2、DNA 的二级结构

1)定义:指两条多核苷酸链反向平行盘绕所产生的双螺旋结构。 绕DNA双螺旋表面上出现的螺旋槽(沟),宽的沟称为大沟,窄沟称为小沟。大沟,小沟都、是由于碱基对堆积和糖-磷酸骨架扭转造成的。

DNA双螺旋模型是哪年由谁提出的?简述其基本内容.为什么说该模型的提出是分子生物学发展史上的里程碑,具有划时代的贡献?

浙江大学医学院2003年(硕士入学试题) 2)分类:

右手螺旋:A-DNA,B-DNA 左手螺旋:Z-DNA 3、DNA的高级结构

1)定义:指DNA双螺旋进一步扭曲盘绕所形成的特定空间结构。是一种比双螺旋更高层次的空间构象。

2)主要形式:超螺旋结构(正超螺旋和负超螺旋) 线状DNA形成的超螺旋 环状DNA形成的超螺旋 第三章 DNA 复制 (Replication of DNA)

第一节 DNA复制的一般特征 一、DNA的生物学功能

1、储存遗传信息 2、复制遗传信息 3、表达遗传信息 4、遗传变异

Watson(Nature,1953) :我们假设的特异的(碱基)配对方式提示了遗传物质可能的复制机制:每一条链均可作为合成一条新链的模板,就使子代双螺旋与母本完全一致。

第6 页 共36页

二、DNA复制方式

1)DNA的半保留复制 Semiconservative Replication

DNA双链解开,以单链做模板,碱基互补原则,各自合成一条新链。在新合成的DNA双链分子中,一条是原来的老链,一条是新链。 2)DNA复制的半不连续性

1)一条链连续合成,称主导链,Leading Strand 另一条链分段合成,称随从链Lagging Strand 。 原因:DNA双螺旋分子两条链方向相反,新链合成的方向只能按5'→3' 一个方向合成。 即:DNA合成方向为5'→3'方向;模板链方向为3' → 5' 方向。 2)核苷酸之间,是依靠3' → 5' 磷酸二酯键来连接

3) DNA复制的双向性 .在两个方向同时进行,形成两个复制叉(Replication Fork ). 第二节 参与DNA复制的酶类 参与DNA复制的酶或蛋白因子:

1)DNA聚合酶: 催化DNA的合成 2)引物酶;起始RNA的合成 3)连接酶:连接冈崎片段4)解旋酶:DNA解链 5)DNA结合蛋白:保持解链的单链DNA稳定 一 DNA聚合酶(Polymerase)

1956年,大肠杆菌DNA聚合酶 1959,Nobel Prize (一) 作用机制

以DNA做模板,碱基互补配对,催化4种dNTP之间形成磷酸二酯键,从而延长DNA链。 DNA聚合酶:

1、在模板链上进行 2、不能从头合成,在引物的3’-OH端上延长 3、新链延长方向为5’→3’延长

(二)原核生物DNA聚合酶

1、有3种:DNA聚合酶 I,II,III。2、多功能酶 3、合成DNA的活性:聚合酶作用下延长DNA链。4、水解DNA的活性:外切核酸酶活性,切除不配对碱基,起校读作用 1、DNA聚合酶 I

大肠杆菌DNA聚合酶I :

单链多肽蛋白质,分子量为109KD. 性质:多功能酶

大亚基:5’→3’聚合酶活性 3’→5’外切酶活性 小亚基:5’→3’外切酶活性。

DNA聚合酶

3’→5’外切酶活性

从游离3’-OH端切割,识别和消除不配对的核苷酸,保证了DNA复制的忠实性。 5’-3’外切酶活性

第7 页 共36页

DNA聚合酶I中的小亚基带有5’外切酶活性,从双链DNA的5’端降解释放出单核苷酸或寡聚核苷酸。

DNA聚合酶I 在DNA复制中所起的作用

1)不是主要的复制酶 2)RNA引物的切除

3)DNA损伤的修复:紫外线作用形成的TT二聚体的切除 4)链置换: 可能参与遗传重组

5)切口平移(nick translation)探针标记 2 DNA聚合酶II

* 不是复制酶,主要在DNA修复中起作用,无5’→3’外切酶活性。 3 DNA聚合酶 III 1972年发现

催化效率高,主要复制酶。由10种亚基组成:     

(1)核心聚合酶:  :DNA聚合酶活性

 :3’-5’外切酶活性,控制 复制忠实性 :核心酶的组建

(2) 二聚体: 构成滑动钳,将全酶固定在DNA模板上,提高合成速率(20/秒~ 750/秒。 (3) 复合物 :2 协助 二聚体结合到DNA DNA聚合酶 III

* 形成不对称的二聚体,与DNA双链结合,后随链折叠1800,使后随链的物理方向与主导链一致,同时催化两条链的复制。 大肠杆菌3种DNA聚合酶性质比较 DNA 聚合酶 polⅠ polⅡ pol Ⅲ 亚基数目 1 ≥7 ≥10 5 ′→3 ′聚合酶活性 + + + 3 ′→5 ′外切酶活性 + + + 5 ′→3 ′外切酶活性 + - - 聚合速度(核苷酸/分) 1 000-1 200 2 400 15 000-60 000 持续合成能力 3-200 1 500 ≥500 000 功能 切除引物,修复 修复 复制 (三) 真核α(I) δ(III) ε(II) β γ 生物DNA聚合酶 DNA 聚合酶 存在位置 核内 核内 核内 核内 线粒体 聚合功能 其他功能 引发酶(引物DNA合成 合成) —— 修复 修复 复制 3→5内切酶功能 3→5内切酶3→5内切酶—— 功能 功能 第8 页 共36页

抑制子 阿非迪霉素 aphidicolin 阿非迪霉素 aphidicolin 阿非迪霉素 aphidicolin 双脱氧-TTP 双脱氧-TTP dideocy-TTP dideocy-TTP DNA聚合酶的作用

1) DNA聚合酶 : 多亚基、多功能酶。 2) 大亚基:DNA聚合酶活性。 100nt/次 3) 小亚基:引物酶活性,合成RNA。

4) 起始DNA的合成:合成RNA引物和在RNA 3′-羟基端合成一段DNA。 DNA聚合酶的作用 * DNA聚合酶的结构 * 多亚基组成:

* P125 大亚基,催化亚基,含聚合酶和 外切酶活性 * P50 与PCNA结合相关 * P66 * P12

DNA聚合酶的功能

* 主要DNA复制酶:DNA聚合酶活性,延伸DNA链。

与RFC和PCNA形成“全酶”,在RFC和PCNA等的协同下,促使DNA聚合酶的解离, DNA聚合酶接替DNA聚合酶继续DNA链的合成------- DNA聚合酶向DNA聚合酶的转换。

* 复制校正功能:3’-5’外切核酸酶活性

* DNA聚合酶 、、  主要功能:DNA修复。 二、真核生物DNA聚合酶附属蛋白

1、PCNA:增殖细胞核抗原(Proliferating Cell Nuclear Antigen), DNA聚合酶的附属蛋白,参与DNA的合成,类似二聚体。

2、RFC:复制因子C(Replication Factor C)。多亚基复合物,DNA聚合酶的附属蛋白,识别引物末端,参与链的延长。类似复合物。 3、PRP1和PRP2

Primer Recognition Protein

增加DNA聚合酶与模板-引物末端的亲和力,增加DNA聚合酶的活性。 PCR 与Taq DNA 聚合酶

Taq DNA聚合酶特性(Taq DNA polymerase) 最初由H.A.ErlicH从热泉中的细菌中出来 1) 性质

具有5’-3’聚合酶活性以及依赖于聚合作用的外切酶活性 2) 耐热性

此酶是一种耐热的依赖于DNA的DNA聚合酶最适反应温度为72℃-80℃ 3) 应用

能以高温变性的靶DNA分离出来的单链DNA为模板,进行DNA的体外扩增-PCR反应。 三 引物酶 primase

引物酶催化引物RNA的合成。

DNA聚合酶不能引发DNA新生链的合成,只能在已存在的DNA链或RNA链上延长DNA。 连接酶 ligase

1967年所发现

第9 页 共36页

(1)催化冈奇片段间磷酸二酯键的形成,二个片段必须都与完整的模板链结合。 (2)大肠杆菌的连接酶需NAD+,真核细胞的连接酶需要ATP。

(3)连接双链DNA中的单链切口,RNA-DNA杂交体双链单链切口,不能连接双链RNA中的单链切口。

五 与DNA解链和解旋有关的酶 (一)DNA螺旋酶(解旋酶)( Helicase) (1)催化双螺旋解旋和解链(2)需消耗ATP (二)拓扑异构酶(Topoisomerase) DNA 回旋酶 Gyrase) 作用:

(1)促进DNA双链的解开,需消耗ATP。(2)兼有内切酶和连接酶活性, 可迅速使DNA两条链断开又接上, 消除解链酶产生的拓扑张力。当引入负超螺旋时需要由ATP提供能量, 同复制有关。

(三)单链结合蛋白

1) DNA单链结合蛋白(Single Strand Binding protein,SSB) 2) 复制因子A

3) 主要功能: 与单链亲和力大,稳定单链结构,保护单链免受核酸酶水解和阻止双链形成,有利复制进行。

第三节 DNA 复制的基本过程 复制子 Replicon

复制子:是指基因组中能进行复制的结构单位, 或者说单个复制起始点控制的DNA(区域),包含从起始位点到终止位点的全部DNA。

(1)复制的起始位点:控制并起始复制的特定位点。(2)终止位点:终止复制的位点 (3)每个细胞周期启动复制一次。

原核生物和真核生物复制子的对比: 共同点: 复制在特定部位起始。

不同点:原核生物仅有一个起始部位。真核生物有多个起始部位。 复制起始点、复制子与复制叉

半保留复制,必须解决解开双螺旋的问题。250Mb的1号染色体,需要旋转250万次。DNA拓扑异构酶解决了解开DNA双螺旋的问题 一 复制的起始

(一)起始部位的序列特征

1、 M13噬菌体的起始部位顺序特征 59bp的发夹结构 2、大肠杆菌的起始部位顺序特征 2个区域:

(1)起始蛋白识别区:4个9bp重复顺序(2)邻近的AT富含区3个13bp重复顺序。 大肠杆菌基因组复制起始部位

3、酵母起始部位顺序特征 4、 SV40起始部位的顺序特征 Simian vacuolating virus 40 猴空泡病毒 复制起始位点: (1)独特重复序列 (2)起始结合蛋白识别

(3)AT富含序列,有利于DNA双链解旋、解链 对于高等真核生物来讲:

(1)多个复制起始点,有人发现任何大于15kb的DNA就能自主复制。 (2)起始不是随机的,而且未发现起始位点的特征序列。 (二) 起始需要多种蛋白因子参与

第10 页 共36页

1 噬菌体(X174)

1) priA 识别起始位点,ATP酶活性 2) priB 起始引发 3) priC 起始引发 4) DnaT 起始引发 5) DnaB 起始引发

6) DnaC 起始引发,与DnaB一起作用 7) DnaG RNA引物合成 2 大肠杆菌

1) DnaA 结合于oriC区,有ATP酶活性,使AT富含区解链,促进DnaB结合形成起始复合物。

2) DnaB DNA螺旋酶,有解旋和解链作用。 3) DnaC 运输DnaB,形成起始复合物。 4) DnaG DNA复制引发酶,合成引物。 5) Hu 促进复制复合物的形成。

6) 回旋酶 松弛正超螺旋,促进单链DNA产生。 7) 单链结合蛋白 促进DNA解链,稳定单链DNA。 3、真核细胞(SV40)

* 真核细胞(SV40)的DNA复制至少需要6个蛋白因子参与。 * T抗原:N端为DNA结合区,识别起始位点,C端具有螺旋 酶活性,在RFA的协助下解开双链。 * RFA:人单链结合蛋白

* 拓补异构酶I或II:解开超螺旋。 * 复制因子C(replication facter C, RFC):形成起始复合物 * DNA聚合酶α-引物酶复合物:合成引物,起始DNA合成。 4、真核细胞(Yeast)

(1) ORC( Origin Recognition Complex) 6个亚基组成 在真核生物中相当保守 特异识别ARS (Autonomously replicating sequence) ORC1p,ORC2p,ORC4p 与A 元件结合, ORC5p与B元件结合 结合过程需要ATP (2) Cdc6/Cdc18

(3)微染色体支持蛋白 (4) Cdc45 复制的特点

(1)复制需要与复制有关的各种酶参与 (2)复制在特定起始位点起始

(3)复制起始需要相关的蛋白质因子参与 二 DNA链的延长

(一) 原核生物DNA链的延伸

延伸反应:在RNA引物的OH端由DNA聚合酶III,按碱基互补规则延伸。

(1)主导链的延长: 3’→5’方向这条链做模板链的新链合成可以随着复制叉向前移动,连续合成(5’ →3’)。

(2)随从链的延长:5’ →3’ 方向这条链做模板链的新链合成;但不能随着复制叉向前移动进行连续合成,只能分段合成一小段新的DNA链(冈奇片段),每一段新合成的一小段中有RNA,由RNA酶水解,DNA聚合酶I补平,最后由连接酶连接。

第11 页 共36页

DNA链延长的要点

(1)DNA聚合酶不能从头合成新链,只能在3’-OH羟基端延长。复制起始时的3’-OH羟基端是RNA。

(2)按照碱基互补原则合成新链。

(3)两条链同时复制,新链的延伸方向是5’→3’,主导链连续合成,随从链(后随链)不连续合成。

(4)复制以双向进行,复制正在进行的部位即复制叉从起始点沿着DNA移动。 复制的基本模式 θ型:细菌

* 滚环式 φX174 * D型 线粒体DNA

线粒体DNA复制 裸露闭环双链状 D型复制

* H链:富含G * L链:富含C DNA聚合酶γ 三 复制的终止

(1)对于线性DNA复制比较简单,复制到分子末端终止,例如噬菌体等。 (2)对于环状的大肠杆菌DNA复制和真核生物的DNA复制就比较复杂:

复制叉到达终止区,在完成复制前,复制暂停。两个子代DNA缠绕在一起,需要分开。 如,大肠杆菌有复制起始点,也有复制终止点。

细菌复制终止区含有多个约22bp的终止子(terminator)位点,E. coli 有7个终止子位点。 端粒DNA:

线性DNA在复制完成后,其末端由于引物RNA的水解而可能出现缩短,需要在端粒酶(telomerase)的催化下,进行延长反应。 端粒酶(telomerase)

(1)依赖RNA的DNA聚合酶,其实质是一种逆转录酶。(2)能识别特定的端粒重复序列,以自身RNA的部分序列(5’ –AACCCCUAAC - 3’)为模板,合成新的端粒重复序列,使端粒延长,保持染色体的完整

(3)不需要DNA 模板

1) 已知的恶性肿瘤特异性最强的标志,永生细胞 2) 生殖细胞,造血干细胞,ips等非肿瘤细胞

3) 端粒的缩短与衰老 端粒酶以自身的RNA为模板, 在3'端合成DNA序列:

逆向转录(Reverse Transcription) 上世纪之初发现肿瘤RNA病毒。

 年,Temin报道了抑制DNA合成的放线菌素D能抑制鸡肉瘤RNA病毒的繁殖。  据此提出鸡肉瘤RNA病毒的繁殖须经过形成DNA的阶段。

 70年Temin 和Baltimore 两个实验室同时从(鸡)劳氏肉瘤病毒和小白鼠白血病病毒等致病

RNA病毒中发现,在逆转录病毒病毒颗粒中存在着一种以RNA为模板合成DNA的酶,称为RNA指导的DNA聚合酶。

 遗传信息从RNA流向DNA,即以RNA为模板合成DNA称为逆向转录,因此催化这一反应的

第12 页 共36页

酶又称逆转录酶。 逆向转录酶

(1)由逆转录病毒基因组中pol基因编码。是一种多功能酶。

(2)有以RNA为模板和以DNA为模板合成DNA的DNA聚合酶活性。 (3)需要RNA或DNA做引物;

(4)有核糖核酸酶H的活性(在逆转录酶的C端),能从3’→5’和从5’→3’水解RNA,使RNA与DNA的杂交体分离。 逆向转录过程

三 逆向转录酶的生物学意义

1 用于合成cDNA. 建立cDNA文库(cDNA Library),获得基因或探针。 2 与PCR连用 RT-PCR

互补DNA(complementary DNA, cDNA) 第四节 DNA复制的 (1)DNA复制是细胞增殖的一个关键事件,因此,DNA复制与细胞是互相协调、互相的。 (2)无论原核还是真核细胞中DNA复制都只发生在细胞周期中特定时期,在一个细胞周期中,DNA必须也只能复制一次。 一 大肠杆菌复制的调节 2、防止复制再次起始 (1) Dna A活性的抑制

Dna A-ADP Dna A-ATP

无活性 RIDA 有活性 二 真核生物复制起始 (一)、DNA复制起始的调节 1、复制起始点的选择

复制起始点数量的

真核细胞有多个复制起始点,起用多少起始点决定于S期的长短。 S期短,起始点多。S期长,起始点少。

(1)遗传性起始点: DNA上的起始元件 (2)功能性起始点: 实际起始点 遗传性起始点多于功能性起始点

高等真核生物细胞至今未发现遗传性复制起始点的序列特征,但确实存在功能性的复制起始点。

CHO细胞核 蟾蜍卵细胞抽提物 损坏CHO细胞核或 裸露DNA 非随机起始, 随机起始 同正常 CHO细胞

复制起始点的选择与细胞核或染色体结构密切相关 2、 复制起始机制

(1)复制的允许机制(Licensing model)

一个细胞周期中DNA复制发生一次且只能发生一次 (2)蛋白激酶的

真核细胞复制起始绝对必须的蛋白激酶:

CDK (Cyclin Dependent) 和 Cdc7-Dbf4激酶 (1) 前复制起始复合物的形成

组成成分:ORC(Origin Recognition Complex) 含6种蛋白质,Cdc6,RLF (Replication Licensing Factor, 复制允许因子)。 (2) CDK激活前复制起始复合物

第13 页 共36页

复制前复合物受蛋白激酶的,或变成起始复合物,起始复制,或在复制起始后,转变成复制后复合物,就再也不能启动复制。

CDK,Cdc7-Dbf4激酶, 蛋白激酶A,蛋白磷酸酶2A,都参与复制的起始,在不同阶段起作用。

CDK (Cyclin Dependent)的作用:

(1)CDK 在功能性复制起始点形成复制起始复合物,启动复制的开始;

(2)CDK 是防止在同一细胞周期中DNA复制再次发生的因素,阻止复制起始复合物的再次组装。

(2)CDK对某些起始因子磷酸化,其在细胞内水平。 (二) 复制检查点机制 细胞周期检查点,

是指在长期进化过程中,细胞形成一套保证细胞周期中DNA复制和染色体分配质量的检查机制。 作用:

识别DNA损伤或DNA复制阻断,通过复杂的信号转导途径,阻断细胞周期,启动修复机制,恢复基因组的完整性,修复后再进入细胞周期。 检查点:

(1) G1 S期检查点

查看DNA有无损伤 DNA damage checkpoint 细胞周期暂时减慢或停止。 查看DNA复制的进度 DNA replication checkpoint DNA复制速度 (2) G2 M

管理染色体的正确分配 Spindle assembly checkpoint 第五节 DNA损伤与修复

一、DNA 损伤类型和产生原因 1、碱基替换(点突变)

(1)由DNA聚合酶复制错误产生 二、DNA损伤的修复 1、核苷酸修复

dGTP氧化产生8-氧代dGTP

8-氧代dGTP三磷酸脂酶 水解

该酶突变:A:T-C:G突变高100-10000倍 2、直接修复

O6-甲基鸟嘌呤-DNA甲基转移酶(MGMT) 4、碱基切除修复 7、DNA链断裂的修复

(1)非同源末端连接 non-homologous end-joining 三、DNA损伤修复的机制

(1)G1期checkpoint:阻止细胞周期进行,以确保DNA损伤不被复制。

(2)S期checkpoint:当DNA损伤在G1期没有能够进行修复时防止DNA复制。

(3)G2期checkpoint:当细胞在S期晚期或者G2期DNA受到损伤时,阻止细胞分离,从而防止DNA损伤传递到子代细胞中。

(4)M期checkpoint,当染色体受到损伤时,细胞停滞在M期,染色体重新恢复到染色质,从而使细胞有机会对DNA损伤进行修复后再进入M期。

第14 页 共36页

第四章 转录

——从DNA到RNA 第一节 基本概念

生物体以DNA为模板合成RNA的过程 。 参与转录的物质

原料: NTP (ATP, UTP, GTP, CTP) 模板:DNA

酶: RNA聚合酶 其他蛋白质因子

RNA合成方向:5' → 3' 转录的不对称性:

在RNA的合成中,DNA的二条链中仅有一条链可作为转录的模板,称为转录的不对称性。 编码链与模板链:

与mRNA序列相同的那条DNA链称为编码链;将另一条根据碱基互补原则指导mRNA合成的DNA链称为模板链。

编码链5′…GCAGTACATGTC…3′模板链3′…CGTCATGTACAG…5′DNAGCAGUACAUGUC转录mRNA模板链并非永远在同一条单链上

转录方向

5 编码链 模板链 3

模板链 编码链 转录方向

结构基因:DNA分子上转录出RNA的区段,即为结构基因。 转录单元(transcription unit):

一段从启动子开始至终止子结束的DNA序列 第二节 转录的基本过程

(一)参与转录起始的关键酶与元件 1、RNA聚合酶

原核生物RNA聚合酶(大肠杆菌为例) 全酶=核心酶+ σ因子 第15 页 共36页 35

β α σ ω α β’

图12-5 E.coli RNA聚合酶的亚基组成

大肠杆菌RNA聚合酶的组成分析 亚基 基因 相对分子量 亚基数 组分 功能 rpo36500 2 α 核心酶 核心酶组装,启动子识别 A rpoB 151000 1 β 核心酶 β和β'共同形成RNA合成的活性中心 rpoC 155000 1 β' 核心酶 11000 1 ω ? 核心酶 ? rpo70000 1 σ σ因子 存在多种σ因子,用于识别不同的启动子 D ● 真核生物RNA聚合酶:真核细胞的三种RNA聚合酶特征比较 酶 位置 转录产物 相对活性 对α-鹅膏蕈碱的敏感性 rRNA 50-70% RNA聚合酶核仁 不敏感 Ⅰ hnRNA 20-40% RNA聚合酶核质 敏感 Ⅱ tRNA RNA聚合酶核质 约10% 存在物种特异性 Ⅲ RNA聚合酶与DNA聚合酶的区别 RNA聚合酶 DNA聚合酶 大小(M) 大,4.8×105dol 小,1.09×105dol 引物 无 有 产物 较短,游离 较长,与模板以氢键相连 作用方式 一条链的某一段 两条链同时进行 外切酶活性 无 5’ 3’,3’ 5’ 校对合成能力 无 有 修复能力 无 有 2、 启动子(promoter)

启动子定义:指能被RNA聚合酶识别、结合并启动基因转录的一段DNA序列。 ● 原核生物启动子结构

第16 页 共36页

TATA区:酶的紧密结合位点(富含AT碱基,利于双链打开) TTGACA区:提供了RNA聚合酶全酶识别的信号 ● 真核生物启动子

真核有三种不同的启动子和有关的元件 + 启动子Ⅱ最为复杂,它和原核的启动子有很多不同 真核生物启动子的结构: (1)核心启动子

●定义:指保证RNA聚合酶Ⅱ转录正常起始所必需的、最少的DNA序列,包括转录起始位点及转录起始位点上游TATA区

TATA 常在-25bp左右,相当于原核的-10序列 T85A97T93A85A63A83A50

●作用:选择正确的转录起始位点,保证精确起始 (2)上游启动子元件

●包括CAAT盒(CCAAT)和GC盒(GGGCGG)等 CAAT: -70 ~ -80bp GGGCGG:-80 ~ -110bp 作用:控制转录起始频率。 真核基因的(完整)结构:

3、转录起始复合物 (二)转录的基本过程

1、起始位点的识别:RNA聚合酶与启动子DNA双链相互作用并与之相结合的过程。 2、转录起始: RNA链上第一个核甘酸键的产生 3、RNA链的延伸:

● 亚基脱落,RNA聚合酶核心酶变构,与模板结合松弛,沿着DNA模板前移; ●在核心酶作用下,NTP不断聚合,RNA链不断延长。

第17 页 共36页

4、转录终止

终止子(terminator,t)

●弱终止子 -需要ρ因子(rho factor)即:ρ因子依赖性终止子(Rho-dependent terminator) ●强终止子 -内部终止子即:不依赖ρ因子的转录终止 不依赖 因子的终止:

终止位点上游一般存在一个富含GC碱基的二重对称区,RNA形成发夹结构; 终止效率与二重对称序列和寡聚U的长短有关,长度越长效率越高 发夹式结构和寡聚U的共同作用使RNA从三元复合物中解离出来。 终止效率与二重对称序列和寡聚U的长短有关,长度越长效率越高 依赖 因子的终止:

因子:六聚体蛋白、水解各种核甘三磷酸促使新生RNA链从三元转录复合物中解离出来,从而终止转录。

第三节 转录后加工

1、在5’端加帽

mRNA的5’端第一个碱基G, 该碱基的7位N原子上在鸟甘酸转移酶的作用下进行甲基化修饰,形成m7Gppp,mRNA5’端的这种结构称为帽子(cap) mRNA的5’端一个核苷酸总是7-甲基鸟核苷三磷酸m7Gppp

m7Gppp 鸟甘酸转移酶 帽子结构功能:

①能被核糖体小亚基识别,促使mRNA和核糖体的结合;

②m7Gppp结构能有效地封闭mRNA 5’末端,以保护mRNA免受5’核酸外切酶的降解,增强mRNA的稳定。

2、3’端加尾多聚腺苷酸尾巴

功能:提高mRNA在细胞质中的稳定性

第18 页 共36页

3、RNA的剪接 切除内含子,并将外显子拼接在一起。 生物体内内含子的主要类型: Ⅰ类内含子:GU-AG Ⅱ类内含子:AU-AC 参与RNA剪接的物质: snRNA(核内小分子RNA)

snRNP(与snRNA结合的核蛋白) 4、RNA的编辑

编辑(editing)是指转录后的RNA在编码区发生碱基的突变、加入或丢失等现象。 尿苷酸的缺失和添加

1986.R.Benne在研究锥虫线粒体mRNA转录加工时发现mRNA的多个编码位置上加入或丢失尿苷酸,1990年在高等动物和病毒中也发现了编辑现象。 锥虫coxII 基因的编辑

第四节 原核生物与真核生物mRNA的特征 一、原核生物与真核生物mRNA的特征 1、原核生物mRNA的特征 (1) 半衰期短

(2) 多以多顺反子的形式存在

单顺反子mRNA:只编码一个蛋白质的mRNA。 多顺反子mRNA:编码多个蛋白质的mRNA。

(3)5’ 端无“帽子”结构, 3’ 端没有或只有较短的poly(A )结构。 SD序列:mRNA中用于结合原核生物核糖体的序列 2、真核生物mRNA的特征 (1) 5’ 端存在“帽子”结构

(2)多数mRNA 3’ 端具有poly(A )尾巴(组蛋白除外) (3)以单顺反子的形式存在

原核生物和真核生物mRNA结构的比较

第19 页 共36页

二、RNA合成与DNA合成异同点 相同点:

1、都以DNA链作为模板 2、合成的方向均为5’→3’

3、聚合反应均是通过核苷酸之间形成的3’,5’-磷酸二酯键,使核苷酸链延长。 不同点: 复制 转录 模板 两条链均复制 模板链转录(不对称转录) dNTP NTP 原料 酶 DNA聚合酶 RNA聚合酶 产物 子代双链DNA(半保留复制) mRNA, tRNA, rRNA 配对 A-T;G-C A-U;T-A;G-C 引物 RNA引物 无 第九章 基因组学

第一节 人类基因组计划

美国决定于 1990年正式启动HGP,预计用 15 年时间,投入 30 亿美元,完成 HGP。 由国立卫生研究院和能源部共同组成“人类基因组研究所”逐渐地,HGP 扩展为多国协作计划。参与者包括:英、日、法、德和中国(1993年) (3)DNA 测序技术飞速提高

1998.5.9 J.C. Venter 等宣布,组建商业公司,投入 3 亿美元,3 年内完成。

二000年六月二十六日克林顿宣布人类基因组草图绘制完成,标致着人类基因组计划工作框架图完成。人类基因组草图基本信息由31.65亿bp组成,含3~3.5万基因与蛋白质合成有关的基因占2%,人类基因组蛋白质有61%与果蝇同源,43%与线虫同源,46%与酵母同源

2000 年 12 月美、英等国科学家宣布绘出拟南芥基因组的完整图谱,这是人类首次全部破译出一种植物的基因序列。

2001 年2月16日,发布人类基因组“精细图”完成,(99%),

同时发表论文美国 Science, Vol. 291, No. 5507;英国Nature , Vol.409, p.860 三、人类基因组计划的科学意义

(1)确定人类基因组中约5万个编码基因的序列及其在基因组中的物理位置,研究基因的产物及其功能。

(2)了解转录和剪接元件的结构与位置,从整个基因组结构的宏观水平上理解基因转录与转录后调节。

第20 页 共36页

(3)从整体上了解染色体结构,包括各种重复序列以及非转录“框架序列”的大小和组织,了解各种不同序列在形成染色体结构、DNA复制、基因转录及表达中的影响与作用。 (4)研究空间结构对基因调节的作用。有些基因的表达序列与被调节基因从直线距离上看,似乎相距甚远,但若从整个染色体的空间结构上看则恰恰处于最佳的调节位置,因此,有必要从三维空间的角度来研究真核基因的表达规律。

(5)发现与DNA复制、重组等有关的序列。DNA的忠实复制保障了遗传的稳定性,正常的重组提供了变异与进化的分子基础。局部DNA的推迟复制、异常重组等现象则导致疾病或者胚胎不能正常发育,因此,了解与人类DNA正常复制和重组有关的序列及其变化,将对研究人类基因组的遗传与进化提供重要的结构上的依据。

(6)研究DNA突变、重排和染色体断裂等,了解疾病的分子机制,包括遗传性疾病、易感性疾病、放射性疾病甚至感染性疾病引发的分子病理学改变及其进程,为这些疾病的诊断、预防和治疗提供理论依据。

(7)确定人类基因组中转座子、逆转座子和病毒残余序列,研究其周围序列的性质。了解有关病毒基因组侵染人类基因组后的影响,可能指导人类有效地利用病毒载体进行基因治疗。 (8)研究染色体和个体之间的多态性。这些知识可被广泛用于基因诊断、个体识别、亲子鉴定、组织配型、发育进化等许多医疗、司法和人类学的研究。此外,这些遗传信息还有助于研究人类历史进程、人类在地球上的分布与迁移以及人类与其他物种之间的比较。 第二节 基因组学 一、产生背景及概念

1. 背景:1985年提出HGP ,随着HGP 的提出和实施,产生的基因组学。

2. 概念:以分子生物学技术、计算机技术和信息网络技术为研究手段,以生物体内全部基因为研究对象,在全基因背景下和整体水平上探索生命活动的内在规律及其内外环境影响机制的科学。

二、基因组学分类

1. 根据研究对象分:肿瘤基因组学、植物基因组学、药物基因组学、环境基因组学等。 2. 根据研究的重点分:结构基因组学、功能基因组学 三、结构基因组学 (一)概念和目的

以全基因组测序为目标的基因结构研究,弄清基因组中全部基因的位置和结构,为基因功能的研究奠定基础。 目 的:

是建立高分辨率的遗传图谱、物理图谱、转录图谱和序列图谱。 基因组学的主要任务:

获得四张图:物理图、 转录图、遗传图 、序列图 1. 遗传图谱(连锁图谱):指基因或DNA 标志在染色体上的 相对位置与遗传距离。 cM 表示(基因或DAN 片段在染色体 交换过程中分离的频率)。

通过该图谱可分清各基因或DNA 片段之间的相对距离与方向,如靠近着丝粒或端粒。 多态性:人的DNA序列上平均每几百个碱基会出现一些变异(variation),并按照孟德尔遗传规律由亲代传给子代,从而在不同个体间表现出不同,因而被称为多态性(Polymorphism)。 第一代多态性标记是RFLP(restriction fragment length polymorphism,性片段长度多态性) 第二代多态性标记是短的串联重复序列

包括小卫星DNA和微卫星DNA,其多态性主要来自重复序列拷贝数的变化 小卫星DNA—由15-65bp的基本单位串联重复而成,长度一般不超过20kb。

重复次数(小卫星DNA区的长度)在人群中是高度变异的;按照孟德尔的规律遗传 微卫星DNA/简短串联重复(STR、STRP或SSLP) 重复单元2-8bp,通常重复10-60次 第三代多态性标记是单核苷酸的多态性

第21 页 共36页

(single nucleotide polymorphism,SNP)

人类99.9%的基因密码是相同的,而差异不到0.1%,不同人群仅有140万个核苷酸差异。这些差异是由“单一核苷酸多样性”(SNP)产生的,它构成了不同个体的遗传基础。在整个基因组序列中,人与人之间的变异仅为万分之一,从而说明人类不同“种属”之间并没有本质上的区别。

SNP与RFLP和STR标记的主要不同之处在于,它不再以DNA片段的长度变化作为检测手段,而直接以序列变异作为标记。

2. 物理图谱:指DNA 序列上两点间的实际距离。用于确定各遗传标志间的物理距离有两种物理图谱:

(1)以已知核苷酸序列的DNA片段(序列标签位点,sequence-tagged site,STS)为“路标”,以碱基对作为基本测量单位(图距)的基因组图。

(2)由YAC 和/或细菌人工染色体(BAC)连续 克隆重叠群组成的物理图谱。 3、转录图

以EST(expressed sequence tag ,表达序列标签)为标记,根据转录顺序的位置和距离绘制的图谱。

EST:通过从cDNA文库中随机挑选的克隆进行测序所获得的部分cDNA的5'或3'端序列称为表达序列标签(EST),一般长300-500bp左右。

技术:用已在染色体定位的YAC DNA 或BAC DNA 为探针,与所有可能相关的各组织cDNA 文库杂交,寻找其同源克隆并做进一步分析。 4. 序列图谱(分子水平的物理图谱):

以某一染色体上所含的 全部碱基顺序绘制的图谱,也是最详尽的物理图。

既包括可转录序列,也包括非转录序列,是转录序列、调节序列和功能未知序列的总和。 (二)结构基因组学研究常用方法 1. 脉冲场凝胶电泳(PFGE): 改变电场方向和调 整脉冲时间,而将长度不同的DNA 分开。 2. 毛细管电泳:可用于单核苷酸改变的寻找、短串 联重复序列的检查、DNA 测序、基因及其表达产物 的定量分析。 3. 基因芯片技术:可用于表达谱测定、突变检测、 多态性分析、基因组文库作图和杂交测序等。 4. 全基因组随机测序(全基因组鸟战略):先打 断DNA 测序,然后作图。 (1)用机械方法打断DNA ,建立插入片段约2kb 的 高度随机基因组文库。 (2)高效、大规模的两末端测序。

(3)用有关软件对测序克隆片段进行序列集合。 (4)用适当方法填补缺口。 四、功能基因组学

1. 概念:利用结构基因组学提供的信息,以高通量,大规模 实验方法及统计与计算机分析为特征,全面系统地分析全部 基因的功能。

研究角度包括:生物学功能、细胞学功能、发 育学功能等。 2. 基因功能的研究技术和方法

(1)基因转导技术:导入细胞,观察功能。该方法用的最 多,技术最成熟。 (2)反义核苷酸技术

反义RNA:根据作用机制可将其分为3类:

Ⅰ类 反义RNA 直接作用于靶mRNA 的S D 序列和(或)部分编码 区,直接抑制翻译,或与靶mRNA 结合形成双链RNA, 从而易被RNA 酶Ⅲ 降解;

Ⅱ类反义RNA: 与mRNA 的非 编码区结合,引起mRNA 构象变化,抑制翻译; Ⅲ类反义RNA:则直接抑制靶mRNA 的转录。

反义DNA :指一段能与特定的DNA 或RNA 以碱基互 补配对的方式结合,并阻止其转录和翻译的短核酸片 段,主要指反义寡核苷酸,因更具药用价值而倍受重 视。 (3)RNA核酶技术:

第22 页 共36页

(4)DNA 核酶技术:具有催化活性的DNA,Santor 等通 过在寻求催化性反义核酸的过程中从试管筛选(invitro selection) 获得的。 (5)反基因技术(三链DNA 技术)

脱氧寡核苷酸能与双螺旋双链DNA 专一性序列结 合,形成三链DNA ,来阻止基因转录或DNA 复制,此脱 氧寡核苷酸被称为三链DNA 形成脱氧寡核苷酸 (TFO )。 设计合成15~40个碱基的脱氧寡核苷酸,按T .AT、

C .GC 、G .GC、A . AT三碱基体规律与双链DNA 结合, 通常结合在蛋白识别位点处,形成三链DNA ,干扰DNA 与蛋白质的结合,如转录激活因子,从而阻止基因的转 录与复制。 (6)肽核酸(PNA )技术

PNA 是一类用蛋白质骨架(氮(2-氨基乙酸)甘氨酸) 代替核酸中的磷酸戊糖骨架而形成的新型分子。它保留了与 互补DNA 或RNA 配对结合的特性,且其特异性和亲和力都 比相应的寡核苷酸高,同时又能抵抗所有核酸酶和蛋白酶的降解。

PNA 插入双链DNA 形成稳定的杂交体后,可抑制其转 录和复制;与RNA 结合可抑制转录。 形成双螺旋的PNA 与起始密码子区互补,可阻遏翻 译;与编码区互补无阻遏作用,但三螺旋PNA 在这两个区 域均阻遏翻译;bis PNA 可与mRNA 形成三螺旋或部分双螺 旋,在编码区和启动子区域均可阻遏翻译。 (7) RNA 干扰技术(RNAi): 将一段dsRNA 导入机体或细胞后,与它有同源序列的 基因的表达被干扰或抑制的现象。dsRNA 依赖的转录后基 因沉默。 1998,Fire ,线虫 作用机制

A. Dicer 和Slicer 依赖模式: 果蝇胚胎细胞和培养细胞S2 B. 随机降解“PCR” 模型: 果蝇,线虫,真菌 (8)转基因技术

(9)基因敲出和基因敲入技术

基因敲出又称基因打靶(gene targeting),这种技术是通过基因工程的方法将一个结构已知但功能未知的基因去除,或用其他序列相近的基因取代(又称基因敲入),然后从整体观察实验动物,从而推测相应基因的功能。这种人为地把实验动物某一种有功能的基因完全缺失的技术称为基因敲除技术。

(10)基因表达系列分析(SAGE): 依据:来自cDNA 3’端特定位置9-11bp 序列能够区分基因组95% 的基因,这段基因特异的序列称为SAGE 标签。 通过检测标签而检测 相应基因是否表达和表达频率(即基因表达丰度)。该技术的前提是:GenBank 中有足够的某一物种的DNA序列资 料,尤其是EST 。该技术的不足是不能检测稀有转录本。

(11)cDNA 微阵列技术传统遗传学(正向遗传学)主要研究自发或诱发突变体中 某一性状的遗传行为,如控制突变性状的基因数目及其在染色体上的位置、突变性状在后代中的传递规律等。

(12)反向遗传学:在已知基因序列的基础上研究基因的生物学规律,通过功能丧失突变体研究其表型效应。通过同源重组,用突变的基因取代野生型基因,导致功能丧失突变体,进行反向遗传学研究。

反向遗传学筛选到的突变体有时无突变表型效应的原因:突变表型效应需在特定环境中才表现;基因家族中其他基因功能的代偿。

(13)蛋白质组研究:mRNA 不等于蛋白质。 (14)生物信息学技术

生物信息学:用数理和信息科学的观点、理论和方 法去研究生命现象,组织和分析现今呈指数增长的生物学 数据的一门科学。该技术主要由数据库、计算机网络和应 用软件组成。 五、比较基因组学

(Comparative Genomics)

比较基因组学 概念:是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,

第23 页 共36页

来了解基因的功能、表达机理和物种进化的学科。 第一章 基因和基因组

第一节 基因概念的发展 基因的概念:

经典遗传学上的基因:基因是遗传的结构和功能单位;基因是不可分割的遗传单元。是突变的单位和交换的最小单位。

分子遗传学上的基因:基因是染色体上存在的一段DNA序列,是遗传的结构和功能的单位,又是转录单位。基因是可分割的,基因的突变和重组的最小单位是一对核苷酸。 一、基因是遗传结构和遗传功能的单位 遗传结构的不可分割单位

基因位于染色体上 重组作图定位单个基因 是遗传信息结构和功能的基本单位

从结构和功能来看,它们以线性的形式相互连接(串珠理论,the beads on a string theory)。 噬菌体重组实验结果的挑战:基因可被分为更小的单位。

Seymour Benzer引入了突变子(muton),重组子(recon)和顺反子(cistron) 分别定义突变、重组和功能的不可分割单位。

在噬菌体感染中,如果突变位于同一基因中不同亚元件中,那么,这只可能是基因内重组(intragenic recombination)的结果。这说明基因可被分为更小的单位,这些单位可发生重组和突变。这样,重组子和突变子等价于单个核苷酸对。 基因作为遗传功能的不可分割单位

顺反子(cis-tron):编码多肽链的一段DNA序列,是基因的功能单位或遗传的功能单位。它是基因功能的不可分割的单位。

互补实验的基础是顺反测验(cis-trans test) 建立了一基因一顺反子的概念

即基因可被定义为遗传的功能单位

顺式测验是对照组,如果两个突变均在同一个基因组中,那么另一个基因组的两个基因座均为野生型,其产物为正常的基因产物,细胞表现出野生表型。 反式测验是互补实验,可以确定功能单位的边界。

如果两个突变在同一个基因中,那么它们以反式构型出现在细胞中时,每一基因组都携带有这一基因的突变体拷贝,因而在细胞中不能产生具有功能的产物——即不出现互补。

如果突变位于不同基因中,当它们以反式构型出现时,那么每个基因组均可补偿另一个基因组缺少的正常产物。细胞具有所有基因产物,表现为野生型——这就是正互补(positive complementation)。

原核和真核细胞中基因和顺反子的相互关系 1.在简单基因组中基因与顺反子等价

原核和低等真核细胞:基因与产物之间的关系比较简单。通常是一基因一相应产物,而且基因往往与产物共线性。基因和顺反子等价:基因是遗传的功能单位;也是可表达的遗传信息的单位。

在细菌中:基因是编码区 (开放阅读框)。细菌基因常常组合成一个操纵子,这样几种产物均由一条多顺反子mRNA(polycistronic mRNA)翻译而成.

在真核细胞中:基因是转录的单位。大多数基因以单顺反子 mRNA (monocistronic mRNA)的形式转录

单顺反子(mono cis-tron):只编码一条多肽链的顺反子。 多顺反子(poly cis-tron):可编码多条肽链的mRNA分子。 2.复杂基因组中基因与顺反子不等价

在高等真核细胞的基因组中,基因和产物之间的关系较为复杂(下图)。大多数高等真核

第24 页 共36页

细胞基因包含有内含子,它们是一些不出现在最终产物中因而不是功能组成部分的DNA插入序列。真核基因代表整个转录单位,而顺反子可能被内含子插入所分隔,因而顺反子等价于真核基因的外显子。

(a)在反式剪接与RNA编辑的中,单个多肽链的合成需要多个基因的表达,每个基因都是同一功能单位的部分并构成单个顺反子。空白的框代表来自某一基因的信息而填充的框代表来自另一基因的信息。注意在所有已知的反式剪接的例子中,5’剪接转录物不被翻译,虽然在理论上还不能解释它为何不产生蛋白产物。

(b)一个基因通过多种剪接方式或其他选择性信息利用方式产生多种产物。基因中包含相互覆盖的顺反子。内含子用有斜纹的框表示,它们在RNA加工过程中被剪切。外显子也用框表示,如果不被翻译用空白框表示,填充框表示编码区。注意内含子可以插入到编码或非编码的外显子中,而外显子可以包含翻译或非翻译信息(即外显子2和5)。

在真核基因中,基因与产物相互关系的复杂性还来源与某些遗传信息被选择地利用以产生多种的产物。这种过程可通过选择性剪接(参阅)来完成,这种选择性反映了在RNA加工过程中或在启动子选择,及转录过程中多聚腺苷酸位点的使用等水平的调节。这些结构上相联系的基因产物往往具有不同的功能,因而基因还可能包含一系列的相互重叠的顺反子。

同上述情况相反,有时一种产物需要两个基因共同产生,如反式剪接,即两个分别编码的mRNA被剪接在一起翻译,另一个例子是在锥体虫中的RNA编辑(参阅),mRNA和gRNA都是产生蛋白合成的成熟模板所必需的。这种情况中每个基因对于产生共同产物都是必需的;它们是同一顺反子的一部分。

还有一些例子中几种不同蛋白都来源于同一个开放阅读框:翻译首先产生一个多蛋白(polyprotein),随后在被剪切成具有不同功能的产物。一些RNA病毒采用这种策略以适应真核细胞中单顺反子的机制。这种情况也发生在一些内源基因中,例如在哺乳动物的脑中,前强啡肽原基因可以产生七种有着不同功能的多肽。在这种情况中,编码每种肽段的开放阅读框被认为是一个顺反子。 重叠和嵌套基因 :

重叠基因(overlapping genes):

指具有性但部分使用共同基因序列的基因; 即:核苷酸序列彼此重叠的基因,又称嵌套基因。 包括两种类型:

一种是一个基因的核苷酸序列完全包含在另一个基因的核苷酸序列之中; 一种是两个基因的核苷酸序列之末端密码子相互重叠。 基因重叠发生在两种水平:

1. 在细菌系统或其他的空间必需的情况中(如在RNA病毒基因组中和动物的线粒体DNA中),基因可以在阅读框水平上重叠,这样同样的遗传信息产生两种或多种互不相关的蛋白质。 例:轻小病毒的裂解蛋白基因(包括噬菌体MS2)与复制酶和衣壳蛋白基因重叠,但是它们从不同的方向和以不同的开放阅读框翻译。在一些种属中,裂解蛋白基因完全包含在复制酶基因中

2.在真核细胞中,基因在转录单位的水平中相互重叠,但是外显子保持分立。

由于在一个基因中的外显子DNA被作为其重叠基因内含子的一部分,因而两个基因的蛋白产物中并不出现相同的信息.

(例如,人的TCRA和TCRDT细胞的受体基因在外显子水平上重叠)

偶然还会出现一个完整的基因包含在另一较大基因的内含子中:与内含子代谢有关的编码蛋白的开放阅读框往往位于自剪接内含子中。

例如有3个小基因就隐含在较大的人类基因NF—1的第26号内含子中。重叠基因可能反映了一类机制。在质粒中,基因编码的反义RNA往往同其的基因相重叠(参见反向转录)。

嵌套基因(nested gene):指那些通过调节蛋白合成终点而 产生两种或更多种嵌套蛋白产物的基

第25 页 共36页

因。

这可能通过终止子的渗漏通读(例如Qp病毒的衣壳蛋白基因),或者是翻译时发生移码(如在大肠杆菌danX基因和F质粒的trax基因)。真核细胞的RNA病毒也采用类似策略如反转录病毒,并且真核基因也可通过选择性剪接或采用选择性多聚腺苷酸位点产生嵌套产物。

二、基因的分类

按产物的类别:蛋白质基因,RNA 基 因

按 其 功 能:结构基因:Structural gene,调节基因:Regulatory gene

结构基因:可被转录形成mRNA,并进而翻译成多肽链,构成各种结构蛋白质,催化各种生化反应的酶和激素等。

调节基因:指某些可调节控制结构基因表达的基因,合成阻遏蛋白和转录激活因子。其突变可影响一个或多个结构基因的功能,或导致一个或多个蛋白质(或酶)量的改变。 只转录不翻译的基因:核糖体RNA基因, rDNA基因,tRNA基因 三、基因的组构(Gene organization)

基因的结构和组成:通常是指结构基因的结构和组成。 结构基因→基因表达→一定功能的RNA或蛋白质 必须具备以下几个基本的组成成分:

启动子(Promoter), 编码序列(Coding sequence), 终止子(Terminator) 基因在启动子的上游或其它区域有一些调节基因转录的序列: 顺式调节元件(cis-regulatory element)/

上游调节序列(upstream regulatory sequence)/ 上游激活序列(upstream activation sequence)

它们是转录调节因子的识别和结合位点,是调节基因转录的杆杠

内含子(intron):初始mRNA转录中存在,但经过剪辑,在成熟mRNA中不存在的一段核苷酸序列,即为非编码区(non-coding region)序列。

外显子(exon):在成熟mRNA中存在序列部分,即为编码区(coding region)序列 任何基因座,被转录的DNA称为转录单位(transcription unit)。

在原核细胞中,一个转录单位可能包括多个基因组成一个操纵子,但在真核细胞中,转录单位几乎总是等价于单个基因(由RNA聚合酶I转录的rRNA基因多顺反子,RNA病毒基因和细胞器基因组等例外;参见内部核糖体进入位点、反式剪接)。

对于编码蛋白质的基因,翻译成多肽序列后的信息和未翻译的信息之间可能存在差别。在细菌中,被翻译的区域[开放阅读框(open reading frame)、编码区(coding region)]同基因等价,并且,基因间通常被短的内部非编码区(internal noncoding regions)分隔。操纵子的末端基因的侧翼存在有5’非翻译区(5’untranslated region,UTR)或称为前导序列(leader sequence)和3‘UTR也称为尾随序列(trailer sequence)。这些序列往往具有功能;5’UTR控制核糖体的结合还可能促进衰减子控制(anenuator control);而3’UTR在mRNA的稳定性中起重要作用。

操纵子: 包含几个基因(可作为一个多顺反子的转录物被转录)及其共同元件的细菌基因座。在微生物中,功能相关的结构基因和操纵基因紧密连锁构成一个功能协调的操纵子

在真核细胞中,编码区的两侧也存在具有功能的UTRs,两侧的UTRs和开放阅读框都被非编码序列即内含子插入,内含子在RNA从核仁运输出来时被剪切掉,也就是说它们不出现在成熟的转录物中。

在真核和原核细胞中,RNA基因可被单独或作为操纵子的一部分转录。基因中与蛋白编码区类同部分即最终形成成熟RNA的部分。一些RNA作为成熟转录物被转录,而另一些需经过剪切,加工和内含子的剪接等过程。渐次丢失的所有序列都被称为转录间隔序列(transcribed spacer sequence)

第二节 基因组

第26 页 共36页

定义:基因组(genome)是指单倍体细胞中包含的整套染色体组中所包含的一整套基因;即整套染色体所包含的DNA分子以及DNA分子所携带的全部遗传指令。

基因组DNA测序的结果表明基因组中不仅包含着整套基因的编码序列,同时还包含着大量非编码序列,即基因之间的序列。这些序列同样包含着遗传指令(genetic instruction)。

基因组(genome) (1922年出现在遗传学的文献中),当时用于描述一个细胞或病毒所包含的全部基因。

最初,genome被译作染色体组,指的是单倍体细胞中所含的整套染色体,但现在基因组这个名词逐渐替代了染色体组。

原核生物一般只有一个环状的DNA分子,其上所含有的基因为一个基因组。

真核生物细胞中的细胞器如叶绿体、线粒体中的DNA一般也为环状,构成叶绿体基因组和线粒体基因组。

. 1、基因组的大小与C值矛盾

基因组的大小一般用碱基对(bp)的数量来表示。 千碱基对表示103个碱基对,英文简写1kb. 百万碱基对表示106个碱基对,英文简写Mb。

大多数真核生物的基因组都比原核生物的基因组大,比原核生物的基因组复杂,对病毒、细菌、低等真核生物和高等真核生物的基因组DNA含量的进行测定后,使得我们有这样一种认识:基因组的大小大致上与进化的复杂性有关,但并不呈直线关系。 基因大小和内含子——外显子结构

细菌基因较小,平均1k bp左右,大小上变化不大;

高等真核生物基因较大 平均16 kbp 且大小变化很大

哺乳动物中最小的基因 ,如人类的 —干扰素基因<1 kbp与细菌基因相当,但很多超过100 kbp。

目前发现的最大基因:

人类的肌营养不良蛋白基因,有2500 kbp长。

高等真核生物基因一般比细菌基因大得多,但从它们中得到的mRNA并不比细菌mRNA大。

差异是由内含子(introns)引起的:内含子(intron)是打断转录单位的间插序列,必须在RNA水平上去除。转录单位余下部分通过剪接结合起来并表达称为外显子(exon)。

基因大小与基因中外显子比例成反比。细菌基因一般缺乏内含子,100%是外显子。内含子在很多真核微生物中也很少

如酿酒酵母,它们基因一般大小为1~2kbp与细菌类似。在人类中,最小的基因有很少的内含子且内含子很小(如500bp组蛋白H4基因没有内含子)。相反,最大的基因中超过95%的序列为内含子。上面提到的肌营养不良蛋白基因有78个内含子,平均大小是30kbp;只有基因的0.5%是外显子。

高等真核生物的内含子大小和数量变化很大,外显子大小则在一狭窄的范围内。如人类的不连续基因中,外显子平均长度为170bp,在50bp ~ 300bp范围内变化。

有一些值得一提的例外,如载脂蛋白B基因的26号外显子有7.6kb长度,但这样的例子很少。无脊椎动物与脊椎动物相比有更大的外显子,因为它们的内含子极少。 不同真核生物中内含子—外显子的组织

酿酒酵母很少有被打断的基因,基因长度与mRNA长度一致。高等真核生物基因大小逐步加大,但mRNA大小保持恒定。

一般基因大小与内含子数量成正比例与外显子含量成反比 基因数目和密度

几种微生物基因组测序计划已完成。细菌基因数目变化有一个数量级: 枝原体 473个基因

第27 页 共36页

粘液球菌大约8000

大肠杆菌大约有4400个基因 在基因数目上:

最大的细菌基因组与低等真核生物相差不多 酿酒酵母有6340个基因

果蝇和线虫:预计有酿酒酵母两倍的基因数量 脊 椎 动 物:预计有大约70 000个基因

维持一个生命有机体所需的最小基因数目是多少?细菌基因组比较发现了一系列必需生化途径,并有256个基因编码其中的成分。真核生物细胞建立复杂的细胞内结构似乎需要更多的途径

多细胞生物调节发育和分化细胞的功能就需要更多;然而关键生化途径的数目在所有后生动物中类似。

因为脊椎动物中大量基因被认为是通过整个基因组的两轮重复,加上不同染色体区域和单个基因的重复产生的。起初过剩的基因被用于特殊的功能,经常是因为表达模式的分化,但途径是高度保守的。

C值:指生物体的单倍体基因组所含DNA总量 每种生物各有其特定的C值

不同物种的C值之间有很大差别 能营生活的最小的生物——

枝原体(Mycoplasma)的C值不到106bp

一些显花植物和两栖类动物的C值则可多达1011bp, 相差10万倍。

C值同生物的进化有什么关系? 生物的C值,即基因组的DNA总量是不是随着生物的进化而相应地增加?

C值矛盾(C—value paradox):是指生物基因组的大小同生物在进化上所处的地位及复杂性之间无严格的对应关系。

一方面:在一些低等生物中,随着生物进化,增加了生物体的结构和功能的复杂性,基因组也相应地增大即C值上升。

如蠕虫的C值大于霉菌、藻类、真菌、细菌和支原体。

另一方面:随着进一步的进化,在其他生物中则看不到这种规律。 显花植物和两栖类动物的基因组最大 两栖类动物 C值在 109bp ~ 1011bp 之间变化

软骨鱼、硬骨鱼甚至昆虫和软体动物的基因组都大于包括人类在内的哺乳动物的基因组。爬行类和棘皮动物的基因组大小同哺乳动物几乎相等。

C值矛盾可以用很多真核生物基因组中主要是非编码DNA来解释。非编码DNA可能是重复DNA或单一顺序DNA。基因组的复杂性(complexity)由单一顺序DNA的总和来定义。可以用物理单位(参见碱基对、皮克)或更经常是总基因组的百分比来表示。

重复DNA的存在最早是通过复性动力学被发现并部分解释了C值矛盾。同一门类中C—值的差异主要反映了对基因组复杂性没有贡献的重复顺序DNA的含量的差异。当将重复顺序DNA考虑在内时,在有类似生物复杂性的物种间仍存在基因组大小的不一致性,特别是在一群单细胞有机体中间进行比较时。 例如 :

酿酒酵母: C—值大约为13.5Mb 裂殖酵母: C—值接近 20Mb

这两种酵母有类似的结构复杂性和较少的重复序列DNA。其差异反映了非编码的单一顺

第28 页 共36页

序DNA之间的不同

如基因间DNA片段和内含子:

酿酒酵母只有4%基因有内含子 裂殖酵母40%的基因有内含子

在更高等的真核生物中,基因间区域和内含子更大,内含子数量更多,使基因的平均大小和基因间距离增加。

2、序列复杂性(sequence complexity)

同一类生物中基因组大小相差悬殊,其主要差别在于“多余”(excess)DNA的量的差别。“多余”DNA量多,则基因组大;反之,则小。所谓“多余”DNA主要是重复序列,即这种DNA序列在基因组中可以有不止一个拷贝。

序列重复性:是指不同序列的总长度;或者说:DNA分子中不重复碱基的总量(用bp来表示),即:最长的没有重复序列的核苷酸对的数值。

序列复杂性的高低反映了序列包括的遗传信息量的多少。此外,生物体基因组的复杂程度还表现在基因的外显子数目的多寡。

哺乳动物基因的外显子数目远远多于其他生物,原核生物的基因基本上没有外显子和内含子之分。

外显子数目多表现在RNA剪接时可以有更多种剪接方式,一个基因可以产生更多种的RNA,编码更多种蛋白质分子,也就是一个基因可以不止有一种功能。

从进化角度看,更多的外显子有助于形成更多的外显子组合,生成新的基因,对生物在多种环境下生存是有利的。 3、DNA复性动力学

基因组内单一序列和重复序列的组成情况,可通过DNA复性动力学研究来确定。

DNA复性:当变性DNA的两条互补链在除去变性因素后,可以重新或部分恢复成双螺旋结构。 复性的必要条件:足够的盐浓度;

温度适中(低于Tm20-25℃) 复性过程缓慢: 成核作用→拉链作用

当两条单链DNA接触时,如果某个区段可以互补配对,就先形成一个双链核心区,然后扩展其互补配对区段而复性形成双链。

复性过程很复杂,但基本符合二级反应动力学 dS DNA 2SS DNA

复性的速率可用下列公式表示: dC/dt=-kC2

这里,C是在t时单链DNA的浓度, C0是 t=0 时DNA的初始浓度;k是二级反应常数。上述公式可以重排为 -dC/C2=kdt

对上式积分整理得: C/C0 = 1/(1+kC0t)

这个公式表明反应中单链DNA所占百分数(C/C0)是DNA浓度(C0)同反应时间(t)乘积的函数,通常用C0t来表示。

在一个特定的实验中,C0是已知的,C是可以测定的,如C/C0对 C0t作图可以得到下图的曲线,称为Cot 曲线(见图5—4)。

当C/C0=0.5 即复性反应完成一半时(t1/2) 的Cot 值定义为 C0t1/2 当条件一定时:

C0t ½的大小与DNA的分子量及复杂性有关 (1)C0t ½越大,表示复性速度 越慢,DNA的分子量越大

DNA总量一定时,基因组越复杂,任何特定顺序的 拷贝数就越少。

例如,DNA起始总量为12pg,一种细菌基因组大小为0.004pg,则它的各种顺序有:

第29 页 共36页

12/0.004=3000拷贝。另一种真核生物基因组大小3pg, 12/3=4拷贝。尽管测得的 Co绝对量相同12pg (核苷酸mol/L)。而事实上后者各顺序的浓度比前者低了3000/4=750(倍) 。要使该真核生物基因的拷贝数也达到3000,则要多加750倍的DNA.因此,该真核生物DNA复性反应的C0t ½是细菌DNA反应C0t ½的750倍。

(2)在不存在重复序列的情况下,C0t ½值与基因组的大小成正比,也即与反应体系中的复杂度成正比: X=K’C0t ½

A.在一般标准条件下(阳离子浓度为0.18 mol/L, 片段大小为400bp) K’=5 x 105 则有: X= 5x105 C0t ½

B.在非标准条件下,通常用大肠杆菌DNA作为标准测定未知DNA的复杂度: C0t ½ (欲测基因组DNA) 复杂度(欲测基因组DNA) C0t ½(大肠杆菌DNA) 4.2 x106bp (3).在有重复顺序的复性中,在同一个复性曲线上的各动力学组分

的C0t1/2并不因基因组的大小而增减,而是与DNA序列的重复频率成 反比: C0t ½(1): C0t ½ (2)=f (2): f(1)

式中(1)和(2)代表两个不同的动力学组分,f代表其重组频率(拷贝数) 复性动力学研究表明:

1)原核生物基因组的C0t曲线是单一的S形曲线 2)真核生物基因组的C0t曲线是多S形曲线,

由若干个(一般2-3个)S形加合成的曲线。 4、基因组DNA序列的分类

基因组DNA分子可以根据其结构和功能从不同角度分成不同的类别。 (1)基因序列和非基因序列

基因序列指基因组里决定蛋白质(或RNA产物)的DNA序列,一端为TAC:AUG起始密码子,另一端则是终止密码子(ATT:UAA、ATC:UAG、ACT:UGA )。

非基因序列则是基因组中除基因以外的所有DNA序列,主要是两个基因之间的间插序列(intervening sequence)。

在分析基因组序列时,当一个DNA序列以ATG起始密码子开始,随后是一个个密码子,但还未发现与这个序列对应的蛋白质产物,此时,这种DNA序列称为可读框(open reading frame,ORF)。一般说,一个ORF相当于一个基因,只是其产物还有待发现和证实。 (2)编码序列(Coding sequence)和(Non-coding sequence)非编码序列 编码序列指编码RNA和蛋白质的DNA序列。由于基因是 由内含子和外显子组成,内含子是基因内的非蛋白质编码 序列。所以基因的内含子序列以及居间序列的总和统称为 非蛋白质编码序列。

(3)单一(unique)序列和重复(repetitive)序列

单一序列是基因组里只出现一次的DNA序列。

基因序列多半是单一序列,但也不全是单一序列,因为有些基因在基因组内的拷贝数不止一个。同时,非基因序列中也有单一序列。比如用作遗传标记或作图界标的短串联重复序列(short tandem repeat,STR)和序列标定位点(sequence tagged site,STS)等。 重复序列:是指在基因组中重复出现的DNA序列

基因组内的重复序列有的是散在分布,有的是成簇存在。以人类基因组为例,单一序列约占基因组的50%左右;两栖类和显花植物基因组中单一序列所占比例要低得多,主要是一些重复序列。

根据DNA序列在基因组中的重复频率,可将其分为: 轻度重复序列、中度重复序列和高度重复序列。

第30 页 共36页

①轻度重复序列 一般指一个基因组内有2—10份拷贝,但有时2—3份拷贝的DNA序列也被视作非重复序列。

组蛋白基因和酵母tRNA基因属于轻度重复序列。

②中度重复序列 一般指10份到几百份拷贝的DNA序列,通常是非编码序列。

这类重复序列平均长度约300 bp,往往构成序列家族,同单一序列相隔排列,分散在基因组中。可能在基因活性的中起作用。

高度重复序列 一个基因组中有几百份甚至几百万份拷贝的高度重复序列。既有重复几百份拷贝的基因,如rRNA基因和某些tRNA基因,更多的则是很短的非编码序列的重复。这些序列往往是许多份拷贝呈头尾衔接的串联形式,也就是串联重复序列(tandem repeat)。

不同生物基因组中重复序列所占比例有很大差别。原核生物基因组中基本上不含有重复序列;低等真核生物基因组中,重复的组成不超过20%,且多半是中度重复序列;动物细胞的基因组中,中度和高度重复序列约占50%;在一些显花植物和两栖类基因组中,中度和高度重复序列几乎可以高达80%。

真核生物基因组成分根据含量和功能分类 DNA类型 定 义 根据含量

单一顺序(单拷贝,低拷贝,非重复顺序DNA): 每个基因组中顺序 出现一次或很少次。包括大部分基因和内含子,节顺序和 其他未知功能的DNA。

中等重复顺序DNA : 每个基因组中出现10~10 000个拷贝。一般是 代表高度保守的多基因家族的分散重复顺序(功能假基因) 和转座因 子。偶尔成簇排列。

高度重复顺序 : 每个基因组中出现10 000~1 000 000个拷贝的序 列 。一般作为随机重复顺序被发现,一些超丰度的(弥散 的)转座因子也属于这类。 根据功能

基因DNA : 基因,即可以表达的DNA。基因DNA可以进一步分 为mDNA(编码蛋白) 、rDNA、tDNA、snDNA等,代 表了不同的基因产物。

调节DNA : DNA的功能是调节基因表达(如启动子、增强子)或 调节DNA功能( 如复制起 始区,核基质结合区域) 基因内DNA,间隔DNA : 内含子和分隔基因的DNA。

卫星DNA : 靠近着丝粒、端粒和其他位置的高度重复DNA,有 些卫星DNA在染色体功能中发挥作用。

自在DNA :功能是介导自身在基因组中的复制和生存,如一 些卫星DNA和转座因子。 无用DNA :没有确定功能的DNA 5、重复基因家族

⑴ 基因家族(gene family):由同一个祖先基因经过重复(duplication)与变异进化而形成结构与功能相似的一组基因,组成了一个基因家族。基因家族中的各个成员可以聚集成簇也可以分散在不同染色体上,或者两种情况兼而有之。结构基因家族中各个成员通常具有相关的甚至相同的功能。

(2)基因族(gene cluster):由相同或相关的邻近基因组成的一个基因群或一组基因

(3)多基因家族 (multigene family) 多基因家族是一个基因组中功能相似、进化上同源的一组基因。在这些基因中,拷贝数、顺序保守性、构成、分布状态和功能相关性有很大差异。

第31 页 共36页

例如:在一些子中,家族成员可能非常相似或完全一样(如rRNA基因)。在其他一些例子中,保守性非常差,即使通过序列比较也不能发现。

经典的多基因家族是结构相似,在整个编码顺序中保守。它们可以在特殊座位上成簇排列(如人类 -珠蛋白基因)、分散的(如人类肌动蛋白基因)或者两者都有(玉米醇溶蛋白基因)。

成簇的多基因家族的偶尔分散的成员称为孤独基因(orphon) 。

孤独基因与孤儿基因(orphan)不同,孤儿基因是在人类基因组测序计划中发现的,在其他有机体中没有对应的基因,已确定它没有功能。

其他多基因家族只在特殊的对应保守的蛋白结构域的亚基因区域相同(如同源异形基因在编码DNA结合的结构域的180bp同源盒相关)。更有其他一些只在一个非常短的氨基酸基序相关(如MADS盒和DEAD盒RNA螺旋酶基序)。

更为复杂的是,很多基因呈现为对应不同蛋白结构域的相对功能单位的嵌合分子,使它们能够同时成为几个不同家族的成员。这样的基因被认为是通过祖先基因间的重组产生的(与外显子改组有关),可以包含重复的编码信息(与外显子重复有关)。 (4)超基因家族(supergene family)

DNA序列相似,但功能不一定相关的若干基因家 族或单拷贝基因总称。 (5)假基因(pseudogene)

多基因家族经常包含结构保守的基因,它们是通过积累突变产生,来满足不同的功能需要。在一些例子中,突变使基因功能完全丧失,这样的无功能的基因拷贝称为假基因,经常用希腊字母表示。根据起源和结构的不同,假基因分为两类: 未加工的假基因

加工的假基因

①未加工的假基因(nonprocess pseudogenes)也称为常规假基因(conventional pseudo-genes),是通过基因组DNA复制产生,经常位于相同基因有功能拷贝的附近。它们与有功能上同源的基因具有有类似的结构,可以包括内含子和调节元件。

偶尔未加工的假基因可以通过一个有利的突变重新激活。产生未加工假基因的过程也可能产生部分基因或截短的拷贝。

这样的假基因在细菌和真核生物中都有发现,因为它们是积累突变,包括使转录消失的调节突变和产生截短编码产物的无义突变,所以能够被识别。

②加工的假基因(processed pseudogenes)也称为反转录假基因(retropseudogenes),是通过对mRNA的反转录和获得的cDNA的随机整合而产生;它们经常是分散的。所涉及的酶是由反转录因子编码的反转录酶和整合酶的外来活性而产生的,只在真核生物中被发现。 加工的假基因结构对应于起源基因的转录单位,缺乏内含子和侧翼顺序。因为缺乏侧翼顺序,加工假基因一般不表达,尽管它们偶尔整合在内源性启动子附近,并受它的控制(人类编码丙酮酸氢化酶的基因被认为是这种方式产生的)。RNA聚合酶Ⅲ有内在的启动子,所以它的加工的假基因可以表达。人类高度重复Alu元件是表达的RNA聚合酶Ⅲ加工的假基因的例子。 ⑷、结构和功能的冗余性

冗余(redumdant)序列是在基因组中出现超过一次的序列,也就是增加基因组大小,并不增加复杂性的序列。

冗余基因并不必定是功能冗余。一些基因(如rRNA基因),被发现有冗余拷贝,以产生足够基因产物另一些进化以实现不同功能。

功能冗余可以通过当特定基因或元件缺失造成表型缺失来建立。完全或部分功能基因冗余在多细胞有机体的很多定向突变中可以看到,即使同样的基因在异位表达时表现出显著的功能效应的增加。另一个例子是转录因子 (5)、重复DNA序列的结构

重复DNA序列由特定大小序列(重复单位,repeat unit),以特定拷贝数目在空间上以特殊的方

第32 页 共36页

式组成。重复单位可以以三种方式被组织:

串联重复(tandem repeats):在单个重复单位间没有间隔; 不完善的重复(hyphenated repeats):被小间隔分离,但还是成群排列; 分散重复(dispersed repeats):散布在整个基因组中。

单个重复顺序间可以是相同方向(正向重复)或者是相反方向(反向重复)排列。

6)卫星DNA 是高等真核生物基因组重复程度最高的成分,由非常短的串联多次重复DNA序列组成。

高度重复DNA在物种间变化,但一般占了基因组的10%~30%。因为它的低复杂性,有时称为简单序列DNA,又因为其不寻常的核苷酸组成,它经常在浮力密度梯度离心中从整个基因组DNA中分离成一个或多个“卫星”条带,也称为卫星DNA。

卫星DNA由重复单位5-10bp组成,有的长达100bp,成串排列,重复次数105 ~ 107;通常以大的基因簇(100~3000kb)形式分布,一般位于染色体的异染色区(异染色质的着丝粒),可能在染色体功能中起作用。

①卫星DNA(Satellite DNA):

大多数位于着丝粒区或核仁组织者 ②小卫星DNA(Minisatellite DNA) : 一般位于端粒处,由几百个核苷酸 对的单元重复所组成。

③微卫星DNA (Microsatellite DNA): 由2-20个左右的核苷酸对的单元 重复成百上千次而组成

微卫星DNA 出现在更小的基因簇(<200bp)中,以非常短的重复单位(1~4bp)为特征。它们有高度的多态性,分布在整个基因组中,所以它们是理想的遗传标记。

在两种可能的同源多聚体,ploy(A)/poly(T)远比ploy(C)/poly(G)普遍,且二核苷酸微卫星ploy(CG)/poly(GC)因为CpG基序的损耗而稀少。三和四核苷酸微卫星DNA相对稀少,但作为标记比通常出现的二核苷酸微卫星更有用,因为在PCR基因型印记中链的跳格较少。

④ 隐蔽卫星DNA(cryptic satellite DNA):有与大多数基因组DNA相当的浮力密度,离心时并不象卫星DNA那样被分开,它不形成卫星条带,但它的属性却类似卫星DNA,其组成包含了多种串联重复序列的DNA分子;它通过其他方法被鉴定,如性作图。

大多数人类染色体的中心粒DNA包含了隐蔽卫星DNA,称为 -卫星DNA (灵长类特有的单元为171bp的高度重复序列,分布在人染色体的着丝粒区),尽管另一种成分 —卫星DNA在至少人类染色体的中心粒也很丰富。 —和 —卫星DNA家族中染色体特异性序列存在差异。 小卫星DNA和微卫星DNA

大多数卫星DNA是以染色体着丝粒区域或核仁组织者的重复序列组成的大基因簇存在,但也经常出现在称为小卫星DNA的小基因簇(100bp~10kbp)中,一般位于端粒处。在每个染色体臂的末端是端粒DNA。 在大多数真核生物中,它由特 征性的几千碱基的串联五核苷 酸或六核苷酸DNA重复组成, 它的功能是在随后的DNA复制 周期中阻止染色体缺损。

DNA分型(DNA typing) 或 DNA分布图(DNA profiling)

涉及用小卫星DNA(VNTR)产生DNA片段组,以电泳分离时,提供任何个体的独特模式(有时称为DNA指纹,DNA fingerprints)。

小卫星DNA是高度多态性的(每个位置重复单位的数目),而在基因组中有很多小卫星DNA,倾

第33 页 共36页

向于分布在亚端粒区域。如果足够的位点被同时分型,不相关的个体极不可能产生相同的分布图,但因为小卫星是以盂德尔性状传递的,相关个体会有类似分布图,并且相匹配的DNA片段数目与对应于它们亲缘关系的紧密程度呈正相关。

(7)非编码功能序列(Noncoding Functional sequences)—端粒DNA:

Telomeres 端粒:是真核生物染色体上的末端结构,能将染色体末端封住,使之不能与其它染色体片段相连接,而保持各染色体的相对完整性和性,是真核生物染色体复制和稳定性的必需结构。

在这里端粒的重复序列解决了线状DNA分子复制中遗传的功能问题

端粒酶:是一个核糖核蛋白,既含有蛋白质成分也含有RNA分子, 在RNA上含有复制端粒亚单位所需要的关键核苷酸模板。 因此端粒酶可以看作一种特殊的DNA聚合酶,即自身携带 RNA模板的反转录酶。 (8)超基因(super gene)

操纵子是细菌中与同一种生化功能有关的几个基因(如控制色氨酸合成的有关基因)在基因组内聚成一簇而紧密连锁,并受一个基因。操纵子只在细菌中发现。在真核生物基因组内还未发现类似典型操纵子的结构,真核生物的结构基因一般是单独的,但真核生物中也有称为超基因的结构。

超基因是指作用于一种性状或作用于一系列相关性状的几个紧密连锁的基因。在进化上,一个共同的祖先基因通过各种各样的变异,产生了结构大致相同但功能却不尽相似的一大批基因;这些基因分属于不同的基因家族,总称为一个基因超家族(superfamily)。

人类基因组的超基因如血红蛋白基因簇。在个体发育的不同时期,基因簇中的不同基因进行表达。一个祖先基因经过重复(duplication)和变异而产生的一组基因,组成了一个基因家族(gene family)。基因家族中的各个成员可以聚集成簇也可以分散在不同染色体上,或者两种情况兼而有之。结构基因家族中各个成员通常具有相关的甚至相同的功能。 6、原核生物基因组与真核生物基因组的特点 原核生物基因组:

(1)不具备明显的核结构,只有DNA的集中区,形成拟核。

(2)基因组小,多数基因都包括在单一个环状 DNA分子上,单一DNA复制起点,一个复制子;如,E.coli 4639Kb, 。

(3)重复序列和不编码序列很少。DNA的绝大部分是用来编码蛋白质的,只有非常小的部分不转录。一般无内含子和重复基因,即原核生物基因是连续的基因。 (4)功能上密切相关的基因构成操纵子或高度集中,常转录成多基因mRNA(多顺反子mRNA) (5)有重叠基因

(6)结构基因通常是单一的DNA序列,除rRNA和tRNA基因外,原核生物结构基因都是单拷贝。

真核生物基因组:

(1)真核生物基因组数目庞大,结构复杂,基因组大部分位于细胞核中,一般由多条染色体组成,每条染色体又是由DNA分子与蛋白质稳定的结合成染色质的多级结构;

(2)每条染色体的DNA分子具有多个复制起点,基因内存在着不表达的插入序列,即内含子。真核基因多为断裂基因;

(3)编码序列仅占基因组DNA的一小部分,绝大多数为非编码序列;

(4)存在着大量的奢侈基因。活动的基因中仅有小部分基因对于维持细胞生成是必需的,称为看家基因 (house-keeping gene),除此之外,绝大多数真核生物基因呈时序表达,不同的组织细胞在不同时期有不同的基因表达谱。某一细胞在特定的时期只有约1%-3%的基因表达,大部分的基因在某种细胞的特定时期,以完成某种特殊功能,这些基因称为奢侈基因(Luxury)。据估计,人的一个体细胞内约有1000个看家基因,其余大部分的基因处于静息状态。

(5)没有重叠基因。一段结构基因DNA经转录和翻译只形成一种有功能的RNA和多肽链。

第34 页 共36页

高等生物基因组中有少数基因转录成hnRNA后,经过不同的剪切,可以形成几个长短不同的mRNA和多肽链,但保持相同的核心模块,功能作用相似。

(6)基因组中存在大量的重复序列。一些短的DNA序列多次重复,有时重复频率高达106,这些重复序列在基因组中所占的比例因种属而异,从10%--60%不等。重复序列在人基因组中约占50%。

第十章 表观遗传与表观遗传学 (epigenetics)

表观遗传(epigenetic inheritance): 通过有丝或减数来传递非DNA序列信息的现象。 表观遗传学(epigenetics):是在以孟德尔式遗传为理论基石的经典遗传学和分子遗传学母体中孕育的出来,专门研究不涉及DNA序列改变的基因表达和的可遗传变化和基因功能实现的一种特殊机制的遗传学分支学科;换言之,它是专门研究从基因演绎为表型的过程和机制的一门新兴的遗传学分支。

表观遗传学表观遗传研究丝毫没有降低传统遗传学或基因组学的重要性,而是对孟德尔遗传学的一种补充。 基因表达模式

(gene expression pattern)

决定细胞类型的不是基因本身,而是基因表达模式,通过细胞来传递和稳定地维持具有组织和细胞特异性的基因表达模式,这对于整个机体的结构和功能协调是至关重要的。 基因表达模式在细胞世代之间的可遗传性并不依赖细胞内DNA的序列信息。 基因表达模式的信息标记

表观遗传修饰(epigenetic modification)

DNA分子的特定碱基的结构修饰

(如胞嘧啶的甲基化)

染色质构型重塑(chromatin remodeling)

(如组蛋白的构型变化) 表观遗传修饰机制

DNA甲基化和染色质重塑 基因组印迹

基因表达重新编程 X染色体失活

(一)DNA甲基化和染色质重塑 DNA甲基化(DNA methylation)是研究得最清楚、 也是最重要的表观遗传修饰形式,主要是基因组 DNA上的胞嘧啶第5位碳原子和甲基间的共价结合,胞嘧啶由此被修饰为5甲基胞嘧啶(5-methylcytosine,5-mC)。 染色质构型重塑

组成核小体的组蛋白可以被多种化合物所修饰,如磷酸化、乙酰化和甲基化等,组蛋白的这类结构修饰可使染色质的构型发生改变,称为染色质构型重塑。

组蛋白中不同氨基酸残基的乙酰化一般与活化的染色质构型常染色质(euchromatin)和有表达活性的基因相关联;而组蛋白的甲基化则与浓缩的异染色质(hetero-chromatin)和表达受抑的基因相关联。

研究还表明,组蛋白甲基化可以与基因抑制有关,也可以与基因的激活相关,这往往取决于被修饰的赖氨酸处于什么位置。

例如,H3 Lys9甲基化最终导致了基因的沉默;然而,位于H3 Lys4的甲基化则与基因的活化相关联。

真核细胞中存在着一个由RNA干扰、组蛋白结构修饰和DNA甲基化系统组成的一个表观遗传

第35 页 共36页

修饰网络,能动地着具有组织和细胞特异性的基因表达模式。

机体的表观遗传模式的变化在整个发育过程中是高度有序的,也是严格受控的。

染色质蛋白并非只是一种包装蛋白,而是在DNA和细胞其他组分之间构筑了一个动态的功能界面。

(二)基因组印迹

双亲的基因组在个体发育中有着不同的影响,这种现象被称为基因组印迹(genomic imprinting)。

近年研究表明,基因组印迹是两个亲本等位基因的差异性甲基化型造成了一个亲本等位基因的沉默,另一个亲本等位基因保持单等位基因活性(monoallelic activity)。

① 基因组印迹是性细胞系的一种表观遗传修饰,这种修饰有一整套分布于染色体不同部位

的印迹中心来协调,印迹中心直接介导了印迹标记的建立及其在发育全过程中的维持和传递,并导致以亲本来源特异性方式优先表达两个亲本等位基因中的一个,而使另一个沉默。

② 在哺乳动物中相当数量的印迹基因是与胎儿的生长发育和胎盘的功能密切相关的。 (三)基因表达的重新编程

(1)发育是一个高度有序的生物学过程,是从一个全能的受精卵开始到建成一个由200多种具有组织和细胞特异性的、结构和功能各异的细胞组成的整体的过程。

(2)组成机体的各个组分互相协同能执行精细、复杂且相互协调的功能。

如物质和能量代谢,对病原生物的抵御和免疫能力的获得,高级神经系统功能网络的建立,两性生殖细胞的发生、成熟和受精后的新生命孕育,以及与复杂多变环境之间的相互作用等。 对于一个生物机体来讲,所有结构和功能各不相同的细胞虽具有完全一样的基因组,却有着很不一样的基因表达模式。与组织和细胞特异性的基因表达模式的建立和维持相关的细胞信息,必需是可以通过细胞而遗传的,同时也应该 具备被删除和重建的潜在可能性。

“多莉”克隆绵羊的诞生雄辩地证明:一个来自成年的哺乳动物的高度分化的体细胞仍然保持发育成为完整个体的能力,也就是说细胞的分化并没有造成不可逆的遗传物质修饰。 已完全分化的细胞,其基因组在特定条件下经历表观遗传修饰重建而为胚胎发育中的基因表达重新编程(reprogramming)并赋予发育全能性,为胚胎发育和分化发出正确的指令。胚胎发育中表观基因组重新编程的差误将会导致多种表观遗传缺陷性 疾病。

个体发育过程中表观基因组的重编程

早期原始生殖细胞在沿着生殖系统管腔移行时,原属体细胞型的表观遗传修饰(包括基因组印迹)会被删除。在生殖细胞发生与成熟过程中表观遗传标记重新建立,受精后会进行除印迹基因(由黑色虚线表示)以外的表观遗传修饰的删除与重建,重建后的表观基因组在组织特异性定型后被稳定地维持。

第36 页 共36页

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- zrrp.cn 版权所有 赣ICP备2024042808号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务