在RNA聚合酶的催化下,以DNA为模板合成mRNA的过程称为转录(transcription)。在双链DNA中,作为转录模板的链称为模板链(template strand)或反义链(antisense strand);而不作为转录模板的链称为编码链(coding strand)或有义链(sense strand),编码链与模板链互补,它与转录产物的差异仅在于DNA中的胸腺嘧啶(T)变为RNA中的尿嘧啶(U)。
在含许多基因的DNA双链中,每个基因的模板链并不总是在同一条链上,亦即可作为某些基因模板链的一条链,同时也可以是另外一些基因的编码链。
转录后要进行加工,转录后的加工包括:
一个基因的外显子和内含子都转录在一条原始转录物RNA分子中,称为前mRNA(pre-mRNA),又称核内异质RNA(heterogenous nuclear RNA,hnRNA)。
因此前mRNA分子既有外显子序列又有内含子序列,另外还包括编码区前面及后面非翻译序列。这些内含子序列必须除去而把外显子序列连接起来,才能产生成熟的有功能的mRNA分子,这个过程称为RNA剪接(RNA splicing),由一个叫做剪切体的RNA和蛋白质组成的复合物执行。剪切发生在外显子的3’末端的GT和内含子3’末端与下一个外显子交界的AG处。
几乎全部的真核 mRNA 端都具“帽子”结构。虽然真核生物的mRNA的转录以嘌呤核苷酸三磷酸(pppAG或pppG)领头,但在5’端的一个核苷酸总是7-甲基鸟核苷三磷酸(m7GpppAGpNp)。mRNA 5’端的这种结构称为帽子(cap)。不同真核生物的mRNA具有不同的帽子。
mRNA的帽结构功能:①能被核糖体小亚基识别,促使mRNA和核糖体的结合;②m7Gppp结构能有效地封闭RNA 5’末端,以保护mRNA免疫5’核酸外切酶的降解,增强mRNA的稳定性。
大多数真核生物的mRNA 3’末端都有由100~200个AA组成的Poly(A)尾巴。Poly(A)尾不是由DNA编码的,而是转录后的前mRNA以ATP为前体,由RNA末端腺苷酸转移酶,即Poly(A)聚合酶催化聚合到3’末端。加尾并非加在转录终止的3’末端,而是在转录产物的3’末端,由一个特异性酶识别切点上游方向13~20碱基的加尾识别信号AAUAAA以及切点下游的保守顺序GUGUGUG,把切点下游的一段切除,然后再由Poly(A)聚合酶催化,加上Poly(A)尾巴,如果这一识别信号发生突变,则切除作用和多聚腺苷酸化作用均显著降低。mRNA Poly(A)尾的功能是:①可能有助mRNA从核到细胞质转运;②避免在细胞中受到核酶降解,增强mRNA的稳定性。
基因表达调控以mRNA作为模板,tRNA作为运载工具,在有关酶、辅助因子和能量的作用下将活化的氨基酸在核糖体(亦称核蛋白体)上装配为蛋白质多肽链的过程,称为翻译(translation),这一过程大致可分为3个阶段:
在许多起始因子的作用下,首先是核糖体的小亚基和mRNA上的起始密码子结合,然后甲酰甲硫氨酰tRNA(tRNA fMet)结合上去,构成起始复合物。通过tRNA的反密码子UAC,识别mRNA上的起始密码子AUG,并相互配对,随后核糖体大亚基结合到小亚基上去,形成稳定的复合体,从而完成了起始的作用。
真核基因表达核糖体上有两个结合点——P位和A位,可以同时结合两个氨酰tRNA。当核糖体沿着mRNA从5’→3’移动时,便依次读出密码子。首先是tRNAfMet结合在P位,随后第二个氨酰tRNA进入A位。此时,在肽基转移酶的催化下,P位和A位上的2个氨基酸之间形成肽键。第一个tRNA失去了所携带的氨基酸而从P位脱落,P位空载。A位上的氨酰tRNA在移位酶和GTP的作用下,移到P位,A位则空载。核糖体沿mRNA 5’端向3’端移动一个密码子的距离。第三个氨酰tRNA进入A位,与P位上氨基酸再形成肽键,并接受P位上的肽链,P位上tRNA释放,A位上肽链又移到P位,如此反复进行,肽链不断延长,直到mRNA的终止密码出现时,没有一个氨酰tRNA可与它结合,于是肽链延长终止。
终止信号是mRNA上的终止密码子(UAA、UAG或UGA)。当核糖体沿着mRNA移动时,多肽链不断延长,到A位上出现终止信号后,就不再有任何氨酰tRNA接上去,多肽链的合成就进入终止阶段。在释放因子的作用下,肽酰tRNA的的酯键分开,于是完整的多肽链和核糖体的大亚基便释放出来,然后小亚基也脱离mRNA。
(postranslational processing):从核糖体上释放出来的多肽需要进一步加工修饰才能形成具有生物活性的蛋白质。翻译后的肽链加工包括肽链切断,某些氨基酸的羟基化、磷酸化、乙酰化、糖基化等。真核生物在新生手肽链翻译后将甲硫氨酸裂解掉。有一类基因的翻译产物前体含有多种氨基酸顺序,可以切断为不同的蛋白质或肽,称为多蛋白质(polyprotein)。例如胰岛素(insulin)是先合成86个氨基酸的初级翻译产物,称为胰岛素原(proinsulin),胰岛素原包括A、B、C三段,经过加工,切去其中无活性的C肽段,并在A肽和B肽之间形成二硫键,这样才得到由51个氨基酸组成的有活性的胰岛素。
基因表达调控外显子与内含子表达过程中的相对性 从内含子与外显子的定义来看,两者是不能混淆的,但是真核生物的外显子也并非都“显”(编码氨基酸),除了tRNA基因和rRNA基因的外显子完全“不显”之外,几乎全部的结构基因的首尾两外显子都只有部分核苷酸顺序编码氨基酸,还有完全不编码基酸的外显子,如人类G6PD基因的第一外显子核苷酸顺序。已发现一个基因的外显子可以是另一基因的内含子,所这亦然。以小鼠的淀粉酶基因为例,来源于肝的与来源于唾液腺的是同一基因。淀粉酶基因包括4个外显子,肝生成的淀粉酶不保留外显子1,而唾液腺中的淀粉酶则保留了外显子1的50bp顺序,但把外显子2与前后两段内含子一起剪切掉,经过这样剪接,外显子2就变成唾液淀粉酶基因中的内含子。
同一基因在不同组织能生成不同的基因产物来源于不同组织的类似蛋白,可以由同一基因编码产生,这种现象首先是由于基因中的增强子等有组织特异性,它能与不同组织中的组织特异因子结合,故在不同组织中同一基因会产生不同的转录物与转录后加工作用。此外真核生物基因可有一个以一的poly(A)位点,因此能在不同的细胞中产生具有不同3’末端的前mRNA,从而会有不同的剪接方式。由于大多数真核生物基因的转录物是先加poly(A)尾巴,然后再行剪接,因此不同组织、细胞中会有不同的因子干预多聚腺苷酸化作用,最后影响剪接模式。
利用基因芯片研究干旱胁迫下玉米基因表达
原核基因表达调控玉米是全球第一大作物、中国第二大作物,而干旱是影响其产量的重要限制因素。山东大学生命科学院张举仁教授的课题组利用基因芯片技术研究了开花期玉米顶叶干旱胁迫下基因的表达。开花期是玉米需水临界期,对干旱胁迫反应最敏感,此时逢干旱会使产量下降幅度最大。张教授的课题组以开花期玉米为材料,分别对其进行短期和长期的干旱胁迫,采用全基因组芯片研究了顶叶中基因的表达情况。分析的结果表明,有197个基因在短期胁迫下差异表达(53%上调),而在长期胁迫下,则有1009个基因差异表达(32%上调)。分离得到的差异表达基因中约有一半的基因功能未知,其他基因按功能则可分为:代谢相关;细胞信号转导;转录相关;蛋白质合成;细胞防御;细胞运输;亚细胞定位等几大类。分析实验表明,在短期胁迫下上调表达的基因中,约有1/3的已知功能基因属于信号转导功能的分类范畴,参与细胞内不同的信号转导途径,这表明信号转导相关基因在玉米对干旱的早期反应中起重要作用。而在长期干旱条件下,顶叶中大量的代谢相关基因差异表达。
吸烟者肺细胞的基因表达模式有助于肺癌的早期诊断
在全世界癌症患者的死亡率中,肺癌的死亡率位居前列。肺癌高死亡率的主要原因之一是缺乏早期诊断工具。研究人员在3月出版的《自然—医学》中报道:吸烟者肺细胞的基因表达模式也许有助于肺癌的早期诊断。
众所周知,吸烟是肺癌的风险因子,因此吸烟者被认为是肺癌的高风险人群。吸烟者的正常上皮细胞的基因表达模型是否可用于肺癌存在状态的一种生物标志呢?AvrumSpira和同事进行了这一研究。在预测患者是否会向癌症发展时,他们研究的生物标志的准确率达到90%。当与其他历史数据结合在一起,准确率可增加到95%。
水生所在银鲫胚胎发育基因表达研究最新进展
四膜虫基因表达Mdk是一种分泌型蛋白,在神经发育中有重要作用,并参与人类肿瘤的形成。但是,在不同种类的脊椎动物中,Mdk基因的表达模式却大相径庭。该文报道了从银鲫10体节胚胎的SMARTcDNA文库中克隆的银鲫Mdkb基因的特征、表达图式及功能。在银鲫胚胎发育过程中,CagMdkb基因在原肠期开始表达,在10体节期时表达量上升到最高,此后表达量保持稳定。Western印迹显示胚胎早期有一条19kDa的母源CagMdkb蛋白带,合子CagMdkb蛋白从原肠期开始产生。大约在10体节时,19kDa的CagMdkb蛋白剪掉了信号肽,变成17kDa的成熟蛋白。在胚胎发育早期,母源的CagMdkb蛋白在所有卵裂球的细胞质中被检测到。
当胚胎发育到18体节期时,新合成蛋白的信号出现在后脑的一对巨大神经元中。此后,新合成的CagMdkb蛋白延伸到前脑、中脑、后脑的神经元和脊髓的神经纤维中。3A10抗体共定位表明这对巨大的神经元是Mauthner神经元。在银鲫和斑马鱼受精卵中进行的基因转移实验发现,野生型CagMdkbRNAs的过量表达造成了胚胎前脑组织和眼睛发育受到抑制等严重缺陷,并发现其功能的发挥还依赖于它的分泌特性。上述结果表明,CagMdkb在鱼类神经系统的早期发育中起着重要作用。
研究人员证明DNA水平上个体之间的微小差异能导致基因表达蛋白的巨大不同,这导致了个体之间的自然特征的许多变化。在人类由30亿个碱基对、大约数万个基因组成的基因组中,哪些基因或者基因的突变可能导致疾病?这种寻找致病基因的工作通常如同大海捞针。人类基因组计划(HGP)和人类基因组单体型图计划(HapMap)这两个超级研究项目的设立兴起了一场致病基因淘金热,其中科学家使用了一种称为“全基因组关联研究”的方法,寻找可能的致病因素。
这种新的方法把注意力集中在人类基因组的一种微小突变上。这种突变是指DNA上的某个“字母”被另外一个字母取代(例如AAG变成了ATG),它被称作“单核苷酸多态性”(SNP)。科学家估计,在人类基因组中可能存在约1500万个单字母突变,或者说,在人类这个遗传结构相当统一的群体内,还有1500万个可能的SNP。借助于基因芯片等新技术,科学家可以同时分析一个人的基因组中的数十万个SNP。把许多健康人和疾病患者(这些人不一定必须属于同一个家族)的SNP结果放在一起,SNP的分布状况就可以显示出致病基因的一些蛛丝马迹。