?在发现DNA双螺旋结构50周年之际,高质量的人类基因组全序列测序工作的完成具有划时代的意义,基因组的新纪元已经到来。
展望基因组学研究的未来,首先需要回顾我们经历过的不寻常的历程。图1所示的螺旋展示了遗传学和基因组学重要进展的里程碑,从孟德尔遗传法则的发现和其在20世纪初被重新发现[1]开始。DNA被确立是遗传的物质基础 [2]、DNA结构的确定[3]、遗传代码的阐明[4]、DNA重组技术的发展[5,6]、以及自动化程度日益提高的DNA测序技术的建立[7-10],为1990年启动人类基因组计划(HGP)奠定了基础(可见www.nature.com/nature/DNA50)。得益于这一计划的最初设计者的远见,以及全力投入这一计划的大批天才科学家的创造性和决心,所有HGP目标的实现都比原定日期至少提前了两年,一次生物学研究的革命已经开始。
这个项目的新研究战略和实验技术源源不断地产生了日益庞大及复杂的基因组数据,这些数据已被载入公共数据库,并改变了对几乎所有生命过程的研究。从基因组研究角度出发的技术开发的发展和公共资源数据体系的大规模建立,为生物学和生物医学研究引入了重要的新方向。遗传学、比较基因组学、高通量生物化学和生物信息学的交织进展,为生物学家提供了一系列显著进步的研究工具,可以使生物体在健康和疾病中的功能在前所未有的分子细节上得到详尽的分析和理解。基因组序列这一指导生物发育和发挥功能的信息综合体,是当今生命科学革命的核心。简单来讲,基因组学已经成为生物医学研究的核心和不可分割的学科。
这个新领域的出现所带来的现实后果是非常明显的。鉴定人类孟德尔遗传疾病的致病基因,曾经是一个繁复的任务,需要一个庞大的研究团队多年的努力工作,还可能无法得到确定的结果;现在只需一个研究生几周的常规工作就能完成,只要有DNA样品和相应表型,连接因特网的公共基因组数据库,一个PCR仪和一台DNA测序仪即可。有了最新公布的小鼠基因组[11]的全序列草图,鉴定导致大量小鼠表型的基因突变就同样变得非常简单了。对人和小鼠的全基因序列的比较表明,哺乳动物基因组中承受进化选择压力的部分是以前预期的两倍多。
我们探索基因组功能的能力随着随后每一个基因组测序的完成而日益细化。基因芯片技术使许多实验室从以前的一个月内完成一、两个基因的表达研究,飞跃到现在一个下午可完成成千上万个基因的表达谱[12]。临床上基于基因的疾病早期诊断和药物不良反应鉴定不断涌现,基因组学在治疗领域的极大希望已经在商业领域引来了一个激动人心的扩展和开发阶段 [13]。人类基因组计划在研究这些科学成就的伦理、法律、社会问题上的投资也造就了一批卓越的伦理、法律、社会科学、临床研究、神学和公共政策学者,同时显著增强了公众对这一领域的关注,并针对类似于遗传歧视等滥用情况引入了初步的(虽然仍不完善)防范机制(见www.genome.gov/PolicyEthics)。
这些成果完成了1988年国家研究委员会(National Research Councils)上在"人类基因组的构建和测序(Mapping and Sequencing the Human Genome)"报告中的宏伟构想。今年人类基因组计划的成功完成提供了前瞻并绘制未来数年内基因组学研究蓝图的良机。
这篇展望描述了一个与1990、1993、1998年公布的早期计划所反映的完全不同的世界(参考文献15-17)。那些文章里针对1988年报告的目标,明确了基因组分析技术发展方向、基因组物理和遗传图谱构建、模式生物体全基因组序列测定、以及最终人类基因组序列测定的详细途径。现在,在成功地实现了这些目标后,我们提出了更为广阔、也更具雄心、适应于基因组学时代真正开始的展望。我们面临的挑战是利用人类基因组计划的巨大潜力去改善人类的健康状况并使人类更好地生存。
阐述这个新展望是一个探索造福人类健康崭新途径的机会。虽然基于基因组的分析方法正在快速渗透到生物医学研究领域,但建立从基因组学信息到人类健康改善的有效途径的挑战仍然十分巨大。当前应对这一挑战的努力主要集中在对特殊疾病的研究,例如美国国立卫生研究院(National Institutes of Health, NIH)下的专门研究疾病的研究所和许多支持医学研究的其他国家或国际的政府和慈善组织的使命。国家人类基因组研究所(The National Human Genome Research Institute, NHGRI),从NIH的预算角度来看是NIH一个相对小的成员(不到2%),将和所有这些组织紧密合作,探索和支持这些生物医学研究能力。另外,NHGRI在这些院内、院外项目中将扮演更直接的作用,将基因组序列信息应用到人类健康的改善中。
NHGRI应对这一挑战拥有两大独特的优势。首先,它和一个在过去13年里为带来基因组学革命起直接作用的科学团体有着紧密的联系,他们对基因组学可能改变生物医学的研究非常熟悉。其次,NHGRI长期的使命是研究基因组学可能具有的最广泛意义,使从基因组科学新视角来探究人类健康和疾病各个方面的独特灵活性成为可能。通过使有活力和跨学科的基因组学研究团体更直接地参与与健康相关的研究、通过开拓NHGRI在人类生物学各领域的能力,本研究所寻求直接参与将人类基因组计划带来的希望用于改善人类健康的工作中。
要完全实现这一目标,NHGRI还必须继续大力支持其另一重大使命-将它的科研项目与对新遗传技术和信息的日益普及所带来的社会影响的研究结合起来。将人类基因组计划的成功转化为医学领域的进步加强了人类社会各方面确保最大效益和最低损害之积极努力的需求。
1. 基因组学研究的三个主题
此文所述的基因组研究展望来自上百位科学家和社会公众,举行了十几场讨论会和无数的与个人之间的探讨,历经近两年的热烈讨论。对基因组研究的展望分为三个主题-基因组学与生物学,基因组学与健康,基因组学与社会-和六个横切面。
这三个主题就像一个建筑的三个楼层,建立在人类基因组计划的坚实基础上(图2)。针对每个主题,我们都像David Hilbert在十九世纪末叶提出的数学提议一样[18],列出了一系列的重大挑战。这些重大挑战是科学研究团体大胆的、雄心勃勃的研究目标。其中有的可以列出特定的时间表来解决,另一些还不能设定精确的时间。我们根据逻辑性来排列这些重大挑战,并不代表它们的优先序列。这些挑战涉及范围很广,有些可以由NHGRI单独实现,但其它的需要与其它组织进行良好的合作。下面,我们阐述NHGRI准备起领导性作用的领域。
图2. 基因组学的未来建立在人类基因组计划的基础上
基因组学研究的三大主题及相关的六个横切面
三个主题-基因组学与生物学,基因组学与健康,基因组学与社会
六个横切面:Box1-资源 Box4-培训
Box2-技术发展 Box5-伦理、法律和社会应用(ELSI)
Box3-计算生物学 Box6-教育
关于六个横切面的注解见文章最后部分
六个重要横切面与所有三个主题相关。它们是:资源、技术发展、计算生物学、培训、伦理、法律和社会应用(ELSI)以及教育。我们还须强调及早地、不受限制地调用基因组数据对于最大程度地谋取公众利益的重要性。最后,我们提出了一系列的"量子飞跃",可以为基因组学研究及其在医疗方面的应用带来实质进展。某些想法看来似乎太大胆,但是无需突破物理规律来实现这些设想。这些飞跃可能具有深远的启迪作用,就象20世纪80年代中期关于人类基因组全序列的梦想,而这些梦想现在已经实现了大量值得庆贺的成就。
1.1 主题I. 基因组学与生物学:阐明基因组的结构和功能
现在广泛公布的人类以及一系列其他生物体的基因组序列为我们描绘出了最基础的生物学以及生物医学信息。这些仍然很难破译的密码包含了细胞的结构和功能的的全部遗传指令信息,而这一信息又是揭开生物系统复杂性所必需的。阐明基因组的结构以及确定大量编码元素的功能可以建立基因组学与生物学的联系,从而加速我们对所有生命科学领域的探索。
因此,我们需要新的概念和技术用来:
o 发展一种全面的、易于理解的人类基因组的编码目录
o 明确基因编码的产物如何共同作用行使细胞和组织功能
o 理解基因组如何改变和承担新功能
重大挑战I-1 全面鉴定人类基因组所编码的结构和功能成分
虽然DNA结构相对简单并在化学角度上已经得到了相当深入的了解,但是人类基因组的结构是极其复杂的,而且对其功能的理解还很少。只有1-2%的碱基编码蛋白质产物,而且编码蛋白的全套序列还没有确定[7]。数量与之基本相当的基因组非编码区在进化选择中也是十分活跃的[11],说明它们也具有重要的功能,但是我们对它们的了解却少得可怜。它们可能包含了控制大约30,000个蛋白质编码基因的大量表达调控信息,以及无数个其他功能元素,例如非蛋白质编码基因、决定染色体动力学特征的序列等。基因组中有将近一半的高度重复的序列区以及其他非编码、非重复DNA序列区,有关它们的功能我们所知道的就更少。
基因组学下一阶段的任务就是分类、描述和理解人类和其他生物体基因组中的整套功能单元。编辑这一基因组的"部件系列表"是一个巨大的挑战。众所周知的功能单元,如编码蛋白的序列,还仍然不能仅从基因序列这一单一的信息准确预测出来。而其他一些已知的功能序列,如基因调控因子,就更鲜为人知;不可否认,还会有新的功能单元被发现,所以我们必须做好准备来研究DNA序列发挥功能的新的(也许是意外的)途径。同样,我们需要更好地了解基因外部的变化(例如,甲基化和染色质重塑等),以此来理解DNA编码信息的全部方式。
对进化上不同的物种进行基因组序列的比对,是鉴别出重要的遗传因子的强有力工具。对现有的几种脊椎动物基因组序列的初步分析就发现了许多以前未被发现的蛋白质编码序列区[7,11,19]。哺乳动物之间的序列比对揭示了非编码区内的大量同源现象[11],而这些区域基本上不能从功能角度上定义。不同物种序列的进一步比对,尤其是那些占据独特进化位置的物种间的比对,会极大地促进我们对保守序列作用的理解[28]。因此,其他几个具有代表性的物种的基因组序列测定对于了解人类基因组的结构和功能至关重要(Box1)。随着更先进的测序技术的出现,测序费用大幅下降,更加有利于产生上述庞大的序列数据。而研究物种内序列的变化对于确定一些序列的功能也十分重要(见重大挑战1-3)。
要有效地鉴别和分析功能基因的组分,需要日益强大的计算能力,包括分析日益增长和愈趋复杂的数据的新方法,以及适当有力、稳定的计算机环境实现这些数据的存储、访问和分析(Box3)。同时,研究者必须日益熟练地处理这些珍贵的新信息(Box4)。当我们能够对基因组功能有了一个更好的理解时,将会有更新的预测功能单元特征和行为的计算工具出现[21]。
与用计算方法鉴别功能组分相互补的是用高通量方法产生实验数据。其中一个例子是全长cDNA序列的产生(可见www.mgc.nci.nih.gov和www.fruitfly.org.EST/full.shtml)。基因发现项目的内在主要挑战是信使RNA的选择性剪接型和高限制表达方式的实验鉴定和确证。更难的是通过实验鉴定那些不编码蛋白质的功能组分(例如,调控区和非编码RNA序列区)。为了产生必需的实验数据来开发、验证和提高用来检测基因组功能成分的计算方法,就需要采用高通量的方法(Box2)。
由于现有的技术尚不能鉴定出所有的功能组分,我们需要采取阶段性的途径,先开发新的方法,然后在试点规模下检测这些方法,最终用于人类全基因组研究。最近,NHGRI发起了DNA组分总汇(Encyclopedia of DNA Elements,ENCODE)计划来鉴定人类基因组的所有功能组分。在其中一个试点计划中,鉴定所有重要的功能基因组分的系统战略会被进一步发展,并选出1%人类基因进行测试。针对其他已被深入研究的模式生物,如酵母、线虫和果蝇的类似计划也在进行中。所得经验将服务于更广阔的人类基因组的研究。 重大挑战I-2 阐明遗传网络和蛋白质作用路径的组织方式,确定它们如何在细胞和组织表型的形成中起作用。
基因以及基因产物并非是单独起作用的,而是参与在复杂的、相互联系的通路、网络和分子系统中。它们的共同作用产生了细胞、组织、器官和有机体的机理。确认这些系统和他们的特性及相互作用对于理解其生物系统如何运行具有决定性意义。但是这些系统的复杂性要远远高于分子生物学、遗传学或基因学已认识到的范畴。基于目前的经验,有效的研究办法就是从相对简单的模式生物入手,如细菌和酵母,然后把初步的发现推广到更复杂的生物,如小鼠和人。或者,集中精力在哺乳动物中一些已被深入研究的系统可能会为这个研究方法提供有用的检验(可见www.signaling-gateway.org)。
要理解生物路径、网络和分子系统需要几个不同层次的信息。在遗传水平上,调节作用的机制需要在不同的细胞类型中鉴定,为此除了其他方法以外,还需要方法来同时追踪一个细胞内所有基因的表达。在基因产物水平上,类似的针对蛋白质表达、定位、修饰以及活性/动力学(Box2)的活体实时测定技术也是必需的。发展、提高和扩大基因表达的人为调控技术将变得十分重要,如常规的基因敲除方法[23],新的基因沉默方法[24]和小分子抑制剂等[25],用以建立单个蛋白质的动态的和细胞的表达模式,以确定它们的功能。这是确认所有的基因及其产物在功能途径中作用的关键的第一步。
同时追踪一个细胞内所有蛋白质的能力将大大提高我们理解蛋白质作用途径和系统生物学的能力。一个全面了解系统生物学的关键步骤就是将一种类型的细胞置于不同的生理条件下,然后精确地记录当时细胞内的蛋白。这种方法在一些模式系统中如微生物中越来越可行。不过记录低丰度的蛋白和膜蛋白将是这一方法的主要困难。检测每个蛋白包括修饰后的蛋白的绝对丰度,将是很重要的下一步。一个细胞内的全部蛋白的相互作用图谱、以及它们的细胞定位,可以作为从生物学和医学角度探索细胞代谢的图谱(例见www.nrcam.uchc.edu)。这些以及其他相关领域共同组成了处于发展中的蛋白质组学。
要想真正了解分子作用途径及基因调控网络如何控制正常和病理的细胞及个体的表型特征,仅仅有大量的实验数据是不够的。计算生物学将再一次必不可少(Box3),同时需要应用强大的数据库技术,对试验数据进行收集、整理和展示。对作用路径和调控网络的模型研究、以及预测它们如何影响表型、测试从这些模型得来的假定、根据新的实验数据进一步精炼这些模型,都将帮助我们更全面地了解"一堆分子"和一个功能生物系统的区别。
重大挑战I-3 发展对人类基因组的可遗传变异的详细理解
遗传学的主要内容之一是寻找表型的不同(性状)与DNA序列的变异之间的关联。人类遗传学的最大进步是把性状和单个基因联系起来。但是大部分的表型,包括普通疾病和对药物的不同反应,都是由更加复杂的原因所致,包括多种遗传因素(基因及其产物)以及非遗传因素(环境因素)的交互作用。揭示这一复杂体系不仅需要对人类基因组可遗传的变异进行全面描述,还需要开发出一系列用这些信息了解遗传疾病基础的分析方法。
早在几年前,人们已经急于开始建立一套人类基因常见差异的细目,包括单核苷酸多态性(SNPs),小的缺失和插入,以及其他结构上的不同。已经发现了许多SNPs,而且大部分结果已经公开(www.ncbi.nlm.nih.gov/SNP)。2002年,一个公共协作项目--国际HapMap计划(www.genome.gov/Pages/Research/ HapMap)启动,它的目的是建立人类基因组的不均衡联接模式和单体型,用来鉴定携带大量这些模式的遗传变异信息的SNPs,从而使更广泛的遗传关联性的研究成为可能。这些研究要想成功,就需要用这种新的人类单体型框架来进行更充分的实验(Box2)以及发展更多的计算方法(Box3)[29]。
对人和其他模式生物遗传变异的全面了解可以推动基因型和生物功能相关性的研究。对特定变异的研究以及研究这些变异对特定蛋白的功能和途径的影响,将为我们认识和理解正常或病理状态下的生理过程提供重要新思路。把基因变异的信息结合到人类遗传学研究中的能力的提高,将为基因水平上的人类疾病的研究开启新的纪元。
重大挑战I-4 理解物种间的进化变异及其机制
基因组是一个动态的结构,在进化过程中被不断地修饰、演化。人类基因的变异仅仅代表了漫长的进化中的一瞥,而所有生物都经历了数千万年的尝试及演化过程才形成了今天的动物、植物和微生物种群的生物圈。要全面阐明基因组功能,不仅需要理解物种间序列的差异性,还要理解现代基因组形式形成的基础过程。
物种间序列比对的研究对于鉴定基因组中的功能单元十分重要(见重大挑战1-1)。除此之外,物种间差异的研究还能为我们探索不同生物体的独特的解剖学、生理学和发育特征提供线索,并帮助我们确定物种形成的遗传基础,以及对突变过程的描述。最后一点尤为重要,因为突变不仅驱动了物种的进化,同时也是遗传疾病的内在因素。最近的研究表明,基因组的突变率在不同哺乳动物之间差别很大,这种现象引发了大量有关进化变异的分子基础的问题。现在我们对DNA突变和修复、包括环境因素所起的重要作用的了解还相当有限。
基因组学将使我们对于进化变异的理解有相当大的进步,进而为我们在更广的进化框架中了解基因组的动态本质提供了新的启示。
重大挑战I-5 制定相关政策以促进基因组信息在科研和医疗范围中的广泛应用
实现基因组学所带来的良机取决于广大潜在用户--包括研究人员、商业企业、保健机构、病人以及公众--有效地利用信息(如基因、基因变异、单体型、蛋白结构、小分子和数学模型),研究人员需要最大程度及时访问数据(见下面?quot;数据公布")。将这些信息运用到临床治疗及其他产品的开发中,很可能会带来知识产权(例如,专利和许可)和基因专利商业化等复杂问题。在制定相关知识产权的惯例、法律和规章时,必须以坚持公众利益最大化为准则,同时又必须与更普遍和已长期建立的知识产权原则一致。另外,因为基因组学是全球性的,国际条约、法律、规章、惯例、信仰体系和文化都将起作用。
没有商业化,很多先进的诊断和治疗手段都不能进入医疗领域,也就不能使病人受益。所以,我们需要制定政策来解决数据访问、专利、许可、以及其他的知识产权问题,以推动基因组数据的传播。
1.2 主题II. 基因组学与健康:把基于基因组的知识转化为人类健康的福祉
人类基因组测序,以及基因组学其他最近及预期的研究成果,极大地有助于我们了解遗传因素在人类健康和疾病中的角色,精确确定非遗传因素,并迅速将新发现用于疾病的预防、诊断和治疗。美国国家研究院在其为HGP的最初远景规划中清楚地表明,人类基因组序列将改善人的健康状况,而它后来的五年计划也再一次明确了这一观点。但是这一点怎样才能实现还未得到更清晰的说明。随着HGP最初目标的完成,现在正是广泛发展和应用基因组战略改善人类健康、并预见和避免潜在伤害的时机。
这些战略可以帮助研究团体取得以下成绩:
o 鉴定基因和路径在健康和疾病中的角色,测定它们与环境因素之间的关系。
o 发展、评价以及应用以基因组为基础的诊断方法来预测对疾病的易感性,预测药物反应,疾病的早期诊断,疾病在分子水平上的精确分类。
o 开发和应用促进基因组信息转化成治疗进步的方法。
重大挑战II-1 开发用于鉴定产生疾病和药物反应的遗传因素的强有力战略
对一般疾病而言,导致疾病的易感性和对治疗的反应是大量的基因和非遗传因素相互影响的结果,而不是单单某一个等位基因的作用结果。众多因素致使破译基因在人类健康和疾病中的作用变得十分艰难,比如从生物角度确定基因型,定性、定量地鉴别环境因素的影响,产生足够的、有用的基因型信息的技术障碍,还有对人进行研究的困难性。但是这个问题是可以解决的。横向的基因组技术的大力发展对于促进了解一般疾病的遗传机制和药物基因组是必需的。这一系列因素中最为突出的就是详尽的人类基因组单体型图谱的建立(见重大挑战I-3),它可以用于各种人口、各种相关疾病的全基因组水平上的遗传性研究,同时还可用于提高测序和基因型技术使这种研究成为可能(见下面"量子飞跃")。
同时,检测常见疾病中的少量致病等位基因也需要更加有效的战略,因为增强常见疾病易感性的等位基因通常是常见位点的假设可能没有普适性。同时还需要计算和实验方法来检测基因与基因、基因与环境的相互关系,以及将相关的多种数据库联接起来的方法(Box3)。通过获得特定基因变异的致病可能性的无偏差估计,大量不同种群人口内的纵向调查、广泛的临床信息的收集和持续的随访,对所有普通疾病的研究具有很高的价值(Box1)。已经有这样的项目诣在寻求提供这种资源,如英国的生物银行 (UK Biobank,www.ukbiobank.ac.uk), Marshfield 诊所的个人化医疗研究项目 (Marshfield Clinic's Personalized Medicine Research Project,www.mfldclin.edu/ pmrp) 和爱沙尼亚基因组项目(Estonian Genome Project,www.geenivaramu.ee)。要使美国和世界其他地方的各种人群从这些研究中完全和公平地得益,我们还需要基于大量包括各少数民族人口的种群研究。
重大挑战II-2 发展检出维持良好健康和抗病基因变异的战略
传统上大部分人类遗传的研究倾向于找出致病的基因。另一个研究相对甚少、但却是十分重要的领域就是遗传因素在维护良好健康中所起的作用。人类基因组学将进一步促进对这一方面的生物学理解,并可鉴定出那些在维护健康方面十分重要的遗传变异,尤其是那些在抵抗已知外部环境危险因素时产生的变异。一种有效的研究资源就是 "健康种群", 一大群有着非凡健康的个体组成的流行病学上有意义的人群;可将他们与患病的人群进行比较,还可以集中研究他们的某些等位基因,这些等位基因使他们避免患上糖尿病、癌症、心脏病和奥采默症。另一种有希望的研究方法是对具有某种特定疾病高发病率的风险但却并不染上该疾病的人进行严格的遗传变异检测, 如肥胖但却没有心脏病的吸烟者,或者是具有HNPCC突变但却没有结肠癌的人。
重大挑战II-3 发展基于基因组学的方法来预测疾病的敏感性和药物反应,疾病的早期检验,以及疾病的分子分类
发现影响患病风险的基因差异可以潜在地应用于个体化的预防医学,包括饮食、运动、生活方式和药物影响,从而使人最大程度地保持健康。例如,对与药物的成功治疗或其负作用相关的变异的了解,可以很快地转化到临床。把这些理想变为事实还需要以下几方面的努力:
1. 对特定的基因变异引起的风险作无偏差评估,这在最初的研究中常常被过度估计[31];
2. 发展新的技术以降低鉴定基因型的费用(Box2;见下文"量子飞跃");
3. 对某种个体的遗传信息是否引起健康状况改变的研究(见重大挑战II-5)
4. 监控遗传试验的应用以确保只有那些证实了具有临床合理性的才会被用于研究室之外(Box5);
5. 教育医务人员和公众参与这一新的预防医学模式(Box6)。
现在集中精力来了解人类疾病并从详尽的分子特性角度将其重新分类的时代已经到来。对体细胞基因突变、外部修饰、基因表达、蛋白表达和蛋白修饰的系统分析,可以帮助我们从分子角度来对疾病分类,以替代现有的、基于经验的分类方式,并且增强疾病的预防和治疗。对于神经肌肉疾病和几种癌症的重新分类提供了令人振奋的初步范例,以后将会有更多的应用。
这种分子分类法将是开发更好的疾病早期诊断方法的基础,这些方法使治疗更加有效、耗费更低。基因组学研究和其他大规模的生物学研究方法可以帮助我们开发出比现行方法更早地诊断出疾病的方法。这?quot;前哨"方法包括血液循环中白细胞的基因表达分析,体液的蛋白质组学分析,以及活组织切片的高级分子分析方法。其中一个例子就是通过外周循环血液白细胞的基因表达分析来预测药物反应。集中力量用基因组学方法详细描述血清蛋白在健康和疾病中的作用也将可能是十分有益的。