2月16日发表在《公共科学图书馆 综合》 PLoS ONE 期刊上的一份研究报告称康涅狄格大学的遗传学家Mark Longo及同事发现由顶级公共测序机构提供的测序结果构建的基因组数据库中的大约1/5的细菌、植物和非灵长类动物基因组数据受到了人类DNA的污染,样品处理有可能是导致DNA数据库广泛污染的最主要原因。这一研究报告引起了生物研究人员及各大权威媒体的高度关注,《科学家》 The Scientist 杂志以及《自然》 Nature 杂志均在其官方网络上第一时间对这一事件进行了报道。
Mark Longo等在报告中呼吁科学家们需更加努力以确保测序获得的基因组不受到污染,并应对来自公共基因组数据库的基因组进行潜在污染检测。
“基因组污染是一个大问题,但却不是一个新问题,”加州大学进化生物学家、美国能源部联合基因组研究所系统发育基因组学计划负责人Jonathan Eisen说:“这篇论文或可帮助提醒人们注意这一问题。”
污染有可能在测序的任何一个阶段导入到基因组序列中。有可能是空气中的细菌落到了样品中,或是灭菌后仍残留在试剂中的DNA片段。但最常见的污染原因则可能是科学家自身,譬如在扩增前将自身的一个细胞落入了样品中。
“研究人员戴手套进行实验操作不仅是对自身的保护,并且也可避免样品受到自身的污染,”论文的作者之一、康涅狄格大学分子遗传学家Rachel O'Neill说道。
O'Neill实验室的一位大学生在对基因组数据库进行保守序列筛查时,兴奋地发现大量物种间均存在一个相同的序列。然而当他尝试在实验室重复这些结果时却失败了。这位学生不禁开始质疑数据库基因组是否存在污染,于是他与实验室的同事合作对四个公共数据库(UCSC Genome Browser数据库,NCBI的GenBank数据库,DOE Joint Genome Institute数据库以及Ensembl)中保存的所有非灵长类基因组进行了人类特异性重复序列Alu元件的筛查。
在搜索的2057个原始序列基因组中,研究人员发现有454个存在人类Alu元件序列的污染,约占总数的22.39%。“我们发现污染的水平高到足以应引起人们注意的程度,”O'Neill说;“而这还仅只是来自于人类的污染,可以想象会有多少来自实验室常见物种例如大肠杆菌等的污染存在。”
Eisen指出:“大量论文曾报道过物种间的水平基因转移,如今不禁让人质疑是否都仅是人类DNA污染数据所致。人类污染的频率将要求科学家们不得不完成一些超过标准的实验以确证他们的实验结果。”
“当涉及到人类测序时,高水平的序列污染有可能会引发严重的后果,”O'Neill说:“在一个鱼样本中找到Alu元件非常的简单。但是在一个人类样本中寻找另一个人的样本就非常的困难。根据如此高污染的序列来决定个体化治疗的策略有可能会导致难以想象的悲剧。“
“随着研究的不断推进,科学家们必须投入更多的资金进行质量控制,然而在追求研究数据的压力下质量控制的重要性却被人抛诸在了脑后,”Eisen说:“如果每个人都能意识到数据质量的重要性将会有多好啊,但是目前这似乎很难做到。”(生物谷Bioon.com)
生物谷推荐原文出处:
PLoS ONE 6(2): e16410. doi:10.1371/journal.pone.0016410
Abundant Human DNA Contamination Identified in Non-Primate Genome Databases
Mark S. Longo, Michael J. O'Neill, Rachel J. O'Neill*
Department of Molecular and Cell Biology, University of Connecticut, Storrs, Connecticut, United States of America
Abstract
During routine screens of the NCBI databases using human repetitive elements we discovered an unlikely level of nucleotide identity across a broad range of phyla. To ascertain whether databases containing DNA sequences, genome assemblies and trace archive reads were contaminated with human sequences, we performed an in depth search for sequences of human origin in non-human species. 1Using a primate specific SINE, AluY, we screened 2,749 non-primate public databases from NCBI, Ensembl, JGI, and UCSC and have found 492 to be contaminated with human sequence. These represent species ranging from bacteria (B. cereus) to plants (Z. mays) to fish (D. rerio) with examples found from most phyla. The identification of such extensive contamination of human sequence across databases and sequence types warrants caution among the sequencing community in future sequencing efforts, such as human re-sequencing. We discuss issues this may raise as well as present data that gives insight as to how this may be occurring.