约翰·诺旺伯
如果你问约翰·诺旺伯(John Novembre)最近有什么好玩的事,他可能会提起近日参加的一场编程马拉松——他和自己的学生、博士后搁置日常工作,连续一周熬夜奋战,吃外卖,一心扑在数据上。
不过,诺旺伯并不只是计算机牛人而已。他还有一个身份:计算生物学家。在他位于芝加哥大学的办公室里,一溜白板上画满了符号、图表和等式——从中,他孵化出巧妙的算法和计算技巧,从世界上最大的一些基因组数据集中,萃取出深刻的洞见。但这仅仅是他工作的冰山一角。
诺旺伯出生于军人家庭,从小随家人辗转各地,有三年是在乌拉圭度过的,那是他母亲的故乡。他很早就有接触——“我热爱地理,热爱语言,热爱历史”。这种经历拓宽了他的视野,使得他对进化和遗传多样性产生了极大的好奇心。他想弄清人口随时间与空间变化的规律,想研究人类的遗传密*****是如何随着人群的扩张、减少、迁移、交融、进化和灭绝而变迁的。
在研究过程中,他的数学天赋起到了重要作用。凭借独创的分析手段,他对复杂数据进行可视化处理,发现了人类祖先的基因签名,以及基因与地理之间的惊人联系。2015年,37岁的诺旺伯获得了麦克阿瑟奖。该奖有“天才奖”之称,专门颁给那些“有才干、展现出非凡原创性”、“在持续进行创造性工作方面显示出非凡能力和前途”的个人。
虽然荣誉等身,但诺旺伯却给人以十分谦恭的印象。他援引起同事的论文,就像英语专业学生引用迪金森和叶芝这些级的作品一样。在他办公室的墙上,挂着一张可能来自17世纪的地图——它时刻提醒着诺旺伯,人类绘制的世界轮廓永远都是一种“不完美的再现”。
美国科学杂志《Quanta Magazine》近日采访了诺旺伯,讨论了他的动力来源、DNA对历史的阐释,以及遗传学研究对种族问题的影响。以下为编辑后的访谈内容。
Quanta Magazine:你将遗传多样性看成一个计算问题,是出于怎样的机缘巧合?约翰·诺旺伯:这可以追溯到很早的时候。高中时,我很喜欢计算机编程,但我在课堂上学的是遗传密*****,我对这个领域也很感兴趣。到了大学,我有机会去斯坦福大学参加暑期研究实习,在那里,我听了一场演讲,演讲者曾在人类遗传学领域泰斗路易吉·卢卡·卡瓦利-斯福扎(Luigi Luca Cavalli-Sforza)的实验室做过实习。这个实验室最出名的研究,就是观察人类基因的变异,研究这些变异在全球的分布状况,以及对人类历史的影响。我觉得这简直太有趣了。
回到母校后,我设立了实验室,专门研究一种橡树的群体基因。我发现,很多分析工具都不好用,而且在基因数据的分析中,数学和计算机竟扮演了如此重要的角色。我突然意识到,“既然我这么喜欢编程,何不将两种爱好合二为一?”于是,我的日常工作变成了捣鼓计算机,但我有一个更大的目标:了解基因变异,以及它的历史变迁。这激起了我强烈的求知欲。
Quanta Magazine:在职业生涯的早期,你发现了“主成分分析”这种常用统计工具的缺陷,在业内产生了不小的影响。这个发现对你的基因学研究有何推动作用?约翰·诺旺伯:主成分分析的做法是,将个人的基因数据浓缩成几个数字。在了解了它的工作原理——优势和劣势——之后,我发现,它得出的规律也许能反映人口数据的空间结构。
当时我就希望,最好能拿到世界上某个取样密度较大地区的基因数据,这样,我就能看到连续的基因变异,看到人类群体的相互融合。结果,我很*********地受邀与卡洛斯·布斯塔曼特(Carlos Bustamante)协作,分析迄今为止最大的人类基因数据集之一。整个数据集涉及3192名欧洲人。在这个样本中,很大一部分人都回答了一个血统问卷,即他们的祖父母来自何处。基于这些信息,我们从样本中归纳出了大约37个不同的来源地,横跨欧洲各地。
Quanta Magazine:你们从中得出了哪些结论?约翰·诺旺伯:运用主成分分析,我们马上看出了一个主要规律:以基因表示的人口分布与他们的地理分布——祖父母来自何处——二者之间存在着惊人的相似性;考虑到人类个体之间的密切联系,这种相似性很不可思议。大多数遗传学家都不曾想到,我们竟可以在一片大陆的范围内,梳理出如此精细的空间结构。
Quanta Magazine:有多精细?约翰·诺旺伯:打个比方,我把一个人的地理位置隐藏起来,然后试图指出他在地图上的位置。这种猜测能精确到什么程度呢?就我们的测试而言,这往往能精确到几百公里。哪怕是在瑞士的德语、法语和意大利语人群中,我们也可以看出基因分布的变迁。
世界地形地貌图
Quanta Magazine:考虑到人类迁移的频繁程度,在我们的基因中,祖辈的地理坐标竟能留下如此明显的印记,真是让我没有想到。影响为什么这么大?约翰·诺旺伯:这是我想强调的一点:其实,你的基因所受的影响微乎其微。只不过,我们观察的基因位点数量众多,因而极其微小的影响也能被找出来。这就是大数据的力量:非常细微的规律也可以检测出来。所以,并不是说祖辈的居住地对你的影响有多大——其实,这种影响微不足道。但当你掌握成千上万的测量值时,你就能分辨某个人应该来自哪里了。
Quanta Magazine:从伦理层面讲,你对商业性质的血统测试有何看法?约翰·诺旺伯:我自己就是家谱网站Ancestry.com旗下DNA业务的一名顾问,所以,对于怎么和客户沟通结果的问题,我是非常敏感的。一方面,像欧洲基因地图这样的项目告诉我们,在了解自己的家谱时,这些工具有着巨大的潜力。但与此同时,它也充满了复杂性:说一个人来自何处,这到底意味着什么?我们可以说父辈或祖辈来自哪里,但如果追溯到源头,我们都来自非洲。而相对于某些文化或族裔,我们对祖籍的理解是很不一样的。
可以说,在使用已有基因数据来阐释历史的问题上,我们仍处于起步阶段。我们依然面临着生物系统与人口的复杂性,这些靠简单的历史模型是无法解决的。
Quanta Magazine:你对种族的认识有没有受到这些工作的影响?约翰·诺旺伯:很明显,遗传学研究经历了一段黑暗坎坷的历史。但在多样性更受理解和珍视的当下,作为新一代研究人员,能从事这样的工作,还是很令人兴奋的。而且在数据的帮助下,我们可以让种族主义的世界观更显荒谬。
Quanta Magazine:有没有具体的例子?约翰·诺旺伯:我参与研究了多个人类群体的全基因组数据,一个非常有力的例证是,你可以按照各种条件对基因组进行排序,比如,找出变异数量最多的区域,再看看这些区域附近都是哪些基因,以及对于这些基因,我们有哪些已有的认识。
结果你会发现,变异最多的,是与肤色、瞳色以及发色有关的基因。由此,我们可以推出以下结论:我们用来区分彼此的那些外貌特征,其实都是人类基因组中的“异类”。而那些普通的基因都是全人类共通的。
Quanta Magazine:你首次分析了三个灰狼种的全基因组序列,并将它们与三个犬种的基因组进行了对照,你有什么发现?约翰·诺旺伯:结果出乎我的意料。我们原以为,三个犬种会和其中一个狼种密切相关。比如,它们也许都和以色列狼存在亲缘关系,因为,犬也许是在中东开始被驯养的;又或许,三个犬种可分为两个驯养种类,其中,澳洲野犬是中华狼的近亲,巴山基犬是克罗地亚狼的近亲,诸如此类。
可我们发现,三个犬种相互之间关系紧密,但和狼的谱系无法契合。于是我们假设,犬来自于一个共同的狼种,但这个狼种已经灭绝了。这个问题变得错综复杂,至今仍然没有定论。
Quanta Magazine:你喜欢狗吗?约翰·诺旺伯:不是特别喜欢。我的动力主要是解决整个领域面临的一大难题:如何利用当今的DNA测序来解读历史?把狗换成别的物种,我照样感兴趣,它照样是个有趣的问题。
Quanta Magazine:你的基因数据分析方法是如何一步步发展起来的?约翰·诺旺伯:我的工作一直在朝数据可视化的方向迈进。人眼其实可以处理大量的数据,并阐释复杂的规律。但有了合适的可视化工具,你就能更加直观地了解数据的主要特征,及其反映出来的生物学过程。
Quanta Magazine:能举个例子吗?约翰·诺旺伯:我们开发了这样一项工具,它可以告诉我们,地图上哪些地方基因流动频繁,哪些地方基因流动较少,换言之,个体是如何在群体中流动的。从分析中我们可以推断出,在有的区域,单位地理距离的基因差异比我们想象中要大,有的区域则要小。所以,我们绘制了一幅地图,分别用棕色和蓝色来表示迁移频率较低和较高的地区。
比如,我们研究了非洲各地一千多头大象的基因数据。按照我们的方法,你在没有先验知识的情况下馈入这些数据,然后得到了这幅迁移频率地图。结果发现,中非那里有一道迁移率很低的棕色屏障,将非洲分成东西两部分,东面是一条迁移率很高的蓝色走廊。当然,要是了解生态学,你就能看出来,“噢,一边是非洲森林象,另一边是草原象。”
Quanta Magazine:有没有将这种方法应用到其他群体?约翰·诺旺伯:有。比如,当我们用它来分析欧洲人类数据时,我们就推断,英国和法国之间存在一块棕色的低迁移率区域,结果,这个区域差不多就是英吉利海峡的位置。在北海那里,有很多蓝色的高迁移率区域,之所以会这样,是因为历史上那里存在高频率的往来,比如,维京人的活动就将斯堪迪纳维亚和英国联系了起来。然后,瑞士和奥地利周围有大片的棕域,我们认为,那就是阿尔卑斯山的位置。
Quanta Magazine:有没有让你疑惑的结果,比如,与地理因素对不上号的低迁移率或高迁移率地区?约翰·诺旺伯:其实更让我感到惊讶的,反倒是这些基因与地理特征的高度吻合。找一群人过来,从他们体内取一个分子,然后展开对照,你就能从中看出,阿尔卑斯山是地球上的一个重要地貌。这真是不可思议。
Quanta Magazine:从职业生涯开始至今,你研究的问题都发生了哪些改变?约翰·诺旺伯:数据类型变了,数据规模也变了。读博时,我研究的是一个基因在71个人群中的变异情况,而如今,包含几百万个变异体的数据集也很常见了。那个时候,我根本想不到会像现在这样。所以,游戏规则改变了。不过,核心问题依然没变,那便是,我们如何利用数学和统计模型来阐释人口基因数据?
Quanta Magazine:还有什么重要的问题是你想要解决的?约翰·诺旺伯:我想找到一种方法,能够推测出迁移率和群体规模是如何随时间和空间而改变的。解决了这个问题,我们就能完整地描绘出一部群体及其发展史。愚愚学园
www.SciFans.net