吴文俊人工智能科学技术奖
疫情时代生物医药

《一种高精度蛋白结构从头折叠方法tFold》

2021年05月20日   来源:中国人工智能学会     

9228


2021年4月10日-12日,吴文俊人工智能科学技术奖十周年颁奖盛典暨2020中国人工智能产业年会在北京和苏州同期圆满成功举办。王晟受邀在苏州工业园区希尔顿酒店,2020中国人工智能产业年会—疫情时代生物医药前沿论坛上发表主题报告《一种高精度蛋白结构从头折叠方法 tFold》。


以下为演讲实录:


非常感谢有机会在这边做一个报告,我今天主要介绍一下,我回国在腾讯AI lab做的一个工作叫做tFold [1]。tFold包含了三个意思:首先它是一个算法框架;第二是参加了去年CASP14,是一个参赛队伍;第三我们搭建了一个tFold Server,也是公开的,大家都可以用的Server,它的用处就是做蛋白质结构预测,任何用户都可以输入一个蛋白序列,并最终得到预测的3D结构。


首先讲一下为什么做蛋白质结构预测?因为蛋白结构很重要,给一个蛋白质序列,我们需要通过一个折叠的过程,折叠出蛋白质的结构,那怎么获取这个结构呢,目前有两大类方法,第一,通过实验方法。通过比较主流的蛋白结构测定方法(例如:X-ray,cryoEM,NMR,等等),但是普遍制约点是这些方法的通量都比较低,且比较耗时耗力。第二,通过结构预测或者通过计算的方法获得这个蛋白结构。通过计算手段来预测蛋白结构,天生的优点就是速度很快,通量很高。比如说tFold Server,它预测一个蛋白结构只需要2-3个小时。这种通过预测的方法来解蛋白结构的最大一个缺陷在于其精度很低。为了解决低精度问题,科学界开始了CASP(Critical Assessment of protein Structure Prediction)[2] 比赛。CASP是两年一次的比赛,堪称计算生物学的奥林匹克竞赛。CASP有很多单项目,比如说2D接触图预测(2D contact map prediction),3D结构预测(3D structure prediction),模型质量评估(model accuracy estimation),蛋白复合体预测(assembly prediction)等等有很多项目,其中最主要的项目就是3D结构预测。CASP到现在为止举办过14届了,历史有将近30年,大概在2018年以前的这些CASP主要是学术界内部的团队参赛。


其实在CASP13之前,学术界参赛队伍对于这些结构预测,它的精度并不是那么高,这个精度是用GDT-TS [3] 指标来打分的,就跟我们小时候考满分100分很相似。你拿到了100分,就证明你的预测跟真实结构基本上完全一样。


真实的结构预测和这个分数有一个对应关系,因为真实预测可以用RMSD(root-mean-square deviation,距离偏差)来表达。40分的GDT-TS意味着什么呢?意味着RMSD偏差大概到10Å,就是说预测结构和真实结构完全就不怎么像。你想,如果预测得出来跟答案完全不像的东西能用吗?肯定不能用,这就是为什么它只有40分的原因。


这里说一下,CASP拿的题目都是最难的题目。所谓的难就是说要么在人类已知的蛋白结构当中找不到模板,要不然这个模板虽然存在,但是序列和这个模板之间的等同率太低了,不到20%,甚至只有10%几左右。


CASP比赛的一次重大进展来自于2018年CASP13。它见证了有史以来GDT-TS首次超过60分,由DeepMind的AlphaFold-v1 [4] 实现。60分意味着什么呢?意味着RMSD基本上达到了5Å左右,5Å是非常有意思的一个门槛。结构预测能够达到5Å以上的级别,那么折叠模式预测的和实际就差不多了。如果你看局部,可能还是跟真实答案有一定偏差的。也就是说,折叠模式预测比较对了,但是依然不能用它来做一些很细节的事情,比如说药物研发、抗体改造、酶设计等等。真正的改变发生在去年年底,就是2020年CASP14,来自DeepMind的Alphafold2 [5]。它在最难例子的分数上,GDT-TS都达到了85分,意味着RMSD接近到1.6Å。1.6Å就意味着预测结构和真实结构之间达到了原子级别的精度。这样的预测精度可以被认为是一种弥补实验方法不足、完全通过计算方法的蛋白结构测定手段。该手段在计算生物学与结构生物学领域是一个非常重大的突破性进展。


另外,我们为什么做蛋白质结构预测?人类自从高通量序列测定技术开发出来以后,对于序列的增长是呈指数级的提高。人类已经差不多知道238个million的序列,但是对于结构的增长,在PDB当中也就是一个线性增长,这是因为目前通过实验手段测定蛋白结构的方法过于低通量。一旦我们把Alphafold2技术彻底推广或者掌握以后,人类对于已知序列但不知道结构的这些蛋白就可以获得很高精度的预测,这就是我们做蛋白质结构预测的目的。


蛋白质结构预测可以分为两大类:简单例和难例。所谓简单例就是这个要预测的序列,它的结构其实存在一个蛋白模板,就在PDB数据库当中;而我们只要找到这个模板,并且把这个要预测的序列和模板序列联配在一起做一个模板建模,就可以把未知结构的序列折叠出来,形成最终的3D结构。这在2014年之前,是比较出名的一种解决蛋白质结构预测的方法,称为基于模板建模法(template-based modeling,TBM),但是这种方法只能解决那些简单例子,对于难例是解不了的。


比如说未知结构的蛋白,它的结构根本就没有相似的模板在PDB当中怎么办?那就只能用第二种方法,称为自由建模(free modeling,FM),或从头折叠(de novo folding)。这类方法的一位早期代表Rosetta [6],开发者为学术界大佬David Baker,发布自1997年。他是怎么做的呢?具体来说,我在这个序列上取一个窗口,长度是9,对于9片段去找这个序列所有可能折叠成的局域构象(local conformation)。找到这个局域构象以后用一个滑动窗口,对于每一个9长度都做这么多的片段。最后每一个片断通过拼接方式把蛋白三维结构拼出来,再用能量函数去打一个分数。这种方法,如果这个序列足够短,例如100以内,哪怕通过暴力穷举的方式也是能够把所有的折叠方式给编辑出来的。因此,只要让这个能量函数足够准,理论上就能够把最优能量的折叠方式给折叠出来。但是这种方法的局限性不仅在于能量函数不那么准确,最大限制在于,如果序列很长,比如200、300、400的话,那就由于组合爆炸难题,导致基本做不了了。


我们怎么克服这个问题呢?这就是我和许锦波(Jinbo Xu)老师开发的第二代de novo folding框架,RaptorX-Contact [7]。该方法的本质就是说,我们需要考虑蛋白折叠中的Contact(接触)概念。什么是Contact呢?可以看一下这个蛋白是如何折叠的,在早期阶段确实是在局部区域形成了规则的局域构象,它的学名叫做蛋白质二级结构,主要就是由alpha螺旋(alpha helix)和beta折叠(beta sheet)组成的。


关键点在于折叠过程中比较偏后的阶段,在序列距离上相隔较远的两个二级结构片断,会通过疏水相互作用、静电相互作用、或者氢键相互作用,把它们在空间上拉的比较近。


上述过程最终会体现在Contact Map(接触图)上,它是如何定义的呢?当蛋白完全折叠以后,我们就可以看到,蛋白序列上的两个位置i和j是不是在空间当中离的比较近?如果离的比较近就话,就在这个contact map的(i,j)矩阵元的对应点上标记1,否则就是0。也就是说,有了3D结构以后,Contact Map是唯一确定的。反过来说如果Contact Map确定,蛋白的3D结构是不是也基本上确定呢?答案:是的。


2014年David Baker发表的一篇文章 [8] 上说,我们都不需要知道全部的Contact Map,我们只需要知道序列上距离较远的Contact Map位置对(pair position)的一部分。甚至都不需要知道许多,只需要知道L÷12(L指蛋白长度)这些,我们就能够在这些位置对上安装一些弹簧。通过约束满足问题,一个弹簧就是一个约束,那这个蛋白结构就可以折叠出来了。也就是说对于长度为100的蛋白序列,我们只需要正确知道8个左右序列上距离较远的contact map上的位置对,就能够把这个蛋白结构给折叠出来。


该方法看上去非常简单:先从1D的蛋白序列预测局部的二级结构,再把这些1D的信息用来预测2D的Contact Map,最后安装一些弹簧就能得到3D结构。但为什么这个方法一直到2015年之前都没有很好的解决呢?就是卡在Contact Map的预测精度上。


我过去的第一个主要工作就是和许锦波老师共同开发了RaptorX-Contact方法。RaptorX-Contact可以简单用三个模块来解释。第一个模块,是我们于2015年开发的高精度二级结构预测方法。该方法用了DeepCNF(Deep Conditional Neural Fields)[9] 模型,上面是CNN(Convolutional Neural Networks),下面是CRF (Conditional Random Fields)。DeepCNF中的这些基本模块无论现在还是当时都是很常用的方法,但它为什么能够把之前二级结构的预测精度提高将近5个点呢?要知道,之前的预测精度的记录保持了将近15年之久。其实,原因很简单,那是因为之前的方法只用了两层很浅的神经网络,而没有在特征层(feature layer)用局部开感受野(receptive field)的这种深度卷积的方法,也没有在标签层(label layer)做显式的相互依赖刻画。我们这个DeepCNF方法相当于结合了当时较为有效的两种机器学习概念CNN与CRF,从而把这个二级结构预测任务,在完全相同的特征输入以及完全相同的标签输出的数据集上,仅仅靠这个模型层面的改变,就把预测精度做到很大的提高。


受到这个工作的启发,我们当时就觉得这种方法也可以拿过来用在2D的 Contact Map上面,也就是我们第二个模块,因为它的本质和1D的二级结构预测是类似的。所以当时就把类似的结构,即:上面是CNN,下面是2D的CRF,用在了Contact Map预测上。但是,我们发现不行。为什么不行呢?这其实也是当时在Deep Learning领域遇到一个痛点:就是说层数如果浅的话精度提不高,层数深了以后会发生梯度消失的问题。为了解决这个问题,当时Kaiming He和Jian Sun他们开发了这个Residual Neural Network (ResNet,残差神经网络)[10]。当时2016年刚刚发表的时候,我在第一时间捕捉到这个信息,拿过来加在我们这个模型上,一下子就把当时卡在40-50%左右的精度,直接提高到了80%。这个提升其实也是合理的,因为当时ResNet确确实实解决了CV(Computer Vision,计算机视觉)领域困扰好多年的超深度学习问题,所以我们这个工作算是捡了一个漏。


至于第三个模块,就是拿预测的contact map来折叠最终的蛋白3D结构。在我们的工作发表之前,如果只拿40%左右预测精度的contact map的那些位置对去安装弹簧的话,那折叠出来的预测结构多半是不准确的,因为这些弹簧只有40%左右是正确的。如果高达80%的预测 Contact 是对的话,那安装弹簧的这两个点多半都是正确的,因此得到的预测结构在折叠模式(fold pattern)上就基本正确了。这种正确性,主要体现在TMscore达到了0.5分以上(TMscore也是蛋白结构预测领域常用的一种衡量指标,和本文开头提到的GDT-TS具有很高的相关性)[11]。在我们方法之前,大部分从头折叠方法折叠出来的预测结构,都只有0.3分左右的TMscore。0.3分按照TMscore的定义,属于折叠模式都是基本错误的,那就跟乱折没什么区别了;而达到0.5分以上就可以认为我们折出来的结构,至少在折叠模式上,和真实结构基本差异不大。


现在,我就对RaptorX-Contact方法做一个总结。一句话概括,RaptorX-Contact就是第二代被业界所认可的de novo folding方法。这个方法实际做起来特别简单。首先,我们通过同源序列搜索,可以得到待预测序列的MSA(multiple sequence alignment,多序列联配)。接着,通过MSA我们可以做进化分析,就是看每一个位置的氨基酸保守性。这个保守性很早就发现它跟二级结构的预测精度相关了,我们只是在此基础上用DeepCNF做了一个深度学习网络而已。与此同时,如果分析MSA两列的话就可以发现,它和共性化(co-evolution)是有关系的,我们也就是利用共性化的特征构造了一个基于ResNet的比较深的神经网络去预测了Contact Map。然后,把这两部分信息(即:预测的二级结构与contact map)都转成距离约束,并且把这些距离约束送到约束满足的Folding软件包里(例如:Crystallography & NMR System [12],CNS方法),最后这个3D结构就出来了。这个框架因为简单,而且有效,所以在2016年CASP12上面就获得了contact map预测的第一名 [13],并且后面的主流方法(例如:AlphaFold-v1,trRosetta,等等)都继承了我们这个框架。


这里顺带的提一下trRosetta [14],它是在AlphaFold-v1后续的一个来自学术界大佬David Baker和国内Jianyi Yang教授的工作。因为AlphaFold-v1引起了科学界的一些争论(主要争论就是:创新性不足、没有很好的开源、方法基本继承自RaptorX-Contact框架,等等),所以学术界的大佬Baker就说,你们的工作不够好,我们可以反杀你,然后还真的给反杀成功了。


说了这么多,我还是简单讲一下在腾讯AI Lab的工作,主要是做tFold,其实就是做了三个地方,分别对于三个步骤进行了加强。第一个是输入的信息,如果我能把输入信息尽可能用来源不同且彼此正交的数据,那么从信息论的角度来看,其一定会比单一来源的输入的预测精度要提高。第二个是神经网络架构,如果我用更加先进更加好表达能力更强的神经网络架构去刻画的话,理论上也可以提高预测的精度。第三个输出的标签,我可以借鉴RaptorX-Contact后续的方法提出的预测标签,例如:距离(distance)标签与取向(orientation)标签,那么当然可以得到更精确的预测精度。


这里看一下tFold Server的表现。AlphaFold2虽然厉害,但是并没有一个公开的Server,也没有一个开放的代码。对于开放并且免费的Server,其实有一个平台每周来对它们做公开、公平、并且准确的评估,该平台就是CAMEO盲测平台 [15]。它是怎么做到的呢?大家知道PDB这个蛋白结构数据库每周都会更新(更新时间是每周三),在每周更新的时候CAMEO平台就跟PDB说,你更新的时候先别急着把蛋白结构给发布出去,你先把这些蛋白的序列给我,我把这些序列发给那些自认为很厉害的Server去做(发布时间是上周六),给这些Server三天时间去做结构预测,做完以后把预测的结构发给我CAMEO,然后你PDB再更新。这样,当PDB在周三更新数据之后,CAMEO就自动对周二就截止的那些预测结构做一下全自动的评估,并于周四把这个榜单给发布出来,每周循环一次。整个过程都是自动化的,并且不存在作弊的可能,因为Server在预测结构的时候,真实答案还没有发布。


tFold参加CAMEO盲测平台,在整个2020年中,长达将近一年的时间都稳定在前几名,长达半年都是稳定在第一名。如果我们看那些最难的例子,tFold是显著要比第二名高10-20个百分点,这就证明了目前tFold是所有公开并且免费的Server当中,得到权威平台CAMEO认可的一种不错的方法。


tFold也参加了CASP14的竞赛。结果表明,在2D接触图预测这个项目上,我再次拿到了第一名;但在3D结构预测的官方排名上是第六,不过真实的名次是仅次于三个队伍:分别是AlphaFold2、BAKER、和Zhang。


我们分析了一下为什么会比它们的差呢?主要是因为AlphaFold2、BAKER、和Zhang用了目前数据量更大的宏基因组数据库(主要是BFD,MGnify,以及JGI),而tFold没有用。我们后面做了一个实验,如果tFold用了跟他们一样的宏基因组数据库的话,tFold结果是要显著的超过Zhang,接近或超过BAKER(看不同的评估指标)。


最后说一下AlphaFold2 VS tFold的区别。AlphaFold2重要性就不用说了,我就说两个图,它的结果出来以后Nature和Science分别发了两个新闻稿,报道他们这个确实是一个非常重大的突破。突破重点在哪呢?主要在于三点:第一,他是人类历史上第一个end-to-end(端对端)训练蛋白质结构预测的框架。什么是端对端呢?tFold也好,AlphaFold-v1也好都不是端对端的框架,或者只是部分端对端。那些部分呢?例如我们的tFold,其端对端部分,只是从2D的输入MRF特征(一种基于统计方法从MSA抽提共进化信息的模型)到2D的输出标签(例如:contact,distance,orientation等等)。而这种2D层面的端到端模型,有很多CV领域的方法可以去做。但是AlphaFold2是一个真正的端对端架构,它把整个从1D到3D的框架给打通了。如何打通的呢?第一步很可能是在MSA层面构造了一个预训练模型(例如:MSA Transformer [16]),第二步很可能在3D结构层面构造了一个基于EBM(energy-based model)的去噪模型 [17]。简单说,所谓的去噪模型,就是从真实的蛋白结构出发,给它的每个原子上添加一个高斯噪声,并计算其与真实结构的偏差,然后构造一个基于EBM的神经网络去学习该偏差。一旦模型训练完毕,就可以从一个任意的初始结构出发,不断的将该结构带入到EBM的神经网络里去预测其偏差,并将该偏差修正当前状态下的结构,直到偏差基本收敛,则迭代结束。

-----------------------------------------------------------------------------------------------------------------

 【参考文献】:

  1. Han, Y., Zhuang, Q., Sun, B., Lv, W., Wang, S., Xiao, Q., Pang, B., Zhou, Y., Wang, F., Chi, P. and Wang, Q., 2021. Crystal structure of steroid reductase SRD5A reveals conserved steroid reduction mechanism. Nature Communications12(1), pp.1-10.

  2. Kryshtafovych, A., Schwede, T., Topf, M., Fidelis, K. and Moult, J., 2019. Critical assessment of methods of protein structure prediction (CASP)—Round XIII. Proteins: Structure, Function, and Bioinformatics87(12), pp.1011-1020.

  3. Zemla, A., 2003. LGA: a method for finding 3D similarities in protein structures. Nucleic acids research31(13), pp.3370-3374.

  4. Senior, A.W., Evans, R., Jumper, J., Kirkpatrick, J., Sifre, L., Green, T., Qin, C., Žídek, A., Nelson, A.W., Bridgland, A. and Penedones, H., 2020. Improved protein structure prediction using potentials from deep learning. Nature577(7792), pp.706-710.

  5. Jumper J, Evans R, Pritzel A, Green T, Figurnov M, Tunyasuvunakool K, et al. High accuracy protein structure prediction using deep learning. Fourteenth Critical Assessment of Techniques for Protein Structure Prediction (Abstract Book) 2020;p. 22 –24. 

  6. Simons, K.T., Kooperberg, C., Huang, E. and Baker, D., 1997. Assembly of protein tertiary structures from fragments with similar local sequences using simulated annealing and Bayesian scoring functions. Journal of molecular biology268(1), pp.209-225.

  7. Wang, S., Sun, S., Li, Z., Zhang, R. and Xu, J., 2017. Accurate de novo prediction of protein contact map by ultra-deep learning model. PLoS computational biology13(1), p.e1005324.

  8. Kim, D.E., DiMaio, F., YuRuei Wang, R., Song, Y. and Baker, D., 2014. One contact for every twelve residues allows robust and accurate topologylevel protein structure modeling. Proteins: Structure, Function, and Bioinformatics82, pp.208-218.

  9. Wang, S., Peng, J., Ma, J. and Xu, J., 2016. Protein secondary structure prediction using deep convolutional neural fields. Scientific reports6(1), pp.1-11.

  10. He, K., Zhang, X., Ren, S. and Sun, J., 2016. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 770-778).

  11. Xu, J. and Zhang, Y., 2010. How significant is a protein structure similarity with TM-score= 0.5?. Bioinformatics26(7), pp.889-895.

  12. Brünger, A.T., Adams, P.D., Clore, G.M., DeLano, W.L., Gros, P., Grosse-Kunstleve, R.W., Jiang, J.S., Kuszewski, J., Nilges, M., Pannu, N.S. and Read, R.J., 1998. Crystallography & NMR system: A new software suite for macromolecular structure determination. Acta Crystallographica Section D: Biological Crystallography54(5), pp.905-921.

  13. Wang, S., Sun, S. and Xu, J., 2018. Analysis of deep learning methods for blind protein contact prediction in CASP12. Proteins: Structure, Function, and Bioinformatics86, pp.67-77.

  14. Yang, J., Anishchenko, I., Park, H., Peng, Z., Ovchinnikov, S. and Baker, D., 2020. Improved protein structure prediction using predicted interresidue orientations. Proceedings of the National Academy of Sciences117(3), pp.1496-1503.

  15. Haas, J., Barbato, A., Behringer, D., Studer, G., Roth, S., Bertoni, M., Mostaguir, K., Gumienny, R. and Schwede, T., 2018. Continuous Automated Model EvaluatiOn (CAMEO) complementing the critical assessment of structure prediction in CASP12. Proteins: Structure, Function, and Bioinformatics86, pp.387-398.

  16. Rao, R., Liu, J., Verkuil, R., Meier, J., Canny, J.F., Abbeel, P., Sercu, T. and Rives, A., 2021. Msa transformer. bioRxiv.

  17. Wu, J., Luo, S., Shen, T., Lan, H., Wang, S. and Huang, J., 2021. EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based Models. arXiv preprint arXiv:2105.04771.

组织机构

主管单位
中华人民共和国科学技术部
国家科学技术奖励工作办公室
主办单位
中国人工智能学会

奖励资质