DeepMind开源AlphaFold蛋白质预测模型登上《Nature》

雷锋网(公众号:雷锋网)报道:还记得AlphaFold成名的那一战么?

雷锋网:整个蛋白质结构预测的过程

1月15日,DeepMind关于AlphaFold模型与代码通过了同行评审发布在了杂志《nature》上面。并且模型和代码已经开源。

官方表示,降准将有效增加金融机构支持实体经济的稳定资金来源,降低金融机构支持实体经济的资金成本,直接支持实体经济。

在残基间的几何预测方面,DeepMind使用深度残差神经网络。与大多数预测方法不同,DeepMind除了预测化学键之间的距离之外,残基对之间的方位也属于其预测的范围。如上图所示,残基1与残基2之间的方位由3个二面角以及2个平面角表示。其中ω表示沿虚轴(连接两个残基的原子)旋转角度。平面角定义了从残基1看到残基2的Cβ原子的方向。另外,与d和ω不同,θ和φ坐标是不对称的,其取决于残基的顺序。综上6个参数d,ω,定义了两个残基的主干原子的相对位置,这6个参数也是神经网络所要预测的。

拉夫罗夫表示,美方对俄方的新型武器有兴趣。俄方已表明,愿在《新削减战略武器条约》框架内,就包括“先锋”高超音速导弹和“萨尔马特”洲际导弹在内的部分新型武器展开讨论。他同时指出,俄方其他新武器不受该条约限制,但俄方也愿就此进行磋商。

对于方向的分布,不考虑归一化的情况下,概率转分数的公式为:

其中,A和B分别表示氨基酸的属性,δ是克罗内克函数,Wm是MSA中序列数目的倒数,与序列m至少有80%的序列同源性。其中

第二重效果,是降低社会融资成本。

根据DeepMind的介绍,在预测蛋白质结构的物理性质方面使用了两种不同的方法来构建预测模型。并且两种方法都是基于深度神经网络来设计的,另外,预测模型主要完成对基因序列中蛋白质的特性的预测,这些特性包括:a:成对的氨基酸之间的距离;b:连接这些氨基酸的化学键之间的角度。

图注:A:用角度和距离表示从一个残基到另一残基的转换。B:神经网络结构根据MSA预测残基间的几何形状;C:预测过程概览

pi是第i个bin的距离的概率,N是bin的总数。

在当下全球央行宽松大潮中,中国央行宣布全面降准,是否意味着货币政策取向有变?

光大证券研究员张旭表示,预计未来央行仍会采用中期借贷便利(MLF)超额续作与降准交替使用的方式,向银行体系补充中长期流动性,即MLF超额续作几次后进行一次(定向)降准。

美俄两国2010年签署的《新削减战略武器条约》将于2021年到期,该条约旨在限制美俄两国部署的核弹头和运载工具数量。美俄《中导条约》去年失效后,《新削减战略武器条约》成为两国间唯一的军控条约。俄方已多次表示愿意不设前提条件延长该条约有效期,但美方目前对此仍未表明态度。

根据官方测算,此次全面降准释放长期资金8000多亿元(人民币,下同)。

雷锋网原创文章,。详情见转载须知。

第一重效果,是在春节前的“钱紧”期,释放长期资金。

温彬认为,此次降准将释放低成本长期资金,有利于降低银行资金成本,引导银行降低实体经济融资成本。

另一个是在网络输出的基础上针对残基对的距离和方向最小化的约束建立快速Rosetta模型(fast Rosetta model)在训练数据集方面,DeepMind使用的蛋白质数据库(PDB)里面有15051个蛋白质链条信息,其中有30%是被标注的数据。

具体来说构建神经网络预测残基间的方向和距离,然后用Rosetta对蛋白质结构同源建模、结构修复。同时设计一种Rosetta的优化方法来补充Rosetta能量函数的预测约束,进而生成更精确的模型。

中国民生银行首席研究员温彬分析,鉴于1月份有6000亿元逆回购陆续到期,叠加缴税、地方政府专项债发行、春节期间的现金需求等因素,流动性出现压力,通过降准释放的8000亿元资金可以满足上述流动性需要。

最后将所有的分数通过Rosetta转化成平滑势能,并用约束限制势能最小化。综上整个模型我们可以归结为:扔进一个蛋白质序列,生成一个结构、一个评分,通过评分判断是否满意,不满意就再生成一个。

温彬预期,下阶段,全面降准仍有空间和必要,结合定向降准,预计还有2至3次降准空间。(完)

不过市场预计,央行还会有进一步措施。

2018年的11月2日,在第13届全球蛋白质结构预测竞赛(CASP)上,AlphaFold获得了预测43种蛋白中的25种蛋白结构的最高分,在98名参赛者中排名第一。对于DeepMind的预测方法,由于当时没有具体论文发布,众多学者认为是计算能力突出使得AlphaFold获得冠军。

中国央行也表示,通过降准,保持流动性合理充裕,将为高质量发展和供给侧结构性改革营造适宜的货币金融环境,并用市场化改革办法疏通货币政策传导,进一步发挥市场在资源配置中的决定性作用,支持实体经济发展。

拉夫罗夫说,俄方认为延长《新削减战略武器条约》对双方都很有必要,可以避免俄美两国被指责破坏这一维护战略稳定的法律工具。

他预计,1月20日新一期贷款市场报价利率(LPR)报价会出现小幅下降,1年期LPR为4.1%,5年以上期为4.75%。

接下来在收缩(即通过在对角线上附加恒定权重进行正则化)之后求其逆(也称为精度矩阵):

然后计算样本协方差矩阵,公式如下:

根据DeepMind提供的Github中介绍,这份代码包括预测网络、相关的模型权重以及在《自然》杂志上发表的CASP13数据集的实现。此外,还详细的介绍了数据的下载地址,以及如何输入数据;运行系统如何操作也给出了详细的指导。雷锋网 AI科技评论在下方再次给出github地址,感兴趣的读者赶紧去上手试一试吧!

神经网络的输入是从MSA提取的特征,并且执行动态运算。输入的一维特征包括:蛋白质氨基酸序列的独热编码、位置特定频率矩阵(position-specific frequency matrix)、配位熵(positional entropy)。随后这些一维特征被水平和垂直平铺,然后堆叠在一起以产生2×42=84个2维特征映射。此外,DeepMind从MSA中提取配对统计信息,这些信息从输入MSA构造的缩小协方差矩阵的逆导出的耦合来表示。首先计算一个站点(one-site)和两个站点(two-site)的频率计数,计算公式如下:

央行为何选择此时全面降准,此次降准又会有几重“疗效”?

关于对模型的测试,DeepMind使用的是两个独立的测试集:第一个来自CASP13,第二个来自CAMEO实验。另外,在CASP13数据集上,DeepMind使用完整的蛋白质序列而不是结构域序列来模拟。

在具体的训练过程中,DeepMind使用交叉熵进行评估,其评估结果是总损失等于4个拥有同样权重的分支网络的损失之和。另外,使用学习率为1e-4的Adam优化器,Dropout保持85%的概率。并随机地对输入MSAs在对数尺度上平均进行采样,长度超过300个氨基酸的大蛋白质会被随机切片。然后对于距离分布,将概率值通过以下等式将概率值转换为分数:

尽管训练数据集全部为天然的蛋白质,但该模型始终将更高的概率分配给新设计的蛋白质,并找到决定残基的关键折叠和建立蛋白质结构“理想性(ideality)”的独立定量衡量标准。

中信证券研究部固定收益首席分析师明明表示,2020年春节较往年偏早,流动性环境面临多方因素影响,包括:小幅资金到期压力,现金需求量明显增大,缴税、财政支出和专项债发行等力度和节奏不确定性强等。央行采取降准的方式进行春节流动性安排,将营造较平稳的资金利率。

第三重效果,也是最重要目的,是支持实体经济发展。

对此央行强调,货币政策取向不变。此次降准与春节前的现金投放形成对冲,银行体系流动性总量仍将保持基本稳定,保持灵活适度,并非大水漫灌,体现了科学稳健把握货币政策逆周期调节力度,稳健货币政策取向没有改变。

第二种方法是采用梯度下降优化分数,从而达到更准确的精度。更具体的是将梯度下降应用在整个蛋白质结构链的预测过程,而不仅仅是蛋白质展开的“碎片”。

温彬表示,本次全面降准,央行强调有利于缓解小微、民营企业融资难融资贵,在“大银行要下沉服务重心,中小银行要更加聚焦主责主业”的要求下,预计监管部门将完善宏观审慎评估体系(MPA)考核,确保资金流向实体经济,特别是加大对“三农”、民营和小微企业的支持力度。

具体操作步骤为用神经网络预测蛋白质中的每一对残基的概率分布,然后将这些概率合并为一个分数,从而能够估计预测蛋白质结构的准确性。另外,还训练了一个单独的神经网络,基于所有距离的总和来评估预测的蛋白质结构与实际的结构的接近程度。然后使用评分系统(也是用神经网络构建)找到最优的预测。

更为具体的,模型的由两个关键部分组成:一个是深度残差卷积神经网络,即将多序列比对( multiple sequence alignments)作为输入;输出的信息为蛋白质中的残基对中的相对距离和方向。

上述公式中的a是常数(=1.57),di是第i个bin的距离,

两种图片展示方式都表达了AlphaFold预测的准确度,像素亮度代表氨基酸之间的距离,像素颜色越亮,两个残基(residues)对就越近。第一行图片是真实距离,中间一行图片展示的是平均距离。

You may also like :