2025-01-08 智能仪表资讯 0
深度学习平台DeepMind推出了其革命性蛋白质折叠预测模型AlphaFold,并将其开源,登上了《自然》杂志的封面,这一成就在社会上引发了广泛关注。AlphaFold在2018年11月2日,在第13届全球蛋白质结构预测竞赛(CASP)中以高分获得冠军,这一成绩震惊了科学界。
1月15日,DeepMind关于AlphaFold模型与代码通过同行评审并发表于《Nature》杂志。此外,模型和代码已经被公开放出供研究者使用。想要了解更多细节,可以访问以下链接:
代码:https://github.com/deepmind/deepmind-research/tree/master/alphafold_casp13
模型:https://www.biorxiv.org/content/10.1101/846279v1.full.pdf
根据DeepMind的介绍,AlphaFold采用两种不同的方法来构建预测模型,都基于深度神经网络设计。这两个方法主要完成对基因序列中蛋白质特性的预测,如氨基酸之间的距离和化学键之间的角度。两种图片展示方式都表达了AlphaFold预测的准确度,像素亮度代表氨基酸之间的距离。
整个蛋白质结构预测过程涉及到多个步骤,其中包括用神经网络预测每一对残基的概率分布,然后将这些概率合并为一个分数,以估计预测蛋白质结构的准确性。此外,还训练了一个单独的神经网络来评估预测结果与实际结果的一致程度。
另一种方法是利用梯度下降优化分数,从而达到更高精度。在这个过程中,将梯度下降应用在整个蛋白质结构链上,而不仅仅是“碎片”。此外,论文《Improved protein structure prediction using predicted inter-residue orientations》详细介绍了如何结合深层学习和传统算法混合——CNN+Rosetta—进行优化。
尽管训练数据集全部为天然存在的人类或动物中的蛋白质,但该模型始终将更高概率分配给新设计的人工合成蛋白質,并且找到决定残基折叠和建立“理想”标准独立量化指标。
具体来说,该模型由两个关键部分组成:一个是基于多序列比对(MSA)的深层残差卷积神经网络;输出信息为氨基酸中的相对距离和方向,以及另外的是基于输出基础上的最小化约束快速Rosetta模拟器。在训练数据方面,使用PDB数据库中的15051条记录,其中30%被标注过。对于测试,它们使用来自CASP13和CAMEO实验室两个独立测试集进行验证。在CASP13数据集中,他们使用完整序列而不是结构域序列模拟真实环境。
图解显示从一个残基到另一个残骨转换所需角度、距离等。而输入MSA提取特征后执行动态运算,其中包括独热编码、位置特定频率矩阵以及位置熵。此外,还提取配对统计信息表示耦合作用。最后,将所有这些转换为能量函数进行最小化计算出最佳溶液状态。这就是这项技术背后的复杂工作流程,让我们期待它能带来新的发现!