当前位置: 首页 - 智能仪表资讯 - DeepMind开源AlphaFold蛋白质预测模型登上Nature社会最新资讯

DeepMind开源AlphaFold蛋白质预测模型登上Nature社会最新资讯

2025-01-08 智能仪表资讯 0

在AlphaFold的传奇之旅中,记得那一刻吗?2018年11月2日,在第13届全球蛋白质结构预测竞赛(CASP)上,AlphaFold以令人瞩目的成绩获得了预测43种蛋白中的25种结构的最高分,并荣登98名参赛者的榜首。尽管当时DeepMind并未公开具体论文,但学术界普遍认为其成功源于其强大的计算能力。

一年之后,1月15日,DeepMind终于将AlphaFold模型与代码经过同行评审后发布在了著名的《Nature》杂志上。此外,这套模型和代码已经开源供全世界科研人员使用。感兴趣的读者可以通过以下链接获取:

代码:https://github.com/deepmind/deepmind-research/tree/master/alphafold_casp13

模型:https://www.biorxiv.org/content/10.1101/846279v1.full.pdf

据DeepMind介绍,他们采用了两种不同的方法来构建预测模型,这两种方法都基于深度神经网络设计。在预测过程中,它们主要关注基因序列中氨基酸特性的预测,这些特性包括氨基酸之间的距离以及化学键之间的角度。通过像素亮度代表氨基酸间距离、像素颜色越亮表示两个残基越近这样的方式展示了AlphaFold预测准确度。

具体操作步骤是用神经网络先对每对残基进行概率分布,然后合并这些概率为一个分数,以此估计预测蛋白质结构的准确性。此外,还训练了一个单独神经网络用于评估整个蛋白质结构与实际结构接近程度,并使用评分系统找到最优解。

另一种方法则是采用梯度下降优化分数,以达到更高精度。这涉及到将梯度下降应用于整个蛋白质链,而不是仅限于“碎片”。根据DeepMind公开的一篇论文《Improved protein structure prediction using predicted inter-residue orientations》,AlphaFold由深度学习和传统算法混合而成,即CNN+Rosetta。

这款模型由两个关键部分组成:第一部分是一个深层残差卷积神经网络,将多序列比对作为输入输出信息为氨基酸中残基对之间相对距离和方向;第二部分是在网络输出基础上针对残基对距离和方向最小化约束建立快速Rosetta模型。在训练数据集方面,DeepMind使用15051个PDB数据库中的蛋白质链条,其中30%被标注数据。

测试过程中,DeepMind利用两个独立测试集进行验证,其中一个来自CASP13,而另一个来自CAMEO实验。此外,在CASP13数据集中,他们使用完整蛋白质序列而非只包含某些区域序列模拟。

除了以上内容,此次更新还详细介绍了神经网络如何处理MSA提取特征,以及如何动态运算输入的一维特征到84个2维特征映射。最后,将所有这些转换后的值通过Rosetta转化为平滑势能,并用约束限制势能最小化。这便是整个AI技术所展现出的强大魅力,让我们继续期待更多创新吧!

标签: 智能仪表资讯