2025-01-08 智能仪表资讯 0
在AlphaFold的传奇之旅中,记得那一刻吗?2018年11月2日,在第13届全球蛋白质结构预测竞赛(CASP)上,AlphaFold以令人瞩目的成绩获得了预测43种蛋白中的25种结构的最高分,并荣登98名参赛者的榜首。尽管当时DeepMind并未公开具体论文,但学术界普遍认为其胜利归功于其强大的计算能力。
1月15日,DeepMind终于将其关于AlphaFold模型与代码经过同行评审后正式发布于《Nature》杂志,并且模型和代码已经开源给全世界。
要了解更多详情,可以访问以下链接:
代码:https://github.com/deepmind/deepmind-research/tree/master/alphafold_casp13
模型:https://www.biorxiv.org/content/10.1101/846279v1.full.pdf
深度学习与传统算法相结合的神奇之处在于,它使用两种不同的方法来构建预测模型。其中一种方法利用深度神经网络设计,这些网络能够处理基因序列中氨基酸之间距离和角度的特征。此外,这些特征包括氨基酸对之间距离以及它们所连接化学键间角度。
两个不同展示方式都体现了AlphaFold预测准确性的亮点,如图像中像素亮度代表氨基酸对之间距离,而颜色越亮表示更近的残基对。在真实距离和平均距离两者之间形成鲜明对比。
整个过程可以概括为:神经网络通过预测每一组残基对可能出现的情况,然后将这些情况合并成一个分数,以估计该结构精确程度。此外,还训练了一套单独用于评估每个结构是否接近实际形态的神经网络系统。最后,该系统找到最优解,以确定最佳结果。
另一项创新是梯度下降优化器,它被应用到整个蛋白质链上的预测过程而不仅仅是碎片区域。这意味着梯度下降可以帮助改进整体结构而非局部部分,从而提高精确性。这种混合使用深层学习和传统算法(CNN+Rosetta)的方法使得AlphaFold能够实现这一壮举。
虽然训练数据集主要由自然存在的蛋白质组成,但该模型仍能高效地针对新设计蛋白质进行分析,并通过独立量化标准来衡量折叠决定性参数及“理想性”。
具体来说,该模型由两个关键部分构成。一部分是一个基于多序列比对信息输入、输出为残基间距与方向信息的小卷积神经网络;另一个则是在此基础上建立快速Rosetta模拟来最小化残基间距与方向差异。
为了验证这款科技,我们测试了来自CASP13及CAMEO实验室两个独立测试集。对于CASP13数据集,我们甚至使用完整DNA序列代替只包含特定区域DNA序列。
图注A至C详细说明了从一个残基到另一个残里的转换路径,以及如何根据MSA提取出几何形状;B展示的是用MSA作为输入进行剩余任务;最后图示了整体工作流程。
在空间位置方面,DeepMind采用深层残差卷积神经网络做出预测,同时还包括化学键长度、平面角以及旋转角等六个参数来定义主干原子相互位置。
所有这些都从MSA提取的一维特征开始,其中包括独热编码、频率矩阵以及熵值等。而后这些特征被水平垂直拼接然后堆叠起来形成二维映射,也就是84个2D映射。
除了以上,还有配位统计信息,即耦合作用矩阵逆导出的协方差矩阵逆,是MSA中的排版协方差矩阵逆的一个缩写形式,其公式如下:
其中Wm是序列m至少有80%相同样本数目倒数,与属性a或b相关联,
再之后计算样本协方差矩阵:
然后求解这个缩写后的逆(即精度):
最后,将所有概率转换为分数,用约束限制势能最小化得到最终结果。简而言之,随着输入一个长链条般串联各类氨基酸,每一次尝试生成新的三维空间展现以期达到理想状态,最终判断哪一次成功达到了最佳效果。如果你想要亲自尝试这项技术,请访问以下地址获取详细指导:
https://github.com/deepmind/deepmind-research/tree/master/alphafold_casp13