2025-01-08 智能仪表资讯 0
深度学习平台DeepMind开源其突破性AlphaFold蛋白质结构预测模型,登上《自然》杂志的封面。该模型在2018年全球蛋白质结构预测竞赛(CASP)中以压倒性的优势夺冠,并且由于当时没有具体论文发布,众多学者认为是计算能力的巨大提升使得AlphaFold获得了冠军。
1月15日,DeepMind关于AlphaFold模型与代码通过同行评审并正式发布于《自然》杂志。此外,该模型和代码已经被开源供研究者使用。
根据DeepMind介绍,在预测蛋白质结构的物理性质方面,它采用了两种不同的方法来构建预测模型。这两种方法都是基于深度神经网络设计的。它们主要完成对基因序列中蛋白质特性的预测,这些特性包括氨基酸之间的距离和化学键之间的角度。
两个图表展示了AlphaFold预测准确度:像素亮度代表氨基酸之间距离,而像素颜色越亮,则表示两个残基对越近。第一行显示的是真实距离,第二行则为平均距离。
整个过程涉及用神经网络预测每一对残基概率分布,然后将这些概率合并成一个分数,以估计预测蛋白质结构准确性。此外,还训练了一个单独神经网络,以评估所有距离总和后,与实际结构接近程度。最后,用评分系统(也由神经网络构建)找到最优解。
第二种方法利用梯度下降优化分数,以达到更高精度。在这个过程中,将梯度下降应用到整个蛋白质链上,而不仅限于展开“碎片”。此外,该模型结合了深层学习和传统算法:CNN+Rosetta。
具体来说,该模型首先使用深层残差卷积神经网络来预测残基间方向和距离,然后使用Rosetta进行同源建模、结构修复,并设计一种Rosetta优化方法来补充能量函数约束,从而生成更精确的模式。此外,该模型还建立了一套独立定量衡量标准,即决定折叠状态“理想性”的关键参数,以及用于新设计蛋白质中的关键折叠状态确定器。
虽然训练数据集完全来自天然存在的蛋白質,但该模型始终给予新设计出的更高概率分配,并且能够找出决定折叠状态以及建立“理想”功能性的独立定量衡量标准。这意味着它可以很好地适应未知环境中的情况,即便是在没有实际实验数据的情况下,也能提供可靠信息。
对于测试数据集,DeepMind使用两个独立测试集:第一个来自CASP13,同时还有另一个来自CAMEO实验。此外,在CASP13数据集中,DeepMind使用完整序列而不是只选取部分域序列进行模拟。而对于输入MSA(多序列比对),它从PDB数据库中选择15051个不同链条,其中30%标注有详细信息,对于MSA提取特征,它除了独热编码以外,还包含位置频率矩阵、位置熵等信息作为输入特征;另外,还包括从MSA提取的一些配对统计信息,如耦合强弱等作为额外输入。然后这组特征经过动态运算处理得到最终用于训练网络的一个二维映射向量,这个向量是通过堆叠一维原始特征形成的,所以最终每个样本都有84个二维映射向量作为输入给予输出结果。
此次研究工作极大地推动了解决生物学领域问题尤其是有关病毒如何进化成为致命病原体的问题,以及我们如何发现新的抗生素或药物,从而可能导致重要突破,为人类健康带来长远益处。
最后,由于篇幅限制,我们无法全方位覆盖该技术背后的全部内容,如果你感兴趣的话,可以直接访问GitHub上的仓库地址获取更多详细资料:
https://github.com/deepmind/deepmind-research/tree/master/alphafold_casp13