使用同源建模预测蛋白质结构
什么是蛋白质?蛋白质是大的生物分子,负责执行生物体细胞内的大部分功能,包括对刺激作出反应、作为其他反应的催化剂、将分子从一个地方运输到另一个地方以及执行细胞信号传导。就像DNA序列一样,蛋白质序列是一串分子,但与DNA序列不同的是,有20种不同的称为氨基酸的分子构成了蛋白质序列。更多内容欢迎关注公众号:生信技术
蛋白质结构每个1D蛋白质序列串都折叠成3D结构。这些3D蛋白质结构决定了蛋白质如何响应各种环境以及它与哪些其他分子相互作用,因此对于蛋白质执行其功能的能力至关重要。蛋白质的3D结构是通过提供蛋白质中每个原子在3D空间中的坐标(xyz)来描述的。
确定蛋白质结构可以使用X射线晶体学和核磁共振(NMR)等实验程序确定蛋白质结构。然而,这些技术缓慢且繁琐,并且不能应用于所有蛋白质。因此,高通量计算方法用于从序列预测蛋白质的3D结构。
同源建模蛋白质结构预测最流行的计算方法之一是同源建模。同源建模利用蛋白质结构的进化保守性来预测蛋白质的3D结构。从相同的共同祖先(同源性)进化而来的两种蛋白质往往具有相似的3D结构。
在同源建模中,这种蛋白质结构保守性的特性用于预测新发现的蛋白质序列的结构,这些蛋白质序列的结构无法使用传统的实验方法解析。
其主要思想是根据蛋白质序列数据库搜索未知结构的蛋白质序列,其中所有蛋白质的结构在实验上都是已知的,未知结构是根据数据库中进化上最接近或最匹配的蛋白质建模的。
在这篇文章中,我们描述了同源建模的方法,即它是如何工作的。我们还描述了如何使用SWISS-MODEL工具进行同源建模。
同源建模方法详解在本节中,我们将概述同源建模所涉及的步骤。请注意,其中许多步骤是活跃的研究领域。
前面提到过,同源性建模始于对许多蛋白质的结构及其序列的了解,这些结构已通过实验方法确定。该方法使用这些先前的知识来预测我们知道序列但还不知道3D结构的蛋白质的结构。
为了预测蛋白质的结构,我们将首先预测N、Ca、Cb(骨架)的坐标,然后是每个氨基酸的R基团(侧链)的坐标。
(一)模板识别和初始对齐首先,我们找到进化上最接近目标的蛋白质(我们希望预测其结构的蛋白质)。
这是使用数据库搜索算法实现的,例如BLAST(基本局部比对搜索工具),该算法执行目标序列与蛋白质序列数据库的序列比对。
PDB(蛋白质数据库)就是这样一种数据库。数据库中与我们的目标最匹配的蛋白质序列被认为是进化上最接近的,其结构将用作目标结构模型的模板。数据库搜索工具还给出了一个比对,即目标的哪些区域匹配模板的哪些区域的信息。
(二)对齐校正在数据库搜索期间获得的目标和模板之间的初始比对在比对的某些困难区域中可能不是最佳的。例如,初始比对可能违反某些氨基酸替换规则,例如用蛋白质核心中的疏水残基替换亲水残基。
鉴于我们已经找到了一个初始模板,我们现在可以使用更严格的对齐算法来找到更好的对齐方式。例如,我们可以在这一步使用多个序列比对算法。多序列比对可用于识别高度不同的区域,从而更好地检测插入和删除的适当位置。
(三)骨干生成优化目标模板比对后,生成目标的蛋白质骨架结构(N-Ca-Cb)。
这是通过基于对齐简单地将模板主干的坐标复制到目标来实现的。也就是说,目标蛋白质中原子的坐标与模板蛋白质中相应原子的坐标相同,如上一步的比对所述的那样。
这个过程高度依赖于模板结构的准确性,我们初始数据库中的任何错误都会导致我们预测的错误。
(四)循环建模主干步骤不处理对齐中存在的两种类型的不匹配,即插入和删除。将这些不匹配合并到主干中是同源建模中最困难的部分。
蛋白质的二级结构由螺旋、链和环(helices,strandsandloops)组成。由于插入和删除所暗示的构象变化不能发生在螺旋和链中,它们必须发生在环中。
建模循环有两种主要方法:基于已知和基于能量。前一种方法在已知结构的数据库中搜索与目标具有相似序列和端点的环的构象。后者通过使用力场函数和分子动力学预测具有最低结构能量的环结构,以从头开始的方式对环构象进行建模。这些方法为最多5-8个残基的短环提供了相当准确的结果。
(五)侧链建模侧链建模涉及预测连接到主链的每个R基团的Ca-Cb扭转角(torsionangle)的值。
结构中侧链的构象,也称为旋转异构体,取决于该扭转角的值。侧链通常使用旋转异构体库的方式建模,旋转异构体库包含各种化学邻域下所有20个R基团的优选构象。
(六)模型优化既然蛋白质结构的所有方面都针对目标进行了建模,现在是对结构进行细微的改变以降低整体能量了。这是以迭代方式实现的。
在每次迭代中,主链构象和旋转异构体构象交替变化以降低预测结构的总能量。
模型优化也可以通过运行分子动力学模拟来执行,该模拟从当前预测的结构开始,并根据模拟对结构进行小的更改,即模拟在力作用下蛋白质的每个原子会发生什么在飞秒(10-15)时间尺度上围绕它。
(七)模型验证最后一步是检查预测的结构是否有错误。由于目标和模板之间的低对齐或由于模板结构中的错误,在预测的蛋白质结构中引入了错误。
对预测的结构进行检查,看看是否所有的键长、键角和扭转角都落在从实验确定的蛋白质结构中发现的特征范围内。还执行能量检查,以查看不同类型的基于结构的能量(如范德华力和静电力)是否处于预期水平。
使用SWISS-MODEL进行同源建模我们将通过使用SWISS-MODEL工具预测鸟氨酸氨甲酰转移酶Ornithinecarbamoyltransferase(UniProtKBaccession:P96134)中存在的蛋白质鸟氨酸氨基甲酰基转移酶的结构来详细研究同源建模程序。
目标模板识别第一步是在已知蛋白质结构的序列数据库中搜索目标序列。将登录号粘贴到窗口中,然后点击“SearchForTemplates”按钮
搜索结果显示了不同的蛋白质结构模板,可用于预测目标序列的蛋白质结构。这些模板根据其序列与目标蛋白质序列的对齐程度进行排序。
第一个选择的结构模板是最佳匹配(99%identity)。第二个模板与目标序列匹配,具有53%identity。在右侧的窗口中可以看到两个顶部匹配模板的叠加蛋白质结构。
我们将使用前两个结果为目标序列构建或预测两个结构,然后选择最佳预测结构。
建模结果如下所示。根据模型的质量对这两个预测结构进行排名。
接下来,我们将评估两个预测结构的质量,看看哪个是最好的。
QMEAN是用于评估模型质量的主要措施之一。QMEAN是一种基于蛋白质结构不同几何特性的复合评分函数,提供全局(即整个结构)和局部(即每个残基)绝对质量估计。
QMEAN由四个单独的术语组成。还列出了全局QMEAN质量分数的四个单独术语。条形图中的白色区域(数值接近于零)表明该特性与在实验结构中观察到的相似。正值表示模型平均得分高于实验结构,负数表示模型平均得分低于实验结构。
对于第一个模型(使用2ef0.1.A作为模板构建),QMEAN项主要落在白色区域内。
但是,对于第二个模型(使用3gd5.1.A作为模板构建),大多数QMEAN项与最优模型显著不同
因此,模板2ef0.1.A预测的结构是最优模型,可以作为我们目标序列的预测结构。
参考Swiss-MODELhttps://swissmodel.expasy.org/interactive
MODELLERhttps://salilab.org/modeller/
“HomologyModeling”byElmarKrieger,SanderB.Nabuurs,andGertVriend
十分钟了解人工智能AI的基础运作原理
人工智能是如何运作的收听音频课程
人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以预见未来几年将会进入“人工智能时代”。
目前AI已经遍布我们的世界并且在日常生活中产生了巨大的变化。这些AI并不是科幻电影中的那些有自我意识,计划毁灭世界邪恶的机器人。而是像我们的智能手机、智能家居、银行信用卡管家和智能汽车这些围绕我们每天生活的产品和服务都在使用AI。
AI将通过推动自动驾驶汽车的发展、改善医学图像分析、促进更好的医疗诊断和个性化医疗,从而带来社会的重大转变。AI 也将是支撑未来技术发展的基础资源,就像电力和网络一样。但对大部分人来说,AI 还是很诡异而且充满神秘感。
那么我们今天就来聊一聊AI最重要的功能——模式识别的工作原理。希望通过简明扼要的介绍帮助大家了解这个领域。
AI是一门严谨科学而不是无所不能神话故事,媒体过分夸大报道AI的功能,鼓吹威胁论都是不负责任的。AI目标是设计具有智能的机器,其中的算法和技术部分借鉴了当下对人脑的研究成果。今天许多流行的AI系统使用人工神经网络来模拟由非常简单的互相连接单元组成的网络,有点像大脑中的神经元。这些网络可以通过调整单元之间的连接来学习经验,这个过程类似人类和动物的大脑通过修改神经元之间的连接来进行学习。神经网络可以学习模式识别、翻译语言、学习简单的逻辑推理,甚至创建图像或者形成新设计。其中,模式识别是一项特别重要的功能,因为AI十分擅于识别海量数据中的隐藏的模式,而这对于依赖经验和知识的人类来说就没有那么容易。这些程序运行的神经网络具有数百万单位和数十亿的连接。我们现在所能创造出来的“智能”就是由这些电子神经元网络组成的。
机器不像人类具有感知器官和大脑,并且能够很好地协调工作,比如当我们看到一只狗的时候,就会很快的判断出来这是什么动物,并且具体什么种类。这个看似简单的过程对于机器来说都是十分困难的。而人类获得这样的能力,也是源自于生物上亿年的进化过程。而机器认识世界的方式是通过模型,需要通过复杂的算法和数据来构建模型,从而使机器获得很简单的感知和判断的能力。
下面介绍一下深度学习系统中一个最重要算法——卷积神经网络。如果你之前对AI相关知识有所了解的话,那你一定听说这个概念。这种算法参考了生物学研究人类和其他动物大脑视觉皮层的结构。简单介绍一下这种特定类型的人工神经网络,它使用感知器、机器学习单元算法,用于监督学习分析数据。适用于图像处理、自然语言处理和其他类型的认知任务。与其他类型的人工神经网络一样,卷积神经网络具有输入层、输出层和各种隐藏层。其中一些层是卷积的,使用数学模型将结果传递给连续的层。这过程模拟了人类视觉皮层中的一些动作,所以称为卷积神经网路,也就是CNN。
举例子来看,当我们人类看到一只猫和一只狗时,尽管它们的体型很类似,但我们还是马上能够区分它们分别是猫和狗。对计算机而言,图像仅 仅只是一串数据。在神经网络的第一层会通过特征检测物体的轮廓。神经网络的下一层将检测这些简单图案的组合所形成的简单形状,比如动物眼睛和耳朵。再下一层将检测这些形状组合所构成的物体的某些部分,例如猫和狗的头或者腿。神经网络的最后一层将检测刚才那些部分的组合:一只完整的猫、一只完整的狗等等。每一层的神经网络都会目标进行图像组合分析和特征检测,从而进行判断和组合,并将结果传递给下一层神经网络。实际使用的神经网络的层次深度会比这个例子多很多,所以神经网络能够以这种分层的方式进行复杂的模式识别。
只要有大量被标记的样本数据库,就可以对神经网络进行特征训练。它对于识别图像、视频、语音、音乐甚至文本等信息特别有用。为了很好地训练AI的机器视觉,我们需要提供给这些神经网络被人标记的大量图像数据。神经网络会学习将每个图像与其相应的标签并相互关联起来。还能将以前从未见过的图像及其相应的标签配对。这样的系统可以梳理各种各样的图像,并且识别照片中的元素。同时神经网络在语音识别和文本识别中也非常有用,自动驾驶汽车和最新医学图像分析系统中也是关键组成部分,所以你可以看到神经网络的运用是非常广泛而且有效的。原来需要依赖人工标记大量有效数据来完成知识的输入,现在通过运行海量数据,让神经网络进行自我学习。大大提升的人工智能的应用范围,降低了使用的门槛。
人类大脑与动物远远不同,在进化过程中高度特化并且具有明显的适应性。而当前的AI系统远远不具有人类拥有的看似一般的智能。人工智能更高级的发展将会在后面进行讨论,我们这里还是关注现在实现的AI的基本原理。
AI最常见的三种学习方式强化学习 这是关于机器应该如何行动以获得最大化奖励的问题,它受行为心理学理论的启发。在特定场景下,机器挑选一个动作或一系列动作并获得奖励。机器行为每一步骤都会被标记,并且记录结果和赋予权重。强化学习通常用于教机器玩游戏和赢得比赛,比如国际象棋、围棋或简单的视频游戏。强化学习的问题是,单纯地强化学习需要海量的试错,才能学会简单的任务。好处是只要你提出一个有价值的问题,提供足够的数据输入,理论上来说强化学习最终会找到那个最优解。
监督学习就是需要我们告诉机器特定输入的正确答案:这是一幅汽车的图像,正确答案是“汽车”。它之所以被称为监督学习,是因为算法是从带标签数据学习的。这个过程类似于向年幼的孩子展示图画书。成年人预先知道正确的答案,孩子根据前面的例子做出推测。这也是训练神经网络和其他机器学习体系结构最常用的技术。
无监督学习 人类和大多数其他动物的学习过程,特别是刚生下来的时候,是以没有人监督的方式来进行学习的:我们通过观察和认知我们行动的结果来了解世界如何运作。没有人告诉我们刚开始所看到的每一个物体的名称和功能。但我们仍然学会非常基本的概念,当前我们还不知道如何在机器身上实现这一点,至少无法达到人类和其他动物的水平。缺乏用于无监督学习的AI技术,也是当前AI发展问题之一。
概括来说当前AI技术原理是:将大量数据与超强的运算处理能力和智能算法三者相结合起来,建立一个解决特定问题的模型,使程序能够自动地从数据中学习潜在的模式或特征,从而实现接近人类的思考方式。下面补充介绍三个AI研究领域重要的理论方法和技术以便理解:
一、机器学习自动化分析建模。它使用来自神经网络、统计、数学和物理学的方法来发现数据中的隐藏模型,并且无需明确编程查找具体目标和范围。理论基础是这样的:假如我们为了研究某个复杂的科学问题,需要创建海量的机器学习模型、使用大量的算法、使用不同的参数配置,在这种情况下,我们就可以使用自动化的方式进行建模。发展自动化机器学习是为了向科学家提供帮助,而不是代替他们。这些方法使数据科学家摆脱了令人厌烦和复杂耗时的任务(比如详细的参数优化和调试),机器可以更好地解决这些任务。而后面的数据分析与结论的工作仍然需要人类专家来完成。在未来,理解行业应用领域的数据科学家,也就是数据业务架构师,仍然极其的重要。而这一项人工智能技术,将会辅助数据科学家建立模型并且加速验证的速度,从而减轻科学家的压力,让他们将精力放在那些机器无法完成的任务上面,通过更加合理的分工协作,大大加快科学技术研发速度。
二、深度学习领域这是应用非常广的技术,它使用具有多层处理单元的巨大神经网络,利用强大计算能力和改进的训练技术来学习大量数据中的复杂模式。原理是计算机在学习特定问题时,需要大量输入这个问题相关的学习材料也就是数据,然后在计算机通过算法和模型来构建对这个具体问题的认知,也就是总结出一个规律,那么在以后遇到相似问题时,计算机会把收集的数据转成特征值,如果这个特征值符合这前面规律里面的特征值,那么这个事物、行为或者模式,就可以被识别出来。常见的应用太多了,这里大概举一些例子:
计算机视觉,这就像是机器的“眼睛”。依赖于模式识别和深度学习来识别图片或视频中的内容。当机器可以分析和理解图像时,他们可以实时捕捉图像或视频并解读周围环境。感知周围环境、识别可行驶区域以及识别行驶路径,这也是无人驾驶的基础技术。其中图像识别原理是通过识别图片中的对象,然后建立标签,实现对海量图片进行分类,也可以对图像中的人脸或者其他目标进行识别,运用在安防监控等领域;
自然语言处理中语音识别技术就像是机器的“耳朵”:这是计算机分析、理解和生成人类语言和语音的能力。运用语音采集的技术和方法,对音频中的语言内容进行提取和识别,实现语音实时转文字的功能;下一阶段将会是自然语言交互,人们将可以使用普通的日常语言与计算机进行交流和执行任务。这也是AI语音助手和语音控制交互技术的基础。
机器翻译:模仿人脑理解语言的过程,形成更加符合语法规则同时更加容易被人理解的翻译,谷歌在线翻译功能就是运用了深度学习技术,让机器的翻译水平大大提升;
情感识别:通过识别新闻、社交媒体、论坛等文本内容中所包含的情感因素,及时了解网络舆论对新闻事件的反应情况;
医疗诊断:比如通过对各个阶段的肿瘤诊断这类医疗图像数据进行学习,总结出恶性肿瘤形状、纹理、结构等“特征”模型,从而使机器可以进行判断。
可以看到深度学习在神经元网络的基础上,发展出了非常多的应用案例,并且当下各个行业的人工智能辅助工具和软件都在大力开发中,各种数据都在被大量采集、清洗、输入模型训练,一旦训练成功就可以大规模部署,带来巨大的商业价值。具体有多大呢?参考一下人脸识别领域的独角企业估值和号称千亿的市场规模就知道了。如果这样的市场再乘以百倍、千倍呢,这里面的蕴含商业机会有多少呢?
三、认知计算这也是人工智能的子领域,目标是与机器进行自然的、类似人类的交互。使用人工智能和认知计算,最终目标是让机器获得理解图像和语音的能力,模拟人类交流过程,从而实现与人类的自然对话。也是根据神经网络和深度学习来构建的,应用来自认知科学的知识来构建模拟人类思维过程的系统。它涵盖多个学科,包括机器学习、自然语言处理、视觉和人机交互。IBMWatson 就是认知计算的一个例子,在美国答题竞赛节目上Watson 展现了它先进的问答交互能力,并且打败了人类。与此,同时Watson这些服务应用接口也进行了开放,可提供其他组织用于视觉识别、语音识别、语言翻译以及对话引擎等等。
就像AI的产生是多学科发展的综合成果一样,当下AI的快速发展也是多方面技术进步综合起来取得的成果,总结里面重要的三个方面:
1.硬件方面:直到本世纪初研究人员才意识到,为视频游戏设计的GPU(图形处理单元)可以被用作硬件加速器,以运行比以前更大的神经网络。这要归功于这些芯片能够进行大量并行计算,而不是像传统CPU那样按顺序处理它们。这对于同时计算构成深度学习神经网络的数百个神经元的权重特别有用。
2.通用算法:AI这么快就流行起来,在很大程度上是因为开放的软件工具(也称为框架),使得构建和训练一个神经网络实现目标应用程序变得容易起来,即使是使用各种不同的编程语言。对于已知的识别目标,可以离线定义和训练一个神经网络。一旦训练完成,神经网络可以很容易地部署到嵌入式平台上,也可以迁移到各种软件程序和硬件平台中。这是一个聪明的架构,允许借助PC或云的能力训练神经网络,而低功耗的嵌入式处理器只需使用训练好的数据来进行识别。人体和物体的能力与流行的应用密切相关,比如工业机器人和自动驾驶汽车。
3.其他技术支持: 图形处理单元是AI的关键,因为它们提供了迭代处理所需的大量计算能力。训练神经网络需要大数据和计算能力。而物联网从连接的设备生成大量数据,其中大部分未经分析。 使用AI自动化模型将允许我们使用更多的物联网数据进行分析,将物流和信息流更好的结合起来。还有就是AI应用程序接口,可以将AI功能添加到现有产品和软件中。比如它们可以为安防视频系统中添加图像识别功能;也可以在我们观看网络视频时,自动创建翻译和字幕;或者是在拍照程序中自动识别人物性别和年龄甚至是表情和情绪等等,应用将会非常广泛。
总之,这都是 AI 经常使用的方法,即使我们创造了单个项目拥有超越人类智慧的机器,这些机器仍然能力有限。短期来看,人工智能将提供接近人类交互体验,并为特定任务提供辅助支持,但它还不能成为人类的替代品,有自我意识的AI还不会很快出现。
本篇是老张创作的课程《人工智能进化论课程》基础篇内容,转载需授权。
读完了觉得有帮助请转发和评论~
想要了解全部课程内容,加入圈子和老张讨论的请点击下面“加入圈子”,订阅“人工智能进化论”课程。或者加wx:AI61825
加入圈子