人工智能+基因编辑,这是国内外最新研究进展
编辑|橘子皮
这里有两篇「AI+基因编辑」相关研究
当前,生命科学与医学的前沿研究都离不开基因编辑,碱基技术的出现让基因编辑变得更加可操作。然而其编辑部位碱基的准确性,以及编辑部位上下文序列对编辑的影响,一直是困扰研究人员的问题。这关系到基因编辑是否能够成功,也会影响基因治疗的临床效果。
来自苏黎世大学的研究人员建立了一种基于注意力的深度学习算法BE-DICT,该算法能够高精度地预测碱基编辑结果。
同样,国内的研究人员也在这方面研究中取得了重大进展。来自中科院与农科院的研究人员报告了一个具有高效率和保真度的工程化C-to-G碱基编辑器(BE),其修改的目标序列的上下文可通过机器学习方法进行预测。同时还开发了一个深度学习模型,可以准确预测具有特定序列上下文的目标位点的OPTI-CGBE编辑结果。
先说国外的……
该研究以「Predictingbaseeditingoutcomeswithanattention-baseddeeplearningalgorithmtrainedonhigh-throughputtargetlibraryscreens」为题,于2021年8月25日发布在《NatureCommunications》。
碱基编辑器(BE)是嵌合核糖核蛋白复合物,由靶向DNA的CRISPR-Cas模块和单链DNA脱氨酶组成。它们使基因组DNA上的C•G转变为T•A碱基对,反之亦然。虽然碱基编辑器作为用于基础研究和基因治疗的基因组编辑工具,具有巨大潜力;但它们的应用会因为不同基因组位点编辑效率的广泛差异,而受到阻碍。
研究人员对包含28,294个慢病毒整合基因序列的文库,进行了腺嘌呤(A)和胞嘧啶(C)碱基编辑器的广泛分析,并建立了BE-DICT;这是一种基于注意力的深度学习算法,能够高精度地预测碱基编辑结果。BE-DICT是一种多功能工具,原则上可以在任何新型碱基编辑器变体上进行训练,促进碱基编辑在研究和治疗中的应用。
用于评估碱基编辑器活动的高通量平台。
在这项研究中,研究人员使用高通量方法,来评估碱基编辑器在数千个目标站点上的活动和准确性。所得数据集用于训练深度学习模型BE-DICT,该模型能够准确预测目标核苷酸和周围「旁观者」核苷酸的编辑。
目前,BE-DICT在ABEmax、CBE4max、ABE8e和Target-AID的数据集上进行了训练,相应的模型可在www.be-dict.org上免费访问。
由于该算法具有通用性,未来它也可以用于各种其他碱基编辑器变体,使研究人员能够先验地为其目标基因座选择最佳碱基编辑器。碱基编辑器可应用于基因组编辑疗法;在这种疗法中,BE应该在不诱导旁观者编辑的情况,下修复引起疾病的点突变。此外,BE在基因筛选中的应用也很重要,因为旁观者突变可能会影响由目标碱基转换引起的表型。
BE-DICT:一种用于预测碱基编辑结果的机器学习模型。
最近,还有研究团队开发了另外两种机器学习模型,它们也可以预测碱基编辑结果的比例(BE-Hive和DeepBaseEditor)。该项目组的研究人员广泛地比较了这三种模型,发现它们的性能相似。值得注意的是,除了「旁观者」模块,BE-DICT还提供了一个per-base模块。虽然该模块仅给出目标碱基被编辑(或不被编辑)的概率,并且无法预测目标碱基和旁观者转换的组合,但是它提供了识别当前可用碱基编辑器「基序偏好」的功能。这可以为未来开发具有改进活动的新型碱基编辑器变体提供依据。
此外,BE-DICTper-base模块隐式地模拟了每个位置的边缘编辑概率。因此,与其他模型(即旁观者模型)不同,搜索空间的复杂性随核苷酸数量呈指数增长,BE-DICTper-base模块表现出二次复杂性,这可以通过缩放自注意力来进一步改进层到O(n)复杂度——原则上使模型能够考虑超出原型间隔区目标位点的序列上下文。
总的来说,BE-DICT模块可以准确预测碱基编辑结果,并可以指导研究人员设计基因编辑实验。
BE-DICT旁观者模型。
国内的也很厉害……
该研究以「OptimizationofC-to-Gbaseeditorswithsequencecontextpreferencepredictablebymachinelearningmethods」为题,于2021年8月12日发布在《NatureCommunications》。
在基因编辑方面非常需要用于C到G转换的高效精确的BE。然而,研究人员对于影响编辑结果的目标序列上下文,却知之甚少。在这里,研究人员报告了一个具有高效率和保真度的工程化C-to-GBE,其序列上下文可通过机器学习方法进行预测。
通过改变尿嘧啶-DNA糖基化酶和脱氨酶的相对位置,以及密码子优化,研究人员获得了优化的C-to-GBEs(OPTI-CGBEs)以实现高效的C-to-G转换。OPTI-CGBE编辑100个内源性位点的基序偏好是在HEK293T细胞中确定的。
使用包含41,388个序列的sgRNA库,研究人员开发了一个深度学习模型,可以准确预测具有特定序列上下文的目标位点的OPTI-CGBE编辑结果。进一步证明,这些OPTI-CGBE能够在小鼠胚胎中进行有效的碱基编辑,从而使小鼠产生Tyr编辑的后代。因此,这些工程化的CGBE可用于高效精确的碱基编辑,编辑结果也可根据目标位点的序列上下文进行预测。
CGBEs工程。
通过改变来自物种的UNG结构域和改组序列以及脱氨酶结构域在各种碱基编辑器中的位置,研究人员获得了工程化的CGBE变体(OPTI-CGBEs),其实现了高C-to-G转换效率和低脱靶效应。OPTI-CGBE在测试的目标站点的C-to-G编辑效率和产品纯度方面优于之前报道的CGBE1和主要编辑器。
最近,有研究团队通过用碱基切除修复(BER)蛋白替换BE3的UGI,在特定基序上提高了C-to-G编辑效率。值得注意的是,在该项目的研究中,研究人员发现OPTI-CGBE与相应的CBE的基序偏好不同,并且具有不同来源的脱氨酶的CGBE更喜欢不同的序列背景。这些C-to-G碱基编辑器的基序偏好可能可以通过不同CGBE的相应脱氨酶采用的不同结合模式来解释。脱氨酶增加了C-to-U编辑,所以提高了CGBE的C-to-G编辑效率。
OPTI-CGBES的机器学习模型。
研究人员还使用包含41,388个目标序列的DNA文库,对这些变体的编辑效率进行了高通量分析,从而阐明它们的基序偏好。同时,开发了两种计算方法,包括深度学习模型(CGBE-SMART),用于预测C-to-G编辑效率和编辑结果比例。
CGBE-SMART模型能够在具有特定序列上下文的目标位点进行有效的sgRNA选择;并且可以推广以支持有效的sgRNA选择,以优化使用BE。
事实上,CGBE-SMART在预测CBE的编辑效率方面也取得了很高的性能,与之前为相同目的开发的深度学习模型相媲美。同时,CGBE-SMART在我们的CGBE数据集中表现出比其他模型更好的性能。
然而,高通量分析中的低C-to-G编辑效率会低估计算模型的性能。HEK293T细胞和胚胎中的研究表明,编辑结果可能受到表观遗传调控、染色质可及性和DNA修复活动等体内因素的影响;除了目标位点的序列背景外,这些因素也值得进一步研究。
在这项工作中,研究人员证明了一组优化的CGBE变体,在不同序列背景下高C-G转换效率和最小脱靶效应;以及它们在产生基因组编辑后代方面的效率。这些CGBE变体可能会对未来需要C到G转换的基因编辑很有价值。
人工智能×[生物神经科学数学物理材料]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
谷歌人工智能领域研究方向
什么是人工智能?GregCorrado给出的定义是既是一门科学,也是一门让机器变得智能的科学研究,主要的研究便是如何让机器像人类一样,具备解决某些特定问题的能力。
其中,最为重要的能力之一便是学习能力,也是我们常说的MachineLearning(简写ML,机器学习)能力。
机器学习跟人工智能相比是一门更加狭义的一个分支学科,是让机器从数据和经验中学习到的规律,从核心上来说,机器学习是一种新的工程设计方式,是一种创建新型解决问题系统的方式。
对于工程师以及开发者来说这意味着全新的技术、全新的工具,在今天推出的大部分的软件还是由人工来进行编程编码的,但这些软件中已经有一部分模块具备了学习的能力。从另外一个意义上来说,机器学习就是教会计算机去学习,而不需要执行每个规则都进行编程。
谷歌图片识别实时翻译技术
比如在图像识别中,一开始机器在识别事物的时候准确率是比较差的,机器的表现带有很大的随机性,但是经过一段时间的训练,随着我们给机器去看的这些图像越来越多,机器的图像识别的准确性会逐步的提高。当图片积累到一定数量的时候,我们可以对于某一种动物拍一张照片,这张照片是以前机器学习没有看到的,但当我们显示这张照片,机器可以根据以往的经验准确的识别出这是哪一种动物。
“这就是今天我们都在日益体会到的人工智能带来的革命背后的一个推动因素。有了这样的能力之后,机器就能够帮助我们解决许多问题,比如说可以用于对象或者是图像的识别,可以用于语音识别,能够进行翻译,并且能够帮助我们去理解整个情境。”GregCorrado说道。
而谷歌认为,这对于其来说意味着一个重大的机遇,谷歌可以把公司打造成一个人工智能公司,因为基于人工智能的计算机系统将来会变的越来越普及。
技术开放让人工智能触手可及
谷歌在自己的内部孵化出了了许多基于人工智能应用的产品,比如图片识别和搜索、语言实时翻译、邮件自动回复,尝试用人工智能来提升自身的产品和服务。根据数据统计,目前Gmail发出的邮件当中有12%的回复是根据机器学习系统提出的建议来做的自动回复,这一功能的受欢迎程度已经超出了预期。
而这也只是谷歌的小试牛刀。如何将这种技术力量应用到更广泛的领域,甚至是让更多的人从这一技术研发中受益,谷歌的选择是进行技术开源,将人工智能技术开放给更多的开发者。
据GregCorrado介绍,技术的开放分为两部分,一是把开发人工智能的软件对外开放,二是把人工智能整个基础架构向外部开放。
在软件方面,谷歌将TensorFlow这一开源软件包向外部免费开放,谷歌内部的开发团队也是在不断的完善和扩展这个软件。在这一软件包当中谷歌不光提供了源代码,而且也是提供了免费的教育培训的材料和基于TensorFlow构建的机器学习系统的样例。
同时,人工智能也在医疗、环保等基础领域开始应用,辅助人们更好的进行研究。比如GregCorrado直接领导的研究糖尿病并发症的研究团队,通过训练机器学习系统让他们学会去识别糖尿病患者视网膜眼底扫描的图片,从而分辨出病人是否有失明的风险。
对于糖尿病患者来说体内的血糖水平很容易发生失控,这种血糖水平的急剧的变化或者是失控能够带来的诸多并发症之一便是影响视力,甚至是致盲,有着潜在致盲风险的人群数以亿计,但却没有足够多的医生能够随时筛查所有的糖尿病患者是不是存在由于糖尿病而造成致盲并发症的风险。人工智能恰恰能够弥补这一医疗资源的不足。
谷歌AI技术帮助医生识别糖尿病病人并发症(左边为健康眼底,右边为病变眼底)
“专业的医生是可以看出这两张片子的区别,我们做的也是训练机器能够做出这样的区别,做好医生的帮手。”GregCorrado解释道。
同时,人工智能能够带来更好的节能和降耗的管理。谷歌通过在数据中心当中部署机器学习,散热的耗电是整体降低了40%,整个数据中心的能效提升了15%。
“这个例子很好的说明如果针对这样的一个场景,我们通过编码的方式来严格的规定系统应当如何来工作,这样能够带来的结果和有效性远远不及让机器自己去学习,让机器自己去掌握整个系统工作的规律。”GregCorrado如此分析人工智能的潜力。
未来十年人工智能的发展方向:围绕人来协作
目前,除了谷歌之外,国外的微软、IBM、Facebook、苹果、英特尔以及国内的阿里巴巴、腾讯、百度等科技巨头都已经开始布局人工智能。从软件编程到硬件芯片再到商业场景落地,人工智能研发的热情空前高涨。
随之而来的也有对于人工智能的担心,史上首个获得公民身份的机器人索菲亚的出现,更是引发了人们对于人工智能和道德伦理的讨论。
人工智能与人类是怎样的关系?是否会威胁人类的生存?
在GregCorrado看来,无论人工智能如何发展,都应该是围绕着人的需求去打造,能够更好的跟人一起合作完成任务。
在接下来AI的发展当中,下一波的机会来自于帮助人工智能系统能够更好的发展,能够有能力和人的智能、专业的人士配合在一起工作,“这样让AI在这些由人去完成的任务中起到一个辅助的作用,使得人们在完成任务的时候更加的简单、更加的精准、更加的高效”GregCorrado说道,这是接下来十年AI发展的一个重要方向。
谷歌已经开始着手生产能够加速AI的定制化的芯片,但在GregCorrado看来,并没有所谓专用的AI芯片,“至少迄今为止我也没有看到完全不同于传统的计算芯片(所谓AI芯片)的成功案例。”
GregCorrado认为,要对现有的芯片做AI方面的专门的优化,使现在的芯片完全AI任务的时候速度能够更快,功耗更低,整体的效益更高。
“也就是说,对于芯片进行AI方面的优化,这也就是意味着同样的跟AI有关的这些计算的任务也可以放在传统的CPU上面完成,只是在没有这种针对AI优化的情况下,他的功耗更高,效率更低。”
根据招募平台Paysa发布的研究报告显示,2017年4月至9月,美国公司在招募AI人才上花费了13.5亿美元。谷歌是这一领域的第四大雇主,位于亚马逊公司、微软公司以及苹果公司之后。研究显示,谷歌在此期间招揽了142名AI工程师,在AI人才上投资3360万美元。
同时,谷歌在全球各地成立AI实验室,谷歌AI中国中心也在去年12月成立,GregCorrado表示,谷歌并不会在不同地区的研究中心或者不同的团队之间去做项目或者是职能上的划分,在谷歌看来多样性、原创性的研究是最快推动创新最快发展的有效方式,通过这样的方式谷歌能够尽可能多的收获新的想法和创意。返回搜狐,查看更多
人工智能主要研究方向
人工智能主要分为自然语言处理(NLP)、计算机视觉(CV)、数据挖掘(DM)三个大方向
自然语言处理(NLP):它是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。主要分类包括机器翻译、文本分类、知识图谱、文本相似度计算、语音识别、情感计算、自动摘要、聊天机器人等等
计算机视觉(CV):一门研究如何使机器“看”的科学,使用计算机及相关设备对生物视觉的一种模拟,研究如何运用照相机和计算机来获取我们所需的,被拍摄对象的数据与信息的学问。主要分类包括行人检测、人脸识别、自动驾驶、图像分类、目标检测、智能安防等等
数据挖掘(DM):数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程,主要分类有广告计算、推荐系统、用户画像、各类预测分类任务等等,DM多领域也需要用到NLP的知识。
例子:AlphaGo属于深度学习,深度学习可以应用于搜索技术,数据挖掘,机器学习,自然语言处理等很多领域