生物信息学三大数据库NCBI
NCBI
NCBI(NationalCenterforBiotechnologyInformation,美国国立生物技术信息中心)于1988年11月4日建立,是NIH(美国国立卫生研究院)的NLM(国立医学图书馆)的一个分支。目的是通过提供在线生物学数据和生物信息学分析工具来帮助人类更好的认知生物学问题。目前有将近40个在线的文库和分子生物学数据库,包括:PubMed,PubMedCentral,andGenBank等。网址:https://www.ncbi.nlm.nih.gov/
一、任务
为储存和分析分子生物学、生物化学、遗传学知识创建自动化系统;从事研究基于计算机的信息处理过程的高级方法,用于分析生物学上重要的分子和化合物的结构与功能;促进生物学研究人员和医护人员应用数据库和软件;努力协作以获取世界范围内的生物技术信息。
二、内容
1.文献数据库
包括:PubMed,PubMedCentral,Books等
2.序列资源库
包括人,小鼠,果蝇,线虫等各种物种的基因组数据库
包含DNA,RNA,蛋白等各种类型的数据
如:SNP,GEO,SRA等
3.常用序列分析工具
Entrez–数据挖掘的工文本条件查询工具(TextTermSearching)来自于超过10万个种物的核酸和蛋白序列数据,连同蛋白三维结构,基因组图谱信息和文献信息检索网址:https://www.ncbi.nlm.nih.gov/gquery/
BLAST–序列比对工具
https://blast.ncbi.nlm.nih.gov/Blast.cgi
4.数据下载与上传
数据下载接口:ftp://ftp.ncbi.nlm.nih.gov/
上传的工具有:Sequin,tbl2asn等,链接地址:https://www.ncbi.nlm.nih.gov/guide/data-software/
5.其他合作项目
比较常用的就是检索文献,检索序列,比对序列。了解更多内容可以参考官网手册:https://www.ncbi.nlm.nih.gov/books/NBK143764/
参考资料
https://baike.baidu.com/item/NCBI/3598184?fr=aladdin
https://www.ncbi.nlm.nih.gov/books/NBK143764/
1.1NCBIGEO
基因表达数据库(GEO,GeneExpressionOmnibusdatabase,https://www.ncbi.nlm.nih.gov/geo/)是由NCBI负责维护的一个数据库,设计初衷是为了收集整理各种表达芯片数据,但是后来也加入了甲基化芯片,lncRNA,miRNA,CNV芯片等各种芯片,甚至高通量测序数据,是目前最大、最全面的公共基因表达数据资源。所有的数据均可以在ftp站点下载:ftp://ftp-trace.ncbi.nih.gov/geo/.
一、GEO数据库基础知识
GEODataset(GDS)数据集的ID号GEOSeries(GSE)study的ID号GEOPlatform(GPL)芯片平台GEOSample(GSM)样本ID号这些数据都可以在ftp里面直接下载。
二、数据上传
上传的方式:
网页Excel表格软件MINiML格式上传详细上传方法,参见:https://www.ncbi.nlm.nih.gov/geo/info/submission.html
提交Affymetrix芯片数据到GEO数据库http://www.biotrainee.com/thread-810-1-1.html
三、数据挖掘
EntrezGEO-DataSets官网:http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=gds
收录整个实验数据,可以通过技术类型,作者,物种和实验变量等信息来进行搜索。一旦相关数据被查询到,可以通过提供上面的小工具做一些分析,比如:热电图分析,表达分析,亚群的影响等
2.EntrezGEO-Profiles
官网:https://www.ncbi.nlm.nih.gov/geoprofiles/
收录单个基因的表达谱数据。可以通过基因名字,GenBank编号,SAGE标签,GEO编号等来进行搜索
3.GEOBLAST
GEOBlast界面容许用户根据核酸序列的相似性来搜索相关的GEO-Profiles所有的BLAST结果中“E”的标签代表这个数据跟GEO-Profiles表达数据相关。
数据下载我们一般是拿到了GSE的studyID号,然后直接把什么的url修改一下,就可以看到关于该study的所以描述信息,是用的什么测序平台(芯片数据,或者高通量测序),测了多少个样本,来自于哪篇文章!所有需要的数据均可以下载,而且都是在上面的ftp里面可以根据规律去找到的,甚至可以自己拼接下载的url链接,来做批量化处理!
例如:用GSE75528,则在https://www.ncbi.nlm.nih.gov/geo/官网上直接搜索GSE75528或直接输入https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE75528修改这个url最末尾的GSE号码就可以进入自己想去的任何研究的GEO页面。
如果是芯片数据,那么就需要自己仔细看GPL平台里面关于每个探针对应的注释信息,才能利用好别人的数据。如果是高通量测序数据,一般要同步进入该GSE对应的SRA里面去下载sra数据,然后转为fastq格式数据,自己做处理!
1.2NCBISRA
跟GEO类似,NCBI的SRA(SequenceReadArchive,https://www.ncbi.nlm.nih.gov/sra/)数据库是专门用于存储二代测序的原始数据,包括454,IonTorrent,Illumina,SOLiD,HelicosandCompleteGenomics等。除了原始序列数据外,SRA现在也存rawreads在参考基因的aligmentinformation。
该数据库也是InternationalNucleotideSequenceDatabaseCollaboration(INSDC)的一部分。INSDC包含:NCBISequenceReadArchive(SRA),EuropeanBioinformaticsInstitute(EBI),和DNADatabaseofJapan(DDBJ)。数据提交给其中任何一个数据库中后,数据都是共享的。
一、数据库结构
每个数据库都有自己最小的可发表单元。例如:PubMed最小可发表单元是一篇文献,SRA中最小可发表单元是一次实验(标签为:SRX#)。
NCBI中SRA数据结构的层次关系:Studies,Experiments,Samples,Runs:
Studies是就实验目标而言的,一个study可能包含多个experiment。Experiments包含了样本,DNAsource,测序平台,数据处理等信息。一个experiment可能包含一个或多个runs。Runs表示测序仪运行所产生的reads.SRA数据库用不同的前缀加以区分:ERPorSRPforStudies,SRSforsamples,SRXforExperiments,andSRRforRuns。
二、数据上传
登陆NCBI账号
注册你的项目和生物样本
注册项目:https://www.ncbi.nlm.nih.gov/bioproject/
注册样本:https://www.ncbi.nlm.nih.gov/biosample/
上传SRA数据
上传SRAmetadata(关于该项目、实验的等信息)
上传序列数据
更详细的说明,参见https://www.ncbi.nlm.nih.gov/sra/docs/submit/
三、数据下载
如果要下载每个study对应的runs的所有数据,我们需要下载安装SRAToolkit!
链接地址:http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software
SRAtoolkit常用命令的说明文档见:
http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc。
这里我们需要使用prefetch命令进行下载
$prefetchSRR776503SRR776505SRR776506下载完成后,会在你的工作主目录下生成一个ncbi的文件夹。
sra子文件夹中的.sra文件就是对应的runs文件。‘.sra’的后缀是SRA数据库对fastq文件的特殊压缩。使用前,我们需要将其解压为fastq文件。SRAToolkit包含了解压函数fastq-dump:$fastq-dumpSRR776503.sra
通过命令行来下载
for((i=204;i浅谈生物信息学的应用及未来发展趋势
大连工业大学生物工程学院生物工程专业辽宁大连116034 摘要:生物信息学作为一门新兴的交叉学科,有其独特的优势及发展空间,在今后的一段时间会更好地利用及发展。本文从生物信息学的产生,生物信息学的发展阶段以及各阶段的主要内容,生物信息学在微生物、农业、食品安全、医药等方面的应用,与生物信息学相关的学科等方面进行了论述。 关键词:生物信息学应用研究进展 一、生物信息学简介 生物信息学(Bioinformatics)是在生命科学、计算机科学和数学的基础上逐步发展而形成的一门新兴交叉学科,是为理解各种数据的生物学意义,运用数学与计算机科学手段进行生物信息的收集、加工、存储、传播、分析与解析的科学。 二、生物信息学的产生 美国在最初提出人类基因组计划时就成立了一个由42位专家组成的生物信息研究小组。人类基因组计划的实施、生物学的快速发展以及数学、物理、计算机科学、信息科学的渗入,使生物信息学逐渐发展成为一门独立的学科并将其推上了生物科学发展的最前沿。 三、生物信息学的发展阶段及各阶段的主要研究内容 生物信息学自产生以来大致经历了前基因组时代、基因组时代和后基因组时代三个发展阶段。 目前生物学主要研究以下几个方面的内容: 1.核酸序列分析。具体包括以下内容:核酸序列的基本分析、基因结构与DNA序列分析、表达序列标签分析、电子克隆cDNA全长序列。 2.蛋白质序列分析。蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成、分子质量、等电点(pI)、亲水性和疏水性、信号肽、跨膜区及结构功能域的分析等。其中主要有两个策略进行:同源序列分析和功能区相关的保守序列特点分析。 3.序列对比。利用数据库搜索找出未知核酸或蛋白的同源序列,是序列分析的基础。如利用BLASTn和BLASTx两种软件分别进行核苷酸和氨基酸序列同源性比较。 4.分子系统发生分析。系统发生(或种系发生、系统生育,phylogeny)是指生物形成或进化的历史。系统发生学(phylogeneties)研究特种之间的进化关系,其基本思想是比较物种的特征,并认为特征相似的特种在遗传学上接近。 5.基因组信息学分析。生物信息学中的各种信息资源和分析工具正逐渐形成一个整合系统来反映生物体的高度复杂性,基因组分析也不例外。通常,人们也将有基因组信息的储存、获取、处理、分配、分析和注释等方面的研究合称为“基因组信息学(genomeinformatics)”。 6.生物芯片。目前生物信息学在基因芯片中的应用主要体现在三个方面:1.确定芯片检测目标;2.芯片设计;3.实验数据管理与分析。 7.蛋白质结构预测。生命活动的执行者是基因的表达产物——蛋白质,而研究基因的根本目的在于解释整个生命活动的规律。因此,随着大量基因的破译及鉴定,这些基因编码的蛋白质正成为下一步研究的热点。 8.药物设计。生物信息学可用于药物靶标基因的发现和验证。有许多数据库可用来获得不同组织在正常或疾病状态下基因表达的差异,通过搜索这些数据库,可以得到候选基因作为药物靶标,特异性地针对某种疾病。 四、生物信息学在微生物方面的应用 微生物在宿主组织中生长所需要的物质合成、分解代谢以及调节相关基因都可以作为抗微生物药物设计的候选靶位。生物信息学提供了丰富的信息资源,为发现新的、更有效的药物靶位和保护性抗原提供了最大的可能。 五、生物信息学在农业上的应用 1.数据挖掘与利用。农业生物信息数据库可以高效地实现农业数据的录入、查询、统计等较低层次的功能,实现数据的积累。利用生物信息学工具就有可能对现有的农作物品种进行改造,甚至创造新的物种,丰富种质资源,以满足人类营养健康需要。 2.基因组分析。农业生物信息学能够快速进行数据分析和研究,因此提供了高效基因组分析平台。从大规模基因测序所提供的关于DNA中核苷酸的分布序列中,利用现有的生物学知识和序列信息,并结合一些成熟的统计计算方法,可以深入分析基因组序列信息、阐明基因功能。 3.电子克隆。基于生物信息学资源的电子克隆是利用计算机技术,依托现有的网络资源(核苷酸数据库、蛋白质数据库、基因组数据库等),采用生物信息学方法(包括同源性检索、聚类、序列拼装等),通过基因组的序列组装和拼接,利用RT-CR快速地获得部分乃至全长cDNA序列的方法。 4.生物信息学在农业模式植物研究领域中的应用。近年来,通过各国科学家的通力合作,植物基因组研究取得了重大进展,拟南芥、水稻等模式植物已完成了全基因组测序。目前已经建立的农作物生物信息学数据库研究平台有植物转录本(TA)集合数据库TIGR、植物核酸序列数据库PlantGDB、研究玉米遗传学和基因组学的MazeGDB数据库、研究草类和水稻的Gramene数据库、研究马铃薯的PoMaMo数据库等等。 5.生物信息学在种质资源保存研究领域中的应用。人们越来越多地应用各种分子标记来鉴定种质资源,例如微卫星、AFLP、SSAP、RBIP和SNP等。由于对种质资源进行分子标记产生了大量的数据,因此需要建立生物信息学数据库和采用分析工具来实现对这些数据的查询、统计和计算机分析等。 6.生物信息学在农药设计开发研究领域中的应用。生物信息学在药物研发中的意义在于找到病理过程中关键性的分子靶标、阐明其结构和功能关系,从而指导设计能激活或阻断生物大分子发挥其生物功能的治疗性药。 7.生物学信息学在作物遗传育种研究领域中的应用。利用生物信息学的方法,可先从模式生物中寻找可能的相关基因,然后在作物中找到相应的基因及其位点。农作物的遗传学和分子生物学的研究积累了大量的基因序列、分子标记、图谱和功能方面的数据,可通过建立生物信息学数据库来整合这些数据,从而比较和分析来自不同基因组的基因序列、功能和遗传图谱位置。 六、生物信息学在食品安全研究领域中的应用 运用生物信息学方法获得各种致病菌的核酸序列,并对这些序列进行比对,筛选出用于检测的引物和探针,进而运用PCR法、RT-PCR法、荧光RT-PCR法、多重PCR和多重荧光定量PCR等技术,可快速准确地检测出细菌及病毒。 此外,对电阻抗、放射测量、ELISA法、生物传感器、基因芯片等技术也是未来食品病毒检测的发展方向。
期刊文章分类查询,尽在期刊图书馆 七、生物信息学在医学方面的应用 1.基因组相关信息的收集、存储、管理与提供。 2.新基因的发现与鉴定。 3.非编码区信息结构分析。 4.生物进化的研究。 5.完整基因组的比较研究。 6.基因组信息分析方法的研究。 7.大规模基因功能表达谱分析。 8.蛋白质末端序列、分子空间的预测、模拟和分子设计。 9.药物设计等。 八、生物信息学关系密切的数学领域 运筹学,如动态规划法,是序列比对的基本工具,最优化理论与算法,在蛋白质空间结构预测和分子对接研究中有重要应用。 九、与生物信息学密切相关的计算机科学技术 首先是网络技术和数据库(特别是关系型数据库)管理技术,包括实验室数据信息管理系统(LIMS)。其它诸如数据整合和可视化、数据挖掘(DataMining)、基于Unix操作系统的各种软件包和一些重要算法的复杂性研究。 十、生物信息学的发展现状以及未来趋势 生物信息学将揭示人类及重要动植物种类的基因信息,为生物大分子结构模拟和药物设计提供巨大的帮助。生物信息学不仅对认识生物体和生物信息的起源、遗传、发育与进化的本质有重要意义,而且将为人类疾患的诊治开辟全新的途径,还可为动植物的物种改良提供坚实的理论基础。 生物信息学的发展已经超越了它最初的目标,现在可以说生物信息学的重要目标在于理解生物学数据和揭示生命本质,但是它的前景仍然是不可估量的。可以肯定,在不远的将来,生物信息学的研究成果不仅被应用于生物、医学等相关领域,同时将对其它学科包括信息科学、数学、计算机科学、物理学等研究产生巨大的影响。 参考文献 [1]BongukiMSBioinformatics-anewera[M].TIBC,1998(TrendsSuppl):1-3。 [2]蔡禄生物信息学教程.北京:化学工业出版社,2006,12。 [3]刘玉庆等生物信息学及其在农业上的应用前景.山东农业科学,2001年,第5期:51-54。 [4]CollinsFSNewgoalsfortheU.S.HumanGenomeProject:1998-2003。 [5]赵爱民生物信息技术发展态势分析[J].中国生物工程杂志,2003,23,(5):101-103。 [6]吴旻基因组学、生物信息学及其对科学和社会的影响[J].世界科技研究与发展,1999,21,(5)。 [7]王正华王勇献后基因组时代生物信息学的新进展[J].国防科技大学学报,2003,25,(1):1-6。 [8]王玉梅王艳国外生物信息学发展动态分析[J].科技情报开发与经济,2002,12,(6):83-85。 [9]E.Marshall.Bioinformatics:HotPropetty:Biobgistswhocompute[J].Science,1996,272:1730-1732。 [10]WikinsMRetal.Fromproteinstoproteome:largescaleproteinindentificationbytow-dimensiomalelectrophoresisandaminoacidanalysis.Bin/technology,1996,14:61-65。 [11]GashawMRajniHK.BoM.FusionofcarbohydratebindingmodulesfromThermotoganecipolitcmawithafamily10xylanasefromBacillushalodurcmsS7.Extremophiles,2007,11,(1):169-177。 [12]ParryNJBeeverDEOwenENerinckxWClaeyssensMVanBeeumenJBhatMKBiochemicalcharacterizationandmodeofactionofathermostableendoglucanasepurifiedfromThermoascusaurantiacus.ArchivesofBiochemistryandBiophysics,2002,404,(2):243-253。 [13]陈文聪胡朝晖朱庆义生物信息学的进展及其在分子微生物学研究中的应用.分子诊断与治疗杂志,2011,03,(3):第207-211页。 [14]凡时财张学工DNA甲基化的生物信息学研究进展.生物化学与生物物理进展,2009,36,(2):第143-150页。 [15]郭茹珍谢春娅微生物区系的功能基因组研究方法学.安徽农业科学,2009,37,(16):第7345-7347页。 [16]何锋等生物信息学用于代谢网络研究的进展与展望.化工学报,2004,55,(10):第1593-1601页。 [17]孟双等生物信息学在生物学研究领域的应用.微生物学杂志,2011,31,(1):第78-81页。 [18]王禄山等生物信息学及其在农业上的应用前景.山东农业科学,2001,(5):第51-54页。 [19]张春霆生物信息学的现状与展望.世界科技研究与发展,2000,22,(6):第17-20页。 [20]张松等蛋白质亚细胞定位的生物信息学研究.生物化学与生物物理进展,2007,34,(6):第573-579页。 [21]赵贵军等微生物基因组的生物信息学研究平台的建立.微生物学通报,2002,29,(4):第22-28页。