资源预览内容
第1页 / 共92页
第2页 / 共92页
第3页 / 共92页
第4页 / 共92页
第5页 / 共92页
第6页 / 共92页
第7页 / 共92页
第8页 / 共92页
第9页 / 共92页
第10页 / 共92页
第11页 / 共92页
第12页 / 共92页
第13页 / 共92页
第14页 / 共92页
第15页 / 共92页
第16页 / 共92页
第17页 / 共92页
第18页 / 共92页
第19页 / 共92页
第20页 / 共92页
亲,该文档总共92页,到这儿已超出免费预览范围,如果喜欢就下载吧!
点击查看更多>>
资源描述
单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,1,目录,第一节 生物信息学数据库概述,1,第二节 核酸序列数据库,2,第三节 蛋白质数据库,3,第四节 基因组数据库,4,第五节 疾病基因数据库,5,1目录第一节 生物信息学数据库概述 1第二节 核酸序列数据库,2,第一节 生物信息学数据库概述,一,生物信息学数据库的类型,二,生物信息数据收集与存贮,三,生物信息学数据库的查找,2第一节 生物信息学数据库概述一生物信息学数据库的类型 二生,3,一、生物信息学数据库的类型,文献数据库,突变数据库,图谱数据库,结构数据库,序列数据库,类型,按收录信息内容分,3一、生物信息学数据库的类型文献数据库 突变数据库 图谱数据,4,二、生物信息数据收集与存贮,(一)生物信息数据的收集,生物信息数据收集与存贮,(二)生物信息数据的存贮,4二、生物信息数据收集与存贮 (一)生物信息数据的收集 生物,5,(一)生物信息数据的收集,数据库与数据库合作,数据库与测序中心合作,数据库与期刊合作,建库的初期,4,数据交换,3,成批发送,2,直接发送,1,人工收集,5(一)生物信息数据的收集 数据库与数据库合作数据库与测序中,6,(二)生物信息数据的存贮,1,记录格式,主要有:,EMBL,格式、,GenBank,格式,存贮格式,2,序列格式,又称,Pearson,格式,6(二)生物信息数据的存贮1记录格式存贮格式2序列格式,三、生物信息学数据库的查找,(一)通过搜索引擎查找,(二)通过专门的生物信息学数据库目录查询,从,2000,年开始,,Nucleic Acids Research ,设立了一个数据库目录(,http:/www.oxfordjournals.org/nar/database/c/,)。,(三)通过生物信息学中心资源导航查询,一些著名的生物信息学中心不仅自己建立和维护大量的生物信息数据库,而且一般在网上提供资源导航。,三、生物信息学数据库的查找 (一)通过搜索引擎查找,8,第二节 核酸序列数据库,一,GenBank,二,EMBL-Bank,三,DDBJ,8第二节 核酸序列数据库一GenBank 二EMBL-Ban,9,(一),GenBank,概述,一、,GenBank,(二),GenBank,检索,9(一)GenBank概述 一、GenBank(二)GenB,(一),GenBank,概述,是由美国国家生物技术信息中心,(NCBI),管理和维护大型、综合性的公共核酸序列数据库,包括所有已知的核酸序列和蛋白质序列,以及与它们相关的文献和生物学注释。,网址:,http:/www.ncbi.nlm.nih.gov/Genbank/index.html,(一)GenBank概述是由美国国家生物技术信息中心(NCB,11,国际核酸序列数据库协作体,INSDC,DDBJ,EMBL,GenBank,11国际核酸序列数据库协作体 INSDC DDBJ EMBL,(一),GenBank,概述,GenBank,的数据来源于约,260000,个物种,每月新增,1700,多个物种。大约,12%,的序列来自于人类,其中,8%,是人类的,EST,序列。,每条,GenBank,数据记录包含对序列的简要描述、它的科学命名、物种分类名称、参考文献、序列特征表以及序列本身。,序列特征表里包含对序列生物学特征注释,如编码区、转录单元、重复区域、突变位点或修饰位点等。,所有数据记录被划分成若干个子库,如细菌类(,BCT,)、病毒类(,VRL,)、灵长类(,PRI,)、啮齿类(,ROD,)以及,EST,数据、基因组序列数据(,GSS,)、高通量基因组序列数据(,HTG,)等,19,类,其中,EST,数据等又被分成若干子库。,(一)GenBank概述GenBank的数据来源于约2600,(二),GenBank,检索,Entrez,是,NCBI,生物信息学数据库集成检索系统,可以检索以下生物信息学数据库。,(二)GenBank检索 Entrez是NCBI生物信息学数,例如,查找,H1N1,流感病毒(,H1N1 Flu Virus,)的核酸序列。其检索步骤是:,例如,查找H1N1流感病毒(H1N1 Flu Virus)的,(,1,)进入,Entrez,主页(,http:/www.ncbi.nlm.nih.gov/gquery/,),在提问框输入,H1N1 Flu Virus,。,(1)进入Entrez主页(http:/www.ncbi.,(,2,)点击“,GO”,,得到各个数据库的检索结果。,(2)点击“GO”,得到各个数据库的检索结果。,(,3,)点击“,Nucleotide,:,Core subset of nucleotide sequence records”,,得到,GenBank,核酸序列数据库中的,4801,条记录简要格式(,Summary,)。,(3)点击“Nucleotide: Core subset,(4,)点击记录的标题,即可获取该记录的详细信息。,(4)点击记录的标题,即可获取该记录的详细信息。,19,(一),EMBL-Bank,概述,二、,EMBL-Bank,(二),EMBL-Bank,检索,19(一)EMBL-Bank概述 二、 EMBL-Bank,(一),EMBL-Bank,概述,EMBL-Bank(http:/www.ebi.ac.uk/embl/),是国际三大核酸序列数据库之一,创建于,1982,年。现由欧洲生物信息学研究所,(EBI),管理和维护,主要收集欧洲产生的核酸序列数据。,到,2009,年,8,月,,EMBL-Bank,(,101,版)的核酸序列达到,163656234,条,碱基数达到,283748816763,个。,对于每条核酸序列,相关信息包括序列名称、序列、染色体定位、关键字、来源生物体、参考文献、注释、序列中具有重要生物学意义的位点等。,(一)EMBL-Bank概述EMBL-Bank(http:/,(二),EMBL-Bank,检索,获取,EMBL-Bank,的核酸序列数据主要是通过,SRS,(,Sequence Retrieval System,)序列检索系统,由,Lion Bioscience,公司继续开发,而成为一个商业软件,科研单位只要与它签订协议即可获得该软件的免费使用权。,SRS,是一个开放式的,可以根据需要安装不同的数据库。,(二)EMBL-Bank检索获取EMBL-Bank的核酸序列,SRS,查询方法,通过,EBI,的,SRS,服务器(,http:/srs.ebi.ac.uk,)进入,Quick Search,界面。,点击“,Library Page”,,即数据库选择页。,选择好要检索的数据库后,,SRS,提供三种查询方式。,(,1,),Quick Search,(,快速查询,),(,2,),Standard Query(,标准查询,),(,3,),Extended Query(,扩展查询,),SRS查询方法 通过EBI的SRS服务器(http:/sr,(,1,),Quick Search(,快速查询,),(1)Quick Search(快速查询),(,2,),Standard Query(,标准查询,),(2)Standard Query(标准查询),(,3,),Extended Query(,扩展查询,),(3)Extended Query(扩展查询),标准查询后的结果,标准查询后的结果,CS116935,的详细信息,CS116935的详细信息,28,(一),DDBJ,概述,三、,DDBJ,(二),DDBJ,检索,28(一)DDBJ概述 三、DDBJ(二)DDBJ检索,(一),DDBJ,概述,DDBJ (DNA Data Bank of Japan,,日本核酸数据库,,http:/www.ddbj.nig.ac.jp/index-e.html),创建于,1986,,现由日本国家遗传学研究所的生物信息中心(,CIB/DDBJ,)管理和维护。,截止至,2009,年,9,月,,DDBJ,(,79,版)共收录,108,593,519,条序列, 106,684,379,504,个碱基。,DDBJ,主页除了提供,SRS,、,ARSA,、,TXSearch,、,BLAST,等数据检索功能外,还提供,SAKURA,、,MSS,、,Sequin,数据提交工具和,CLUSTAL W,、,FASTA,、,BLAST,等数据分析工具。,(一)DDBJ概述 DDBJ (DNA Data Bank,(二),DDBJ,检索,通过,getentry,、,ARSA,、,SRS,、,TXSearch,、,BLAST,、,PSI-BLAST,、,FASTA,、,SSEARCH,等检索工具可以获取,DDBJ,数据。,前四种用于检索,DDBJ,数据库中的原始数据,其中,getentry,属于存取号检索,,SRS,和,ARSA,属于关键词检索,,TXSearch,属于分类检索;,后,4,种对用户提供的序列或片断作同源性分析。,(二)DDBJ检索通过getentry、ARSA、SRS、T,31,第三节 蛋白质数据库,一,蛋白质序列数据库,二,蛋白质结构数据库,三,蛋白质功能数据库,31第三节 蛋白质数据库 一蛋白质序列数据库 二蛋白质结构数,32,一、蛋白质序列数据库,(三),TrEMBL,(四),GenPept,(二),SWISS-PROT,(一),PIR,(五),UniProt,(六),OWL,32一、蛋白质序列数据库 (三)TrEMBL (四)GenP,(一),PIR,创建于,1984,年。,1988,年,美国,NBRF,、日本国际蛋白质信息数据库(,Japan International Protein Information Database, JIPID,)与德国的慕尼黑蛋白质序列信息中心(,Munich Information Center for Protein Sequences, MIPS,)合作成立国际蛋白质序列信息中心(,PIR-International,)。,第,75.03,版的,PIR,数据库按照数据的性质和注释详略分成四个子库:,PIR1,、,PIR2,、,PIR3,和,PIR4,。,PIR1,中的序列已经验证,注释最为详尽;,PIR2,中包含尚未确定的冗余序列;,PIR3,中的序列尚未加检验,也未加注释;,PIR4,包括其他渠道获得的序列,既未验证,也无注释。,网址:,http:/pir.georgetown.edu/,(一)PIR 创建于1984年。,PIR,主页,PIR主页,(二),SWISS-PROT,创建于,1986,年,由瑞士生物信息学研究所(,Swiss Institute of Bioinformatics,,,SIB,)和欧洲生物信息研究所(,EBI,)共同维护和管理。,1994,年,,SIB,创建蛋白质专家分析系统,(Expert Protein Analysis System,,,ExPASy) (http:/www.expasy.Ch),,除了开发、维护和管理,SWISS-PROT,数据库外,还提供蛋白质序列、结构、功能和蛋白质,2D-PAGE,图谱等蛋白质信息资源,到,2009,年,10,月,,SWISS-PROT,(,57.11,版)收录了,512994,条序列,包含,180531504,个氨基酸。,网址:,http:/expasy.org/sprot/,(二)SWISS-PROT创建于1986年,(三),TrEMBL,创建于,1996,年,意即“,Translation of EMBL”,,是计算机翻译并注释的蛋白质序列数据库,收录的序列是从,EMBL,中的,cDNA,序列翻译得到的。记录采用,SWISS-PROT,数据库格式。,TrEMBL,分为两个部分:,SP-TrEMBL,和,REM-TrEMBL,。,SP-TrEMBL,的条目已经专家分类并且给予,SWISS-PROT,存取号,但尚未通过人工审查,最终将收入,SWISS-PROT,。,REM-TrEMBL,包含其他剩余序列,主要是免疫球蛋白、,T,细胞受体、少于,8,个氨基酸碱基的多肽、人工合成序列、专利序列等。,http:/www.ebi.ac.uk/trembl/,(三)TrEMBL 创建于1996年,意即“Translat,(四),GenPept,由,GenBank,中的,cDNA,序列翻译得到的蛋白质序列数据库。,网址:,ftp:/ncbi.nlm.nih.gov/genbank/genpept/,),(四)GenPept 由GenBank中的cDNA序列翻译得,(五),UniProt,将,PIR,、,SWISS-PROT,和,TrEMBL3,个蛋白质数据库统一起来组建而成,包含,3,个部分:,(,1,),UniProt Knowledgebase,(,UniProtKB,),这是蛋白质序列、功能、分类、交叉引用等蛋白质知识库,记录经过人工筛选和注释;,(,2,),UniRef,(,UniProt Non-redundant Reference,)数据库,将密切相关的蛋白质序列组合到一条记录中,以便提高搜索速度;目前,根据序列相似程度形成,3,个子库,即,UniRef100,、,UniRef90,和,UniRef50,;,(,3,),UniParc,(,UniProt Archive,),是,UniProt,存档库,收录所有蛋白质序列。用户可以通过文本查询数据库,可以利用,BLAST,程序搜索数据库,也可以直接通过,FTP,下载数据。,网址:,http:/www.uniprot.org/,(五)UniProt 将PIR 、SWISS-PROT和Tr,UniProt,主页,UniProt主页,(六),OWL,1994,年由英国里兹(,Leeds,)大学和,Warrington,的,Daresbury,国家实验室合作创建并维护的一个复合型数据库。,数据来源于,SWISS-PROT,、,PIR,、,GenPept,、,SWISS-PROT,、,PDB,、,NRL3D,等数据库,去重后整合而成的非冗余蛋白质序列数据库。,网址:,http:/www.bioinf.manchester.ac.uk/dbbrowser/OWL/index.php,(六)OWL 1994年由英国里兹(Leeds)大学和War,OWL,主页,OWL主页,小结:,SWISSPROT,的序列经过严格审核,注释完善,但数量仍较少。,PIR,数据量较大,但包含未经验证的序列,注释也不完善。,TrEMBL,和,GenPept,的数据量最大,且随核酸序列数据库的更新而更新,但是由于,TrEMBL,和,GenPept,均是由核酸序列经过计算机程序翻译生成的,这两个数据库中的序列错误率较大,并存在较多的冗余序列。,OWL,中的序列虽具有较好的代表性,但采用某些标准取舍序列,导致某些数据不完整。,UniProt,中的序列具有较好的代表性,数据较完整。,小结:SWISSPROT的序列经过严格审核,注释完善,但数,43,二、蛋白质结构数据库,(三),DSSP,(四),HSSP,(二),MMDB,(一),PDB,(五),SCOP,(六),CATH,43二、蛋白质结构数据库 (三)DSSP (四)HSSP,(一),PDB,创建于,1971,年,是国际上最著名、最完整的蛋白质三维结构数据库。,最先由美国,Brookhaven,国家实验室负责维护和管理,从,1998,年开始,由结构生物信息学合作研究协会,(RCSB),负责管理。,到,2009,年,12,月统计,,PDB,数据库已经收录了利用,X,线衍射、,NMR,、电子显微镜实验数据或理论计算得出的蛋白质、核酸、蛋白质,/,核酸复合物等结构数据,61808,条,而且数据增长速度相当快。,(一)PDB创建于1971年,是国际上最著名、最完整的蛋白质,PDB,数据库以文本文件格式存放数据,每条记录即是一个独立的文件,包括物种来源、化合物名称、原子坐标、结构提交者以及有关文献等基本注释信息。,此外,还包括分辨率、结构因子,温度系数、主链数目、配体分子式、金属离子、二级结构信息、二硫键位置等和结构有关的数据。,网址:,http:/www.rcsb.org/pdb/home/home.do,PDB数据库以文本文件格式存放数据,每条记录即是一个独立的文,PDB,主页,PDB主页,(二),MMDB,MMDB,是,NCBI,的分子模型数据库,收录了由晶体衍射和核磁共振实验研究得到的蛋白质三维结构。,MMDB,采用,ASN.1,记录格式,而不是采用,PDB,记录格式。,MMDB,结构与原始的,PDB,结构相比,增加了许多附加信息,如经程序验证的显性化学图像,一致的二级结构衍生定义,与,MEDLINE,相匹配的引用等。,MMDB,可利用,Entrez,进行文本查询。,MMDB,检索项包含,PDB,、,MMDB,的存取号,源自,PDB,注释记录的自由文本,作者名及其它书目检索项。,VAST,(矢量分析检索工具)用于检索三维结构的相似性。它舍弃了序列信息,而单纯依靠由二级结构衍生的三维矢量指标进行检索。,Cn3D,是一种新的三维结构浏览器,用于浏览,MMDB,数据记录。,(二)MMDB MMDB是NCBI的分子模型数据库,收录了由,(,三,) DSSP,DSSP,是一个蛋白质二级结构数据库。目前,收录了,59474,条记录。,DSSP,对蛋白质二级结构划分得比较详细,共分,7,种二级结构,其编码含义如下:,H,代表,螺旋,,E,代表,折叠,,G,和,I,分别代表,3-,螺旋和,螺旋,,B,代表孤立的,桥,,T,代表氢键转折,,S,代表弯曲。图,8-8,是一个具体的蛋白质二级结构实例,其上面一行代表蛋白质序列,下面一行是对于各个氨基酸残基所处二级结构的注释。,网址:,http:/swift.cmbi.ru.nl/gv/dssp/,),(三) DSSP DSSP是一个蛋白质二级结构数据库。目前,,(四),HSSP,HSSP,是一个基于蛋白质同源的蛋白质结构。目前,收录了,58774,条记录。,对于一个蛋白质,,HSSP,组合二级结构、三维结构数据和序列数据,其数据主要来源于,PDB,及其它蛋白质序列数据库,如,SWISS-PROT,。,HSSP,不仅是蛋白质家族序列比对数据库,同时该数据库隐含了二级结构和空间结构信息,覆盖了,SWISS-PROT,中,27%,的蛋白质。,HSSP,有助于分析蛋白质的保守区域,确定有意义的序列模式,研究蛋白质的进化关系,研究蛋白的折叠,也有助于蛋白质的分子设计。,网址:,http:/swift.cmbi.kun.nl/swift/hssp/,(四)HSSP HSSP是一个基于蛋白质同源的蛋白质结构。目,(五),SCOP,SCOP,是英国医学研究委员会分子生物学实验室和蛋白质工程中心开发的,基于,Web,的蛋白质结构数据库分类、检索和分析系统。,SCOP,按结构和进化关系对蛋白质分类,主要划分为全,型、全,型、以平行折叠为主的,/,型、以反平行折叠为主的,+,型等,11,类。,然后,再将属于同一结构类型的蛋白质按照折叠,(Fold),、超家族,(Superfamily),、家族,(Families),、蛋白质结构域(,Protein Domains,)、单个,PDB,蛋白质结构层次组织起来。,网址:,http:/scop.mrc-lmb.cam.ac.uk/scop/,(五)SCOP SCOP 是英国医学研究委员会分子生物学实验,SCOP,主页,SCOP 主页,(六),CATH,CATH,是一个关于已知蛋白质结构域的分级分类数据库,由英国伦敦大学开发和维护。,CATH,主要有四个层次:类,(Class,,,C),、构架,(Architecture,,,A),、拓扑,(Topology,,,T),和同源超家族,(Homology superfamily,H),。,CATH,的类与,SCOP,数据库类似,主要根据二级结构划分为,、,、,+,、,/,等结构类型。,构架层次描述结构域的形状,主要由其二级结构的取向决定。,拓扑层描述的是折叠家族的水平。,同源超家族层次则将对此具有同源性的蛋白质聚类在一起。,网址:,http:/www.cathdb.info/,(六)CATH CATH是一个关于已知蛋白质结构域的分级分类,CATH,主页,CATH主页,54,三、蛋白质功能数据库,(三),STRING,(二),DIP,(一),BOND,(四),KEGG,54三、蛋白质功能数据库 (三)STRING (二)DIP,(一),BOND,BOND,是生物分子网络数据库,创建于,2005,年,由,Unleashed Informatics,公司管理和维护。,主要收录生物分子及其蛋白质序列、结构和相互作用等数据,其中生物分子包括蛋白质、,DNA,、,RNA,、配基、复合体、基因、光子(,photon,)等。,BOND,集成了多个重要数据库,如,BIND,(生物分子相互作用网络数据库,),、,SMID,(小分子相互作用数据库)、,Genbank,、,GO,(基因本体)、,OMIM,、,conserved domains,(保守功能域)、交叉参考数据库、完整基因组等。,网址:, BOND是生物分子网络数据库,创建于2005,BOND,主页,BOND主页,(二),DIP,DIP,专门存放实验确定的蛋白质之间相互作用的数据,既包括经典实验手段确定的蛋白质相互作用,也包括高通量实验手段确定的蛋白质相互作用数据。,数据要经过人工审核和采用计算方法自动验证后加入数据库。数据的自动验证有,3,种指标,即,EPR Index,、,PVM Score,和,DPV Score,。,在目前缺乏蛋白质相互作用数据金标准的现实情况下,,DIP,为采用计算的方法自动验证高通量技术产生的蛋白质相互作用数据做了开拓性的工作。,DIP,还利用,XML,技术专门开发了一种用来存放和交换蛋白质相互作用数据的,xin,格式。,网址:,http:/dip.doe-mbi.ucla.edu/,(二)DIP DIP专门存放实验确定的蛋白质之间相互作用的数,DIP,主页,DIP主页,(三),STRING,STRING,不仅存贮实验确定的蛋白质相互作用数据,而且还存贮预测的蛋白质相互作用数据,并对各种预测方法的准确性给出了相应的权重,对于采用经典实验方法研究蛋白质的功能、生物学意义具有非常重要的意义。,数据来源有,4,种,一是高通量实验技术产生的蛋白质相互作用数据,二是由保守的共表达数据推导出的蛋白质功能联系,三是文献搜索得到的蛋白质相互作用数据,四是采用预测蛋白质相互作用的方法,根据基因组中基因的上下文关系(,genomic context,)预测得到的蛋白质相互作用数据。,目前,STRING,数据库已经包括,179,个物种中的,736429,个蛋白,覆盖率相当高。,网址:,http:/string.embl.de/,(三)STRING STRING不仅存贮实验确定的蛋白质相互,STRING,主页,STRING主页,(四),KEGG,京都基因和基因组百科全书,(KEGG),是系统分析基因功能,联系基因组信息和功能信息的知识库。,基因组信息存贮在,GENES,数据库里,包括完整和部分测序的基因组序列;,功能信息存贮在,PATHWAY,数据库里,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通路等信息;,KEGG,的另一个数据库是,LIGAND,,包含关于化学物质、酶分子、酶反应等信息。,KEGG,提供了,Java,的图形工具来访问基因组图谱,比较基因组图谱和操作表达图谱,以及其它序列比较、图形比较和通路计算的工具,可以免费获取。,网址:,http:/www.genome.jp/kegg/,(四)KEGG 京都基因和基因组百科全书(KEGG)是系统分,KEGG,主页,KEGG主页,63,第四节 基因组数据库,一,Entrez Gonomes,二,Ensembl,三,UCSC Genome Browser,四,其他基因组数据库,63第四节 基因组数据库一Entrez Gonomes 二E,一、,Entrez Gonomes,NCBI,提供的,是世界上最大、最完整的多物种的基因组资源。目前已收录,5937,个物种的,8500,多条记录,,按生物体分成古细菌(,Archaea,)、细菌(,Bacteria,)、真核生物(,Eukaryotae,)、病毒(,Viruses,)、类病毒(,Viroids,)和质粒(,Plasmids,)六大类。,提供了各种基因组图谱,包括完整的染色体、序列图谱、遗传图谱、物理图谱和连续子(,contigs,)图谱。,可以通过,Entrez,进行关键词搜索,也可以通过,Map Viewer,进行浏览、检索及编辑。,网址:,http:/www.ncbi.nlm.nih.gov/sites/genome,一、Entrez Gonomes NCBI提供的,是世界上最,Entrez Gonomes,主页,Entrez Gonomes主页,(一),Map Viewer,Map Viewer,是一种从众多资源中汇集图谱和序列信息的图谱浏览器。它既允许用户浏览和检索某有机体完整基因组信息,又允许用户在序列水平,通过浏览单个染色体图谱或某染色体上的特定区域,探查完整基因组信息。,对于每一个基因组,,Map Viewer,从,4,个层次揭示其信息:,生物体主页(,Home Page,),基因组浏览(,Genome View,),图谱浏览(,Map View,),序列浏览(,Sequence View,),(一)Map Viewer Map Viewer是一种从众多,(二),Map Viewer,的使用,Map Viewer,主页,(二)Map Viewer的使用 Map Viewer主页,检索结果,检索结果,有关,ARMS2,更详细的信息,有关ARMS2更详细的信息,二、,Ensembl,Ensembl,是一个有关人类基因组及其他物种基因组的综合数据库。始建于,1996,年,由,EMBL-EBI,和,Sanger,研究所共同开发。,目前包括人类、小鼠、斑马鱼、马、猩猩等几十种生物基因组的注释分析。,Ensembl,主要根据已经测得的基因组序列,定位所有已知基因,并预测未知新基因,同时为这些基因提供功能、疾病相关特征等方面的注释信息。,Ensembl,基因组注释的核心部分是基因预测,这部分工作的好坏直接影响最终结果。,网址:,http:/www.ensembl.org/index.html,二、Ensembl Ensembl是一个有关人类基因组及其他,Ensembl,主页,Ensembl主页,三、,UCSC Genome Browser,UCSC Genome Browser,是美国加利福尼亚大学,Santa Cruz,分校的,Jim Kent,等建立的人类基因组图谱三大门户网站之一。,目前该数据库采用,NCBI,拼接整合的人类基因组序列作为平台,提供了很多基因组中的定位数据,包括染色体区带、连续子和间隙、,mRNA,和表达序列标签,(EST),、预测基因、单核苷酸多态(,SNPs,)、,STS,的遗传和放射杂交图谱、重复序列、鼠同源序列、斑马鱼(,Tetraodon nigroviridis,)同源序列等。,大多数据与其他数据库链接,如,RefSeq,、,LocusLink,、,PubMed,、,GeneLynx,、,GenCards,、,AceView,等。,网址:,http:/genome.ucsc.edu/,三、UCSC Genome Browser UCSC Gen,UCSC Genome Browser,主页,UCSC Genome Browser主页,74,鼠基因组数据库,人类基因组数据库,线虫基因组数据库,四、其他基因组数据库,(一),GDB,(二),MDB,(三),ACEDB,74鼠基因组数据库 人类基因组数据库 线虫基因组数据库 四、,(一),GDB,GDB,(人类基因组数据库)由美国,John Hopkins,大学于,1990,年建立,,1998,年年底移至加拿大多伦多儿童医院生物信息中心。,GDB,采用表格方式给出基因组结构数据,包括基因单位、,PCR,位点、细胞遗传标记、,EST,、连续子、重复片段等;并可显示基因组图谱,包括细胞遗传图、连锁图、放射杂交图、连续子图、转录图等,并给出等位基因等基因多态性数据库。,网址:,http:/www.gdb.org/,(一)GDBGDB(人类基因组数据库)由美国John Hop,(二),MDB,MDB,(鼠基因组数据库,)由,Jackson,实验室于,1997,年创建。,收录遗传、物理、比较图谱数据、克隆,/,探针,/PCR,信息、基因的表型描述、突变和老鼠种株的遗传记、哺乳类同源性确定、参考文献等。,网址:,http:/www.informatics.jax.org,(二)MDBMDB(鼠基因组数据库,)由Jackson实验室,(三),ACEDB,ACEDB,(线虫基因组数据库,)是一种被广泛应用的管理和提供基因组数据的工具组,适用于许多动物和植物的基因组计划。,ACEDB,以丰富的图形界面提供信息,包括有具体显示的基因图谱、物理图谱、新陈代谢的途径和序列等。,数据采用面向对象的形式进行组织,如相关的文献、基因、描述和克隆的,DNA,等。可用于专用的数据分析以及许多永久性数据的采集。,网址:,http:/www.acedb.org/,(三)ACEDB ACEDB(线虫基因组数据库,)是一种被广,78,第五节 疾病基因数据库,一,OMIM,二,GeneCards,三,突变数据库,四,单核苷酸多态性数据库,78第五节 疾病基因数据库 一OMIM 二GeneCards,79,一、,OMIM,OMIM,概述,OMIM,数据的存贮,OMIM,检索,OMIM,在医学遗,传学中的应用价值,(二),(一),(三),(四),79一、OMIMOMIM概述 OMIM数据的存贮 OMIM检,(一),OMIM,概述,“在线人类孟德尔遗传”(,Online Mendelian Inheritance in Man,,,OMIM,),是在美国,John Hopkins,大学医学院,Victor A,McKusick,教授编撰的,人类孟德尔遗传,一书的基础上发展起来的,,内容包括所有已知的遗传病、遗传决定的性状及其基因,除了简略描述各种疾病的临床特征、诊断、鉴别诊断、治疗与预防外等文本资料,还提供已知有关疾病相关基因的连锁关系、染色体定位、组成结构和功能、动物模型,并附有其相关的图片、研究历史和参考文献。,(一)OMIM概述 “在线人类孟德尔遗传”(Online M,81,OMIM,具有以下主要特点:,及时性,准确性,全面性,实用性,它不仅是一个人类基因和遗传疾病的数据库,更重要的是一个不断更新的知识库,,内容每天更新。,一旦遇到涉及某一新遗传性疾病的论文,要经过几位高级临床医师的严格审查、讨论,方可载入,从,200,多种杂志发表的论文和专著中积累资料,不仅包括单基因病,而且包括染色体病、多基因病、线粒体病资料。,使科研人员从浩瀚的文献中解脱出来,快速掌握某种疾病的遗传学知识。,81OMIM具有以下主要特点: 及时性 准确性 全面性 实用,(二),OMIM,数据的存贮,OMIM,每一条记录都有一个唯一的编号,即,OMIM,存贮号,对应一个基因或者是某种疾病。,OMIM,存贮号采用,6,位数字系统,如下表。,(二)OMIM数据的存贮 OMIM每一条记录都有一个唯一的编,OMIM,存贮号前通常带有一种符号。,*号表示序列已知的基因;,#,号表示分子基础已知的表型;,+,号表示序列和表型已知的基因;,%,号表示孟德尔表型或表型位点已证实但是分子基础未知;,表明该记录已经删除或者赋予了新的,OMIM,存贮号。,如果,OMIM,存贮号前不带符号,则表明该记录是一种尚未得以证实的孟德尔表型。,OMIM存贮号前通常带有一种符号。,(三),OMIM,检索,“,0MIM”,的,Entrez,检索,检索方法与,GenBank,的,Entrez,检索相同,(,详见本章第二节,),,可以用记录内检索字段中出现的任何词,(,包括基因符号、疾病名称、症状、染色体定位、著者等,),。词与词间可以用字段名称加以限定,也可用逻辑运算符相连进行复合检索。,2.“Search OMIM”,检索,是在,Entrez,检索的基础上,根据,OMIM,记录的字段特点,给出限制性检索字段的复选,以及染色体位置选择和数据时间段的限定。,(三)OMIM检索 “0MIM”的Entrez检索,3. “Search Gene Map”(,基因图谱检索,),是针对,OMIM,所描述的表达基因及疾病基因的细胞遗传学定位图,(,染色体定位,),的检索。可以输入基因符号、疾病、染色体定位来检索,(,性染色体,x,、,Y,须大写,),,如“,CYP1”,、“,5”,、“,1pter”,、“,Xq”,或“,alzheimer”,。,4. “Search Morbid Map”(,疾病图谱检索,),与基因图谱检索相同。,3. “Search Gene Map”(基因图谱检索),86,(四),OMIM,在医学遗传学中的应用价值,1,2,3,4,利用,OMIM statistics,了解最新的有关遗传病、性状及基因的信息。,利用,OMIM,数据库获得遗传病诊断、咨询及治疗的资料。,利用,OMIM,数据库获取遗传病最新、最详细的研究资料。,利用,OMIM,的,Gene map,和,Morbid Map,获取疾病基因定位的详细资料。,86(四)OMIM在医学遗传学中的应用价值1234利用OMI,二、,GeneCards,GeneCards,是一个收集并展示人类基因及其产物和相关疾病等综合信息的知识平台,由以色列的,Weizmann,研究所基因组研究中心和生物信息学中心共同开发。,内容包括基因命名及描述(,Aliases & Descriptions,)、基因组定位(,Genomic Location,)、蛋白质特征(,Protein Features,)、蛋白质功能域及家族(,Protein Domains & Families,)、基因功能(,Gene Function,)蛋白质通路和相互作用(,Pathways & Interactions,)、药物及成分相关信息(,Associations with Drugs & Compounds,)、转录本和剪接异构体(,Transcripts and Splice isoforms,)、基因表达相关信息(,Expression-related information,)、直系同源基因(,Orthologs,)、旁系同源基因与假基因(,Paralogs & Pseudogenes,)、单核苷酸多态性(,SNPs,)、疾病与突变(,Disorders & Mutations,)、医学新闻(,Medical News,)、出版物(,Publications,)等。,二、GeneCards GeneCards是一个收集并展示人,每个基因的信息来源于大约,50,个公共的和私人的数据库,如,Ensembl,、,dbSNP,、,FlyBase,、,Genatlas,、,GenBank,、,GO,、,GeneAnnot,、,GeneLynx,、,GeneNote,、,GeneTests,、,HUGE,、,HUGO Gene Nomenclature Committee,、,OMIM,、,PubMed,、,Swiss-Prot,、,HGMD,等。,目前,,GeneCards,推出第,3,版,有,55 546,个基因信息,其中,28139,个已经被,HUGO,基因命名委员会审核通过。,GeneCards,在网上免费提供简单检索(,Simple Search,)、截词检索(,Wild Card Search,)、多词逻辑组配检索(,Multiword Search,)和高级检索(,Advanced Search,),4,种检索方式。,网址:,http:/www.genecards.org/,每个基因的信息来源于大约50个公共的和私人的数据库,如Ens,GeneCards,主页,GeneCards主页,90,三、突变数据库,(二),HGVbaseG2P,(三),p53,基因突变数据库,(一),HGMD,由英国卡尔地夫医学遗传研究所构建的。突变信息包括染色体定位、突变类型列表和相关的表型列表,并将基因内所有突变定位到,HGMD,的参考序列上。,由,EBI,以及瑞典卡罗林研究所联合构建。数据来源于文献、其他数据库和本实验室的工作结果及直接提交。,HGVbaseG2P,主要收录了基因内的,DNA,多态和短小的插入、缺失突变。,列出了,p53,基因突变,,p53,基因是在人的各种癌症中突变频率最高的基因之一。这些点突变能引起氨基酸的改变,从而影响蛋白质的正常功能,从而揭示遗传因素和环境因素在癌症发生中的作用。,90三、突变数据库(二)HGVbaseG2P (三)p53基,91,由,TSC,的冷泉港,(Cold Spring Harbor),研究室负责维护。大约有,140,万个,SNPs,信息存贮入,TSC,。,由,NCBI,和,NHGRI),共同创建,,dbSNP,是一个主要的公共遗传变异贮存库。,JSNP,是日本人群的单核苷酸多态性资料数据库,始建于,2000,年,由东京大学医学科学研究所创建。,四、单核苷酸多态性数据库,(一),dbSNP,(二),TSC,(三),JSNP,91由TSC的冷泉港(Cold Spring Harbor),92,Thank You !,92Thank You !,
点击显示更多内容>>

最新DOC

最新PPT

最新RAR

收藏 下载该资源
网站客服QQ:3392350380
装配图网版权所有
苏ICP备12009002号-6