第三节 网络医学分子生物信息数据库

随着人类基因组计划的完成,在后基因组时代利用人类基因组的研究成果预见和避免基因对人类健康的伤害,从而改善人类健康起到了越来越重要的作用。所以生物信息学在医学中越来越受到重视。分子生物信息的应用主要有基因和蛋白数据库的查询和基因蛋白数据的分析,包括序列比对,基因发现,蛋白结构预测,蛋白相互作用分析等等。

一、基因数据库和蛋白数据库

当今世界上最权威最广泛的核酸序列数据库主要有3个:①欧洲生物信息学研究所维护的EMBL数据库(http://www.ebi.ac.uk/embl/); ②美国国家生物技术信息中心的GenBank数据(http://www.ncbi.nlm.nih.gov/GenbankSearch.html); ③日本国立遗传学研究所的DDBJ数据库(http://www.ddbj.nig.ac.jp)。三大数据库虽然具有各自不同的数据记录格式,但是对于核酸序列均采用了相同的记录标准,同时每天都交换数据以达到数据的更新和一致。

蛋白质数据库大致分为4种,分别是序列数据库、模体及结构域数据库、结构数据库以及分类数据库,最常用的是序列数据库和结构数据库。世界上最著名、使用最广泛的蛋白质序列数据库有PIR、SWISSPROT和TrEMBL数据库。美国和欧洲有关机构于2002年把全球三大主要蛋白质数据库资源集中起来,建设一个新的联合蛋白质数据库(Universal Protein Resource, UNIPROT)以方便各国研究人员更好地利用蛋白质科研信息。UNI-PROT的访问网址为:www.uniprot.org

二、生物信息处理

生物信息处理软件数目繁多,如限制酶切分析,引物设计、同源序列比较、结构域查找、RNA二级结构预测、蛋白三维结构模建、三维结构显示等。下面简单介绍几个实用的免费在线分析软件。

1.BLAST通过序列比对检索能查询目标序列与数据库序列的相似性,在功能预测、进化树构建、基因克隆和同源建模方面有广泛的应用。BLAST是目前常用的序列比对检索软件,意为“基本局部相似性比对搜索工具”。对一般用户来说,常用的办法是通过访问NC-BI的网站在线进行BLAST搜索。访问网址:http://blast.ncbi.nlm.nih.gov/

2.GENSCAN GENSCAN是斯坦福大学数学学院Samuel Karlin研究小组的Chris Burge开发的软件,主要用于预测多种生物体基因组序列上的完整基因的结构,包括内含子、外显子及其位置。访问网址:http://genes.mit.edu/GENSCAN.html

3.ScanProsite Prosite是个蛋白质结构域和蛋白质家族数据库,而ScanProsite可用于鉴定一个未知的蛋白质序列属于哪一个已知的蛋白质家族。访问网址:http://prosite.expasy.org/scanprosite/

4.CDD CDD是Conserved Domain Database的首字母缩写,意思是蛋白保守结构域数据库,通过搜索CDD数据库可以得到与输入序列相匹配的结构域并观察3D结构。访问网址:http://www.ncbi.nlm.nih.gov/cdd/