中文XML论坛--结构分类数据库

结构分类数据库

发信人: palomino (~快马加鞭~), 信区: Bioinformatics
标题: 结构分类数据库
发信站: 北大未名站 (2002年03月23日15:37:13 星期六), 转信

结构分类数据库

除了基因组数据库和序列数据库外，生物大分子三维空间结构数据库则是另一类重要的
分子生物信息数据库。根据分子生物学中心法则，DNA序列是遗传信息的携带者，而蛋白
质分子则是主要的生物大分子功能单元。蛋白质分子的各种功能，是通过不同的三维空
间结构实现的。因此，蛋白质空间结构数据库是生物大分子结构数据库的主要组成部分
。蛋白质结构数据库是随X-射线晶体衍射分子结构测定技术的现而出现的数据库，其基
本内容为实验测定的蛋白质分子空间结构原子坐标。90年代以来，越来越多的蛋白质分
子结构被测定，蛋白质结构分类的研究不断深入，出现了蛋白质家族、折叠模式、结构
域、回环等数据库。[http://www.cbi.pku.edu.cn/chinese/documents/bioinfor/overv
iew/web5/link1.2.4.html]列出目前主要的蛋白质结构数据库和信息资源的网址。

蛋白质结构数据库PDB

早在序列数据库诞生之前的70年代，蛋白质结构数据库(Protein Data Bank，简称PDB)
就已经问世。PDB数据库原来由美国Brookhaven国家实验室负责维护和管理。为适应结构
基因组和生物信息学研究的需要，1998年，由美国国家科学基金委员会、能源部和卫生
研究院资助，成立了结构生物学合作研究协会(Research Collaboratory for
Structural Bioinformatics，简称RCSB)。PDB数据库改由RCSB管理[Berman HM，2000]
，目前主要成员为Rutger大学、圣地亚哥超级计算中心(San Diego Supercomputer
Center，简称SDSC)和国家标准化研究所(National Institutes of Standards and
Technology，简称NIST)。和核酸序列数据库一样，可以通过网络直接向PDB数据库递交
数据。

PDB是目前最主要的蛋白质分子结构数据库。随着晶体衍射技术的不断改进，结构测定的
速度和精度也逐步提高。90 年代以来，多维核磁共振溶液构象测定方法的成熟，使那些
难以结晶的蛋白质分子的结构测定成为可能。蛋白质分子结构数据库的数据量迅速上升
。据2000年5月统计，PDB数据库中已经存放了1万2千多套原子坐标，其中大部分为蛋白
质，包括多肽和病毒，共1万多套。此外，还有核酸、蛋白和核酸复合物以及少量多糖分
子。近年来，核酸三维结构测定进展迅速，PDB数据库中已经收集了800多套核酸结构数
据。

PDB数据库以文本文件的方式存放数据，每个分子各用一个独立的文件。除了原子坐标外
，还包括物种来源、化合物名称、结构递交着以及有关文献等基本注释信息。此外，还
给出分辨率、结构因子，温度系数、蛋白质主链数目、配体分子式、金属离子、二级结
构信息、二硫键位置等和结构有关的数据。PDB数据库以文本文件格式存放，可以用文字
编辑软件查看。显然，用文字编辑软件查看注释信息不太方便，更无法直观地了解分子
的空间结构。RCSB开发的基于Web的PDB数据库概要显示系统，只列出主要信息。用户如
须进一步了解详细信息，或查询其它蛋白质结构信息资源，可点击该页面左侧窗口中的
按钮。此外，英国伦敦大学开发的PDBsum数据库[Laskowski等, 1997]是基于网络的PDB
注释信息综合数据库，用于对PDB数据库的检索，使用十分方便。并将RasMol、CN3D等分
子图形软件综合在一起，同时具有分析和图形显示功能。

必须指出的是，与EMBL和PIR等序列数据库一样，结构数据库PDB也属于一次数据库，其
中包括许多冗余的数据，乃至错误。PDBCheck合作研究组对PDB数据库进行了全面的检验
，并把结果存放在PDBReport数据库中，用户在使用PDB数据库中的某个文件时，可先查
阅该数据库。

蛋白质结构分类数据库SCOP和CATH

蛋白质结构分类是蛋白质结构研究的一个重要方向。蛋白质结构分类数据库，是三维结
构数据库的重要组成部分。蛋白质结构分类可以包括不同层次，如折叠类型、拓扑结构
、家族、超家族、结构域、二级结构、超二级结构等。已经上网的蛋白质分类数据库很
多，此处简单介绍两个主要的蛋白质结构分类数据库SCOP和CATH。

SCOP分类数据库

蛋白质结构分类数据库SCOP（Structural Classification Of Proteins）是由英国医学
研究委员会（Medical Research Council，简称MRC）的分子生物学实验室和蛋白质工程
研究中心开发和维护。该数据库对已知三维结构的蛋白质进行分类，并描述了它们之间
的结构和进化关系（Murzin等, 1995）。鉴于目前结构自动比较程序尚不能可靠地鉴别
所有的结构和进化关系，SCOP数据库的构建除了使用计算机程序外，主要依赖于人工验
证。由于蛋白质结构种类繁多，大小不一，有的只有一个结构域，有的则有许多结构域
组成，构建结构分类数据库是一项十分复杂的工作。对于某些蛋白质，有时需要同时从
单个结构域和多个结构域水平加以考虑。

SCOP数据库从不同层次对蛋白质结构进行分类，以反映它们结构和进化的相关性。可以
把蛋白质分成许多层次，但通常将它们分成家族，超家族和折叠类型。当然，不同层次
之间的界限并不十分严格，但通常层次越高，越能清晰地反映结构的相似性。

家族 SCOP数据库的第一个分类层次为家族，其依据为序列相似性程度。通常将相似性程
度在30%以上的蛋白质归入同一家族，即它们之间有比较明确的进化关系。当然这一指标
也并非绝对。某些情况下，尽管序列的相似性低于这一标准，例如某些球蛋白家族的序
列相似性只有15%，也可以从结构和功能相似性推断它们来自共同祖先。

超家族：如果序列相似性较低，但其结构和功能特性表明它们有共同的进化起源，则将
其视作超家族。

折叠类型：无论有无共同的进化起源，只要二级结构单元具有相同的排列和拓扑结构，
即认为这些蛋白质具有相同的折叠方式。在这些情况下，结构的相似性主要依赖于二级
结构单元的排列方式或拓扑结构。

SCOP数据库可以通过MRC实验室的网络服务器查询

CATH蛋白质结构分类数据库

CATH是另一个著名的蛋白质结构分类数据库，其含义为类型(Class)、构架(Architectur
e)、拓扑结构(Topology)和同源性(Homology)，它由英国伦敦大学UCL开发和维护（Oren
go等，1997）。与SCOP数据库一样，CATH数据库的构建既使用计算机程序，也进行人工
检查。CATH数据库的分类基础是蛋白质结构域。与SCOP不同的是，CATH把蛋白质分为4类
，即a主类、b主类，a-b类（a/b型和a+b型）和低二级结构类。低二级结构类是指二级结
构成分含量很低的蛋白质分子。CATH数据库的第二个分类依据为由α螺旋和β折叠形成
的超二级结构排列方式，而不考虑它们之间的连接关系。形象地说来，就是蛋白质分子
的构架，如同建筑物的立柱、横梁等主要部件，这一层次的分类主要依靠人工方法。第
三个层次为拓扑结构，即二级结构的形状和二级结构间的联系。第四个层次为结构的同
源性，它是先通过序列比较然后再用结构比较来确定的。CATH数据库的最后一个层次为
序列(Sequence)层次，在这一层次上，只要结构域中的序列同源性大于35%，就被认为具
有高度的结构和功能的相似性。对于较大的结构域，则至少要有60%与小的结构域相同。

CATH数据库可以通过UCL的生物分子结构和模拟实验室的网络服务器来查询。通过UCL生
物分子结构和模拟实验室的网络服务器还可以查询PDB数据库PDBsum（Laskowski等，199
7）数据库包含了重要的结构信息，由UCL维护。PDBsum数据库提供对PDB数据库中所有结
构信息的总结和分析。每个总结给出了与PDB库中条目相关的简要信息，如分辨率、R因
子，蛋白质主链数目，配体，金属离子，二级结构，折叠图和配体相互作用等。这不但
对了解PDB数据库中包含的结构信息，而且提供了获取一维序列，二维序列模体和三维结
构信息的统一的用户界面。随着计算机图形技术的发展，这种图文并茂的网络资源会越
来越多，新一代的计算机软件可以使用户更方便地利用这些信息资源。

--
Welcome to Bioinformatics and NetResources

※ 来源:·北大未名站 bbs.pku.edu.cn·[FROM: 162.105.65.60]


	W 3 C h i n a ( since 2003 ) 旗下站点苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》	8,609.375ms