新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> Biomatics, Gene Ontology(基因本体)
    [返回] 中文XML论坛 - 专业的XML技术讨论区计算机技术与应用『 生物信息学 』 → 分子生物学数据库及相关软件的开发利用 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 5618 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: 分子生物学数据库及相关软件的开发利用 举报  打印  推荐  IE收藏夹 
       本主题类别:     
     admin 帅哥哟,离线,有人找我吗?
      
      
      
      威望:9
      头衔:W3China站长
      等级:计算机硕士学位(管理员)
      文章:5255
      积分:18406
      门派:W3CHINA.ORG
      注册:2003/10/5

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给admin发送一个短消息 把admin加入好友 查看admin的个人资料 搜索admin在『 生物信息学 』 的所有贴子 点击这里发送电邮给admin  访问admin的主页 引用回复这个贴子 回复这个贴子 查看admin的博客楼主
    发贴心情 分子生物学数据库及相关软件的开发利用


    分子生物学数据库及相关软件的开发利用  


    发信人: pkuyx (未名湖的鱼钩), 信区: Bioinformatics
    标  题: 分子生物学数据库及相关软件的开发利用
    发信站: 北大未名站 (2002年04月12日08:52:54 星期五), 转信

    分子生物学数据库及相关软件的开发利用

    李兵 罗静初 潘卫 唐汶 顾孝诚

    The Development and Utilization of Molecular Biology
    Databases and Related Softwares

    LI Bing,1 LUO Jing-chu,1 PAN Wei,1 TANG Wen,1 GU Xiao-cheng1
    1.The National Laboratory of Protein Engineering and Plant Genetic
    Engineering,Peking University;
    LI Bing,2
    2.Computer Center,Peking University,Beijing100871,China

      生物大分子序列和结构测定技术的完善和应用,使核酸及蛋白质序列数据库及蛋白
    质结构数据库迅速增长。面对不断增长的分子生物信息,很多生物学工作者又在此基础
    上构建了具有特殊生物学意义和专门用途的二次数据库,使得数据库的内容和种类更加
    丰富和具体,为生物学各个领域的深入研究提供了坚实的信息基础。由法国生物信息研
    究中心Infobiogen提供的生物数据库目录dbcat〔1〕可以使用户对目前世界各地提供的
    分子生物信息数据库有一个详尽的了解。dbcat本身也是一个具有一定数据格式的数据库
    ,按DNA、RNA、蛋白质、基因图谱、结构、文献等等分类,对每一种数据库的作者、联
    系地址、何处获取等信息都有具体的说明。目前, dbcat数据库中包含了400多种生物信
    息数据库的记录。同时, 针对这些生物数据库而开发的应用软件也层出不穷。这些软件
    的充分利用,将成为生物工作者的有力工具。由英国欧洲生物信息研究所EBI提供的生物
    软件目录Biocatalog〔2〕对这些软件进行了详细的描述。Biocatalog本身也是具有一定
    数据格式的数据库,共有50多个类别,包括序列分析、序列对准(alignment)、数据库搜
    索、分子进化、分子建模、结构预测、序列格式转换等。每一种软件都有作者、联系地
    址、何处获取等信息,而且大部分软件都在不断地更新。目前, Biocatalog数据库中收
    集的软件已达有500多个。大量数据库和软件都可以通过计算机网络获取。欧洲、美国等
    许多生物信息中心设有很多站点,以WWW、FTP和E-mail等方式为用户提供各种数据库和
    应用服务。由于国内网络设施、传输速度、上网费用等诸多因素的限制,这些信息资源
    还不能被充分利用,自己测定的序列也不便提交国外服务器处理。在本单位计算机工作
    站或网络服务器上安装一些常用的分子生物信息数据库和应用软件,是解决上述问题的
    途径之一。对那些专有数据需要保密的单位,更有必要建立本地数据库服务系统。
      1997年以来,作为欧洲分子生物学网络组织中国节点,我们在北京大学生物信息中
    心的网络服务器上安装了核酸、蛋白质序列、结构等近40个数据库和SRS、GCG、Staden
    等有关软件〔3〕,积累了一些经验。本文对如何在本地安装数据库和软件作简要介绍。


    1 数据库
      从数据库的种类来看,核酸和蛋白质序列数据库是最基本的数据库,很多专用的二
    级数据库都由此而来。目前常用的核酸序列数据库有美国国家生物技术信息中心(NCBI)
    的GenBank、欧洲分子生物实验室(EMBL)的EMBL以及日本国立遗传研究所的DDBJ;主要的
    蛋白质序列数据库有瑞士日内瓦大学的SwissProt,以及美国、德国和日本合作管理的PI
    R。除了序列数据库,还有美国Brookhaven国家实验室管理的蛋白质结构数据库PDB,以
    及众多与序列有关的子库,这里不一一列举。
      从数据库的数据格式来看,以上大多数数据库都以文本方式存放数据及数据描述住
    处所以使用任何文本浏览软件都可以对这些数据库存进行阅读。基本的数据格式有EMBL
    、GenBank、PIR等,其中EMBL格式比较规范,为很多数据库所使用。EMBL核酸序列数据
    库和SwissProt蛋白质序列数据库都采用这种格式。熟悉EMBL格式对于查阅现有数据库以
    及构建用户自己的数据库都有很大帮助。
      从数据库所占存储空间来看,核酸序列数据库所占空间最大,如EMBL核酸序列数据
    库目前已经发表第55期(1998年6月),包括2 330 040条序列,共有1 607 673 907个核苷
    酸,整个数据库根据生物学分类分成19个文件,外加17个EST(表达序列标记)文件,共36
    个文件,占6.7GB的存储空间。占空间较大的数据库还有PDB,约1GB。与此相关的蛋白质
    二级结构空间构象参数数据库DSSP、按三级结构分类的同源蛋白质数据库HSSP、按三级
    结构分类的蛋白质家族数据库FSSP各占140MB、83MB、270MB存储空间。PDBFinder是用于
    查询PDB的数据库,占空间较小,只有4兆。其他数据库一般都在几兆到一两百兆之间,
    如最新SwissProt第36期包括74019条序列,共有26 840个氨基酸,占142MB存储空间。

    2 应用软件
      在针对生物信息数据库开发的软件中,有一些为商业性软件,用于UNIX系统的常用
    序列分析软件是 GCG和Staden。这些软件功能齐全,并在不断更新。不少非商业性软件
    仅需要很低的费用甚至免费即可获得,这些软件有些功能比较单一,有些功能比较丰富
    ;有些使用Xwindow界面,有些使用WWW界面,而有些以命令行(command line)方式运行
    。使用Xwindow界面的软件,一般运行在UNIX操作系统环境下的工作站或服务器上,用户
    需要有帐户,并要在装有Xterminal仿真软件的终端或PC机上操作,其优点是软件具有丰
    富的菜单结构以及可以产生高质量的图形输出。
      对于WWW界面的软件,通常不必在服务器上开设帐户,可在任何装有WWW浏览器的机
    器上访问,这给用户软件的使用及管理都带来便利。由欧洲生物信息研究所开发的SRS(
    Sequence Retrieval System)是以WWW界面运行的数据库检索系统〔4〕,其主要功能是
    将所有数据库建立参照(cross-references)索引,用户可通过输入查询代码、编号、物
    种来源、说明、文献、作者、日期、关键词等信息对所有已建立索引的数据库进行检索
    ,从而得到用户所需的序列或相关内容。SRS具有快速、详尽的查询功能,使之成为流行
    的数据库查询软件。需要注意的是,SRS通过建立索引来加速检索,同时也产生了比较大
    的索引文件,这些索引文件会占据1GB以上的存储空间,所以用户在决定存储空间大小时
    要予以考虑。
      对于以命令行方式运行的软件,用户不仅要在UNIX环境下的工作站或服务器上有帐
    户,而且用户还要熟悉命令及各种参数的使用,以及软件运行的各种环境变量的设置。
    如果能将这类软件增加WWW接口,即以WWW界面方式运行,会给用户带来极大的方便。例
    如,BLAST是由NCBI开发的的数据库搜索软件,其典型的命令行运行方式为:blastall
    -p 程序名, -d 数据库, -i 查询序列, -o 查询输出。实际上, 此命令行还可以加入更
    多的参数,通常那些参数都使用缺省值,所以不在命令行上出现。如果要进行更加严谨
    合理的搜索,就要在命令行上对那些参数进行调整。而以WWW界面方式运行的BLAST则把
    所有这些参数作成选项,用户可以在任何一个浏览器上通过调整选项取值对输入的序列
    进行重复搜索,并可在浏览器上直接得到满意的结果。与BLAST类似的命令行软件还有很
    多,为它们设计WWW用户界面,是对这类软件很好的集成,从而更便于用户使用。

    作者简介:李兵(1967.12-),男,工程师,生物物理专业在职硕士研究生,电话:010
    -62755206

    作者单位:李兵 罗静初 潘卫 唐汶 顾孝诚 北京大学蛋白质工程和植物基因工程
    国家重点实验室
    李兵 北京大学计算中心,北京100871

    参考文献:
     1 http://www.infobiogen.fr/services/dbcat/[DB].
     2 http://www.ebi.ac.uk/biocat/[DB].
     3 http://www.cbi.pku.edu.cn/.[DB]
     4 http://srs.ebi.ac.uk/srs5list.html[DB].


    --
    钓鱼是一种乐趣

    ※ 来源:·北大未名站 bbs.pku.edu.cn·[FROM: 162.105.53.86]


       收藏   分享  
    顶(0)
      




    ----------------------------------------------

    -----------------------------------------------

    第十二章第一节《用ROR创建面向资源的服务》
    第十二章第二节《用Restlet创建面向资源的服务》
    第三章《REST式服务有什么不同》
    InfoQ SOA首席编辑胡键评《RESTful Web Services中文版》
    [InfoQ文章]解答有关REST的十点疑惑

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2004/9/23 2:05:00
     
     GoogleAdSense
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 生物信息学 』 的所有贴子 点击这里发送电邮给Google AdSense  访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2024/5/5 15:18:57

    本主题贴数1,分页: [1]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    7,507.813ms