-- 作者:admin
-- 发布时间:9/23/2004 2:05:00 AM
-- 生物信息处理并行算法的研究
生物信息处理并行算法的研究 发信人: jhm (短发飞扬), 信区: Bioinformatics 标 题: 生物信息处理并行算法的研究 发信站: 北大未名站 (2002年03月27日22:20:03 星期三) , 站内信件 生物信息处理并行算法的研究 由于生物信息数据的规模极其巨大,因此国内外都开展了生物信息处理算法并行化方向 的研究。主要有NCBI的BLAST机群系统版本、PHRAP程序的SMP机器并行版本,以及在硬件基础 上并行化工作,IBM还研制了专门用于基因组数据处理的超级计算机。 NCBI的BLAST系统用于提供网络序列检索服务,在任何时候可能会有大量的用户提交序列检索 的请求,NCBI的机群系统版本主要是采用负载均衡系统实现对多用户请求任务在机群的多个 节点间的分配,这种系统可以大大提高BLAST检索网站的任务吞吐率。PHRAP程序主要用于大 规模的序列拼接过程中,PHRAP程序在数据量比较大的情况下非常耗时间,PHRAP程序的SMP机 器并行版本主要是利用多线程技术加速其中具有并行性的部分,获得更好的时间效率。比如 SPSOFT(southwest parallel software http://www.spsoft.com),它实现了在普通计算机上 提供高性能和高处理量的生物信息软件。其最新提供支持linux下的并行化的Phrap, SWAT, CrossMatch,并且支持SP和PowerPC上的IBM AIX 系统。并行的Phrap在单cpu上能快一倍,并 且随着cpu的增多性能会更好。Cross_Match在单cpu上能快30%,在4个cpu机器上快3倍。 国外还开展了特殊生物信息处理中算法的研究以及在硬件基础上的并行化方向的研究,主要 是研究生物信息学中的一些关键的算法,研究其中的可并行性,然后将其固化到硬件芯片中 ,从而提高整个计算系统的性能。比如DeCypher 生物信息处理加速器,它提供了可配置计算 的技术(configurable computing See http://www.timelogic.com ),它的目的即是通过 添加硬件来达到加速。可配置系统的特点是通过软件来控制硬件,使其具有自动从连线的能 力,形成新的功能。 从而复杂算法的内循环可以在一个时钟周期中完成,而通常则需要上千 的时钟执行。可配置计算机利用FPGA (Field Programmable Gate Array)集成电路,集成电 路的逻辑功能是动态的安排。集成电路用软件动态的控制,为每一个计算单元分配尽量少的 资源,最大化地提高计算的并行度和速度。DeCypher系统包括一个或多个加速的计算管道, 由作业调度软件的统一管理。每一个计算管道集成了多个cpu,可扩展的FPGA加速阵列以及本 地RAM和磁盘缓存。标准的DeCypher服务可达到每秒6万亿次的Smith-Waterman letter-pair 比对以及每秒250万亿次的letter-pair比对。 IBM宣布将耗资1亿美元研制一套代号为"蓝色基因"(Blue Gene)的超级计算机,通过对各个蛋 白质分子聚合到一起的多种力量加以测量,来研究人类蛋白质分子的折叠方式。IBM预计"蓝 色基因"将拥有100万个处理器,计算能力达到1千万亿次浮点结果,比目前世界上最快的IBM 计算机的12.3万亿次快了近百倍。据透露,"蓝色基因"将采用一种称为SMASH的全新体系结 构,可以在简化指令的基础上实现800万个线程并行处理的能力,并能做到自稳定、自适应和 自修复。 整套系统由64个6英尺高的机柜互联而成,每个机柜配置8块主板、每块主板上有6 4个芯片、每个芯片上包含32个处理器。 在国内,中科院计算技术研究所与华大测序中心合作,基于曙光3000超级计算机系统,开发 了Balst,Phrap,Smith-Waterman的并行算法,并应用于华大测序中心的数据处理流程中。 (PGA生物信息平台) -- Love means not ever having to say you're sorry. ※ 来源:·北大未名站 bbs.pku.edu.cn·[FROM: 211.167.239.245]
|