计算机在生物学中的应用论文
计算机在生物学研究中有着十分广泛的应用,已经成为一门新兴的交叉学科。下面是小编给大家推荐的计算机在生物学中的应用论文,希望大家喜欢!
计算机在生物学中的应用论文篇一
《计算机在生物学研究中的应用发展报告》
【摘要】计算机在生物学研究中有着十分广泛的应用,已经成为一门新兴的交叉学科。本文对国内特别是福建省“计算机在生物学研究中的应用”学科发展情况进行了简介,并对这门新兴学科的进展进行了简述。
【关键词】计算机 生物学研究 生物信息学 交叉学科
一 前言
什么是生物科学?在古时候,人们对生物学的认识是很有局限性的:对生物学的认识往往停留在观察上,到了19世纪,达尔文发表《物种起源》之后,生物学第一次总结出一个有重大哲学意义的普遍规律。此后,孟德尔发现了遗传学的规律,沃森和克里克发现的DNA双螺旋结构以及核酸是生命本质的一系列重大发现,为生物学发展奠定了坚实的基础,从而生物学正式摆脱了那种仅靠观察,比较的方法,发展成为一门实验科学。
传统的生物学是一门实验科学,生物学的研究主要依靠的是对实验所得的数据进行处理和分析。生物学还是一门发现科学,通过对在实验中发现的新现象,新的生物规律进行分析、归纳和总结,提炼出新的生物学知识。进入到20世纪以来,人类已经进入了信息化的社会。作为信息社会中最为重要的工具,计算机在人们生活中发挥着日益重要的作用。随着网络技术和通信技术以及半导体技术的发展,计算机的功能越来越强大。计算机科学是对社会各个层面影响最大,渗透力最强的高新技术。
回顾20世纪人类所取得的科学成就,以计算机技术为代表的信息技术得到高速的发展和应用。在以计算机科学为代表的信息科学取得快速发展的同时,现代生物科学研究也取得了极大的成功。
二 进展
计算机在生物学研究中的应用并不是一个很新的话题,作为一门学科,它是新的,但实际上它的研究工作的开展已经有了一段历史。
(一)计算机在国内生物学研究中应用的情况
我国的科研人员在20世纪60-70年代就开始利用计算机在生物学研究中进行数据的统计分析,但是应用的层次低,多用于教学和实验数据分析处理。我国的生物信息工作是逐步发展起来的,20世纪80年代初仅在个别单位开展了一些计算分子生物学的工作,如核酸序列统计分析、生物大分子二级结构预测、分子动力学等。虽然我国在1993年就在中国人类基因组计划中加入了生物信息学的相关研究内容,但是真正的开始是在1995年。目前,我国所用到的生物数据库和生物系列软件多半来自于国外,基础力量还比较薄弱。
1997年,香山会议专题讨论了我国生物信息学的发展。1999年,国家自然科学委员会生命科学部、信息科学部、数理科学部、材料科学部在北京召开了“生命科学中的信息科学问题”论坛,提出了建立国家生物医学数据库与服务系统,同时开展基因组及功能基因组信息分析工作。2000年国家自然科学基金委员会主持召开的“生物信息学前沿方向”研讨会上,与会专家提出了我国生物信息学发展的方向是:建立国家生物医学数据库与服务系统、人类基因组信息结构分析、功能基因组相关信息分析和研究遗传密码起源与生物进化(尤其是分子进化)的过程与机制。
近几年来,我国对生物学中的计算机应用工作越来越重视,研究的层次也不断提高。在“HGP1%的测序工作”、“中华民族基因组中若干位点基因结构的研究”和“重大疾病相关基因的定位、克隆、结构与功能研究”等项目中,计算机都起到了重要的作用。
北京大学于1997年3月成立了生物信息学中心,中科院上海生命科学研究院也于2000年3月成立了生物信息学中心,分别维护着国内两个专业水平相对较高的生物信息学网站。
2003年8月18日,“作为国内服务器品牌三甲之一”的曙光信息产业(北京)有限公司(以下简称曙光公司)与国内著名的基因组、生物信息研究中心华大基因联合推出国内第一款完全拥有自主知识产权的生物信息专用计算机,采用先进的基因数据库架构技术、数据定制可视化技术、数据密集技术、网格使能技术、在线扩展技术及机群系统等技术,为国内用户搭建了一套与国际生物信息研究主流趋势相接轨的系统平台。该系统是建立在华大基因和曙光公司在生物信息研究领域长期合作成果的基础之上,通过运用曙光公司每秒3万亿次浮点峰值运算能力的Linux超级服务器,以支持数据密集应用为主,为国内大量致力于基因组研究的科研工作者们提供方便、快捷的服务。“生物信息专用计算机”采用机群结构,系统中节点根据功能划分为计算节点、数据库节点、服务节点三种类型,为生物信息学研究提供了一个基于硬件、软件和数据库集成环境下的统一运行平台,为各个分析软件、子数据库模块提供一致的运行和管理环境。同时用户可以根据需要选择软件和数据库模块,无缝集成到平台上。平台提供ORACLE数据库和软件的集成接口和管理工具。生物信息专用计算机以模块化的方式提供大量基因组学、生物信息学研究的常用分析工具,并能实现分布式高性能计算。用户也可以根据需要定制分析软件,添加到该专用计算机应用平台中。
对于我国来说,生物信息学人才的培养是当务之急。生物信息学是一个交叉学科研究领域,这对生物信息学研究人员在知识结构上提出了非常高的要求,特别是对于来自数学或计算机专业的研究人员,不仅要掌握生物学的基础知识,还要求深入了解生物学中的相关问题,这样的人才不是单一学科能够培养出来的,要求跨学科地培养生物学和信息科学的复合型人才。目前中国科学院和国内一些著名大学已经开始较大规模地培养生物信息学专业人才,这为我国今后生物信息学的发展奠定了良好的基础。可以相信,我国未来计算机在生物学中的应用一定会有着很大的进步与发展。
(二)福建省“计算机在生物学研究中应用”学科发展简介
福建省计算机在生物学研究中的应用虽然起步较早,但是发展一直相对较慢,目前还没有形成较大的研究规模和较完整的研究体系。但是,福建省对计算机在生物学研究中的应用十分重视,福建农林大学、厦门大学等多所高校开办了计算机在生物学研究中的相关专业或研究团队并举办了几场相关的学术会议。
福建省的厦门大学生命科学学院和福建农林大学的生命科学学院已经开办了生物信息学本科专业,为我省培养生物信息科学人才提供了一个很好的平台。该专业整合了生物和计算机的相关资源,有望为我省培养出更多的精通于计算机在生物学研究中的应用人才。福建省的其它院校如福建医科大学、福建师范大学、福建中医学院、国立华侨大学、集美大学等多所高校也有不少的教学和科研工作者在这方面进行了一定的研究工作,福建省农科院也开展了一些生物信息学的研究工作。
例如:福建省厦门大学生命科学院的纪志梁博士主要从事生物信息学、功能基因组和蛋白组学、计算机辅助药物设计、生物数据库和生物信息软件的开发及应用、数据挖掘、分子进化、生命起源与进化等方面的研究,主持了生物信息辅助药物不良反应(ADRs)的分子机理研究及预测的国家自然科学基金项目。
福建农林大学借助于其在生物学特别是农林学科上的优势,联合校内的计算机与信息学院一起开办生物信息学专业,计算机与信息学院还成立了生物信息研究团队,以期望借助于两个学院的实力,更好地为我省培养相关的人才。
目前福建省在发展该学科时面临的主要问题是相关人才的缺乏和研究硬件设备的不齐全。目前,福建省尚未能在“计算机在生物学研究”的学科发展中形成一个理想的研究梯队,从而导致了在相关的科研上以应用研究为主,缺少理论上的创新性,而应用的研究多集中于特定的领域:如福建农林大学的相关研究主要在于农业领域;华侨大学的方柏山教授所做的工作多集中于工业微生物的优化控制等方面。全方位,多角度的研究格局还没有形成。
从学科建设的硬件平台来看,虽然有了较大的发展,但是距离科研的要求还有较大的距离。因为“计算机在生物学研究中的应用”学科是一门交叉学科,需要用到许多方面的仪器设备,而目前福建省内的这方面的投入与科研所需要的设备还有一定的距离。
(三)计算机在生物科学研究中的学科现状
自20世纪80年代,IBM公司制造出第一台PC机以来,计算机迅速得到了普及。而且近二十年来,计算机与信息科学已经成为发展最为迅速的学科领域,也为生物学的研究提供了更多的技术支持。在这个时期,生物学与计算机科学相结合的学科――生物信息学产生了,是当今生命科学和自然科学的重大前沿领域之一,也是21世纪自然科学的核心领域之一。从国外近几年的应用情况来看,生物信息学在理论上促进了生物学研究(特别是分子生物学)研究的发展,使人类对生命本质的认识更加深刻。生物信息学已经改变了传统生物学的研究方法,提高了生物学实验的科学性和研究的效率。
在这个阶段,计算机在生物学研究中的应用更为广泛与深远,这一时期在生物学研究中用到的计算机技术大体有以下几个方面:
(1)数据库技术、数据挖掘技术与海量存储技术:生物信息数据库具有数据结构和组织方式复杂、数据量增长十分迅速等特点。《核酸研究》(Nucleic Acids Research)杂志连续七年在其每年的第一期中详细介绍最新版本的各种生物学数据库。在2000年1月1日出版的28卷第一期中详细地介绍了115种通用和专用数据库,包括其详尽描述和访问网址。在DNA序列方面有GenBank、EMBL和DDBJ等。在蛋白质一级结构方面有SWISS-PROT、PIR和MIPS等。在蛋白质和其它生物大分子的结构方面有PDB等。在蛋白质结构分类方面有SCOP和CATH等。
很多数据库涉及非结构化的数据,例如:PDB中的蛋白质三级结构等。利用传统的关系数据库对这些非结构化的数据进行管理就显得有些力不从心了,所以,必须要采用面向对象等数据库新技术来处理复杂结构的生物数据。生物信息数据库具有种类繁多的特点,目前各种生物信息数据库大至有600种左右,分布在全球各个数据库服务器中。
随着数据库技术、计算机网络和人工智能等技术的发展,出现了一种新的信息管理技术,即:数据仓库技术(data warehouse)。随着当代生物学实验的手段不断的进步,所产生的实验数据的信息量是十分庞大的。如何在如此浩渺的信息海洋中发现潜在的规律呢?而数据仓库技术中提供了一个解决方案,就是数据挖掘技术。数据挖掘技术一般分成四个基本步骤:数据选择,数据转换,数据挖掘和结果分析。数据挖掘与聚类分析的方法在蛋白质的结构预测中也有广阔的应用空间:数据挖掘可用于分析基因表达数据相似性度量,从中发现基因表达数据相似性和波动相似性类似,从而提出以波动相似性为依据的相似性度量函数。
(2)机器学习与模式识别技术:机器学习算法(machine-learning methods),抽象的统称,实质是一种统计学的方法,它自动地从一个样本的训练(train- ing)过程中获得数据信息,这种方法适用于有大量数据但缺乏相应理论的情况。如BRNNs(Bidirectional Recurrent Neural Networks,双向重复神经网络)算法即属于机器学习算法,它的训练过程即通过对样本进行有效编码,输入网络,训练网络各权值参数和阈值参数,使网络达到基本稳定。目前机器学习方法包括:神经网络法、决策树法、基于事例学习法、符号性知识优化法及基于逻辑的归纳学习法。
数据是机器学习的基础,对于生物学实验数据也一样。在大多数情况下,生物学中的知识和数据可以用序列的模式或序列的特征来概括。
随着人工智能研究不断取得进展,人们逐渐发现研究人工智能的最好方法是向人类自身学习。因此引进了一些模拟进化的方法来解决复杂优化问题。其中较有代表性的是:进化主义思想和联接主义思想。近年来,许多科学家致力于这两种方法的研究。
模式识别是机器学习的一个主要任务。所谓模式,指的是对感兴趣客体定量的或者结构的描述,而模式识别就是利用计算机对客体进行鉴别,将相同或者相似的客体归入同种类别中。模式识别的关键是通过数据分析,提取分类对象的本质特征,建立分类特征模型。在此基础上设计模式分类规则和分类器,判别待识别模式的分类情况。分类特征模型描述各种目标对象的特征,以便于工作于利用特征进行识别。模式识别主要有两种方法:一种是根据对象统计特征进行识别,另一种是根据对象的结构特征进行识别。利用机器学习的方法可以应用于蛋白质结构的预测,但现在的问题是从蛋白质一级结构序列预测蛋白质二级结构和三级结构的准确率低,还有许多现实的问题需要解决。
(3)人工心智和心脑科学在生物学中的应用:了解脑及其全部功能是2l世纪重大挑战之一,人类脑计划开始于1993年,这项行动的主要目标:创立以web为基础的神经科学所有数据的数据库,并提供数据分析、整合、合成、建模与模拟的先进工具,有助于实现了解健康与有病神经系统功能的最终目标。脑是生物体内结构和功能最复杂的组织,人脑内有上千亿个神经细胞,神经突触超过1014个,是生物体接受外界信号、产生感觉、形成意识、进行逻辑思维、发出指令产生行为的指挥部,但它的功能目前还不为人们所了解。
在人类脑科学计划提出后,产生了一门新的交叉学科――神经信息学。神经信息学产生的先进的信息学解决方案,将加速对脑的了解,并能将基础研究转化为诊断、监视、处理和预防脑疾病的更好手段。反过来,关于数据与信息的获得、存储、提取、分析、合成及可见的生物学机制的阐述,将更加清楚地解释信息学技术,以至随着时间的推移,计算机将能超过人脑的工作。
人脑的结构和功能极其复杂,需要从不同的层次对其进行研究,包括:从DNA、RNA、蛋白、神经元、神经网络到全脑。其中对神经网络和全脑功能的研究近年来发展很快,成为神经信息学研究的重点。神经信息学主要从信息和信息处理的观点来研究人脑,研究神经系统信息的载体形式,神经信息的产生、传输与加工,以及神经信息的编码、存储与提取机理等,并从系统和信息的观点建立以生物学实际为基础的神经网络模型。
(4)生物分子的计算机模拟技术:传统的生物分子研究主要是能过生物学实验来分析和表征生物分子,如利用测序技术确定DNA或RNA分子的序列;能过分子遗传学方法确定基因的多态性;能过X射线衍射技术来确定蛋白质等生物大分子的结构;通过生物化学实验来研究生物大分子之间的相互作用、药物分子和靶分子的结合等。
现代对生物分子的研究也可有采用计算机模拟生物分子的技术。所谓生物分子的计算机模拟就是从分子或者原子水平上的相互作用出发,建立分子体系的数学模型,利用计算机进行模拟实验,预测生物分子的结构和功能。可以模拟生物大分子与大分子之间的相互作用、模拟生物大分子与具有活性的小分子之间的相互作用、研究分子之间的识别与及分子间的特异性结合。
(5)网络技术:随着人类进入了信息社会,网络已成为社会的基础设施,对人们的生活起着重要的影响。电子邮件和新闻组已经成为生物学科研中的最要交流工具。而且网络提供的各种服务,如:FTP服务,WEB服务等也为科研人员提供了重要的服务。
目前,Internet上有着巨大的生物学资源和生物学的相关数据库与知识库。使用者可以通过网络查询或搜索所需要的生物学信息,使用各个网络站点提供的分析工具对生物实难进行分析。生物信息的研究者能够下载大量的数据,但如何集成这些数据不是一件容易的事。
而Web Services技术由于使用标准的Web协议(http、SMTP等)和一系列标准协议(XML、SOAP、WSDL等)为生物信息集成提供了一种崭新的方法。当把Web Services应用到生物数据库中时,所有生物数据库系统都成了一个松散结构中的组件,系统接口、应用通信、数据转换和目录信息都是建立在开放的、被广为接受的标准之上,用户能迅速地访问到他们所需要的信息。
(6)高速计算能力与网格计算技术:生物学研究需要对大量的样本进行分析计算或统计,这就为为高性能计算提供了一个大的应用领域。生物学研究中的计算面临巨大的计算量与海量的数据,如:利用分子动力学模拟一个蛋白质的折叠就需要一个巨型机几个星期的运算。这给高性能计算、并行计算和网格计算提出了挑战。
(7)专家系统:专家系统(exepert system)是一种基于知识的智能系统,它将领域专家的知识用知识表现的方法表示出来,并放入知识库中,供推理机使用。专家系统利用知识和推理机解决那些需要特殊的、重要的人类专家知识才能解决的复杂问题。一般的专家系统是由六大部份:知识库、数据库、知识获取部份、推理机、解释机构和使用界面组成的。知识库中的知识也可以分成事实性知识和启发性知识两大类。生物学研究中已经有了不少的专家系统。
(8)计算机图形学:众所周知,DNA序列是两条碱基互补的脱氧核糖核酸形成的双螺旋结构。一般认为,它们可以用一条序列来进行表示。根据文献按照某种规则,人们可以把DNA序列转换为一条z型曲线,该z曲线与所表示的DNA序列的关系是一一对应的,即:一个特定的DNA序列,有唯一的一条z型曲线与它对应;反之,对任意一条给定的z曲线,可找到唯一的一个DNA序列与之对应。也就是说,z曲线包含了DNA序列的全部信息。z曲线是与符号DNA等价的另一种表示形式。这样就可将复杂的DNA序列转换为一条空间中的曲线。对z曲线曲率和挠率的计算和分析,可用于识别DNA序列的不同的功能区等。DNA序列的几何学研究是建立在计算机图形学的基础上的,对DNA序列几何学的研究必将为计算机图形学的研究提出一些新的课题。
三 计算机在生物学中的应用研究展望
虽然计算机在生物学应用中取得了不小的成果,但还有许多的问题摆在人们面前。目前计算机在生物学研究中的应用面临着许多的挑战:
(1)需要建立交互性好的生物学应用软件,生物学数据库及相关的数据挖掘技术。现有的生物学软件种类繁多,功能也不尽相同,但是,大部份软件都要求用户有较强的计算机基础,甚至还有一些软件是基于linux或windws控制台的,起特殊的命令语法不是一般的科研人员所能掌握的。而且,有些软件的源代码不是公开的,特定用户就不能根据自己的需要对程序进行修改,进而适应自己研究的需求。寻求一种好的方法来开发出交互性好、操作方便而功能强大的生物学研究软件是今后一个重要的目标。
(2)需要能提示大规模数据集合中不同组分之间关系的统计分析方法及优化算法。在生物学研究中,获取所得的实验数据往往可以根据其数据特征的不同分成若干组分,这些组分之间的关系是怎样的?如何在实验数据中确定分组的标准?如何用更快的算法更有效率的确定数据的分组标准等等都让科研人员十分困惑。例如:不同物种间可能包含了同源或非同源的数据基因,而不同基因可能在DNA或蛋白质序列上具有较高的异质性。因而,在基因组水平上比较不同物种或不同基因之间的相似性,有助于揭示整个基因组进化与物种进化的规律。
(3)需要开发适合于微阵列和基因芯片等新技术的数据分析工具。微点阵杂交中涉及上万个寡核苷酸,并依杂交信号强弱、探针位置和序列确定靶DNA的表达及多态性等。目前,迫切需要提高检测的自动化程度和数据的并行处理能力。
四 小结
综上所述,尽管福建省的计算机在生物学研究的应用学科目前发展还比较滞后,但只要能够抓住计算机在生物学科发展的契机,整合各方面的优势,进行协作式的研究,就能够更好地促进该学科的发展。
参考文献
[1]宁正元编著,计算机在生物科学研究中的应用,厦门大学出版社,
2006.11.
[2]H.M.erman,J.Westbrook,Z.Feng,et al. The protein Data Bank[J]. Nucleic Acids Research,(28):235-242.
[3]D.R.Westhead,J.H.Prish,R.M.Twyman.Instant Notes in Bioinformatics[M].United Kingdom:Bios Scientific Pub Ltd,2002.
[4]SCRATCH servers.
[5]卢美律.蛋白质结构预测与机器学习[J],科学,1996,46(5):22-27.
[6]沈均贤人类脑计划与神经信息学[J],生物物理学报,2001.12(17):607-612.
[7]Ligeng Ma,Jinming Li,LiJin qu,et al.Light control of Arabidopsis development entails coordinated regulation of genome expression and cellcular pathways[J].Plant Cell,2001,13912):2589-2607.
[8]生物信息学对计算机科学发展的机遇与挑战[J],生物信息学,2001 (3):37-41.
[9]BSML Organization.Bioinformatic Sequence Markup Language Version 3.1[EB/OL].
[10]Fenyo ,The biopolymer Markup Language[J],Bioinformatics,1999,(15):339-340.
[11]Lichun wang.XEMBL:distributing EMBL,data in XML format[J].Bioinformatics,2002,(18):1147-1148.
[12]郝柏林,刘寄星,理论物理与生命科学[M],上海:上海科学技术出版社,1997.
[13]Hang C T,Pickover C A,et al.Viusalizing Biological Informatin[M].Singapore.World Science Pub co,1993.
[14]钟扬,张亮等,简明生物信息学[M],北京:高等教育出版社,2001.
[15]赵青,黄小兵,生物信息研究的加速剂[J],互联网天地,76-77.
[16]厦门大学生命科学院.
[17]方柏山教授主页.
[18]福建农林大学生命科学院.