怎样利用生物信息学方法进行数据挖掘

全部回答2
默认 最新
  • 一、数学统计方法数学统计在生物信息学中是一种最常用的方法。例如,在分析dna语言中的语义、分析密码子使用频率、利用马尔可夫模型进行基因识别。二、动态规划方法动态规划(dynamic programming)是一种通用的优化方法,其基本思想是:在状态空间中,根据目标函数,通过递推,求出一条从状态起点到状态终点的最优路径(代价最小的路径)。动态规划在生物信息学研究中用得最多的方面是dna序列或者蛋白质序列的两两对比排列。三、模式识别技术模式识别是在输入样本中寻找特征并识别对象的一种技术。模式识别主要有两种方法,一种是根据统计特征进行识别,另一种是根据对象的结构特征进行识别,而后者常用的方法为句法识别。在基因识别中,对于dna序列上的功能位点和特征信号的识别都需要用到模式识别。四、数据库技术在生物信息学中,数据库技术是最基本的技术。生物分子信息的存储、管理、查询等功能是建立在数据库管理系统之上。目前的分子信息数据库大都采用关系数据库管理系统。五、人工神经网络技术人工神经网络是对大脑神经网络的模拟,这种模拟既是在功能上的,也是在结构上,这与传统的串行计算机有着本质的区别。神经网络计算不仅计算速度快,重要的是它更具有智能。从应用来看,神经网络计算在优化和模式识别方面具有非常强的能力。在生物信息学研究中,无论是基因识别还是蛋白质结构预测,神经网络都取得了比其它方法更为准确的结果。六、分子模型化技术分子模型化是利用计算机分析分子结构的一种技术。包括显示分子的三维结构,显示分子的理化或电子学特性,将分子小片段组装成更大的分子片段或完整的分子结构。利用分子模型化软件,用户可以通过交互操作平移、旋转和缩放分子的三维结构,从不同的角度观察分子构象和形状。对于dna分子,我们可以直观地观察双螺旋结构,看到两条链的走向,还可以研究碱基之间的氢键配对。对于蛋白质分子,既可以观察其结构骨架,可以观察其外观形状,也可以研究其活性部位或结合部位的结构。七、分子力学和量子力学计算在分子构象优化研究方面必须要用量子力学或分子力学。结构优化工作按理应该用量子力学来完成,但是由于生物大分子体系太复杂,包含几千个原子,超过了目前量子力学方法可以处理的体系范围,所以研究生物大分子的构象,主要还是用基于半经验势函数的分子力学方法,而量子力学则在确定势函数的参数和研究局部性质时起作用。八、分子动力学模拟分子动力学模拟是一种重要的统计物理方法,在物理和化学上早有应用。用此方法可以研究蛋白质的构象,对蛋白质进行动力学研究。这是利用计算机进行模拟实验的基础。九、专家系统专家系统将有关专家的知识和经验以一定的知识表示形式(如产生式规则、语义网络等)存放在计算中,并在用户需要时,以智能的方式帮助解决问题,提供参考性决策。专家系统是人工智能领域里的一个重要分支,在生物信息学研究中也有着应用,如用于基因识别。十、internet技术目前,分子生物学研究人员进行信息交流特别是生物分子数据的交流,都是通过internet网实现的。在大多数情况下,你可以从internet网上查到你所想要的生物分子数据,如原始的序列和结构数据,经过加工处理以后的数据。同时,你也可以将所要处理的数据直接送到相应的网络服务器上,服务器接受你的处理请求,并将处理结果返回给你。
    0 点赞
  • 生物信息学中数学占了很大的比重。统计学,包括多元统计学,是生物信息学的数学基础之一;概率论与随机过程理论,如隐马尔科夫链模型(HMM),在生物信息学中有重要应用;其他如用于序列比对的运筹学;蛋白质空间结构预测和分子对接研究中采用的最优化理论;研究DNA超螺旋结构的拓扑学;研究遗传密码和DNA序列的对称性方面的群论等等.总之,各种数学理论或多或少在生物学研究中起到了相应的作用.但并非所有的数学方法在引入生物信息学中都能普遍成立的,以下以统计学和度量空间为例来说明. Simond在人类的认知一书中指出,人在解决问题时,一般并不去寻找最优的方法,而只要求找到一个满意的方法.因为即使是解决最简单的问题,要想得到次数最少,效能最高的解决方法也是非常困难的.最优方法和满意方法之间的困难程度相差很大,后者不依赖于问题的空间,不需要进行全部搜索,而只要能达到解决的程度就可以了.正如前所述,面对大规模的序列和蛋白质结构数据集,要获得全局结果,往往是即使算法复杂度为线性时也不能够得到好的结果,因此,要通过变换解空间或不依赖于问题的解空间获得满意解,生物信息学仍需要人工智能和认知科学对人脑的进一步认识,并从中得到更好的启发式方法.问题规模不同的处理:Marvin Minsky在人工智能研究中曾指出:小规模数据量的处理向大规模数据量推广时,往往并非算法上的改进能做到的,更多的是要做本质性的变化.这好比一个人爬树,每天都可以爬高一些,但要想爬到月球,就必须采用其他方法一样.在分子生物学中,传统的实验方法已不适应处理飞速增长的海量数据.同样,在采用计算机处理上,也并非依靠原有的计算机算法就能够解决现有的数据挖掘问题.如在序列对齐(sequence Alignment)问题上,在小规模数据中可以采用动态规划,而在大规模序列对齐时不得不引入启发式方法,如BLAST,FASTA. 综上所述,不难看出,生物信息学并不是一个足以乐观的领域,究竟原因,是由于其是基于分子生物学与多种学科交叉而成的新学科,现有的形势仍表现为各种学科的简单堆砌,相互之间的联系并不是特别的紧密。在处理大规模数据方面,没有行之有效的一般性方法;而对于大规模数据内在的生成机制也没有完全明了,这使得生物信息学的研究短期内很难有突破性的结果。那么,要得到真正的解决,最终不能从计算机科学得到,真正地解决可能还是得从生物学自身,从数学上的新思路来获得本质性的动力。毫无疑问,正如Dulbecco1986年所说:人类的DNA序列是人类的真谛,这个世界上发生的一切事情,都与这一序列息息相关。但要完全破译这一序列以及相关的内容,我们还有相当长的路要走。
    0 点赞

没有更多内容了

返回顶部
产品求购 求购