电子政务中数据挖掘概述 简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识的过程,有时也被人们称为知识挖掘、知识提取、知识发现、数据/模式分析等。它是现代数据库技术发展与人工智能(及其学习、模式识别)技术相结合的产物。在数据挖掘领域,数据挖掘功能发现的模式类别主要有关联规则、分类、聚类、概念描述和偏差检测等。这些模式也是电子政务数据挖掘所需要的。例如在税务部门可以利用数据挖掘的偏差检测,对同一类型纳税人数据进行分析挖掘,可以发现偷税漏税问题。所发现的规则模式在电子政务中的应用我们会在第4部分中详细介绍,这里不再赘述。 数据挖掘的结果就主要体现在这些模式的发现上,这是一个极其复杂的过程。其中核心的问题就是用何种方法来有效地从已知数据中挖掘知识。在电子政务中数据挖掘的常用方法主要有决策树方法、统计的方法、归纳法、神经网络方法、遗传算法、粗糙集方法、人工智能、模糊集方法等。电子政务软件金鹏信息www.jpsycn.com 电子政务中的数据挖掘是指为政府各种业务活动、工作、决策寻找知识,一般电子政务中数据挖掘的过程应该包括数据准备、挖掘处理、知识表达与解释三个阶段。数据准备是为电子政务数据挖掘提供挖掘对象的阶段。主要是针对需求分析的结果做挖掘对象的准备工作,其主要内容有数据的预处理(如抽取、转化、净化、理解等)以及建立数据挖掘处理集等。通过数据准备提高数据挖掘质量,减少数据的杂乱性、冗余性和不完整性。挖掘操作是数据挖掘的核心,主要是通过算法引擎选择挖掘算法后,对数据准备阶段建立的数据挖掘处理集进行挖掘,从中发现感兴趣的知识。表达和解释阶段是对挖掘结果进行分析,提取出最有价值的信息,以图表形式或其他可视化手段展现给用户。