数据挖掘与知识发现

目录导航

内容介绍

本书详尽地阐述了数据挖掘与知识发现领域中的一些基本理论和研究方法。介绍了KDD与数据挖掘的概念、数据挖掘对象、知识发现过程、研究方法以及相关研究领域和应用范围。作为知识发现的数据预处理工作,简要叙述了数据清理、数据约简、数据概念等级分层、多维数据模型等内容。书中较详细地介绍了粗糙级、模糊集、聚类分析、关联规则、人工神经网络、分类与预测等数据挖掘方法,最后还简要介绍了多媒体数据挖掘工作的有关进展。

本书可以作为计算机科学与技术专业和信息科学方向高年级本科生和研究生的教材或参考书,也可供有关科技人员学习参考。

编辑推荐

《数据挖掘与知识发现(第2版)》是普通高等教育“十一五”国家级规划教材,高等学校计算机科学与技术系列教材。

目录

第1章 绪论

1.1 引言

1.2 KDD与数据挖掘

1.2.1 KDD定义

1.2.2 KDD过程

1.2.3 数据库技术发展与数据挖掘

1.3 数据挖掘的对象与环境

1.3.1 数据与系统特征

1.3.2 数据结构

1.3.3 数据库系统

1.4 数据挖掘方法与相关领域

1.4.1 数据挖掘相关领域

1.4.2 粗糙集

1.4.3 聚类

1.4.4 关联规则

1.4.5 决策树

1.4.6 模糊集

1.4.7 规则归纳

1.4.8 进化计算

1.5 KDD系统与应用

本章小结

习题1

第2章 关联规则

2.1 引言

2.2 关联规则基本模型

2.2.1 关联规则基本模型

2.2.2 Apriori算法

2.2.3 LIG算法

2.2.4 FP算法

2.3 多级关联规则与多维关联规则

2.3.1 多级关联规则

2.3.2 多维关联规则

2.4 关联规则价值衡量与发展

2.4.1 规则价值衡量

2.4.2 基于约束的关联规则

2.4.3 关联规则新进展

本章小结

习题2

第3章 聚类分析

3.1 聚类分析简介

3.2 聚类分析中的数据类型

3.3 划分方法

3.3.1 加均值算法

3.3.2 k-中心点算法

3.3.3 EM算法

3.4 层次方法

3.4.1 凝聚的和分裂的层次聚类

3.4.2 利用层次方法进行平衡迭代归约和聚类

3.4.3 利用代表点聚类

3.4.4 采用动态建模技术的层次聚类算法

3.5 基于密度的方法

3.6 基于网格的方法

3.7 基于模型的聚类方法

3.8 孤立点分析

本章小结

习题3

第4章 决策树

4.1 引言

4.2 信息论

4.2.1 信息传输与数据挖掘

4.2.2 信息论主要概念

4.3 ID3算法

4.4 决策树的剪枝

4.4..1 预剪枝

4.4.2 后剪枝

4.4.3 决策树的性能评价

4.5 决策树算法的改进

4.5.1 二叉树决策算法

4.5.2 按增益比率估值的方法

4.5.3 按分类信息估值的方法

4.5.4 按划分距离估值的方法

4.6 C4.5 算法

4.7 CART算法

4.8 SLIQ算法

4.9 决策树与数据预处理

4.9.1 数据概化与约简

4.9.2 抽样方法

4.9.3 维归约及特征子集的选取

4.9.4 冗余特征子集删除

4.9.5 离散化处理

4.9.6 改变数据结构

4.10 算法改进

4.10.1 多决策树综合技术

4.10.2 决策树的增量学习

本章小结

习题4

第5章 贝叶斯网络

5.1 贝叶斯网络基本概念

5.2 不确定性推理与联合概率分布

5.3贝叶斯网络中的独立关系

5.3.1 条件独立

5.3.2 有向分离和条件独立

5.3.3 因果影响独立

5.3.4 环境独立

5.4 贝叶斯网络学习

5.4.1 结构学习

5.4.2 搜索算法

5.4.3 基于约束的方法

5.4.4 参数学习

5.5 贝叶斯网络分类器

5.5.1 朴素贝叶斯网络分类器

5.5.2 半朴素贝叶斯分类器与选择贝叶斯分类器

5.5.3 树增广朴素贝叶斯网络分类器

5.5.4 广义朴素贝叶斯网络分类器

本章小结

习题5

第6章 人工神经网络

6.1 人工神经元及人工神经网络模型

6.1.1 M.P模型

6.1.2 人工神经元的形式化描述

6.1.3 神经网络的分类

6.1.4 人工神经网络的学习方式

6.2 前向神经网络

6.2.1 感知器

6.2.2 多层前向神经网络的BP算法

6.2.3 径向基函数神经网络

6.3 反馈神经网络

6.3.1 前向神经网络与反馈神经网络的比较

6.3.2 反馈神经网络模型

6.3.3 离散型Hopfield神经网络

6.3.4 连续型Hopfield神经网络

6.3.5 Boltzmarm机

6.4 自组织竞争神经网络模型

6.5 基于人工神经网络的数据挖掘

本章小结

习题6

第7章 支持向量机

7.1 学习机器泛化性能的界

7.1.1 VC维

7.1.2 Rn中有向超平面对点的打散

7.1.3 VC维和参数个数

7.1.4 通过最小化h最小化界

7.1.5 实例

7.1.6 结构风险最小化

7.2 线性支持向量机

7.2.1 可分情形

7.2.2 Karush-Kuim-TUckei·条件

7.2.3 测试

7.2.4 非可分情形

7.3 非线性支持向量机

7.3.1 硬间隔非线性支持向量机

7.3.2 软间隔非线性支持向量机

7.3.3 v-SVM分类器

7.3.4 处理不平衡数据的加权SVM

7.3.5 多类别SVM分类

7.3.6 Mercer。条件及Mercer定理

7.3.7 非线性支持向量机实例

7.4 支持向量机的VC维

7.5 支持向量机应用

7.5.1 手写体数字识别

7.5.2 文本分类

7.5.3 生物信息学中的SVM应用

本章小结

习题7

第8章 粗糙集

8.1 近似空间

8.1.1 近似空间与不可分辨关系

8.1.2 知识与知识库

8.2 近似与粗糙集

8.2.1 近似与粗糙集的基本概念

8.2.2 粗糙集的基本性质

8.3 粗糙集的特征描述

8.3.1 近似精度

8.3.2 粗糙集隶属函数

8.3.3 拓扑特征

8.4 知识约简

8.4.1 约简与核

8.4.2 相对约简和相对核

8.5 知识的依赖性

8.6 信息系统

8.6.1 信息系统的定义

8.6.2 分辨矩阵与分辨函数

8.7 决策表

8.8 决策规则

8.9 扩展的粗糙集模型

8.9.1 可变精度粗糙集模型

8.9.2 相似模型

本章小结

习题8

第9章 模糊集

9.1 模糊集定义与隶属函数

9.1.1 模糊集定义与隶属函数

9.1.2 模糊集合的表示法

9.2 模糊集的基本运算

9.3 分解定理与扩展原理

9.4 模糊集的特征

9.5 模糊集的度量

9.5.1 模糊度

9.5.2 模糊集间的距离

9.5.3 模糊集的贴近度

9.6 模糊关系

9.6.1 模糊关系定义

9.6.2 模糊关系的运算与性质

9.6.3 模糊等价关系与模糊相似关系

9.7 模糊聚类分析

9.7.1 模糊划分

9.7.2 模糊相似系数的标定方法

9.7.3 模糊聚类分析

9.7.4 传递闭包法

9.7.5 最大树法

9.7.6 模糊c-均值聚类

9.8 模糊集与粗糙集

本章小节

习题9

第10章 模型选择与模型评估

10.1 模型的过拟合

10.2 没有天生优越的分类器

10.3 模型、模型选择和模型评估

10.4 简单划分和交叉验证

10.5 自助法

10.6 Occam剃刀

10.7 最小描述长度准则

10.8 信息准则

10.8.1 Akaike信息准则

10.8.2 Bayesian信息准则

10.9 比较分类器的方法

10.9.1 估计准确率的置信区间

10.9.2 比较两个模型的性能

10.9.3 比较两种分类法的性能

10.1 0聚类评估

10.1 0.1 假设检验

10.1 0.2 聚类评估中的假设检验

10.1 0.3 相对准则

本章小结

习题10

第11章 数据预处理与可视化技术

11.1 数据清理

11.1.1 填补空缺值

11.1.2 消除噪声数据

11.1.3 实现数据一致性

11.2 数据集成与转换

11.2.1 数据集成

11.2.2 数据转换

11.3 数据归约与浓缩

11.3.1 数据立方体聚集

11.3.2 维归约

11.3.3 数据压缩

11.3.4 数值归约

11.4 概念分层

11.4.1 概念分层的概念

11.4.2 概念分层的类型

11.4.3 数值数据的概念分层与离散化

11.4.4 分类数据的概念分层

11.5 可视化技术概述

11.5.1 可视化技术分类

11.5.2 可视化技术在数据挖掘中的应用

11.6 过程可视化

11.7 数据可视化

11.7.1 折线图

11.7.2 复合饼图

11.7.3 散点图

11.7.4 盒图

11.7.5 平行坐标法

11.7.6 圆环分段表示

11.8 结果可视化

11.8.1 关联规则

11.8.2 分类

11.8.3 聚类

本章小结

习题11

第12章 数据挖掘工具与产品

12.1 数据挖掘标准

12.1.1 数据挖掘标准化概述

12.1.2 数据挖掘过程标准

12.1.3 数据挖掘接口标准

12.1.4 数据挖掘的语言标准

12.1.5 数据挖掘的Web标准

12.1.6 数据挖掘标准的应用与未来发展趋势

12.2 数据挖掘工具的介绍

12.2.1 数据挖掘工具发展过程概述

12.2.2 数据挖掘工具简介

12.2.3 WEKA

12.2.4 SPSS

12.3 数据挖掘产品分析

12.3.1 通用数据挖掘产品

12.3.2 专用挖掘产品

本章小结

习题12

附录中英文术语对照

参考文献

序言

所谓基于数据库的知识发现(Knowledge Discovery in Database,KDD),是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。数据挖掘是其中的一个重要步骤。KDD一词首次出现在1989年举行的第11届美国人工智能协会(American Association for Artifical Intelligence,AAAI)学术会议上,此后KDD的研究逐步成为热点。目前,该领域成果已经应用到人类社会、经济、科技等生活的各个方面,相关的理论、标准和工具日趋成熟。

本书作为教育部普通高等教育“十一五”国家级规划教材,是对2003年版教材的全面修订。本次修订更强调理论和实践相结合,并把最新的数据挖掘理论和技术纳入其中。

与第1版相比,本书做了如下修改:

1.大幅度修订了第2章和第8章

(1)改写第1版第2章数据预处理和数据仓库,并归入第11章数据预处理和可视化技术。缩小了数据仓库篇幅,新增了数据挖掘可视化技术,包括数据可视化、结果可视化和过程可视化等。

(2)把第1版第8章分类拆分成多章编写,丰富了相关内容。

①第4章决策树:包括信息论基础、ID3算法和C4.5 算法等。

②第5章贝叶斯网络:包括贝叶斯概率、贝叶斯学习和贝叶斯网络分类器。

2.新增了第7章、第10章和第12章

(1)第7章支持向量机:包括现行SVM、非线性SVM、SVM的VC维等。

(2)第10章模型选择与模型评估:包括过拟合问题、分类模型评估、聚类模型评估等。

(3)第12章数据挖掘工具与产品:包括数据挖掘标准、数据挖掘开源工具、数据挖掘产品等。

3.删去了第1版第10章多媒体数据挖掘

全书贯穿两条主线:一条是从算法理论、技术标准到产品开发,另一条是从数据预处理、算法、模型评估到可视化技术。

本书可用做计算机专业、信息类专业、管理类专业本科及研究生的相关课程教材和教学参考书,也可供有关人员学习参考。教师在教学过程中可根据学时数、专业特点、课程性质等对教学内容做适当取舍。

相关百科
返回顶部
产品求购 求购