这个问题太大了...... 以下是个人理解20世纪90年代晚期发展的跨行业数据挖掘标准流程(CRISP-DM), 已经指导我们怎么进行数据挖掘了, 做好每一步, 我觉得就能够进行有效地数据挖掘 了第一, 是商业理解, 在我看来, 这个商业理解就是要把业务问题转换成数据挖掘问题, 目前数据挖掘的理论概念中, 一般都包括分类, 聚类,回归, 关联规则这几类, 这需要对这几类方法有一定的理解, 才能有效地转换,第二. 数据理解, 数据描述了我们的业务, 在这一步, 我们必须找准对应关系, 所面临的业务问题, 有哪些数据可以用, 我们做的是定量分析, 没有数据显然是得不到模型的, 知道哪里数据和业务关系紧密, 也能让我们的分析事半功倍, 第三.数据准备, 实际上数据挖掘的大部分工作都在这一步, 往往到了这一步就发现理想很美好, 但现实很骨感, 数据质量令人堪忧, 缺失值, 异常值接踵而来, 这是数据的错误, 还有为了适应算法, 需要将数据去量纲化, 类型转换, 去相关性, 降维等等操作, 这一步将消耗分析人员大量精力第四, 建模, 这一步需要对算法理解透彻, 要了解数据特征和算法特点, 才能选择最优算法, 以及最优参数, 很多算法的使用是有假设条件的, 必须仔细掌握, 得到的模型才会合理, 另外,还要考虑业务需要, 如果模型必须能解释, 那就要选择生成式模型算法第五, 评价, 就是模型评估了, 各种评估指标的侧重点是不一样的, 要以最能反应业务的指标为准, 另外, 评估数据的选择也很关键, 要尽可能的模拟实际生产环境, 才能评估模型的性能以上就是得到模型流程了, 业务理解和数据理解做的好, 就能快速选好方法, 和关键字段,这是能加速建模的, 数据质量是能否得到模型的关键, 缺失值, 异常值虽然能删除,填充, 但是信息的缺失是找不回来的, 就可能导致得不到模型, 可能会倒逼选择其他方法分析, 建模就要看对算法的理解了亿信华辰豌豆DM可视化数据挖掘平台,深入洞察企业数据规律,充分挖掘数据潜在价值。多维度深度分析更精准1、直观全程的可视化建模2、灵活多样的数据预处理3、丰富可扩展的挖掘算法4、强大的关系网络分析5、科学智能的最优模型推荐