问答
首页
找产品
找企业
资讯
论坛
百科
问答
维修
服务
品牌
改装
首页
问答
全部分类
问答
精选
待解决
问
数据挖掘与数理统计的联系是什么?
旭日
数据挖掘不是为了替代传统的统计分析技术。相反,它是统计分析方法学的延伸和扩展。大多数的统计分析技术都基于完善的数学理论和高超的技巧,预测的准确度还是令人满意的,但对使用者的要求很高。而随着计算机能力的不断增强,有可能利用计算机强大的计算能力只通过相对简单和固定的方法完成同样的功能。 对于数据挖掘与统计,可以考虑:数据库系统与文件系统。那么这两者实质的区别在哪里,计算机系的人总会回答的,因为数据库也好,文件系统也好,都是计算机行业的术语。在文件系统基础上的:因为大家都知道,数据库系统的数据库管理系统(DBMS)是建立现在的问题到了数据挖掘与统计,数据挖掘算法有些本来就是统计的方法,那么到了计算机行业,自有计算机行业规则,人们研究数据挖掘会关心它和大数据量的结合(有效性),会关心它的数据挖掘原语(数据挖掘语言),准的接口等只有用软件实现时候才考虑的事项。算法性能的优化、标于是数据挖掘行业制定了一些标准,比如基于XML的PMML.(预言模型标记语言);微软的OLE DB For DM;SPSS的CRISP-DM.当数据挖掘的研究到这个程度,很难看到和统计的关联。从这个意义上讲,是计算机行业的一个方向,而不就是广义统计的一个部分。同时,数据挖掘仍然自机器学习和人工智能的一部分,其核心是规则,对于数据挖掘算法中来统计的,但是这种技术本身已经不属于统计了。这是一个数据挖掘算法可以得出的规则,在得出这样的规则之前,算法会对数据集进行分析,该数据集包括很多变量(数据库的字段),假设是10个,“年龄”和“工资”是其中的两个,算法会根据历史数据自动抽取这两个变量,而得出这样的规则。但是对于统计,是不能得出的,它只能得出量化的概率关系,而规则的推导应该不是统计学的范畴。 科学在进步,科学进步导致了学科的细分,科的人才来研究和发展它。数据挖掘作为一个新型的学科,结合各学数据挖掘就其算法本身,论的解释,但是作为一个整体的研究方向,很大一部分可以从数理统计中获得理应该从计算机的层面进行全局的考虑。即从系统的角度进行分析,毕竟数据挖掘是面向应用的,一个再完美的算法,如果只能对几百条数据进行分析,那么是没有用的。
2023-07-18
1条回答
问
数据分析挖掘的作用和意义?
匿名用户
FineBI数据挖掘建筑在FineBI的多维数据库之上,集成FineBI敏捷性的优点。当FineBI系统第一次搭建完成,并将数据准备好之后,像FineBI分析一样,不需要根据新的业务需求进行新的数据准备。
2023-07-15
3条回答
问
数据挖掘与数据仓库的联系与区别
开心,就好
数据仓库,顾名思义,就是存储数据的仓库,当然这个仓库中的数据是经过过滤,加工和预处理之后的数据,可以为进一步的分析(及数据挖掘)提供数据,当然本身它也可以输出一些简单的分析数据。数据挖掘,狭义上讲,是数据仓库后的数据分析阶段,通过一些人工智能,机器学习等方法挖掘数据深处的东西。广义上讲,数据仓库就是数据挖掘的一个过程。
2023-07-15
1条回答
问
与数据挖掘与分析相关的专业
恋着多喜欢
统计 金融工程医学院 也有医药统计 方面的专业另外 金融偏分析类 研究生以上会用到数据分析主要就这两个方向 偏应用的搞纯理论的当然去数学系
2023-07-15
2条回答
问
如何做数据分析挖掘
Stephanie
1. 首先数据积累2. 单看某一时间点的数据没有太大的意义3. 数据是拿来比较,从而分析趋势4. 数据需要大多只是量化指标5. 数据要经过分析得出信息,信息才是对我们有用的6. 分析数据建立模型,带入各种公式之类的专业人员做的事情
2023-07-10
2条回答
问
数据分析与数据挖掘
匿名
陈永强主编这本书为什么好?他涉及了除神经网络以外的几乎所有数据挖掘方法我来给你推荐一本好书吧,这个我也给别的提问的人推荐过、模型给出了十分具体、解释非常详细具体的解释了数据模型的各种结果、参数的数学意义并且几乎所有模型都给出了实际案例分析详细的图解,让你可以形象的了解如何操作SPSS软件,每个选项,我推荐你看这本书,它能让你对数据挖掘的理解立体,反馈不错《SPSS多元统计分析方法及应用》清华大学出版社朱星宇、按钮的意义、会导致什么结果如果你是市场人士、扎实,有理论还有实践,并且详细到了具体细节、深入的数学推导
2023-07-10
4条回答
问
数据挖掘与推荐系统是什么关系
匿名
推荐系统属于数据挖掘的应用数据挖掘其中很多的原理,比如说关联分析、比如说分类预测等,通过这些数据挖掘原理 可以找出某些规则,然后基于这些规则就可以进行相关的推荐设置比如说通过关联规则发现很多买市场营销书籍的人,也买了 定位 的书,那一个新的顾客,如果他买了市场营销的书,则系统就会给其推荐 定位这本书。 这就是推荐系统。
2023-07-10
2条回答
问
数据挖掘算法的算法分类
触不可及。
C4.5就是一个决策树算法,它是决策树(决策树也就是做决策的节点间像一棵树一样的组织方式,其实是一个倒树)核心算法ID3的改进算法,所以基本上了解了一半决策树构造方法就能构造它。决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。C4.5比ID3改进的地方时:ID3选择属性用的是子树的信息增益(这里可以用很多方法来定义信息,ID3使用的是熵(entropy)(熵是一种不纯度度量准则)),也就是熵的变化值,而C4.5用的是信息增益率。也就是多了个率嘛。一般来说率就是用来取平衡用的,就像方差起的作用差不多,比如有两个跑步的人,一个起点是100m/s的人、其1s后为110m/s;另一个人起速是1m/s、其1s后为11m/s。如果仅算差值那么两个就是一样的了;但如果使用速度增加率(加速度)来衡量,2个人差距就很大了。在这里,其克服了用信息增益选择属性时偏向选择取值多的属性的不足。在树构造过程中进行剪枝,我在构造决策树的时候好讨厌那些挂着几个元素的节点。对于这种节点,干脆不考虑最好,不然很容易导致overfitting。对非离散数据都能处理,这个其实就是一个个式,看对于连续型的值在哪里分裂好。也就是把连续性的数据转化为离散的值进行处理。能够对不完整数据进行处理,这个重要也重要,其实也没那么重要,缺失数据采用一些方法补上去就是了。 (朴素贝叶斯NB)NB认为各个特征是独立的,谁也不关谁的事。所以一个样本(特征值的集合,比如“数据结构”出现2次,“文件”出现1次),可以通过对其所有出现特征在给定类别的概率相乘。比如“数据结构”出现在类1的概率为0.5,“文件”出现在类1的概率为0.3,则可认为其属于类1的概率为0.5*0.5*0.3。 (支持向量机SVM)SVM就是想找一个分类得最”好”的分类线/分类面(最近的一些两类样本到这个”线”的距离最远)。这个没具体实现过,上次听课,那位老师自称自己实现了SVM,敬佩其钻研精神。常用的工具包是LibSVM、SVMLight、MySVM。 (Mining frequent patterns without candidate generation)这个也不太清楚。FP-growth算法(Frequent Pattern-growth)使用了一种紧缩的数据结构来存储查找频繁项集所需要的全部信息。采用算法:将提供频繁项集的数据库压缩到一棵FP-tree来保留项集关联信息,然后将压缩后的数据库分成一组条件数据库(一种特殊类型的投影数据库),每个条件数据库关联一个频繁项集。 K-Means是一种最经典也是使用最广泛的聚类方法,时至今日扔然有很多基于其的改进模型提出。K-Means的思想很简单,对于一个聚类任务(你需要指明聚成几个类,当然按照自然想法来说不应该需要指明类数,这个问题也是当前聚类任务的一个值得研究的课题),首先随机选择K个簇中心,然后反复计算下面的过程直到所有簇中心不改变(簇集合不改变)为止:步骤1:对于每个对象,计算其与每个簇中心的相似度,把其归入与其最相似的那个簇中。步骤2:更新簇中心,新的簇中心通过计算所有属于该簇的对象的平均值得到。k-means 算法的工作过程说明如下:首先从n个数据对象任意选择k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。 BIRCH也是一种聚类算法,其全称是Balanced Iterative Reducing and Clustering using Hierarchies。BIRCH也是只是看了理论没具体实现过。是一个综合的层次聚类特征(Clustering Feature, CF)和聚类特征树(CF Tree)两个概念,用于概括聚类描述。聚类特征树概括了聚类的有用信息,并且占用空间较元数据集合小得多,可以存放在内存中,从而可以提高算法在大型数据集合上的聚类速度及可伸缩性。BIRCH算法包括以下两个阶段:1)扫描数据库,建立动态的一棵存放在内存的CF Tree。如果内存不够,则增大阈值,在原树基础上构造一棵较小的树。2)对叶节点进一步利用一个全局性的聚类算法,改进聚类质量。由于CF Tree的叶节点代表的聚类可能不是自然的聚类结果,原因是给定的阈值限制了簇的大小,并且数据的输入顺序也会影响到聚类结果。因此需要对叶节点进一步利用一个全局性的聚类算法,改进聚类质量。 AdaBoost做分类的一般知道,它是一种boosting方法。这个不能说是一种算法,应该是一种方法,因为它可以建立在任何一种分类算法上,可以是决策树,NB,SVM等。Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。使用adaboost分类器可以排除一些不必要的训练数据,并将关键放在关键的训练数据上面。 GSP,全称为Generalized Sequential Pattern(广义序贯模式),是一种序列挖掘算法。对于序列挖掘没有仔细看过,应该是基于关联规则的吧!网上是这样说的:GSP类似于Apriori算法,采用冗余候选模式的剪除策略和特殊的数据结构-----哈希树来实现候选模式的快速访存。GSP算法描述:1)扫描序列数据库,得到长度为1的序列模式L1,作为初始的种子集。2)根据长度为i 的种子集Li ,通过连接操作和修剪操作生成长度为i+1的候选序列模式Ci+1;然后扫描序列数据库,计算每个候选序列模式的支持度,产生长度为i+1的序列模式Li+1,并将Li+1作为新的种子集。3)重复第二步,直到没有新的序列模式或新的候选序列模式产生为止。产生候选序列模式主要分两步:连接阶段:如果去掉序列模式s1的第一个项目与去掉序列模式s2的最后一个项目所得到的序列相同,则可以将s1与s2进行连接,即将s2的最后一个项目添加到s1中。修切阶段:若某候选序列模式的某个子序列不是序列模式,则此候选序列模式不可能是序列模式,将它从候选序列模式中删除。候选序列模式的支持度计算:对于给定的候选序列模式集合C,扫描序列数据库,对于其中的每一条序列s,找出集合C中被s所包含的所有候选序列模式,并增加其支持度计数。 又是一个类似Apriori的序列挖掘。其中经典十大算法为:C4.5,K-Means,SVM,Apriori,EM,PageRank,AdaBoost,KNN,NB和CART。
2023-06-25
2条回答
问
数据提炼与数据挖掘是什么关系?
匿名
提炼是把有的数据整理吧,找出重点,但重点还是在数据结果上,挖掘是要考虑到现实情况,分析出现实的问题和形成问题的原因,重点是用分析出来的数据说事情.挖掘是更身层次的
2023-06-25
2条回答
问
数据挖掘在智能商业中的应用有哪些
Romantic゛
数据挖掘应用程序提供的可计量的收益,包括降低企业经营成本,提高盈利能力,以及更出色的服务。这样的好处在包括保险,直邮营销,电信,零售,和医疗保健行业得以证实。保险和直邮产业是依赖于数据挖掘,做出有利的商业决策的两个产业。例如保险公司必须能够准确地评估由投保人有无竞争力的保险费所带来的风险。例如,对低风险的投保人滥收费用的投诉会促使他们寻找其他较低保费的公司。少收高风险的投保人会由于较低的保费吸引更多的人。在任一情况下,必然成本增加、利润降低。有效的数据分析使准确的预测模型的建立是解决这些问题的关键。交易数据在被用于数据挖掘应用前的转换是臭名昭著的要求。这些数据包括对个人和事件的记录。一个例子是将一家集零售客户购买的物品,组合成一个“市场篮子”。 另一种是一组由一个特定的上网请求的Web页面从网站上得到的分组会话。公司全球范围内收集的大量有关交易数据的能力已经远远超过了他们进行分析的能力。从数据挖掘的角度看,由于多种因素的影响,这是特别具有挑战性的交易数据。
2023-06-25
1条回答
上一页
51/59
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
下一页
求购
首页
找产品
找企业
论坛
我的