在一些问题中,每个变量都可取一系列离散值中的一个,或者可能值的范围被划分为有限个可能性。把这些变量放在一起,则必须考虑很多种值的组合方式,这后果就是常说的组合爆炸。即使在最简单的二元变量例子中,可能产生的组合总数就已经是在维数上呈现指数级的。一般而言,每个额外的维度都需要成倍地增加尝试所有组合方式的影响。
当在数学空间上额外增加一个维度时,其体积会呈指数级的增长。如,点间距离不超过10-2=0.01,102=100个均匀间距的样本点足够采样到一个单位区间(“一个维度的立方体”);一个10维单元超立方体的等价采样,其相邻两点间的距离为10-2=0.01则需要1020个样本点。一般而言,点距为10-n的10维超立方体所需要的样本点数量,是1维超立方体这样的单元区间的10n(10-1)倍。在上面的n=2的例子中:当样本距离为0.01时,10维超立方体所需要的样本点数量会比单元区间多1018倍。这一影响就是上面所述组合学问题中的组合结果,距离函数问题将在下面介绍。
当用数值逆向归纳法解决动态优化问题时,目标函数针对每个可能的组合都必须计算一遍,当状态变量的维度很大时,这是极其困难的。
在机器学习问题中,需要在高维特征空间(每个特征都能够取一系列可能值)的有限数据样本中学习一种“自然状态”(可能是无穷分布),要求有相当数量的训练数据含有一些样本组合。给定固定数量的训练样本,其预测能力随着维度的增加而减小,这就是所谓的Hughes影响或Hughes现象(以Gordon F. Hughes命名)。
在贝叶斯统计中维数灾难通常是一个难点,因为其后验分布通常都包含着许多参数。
然而,这一问题在基于模拟的贝叶斯推理(尤其是适应于很多实践问题的马尔科夫蒙特卡洛方法)出现后得到极大地克服,当然,基于模拟的方法收敛很慢,因此这也并不是解决高维问题的灵丹妙药。
当一个度量,如欧几里德距离使用很多坐标来定义时,不同的样本对之间的距离已经基本上没有差别。
一种用来描述高维欧几里德空间的巨型性的方法是将超球体中半径和维数
的比例,和超立方体中边长
和等值维数的比例相比较。这样一个球体的体积计算如下:
立方体的体积计算如下:
随着空间维度的增加,相对于超立方体的体积来说,超球体的体积就变得微不足道了。这一点可以从当
趋于无穷时比较前面的比例清楚地看出:
当。因此,在某种意义上,几乎所有的高维空间都远离其中心,或者从另一个角度来看,高维单元空间可以说是几乎完全由超立方体的“边角”所组成的,没有“中部”,这对于理解卡方分布是很重要的直觉理解。给定一个单一分布,由于其最小值和最大值与最小值相比收敛于0,因此,其最小值和最大值的距离变得不可辨别。
.
这通常被引证为距离函数在高维环境下失去其意义的例子。
最近邻搜索在高维空间中影响很大,因为其不可能使用其中一个坐标上的距离下界来快速地去掉一个候选项,因为该距离计算需要基于所有维度。
然而,最近的研究表明仅仅一些数量的维度不一定会必然导致该问题,因为相关的附加维度也能增加其相反项。另外,结果排序的方法仍然有助于辨别近处和远处的邻居。然而,不相关(“噪声”)维度也如期望一样会减少相反项,在时间序列分析中,数据一般都是高维的,只要信噪比足够高的话,其距离函数也同样能够可靠地工作。
高维度在距离函数的另一个影响例子就是k近邻(k-NN)图,该图使用一些距离函数从数据集构造。当维度增加时,k-NN有向图的入度分页将会向右倾斜,从而导致中心的出现,很多的数据实例出现在其他许多实例(比预期多得多)的k-NN列表中。这一现象对很多技术,如分类(包括最近邻居法、半监督学习,和聚类分析都有很大的影响。,同时它也对信息检索问题有影响。
组合爆炸 相似度集中 降维 傅立叶变换列表 高维数据聚类 |
动态规划 贝尔曼方程 逆向归纳法 主成分分析 最小二乘法 |
准随机 聚类分析 小波分析 时间序列 奇异值分解 |