高斯误差

高斯误差

出处 《绕日天体运动的理论》
中文名 高斯误差
目录导航

简介

1809年,高斯(CarlFriedrichGauss,1777—1855)发表了其数学和天体力学的名著《绕日天体运动的理论》。在此书末尾,他写了一节有关“数据结合”(datacombination)的问题,实际涉及的就是这个误差分布的确定问题。

正态分布

设真值为,n个独立测量值为。高斯把后者的概率取为(9)

其中为待定的误差密度函数。到此为止他的作法与拉普拉斯相同。但在往下进行时,他提出了两个创新的想法。

一是他不采取贝叶斯的推理方式,而径直把使(9)式达到最大的,作为的估计,即使

(10)

成立的。现在我们把称为样本的似然函数,而把满足(10)式的称为的极大似然估计。这个称呼是追随费歇尔,因为他在1912年发表的一篇文章中,明确提到以上概念并非针对一般参数的情形。

如果拉普拉斯采用了高斯这个想法,那他会得出(在已定误差密度(3)的基础上)的估计是的中位数med(),即按大小排列居于正中的那一个(n为奇数时),或居于正中那两个的算术平均(n为偶数时)。这个解不仅计算容易,且在实际意义上,有时比算术平均更合理。不过,即使这样,拉普拉斯的误差分布(3)大概也不可能取得高斯正态误差那样的地位。原因是是线性函数,在正态总体下有完善的小样本理论,而med()要用于推断就难于处理。另外,这里所谈的是一个特定的问题——随机测量误差该有如何的分布。测量误差是由诸多因素形成,每种因素影响都不大。按中心极限定理,其分布近似于正态是势所必然。其实,早在1780年左右,拉普拉斯就推广了狄莫弗的结果,得到了中心极限定理的比较一般的形式。可惜的是,他未能把这一成果用到确定误差分布的问题上来。

高斯的第二点创新的想法是:他把问题倒过来,先承认算术平均是应取的估计,然后去找误差密度函数以迎合这一点,即找这样的,使有(10)式决定的就是。高斯证明(注2):这只有在

(11)

才能成立,这里h>0是常数,这就是正态分布。

使用这个误差分布,就容易对最小二乘法给出一种解释。回到第四章的方程(3),其中,是观测数据。记


按理论它们应为0,但因有测量误差存在,实际不必为0,故可视为误差。按高斯的第一个原则(极大似然),结合误差密度(11),()的概率为


要此式达到最大,必须取之值,使表达式达到最小,于是得到的最小二乘估计。要注意的是,这一点与待定常数之值无关。

高斯这项工作对后世的影响极大,它使正态分布同时有了“高斯分布”的名称,且如第七章曾指出的,后世之所以多将最小二乘法的发明权归之于他,也是出于这一工作。高斯是一个伟大的数学家,重要的贡献不胜枚举。但现今德国10马克的印有高斯头像的钞票,其上还印有正态分布的密度曲线。这传达了一种想法:在高斯的一切科学贡献中,其对人类文明影响最大者,就是这一项。

在高斯刚作出这个发现之初,也许人们还只能从其理论的简化上来评价其优越性,其全部影响还不能充分看出来。这要到20世纪正态小样本理论充分发展起来以后。

拉普拉斯很快得知高斯的工作,并马上将其与他发现的中心极限定理联系起来。为此,他在即将发表的一篇文章(发表于1810年)上加了一点补充,指出如若误差可看成许多量的叠加,则根据他的中心极限定理,则误差理应有高斯分布。这是历史上第一次提到所谓“误差学说”误差是由大量的、由种种原因产生的元误差叠加而成。后来到1837年,海根(G.Hagen)在一篇论文中正式提出了这个学说。其实,他提出的形式有相当大的局限性:海根把误差设想成个数很多的、独立同分布的“元误差”之和,每个只取两值,其概率都是,由此出发,按狄莫弗的中心极限定理,立即就得出误差(近似地)服从正态分布。

拉普拉斯所指出的这一点有重大的意义,在于它给误差的正态理论一个更自然合理,更令人信服的解释。因为,高斯的说法有一点循环论证的气味:由于算术平均是优良的,推出误差必须服从正态分布;反过来,由后一结论又推出算术平均及最小二乘估计的优良性,故必须认定这二者之一(算术平均的优良性,误差的正态性)为出发点,终觉有其不足之处。拉普拉斯的理论把这断裂的一环连接起来,使之成为一个和谐的整体,实有着极重大的意义。

概率高斯证明线性函数

2.

3.

相关百科
返回顶部
产品求购 求购