在单因素方差分析(见下文)中,为了使造成各随机变量Xij之间的差异的大小能定量表示出来,引入:
记在水平Ai下样本和为,其样本均值为因素A下的所有水平的样本总均值为
为了通过分析对比产生样本
之间差异性的原因,从而确定因素A的影响是否显著,我们引人偏差平方和来度量各个体间的差异程度
因ST能反映全部试验数据之间的差异,所以又称为总偏差平方和。
如果H0成立,则r个总体间无显著差异,也就是说因素A对指标没有显著影响,所有的Xij可以认为来自同一个总体,各个Xij间的差异只是由随机因素引起的,若H0不成立,则在总偏差中,除随机因素引起的差异外,还包括由因素A的不同水平的作用而产生的差异,如果不同水平作用产生的差异比随机因素引起的差异大得多,就认为因素A对指标有显著影响,否则,认为无显著影响。为此,可将总偏差中的这两种差异分开,然后进行比较。
记
则有下面的定理:
定理1(平方和分解定理)令,有
SE表示在水平Ai下样本值与样本均值之间的差异,它是由随机误差引起的,称为误差平方和或组内平方和。SA反映在每个水平下的样本均值与样本总均值的差异,它是由因素A取不同水平引起的,称为因素A的效应平方和或组间平方和,ST=SE+SA式就是我们所需要的平方和分解式。
如果H0成立,则所有的Xij都服从正态分布,且相互独立,则有:
定理2
(1),且,所以为σ2的无偏估计;
(2),且,因此为σ2的无偏估计;
(3)SE与SA相互独立;
(4)。
在方差分析中,我们将要考察的对象的某种特征称为试验指标,影响试验指标的条件称为因素,因素可分为两类,一类是人们可以控制的(如原材料、设备、学历、专业等因素);另一类人们无法摔制的(如员工素质与机遇等因素)。下面所讨论的因素都是指可控制因素。每个因素又有若干个状态可供选择,因素可供选择的每个状态称为该因素的水平。如果在一项试验中只有一个因素在改变,则称为单因素试验;如果多于一个因素在改变,则称为多因素试验。因素常用大写字母A,B,C,…来表示,因素A的水平用来表示,下面对单因素试验进行讨论[2]。
设单因素A具有r个水平,分别记为,在每个水平下,要考察的指标可以看成一个总体,故有r个总体,并假设:
(1)每个总体均服从正态分布,即;
(2)每个总体的方差σ[1]。
水平 | ||||
样本 | ||||
样本和 | ||||
样本均值 | ||||
总体 | ||||
总体均值 |
那么,要比较各个总体的均值是否一致,就是要检验各个总体的均值是否相等,设第i个总体的均值为μi,则
假设检验为;
备择假设为不全相等。
在水平下,进行次独立试验,得到试验数据,记数据的总个数为。
由假设有(未知),即有,故可视为随机误差。记,从而得到如下数学模型:
,各个相互独立,μi和未知。
方差分析的任务:
(1)检验该模型中r个总体的均值是否相等;
(2)作为未知参数的估计。
为了更仔细地描述数据,常在方差分析中引入总平均和效应的概念,将各均值的加权平均值记为μ,即
其中再引入
δi表示在水平Ai下总体的均值μi与总平均μ的差异,称其为因子A的第i个水平Ai的效应。易见,效应间有如下关系式
利用上述记号,前述数学模型可改写为
,各个相互独立,μi和未知。
而前述检验假设则等价于
:不全为零.
这是因为当且仅当时,,即。