组距分组是将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。组距分组是 数值型数据分组的基本形式。
在 组距分组中,各组之间的取值界限称为 组限,一个组的最小值称为下限,最大值称为上限;上限与下限的差值称为组距;上限与下限值的平均数称为 组中值,它是一组变量值的代表值。
把所有数据分成若干组,每个小组的两个端点之间的距离(组内数据的取值范围)称为 组距。
例如,某生产车间50名工人日加工零件数如下(单位:个)。试对数据进行组距分组。
117,108,110,112,137,122,131,118,134,114,124,125,123,127,120,129,117,126,123,128,139,122,133,119,124 ,107,133,134,113,115 ,117,126,127,120,139, 130,122,123,123,128,122,118,118,127,124,125,108,112,135,121
采用组距分组需要经过以下几个步骤:
确定组数。一组数据分多少组合适呢?一般与数据本身的特点及数据的多少有关。由于分组的目的之一是为了观察数据分布的特征,因此 组数的多少应适中。如 组数太少,数据的分布就会过于集中,组数太多,数据的分布就会过于分散,这都不便于观察数据分布的特征和规律。 组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按Sturges提出的 经验公式来确定 组数K:
其中n为数据的个数,对结果用四舍五入的办法取整数即为 组数。例如,对前例的数据有:,即应分为7组。当然,这只是一个 经验公式,实际应用时,可根据数据的多少和特点及分析的要求,参考这一标准灵活确定 组数。
确定各组的组距。组距是一个组的 上限与 下限的差,可根据全部数据的最大值和最小值(即 极差)及所分的 组数来确定,即组距=(最大值-最小值)÷组数。例如,对于前例的数据,最大值为139,最小值为107,则组距=(139-107)÷7=4.6。为便于计算,组距宜取5或10的倍数,而且第一组的下限应低于最小变量值,最后一组的上限应高于最大变量值,因此组距可取5。
根据分组整理成 频数分布表。比如对上面的数据进行分组,可得到下面的 频数分布表,见表:
某车间50名工作日加工零件数分组表
按零件数分组 | 频数(人) | 频率(%) |
105-109 | 3 | 6 |
110-114 | 5 | 10 |
115-119 | 8 | 16 |
120-124 | 14 | 28 |
125-129 | 10 | 20 |
130-134 | 6 | 12 |
135-139 | 4 | 8 |
合计 | 50 | 100 |
按零件数分组 | 频数(人) | 频率(%) |
105-109 | 3 | 6 |
110-114 | 5 | 10 |
115-119 | 8 | 16 |
120-124 | 14 | 28 |
125-129 | 10 | 20 |
130-134 | 6 | 12 |
135-139 | 4 | 8 |
合计 | 50 | 100 |
采用组距分组时,需要遵循“不重不漏”的原则。“不重”是指一项数据只能分在其中的某一组,不能在其他组中重复出现;“不漏”是指组别能够穷尽,即在所分的全部组别中每项数据都能分在其中的某一组,不能遗漏。
为解决“不重”的问题, 统计分组时习惯上规定“上 组限不在内”,即当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而计算在下一组内。例如,在表的分组中,120这一数值不计算在“115-120”这一组内,而计算在“120-125”组中,其余类推。当然,对于 离散变量,可以采用相邻两组 组限间断的办法解决“不重”的问题。例如,可对上面的数据做如下的分组,如表:
某车间50名工人日加工零件数分组表
按零件数分组 | 频数(人) | 频率(%) |
105-109 | 3 | 6 |
110-114 | 5 | 10 |
115-119 | 8 | 16 |
120-124 | 14 | 28 |
125-129 | 10 | 20 |
130-134 | 6 | 12 |
135-139 | 4 | 8 |
合计 | 50 | 100 |
而对于连续变量,可以采取相邻两组组限重叠的方法,根据“上组限不在内”的规定解决不重的问题,也可以对一个组的上限值采用小数点的形式,小数点的位数根据所要求的精度具体确定。例如,对零件尺寸可以分组为10-11.99、12-13.99、14-15.99,等等。
在 组距分组中,如果全部数据中的最大值和最小值与其他数据相差悬殊,为避免出现空白组(即没有变量值的组)或个别 极端值被漏掉,第一组和最后一组可以采取“××以下”及“××以上”这样的 开口组。 开口组通常以相邻组的组距作为其组距。例如,在上面的50个数据中,假定将最小值改为94,最大值改为160,采用上面的分组就会出现“空白组”,这时可采用“开口组”,如表:
某车间50名工人日加工零件数分组表
按零件数分组 | 频数(人) | 频率(%) |
110以下 | 3 | 6 |
110-115 | 5 | 10 |
115-120 | 8 | 16 |
120-125 | 14 | 28 |
125-130 | 10 | 20 |
130-135 | 6 | 12 |
135以上 | 4 | 8 |
合计 | 50 | 100 |
按零件数分组 频数(人) 频率(%)
为了 统计分析的需要,有时需要观察某一数值以下或某一数值以上的 频数或 频率之和,还可以计算出累积频数或 累积频率。