写在最前:
上期(文献阅读与论文写作之十九I研究资料的类型)小编和大家共同探讨了研究资料的类型,即定量资料、定性资料及等级资料相关知识。那么当你看到一组大数据,比如名患者的总胆固醇水平,很明显该资料属于定量资料,那么我们又如何对这些数据进行描述,了解这一人群总胆固醇水平的分布情况、集中与离散趋势、以及通过图表来直观的描述数据特征呢?频数分布表对于大样本数据(比如名患者的总胆固醇水平),我们很难直接从原始数据得出概括的描述,为了解资料的分布特征,可通过资料的整理编制频数分布表,来显示数据分布的范围、数据最集中的区间和分布的形态。
编制频数表就是把资料的取值范围分割成若干个互不相交的组段,统计每个组段内的观察值个数作为对应的频数,由各个组段的范围及其频数构成最基本的频数分布表。例:某医生收集某区62例健康成年男性血清总胆固醇(mmol/L)资料,测定结果如下,试编制频数分布表。
步骤
计算全距(R):也称为极差,是指一组变量值中最大值(Max)与最小值(Min)之差。本例R=Max-Min=6.3-2.72=3.63(mmol/L)。
按全距大小决定组段与组距:组段数的多少一般根据样本量的多少决定。过多或过少均不能很好地反映资料的分布特征:如果组段数过少会导致资料分布不清晰;组段数过多会导致个别组段的频数太少甚至为0,以致资料分布出现大幅度波动。若样本量为00左右时,通常组数取8~5组为宜。相邻组段下限值之差称为组距,一般分组时取组距相等。确定组距时通常可采用公式:组距≈全距/组段数,组距常取整数,以方便资料的整理汇总。
本例中取组段数=0,则组距=3.62/0=0.≈0.35,故以0.35为组距。
确定组段的上下限:每个组段的起点称“下限”,终点称“上限”;第一组段必须包括最小值,一般取略小于最小值的整数作为第一组的下限,但是第一组的下限值一般不能等于最小值;最后一个组段应该包括最大值,并且封口。注意:分组应尽量取等距相等,各组段既不重叠,也不能留空隙。
本例中,最小值为2.72,组距为0.35,则第一组段的下限可取2.70,上限为2.70+0.35=3.05。以此类推,分别为2.70~,3.05~,3.0~,3.75~,.0~,.5~,.80~,5.5~,5.50~,5.85~,6.20~6.55。
计算各组段的频数与频率:频数为各组段内观察值的个数;频率为各组段频数与总观察值个数之比,一般用百分数(%)表示。
计算累计频数与累积频率:累计频数为由上至下将频数累加;累计频率为由上至下将频率累加。
频数分布表在SPSS中的应用
建立数据库:
打开SPSS(编者采用的是SPSS2.0版本)软件,建立数据库,如下图所示。确定组段:从菜单中单击“转换”→“重新编码成不同变量”。从菜单中单击“转换”→“重新编码成不同变量”。将左侧框内“总胆固醇”放入“数字变量→输出变量”框内,框中显示“总胆固醇→?”,在“输出变量”栏内的“名称”框中输入“总胆固醇”,单击“更改”按钮,使“数字变量→输出变量”框内的显示变为“总胆固醇→总胆固醇”,如下图所示。
单击“旧值和新值”按钮,选中“范围”按钮,将之前分好的组段由大到小依次输入框内。这里要注意,由于软件默认先输入的范围格式为[,),即包含下限不包含上限。因此,当我们在输入组段的时候,需要先将最后一组组段的上下界值首先输入,后依次向下类推。单击右侧新值栏中“值”的按钮,在框内输入组段编号””或组段下限“6.20-6.55”(最后一组包含最大值,故输入“6.20-6.55”,其余只输入下限值即可,如“2.70”。注意:此时应勾选“输出变量为字符串”的复选框)。点击“添加”,栏目“旧→新”内显示为“6.20thru6.55→”或“6.20thru6.55→6.20-6.55”,将剩余组段数依次输入,如图所示。全部输入完成后,点击“继续”按钮。
点击“确定按钮,生成名为“总胆固醇”的新变量,如下图所示。
制作频数分布表
菜单中单击“分析”→“统计描述”→“频率”。注意:对话框底部有一项“显示频率表格”复选框,SPSS默认选择此项,输出结果将显示频数分布表,否则只显示直方图,不显示频数分布表。
将左侧栏目内重新编码后的“总胆固醇”移至右侧变量栏目内,选择“统计量”按钮,根据研究目的及研究设计方法选取所需要的统计量。本例中,我们选择“百分位值-百分位数”、“离散-标准差、方差、范围、最大值、最小值”、“集中趋势-均值、中位数、合计”。
结果输出:频数分布表如下。
结论:由频数分布表可以看出,虽然健康成年男性血清胆固醇值有高有低,但过高或过低的人是少数,而居中者为多数,且以.5~.80mmol/L为中心,呈现对称分布形状。
2频数分布图
频数分布图可直观地描述计量资料的频数分布,也称为直方图。
步骤
选择“图表”按钮,根据研究目的及研究设计方法选择研究所需要的图表类型,本例数据为连续型变量,故可以选择直方图以描述数据的分布特征及趋势。如果选择输出“直方图”,可以选择是否在输出的直方图中添加正态分布曲线。如果需要输出正态分布曲线,则可勾选“在直方图上显示正态曲线”的复选框。(如下图所示)
结果输出:频数分布图如下。
结论:由直方图可以看出62名健康成年男性的总胆固醇水平基本呈对称分布。
3小结
本期小编和大家共同学习了定量资料的统计描述——频数分布表与图的制作。那么,我们来总结一下频数分布表与图的作用:
怎么样,对于频数分布表及图的制作内容是不是轻松掌握了呢?快打开你的SPSS统计软件实战演练一下吧。下期,小编接着和大家一起分享定量资料的统计描述——如何描述数据的集中与离散趋势。拓展知识:对称分布与偏态分布
实际应用中,频数分布的形态很重要,分布不同,计算的统计指标及方法也不同。
对称分布对称分布是指集中位置在正中,左右两侧频数分布大体对称,如下图:某地50名2岁男童体重频数分布图。
偏态分布偏态分布是指集中位置偏向一侧,频数分布不对称。
.正、右偏态(峰)分布:集中位置偏于左侧,频数尾部向右侧延伸,如一些以儿童为主的传染病的年龄分布。例如:链球菌感染咽炎患者潜伏期分布图(正偏峰分布)。
2.负、左偏态(峰)分布:集中位置偏向右侧,频数尾部向左侧延伸,如一些慢性病患者的年龄分布。例如:例某恶性肿瘤患者年龄分布(负偏峰分布)。
参考文献:
[]颜虹,徐勇勇,等.医学统计学(第2版)[M].北京:人民卫生出版社,.8:22-25.
[2]武松,潘发明,等.SPSS统计分析大全[M].北京:清华大学出版社,20.:3-6.
文/王瑞
北京协和医学院护理学院5级研究生
指导教师/梁涛教授
..25
编辑/王瑞