文献阅读与论文写作之二十二I定量资料的统

写在最前:

上期(文献阅读与论文写作之十九I研究资料的类型)小编和大家共同探讨了研究资料的类型,即定量资料、定性资料及等级资料相关知识。那么当你看到一组大数据,比如名患者的总胆固醇水平,很明显该资料属于定量资料,那么我们又如何对这些数据进行描述,了解这一人群总胆固醇水平的分布情况、集中与离散趋势、以及通过图表来直观的描述数据特征呢?频数分布表

对于大样本数据(比如名患者的总胆固醇水平),我们很难直接从原始数据得出概括的描述,为了解资料的分布特征,可通过资料的整理编制频数分布表,来显示数据分布的范围、数据最集中的区间和分布的形态。

编制频数表就是把资料的取值范围分割成若干个互不相交的组段,统计每个组段内的观察值个数作为对应的频数,由各个组段的范围及其频数构成最基本的频数分布表。

例:某医生收集某区62例健康成年男性血清总胆固醇(mmol/L)资料,测定结果如下,试编制频数分布表。

步骤

计算全距(R):也称为极差,是指一组变量值中最大值(Max)与最小值(Min)之差。本例R=Max-Min=6.3-2.72=3.63(mmol/L)。

按全距大小决定组段与组距:组段数的多少一般根据样本量的多少决定。过多或过少均不能很好地反映资料的分布特征:如果组段数过少会导致资料分布不清晰;组段数过多会导致个别组段的频数太少甚至为0,以致资料分布出现大幅度波动。若样本量为00左右时,通常组数取8~5组为宜。相邻组段下限值之差称为组距,一般分组时取组距相等。确定组距时通常可采用公式:组距≈全距/组段数,组距常取整数,以方便资料的整理汇总。

本例中取组段数=0,则组距=3.62/0=0.≈0.35,故以0.35为组距。

确定组段的上下限:每个组段的起点称“下限”,终点称“上限”;第一组段必须包括最小值,一般取略小于最小值的整数作为第一组的下限,但是第一组的下限值一般不能等于最小值;最后一个组段应该包括最大值,并且封口。注意:分组应尽量取等距相等,各组段既不重叠,也不能留空隙。

本例中,最小值为2.72,组距为0.35,则第一组段的下限可取2.70,上限为2.70+0.35=3.05。以此类推,分别为2.70~,3.05~,3.0~,3.75~,.0~,.5~,.80~,5.5~,5.50~,5.85~,6.20~6.55。

计算各组段的频数与频率:频数为各组段内观察值的个数;频率为各组段频数与总观察值个数之比,一般用百分数(%)表示。

计算累计频数与累积频率:累计频数为由上至下将频数累加;累计频率为由上至下将频率累加。

频数分布表在SPSS中的应用

建立数据库:

打开SPSS(编者采用的是SPSS2.0版本)软件,建立数据库,如下图所示。确定组段:从菜单中单击“转换”→“重新编码成不同变量”。

从菜单中单击“转换”→“重新编码成不同变量”。将左侧框内“总胆固醇”放入“数字变量→输出变量”框内,框中显示“总胆固醇→?”,在“输出变量”栏内的“名称”框中输入“总胆固醇”,单击“更改”按钮,使“数字变量→输出变量”框内的显示变为“总胆固醇→总胆固醇”,如下图所示。

单击“旧值和新值”按钮,选中“范围”按钮,将之前分好的组段由大到小依次输入框内。这里要注意,由于软件默认先输入的范围格式为[,),即包含下限不包含上限。因此,当我们在输入组段的时候,需要先将最后一组组段的上下界值首先输入,后依次向下类推。单击右侧新值栏中“值”的按钮,在框内输入组段编号””或组段下限“6.20-6.55”(最后一组包含最大值,故输入“6.20-6.55”,其余只输入下限值即可,如“2.70”。注意:此时应勾选“输出变量为字符串”的复选框)。点击“添加”,栏目“旧→新”内显示为“6.20thru6.55→”或“6.20thru6.55→6.20-6.55”,将剩余组段数依次输入,如图所示。全部输入完成后,点击“继续”按钮。

点击“确定按钮,生成名为“总胆固醇”的新变量,如下图所示。

制作频数分布表

菜单中单击“分析”→“统计描述”→“频率”。注意:对话框底部有一项“显示频率表格”复选框,SPSS默认选择此项,输出结果将显示频数分布表,否则只显示直方图,不显示频数分布表。

将左侧栏目内重新编码后的“总胆固醇”移至右侧变量栏目内,选择“统计量”按钮,根据研究目的及研究设计方法选取所需要的统计量。本例中,我们选择“百分位值-百分位数”、“离散-标准差、方差、范围、最大值、最小值”、“集中趋势-均值、中位数、合计”。

结果输出:频数分布表如下。

结论:由频数分布表可以看出,虽然健康成年男性血清胆固醇值有高有低,但过高或过低的人是少数,而居中者为多数,且以.5~.80mmol/L为中心,呈现对称分布形状。

2频数分布图

频数分布图可直观地描述计量资料的频数分布,也称为直方图。

步骤

选择“图表”按钮,根据研究目的及研究设计方法选择研究所需要的图表类型,本例数据为连续型变量,故可以选择直方图以描述数据的分布特征及趋势。如果选择输出“直方图”,可以选择是否在输出的直方图中添加正态分布曲线。如果需要输出正态分布曲线,则可勾选“在直方图上显示正态曲线”的复选框。(如下图所示)

结果输出:频数分布图如下。

结论:由直方图可以看出62名健康成年男性的总胆固醇水平基本呈对称分布。

3小结

本期小编和大家共同学习了定量资料的统计描述——频数分布表与图的制作。那么,我们来总结一下频数分布表与图的作用:

怎么样,对于频数分布表及图的制作内容是不是轻松掌握了呢?快打开你的SPSS统计软件实战演练一下吧。下期,小编接着和大家一起分享定量资料的统计描述——如何描述数据的集中与离散趋势。

拓展知识:对称分布与偏态分布

实际应用中,频数分布的形态很重要,分布不同,计算的统计指标及方法也不同。

对称分布

对称分布是指集中位置在正中,左右两侧频数分布大体对称,如下图:某地50名2岁男童体重频数分布图。

偏态分布

偏态分布是指集中位置偏向一侧,频数分布不对称。

.正、右偏态(峰)分布:集中位置偏于左侧,频数尾部向右侧延伸,如一些以儿童为主的传染病的年龄分布。例如:链球菌感染咽炎患者潜伏期分布图(正偏峰分布)。

2.负、左偏态(峰)分布:集中位置偏向右侧,频数尾部向左侧延伸,如一些慢性病患者的年龄分布。例如:例某恶性肿瘤患者年龄分布(负偏峰分布)。

参考文献:

[]颜虹,徐勇勇,等.医学统计学(第2版)[M].北京:人民卫生出版社,.8:22-25.

[2]武松,潘发明,等.SPSS统计分析大全[M].北京:清华大学出版社,20.:3-6.

文/王瑞

北京协和医学院护理学院5级研究生

指导教师/梁涛教授

..25

编辑/王瑞

点击协和慧眼之雾里看花







































北京中科白殿疯医院
中科医院专家



转载请注明:http://www.beicanshijie.com/wxbz/1464.html