马克·吐温说:“世界上有三种谎言:谎言、该死的谎言和统计数据。”
不少人对统计学存在一定的误解,认为统计学是数字游戏。实际上,统计数字有可能是谎言,但统计学绝对是一门科学,更是一种艺术,是一种决策艺术。想要了解统计,就要从变量开始。
变量(variable)是对研究个体进行观察或测量的某种特征。如对身高进行测量,身高就是变量;观察某药物的疗效,疗效就是变量。变量的观察值构成资料(data),也就是我们接触到的具体数据。
资料大致可分为两大类:
一是定量资料(quantitative data),又分为离散型资料和连续型资料;
二是定性资料(qualitative data),即分类资料(categorical data),又分为无序分类资料和有序分类资料。
连续型资料可以取任意数值,可以有小数点,如身高、体重等。离散型资料只能取整数,不能有小数点,如发病人数等。
无序分类资料指各分类之间无等级或程度的变化,如血型分为a、b、o、ab四型,它们是地位平等的。有序分类资料也称等级资料(ordinal data),指各分类之间有等级或程度的差异,如疗效分痊愈、显效、有效、无效四类,各类之间有等级差别。
数据统计分析可遵循以下思路:
(1)先确定研究目的,根据研究目的选择方法。不同研究目的采用的统计方法不同,常见的研究目的主要有三类:
一是差异性研究,即比较组间均数、率等的差异,可用的方法有t检验、方差分析、χ2检验、非参数检验等。
二是相关性分析,即分析两个或多个变量之间的关系,可用的方法有相关分析。
三是影响性分析,即分析某一结局发生的影响因素,可用的方法有线性回归、logistic回归、cox回归等。
(2)明确数据类型,根据数据类型进一步确定方法。定量资料可用的方法有t检验、方差分析、非参数检验、线性相关、线性回归等。分类资料可用的方法有χ2检验、对数线性模型、logistic回归等。下图简要列出了不同研究目的、不同数据类型常用的统计分析方法。
(3)选定统计方法后,需要利用统计软件具体实现统计分析过程。spss为菜单操作,窗口化点击,sas 和 r语言中,不同的统计方法对应不同的命令,只要方法选定,便可通过对应的命令,辅之以相应的选项,进而得到统计结果。
(4)统计结果的输出并非数据分析的完成。一般统计软件都会输出很多结果,需要从中选择自己需要的部分,并做出统计学结论,但统计学结论不同于专业结论,最终还需要结合实际做出合理的专业结论。
医学统计学的学习一定要以理解为主。对于初学者,不必强记一大堆公式,也不要死钻牛角尖,非要弄明白为什么这种方法叫“t检验”、“f检验”,为什么这个残差叫做“学生化残差”等,这些都是历史方面的问题,感兴趣的读者可以查阅统计学史。
我们不会解释这些名称的由来,只会告诉你在什么情况下应该用什么方法,什么指标应该用于什么情形。先从模仿做起,模仿案例分析过程。当然,分析思路不是唯一的,也不见得是最好的,但通常在实际中可以奏效。
本系列可以很好地帮助初学者对数据统计的理解和运用,敬请期待下期!