列联表 列联表那点事,别再傻傻分不清楚了

编辑:
发布时间: 2020-12-25 15:26:16
分享:

列联表是医学科研中最常见的数据存储格式之一。

通常,列联表的横纵方向展示的是两个不同的分类变量,最常见的类型就是四格表。如下图所示,横向变量是“是否患肺癌”,纵向变量是“是否吸烟”,都是二分类变量,表格中的数据展示的则是每个分类变量水平组合下的人数。

这是最简单的列联表数据,大家也最熟悉。当然,现实世界中,列联表的数据格式可不止这一种,下面我们一一熟悉一下,顺便了解一下如何对数据进行统计学检验。1

拟合优度检验

拟合优度检验针对的是样本数据的分布,即样本数据与已知总体的分布是否相同。

现欲研究男性群体中,所有血型所占比例是否相同。

由卡方检验的结果可知,四种血型分布在男性中并不均匀。

如果事先知道四种血型在男性群体中的分布,要检验该样本是否符合该分布呢?

这里的参数p定义的就是已知总体的频率分布。2

卡方齐性检验和卡方独立性检验

卡方齐性检验是用来比较不同分组下,各个类型的比例是否一致,即男女群体中,血型分布是否一样。

以上结果表明,在男女群体中,血型的分布无显著的统计学差异。

独立性检验结果与之相同,检验的就是血型分布与性别这个变量是否相关。

3

Cochran-Mantel-Haenszel卡方检验

CMH检验是用来检验分层的分类变量,既然是分层,也就是说,至少是三维数据。每一维数据至少含有2个水平。除此之外,对于行变量为无序分类而列变量为有序分类的数据,由于不能忽略等级关系,所以也只能用CMH检验,而不能用Pearson卡方检验。

比如对于下面这个数据:

这个array一共分为三个维度,分层变量是penicillin的水平,一共5个水平,另外两个变量是是否推迟注射,和结局。

CMH检验结果显示P值小于0.05,因此检验是有统计学意义的,OR=7,95%CI为1.027,47.725,如何解释?

也就是说在把penicillin进行分层之后,立即注射与推迟注射的治愈率的OR值是7。这是合并后的OR值,与粗的OR,即不分层OR 进行比较,如果相差较大,则说明,penicillin是一个混杂因素。如果penicillin的水平与结局存在交互作用,这个方法也是可行的,如果存在三维的交互作用,则此方法不适用。

对于有序分类列变量资料:

如图所示,工作满意程度是一个四分类的等级变量,而工资水平也可以看成四分类的等级变量,最后得出的P值小于0.05,可以得出的结论是随着工资的提高,工作满意度也随之提高。如果是用一般的Pearson X2检验,只能比较不同工资水平下,对工作满意程度的人数构成比是否相同。

4

配对四格表卡方检验

配对四格表常出现在“自身前后比较”的实验设计中,也常见于“筛检”试验中。

由p值可知,case与control之间存在统计学意义上的差异。此种情况下,如果要考查行列变量之间的相关性,则还是用chisq.test.

5

有序分类变量列联表检验

有序分类资料是指R×C列联表中,行变量或者列变量是有序分类的,或者二者都是有序分类。对于分组变量为有序分类资料,而列变量为无序分类资料,则直接将其看成R×C无序分类资料进行分析。对于行变量是无序分类,列变量是有序变量,比如药物的疗效,群众的满意程度,此种资料可用wilcox检验。对于两者均是有序分类的资料,此时,如果行列变量是同一属性,那就相当于是配对四格表资料的扩展。如果行列变量属性不同,则可以推断两个变量是否存在相关性,而且还可以推断这种相关是否为线性相关。前者用chisq.test,后者可用lbl_test。

好了,以上就是关于列联表常用检验方法的介绍。

最重要的一点是大家在使用之前必须搞清楚自己的数据特征和检验的目的。虽然看起来都是列联表,但是不同的数据采用的方法不同,得到的结果也不一样。

祝你眼明心亮!

”END
相关阅读
热门精选
孩子 皮肤