通过计算机软件实现流行病学调查的数据处理与统计分析
泰山医学院 Richard 流行病与卫生统计学
摘要:目的 探讨通过软件实现流行病学调查数据处理和统计分析的方法,为后续流行病学研究提供理论依据和可行性案例。方法 1.通过EpiData数据录入软件录入调查问卷或正规量表,录入完成后导出至Excel电子表格。2.在Excel中对数据进行预处理,检查极端值,整理各变量代码及缺失值,并对部分变量作图表。3.将Excel导入SPSS18.0,对调查问卷中的各变量进行统计学分析,保存结果。4.将统计结果(一般为表格形式)复制到Excel进行格式编辑处理。结果 通过各种软件的配合使用可使流行病学工作效率大大提高,统计分析结果信度和效度高,表达准确简明扼要。结论 可以通过多种软件的联合使用提高流行病学调查的工作效率。
关键词:计算机软件;流行病学;数据处理;统计分析
The accomplishment of Epidemiological investigation data processing and statistical analyze by computer software
Abstract: Objective: To explore the method of data processing and statistical analysis of epidemiological investigation by software, as to provide theoretical basis for subsequent epidemiological studies and the feasibility of the case. Method: 1. Input questionnaire or formal scale by EpiData, a data entry software, then export the result to Excel spreadsheets after the completion of inputting. 2. Preprocess the data, check the extreme values, make up each variable code and missing value, make chart of some variables In Excel. 3. Import the Excel to SPSS18.0, make statistical analysis of the variables in the questionnaire and save the statistical result. 4. Copy the statistical results (generally are tables) to Excel to go on further format editing. Results: By Using a variety of software together can greatly improve the efficiency of epidemiological work, higher the reliability and validity of statistical analysis results, and make the expression accurate and succinctly. Conclusion: The co-operation of variety softwares can improve the working efficiency of the epidemiological investigation.
Key words: Computer software; Epidemiology; Data processing; Statistical analysis
在公共卫生领域,无论工作中还是在科研中,流行病学调查是经常开展的项目,掌握系统数据处理及统计分析,更是一个流行病与卫生统计学硕士必备的技能。得益于计算机的普及和各种软件的诞生,流行病学工作也发生了很大变化,由以往的手动分类和计算正在向信息化和智能化迈进。本文试对流行病学调查工作做总结概述,拟探索利用多种软件提高工作效率的方法。
1.EpiData录入软件
1.1 EpiData简介
EpiData是一个既可以用于创建数据结构文档,也可以用于数据定量分析的一组应用工具的集合,该软件采用帕其卡语言(Pascal)开发,可用于简单或程序化的数据录入和数据文档。EpiData可以执行基本的统计分析、图表和综合的数据管理,如描述性统计、SPC图表、重新编码数据、标注值和变量、定义缺失值等。EpiData软件安装如同拷贝程序文档一样简单,它可以从U盘运行,并且内存很小(<2.5MB)。基于以上优点,EpiData备受流行病学工作者的喜爱,并在日常工作中经常使用。目前的主流版本是EpiData 3.1。 1.2 EpiData 使用方法 (1)打开软件
双击软件图标或EpiData.exe文件,打开软件。软件运行后的界面如下图:
图1. EpiData 3.1 界面
(2)建立QES文件
首先需要建立调查表文件,即后缀名为.qes的文件。可以点击“文件”→图2. 建立新的QES文件的三种方法“生成调查表文件(QES文件)”,或点击“打开文件”→“建立新QES文件”,或者直接点击空白页图标建立新的QES文件,三种方法详见下图(图2)。
图2. 建立新的QES文件的三种方法
建好的空白QES文件如图3,此时上方标题栏有“EpiData文件1”字样。文件中的字体和背景颜色可通过“文件”→“选项”→“背景”来进行设置,在此不赘述。
图3. 空白的QES文件
接下来,需要在QES文件中输入调查问卷的内容,也可把事先编制的问卷复制过来。在编制调查表的过程中,涉及到编号和特殊字符的使用。首先看下面的例子(图4):
图4. 狂犬病病例个案调查表
说明:{}里的A、B和C为字段名或者说是变量名,变量A记录了县市名称,B代表国标码。对于“姓名{D11}”而言,姓名只是一个提示,在生成数据库文件时不编译,而D11是变量名。如果没有“{}”来定义变量名,软件会自动进行变量名的赋值编码,其格式如N1AA,N2等。
@表示一种对齐方式,可以控制调查表的格式。
“_”用来定义字符串,当需要输入文本时需要用多个“_”来定义,一个字母用一个“_”来表示,一个汉字用两个“_”来表示。
每一个“#”用来代表一个数字,如{B}国标码有五个“#”,就意味着该选项最大可以输入的数字为99999。
另外,QES中还可以定义日期格式或利用布尔逻辑设置变量,因实际工作中使用较少,在此不赘述。
(3)生成REC文件
REC文件,即数据库文件,或者说数据录入文件。当QES文件编写完成后就可生成REC文件,可通过点击“REC文件”→“生成REC文件”,或者点击工具栏的“2 生成REC文件”→“生成REC文件”(如图5),在生成REC文件之前可以通过“数据格式预览”或“数据表预览”查看效果,不满意可以随时更改。选择存储路径并命名后就可生成REC文件(如图6)。需要注意的是,REC文件和之前的QES文件最好放在同一文件夹下,方便以后使用和修改。
图5. 生成REC文件的过程
图6. 狂犬病病例个案调查表生成的REC文件
(4)建立CHK文件 通过以上的操作,对于逻辑关系简单的问卷就可以使用了,但是为了提高录入效率同时减少录入错误率,仍需进行质量控制,这时需要建立CHK文件。建立方法:在EpiData不打开任何文件 的情况下,点击“3建立CHK文件”→选择需要关联的REC文件并打开(如图7)。
图7. 建立CHK文件
建立CHK文件之后就要对各变量进行质控了,此时会有一个小窗口浮动在REC文件上方(图8)。当选中某一变量输入框时,该输入框呈高亮状态。质控窗口有五个选项“Range, Legal”,
“Jumps”,“Must enter”,“Repeat”和“Value label”。
图8. 对变量进行质控
“Range, Legal”用来定义字段的允许数值范围和允许数值,在录入时,如果录入的数值不在这两个命令定义的允许数值(范围)内,系统将报错,需重新录入“合格”的数值。Range限定的是字段数值的“允许范围”,比如我们可以键入“1-8”,代表该字段的数值是从1到8且连续的8个数值;而Legal则限定字段的允许数值,如果实际情况是既有连续的数值,又有不连续的,那这两个命令可以一起用,比如键入“1-5,7,8”,表示这个字段共允许7个数值,包括1到5连续的5个数和“7”和“8”这两个数。如图8中性别(D11)的允许值为1-2,则该输入框中只能输入1或者2,若输入3则提示输入错误(图9)。
图9. 字段允许数值范围和允许数值
“Jumps”选项可以使用跳转功能,如果录入的值满足设定的条件,则自动跳转到设定的字段中。如图10中,门诊病人没有住院号,为了提高输入效率,如果病人来自门诊,则我们希望输入1后光标自动跳转到下一题。在“Jumps”中输入“1>sex”就可以实现这一功能(可以用鼠标点击sex选项框来代替输入单词sex)。当有多个跳转条件时,用逗号“,”(半角输入)分隔。
图10. CHK文件中跳转功能的实现
“Must enter”用来控制该选项是否必须输入,如果选择了“Yes”,则该选项必须输入,否则将提示输入错误。
“Repeat”用以自动填充上一条记录中该字段的值。一人录入多份问卷并签名时,或重复当前记录中某一字段的值可以选择此项。 “Value label”启用字段标签功能,在录入过程中如有遗忘或疑惑之处可按F9键或“+”查看标签。如下图,若要对性别加标签,则选中性别后点击右侧“+”,会出现“编辑标记”窗口。在输入过程中按F9或“+”则自动弹出提示标签。
图11. 标签功能设置
图12. 标签功能效果图
(5)录入问卷,导出结果
以上工作完成后,就可以打开REC文件逐份录入问卷了。需要注意的是QES文件、REC文件和CHK文件要放在同一文件夹下。录入完成以后,关闭所有问卷,点击菜单栏的“数据导入/导出”→“数据导出”→“导出为XLS文件(Excel文件)”,或点击“6数据导入/导出”→“导出为XLS文件(Excel文件)”(图13);出现对话框后选择需要导出的REC文件并打开,选择导出路径及导出变量(一般全选),点击“确定”即可。
图13. 将REC文件中的统计数据导出至Excel
2.Excel软件的数据预处理
在流行病学工作和科研中,Excel在数据处理和绘制图表方面体现出巨大的优势。在使用SPSS和SAS等专业的统计分析软件之前,需要借助Excel软件强大的数据处理功能。最常用的有自动填充,随机排序,筛选,透视表,单元格分列,做图表等。本文重点介绍适合SPSS统计软件分析的输入模式。 2.1原始数据输入模式
原始数据即由EpiData导出的调查表数据,包含所要调查的所有变量,如定量变量、二分类变量、等级变量和无忧多分类变量等。第一列必须是编号,方便排序和以后的操作等,后面的列为各种统计变量。以泰安市大学生肥胖患病率的调查为例,其输入模式如下:
图14. 原始数据输入模式
上图中,NO为编号,GENDER为性别(1为男性,2为女性),H为身高(单位cm,为计量资料),其余变量不再一一说明。 2.2 频数资料
频数资料即将相同或相近属性的变量统计个数的资料,多用于统计学卡方检验,也可应用于秩和检验和生存分析等统计方法。此时可借助Excel的筛选和透视表功能。如图15,选中筛选功能后后就可在各个数据变量下的下拉按钮中根据需要筛选不同数值的变量并统计个数。使用透视表功能统计数据时,选中需要统计的数据,在点击“透视表”后分别将变量拖入行标签、列标签和数值即可在透视表中显示频数。如图16即表示在不同性别(GENDER)和肥胖等级(BMI1)条件下,指标X2的个数。使用透视表功能统计数据时,选中需要统计的数据,在点击“透视表”后分别将变量拖入行标签、列标签和数值即可在透视表中显示频数。如图16即表示在不同性别(GENDER)和肥胖等级(BMI1)条件下,指标X2的个数。
图15. 筛选功能
图16. 透视表功能
整理好的数据输入模式如下表,其中f为频数,在SPSS运行中需要对f进行加权处理:
no 1 2 3 4 5 6 7 8 gender 表1. 频数资料输入模式 BMI1 1 1 1 1 2 2 2 2 f 1 2 3 4 1 2 3 4 7 25 10 5 18 47 1 3 3.运用SPSS软件进行统计分析
SPSS(Statistical Product and Service Solutions),“统计产品与服务解决方案”软件,可用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务。
在流行病与卫生统计学领域,SPSS软件常用的功能有:描述性统计量、均数过程、方差分析、卡方检验、一般线性模型、非参数检验、相关与回归、多元线性回归、Logistic回归分析、Cox比例风险模型和生存分析等。大多数功能都在“分析(analyze)”选项下(如图17)。本文仅介绍描述性统计量和二分类logistic回归分析过程。
进行数据分析时,由“文件”导入已经整理好的Excel表,或直接点击打开文件图标
。
需要注意的是SPSS 13.0及以前版本不支持.xlsx格式的文件,只支持.xls格式的文件。导入后的界面如图18.
图17. SPSS分析功能
图18. 导入数据后的SPSS界面
3.1 描述性统计量过程
点击“分析”→“描述统计”,选择想要分析的描述性统计量指标,如频数表、均值、标准差、标准误和中位数等,根据需要选择。此处以“描述”为例,获得身高与体重的描述性统计量,将H和W选入变量选框,然后点击选项勾选需要的指标,点击“确定”获取结果。
图19-a. 获取描述性统计量过程
图19-b. 获取描述性统计量过程
获取的结果如表2所示。 表2. 描述统计量 极小极大值 统计量 统计量 统计量 标准误 统计量 统计量 .785 和 均值 标准差 方差 偏度 统计量 标准误 峰度 统计量 标准误 N 统计量 全距 统计量 47 值 统计量 153 H W 有效的 N (列表状态) 116 200 19638 169.29 8.460 71.566 .747 .225 .509 .446 116 120.0 40.0 160.0 7162.0 61.741 1.6133 17.3760 301.924 2.512 .225 9.484 .446 116
3.2 二分类logistic回归分析(以是否肥胖为例探索导致肥胖的危险因素)
对于反应变量(因变量)结果为二分类变量的数据,结局只有是和否,如是否肥胖的结局要么肥胖要么不肥胖,不存在第三种情况,但可以用概率来表示某因素的危险性。此时不能使用多元线性回归来探索危险因素和计算RR值或OR值(流行病学用以表示相对危险度),需要构建logistic回归模型。
分析过程:分析→回归→二元logistic,出现输入变量选框后,在因变量中选入“是否肥胖”,在协变量选框中选入各种自变量如性别、饮食偏好、家族遗传等因素。在方法出可以选择logistic回归模型的变量筛选方式,主要有前进法、后腿法、逐步回归法和全局法,各种方法有根据概率计算方式的不同分为条件法和似然比法等,一般在筛选的开始选择全模型法(enter),初步判断哪些因素可能是危险因素,再选择其他方法,本例此处选择向前似然比法(FR:LR)。
对于无序多分类变量需要采用哑变量设置,如本例X17为被调查者日常饮食比例最大的偏爱的食物分类,四类分别是肉类、蔬菜、水果和其他。若以肉类为参照变量,则需在分类副选框下将X17选入分类变量选框,并设置第一个分类为参照变量(如图20-b)。
点击“选项”,进行参数设置,本调查意欲计算OR值故必须选中“exp(Β)的CI(95%)”。另外在“步进概率”选项可以设置模型的筛选标准和剔除标准,系统默认为0.05和0.10,若想要更多的变量纳入模型中可该为0.10和0.15,但必须结合专业知识和统计学模型理论,不可随意更改。
图20-a. 二分类logistic回归分析过程
图20-b. 二分类logistic回归分析过程
图20-c. 二分类logistic回归分析过程
图20-d. 二分类logistic回归分析过程
全部参数设置完成后,点击确定运行,运行结果如表3.
表3. 方程中的变量
EXP(B) 的 95% C.I.
B
X17 X17(1) X17(2) X17(3) 常量
步骤 2
b
步骤 1
a
S.E, Wals 12.960 df
3 1 1 1 1 1 3 1 1 1 1 1 1 3 1 1 1 1 Sig. .005 .001 .048 .011 .273 .012 .057 .007 .084 .046 .016 .011 .053 .026 .003 .033 .017 .418 Exp (B) 下限 上限
-3.235 -1.946 -2.651 .916 -1.598
.940 .986 1.045 .837 .639
.039 .143 .071 2.500 .202
.006 .021 .009
.248 .986 .547 11.854 3.898 6.434 1.199 6.264 7.517
.058
.707 性别 X17 X17(1) X17(2) X17(3) 常量
-2.654 -1.776 -2.183 2.788 -1.713 1.063
.985 1.028 1.093 1.154 .670 .549
.070 .169 .113 16.256 .180 2.895
.010 .023 .013
.485 1.270 .961 7.255 2.985 3.987 5.837 6.545 3.743 9.294 9.119 4.555 5.651 .656
.049 .986
.670 8.498 步骤 3
c
性别 X5 X17 X17(1) X17(2) X17(3) 常量
-3.128 -2.340 -2.870 1.139
1.036 1.096 1.207 1.406
.044 .096 .057 3.124
.006 .011 .005
.334 .826 .604
a. 在步骤 1 中输入的变量: X17. b. 在步骤 2 中输入的变量: 性别. c. 在步骤 3 中输入的变量: X5.
由上表可以看出性别、X5和X17纳入到了模型中,说明这三个因素是导致肥胖的危险因素。exp(Β)列为该自变量的OR值,性别的OR值为0.18,说明在控制其他条件的影响下,女性患肥胖的危险性为男性的18%;X5表示日平均睡眠时间,其OR值为2.895,说明睡眠较多与睡眠较少的群体相比,前者患肥胖的危险性是后者的2.895倍;X17为偏爱的食物种类,是哑变量,其中肉类为参考变量,没有进入模型,X17(1)、X17(2)和 X17(3)的OR值分别为0.044、0.096和0.057,说明与进食肉类比例最大的人群相比,大量进食蔬菜、水果和其他食物的人群患肥胖的危险性为大量进食肉类人群的4.4%、9.6%和5.7%,也就是说进食肉类的比例过大容易使人患肥胖。
4.结语
通过各种软件的配合使用可使流行病学工作效率大大提高,统计分析结果信度和效度高,表达准确简明扼要。各种软件之间可以互相转换和导入,且操作方便,在流行病学和卫生统计学的日常工作以及科研学习中是必不可少的工具。掌握好各种软件的使用,也是对流行病与卫生统计学硕士的最基本要求之一。通过EpiData数据录入软件录入调查问卷,录入完成后导出至Excel电子表格。在Excel中对数据进行预处理后,将Excel导入SPSS18.0,对调查问卷中的各变量进行统计学分析,统计结果还可以继续复制到Excel进行表格处理和绘图等工作,各种软件各取所长,联合使用,可以使流行病学工作效率大幅提高。
因篇幅问题不能全部显示,请点此查看更多更全内容