第27卷第2期 卫生软科学 Vb1.27 No.2 2013年2月 Soft Science ofHealth Feb.,2013 决策树分析在高校大学生生活压力影响因素分析中的应用 陈新林 ,包生耿 ,颜伟红。,王小广4,万建成 ,吴丹桂 (1.广州中医药大学,广东广州510006;2.广东外语外贸大学,广东广州510420;3.广东药学院,广东广州 510006;4.中山大学中山医学院,广东广州510080;5.广州医学院,广东广州510182) 摘要:[目的]了解广州市大学生生活压力的分布情况以及影响因素,为开展大学生心理健康教育提供 科学依据。[方法]使用青少年生活事件量表和人口学基本资料调查广州地区五所高校大学生,用SPSS 软件建立logi Stic模型(前进法筛选变量)探索压力总分的影响因素,使用Clementine软件的c5.0算法 和Answer Tree软件的CHAID算法建立压力总分的决策树。[结果]大学生生活压力的影响因素包括经济 情况、人际关系、家庭子女数、兼职情况;c5.O决策树分支包括人际关系;经济情况和家庭子女数、CHAID 决策树分支包括经济情况;人际关系;家庭子女数;兼职情况。经济情况差、人际关系差的大学生生活 压力所占的比例最大(68.84%)。[结论]开展大学生心理健康教育和指导时,要结合不同亚群人群的特点, 有针对性开展;要特别关注人际关系差、经济情况差或独生子女的大学生。 关键词:大学生;生活压力;影响因素 中图分类号:R395.6 文献标志码:B 文章编号:1003—2800(2013)02—0109-04 大学阶段是人格发展,世界观形成的关键时期。这 行为方式(运动、学习时间、人际关系、恋爱情况等)。 一时期大学生要面临着一系列重大的人生课题:如大学 1.2决策树分析 生活的适应、专业知识的学习、交友恋爱、择业就职等。 本文采用c5算法和CHAID算法建立决策树。 而且随着社会的发展,大学生承受的压力越来越大。但 c5算法是在C4.5基础上发展起来的决策树生成算 是,大学生由于身心发展尚未完全成熟,自我调节和自 法,采用属性的信息增益率来选择属性。c5算法原理如 我控制能力不强。大学生面对复杂的问题,容易导致强 下 叫】:通过属性A的取值可将数据集S划分为v个子 烈的心理冲突,从而产生较大的心理压力,甚至产生心 集{a1,a2,…,av), si表示在数据集s中属性A的 理障碍或心理疾病[I】。这使得大学生的身心健康受到日 取值为ai的子集,j=l,2,…,v。如果用sij表示sj 趋严重的危害。而大学生的生活压力受到很多因素的影 子集中ci类数量,则属性A对于分类ci(i=1,2, 响,本研究以广州地区大学生为研究对象,试图通过决 …,( t +1. + )。 策树的方法以及Logistic回归方法探讨影响大学生生 ,m)的熵E( )=∑ .活方式的因素,为促进大学生的心身健康提供科学依据。 属性A的每个取值对分类ci的期望信息量 1对象与方法 ( …, m ) p, o g z(Pt )1.1对象及一般情况 .。属性A作为决策分 采用多阶段整群随机抽样方法,从广州医学院、广 州中医药大学、中山大学、广东药学院、广州外语外贸 类属性的信息增益Gain(A)=I(s …,S i)一E(A)。 大学随机抽取学生。抽样方式:以学院作为第二阶段抽 该算法需要计算每个决策属性的信息增益,具有最大信 样总体,以学院的专业作为第三阶段抽样总体,抽取到 息增益的属性被选择为给定数据集S的决策属性节点。 某专业的班级,则该班级所有学生均是调查对象。一共 事先指定母结点上的最小样本量为50,子结点上的最小 抽取到2319名学生,发放问卷2319份,回收2319份, 样本量为l0,如果结点上的样本量达不到此要求,则这 回收率100%,有效问卷2306份,有效率99.4(94.7)%。 一结点为终末结点,不再进行分割。 本研究采用刘贤臣等人于1987年编制的青少年生 CHAID(Chi—square automatic interaction detection) 活事件量表(ASLEC)L2】;还调查了大学生的一般人口学 算法是按照卡方检验的显著性进行多元列联表的自动判 特征(包括性别、年级、专业、家庭子女数等)及生活 断分组。其过程是:用自变量与结果变量进行交叉分类, 收稿日期:2012"09—04 作者简介:陈新林(1981一),男,讲师,在读博士,主要从事生存质量和统计学方法研究。 109 产生一系列二维分类表,分别计算二维分类表的值,以 1.3 统计分析 产生P值最小的二维列表的变量为最佳的初始分类变 采用横断面调查方法。使用Epidata对资料进行录 量,然后在此基础上继续分类,直到尸大于设定的有统 入。用SPSS建立logistic模型(前进法筛选变量)探索压 计意义的a值时停止[ 。CHAID算法是一个不断合并和拆 力总分的影响因素,使用Clementine软件的C5.0算法和 分的过程[6】,每一个自变量每个水平都要两两配对比较, Answer Tree软件的CHAID算法分别建立决策树。 如果两个类别相似的话就划归为一类,如果有差别就不 2结果 能够划分为一组。决策树生长“枝条”分割显著性检验 通过前进法筛选后,经济l青况、兼职、家庭子女数、 水准定为0.05。采用预修剪的方法,事先设定决策树生 人际关系对生活压力有影响(P<O.05)。其中经济情况、 长的深度为3层,事先指定母结点上的最小样本量为80, 人际关系是保护因素,家庭经济条件好、人际关系好的 子结点上的最小样本量为40,如果结点上的样本量达不 大学生生活压力小。而独生子女、兼职是危险因素,独 到此要求,则这一结点为终末结点,不再进行分割。 表1 生子女或者需要参加兼职的大学生生活压力大(见表,1)。 Logistic回归结果 C5.0决策树分为三层(见图1):树的第一层是按 题(63.72%),其次是人际关系好、经济情况好的独生 照人际关系进行分枝,大学生生活压力最主要的影响 子女大学生(59.79%)。而经济情况好、人际关系好的 因素是人际关系。第二层是按照经济情况进行分枝。 以看出,人际关系差的大学生最容易出现生活压力问 大学生的生活压力较小(38.22%)。人际关系好、经济 (见表2)。 第三层是按照子女数进行分枝。从整个决策树分支可 情况好的非独生子女大学生的生活压力也较小(49.05%) 图1 05.0分类树形图 CHAID决策树分为三层,共7个结点(见图2)。树的 的大学生生活压力所占的比例最大(68.84%),其次是经 60.23%)。另外,经济 第一层是按照经济情况进行分枝。经济情况差的那支又 济情况好、人际关系差的大学生(按照人际关系分支。第三层按照子女数分支。经济情况 情况差、人际关系好、独生子女的大学生生活压力大的 好的那支按照人际关系分支。第三层按照参加兼职分支。 所占比例也较大。经济情况好、人际关系好的大学生的 从整个决策树分支可以看出,经济情况差、人际关系差 生活压力都较小(见表3)。 表2 05.0树模型终末结点的分类规则 一P-O.001 5,d.f-:1 是 否 是 否 画 画叵 叵 图2 CHAl 分类树形图 表3 CHAID模型终末结点的分类规则 3讨论 大量的交互作用,可能就忽略了兼职的效应。但logistic Logistic回归可以直观阐述各个因素对生活压力的 回归模型表明,这一作用是不可忽视的。 影响。通过前进法筛选后,经济情况、人际关系是生活 c5决策树既可以非常直观的解释,也可以根据规则 压力的保护因素;而家庭子女数、兼职情况是生活压力 进行解释,适合对某一属性作深入的分析。决策树容易 的危险因素。 理解、结果简单、结构直观,能清楚显示对分类或预测 决策树分析采用的是一个多次分层的办法,把样本 有意义的变量,同时可以处理有数值型、两分类和多分 划分为若干个亚群,生成的树型图非常直观,能够清楚 类资料,并且可以处理缺失数据,生成一些规则(从根节 地显示出不同特征的亚群其发生不同结果的比例,而且 点到每个叶子节点对应的路径就是“规则”)为决策提供 在生成二维分类表时把解释变量的类别进行了重新划 依据[7]。 分。C5.0算法按照信息增益来对样本进行划分,CHAID 它可以分析类别变量、等级变量以及连续变量。 按照产生尸值最小的二维列表的变量进行划分,两者的 CHAID算法是先固定一个首要影响因素,接着固定次要 结果大体相同。 影响因素,而不是用穷尽法把每一种可能性都列举出来, C5.0和CHAID决策树分析法只显示出的是变量之间 其对最末枝人群的划分不是最优的分类,而是一种比较 相互作用的关系,而无法反映因素的主效应和叠加效应。 恰当的分类。它能够给我们提供人群的划分结果和划分 本文中,C5.0决策树分析方法没有体现出兼职这一因素 标准,并且能揭示自变量之间交互作用。MagidsonIs]发 的作用,但是logistic回归中显示这一因素的主效应有 现这种交互作用有一定的,其得到的是次要因素进 统计学意义。兼职与经济情况存在密切相关,得到关联 行的交互作用,并不是全局的交互作用。Magi dson认为 系数等于0.184;兼职与人际关系也存在关系。决策树 进行Logistic分析时,首先需要用CHAID算法模型来进 分析方法在纳入了人际关系和经济情况后,由于表现出 行检验,然后再建立Logistic模型。Green也认为CHAID 算法模型能得到结果的基本结构,而Logit模型则能够 [3]方俊群,罗家有,姚宽保,等.c5.0决策树法在出生缺陷预测中 提供这些表述的参数[9Ja 的应用[J].中国卫生统计,2009,26(5):473 476. 4]张家旺,韩光胜,张伟.C5.O算法在RoboCup传球训练中的应 本次研究由于时间和客观条件等因素的,所采 [用的生活压力预测变量不尽完善,数据集中个别危险因 标集。 用研究[J].计算机仿真,2006,23(4):132—134. 5]石玲,王燕.婴幼儿死亡危险因素的研究一兼论CHAID方法 素结果无统计学意义,如应对方式等因素未纳入预测指 [的原理及应用[J].中国卫生统计,2002,19(5):283—285. [6]PERREAULT wD,BARKSDALE HC.A model—free approach for analysis of complex contingency data in survey research 本文旨在为大学生生活压力的研究提供一种新的思 路。不同属性的大学生的生活压力可能有不同的危险因 素,应分别构建预测模型。开展大学生心理健康教育和 指导时,要结合不同亚群人群的特点,有针对性开展; 要特别关注人际关系差、经济情况差或者独生子女的大 学生。 参考文献: [1]倪有娣,楼美丽.大学生生活事件及应对方式的研究[J].杭州 师范学院学报(医学版),2005,(O5):84 86,89. [2]刘贤臣,刘连启,杨杰等.青少年生活事件量表的编制与信度效 度检验[J].中国临床心量学杂志,1997,(5):34—36. [J].Journal of Marketing Research,1980,17(4):503—515. [7]陆安生,陈永强,屠浩文.决策树c5算法的分析与应用[J].电脑 知识与技术,2005,(3):17—20. [8]MAGIDSON J.Some Common PitfalIs in Causal Analysis of Categorical Oata[J].Journal of Marketing Research,1982, 19(4):461—472. [9]GREEN P E.An AID/Logit procedure for analyzing large multiway contingency tables[J].Journal of Marketing Research,1978,15(1):132—137. (本文编辑:杨红梅) Application of analyzing influencing factors of ilfe pressure in college students by decision tree Chen Xin.1in ,Bao Sheng-geng2Yan Wei.hong3Wang Xiao.guang4,,, Wan Jian..cheng1Wu Dan..guis ,(1.Guangzhou University of Traditional Chinese Medicine,Guangzhou Guangdong 510006,China; 2.Guangzhou Universiy tof Foreign Studies,Guangzhou Guangdong 510420,China;3.Guangdong Pharmaceutical Universiy,Guangzhou tGuangdong 510006,China;4.Zhongshan Medicine School Of Zhongshan Universiy,Guangzhou tGuangdong 510080,China;5.Guangzhou Medicine Universiy,t Guangzhou Guangdong 510182,China) Abstrct:Objecfive To understand the distribution and influencing factors of life pressure in Guangzhou colleges students for providing a scientiifc basis to developing health eduction.Methods Investigated 5 colleges students with‘'Youth Life Event Scale”and demographic basic data.Explored influencing factors by SPSS 13.0 to set up logistic mode1.Set up decision tree ofpressure total score by C5.0 algorithms ofClementine software and CHAID algorithm of nswer aree softtware.Results Influencing factors of life pressure colleges students were ncliuded economic conditions,interpersonal relationship,the number of family children,part-time job.The decision rtee branch of C5.0 nciluded interpersonal relationship,economic conditions and the number of family chilren.The decidsion tree branch of CHAID included the economic situation.interpersonal relationship,the number of failmy chilrden and part-time job.The proportion of life pressre uni both poor economic conditions and poor interpersonal were largest(68.84%1.Conclusions Combine Wim the characteristic of these diferent sub-healh grtoup when we develop mental healh educattion and guiing.d Specially,pay more attention to those poor interpersonal relationships,poor economic conditions and the only child college students. Key words:college students;life pressre;iunfluencing factors l12