维普资讯 http://www.cqvip.com 则自动综合评价方法的研究 Study of Ass0ciatiOil Rules’S AutomatiC Synthesi zed Apprai sal 贾洪艳 林庆 朱翠苗 郑广成f_ 关 联 规 则 自 动 综 厶 口 浑 Jia ltongyan Lin Qing Zhu Cuimiao Zheng Guangcheng (1.江苏大学计算机科学与通信工程学院,镇江212013;2.连云港职业技术学院信息工程学院,连云港222006) (1.School of Computer Science lelecommunication Enginee r’ing,Jiangsu University.Zhenjiang 212013; 2.Department of Information Engneering,Lianyungang Technical College,Lianyungang 222006) 价 方 法 的 研 究 摘要:讨论了基于关联规则的主观感兴趣度和客观感兴趣度方法,并将这两种方法有机结合,提出了关联规则的自 动综合评价方法。该方法将评价过程自动化,以一个统一的综合指标呈现给用户。 关键词:知识发现:关联规则:评价:感兴趣度 中图分类号:TP3l1.1l 文献标识码:A 文章编号:1 67l一4792一(2007)5—0l 68—02 Abstract:the methods of subjecti Vity interest measure and obdective interest measure on Association Rules was discussed,integrating these two methods,project a Association Rules’S automatic synthesi zed Appraisal: this method make appraisal process automati C,a integrate synthesized target was presented for users Kevword:Knowledge Discover;Association Rules;Appraisal;Interest Measure 0引言 在知识发现中,评价所发现的知识是一个很重要的环 那些前件和后件是强的正相关关系的规则才被选择进行以后 的处理。A和B的出现之间的相关强度corrR依据Piatesket一 节,它直接影响着知识发现系统输出的数量和质量。目前对 于知识发现评价方法的专门研究限于知识发现的封闭系统内 Shapiro的事件独立性方法描述为: corrR, =P(A U B)/P(A)P(B) (1) 一部,没有在开放的系统环境下形成自动评价系统,也没有形 成评价的自主性。 关联规则分析主要用于发现不同事件之问的关联性,即 事物发生时,另一事物也经常发生。它是一种比较重要的 如果值小于1,则A的出现和B的出现是负相关的 如 果值大于1,则A的出现和B的出现是正相关的,意味着一个 的出现蕴含着另一个的出现;如果值大于1,则A的出现和 B的出现是独立的,它们之间没有相关性。因此,选择相关 强度作为关联规则评价的一个指标,它同时反映了规则的前 件和后件的相关程度。 2主观t眭评价指标 主观性评价指标主要体现用户和领域知识的参与等主观 因素,包括新颖度、用户感兴趣度和简洁度三个指标【3_。 2.1新颖度 知识发现类型,目前关于它的评价方法研究集中在客观感兴 趣度的研究。例如,Piatesket—Shapi ro[ J提出了事件独立性 方法、Symth拉 提出了J-Measure函数等。这些方法共同的 缺点是,只是利用规则的前件和后件的客观关联来评价对规 则的感兴趣程度,忽视了背景知识和用户的参与。 从认知角度讲,对于所获得知识的评价是一个分层次、 逐步求精、客观和主观因素相结合的复杂过程。基于此,综 合客观感兴趣度和主观感兴趣度两个因素形成综合评价指 标,符合人类的认知规律。 1 客观性评价指标 新颖度表现在发现的规则与基础知识库(主要存放专家 已输入的领域知识和用户已知的知识)中已有规则各项的差 异上,表现在前件各项差异和后件各项的差异上。 设通过客观性评价后剩余的规则组成的集合为E,其规 常用的衡量关联规则的客观性指标是支持度、可信度与 相关强度。支持度度量的是规则的实用性;可信度度量的是 规则的有效性;相关强度是指前件和后件之问的相关关系。 如果关联规则的前件和后件是不相关的,即使规则的支持度和可信度很高也不能被用户接受为感兴趣的关联规则;只有 则数为N;基础知识库巾的规则集合为K,其规则数为M。设 W 为E中的规则E相对于K的新颖度,∞…、是规则E与K. ,.之间的差别程度,其中,CO (见式5)包含前件的新颖度 T 和后件的新颖度B…、,则: 9 维普资讯 http://www.cqvip.com :妻 / (2) ‘I)(i. 包含前件和后件的新颖度计算。设规则KJ所有前 件所属的语言变量组成的集合为J,项数为D:规则Ei所有 前件所属的语言变量组成的集合为I,项数为Z。对I中的任 一项Ik,记V( 为这一项所对应的规则前件与规则 的前 件差异程度,则有 加 ¨‘一1一 l+ .^.J (3) 其中,negk为I中的第k项的语言值与J中同一语言变 量对应的语言值之间的差异程度。这样,前件的新颖度等于 前件中各项的差异程度的累加和,即 I=∑ JIl (4) 经过规则简约后,基础知识库中所有规则的后件项数均 为1。这样,当两条规则的后件属于同一个语言变量,则B =l+neg;若两条规则的后件不属于同一个语言变量,这时 令度量后件差异的数值为2,即B :2。 计算∞ ‘I的公式为l 卢 户7h。,天,,×尻 ,. .。J,疆ax Z.DJ 且 (z,。)(5)’ ,2.2用户感兴趣度 所发现规则中前件或后件中的一部分属性对于将来的决 策和分析事务之间的关系具有重要意义,能够起到直接或间 接作用。这部分属性有两种可能:第一种是它们在领域中的 位置比较重要,对其他属性起着很大影响作用;另一种是反 映了用户进行知识发现时的兴趣取向,对于满足当时情况下 所需知识的紧迫程度。 这两种情况下的算术平均值可以用来作为衡量规则潜在 有用性的度量指标,计为USI,其取值于0~1之间,最重要 的或最感兴趣的值为1,不重要或不感兴趣的值为0。 2.3简洁度 简洁度(记为cN)是用来衡量关联规则的最终可理解程 度的指标。它也表现在两个方面:一方面表现在规则的个数 上,如果规则项数很多将不利于对这条规则的理解。因此, 规则的项数越少,规则的简洁性越好。另一方面表现在规则 所包含的抽象层次上,规则包含的抽象层次越高,它对应的 解释力越强。 3综合评价指标 由上述两个层次的评价可看出,客观评价指标有三个: 支持度S、可信度C和相关强度corrR。支持度和可信度的取 值在0~1之间;主观评价指标有三个:新颖度wi、用户感 兴趣度USI和简洁度cN。规则的综合评价指标(记为RI)应 该是主客观评价指标的有机结合,可以将其定义为上述几个 评价指标的几何加权平均: . =c × 。:XcorrR。、xW, ×乙7:sz。’ ̄WcN)‘ 式中.c‘-.∈【0。1】.(i=1.….6).∑c‘- l- (6) 其中需要解决的重要问题是各个评价指标的权值的确 定,而这与应用的领域是密切相关的,同时与最终用户也有 很大的关系。如果应用的领域是科学领域,那么对有效性要 求就比较高,因此,赋予有效性度量标准的权值较大,而其 他的较小;如果在商业领域,则注重时效性和有用性,所以 对简洁性和有用性的度量标准所赋予的权值较大。确定权值 的具体方法可根据模糊数学等提供的方法来计算。 4结束语 通过将主观的和客观的度量指标统一在一个评价体系 中,使它们不再是孤立的分析,也容易实现评价过程自动化, 而且综合评价的指标是可扩展的,可简单地实现与原有其他 指标的综合。其次,此算法最终以一个统一的综合指标呈现 给用户,便于用户比较选择。 参考文献 [1】罗可,贺才望.基于Apriori算法改进的关联规则 提取算法[J】.计算机与数字工程.2006,34(4):48-51,55. [2】蔡伟杰,杨晓辉,等.关联规则综述[J】.计算机工程. 2001,27(5):31-33,49. [3】杨炳儒.基于内在机理的知识发现理论及其应用[M]. 北京:电子工业出版社,2004. 【4J Agrawal R.,Imielinski T and A.Swami.Mining Association Rules Between Sets of Items in Large Databases.Proceeding of ACM SIGMOD International Conference.1993. 作者简介 贾洪艳(1976一),女,江苏赣榆人,硕士生,讲师,主 要研究方向:信息系统开发、计算机应用; 朱翠苗(1976一),女,河北无极人,硕士生,讲师,主 要研究方向:信息系统开发、计算机应用、算法; 林庆(1962一),男,福建厦门人,副教授,硕士生导 师,主要研究方向:模糊识别与智能系统、数据库技术、计 算机应用: 郑广成(1978一),男,河北枣强人,硕士生,系统分 析师、讲师,主要研究方向:数据库技术、信息系统开发、 系统分析和项目管理。