(12)发明专利申请
(10)申请公布号 CN 108334636 A(43)申请公布日 2018.07.27
(21)申请号 201810173861.8(22)申请日 2018.03.02
(71)申请人 成都康赛信息技术有限公司
地址 6100 四川省成都市成华区一环路
东一段159号电子信息产业大厦410室(72)发明人 唐雪飞 吴云东 汪林川 (74)专利代理机构 成都虹盛汇泉专利代理有限
公司 51268
代理人 王伟(51)Int.Cl.
G06F 17/30(2006.01)
权利要求书1页 说明书3页 附图2页
()发明名称
数据质量评估方法(57)摘要
本发明提供了一种数据质量评估方法,涉及数据质量管理领域。本发明将体现数据质量的五个维度中的设定各自占比,且针对每个维度配置评估规则,配置好评估规则后,对规则进行逐条运行,得到规则得分,从而得到每个维度的分值,加和得到质量分数,使数据质量评估通过分数的形式简洁明了地展现出来,增加了用户体验。
CN 108334636 ACN 108334636 A
权 利 要 求 书
1/1页
1.一种数据质量评估方法,其特征在于,包括以下步骤:步骤1,导入数据库;步骤2,筛选数据库中的数据;步骤3,配置评估规则;步骤4,运行配置的评估规则进行评估,得到质量分数。2.如权利要求1所述的数据质量评估方法,其特征在于,所述步骤3包括以下流程:步骤31,确定数据质量五个维度占比;步骤32,对五个维度的规则进行配置。
3.如权利要求2所述的数据质量评估方法,其特征在于,所述步骤31中,五个维度为数据的完备性,一致性,及时性,有效性,完整性五个维度。
4.如权利要求2所述的数据质量评估方法,其特征在于,所述步骤32包括以下流程:步骤321,选择需要在五个维度中进行评估的规则;步骤322,配置各规则的权重和阈值。
5.如权利要求4所述的数据质量评估方法,其特征在于,所述步骤4包括以下流程:步骤41,对每个规则逐条运行,得到每个维度的分值;步骤42,五个维度的分值加和得到质量分数。
2
CN 108334636 A
说 明 书数据质量评估方法
1/3页
技术领域
[0001]本发明属于数据质量管理领域,具体涉及一种数据质量评估方法。
背景技术
[0002]随着科学的发展,各类系统应用越来越繁杂,需要处理的数据也越来越多,数据处理在各种系统应用的建设使用过程中占据着相当重要的位置。
[0003]而往往在系统建设过程中会忽视数据质量的重要性,没有采取足够的措施对数据质量进行有效检测,导致随着系统和数据的逐步深入应用,数据质量问题一点点暴露出来,比如数据的有效性、准确性、一致性等。最坏的结果就是用户感觉系统和数据是不可信的,最终放弃了使用系统,这样也就失去了建设系统的意义。发明内容
[0004]为了解决上述问题,本发明提供了一种可对数据质量进行评估的数据质量评估方法。
[0005]一种数据质量评估方法,包括以下步骤:[0006]步骤1,导入数据库;[0007]步骤2,筛选数据库中的数据;[0008]步骤3,配置评估规则;[0009]步骤4,运行配置的评估规则进行评估,得到质量分数。[0010]进一步地,所述步骤3包括以下流程:[0011]步骤31,确定数据质量五个维度占比;[0012]步骤32,对五个维度的规则进行配置。[0013]进一步地,所述步骤31中,五个维度为数据的完备性,一致性,及时性,有效性,完整性五个维度。[0014]进一步地,所述步骤32包括以下:[0015]步骤321,选择需要在五个维度中进行评估的规则;[0016]步骤322,配置各规则的权重和阈值。[0017]进一步地,所述步骤4包括以下流程:[0018]步骤41,对每个规则逐条运行,得到每个维度的分值;[0019]步骤42,五个维度的分值加和得到质量分数。[0020]本发明的有益效果:本发明将体现数据质量的五个维度中的设定各自占比,且针对每个维度配置评估规则,配置好评估规则后,对规则进行逐条运行,得到规则得分,从而得到每个维度的分值,加和得到质量分数,使数据质量评估通过分数的形式简洁明了地展现出来,增加了用户体验。附图说明
3
CN 108334636 A[0021][0022][0023][0024]
说 明 书
2/3页
图1为本发明的流程图。图2为图1中步骤3的流程图。图3为图2中步骤32的流程图。图4为图1中步骤4的流程图。
具体实施方式
[0025]下面结合附图对本发明的实施例做进一步的说明。[0026]请参阅图1,本发明提供一种数据质量评估方法,具体流程如下:[0027]步骤1,导入数据库。[0028]本实施例中,接入需要进行数据质量评估的数据库,对数据库内的数据进行质量评估。
[0029]步骤2,筛选数据库中的数据。[0030]本实施例中,根据五个维度,分析数据库中哪些数据对数据质量有影响特别是哪些表格对数据质量有影响,优先选取对数据质量影响大的数据进行数据质量评估。[0031]步骤3,配置评估规则。[0032]请参阅图2,步骤3通过以下流程实现:[0033]步骤31,确定数据质量五个维度占比。[0034]本实施例中,五个维度分别为有效性、一致性、及时性、完备性及完整性。确定这五个维度在评估规则中的占比。[0035]其中,有效性主要体现为数据的内容和数量,比如数据的长度、位数及字段关联等;
[0036]一致性主要体现为数据的历史数额比较、阈值波动等;[0037]及时性主要体现为数据的更新、添加及更新频率等;[0038]完备性主要体现为数据填充率检查和唯一性检查;[0039]完整性主要体现为跨表的数据值一致性、跨表的数据类型一致性及父表子表关联性等。
[0040]步骤32,对五个维度的规则进行配置。[0041]请参阅图3,步骤32通过以下流程实现:[0042]步骤321,选择需要在五个维度中进行评估的规则。[0043]本实施例中,对五个维度的评估规则进行配置。即在每个维度中,选择对数据质量进行评估的具体规则,通过配置好的规则对数据的数据质量进行评估。[0044]步骤322,配置各规则的权重和阈值。[0045]本实施例中,对各维度中选定的规则,配置其在评估规则中的权重和阈值,构成评估规则。
[0046]步骤4,运行配置的评估规则进行评估,得到质量分数。[0047]请参阅图4,步骤4通过以下流程实现:[0048]步骤41,对每个规则逐条运行,得到每个维度的分值。[0049]本实施例中,逐条运行配置好的评估规则中的规则,对数据质量进行评估,得到每个规则的得分。每运行一次规则对数据质量进行评估,都得到相应的得分。
4
CN 108334636 A[0050][0051][0052][0053][00]
说 明 书
3/3页
当P=THR,R=90%*W。当P>THR或P<THR,则若得到的若得到的
则取值为1。则取值为0。
其中,R为规则得分,P为实际比例,THR为规则阈值,W为规则权重。
[0055]运行每个维度的每一项规则,得到每一项规则的得分,再根据规则得分、权重、维度占比等得到每一个维度的分值。[0056]步骤42,五个维度的分值加和得到质量分数。[0057]本实施例中,将每个维度的分值相加得到总的质量分数,质量分数是数据质量的体现,分值越高则评估越好。
[0058]本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
5
CN 108334636 A
说 明 书 附 图
1/2页
图1
图2
图3
6
CN 108334636 A
说 明 书 附 图
2/2页
图4
7
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- zrrp.cn 版权所有 赣ICP备2024042808号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务