学术论坛 l数字技术 浅析大数据应用的技术体系和潜在问题 张超 (中国原-7-- ̄g科学研究院北京102413) 摘要:随着互联网时代的到来,云计算、认知计算、物联网、大数据等概念层出不穷。其中大数据成为最热门的领域,大数据应用已经从IT领域 进入到各个行业,例如政府报告、市场营销等。究竟如何应用大数据,当前大数据应用中有哪些问题。本文尝试分析大数据应用的技术体系,以及应用 中的数据安全、隐私安全以及人力财力方面的潜在风险。 关键词:大数据数据库安全隐私获取 中图分类号:TN915.03 文献标识码:A 文章编号:1007—9416(2016)08—0234—01 随着互联网时代的到来,云计算、认知计算、物联网、大数据等 概念层出不穷。其中大数据成为最热门的领域,大数据应用已经从 IT领域,进入到各个行业,例如政府公共服务、市场营销、科技研发 等。美国政府最新发布的大数据计划,更是将大数据作为美国拉动 经济发展的决定性机会。那么,究竟如何应用大数据,当前大数据应 用中有哪些问题呢?本文尝试分析大数据应用的技术体系,以及应 用中的数据安全、隐私安全以及人力财力方面的潜在风险。有的风 险,已经成为了威胁人民财产的问题,需要在大数据的收集和管理 应用上加以防范。 关部门的关键问题。 第二,庞大数据的储存,是在数据应用之前必要的功课。虽然现 在有云储存的概念,但是最终所有的数据储存,仍然依托服务器、硬 盘、以及电力系统的基础物理条件。这些物理条件,都需要投入大量 的财力支撑。 因此,要推进大数据的应用,不论是政府还是公司,都需要投入 巨大的人力和财力。这对于大数据自身的发展来说,是一个不小的 负担。 3.2大数据时代的数据安全问题 在大数据时代,无处不在的传感器、摄像头,以及个体所持有的 1大数据的概念 各种ID,例如手机号、银行帐号、社交媒体帐号等,每天都产生大量 在I1颅域,大数据还没有一个清晰明确的概念。国际咨询公司麦 的个人数据。这些数据中,不少都涉及到个人的财产、家庭状况、行 肯锡是世界上首次应用并提出大数据的公司,之后商业领域和政府 踪等隐私信息。这些信息流人大数据,存在严重的安全问题。 领域的应用越来越多。通常,大数据具有几个核心特点。第一,是数 第一,安全问题,大型互联网或It公司自身的控制和职业道德。 据量巨大,第二,是数据种类多且非结构化,因此不能用传统的数据 分析软件进行分析和解释,第三,是数据价值密度低,即庞大的数据 虽然展现了数据的全貌,但是有用和目前技术手段下能用的并不 多。这三个特性,让大数据区别于传统数据。 2大数据应用技术 大数据的应用,是围绕数据获取,数据集成,数据分析和解释三 个核心环节展开的。 在数据的获取方面,当前主要的技术包括条形码技术、传感器 技术,以及Web2.oR:术。条形码技术,给几乎所有的物体,都可以潜 入内在ID编码,随着物体的流动而不断的产生新的跟踪数据。 在数据的分析和解释层面,目前的技术主要是数据库系统,数 据建模分析软件。其核心工作是对数据进行清洗和筛选,将有用的 数据结构化和信息化。在数据分析层面,A/B ̄{试,聚类分析、集成 学习等方式是常见手段。在大数据的解释层面,技术专家一致努力 让大数据可视化,才能进一步的接近应用,目前常见的可视化手段 有标签云、宇宙星图以及历史流图集中方式。 l:g ̄l:1支付宝系统,支付宝几乎掌握着用户缴纳水电费、消费习惯,当 下行程,以及银行账户各类信息。如此庞大的人群和如此重要的信 息,我们也只能期待巨头企业的职业道德良好,会管理好每一位消 费者的数据,不会泄露或者为了商业目的出售我们的数据。但是,现 代泛滥的骚扰电话和短信,就说明了信息的泄露已经出现。 第二,技术层面的瓶颈问题一如何有效的收集数据以及有效 的处理数据。大数据是对事物最原始的全貌记录,数据量规模很大, 但是其中有用的信息非常少,因此,对于处理数据来说,数据并不是 越多越好。如何提高数据中的有效数据是非常关键的。大量的数据 中如果仅仅包含了少量的错误数据,对分析结果可能不会造成很大 的影响。但是如果对错误数据没有有效控制的话,大量错误数据的 涌人很可能会得到完全错误的结果。 第三,各类数据在网络中储存和流动,如果被不法分子截获利 用,就会造成普通消费者的经济损失。在支付宝开通理财业务后,就 发生过黑客攻击账户,窃取理财资金的恶性事件。 第四,很多公司的数据,例如客户资料、员工资料,并非掌握在 自己手中,而是委托给第三方的数据管理提供商。也就是很多公司 3当前大数据应用中的潜在问题 的核心数据,不在自己手里,而是都在第三方手里。这个时候,这些 大数据借助最新的科技手段,让信息前所未有的得到有效收 公司的脆弱性和潜在风险就在提高。总之,虽然大数据作为一个当今人尽皆知的概念,但是其应用 集,展现给人类新的图景。但是如何更好的应用大数据,仍然面临巨 仍然处在起步阶段。如何更有效率的获取数据、储存数据、分析和解 大的挑战和潜在的风险与问题。 释数据都在技术层面和管理机制层面存在潜在问题与风险。本文认 3.1大数据的人力与财力投入问题 是问题的 如前文所说,大数据通过先进的获取手段,得到了数据的全貌。 为,大数据的应用人才不足与大数据应用管理监督机制,培养大数据人才,并建立大数据应用监督 但是这些数据是种类繁多且非结构化的,这就给数据的分析和应用 核心。从这两个方面人手,才能促进大数据的健康发展。 提出了巨大的挑战。例如,以为同学使用校园一卡通,从大学一年级 机制,进入校园,到大四离开,每一次去图书馆,借还书,食堂吃饭,充值, 参考文献 参加考试,考试成绩等,每天都在发生数据。而一名学生大学四年在 [1]陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报。2O1 3 校园内产生的数据量都是非常庞大的,更不用说所有的在校生。那 (S1). 么这些数据,如何保存,哪些有用,对于数据分析师来说,就是一个 [2]陈水生.新公共管理的终结与数字时代治理的兴起l-J].理论导刊 考验。大数据的分析师,不仅要精通数学,统计学,还要理解机器和It 2009(04). 技术。目前缺乏大数据分析技术人员,是各大It互联网公司与政府相 [3]张兰廷.大数据的社会价值与战略选择ED].中共中央党校,20l4 收稿日期:2016—06—16 作者简介: ̄@(198s--),男,河北衡水人,硕士,初级职称,研究方向:计算机网络、大数据应用。