更多企业学院: 《中小企业管理全能版》 183套讲座+89700份资料 《总经理、高层管理》 《中层管理学院》 《国学智慧、易经》 《人力资源学院》 49套讲座+16388份资料 46套讲座+6020份资料 46套讲座 56套讲座+27123份资料 《各阶段员工培训学院》 77套讲座+ 324份资料 《员工管理企业学院》 《工厂生产管理学院》 《财务管理学院》 《销售经理学院》 《销售人员培训学院》
67套讲座+ 8720份资料 52套讲座+ 13920份资料 53套讲座+ 17945份资料 56套讲座+ 14350份资料 72套讲座+ 4879份资料
更多企业学院: 《中小企业管理全能版》 183套讲座+89700份资料 《总经理、高层管理》 《中层管理学院》 《国学智慧、易经》 《人力资源学院》 49套讲座+16388份资料 46套讲座+6020份资料 46套讲座 56套讲座+27123份资料 《各阶段员工培训学院》 77套讲座+ 324份资料 《员工管理企业学院》 67套讲座+ 8720份资料 《工厂生产管理学院》 《财务管理学院》 《销售经理学院》 《销售人员培训学院》
52套讲座+ 13920份资料 53套讲座+ 17945份资料 56套讲座+ 14350份资料 72套讲座+ 4879份资料
更多企业学院: 《中小企业管理全能版》 183套讲座+89700份资料 《总经理、高层管理》 《中层管理学院》 《国学智慧、易经》 《人力资源学院》 49套讲座+16388份资料 46套讲座+6020份资料 46套讲座 56套讲座+27123份资料 《各阶段员工培训学院》 77套讲座+ 324份资料 《员工管理企业学院》 《工厂生产管理学院》 《财务管理学院》 67套讲座+ 8720份资料 52套讲座+ 13920份资料 53套讲座+ 17945份资料 《销售经理学院》 《销售人员培训学院》
56套讲座+ 14350份资料 72套讲座+ 4879份资料 什么是BI?
商业智能也称作BI,是英文单词Business Intelligence的缩写。商业智能的概念最早在1996年提出。当时将商业智能定义为一类由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用。目前,商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。这里所谈的数据包括来自企业业务系统的订单、库存、交易账目、客户和供应商等来自企业所处行业和竞争对手的数据以及来自企业所处的其他外部环境中的各种数据。而商业智能能够辅助的业务经营决策既可以是操作层的,也可以是战术层和战略层的决策。为了将数据转化为知识,需要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘等技术。因此,从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、OLAP和数据挖掘等技术的综合运用。
图 1 商务智能的发展
因此,把商业智能看成是一种解决方案应该比较恰当。商业智能的关键是从许多来自不同的企业运作系统的数据中提取出有用的数据并进行清理,以保证数据的正确性,然后经过抽取(Extraction)、转换(Transformation)和装载(Load),即ETL过程,合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视图,在此基础上利用合适的查询和分析工具、数据挖掘工具、OLAP工具等对其进行分析和处理(这时信息变为辅助决策的知识),最后将知识呈现给管理者,为管理者的决策过程提供支持。
图 2 商务智能的原理
BI的选型
要选型,首先要了解目前市场上主流的BI产品:
数据库方面,有DB2、Oracle、SQL Server、Teradata,早先还有专门用
于数据仓库的Redbrick(被IBM收编以后,退出历史舞台)。
ETL工具上,像Datastage、Powercenter都是比较主流的,此外,还有很多公司也有自己的ETL产品,例如SAS的ETL Server、BO的Data Integrator等。
OLAP工具上,则还可以细分为MOLAP(Muilt-Dimension OLAP,多维度型在线分析系统)和ROLAP(Relational OLAP,关系型在线分析系统),前者可以选择Hyperion、Cognos、Microsoft公司的产品,而后者可供选择的余地就不多,像Microstrategy可能是目前能够看得见市场份额比较大的,以前和Redbrick一起。此外,还有一个叫Metacube的ROLAP工具,早在2000年以后也退出市场。
数据挖掘产品领域,有SAS、SPSS等两大厂家,而像IBM、Teradata也都有自己的挖掘工具。除此之外,在报表服务器、前端工具上的选择可就多了,其中,Cognos、BO、Brio是比较主流的。
从这些主流产品来看,大多是舶来品。国内也有研发BI产品的,但多限于ETL、前端以及数据挖掘产品。
从目前各类用户的产品选型过程来看,问题多出在以下几个方面。 其一,只见树木不见森林,只顾得降低单个工具的成本,却忽视了总体成本。有些大企业在IT建设上一掷千金,从不在乎在购买产品上投入多少,每一块都是选用最好的。但是,更多的企业则不得不出于成本考虑,能省则省。除了数据库和OLAP工具两项之外,经常动心思的地方就是,设想如果把ETL和前端展现自己来开发是不是会省点资金出来。
然而问题是,如果仅仅从单个产品的成本考虑而忽视综合的项目成本,最后很可能会被难以维护的程序所困扰,甚至要完全推翻重来,这样的成本恐怕会更高。而对于那些财大气粗的大企业来说,即便选择了每个领域最好的产品,组合起来也不一定就是最好的。
其二,评估报告难以客观。企业负责产品选型的人,通常要求厂商提供一份评估报告,要列出几种方案选择,各自优劣何在,最后得出哪种方案是最适合自己的。
如果从字面上理解此报告,某种产品哪方面比较好,哪方面不好,这并不客观。对于厂商而言,这就是一笔单子,当然会尽量把自己产品的优势体现出来,
而回避自己的弱势。同时对于选型负责人来说,也许其早就对某种工具有好感,或是跟某个厂家的关系不错,甚至有更进一步的交易。这样的情况,想客观一点不容易。
选型要点
其实,如果是选择这些主流的产品的话,大家知道一句话,“没有最好的,只有最合适的”。什么是最合适?抛开上面提到的幕后因素,其实也就是三点需要考虑——产品成本、开发人员对这个产品的熟悉程度、有没有类似案例。
首先看成本。NCR、IBM和Oracle的产品线完整,但却很贵。微软的产品便宜些,可如果数据量大,恐怕又不太敢用它,就更别谈那些不要钱的开源产品了。当然,成本不光是产品本身的价格决定的,后面人员学习、项目延期、客户满意度低都要作为成本考虑,这些隐型成本才是难以计算的。提到成本,就不能不提一下BI模型,因为BI产品中模型是最昂贵的一部分,在国内很大一部分企业采用的自主开发的方式,采用这种方式可以避免高额的费用,但却无法学习到国外先进的商业经验。
再看人员的经验。人的学习曲线是不可避免的,不要妄想人们接触一个新产品就能立马成为高手,能够基于陌生的产品做出良好架构。这方面,显然Oracle和微软有优势,因为在这两家产品上有经验的人多,好找。当然,如果你们原来的业务系统用的就是这几家产品之一,不妨仍然用它。
其次案例比白皮书更重要。如今很多BI厂商可以提供全方位解决方案,提供一站式服务。像IBM、Oracle、SAS都称自己是这样的全方案提供商,也就是说它们的产品线已经包含了数据库、OLAP、ETL等各类工具。直接选用它们,就不用再为工具选型烦恼了,但企业有时由于各方面的原因,决定不使用一家产品时,要考虑他们之间是否兼容。但如果你要是从产品的白皮书里去寻找此类信息,会发现说得很美,互相之间会如何完美地“无缝”兼容,但实际上却不是那么回事。因此,不要去看这些文字的东西,要去寻找同行业类似的案例,如果同行业没有,就去寻找数据量类似、业务复杂度类似以及相似应用的其他行业案例。
BI的体系架构及相关技术
一个BI系统为了满足企业管理者的要求,从浩如烟海的资料中找出其关心的数据,必须要做到以下几步:
1)
为了整合各种格式的数据,清除原有数据中的错误记录——数据预处
理的要求。 2)
对预处理过数据,应该统一集中起来——元数据(Meta Data)、数据仓库(Data Warehouse)的要求; 3)
最后,对于集中起来的庞大的数据集,还应进行相应的专业统计,从中发掘出对企业决策有价值的新的机会——OLAP(联机事务分析)和数据挖掘(Data Mining)的要求。
所以,一个典型的BI体系架构应该包含这3步所涉及的相关要求。
图 3 BI的体系架构
整个体系架构中包括:终端用户查询和报告工具、OLAP工具、数据挖掘(Data Mining)软件、数据仓库(Data Warehouse)和数据集市(Data Mart)产品、联机分析处理 (OLAP) 等工具。
1)、终端用户查询和报告工具。
专门用来支持初级用户的原始数据访问,不包括适应于专业人士的成品报告生成工具。
2)、数据预处理(STL-数据抽取、转换、装载)
从许多来自不同的企业运作系统的数据中提取出有用的数据并进行清理,以保证数据的正确性,然后经过抽取(Extraction)、转换(Transformation)和装载(Load),即ETL过程,合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视图。
3)、OLAP工具。
提供多维数据管理环境,其典型的应用是对商业问题的建模与商业数据分析。OLAP也被称为多维分析。
4)、数据挖掘(Data Mining)软件。
使用诸如神经网络、规则归纳等技术,用来发现数据之间的关系,做出基于数据的推断。
5)、数据仓库(Data Warehouse)和数据集市(Data Mart)产品。 包括数据转换、管理和存取等方面的预配置软件,通常还包括一些业务模型,如财务分析模型。
6)、联机分析处理 (OLAP) 。
OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
其中核心技术在于数据预处理、数据仓库的建立(DW)、数据挖掘(DM)和联机分析处理(OLAP)三个部分。接下来,我们对这几个核心部分进行详细说明:
数据预处理:
当早期大型的在线事务处理系统(OLTP)问世后不久,就出现了一种用于“抽取”处理的简单程序,其作用是搜索整个文件和数据库,使用某些标准选择合乎要求的数据,将其复制拷贝出来,用于总体分析。因为这样做不会影响正在使用的在线事务处理系统,降低其性能,同时,用户可以自行控制抽取出来的数据。但是,现在情况发生了巨大的变化,企业同时采用了多个在线事务处理系统,而这些系统之间的数据定义格式不尽相同,即使采用同一软件厂商提供的不同软件产品,或者仅仅是产品版本不同,之间的数据定义格式也有少许差距。由此,我们必须先定义一个统一的数据格式,然后把各个来源的数据按新的统一的格式进行转换,然后集中装载入数据仓库中。
其中,尤其要注意的一点时,并不是各个来源的不同格式的所有数据都能被新的统一格式包容,我们也不应强求非要把所有数据源的数据全部集中起来。Why?原因很多。有可能原来录入的数据中,少量的记录使用了错误的数据,这类数据如果无法校正,应该被舍去。某些数据记录是非结构化的,很难将其转化成新定义的统一格式,而且从中抽取信息必须读取整个文件,效率极低,如大容量的二进制数据文件,多媒体文件等,这类数据如果对企业决策不大,可以舍去。
目前已有一部分软件厂商开发出专门的ETL工具,其中包括: Ardent DataStage
Evolutionary Technologies,Inc. (ETI) Extract Information Powermart Sagent Solution SAS Institute
Oracle Warehouse Builder MSSQL Server2000 DTS 数据仓库:
数据仓库概念是由号称“数据仓库之父”William H.Inmon在上世纪80年代中
期撰写的《建立数据仓库》一书中首次提出,“数据仓库是一个面向主题的、集成的、非易失性的,随时间变化的用来支持管理人员决策的数据集合”。
面向主题是数据仓库第一个显著特点,就是指在数据仓库中,数据按照不同的主题进行组织,每一个主题中的数据都是从各操作数据库中抽取出来汇集而成,这些与该主题相关的所有历史数据就形成了相应的主题域。
数据仓库的第二个显著特点是集成。数据来源于不同的数据源,通过相应的规则进行一致性转换,最终集成为一体。
数据仓库的第三个特点是非易失性。一旦数据被加载到数据仓库中,数据的值不会再发生变化,尽管运行系统中对数据进行增、删、改等操作,但对这些数据的操作将会作为新的快照记录到数据仓库中,从而不会影响到已经进入到数据仓库的数据。
数据仓库最后一个特点是它随时间变化。数据仓库中每一个数据都是在特定时间的记录,每个记录都有着相应的时间戳。
图 4 数据仓库体系架构
数据仓库对外部数据源和操作型数据源的元数据,按照数据仓库模式设计要求进行归类,并建成元数据库,相对应的数据经过ETL后加载到数据仓库中;当信息客户需要查询数据时先通过信息展现系统了解元数据或者直接浏览元数据库,再发起数据查询请求得到所需数据。
一个典型的企业数据仓库系统,通常包含数据源、数据存储与管理、数据的访问三个部分。
图 5 数据仓库系统
数据源:是指企业操作型数据库中的各种生产运营数据、办公管理数据等内部数据和一些调查数据、市场信息等来自外环境的数据总称。这些数据是构建数据仓库系统的基础是整个系统的数据源泉。
数据的存储与管理:数据仓库的存储主要由元数据的存储及数据的存储两部分组成。元数据是关于数据的数据,其内容主要包括数据仓库的数据字典、数据的定义、数据的抽取规则、数据的转换规则、数据加载频率等信息。各操作数据库中的数据按照元数据库中定义的规则,经过抽取、清理、转换、集成,按照主
题重新组织,依照相应的存储结构进行存储。也可以面向应用建立一些数据集市,数据集市可以看作是数据仓库的一个子集,它含有较少的主题域且历史时间更短数据量更少,一般只能为某个局部范围内的管理人员服务,因此也称之为部门级数据仓库。
数据的访问:由OLAP(联机分析处理)、数据挖掘、统计报表、即席查询等几部分组成。例如OLAP:针对特定的分析主题,设计多种可能的观察形式,设计相应的分析主题结构(即进行事实表和维表的设计),使管理决策人员在多维数据模型的基础上进行快速、稳定和交互性的访问,并进行各种复杂的分析和预测工作。按照存储方式来分,OLAP可以分成MOLAP以及ROLAP等方式,MOLAP (Multi-Dimension OLAP)将OLAP分析所需的数据存放在多维数据库中。分析主题的数据可以形成一个或多个多维立方体。ROLAP (Relational OLAP)将OLAP分析所需的数据存放在关系型数据库中。分析主题的数据以“事实表-维表”的星型模式组织。
数据挖掘:
数据挖掘的定义非常模糊,对它的定义取决于定义者的观点和背景。如下是一些DM文献中的定义:
数据挖掘是一个确定数据中有效的,新的,可能有用的并且最终能被理解的模式的重要过程。
数据挖掘是一个从大型数据库中提取以前未知的,可理解的,可执行的信息并用它来进行关键的商业决策的过程。
数据挖掘是用在知识发现过程,来辩识存在于数据中的未知关系和模式的一些方法。数据挖掘是发现数据中有益模式的过程。
数据挖掘是我们为那些未知的信息模式而研究大型数据集的一个决策支持过程。
虽然数据挖掘的这些定义有点不可触摸,但在目前它已经成为一种商业事业。如同在过去的历次淘金热中一样,目标是`开发矿工`。利润最大的是卖工具给矿工,而不是干实际的开发。
目前业内已有很多成熟的数据挖掘方法论,为实际应用提供了理想的指导模型。其中,标准化的主要有三个:CRISP-DM;PMML;OLE DB for DM。
CRISP-DM(Cross-Industry Standard Process for Data Mining)是目前公
认的、较有影响的方法论之一。CRISP-DM强调,DM不单是数据的组织或者呈现,也不仅是数据分析和统计建模,而是一个从理解业务需求、寻求解决方案到接受实践检验的完整过程。CRISP-DM将整个挖掘过程分为以下六个阶段:商业理解(Business Understanding),数据理解(Data Understanding),数据准备(Data Preparation),建模(Modeling),评估(Evaluation)和发布(Deployment)。其框架图如下:
图 6 CRISP-DM模型框架图
从技术层来看,数据挖掘技术可分为描述型数据挖掘和预测型数据挖掘两种。描述型数据挖掘包括数据总结、聚类及关联分析等。预测型数据挖掘包括分类、回归及时间序列分析等。
1、 数据总结:继承于数据分析中的统计分析。数据总结目的是对数据进行浓缩,给出它的紧凑描述。传统统计方法如求和值、平均值、方差值等都是有效方法。另外还可以用直方图、饼状图等图形方式表示这些值。广义上讲,多维分析也可以归入这一类。
2、 聚类:是把整个数据库分成不同的群组。它的目的是使群与群之间差别很明显,而同一个群之间的数据尽量相似。这种方法通常用于客户细分。在开始细分之前不知道要把用户分成几类,因此通过聚类分析可以找出客户特性相似的群体,如客户消费特性相似或年龄特性相似等。在此基础上可以制定一些针对不同客户群体的营销方案。
3、 关联分析:是寻找数据库中值的相关性。两种常用的技术是关联规则和序列模式。关联规则是寻找在同一个事件中出现的不同项的相关性;序列模式与此类似,寻找的是事件之间时间上的相关性,如对股票涨跌的分析等。
4、 分类:目的是构造一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量,此外,训练样本还有一个类别标记。一个具体样本的形式可表示为:( v1, v2, ...,vn;c ),其中vi表示字段值,c表示类别。
5、 回归:是通过具有已知值的变量来预测其它变量的值。一般情况下,回
归采用的是线性回归、非线性回归这样的标准统计技术。一般同一个模型既可用于回归也可用于分类。常见的算法有逻辑回归、决策树、神经网络等。
6、 时间序列:时间序列是用变量过去的值来预测未来的值。
数据挖掘(Data Mining)软件。使用诸如神经网络、规则归纳等技术,用来发现数据之间的关系,做出基于数据的推断。
图 7 数据挖掘系统
以下是一些当前的数据挖掘产品: IBM: Intelligent Miner 智能矿工
Tandem: Relational Data Miner 关系数据矿工 AngossSoftware: KnowledgeSEEDER 知识搜索者 Thinking Machines Corporation: DarwinTM NeoVista Software: ASIC
ISL Decision Systems,Inc.: Clementine DataMind Corporation: DataMind Data Cruncher Silicon Graphics: MineSet
California Scientific Software: BrainMaker WizSoft Corporation: WizWhy Lockheed Corporation: Recon
SAS Corporation: SAS Enterprise Miner 联机分析处理(OLAP):
OLAP的概念最早是由关系数据库之父E.F.Codd于1993年提出的,他同时提出了关于OLAP的12条准则。
OLAP的提出引起了很大的反响,OLAP作为一类产品同联机事务处理 (OLTP) 明显区分开来。
当今的数据处理大致可以分成两大类:联机事务处理OLTP(On-Line Transaction Processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、
一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是\"维\"这个概念。
“维”是人们观察客观世界的角度,是一种高层次的类型划分。“维”一般包含着层次关系,这种层次关 系有时会相当复杂。通过把一个实体的多项重要的属性定义为多个维(DImension),使用户能对不同维上的数据进行比较。因此OLAP也可以说是多维数据分析工具的集合。
OLAP的基本多维分析操作有钻取(Roll Up和Drill Down)、切片(Slice)和切块(Dice)、以及旋转(Pivot)、Drill Across、Drill Through等。
钻取是改变维的层次,变换分析的粒度。它包括向上钻取(Roll Up)和向下钻取(Drill Down)。Roll Up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而Drill Down则相反,它从汇总数据深入到细节数据进行观察或增加新维。
切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个,则是切块。
旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。 OLAP有多种实现方法,根据存储数据的方式不同可以分为ROLAP、MOLAP、HOLAP。
ROLAP表示基于关系数据库的OLAP实现(Relational OLAP)。以关系数据库为核心,以关系型结构进行多维数据的表示和存储。ROLAP将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。维表和事实表通过主关键字和外关键字联系在一起,形成了“星型模式”。对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为“雪花模式”。
MOLAP表示基于多维数据组织的OLAP实现(Multidimensional OLAP)。以多维数据组织方式为核心,也就是说,MOLAP使用多维数组存储数据。多维数据在存储中将形成“立方块(Cube)”的结构,在MOLAP中对“立方块”的“旋转”、“切块”、“切片”是产生多维数据报表的主要技术。
HOLAP表示基于混合数据组织的OLAP实现(Hybrid OLAP)。如低层是
关系型的,高层是多维矩阵型的。这种方式具有更好的灵活性。
还有其他的一些实现OLAP的方法,如提供一个专用的SQL Server,对某些存储模式(如星型、雪片型)提供对SQL查询的特殊支持。
OLAP工具是针对特定问题的联机数据访问与分析。它通过多维的方式对数据进行分析、查询和报表。维是人们观察数据的特定角度。例如,一个企业在考虑产品的销售情况时,通常从时间、地区和产品的不同角度来深入观察产品的销售情况。这里的时间、地区和产品就是维。而这些维的不同组合和所考察的度量指标构成的多维数组则是OLAP分析的基础,可形式化表示为(维1,维2,……,维n,度量指标),如(地区、时间、产品、销售额)。多维分析是指对以多维形式组织起来的数据采取切片(Slice)、切块(Dice)、钻取(Drill Down和Roll Up)、旋转(Pivot)等各种分析动作,以求剖析数据,使用户能从多个角度、多侧面地观察数据库中的数据,从而深入理解包含在数据中的信息。
根据综合性数据的组织方式的不同,目前常见的OLAP主要有基于多维数据库的MOLAP及基于关系数据库的ROLAP两种。MOLAP是以多维的方式组织和存储数据,ROLAP则利用现有的关系数据库技术来模拟多维数据。在数据仓库应用中,OLAP应用一般是数据仓库应用的前端工具,同时OLAP工具还可以同数据挖掘工具、统计分析工具配合使用,增强决策分析功能。
一个典型的BI系统介绍
商业智能系统应具有的主要功能:
读取数据——可读取多种格式(如Excel、Access、以Tab分割的txt和固定长的txt等)的文件,同时可读取关系型数据库 (对应ODBC)中的数据。
分析功能——关联/限定 关联分析主要用于发现不同事件之间的关联性,即一个事件发生的同时,另一个事件也经常发生。关联分析的重点在于快速发现那些有实用价值的关联发生的事件。
数据输出功能——打印统计列表和图表画面等,可将统计分析好的数据输出给其他的应用程序使用,或者以HTML格式保存。
定型处理——所需要的输出被显示出来时,进行定型登录,可以自动生成定型处理按钮。以后,只需按此按钮,即使很复杂的操作,也都可以将所要的列表、视图和图表显示出来。
以国外的一个BI系统为例,我们来介绍一个BI系统的主要功能,这个系统
主要包含数据仓库管理器(Warehouse Manager)、数据复制(Data Propagator)、多维数据库(OLAP Server)、前台分析工具(Wired for OLAP)以及数据挖掘(Intelligent Miner)、On Demand。
数据仓库管理器(Warehouse Manager)
它主要由以下几部分功能组成:数据访问,数据转换,数据分布,数据存储,靠描述性数据查找和理解数据,显示、分析和发掘数据,数据转换过程的自动化及其管理。它缩短了复杂的海量数据与有洞察力的商务决策之间的差距,有助于公司更进一步了解其业务、市场、竞争对手和客户。
数据复制 (Data Propagator)
Data Propagator提供的复制功能允许从一个数据源读取数据并把它送到另外一个地方,而且可以是双向的。当发生冲突时,可自动检测出来并进行补偿。此外,它还有以下特色:
(1)Pull Architecture Through Staging Tables(分级表牵引式体系结构):二个组成部分----Capture和Apply。Capture部分在源数据库服务器上运行,它捕获要被复制的数据,并把数据放入服务器分级表中;Apply部分在目标机上运行。在用户定义的时间间隔里或某个事件发生后,它连到源数据库中,并从分级表中抽取所需的数据。这种被动的“牵引式”体系结构减少了数据源的额外开销,能够支持数据源及目标机的独立运作性以及新一代流动计算机作为目标机的数据复制。这种体系结构还支持中介分级表,其中最初的源可以复制到区域目标中,然后再复制到各区域内的目标机上。
(2)支持更新和修正:既支持更新也支持修正复制。Apply可以完全替换目标数据或者仅仅修正上次复制以来所发生的改变。
(3)改变事务运行记录的Capture:捕获数据修改。它从数据库运行日志(LOG)中读出修改,从而抓取用于复制的数据修改,进而安排好这些数据。这就减少了对源的额外开销,不需要另外处理如触发器。甚至可以直接从内存中读运行记录,以减少I/O。
(4)加工数据:数据首先要从运行记录移到分级表,所以能在复制之前加工或处理它;由于分级表是数据库表,使用标准SQL就能定义加工处理功能。除了通过SQL来构造子集,汇总并连结表以外,分级表还能提供基于时间分析源数据改变的方法。这要考虑到整个新一类的应用包括检查跟踪,历史分析,\"asof\"
查询等等。
(5)GUI管理机构:通过图形用户界面可以定义和管理数据拷贝,定义代码和触发器没有专门语言。这样最终用户就有权定义和管理,而不仅仅是DBA和程序员的范围。
多维数据库服务器(OLAP Server)
该工具在商务智能中扮演着重要角色,可以深入最终用户的业务,对桌面上的数据进行实时操作,能够快速地分布传统监视和报告范围之外的应用程序数据。
数据挖掘工具(Intelligent Miner)
当用户的数据积累到一定数量时,这些数据的某些潜在联系、分类、推导结果和待发现价值隐藏在其中,该工具帮助客户发现这些有价值的数据。
Wired for OLAP
使用该功能可以提高信息技术组织的效率。信息技术人员可以让用户利用分析和报表的功能获得他们所需的信息,而不会失去对信息、数据完整性、系统性能和系统安全的控制。
(1) 强大功能的报表
繁忙的信息技术部门可以在几分钟内创建用于在企业中分发的完善的报表。,决策人员可以从该Web页面上找到可用的一系列报表。
(2) 图形化分析
远远超出对数据的静态图形化视图,提供强壮的图形化OLAP分析。决策人员可以根据需要排序、分组数据并改变“图表”(Chart)的类型(直方图、饼形图、线图、堆积图)。图表中的元素可以被“钻取”到其他的细节层次,并可以返回来恢复一个概要性的视图。
(3) 多种图表视图:直方图、线图、组合图、饼形图、堆积图和离散点图 (4) 可在任何地方“钻取”没有路径的预先定义 (5) 完善的报表
复合报表通过用各种不同的形式(交叉表、图表、表格或以上几种形式的组合)来表现分析结果,对工作进行概括;优美格式的商用报表。
(6) 交互式的、立即的“所见即所得”(WYSIWYG)显示 On Demand
该工具提供给客户一套高性能的解决方案来进行在线捕获、存储和重取计算机输出的文档。它使得落后的纸张文件搜索和使用缩微胶片阅读器搜索称为历史。有了OnDemand,客户可以立刻发现特定的信息并且很容易地浏览它,而不用在庞大的数据和纸张中苦苦寻找;存储、重取和分发企业产生的信息比以前更加方便和易于接受。
BI的实施
实施商业智能系统是一项复杂的系统工程,整个项目涉及企业管理, 运作管理, 信息系统, 数据仓库, 数据挖掘, 统计分析等众多门类的知识。因此用户除了要选择合适的商业智能软件工具外,还必须按照正确的实施方法才能保证项目得以成功。商业智能项目的实施步骤可分为:
(1)
需求分析:需求分析是商业智能实施的第一步, 在其他活动开展之前
必须明确的定义企业对商业智能的期望和需求, 包括需要分析的主题, 各主题可能查看的角度(维度);需要发现企业那些方面的规律,用户的需求必须明确。
(2)
数据仓库建模:通过对企业需求的分析,建立企业数据仓库的逻辑模
型和物理模型,并规划好系统的应用架构,将企业各类数据按照分析主题进行组织和归类.
(3)
数据抽取:数据仓库建立后必须将数据从业务系统中抽取到数据仓库
中, 在抽取的过程中还必须将数据进行转换、清洗、以适应分析的需要.
(4)
建立商业智能分析报表:商业智能分析报表需要专业人员按照用户制
订的格式进行开发, 用户也可自行开发(开发方式简单,快捷) .
(5)
用户培训和数据模拟测试:对于开发—使用分离型的商业智能系统,
最终用户的使用是相当简单的,只需要点击操作就可针对特定的商业问题进行分析。
(6)
系统改进和完善:任何系统的实施都必须是不断完善的. 商业智能系
统更是如此, 在用户使用一段时间后可能会提出更多的,更具体的要求, 这时需要再按照上述步骤对系统进行重构或完善。
其中,在BI系统实施中要注意以下问题: 统一协调,全局规划
BI系统由于是构筑于所有的业务系统之上,有着独特的复杂性和全面性。BI系统决不仅仅是一个单纯的IT项目的实施,它涉及到企业经营管理的各个方
面,需要上至公司高层领导下至基层业务人员的大力配合。实施这样的系统的难度和所需要投入的资源远超于普通的业务支持系统。企业必须进行缜密的思考和全局的计划,把BI软件纳入企业软件管理的整体战略之中。全局规划不仅要对项目实施队伍做出规划,同时还要对项目后续的部署维护和功能的增强完善所需要的资源做出规划。商务智能计划必须有一个整体的愿景和路线图,否则,就很难统一起来。
一把手工程
BI也是一把手工程。BI同ERP和CRM等软件一样也是一把手工程。一般的工作人员想到的只是利用BI迅速生成报表,提高劳动效率;而一把手的角度,是从提高企业业务增值的目的出发,两者在需求模型设计时侧重点完全不同,结果也大相径庭。另一方面,没有一把手的大力支持,企业的业务流程调整会遇到很大阻力,甚至是难以贯彻下去。
因此,在决定上BI之前,企业用户的老总和其智囊团需要慎重考虑哪些业务首先需要决策支持,这项业务的内部流程是否清楚,如何对其进行内部流程重整。并要配套相应的部门来专门负责数据的跟踪和优化分析,这样企业的决策将会变得越来越理智客观,在日益激烈的商业竞争中将也会领先一步。
BI的组织和技能要素
建立BI体系需要许多技能,包括商务技能、信息技术技能和分析技能。然而要建立同时具备以上三种能力的数据分析部门谈何容易。善于联系看似不相关的事物并能有效地呈现它们之间的关系是一种非常难得的能力,通常企业里面具备这种能力的人才很少,即使有也没有被充分重视。国际国内的BI人才奇缺。如果企业不能有效地组织BI活动(如着手建立集中化的BI能力中心和投资BI技能建设)将无法在战略层面展示BI的作用,且将面对至少50%的额外实施费用。而没有集中的,专门的BI功能部门,BI系统无法被深入和有效的支持。
由于人才的稀少,建立一个集中的,汇集各种人才的BI能力中心是非常必要的(要成立专门的数据分析部门)。来自不同部门的人以建立一种互相协作的BI队伍远比寻找同时具备三种能力的人才更现实可行。
一个有效的BI能力中心有三个重要的任务:指导用户能够实现重复的BI任务(如管理报表和简单的重复分析)的自我服务;承担复杂的,额外的分析工作直到这些分析能够成为可重复使用的简单工作;确保BI系统的功能和潜力不被
高估,实实在在地解决现实的问题。
企业建设BI系统的目的,是要从大量的数据中找出可以给企业带来增值效益的数据分析,但是这些数据必须有相应的人对其进行跟踪处理,否则BI的价值也就只停留在迅速做出报表的层面,BI的核心价值也被大打折扣。而所有的任务,都需要精心的策划和长期的努力。
数据基础先行
“BI是数据驱动的应用”。BI系统建设的核心是坚固、高质量的数据基础。建立这样一个数据资料库的任务是极其艰巨的,要消耗大量的时间和资源。而企业数据的积累是伴随着各种基础信息系统的建设而进行的,这是一个长期的过程。
在基础系统尚未建立和完善阶段,切忌同时发动不同的系统建设,如在实施BI系统的同时就在建设分销供应链系统。不仅资源捉襟见肘,数据的质量和完备问题也是不可预料的因素。本意是整合公司所有的数据资源,但是数据资源仍在不断地变化,如何整合这些尚未确定的资源是一个巨大的挑战。
找准切入点
BI要想大做小,从最迫切的业务入手。无论是上哪种管理软件,几乎都会听到同样的声音:不要贪大求全,从最迫切的业务入手,BI也不例外,它可以做成一个独立的庞大系统,把企业中所有的业务数据全部放在一个数据仓库里,进行多维分析;也可以将其嵌入到各项单独的业务数据中,进行单独的业务分析。咨询顾问的意见是先把最紧要的业务管理起来,以便迅速响应市场需求,做出最佳决策。积累了一定经验后,再逐渐增加BI系统继续对其他业务进行决策分析,这样可以在一定程度上规避风险,因为上BI也要进行流程的重整,一个部门的整顿对公司的影响要比整个公司整顿的影响小得多,就好比动小手术总要比作大手术的疼痛小一些一样。
坚持业务趋动
坚持业务趋动而不是IT趋动。涉及到管理的问题,就是行为科学的问题,也就是人的问题。因此管理软件的需求拉动都是从业务部门牵头做起,而不是IT部门。也许一些企业也明白应由业务部门来提出对软件的设计需求,但业务人员的水平不足以达到提出未来管理模型架构的水平,如果出于这样的原因,企业老总要给予IT部门绝对的权威,让他有权来要求业务部门必须配合IT部门共同协商提出需求模型,以尽量准确的把握企业的业务发展方向。
BI与其它系统的差别
商业智能(BI)帮助企业的管理层进行快速,准确的决策,迅速的发现企业中的问题,提示管理人员加以解决。但商业智能软件系统不能代替管理人员进行决策,不能自动处理企业运行过程中遇到的问题。商业智能为企业带来的是一种经过科学武装的管理思维,给整个企业带来的是决策的快速性和准确性,发现问题的及时性,以及发现那些对手未发现的潜在的知识和规律。
BI与报表系统
实现现有业务报表的问题常被作为BI应用的开始,虽然务实,但却是一个陷阱。传统的报表系统和BI是有本质区别的。传统的业务报表系统针对分离的事务处理而设计扁平系统,并不擅长于结构化的分析和统计。而一个独立的BI系统,能够从传统业务系统中获取各类业务数据,通过数学模型建立多层次的分析体系,并将其转化成有商业意义的信息。BI的应用需求往往复杂多变。BI的实施复杂性远远超过传统的报表系统。不能带着传统事务处理系统的思维模式进行BI系统实施。
另外,报表系统和BI的使用对象和目的也不尽相同。报表系统更着重于短期的运作支持,而BI则关注长期的战略决策,甚至更着重于商业趋势和业务单元的联系而非具体的数据和精确度本身。BI并不是用来代替着眼于日常运做的报表系统的!这种理解的含糊非常容易导致对BI项目复杂度和资源的投入要求估计不足。
BI与ERP
在ERP环境中安装数据仓库是一个相当经济的建议。因为,从基础架构的角度上看,BI数据库和ERP有许多共通之处。两者都采用分布式架构存储海量数据,因此,双方进行融合的可能性很大;两者都为大范围终端用户提供深度访问的能力;两者都具有高度的分布性和应用程序的可扩展性,尽管这种特性在BI上体现得不是很明显;两者基于同样的前提。即利用直接或者间接数据作为预测工作的信息参考。
在过去10年中,ERP技术和BI都有重大的发展,但它们的发展道路或多或少是并行的。两者的商业判断能力都有赖于信息技术,但功能特点却各自针对于商业智能(Business Intelligence)和业绩跟踪(Performance Tracking)的不同方面。
虽然存在类似之处,但BI和ERP绝对不是同一事物或是同一事物体的两个方面,它们是互补的系统。
它们最大的共性就是,它们使企业运行得更有效率、响应更及时并易于整合。因此,已实施了ERP的企业需要BI是显而易见的。
行业客户实施ERP之后,就建立起了新的业务处理模式。ERP系统所涉及的所有业务流程通过整合彼此协调,打破了原有的部门分割局面。公司内所有环节的信息获知能力都得到了提升,企业内外的业务处理瓶颈将被打破,响应速度也能相应改善。
BI能提高行业用户在关键领域的信息获知能力及掌控精度。首先,报告格式将大大改良,整合后的用户数据无疑使报告进行得更快、更及时、更精确。其次,信息传输也将越来越实时化,在各部门周转时间将大为减少。最后,业务处理流程当中可能出现的问题和失误也易于及时发现,从而使纠错工作更加迅速和准确。
通过BI,孤立、分散的企业数据按历史记录顺序彼此相关了,而且能按高效、易于提取的结构进行存储;行业用户由此就可以按不同的透视方法进行快速分析。与传输数据不同,一旦信息进入数据仓库或局部领域的数据集市,它就不可改变。它成为了分析型数据,而非传输型数据。因此,行业用户可以做的分析就不再是简单的总结,他们可以按自己设置的分析方法对数据进行任何深度的分析。这种数据仓库按照执行快速、灵活可变的形式组织起来,数据访问变得异常简便(用户不需专门应用软件就能访问,就像从书架上取下一本书一样方便)。
BI与DSS、ISS
商业智能作为一种新兴的决策支持体系,与传统的DSS、EIS相比,在以下方面存在明确的优势。
使用对象范围
商业智能的使用对象不再像DSS、EIS仅仅局限于企业的领导与决策、分析人员,而是扩展到企业组织内外的各类人员,为他们提供决策支持服务,既有企业经理一类的企业领导和高层决策者,又有企业内部各部门的职能人员,还包括客户、供应商、合作伙伴等企业外部用户。
具有的功能
从以上分析看出,商业智能具有传统DSS、EIS所不具有的强大的数据管
理、数据分析与知识发现能力。
知识库状态
传统的DSS、EIS中的知识库是在建立的系统中设置好的,库中的知识很少发生变化。即使发生变化,采用定期人为更新的方法修改。而BI系统是一个闭合循环的动态系统。数据源部分来自各应用系统的反馈,并且数据挖掘可以从现有的数据仓库或数据集市中发现新知识,随时对知识库中的内容进行自动修正,所以BI中的知识库是一种动态结构。
但商业智能也存在不足。商业智能的目标与DSS一样,是为了提高企业决策的效率和准确性。但BI是通过数据分析、知识发现工具提供有价值的、辅助决策的信息和知识,用户必须根据这些信息和知识,运用现有的企业知识和经验进行判断,做出决定,极少数具备智能决策的能力。不像专门的决策支持系统那样提供方案生成、方案协调、方案评估等功能,更不具备群体决策的能力。
BI的市场分析
制造业是商业智能的重要市场
Manufacturing Insights(IDC 公司附属公司)的报告显示,2004年亚太区(不含日本)制造业IT市场规模为137亿美元,预计该市场将以 11.4% 的年复合增长率平稳增长,到2008年市场规模将达210亿美元。
2004年底,亚太区(不含日本)制造业IT支出共137亿美元,其中离散制造占78.6%,流程制造占22.4% 。由于市场全球化和自由化带来了更加激烈的竞争和复杂性,亚太区(不含日本)的许多制造商继续对IT进行投资,以提高运营效率,更好地控制不断增长的业务成本。随着越来越多的制造商在华建立了生产基地,降低成本并占领巨大的国内市场,这些制造商需要对主要的IT基础架构 、应用和服务进行投资以使其运营能够健康平稳地发展,并获得领先优势。这将继续促进中国和海外制造商的制造业IT投资。在对基础架构投入大量资金的同时,在中国和印度这样的新兴大型市场的许多制造商将继续对企业资源管理(ERM)和商务智能(BI)解决方案进行投资,从而为更好的内部协作和决策制定提供基础平台。
IDC的报告显示,2004年亚太区(不含日本)商务智能(BI)工具软件市场规模为2.332亿美元,预计该市场将以12.3%的年复合增长率迅猛增长,到2009年市场规模将达4.173亿美元,增长预计主要源于中国和印度日益发展的经济。这
两国近几年更加健康的经济环境和不断增多的应用系统部署为未来5年BI工具的采用打下了基础。有关专家指出,随着互联网的普及,在决策支持系统基础上发展商业智能已成为必然。随着基于互联网的各种信息系统在企业中的应用,企业将收集越来越多的关于客户、产品及销售情况在内的各种信息,这些信息能帮助企业更好地预测和把握未来。所以,电子商务的发展也推动了商业智能的进一步应用。从行业发展来看,商业智能作为业务驱动的决策支持系统,其发展是以较为完善企业的信息系统和稳定的业务系统为基础的。商业智能未来的应用与行业内信息化的基础状况密切相关,以制造型企业为主,其次是流通企业,这两个领域将是商业智能不可忽视的新市场。
BI的应用状况与中外差距分析
决胜未来靠的是什么?是通过透析历史经营情况归纳成的经验和失败的教训,用数据来证明经营手段是否成功,来预测未来的发展趋势,快速准确地把握风云变幻的市场脉搏。而BI正是完成这项使命的有力武器。在国外,BI已有了较好的应用,并产生相关的指标体系理论;在国内,BI虽还处于初级阶段,但其本身所具有的灵活性和强大功能,使得它在业界迅速崛起。
商务智能在国外的应用
欧美企业的商务智能开支还是处于不断增长的势头。根据加特纳公司预计,到2003年底大企业中有70%都会部署商务智能,虽然并不一定把它当做全公司范围的、战略性的计划。
图7 欧美企业商务智能投资的增长
图 8 美国和欧洲的商务智能的渗透率
美国和欧洲的企业对商务智能工具的使用略有不同,美国企业用商务智能做在线分析处理要比欧洲企业多,而欧洲企业用商务智能进行高级分析比美国企业要多商务智能的部署重点在北美企业和欧洲企业中也有所不同。
图 9 欧美企业对商务智能工具的利用
图 10 欧美企业商务智能的部署重点的不同图
国外企业所导入商业智能的理念更加贴进管理层面,其管理理念可见一斑;
而中国的导入过程则显示出与企业实际应用层面的契合,在管理理念上却有着明显的差距。这说明,国际商业智能厂商在中国推广其BI产品的过程中,只扮演了工具专家的角色,进而将其在国外经过成熟应用的平台产品及商业模型直接推广到了中国企业;那么,由于管理模式和管理理念上的差距,中国用户在应用这些先进工具的过程中,也只是在工具和其初步的需求当中找到了一个契合点,然而,在契合点背后所隐含的成熟的管理思想却没有被大多数企业领导所领会。
商务智能在中国的应用
商务智能在中国的的发展尚处于起步阶段,大部分企业对商务智能仍然缺乏必要的了解。据IDC预测,如果中国经济继续保持高速增长,商务智能软件在中国内地市场的年销售额平均增长至少在65.6%,但即使如此,到2006年中国内地的商务智能软件市场规模仍不到一亿美元。虽说几乎每个中国的企业都需要商务智能,但大规模的分析主要集中在竞争激烈的生活消费品行业、零售业以及金融服务业(如银行、保险等)。由于国内的生活消费品行业和零售业利润薄,信息化程度低,资金实力不强,因而没有足够能力实施。被商务智能软件厂商们看好的反而是电信、金融、航空等行业,因为这些行业的信息化程度偏高,并且这些行业从某种意义上讲都是服务业,客户的需求扮演着重要角色,准确、科学地把握客户的需求是身处这些行业的企业决策者们孜孜以求的。
综上所述,从长远的和可持续发展的眼光来看,中国用户在管理模式和管理理念上的差距才是影响中外商业智能应用效果差距的根本,中国的商业智能应用还有很长一段路要走!
BI的发展趋势
显然,商业智能具有更美好的发展前景。近些年来,商业智能市场持续增长。IDC预测,到2005年,BI市场将达到118亿$,平均年增长率为27%(Information Access TOOls Market ForECaST and Analysis: 2001-2005, IDC#24779, June 2001)。随着企业CRM、ERP、SCM等应用系统的引入,企业不停留在事务处理过程而注重有效利用企业的数据为准确和更快的决策提供支持的需求越来越强烈,由此带动的对商业智能的需求将是巨大的。
商业智能的发展趋势可以归纳为以下几点: 功能上具有可配置性、灵活性、可变化性
BI系统的范围从为部门的特定用户服务扩展到为整个企业所有用户服务。
同时,由于企业用户在职权、需求上的差异,BI系统提供广泛的、具有针对性的功能。从简单的数据获取,到利用WEB和局域网、广域网进行丰富的交互、决策信息和知识的分析和使用。
解决方案更开放、可扩展、可按用户定制,在保证核心技术的同时,提供客户化的界面
针对不同企业的独特的需求,BI系统在提供核心技术的同时,使系统又具个性化,即在原有方案基础上加入自己的代码和解决方案,增强客户化的接口和扩展特性;可为企业提供基于商业智能平台的定制的工具,使系统具有更大的灵活性和使用范围。
从单独的商业智能向嵌入式商业智能发展
这是目前商业智能应用的一大趋势,即在企业现有的应用系统中,如财务、人力、销售等系统中嵌入商业智能组件,使普遍意义上的事务处理系统具有商业智能的特性。考虑BI系统的某个组件而不是整个BI系统并非一件简单的事,比如将OLAP技术应用到某一个应用系统,一个相对完整的商业智能开发过程,如企业问题分析、方案设计、原型系统开发、系统应用等过程是不可缺少的。
从传统功能向增强型功能转变
增强型的商业智能功能是相对于早期的用SQL工具实现查询的商业智能功能。目前应用中的BI系统除实现传统的BI系统功能之外,大多数已实现了数据分析层的功能。而数据挖掘、企业建模是BI系统应该加强的应用,以更好地提高系统性能。
加强了绩效管理功能
Wayne Eckerson of The Data Warehousing Institute 定义了企业绩效管理(BPM),‘一系列的业务和应用被设计用来优化企业战略的执行'。 Gartner认为到2005年,40%的企业将会采用绩效管理。BPM的角色是提供他们需要管理活跃性以及他们可信赖的个人信息。
通过将业务流程,事务处理系统,数据仓库和BI,BPM能够创造出闭环的市场决策流程。在BPM里,流程开始于定义高层管理的战略目标。然后,创造计划用来做活动的战术执行。那些活动被监控,结论被评估,然后做出战略的细微调整,计划和执行保证组织在预期的方向上是不断向前推进的。
Gartner的2004年第二季度对企业绩效管理软件商的调查显示,没有企业
在这个领域有绝对的优势,尽管一些软件厂商正在接近做到领先地位。经济的低迷提醒企业领导人成功是基于精明的商业决策,监督这些决策造成的结果的能力。立法机关的法案和协调也需要管理者更加强有力的控制他们的业务流程和实践,同时提供数据保护和报告外部的顾客。这两个方面的影响创造了绩效管理方案的需求。
产品模块的集成
通过合并和收购,大型组织已经收集了大量的BI产品。一些组织已经试图在专门的产品套件上实行标准化。这一直是个挑战,因为人们趋向于使用自己喜欢的BI产品。考虑到健壮的产品分销商,分销7个不同的BI软件产品。每一项特定目的的服务都被一个厂商拥护。当标准化是他们的目标时,很难不会造成大量不满而达到。结果,这些组织在一个种类里瞄准最好的产品,因为没有单独的供应商能够提供最好的产品套件,包含特殊的和结构化的查询,标准报告,OLAP,异常报告,数据挖掘和分析能力。Gartner认为‘大多数的企业将会需要更多的BI工具,他们必须作为BI环境中的集成决策的一部分来选择’。同样的,数据定义,数据一致和兼容能力相关问题,在多个BI产品的信息消费中,将继续会导致低效。不幸的是,这个问题直到有一家占统治地位的厂商出现前,将不会被解决。
加强处理结构化和非结构化数据的能力
大部分BI产品仅能处理结构化的数据,这些数据由其他应用或者事务处理系统捕获,比如ERP应用的客户订单和业务处理。但是,很少的BI产品有能力继承非结构化的数据,比如文档和图像。组织捕获大量的非结构化数据,比如每天的email和email的回复。META Group 估计平均70%的企业信息资产是非结构化的形式。由于它的形式和结构化数据集成难度很大,非结构化数据的使用价值受到限制。
举个例子,对大部分利润来源的顾客进行分析将会产生客户的列表和他们的特征。如果基于这些信息用建立一个基于客户的阈值,就要冒着风险消除没有利润的客户,但是这些客户将来可能会变成有利润的客户。关于潜在的没有利润的客户的信息可能被包含在非结构化的数据格式中,比如对新闻简报的反馈。当结构化和非结构化的数据被展现的时候,会提供给个人更多的供人洞察的主题领域。
加强了预测分析功能
成熟的BI用户需要预测分析,模仿“如果,怎么样“。举例说明,有些人可能通过地理区域和时间段分析市场。这些信息能够用来预测将来一段时间的市场趋势。当查询和报告能力根据历史事件和事务处理的数据,按照预测模型进行分析是有局限性的。电子表格应用软件提供了很多功能,因为BI应用软件有能力存取和展现信息,预测分析是一个自然的扩展。但是,META Group认为将预测分析嵌入到企业应用中(CRM,SCM等)正日益增加,代替了购买标准的数据挖掘解决方案。
主流的产品评价
在MetaGroup在最近的一份报告中,单就技术而言,处于领先地位的公司包括Cognos、Microstrategy、Brio、BO和Oracle。为了考察以上提到的几家公司BI产品的特色,Eweek/每周电脑报特别联合了一些正在进行BI选型的企业重点对以上五家公司以及SAP、微软公司的BI产品进行了比较与评估。
在评比中我们发现Cognos与Microstratagy的产品线较齐全,既有前端展示功能,又有后端数据分析与挖掘功能,二者都能够提供比较集成化的方案。Cognos数据处理速度更快一些,且在预算与规划方面造诣颇深;而Microstratagy在OLAP Server上的优势使其在处理大数据量数据方面更出色。由于Cognos早在1969年就已成立,比其他3家都要早20年,这也决定了他们在技术架构上的差异。不过,Cognos最新的Series7 Version2系列产品是三层构架的BPM和BI工具系统。它的OLAP分析工具PowerPlay,报表制作工具ReportNET以及门户工具Upfront都是完全支持B/S构架的,可以在浏览器里面进行报表定义、Drill Up、Drill Down等操作,而且客户端无须安装任何控件。服务器软件支持.NET和J2EE两个版本,具有良好的跨平台特性。
安讯最重要的竞争优势是产品的可扩充性。据悉该平台可支持成千上万个并发用户对数据报告和分析的需求。其网络集成能力可以生成直观的自助界面,允许不同技术水平的用户访问并分析数据。用户还可通过已申请专利的电子表格报告开发模式,用微软Excel表格创建报告。另外,安讯软件使用统一的字符编码标准(Unicode), 面向多样化的亚太区市场,使一份报告可通过多种语言表现。对于那些需要在整个地区创建实施单一报告和仪表盘的企业而言,这一点非常重要。客户不需要做任何改动,就可满足整个地区对不同语言的要求。
BO与Brio都是在前端展现方面比较突出,用户接受程度较高。但二者均无OLAP Server,导致数据监控功能较弱,虽然也可以与微软或Oracle的OLAP Server挂接,但这样毕竟受制于人,给客户提供的方案也不是最集成的。正是因为这个原因,海波龙才认为对Brio的收购是前端与后端的最完美的结合(不过由于缺少数据挖掘这部分功能,他们所谓的完美似乎也有些牵强)。
SAS 大中华区专业服务部总监曾濠生看来,SAS EIP具备四个特点,首先是速度要快,能够很快地给出报告分析和结果;其次是方便应用,用户不需要什么技术培训就可以用,而且还可以很容易部署这些软件并且让终端用户来使用;第三是数据的一致性,不管是公司的管理、财务、营销、销售还是库存供应等部门,得到的数据都是在同一个平台上的。最后就是数据的准确性,不论预测还是决定都是基于准确的数据基础上?除了在平台产品上帮客户领先其竞争对手一步外,我们更看重的是帮助我们的客户在思想方式上也要领先对手一步。不仅提供客户一个综合的平台,更能帮助他们预测未来的趋势。让客户在购买SAS的软件时明白他们不仅仅是买了软件,还买了最先进的流程和思维方式。
因篇幅问题不能全部显示,请点此查看更多更全内容