数据仓库解决方案指南

网络整理 - 08-26
作者:Sybase软件(北京)有限公司 市场部副总监 夏红

内容:数据仓库概念,Sybase的数据仓库解决方案

--------------------------------------------------------------------------------

数据仓库的概念

任何一个公司和企业,在订货、存货清单、票据清单、帐目清算、客户服务以及

财务报告等方面都存在大量的业务应用和技术环节。数据仓库的作用在于:从这

些应用系统中获取信息并转换到一个新的数据库,通过对新库中的历史信息和面

向主题的信息进行分析,为决策提供支持。以往的产品系统,如订货或购置系统,

则很难从中获得有关商业发展状况的信息。

数据仓库是企业决策支持的一部分。在做出下一个决定前,每个商业机构中的行

政人员和分析人员都需要将许多关键商业问题搞清楚,例如:哪些产品最有利可

图?哪些客户会为我们带来最大利益?哪些环节需要花费很高的费用?哪些市场活动

运行得最好,为什么?我们有可能会失去哪些客户,为什么?
这些都是数据仓库要

回答的“百万利润”问题,也同时是一个最大的市场。据 Gartner估计,60%
的关

系数据库管理系统被用作决策支持系统的应用开发。

数据仓库与数据集市的比较

在二十世纪八十年代中期,Bill Inmon首次提出“数据仓库”这一名词。它最初被

设计为一个商业数据库, 具有稳定性(主要成分不变)、历史性(包含历史信息)和面

向主题(信息由客户、产品和市场等组成)等特点。这些最初的“数据仓库”根据

对客户、产品、销售情况和财务状况等信息的分析,得到对企业活动的整体认识。

要建立一个数据仓库,一般分为四个步骤:

第一步:数据库设计,即设计出一个包含商业数据和信息的数据库,为商业实体

所用;

第二步:开发数据抽取和转换程序,从产品系统中将数据取出后放入数据仓库中;

第三步:开发数据加载和更新技术,使得在产品数据发生变化时,数据仓库得到

动态实时的更新;

第四步:购置查询和报表生成工具,令使用者通过企业内部网和个人计算机很方

便地获取信息。

多年以来客户发现:尽管企业级数据仓库很有吸引力,但是具体操作起来有些难

度。1996年“IDC研究”调查结果表明:尽管为建立数据仓库平均投入了三年多

时间和近320万美元,50%没有达到应有的效果。从项目开始算起,三年后,大多

数商人发现所面临的商业问题已经不再是开始建立时的样子,发生了很大变化。

另外,尽管开发进度被延长了一年又一年,仍然做不到让所有感兴趣的客户对想

看到什么信息给出明确的需求定义。因而“企业数据模型”的确立如同练习一样

进行了一年又一年。

在最近的18-24个月的时间里,出现了一种新的解决办法,那就是数据集市。数据

集市也是一种数据仓库,只是它更精练,更面向主题。Sybase公司自创立以来,

便确立了在数据集市技术上的领导地位。目前,使用Sybase产品的2万多家客户中

的大多数已经建立了运行在SQL Server上的数据集市,尽管通常也称为数据仓库,

却几乎没有一个是企业级的。

数据集市的优势在于建设周期的缩短和费用上的大大降低。其中周期以月代替了年,

费用从几百万下降到一百万。由于整个企业的数据很庞大,真正将它们集中到一个

数据库中几乎是不可能的。有人便对很多大数据仓库实质上是不是数据集市产生了

怀疑。使用数据集市后。设计、抽取、转换、加载和查询等环节变得更加简单,因

为客户中的一部分人能够更精确地知道他们自己所需要的信息是什么。

然而,如果有很多的数据集市却不能使它们保持同步,数据集市解决方案就会遇到

困难。一旦一个单位创建了两个或两个以上的数据集市,最大的问题就是如何使它

们之间协调一致,如何使它们实时操作,以及如何维护所有的数据抽取和转换。另

外,当一个单位要创建两个或两个以上的数据集市时,会发现每一个都要经过一个

重新的设计、抽取、加载和查询步骤。于是,在面对多个数据集市的开发时,如何

共享设计和结构成为一个有现实意义和挑战性的问题。

运作型数据存储与合并式数据仓库

针对上述问题,一种解决方案是采用一种全新的数据仓库概念 ---“运作型数据存

储 (Operational Data Store,ODS)”。在ODS方式下,数据被从业务数据库中复制到

一个中心位置,再从这里被抽取到多个数据集市中。ODS是从客户、产品和其他商

业角度来组织的,被称为商业状况的“实时快照”。它不包含历史信息,但可以很

容易地满足一个历史数据库或一组面向主题的数据集市的需要。

我们一般称之为“合并式数据仓库”,因为它在进入决策支持数据库以前是一个信

息的结合点。ODS虽小,却能被经常地修改,因而非常适合于建立在Adaptive
Server

Enterprise 和 Replication Server上。

多维或OLAP(联机分析处理)市场

作为数据仓库应用环节中的一部分,在市场份额上得到快速增长,变得越来越大。

简单来说,OLAP是从商业角度进行信息组织,而不象通常的由行、列和表构成。

例如,在一个类似 Arbor 或 Oracle Express 的 OLAP数据中,信息是通过客户、产

品、日期、销售部门和地域等属性来存取的,这对于数据理解和信息获取来说都

显得非常直观。

OLAP产品取得关系数据后,将它放入一个非常简单的表格中,使之很容易分析。

数据库和一个OLAP产品可被看做一个多维表格。这个市场相当热门,Arbor、

Oracle的 Express 和 Microstrategy 在此领域中各占一席之地,而 Sybase的
Power

Dimentions (原名whitelight),Cognos的 Impromptu 和 Powerplay,Brio Technology 的

BrioQuery处于优势地位。

竞争对手与合作伙伴一览

RDBMS公司:Sybase,Oracle,IBM,Teradata/NCR,Informix,Microsoft

硬件公司:IBM,Teradata,Sun,Digital/Compaq,HP

转换工具:VMARK,Infomatica,Carleton/Apertus,ETZ,Prism Solutions

OLAP:Sybase/PowerDimentions,Arbor,Oracle/Express,Microstrategy,

Information Advantage。

Sybase 的解决方案及其组成

Sybase拥有一个独特而强有力的点对点方案,用来设计、建立和管理数据仓库和数

据集市。各个部门之间通过集中的元数据进行交互,这便具有了完整性、集中性和

灵活性等特点。我们的工具也具有很多优越性能。

下表列出了各个组成部分:

(1)PowerDesigner Warehouse Architect

PowerDesigner不但是业界知名的数据库设计工具,也是数据仓库模型设计工具。其

中的 Warehouse Architect模块支持多种数据仓库模型,包括星型模式、雪花模式、以

及雪暴模式。这是同行业中最优秀、最灵活的开发工具,可用来设计一个关系的或

OLAP的软件仓库。PowerDesigner在数据仓库设计工具市场中占有最大份额。它能从

已有的数据库进行反向工程,从运行系统中将现存的数据结构抽取出来形成数据模

型,使设计变得简单。

(2) PowerStage

强大的数据抽取和数据转换产品。它是领导市场的客户/服务器转换方法,使数据仓

库模型用PowerDesigner实现起来更加容易,更加直观。PowerStage真正是安全并基于

引擎的。它有一个简单的面向处理的图形用户接口,使得用户可以快速启动,重复

利用以往的工作,从任何源中获得数据。

(3)适用于数据仓库的Adaptive Server for the Warehouse

Adaptive Server for the Warehouse (ASW),是一个包含Adaptive Server Enterprise (ASE)

和Adaptive Server IQ (ASIQ)的新关系数据库管理系统。它具有一项新的数据库查询

技术——直接英文查询。该产品使得高性能的OLAP和高性能的DSS在同一服务器

上得到集成。

Adaptive Server IQ,是服务于数据仓库的最优秀关系数据库管理系统,可以对数据库

进行压缩,也可以以传统关系数据库管理系统的10至100倍的速度执行快速查询,使

得数据规模可以达到并超过十亿行数据。

(4)PowerDimensions

快速、可扩展的联机分析工具。 这是业界中最新的OLAP解决方案,对建立于ASIQ

和ASW数据库的数据可以提供快速灵活的多维模型建立和分析。区别于多维数据库,

Powerdimensions能支持几百千兆以至万亿字节的原始数据和多个角度。

(5)Intellidex Control Center

对元数据和分布式数据集市提供点对点集中管理的产品。它是业界中管理分布式数据集

市的唯一的完全点对点的解决方案。作为一个新产品,它提供了建立分布式数据集市的

点对点方案,并且从一个中心位置上管理它们,它同时解决了业界中在元数据管理方面

的问题。

(6)SAFE/DW

建立数据仓库的一套完整的测试方法,在世界上得到广泛应用。

(7)Sybase专业服务

是一个全球范围的数据仓库协作组织,可快速、可靠地设计和提供数据仓库解决方案。

Sybase方案的主要好处

1、快速实现

由于Sybase的解决方案是集成的,客户只需要挑选一套最适合的产品集,即可使它们无

缝地工作。这样,一方面可以快速实现,另一方面只需要面对一个厂商就可以获得全部

的支持和服务。

2、数据集市与中心仓库的无缝集成

在市场上,Sybase方案唯一地能够将多个数据集市和中心仓库管理集成在一起。我们的

方案是为企业提供的“唯一的可行方案”,对进入数据集市的数据移动、安全和元数据

管理进行调度。

3、极高的查询速度

ASIQ是世界上用于决策支持(DSS)的最快速数据库。由于具有先进的Bit-wise索引技术,

它能够以10至100倍于其竞争对手的速度查询,这些对手包括Oracle,RedBrack,Informix

和Teradata。这更有利于最终用户的特殊的、重复的分析,也支持了在以前根本做不到的

应用开发。

4、高效的数据压缩

ASIQ和ASE的数据压缩结果是传统RDBMS方法的三分之一至七分之一。在一个典型的

ASIQ实现上,如果以五年左右时间来计算,一个Sybase方案可以做到每增加100GB数据

节省大约41.5万美元(包括磁盘购置、维护和操作)。

5、无限的可扩展性

区别于传统的RDBMS解决方案,ASIQ和ASE将共同支持客户存放更多的历史和详细数据。

客户经常会关心对VLDB的支持。采用Sybase解决方案后,数据库规模比用非Sybase解决方

案要小得多。今天,我们的用户已经可以利用ASIQ数据库来存取万亿字节(TB级)的数据。

6、面向不同数据库环境

Sybase解决方案也可以适用在混合的非Sybase环境中。在数据库网关方面,Sybase是世界

上的先驱者,可以直接访问25种不同的主机,以及其它的客户机/服务器数据库系统,通

过其DirectConnect系列产品。我们同时为基于软件的数据仓库和数据集市提供了具有数据

变化捕捉能力的复制服务器Replication Server,它可以反映Sybase、Oracle、DB2、VSAM、

IMS以及其它关系型数据库中的数据变化。

7、安全性和易管理性

利用intellidex,我们的方案使IT用户仅通过一个简单的承诺模式,就可以管理分布的数据集

市,具有高度的安全性、用户可控制性。除此之外,我们还有一个管理整个企业元数据的

解决方案,这样既可以使用户创建自己的数据集市,也可以得到一个“唯一可行的方案”。

intellidex能自动告诉用户哪些数据是在他们的数据集市中,这些数据从哪里来,以及到哪里

去取等附加信息。

8、提供强大的、可扩展的OLAP集成

业务分析人员希望通过利用数据仓库中的数据做一些复杂分析。利用PowerDimensions,用户

可以快速建立简单或复杂的多角度模型,直接访问数据仓库中的数据。而这些模型可以被成

百上千的用户共享,允许分析人员建立一些能为最终用户的决策者所使用的业务模型。

9、Web上的基于软件的数据仓库解决方案

Sybase的PowerDimensions包含一个用来分析和查询的基于Java的浏览器。它支持图形、主元

选择和表格模型。Sybase的PowerDynamo自动将数据仓库并入Web,产生简单的基于HTML

的查询。

10、丰富的经验

Sybase在数据仓库和数据集市的实现方面经验丰富,涉及金融服务、电讯、医疗保健、公用

事业、交通运输、媒体和娱乐业。正由于在业务和技术上的特长,我们可以快速地为客户建

立实用可行的高效的解决方案。

谁该对Sybase解决方案感兴趣?

一份Sybase数据仓库的完整解决方案的金额通常会达到一百万美元甚至更多。因此,区别于

一个单独数据库产品的销售,它一般不直接卖给企业的IT部门。

所有的主要数据仓库的购置,都是由最终业务用户的高级执行官来论证和支持的。这些执行

官是市场、销售或金融领域的VP。他们需要对关键业务问题作出回答,同时他们也理解花费

二百万美元来建立一个决策系统对这些问题作出回答的行动是值得的。

企业的IT部门在设计和实现方面扮演重要角色。他们最关心的是能否满足这些众多的最终业

务用户的需求。通常由IT部门选择产品,而由高级执行官来选择产品供应商。在整个进程中,

绝对需要最终用户的高级业务执行官的理解与支持。

业务决策者首先应该认识到Sybase方案的独特性。该方案能够针对业务用户所面临的问题,

提供快速、安全的解决方案。同时有理由使IT部门相信,我们的产品和服务能力可以保证高

水平的性能、可扩展性、易理解性,会使IT部门获得成功。

潜在用户应该关心并考虑的问题

(1) 明确困扰他们的业务问题是什么

(2) 了解数据仓库或数据集市所能带来的新机会

(3) 了解数据仓库/数据集市的适用行业与应用领域

电讯行业:

A、客户开发 --
防止丢失很有利的客户,查明哪些客户会离开?为什么?

B、活动成本管理 -- 需花多少钱来实现一个新线或建立一项新服务

C、价格制定 -- 提高从下午9点至午夜的电话收费价格将会带来什么好处?

D、调用详细记录分析 --
掌握每次通话的详细分析,通话时长,通话位置。用来进

行定价和容量规划。

E、电信市场 -- 向客户提供混合销售、呼叫、等待、留言等新服务。

金融服务

A、有价证券风险管理 --
在某个用户的现金付帐和所有有价证券、基金的安全上,

有什么全局性风险?

B、客户利润 --
哪些客户会给企业带来最大利益,他们正在买什么?例如在银行

中,20%的客户会带来80%的利润。

C、RAROC -- 不同的风险调节利率的返还方案

D、财政预算和计划

信用卡运作

A、一对一市场 --
哪些客户最有可能使用我们的信用卡,他们通常买些什么?

B、欺诈管理 -- 哪些客户倾向于结束付帐,什么时候?

C、利益 --
我们的客户中哪些是最有利可图的?如何知道怎样才能让他们买更

多的东西

医疗保健

A、成本分析 -- 在我们医院里做X光共花费多少钱?从何处下手,我们能最有效

地减少费用支出?

B、客户分类 -- 哪些客户使用了我们80%的内部资源?

C、HEDIS 报告 -- 官方的成本报告,通过服务类型分类

保险理赔 -- 我们的保险金认领中哪些被长时间搁置,为什么?

外界对Sybase数据仓库方案与产品的评价

“在MCI,由于较好地预测到了发展前景,Sybase IQ的方法使我们的电信市场部门的销售

效力增加了4倍。”

“在GE Capital,通过更好地提供所需的保证产品定价的关键信息,Sybase
IQ方案每月节约

二百万美元。”

“在美国航空公司,针对乘客年收入而设计的Sybase IQ方案,取代了主机上的Teradata系统,

每月为他们获得10万美元,并且使更多的用户能对其乘客旅行利益进行分析。”

对Sybase公司的概括描述

(1)Sybase是一个拥有十亿元资产的全球性公司,在开发工具方面居于世界领先地位,是

关系数据库的第二大供应商,数据仓库是公司的三大法宝之一。

(2)Sybase ASIQ 数据库是市场上增长最快的数据仓库数据库,它有400多客户,遍布于全

球各大公司。

(3)Sybase 不仅拥有产品,还拥有一个可靠的全球服务体系,称作SAFE/DW,已经成功地

在成百上千个场点实现了数据仓库和数据集市。

(4)Sybase 是一个100% 的ISO 9000
认证公司,在同行业中拥有最好的产品,获得最高客户

满意度。

(5)Sybase 有许多满意的客户分布在各个行业中,实现了各类应用。

IT部门应该了解

Sybase数据仓库是唯一集成的点对点方法。

Sybase的ASIQ和ASW在速度、可扩展性和低成本的投资回报率等方面,在技术上领先

在5年以上的时间里,Sybase数据仓库可以使每100GB字节节省41.5万美元的开支。

Sybase的 PowerDimensions对于可扩展的多级的大数据库分析来讲是一个完整的OLAP解决

方案。

PowerStage具有C/S结构,内容丰富,易于使用,便于快速实现。它具有一个强大的基于

过程接口,可以处理从简单到复杂的各种转换问题。