数据仓库范文10篇

时间:2023-03-15 00:27:24

数据仓库

数据仓库范文篇1

关键词:地理信息系统;空间数据仓库;数据仓库;认知过程

0引言

进入21世纪后,对空间数据仓库的研究方兴未艾,在许多次的国际学术会议上都有相关[1~3]。例如在泰国召开的ISPRS第三届动态与多维GIS会议暨CPGIS第十届地理信息年会、北京召开的第20届国际制图协会国际学术会议、南非召开的第21届国际制图协会国际学术会议等。还有一些ESRI公司的白皮书、全球性用户大会、SSD国际会议、数字地球国际会议、GIS国际会议等也开始讨论空间数据仓库问题[4~8]。将空间数据仓库技术引入到我国大概是20世纪90年代末,文献[9~14]的发表开创了我国空间数据仓库理论与技术研究的新局面,此后又陆续出现了一些这方面的论文。

总体说来,上述工作对空间数据仓库的理论和方法进行了初步研究,在概念、原理、结构、操作与算法等方面进行了初步论述,已取得了卓有成效的成绩。但是到目前为止,空间数据仓库的概念框架和认知过程等方面还是缺乏系统的论述,没有形成一套比较完整的空间数据仓库概念框架体系和认知过程体系。

1概念框架

空间数据仓库是GIS技术和数据仓库技术相结合的产物,其定义很多,但中心思想包含三方面内容:①空间数据仓库是在网络环境下,实现对异地、异质、异构不同源数据库中地理空间数据、专题数据及时间数据的统一、整合、集成处理,形成用户获取数据的共享操作模式;②空间数据仓库可根据需求对这些数据再进行测绘专业处理,提供多种空间数据产品,满足用户更高层次——对数据产品的需求;③基于空间数据产品,空间数据仓库可从多维的角度进行空间数据立方体分析和空间数据挖掘分析,提供综合的、多维的、面向分析的空间辅助决策支持信息,满足用户空间决策分析的需求。

空间数据仓库的概念框架分为外部结构、内部结构。外部结构主要描述空间数据仓库与外部系统的关系;内部结构主要描述空间数据仓库的内部功能模块组成。

1.1外部结构

数据库系统处于空间数据仓库系统的最底层,管理着若干种不同的地理空间数据库和专题数据库,它们各自独立,形成了各式各样的异地异质异构的数据库系统,它们主要为空间数据仓库提供数据源。应用系统处于空间数据仓库系统的最上层,它通过一个标准的接口从空间数据仓库中提取地理空间数据、空间数据产品和空间辅助决策分析信息,为应用系统服务。其具体外部结构如图1所示。

1.2内部结构

空间数据仓库的内部组成应由八个独立功能模块构成,分层次实现空间数据仓库系统。其中,第一层次的功能模块是空间数据仓库的基础处理模块,由多源空间数据抽取、多源空间数据整合、多源空间数据统一、空间数据仓库元数据组成;第二层次的功能模块是空间数据仓库的服务模块,由空间数据产品服务、空间数据立方体分析、空间数据挖掘分析组成;第三层次的功能模块是空间数据仓库的对外数据接口模块,由对外数据交换格式组成。第一层次的功能模块为第二层次的功能模块服务,第二层次的功能模块为第三层次的功能模块服务。其具体内部结构图如图2所示。

当应用系统提出需求时:①多源空间数据抽取功能模块从各源数据库系统中抽取出相应地理范围(矩形、多边形、椭圆)的不同种类的地理空间数据、专题数据;②多源空间数据整合功能模块对这些由图幅范围组织的地理空间数据进行相应地理范围的裁剪、拼接、接边、图形编辑、拓扑重组等整合处理,形成裁剪拼接和接边好的、具有完整拓扑关系的、物理上无缝的、按区域范围组织的地理空间数据;③多源空间数据统一功能模块对这些整合处理好的地理空间数据进行数学基础、数据编码、数据格式、数据精度等方面的统一处理,形成能相互叠加的地理空间数据;④将经抽取、整合、统一处理好的地理空间数据提交给空间数据产品服务功能模块,经过集成、融合、派生和关联等测绘专业算法处理,生成应用系统所需的各种空间数据产品;⑤基于已生成的空间数据产品,进行空间数据立方体分析和空间数据挖掘分析,得到面向空间辅助决策分析的结果;⑥将这些空间数据产品和空间辅助决策分析结果,以对外数据交换格式的形式提交给应用系统使用。

2认知过程

2.1认知过程概念图

空间数据仓库是描述地理现象的一个重要分支,其认知过程应与地理空间信息的认知过程基本一致,不同之处在于其描述的内容和范围大小的区别。因此,建立空间数据仓库的认知过程,实际上是要经过一个地理现象认识、抽象、组织、分析和应用的过程。其具体的认知过程概念框图如图3所示。

2.2认知过程描述

这14个世界模型和13个转换算子的组合构成了三个层次世界,即实体世界、目标世界和产品世界。其中,现实世界、地理现实世界、地理工程现实世界和地理工程概念世界这四个世界模型,以及命名、选择、抽象这三个转换算子,共同构成实体世界;地理工程尺度世界、地理要素分类世界、地理要素编码世界、地理要素几何世界和地理要素集合世界这五个世界模型,以及度量、分层、编码、测量和聚集这五个转换算子,共同构成目标世界;地理空间抽取世界、地理空间整合世界、地理空间统一世界、地理空间产品世界、地理空间决策世界这五个世界模型,以及提取、处理、变换、计算、分析这五个转换算子,共同构成产品世界。

数据库概念设计阶段、地理空间数据库实现阶段和空间数据仓库实现阶段构成了空间数据仓库系统实现过程的三个阶段,这三个阶段分别对应着三个层次世界,即实体世界、目标世界和产品世界。其中,前两个阶段是为地理空间数据库的建立服务的,由它们实现实体世界向目标世界的转换;后一个阶段是为空间数据仓库的建立服务的,由它们实现目标世界向产品世界的转换。

由此可见,空间数据仓库的认知过程主要就是这14个世界模型通过这13个转换算子的转换实现三个层次世界的过程。这个认知过程指导了空间数据仓库的实现。

3认知的概念定义

3.1世界模型

实际上,这些世界模型主要是依靠具体的实体模型或数据模型描述来实现的。每个世界模型均有其描述的地理空间对象,因此这些世界模型描述的内容大不相同,必须定义出这些世界模型。

3.1.1现实世界模型

现实世界中,人们能看到一系列物质和现象,对于这些物质和现象,不管是否能叫上名字,它们都是客观存在的,并且相互之间通过它们的关系组成了自然界的千差万别。由此可见,能将现实世界中所有物质和现象集合以及它们之间的相互关系用一定的形式进行描述就是现实世界模型。

现实世界的物质和现象集合中,隐含着许多不同的地理现象类,如地质、矿产、石油、自然地理等地理现象类。地理现象类是现实世界的一个子集。由此可见,能将现实世界中所有地理现象类集合以及它们之间的相互关系用一定的形式进行描述就是地理现实世界模型。

本文原文

3.1.3地理工程现实世界模型

地理现实世界的地理现象类集合中,特指一个或若干个地理现象就是地理工程现实世界,如自然地理等。地理工程现实世界是地理现实世界的一个子集。由此可见,能将地理现实世界中特指的地理现象以及它们之间的相互关系用一定的形式进行描述就是地理工程现实世界模型。

3.1.4地理工程概念世界模型

要用计算机来描述地理工程现实世界中的地理现象,就必须对它们进行抽象描述,形成地理现象在人们头脑中的反映,生成概念模型。由此可见,能将地理工程现实世界中特指的地理现象以及它们的内部关系用一定的形式进行抽象的概念描述就是地理工程概念世界模型。

3.1.5地理工程尺度世界模型

将地理现象抽象成概念模型,仅有这些还远远不够,因为现实世界中的所有地理现象均是有度量的,所以用计算机描述这些地理现象时,也必须是可度量的。度量主要包括描述地理现象的欧几里德几何坐标系和数学单位尺度。由此可见,对地理工程概念世界中的抽象地理现象进行欧几里德几何坐标系和数学单位尺度描述就是地理工程尺度世界模型。

3.1.6地理要素分类世界模型

按照GIS理论,概念中的地理现象最终都是通过多种地理要素来表达的,因此如何对地理要素进行合理的设计和划分就显得十分重要。根据ARC/INFO的分层理论,只有将这些地理要素进行分类分级,才能高效地处理它们。由此可见,对地理工程尺度世界中具有尺度度量的地理现象进行地理要素的分类分级描述就是地理要素分类世界模型。

3.1.7地理要素编码世界模型

要使计算机能识别和处理地理要素,就必须给这些地理要素进行分类分级编码,即用一串数字来表示它们,该分类分级编码就成为该地理要素在计算机中的唯一标志符,以便计算机能识别和处理。由此可见,对地理要素分类世界中具有明确分类分级定义的地理要素进行分类分级编码描述就是地理要素编码世界模型。

3.1.8地理要素几何世界模型

为了便于计算机的存储和管理,必须将地理要素细分为几何目标。地理要素几何目标包括基本目标和复合目标。基本目标按地理要素的空间特征划分为点状目标、线状目标、面状目标、体状目标和表面状目标等五种;复合目标由基本目标集合嵌套构成。由此可见,对地理要素编码世界中具有明确分类分级编码的地理要素进行几何目标的划分和描述就是地理要素几何世界模型。

3.1.9地理要素集合世界模型

因为地理要素在一定的条件下由相同或不同的点、线、面、表面和体等五类空间目标组合而成,所以在实际使用中,必须通过计算机系统把数据库中存储的基本目标、复合目标还原成地理要素。由此可见,对地理要素几何世界中具有基本目标、复合目标描述的地理要素进行数据库的几何目标集合操作就是地理要素集合世界模型。

定义9地理要素集合世界模型。设Con中地理要素点状目标、线状目标、面状目标、体状目标、表面目标集合分别表示为Po、Lo、Ao、To、So,Atr为地理要素的某一地理特征集合,则地理要素集合世界模型为Ent={e|(Po,Lo,Ao,To,So)∈Atr}。

3.1.10地理空间抽取世界模型

地理空间抽取的主要功能就是从源数据库中按地理区域范围(矩形、椭圆、多边形等)抽取出满足一定条件的不同种类的地理空间数据。由此可见,对地理要素集合世界中的地理空间数据按一定地理区域范围和地理特征进行抽取的操作描述就是地理空间抽取世界模型。

3.1.11地理空间整合世界模型

数据库中存储的地理空间数据是以图幅为单位组织的,但应用系统使用数据是无图幅概念的,是以地理区域范围为组织的。由此可见,对地理空间抽取世界中抽取出的地理空间数据进行图形裁剪、图形拼接、图形接边、图形编辑和拓扑重组等整合处理,形成以地理区域范围为组织的无缝数据集合操作就是地理空间整合世界模型。定义11地理空间整合世界模型。设Con中图形裁剪、图形拼接、图形编辑、图形接边、拓扑重组功能分别表示为Cut、Stitch、Meet、Edit和Topology,整合功能集合表示为Fun={Cut,Stitch,Meet,Edit,Topology},则地理空间整合世界模型Pro={e|(e∈Ext,e∈Fun)}。

3.1.12地理空间统一世界模型

实现地理空间数据整合后,必须对来自不同源数据库中的地理空间数据进行统一,因为地理空间数据存在着差异。这些差异表现在如下方面,即数学基础差异、数据编码差异和数据格式差异、数据精度差异。由此可见,对地理空间整合世界中的地理空间数据进行数学基础、数据编码、数据格式、数据精度的统一操作和描述就是地理空间统一世界模型。

3.1.13地理空间产品世界模型

随着应用的深入,单纯的地理空间数据已越来越不能满足用户的需求,用户更加希望使用的是经过测绘专业处理的、经过二次加工处理的地理空间数据产品,后者在实际中具有更大的应用价值。由此可见,对地理空间统一世界中的地理空间数据进行测绘专业处理生成空间数据产品的操作就是地理空间产品世界模型。

定义13地理空间产品世界模型。设Con中单一、集成、融合、派生和关联的功能分别表示为Single、Integrate、Fuse、Derive和Relate,测绘专业处理算法集合为Fru={Single,Integrate,Fuse,Derive,Relate},则地理空间产品世界模型Pdu={e|(e∈Uni,e∈Fru}。

3.1.14地理空间决策世界模型

建立空间数据仓库的最终目的是为空间决策支持服务,为用户提供大量的具有空间决策支持的信息,这可通过空间数据仓库中的空间数据立方体分析和空间数据挖掘分析来实现。由此可见,对地理空间产品世界中的空间数据产品进行空间数据立方体分析和空间数据挖掘分析,生成空间决策支持信息的操作和描述就是地理空间决策世界模型。

定义14地理空间决策世界模型。设Con中的空间数据立方体分析和空间数据挖掘分析分别表示为Scube、Smine,空间决策分析算法集合为Sdss={Scube,Smine},则地理空间决策世界模型Dss={e|(e∈Pdu,e∈Sdss)}。

3.2转换算子

在空间数据仓库的认知过程中,14个世界模型的变换离不开13个转换算子,即命名、选择、抽象、度量、分层、编码、测量、聚集、提取、处理、变换、计算和分析,由它们实现每两个世界模型的转换。这些转换算子主要是依靠元数据来实现的,因为每个世界模型均有描述它的元数据,要实现两个世界模型的转换,通晓这两个世界的元数据是转换的前提。虽然这些转换算子的具体定义不同,但它们都是实现每两个世界模型的转换,从数学的定义上说就是由某个世界模型通过函数转换到另一个世界模型上,因此这些转换算子的宏观数学定义是一致的。

4结束语

目前,空间数据仓库理论和技术研究才刚刚起步,其目标是支持数字地球发展、空间数据集成、空间决策支持发展的需求。因此应该抓住这个千载难逢的好机会,将我国的空间数据仓库研究与建立迈上一个新台阶,以支持我国的空间数据基础设施建设。本文对空间数据仓库的概念框架和认知过程体系进行了一定程度的技术探讨,希望能起到抛砖引玉的作用。

参考文献:

[1]ZOUYijiang.Theconceptualframeworkonthemulti-scaleandspatio-temporaldatawarehouse[C].Beijing:20thICCAcademicPress,2001:2823-2831.

[2]ZOUYijiang.Thedesignofspatlatldatawarehouse[C].Bangkok:GeoInformatics&DMGIS’2001AcademicPress,2001:421-426.

[3]ZOUYijiang.Theresearchofmetadataonspatialdatawarehouse[C].Durban:21thICCAcademicPress,2003:225-226.

[4]ESRI.ESRIopenstrategywhitepapersonSDE/CADclient&spatialdatawarehousing[EB/OL].(1998).www.Esri/com/base/compay/opengis.

[5]ESRI.AnESRIwhitepapers,mappingforthedatawarehouse[EB∕OL].(2002).www.Esri/com/base/compay/opengis.

[6]TOMB,GRAYJ,SLUTZD.Microsoftterraserver:aspatialdatawarehouse.microsoftresearchadvancedtechnologydivision[EB/OL].(2004)./.

[7]SHEKHARS,LUCT,TANX,etal.Avisualizationtoolforspatialdatawarehouses[EB/OL].(2003).www.cs.umn.edu/Research/Shashi-group.[8]DIMITRISP.EfficientOLAPoperationsinspatialdatawarehouses,HKUST-CS01-01[R].HongKong:[s.n.],2001:65-69.

[9]赵霈生,杨崇俊.空间数据仓库的技术与实践[J].遥感学报,2000,4(2):157-160.

[10]李琦,杨超伟.空间数据仓库及其构建策略[J].中国图像图形学报,1999,4(11):984-990.

[11]杨群,闾国年,陈钟明.地理信息数据仓库的技术研究[J].中国图像图形学报,1999,4(8):621-626.

[12]周炎坤,李满春.大型空间数据仓库初探[J].测绘通报,2000,22(8):22-23.

数据仓库范文篇2

【论文关键词】事项会计;数据仓库;事实表;维度表

一、IT环境下事项会计理论的新发展

对于如何能支持个性化会计信息需求,上个世纪60年代末美国会计学家乔治·H·索特(George.H.Sorter,1969)明确提出会计理论研究的事项法(EventApproachAccounting)。与传统价值法相比,事项法认为会计的目标在于提供与各种可能的决策模型相关的经济事项信息,不应汇总反映经济业务,与决策相关的事件的信息应尽量以其原始的形式保存,而将事件与其决策模型如何匹配的任务留给用户。由用户而非会计人员将事件转化为适合用户个人决策模型的会计信息。

事项会计提出后一直停留在理论研究阶段。事项会计的目的在于提供全面而原始的事项信息,那么信息如何提供才算全面、以怎样的形式存储才称得上原始,以及如此庞大的数据量应如何利用,是事项会计需要解决的首要问题。随着计算机技术及网络环境的发展,数据仓库及相关技术有效地解决了上述问题,为事项会计思想的实现提供了非常有力的支持。

首先是信息技术的发展。如已有的企业信息系统的实现,为事项会计数据仓库的建立奠定了实践基础,同时也提供了丰富的数据源,大幅度降低了信息的采集和传输成本。其次,事项法会计要求提供原始的未经加工过的经济业务信息,最大程度地恢复经济活动过程的原貌,以事项为单位的数据仓库存储结构可以很好地实现这一目标。数据仓库的数据存储结构与事项会计的思想相吻合,能够通过不同维度存储经济活动的立体信息。再次,数据仓库为集成不同企业数据库数据、各种其他数据源数据提供了技术支持。良好的数据接口工具,方便对不同数据来源的数据进行抽取、转化和加载。最后,先进的IT技术,如在线分析、数据挖掘等工具,为提供实时的、多角度的事项报告提供了实现的条件。

总之,信息技术的发展使得事项会计不再是空中楼阁,其思想逐渐变为现实。事项会计建立在数据仓库和IT技术基础之上,不再局限于之前的研究范围,将是以事项为中心采集数据,实现查询、报表、智能分析一体化,多角度再现经济活动的一种新型会计模式。

二、事项的分类

事项会计遇到的第二个问题,便是作为一种基础理论,事项应如何定义、如何分类,目前来看仍是悬而未决的问题。无论是对理论研究的深入发展,还是对其技术实现都起着一定的阻碍作用。接下来本文将对事项会计如何对会计信息进行分类作简单讨论。

由于现有会计报告中的现金流量表的分类最能反映事项会计思想的本质,即记录各个独立的经济事项,因此我们在现金流量表的基础上对会计事项进行精确的分类。拟将企业所有价值活动过程中发生的全部会计事项分为三大类:筹资事项、投资事项和经营活动事项,进而按照同类业务性质特征差异逐层细分,最终形成支持个性化决策的事项会计信息元素。

筹资事项可以进一步分解为权益筹资事项、负债筹资事项,而负债筹资事项按时间分解为短期负债筹资事项与长期负债筹资事项。经营活动事项按资金流与物流的流向细分类为获取运营资源事项、支付资金事项、存货存储事项、加工变换事项、销售与服务客户事项、收取资金事项等。投资事项科目按对外与对内的不同分为股权投资事项、债权投资事项与项目投资事项。

以经营活动事项为例继续分类。获取运营资源事项,可以细分为订立采购合同事项、原材料采购事项、存货入库事项等。可以通过原材料采购来简单比较价值法与事项的区别。价值法下的科目“材料采购”是企业各种购入材料的买价和其他相关采购费用的合计,包括支付运输、装卸等各种材料采购费用,加合后用以核算材料采购成本的账户,那么单从“材料采购”就很难看出具体某种材料的单价和数量。而事项会计从“材料采购活动”这个角度在每项采购活动发生时,记录与此活动相关的所有信息,如地点、时间、数量、单价、货种、供应方、合同、支付价款、支付方式、相关凭证等。支付资金事项,又包括支付职工工资事项、支付税金事项等。支付职工工资事项,包含职工工号、姓名、人员类别、基本工资、津贴、补贴、支付方式。其中,基本工资通过一定方式与另外的表相连,用以存放基本工资的计算方法。销售事项包含的内容有销售日期、客户代号、商品代号、部门代号、销售量、销售额、其他相关费用,而客户代号可以与另外的表相连,详细描述客户的有关情况,如客户名称、所属地区代号等信息,同样商品代号也可以与另外的表相连,描述有关商品的详细信息,如商品货号、规格、颜色、等级、编码等等。

将会计信息按事项会计理论进行以上的分类,只是对事项会计分类的一个初浅的认识,如何更有效、更科学地对发生的经济活动按照事项进行分类,仍然是事项会计持续发展所要解决的一个首要问题。

三、事项会计的数据仓库建模

明确了事项的分类后,我们就可以利用数据仓库来构造企业的事项会计系统。事项会计数据仓库包括三部分内容:数据源、数据仓库和分析工具。数据仓库的信息来源于不同的操作型数据库和其他形式的数据源,比如ERP系统。这些数据库相互异构,数据形式各不相同。因此在数据进入事项会计系统前,需要对其进行数据预处理,这些处理包括抽取、清洗、转化、加载。数据按照不同的决策主题以一定的逻辑结构存储在事项数据仓库中,以供后期查询、分析、数据挖掘使用,从而实现为用户提供个性化信息决策支持的功能。如图1所示。

那么数据是以何种形式存储在事项数据仓库中的?以怎样的方式存储才能够与事项会计思想保持一致性,实现以最原始的形式再现经济活动呢?下面本文以销售活动事项为例探讨事项会计系统建立模型的方式。

在设计数据仓库的数据模型时,首先按照决策主题建立一张独立的事实表结构,围绕在表周围的是解释该事实表的不同维度。针对销售事项的决策主题,采用一定的信息模型来描述现实销售价值活动,它的中心是销售事实属性描述,围绕它四周的是与销售事实关联的客户维、产品维、时间维、销售合同维等这些实体属性描述,如图2。要注意选取模型的时候,考虑主要采用星型信息模型来描述现实销售价值活动,即以维度表围绕在事实表周围,而不采用雪花模型或者更为复杂的星座模型。星型连接应用于设计数据仓库中很大的实体,能够满足实时性和查询速度要求很高的应用,同时符合事项会计数据仓库各不同事实表的维表属性之间相差不大的特性。事项会计系统将构建的信息模型为背景,建立包含各类决策主题的事项数据仓库,用户就可以按决策主题,从不同维度进行事项会计信息处理。

下面建立实际的数据仓库。根据商品销售事实,分别添加代表不同属性的各条记录,销售事项明细科目(ProSelledID)、客户(ClientID)、产品(ProductID)、时间(SelledDate)、销售量(SelledNo)、销售额(SelledPrice),如图3。这些记录构成了表的不同列。以客户为例,查看各列的属性值,可以根据事实情况,设置列的名称、数据类型、是否主键等不同属性,这些属性一经设定,基本上不再更改。

围绕商品销售表四周的是与销售事实关联的客户维、产品维、时间维等维表,这些维表来对事实表的各个属性展开详细描述。维表的建立方式与事实表的建立方式相同。用相同的方式设置客户维表、商品维表的不同粒度,即分别添加与客户、商品的不同属性相对应的列。客户维可以根据属性分为客户代码、客户姓名、所属地区三个粒度,商品维则可以分为商品代码、商品名称、商品种类、商品单位等不同粒度。

用相同的方法建立事项会计数据仓库中的其他事实表以及与事实表相连的维表,从而建立起事项会计系统。事项会计系统将构建的信息模型为背景,建立包含各类决策主题的事项数据仓库。用户就可以按决策主题,从不同维度进行事项会计信息的查询、分析、数据挖掘,从而真正实现事项会计的决策支持功能。

根据商品销售事实表与客户维表、商品维表的相互关系,分别在两个维表里设置主键,即与事实表相关联的关键字。在本例中,将客户维表的主键设置为客户代码(ClientID),商品维表的主键设置为商品代码(ProductID)。两个主键正是两维表内各列中唯一与事实表的各记录相关的列。因此通过建立关系,将商品销售事实表中的客户代码和商品代码这两条记录自动设置为外键,作为查询的依据。

【主要参考文献】

[1]葛家澍,林志军.现代西方会计理论[M].厦门:厦门大学出版社,2001.46.

数据仓库范文篇3

关键字:数据仓库商场(超市)计算机

一、前言

随着计算机技术的发展,越来越多的企业逐渐建立了各种各样的应用子系统,如销售系统、库存系统、财务系统、人事系统等。它们能够较好地满足企业OLTP(OnlineTransactionProcessing,联机事务处理)的应用需求。

但随着市场竞争的日益激烈,企业需要利用现有的数据,进行分析和推理,为企业的决策提供依据。当这种分析处理只涉及到很少的数据库表时是可行的。当数据量迅速地增长而且查询要求不断复杂化时,这种建立在OLTP基础上的DSS就不能很好地满足决策的需求。另外从大量的历史数据中获取信息,要求系统保存大量的历史数据。如果系统在进行事务处理时还要进行复杂的分析处理。这样对于频繁操作性处理的数据库系统而言,将会不堪重负。因此,需要重新组织数据,使其使于进行复杂分析。为适应这一需求,应运而生的就是数据仓库技术。

商场(超市)关系到大众生活水平的提高,它为大众生活提供了便利,同时由于商场(超市)货物、员工的复杂性,使得市场、人事管理、物品供需关系、设备管理显得更为复杂,所以商场(超市)更应该象其他企业一样,应用数据仓库技术完善自己的市场、管理、供需关系等等。

二、数据仓库技术概述

1.数据仓库的概念

“数据仓库是一个用以更好地支持企业或组织的决策分析处理的、面向主题的、集成的、不可更新的、随时间不断变化的数据集合”。面向主题、集成性、不可更新和随时间变化性是其基本特征。可以说,数据仓库是一种解决问题的方案,是用来更好地提取和管理并最终利用信息资源的办法。“它以传统的数据库技术作为存储数据和管理资源的基本手段,以统计分析技术作为分析数据和提取信息的有效手段,以人工智能技术作为挖掘知识和发现规律的科学途径”。数据仓库主要是面向联机分析处理和决策分析的,而不面向事务处理。数据仓库将信息按主题形式加以组织,来揭示信息的内在联系和事物的规律及事物之间的联系。对原有数据库系统中的数据进行重新组织、按需求综合以后,就得到数据仓库中数据。因此,数据仓库中的数据是高度集成的,反映的是一段相当长的时间内历史数据的内容,是不同时点的数据库快照的集合。数据仓库中的数据是不可更新的,就应用而言,却并非其中的数据一成不变,恰恰相反,数据仓库中的数据由于不断增加新的数据内容,定期刷新和添加,并剔除已经过时的数据内容,所以说,其数据内容是随时间而不断变化的。

2.数据仓库中数据的组织结构

数据仓库中的数据可分为两类,(1)按照数据的综合程度(称之为粒度)分为四个等级:早期细节级、当前细节级、轻度综合级、高度综合级。“元数据经过综合后,首先进入当前细节级,并根据具体需要进行进一步的综合从而进入轻度综合级乃至高度综合级,老化的数据将进入早期细节级”。(2)元数据(metadata)是“关于数据的数据”,它能有效地管理数据仓库,对元数据可从构建时间元数据、使用元数据、控制元数据三个角度分类分析。数据仓库中的数据就是通过粒度划分和分割进行有效地存储的。

3.相关的信息开发工具

要满足用户全面、系统、多层次信息需求的目标,必须借助于数据仓库并建立数据仓库系统才能实现。“数据仓库系统是以数据仓库为基础,通过查询工具和分析工具,完成对信息的提取,满足用户的各种需求”。因此,进行复杂数据分析、提供管理决策还必须引入相应的数据仓库工具层。“数据仓库系统是多种技术的综合体,由数据仓库、数据仓库管理系统、数据仓库工具三个部分组成”。数据仓库工具层包括:多维分析工具、数据挖掘工具以及可视化工具。多维分析工具主要指联机分析处理(OLAP,On-lineAnalyticalProcessing),“OLAP是针对特定问题的联机数据访问和分析”。目前,这类产品己经有很多了,如BrioQuery,GQL,Impromptu,PowerPlay,Commander,InformationAdvantage等等。数据挖掘(DM,DataMining)是一种决策支持过程,它主要基于AI、机器学习、统计学等技术,高度自动化地分析原有数据,做出归纳型的推理,从中挖掘出潜在的信息用于决策。

三、数据仓库技术在商场(超市)中的应用

1.设备管理

数据仓库化是商场(超市)范围内数据的处理过程它将商场(超市)内分散的原始操作数据和来自外部的数据汇集和整理在一起,为商场(超市)提供完整、及时、准确和明了的决策信息,有效地服务于商场(超市)的全方位决策。作为一个决策支持环境,DW(DataWarhouse)收集存储了各种不同数据源中的数据。通过数据的组织给决策支持者提供分布在整个商场(超市)内部跨平台的数据。在对设备管理数据仓库的开发过程中,首先根据商场(超市)对设备管理的具体要求和设想,确定数据仓库开发的目标,规划系统的数据范围和功能制定工作计划;然后分阶段建立元数据模型,主题区数据模型,开发数据仓库逻辑模型;再根据逻辑模型设计多维数据结构维表,在对源数据进行分析的基础上,用数据转换程序(DTS)将其转入数据仓库中,最后是对数据仓库的使用和维护,添删数据,扩展功能等。

2.财务决策支持

典型的财务决策问题有:投资决策、筹资决策、成本决策、销售决策等。

财务决策支持系统需要的信息是通过日常业务数据所体现的整体趋势,或随时间变化而表现出来的变化趋势,必须对业务数据进行分类、析取、归纳、加工等处理才能得到这些信息。对数据信息的这些要求决定了财务决策支持系统的数据库有别于普通的业务数据库,因此,必须为企业建立数据仓库以适应决策支持系统的要求。

财务决策支持系统具有三个功能:决策、管理和核算。核算,即会计功能。在会计层,它完成会计原始数据的收集、记帐、算帐和报帐的业务处理后输出会计信息,同时将会计基础信息传输到管理层。管理,即管理信息功能。在管理层,进行会计基础信息的分析,并将分析结果输出的同时,再送给决策层。决策,即根据会计分析信息和其它管理信息进行预测、判断和决策,然后将决策方案下达到管理层。在管理层进行指标分解,编制财务计划,再下达到核算层,并对核算层的执行过程进行控制。

3.管理决策支持

在商场(超市)管理决策支持系统的构架方案中,OLTP应用系统中的数据库,可分为不同的类型,它是DSS的数据来源。大量不同事务的、可靠的、历史性的数据是建立DW的基础。OLTP从DW中的可集成数据出发,构建面向分析的多维数据模型,自动地发现数据中的潜在模式,并以这些模式为基础自动做出预测。DM中挖掘的知识可以直接用于指导OLAP的分析处理,而OLAP分析得出的新知识又可以补充到系统的知识库中。传统的DSS往往独立地设计并实现,将数据库、模型库和知识库,缺乏内在的统一性。而数据仓库、联机分析和数据挖掘组成的新的DSS,将三库有力地结合在一个多维的数据库中,利用多维分析工具,通过可视化工具将分析结果呈现给用户。

4.其他应用

4.1提高市场竞争力,提升客户服务水平。通过建立数据仓库,为客户资料的统计分析提供基本的信息源和辅助工具,已成为各个企业包括商场提高市场竞争能力和客户服务水平的关键。

4.2提高管理水平,降低成本,提高效率。随着市场经济竞争的发展和反垄断经营的推进,商场(超市)逐渐向规模化、集约化方向发展,各个公司迫切要求提高其自身的管理水平。数据仓库的建立可使企业更

加及时、准确地掌握自身的经营状况、资金情况、利润情况、客户群分布等重要信息。

虽然数据仓库技术在各个行业包括商场(超市)中的应用已日渐成熟,但作为商场(超市)不必要模仿其他行业,应该根据自己行业的特点有针对性地应用数据仓库技术,凸显自己的行业优势。

参考文献:

吴峨,即建军.财务管理决策支持系统的研究。信息系统工程,1995

孙林,张培衢.财务数据仓库系统的分析设计与实现。河南师范大学学报(自然科学版).2000

李海刚.基于数据仓库的数据挖掘及其在决策系统中的应用[J].现代计算机.2001

数据仓库范文篇4

关键词:地理信息系统;空间数据仓库;数据仓库;认知过程

0引言

进入21世纪后,对空间数据仓库的研究方兴未艾,在许多次的国际学术会议上都有相关[1~3]。例如在泰国召开的ISPRS第三届动态与多维GIS会议暨CPGIS第十届地理信息年会、北京召开的第20届国际制图协会国际学术会议、南非召开的第21届国际制图协会国际学术会议等。还有一些ESRI公司的白皮书、全球性用户大会、SSD国际会议、数字地球国际会议、GIS国际会议等也开始讨论空间数据仓库问题[4~8]。将空间数据仓库技术引入到我国大概是20世纪90年代末,文献[9~14]的发表开创了我国空间数据仓库理论与技术研究的新局面,此后又陆续出现了一些这方面的论文。

总体说来,上述工作对空间数据仓库的理论和方法进行了初步研究,在概念、原理、结构、操作与算法等方面进行了初步论述,已取得了卓有成效的成绩。但是到目前为止,空间数据仓库的概念框架和认知过程等方面还是缺乏系统的论述,没有形成一套比较完整的空间数据仓库概念框架体系和认知过程体系。

1概念框架

空间数据仓库是GIS技术和数据仓库技术相结合的产物,其定义很多,但中心思想包含三方面内容:①空间数据仓库是在网络环境下,实现对异地、异质、异构不同源数据库中地理空间数据、专题数据及时间数据的统一、整合、集成处理,形成用户获取数据的共享操作模式;②空间数据仓库可根据需求对这些数据再进行测绘专业处理,提供多种空间数据产品,满足用户更高层次——对数据产品的需求;③基于空间数据产品,空间数据仓库可从多维的角度进行空间数据立方体分析和空间数据挖掘分析,提供综合的、多维的、面向分析的空间辅助决策支持信息,满足用户空间决策分析的需求。

空间数据仓库的概念框架分为外部结构、内部结构。外部结构主要描述空间数据仓库与外部系统的关系;内部结构主要描述空间数据仓库的内部功能模块组成。

1.1外部结构

数据库系统处于空间数据仓库系统的最底层,管理着若干种不同的地理空间数据库和专题数据库,它们各自独立,形成了各式各样的异地异质异构的数据库系统,它们主要为空间数据仓库提供数据源。应用系统处于空间数据仓库系统的最上层,它通过一个标准的接口从空间数据仓库中提取地理空间数据、空间数据产品和空间辅助决策分析信息,为应用系统服务。其具体外部结构如图1所示。

1.2内部结构

空间数据仓库的内部组成应由八个独立功能模块构成,分层次实现空间数据仓库系统。其中,第一层次的功能模块是空间数据仓库的基础处理模块,由多源空间数据抽取、多源空间数据整合、多源空间数据统一、空间数据仓库元数据组成;第二层次的功能模块是空间数据仓库的服务模块,由空间数据产品服务、空间数据立方体分析、空间数据挖掘分析组成;第三层次的功能模块是空间数据仓库的对外数据接口模块,由对外数据交换格式组成。第一层次的功能模块为第二层次的功能模块服务,第二层次的功能模块为第三层次的功能模块服务。其具体内部结构图如图2所示。

当应用系统提出需求时:①多源空间数据抽取功能模块从各源数据库系统中抽取出相应地理范围(矩形、多边形、椭圆)的不同种类的地理空间数据、专题数据;②多源空间数据整合功能模块对这些由图幅范围组织的地理空间数据进行相应地理范围的裁剪、拼接、接边、图形编辑、拓扑重组等整合处理,形成裁剪拼接和接边好的、具有完整拓扑关系的、物理上无缝的、按区域范围组织的地理空间数据;③多源空间数据统一功能模块对这些整合处理好的地理空间数据进行数学基础、数据编码、数据格式、数据精度等方面的统一处理,形成能相互叠加的地理空间数据;④将经抽取、整合、统一处理好的地理空间数据提交给空间数据产品服务功能模块,经过集成、融合、派生和关联等测绘专业算法处理,生成应用系统所需的各种空间数据产品;⑤基于已生成的空间数据产品,进行空间数据立方体分析和空间数据挖掘分析,得到面向空间辅助决策分析的结果;⑥将这些空间数据产品和空间辅助决策分析结果,以对外数据交换格式的形式提交给应用系统使用。

2认知过程

2.1认知过程概念图

空间数据仓库是描述地理现象的一个重要分支,其认知过程应与地理空间信息的认知过程基本一致,不同之处在于其描述的内容和范围大小的区别。因此,建立空间数据仓库的认知过程,实际上是要经过一个地理现象认识、抽象、组织、分析和应用的过程。其具体的认知过程概念框图如图3所示。

2.2认知过程描述

这14个世界模型和13个转换算子的组合构成了三个层次世界,即实体世界、目标世界和产品世界。其中,现实世界、地理现实世界、地理工程现实世界和地理工程概念世界这四个世界模型,以及命名、选择、抽象这三个转换算子,共同构成实体世界;地理工程尺度世界、地理要素分类世界、地理要素编码世界、地理要素几何世界和地理要素集合世界这五个世界模型,以及度量、分层、编码、测量和聚集这五个转换算子,共同构成目标世界;地理空间抽取世界、地理空间整合世界、地理空间统一世界、地理空间产品世界、地理空间决策世界这五个世界模型,以及提取、处理、变换、计算、分析这五个转换算子,共同构成产品世界。

数据库概念设计阶段、地理空间数据库实现阶段和空间数据仓库实现阶段构成了空间数据仓库系统实现过程的三个阶段,这三个阶段分别对应着三个层次世界,即实体世界、目标世界和产品世界。其中,前两个阶段是为地理空间数据库的建立服务的,由它们实现实体世界向目标世界的转换;后一个阶段是为空间数据仓库的建立服务的,由它们实现目标世界向产品世界的转换。

由此可见,空间数据仓库的认知过程主要就是这14个世界模型通过这13个转换算子的转换实现三个层次世界的过程。这个认知过程指导了空间数据仓库的实现。

3认知的概念定义

3.1世界模型

实际上,这些世界模型主要是依靠具体的实体模型或数据模型描述来实现的。每个世界模型均有其描述的地理空间对象,因此这些世界模型描述的内容大不相同,必须定义出这些世界模型。

3.1.1现实世界模型

现实世界中,人们能看到一系列物质和现象,对于这些物质和现象,不管是否能叫上名字,它们都是客观存在的,并且相互之间通过它们的关系组成了自然界的千差万别。由此可见,能将现实世界中所有物质和现象集合以及它们之间的相互关系用一定的形式进行描述就是现实世界模型。

现实世界的物质和现象集合中,隐含着许多不同的地理现象类,如地质、矿产、石油、自然地理等地理现象类。地理现象类是现实世界的一个子集。由此可见,能将现实世界中所有地理现象类集合以及它们之间的相互关系用一定的形式进行描述就是地理现实世界模型。

本文原文

3.1.3地理工程现实世界模型

地理现实世界的地理现象类集合中,特指一个或若干个地理现象就是地理工程现实世界,如自然地理等。地理工程现实世界是地理现实世界的一个子集。由此可见,能将地理现实世界中特指的地理现象以及它们之间的相互关系用一定的形式进行描述就是地理工程现实世界模型。

3.1.4地理工程概念世界模型

要用计算机来描述地理工程现实世界中的地理现象,就必须对它们进行抽象描述,形成地理现象在人们头脑中的反映,生成概念模型。由此可见,能将地理工程现实世界中特指的地理现象以及它们的内部关系用一定的形式进行抽象的概念描述就是地理工程概念世界模型。

3.1.5地理工程尺度世界模型

将地理现象抽象成概念模型,仅有这些还远远不够,因为现实世界中的所有地理现象均是有度量的,所以用计算机描述这些地理现象时,也必须是可度量的。度量主要包括描述地理现象的欧几里德几何坐标系和数学单位尺度。由此可见,对地理工程概念世界中的抽象地理现象进行欧几里德几何坐标系和数学单位尺度描述就是地理工程尺度世界模型。3.1.6地理要素分类世界模型

按照GIS理论,概念中的地理现象最终都是通过多种地理要素来表达的,因此如何对地理要素进行合理的设计和划分就显得十分重要。根据ARC/INFO的分层理论,只有将这些地理要素进行分类分级,才能高效地处理它们。由此可见,对地理工程尺度世界中具有尺度度量的地理现象进行地理要素的分类分级描述就是地理要素分类世界模型。

3.1.7地理要素编码世界模型

要使计算机能识别和处理地理要素,就必须给这些地理要素进行分类分级编码,即用一串数字来表示它们,该分类分级编码就成为该地理要素在计算机中的唯一标志符,以便计算机能识别和处理。由此可见,对地理要素分类世界中具有明确分类分级定义的地理要素进行分类分级编码描述就是地理要素编码世界模型。

3.1.8地理要素几何世界模型

为了便于计算机的存储和管理,必须将地理要素细分为几何目标。地理要素几何目标包括基本目标和复合目标。基本目标按地理要素的空间特征划分为点状目标、线状目标、面状目标、体状目标和表面状目标等五种;复合目标由基本目标集合嵌套构成。由此可见,对地理要素编码世界中具有明确分类分级编码的地理要素进行几何目标的划分和描述就是地理要素几何世界模型。

3.1.9地理要素集合世界模型

因为地理要素在一定的条件下由相同或不同的点、线、面、表面和体等五类空间目标组合而成,所以在实际使用中,必须通过计算机系统把数据库中存储的基本目标、复合目标还原成地理要素。由此可见,对地理要素几何世界中具有基本目标、复合目标描述的地理要素进行数据库的几何目标集合操作就是地理要素集合世界模型。

定义9地理要素集合世界模型。设Con中地理要素点状目标、线状目标、面状目标、体状目标、表面目标集合分别表示为Po、Lo、Ao、To、So,Atr为地理要素的某一地理特征集合,则地理要素集合世界模型为Ent={e|(Po,Lo,Ao,To,So)∈Atr}。

3.1.10地理空间抽取世界模型

地理空间抽取的主要功能就是从源数据库中按地理区域范围(矩形、椭圆、多边形等)抽取出满足一定条件的不同种类的地理空间数据。由此可见,对地理要素集合世界中的地理空间数据按一定地理区域范围和地理特征进行抽取的操作描述就是地理空间抽取世界模型。

3.1.11地理空间整合世界模型

数据库中存储的地理空间数据是以图幅为单位组织的,但应用系统使用数据是无图幅概念的,是以地理区域范围为组织的。由此可见,对地理空间抽取世界中抽取出的地理空间数据进行图形裁剪、图形拼接、图形接边、图形编辑和拓扑重组等整合处理,形成以地理区域范围为组织的无缝数据集合操作就是地理空间整合世界模型。定义11地理空间整合世界模型。设Con中图形裁剪、图形拼接、图形编辑、图形接边、拓扑重组功能分别表示为Cut、Stitch、Meet、Edit和Topology,整合功能集合表示为Fun={Cut,Stitch,Meet,Edit,Topology},则地理空间整合世界模型Pro={e|(e∈Ext,e∈Fun)}。

3.1.12地理空间统一世界模型

实现地理空间数据整合后,必须对来自不同源数据库中的地理空间数据进行统一,因为地理空间数据存在着差异。这些差异表现在如下方面,即数学基础差异、数据编码差异和数据格式差异、数据精度差异。由此可见,对地理空间整合世界中的地理空间数据进行数学基础、数据编码、数据格式、数据精度的统一操作和描述就是地理空间统一世界模型。

3.1.13地理空间产品世界模型

随着应用的深入,单纯的地理空间数据已越来越不能满足用户的需求,用户更加希望使用的是经过测绘专业处理的、经过二次加工处理的地理空间数据产品,后者在实际中具有更大的应用价值。由此可见,对地理空间统一世界中的地理空间数据进行测绘专业处理生成空间数据产品的操作就是地理空间产品世界模型。

定义13地理空间产品世界模型。设Con中单一、集成、融合、派生和关联的功能分别表示为Single、Integrate、Fuse、Derive和Relate,测绘专业处理算法集合为Fru={Single,Integrate,Fuse,Derive,Relate},则地理空间产品世界模型Pdu={e|(e∈Uni,e∈Fru}。

3.1.14地理空间决策世界模型

建立空间数据仓库的最终目的是为空间决策支持服务,为用户提供大量的具有空间决策支持的信息,这可通过空间数据仓库中的空间数据立方体分析和空间数据挖掘分析来实现。由此可见,对地理空间产品世界中的空间数据产品进行空间数据立方体分析和空间数据挖掘分析,生成空间决策支持信息的操作和描述就是地理空间决策世界模型。

定义14地理空间决策世界模型。设Con中的空间数据立方体分析和空间数据挖掘分析分别表示为Scube、Smine,空间决策分析算法集合为Sdss={Scube,Smine},则地理空间决策世界模型Dss={e|(e∈Pdu,e∈Sdss)}。

3.2转换算子

在空间数据仓库的认知过程中,14个世界模型的变换离不开13个转换算子,即命名、选择、抽象、度量、分层、编码、测量、聚集、提取、处理、变换、计算和分析,由它们实现每两个世界模型的转换。这些转换算子主要是依靠元数据来实现的,因为每个世界模型均有描述它的元数据,要实现两个世界模型的转换,通晓这两个世界的元数据是转换的前提。虽然这些转换算子的具体定义不同,但它们都是实现每两个世界模型的转换,从数学的定义上说就是由某个世界模型通过函数转换到另一个世界模型上,因此这些转换算子的宏观数学定义是一致的。

4结束语

目前,空间数据仓库理论和技术研究才刚刚起步,其目标是支持数字地球发展、空间数据集成、空间决策支持发展的需求。因此应该抓住这个千载难逢的好机会,将我国的空间数据仓库研究与建立迈上一个新台阶,以支持我国的空间数据基础设施建设。本文对空间数据仓库的概念框架和认知过程体系进行了一定程度的技术探讨,希望能起到抛砖引玉的作用。

参考文献:

[1]ZOUYijiang.Theconceptualframeworkonthemulti-scaleandspatio-temporaldatawarehouse[C].Beijing:20thICCAcademicPress,2001:2823-2831.

[2]ZOUYijiang.Thedesignofspatlatldatawarehouse[C].Bangkok:GeoInformatics&DMGIS’2001AcademicPress,2001:421-426.

[3]ZOUYijiang.Theresearchofmetadataonspatialdatawarehouse[C].Durban:21thICCAcademicPress,2003:225-226.

[4]ESRI.ESRIopenstrategywhitepapersonSDE/CADclient&spatialdatawarehousing[EB/OL].(1998).www.Esri/com/base/compay/opengis.

[5]ESRI.AnESRIwhitepapers,mappingforthedatawarehouse[EB∕OL].(2002).www.Esri/com/base/compay/opengis.

[6]TOMB,GRAYJ,SLUTZD.Microsoftterraserver:aspatialdatawarehouse.microsoftresearchadvancedtechnologydivision[EB/OL].(2004)./.

[7]SHEKHARS,LUCT,TANX,etal.Avisualizationtoolforspatialdatawarehouses[EB/OL].(2003).www.cs.umn.edu/Research/Shashi-group.[8]DIMITRISP.EfficientOLAPoperationsinspatialdatawarehouses,HKUST-CS01-01[R].HongKong:[s.n.],2001:65-69.

[9]赵霈生,杨崇俊.空间数据仓库的技术与实践[J].遥感学报,2000,4(2):157-160.

[10]李琦,杨超伟.空间数据仓库及其构建策略[J].中国图像图形学报,1999,4(11):984-990.

[11]杨群,闾国年,陈钟明.地理信息数据仓库的技术研究[J].中国图像图形学报,1999,4(8):621-626.

[12]周炎坤,李满春.大型空间数据仓库初探[J].测绘通报,2000,22(8):22-23.

数据仓库范文篇5

可见二者差别之大,这只是数据库与数据仓库的一个概念性的大致区别。另外它编程人员最关心的建立与操作各方面也差别很大,因此如果你没有这方面的知识想只凭借数据库发面的知识来开发数据仓库的产品是很不可能的这就要求你要从数据仓库最基础的知识学起。

可能很多同学首先就会想到数据库,说起数据仓库。终究就错了一个字,但是就是这一个字使这二者差异很大:

即数据库为中心,保守的数据库技术是以单一的数据资源。进行事务处理、批处置等各种数据处置工作,主要是操作型处理,操作型处置也叫事务处理,指对数据库联机的日常操作,通常是对一个或一组纪录的查询和修改,主要为企业的特定应用服务的注重响应时间,数据的平安性和完整性。

用以支持经营管理中的决策制定过程,而数据仓库则是面向主题的集成的不可更新的稳定性)随时间不断变化(不同时间)数据集合。主要用于分析型处理(也叫信息型处置)分析型处置则用于管理人员的决策分析,经常要访问大量的历史数据。

二、数据仓库的基础知识:

1.数据仓库概念始于上世纪80年代中期,首次出现是在被誉为“数据仓库之父”WilliamH.Inmon的《建立数据仓库》一书中。随着人们对大型数据系统研究、管理、维护等方面的深刻识认和不断完善,在总结、丰富、集中多行企业信息的经验之后,为数据仓库给出了更为精确的定义,即“数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合”。数据仓库并没有严格的数据理论基础,也没有成熟的基本模式,且更偏向于工程,具有强烈的工程性。通常按其关键技术部份分为数据的抽取、存储与管理以及数据的表现等三个基本方面。

数据仓库的重点与要求是能够准确、安全、可靠地从数据库中取出数据,经过加工转换成有规律信息之后,再供管理人员进行分析使用。数据仓库主要是应用于决策支持系统,其主要目的是“提取”信息并加以扩展,用来进行处理基于数据仓库的决策支持系统(DSS)的应用。

2基于数据仓库的决策支持系统基于数据仓库的决策支持系统(DSS)由三个部件组成:数据仓库技术(Datawarehousing),联机分析处理技术(OLAP,On—LineAnalyticalPro—cessing),数据挖掘技术(DataMining)。

联机分析处理(OLAP,On—AnalyticalPro—cessing)是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业给特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或多维环境特定的查询和报表需求。数据仓库侧重于存储和管理面向决策主题的数据;而OLAP侧重于数据仓库的数据分析,并将其转换成辅助决策信息。OLAP的一个主要特点是多维数据分析,这与数据仓库的多维数据组织正好形成相互结合、相互补充的关系。问此,利用OLAP技术与数据仓库的结合可以较好地解决传统决策支持系统既需要处理大量数据又需要进行大量数值计算的问题。

OLAP的多维数据分析主要通过对多维数据的维进行剖切、钻取和旋转来实现对数据库所提供的数据进行深入分析,为决策者提供决策支持。多维结构是决策支持的支柱,也是OLAP的核心。

数据挖掘(DataMining)是从大量的、不完全的、有噪声的。模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据挖掘可以看成是一种数据搜寻过程,它不必预先假设或提出问题,但是仍能找到那些非预期的却令人关注的信息,这些信息表示了数据元素的关系和模式。它能挖掘出数据键潜在的模式(pattern),找出最有价值的信息和知识(knowledge)。指导商业行为或辅助科学研究。研究对象是大规模和超大规模的数据集合。

三:在建立数据仓库时应该注意的重点问题:

1.找清楚主题,主题是你的数据仓库研究的一个大方向,如果你把这个都没有弄清楚的话后面的工作都是白费了。一般数据仓库的主题就是客户最关心的部分,是客户的项目做好以后在运行期间时常进行操作和观察的核心内容。只要你在建立的前真正弄清楚了客户的需求,一般主题的建立就不会出问题。

2.维度的建设,说白了维度就是客户的使用分析处理是的一个观察角度,数据仓库是多维的,也就是用户在观察的时候是从多个角度来观察的。这就要求你在具体的多维数据建立前要把用户的业务模型建立完备,一般这是一个迭代的过程,在建立好或修改好一个模型后最好和用户沟通一下,然后根据用户的要求再做相应的修改,另外基础数据库里面的维度表也要同步,把实际用到的维度都能在数据库里有所反应。

3.维度层次的建立:维度层次其实就是用户在观察时能够细化的单位,也可以说是一个范围,它是用户在进行切片,上钻,下钻时的重要单位,在建立层次的时候首先是要搞清楚要有那些层次,这个通常是用户要求的,然后在基础数据库建立的时候一定要把这些层次的顺序弄清楚,现在的数据仓库工具大多都是自动对你提供的数据表进行搜索而发现维度层次的,要是的建立基础数据表的时候不注意可能你以后得出的结果就会错很远。

四:总结:

1.找实习工作的认识:

我觉得实习其实就是一个从大学生活到工作的一个过度阶段,学校和社会差别很大。有很多学生在学校里对自己以后工作的事想的少,准备的少,一旦步入社会自己心里上一片空白,在实习时对于自己到底干什么工作,自己有什么专业技能也不是很清楚,最后总是过了很久快返校时才找到实习单位。我认为实习很重要,因为实习和正常上班没有什么两样,如果实习时就没有方向的话,以后工作了想找到方向会走弯路。还有对于大多数同学来说,先就业,在择业是最好的,毕竟自己在学校里接触社会少,专业实际操作和运用能力与实际工作要求还是有一定的差距,不要老想着自己一定要找到一份好工作,自己专业内的工作,自己喜欢的工作,这样是不切合实际的。

2.工作总结:在日常的工作中也有很多小问题值得我们注意,我总结了一下几条:

①最好每天都能做工作日记,早上上班前写好自己在这一天的工作目标,工作中应该注意的重点问题,有哪些事情是要问清楚主管的等。然后在每天的下班前在看一下自己当天做了那些工作,哪些工作目标没有完成,为什么没有完成,自己在以后的工作中应该注意哪些问题……,这些将是很重要的,经常看看会有很大进步。

②在开发项目的时候最好每天都有一个备份机制,因为电脑出故障是时常发生的,如果没有备份的话可能会发生前功尽弃的可能。

③在开发时遇到需求说明不是很清楚的地方一定要向上级主管问清楚,因为软件是做给客户用的,我们不能凭空想像,那样开发出来的东西很有可能会返工。

④在工作中可能会碰到和你的顶头上司发生矛盾的事,如果已经发生了,你要想清楚为什么会发生这种事,这些事情能不能避免,如果能避免自己在日后的工作中就要多注意一些。

⑤在讨论问题时要有自己的见解,不能人云亦云没有见解。

⑥工作要踏实,认认真真做。

数据仓库范文篇6

随着计算机网络和Internet的快速发展,高校的财务已经基本实现了会计电算化,会计人员从传统的手工核算模式已经过渡到了用计算机进行会计核算的模式,使会计人员从繁重的会计核算工作中解脱了出来,逐步实现了从核算性会计向管理性会计的过渡。目前,高校的财务部门已经积累了丰富的会计信息资源和一些人才储备,并在很大程度上提高了会计核算的效率,提高了财务管理的水平。然而,这些会计信息相对孤立,并没有形成系统的联系,没有很好地发挥出它应有的作用,没有很好解决会计分析和财务决策等重要问题。其主要原因不是会计人员的能力差和使用会计核算软件的效果不好,而是现有的会计信息系统本身所固有的缺陷,只注重了会计预算、会计核算和自动生成会计报表等功能,缺乏从多角度对会计指标进行详细的分析,同其他相关的管理系统也没有良好的接口。其缺陷主要表现在以下几个方面:

(1)数据缺乏可信性。比如领导需要某一部门人员的平均年收入的数字,不同的会计人员核算出来的数字可能会不同,这是因为要核算的数字不能从同一个数据源中取得,而且有些信息需要从外部数据源取得,也有可能存在数据算法上的差异,这是会计核算系统所解决不了的问题。

(2)生产率问题。在进行会计分析时,往往需要取多年的数据,在会计指标多的时候,生产率是相当糟糕的。比如领导要分析近四年的收入和支出情况,要完成这项任务,需要找到四年的报表来获取数据并分析数据,再编辑数据和进行对比分析,这就需要大量的资源才能完成。

(3)无法将数据转化为信息。在会计分析中,我们会问“今年的收入同过去五年中的各个年份有何不同?”这样的问题,会计信息系统不能准确地回答出该问题,这是因为系统并没有集成以往历史年度的数据。

为从根本上解决以上问题,必须建立同会计核算和财务管理相适应的一套新的系统,该系统不但能集成财务部门所需要的会计信息和与其相关的信息,而且能从多角度对会计指标进行分析,并能根据需要进行决策,方便财务部门的管理和领导查询和决策,提高财务的管理水平。该系统也就是被业界所称道的数据仓库。数据仓库是一个面向主题的、集成的、非易失的,随时间变化的用来支持管理人员决策的数据集合[1]。高校财务数据仓库是集成了财务信息的数据仓库,为财务管理进行决策的信息系统。

2高校财务数据仓库的内容和用途

根据高校财务管理要求,高校数据仓库应包括如下内容:

(1)会计核算信息,主要包括会计明细账、会计总账、科目代码、部门代码、项目代码、应收款明细账、应付款明细账和项目明细账等。

(2)人员工资信息,包括人员代码、工资项目代码和人员工资发放表等。

(3)学生学费信息,包括班级代码、学生信息、收费项目、收费学年、学生交费明细、学生应交费明细、学生欠费明细和学生交费总账等。

(4)学生奖贷助勤信息,主要包括学生奖学金发放表、贷学金发放表和勤工助学金发放表等。

(5)其它信息,主要包括国家的相关财政法规、高校财务管理和会计核算方面的制度和会计人员相关信息等。

高校的财务数据仓库的内容主要有以上信息,这些信息是随着时间不断变化和更新,并随需要进行动态的增加或减少,其变化完全取决于财务管理和决策者的需要。

从数据仓库的定义可知,建立数据仓库的最终目的是为了支持管理人员进行分析和决策,具体来讲,高校财务数据仓库的用途主要有以下几个方面:

(1)整合数据资源,方便师生和财务人员进行查询。财务信息是分布在各个相关的管理信息系统中的,教师和学生要查找相关的信息,必须连接不同的数据源,到不同的信息系统中去查询,不但查询的效率低,查询的命中率也很低,更有甚者不知道到那里查找自己所需要的信息,因此有必要整合数据资源,把财务的相关信息集中存放在数据库中,统一各异构数据库的基础信息代码,在此基础上建立财务信息查询平台,来实现对财务信息的集成的有效的管理。

(2)进行有效会计分析,提高分析效率与准确率。在高校财务管理中,经常要进行会计指标的比较和分析,不但要对学校的整体财务运行效率进行分析,而且要对学校的各二级学院的财务运行情况进行横向的和纵向的比较和分析,这些分析需要从不同的年度不同的信息系统提取相关的数据。从集成的、随时间变化的数据仓库中提取这些数据将会变得更加便捷和准确,例如我们要分析各二级学院的教师的近三年的平均年收入和学生的学费交费率,再到账务系统中提取各二级学院的三年来的平均人数(根本就不存在平均人数),再到账务系统中提取各二级学院的工资发放总额(在账务系统中,还需要财务人员累计各二级学院工资、津贴、奖金和其他补贴),再把计算出来的数字进行计算和比对,准备数据效率很低;计算各分院的学费交费率就更加困难,当年的交费率还可以到学费管理系统中取得和计算得到,前两年的交费率将无法获取,因为同它相关的基础数字并不存在。在数据仓库中做这些工作就轻松多了,只要在相关的事实表和维度表中聚集数据,便可自动取得所需信息。

(3)方便计算生均培养成本。数据仓库中已经集成了会计信息和学生相关信息,只要有适合的生均培养成本的计算方法,很容易构建出相关的事实表和维度表,计算生均培养成本也就比较容易。

(4)提高高校财务风险控制和财务预警水平。高校在办学资金筹集、教育经费的使用方面,都有了很大的自主权,高校的财务运行状况将必然存在风险,这就需要建立财务风险控制机制和财务风险预警系统,来化解与防范财务风险。高校财务数据仓库能同高校财务风险评价指标[2]有机的结合,高效率的对指标进行比对和分析,从而来防范财务风险的发生。

(5)为二级学院绩效考核提供基础数据。在高校的财务管理中,为提高资金的使用效益,往往会对各二级学院的财务运行情况进行绩效考核,考核的指标体系的建立和反馈,都需要会计相关的基础数据,从数据仓库中提取基础数据不但准确、效率高,而且结合考核指标,还比较容易得到相关信息。

(6)进行财务决策。财务数据仓库最大的优势是进行数据挖掘和财务决策,利用数据仓库,可以用决策树和聚类等算法来进行数据挖掘和财务决策,为制定相关财务制度提供依据,并可以分析相关财务制度执行的效果。

3高校财务数据仓库的建立方法

数据仓库主要有数据源、数据的存储、应用工具和用户界面等四部分组成。数据仓库的创建也是对这四部分用数据仓库的技术和体系结构来进行开发的,本文不再对高校财务数据仓库的创建进行详细讨论,它的具体创建过程已经在别的文献(如文献[3])里有详细叙述。本文只对财务数据仓库的建立方法进行阐述。

财务数据仓库是基于MSSQLServer2000创建的,它基本上采用了规范化的设计方法,采用了总线结构,有统一的事实表和维度表,使用星型和雪花型的数据结构,如图1所示的一个雪花模型。

数据结构创建好后,要把账务系统、工资系统和学费系统等中的相关数据经抽取、转换、清洁和装载等过程,导入到数据仓库中,其数据准备工作如图2所示。在数据装载到数据仓库时,不但要进行数据的转换,还必须注意基础代码的统一,如在图2中的三个数据库都存在部门代码表,该表的部门代码表示可能有所不同,在导入到数据仓库时必须做到代码统一。数据准备好后,便可以用工具软件如Excel、AnalysisServices等进行数据分析、数据挖掘和财务决策。

4高校财务数据仓库在会计分析中的一个应用事例

在财务管理中,财务人员经常需要分析各二级学院的经费使用情况,由于二级分院的经费都是使用项目来进行管理,所以在数据仓库中使用项目支出分析立方,其结构参见图1。从图1可以看出,财务人员可以从4个维度(时间维、科目维、部门维、项目维)来对二级学院的经费使用情况进行分析。可以分析各分院的经费组成情况、经费收入和支出情况、经费支出的分布情况(用科目代码分析经费在那些方面支出)和支出时间分布情况(经费都集中在何时支出)等,能从纵向和横向的角度来分析各二学院经费的使用效率。

在数据仓库系统中,后台服务器使用了SQLServer2000数据仓库,前端用Excel工具通过数据透视表服务来分析2004年和2005年各二级学院经费的使用情况。以下步骤将在Excel中实现一个数据透视表,向财务人员显示从立方中获取的数据:

(1)打开MicrosoftExcel。在数据(Data)菜单中选择数据透视表和透视视图(PivotTableAndPivotChartReport),启动数据透视表和数据透视图向导。

(2)在向导的第1步中,选择外部数据源以及要创建的是数据透视表;在步骤2中,单击获取数据按钮来定义要读取的数据源。Excel将自动启动MicrosoftQuery,并弹出选择数据对话框。选择OLAP立方选项卡,可以看到所有已经定义好的立方列表。选择新建数据源立方,出现新数据源对话框,在标识为1的字段中输入“项目支出分析”,在字段2选择MicrosoftOLEDBProviderforOLAPServices8.0[4]选项,然后单击连接按钮。

(3)出现多维连接对话框,允许分析人员建立OLAP服务器的连接,输入OLAP服务器的名称,单击下一步,并选择财务数据仓库数据,接着单击完成按钮。回到创建新数据源对话框中,在字段4中选择数据透视表使用立方,选择“项目支出”,单击确定按钮。回到选择数据对话框,选择已经建好的“项目支出分析”立方,单击确定按钮,回到Excel数据透视表和数据透视图向导。

(4)单击下一步,向导的第3步将提示分析人员选择显示数据透视表的位置,选择现有的工作表选项,单击单元Sheet1中的某一单元。

(5)单击完成,Excel就在工作表中上嵌入了一个新的空的数据透视表对象。同时显示透视表工具条和数据透视表字段列表。分析人员可以从字段列表中将项目拖放到数据透视表中,就可显示数据,用于分析了。

经过上述步骤后,生成了二级学院经费支出数据透视表,如图3所示。从图中可以看出管理学院几个学科的教学经费在2004年和2005年支出分布情况,上图显示的数据仅分析比较了办公费、毕业设计费、差旅费和学生实习费的支出情况,如果要分析比较其他科目支出情况,可以选择相应科目。从图3可以看出有4个维度,这4个维度可以根据需要任意组合,来分析各二级学院经费的支出情况。Excel还可以设置报告格式,自动生成报告,本例生成的报告如图4所示。

Excel还可以生成图形显示,来分析经费的支出情况,本例生成的图表如图5所示。可以根据比较分析的需要,可以选择不同的图形,以便更好地为分析服务。

数据仓库范文篇7

数据仓库的概念最早是由WH.Inmon提出来的,在他的著作《建立数据仓库》中是这样定义的:数据仓库是一个面向主题的、集成的、想对稳定的、随时间变化的数据集合。数据仓库是在传统数据库基础上建立起来的,但是与传统数据库又有所区别,传统的数据库是单一的数据资源,即以数据库为中心,进行联机事务处理(OLTP,ONLineTransactionProcessing),数据库技术的主要任务存储数据,对存储的数据进行查询和修改等操作。而数据仓库是将各业务系统数据抽取出来,按照决策分析型数据要求对数据进行清理转换重新组织,建立分析处理环境,然后采用联机分析(OLAP)技术或者数据挖掘技术处理进行数据分析,挖掘出潜在的有价值的信息,供用户参考决策。

二、高校教学管理数据仓库教学管理系统的设计

1.体系结构设计

数据仓库是基于传统数据库积累的数据和其它渠道收集的各种数据信息搭建起来的面向联机分析处理(OLAP,ONLineAnalyticalprocessing)的分析型信息集合,总体结构为三个层次:(源数据)数据处理、数据存储、数据分析。高校教学管理系统数据仓库包括数据源、数据处理,数据存储和数据分析四个部分。数据源:主要来自数字化校园管理平台,涵盖高校各信息系统,教务管理、学籍管理、招生就业管理以及其他信息系统等的数据。数据处理:包括数据抽取、清理、转换和集成。首先从数据源中抽取数据,存储到临时数据表中,然后对抽取的数据进行清洗和转换,通过清洗去除决策分析无用的数据信息,通过转换使数据标准一致,将转换清理后的数据集成装入到数据仓库中。数据存储:各信息系统的数据与数据仓库系统的数据是相互独立的,因此各信息系统数据的变化不会自动更新数据仓库的数据,我们需要在设定数据同步存储机制,才能实现更新数据融入数据仓库存储。数据分析:数据抽取、清理、转换、存储到数据仓库系统以后,我们需要通过各种技术,如联机分析(OLAP)技术、数据挖掘(DM)技术、商业智能(BI)技术等形成统计分析报表供用户查看并做出相应的决策。

2.主题划分

数据仓库的重要特点是面向主题。当数据围绕主题域来组织时,决策分析者将能很明确地找到自己感兴趣的东西。建立数据仓库首先要根据用户的需要进行主题划分,然后根据主题建立数据仓库模型,通过ETL工具从数据源抽取数据到数据仓库,最后采用联机分析(OLAP)技术或数据挖掘(DM)技术对数据进行分析挖掘,根据分析及挖掘结果做出相应的决策。根据教学管理系统的应用需求,在高校教学管理新系统中,组织层领导最关注的教学质量,所以系统确定的主题主要包括:包含学生、教师、课程、教学质量等几个方面。

3.数据仓库模型设计

数据仓库模型比较常用的有两种:星型和雪花型两种。星型是由一个事实表和多个维度表进行关联,具有统计分析和查询速度快特点,所以在教学管理信息系统中采我们采用星型模型。下面以教学质量主题为例说明数据仓库模型的设计。维表我们设计为时间表、学生成绩表、学生就业情况表、学生奖惩表、学生学习情况、教师教学水平表,事实表由就业率、等级及数量、学生获奖等级及数量等构成。

4.联机分析(OLAP)

联机分析(OLAP)是针对某一个具体主题,采用联机分析术(OLAP)或数据挖掘(DM)技术对数据仓库中的信息进行统计分析。联机分析包括多维数据分析方法,大体上可分为切块、旋转、钻取。所谓的旋转就是交换维度的位置关系,以便于决策人员可以不同角度得到多维数据,获取有价值的信息。通过联机分析技术的旋转方法我们可以很容易的发现教学管理系统教学质量问题,如教学计划不合理、有些教师水平有待提高等,通过钻取可以更深入的分析出教学计划不合理的各种因素。

三、结束语

数据仓库范文篇8

近年来电子商务物流配送已成为物流配送发展的主流,但我国物流配送系统的滞后状况却严重阻碍了电子商务的发展。突破电子商务发展的物流瓶颈,必须建立一个能快速、准确地获取销售反馈信息和配送货物跟踪信息的物流配送体系。将数据仓库技术应用到物流配送系统中,建立一个高效的基于数据仓库的电子商务物流配送体系,通过对数据的再次整理和挖掘,为企业提供市场信息和决策依据,进行趋势预测,以不断提高企业竞争力。

二、在电子商务物流配送中应用数据仓库的必要性

(一)电子商务物流配送对数据仓库的应用需求。

电子商务物流配送需要管理者从Internet中获取各种有效信息,以支持重要的决策问题,如配送中心的选址、运输最佳路线、货物组配方案、最优库存控制等,而数据仓库正是决策支持系统的一个很好的解决方案,因此,在电子商务物流配送中应用数据仓库是十分必要的。

1、数据的规模。

当前,WWW是基于Internet的电子商务最流行、也是最有前途的实现平台。但WWW有一个显著的特点,就是其中的信息浩如烟海,人们常用“大海捞针”来比喻从WWW中搜索信息的困难。因此电子商务的物流配送需要一种高效灵活的工具来存取相关信息。

2、数据的复杂性。

Internet上的信息不仅数量极多,而且数据格式多种多样,内容纷繁复杂。因此需要具有大容量、并能有效处理不同格式数据的电子商务应用系统。

3、历史数据。

传统的数据库系统为了获得最大的执行效率,往往存储尽可能少的数据源。但决策往往要用到大量的历史数据,例如,管理者常常需要对过去一年中某产品每个月的配送情况作一比较分析,以预测产品的配送定势。数据仓库为决策者的长期决策行为提供了很好的支持,因为其根本特征之一就是进行长时间的历史数据存储。

4、查询需求。

在电子商务下的物流配送中,物流配送企业对系统有查询的要求。但一般的联机事务处理(OLAP)系统主要要求更新的实时性,对查询的性能要求相对较弱。而数据仓库面向决策支持,其体系结构着重查询和分析的实时性。因此,随着电子商务配送需求的增长和不断变化,需要数据仓库这样一种体系结构来存储大量的异构数据,满足电子商务物流配送中的信息、查询、分析和决策等需求。

(二)数据仓库对电子商务物流配送的支持。

电子商务物流配送需要数据仓库技术,这是由数据仓库本身所具有的诸多优点所决定的。数据仓库的一些基本特征,如面向主题、集成性、时间变异性、稳定性,从各方面支持了电子商务物流配送。数据的集成性,解决了来自互联网的数据格式不一致问题,因为各种数据在进入数据仓库之前都是经过转换的;时间变异性则支持了管理者在电子商务中利用大量历史数据进行决策分析;稳定性则有助于防止电子商务中的舞弊欺诈行为,因为数据仓库中的数据对于一般用户而言都是只读的,若更新需由管理员在后台进行。

现从数据仓库的商业化逻辑模型、数据只读性和概要视图这三个方面来进一步阐明数据仓库对电子商务物流配送的支持。

1、商业化逻辑模型。

数据仓库的逻辑模型相比其他特殊应用的数据模型,与商业结构能更好地密切结合。由于具有面向主题的特性,数据仓库中定义的实体与实际商业实体相对应,如客户、产品、单据、供应商等。数据仓库中的数据模型是全面的,而且面向商业实体,因而能与电子商务物流配送的应用紧密有效地结合起来。

2、数据只读性。

数据仓库体系结构的一个主要组成部分,就是用于决策支持的只读性数据仓库。用于决策支持的数据,存在于独立、只读的数据库中,其更新操作由专人在后台进行,这样既保证了数据的安全,又节省了时间,提高了系统的性能;用户存取数据只需利用前线工具,比如web浏览器,操作简单方便。因此,数据仓库中的只读数据库机制也是十分有利于电子商务物流配送的。

3、概要视图。

当今的数据仓库,一个重要性质就是自动生成概要视图,数据仓库中的概要视图与传统关系型数据库所提供的视图有些类似,但视图是一张虚表,而概要视图则是由用户预先生成的实际的表。在电子商务的应用中,概要视图的生成不仅仅是数据的一般性总结,通常还要将商业规律应用到具体数据中。如概要视图可能包含一个过滤器,考虑某个订单时,就在过滤器中加入相应的商业规律。通常一个数据仓库中有多个基于商业实体的概要视图。

数据仓库范文篇9

一、OLAP概述

OLAP是关系型数据库之父E.F.Codd在1993年提出的多维数据库和多维分析的概念。OLAP是针对特定问题的联机数据访问和分析,通过对信息很多种可能的观察形式进行快速、稳定、一致和交互性的存取,允许管理决策人员对数据进行深入观察。

1.数据仓库中用于OLAP的常用数据模式

数据仓库模式是数据仓库的核心和基础,是影响信息组织和查询的关键因素。因此一个有效的数据仓库模式就成为数据仓库设计的关键所在。在实际的应用当中是通过OLAP来进行分析,因此数据仓库中数据的模式结构应该便于分析。在传统的数据库中数据模式以ER图和二维表为主,而在数据仓库中则以多维模式为主。数据仓库的模式现在常用的有星形模式、雪花模式和星座模式。在数据仓库中,依据所选定的主题、所要存储的数据内容、支持数据仓库的系统环境、对象间的关系来决定使用哪种模式。

(1)星型模式

星型模式可能是最简单的数据仓库模式。因为它的实体关系图是从一个中心表向外辐射连接各维表,看起来像是一个星星。

星型模式主要有如下优点:在星型模式中进行的复杂查询,可以直接通过各维的层次比较、上卷、下钻等操作完成,大大减少用户的查询响应时间;大量的商业智能工具(BI)都支持星型模式;星型模式既可以被用在简单的数据集市上也可以被应用在巨型数据仓库上。

(2)雪花模式

雪花模式是一种比星型模式更繁杂的数据仓库模式,实际上它也是星型模式的一种。因为从它的实体关系图上看像雪花状,所以它就被称为雪花模式。

雪花模式通过对维表的规范化来消除冗余的数据。它的优点是通过最大限度地减少数据存储量以及把较小的规范化表(不是大的非规范化表)联合在一起来改善查询性能。由于采取了规范化和各维表较低的粒度,雪花模式增加了应用程序的灵活性。但雪花模式也增加了用户必须处理的表的数量,增加了某些查询的复杂性。

(3)星座模式

星座模式是星型模式的直接扩充,为了表示多个事实间的关系,可以共享多个维,这些共享维对每个拥有它的事实表来说都具有相同的意义。将多个星型模式连接在一起构成一种新的模式,称为星座模式。

2.OLAP的多维分析操作

在数据仓库的实现过程中,通过使用一定的数据模式建立多维数据结构——立方,通过在多维数据结构上的多种操作来完成分析人员与决策人员的分析需求。这些操作包括:钻取(rollup和drilldown)、切片(alice)和切块(dice)、以及旋转(pivot)等。钻取是改变维的层次,变换分析的粒度。它包括向上钻取(rollup)和向下钻取(drilldown)。rollup是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而drilldown则相反,它从汇总数据深入到细节数据进行观察或增加新维。切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个,则是切块。旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。

OLAP通过对数据库中的数据进行相应的操作从多个角度、多个侧面进行快速、一致和交互地存取,从而使分析人员能够对数据进行深入的分析观察。

3.OLAP的实现方法

OLAP有多种实现方法,根据存储数据的方式不同可分为MOLAP、ROLAP和HOLAP。MOLAP表示基于多维数据组织的OLAP实现(MultidemensionalOLAP)。按照主题定义的OLAP分析所要的数据,生成并存储成多维数据库形成“超立方体”的结构。生成的多维立方体已经计算并生成了一些汇总值,当用户发出请求时,从多维立方体而不是数据仓库中取得数据,响应时间快。但由于多维立方体的生成造成了数据的存储空间增大,并且在多维立方体中不可能存储大量的细节数据,综合数据较多,所以分析的颗粒不会太细。

ROLAP表示基于关系数据库的OLAP实现(RelationalOLAP)。ROLAP以关系型结构进行多维数据的表示和存储,只存储数据模型与数据仓库数据之间的映射关系,是真正的关系物理存储在数据仓库。进行多维分析时,OLAP服务器根据定义的模型和用户的分析需求从数据仓库中取得数据,进行实时分析。这样增加了响应时间,但相对MOLAP节省了空间,并且可以分析到具体细节数据,即考察数据的颗粒度较小。当分析应用的灵活性较大或进行多因素分析预侧时,应以ROLAP为主。

HOLAP表示基于混合数据组织的OLAP实现(HybridOLAP),如低层是关系型的、高层是多维矩阵型的。这种方式具有更好的灵活性。

二、OLAP技术在电力行业的应用前景

随着管理信息系统的发展,电力行业积累了大量基础数据,越来越多的电力企业认识到只有靠充分利用、发掘其现有数据,才能做出正确及时的决策,从而实现更大的经济效益,商业智能也随即被引入电力行业参与企业决策。商业智能的过程是从不同的数据源收集的数据中提取有用的数据、对数据进行清理、转换、重构后存入数据仓库或数据场中,然后用合适的查询、分析、数据挖掘、OLAP工具对信息进行处理,最后将有用信息呈现在用户面前,转变为决策。因此,电力企业需要在这些原始数据的基础上,构建企业的数据仓库和OLAP系统,对大量数据进行提取、分析,并将分析结果以多维视图的方式展示给决策者。

通过最大限度地利用电力企业资源中的数据,将数据整理为信息,再升华为知识,为电力行业管理层提供面向企业经营决策和面向生产统计、分析的功能,为决策者提供最为有效和准确的数据依据,提供高层决策参考,对制定行业的战略发展目标、市场策略,促进业务发展,完善服务质量,提高客户满意度等提供支持,从而提高风险控制能力和经营决策能力,提高企业的竞争力。

当前电力行业中,OLAP的研究现状可用下表1展示如下。

通过OLAP技术进行分析,系统展现给决策者的不再是一张张二维表格,而是丰富多彩的各种图表。通过图表的直观展现,各种数据的比较一目了然,决策者还可以在图表中对数据进行相应的操作,找出决策者关心的数据。

数据仓库范文篇10

在当前市场经济高速发展的态势下,各企业间竞争力越来越强。再加上信息技术的参与,企业能够获取信息的渠道与手段日益增多,面临的信息也纷繁复杂,而好的决策不仅需要真实的数据支持,而且还要在尽量短的时间内做出。所以,企业急需要高效的数据分析工具,来节省对大量数据分析的时间。本文就提出——数据仓库技术这一优化的数据管理、分析技术。

2数据仓库的特点

2.1面向主题

即在较高的这一层次上,实现对企业信息系统里面数据的分类、综合处理,将其进行抽象化处理。数据仓库是从企业整体上来看的,直接面向主题进行组织,其本质在于实现数据的分析与处理,为管理层提供可进行决策的参考依据。

2.2集成性

属于数据仓库全部特点中最为关键的一个环节。这是由于数据仓库里面的数据不是直接面向应用的,在细节数据这一方面欠妥,仅是从原来数据抽出来之后统一汇入数据库,继而发生数据缺失、同名异义等问题。

2.3不能更新

一旦当数据装入到数据仓库之后,没有意外情况就不会再发生变化,数据主要提供给企业,进行决策的支持使用。

2.4实时变化

数据仓库中的数据不能更新只是针对应用的,但对于数据仓库来说,它需要为企业的决策提供支持,因此需要数据的价值性与最新性,时间则是不可或缺的一个重要属性。

3系统的目标及功能

3.1目标定位

基于计算机、网络等技术水平的提高,企业的信息化水平也有了极大地发展。一般企业内部都有生产管理系统、企业信息采集系统等的覆盖,同时也有在此基础上开发的财务报表等系统,一般都能够满足各部门进行日常管理、经营所提出的要求。但是,如何汇总系统中繁杂的数据,使管理者直观、精准的掌握业务相关数据,另一方面又能实现对数据的多角度分析,这便是基于数据仓库的企业数据分析、决策系统应解决的根本问题。

3.2功能

以数据仓库作为基本,对企业数据分析(决策)支持系统做进一步的优化,本质在于把最新的计算机技术、最高水平的信息技术成果引入其中进行应用,使其能够适应企业当前的信息管理系统,并使其为自己所用,形成综合性强、专业化的信息分析、管理及处理平台。

4系统设计

4.1整体结构

近些年来,随着信息管理以及IT技术的极速发展,也促成了基于数据仓库的数据分析与决策支持系统的优化形成。就数据仓库概念结构上来说,所包含内容像数据仓库数据库、数据源、数据准备区与各种应用、管理数据。

4.2设计方法

数据仓库系统建模程序:DW建模、数据获得及集成、数据仓库的构建、DSS应用编成、测试、理解需求。较之于原型法特点来说,这一设计方法虽然没有太大的差异,但是却与其存在着根本性的不同,数据仓库设计为数据驱动,基于DB开发,主要对DB已有的数据资源进行抽取、挖掘与集成,用来支持企业管理者做出正确决策。

4.3主要技术的使用

(1)数据管理。该技术中有大量的数据管理技术、监视技术、压缩技术以及仓库索引等。(2)存储方面。比如说多介质存数设备的管理技术、存储控制技术以及并行存储及管理技术等多个内容。(3)仓库接口。语言接口技术、数据高效加载技术、多技术接口技术。

4.4设计工具

DSS的分析预测型工具、数据挖掘的挖掘型工具以及联系分析处理的查询分析工具,这三种工具组成了数据仓库系统的工具层,每一种工具都有其不同的侧重点,所针对的用户以及适用的范围也都各不相同。只有将这三种工具都纳入到数据库系统中去,才能从真正意义上实现对数据仓库中信息的利用。(1)报表。报表是一个基本性的工具,在应用数据仓库中,实现预定义数据计算、多维数据存储的应用,可将企业原本复杂的报表难度在一定程度上进行简化,在提高计算速度的同时还能确保精准性。(2)联机分析。在借助多维的方式下,借助于联机分析处理来对数据进行分析、查询以及报表。较之于传统的联机事务处理这一应用,联机事务处理这一应用是针对用户对其事务加以处理,比如说银行的储蓄系统、飞机的订票系统等,这就需要实时予以更新,对响应时间更是提出了高要求。(3)数据挖掘。该技术在诸多个领域的应用都收获了很大效益。它并不是一定非要构建在数据仓库基础上的,但如果能实现协同合作,便能更进一步地对数据挖掘过程中某些步骤进行简化,进而提高数据挖掘的工作效率。

5结束语

数据仓库作为一个非易失性的数据集合,有着面向主题、集成以及实时变化的特点,很好地满足了企业诸多种信息的综合使用、分享,实时且精准地完成对财务分析、客户分析以及市场分析等诸多方面的功能,可为企业管理层做出相应决策提供可参考性依据。随着企业加强信息化水平的建设,数据化的深入发展,将会有更多的企业使用基于数据仓库的企业数据分析与决策系统,为决策提供服务,以此来提高自己在市场竞争环境下有利的低位。所以,对数据分析与决策系统的优化研究这一问题具有重要价值。

作者:柴旭光 单位:邢台职业技术学院