电力营销系统数据分析论文

时间:2022-03-27 03:50:58

电力营销系统数据分析论文

1HANA数据分析平台采用的核心技术

HANA数据分析平台在软件方面,通过内存技术,应用程序能直接处理电力企业数据库中的各种数据,并直接在主内存中处理。主要技术包括行+列的存储、压缩、数据分区、增量数据更新等。平台采用的软件包括数据抽取工具、内存数据库(含数据库服务器、建模工具Studio、客户端工具)、报表展现层BusinessObjectsBI组件。在硬件方面,通过预配置的软硬件结合体,提供高性能的数据读写操作,并在内存数据库里采用列式存储从而将更多的数据存入(列式存储方式更适合数据压缩)。

2HANA数据分析平台实施过程

数据分析平台建设应遵循最大限度的考虑应用实用性、缩短实现周期、降低技术风险等因素。

2.1需求分析

需求分析是要对用户的诉求或需求进行深入了解,并在需求的基础上对整个平台进行一致约定。因此以重要性、分析的复杂性、数据量大小、以及快速见效为原则,需求分析需要明确下面的内容。

1)选择需要分析的主题,结合当前电力营销业务在计量、业扩、抄表、电费核算、电费缴纳、账务等工作职能的划分,也要考虑分析的主题具有针对性的业务场景,这些场景往往跨越多个职能。

2)分析并描述各个主题的业务背景,包括使用的用户角色,使用的业务场景。以电费出账异常为例:电费出账异常主要是由于用户档案错误、抄表错误所引发的,涉及到业扩、抄表、电费核算等多个职能部门。以电费出账异常作为分析的主题,其业务场景主要用于电费发行后,对引发电费异常的用户档案数据、计量信息、抄表信息进行检查并按职能需求进行分别展示。

3)分析各个主题间的关系,在这个平台上用户的所有活动信息,如用户请求的数量,用户对这些数据的访问频率、时间、数据细节层次、请求多大的数据量等之间的关联。

4)分析主题所涉及的表的目录、表的内容、表的容量、每个表的平均行大小、表的记录数、表的增长情况等。

2.2平台规划

HANA数据分析平台应用架构一般采用四层:数据源层、数据抽取及复制层、HANA数据集市层以及报表展示层。

1)数据源层:作为平台的分析对象,提供报表分析所需的数据,数据源层可同时支持各种类型的数据库,数据源层为营销系统(管理库),生产库到管理库之间采用SharePlex复制工具实现数据同步,以避免数据抽取对生产系统的影响。

2)数据抽取和复制层:数据抽取和复制层负责将数据源层中源系统的数据抽取和复制到HANA分析数据库中,主要构成是数据抽取和复制工具,可以分别采用实时同步服务(SLT)以及非实时同步的数据服务(DataService)两种不同的复制工具来满足不同特征的源数据要求。在确定采用哪种工具前,需要对每个数据源的大小、变更时间、变更频繁度、增量大小等信息做详细了解,对不同数据源表选择合适的复制工具。

3)数据集市层:数据集市层是整体系统架构的核心,负责分析数据的储存、报表模型的建立以及数据计算。该层包含分析数据库以及虚拟模型架构两个主要组成,所有需分析展示的数据在数据集市层通过集市层进行储存、压缩、建立逻辑模型并计算,通过该平台特有的内存计算技术可以使这个过程的效率大幅提升。

4)报表展示层:报表展示层负责将HANA数据库中的数据运算结果按照报表需求进行展示,采用SAPBusinessObjectBI4.0以及EXCEL作为展示工具。

2.3平台实现

2.3.1模型设计

依据报表的需求分析、功能需求、性能需求、模型扩展性、模型的灵活性、实现成本进行平衡,在达到性能要求的前提下,设计出可以重用的模型,HANA平台不同于传统的数据仓库需要物理化模型设计,HANA采用了逻辑视图模型设计的概念,逻辑视图从表面看体现的是传统的星型、雪花型模型设计,但这些模型中的数据并不是物理存放的。HANA提供了属性视图、分析视图、计算视图三种模型设计,属性视图实现对维度的设计,分析视图则实现传统的星型模型设计,计算视图实现更复杂的雪花型模型设计。模型设计时是先将需求阶段所确定的分析主题作为分析对象,梳理每个主题展示所需的事实表数据内容和数据粒度、分析维度、分析的数据指标。例如:一个以分析电费构成为主题的业务场景,该主题分析当期电费的构成情况,并同期比较各个电费构成的变动情况,那它的指标可以为目录电度电费、峰谷品跌、丰枯品跌、基本电费、力调费、费、电度电费、结算电费等指标。分析的维度可包含:时间维度、用户维度、组织维度、用电服务维度、抄表维度、计收维度等。并在此时完成对事实表和维度表的逻辑数据模型设计。

2.3.2表样及功能设计

报表的样式和功能应当考虑用户对数据进行分析的使用习惯,借鉴数据仓库中的多维数据可视化方法,通过对报表的上钻、下钻、切片等展示功能技术的利用,实现对汇总性数据、明细类数据、核心数据的快速查看和分析。以上述的分析电费构成主题为例,其展示需求决定表样的设计采用图型混合表格的方式,功能上采用按照组织维度进行上钻、下钻功能可查看不同供电区域的电费构成情况和各个指标的排名情况,前端展示采用了BOWebintelligence嵌入DashBoard图表设计实现。

2.3.3数据抽取及复制设计

为确保数据质量,应当进行数据抽取和复制的规划设计。首先,根据模型设计中指标、维度信息分别列举出其相应的数据来源,即营销系统的物理表和字段,指标来源于营销系统的交易数据,而维度来源于营销系统的主数据。其次,根据逻辑数据模型和数据来源确定营销数据库到HANA数据库的ETL规划,根据数据的质量规则(包括:数据清除、空值处理、数据替换、规范化数据格式等),确认营销系统源数据到HANA目标数据库数据的转换规则,同时依据数据大小、数据变更时间、数据变更频繁度、数据增量大小要求确定采用的实时工具SLT还是定时抽数工具BODataService,例如:收费账务相关的交易数据存在记录基数大、变更频率很高等特征,采用实时复制增量数据更合适,而账务的月结数据仅在每月初产生且数据量非常巨大,因此采用定时批量复制更合适。

2.3.4模型及报表开发

模型及报表开发共分为数据装载、HANA建模、定义语义层(IDT)、报表开发、数据校验五个步骤,这五个步骤相互交叠与重复,直至到达最优化设计。其中数据装载的方式利用了SLT的实时同步技术,SLT同步技术其核心是基于数据库的触发器模式实现对源数据的增量复制,最大限度的避免了对源系统表结构的改变,同时采用的多任务复制机制使得实时复制的效率可保持在5~10秒内的数据延迟,装载后的HANA数据的大小比较源数据库数据大小可压缩30%~70%的容量。

3发展前景

不断的完善HANA数据分析平台的分析主题,不仅是基于电力营销系统,还可以基于用电采集系统等构建起电力企业的大数据分析平台。利用HANA内置的PAL(预测分析库)对海量电量数据、客户服务数据实现数据高级分析,建立其有效的事前预测、事中控制、事后改善的企业快速辅助决策模式。营销业务可以在客户服务中对受理业务的情况信息、执行过程、执行结果进行深入分析、对客户需求进行快速响应,改进服务质量、提升电网服务建设。更可以利用海量电能量数据对偷窃电稽核、客户用电行为、能效管理等进行过分析和应用,助力营销辅助决策与分析能力的快速提升。

4结论

基于电力营销系统中业务数据所建立的HANA数据分析平台,从分析效率来看均有实质性的提高。经实践证明,与营销系统报表在同等条件下对比,其分析效率可提高百倍以上。在大宗数据的分析上,HANA平台更是体现了其快速见效、性能优异、分析功能操作简洁和灵活、快速适应业务变化的能力。

作者:刘宏刚吴丹单位:重庆市电力公司信息通信分公司重庆智网科技有限公司