大数据技术中心建设规划探讨

时间:2022-11-15 11:06:11

大数据技术中心建设规划探讨

[近几年来互联网以及物联网技术的发展非常迅速,整个社会生产生活中的数据规模在急剧的膨胀。针对海量的数据进行有效的采集、存储、处理、分析已经逐渐成为了当今信息社会发展的主要趋势。大数据技术能够实现对海量数据全生命周期内的存储以及处理,因此必须要针对大数据的处理方法以及处理能力进行不断的挖掘。但是建立基于大数据技术的新处理方法是一件非常复杂的事情。必须要建立起具有较强开放性并实现软硬件有效结合的综合性体系构架。

1总体规划

1.1设计原则。在实际建设大数据技术的云数据中心时,必须要摒弃传统模式下,建设数据中心的弊端,要充分综合整合化、标准化、模块化、虚拟化、自动化以及面向服务的整体建设思路[1]。1.1.1需求导向原则。要充分结合信息发展的总体规划来进行数据资源中心系统软硬件支撑平台的建设,鉴于此,就必须要对短时间内需要完成的信息系统对软硬件功能以及实际性能的需求进行充分综合,以实际需求作为基本原则,并实现按照需求来进行整体分配,统一规划。1.1.2整合共享原则。要针对传统建设数据中心过程中存在的分散性、重复性建设问题进行有效改善,进一步提升数据资源的利用效率,这样才能充分满足当前信息资源整合不断变化的需求,也能够将数据信息管理的难度复杂程度降低到最低,也能够实现对IT总拥有成本的有效控制。1.1.3服务高效原则在实际针对数据资源中心软硬件支撑平台进行建设以及管理的过程中,其不同的生命周期阶段实际服务的内容具有较大差异性,必须要针对数据资源中心建立起统一的基础设施运维管理体系,并实现对服务流程的进一步规范,对相关操作规程进行进一步明确,这样才能有效提升服务效率。1.2总体构架。充分结合云计算、大数据等先进技术来构建起面向生产运行服务的数据中心系统以及数据平台。其中要将基础设施、数据资源、大数据、云计算平台、业务应用、安全防护等几个部分包括在内。大数据及云计算平台的主要作用是将各个生产环节以及各项业务所输出的数据进行采集和存储。在此基础上针对数据进行筛选、多维度分析处理,来完成整个原始数据的初步处理[2]。充分利用数据平台的数据挖掘以及分析能力对采集数据进行深度挖掘,并将最终的分析结果利用数据分析门户传输到用户终端实现应用。整个数据中心能够为用户提供全方位的资源管理和监控服务,而且能够充分借助3D仿真以及2D拓扑等多种方式为用户提供全方位的系统管理服务。通过安全防护功能能够让整个系统实现安全运行,与此同时,在数据中心建立的基础上,能够为用户提供一个基于大数据以及云计算的运算、开发以及管理平台。在此平台基础上,用户就能够从应用与业务、系统与平台、硬件与资源等多个方向实现进一步拓展,这样就能够为用户提供能够实现灵活配置的计算、网络、存储等资源服务。

2基础设施

在未来的系统研发以及运行过程中基础设施是非常重要的一个平台,充分利用基础设施能够为系统研发提供平台以及设备托管服务;而且也能够为业务、系统的开发提供具备更高性能的计算、网络以及存储环境,这样就能够为后期进行大数据开发提供先进的技术支撑。整个数据中心可以严格的划分为存储区、计算区、网络区等,在充分综合演示汇报、系统运维以及安全系统等各项基本功能之外就能够让数据中心处理平台更加完善。

3大数据平台

大数据平台的主要作用就是为用户提供大数据的相关存储管理以分析处理功能。不同类型的大数据在经过数据信息交互服务之后进入到信息交换区中。信息交换区接受数据之后就可以将相关的数据进行采集,并将其推送到相关的业务系统中。3.1数据存储分类。业务应用大数据格式主要可以分为非结构化以及结构化两种数据类型。其中非结构化数据主要采取的是分布式存储模式,针对其容错存储主要采取的是网络编码方式,这样就能够让容错存储的代价得到最大程度控制;而结构化数据再充分结合相关核心业务的数据库实际业务需求基础上实现了分类管理。针对后期阶段研判以及在进行大数据分析和挖掘过程中实际需要的各项数据都是在分布式数据库中进行存储;而针对各项核心业务实际需求的数据主要是通过数据清晰转换之后将其在相应的业务数据库中进行存储。3.2部署方案。管理节点:针对安装了集群的管理系统,可以为系统提供统一的入口,同时还要针对部署在集群中的所有节点以及相应的服务进行集中的管理。控制节点:主要的作用是针对监控数据的节点完成数据相关的存储、接收、发送等相关的进程,并针对控制节点完成相应的公共功能。数据节点:针对相应的管理节点发出相应指令,并将相关的任务状态进行上报,对数据进行合理的存储,针对数据节点相应的公共功能进行严格执行。33分布式并行处理。在分布式并行处理中主要包括了数据清洗标准化、数据关联融合以及数据深度分析等多个模块[3]。在实际针对不同模块进行设计的过程中要充分结合实际业务动态变化的实际需求来具体定制相关的功能逻辑。分布式并行处理能够为整个系统提供比较前沿的并行计算框架,而且也能够很好的支持高性能的分析计算,而且也能够在数据中心中部署计算量相对较大的相关任务,也能够同时提供一些具备批量计算处理的框架、3.4内存分析引擎。其能够为充分利用内存计算来提供一种高校的查询引擎,但是基础上就能够实现快速分析和查询,在一些对实时性要求比较高的场合具有较强的适应性。与此同时还能够为系统提供SQL查询接口,这样充分利用SQL语句,就能够实现数据新建、数据插入、数据查询以及数据删除等相关操作。3.5组网方案。首先将整个网络划分为业务以及管理平面,针对这两个不同的平面主要采取的是物理隔离的方式来进行部署,要充分保证业务、管理等两个网络的安全习惯。这对整个网络的主要节点还要必须要设置能够支持外部管理网络的IP地址,这样用户就可以充分利用外部的管理网络来实现对整个网络的集群管理。组网设计如果采取的是平面组网方式的时候,整个集群中的每一个节点分别接入到管理以及业务平面中,还要这对每一个节点有针对性的准备相应的管理以及业务IP地址,针对每一个IP地址主要采用了2个网络接口的配置Bond,并针对不同的IP地址还要接入相应的交接机。3.6硬盘分区原则。如果实际建设的集群节点实际的规模相对比较达的时候,就很可能会是哦IO实际的负载高很逗,针对管理节点的元数据可以合理的采用的分盘模式。如果在元数据分区中实际部署多块磁盘的时候,要优先针对Zookeeper中所有的数据目录专门的配置相应的Zookeeper数据存在磁盘,或者还可以针对数据目录配置相应的ssd存储。3.7实时流处理。在该模块中主要包括了研判模型建立及数据分析。根据研判模型必须要充分保证其定义模型满足相关的扩展性,而且也能够针对后期新业务开展中实际研判需求进行动态扩展。与此同时还能够支持针对数据的实时分析处理以及持久化处理。

4结语

目前我国正在不断强化各个省市的大数据基地布局,而且大数据项目的建设也在不断加速。而大数据产业的快速发展不仅需要基础建设的支撑,与此同时还需要在人才、技术、标准的各个方面实现多方位支持。大数据产业的发展目前还面临着较大的挑战。

【参考文献】

[1]牛正光.大数据对政府治理现代化的影响研究[D].北京:中国农业大学,2017.

[2]赵一鹏.基于大数据技术的电力物资需求分析系统的设计与实现[D].北京:中国科学院大学(中国科学院沈阳计算技术研究所),2017.

[3]杨靖雯.大数据战略下边疆政府治理的技术变革研究[D].昆明:云南师范大学,2017.

作者:许金元 单位:湖南机电职业技术学院