云计算环境下大数据分析论文

时间:2022-06-19 03:34:57

云计算环境下大数据分析论文

1大数据处理流程

基本的大数据的处理流程可以分成数据采集、数据处理与集成、数据分析和数据解释4个阶段。首先获取数据源的数据,因为在数据源端的数据包含各种各样的结构,需要使用某种方法将其进行预处理,使数据成为某种可以用一种算法分析的统一数据格式,接着需要找到这种数据分析的算法,将预处理过的数据进行算法特定的分析,并将分析的结果用可视化等手段呈现至用户端。

1.1数据采集

大数据的采集是整个流程的基础,随着互联网技术和应用的发展以及各种终端设备的普及,使得数据的生产者范围越来越大,数据的产量也越来越多,数据之间的关联也越来越复杂,这也是大数据中“大”的体现,所以需要提高数据采集速度和精度要求。

1.2数据处理与集成

数据的处理与集成主要是对前一步采集到的大量数据进行适当的预处理,包括格式化、去噪以及进一步集成存储。因为数据采集步骤采集到的数据各种各样,其数据结构也并不统一,不利于之后的数据分析,而且,一些数据属于无效数据,需要去除,否则会影响数据分析的精度和可靠性,所以,需要将数据统一格式并且去除无效数据。通常会设计一些过滤器来完成这一任务。

1.3数据分析

在完成了数据的采集和处理后,需要对数据进行分析,因为在进行数据分析后才能体现所有大数据的重要价值。数据分析的对象是上一步数据的处理与集成后的统一格式数据,需要根据所需数据的应用需求和价值体现方向对这些原始样本数据进一步地处理和分析。现有的数据分析通常指采用数据仓库和数据挖掘工具对集中存储的数据进行分析,数据分析服务与传统数据分析的差别在于其面向的对象不是数据,而是数据服务。

1.4数据解释

数据解释是对大数据分析结果的解释与展现,在数据处理流程中,数据结果的解释步骤是大数据分析的用户直接面对成果的步骤,传统的数据显示方式是用文本形式体现的,但是,随着数据量的加大,其分析结果也更复杂,传统的数据显示方法已经不足以满足数据分析结果输出的需求,因此,数据分析企业会引入“数据可视化技术”作为数据解释方式。通过可视化结果分析,可以形象地向用户展示数据分析结果。

2云计算与大数据分析的关系

云计算是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源,是一种按使用量付费的模式。这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络、服务器、存储、应用软件、服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。目前,国内外已经有不少成熟的云计算的应用服务。数据分析是整个大数据处理流程里最核心的部分。数据分析是以数据的价值分析为目的的活动,而基于大数据的数据分析通常表现为对已获取的海量数据的分析,其数据来源可能是企业数据也可能是企业数据与互联网数据的融合。从目前的趋势来看,云计算是大数据的IT基础,是大数据分析的支撑平台,不断增长的数据量需要性能更高的数据分析平台承载。所以,云计算技术的不断发展可以为大数据分析提供更为灵活、迅速的部署方案,使得大数据分析的结果更加精确。另一方面,云计算的出现为大数据分析提供了扩展性更强,使用成本更低的存储资源和计算资源,使得中小企业也可以通过云计算来实现属于自己的大数据分析产品。大数据技术本身也是云计算技术的一种延伸。大数据技术涵盖了从数据的海量存储、处理到应用多方面的技术,包括海量分布式文件系统、并行计算框架、数据库、实时流数据处理以及智能分析技术,如模式识别、自然语言理解、应用知识库等等。但是,大数据分析要走向云计算还要赖于数据通信带宽的提高和云资源的建设,需要确保原始数据能迁移到云环境以及资源池可以随需弹性扩展。

3基于云计算环境的Hadoop

为了给大数据处理分析提供一个性能更高、可靠性更好的平台,研究者基于MapReduce开发了一个基于云计算环境的开源平台Hadoop。Hadoop是一个以MapReduce算法为分布式计算框架,包括分布式文件系统(HDFS)、分布式数据库(Hbase、Cassandra)等功能模块在内的完整生态系统,已经成为当前最流行的大数据处理平台,并被广泛认可和开发应用。基于Hadoop,用户可编写处理海量数据的分布式并行程序,并将其运行于由成百上千个节点组成的大规模计算机集群上。

4实例分析

本节以电信运营商为例,说明在云计算环境中基于Hadoop的大数据分析给大数据用户带来的价值。当前传统语音和短信业务量下滑,智能终端快速增长,移动互联网业务发展迅速,大数据分析可以为运营商带来新的机会,帮助运营商更好地转型。本文数据分析样本来自于某运营商的个人语音和数据业务清单,通过Hadoop2.6.0在Ubuntu12.04系统中模拟了一个大数据分析平台来处理获得的样本。希望通过对样本数据的分析与挖掘,掌握样本本身的一些信息。以上分析只是一些很基本的简单分析,实际上样本数据中所蕴含的价值要远远大于本文体现的。以上举例意在说明基于云计算的大数据分析可以在数据分析上体现出良好的性能,为企业带来更丰富更有效率的信息提取、分类,并从中获益。

5结束语

基于云计算的大数据分析已经成为解决大数据问题的主要手段,云计算环境中的大数据分析平台部署需要综合考虑硬件、网络、软件等各方面的集成,使大数据的海量信息积累体现价值,显示云计算的性能优势,而没有云计算技术的支撑也不能进行高效和准确的大数据处理分析。最后本文通过一个例子来分析了基于云计算的大数据分析给企业带来的价值,由此可见,大数据需要云计算技术的深入挖掘,同时也促进了云计算技术的不断发展。

作者:陈清金 张岩 陈存香 单位:联通云数据有限公司 中国联合网络通信集团有限公司