云计算大数据挖掘体系构建分析

时间:2022-04-09 02:56:56

云计算大数据挖掘体系构建分析

摘要:随着移动互联网、移动智能终端技术的快速发展,各种业务数据有了井喷式的增加,尤其是物联网的快速发展,产生了海量的实时监测数据。随着数据量的增大和数据类型的丰富,产生了大数据挖掘和云计算技术,本文从大数据挖掘步骤为切入点,分析了大数据挖掘存在的问题以及利用云计算技术解决问题的过程。

关键词:云计算;大数据挖掘

1引言

随着互联网技术的飞速发展以及各行业信息化的深入,业务数据从数量上还有类型上都发生了井喷式增长,特别是近几年物联网技术的普及,大量时序数据的产生标识着人类已经迈进了大数据时代。大数据不仅是数据量大,数据类型也极大的丰富。有传统的结构化数据,也有文本、图片、视频等非结构化数据。大数据带来的潜在价值随着大数据挖掘技术的发展渐渐凸显出来。同时,基于云计算自身具备的计算存储资源松耦合集成和弹性资源分配等特点,能够在很大程度上支撑构建大数据挖掘体系所需的算力和存储资源需求,降低运行成本,安全可靠。

2大数据挖掘技术介绍

随着信息系统数字化和智能化的不断推进,数据规模也将呈指数级趋势增长。大数据挖掘将成为推动整个产业数字化升级的重要抓手和举措。大数据顾名思义是指数量极大的数据汇聚而成,大数据包括业务系统产生的业务数据,电商交易数据,物联网技术产生的时序数据,工业制造数据等等。这些数据中包含了极大的潜在价值有待开发,大数据挖掘技术指的是从海量数据中利用合适的模型挖掘出有用的信息反馈给原来的系统,带来更多的业务价值。大数据挖掘分成六个步骤:(1)定义问题:在进行数据挖掘之前,首先需要定义本次挖掘需要解决的问题是什么,也就是说要给本次数据挖掘定义明确的目标。根据大数据定义的问题选择适合的模型,模型是否合适关系着本次挖掘是否成功。(2)建立大数据挖掘库:大数据挖掘的根本就是用存在的历史数据训练选择的模型,调整模型中可以改变的参数达到本次挖掘最好的效果,所以建立大数据挖掘库至关重要。建立大数据挖掘库首先要收集数据并对数据进行描述,通过ETL技术对数据进行清洗、转化和加载。保证数据库中的数据是有效数据。(3)分析数据:对准备好的数据进行分析,由于大数据的数据量非常巨大,用人工分析几乎不可能。一般借助R语言或者Scala语言对数据进行分析,发现数据中对挖掘预测有影响的字段,为接下来的工作做好准备。(4)准备数据:通过数据分析后,可以锁定对挖掘预测结果有明显影响的字段,选择这些数据并进行记录,如果有进一步的需要,可以对这些数据进行函数转化后创造新的变量,并对这些新的变量进行记录,为后续的数据挖掘工作夯实数据基础。(5)建立并训练模型:根据过程开始定义的问题建立挖掘模型,建立挖掘模型是一个迭代的过程,首先考察不同的模型以判断是否对定义的问题有用。先用一部分准备的数据对模型进行训练,调整模型中的变量,然后在选择另一部分数据对模型进行测试,如有需要,可以再选取一个数据集,对建立的模型进行验证。(6)评价模型并进行实施:训练好的模型要在实际的应用中进行推广,这对模型是一次考验。训练模型中会存在某些假设的条件,如果这些条件与实现的应用中条件一致,模型的评价度将会更高。评价模型首先要在小规模范围内进行实施然后分析预测的结果是否与实际情况相符。如果模型的评价度较高,则可以在大范围内进行推广。模型的实施一般有两种使用方法,一种是给数据分析人员或者是业务系统作为工具,根据实际的数据对业务趋势进行预测;二是把评价过的模型应用到不同的数据集合上。随着近几年互联网的高速发展,业务数据量的急速增长,业务场景也变得越来越复杂,大数据挖掘过程中数据的存储,数据的计算对计算机的要求变得越来越高,大数据挖掘需要的基础资源的成本也随之迅速上升。

3云计算助力大数据挖掘

云计算能够为大数据挖掘提供低成本的算力和存储环境。云计算主要是通过虚拟化技术将CPU计算资源、硬件存储和网络资源虚拟成多个环境,根据计算和存储资源的需求情况进行动态弹性管理,从而最大限度提升物理资源的复用价值,有效降低大数据挖掘的运行成本。云计算能够为大数据挖掘构建一个高可用的算力及存储运行环境。为此利用云计算技术能够完成大数据挖掘所需要的规模级数据存储和计算功能。同时,云计算提供了一个高度安全可靠的运行环境,通常可以实现99.9%的高可用计算性能,能够为大数据挖掘提供实时计算和安全保障,最大限度避免因电路故障或其它故障导致大数据挖掘服务停止运行等问题。云计算能够为大数据挖掘构建一个高扩展的算力及存储运行环境。基于云计算自身的高度开放集成和扩展性等特点,能够随着大数据挖掘规模的变化来动态增减算力和存储资源,从而使得整个应用集成系统构建具有较高灵活性,从而有效降低算力资源和存储资源的浪费,极大提升大数据挖掘系统的经济和环境效益。

4结束语

云计算技术的落地为大数据的存储和计算提供了弹性的资源管理环境,按需分配大数据挖掘需要的资源,降低了大数据挖掘的成本。随着云计算和大数据技术的不断进步,云计算和大数据技术的融合越来越紧密,云计算为大数据挖掘的快速发展提供良好的资源支持。

参考文献

[1]邓仲华,刘伟伟,陆颖隽.基于云计算的大数据挖掘内涵及解决方案研究[J].情报理论与实践,2015,38(07):103-108.

[2]饶正婵,蒲天银.云计算条件下的大数据挖掘内涵及解决方案[J].电子技术与软件工程,2018(13):154-155.

[3]孙培锋.基于云计算的大数据挖掘体系架构研究[J].信息技术与信息化,2018(09):167-169.

作者:肖婧 单位:山西潞安集团余吾煤业有限责任公司