大数据时资统计数据处理探究

时间:2022-06-25 03:12:52

大数据时资统计数据处理探究

【摘要】当前随着国际竞争日益激烈,新形势下各行各业发展都面临着诸多的挑战,市场环境具有不可预测性,统计数据信息变得更加重要。大数据时代的到来为统计工作提供了强大的技术支持,与此同时数据更新速度不断加快,数据类型日益多样化,处理难度也越来越大,增加了统计工作难度。本文着重研究了投资统计大数据相关的处理关键技术,以供参考。

【关键词】投资统计;大数据;处理;关键技术;分析

大数据时代背景下,促使信息生成、传播效率不断提升,越来越多的结构化、半结构化和非结构化数据的出现,增加了统计工作难度。统计数据在投资领域具有重要的参考价值,如果不能保证统计数据的权威性,统计信息不对称,将会影响投资决策的成败。加强投资统计大数据处理关键技术分析,有助于积累更多的统计数据处理经验,从而引导相关行业领域的人士提高投资决策的科学性,获得更大的收益。

一、加强投资统计大数据关键处理技术研究的重要意义

大数据时代背景下数据类型日益多元化,数据具有应用价值大、数量多、速度更新快的特点,这对于投资统计数据处理技术也提出了新的挑战。投资统计是指搜集、整理、分析和应用的数据,目前国家金融体制改革进程有序推进,为了更好地提高投资统计的科学性和准确性,就需要结合实际形势,深入研究投资统计大数据关键处理技术,这样才能对海量的数据进行实时动态多元化处理,全面有效分析统计数据背后的规律,提高投资统计数据处理水平,进而为国家有关部门和行业决策提供基本参考支持,也有助于推动国家整体金融市场良性有序发展。

二、投资统计大数据基本特征分析

在投资系统中数据通常可以分成三种类型,主要涉及项目投资管理数据、联网直报房地产投资数据、规下投资抽样数据。此外还可以根据数据的内在结构将投资系统数据分成结构化数据和非结构化数据两大类型,前者主要是通过统计系统企业的原始数据应用二维表形式展现的数据,后者主要是指不能以二维表形式来展现的数据,其中包含文本、音频、视频、图片等多种类型的数据样式。投资统计大数据可以借助遥感技术、地理信息系统技术等进行动态监测,实时掌握相关的数据,进而与投资统计业务进行关联性研究。一方面既要对投资统计系统运行情况进行定位,每月定期生成相关的投资统计数据,另一方面又要借助PDA设备等及时搜集对投资统计项目样本点的变动情况进行动态采集,此外还要对投资统计系统运行中的与重大项目投资进度相关的以及与住建、发改、税务、工商等相关部门相关联的数据进行共享分析和比对,进而提高投资统计数据综合管理效能。投资统计大数据具有典型的独特的特征,主要体现在以下几个方面:1.数据量日益庞大。大数据时代的到来信息的生成、变化速度越来越快,投资统计数据逐渐从TB级升级到PB级。2.数据类型日益多样化。目前各级有关部门对投资统计数据的关注度越来越高,需求越来越准,所以需要对统计数据进行全方位的分析和研究,才能更好地满足现实要求,提高投资数据综合利用价值。3.投资统计数据利用度不高。投资统计数据的采集是一个动态的过程,收集的数据量非常大,通过运用相关的监测技术可以对重大投资项目过程相关的数据进行监测,虽然数据收集的很多,但是很多数据往往都属于正常范围,只有少量的有用的数据出现异常,这些对于投资项目影响较大,所以需要对这些数据进行进一步的精细化处理,检验数据是否正确、真实和有效,所以可利用的具有价值的数据往往所占的比重较小。4.投资统计数据处理效率要求不断提高。新时期投资统计数据变化越来越快,所以对数据投资的速度要求也越来越高,需要借助新型计算机、云技术等在短时间内快速完成数据处理和分析,才能更好地体现投资统计数据的价值,更好地发挥应有的功能。

三、投资统计大数据处理关键技术具体分析

投资统计大数据处理,需要加强技术攻关,从数据采集、传输、存储到处理分析等各个环节都需要应有很多的技术和方法,才能确保环环相扣,不断提高投资统计效率和质量,具体每个环节涉及到的关键技术主要有:1.大数据采集技术。数据采集是投资统计管理体系中最基础的部分和单元,通过借助相关的技术对各类数据端口进行采集,才能确保数据的完整性。大数据的采集通常会涉及到很多数据库同时接收相关的数据,采集的难点在于数据并发高,同时会有大量的数据访问和操作,所以需要在数据采集端口有完善的采集技术来进行支持,才能承载数据运载负荷,保证数据尽可能全面有效地采集,采集技术目前主要是借助Google文件系统GFS技术,对空间范围内的各类数据进行收集、整理,动态监控数据的变化情况,并可以实现在横向和纵向领域内的动态管控。目前在投资统计大数据采集阶段,需要不断加强技术攻关,未来信息的重要性更加凸显,只有不断提高数据采集能力,才能最大限度地发挥统计数据应有的参考价值,从源头上第一时间掌握相关的数据资源,提高最大化开发利用效能。2.大数据传输、存储技术。目前投资统计系统应用的数据联网直报系统,通过构建统一规范的数据联网直报平台,进而实现数据的动态传输和存储,确保各类原始数据能够及时生成并传送至相应平台进行共享。随着投资统计数据量不断扩大,需要对数据存储和传输系统进行不断升级,否则会带来一些隐患,降低处理效率,这就应用到大数据传输与存储技术,通常的处理手段是进行数据压缩,从而降低数据存储空间,实现数据的快速传输。需要借助投资统计数据传输处理技术,构建批量处理模型,解决系统资源占用空间较大、资源不能有效利用的问题,目前常用的处理技术是MapReduce批处理模型,可以实现在常规计算机平台上的联机处置,还可以进行输入数据分割,进而实现计算机集群的统一调度,确保各个数据处理端口能够保持联通。数据从采集到传输,再到存储,同样需要依靠相应的关键技术来进行保存处理,目前比较普遍的存储方式是分布式保存方式,这种保存方式比较可靠、安全,但是也会带来一系列的问题,比如有些数据时刻在发生变化,时刻都在不断产生,这对于数据存储来说增加了难度,需要有相应的技术对不同端口接收来的数据进行处理,尤其是对于那些非结构化数据,处理难度较大,占用时间长,需要进行快速分类和集约化处理并建立实施分类存储机制,所以需要应用到投资遥感监测处理技术,针对容量较大的文件和容量较小的文件目前可以分别应用GFS的分布式文件系统、Haystack系统来解决存储问题。3.大数据实时处理技术。投资统计大数据,除了进行采集和存储传输以外,还要进行实时动态处理,处理能力直接决定了数据的应用价值。目前常用的实时处理技术是云计算系统,该系统可以满足常规的投资统计处理服务,但是在联网直报高峰期,系统也会出现处理差错,降低处理效率和处理的准确性。由于投资统计数类型多样,计算过程比较复杂,数据转化等方面也存在一些衔接的问题,统计指标属性不完整、数据错误异常等情况处理等过程,都影响数据分析,所以需要构建更加开放的分布式处理系统,才能实现大规模处理,目前开发的Sector广域网分布式系统,可以针对不同数据进行大规模集中处理、分割和转交。4.大数据分析技术。在投资统计大数据处理分析方面,目前常用的技术是Bigtable分布式、按列存储、多维表结构的实时分布式数据库,可以应用SQL语言对数据进行集中分析处理,还可以引入LOD技术实现可视化分析,该技术与常规的数据处理技术不同,可以针对不同类型的大数据,构建数据采集环境,通过构建平值法、平滑法、预测法和频率统计法等统计数据相关模型实现数据的深度对比分析。

总之,投资统计大数据处理关键技术,对投资统计工作起到了强有力的支撑作用,未来随着投资环境更加复杂,投资统计数据处理技术也将进一步升级,为持续提升投资统计效能提供更大的支持。

【参考文献】

[1]陈鹏,逯元堂,朱建华,张筝.中国现行环保投资统计口径优化研究[J].生态经济,2017(07)

[2]廖加泽.投资统计大数据处理关键技术[J].电子技术与软件工程,2015(08)

[3]罗文晋.基于门限模型的量化投资统计套利策略研究[J].广东财经大学,2016(11)

作者:林瑞振 单位:福建省泉州市泉港区统计局