浅析网络安全大数据分析

时间:2022-07-10 03:54:27

浅析网络安全大数据分析

一、网络安全现状及主要问题

当前移动互联网、大数据及云技术等更新进程不断加快,数据量成指数级增长,人们对于大数据时代下网络安全的相关问题也越来越关注。信息技术创新发展伴随的安全威胁与传统安全问题相互交织,使得网络空间安全问题日益复杂隐蔽,面临的网络安全风险不断加大,各种网络攻击事件层出不穷。2016年,我国互联网网络安全状况总体平稳,未出现影响互联网正常运行的重大网络安全事件,但移动互联网恶意程序数量持续高速上涨且具有明显趋利性;来自境外的针对我国境内的网站攻击事件频繁发生;联网智能设备被恶意控制,并用于发起大流量分布式拒绝服务攻击的现象更加严重;网站数据和个人信息泄露带来的危害不断扩大;欺诈勒索软件在互联网上肆虐;具有国家背景黑客组织发动的高级持续性威胁(APT)攻击事件直接威胁了国家安全和稳定。由于大数据网络安全攻击事件仍呈高发态势,而且内容多又复杂,利用大数据分析技术特有的特点,为大规模网络安全事件监测分析提供计算支撑力量,并且对海量的基础数据进行深度挖掘及分析处理,及时监测发现网络安全事件,实现对整体网络安全态势的感知。

二、大数据基本概述及分析技术

(一)大数据基本概述

随着信息技术全面融入社会生活,整个世界的信息量正在不断增多,而且增长的速度也在不断加快。所谓的大数据是指无法在一定时间范围内用常规软件工具进行获取、存储、管理和处理分析的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的规模之大,其在获取、存储、分析等方面已经远远超出传统软件工具能力范围,业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征,分别是大量化,多样化,快速化,价值密度低。

(二)HadoopMapReduce大数据技术

Hadoop除了提供为大家所共识的HDFS分布式数据存储功能之外,还提供了叫做MapReduce的数据处理功能。HadoopMapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",其来源于函数式编程语言或者矢量编程语言里的特性。Mapreduce是一个计算框架,其表现形式就是具有一个输入(input),mapreduce操作这个输入(input),通过本身定义好的计算模型,得到一个输出(output),这个输出就是最终需要的结果,计算模型如下图所示:

(三)Spark大数据分析技术

Spark是一个基于内存计算的开源的集群(分布式)计算系统,Spark非常小巧玲珑,由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala,项目的core部分的代码只有63个Scala文件,非常短小精悍。由于是基于内存计算,效率要高于拥有Hadoop,Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,节省了磁盘IO耗时,号称性能比Hadoop快100倍。Spark是继HadoopMap-Reduce之后新兴的基于内存的大数据计算框架,相对于HadoopMapReduce来说,Spark具有一定的优势。一是计算速度快。大数据处理首先追求的是速度。官方指出“Spark允许Hadoop集群中的应用程序在内存中以100倍的速度运行,即使在磁盘上运行也能快10倍”。二是应用灵活。Spark在简单的Map及Reduce操作之外,还支持SQL查询、流式查询及复杂查询,比如开箱即用的机器学习算法。同时,用户可以在同一个工作流中无缝地搭配这些能力,应用十分灵活。三是兼容性好。Spark可以独立运行,除了可以运行在当下的YARN集群管理外,还可以读取已有的任何Hadoop数据。它可以运行在任何Hadoop数据源上,比如HBase、HDFS等。四是Spark比Hadoop更通用。Spark提供了大量的库,包括SQL、DataFrames、MLlib、GraphX、SparkStreaming。开发者可以在同一个应用程序中无缝组合使用这些库。五是实时处理性能强。Spark很好地支持实时的流计算,依赖SparkStreaming对数据进行实时处理。SparkStreaming具备功能强大的API,允许用户快速开发流应用程序。而且不像其他的流解决方案,比如Storm,SparkStreaming无须额外的代码和配置,就可以做大量的恢复和交付工作。随着UCBerkeleyAMPLab推出的新一代大数据平台Spark系统的出现和逐步发展成熟,近年来国内外开始关注在Spark平台上如何实现各种机器学习和数据挖掘并行化算法设计。

三、基于Spark技术的网络安全大数据分析平台

(一)大数据分析平台整体架构

本文提出了基于Spark技术的网络大数据分析平台,该平台分为五层,即数据接入层、解析处理层、后台分布式数据存储系统层、数据挖掘分析层、接口层,整体架构图如图3。其中,数据接入层提供多源数据的接入。解析处理层负责对接入的多源数据进行解析。后台分布式数据存储系统层负责所有数据的存储、读取和更新的功能,提供基本的API供上层调用。数据挖掘分析层基于Spark等引擎,实现分布式数据关联分析、特征提取、统计分析等安全事件挖掘能力,同时提供实时检索与溯源能力。接口层为用户可以查询的功能,其中包括数据上传、查看、任务的生成、参数设定等。

(二)网络安全大数据分析平台实现相关技术

表1网络安全大数据分析平台实现相关技术结语总而言之,当前基于大数据下的网络安全面临着越来越多的挑战,因此我们必须高度重视大数据时代下网络安全问题,应对好大数据分析处理工作。本文从当前网络安全现状及面临的问题出发,浅析HadoopMapReduce和Spark大数据分析技术,提出基于Spark技术的网络安全大数据分析平台,实现对海量数据的快速分析,该平台具有高效、高可扩展性,具有很强的适应性。

作者:陈平阳 单位:国家互联网应急中心福建分中心

参考文献:

[1]国家计算机网络应急技术处理协调中心。《2016年我国互联网网络安全态势综述》。2016.04.19

[2]邓坤。基于大数据时代下的网络安全问题分析。《课程教育研究:学法教法研究》,2016(18):15-15

[3]王帅,汪来富,金华敏,沈军。网络安全分析中的大数据技术应用[J]。《电信科学》,2015,31(7):139-144

[4]詹义,方媛。基于Spark技术的网络大数据分析平台搭建与应用。《互联网天地》,2016(2):75-78