烟草网络安全态势感知研究与应用

时间:2022-11-16 10:56:06

烟草网络安全态势感知研究与应用

摘要:通过安全数据分析可知,中国烟草总公司福建省公司每年遭受高达千万次级别网络安全攻击事件,特殊高峰时期遭受的网络安全攻击事件高达百万次。如何在高频次网络攻击条件下,采用多维数据的综合梳理及关联分析,结合威胁情报技术以及相关算法检测,构建自学习行为模型而形成用户访问行为基线发现基于偏离度的异常行为,实现快速检索发现真正攻击源IP、攻击方法以及主要被攻击目标对象。并将相关威胁和态势进行可视化呈现,帮助中国烟草总公司福建省公司感知新型网络攻击行为,发现潜伏的隐患和威胁,进而提供决策支撑。并通过态势感知,建立应急响应、安全预警机制,完善风险控制,实现整体安全防护水平的提升。

关键词:关联分析;威胁情报;算法检测;攻击行为;态势感知

1态势感知概述

态势感知起源于20世纪80年代的美国空军,主要用于对战场形势的分析及判断,并提供相关情报信息,用于领导层面决策,从而取得战场上的军事胜利。在网络安全层面上,态势感知的研究,则主要侧重于网络攻击形态及趋势方面的信息研究,态势感知的研究面临着全局性、动态性、复杂性、有效性、准确性等诸多因素影响。态势感知的研究主要分为三级,一级态势感知主要进行海量信息或数据的收集研究,包括主机、网络、安全、应用、物理、情报、威胁等各方面数据信息的采集。二级态势主要进行数据关系及数据融合的梳理研究,数据融合技术是指利用计算机对按时序获得的若干观测信息,在一定准则下加以自动分析、综合,以完成所需的决策和评估任务而进行的信息处理技术,包括数据关联、数据合并、数据提取,数据有效性、准确性、趋势性归纳、统计、分析。三级态势主要进行数据预测及可视化展示,包括资产、威胁、风险、脆弱性等各方面数据可视化展示及趋势预测分析。态势感知的研究最终要形成具有多源数据融合与可视化、异质性、自动化、实时处理特点的风险评估、决策、预测系统。

2福建省局态势感知实践

中国烟草总公司福建省公司按照整体防御、分区隔离;积极防御、内外兼防;自身防御、主动免疫;纵深防御、技管并重的安全原则构建其网络安全域,安全区域划分为统一互联网出口区、DMZ区、银行前置服务、银联外联区、核心区、办公区、服务器区、广域网区、行业业务专网区等安全区域。并分别在每个区域部署了防火墙、入侵防御、Web应用安全网关、高级持续性威胁检测系统等安全防护和检测设备进行安全防护,从而保障各项业务系统安全稳定运行。按照传统运维模式,中国烟草总公司福建省公司每日对安全设备进行安全检查,日常平均攻击告警数量在数万之间,特殊时期下攻击告警时间高达数百万次。在安全设备数量多、安全事件日志基数大的条件下,日常安全运维存在安全日志分析不完整情况,从而造成安全事件分析遗漏,对攻击源IP、受攻击目标系统、攻击方式定位不完整不快速等情况。最终有可能导致相关安全事件的发生。因此急需部署一套网络安全态势感知系统,从物理层面、网络层面、安全层面、业务层面、漏洞隐患、网络攻击、威胁情报等各方面关联分析及综合分析,并利用可视化技术进行风险或态势呈现。福建省局网络安全态势感知的建立研究主要包括三个层面,一是底层数据的采集获取及存储。数据采集获取方式主要有三种,一是来自福建省局网络、安全、系统、业务数据等各方面日志信息,通过syslog、SNMP、采集器等方式将数据采集发送至态势感知平台;二是部署网络安全流量探针进行数据流量威胁分析,主要抓取互联网出口、DMZ区业务口、银行外联区出口、广域网区和行业业务专网区、服务器区等关键区域的业务流量;三是与外部单位合作,购买威胁情报数据,将内网数据有外部威胁情报数据进行耦合关联,提升内网攻击IP定位的真实准确性以及确认互联网威胁攻击IP的可靠性。二是数据的分析及计算。针对采集上来的各类安全数据信息及威胁情报数据信息,采用朴素贝叶斯算法、随机森林、聚类算法等相关算法,实现对网络安全设备日志分析、网络流量分析、威胁情报分析、漏洞脆弱性分析、网络安全风险分析以及宏观态势分析。网络安全风险分析包括了资产价值分析、弱点分析、威胁分析、风险评估、影响性分析等;宏观态势分析包括了地址熵分析、热点分析、关键安全指标分析、业务健康度分析、关键管理指标分析。三是网络安全态势可视化展示。

3态势感知关键技术及算法

如何将众多安全设备数据、流量探针数据、威胁情报数据等数据进行关联对接、真实数据提取和有效性分析,考验的是整个网络安全态势感知系统的算法能力及处置能力。一个良好的算法,可以高效快速解决许多问题,本次网络安全态势感知主要算法包括聚类算法、异常点算法、BP神经网络的网络恶意行为网络流特征分析等算法技术,同时引入异常检测、机器学习等相关技术。通过该些技术及算法的加持优化,使得整个态势感知平台更具智能、更具感知,提供更为准确有效的态势分析决策功能。3.1关联分析福建省局存在较多的网络安全设备,通过对设备安全日志的分析,经常在不同区域、不同安全设备上面发现同一个攻击目标源IP或是攻击源IP,如何有效提取真正有效攻击信息,则需要进行对众多安全日志的关联分析,需要采用关联挖掘技术和大数据技术,通过关联分析,查找存在于项目集合或对象集合之间的频繁模式、关联规则、相关性或者因果结构。对提取的事件基于规则、统计、资产等属性进行分析,通过逻辑符号and、and、not来表示属性的逻辑关系。当符合相应的限制条件时,则激活相应的规则进行误报排除、事件源推论、安全事件级别重新定义、阈值关联、黑名单等动作。数据经过分析和计算后,通过前端可视化技术,采用数据同步方式,将福建省局所感兴趣的内网威胁和外网攻击等各方面数据进行可视化展示,可视化展示的内容主要包括攻击类型分布、攻击目标排行榜、实时攻击数据浏览、资产攻击数据统计、内网威胁分布情况、内网威胁趋势、攻击告警数据展示以及攻击地图数据展示。福建省局存在较多的网络安全设备,通过对设备安全日志的分析,经常在不同区域、不同安全设备上面发现同一个攻击目标源IP或是攻击源IP,如何有效提取真正有效攻击信息,则需要进行对众多安全日志的关联分析,需要采用关联挖掘技术和大数据技术,通过关联分析,查找存在于项目集合或对象集合之间的频繁模式、关联规则、相关性或者因果结构。对提取的事件基于规则、统计、资产等属性进行分析,通过逻辑符号and、and、not来表示属性的逻辑关系。当符合相应的限制条件时,则激活相应的规则进行误报排除、事件源推论、安全事件级别重新定义、阈值关联、黑名单等动作。3.2多元数据接入。福建省局网络安全态势感知系统基于大数据计算和存储技术,支持DIKI(D-Data网络流数据,设备日志、Web及应用服务器日志等数据;I-Information企业关联信息例如漏洞扫描数据;K-Knowledge安全知识;I-ThreatIntelligence威胁情报)数据接入,并基于安全分析需要进行数据范式化、清洗与转换、丰富化和标签等加工处理,对部分安全设备告警数据提供语义自动理解识别能力,使数据“干净可用”,保证数据质量。同时,支持对漏洞信息数据的导入,从而实现威胁信息与漏洞信息的关联匹配,为整个网络安全风险进行充分赋值及确认。3.3通过模型构建智能画像。攻击分析常常基于特征码signature来识别攻击,特征知识库不能覆盖的攻击无法发现。但攻击者越来越容易改变这些特征指标来有效地逃避检测,现代攻击以多阶段、快速变换特征码方式进行攻击和隐藏自身,由于攻击者行为模式相对而言更不易改变。因此,需要通过新一代威胁分析技术,构建多维模型,采用多种分析方法来对攻击者的技战术(战术、技术、过程)来发现。追踪攻击者的攻击路线,形成攻击流程图,提取攻击者的相关指纹信息和画像数据,最终形成画像及相关信息属性,包括使用过的IP地址、账号、常访问的系统、安装软件、漏洞信息、流量趋势等,为后续的安全事件调查分析提供相关数据支撑。3.4基于皮尔逊相关系统的网络流持续时间特征分析。Pearson相关系数是用协方差除以两个变量的标准差得到的,虽然协方差能反映两个随机变量的相关程度(协方差大于0的时候表示两者正相关,小于0的时候表示两者负相关),但是协方差值的大小并不能很好地度量两个随机变量的关联程度,为了更好度量两个随机变量的相关程度,引入了Pearson相关系数,其在协方差的基础上除以了两个随机变量的标准差,容易得出,pearson是一个介于-1和1之间的值,当两个变量的线性关系增强时,相关系数趋于1或-1;当一个变量增大,另一个变量也增大时,表明它们之间是正相关的,相关系数大于0;如果一个变量增大,另一个变量却减小,表明它们之间是负相关的,相关系数小于0;如果相关系数等于0,表明它们之间不存在线性相关关系。《数据挖掘导论》给出了一个很好的图来说明(图2):图2皮尔逊相关系数图在考虑到僵尸、木马、蠕虫等网络恶意行为的网络数据流相互之间可能存在相关性,因此将皮尔逊相关系数引入态势感知平台,以描述网络流之间相互关联度。3.5基于随机森林的深度威胁检测技术。随机森林是机器学习中的一种常用方法,而随机森林背后的思想,更是与群体智慧,甚至“看不见的手”相互映照。随机森林顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为那一类。随机森林算法具有准确率高、鲁棒性好、易于使用等特点,是最流行的机器学习算法之一,相对于其他机器学习分类算法有很多的优点,表现优异。在处理特征维度较高的数据时不用做特征的选择,能达到较高的识别精度,模型泛化能力强且在训练时树与树之间是相互独立的,能达到较快的训练速度。随机森林算法在处理特征维度较高的数据时不用做特征的选择,能达到较高的识别精度,模型泛化能力强且在训练时树与树之间是相互独立的。在态势感知平台中利用随机森林的机器学习算法进行分类器的训练,最终可以得出恶意网络行为的结果。3.6基于聚类算法的异常流量识别。聚类分析指将数据点集按照一定的规则进行划分,使得同一个分组(称为簇)内数据点之间的相似度较高,而不同分组(簇)数据点之间的相似度较低。聚类分析是数据挖掘中常用的统计分析手段,在机器学习领域中通常将其归为无监督学习方法,因为它的输入数据不需要进行标注。聚类算法是聚类分析中使用的各类算法的统称,不同算法的聚类分析结果可能存在较大差异,主要原因是它们的聚类模型不同,一些代表性的模型思想有连接模型、图模型、分布模型、密度模型和中心模型等。这些聚类算法有各自的优缺点及适用场景,对此不进行深入探讨,而只对异常流量识别这一工作有影响的两点简单说明如下:(1)大部分聚类算法依赖于距离的计算,但对于高维数据,传统概念的距离衡量变得不再精确有效;(2)很多聚类算法会将所有数据点都划分入某一个簇中,从而无法用于异常数据点的识别。3.7基于异常点算法的异常流量识别。异常点检测是指数据挖掘领域中识别与期望模式相违背或与其他大多数数据点相偏离的数据点,而用于检测识别异常点的具体算法则统称为异常点检测算法。与聚类算法相同,异常点检测算法也属于无监督学习一类,作为算法输入的数据不需要标注。根据算法的指导思想不同,异常点检测算法可以分类为基于机器学习、基于角度、基于空间、基于密度等不同维度。3.8基于SVM的多维护特征构建方法(图3)支持向量机(SVM,SupportVectorMachine)是根据统计学习理论和结构风险最小原则提出的一种机器学习方法。它能提高学习机的泛化能力,由有限训练样本得到的决策规则对独立的测试集仍能得到较小的误差,是一种具备较高分类性能和容噪能力的机器学习方法。3.9基于BP神经网络的网络恶意行为网络流特征分析BP神经网络的基本原理是采用梯度下降法调整权值和阈值使得网络的实际输出值和期望输出值的均方误差值最小。标准的BP算法在修正权值时没有考虑以前时刻的梯度方向,从而使学习过程常常发生振荡,收敛缓慢。在态势感知平台采用一种改进的BP学习算法,通过引入动量项来减小学习过程的振荡趋势,改善收敛性。

4结论及成效

网络安全态势感知的研究,包含多个方面的态势感知研究分析,包括资产运行态势、风险威胁态势、漏洞攻击态势、情报威胁态势等众多态势研究及分析,单位网络安全态势感知的建设,属于一个持续性的安全建设过程,同时,随着大数据、人工智能、云计算、机器学习等方面新技术的发展。网络安全态势感知平台的建设愈发完善及强大。可以为后续领导网络安全建设工作决策提供辅助意见。同时也更好的响应和支撑单位应急响应工作,精准抓出有效攻击源头和路径,有效提升事件查看、分析及解决的效率。

参考文献:

[1]董超,刘雷.大数据网络安全态势感知中数据融合技术研究[J].网络安全技术与应用,2019(7):60-62.

[2]石乐义,刘佳,刘祎豪,等.网络安全态势感知研究综述[J].计算机工程与应用,2019,55(24):1-9.

[3]王传栋,叶青,姚橹,等.基于大数据的网络恶意行为及特征关联分析[J].太原理工大学学报,2018,49(2):264-273.

[4]李丹丹.网络安全态势感知引擎的设计与实现[D].西安:西安电子科技大学,2018.

[5]朱博文.基于大数据的网络安全态势感知模型研究[D].泉州:华侨大学,2018.

作者:王强 单位:中国烟草总公司福建省公司信息中心