数据挖掘在计算机取证中应用与设计

时间:2022-10-18 09:16:57

数据挖掘在计算机取证中应用与设计

摘要:计算机和网络犯罪犯罪手法新颖,而现代犯罪技术拥有高技术性、即时性、证据的易毁灭性及犯罪地点的去中心化等特点,侦查人员通过传统的设备和工具很难采集计算机犯罪证据。犯罪证据的获取不仅需要严谨的计算机辨识技术,更需要高效快速的推理分析系统。因此,以知识推理和本体理论作为研究理论技术基础,采用数据挖掘技术设计实现了一种计算机犯罪证据挖掘系统,以辅助公安机关搜集计算机犯罪证据搜集,有效打击计算机犯罪。

关键词:计算机犯罪;证据;数据挖掘;知识组织和推理

1计算机犯罪及其证据分类

计算机犯罪从以往的窃取实体的计算机转变为以网络为犯罪标的、犯罪场所和犯罪工具的犯罪行为。计算机犯罪可分为三大类型:第一种,计算机网络作为“犯罪工具”的犯罪行为;第二种,以计算机网络作为“犯罪客体”的犯罪行为;第三种,以计算机网络作为“犯罪场所”的犯罪行为。

2数据挖掘技术之数据挖掘的流程

在人工智能领域,数据挖掘又称为数据库中的知识发现。随着人类对计算机的依赖程度越来越高,无论在决策的制定上,或是在资料的处理上,都需要借助数据挖掘来分析资料,找出其中有价值的信息,以供各种决策进行参考。

3知识组织理论

3.1知识组织的概念

知识是人们在改造客观世界的实践中积累起来的认识和经验。认识包括对事物现象、本质、属性、状态、关系、联系和运动等的认识。Feigenbaum认为知识、信息和数据之间存在密切的逻辑关系。数据是事物、概念或指令的一种形式化的表示形式,适合于人工或自然方式进行通信、解释或处理。信息是根据表示数据所用的约定,赋予数据的意义。信息是数据所表达的客观事实。数据是信息的载体,与具体的介质和编码方法有关。知识是经过加工的信息。

3.2知识组织方法

知识组织即把人类知识形式化成为机器能处理的数据结构,是一组对知识的描述和约定。人工智能研究者们在早期阶段,重点研究具有因果关系的知识,因此早期的专家系统,都是基于产生式的知识库系统,例如DENDRAL、MYCIN及PROSPECTOR等分别把化学、医药和探矿等领域知识整理成一条条规则,放入知识库中,然后经过推理寻求答案。以产生式规则作为知识表示技术运用以来,产生了框架、语义网络等多种表示方法。知识的表示方法有产生式规则、谓词逻辑、语义网络及框架等。

3.3本体及其相关技术概述

主要用于描述解释并预测知识的一些元特性。本体需要继承或体现特定领域的某些观点,通常表现为一个概念集(例如,实体、属性或过程)、概念的定义及概念的间的关系。本体可以定义通用领域的本体知识,如时间、空间等,也可以定义特殊领域的本体知识,如偏好、人群或种类。在计算机研究中,本体论的研究与知识工程领域在本质上有着十分密切的联系。特别是语义Web的应用,语义Web要实现更多的自动化服务,离不开本体的形式化表示。

3.4计算机犯罪证据的特点及其挖掘和推理

3.4.1计算机证据的特点

网络犯罪是近年来随着因特网发展所兴起的新兴犯罪形式,最主要的特性是计算机系统与通信网络结合所构成的犯罪。一般而言,网络犯罪具有下列特征:(1)智能型犯罪;(2)隐匿性;(3)犯罪证据难以采集;(4)犯罪区域广泛、网络无国界,衍生管辖权问题;(5)被害者不易察觉,具有高犯罪特征;(6)犯罪成本及障碍低。

3.4.2计算机证据的发现和推理

数据挖掘应用于计算机犯罪证据,就是将犯罪嫌疑人应用过的计算机中的隐藏的文本、音视频、网络登录和浏览及病毒和木马程序信息挖掘出来,作为犯罪证据。数据挖掘的工具是利利用资料来建立一些仿真世界的模型,利用这些模型来描述资料中的形式及关系,且在数据挖掘中可以建立模型。

4计算机犯罪分析与本体构建

4.1计算机犯罪模式

由于网络犯罪尚属新兴犯罪型态,各种入侵或攻击手法随着技术的进步及网络的散播而日新月异。因此,从计算机犯罪的动机、标的及目标等三方面研究并分析计算机犯罪模式,通过计算机犯罪动机的产生、标的的选择及目标的决定,再辅以目前发生的计算机犯罪案例分析与传统犯罪模式方析,结合计算机犯罪者可能出现的入侵或攻击的手法及方式,由上而下依时序来架构完整的计算机犯罪模式。

4.2计算机犯罪的动机

计算机犯罪属于犯罪形式的一种,与传统犯罪的差异是实行犯罪的方法及所造成结果,传统犯罪与计算机犯罪的动机是相同的。在犯罪动机所作的案例抽样调查中将犯罪动机可分为图利、好玩和报复等动机。

4.3计算机犯罪的标的

一般而言,按照计算机在犯罪中所扮演的角色,可将计算机犯罪分为以下三类:第一,以计算机及链接在计算机上的计算机系统作为犯罪工具;第二,以计算机空间作为犯罪场所;第三,以计算机及链接在计算机上的计算机作为犯罪的攻击目标。

4.4计算机犯罪的目标

计算机社会是现实社会的对映,同样计算机犯罪者会针对犯罪目标实施犯罪行为,将计算机犯罪者的目标区分为组织形式与实体形式,详述如下。组织形式:根据计算机域名注册类别,并做少部分的修改,将组织形式分为政府、军事、学术、商业、团体机构(包含计算机事业机构及法人机构)及个人等,而不同的组织形式能提供的计算机犯罪的标的亦不尽相同。实体形式:所谓实体形式系指计算机上的主机种类,一个组织形式会存在一种以上的主机种类。

4.5计算机犯罪手法及方式分类

计算机犯罪虽然手法及方式繁多,但与传统犯罪一样必然会留下蛛丝马迹。由目前已发生的案例及相关研究探讨(如脚印拓取方法)将网络犯罪入侵、攻击手法或方式整理归类为病毒、木马程序、计算机窥探、密码破解、联机劫持、网页入侵、缓冲区溢出、系统安全漏洞、阻断服务及其他等十种类型。

4.6计算机犯罪证据获取模式

计算机犯罪入侵、攻击手法及方式日新月异,而犯罪侦查却仍以侦办传统犯罪形式为主。整合计算机犯罪模式、犯罪侦查程序及计算机犯罪案例,建立计算机犯罪侦查模式架构,拉近计算机犯罪与犯罪证据取证难的鸿沟,建立计算机犯罪侦查的纵向侦查链接,以解决目前计算机犯罪与犯罪侦查尚无法整合的窘境。

4.7构建计算机犯罪证据本体

知识的表示方法很多,而框架式知识表示方法与规则式知识表示法,是专家系统中被实际应用的两种知识表示法。框架表示法是利用分类法的原则,将知识进行分门别类而形成的一种层次化的知识表示方法。以框架为表达的基本结构体,在每一框架中,可分别代表一项目标或事物的说明,让使用者能简易的叙述某一专业化环境中的相关知识或事物,从而达到建立知识库的目的。在框架表示法中,需要特别强调目标-属性-附值三者之间的关系。通常,有关某一应用领域的知识层,可以看成是由主题及对此主题的说明两部分组成。对主题的描述命名为一槽(SLOT),而由此又可衍生出另一个槽的发展,代表从某一主题引导出另一个次主题的产生。根据本体论方法和计算机犯罪案例,构建涵盖计算机犯罪动机、犯罪标的、犯罪目标、犯罪方式、犯罪手法及犯罪类型的知识本体数据库,建立计算机犯罪的“犯罪动机”“犯罪标的”“组织目标”“实体目标”“手法方式”及“犯罪类型”属性连接和决策树推理机制,以适应K-means算法进行计算机犯罪证据挖掘和推理。通过上述本体规则描述,采用OWL构建一个计算机犯罪动机、犯罪标的、组织目标、实体目标、手法方式和犯罪类型的描述和交换元数据的框架,用交换元数据节点表示各种事物、概念、属性及知识实体,用有向边表示各种语义联系,指明其所链接的节点间的某种关系。例如,因为“时间”和“事件”存在着“动机”的联系,所以可以用RDF模型来表示“时间”和“事件”存在着“动机”的语义联系。

4.8计算机犯罪证据挖掘算法

计算机犯罪划分为犯罪动机、犯罪标的、组织目标、实体目标、手法方式和犯罪类型形式多样,采用传统的数据挖掘算法在聚类的过程中孤立点的存在会造成聚类结果的不准确,而初始聚类中心随机性选择会加大算法陷入局部最优解的可能和使得迭代次数增多。因此,重点在于孤立点地检测和初始聚类中心的确定两个方面加以改进。

5计算机犯罪证据挖掘系统的设计与实现

计算机网络犯罪模式虽然手法和种类众多,但仍有蛛丝马迹可循。在证据侦查方面,亦如同传统犯罪经验需要经验和知识传承。因此,将网络犯罪模式进行分类整合,辅以目前实务案例和相关资源,采用现代人工智能技术,开发一种计算机证据挖掘系统,辅助司法与公安机关计算机犯罪取证工作。

6结语

知识组织根据知识本身的特点和知识间内在的联系来分析知识内容,有利于语义推理,便于用户更快的获取、利用知识。本体作为一种知识表示方式,能通过一定的语义联系与相关的知识组织进行链接,实现知识的组织、查询及用户挖掘。目前,已经有一些搜索引擎或挖掘系统利用查询扩展来帮助使用者进行查询,但对于特定专业领域的效益还是不够。为解决此类问题,采用protégé、OWL及Jena工具,建立一种基于本体的计算机犯罪证据组织与挖掘系统。

参考文献

[1]秦霞,丁欣.我国计算机犯罪的原因与防治[J].职工法律天地,2017(4):130-131.

[2]米佳,刘浩阳.计算机取证技术[M].北京:群众出版社,2007.

作者:王周娟 黄文明 单位:桂林电子科技大学