电子政务邮件取证分析技术研究

时间:2022-12-07 09:46:16

电子政务邮件取证分析技术研究

【摘要】电子邮件系统已经成为我国电子政务中信息交换的重要载体,如何准确、快速地对电子政务邮件系统中敏感邮件的扩散进行追踪溯源,已经成为当前核查工作的重点。本文针对电子政务系统邮件取证中用户关系挖掘困难的问题,基于Louvain算法对电子政务邮件网络中潜在的社区进行发现并与邮件数据分析相结合,挖掘出邮件网络内部的人物关系网络并对邮件网络进行可视化分析,可支撑电子政务邮件取证工作的开展。

【关键词】邮件取证;关系挖掘;可视化分析;扩散追踪

1引言

随着计算机技术和互联网的高速发展,电子邮件在多个行业特别是电子政务系统中得到广泛使用。电子邮件在便利人们生活的同时,也被犯罪分子所利用,使用电子邮件进行垃圾邮件传播等活动,这些行为可能使受害者遭受严重损失。为了打击电子政务系统中的邮件犯罪行为,必须依靠电子邮件取证技术[1]。传统的电子邮件取证过程一般包括原始数据的获取、邮件相关数据提取、邮件恢复、文件转换和信息提取、查询和关键字查找、得出相关结论等6个步骤,取证人员通过关键字查找的方式挖掘邮件之间可能存在的联系,从人物、事件、时间3个维度对邮件数据进行分析,最终得出案件相关人员之间的人物关系网络、事件关系网络等。在小数据集的情况下,这种传统的关键字查找方式较为适用,但是当需要取证的邮件数据庞大、相关人员关系复杂时,一次关键字查找将会获得大量冗余结果,获取人员之间的人物关系网络将会变得极为困难,不仅消耗大量的资源,分析结果也往往不尽如人意。在这种现状下,本文对邮件取证中的人物关系网络挖掘进行了研究和改进。本文使用Louvain算法对邮件网络中的潜在社区进行发现,结合对特定邮件传播轨迹的可视化,分析比较特定邮件在邮件用户社区中的传播情况和扩散范围,通过对扩散范围和社区边界的比对来发现邮件系统存在的其他有害邮件,挖掘出邮件网络内部的人物关系网络。从计算学的观点来看,社交关系挖掘的研究主要包括3个方面[2]:关系链接预测,即预测和推荐未知的链接,如Liben-Nowell和Kleinberg[3]系统地研究了推断用户之间新链接的问题;关系类型预测,即自动地识别与每一个社交关系相关联的语义,如Leskovec[4]等人使用Logistic回归模型预测在线社交网络中的正/负关系,Diehl[5]等人通过学习排序函数识别“经理—下属”关系等;关系交互预测,即研究单向的社交关系怎样发展成双向的社交关系及其产生的原因,如Lou[6]等人研究了社交关系如何发展成三元闭包等。从这类角度来看,本文对人物关系网络的研究属于关系挖掘研究中的关系链接预测,即预测和推荐未知的链接(发现邮件系统存在的其他有害邮件);相比于传统的关键字查找方式,这种方法结合了邮件社区划分和邮件扩散可视化,大大减少了取证人员的工作量,更加直观地展示了邮件用户之间的关系,更准确地挖掘出人物关系网络,从而提高了电子邮件取证工作的质量和效率。实验证明,本文提出的方法在追踪特定邮件附件扩散范围的场景下应用效果良好。

2邮件取证

电子邮件取证的原始数据一般来自多个数据源,包括发件人或收件人使用的终端、邮件传递服务器上的存储介质等,如果是Web端邮件则需要检查用户浏览器的相关信息,如缓存、日志等。这些数据较为原始,提取需要较强的专业知识且一般不能直接理解,同时这些数据一般包含着大量的无关信息,需要进一步筛选;获取原始数据后,需要使用一定的技术手段来获取与邮件证据相关的数据,这一步直接决定了之后要处理数据的规模和质量,因而是整个电子邮件取证过程中较为关键的一步;通过上一步的筛选,得到所有与邮件相关的数据,但是这些数据仍然处于取证人员很难理解的形式,需要进行数据恢复和格式重组来得到可读性更高的原始邮件内容;根据重组后的邮件格式进行文件转换及信息提取后,可以将邮件内容转化为可以直接阅读的文本、图片等形式;到了这一步,邮件数据已经完全可读,此时根据传统的办法对所有邮件数据进行关键字查找等处理,进而得出人物关系网络、事件关系网络等,以及得出有效的电子证据;分析完成后,根据确定的关系网络、电子证据等对案件的过程进行还原,从时间、事件、人物3个维度对原始场景进行构建并得出最终结论。在查询和关键字查找步骤中,已经获得了所有与案件相关且直接可读的邮件数据,此时传统的方法会对所有邮件数据进行关键字查找等分析处理,进而挖掘出人物关系网络、事件关系网络等结构性信息,这种方法在面对数据总量庞大、涉及人员众多、人员关系错综复杂的情况时效果将会显著下降。这正是本文主要研究和解决的问题。

3基于Louvain算法的邮件网络人物关系

网络挖掘方法现实网络中存在着大量的社区结构,这些结构表现为社区内部节点联系紧密,而外部节点联系稀疏。Louvain算法是Vincent等提出的一种进行快速社区发现的算法,该算法在面对大型网络时能够取得较好的效果,如图1所示。在邮件取证中有一种重要场景追踪特定邮件附件的扩散范围,即通过对所有相关邮件数据的分析来确定一个或多个特定邮件附件在邮件网络中的传播情况,包括原始邮件的发送者、邮件的所有接收者、邮件的转发情况、是否有其他的来源等。在这种场景下,仅考虑查询邮件附件hash是不够的,因为作为分析依据的邮件数据可能存在缺失,因此,需要结合邮件用户的社区划分情况对可能存在的附件传递进行推测。已知的附件传播链与邮件用户的社区划分存在以下两种可能的关系,如图2所示。图2(a)中,已知的附件传播链所有部分属于同一个社区,此时可以认为指定的邮件附件仅在此社区内传播,该社区即为邮件网络人物关系网络;图2(b)中,已知的附件传播链各部分分属两个或多个社区,即指定的邮件附件从初始社区传播到多个社区当中,每个社区都有全部或者部分用户参与了附件传播的过程,此时认为附件传播链跨过的所有社区共同组成邮件网络人物关系网络。为了更好地对比附件的转发链与邮件用户社区分布的关系,笔者对原始邮件数据进行了可视化,整个过程的数据处理流程如图3所示。最终将邮件数据的显示形式由原始的{发件人;收件人;时间;附件hash}转换为更直观的网络拓扑形式,在可视化界面中可以清晰地观察附件扩散范围和邮件用户社区分布,进而发现邮件系统存在的其他有害邮件,挖掘出邮件网络内部的人物关系网络。

4实验与结果分析

4.1实验数据实验使用的数据分为2个部分。(1)美国全国委员会(DNC)邮件。2016年7月22日,维基解密网站公布了美国全国委员会内部的一批绝密邮件,这些邮件真实记录了希拉里在邮件门事件爆发之前与高层的通信情况,共包含19252封邮件,时间跨度从2015年5月14日直到2016年5月25日。(2)鉴于全国委员会邮件数据未包含邮件附件信息,自行构建了一组包含15个用户23封邮件的测试邮件数据。4.2实验环境使用本文提出的方法对部分DNC邮件数据进行了展示,如图4所示。然后在追踪特定邮件附件扩散范围的场景下对基于Louvain算法的邮件网络人物关系网络挖掘方法进行了实验,从邮件附件hash、时间和邮件用户3个维度对邮件数据进行了可视化处理。实验场景如下:邮件用户U0~U14在2018年3月9日到2018年3月20日时间段内的邮件数据被作为取证分析目标,现对hash为588f7fba9060d7c9c436032a6417b43c的文件进行追踪,希望获取原始邮件的发送者、邮件的所有接收者、是否有其他的来源等信息。使用基于Louvain算法的邮件网络人物关系网络挖掘方法对邮件数据进行处理后,得到结果如图5所示。4.3结果分析从图4可以看出,选取的部分DNC邮件数据被分为8个社区,其中处于整个区域最中心位置的用户是BonoskyGarret。由于数据没有包含附件信息,所以未能显示出指定附件的扩散轨迹。从图5可以看出,所有的邮件用户被分为紫色和绿色代表的2个社区,携带指定附件的邮件最初由用户U0在2018年3月11日发送给处于同一社区的用户U4,U4于2018年3月15日将邮件跨社区发送给用户U10,U10于2018年3月19日将邮件进行了一次群发,同时发送给了同一社区的用户U11~14。从上述结果可以分析得出:原始邮件的发送者为U0,邮件的所有接收者为U4,U10,U11,U12,U13,U14,且根据目前已知的数据,没有其他附件来源。可能的邮件网络人物关系网络由紫色代表的社区以及绿色代表的社区共同组成,下一步取证应该对邮件的原始发件人U0、完成附件信息跨社区传播的用户U4和U10进行重点调查。本方法使用邮件数据可视化的方式直观地展示了邮件用户之间的关系,更准确地挖掘出人物关系网络,缩小了取证调查的范围,提高了电子邮件取证工作的质量和效率。

5结语

本文针对电子政务系统邮件取证中邮件用户关系挖掘困难的问题,结合邮件用户社区划分与邮件数据分析,提出一种电子政务系统邮件网络人物关系网络挖掘方法。实验证明,该方法在追踪特定邮件附件扩散范围的场景下应用效果良好,具有较好的应用价值。下一步工作将研究减小社区发现效果对网络挖掘结果的影响。

参考文献:

[1]危蓉.锁屏Android智能手机取证方法的研究[J].中国司法鉴定,2015(01):67~70.

[2]王即墨.Android智能手机锁屏密码及破解方法研究[J].刑事技术,2015,40(02):142~145.

[3]石穗东.运用第三方recovery破解安卓手机屏幕锁[J].刑事技术,2015,40(02):327~329.

[4]张笑鲁.Android移动设备的数字取证关键问题研究[D].吉林大学:吉林大学,2016:21.

[5]SonN,LeeY,KimD,etal.AstudyofuserdataintegrityduringacquisitionofAndroiddevices[J].DigitalInvestigation,2013,10(08):S3~S11.

[6]KimK,HongD,RyouJC,etal.ForensicDataAcquisitionfromCellPhonesusingJTAGInterface[C].SecurityandManagement.2008:410~414.

作者:杨群领 喻民 姜建国 刘超 单位:1.中国科学院信息工程研究所 2.中国科学院大学网络空间安全学院