垃圾短信数据挖掘论文

时间:2022-03-26 03:30:33

垃圾短信数据挖掘论文

1垃圾短信治理面临的调整

目前的垃圾短信过滤的方法主要有黑名单和白名单监控技术,但是短信中心对黑白名单处理数量有上限要求;基于关键字的过滤技术,但是这种技术不能灵活识别和更新关键字;基于内容的过滤技术,可分为基于规则的过滤和基于概率统计的过滤;基于数据挖掘方法的垃圾短信用户识别,目前基本上都使用IBMSPSSModeler平台的决策树和逻辑回归经典算法识别垃圾短信用户,由于选取的建模数据不全面以及算法本身各自存在不足使得建模效果受到影响。为建立白名单和科学封堵模型相结合的垃圾短信治理模式,实现精细化、行为级、高效性的垃圾短信治理,本方案提出了基于客户综合特征分析的垃圾短信治理技术方案:基于随机森林分类的垃圾短信用户预测模型。通过客户入网属性,客户通信行为信息、客户账单信息等多个维度构建模型,对垃圾短信号码进行识别和治理。相比传统基于短信内容识别、发送量控制的事中控制,本系统能够进行垃圾短信发送行为预测,配合垃圾短信拦截系统将垃圾短信在未形成大规模发送前拦截。实验结果证明该模型能够有效的识别垃圾短信号码,对监控系统拦截垃圾短信起到很好的辅助作用。

2大数据挖掘的原理与优势

大数据是指数据量很大(一般是TB到PB数量级)的巨量资料,无法通过主流软件工具,在合理时间内完成数据处理并获取有价值的信息。数据大多以非结构化或者半结构化数据为主,大数据具有4V特点:Volume、Velocity、Variety、Veracity。大数据处理的一般思路是数据压缩、数据抽样、数据挖掘等。数据挖掘是一种新的信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其它模型化处理,从中提取辅助商业决策的关键性数据。利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、推荐系统等,它们分别从不同的角度对数据进行挖掘。大数据挖据的数据源和处理方式对比。

3数据挖据流程和模型选取

3.1数据挖掘的主要流程

数据挖掘主要包括以下6大步骤。

(1)商业理解:确定挖掘目标以及产生一个项目计划。

(2)数据理解:知晓有哪些数据,以及数据的特征是什么。

(3)数据准备:对数据作出转换、清洗、选择、合并等工作。

(4)建模:根据挖掘目标确定适合的模型,建模并对模型进行评估。

(5)模型评估:评估建模效果,对效果较差的结果我们需要分析原因。

(6)结果部署:用所建挖掘模型去解决实际问题,它还包括了监督、维持、产生最终报表、重新评估模型等过程。

3.2垃圾短信治理指标体系设计

垃圾短信用户识别建模数据主要从信令监测系统、经营分析系统获取,所获取的用户行为数据主要包括用户通信行为信息、用户基础业务属性、用户通信业务信息等7个维度。其中,用户通信行为信息包括活动轨迹、终端IMEI和数据业务访问等信息。

3.3模型的选取

对白名单用户的识别可以利用社交网络模型与业务规则相结合的方法。利用社交网络进行白名单用户识别,重点考虑用户之间发生的通信行为、增值业务交互行为等群体行为,通过对用户之间关系的辨识。本文建模的重点着眼于垃圾短信用户的识别及其治理。

3.3.1现有垃圾短信识别模型的优势与不足

识别垃圾短信用户是数据挖掘中的分类问题,数据挖掘中常用的分类算法主要有逻辑回归、决策树、贝叶斯网络等算法。其中,神经网络因本身算法的复杂性,造成模型结果解释性较差,模型落地较困难而很少在实际项目中使用。目前识别垃圾短信的数据挖掘模型基本上为逻辑回归模型和决策树模型。决策树模型主要具有以下优势:模型非常直观,容易让人理解和应用;决策树搭建和应用的速度比较快;决策树对于数据分布没有严格要求;受缺失值和极端值对模型的影响很小。但是,使用决策树作为垃圾短信用户识别模型主要存在以下不足。

(1)决策树最大缺点是其原理中的贪心算法。贪心算法总是做出在当前看来最好的选择,却不从整体上思考最优的划分,因此,它所做的选择只能是某种意义上的局部最优选择。

(2)决策树缺乏像回归或者聚类那样丰富多样的检测指标和评价方法。

(3)容易出现过拟合。当某些自变量的类别数量比较多,或者自变量是区间型时,决策树过拟合的危险性会增加。

(4)决策树算法对区间型自变量进行分箱操作时,无论是否考虑了顺序因素,都有可能因分箱丧失某些重要信息。尤其是当分箱前的区间变量与目标变量有明显的线性关系时,这种分箱操作造成的信息损失更为明显。

相比于数据挖掘建模常用的其它算法如决策树、神经网络、支持向量机等,逻辑回归技术是最成熟,得到广泛应用,逻辑回归模型主要存在以下不足。

(1)变量之间的多重共线性会对模型造成影响。

(2)应删除异常值,否则它会给模型带来很大干扰。

(3)逻辑回归模型本身不能处理缺失值,所以应用逻辑回归算法时,要注意针对缺失值进行适当处理,或者赋值,或者替换,或者删除。

3.3.2垃圾短信识别预测模型选取

鉴于目前研究者对垃圾短信识别使用的决策树和逻辑回归模型存在较多不足之处,本文从模型算法上对其进行改进,力求得到更加科学合理的垃圾短信识别预测模型。本文使用的数据挖掘模型为随机森林模型。

3.3.2.1模型简介

随机森林(RandomForest)算法是一种专门为决策树分类器设计的优化方法。它综合了多棵决策树模型的预测结果,其中的每棵树都是基于随机样本的一个独立集合的值产生的。随机森林和使用决策树作为基本分类器的Bagging有些类似。以决策树为基本模型的Bagging在每次自助法(Boostrap)放回抽样之后,产生一棵决策树,抽多少样本就生成多少棵树,在生成这些树的时候没有进行更多的干预。而随机森林也是进行许多次自助法放回抽样,所得到的样本数目及由此建立的决策树数量要大大多于Bagging的样本数目。随机森林与Bagging的关键区别在于,在生成每棵树的时候,每个节点变量都仅仅在随机选出的少数变量中产生。因此,不但样本是随机的,就连每个节点变量产生都有相当大的随机性。随机森林让每棵树尽可能生长,而不进行修剪。随机森林算法主要包括决策树的生长和投票过程。随机森林中单棵树的生长可概括为以下几步。

(1)使用Bagging方法形成个别的训练集:假设原始训练集中的样本数为N,从中有放回地随机选取N个样本形成一个新的训练集,以此生成一棵分类树。

(2)随机选择特征(指评估指标,以下同)对分类树的节点进行分裂:假设共有M个特征,指定一个正整数m<M,在每个内部节点,从M个特征中随机抽取m个特征作为候选特征,选择这m个特征上最好的分裂方式对节点进行分裂。在整个森林的生长过程中,m的值保持不变。

(3)每棵树任其生长,不进行剪枝。Bagging方法形成新的训练集和随机选择特征进行分裂,使得随机森林能较好地容忍噪声,并且能降低单棵树之间的相关性;单棵树不剪枝能得到低偏差的分类树,同时保证了分类树的分类效能(Strength),分类树的分类效能是指分类树对新的测试数据的分类准确率。

3.3.2.2随机森林分类预测模型的主要优势

(1)随机森林的预测精度高,它可以产生高准确度的分类器。

(2)可以处理相当多的输入变量。随机森林不惧怕很大的维数,即使有数千个变量,也不必删除,它也会给出分类中各个变量的重要性。

(3)当在构建随机森林模型时候,对GenerlizationError估计是无偏估计。

(4)随机森林在设计上具有很快训练速度,训练出结果模型不必花费大量时间。

(5)对缺失值和极端值具有很强容忍能力,即使有较多缺失数据仍可以维持准确度。

(6)当遇到分类数据不平衡时,可以较好地平衡误差。

(7)随机森林算法并不会导致过拟合。定义组合分类器的总体分类效能s为:s=Ex,ymg(x,y)。若用ρ表示每棵分类树之间相关度的均值,则随机森林的泛化误差PE的上界可由下式给出:PE*≤ρ(1-s2)/s2。当随机森林有相当多的分类树时,随机森林的泛化误差几乎处处收敛于一个有限值。因此,随着森林中分类树数目的增长,随机森林算法并不会导致过拟合。

(8)随机森林在模型训练过程中,能够对特征之间的相互影响行为做出检测。随机森林算法具有以上优势,在垃圾短信治理预测中具有应用的优势,本文采用随机森林模型作为垃圾短信用户的分类预测。综上所述,随机森林模型主要在不会出现过拟合、训练精度高、能处理大量输入变量并输出变量重要性3个方面优越于决策树模型;在容忍缺失值和极端值方面明显优越于逻辑回归模型。随机森林模型在算法设计上有效弥补了决策树和逻辑回归模型的不足之处,在垃圾短信识别分类预测中具有较好的应用价值。

3.3.2.3垃圾短信数据挖掘模型构建

通过前述的商业理解确定了垃圾短信识别业务需求,并进行数据理解构建了垃圾短信识别指标体系,再抽取需要的数据,并进行数据清洗、转换、衍生变量计算等步骤,具备了建模的目标数据,接下来的任务就是通过随机森林模型构建垃圾短信分类预测模型,对垃圾短信用户进行识别。

3.4用户分类治理策略

通过随机森林模型的识别,根据用户是垃圾短信发送者的可能性评估,制定不同的治理策略,如图3所示。实际的执行过程中,需要根据清单的范围大小,适当的调整预测概率门限,以保证策略执行的效果,同时避免过多的正常用户的业务感知受到影响。

4垃圾短信治理平台的实现

4.1系统架构

垃圾短信治理平台的数据来源较多,需要处理的数据量也非常大,因此,数据采集和数据处理过程是相互影响的过程。垃圾短信治理平台的系统架构图如图4所示。

(1)数据采集层:是垃圾短信治理平台与多个数据库来源的安全访问接口,通过数据采集层实现数据挖掘和分析所需要的基础信息:用户属性信息、用户卡号信息、用户业务记录、用户的位置信息和消费记录。

(2)数据处理层:需要根据数据挖掘的需求,将采集的基础数据转换为业务服务层可以使用的数据,通过对基础数据进行整形、清洗和预处理,为后续的数据挖掘做好数据准备。

(3)业务服务层:主要包括应用性服务和安全服务两个部分,应用性服务包括数据查询统计服务、用户查询服务和GIS应用服务,同时,补充报表服务和文件管理服务以方便日常的工作。通过外部接口服务,可以部署相应的权限管理、数据管理维护以及注册服务等,降低系统的风险,保证信息的安全传递。

(4)功能模块:主要是根据客户需求,定制开发的功能单元,功能模块的个数以实际部署的情况为准。以图4垃圾短信治理平台的系统架构图某省公司的定制模块为例,主要包括指标查询模块、垃圾短信治理模块、用户综合信息分析模块和市场支撑应用模块4个部分。

4.2效果展现

针对不同的部门或用户,垃圾短信治理平台展现不同的数据,主要包括以下的结果展现方式。

(1)治理效果掌控:通过指标查询系统,及时掌握垃圾短信的治理效果,发现工作的成果和风险,达到及时发现问题并快速响应的目的。

(2)治理效率提升:通过垃圾短信治理模块,快速准确识别垃圾短信源头并定位区域,下发至地市公司快速处理,减小垃圾短信带来的不良社会影响。

(3)实现预先管控:通过用户综合信息分析模块,可以对潜在的具有垃圾短信源头特征的风险终端进行监控、通过外呼、资费信息等情况,提前发现和治理潜在垃圾短信源。

(4)渠道规范化:市场部门通过渠道信息和卡号信息,对一些垃圾短信来源集中的渠道的发卡进行监督和严格控制,从源头上减少垃圾短信的源头。

(5)分层的权限管理、数据来源分级管理和分用户权限管理可以有效保障数据来源的安全,不同的用户,划分不同的展现方式。

作者:单位:中国移动通信集团四川有限公司