数据挖掘算法分析论文

时间:2022-03-04 08:21:00

数据挖掘算法分析论文

一、引言

异常客户是在一段考察时期内与客户的一般行为模式不一致的对象,它们往往被称为孤立点。异常客户分析(即孤立点挖掘)具有重要的现实意义,对于一个企业来说,这些数据往往比常规的客户模型信息更有价值。本文针对销售企业,假设已经用一定的方法探测到了孤立点,接下来采用最小二乘法拟合直线中的斜率分析其性质,从而确定是积极的客户还是消极的客户。

二、最小二乘法拟合直线

最小二乘法是一种数学优化技术。它以某一社会、经济或自然现象为对象,寻找一拟合曲线,以满足给定对象系统的一组观测数据。通常要求选择的拟合曲线会使各观测数据到拟合曲线的误差的平方和最小。

本文研究销售企业(如商场)异常客户的性质。设一段时期内客户的累计消费金额为y,对应的消费时期为x。假定测得客户的n个数据(x1,y1),…,(xn,yn),则在XOY平面上可以得到n个实验点:Pi(xi,yi)(i=1,…n),这种图形称为“散点图”(如图1,图2)。在利用最小二乘法进行分析时,各种非线性关系的拟合曲线均可线性化,因此此处选择直线y=ax+b作为拟合直线,寻求x与y之间近似线性关系时的经验公式。其中a为直线的斜率,b为直线在y轴上的截距。

如果Pi(i=1,…n)全部位于同一条直线上,则可认为变量之间的关系为y=ax+b,但一般情况下不会如此。记估计值=axi+b,则各实验点与拟合直线之间的误差为εi=-yi=(axi+b)-yi,它反映了用直线y=ax+b来描述(xi,yi)时,估计值与观测值yi之间的偏差大小。则有:

要求偏差越小越好。但由于εi可正可负,简单求和可能将很大的误差抵消掉,只有平方和才能反映二者在总体上的接近程度,这就是最小二乘原则。于是问题归结为根据这一要求来确定y=ax+b中的a和b,使得最小。因为F(a,b)是关于a、b的二次函数并且非负,所以其极小值总是存在的。根据罗彼塔法则,F取最小值时,有:

于是得到了符合最小二乘原则的相应解:

三、基于斜率的异常客户挖掘算法

1.问题描述

本文的目的是研究某一消费时期内,异常客户的消费倾向。取异常客户一年内各月份的累计消费金额为参考,记录的数据如下(表1,表2)。根据其散点图(图1,图2)可以看出,客户的累计消费金额随时间都呈上升趋势,所以难以观察出该客户是否对商场保持持久的忠诚度,是否有转向竞争对手的可能。基于斜率的异常客户挖掘算法正是要解决识别客户性质这一问题。

2.算法描述

算法:Outlier_Analysis。根据输出的a值来判断异常客户的性质:积极的或消极的。

输入:客户数据,即参考点,由有序点对(xi,yi)表示;参考点的个数n。

输出:a(直线的斜率),b(直线在y轴上的截距)。

方法:

(1)初始化a、b。

(2)对客户的n个观测数据(即n个记录点)进行相关数据计算:

(3)ifa<0then

客户购买金额呈减少趋势,为消极客户

else

客户购买金额呈上升趋势,为积极客户

四、结论

把客户在一段时间内(可按年进行纵向比较,也可按月、季度等进行横向比较)的购买总金额作为参考点,取连续的n个参考点,根据最小二乘法原来对它们做直线拟和。取阈值为0,根据直线性质,如果拟合直线的斜率小于这个阈值,则这个客户在这段时间内对该企业的购买金额持续减少,并且斜率的绝对值越大,客户的购买金额持续减少的越厉害。反之,若斜率大于这个阈值,则这个客户在这段时间内对该企业的购买金额持续增加,并且斜率越大,客户的购买金额持续增加的越厉害。根据这一分析结果,商场可有效识别异常客户的性质,从而有针对性地进行目标营销——采取有效策略加强与消极客户的沟通,以改善客户对商场的已有认知;继续保持与积极客户的良好关系,以提升其生命周期价值。