分类回归树的服务营销研究

时间:2022-12-03 03:27:35

分类回归树的服务营销研究

1引言

新闻具有强大的受众群体,其本身又囊括了信息、猎奇、教育、娱乐等各个方面的功能,因此已成为一种优势资源。当今市场竞争日益激烈,传统的电视广告早已不能满足企业营销的需求,快节奏的生活导致消费者对铺天盖地的广告产生资讯焦虑;而后产生的软广告在应用中操作的不到位以及掺杂大量虚假成分导致其隐蔽性慢慢被消费者揭开,传播效果也大打折扣。此时新闻营销应时而生,新闻营销会让消费者在不知不觉中接受企业要传播的东西。数字华夏品牌传播机构认为只要有图片、音频、视频存在,新闻营销都会大行其道。新闻营销是指企业在真实、不损害公众利益的前提下,利用具有新闻价值的事件,或者有计划的策划、组织各种形式的活动,借此制造“新闻热点”来吸引媒体和社会公众的注意与兴趣,以达到提高社会知名度、塑造企业良好形象并最终促进产品或服务销售的目的[1]。本文针对某企业实施的新闻服务营销计划,利用历史数据挖掘选出更能接受这一营销模式的潜在客户,从而为企业更好的制定营销计划提供参考。

2数据挖掘概述

数据挖掘中应用最为广泛的就是分类,分类的优劣可以从以下三个方面进行判别:(1)预测准确度;(2)计算复杂度;(3)模式的简洁度。决策树是以事例为基础的归纳学习算法,利用一系列规则,从一组无序无规则的数据中建立树状图用于分类与预测,常用的决策树方法有分类回归树(ClassificationandRegressionTree,CART)、卡方自动交互检验法(Chi-squareAutomaticInteractionDetector,CHAID)等[3]。

3CART树算法介绍

分类与回归树(ClassificationAndRegressionTree,CART)是由Breiman等人在1984年提出的一种产生二叉决策树的分类方法[4]。分类树与回归树算法的两个重要思想是:(1)递归地划分自变量空间;(2)用验证数据进行剪枝。其采用基于最小距离的基尼指数估计函数,这是因为基尼指数可以单独考虑子数据集中类属性的分布情况,用来决定由该子数据集生成的决策树的拓展形状[5]。C-R树算法可以对非线性数据序列进行处理。对于一般的时间序列的预测问题,往往可以建立在数据回归模型基础之上,拟合自变量与因变量之间的相互关系,从而达到对新数据进行预测的目的。该算法可自动忽略对目标变量没有贡献的属性变量,也为判断属性变量的重要性,减少变量数据提供参考。除此之外,在面对诸如存在缺失值、变量数多等问题时C&RT显得非常稳健,估计模型通常不用花费很长的训练时间,这些优点都使得分类回归树具有广泛的应用范围。

4数据挖掘过程

本文应用SPSS公司的商业智能分析软件Clementine构建分类回归树模型,对响应新闻服务营销的客户数据进行分析建模。

4.1数据准备

(1)数据库的建立。本文的数据是某企业442条客户信息记录,企业对这442个客户实施了新闻服务营销策略并观察客户对该策略的反应。客户信息变量包括性别、年龄、受教育年限、看电视时间、参加的社会团体个数、孩子个数、收入水平以及对该营销策略的响应等,将数据导入到具有强大数据统计分析功能的SPSS数据库中,建立一个名为NewsChan.sav的数据库,即为数据挖掘的数据源。(2)数据预处理。数据预处理主要是数据的清理,目的在于消除或减少数据噪声以及处理缺失值。例如在本例获得的客户信息中,有些客户某个属性值缺失,可以运用回归或决策树得到最可能的值填充缺失值。数据预处理是数据挖掘过程中必不可少的一个重要环节。图1是数据处理后在clementine软件的属性类型节点定义。

4.2模型建立

主要采用分类回归树CART算法建立数据模型,参数设置中基于树生长的“基尼系统”(GINI)[7]后剪枝策略,设置最大生长层次为5层。建模的过程如图2所示。

4.3模型运行结果及分析

(1)CART算法模型的运行结果。通过对442条汇总的数据记录(既作为训练集又作为预测集)进行分析建模,运行结果如图3、4所示。(2)潜在客户特征分析。由得到的C-R树模型可知,树从根节点到叶子节点的分支依据都是客户的属性变量,因此分析所有从根结点到有潜在客户标示的叶结点的遍历过程,可以找出潜在客户的特征。从模型结果可以看出,大部分分支的结果都是非潜在客户,只有两条规则对应的预测结果是潜在客户:规则一:年龄大于40.5岁。规则二:年龄小于40.5但收入水平在两千元及以上并且接受教育年限达到12.5年以上以及所参加的社团组织较少的客户。满足这些属性规则的客户生活水平相对较高,一定程度的教育使得他们更趋向接触新闻而不是一般的广告,并有较稳定的消费需求,从而更容易接受新闻服务的营销模式。非潜在客户有三条规则,其中一条比较有参考价值,即年龄在40.5岁以下且收入水平不足1000元的群体,在新闻服务营销研究中这类群体很难成为该营销方式的受众。(3)模型评估。在完成基于分类回归树算法的建模和结果分析后,将利用预测集的数据来检验该模型的准确度,执行数据流的结果评估,如图5所示。由图5可知,用CART算法对预测集进行检测后,此模型的准确率为68.55%,数据为303个,错误率31.45%,数据为139个。从模型运行结果分析可以看出模型的结果对市场营销有一定决策支持的意义。只有数据信息量足够大,结果的准确率才会越高,而本文中所汇总的客户记录数过少。在现实生活中,客户数据要远远大于这些。另外,一些其它的因素,比如客户的兴趣趋向、职业等也都是较为重要的影响因子。由于文中所用的搜集数据缺乏这样的信息,实际中不同新闻服务营销的影响因子又各不相同,从而影响了模型结果的准确率,但仍具有一定的参考意义。

5总结

这个例子演示了如何使用C&R树节点和决策树的一种营销研究,以确定哪些客户将通过电缆订阅互动新闻服务。使用预测因素,如年龄,性别,教育程度,收入类别,每天看电视的时间,子女数目等,能够预测和分类这些响应并得到回应率最高的为客户所利用。分类回归树模型易于使用和理解。该系统构建树和递归分割每个分支,直到满足一个或多个停止标准。然后在每个分割节点,最好的预测是在自动选择的基础上所用的建模方法。在这个事例中,可以使用树生成一个模型或选择节点适用于未来的数据集,从而达到预测的效果。

本文作者:汪秀工作单位:安徽财经大学管理科学与工程学院