数据挖掘技术对手机应用市场的运用

时间:2022-01-30 09:22:25

数据挖掘技术对手机应用市场的运用

【摘要】在信息时代,移动设备是人们生活必不可少的工具,而各类应用则是移动设备的功能所在。随着数据挖掘技术的发展,我们能够看到手机应用市场中不同应用所起到的不同作用。本文将据此为背景,通过数据挖掘技术对手机应用市场进行浅析,为今后的应用开发提出一些建议。同时根据对各类应用的综合分析设计手机应用推荐系统,为用户提供质量高且符合需求的应用。

【关键词】数据挖掘;机器学习;手机应用;推荐系统

1前言

随着移动设备的普及与更新,人们对移动设备功能的需求也日益增长。无论是购物、出行、社交还是娱乐,都离不开各式各样的应用。交流时打开微信、qq,不仅提高了交流效率,还能了解朋友的生活近况;无聊时打开一个游戏,马上就能在其中获得刺激与成就感;购物时打开手机支付宝扫一下二维码,就能省去使用现金的麻烦,并且提高了货币流通的速度。手机应用丰富了我们的精神生活,提高了物质生活的品质。但是随着手机应用的开发逐渐增多,手机应用市场出现应用质量参差不齐的现象。同时在开发者和用户之间还存在信息交换不对等的情况,即应用开发者不能及时获得准确的市场信息从而无法设计出符合市场需求的应用。并且在下载应用时,如果用户仅凭人力逐个筛选质量高、符合需求的应用,是一件非常费时的事情。本文基于数据挖掘技术,使用了kaggle网站GooglePlayStoreApps的数据对手机应用市场进行简单的剖析。我们希望通过对比评分、安装数量等用户反馈与应用本身的信息,获得手机应用市场大致的需求情况,为手机应用开发提供一定的参考,提出一些建议。并据此设计手机应用推荐系统,用户为系统提供已下载应用的名称或者希望获得应用的种类,系统将据此为用户推荐符合要求的应用。

2数据概况

本文所使用的数据集主要包括应用名称(App)、种类(Cat-egory)、次种类(Genres)、应用评分(Rating)、评论数量(Re-views)、评论情绪(Sentiment)、应用大小(Size)、安装数量(In-stalls)、是否付费与价格(TypeandPrice)、受众群体(ContentRating)等字段,共计10841个应用数据。

3手机应用市场情况浅析

3.1应用属性的相关度对比。这份数据集分别列出了10841个应用的多个属性,我们希望通过分析这些属性之间的关联程度,大致找到手机应用市场中的普遍规律与着重分析的切入点。通过利用EXCEL中的CORREL函数,将应用评分、评论数量、应用大小以及安装数量四个数值属性的相关度进行对比,形成一个5×5的CORREL表格。通过表格我们可以发现,评论数量与安装数量关联程度最大,说明大部分用户在使用该应用后有及时的反馈,这有利于我们客观地分析各应用的综合质量。而应用评分与其他三个属性的相关度都相对较小,这说明安装数量与评论数量多也即热度高的应用中用户反馈并非都很好。由此得知,手机应用市场中的目前供给还不能较好地符合市场需求,且用户在选择应用时存在盲目选择安装的情况。下面我们对其中的三组属性进行更加详细的对比与分析。3.2应用评分和安装数量。我们的数据集将所有的应用分为33个类别,分别有活动(EVENTS)、教育(EDUCATION)、艺术与设计(ART_AND_DE-SIGN)、图书(BOOKS_AND_REFERENCE)、个性化(PERSON-ALIZATION)、育儿(PARENTING)、游戏(GAME)、美妆(BEAUTY)、健康与锻炼(HEALTH_AND_FITNESS)等。在手机应用市场中,不同种类的应用受欢迎程度不一样。我们希望通过统计分析,找到安装人数较多,但是平均评分较低的应用类别。我们认为高安装数、低评分值的应用有更大的质量提升价值和市场潜力。通过使用Excel的分类统计功能,我们在对应用种类排序之后,使用应用种类作为分类项,统计不同种类应用的平均评分(review_rating)和平均安装数量(install_num),然后根据统计结果,获得柱形图和折线图如图1所示。通过分析可知,安装数量最高的应用为聊天(COMMUNICATION)类应用,但是该类应用的平均得分低于所有应用的平均得分。因此聊天类的手机应用在质量上仍然具有较大的提升空间。同时由于其具备较高的商业价值,因此也具备更高的开发潜力。与之类似的应用种类还有旅行类(TRAVEL_AND_LOCAL)和视频类(VIDEO_PLAYERS)的应用。相反,游戏(GAME)和社交类(SOCIAL)的手机应用,安装数量极大,同时评分也很高。这说明这部分市场是比较饱和的,所以我们不建议软件开发初创者选择这两个种类的应用进行开发。3.3应用评分和版本更新情况。手机应用需要随着需求的变化而不断更新其功能和外观。它体现了开发者对于市场需求变化做出的反应,因此版本较新的应用往往比低版本的应用更能满足用户需求,也更能最后更新时间较早、版本较低的应用种类。此种应用种类存在较大发展空间,已有应用的开发者也可据此适当进行更新,提高应用综合水平。使用EXCEL,以种类为分类字段进行分类汇总,将单一种类下所有应用的总安装次数进行求和。同时对同一种类的应用个数进行计数,得到N(总数)。之后,我们使用过滤功能,只保留年份(Year)小于等于2017年的应用样本,再次进行分类汇总,计算各个种类的应用最后更新年份在2017年及以前的个数总和,得到N(旧),计算其占此种类应用总数的百分比:P(旧)=N(旧)/N(总数)该值越大,说明本种类应用版本较低的占比较多,总体更新不到位。获得33种应用的P(旧)后,将其分别与安装数量进行对比。分析可知,聊天(COMMUNICATION)类应用和游戏(GAME)安装数量极大,但对于庞大的用户群来说总体版本更新得并不快,说明这些应用被开发出来后可以保持较长时间的热度。经过几次更新后它们几乎达到了最佳状态,所以应用开发者可以着眼于开发全新的应用而非继续更新原有版本。饮食(FOOD_AND_DRINK)类和娱乐(ENTERTAINMENT)类应用安装数量较少,但更新得非常及时,这体现了这些应用的实时性。这类应用需随着时事更新而不断变化,所以我们不建议大量投入开发,而是注重每次更新时的优化。

4手机应用推荐系统

在同一种类(Category)的应用中,用户一般会根据应用市场所给出的评分来选择应用。但是有些应用虽然评分较高,但是安装、评价数量较少,所以并不能客观地体现这个应用的综合水平。而随着时代的发展,应用的版本新旧程度也逐渐成为是否能满足当代用户需求的重要因素。据此,本文在设计手机应用推荐系统的过程中,主要考虑应用的所属次种类(Gen-res)、应用大小(Size)、是否付费(PayorFree)、受众人群(Groups)以及与评价相关的多种因素。推荐过程分为两个子过程:①计算相似度筛选应用:根据用户所给应用所属的一个或多个次种类(Genres)、应用大小(Size)、是否付费(Payor-Free)、受众人群(Groups),计算应用间的相似度,确定20个最相似的应用;②计算综合质量对应用排序:根据应用评分(Rat-ing)、安装数量(Installs)以及评价情绪(Sentiment)、评价客观程度(Subjectivity)得出各应用的综合质量,选择综合质量排名前3的应用推荐给用户。4.1相似度。用户为系统提供一个自己喜欢的应用x,计算x所属的种类(Category)中的每一个应用,如y,和x之间的相似度———即计算所推荐应用x与应用y之间的欧几里得距离,距离越小表示相似度越高,取距离最小的前20个应用,作为和x最相似的应用,作为推荐的候选项。其中,次种类(Genres)的值可能包含一个或多个,预处理数据时,应将其拆分成多个种类。举例说明,如果x的次种类为“Art&Design;Action&Adventure”,y的次种类为“Education;Action&Adventure”则Genres1=Art,Genres2=Design,Genres3=Action,Genres4=Adventure。x所属的那一行,Genres1到Gen-res4的值均为1,y的Genres1,Genres2值为1,Genres3,Gen-res4的值为0。对于受众人群(Groups),一共有“Adultsonly(18+)”,“Mature17+”“Teens(12-16)”“Ten+(10+)”“Everyone(0~100)”5种值。根据这些原先的值,我们将Group划分为Group1:0~10岁,Group2:10~12岁,Group3:12~16岁,Group4:16~18岁,Group5:18岁以上。当x的原先的值为“Ten+(10+)”,那Group1到Group5的值分别为0,1,1,1,1;当x的原先的值为“Adultsonly(18+)”,那Group1到Group5的值分别为0,0,0,0,1;当x的原先的值为“Mature17+”,那Group1到Group5的值分别为0,0,0,0,1;当x的原先的值为“Everyone(0~100)”,那Group1到Group5的值分别为1,1,1,1,1;当x的原先的值为“Teens(12~16)”,那Group1到Group5的值分别为0,0,1,1,1。针对是否付费(PayorFree),使用1表示免费(FREE),使用0表示付费(NOT-FREE)。在计算相似度的时候,我们使用的是欧几里得距离,公式如下:dx,y=∑ni=1(axi-ayi)22姨距离越近,表示x和y越相似。我们选择dx,y最小的前20个y作为我们的候选应用。4.2综合评价。针对选择出来的20个候选应用,我们通过应用评分(Rat-ing)、安装数量(Installs)以及评价情绪(Sentiment)、评价客观程度(Subjectivity)来进一步对其质量得分(grade)后筛选出最好的3个应用。公式如下:Grade=avg(∑sentimenti×Subjectivityi)×Installys×Rating2,其中i表示某一个应用的第i个评论。评价情绪(Sentiment)如果是积极的,那么得分为0~1之间,分数越高越积极;评价情绪(Sentiment)如果是消极的,那么得分在-1~0之间,分数越低越消极。评价客观程度(Sub-jectivity)是指评论者的打分时的客观程度。我们求出每一个应用的平均评价情绪和其安装数量、评分的平方相乘,得到应用的质量得分。得分越高,表示质量越高,我们选择质量最高的3个应用作为最终的推荐项。

5结论

本文利用大数据技术,分析了手机应用市场的潜在问题,并提出了建议和解决方案。并利用一万多条应用的信息,设计和建立了手机应用推荐系统,根据用户的使用记录,能够为用户推荐内容相近且质量高的应用。

参考文献

[1]郭靖,郭晨峰.中国移动互联网应用市场分析.移动通信,2010(7):57~62.

[2]李迎辰.基于社交网络的移动应用推荐系统研究及应用[D].(Doctoraldissertation,重庆大学),2014.

[3]廖建新.大数据技术的应用现状与展望.电信科学,2015(7):1~12.

作者:李可玥 单位:浙江省杭州学军中学