物联网数据挖掘论文

时间:2022-03-26 03:03:46

物联网数据挖掘论文

1物联网数据挖掘流程

物联网数据挖掘处理功能需要在Hadoop平台和Map/Reduce模式基础上进行,对此需要划分2个不同层面的操作流程。

1.1Hadoop平台的具体操作流程

(1)对物联网中的RFID数据进行过滤、转换、合并的处理,并在分布式系统HDFS中保存PML文件形式的数据。同时,可采取副本策略来处理PML文件,在同一机构的不同节点或不同机构的某一节点上保存PML文件中的2-3个副本,进而可实现对存储、处理、节点失效问题的有效解决。

(2)在执行任务过程中,创建和管理控制是Master(主控程序)的主要工作,当Worker处于空闲状态时会接收到有关的分配任务,需与Map/Reduce互相合作实现操作处理,处理的最终结果由Master来归并,同时将反馈结果传送给用户。

1.2Map/Reduce的具体操作流程

(1)根据参数在Map/Reduce思想指导下对输入文件进行分割处理,使其细化为M块(16-64M大小范围)。

(2)Master、Worker、Map操作(M个)、Reduce操作(R个)是构成执行程序的主要部分,其中Map/Reduce的处理任务会由Master伴随物联网的快速发展和广泛应用,人们可以有效利用物联网来实现信息交换和通信的目的,不过物联网海量数据的日益增多大大降低了物联网服务的质量。在此,对基于Apriori算法进行物联网数据挖掘研究。摘要将其分配给空闲的Worker。

(3)在处理Map任务时,Worker会读取处理中的数据,并向Map函数传送<key,value>,而后产生中间结果在内存中缓存且定时向本地硬盘传送。此外,依据分区函数将中间结果分割为R块区,利用Master将本地硬盘接收到的数据位置信息传送给Reduce函数。

(4)ReduceWorker根据Master所传送的文件信息采用远程读取方式来操作,以在本地文件中找到对应的文件,对文件的中间key进行有序排列,并利用远程发送信息给具体执行的Reduce。

(5)ReduceWorker依据key排序后的中间数据向Reduce函数传送与key对应的中间结果集,而最后的结果需采取最终输出文件来进行编写。

(6)当Map、Reduce的任务全部完成之后,MapReduce将回归到用户程序的调用点处,同时以Master对用户程序进行激活。

2基于Apriori算法的物联网数据挖掘

2.1Apriori数据挖掘原理和操作流程

Apriori是提升物联网数据挖掘功能的一种最有效算法,其原理是在K项集中以逐层搜索迭代的方式来探索。具体的操作流程包括:

(1)扫描数据集以生成频繁1-项集L1。

(2)通过L1来探索频繁项集L2,采用不断迭代的方式来持续探索,直至频繁项集是空集。

2.2K次循环搜索后的数据挖掘流程

当已完成了K次循环搜索时,还需要进行2个数据挖掘的操作流程:(1)在LK-1生成CK(候选集)之后,开展JOIN操作。(2)支持度统计和剪枝的操作依据Apriori性质来进行,而后使得CK生成LK(频繁集)。为提高物联网数据挖掘的效率,节省系统的时间和内存消耗,在Apriori算法基础上还需要借鉴和移植云计算平台的分布式并行计算性质。如此以实现Hadoop架构的建立,在扫描数据库查找频繁项集中得到的并联规则需要存储在Hadoop架构中。同时,为取得各个计算节点上的局部频繁项集,各个DataNode节点需要经历并行操作的扫描处理,并使用Master来统计和确定实际全局的支持度、频繁项集。

2.3Apriori算法Map/Reduce化的处理流程

上述提及基于Apriori算法的物联网数据挖掘需借助于Map/Reduce模式,其数据挖掘功能的实现还应Map/Reduce化Apriori算法。主要的处理流程包括:

(1)用户提出挖掘服务的请求,且由用户来设置Apriori所需的数据,如最小支持度、置信度。

(2)当Master接收到请求后,通过NameNode来进行PML文件的申请,而后逐步完成访问空闲节点列表、向空闲的DataNode分配任务、调度和并行处理各个DataNode需要的存储节点算法。

(3)运用Map函数来处理每个DataNode的<key,value>对映射、新键值对,以CnK(用1表示每一个CnK的支持度)来表示所产生的一个局部候选频繁K项集。

(4)通过Reduce函数来实现调用计算,对每个DataNode节点上相同候选项集的支持度进行累加,以产生一个实际的支持度,将其与最小支持度(用户申请时所设置)进行比较,进而用LnK表示所生成的局部频繁K项集的集合。

(5)对所有的处理结果进行合并,从而实现全局频繁K项集LK的生成。

3结论

综上所述,根据物联网数据的特点,以及物联网海量数据挖掘问题的存在情况。我们积极将Apriori算法应用于物流网数据挖掘,这对于提高物联网海量数据挖掘功能和效率有较大的作用及意义,而物流网数据挖掘问题也能得到有效的解决。

作者:海海洋单位:汕尾职业技术学院