数据分析论文范文10篇

时间:2023-03-17 21:54:01

数据分析论文

数据分析论文范文篇1

将医院、医疗保健组织等数字化的医疗数据以特定的格式、协议发送到医疗数据分析模块进行分析与疾病预测.医疗数据提取模块:该模块由医院电子病历系统负责实现,我们使用openEHR系统作为医院电子病历系统,并在openEHR中实现医疗数据的提取功能.openEHR系统是一个开源、灵活的电子病历系统,支持HL7卫生信息交换标准.很多医疗健康组织、政府和学术科研单位都使用openEHR进行开发和科研工作.如一种基于openEHR的患者病历数据管理模型、openEHR等许多开源的电子病历平台的对比与评估和基于openEHR的档案建模等.数据交换模块:基于Web服务的数据交换模块使用医疗数据通信协议实现医疗数据分析模块与医疗数据提取模块的数据交换.Web服务是一个平台独立、松耦合的Web应用程序.由于Web服务的跨平台特性,许多模型与框架是基于Web服务构建的,如基于Web服务集成分布式资源和数据流分析测试等.在本文提出的医疗数据分析模型中,使用Web服务来连接医疗数据分析模块和医疗数据提取模块.医疗数据提取模块作为Web服务的服务端,实现的方法包括存取数据、数据预处理、序列化等,改进后的模型要求实现指定维度,指定属性数据的读取.本文提出的医疗数据分析模块作为Web服务的客户端,通过HTTP服务向数据提取模块请求获取数据,并对数据进行预处理.医疗数据分析模块:我们使用Caisis开源平台作为医疗数据分析与疾病预测系统实现这一模块.Caisis是基于Web的开源癌症数据管理系统,一些临床医学研究使用Caisis系统管理和归档数字显微图像,通过向Caisis系统中添加特征选择和SVM算法,使用SVM算法对医疗数据进行分析和疾病预测,因此使用的特征选择算法需要基于SVM,可以提高数据分析和疾病预测过程的效率和准确度.

2数据分析模块与算法

2.1SVM算法SVM算法最初是由Vapnik等人在1995年提出的一种可训练的机器学习算法.依据统计学习理论、VC维理论和结构风险最小化理论,从一定数目的样本信息在学习能力和复杂度(对训练样本的学习程度)中找到最佳折中,以期望获得最好的推广能力(或称泛化能力).

2.2基于SVM的医疗数据分析模块将SVM分类算法应用到医疗数据分析模块中,进行疾病预测.基于SVM的医疗数据分析模块,通过数据交换模块获取原始组数据(患病病人医疗数据和对照组病人数据).通过特征选择过程输入到SVM分类器中进行训练,训练后可以对新的医疗数据进行分析预测.

3改进的医疗数据交换模块

3.1医疗数据交换模块在原始的医疗数据交换模块中,数据请求原语只由4条通信原语组成.由原始医疗数据分析模型的3个模块构建,其中在医疗数据分析模块与医疗数据提取模块之间的4条通信原语包括2条请求和2条应答.由于医疗数据的维度极大,属性很多,但是在预测某个疾病时,只有很少的一部分属性会对分类预测产生影响.这样的全部维度的数据都需要传输,浪费了时间,降低了数据传输效率,影响了医疗数据分析模块的算法效率.

3.2改进的医疗数据交换模块在改进的医疗数据交换模块中,在数据传输协议中增加了4条原语.在每条原语中不仅有医疗记录条数的要求,还包括对所请求医疗数据维度和属性的具体说明.医疗数据分析模块先请求一小部分全部维度的数据,对这小部分数据进行特征选择.然后医疗数据分析模块只请求特征选择出来的对预测相关的属性的剩余所有医疗数据.最后通过SVM分类算法进行训练和预测.在新的医疗数据交换模块中,大部分数据中只有小部分相关属性被传输到数据分析模块,极大地减少了数据传输总量,也同时增加了分析模块预测算法的效率.

4原始模型与改进模型的对比结果

数据分析论文范文篇2

自入世以来,我国的汽车出口发展极为迅速。由海关统计数据,2001年,中国汽车和汽车底盘出口额为19374万美元,出口数量为22779辆;到了2005年,中国汽车和汽车底盘出口额已达到190396万美元,出口数量为1084309辆。我国汽车出口总量上看成绩喜人,但细看下来,情况却不容乐观:据计算,中国入世五年来汽车和汽车底盘出口数量增长了46.60倍,而出口额只增长了8.83倍,这与同时段进口额增幅略超出进口数量形成了鲜明的对比。

这一现象并非小问题:出口量增幅远大于出口额是汽车大部分瞄准低端市场低价出口统计上的表现。据海关统计分析显示,2005年我国整车出口企业共有1025家,其中出口量在10辆以下的就有600家,出口仅1辆的有185家,近900家企业的出口额仅占全国整车出口额约10%。随着中国低价汽车及零部件的出口,他国逐渐采取反倾销和关税壁垒措施来应对。

二、汽车出口价格低廉成因分析

低价的原因自然包括了中国的劳动力水平相对较低,但在全球化背景下,专业化分工日趋明显,许多品牌汽车也选择在劳动力成本相对低的环境下生产,但同样高价出售。这说明,低价不仅是劳动力成本低导致。

汽车出口低价的另一原因是中国相对缺乏自主品牌。从经济学的角度看,同质产品的价格需求弹性大,顾客对价格的变动极敏感。生产同质产品的厂商为使利润最大化采取降价的方案,最终基本只能得到正常利润,无法获得超额利润。目前中国汽车市场自主品牌还屈指可数,且大部分局限于模仿水平,真正进行自主创新开发出顾客很难找到替代品的汽车的情况还很少。汽车大量的同质化使得厂商选择打价格战。

着重于模仿而非创新也使中国汽车出口面临知识产权纠纷不断。美国、欧盟、日本在与我国的经贸谈判中重点关注的问题之一即是汽车产业知识产权,而国内汽车企业在知识产权的拥有数量和质量上与外资、中外合资汽车企业相比都远处下风。一方面,不少跨国汽车公司通过合资的方式进行品牌扩张,并积极通过商标注册维护自己的品牌;另一方面,大部分中国汽车厂商也把精力放在模仿而非创新上,很多没有清晰的发展自主品牌的意识。

出口秩序混乱,一些汽车厂商不规范生产,是出口低价的另一原因。一些厂商出口翻新车、报废车,或者用废弃零件生产的汽车,这类汽车要价低廉,但质量一般没有保障,更不必说销售及售后服务,这造成了不好的影响。面对难以鉴别优劣的汽车市场,消费者一般也不会出高价去购买可能面临质量风险的汽车。中国低质汽车在海外市场的大量出现将会对中国整体的汽车出口都带来负面影响。

可见中国汽车出口量增幅远大于出口额增幅折射出了包括缺乏自主品牌,出口秩序混乱,生产不规范等不少问题,这些问题又进一步引发反倾销、知识产权纠纷,对中国汽车出口产生了重大影响。

三、促进我国汽车出口由数量型增长向质量型增长转变的思路

为促进中国汽车出口持续稳定快速发展,应主要把握以下几个方面:

1.把握好技术引进与自主创新之间的关系,推动技术与质量的升级

中国一直以来采取“市场换技术”的战略,但并未发挥很好的效果。比如在加工贸易方面,大部分情况中方只赚取一些加工费,并未得到技术外溢的收益。即使在技术引进过程中,我国企业也普遍存在“大钱搞引进,小钱搞改革,没钱搞消化”的问题。引进技术不能引进核心技术,没有消化吸收和自主创新很可能出现的结果是大部分厂商制造出同质产品,极易导致价格战的出现,不利于厂家战略发展。

目前自主创新已成为全社会的共识,国家正通过一系列政策鼓励与扶持汽车企业进行自主创新,我国汽车企业应该充分利用各种有利的政策坚定地进行自主创新,推动自身的发展。

2.加深知识产权认识,着重自主品牌打造

我国大多数汽车企业中并未把知识产权工作纳入经营管理的范畴,真正将知识产权与技术创新有机结合的并不多。知识产权意识不强使得部分企业出现要么不尊重他人知识产权从而引起纠纷,要么在合作中放弃了知识产权的权利要求,使企业蒙受巨大损失。

强化企业的知识产权意识,不单单是要尊重他人的知识产权,同时也需要主张自己的知识产权权利要求,加强对知识产权的管理。正确且充分的知识产权的认识将为自主品牌的打造提供有利的环境,为企业的长远发展打下坚实的基础。

3.加大监管力度,规范出口秩序,要求企业保质保量生产销售

商务部等政府主管部门以及相关部门应采取积极有效的措施对中国汽车出口进行引导和推动,以改善中国汽车出口环境,为高质量汽车的出口搭建平台,加强相应的服务并提高效率,规范汽车出口的秩序,并且通过广大企业和行业组织等中介机构的努力,以实现汽车出口的持续稳定快速的发展。

参考文献:

[1]汪莹:我国汽车出口市场研究[J].汽车工业研究,2007

[2]笪莉萍:我汽车零件出口屡遭反倾销[N].上海青年报,2006年8月30日

[3]刘彬彬:汽车产业知识产权问题引起关注[N].中国工业报,2006年9月22日

[4]汪张林:跨国汽车公司在华知识产权战略与我国汽车企业的应对[J].电子知识产权,2007

数据分析论文范文篇3

1.1资料来源

AEFI数据来源于中国疑似预防接种信息管理系统。疫苗接种数据来源于中国免疫规划信息管理系统。1.2统计方法采用描述性流行病学方法,运用EXCEL2007进行统计分析。

2结果

2.1地区分布

2013年鞍山市共报告AEFI189例,与2012年相比(35例)上升了440%。县级AEFI报告覆盖率100%。各县(市、区)AEFI报告数与2012年相比上升了55.56%~4200%。

2.2年龄与性别分布

男女性别比为1.49:1。报告例数排前位的年龄组分别是0岁组(101例,占53.44%)、1岁组(51例,占26.98%)、6岁组(23例,占12.17%)。

2.3疫苗和剂次分布

AEFI涉及的疫苗排前位的分别是:百白破疫苗(70例,占37.04%)、麻风疫苗(36例,19.05%)、白破疫苗(23例,12.17%)。接种疫苗第1剂次发生AEFI128例,占67.73%;第2剂次18例,占9.52%;第3剂次17例,占8.99%;第4剂次26例,占13.76%。以疫苗单剂次统计,AEFI涉及的疫苗排前位的分别是麻风疫苗(36例)、第4剂次百白破疫苗(25例)、白破疫苗(23例)、第1剂次百白破疫苗(22例)。

2.4报告发生率

根据国家免疫规划疫苗接种率监测报告数据估算,2013年我市AEFI报告发生率为32.27/10万剂次。国家免疫规划各疫苗AEFI报告发生率波动在3.82/10万剂次~125.28/10万剂次。报告发生率居前位的分别为:麻风疫苗125.28/10万剂次,白破疫苗84.57/10万剂次,百白破疫苗65.17/10万剂次。

3讨论

数据分析论文范文篇4

整个系统以广电大数据分析平台为基础构建,系统由数据采集系统、数据分析中心、三个数据应用中心(推荐中心、决策中心和服务中心)组成和系统管理模块组成。

1.1数据采集系统

大数据时代,大数据有着来源复杂、体量巨大、价值潜伏等特点,这使得大数据分析必然要依托计算机技术予以实现.因此从两个方向上加强数据采集统建设,一是侧重于数据的处理与表示,强调采集、存取、加工和可视化数据的方法;二是研究数据的统计规律,侧重于对微观数据本质特征的提取和模式发现,在两个方向上的协同、均衡推进,以此来保障大数据平台应用的稳健成长和可持续发展.广电的网络和用户是其核心资产,而其中流动的数据(包括用户基础数据、网络数据、网管/日志数据、用户位置数据、终端信息等)是核心数据资产.对于广电运营商来说,最有价值的数据来自基础网络,对于基础网络数据的挖掘和分析是运营商大数据挖掘的最重要方向.因此其数据采集的目标包括机顶盒数据、CRM数据、帐务数据、客服数据、运维数据、媒资数据、GIS数据、财务数据和其他手工录入、表格数据.采集频率要求可以实现实时采集和定时批量采集.采集这类数据带来一个问题就是各类数据杂乱无章,会导致数据质量问题越来越严重,通过引进实时质量监控和清洗技术,建设强大的分布式计算和集群能力,提高数据监控和数据采集性能,利用分布式处理技术,实现数据抽取、数据清洗以及相应的数据质量检查工作,保证采集到高质量的数据,将广电大数据中心建设成一个覆盖广电系统全部数据的存储中心,具备采集各类结构化、非结构化海量数据的处理能力.

1.2数据分析中心

广电企业每时每刻都在产生大量的数据,需要对这些数据归集、提炼,广电企业大数据平台建设的意义在于有效掌握规模庞大的数据信息,对这些数据信息进行智能处理,从中分析和挖掘出有价值的信息.在广电大数据分析中需要对直播节目分析、互动业务分析、互联网流量分析、互联网内容分析、广电客户分析、市场收益分析、智能内容推送和广告分析等,通过这类数据分析,能够实时了解广电运营商的经营状况,提供决策支持.因此采用两种方式分析方法对收集到的数据进行分析处理.一是采用在线分析方法技术,使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的.这些信息是从原始数据直接转换过来的,他们以用户容易理解的方式反映企业的真实情况.在线分析策略是将关系型的或普通的数据进行多维数据存贮,以便于进行分析,从而达到在线分析处理的目的.这种多维数据存储可以被看作一个超立方体,沿着各个维方向存贮数据,它允许分析人员沿事物的轴线方便地分析数据,分析形式一般有切片和切块以及下钻、挖掘等操作.二是数据挖掘是从海量、不完全的、有噪声的数据中挖据出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则.这些规则蕴含了数据库中一组对象之间的特定关系,揭示出一些有用的信息,可以为经营决策、市场策划和金融预测等方面提供依据.

1.3数据应用中心

在大数据分析平台应用过程中,数据本身并不是数据分析和数据挖掘的重点,重点在于如何应用这些技术去解决企业在运营中实际的商业问题.通过对数据分析和挖掘,了解企业运行过程存在问题,预判企业中各类业务发展走向.对数据分析与挖掘结果来说主要有两个方面,一是将分析结果给客户使用,另一个是将分析结果提供给内部用户使用,因此在大数据分析平台设计中,将数据应用划分为三个应用中心:

1)推荐中心

推荐中心面向收视、宽带使用用户,通过分析使用用户的收视、互联网、消费等行为,将使用用户分群,总结群体特征,向不同群体推荐个性化的电视节目、广告和增值应用服务.从而提升用户的使用体验,提升用户的满意度和粘度.

2)决策中心

决策中心面向广电企业内部决策者、管理者、经营分析人员,通过对企业经营数据的KPI、运营监控、经营盘点,使企业决策者掌握企业运营状况及发展趋势;智能报告协助分析人员自动定位经营中的问题;即席查询在预定义的语义层基础上,实现灵活的自定义查询;通过主题分析满足各部门、岗位的多维度分析需求;通过专题分析就某一具体问题进行深入挖掘,辅助专业分析人员的工作;统计报表满足各部门常规统计需求.

3)服务中心

服务中心面向广电的合作伙伴,比如:电视台、广告商、服务和内容提供商、相关政府职能部门等.通过对使用用户收视行为的实时分析,将电视栏目实时收视率提供给电视台,电视台根据收视率进行在线的问卷调查,提高电视台的影响力,帮助其增强栏目的评价体系.为广告商提供精准的广告投放策略,实时准确的广告投放评估,帮助广告商提升广告到达率、准确度和营销效果.为服务和内容提供商的电影、电视和增值应用等产品提升收视率和使用频率,并进行评估,为其提供受众喜好特征,帮助其推出有针对性的产品.通过用户收视数据、节目反馈等信息,将相关舆情向相关政府部门汇报.

1.4系统管理

系统管理是大数据分析平台一个辅助功能模块,主要是为了系统管理员对大数据平台进行有效的监控和管理,提升大数据分析平台性能使用,包含有如下几个模块:权限管理、数据质量管理、元数据管理、调度管理、系统监控等.

2数据应用分析

移动互联网的发展为传统行业带来了新的思考,如何在互联网时代更好地实现以客户为中心的服务理念,借助大数据分析平台、海量的客户非结构化的行为数据和传统的结构化数据,可以有效提升广电个性化、人性化的服务水平.大数据分析平台通过整合广电网络中多个数据源,并按照主题进行划分,在定义主题的过程中,提供广电业务概念的规范定义.数据模型不偏重于面向某个应用,而是站在企业角度统揽全局,提供可扩展的模型设计,偏范式化的设计使平台在最大程度上保持一致和灵活扩展性.依托某广电网络公司业务开展情况,搭建数据分析平台,具有如图2所示的主题结构,共计8大类53小类,从广电网络运营的各个方面进行了数据分析.

2.1直播节目分析主题

直播电视节目作为广电运营模式中一直沿用的产品类型,对于广电用户的影响和广电运营商运营模式起着至关重要的作用.实时直播节目分析,用户可以实时查看每个时间点上每个节目收视率,以此为据来指导产品定制、节目选择、用户推广等方面的商业应用,对直播节目的多维度分析,运营商可深入分析直播节目收视特性及受众影响规律,以指导运营优化,提高节目的收视率和营收.

2.2多媒体业务分析主题

广电行业的双向网络改造不仅将视频点播、通信及娱乐业务成为可能,同时配备增值业务,如广告、支付、股票、游戏、付费节目等服务.可以明显看到哪类业务最受欢迎,哪类业务的增长趋势良好,哪类业务应用下滑得较快,哪类业务不受用户欢迎,从这样的分析结果中,可以为广电网络以后的业务引进中提供指导,避免引进的业务不受用户欢迎,同时也可以预见性的引进一些代表将来趋势性的业务,提前做好业务储备工作.互动业务的互动特性为广电运营商增加客户粘度、制定产品投放策略、获取最大化收益及市场价值提供了前所未有的空间,通过对互动业务的应用分析,可以分析出用户的行为趋势.利用这样的分析结果改善广电业务引进,提高用户的粘度和ARPU值.

2.3互联网应用分析主题

广电作为政府宣传的喉舌,一个主要的特点就是可管可控,相对此而言,互联网网络一个重要特点就是用户各类行为的不可控性.在三网融合的新环境下,广电网络一个重大改变就是引进了互联网业务,同时通过多屏互动技术使广电终端类型日益复杂,如何对广电网络引进的互联网业务和终端进行有效的管控,成为摆在广电网络运营商面前一个重要课题.运营商可以清晰地看到用户在讨论什么、在看什么,以此来分析用户将来可能采取的行为趋势,进而来引导用户舆论与行为,实现对广电网络的可管可控的最终目的.同时广电网络也可以利用互联网数据从如下两方面做了分析,运营流量及应用优化,节省网络带宽,减少运营费,同时用以提高用户体验度,增加用户粘性;充分利用线上、线下同步运营模式,深入挖掘线上讨论内容,为线下运营提供指导.

2.4广电客户分析主题

在三网融合的环境下,广电网络在逐渐摆脱事业单位模式下经营模式,向“市场驱动”、“客户驱动”经营模式的转变,“以客户为中心”的理念和策略不可或缺,而广电网络拥有的客户群和常规用户分析的客户群体有着本质区别,以往分析往往针对个体用户进行分析,广电网络面向的用户通常是以家庭为单位的,这给广电网络用户行为分析带来不可预料的困难.通过针对用户群体不同年龄、不同时间段的收视行为和上网行为分析,可以区分某一时间段内该家庭用户内个人的行为,可以清晰看到各类用户在各个阶段的变化情况,以及这个变化给广电网络运营带来的变化.从用户信息出发,以用户应用行为为主线,深入挖掘用户关系,为广电用户关系管理提供有效基础数据,提高用户满意度、忠诚度,提高广电网络市场运作的主动性.

2.5市场收益分析主题

三网融合后,广电网络作为一个市场主体,需要适应日趋激烈的市场竞争环境,提升广电运营商的企业核心竞争力,应充分利用业务支撑系统产生的大量宝贵的数据资源,建立广电企业收益分析系统,实现对收益数据的智能化加工和处理,为市场运营工作提供及时、准确、科学的决策依据.利用先进的OLAP技术和数据挖掘技术,帮助企业的经营决策层了解企业经营的现状,发现企业运营的优势和劣势,预测未来趋势;帮助细分市场和客户,指导营销、客服部门进行有针对性的营销和高效的客户关系管理;对决策的执行情况和结果进行客观准确的评估,深受用户的青睐.如图7所示的收益分析结果,可以清晰看出企业各类业务在营收中所占比例,可以明确了解哪类业务是企业的优质业务,哪类业务需要进一步加强开拓市场,同时也可以预测哪类业务会有更大的推广空间,为企业持续开展业务提供指导.

2.6智能内容推送主题

深层次挖掘用户潜在的需求,以用户的需求为导向,向用户推送有针对性的内容.广电运营商通过对用户差异性的运营策略,激发用户参与的热情,让用户有持续的良好体验,提升对用户的吸引力和黏着度.信息精准、智能推送的关键在于把握住用户的行为习惯,同时让每一个用户都可以按自己需求方便、快捷地调整、归类相关信息.大数据分析平台基于用户行为收集分析系统,挖掘出用户潜在需求,充分了解了用户的真实意愿,将有助于广电运营商建立以客户为中心的服务理念,提升社会影响力.

3总结

数据分析论文范文篇5

数据挖掘是在数据库中进行知识发现的重要方法,是从大量的表面数据中提取隐藏在其中的知识的过程。近年来,该技术发展迅速,已应用到各个领域。本文主要介绍固话漏话用户数据挖掘和分析。

2数据挖掘技术应用于电信用户数据研究

2.1固网用户数据的组成和结构

对于企业来说,大量的用户数据不仅有利于客户关系管理(CRM),同时也是获得用户知识的源泉。从用户知识发现的过程中可以看到,用户数据的质量会对知识发现的结果产生直接的影响,所以用户数据准备也是一项很重要的步骤。从商业系统中提取出高质量的用户数据就成为一项最主要的工作。固网企业的用户数据包括用户基本信息、用户账单信息以及客服信息。数据仓库就是根据这种方式来组织的。

2.2知识发现的方法和过程

用户知识发现概括如下:根据提出的商业目标,分析大量的用户数据,找出隐藏的和未知的规律或者丰富已知的规律,进而提出模型;最后要将数据挖掘和分析的结果转化成有商业意义的方法,然后采取进一步的行动。用户知识发现必须遵循以下几个步骤:商业理解,数据理解,数据准备,分类模型,评估应用。

2.3数据挖掘建立用户分类模型

近年来,“以客户为中心”的电信市场开始强调为不同用户提供个性化服务,其前提条件就是用户分类。这也说明了过去的消费行为也预示了未来的消费倾向。

(1)商业理解

对用户的理解不仅是理解电信市场的开始,也是理解客户关系管理的开始。在电信企业中对用户的理解包括:用户种类,不同类中用户的本质属性区别,用户偏好,不同类别之间的用户如何通信等。

(2)用户数据准备

对用户分类的研究主要是从用户属性中得到用户特征和行为习惯。主要数据来源于用户账单信息,同时也需要从商业系统中得到一些用户的基本属性信息。

(3)用户分类模型

本文使用聚类分析对用户进行细分以建立分类模型。聚类分析是把大量数据点的集合根据最大化类内相似性、最小化类间相似性的原则进行聚类或分组,使得每个类中的数据之间最大限度地相似、而不同类中的数据之间最大限度地不同。

3固网漏话用户数据分析

3.1关于固网漏话用户数据分析的商业理解

通过各种渠道调查,对固网漏话用户数据分析的目标可以概括为以下几点:

(1)对用户通话次数、时间段等分析,找出特征,以此来寻找目标用户;

(2)对用户开通漏话保护业务前后的ARPU值分析比较,分析收益的对比;

(3)对目标用户数据分析,从用户分类的角度来管理,设计针对性的服务,提升用户满意度。

3.2系统用户数据准备

数据准备的过程:明确目标;制定计划;分析变量的获取;数据收集和获取;数据集成。根据当前客户关系管理基本状况和数据挖掘的目的,涉及到的人口属性变量有:性别、年龄、住址、用户职业、婚否、学历、薪资等。用户分类结束之后,再使用描述变量来进行分析说明。本文选用某市电信公司运营支持系统和经营分析系统的数据,从中选取了基本客户基本信息表、客户详细话表、账单及缴费信息表、产品信息表、业务使用清单等原始数据。数据挖掘工具选择SPSSClementine。在使用该工具进行挖掘之前,需要对数据进行清洗:

(1)删掉不满足要求的数据:选择普通的用户;选择状态正常的用户;选择入网时间较长的用户,使数据有完整的用户周期;

(2)去掉异常数据:比如用于测试的号码;

(3)去掉极端值:不具备普遍性的极值容易产生噪声。

3.3固网漏话用户数据分析结果

考虑到不同分类建立的有效性和简便性,以及固话用户和数据源的特点,本文采用常见的K-means算法,其高可靠性、高精准性以及低复杂度使其成为主流的聚类算法。本文选用SPSSClementine作为数据挖掘工具进行K-means聚类分析。获取原始数据并进行预处理之后,选择参与聚类的细分变量,输入簇的个数k,选择k=7,然后点击“聚类”按钮,使用K-means算法对固网漏话用户数据进行聚类。经过正常值选择、极值处理等一系列的数据清洗工作,最后用于研究的记录有251284条。

3.4分析结果和解释

93%的遇忙话务都出现在8∶00~18∶00的工作时段,这说明该时段遇忙话务较多,话务量流失严重,特别需要遇忙话务的解决方法。而这一时间段遇忙话务量最多的就是政企用户,这些话务量流失对政企用户将造成巨大的损失:30000政企用户一个月遇忙话务损失达到260万次,本网超过120万次,每个月预计损失20万;以电信中等发达省份为例:符合条件的政企高端用户约为60万;每年度损失的潜在业务收入为50000万。经过分析,得到该市各地区已开通和未开通漏话保护业务的用户分布,如图4所示。C区属于政务新区,未开通漏话业务的用户较多,而F区属于工业园区,企业较多,很多用户已开通漏话保护业务,但是还有大量用户未开通该业务,所以C区和F区应该作为该业务的重点推广地区。综上分析,固网漏话业务是一个非常有潜力的业务,解决漏话问题是提高用户满意度和忠诚度的重要途径。根据上文的分析,在8∶00~18∶00时间段,用户遇忙话务量非常多,在这段时间内,企业需要更多的漏话接入服务器,而在其他时间段可以减少接入服务器以节约成本。而在不同的地区,用户数量和精准用户的数量也不同,应该选择精准用户较为集中的地区优先推广漏话保护业务。由于精准高端用户带来的收益远远超过普通用户,所以要对经过筛选的精准用户采取针对性措施,比如在C区和F区大力宣传,以各种形式让精准客户看到该业务带来的收益,还可以电话推广为精准用户提供信息。

4结论

数据分析论文范文篇6

蚊虫基因组序列的揭示为其基因的克隆鉴定和功能分析提供了很好的平台。由于蚊基因组中高度重复序列的广泛存在,给一些基因特别是非编码序列的分子克隆带来了困难,而基因组序列的提供给这一问题的解决带来了福音。利用已获得的白纹伊蚊基因组序列,我们已顺利克隆了其嗅觉结合蛋白(OBP)和嗅觉受体(OR)基因及其调控序列,为其嗅觉发生分子机制的阐明奠定了基础。Criscione等通过比较斯氏按蚊雌蚊和雄蚊的基因组DNA和RNA样本的Illumina测序结果,发现了一个Y染色体特有的基因GUY1。Hall等则发明了一种更为有效的染色体熵法,该方法的优势是仅利用高通量测序获得的基因组和转录组数据,而不需要一个固定在染色体上的参考基因组来进行比对。通过比对两种疟疾重要传播媒介斯氏按蚊和冈比亚按蚊的高通量基因组和转录组数据,系统性地在斯氏按蚊和冈比亚按蚊中各发现了3个Y基因。同时通过对鉴定的Y基因进行生物进化分析,结果表明按蚊的Y染色体进化迅速。随后,Hall等又使用染色体熵的方法比对了雄性和雌性埃及伊蚊基因组DNA和RNA的Illumina测序数据,筛选并鉴定了一个新的基因myo-sex。myo-sex基因几乎只存在于雄蚊的基因组,但是由于基因重组偶尔地能在雌蚊的基因组中发现,具有雄性偏好性,是一个可能具有性别拮抗效应的肌球蛋白重链基因。蚊虫基因组数据也为蚊虫性别决定网络底部基因dsx的研究提供了依据。dsx是性别决定网络中的调控核心,主要行使决定体细胞和生殖细胞性别的功能,也可调控中枢神经相关基因fruitless,进而调节性行为。冈比亚按蚊基因组数据之后,Scali等率先鉴定了冈比亚按蚊dsx的性别特异性转录本,其横跨2号染色体85kb的区域,通过选择性拼接产生多个外显子组成的雌性和雄性特异性转录本。而随着2014年斯氏按蚊基因组的,有研究者将Scali等报导的Angdsx与刚的斯氏按蚊基因组和转录组进行序列比对,发现一致性达到了97%,而与冈比亚按蚊基因组及转录组序列一致性仅为85%。Scali等在埃及伊蚊中发现了两种雌性特异性的可变剪接方式,这不同于黑腹果蝇和冈比亚按蚊具有的特异性DsxF。

2蚊虫的转录组学研究

转录组学(transcriptomics)是一个活细胞所能转录出来的所有RNA的总和,是研究细胞表型和功能的一个重要手段。传统上用于转录组数据获得和分析的方法主要有基于杂交技术的芯片技术包括cDNA芯片和寡聚核苷酸芯片,但目前使用最普遍的是RNA-seq即转录组测序技术。基于Illumina高通量测序平台的转录组测序技术能够在单核苷酸水平对任意物种的整体转录活动进行检测,在分析转录本的结构和表达水平的同时,还能发现未知转录本和稀有转录本,精确地识别可变剪切位点以及cSNP(编码序列单核苷酸多态性),提供最全面的转录组信息。相对于传统的芯片杂交平台,转录组测序无需预先针对已知序列设计探针,即可对任意物种的整体转录活动进行检测,提供更精确的数字化信号,更高的检测通量以及更广泛的检测范围,是目前深入研究转录组复杂性的强大工具。巨蚊属是蚊科中三种不吸血的蚊属之一,其幼虫阶段以同在小型水体中孳生的白纹伊蚊和埃及伊蚊为食,两性成蚊均不吸血,以植物汁液和花蜜为食。为了探究巨蚊与其它吸血蚊种在搜寻宿主方面的基因水平上有何差异,国外有学者从巨蚊上分离出触须、触角和身体其他部分,分别提取这三部分的RNA,利用RNA-seq技术,将获得的序列片段从头组装,与目前已公布的致倦库蚊、冈比亚按蚊、埃及伊蚊基因组数据进行系统进化树分析,发现巨蚊与埃及伊蚊的种属关系最近,并且在上述四种蚊种中均发现了编码气味分子受体(odorantreceptor,OR)蛋白和离子转移受体(ionotropicreceptor,IR)蛋白的基因,但值得注意的是,巨蚊受体蛋白的表达量与丰度上较其它蚊种都有所降低[18]。因为这些受体蛋白被认为与吸血昆虫搜寻宿主气味分子如CO2有关,所以,巨蚊在长期的生物进化过程中,丧失了原本存在的吸血习性。蚊唾液腺蛋白与其吸血传病密切相关。国外有学者提取白纹伊蚊雌性成蚊的唾液腺RNA后进行转录组和蛋白质组分析,发现至少有32个基因在雌性成蚊的唾液腺中表达程度或者增高或者降低,另外有17个基因表达在雌性成蚊唾液腺和雄性成蚊中,但不表达在雌性成蚊的其他组织中。通过分析发现,其中大约三分之一的基因功能表现在吸血、消化糖、免疫应答等方面,但是并未发现其余基因的明确功能,所以非常有可能是长期吸血的过程中进化出的新的功能分子。利用同样的方法,分析冈比亚按蚊、斯氏按蚊、达氏按蚊、埃及伊蚊、白纹伊蚊、致倦库蚊和致死按蚊(Anophelesfunestus)的唾液蛋白相关的转录组,可以将这些蛋白归纳为:

(1)昆虫唾液腺中普遍存在的唾液蛋白,包括抗原-5蛋白家族、核酸酶、碳水化合物水解酶等;

(2)在吸血的长角亚目昆虫(包括白蛉、蚋、蠓等)中丰富表达的D7蛋白;

(3)仅在蚊唾液腺中存在的蛋白,包括30000左右的过敏原蛋白家族(allergenfamily)和一些粘蛋白。很多昆虫都被发现具有一种独特的生物学现象——滞育(diapause)。昆虫的滞育现象被认为是一种休眠的形式,在昆虫发育时遇到不适宜的环境时,就会马上由体内激素调节并控制,暂时停止发育。白纹伊蚊被发现同样具有滞育现象,这是它能适应环境气候变化,实现快速扩张入侵的生物学基础之一。白纹伊蚊的雌性成蚊在每日受到较短时间的光照后,产下的卵不会立即孵化,这便是一种滞育的现象。有趣的是,同是伊蚊属的埃及伊蚊,其雌性成蚊产的卵如果没有接触到水,也不会孵化、发育,这却被认为是一种静息状态(quiescence)。这两种现象的区别在于,发生滞育后,白纹伊蚊的卵即使收到合适的外界环境的刺激,仍需要经过一段时间的恢复才会孵化,而处于静息状态的埃及伊蚊的卵,只要受到适宜条件的刺激(如接触到水),就会马上进入发育阶段。国外有学者利用RNA-seq技术,对这两种现象进行分析,发现这两种现象在发育停止的阶段,分子水平上是很相近的,不同之处在于滞育现象的早期准备阶段和后期修复阶段,是其所独有的。关于滞育现象的早期准备阶段,国外学者通过RNA-seq技术,比较滞育前阶段(pre-diapause)的白纹伊蚊胚胎与同时期非滞育的白纹伊蚊胚胎基因表达水平上的差异,发现前者在基因表达模式上有非常大的改变。目前,已有学者归纳和总结出了一套利用RNA-seq技术研究白纹伊蚊滞育现象的方法,为今后更全面、彻底地认识白纹伊蚊以及其他媒介昆虫的滞育现象提供了坚实的基础。利用RNA-seq技术,我们对白纹伊蚊不同发育时期(卵、幼虫、蛹、雄蚊、雌蚊)和感染登革病毒前后的转录组进行了分析。对比分析不同发育阶段特别是雌雄蚊的基因表达谱,我们找到了在胚胎早期对性别分化具有重要作用的候选基因和对雌蚊吸血传病相关的性别偏爱基因。对比分析登革病毒感染与否的白纹伊蚊转录组,我们发现了可能与蚊媒与病原相互作用有关的免疫分子(未发表结果)。目前,针对这些候选基因的进一步功能分析正在进行之中。另外,对白纹伊蚊抗药品系和敏感品系的RNA-seq对比分析也在进行中,这对于其抗药机制的阐明非常重要。

3蚊虫的小RNA组学研究

小RNA(smallRNAs)主要指长度在18~30nt的一类非编码RNA(ncRNAs),在真核生物中,具有基因表达调控功能的小RNA主要有微小RNA(microRNAs,miRNAs)、内源小干扰RNA(endo-siRNAs)和piwi干扰RNA(piRNAs)。piRNA长度集中在26-31nt,目前只在动物的生殖系细胞及干细胞中被发现,其主要功能是参与转座子的沉默。miRNAs和endo-siRNAs长度主要集中在20~24nt。miRNAs在动植物和微生物中都普遍存在,据估计一个物种中约1/3的基因会受到miRNA的调控,大量的实验也表明miRNAs参与了诸多生命过程的调控,例如细胞周期、细胞分化、组织器官的发生、营养代谢、信号途径以及对外界生物的非生物的环境的反应;同时,miRNAs在生产实践与临床治疗上也具有很大的应用前景。以往用于寻找miRNAs等小RNA的方法有实验克隆法、计算机预测法。克隆法可以直接用于鉴定新小RNA,是初期发掘小RNA的常用方法,不足之处是实验周期较长,对低表达的小RNA的发现能力十分有限。计算机预测法多是针对某一已知的小RNA特征设计算法,从全基因组或EST数据库中快速发掘大量潜在的小RNA,一定程度上弥补了克隆法的缺点,然而,预测的小RNA最终还需要实验证明,同时计算机预测法对新类型小RNA的发掘能力十分有限。随着第二代高通量测序技术的问世,小RNA高通量测序(smallRNA-Seq)技术开始逐渐取代原始的小RNA发掘法方法,该法具有速度快、成本低、覆盖度深等多方面的优点,对鉴定与发现生命体内的小分子RNA及其功能与机理研究起极大的推动作用。全世界有超过3000种蚊虫,目前为止仅有冈比亚按蚊、斯氏按蚊、埃及伊蚊、致倦库蚊以及白纹伊蚊鉴定出miRNA。一些miRNA的文库和功能分析表明miRNA对蚊虫的卵巢发育和吸血后的血液消化具有调节作用。病毒感染可以对宿主细胞miRNA的表达水平产生深远影响,可能与宿主抗病毒机制及病毒入侵后改变细胞内环境有关,雌蚊中miRNA的表达模式会随着病原体的感染而发生变化。Hussain等对登革病毒(DENV)编码的miRNA或病毒小RNA(vsRNAs)的进行了功能研究,他们发现6个vsRNAs能通过作用于病毒基因组RNA茎环结构中的5''''和3''''的UTR区,显著增加病毒复制。中肠屏障是蚊虫防止病原体入侵而建立的重要屏障,Alexander等的研究发现miR-1174仅在伊蚊和按蚊的中肠中表达,且雌蚊吸血后其表达量明显上调;而当miR-1174表达下调后,蚊子吸血率明显降低,寿命明显缩短。作者认为:蚊特异性miRNAs,特别是miR-1174具有重要的生物学意义,它们可能影响人们今后控制蚊虫的策略。我们对白纹伊蚊不同发育时期(卵、幼虫、蛹、雄蚊、雌蚊、吸血后雌蚊)的小RNA进行了深度测序分析。结果在白纹伊蚊中筛选出119条已知的miRNA基因,确定了15条novelmiRNA基因,其中11条是伊蚊特异的,并且观察到许多miRNA呈现期特异表达的特点。经过实验验证,miR-286、miR-2492和miR-1891分别在白纹伊蚊的卵、幼虫和成虫期特异高效表达,敲低/敲除这些miRNA会对蚊虫的生长发育造成显著影响。这些研究为新型生物杀虫剂的研发提供了靶标。我们还对感染登革病毒前后白纹伊蚊的细胞和成虫的小RNA进行了深度测序分析。结果在感染登革病毒的白纹伊蚊中找到了10条表达上调的miRNA和11条表达下调的miRNA。通过对这些差显表达miRNA的功能分析,发现miR-252通过与E蛋白3''''-UTR区域的结合,对登革病毒的复制起到抑制作用;而miR-281则通过与E蛋白5''''-UTR区域的结合,对登革病毒的复制具有促进作用。这些研究为抗登革病毒药物的设计和研发提供了线索。piRNA来源于转座元件、基因间隔区和一些编码蛋白质基因的3''''UTRs,对维持基因的完整性和稳定性有一定作用,但最近的研究证明它在抗病毒免疫中也有较大作用。Schnettler等的研究证明:对蚊虫细胞感染虫媒病毒可以引发piRNA路径,而敲除piRNA蛋白质会使病毒产生增多。Castellano等确定了多个24-30nt的Piwi相互作用RNAs基因组簇,通过比对到转座元件和蛋白质编码基因的3''''UTRs,发现许多TEs和一些内源性基因的3''''UTR产生大量具有piRNA样特征的29-nt小RNAs峰。此外,来自冈比亚按蚊和黑腹果蝇TEs的正义和反义piRNAs揭示了piRNA序列偏差的新特征。弗吉尼亚理工大学的研究人员最近在库蚊中发现了一种新型的抗病毒途径,Morazzani等在无dicer-2和无突变的蚊细胞中进行的实验表明,病毒产生的piRNA样小RNA可以在病毒产生siRNA的过程中调节病毒感染的发生。同时也表明新的piRNA途径存在于蚊媒的体细胞中并且可能发挥着比siRNA途径更宽泛的的抗病毒作用,显示出其为强大的免疫系统。因此,理解病毒如何绕开蚊虫的双重抗病毒反应对于科学家来说是越来越有趣的挑战。

4结语

数据分析论文范文篇7

系统中的智能Agent是具有领域知识和模型嵌入,能自主工作和具有语义互操作及协作交互能力,问题求解能力的智能实体,具有自治性、通信能力、推理和计算能力、协同、协调及协商能力等特性。

2.1数据抽取Agent

数据抽取Agent(DA)主要实现对网上电子数据交换的单证进行监控性或合法性的格式检查,并从不同的单证中自动地抽取出所需的数据项,提交给交互协调Agent,以便进行分析和统计。其对单证格式检查的要求,以及数据抽取的要求统一由交互协调Agent管理。Agent实时监测网上电子交换系统单证的收发,当用户收到或发送单证时,它就会自动提取单证中的数据,根据单证的种类、知识库中处理要求,进行数据处理和存储,并发送给交互协调Agent分析统计或报警。

2.2计算统计Agent

计算统计Agent(TA)主要对抽取出的单证数据按类别、时间、对象等多角度,采用马尔可夫、多元回归、指数等多种方法进行分析统计。因此,需要建立模型库、知识库对不同的单证进行不同要求的处理。计算统计Agent的组织结构图如图1所示。

TA会根据由交互协调Agent设定好的要求,当收到的相应单证数达到一定数目或者是积累了到预定的时间时,自动会进行分析和统计,如销售单处理中的本月单证数目,本月销售额、最大额销售情况、下月的销售量预测、最优库存量等。

2.3交互协调Agent

交互协调Agent(CA)是系统的关键,它既是与用户沟通的桥梁,又是与各Agent交互协调工作的核心,其主要任务是实现问题求解的任务分配、调度和协作交互。为实现CA的交互协调和交互流程的一致,存放CA与其他Agent间的任务请求和分配信息;存放问题求解过程中的协作要求和参数信息;存放其他Agent的处理描述性信息,供CA分配任务时使用。

2.4Agent之间的通信与协作

在系统中,Agent之间的通讯是基于消息的通讯机制,利用消息完成传递服务请求及协调Agent之间的同步。DA和TA根据消息通讯来获取环境信息、任务、结果反馈信息;DA的每一个监控和执行任务以及TA的每一个计算统计任务都可以表示为一个任务提交者CA向承担者DA和TA发送任务消息;监控和数据抽取任务的实施或暂停是由CA向DA发送任务消息,其监控和数据抽取的结果则通过向CA回送消息予以体现;同样,计算统计的实施过程是TA接收到消息后产生状态变化的过程,其计算分析结果通过向CA回送消息予以体现,并由此来实现多Agent间的共享和合作运行。

3网络单证数据数据分析系统

3.1系统结构

网络单证数据数据分析系统是嵌入在原有的网上电子数据交换系统之上,主要由交互协作Agent、数据抽取Agent和计算统计Agent构成,还包括了与原系统的接口。网络单证数据数据分析系统结构图2所示。

从图2可知,CA控制协调DA和TD,以及控制数据接口和人机接口,而DA与数据接口仅有数据传递的连接关系,数据传递与否受CA的控制;数据接口是原网上电子数据交换系统与本系统的数据交换通道,只面向数据共享的要求;人机接口是为用户进行任务设置而设计的,一旦任务设置后,系统可自动按设置值运行,无需外界干预。

3.2EDIDA的工作流程

通过人机接口,由用户向CA进行任务设置;

CA对设置的任务进行分解;

各Agent独立地进行工作,求解相应的问题;

由CA协调DA、TA的在求解中的问题请求,按上述的交互协作流程来完成任务;

CA会按要求的格式传递给设置的服务器,进行记录和提示;

在CA获得TA的统计分析结果后,按要求的传递给设置的服务器进行记录、输出、保存、打印。

CA对整个执行过程记录存储,以优化模型和知识的选择和比较对比;

3.3网上手机订货数据的分析

在原有的网上电子数据交换系统中,有关于商家和供应商间网上手机订单处理。为此,将EDIDA嵌入后进行Motorola手机订单的数据处理,包括订单中订货数量的监控、2007年7月的订货数量的预测。

对订单中订货数量的监控,采用的方法是:订货量大于30部时,产生5秒的告警声并记录该单证号;对于2007年7月订货数量的预测,采用的方法是:选用最小二乘法模型ZXRC、指数加权移动平均模型YDJQ、三项和比例模型SXBL这三个模型来预测2007年7月的订货数量,并由CA根据评选规则来确定最后预测值,预测结果如表1所示。

表中“*”号是指订货量大于30部的报警次数,具体的订货量大于30部各订单号则保存在CA的数据库中。预测结果的最终选定由CA根据知识库中规则来确定,评选的规则有:平均法,即对每个结果进行算术平均,把平均结果作为最后结果。去掉最大和最小法,再对剩下的结果进行算术平均。取中间值法,即最靠近中间的值,若中间值有两个,则取其平均值为最后结果。使用频率最高法,即根据使用成功次数,选择成功最多的模型结果为最终结果。最大原则,即选取最大预测值为最终结果。最小原则,即选取最小预测值为最终结果。

本次预测采用平均法,即预测值=(146+135+151)/3,最终的预测结果为2007年7月Motorola手机的订货量为144部,与当年实际Motorola手机订货量147部非常相近,并给出了季度指数。

4结语

本文采用Agent技术,提出了对网上电子数据交换系统中XML单证的监控和统计分析方法和实现技术,初步探索了Agent在网络监控和预测领域中应用,并结合实际进行了验证。今后的研究将考虑用单个Agent来实现系统的功能,并加入黑匣子技术,面向网上的应用深入开展研究。

参考文献

[1]A.Rao,M.Georgeff.BDIagents:Fromtheorytopractice.[J].InProceedingsoftheFirst

InternationalConferenceonMulti-AgentSystems,1995:312-319.

[2]M.J.Wooldridge,N.R.Jennings.Intelligentagents:Theoryandpractice[J].TheKnowledgeEngineeringReview,1995,10(2):115-152.

[3]张寅生.智能Agent与Agent系统[J].计算机系统应用.1998,(7).

[4]赵龙文,侯义斌.Agent的概念模型及其应用技术[J].计算机工程与科学,2000,(6).

数据分析论文范文篇8

关键词:电力营销;数据分析;实时监控;月度分析

1凯里供电局营销工作概况

凯里供电局系中国南方电网公司和贵州电网公司领导下的国家大二型企业,担负供电辖区内15个县(市)及湘黔电气化铁路的电能供应、销售与服务任务,并为黔电入粤、黔电入湘的重要通道,为贵州电网公司代管县局最多(15个)的供电企业。该局年售电量40亿千瓦时,辖区内高能耗负荷企业占总负荷70%左右,该局目前营销工作面临负荷结构不合理、代管县局多的复杂管理形势。如何有效的调动代管县局主动做好辖区内的营销服务工作,培育更多优质负荷,提高企业的营销经营业绩,成为该局营销管理工作的研究重点。为此,该局通过建立电力营销数据分析系统,客观公正地评价下属业绩,导入竞争机制,不断提高该局的营销工作质量。

2建立实时数据跟踪监控系统

凯里供电局针对需要实时控制的电量及电费回收等指标推行日报表和帐目日报表、周期性报表制度,建立起销售状况的实时监控数据分析系统。这里重点介绍电量销售日报表和电费回收进度表。

电费欠费说明:

1.凯里供电局本月应收15478万,截至8月30日下午6:00,本月实收14090万,欠费1388万,回收率为91.03%。凯里系统本期合并口径新增欠费953万,月末应收电费余额增加额为673.57万,其中城区供电分局直管客户欠费191万(凯里纸厂欠费110万,城区小客户欠费81万),直管县局终端用户欠费566万(其中施秉恒盛公司欠495万,市郊局小客户欠23万、镇远局小客户欠47万);台江局欠192万。

2.注意问题:凯里城区小客户本月欠费可能较多,要加大催费力度;同时对凯里纸厂进行跟踪催费。

销售异常势头,跟进弱势区域、弱势类别。

(2)电费回收进度表。

欠费数目越大,时间越长,追讨的可能性就越小,控制应收账款的通用原则是对赊销客户设定信用额度和信用期限。凯里供电局要求各分县局和大客户管理所在每月24日后按日上报电费回收进度表。每月最后两天在早会上通报。一方面提醒各分县局和部门注意正常欠费的关注和跟进;另一方面对异常欠款及时暴光,及时检点,及时追究,从上至下形成对应收账款追讨的巨大压力。3建立月度营销分析制度,做好营销数据的月度分析

对于市场营销部而言,简单地根据营销数据考核各分县局和部门工作没有任何意义,重要的在于你能引入公平的评估模式,让各分县局和部门的营销负责人心服口服。

完备科学的月销售分析应达到以下目的:

(1)分析整个地区局的当月电量、线损、欠费余额,同期增长率,教上月成长率。

(2)引导各分县局和部门营销负责人关注自己的电力销售和电费回收是否健康。

(3)引导各分县局和部门营销负责人关注当月重要客户的销售。

(4)排除市场容量不同、市场基础不同等因素的干扰,客观公正地评估各分县局和部门的销售贡献。

这里以月度下网电量分析表进行说明:

通过此表我们可以看到凯里供电局当月的售电量、累计售电量、成长率、同期增长率等,还可以看到各类别电量及所占的比例。更重要的是,我们可以看到各分县局的售电情况,排名情况,对各分县局进行点评,还可以要求后三名说明原因,给其营销负责人相应的指导和压力。

4小结

通过建立有效的电力营销数据分析系统,凯里供电局实现了实时的销售监控和周期性的分析反馈及控制,为提高企业经营业绩奠定了基础。

参考文献

[1]傅景伟.电力营销技术支持系统[M].中国电力出版社,2002.

数据分析论文范文篇9

江门世贸广场项目位于江门市东华路与迎宾路交汇处东南侧,上部结构是钢筋混凝土框架,剪力墙结构,设两层地下室,基础是预制钢筋混凝土预应力管桩基础。基坑平面呈扇形,面积约为16980m2,周长约为650m,场地已挖土,移土整平,高程约为3.9~4.9m。按规划要求,场地高程开挖前平整为2.8~3.3m,基坑底高程为-3.85m,基坑开挖深度为6.35~7.15m。基坑的西南方向,地表下方埋设有一条重要管线,在对基坑监测的同时需对管线的沉降和位移进行监测;基坑的东南方为一古庙,需监测其在基坑施工过程中的整体沉降量。

2基坑变形监测设计与实施

基坑的主要监测项目由支护结构桩顶位移、深层位移、支护结构应力、地下水位等项目组成。

2.1布设基准点

布设基准点的目的是在长期观测过程中提供稳定的起算数据。(1)位移基准点应布设在远离施工现场、结实稳定的地方。水平位移监测基准点3个,工作基点3个,编号为J1~J6;(2)沉降基准点的布设位置应选在远离施工现场且稳定的水泥路上。布设了3个水准基准点,编号为G1~G3。

2.2布设监测点

监测点的布设按施工设计图要求,以能反映变形为宜。基坑监测点在支护结构桩后每隔20m左右布设一点,监测点采用埋设观测墩的形式。沉降、位移观测点采用两点合一布设,即WY1-WY20,共20个。周边建筑物沉降变形点布设在能反映建筑物沉降与倾斜的位置,如建筑物的四角、大转角处、建筑物裂缝和沉降缝两侧。同时要求变形点埋设在建筑物的竖向结构上,标志采用“L”型钢筋,共8个(M1-M8),周边管线监测点布设4个(GX3-GX6)。水位监测点在基坑周边布设5个(SW1-SW5),测点用地质钻钻孔,孔深为10m。锚索应力观测点,按要求布设锚索应力计12个,编号为MS1、MS2…MS12。支护结构测斜观测管按相关要求,布设测斜观测管18个,编号为CX1、CX2、…CX18。

2.3监测方法

沉降监测使用天宝DINI03电子水准仪和配套条码铟钢水准尺进行观测。施测是以基准点G1为起闭点,观测所有的沉降点组成闭合水准路线。采用“后、前、前、后”的观测顺序对沉降点进行观测。位移观测使用徕卡TS30全站仪。在基准点J1上设站,检查J2、J4的方向和距离,检查结果满足规范要求后,以多测回测角法观测每个监测点,并进行平差计算其坐标,然后计算出监测坐标在基坑边横向上的位移。深部位移使用测斜仪进行监测。监测从孔底开始,每0.5m为一个测段,自下而上沿导管全长每一个测段固定位置测读一次。地下水位使用电测水位计进行监测。

3监测成果与分析

从2012年4月至2013年6月的14个月内进行了周边建筑物沉降观测,支护结构沉降、位移监测,管线沉降、位移监测,地下水位监测,锚索拉力监测及深部位移监测。本文主要对建筑物沉降、支护结构桩顶位移、地下管线及深层位移的监测结果进行分析。

3.1建筑物沉降监测

建筑物监测是指对基坑周边的华丰古庙进行沉降观测,华丰古庙周围共有8个沉降监测点,进行了沉降观测38期,监测成果见表1,典型监测点的沉降过程线。

3.2支护结构桩监测对基坑的支护结构桩共布设了20个监测点,进行了沉降监测37期,水平位移监测29期,监测成果见表2(对于水平位移,+号表示向基坑方向对于支护结构有两个方向的形变,结合点位布设图,对所有监测点进行分析发现:垂直方向上,支护结构向下沉降;水平方向上,整体有一个向东南方向位移的趋势,即:基坑西北侧的监测点向基坑方向位移,东南侧的监测点则背向基坑方向位移。垂直方向和水平方向的累计变形量都比较小,且呈现出相似的形变过程,即前期变形波动较大,后期逐渐趋于平稳,且变形最大值小于预警值,故认为支护结构比较牢固,形变量都在比较安全的范围内。

3.3地下管线监测

地下管线沉降量都比较大,沉降最小的GX6也有32.8mm,超过了预警值,最大的已达到120.1mm,远远超出了预警值。在发现沉降量较大之后,施工方采取了加固措施,后期管线沉降趋于稳定。基坑施工对管线水平方向的位移也有一定影响,变形量较大的GX5位移量已超过预警值。施工初期管线沉降量增加较大的原因为:基坑开挖破坏了基坑土体原有的应力平衡,引起临近路面下沉,导致地下管线竖向移动,伴随基坑开挖深度增加,管线的沉降量逐渐达到极限值,加之施工方采取了相应的加固措施,使基坑施工中后期管线的沉降趋于稳定。

3.4深部位移监测

各监测点的深部位移整体变形均较小,都低于预警值。深部位移主要有三种比较典型的变化情况:孔顶部和底部位移较小,中间位移较大;孔底部位移较小,顶部向背离基坑方向偏移;孔底部位移较小,顶部向基坑方向位移。CX9号测斜孔第30期(时间2013-1-10)在0~4.5m深处突然出现了一个较大的偏移,分析推测可能是由于邻近监测孔旁正在施工,施工过程造成了对表层土体的挤压,因而引起了土体表层整体的较大位移。在随后的几期观测中,该测斜孔位移趋于稳定。深部位移监测结果显示,最大位移一般出现在孔顶部或6.5~8.5m处,最大位移量都在安全可控的范围之内。

4结论

数据分析论文范文篇10

HANA数据分析平台在软件方面,通过内存技术,应用程序能直接处理电力企业数据库中的各种数据,并直接在主内存中处理。主要技术包括行+列的存储、压缩、数据分区、增量数据更新等。平台采用的软件包括数据抽取工具、内存数据库(含数据库服务器、建模工具Studio、客户端工具)、报表展现层BusinessObjectsBI组件。在硬件方面,通过预配置的软硬件结合体,提供高性能的数据读写操作,并在内存数据库里采用列式存储从而将更多的数据存入(列式存储方式更适合数据压缩)。

2HANA数据分析平台实施过程

数据分析平台建设应遵循最大限度的考虑应用实用性、缩短实现周期、降低技术风险等因素。

2.1需求分析

需求分析是要对用户的诉求或需求进行深入了解,并在需求的基础上对整个平台进行一致约定。因此以重要性、分析的复杂性、数据量大小、以及快速见效为原则,需求分析需要明确下面的内容。

1)选择需要分析的主题,结合当前电力营销业务在计量、业扩、抄表、电费核算、电费缴纳、账务等工作职能的划分,也要考虑分析的主题具有针对性的业务场景,这些场景往往跨越多个职能。

2)分析并描述各个主题的业务背景,包括使用的用户角色,使用的业务场景。以电费出账异常为例:电费出账异常主要是由于用户档案错误、抄表错误所引发的,涉及到业扩、抄表、电费核算等多个职能部门。以电费出账异常作为分析的主题,其业务场景主要用于电费发行后,对引发电费异常的用户档案数据、计量信息、抄表信息进行检查并按职能需求进行分别展示。

3)分析各个主题间的关系,在这个平台上用户的所有活动信息,如用户请求的数量,用户对这些数据的访问频率、时间、数据细节层次、请求多大的数据量等之间的关联。

4)分析主题所涉及的表的目录、表的内容、表的容量、每个表的平均行大小、表的记录数、表的增长情况等。

2.2平台规划

HANA数据分析平台应用架构一般采用四层:数据源层、数据抽取及复制层、HANA数据集市层以及报表展示层。

1)数据源层:作为平台的分析对象,提供报表分析所需的数据,数据源层可同时支持各种类型的数据库,数据源层为营销系统(管理库),生产库到管理库之间采用SharePlex复制工具实现数据同步,以避免数据抽取对生产系统的影响。

2)数据抽取和复制层:数据抽取和复制层负责将数据源层中源系统的数据抽取和复制到HANA分析数据库中,主要构成是数据抽取和复制工具,可以分别采用实时同步服务(SLT)以及非实时同步的数据服务(DataService)两种不同的复制工具来满足不同特征的源数据要求。在确定采用哪种工具前,需要对每个数据源的大小、变更时间、变更频繁度、增量大小等信息做详细了解,对不同数据源表选择合适的复制工具。

3)数据集市层:数据集市层是整体系统架构的核心,负责分析数据的储存、报表模型的建立以及数据计算。该层包含分析数据库以及虚拟模型架构两个主要组成,所有需分析展示的数据在数据集市层通过集市层进行储存、压缩、建立逻辑模型并计算,通过该平台特有的内存计算技术可以使这个过程的效率大幅提升。

4)报表展示层:报表展示层负责将HANA数据库中的数据运算结果按照报表需求进行展示,采用SAPBusinessObjectBI4.0以及EXCEL作为展示工具。

2.3平台实现

2.3.1模型设计

依据报表的需求分析、功能需求、性能需求、模型扩展性、模型的灵活性、实现成本进行平衡,在达到性能要求的前提下,设计出可以重用的模型,HANA平台不同于传统的数据仓库需要物理化模型设计,HANA采用了逻辑视图模型设计的概念,逻辑视图从表面看体现的是传统的星型、雪花型模型设计,但这些模型中的数据并不是物理存放的。HANA提供了属性视图、分析视图、计算视图三种模型设计,属性视图实现对维度的设计,分析视图则实现传统的星型模型设计,计算视图实现更复杂的雪花型模型设计。模型设计时是先将需求阶段所确定的分析主题作为分析对象,梳理每个主题展示所需的事实表数据内容和数据粒度、分析维度、分析的数据指标。例如:一个以分析电费构成为主题的业务场景,该主题分析当期电费的构成情况,并同期比较各个电费构成的变动情况,那它的指标可以为目录电度电费、峰谷品跌、丰枯品跌、基本电费、力调费、费、电度电费、结算电费等指标。分析的维度可包含:时间维度、用户维度、组织维度、用电服务维度、抄表维度、计收维度等。并在此时完成对事实表和维度表的逻辑数据模型设计。

2.3.2表样及功能设计

报表的样式和功能应当考虑用户对数据进行分析的使用习惯,借鉴数据仓库中的多维数据可视化方法,通过对报表的上钻、下钻、切片等展示功能技术的利用,实现对汇总性数据、明细类数据、核心数据的快速查看和分析。以上述的分析电费构成主题为例,其展示需求决定表样的设计采用图型混合表格的方式,功能上采用按照组织维度进行上钻、下钻功能可查看不同供电区域的电费构成情况和各个指标的排名情况,前端展示采用了BOWebintelligence嵌入DashBoard图表设计实现。

2.3.3数据抽取及复制设计

为确保数据质量,应当进行数据抽取和复制的规划设计。首先,根据模型设计中指标、维度信息分别列举出其相应的数据来源,即营销系统的物理表和字段,指标来源于营销系统的交易数据,而维度来源于营销系统的主数据。其次,根据逻辑数据模型和数据来源确定营销数据库到HANA数据库的ETL规划,根据数据的质量规则(包括:数据清除、空值处理、数据替换、规范化数据格式等),确认营销系统源数据到HANA目标数据库数据的转换规则,同时依据数据大小、数据变更时间、数据变更频繁度、数据增量大小要求确定采用的实时工具SLT还是定时抽数工具BODataService,例如:收费账务相关的交易数据存在记录基数大、变更频率很高等特征,采用实时复制增量数据更合适,而账务的月结数据仅在每月初产生且数据量非常巨大,因此采用定时批量复制更合适。

2.3.4模型及报表开发

模型及报表开发共分为数据装载、HANA建模、定义语义层(IDT)、报表开发、数据校验五个步骤,这五个步骤相互交叠与重复,直至到达最优化设计。其中数据装载的方式利用了SLT的实时同步技术,SLT同步技术其核心是基于数据库的触发器模式实现对源数据的增量复制,最大限度的避免了对源系统表结构的改变,同时采用的多任务复制机制使得实时复制的效率可保持在5~10秒内的数据延迟,装载后的HANA数据的大小比较源数据库数据大小可压缩30%~70%的容量。

3发展前景

不断的完善HANA数据分析平台的分析主题,不仅是基于电力营销系统,还可以基于用电采集系统等构建起电力企业的大数据分析平台。利用HANA内置的PAL(预测分析库)对海量电量数据、客户服务数据实现数据高级分析,建立其有效的事前预测、事中控制、事后改善的企业快速辅助决策模式。营销业务可以在客户服务中对受理业务的情况信息、执行过程、执行结果进行深入分析、对客户需求进行快速响应,改进服务质量、提升电网服务建设。更可以利用海量电能量数据对偷窃电稽核、客户用电行为、能效管理等进行过分析和应用,助力营销辅助决策与分析能力的快速提升。

4结论