数据信息论文范文
时间:2023-03-31 21:55:40
导语:如何才能写好一篇数据信息论文,这就需要搜集整理更多的资料和文献,欢迎阅读由公文云整理的十篇范文,供你借鉴。

篇1
在电子商务网站设计的应用在设计电子商务网站的时候,首选就需要帮助销售商对客户行为的了解,这样才能使得站点的使用效率得到有效提高,此时就需要应用数据挖掘技术,这样网络管理员就可以根据客户在上网过程中所浏览的网站页面及其数据信息归纳分析经常访问该站点的用户类型,及其访问途径和通过怎样的方式完成交易等内容,这样才能让建立的网站更吸引客户,同时也为网站结构的进一步优化、站点访问量和效果的提升提供有利的依据。整个电子商务网站的设计包括三个步骤,分别为数据信息的采集、分析以及提供个性化服务。
1.数据信息的采集
因为只有将客户相关的数据信息收集起来,才能在分析之后,将个性化的服务提供给客户,也就是说电子商务网站向客户提供个性化服务是基于说数据信息采集的。销售商能够得到客户在注册过程中保存的信息,即客户的基本信息,包括姓名、籍贯、家庭住址、出生日期以及爱好等,同时还能根据客户所浏览的网页和商品等信息,对客户关注和倾向的商品进行判断,进而为客户建立相应的服务档案。而且客户人员还能在计算机的数据库中存储客户与自身交流时的数据信息。当客户完成订单和付款之后,可以对其收货地址信息加以确定,进而掌握客户的所在地等信息,进而进一步完善客户对应的信息数据库。同时还能够对客户的投诉和评价进行分类整理,使客户的服务档案得到不断的完善,以此为网站的优化提供更加有利的数据资料。与此同时还会将数据挖掘技术引入到网络服务器中,进行一个可以对客户浏览途径和页面以及点击产品信息加以记载的数据库系统,实现各企业资源共享的目标,并且还不会对网络服务器的访问速度产生影响。
2.数据信息的分析
想要设计出一个成功的电子商务网站,就应该在保持对客户完全透明的基础上,及时、快速、准确的分析客户资料及其访问行为,进而保证客户访问页面的处理时间不被占用的条件下,为客户提供一个可以更方便、快捷的进行网购、网上交易等商务活动环境。首先,就要分析客户行为和登录方式,对网站客户群进行划分归类;其次在进行内容设计的时候重点考虑客户群的年龄、爱好和特点等方面,将网站内容加以归类,并针对不同类别的客户群,展示客户感兴趣的商品信息,最后再根据客户的访问、浏览信息以及订单信息,为客户的行为资料进行及时修改和完善。
3.个性化服务
这就是通过挖掘网络数据信息,了解和掌握客户的需求和兴趣,准确的向客户提供个性化的产品推荐,这不但要根据客户的诸多方面对其提供满足其需求的信息,而且还是主动为客户提供所需信息,使网站的个性化服务的特点更为突出,进而吸引更多的客户。并且为了使得客户类型更加稳定和准确,就需要优先臭氧统计具有较长注册时间、较多浏览记录以及产品购买数量大的客户。
二、结束语
篇2
1.对资料管理重视不够,图书资料管理工作基础较差。纵观大部分的企业,普遍存在对资料管理工作忽视的问题。企业的管理层往往认为这项工作无足轻重,不会对企业的发展产生影响。较低的重视度使得企业对图书资料管理要求宽泛,在工作人员、工作内容以及工作制度等方面没有加以重视和关注,使得工作人员工作积极性不高、专业性不强,工作内容模糊,工作制度缺失等问题出现。另外,企业对图书资料管理工作资金投入较少,使其软硬件基础设施落后。以上因素都使得图书资料管理工作基础变得薄弱,不能完全发挥自身职能去服务企业。
2.图书资料利用率不足,利用效果不明显。图书资料在企业的发展中起着信息交流、互相沟通的作用,特别是在企业制定发展战略时候能够提供参考、借鉴和考证等方面的帮助。但是,对于大多数的企业而言却没有充分利用图书资料这些特点。主要原因在于文书资源的管理缺乏网络化和现代化,再加上对图书资料的整理编排不科学等,当企业需要借助相关资料进行分析决策时,面对庞杂的图书资料工作者不能及时地将对方所需的资料提取出来,给对方工作造成不便,打击了企业其他部门取用图书资料的积极性,造成了企业虽然占有大量的文书资源但是其他部门不充分利用的现状。
3.图书资料工作与档案管理工作协调性差,工作漏洞时常存在。在企业里会出现图书资料工作和档案管理工作的对接偏差,使两者间的协调性受到了严重地削弱,进而不能及时提供有效、全面的信息资源。造成两者间工作协调性差的原因主要在于双方不能明确各自的工作范围和内容,不能够做好相互的衔接工作。图书资料工作与档案管理工作不能够很好地配合会导致一些漏洞的发生,如在图书资料工作中,文种使用不当、初始稿件丢失、档案收集工作不及时等;在档案管理工作方面,存在着操作不规范,主要体现在对档案的装订、添加附件、编号等工作上。
4.图书资料管理软硬件建设投入不足,制约了信息化管理进程。图书资料管理软硬件投入不足主要是指企业在其硬件设备以及人员配备方面没有给与足够的资金投入,使之不能够满足工作的需要,制约了信息化的管理进程。主要体现为现有的办公设备较为成旧,在开展信息化建设时不能够提供硬件支持。另外,人员配备方面也存在缺陷,表现为现有的工作人员素质较低,也没有高素质的专业人员的引入。
二、大数据时代图书资料信息化管理工作发展的建议
针对上述问题,应当从以下几个方面出发对其进行改进:
1.做好图书资料管理的基础工作,加强企业部门之间资料管理的协调。为了更好地做好图书资料管理的基础工作,加强部门之间与图书资料管理的沟通合作。企业需要对图书资料工作人员加以规范和约束,督促其做好本职工作,诸如搜集,分类,鉴别,整理等,还要增强其服务意识。在提高重视度的同时还要针对图书资料管理工作的性质制定完善的管理制度和工作方法、流程等。最后在加强基础性工作方面还要对其进行有效的、全方位的监管,确保工作的准确性、全面性、及时性。另外,在部门协调方面,负责图书资料管理的部门也应加强和企业内部其他部门的联系与互动,及时将搜集处理好的信息及时地提供给企业内部需要的部门,以帮助企业在制定目标或战略时及时做出判断,切实发挥自身的基础性作用,在一定程度上也能够增强企业对图书资料管理的重视度。
2.实现图书资料管理的数字化,简化手动、整理和归档的过程。为了提高图书资料的利用率,使之更加方便地为其他部分提供服务,企业应对现有的图书资料管理模式进行改革创新。图书资料管理部门要逐步实现图书资料管理的数字化,即在原有纸质资料基础上引入数字化处理技术。在对纸质资料进行整理、编号、储存的同时,将大数据时代的技术优势应用于图书资料的管理工作中,将图书资料进行数字化处理,建立数据库,从而简化手动、整理和归档资料的过程,也能够在很大程度上方便需要者查阅。数字化、网络化的介入将彻底改变图书资料传统的处理方式,将不必要的、过于繁琐的步骤和工作进行删减和革新,不仅能够提高了图书资料管理者的工作效率,减轻了其工作负荷,还提高了图书资料的利用效率。
3.强化员工管理意识,科学梳理图书资料工作与图书资料管理工作的配合度。为了增强图书资料工作和图书资料管理工作的配合度,企业应当对这两项工作进行科学地梳理。首先,要对图书资料工作和图书资料工作各自的工作范围和内容加以明确,要以条文的形式对其各自的职责进行规范,特别在涉及两者工作衔接时的各项工作项目的归属加以明确。其次,要确保两者在各自的工作中恪尽职守,严格按照各自的制度和规范要求来开展工作,避免因自己的工作疏忽或者漏洞给对方的工作带来不便,进而影响两者点的协调。再者,还要在意识方面对双方加以增强,使之不仅能够明确自身工作的重要性,还能够充分认识到对方工作的重要性以及自身的工作对对方工作的影响力。总之,要使图书资料工作和档案管理工作双发充分了解图书资料和档案资料之间的重要关系,明确两者是相辅相成,相互依托的,只有这样才能够促进两者间的有效配合。
4.加强资料管理的软硬件建设,提供资料信息化管理支撑。在加强资料管理的软硬件建设方面,企业需要做到以下几点:1)加大对基础设施的精力和财力投入。为了适应信息化的发展,企业要对现有的基础设施加以升级或者更换,使之在办公中满足网络搜索引擎、网络信息平台等各项信息化建设的需要。2)加大对现有的工作人员的培训力度。企业要通过公共课、视频教学、网络会议、外派学习等手段对员工进行专业、服务意识等方面的培训,提高其综合素质。3)引进专业化的高素质人才。企业应适当提高图书资料工作人员的任用门槛,聘用更多经过专业知识学习或经过专业培训的人员,借助这些专业人员的力量来对现有的图书资料工作进行信息化管理方向的创新和转变。
三、结语
篇3
1.1恶意的对计算机进行攻击伴随着计算机的软件发展,各种方面的软件、硬件都在出现和更新中。作为计算机最基础的数据统计等功能也进入了开放性越来越强的变新中。在医院的SQL数据库中使用的是局域网,在这个局域网里面的用户基本都可以访问到数据库及应用系统。这样的互享模式如果是在医院内部倒也没什么,只是各种恶意的软件横行,会导致不少来自外界未知的恶意软件对医院的计算机进行攻击。这些都给医院的信息管理系统的安全造成了极大的威胁。一旦医院的数据库信息被泄露,从收费的数据到医疗的信息、从病人隐私的保密到管理信息保密都会处于一个透明的状态,这对于医院的信息管理是一个巨大的冲击,也会带给病人一些重大麻烦。为了避免这类事情发生。需要医院信息管理系统和数据库处在非常安全的环境里。这也是本文研究基于SQL数据库的医院信息管理综合应用平台设计的重心。
1.2被动的进行攻击在不影响正常网络使用的情况下,还会有更高明的窃取破译数据库的方法,这也是所谓的被动的进行攻击。在这种窃取、破译的行为下,当事人医院数据库很难查悉这行为,因此会造成非常重要的机密性文件数据的泄露。医院的数据库是整个医院信息系统的灵魂,很多黑客病毒都会以此为突破点以获得很重要的机密数据。无论是主动的还是被动的攻击方式,都是现今使用的SQL数据库系统的抖动,为了保证医院的计算机信息安全,保证医院和病人的隐私,有必要针对这些缺陷进行改进。基于SQL数据库系统的综合信息应用平台设计可以更贴近实际,防止人为恶意的网络安全的攻击。这也是医院今后采用SQL数据库进行工作时的防范重点。
2SQL数据库在医院信息管理综合应用中的完善
2.1根据具体的需要相应的增加或者减少相应的模块数量医院和个人可以根据自己的具体需要,进行一些简单的维护,将系统的模块进行增加或减少。并且在增减模块的同时注意维护编程的界面,这样才能设计出很友好的系统模块。有了针对性的结构特点,这样的数据库应用平台不仅更符合医院信息管理系统的设计,而且还增大了独立性和独特性,因此也可以整体提高系统的可维护性和可靠性。选用这样模块化的SQL数据库应用平台也是设计结构的特点。
2.2采取开发式结构特点研究基于SQL数据库的医院信息管理综合应用设计就必须要仔细斟酌这数据库的系统硬件的结构设计。这个也是整个信息系统的核心内容。当前采取的数据统计模式执行的是TCP/IP的协议。如果要进一步加强系统给的可靠性,保证医院和病人信息的安全就应当采取开发式结构特点的系统硬件结构设计。采取这样的硬件结构设计可以减少冗余的配置,保证系统可靠性。在整体的医院数据信息系统中,最重要的就是这个系统。在完善机遇SQL数据库的应用设计时自然需要通过增强系统给的整体可靠性,以联合增强SQL数据库的互联网安全机密新能。SQL依然可支持远程的访问,这也是医院信息数据库需要有的特点。因此,虽然可支持远程访问的功能会导致医院的信息保密功能不太安全,却也不能删除。但是可具体根据医疗方面的任务对应的增加远程访问的时间限制、地点限制和次数限制。这也是开发式硬件结构的特点。
2.3系统性能优化SQL数据库历经几年的研究和使用已经近乎完美,因此对数据库的性能进行优化是个非常困难的任务。然而,只要是实际工作有需要的,都应当做出针对性的系统性能优化。为了保证医院信息的安全,也为了保证医院工作的效率,系统性能优化的完善势在必行。在医院日常的工作中,最繁重的就是数据统计和索引了,若性能得到优化,就可以大大加快数据库的反应速度,这样也能使医院的工作和服务得到提升。
3结论
篇4
近年来,数据挖掘与商务智能技术发展迅速,充分借鉴国外相关研究,尤其是ACMSIGKDD课程委员会对数据挖据课程建设建议,对进行数据挖掘类课程的教学建设研究有重要意义。ACM(美国计算机协会)于1998年成立了SIGKDD(知识发现兴趣小组),致力于知识发现与数据挖掘的相关研究,ACMSIGKDD课程委员会连续多年多次更新其主要课程———数据挖据课程的建议,其中委员会将数据挖掘课程分为基础部分与高级主题,基础部分覆盖了数据挖掘的基本方法,高级主题既有数据挖掘基本方法的深入研究,又有更高级算法的介绍。国外很多大学的计算机科学学院、商学院都开设了数据挖掘类课程并同时进行相关研究。波士顿大学开设了“数据管理与商务智能”课程,课程主要包括基础、核心技术、应用三部分。许多国外著名大学建立了教学管理系统,提供大量的案例、在线讨论和在线辅导功能。国内很多学校都开设了数据挖掘的相关课程,我国大多数高校的课程大纲内容与国外大致相同,只是在实践部分选用了不同的商务案例。数据挖掘的应用领域广泛,因此可以根据开课学院和专业选择合适的实例。
二、根据信息管理专业本科生培养要求确定课程目标
数据挖掘课程是一门综合性很强的前沿学科,对计算机软硬件、数据库、人工智能技术、统计学算法、优化算法等基础知识都有较高的要求。因此该门课程开设在学生大三下学期,既有相关知识的基础,又为大四做毕业设计提供了一种思路。信息管理专业是计算机与管理相结合的专业,旨在培养具备信息系统开发能力与信息资源分析与处理能力的综合应用型人才。对信息管理专业的学生而言,本课程主要的目标是数据挖掘算法原理理解、数据挖掘算法在商务管理问题中的应用以及常用数据仓库与数据挖掘软件的熟练应用和二次开发。
三、基于模块化方法的课程内容分析
模块化教学模式是按照程序模块化的构想和原则来设计教学内容的一整套教学体系,它是在既定的培养目标指导下,将全部教学内容按照一定标准或规则进行分解,使其成为多个相对独立的教学模块,且各教学模块之间可以按照一定的规则有选择性的重新组合。学生可以根据个人兴趣和职业取向在不同模块之间进行选择和搭配,从而实现不同的教学目标和人才培养要求。模块化教学本质上是以知识点与实践的细化为出发点研究的。商务智能方法本身非常丰富,实践应用也是课程的主要特点之一,因此十分适合使用模块化的知识分解方式。本课程的知识点模块管理分为两个层次,一是从宏观角度设计课程的基础内容模块和高级主题模块;二是从微观角度针对较为复杂的教学内容进行的知识点划分。
1.课程主要内容模块化分析。目前该课程包括十章理论内容,分别为数据仓库与数据挖掘的基本知识、数据仓库的OLAP技术、数据预处理、数据挖掘系统的结构、概念描述:特征化与比较、挖掘大型数据库中的关联规则、分类与预测、聚类分析、复杂类型数据挖掘和序列模式挖掘。根据模块化管理的宏观角度分类,课程内容的第一至五章属于基础理论部分和简单数据挖掘技术的介绍,可以作为基础内容模块;第六至八章为数据挖掘的核心算法,其中既有基础理论与技术方法,又可深入到较难的方法和复杂的应用,因此介于基础内容与高级主题之间;第九、十章可以算做课程的高级主题模块;另外,课程的实践模块既包含数据仓库的建设又包含数据挖掘算法的应用,难度也介于基础内容与高级主题之间。
2.复杂知识点的模块化管理。从微观角度对知识点进行设计主要针对的是上述的高级主题、以及难度介于基础内容与高级主题之间的章节,由于这些章节知识点在难度上有一定层次,讲授内容弹性比较大,因此需要在课程设计中明确一定课时量所要达到的难度。以商务智能技术中的分类算法为例:首先一般的入门课程都会介绍分类算法的概念和基本原理;接着开始介绍分类算法的基础算法———决策树,而决策树算法中又包含ID3等多种算法,并且除了决策树外,还有其他更高级的分类算法;在真正使用分类法进行预测时,还要分析预测准确度;最终要将所学知识加以应用。这样就形成了一个结构清晰、难度循序渐进的知识点模块的层次关系。在宏观角度、微观角度对教学内容进行分类的前提下进行相应的授课方法与考查方法的研究,才能真正有助于学生的学习。
四、授课与考核方法设计
对不同层次学生要求不同,这种不同既体现在知识点的要求上,又直接体现在任务的难易性程度上,这都需要教师在课程设计时充分考虑不同要求情况下的不同的授课方式,并使学生清楚自己需要掌握的程度。对于高级算法和实现部分,通常可以选择一到两章内容采用专题探讨式的教学方法。这种方法是指在教师启发和引导下,以学生为主体,选择某个基本教学单元为专题,学生自主研究作为知识传递的基本形式,将多种灵活的教学方式综合运用到教学环节的教学方法。根据信管专业培养方案的培养目标、以及对学生调研的情况,实践环节比较适合选择成熟的商务智能工具进行数据的整合和多维数据建模,也就是直接使用现成的;或者使用数据挖掘软件进行数据建模,完善数据挖掘算法。可以针对学生管理基础课与IT基础课知识的掌握情况,选择合适的工具为学生设计综合性实验。实验中给出部分操作步骤,并在实验后期仅给出数据与工具,让学生自己设计数据仓库、进行数据挖掘、并对挖掘结果进行多种形式的展示。
五、结论
篇5
作为数据库管理系统的最内层结构,物理数据库的主要作用就是存储数据,而且物理数据库中存储的各种数据都属于最原始的数据,一般都是由字符、字符串等共同构成的,因此其大部分都属于用户加工的对象。作为最中间的数据库管理系统结构,概念数据库技术对数据之间的逻辑关系进行了一定程度的解释,因此其属于整个数据管理系统的逻辑表现。从某种程度上来讲,用户使用数据的全部内在联系就是所谓的逻辑数据层,用户会对全部数据库中的数据进行使用。
2在信息管理中计算机数据库的应用现状分析
计算机技术发展越来越快,相应的,也出现了包括网络安全问题在内的很多问题。对于计算机管理系统的发展而言,安全系统也具有十分重要的作用。数据库技术要想实现更好地发展,必须先解决可能会出现的数据安全问题。业内人士开展了大量关于计算机数据库的探究,而且在信息管理中数据库技术的应用性能也得到了极大提升。在信息管理中处理数据具有十分重要的作用,很多企业的数据资料都具有机密、敏感的特点,他们非常关注数据资料的安全性,因此其具有较高的信息管理技术要求。对信息的管理是数据库管理技术的主要功能,而建立有效的数据模型是对信息进行管理的主要特点。以建立的数据模型为根据,可将数据库体系划分为层次型数据库、关系型数据库以及网状型数据库。计算机技术与数据库技术之间的结合具有非常好的发展前景,其已经在包括农业、工业以及其他产业中得到十分广泛的应用,两种技术结合使很多行业信息管理的条理性、有效性和安全性得以极大提升。在信息管理中充分运用计算机数据库技术,除了能使信息管理变得更加方便外,还可以有效保证信息的安全管理。与此同时,信息系统还具有备份和恢复信息的作用,这可以在数据遭到破坏的时候,实现对有用数据的无成本恢复,从而解决误删资料的问题。如今,数据库的安全系数越来越高,企业机构不仅能更好地保护数据库,还能有效避免信息系统被黑客侵入,防止机密信息流失。
3计算机数据库技术在信息管理中应用的前景分析
3.1安全性越来越高
数据不会出现被非法盗取、篡改和使用等各种安全问题就是数据库的安全性,数据库的安全性是衡量系统质量好坏的一个非常重要的标准。作为数据库的特色应用之一,数据的共享很容易导致数据出现安全问题,因此,一些机密文件不能实现共享。然而很多信息用户并不具备较高的信息安全意识,也没有充分重视网络安全,严重影响数据的安全管理工作。未来计算机数据库技术在信息管理中应用的一个重要的趋势就是具有越来越高的计算机数据库技术安全性。
3.2数据完整性越来越强
篇6
一、对税务数据深度利用的理解
长期以来,税收工作中数据利用比较常见的形式有:报表浏览、简单查询、复杂查询、税源分析、税负分析、收入预测、过程监控等,多数专家认为,目前税务数据应用的一般特征是基于汇总、分类、简单计算基础之上的原始税收数据的“复制式”展现和对税收现象的“陈列式”描述。
随着经济、社会的发展,税收数据的般利用已经不能满足税收信息化深化和税收管理现代化的内在需求,为了加强税收征管、规范税收秩序,国务院于1994年开始实施“金税工程”。“金税工程”初期以“增值税监管”为主要目标;二期时,内容已拓宽为增值税防伪税控开票系统、防伪税控认证系统、增值税计算机交叉稽核系统、发票协查信息管理系统的四个系统;到了三期,其目标已经成为:在二期基础上,建立七个子系统(管理子系统、征收子系统、稽查子系统、处罚子系统、执行子系统、救济子系统、监控子系统),35个模块。依据美国学者Richard.L-Nolan的理论(对于任何行业,信息化大体要经历初始、蔓延、控制、集成、数据管理和成熟这样几个发展阶段,这是信息化发展的般规律。)和Mische的补充(他认为集成和数据管理是密不可分的,因此信息化发展的必然路径是起步、增长、成熟和更新四个阶段),目前,税务信息化的发展阶段已开始向成熟阶段过渡。于是税收数据的深度利用便提上日程。我们可以从税收管理战略和税收政策分析两方面来看这种需求的提出。
从税务管理战略来看,在纳税前如何综合评价简化管理制度(法律)及照章纳税宣传的相对效果;在纳税中如何核算税收结构和管理程度的实际资源成本(管理、照章纳税、效率、逃税),以及纳税后对税收差距的衡量(包括潜在税收与申报税收的差距、申报税收与实收税收的差距、实收税收与送达国库税收的差距),都涉及到税收数据的深度利用问题。
从税收政策分析的角度来看,税收经济的和谐发展度量、税制改革方案分析、税收减免和优惠的成本和政策收益、税收政策的经济影响等等也涉及到税收数据的深度利用和挖掘问题。
这些问题都从以下两方面引发了我们对税务数据深度利用的理解和思考:一方面提出了我们需要全面检视拥有的税务数据信息的需求。在各国税务数据信息深度利用的经验当中,提出过一些全面检视的标准,例如按照税基到税收收入的实现途径,可以检视:税基的规模,包括真实税基和潜在税基;税收管理资源使用方向的详细分类;管理资源使用的效用;税收管理的效果,例如收到税款的多少,处理案件的数量等。
另一方面,更为关键的是,提出了如何科学利用、深度利用的问题。总结以上两方面,我们认为税收数据的深度利用是指:在数据集中和系统整合的基础上,建立全面的税务数据信息,既包括税务系统内部数据,也包括其他政府部门、企业、居民等外部数据,并且进一步在各种模型的帮助下,发现数据的内在规律。就目前而言,重点任务是在税务管理方面提出适用中国实践的模型并且应用,同时初步探索在税收经济方面能够刻画符合我国国情的模型。
二、构建模型是数据深度利用的切入口
如前所述,税务数据深度利用和挖掘的关键在于模型的应用,下面我们就来讨论模型是什么?我们为什么需要模型?我们需要什么样的模型?就税收数据深度利用的模型而言,大致可以分为两类:以科学化管理、定量化管理、精细化管理为内在思想的管理工具和手段所形成的模型;以研究税收经济关系协调发展为目的的税收经济模型。
在基本认识了税务数据深度利用中的模型是什么之后,虽然我们达成了一种共识,我们需要模型,但是如果我们思考过为什么需要模型?显然会对模型应用更能得心应手。我们认为模型所发挥的作用无外乎以下三种:
首先,刻画税收经济关系。一般而言,我们经常提到的是模型在刻画税收经济关系当中所起的作用,即采用代数形式的定量分析将税收经济理论模型化,然后适当根据实践情况把理论模型予以修正,并将相关数据应用到修正模型中,对模型结果进行经验分析。这种利用的过程是阶段性的,是从初级到高级的过程,是一个水平不断提高、效果不断改进的发展过程。
其次,归纳税收管理实践。模型起到的作用是将复杂的税收征纳活动通过数字化的形式总结归纳,将税收征纳的每一个过程精细化、每一个结果数据化,并且建立起投入到产出之间的对应关系。最后,数据组织的导向性作用。这种导向性作用的发挥是通过模型应用过程当中对各类数据提出的要求实现的,通过该作用,随着时间的发展,数据集中的有效性与目的性不断加强,反之,模型应用空间不断扩展。在这一方面,美国个人所得税模型应用为我们提供了很好的启迪。
结合目前的税务数据基础及其发展趋势来看,金税三期将成为税收数据深度利用的良好契机,构建相应模型是我们形成税务数据深度利用良好局面的切入口。
对于“我们需要什么样的模型”的回答,是一个不断结合实际进行摸索的过程,但是就现阶段而言,从可操作性的角度出发,我们还是需要给所应用的模型框定一个边界:数据可利用性,如果没有数据的支持,模型应用将无从谈起;可计算性,模型应用迅速发展的基石之一就是现代计算技术的发展,没有计算工具的支持,具有庞大计算量的各种税收模型的完成无法想象,支持税收模型应用的计算工具包括硬件具备的计算能力和软件具有的算法能力两种。
三、数据深度利用平台建设的体厶
数据深度利用和挖掘最终必须落实到具体计算平台上,否则纵然有大量的数据积累,仍然摆脱不了研究与实践部门脱节的窘态。虽然目前我们拥有大量的计算软件平台,然而,总感觉到这些应用平台离我们的实际需要有一定距离。
目前我们正在参与完成一个国家自然科学基金研究项目:税收政策分析模型支持系统的实现及其在税制改革中的应用研究,其主要内容和实质就是探索构建一个有利干数据深度利用的计算平台。从该平台的构建来看,有几点体会:首先,平台的构建必须结合具体的研究问题展开。通用性的平台虽然很好,但是由于前面所提到的数据可利用性和可计算性的原因,加上实际工作的紧迫性需求,往往使得通用性平台的规划会落空,甚至于进一步影响数据深度利用工作本身。在该问题上,我们的平台研究就结合了增值税转型的测算问题,利用了CGE平台进行实证性的应用。
其次,考虑针对具体问题研究的通用性拓展。虽然实用为先,然而要做到持续性的数据利用,必然要考虑拓展的问题。在这个问题上,我们的平台通过税制表示方法、税收政策分析模型描述语言中国税收政策分析模型支持系统等方法进行尝试。
更为重要的是,对适合中国国情的税收经济模型的提出。由于长期以来的数据缺少原因,在我国模型建设方面没有进一步的探索。这种缺陷在海量的数据突然呈现在我们面前的时候更加突出。我们正在尝试提出适用干中国的税收经济模型,虽然肯定会比较艰难,但是这是一条必经之路。
篇7
心电图蜂窝大数据网络系统包括心电图中心服务器、报告诊断中心(可接收由全球各地医疗机构传来的心电信息)、多种检查设备(心电图机、运动平板、动态心电图等)和终端浏览器4个部分。心电图中心服务器由数据库、数据储存和数据转换系统组成。它运行的系统主要包括:预约检查申请模块系统、排队叫号系统、检查系统、心电图辅助分析系统、终端浏览系统、专业查询及统计系统。其中,预约检查申请模块与HIS紧密结合,可准确查询到患者的预约就诊信息;排队叫号系统帮助患者及时了解大约需要的就诊等待时间,以便安排检查行程。在心电图检查结束后,心电图机通过检查系统将心电图数据与HIS中的患者信息进行匹配,再发送到心电图服务器;服务器运行数字接收程序(MedExXDTJReceived),将心电图数据入库。而报告诊断中心通过FTP文件传送服务自动从服务器下载病历数据,在心电图辅助分析系统的协助下,完成心电图分析、报告编辑等,保存后自动将数据上传到服务器。医生工作站打开ECGWeb浏览、IE浏览等终端浏览系统,通过服务器上的临床心电图MedExECGWebSetup服务程序浏览心电图及报告[5-6]。
2网络系统技术方案
心电图蜂窝大数据网络系统能够将分散的心电数据进行集中储存、转化、管理、分析和统计,将完成史无前例的心电大数据管理,为全人类的心电学研究提供全面而丰富的病例资料。除此之外,它还可实现与各级医疗机构的HIS等信息系统的对接,实现心电数据的共享。该网络系统所涉及的相关技术包括以下几方面。
2.1心电设备网络化连接
系统支持将动态心电图、运动心电图、数字心电图机等心电检查设备连入网络,从而实现全部心电检查的网络化。利用数字化技术,将心电检查设备等所采集的心电信号数据转换成心电图,发送到心电图中心服务器,实现全院医生的临床Web浏览。
2.2门诊与病房技术支持配备门诊预约、登记、心电检查网络系统,与医院HIS进行无缝连接。病房将可使用的不同型号心电设备之间进行数字连接,以打通与全球心电信息网络的联系。
2.2.1便携式心电检查仪该设备应用于床旁心电图检查,支持心电图的采集、存储、回放与传输。临床采集心电信号后,通过无线传输技术,将心电图快速传到心电图诊断中心,再由诊断中心出具报告。这样一来,就实现了边检查、边报告,简化了以往“检查后再集中报告”的传统流程,为患者节约了诊治时间[7]。
2.2.2心电诊断中心中心设有多功能心电分析系统,心电图医生根据专有用户名和密码登录系统,不仅可分析已有记录的波形和参数,还可随时调阅相关类型的心电图进行对比分析与统计等操作;所发出的心电图报告可保存、打印、审核及传送。目前,山西医科大学第二医院在网络心电监测诊断方面开展了卓有成效的工作:建立有完备的远程心电监测中心,构建了城市、社区和农村三级会诊系统服务模式,并正逐步健全山西省心电监测数据库,为解决省内医疗基础资料分布不均的问题找到了良策。我院自2012年3月起全面开展院内、院外、院前心电网络信息化管理,覆盖全院所有病房、门/急诊和体检中心,并发展院外站点51个,年心电图检查量达13万人次,且呈逐年增长之势。
2.2.3心电图中心服务器设立在全球各国家和地区或各级医院的服务器中心,接收特定范围内的心电数据并进行数据储存及转换,再传回服务器所在医院的心电图数据管理库,并提供终端计算机的FTP文件传送服务,与临床ECGWeb浏览、WebService等相应匹配。
2.3统计检索
该系统具备多种查询条件,可进行医生工作量、检查工作量、设备工作量等的管理统计。不仅如此,它还能方便地对心电图数据进行查询、归纳与统计分析,为科研创新和教学工作提供了有力保障。
3全球心电信息网络系统设计目标
当今在大数据时代背景下,传统的心电信息业务管理模式正悄然发生着改变。在传统模式下,人工干预过多,如检查收费、报告生成等流程皆需人力介入,易造成监管混乱;心电图与患者病史及临床诊断脱节,难以实现心电图数据共享;记录在热敏纸上的心电图容易丢失且保存不便,给心电图分析及科研资料的积累造成很大的困难[6]。随着全球心电信息网络系统的建立,上述问题均能引刃而解。它能为心电图原始资料的积累和共享搭建理想的平台,还能实现传统心电信息业务管理模式下无法完成的目标:(1)实现全球各国、各医院区域范围内的患者基础资料和心电检查资料的全面共享。(2)实现基层医院与中心医院以及各国专家之间的心电检查会诊功能,从而实现区域内心电图检查设备和高端人才资源的全面共享,乃至从整体上提高全球心电诊断质量和卫生服务水平。(3)搭建院前120急救心电图检查远程诊断平台,中心医院根据传回的心电图报告及早做好心脏病患者抢救的手术准备。(4)提供对疑难病例的会诊支持。(5)患者能够在区域范围内任何一家医疗机构获得同等质量的心电诊断服务,从而方便患者就近就诊且避免重复检查。此外,还能够方便患者上网查询自己的心电检查报告。(6)实现科研素材与业务学习资料的方便获取,解决了基层医院心电诊断医生工作、培训难以兼顾的难题;能够促进心电工作者在工作中学习,从而快速提高业务素质。(7)建立各国区域性的心电图像资料库和典型病例数据库,供教学和科研使用;建立各国区域范围内各家医院的心电诊断质量追踪数据库,以形成从源头上把关的心电诊断质控体系,从而全面提升各国心电诊断水平。(8)促进各国区域内医疗信息化建设,为今后构建基于人体健康档案的卫生信息服务平台奠定基础。
4结语
篇8
【关键词】大数据环境;文书档案管理;信息化;企业发展
企业在发展中各项管理活动增多,必然会生成非常多的企业文书档案,是对企业经营、管理各项信息记录的保存与管理。在信息化时代下,企业发展离不开信息技术,不管是企业还是机关单位,均构建了信息化管理平台,文书档案管理信息化趋势也加强。信息技术为载体的管理方法比起传统文书档案管理存储数量增大,档案信息浏览与查询更加便捷,档案储存时间更长,但是依然受到以下因素限制,出现一些管理上的问题,仍面临挑战。
一、大数据环境与企业文书档案信息化管理
(一)大数据概述。人类社会不断发展中以及网络行为日渐增多的背景下,作为一种信息记录与数据保存下来的内容就是大数据,其中不仅包含了生产信息、数据,还包括其他涉及企业发展的隐私。在网络逐渐普及下,大数据应用日渐普遍,储存容量不断增大,期间会产生非常多的难以加工与应用的数据,为应用与管理带来难度。在数据容量不断增大的背景下,很多用户可以通过查询、文件检索、下载、加工、复制等方法应用这些数据,使数据复杂与繁琐程度进一步增大,为管理带来了阻碍。
在信息技术不断发展的背景下,各种信息数据获取也更加有难度,激烈的市场竞争中谁最先获得了这些信息,谁就获得了发展机会,增加了抢占市场的筹码,对于数据资产的保护任何企业都没有懈怠过。大数据获取不仅体现在数据源获得上,更体现在借助这些数据源,对真正有价值的数据进一步发掘,增加数据潜在价值。当前,网络应用体量大幅度增加,大数据成为人们生活不可缺少的信息。
(二)企业文书档案与信息化管理概述。企业文书系统地记录了企业成立到发展期间各项经营与管理活动,比如,财务管理、人事管理、外事管理等,都是企业有显著价值的资源,通常,文书信息由企业专门部门负责,包括对文书的收集、整理、排列以及转送、开发、处理等。在大数据环境下,企业文书档案信息化管理在信息技术下会大大提高管理效率,发挥其内在的服务价值。
二、大数据环境下企业文书档案信息化管理的主要内容
(一)企业文书档案的数字化管理。企业文书档案以纸质为主,其中记录着各项文字信息,录入信息的过程较为漫长,考验着工作人员的耐心,需要付出一定劳动,如果信息量庞大,容易出现录入错误等,查询信息时也较为困难。但是大数据下企业文书档案可以实现信息化管理,应用计算机的自动筛选技术可以有效节省人力、物力,提高工作效率。大数据环境下企业文书档案管理一个显著特点就是可以对纸质档案进行数字处理,且不改变档案中的信息内容,更加利于保存、查询等,这就是电子档案价值的体现,也是大数据环境下企业文书档案信息化管理的重要内容之一。
(二)企业文书档案网络化管理。经过从纸质到数字化的转换后,还需要对数字化档案进行管理,依据互联网可以进行不分时间、不分地点的修改与添加,使电子档案更加细化、具体,用户查询更加方便,体现了档案网络化管理的便捷性。企业文书档案利用功能很多,包括网络检索、借阅、归档、复制、分类等。
三、大数据环境中企业文书档案信息化利用
企业文书不仅为企业发展提供了支持,体现了生产与经营的价值,比如,人事管理、财务管理、科研成果等,为企业发展积累了宝贵经验,也是企业发展成果的体现。由此,企业文书档案参考价值也很显著,实施档案化管理,可为用户提供更多、更全面的档案资源服务。企业发展中还能对文书档案进行重建,依据不同需求提供不同功能的服务,也是大数据环境下企业文书档案信息化服务的一种体现。与此同时,借助不同地域下的网络可供用户随时下载、查询,使用户对企业文化、产品等的了解更加全面、细致,还能对某个文书档案进行跟踪服务,体现开放式服务的优势。
四、结语
总之,大数据环境下,企业文书档案在信息技术基础上可以为用户提供更为全面、周到的服务。在企业生产日益增多的前提下,人力、物力成本会逐渐提高,由此,信息化档案的应用可节省成本与资源,为用户在查询、应用、下载档案信息中提供了便利。
【参考文献】
[1]库俊平.大数据环境中企业文书档案的信息化管理及利用[J].创新科技,2013(9):50-51.
[2]江鸿.探析大数据环境中企业文书档案的信息化管理[J].中国科技投资,2016(4):144.
篇9
论文关键词:滇池流域,昆明主城,排水系统诊断
排水系统是城市基础设施重要组成部分,可分为合流制和分流制两种类型,其中合流制排水系统按雨、污、废水产生的次序及处理程度的不同可分为直排式合流制、截流处理式合流制和全处理式合流制[1]。排水体制的选择应根据城镇和工业企业规划、当地降雨情况和排放标准、原有排水设施、污水处理和利用情况、地形和水体等条件,综合考虑确定,同一城镇的不同地区可采用不同的排水制度,新建地区的排水系统宜采用分流制[2]。
昆明主城地处滇池流域北岸滨湖上游区域,污染负荷比重大,占流域污染负荷总量约80%[3],目前昆明北岸主城二环路内区域为合流制排水系统,二环路外为分流制排水系统,雨季雨、污合流污水溢流污染问题严重。为保护下游滇池水环境,昆明市政府将雨污分流管网改造和完善工程列为近期治滇重大工程,本研究针对昆明主城区排水系统存在的问题,在昆明市地下管线探测工作的基础上,利用ARCGIS高效的空间分析手段,构建排水片区-子排水片区-排水单元结构网络,建立污染源与排水系统拓扑关系,对研究范围内排水系统进行全过程诊断,分析旱季污水收集率和雨季合流污水溢流率水利工程论文,为排水系统完善工程的全面开展提供数据支持。
1 研究方法
1.1 空间数据信息处理
系统空间数据信息建立的基础是原有的以AutoCAD绘制的排水管网图。由基础空间要素和管网要素组成,基础空间要素包括地表构筑物、下垫面、道路、河流等;管网要素包括管线和管网中的附属设施(雨水篦子、排水口、检查井、排水泵站等)。需要处理的工作包括以下两方面:
1.1.1排水系统结构分层
排水单元:可以为一栋楼、一个庭院、一个小区或一个街区,划分的依据为庭院排水管网和市政排水支管系统的相对独立性,其意义在于界定出了排水系统管理和污染控制的最小且有效的可操作对象。
子排水片区:在排水单元划分的基础上,以市政排水干管和输水泵站为主线索,根据排水系统主次脉络,串联排水单元,形成基于排水干管和泵站的子排水片区。
排水片区:即污水处理厂纳污范围,由基于排水干管和输送泵站的子排水片区组成。
1.1.2拓扑关系构建
城市排水空间数据庞大、复杂、多层次,各要素间具有特定关联性,且由此关联性构成了排水系统结构。拓扑是反映空间要素和要素类之间关系的数据模型或格式。利用拓扑规则可以指定要素类中的要素之间有何种空间关系,或者多个不同要素类中的要素之间的空间关系。系统中涉及到的排水单元、排水管线、检查井以及其他排水构筑物之间的特定关系利用GIS提供的拓扑规则建立,并利用拓扑处理功能进行有效的管理。
1.2属性数据信息处理
针对主要管网要素,录入属性信息论文的格式。
表1管网要素属性信息
Tab.1 Attribute information of sewageelement
要素
数据信息
节点
X、Y坐标、井底标高、地面标高、点源污水排放量(m3/s)、点源污染负荷排放量(t/s);
管线
管径、管材、长度、坡度、埋深、起点标高、终点标高、起始节点、终点节点;
篇10
关键词:区域发展;面板数据质量;信息熵;FCM;可行性论证
中图分类号:F224.9
文献标识码:A文章编号:
16721101(2015)02003605
Abstract: Based on information entropy from the perspective of data quantity under index system of regional development, this paper establishes the way of evaluation by the standard of information entropy, explores how to improve the information of data using fuzzy c-means algorithm, and validates the the proposed method from theoretical proof and empirical analysis.The paper makes improving experiments via panel data under comprehensive index system of regions of northern Anhui and along the Huaihe river.Its result suggests diversity in data by information entropy standard and marked improvement of information, which lays good basis of better data quality for consequent data mining.
Key words:regional development; quality of panel data; information entropy; fuzzy c-means algorithm; feasibility demonstration
在现代信息技术迅猛发展的背景下,越来越多的领域都采用数据驱动的方式进行研究。应运而生的数据技术从传统的统计分析到数据挖掘,再到现今的云计算和大数据都很好的给生产生活带来更多的价值。但是随之而来的数据量度和尺度都变得纷繁复杂,再加上各行业所取观测指标的不同使得数据在单位、量纲和指标含义等客观情况下呈现很大差异性和不确定性,特别是经济数据指标的数值差距过大,因此给数据技术方法本身的可行性以及所得结果的可靠性带来很大挑战。传统的数据预处理中多采用清理、变换和规约等方法来提高数据质量[1,2],在大多数文献中多采用Min-Max标准化[3,4]、Z-score标准化[4]、Decimal scaling小数定标标准化[5]以及Log和Atan函数转化[6]来处理数据,并不着重讨论数据达到的质量程度。但是由于标准化方法的一些理论局限性,容易在处理中降低数据的信息量。所以在研究中如何能够判断标准化后数据信息量的改变程度,这对采用的技术方法本身和后续结果分析将起到重要的作用。本文将尝试探讨数据信息量衡量熵标准,并从理论层面和结合皖北沿淮区域经济发展数据做相应的实证分析。
一、构建熵标准下FCM分类改进模型
(一)信息熵与FCM准备
1.数据质量的信息熵标准
热力学第二定律表明孤立系统中任何变化都不可能减少熵值,1948年Shannon定义通信信号中平均信息量为熵[7],从此熵作为衡量信息量的一种方式被广泛应用。信息熵是数据含载信息程度的一种度量方式,当信息熵越大时表明数据越无序,需要理清数据所需信息就越多,也说明数据的信息量越大。离散随机变量的信息熵定义为自信息的平均值
H(X)=Ep(x)[I(x)]=-∑xp(x)logp(x)
其中I(x)为事件的自信息,Ep(x)表示对随机变量的概率取平均运算。其具有熵的非负性、对称性、扩展性和可加性等相关性质。
2.模糊C均值聚类FCM
模糊C均值聚类[8,9](FCM)是由Bezdek在1981年提出的一种模糊分类方法,FCM需要根据类中距和类间距构造分类准则,利用预先给定的分类数C对所给样本点进行分类。即求解规划问题:
minJm(U,Z,c)=∑ci=1∑Nk=1μhikd2ik,
s.t.∑ci=1μik=1,l≤k≤N;0≤μik≤1;
通过求解上面规划问题,利用得到的隶属矩阵Uik=∑cj=1(dikdjk)-2m-1和聚类中心
Ci=∑nk=1umikXk∑nk=1umik,进行迭代运算得到分类结果。
(二) 熵标准下FCM分类改进模型
由于熵值代表了数据的信息量,而通过衡量信息量可以产生评价策略,陈衍泰等在综合评价方法分类的研究中总结了信息熵方法应用在评价领域的情况[10],张树森等将熵与聚类算法结合提出改进的模糊聚类算法EFC[11],韩宇平等将最大熵原理用于评价区域水资源短缺问题[12],刘红琴等将信息熵应用到能源消费的分配衡量中[13],本文考虑将信息熵引入到数据质量的评价中。
再由于区域发展数据在数值上差距过大,如果仅仅统一进行z-score标准化处理则可能带来信息损失,本文考虑利用FCM方法将数据进行分类标准化,这样也同时带来数据扁平化特征,而由离散最大熵定理[7]可知,数据出现概率越相同,那么数据的信息熵越大。
设n维数据集{xi}ni=1进行z-score标准化后{xi-μσ}ni=1在D段中出现的概率为{Pj(x)}Dj=1,利用FCM对数据分C类后原始数据重新组合变为{xij}i=1,…C,j=1…ni,在每个数据集中表转化得到数据集{xij-μiσ}i=1,…C,j=1…ni在D段中出现的概率为{Qj(x)}Dj=1,当分段数D足够体现数据概率分布时Q(x)比P(x)更加趋近相同概率。利用P(x)对Q(x)的散度D(P//Q)非负特征,有如下推导:
D(P//Q)=∑xP(x)logP(x)Q(x)=
∑xP(x)logP(x)-
∑xP(x)logQ(x)≥0
Hp(x)=-
∑xP(x)logP(x)≤
-∑xP(x)logQ(x)≤-
∑xQ(x)logQ(x)=HQ(x)
因此在分类标准化后的数据信息量比直接标准化的信息量要大。从分类的角度来看,分类后数据标准化数值会产生比整体标准化更多的多样性,从而带来的信息量的增加,而数据信息量的增加也给后续的研究方法提供更好的数据质量。
二、基于区域发展面板数据的实证分析
(一)指标体系构建与数据来源说明
1.区域发展指标体系构建
结合前期工作制定指标体系[14]21,指标的选取原则兼顾经济、生活、环境、社会、特征产业和可持续发展的指标体系,构建一级指标,细化二级指标共选取5个一级指标和69个二级指标如图1所示,并由此构建整体指标模型和各级别体系。
具体指标表现为:(1)在经济发展与产业结构方面:GDP;城镇固定资产投资额;出口总额;进口总额;农业总产值;工业总产值;建筑业乡村从业人员数;交通运输、仓储及邮政业乡村从业人员数;乡村私营企业从业人员数;农、林、牧、渔业乡村从业人员数;乡村个体从业人员数;工业从业人员年平均人数;城镇房地产开发投资额;(2)民生能力与生活质量:职工工资总额;总户数;农民人均纯收入;城乡居民储蓄存款余额;社会消费品零售总额;城镇居民最低生活保障人数;新型农村合作医疗参合率;建成区绿化覆盖率;城市出租汽车数;公共汽(电)车客运总量(市辖区);人口自然增长率;城市公共汽(电)车客运总量;城市每万人拥有公共交通车辆数;城市人口密度;人口密度;基本养老保险基金支出;基本医疗保险参保人数;人均公园绿地面积;(3)政府管理与社会服务:财政收入;财政支出;财政用于教育的支出;财政支出中卫生经费;等级公路里程;公路货物周转量;公路旅客周转量;公路客运量;铁路客运量;城市道路长度;城市供水总量;城市清扫保洁面积;城市天然气供气量;地质灾害防治投资;城市公园数;街道办事处数量;(4)资源实力与可持续发展:降水量;人均水资源量;土地面积;林业用地面积;水田耕地面积;城市污水排放量;生活垃圾无害化处理率;城市排水管道长度;城市污水处理率;工业废气排放量;工业废水排放量;“三废”综合利用产品产值;(5)教育产业与创新科技:财政用于教育的支出;普通高等学校数;普通高等学校在校学生数;普通高中在校学生数;普通小学在校生数;发明专利申请受理量;发明专利授权量;科技活动人员数;
图1综合区域发展指标结构图
基于以上初步指标体系充分涵盖从经济发展到人民生活,从政府能力到社会服务,从可持续发展到特色产业的方方面面,兼顾发展的效率、速度、质量、潜力和能力。但是在数据收集中往往遇到很多实际情况需要做修正,对于少部分的数据遗漏采用数据拟合回归和缺省值补充等传统数据预处理方法进行修整[1],对于大部分的数据遗漏则采用指标替换的方式进行变通。
2.面板数据来源说明
本文依托皖北沿淮地区6市39县区的区域发展研究,因为在皖北沿淮地区中蚌埠市和淮南市具有相同的地缘特征和相似生活特征,所以对两个地区指标的衡量具有很好的实际意义,故而采用2005年到2012年蚌埠市和淮南市数据,数据来源于中国知网提供的《中国统计年鉴》、《中国城市统计年鉴》和各地区发展统计年鉴等。同时本文数据属于面板数据,可以克服时间序列分析受多重共线性的困扰,能够提供更多信息、变化、自由度和估计效率。
(二)具体实证分析
本文的具体实证分析分为以下三个方面:(1)对于原始数据的处理过程:按照论文前面介绍的科学指标模型和数据采集来源,将两个城市69个属性从2005年到2012年共8年的数据进行矩阵化,得到一个138行8列的原始数据矩阵,对于原始数据矩阵中的缺省值采用外插和内插法进行相应的差值拟合得到完整的使用数据。(2)对于使用数据的分析过程:第一步根据本文前期工作[14]22通过对数据进行谱系聚类、HCM和FCM三种聚类方法,采用Matlab2012b进行编程,比较从分2类到分10类的由R方统计量和伪F统计量得到的半偏相关统计量SPRSQ数值,发现当分三类时谱系聚类方法和HCM的SPRSQ数值达到最高值分别为0.400 1和0.023 9,而FCM的SPRSQ数值在分四类时达到最高值0.027 0,因此在进行分类构建信息熵时,将分三类和分四类的情况均予以考虑。第二步根据论文前面讨论的信息熵构建过程进行分类信息熵构建,首先将利用FCM对数据分三类和分四类得到的数据集
{xij}i=1,…C,j=1…ni(其中C=3或者4),在每个数据集进行z-score标准化:{xij-μiσi}i=1,…C,j=1…ni;然后讨论这些数据在分D段中出现的概率{Qj(x)}Dj=1,其中分段数D的大小要足够体现数据概率分布特征 [7,11]取D分别为10和20两种情况,计算相关信息熵数值H(X)=
EQ(x)[I(x)]=-∑xQ(x)logQ(x)
;最后通过和没有进行分段改进的原始数据集的未标准化和统一标准化两种情况进行比较得到相关结论。(3)对于数值比较的分析结果:通过比较未标准化、普通的列统一标准化和采用FCM分三类和四类的类标准化的三种方法在取分段数为10和20下的信息熵大小,得到了相关的数值结果表1。
对表1中的相关数值做图进行直观的表达,可以得到在分10段情况下的图2和分20段情况下的图3,其中横坐标为从2005年到2012年每一年的数据情况,从图中可以发现不论哪一年的数据数值在分类标准化后的熵值都高于图中最下面的线,即统一标准化的数据熵值。
从以上图表的结果来看,采用FCM算法对于数据分类标准化后得到的信息熵提升效果是明显的,具体可以概括为以下的一些结论:
1.未标准化和统一标准化的结果数值完全一样,这是因为z-score标准化过程并不改变数据分布特征,因此他们拥有相同的概率分布,则信息熵也完全一致,故而数据所含信息不变,因此在作图阶段就不体现未标准化的结果图形。
2.分段标准化后所有的数据结果均大于统一标准化的数据值,即信息熵在分段标准化后都有显著提高,这和理论推导的结果一致。故而分段标准化的方法可以有效消除量纲差异,同时还能有效的提高数据信息熵,从而使得数据含有更好的信息量。
3.就分段标准化而言从所有列信息熵的总和数值可以发现,在两种最佳聚类数时信息熵的总和情况分别可以表示为:分10段3类时的9.07高于4类时的7.8,分20段3类时的12.19高于4类时的11;同时数据信息熵随着分段的增大数值也在增大,这是信息熵本身性质所决定的,因为分段越多概率分布越接近均匀分布,由离散最大熵定理以及本文理论推导可知数据信息熵在增加。但是如果分段过多,甚至达到数据总量的一定比例,此时再高的信息熵数值也并不能够说明很好的信息量,所以在分段数的选取需要与数据总量相互匹配。
三、结论
根据以上论证发现,从理论角度和实证分析都验证了分类标准化可以有效的提高数据信息量。所以在相应数据分析方法使用之前,对于数据标准化处理阶段可以尝试采用分类标准化的方式,这样既可以消除数据量纲差异,也可以有效的提高数据含载信息,为进一步使用数据挖掘方法得到更好的数据结论提供较好的前期准备。
同时由于在数据集统一标准化中均值唯一,相当于只有一个中心节点。但是在分类标准化后,在不同类中都有相应的均值作为中心节点,所以分类标准化比传统的统一标准化更符合现代互联网思维,那就是去中心化和多节点多分类,以及扁平化结构体系的相关思想。参考文献:
[1]Jiawei Han.Data Mining Concepts and Techniques, Second Edition[M].BeiJing: China Machine Press,2008:30-65.
[2]韩京宇.数据质量研究综述[J].计算机科学,2008(2):1-5.
[3]程惠芳,唐辉亮.开放条件下区域经济转型升级综合能力评价研究――中国31个省市转型升级评价指标体系分析[J].管理世界,2011(8):173-174.
[4]张钢.长江三角洲16个城市政府能力的比较研究[J].管理世界,2004(8):18-27.
[5]安悦.基于微博客的手机供应商排名推荐[J].数学的认识与实践,2013(10):23-29.
[6]汪冬华.我国沪深300股指期货和现货市场的交叉相关性及其风险[J].系统工程理论与实践,2014(3):631-639.
[7]田宝玉.信息论基础[M].北京:人民邮电出版社,2008:18-26.
[8]史小松,黄勇杰,刘永革.数据挖掘技术中聚类的几种常用方法比较[J].中国科技信息,2009(20):99-105.
[9]诸克军,苏顺华,黎金玲.模糊C均值中的最优聚类与最佳聚类数[J].系统工程理论与实践,2005(3):52-61.
[10]陈衍泰.综合评价方法分类及研究进展[J].管理科学学报,2004(2):69-77.
[11]张树森.改进的基于熵的中心聚类算法[J].计算机与现代化,2014(3):53-56.
[12]韩宇平.基于最大熵原理的区域水资源短缺风险综合评估[J].安徽农业科学,2011(1):397-399.
[13]刘红琴.基于信息熵的省域内能源消费总量分配研究[J].长江流域资源与环境,2014(4):482-489.