大数据时代信息的特征十篇

时间:2024-01-02 17:56:03

大数据时代信息的特征

大数据时代信息的特征篇1

关键词:大数据时代;互联网技术;税收征管;税务信息

随着互联网技术的快速发展,信息的采集、传播效率快速提升,人类社会已进入大数据时代。“大数据”技术是不用随机分析、抽样分析的捷径,而直接将所有数据纳入样本,并据以展开系统分析的技术。“大数据”技术的价值,不在于占有数据本身的价值,而在于通过价值分析,获得对数据的“二次利用”。“大数据”的典型特征,是数据体量大、数据种类多、价值密度低、处理速度快。在“大数据”技术的支撑下,数据处理的整体特征变为:要效率不要精准,要整体不要抽样、要相关不要因果,在很大程度上颠覆了以往人类惯用的思维模式,千百年来人类的思维惯例。大数据技术自身的特征,决定其在税收征管中可以发挥极其重要的作用。与此同时,大数据时代也对我国税收征管提出了新的挑战和要求。作为税务征管部门,必须充分利用“大数据”技术优势,与时俱进地推进我国税收征管工作的全面改进。

一、大数据技术在税收征管中的作用阐释

基于现代信息技术的“大数据”技术,不仅可以完成多种类型数据的高效收集和快速传播,还可以在极短的时间内完成对数据的系统分析。在税收征管过程中充分利用大数据技术,可以及时解决我国税务征管中的诸多问题,有效预防税收征管中的诸多漏洞。同时,经过系统分析、精_处理的税务信息,也可以为相关部门制定经济决策提供科学依据。具体来讲,“大数据”技术在税收征管中的作用,可以概括为以下几个方面:

首先,“大数据”技术有利于促进税收征管现代化,提高税收征管的效率。随着市场经济的深入推进,特别是“双创”政策的激励,我国中小企业数量不断增加,税务登记户数日趋庞大,这在一定程度上加重了税务机关的工作任务,税收征管能力欠缺的矛盾日渐突出。以现代信息技术为基础的“大数据”技术的广泛运用,提升了税务部门征管能力,在降低税务机关工作任务的同时,也降低了税务管理的成本,最终促进了税收征管的现代化进程,提升了税收征管的工作效率。

其次,“大数据”技术有利于强化税务风险管理,减少税收流失。风险管理是包括风险预测、风险评估、风险规避在内的一系列管理策略。受各方面因素的影响,税收管理中存在的诸多不确定性因素,增加了税收流失风险。税务机关可以运用“大数据”技术,强化对税务信息的收集、整理和分析,有效避免因税源监控不力而产生的偷税漏税现象,有效避免国家税收流失。与此同时,基于大数据技术的更加科学、透明,及时的信息传播、政策宣传,也有利于纳税人更加理解、配合税收征管工作。作为税务机关,可以主动利用大数据平台中的信息资源,加强税收政策的宣传,及时消除征纳双方的误解,强化纳税人主动申报、缴纳税款的意识。

再次,“大数据”技术有利于强化税务信息预测,提高税务决策效率。任何税务政策的出台、管理体制的完善、具体工作的部署、工作绩效的反馈,都是建立在深入的市场调查,以及对海量数据的系统分析之下得出的科学结论。基于现代信息技术的大数据平台,同时也是税务信息交流、税务信息分享的重要平台:大数据技术对信息资源的整合,在实现不同部门之间涉税信息共享的同时,通过对不同主体、不同时点、不同阶段税收情况的系统分析,及时发现、修订税收征管漏洞,并据以完善税务管理体制,提高税务决策效率。

最后,“大数据”技术有利于改进税收征管理念,改善税收服务质量。大数据的典型特征,是“数据体量大、数据种类多”,但“价值密度低”。面对海量数据,任何个体(即使是经验和资历最为丰富的税务干部)的知识储备都显得微不足道。大数据的开放、共享性,不仅对税务机关满足纳税人知情权、参与权等大有裨益,还会对推进涉税信息共享、建立透明政策体系等形成倒逼,进而对税收征管工作理念、工作方式、执法思维、组织体系的变革形成巨大推力。

总之,“大数据”理念是转变税收征管理念的突破口:“大数据”为税收征管由传统的“管户”、“管事”转向“管数”提供了技术支撑,促进了税收征管模式的转型。与此同时,税务机关也可以通过大数据技术,深入分析税收对经济社会发展的成就,并据此测算出更加科学、合理的综合税收负担率,不仅为深化财税制度改革提供了科学依据,也为税务机关提高税收服务质量、改进税收征管效提供了技术保障。另一方面,在税收征管实践中,针对纳税人可能采取欺骗、隐瞒等手段进行虚假纳税申报或不申报等违法行为,造成国家税款损失的问题,税收征管部门可以基于大数据技术,构建有效的纳税人监管网络体系,将纳税人收入、财产、资金等数据纳入国家诚信管理体系,以此督促纳税人“诚信纳税”。而基于大数据技术的税务稽查分析,也可以及时揭露纳税人偷税、漏税等违法行为的环节和手段,从而更好地做到“依法治税、应收尽收”。可以说,税收征管充分利用大数据技术,是提高税收征管效率、消除税收征管信息不对称、加强税收征管风险管理、改善税收征管服务质量的必然选择。

二、大数据时代我国税收征管面临的挑战

大数据时代信息的特征篇2

一、我国传统个人信用信息主体权益保护的现状和问题 

随着征信业的快速发展,我国在个人信用信息主体权益保护方面进行了积极的探索,也取得了一定的成效,但是在制度体系、权利内容、权利有效履行等方面还存在一些问题。 

(一)个人信用信息主体权益保护制度体系不够完善。近年来在人民银行的推动下,《征信业管理条例》、《征信机构管理办法》及《征信投诉处理规程》等法律法规相继出台,初步构建了个人信用信息主体权益保护的法律框架。但是,与发达国家相比,涉及个人信用信息主体权益保护的法律规定过于原则,且分散在诸多法律条文中,不成体系,还存在一些盲区,加之《征信业管理条例》相关配套制度未出台,法律实践中司法解释还是空白,使得个人信用信息主体权益保护工作在细节上还存在一些漏洞。例如,信息主体认为被侵权的可以向所在地人民银行分支机构投诉,但相关制度中却未明确人民银行可以行使哪些权力、可以采取哪些手段来核查和处理投诉,使投诉可解决纠纷的范围受到限制。 

(二)个人信用信息主体权利内容还不够丰富。征信实践中虽然赋予个人信用信息主体知情权、同意权、重建信用记录权、异议权、救济权五项权利,但这些权利未得到明确定义,相关规定尚不完善,与欧美等发达国家相比较,同意权、退出权、直接营销禁止权等还没有涉及,并且伴随着信用信息二次使用、信用信息跨境流动、互联网金融的发展,权利内容还不够丰富,权利的落实还存在漏洞。 

(三)个人信用信息范围界定不够清晰。征信在我国尚属新生事物,个人信用信息的范围目前尚无统一的界定,《征信业管理条例》只是明确了禁止采集个人敏感信息的范围,并没有明确划定信用信息的范围。范围界定的不明晰,导致实践中容易使一些与信用无关或虽与诚信相关但涉及个人隐私的信息被纳入到征信系统。据问卷调查显示,73.66%的受访者对“电信欠费信息”及“水电费欠费信息”应不应该纳入征信系统存在争议;69.41%的受访者认为“计划生育”、“醉酒驾车”等信息属于个人隐私范畴,不应采集。再如当前互联网机构也在采集个人的交易记录、评价信息、社交信息等,但是没有明确规定这些信息是否属于其可采集的范围。 

(四)个人信用信息使用中存在违规行为。一方面,商业银行作为个人信用信息的主要使用者,其在查询个人信用报告时,还存在着未经授权查询、授权书因要件缺失而缺乏法律效力、查询授权未约定用途、查询授权条款在内容繁杂的格式合同中难以引起注意、查询授权条款用词不规范等方面,侵犯个人信用信息主体权益的案件时有发生。另一方面,征信机构和商业银行等信息使用者可能接触到大量个人信用信息,利益驱动下个别员工可能铤而走险,非法出售、倒卖个人信用信息的案例近年来也呈上升态势。 

(五)有效的个人信用信息主体权益救济机制尚不健全。目前征信相关制度对个人信用信息主体侵权的救济,以合同救济、行政救济为主,设定了异议、投诉和诉讼制度。但是实际操作中,异议处理往往需要经过多个环节的反复核查,流程相对繁琐、耗时较长,渠道不畅也会导致部分异议信息无法及时处理,行政处罚主要以赔偿为主,但是对赔偿的内容、标准并未规定,仲裁救济、司法救济等其它方式尚无涉及。 

二、大数据时代对个人信用信息主体权益保护带来的新挑战 

大数据以其大规模、高速性、多样化的特征,为征信业的发展带来了前所未有的机遇。同时,数据化伴随的隐私权范围扩大、信息安全问题,也给个人信用信息主体权益保护的现行制度、监管方式、行为约束、维权机制等带来新的挑战。 

(一)大数据时信活动的新模式,给个人信用信息主体权益保护现行制度带来挑战。互联网时代,基于大数据的征信业具有信息来源广、维度多、成本低等特点,越来越受到征信机构的重视,征信活动呈现一些新的特点。如,传统征信机构利用互联网信息来丰富和完善自己的征信数据库,一些大数据公司以电子商务、社交网络为平台,采集信息,提供信用信息服务,开展征信业务。但是,现有征信制度调整和规制的对象主要是传统征信机构和金融机构,是否能够适应迅速发展的大数据征信的新特点、新要求,目前还未得到征信市场的有效验证。另外,这些法律规范对大数据特征的个人信用信息的采集、加工、整理、分析、使用等环节未作出明确规定,也未对大数据下个人隐私的范围等作出合理规范。 

(二)大数据时代信息应用缺乏规范性,给个人信用信息主体权益保护的管理带来挑战。一方面,大数据公司通过技术手段,依托商务、社交网络等平台,获取信息并提供涉及征信的业务服务,其在数据的收集、存储、管理与使用等方面,目前尚不受征信管理部门的监管,主要依赖企业自律。因此,在追求利益最大化的目标驱使下,容易侵害个人信用信息主体的权利。另一方面,传统征信机构应用大数据,尤其是对用户数据的二次及以上应用,可能难以履行《征信业管理条例》的“告知与许可原则”,在一定程度上对个人信用信息主体知情权和同意权形成挑战。

(三)大数据时代基于互联网的操作风险,给个人信用信息主体信息安全带来挑战。基于互联网的大数据应用,对于征信业务来说,存在着较高的操作性风险。一是网络社会化的形成,为大数据在各个行业信用领域实现资源共享和数据互通搭建平台和通道,实现数据集合的共建共享,但所搭建平台和通道也处于暴露状态,使蕴含海量数据和潜在价值的大数据更容易吸引黑客的攻击。二是随着计算机网络技术和人工智能的发展,为大数据自动收集和数据挖掘效率提升提供了技术支撑,但更多的信息漏洞也随之产生,同样增强了攻击者的便利性。三是大数据所涵盖的数据类型千姿百态,数据存储难度也相应加大,计算机网络系统的故障和中断、内部操作人员失误等,都会引发信息泄漏。 

(四)大数据时代信息来源复杂多样,给个人信用信息主体的维权带来挑战。首先,大数据涉及多个行业领域,应用大数据开展征信业务,会提升信用评价的综合性,但一旦信息失真,产生纠纷,必定带来较大的协调难度。其次,大数据往往隐藏着大量的伪造或刻意制造的虚假数据,应用大数据开展征信业务如缺乏有效的数据甄别技术,容易造成错误判断,但维权过程中又很难追溯错误源。第三,大数据在传播、加工处理等过程中,由于时效性、身份错误定位、人工失误等问题,会导致数据失真与偏差,最终影响数据应用分析结果的准确性,容易引起信用交易的非公平性。 

三、建立大数据时代个人信用信息主体权益保护机制 

立足我国征信业发展的现实阶段,结合大数据对个人信用信息主体权益保护的新要求,我们建议从五个方面构建个人信用信息主体权益保护机制,其核心在于既要充分保证个人信息隐私和权益不受损害,又要为征信体系功能的正常发挥创造必要条件。 

(一)个人信用信息主体权益保护的原则。一是信用信息最大程度共享与个人信用信息主体权益保护的均衡。征信市场运行实践表明,全面的信息共享才能充分发挥其价值。但是要促使信息的自由流通,又必须从实体和程序的层面规范信息采集、整理、加工、使用行为,并赋予个人信用信息主体相应的权利,以权利制约权力的滥用。因此,大数据时代,传统征信机构、开展征信业务的大数据公司和信用信息提供(使用)者均应作为规范的主要对象,从制度上明确其履行义务,从监管上保证其规范运作;而信息主体作为征信活动中应保护的对象,赋予其一定的权利,从而在确保个人信用信息主体权益不受侵犯的情况下,充分发挥征信的经济和社会功能。 

二是征信活动中不同主体的利益均衡。征信活动涉及信息主体、信用信息提供者(使用者)、征信机构等不同主体,每一个主体都有不同利益,信息主体希望获得信用交易但必须以提供个人信用信息为代价,信用信息提供者(使用者)通过发挥信息的价值拓展交易范围、维护交易安全,征信机构则希望通过提供征信产品获得收益,利益主体必然会通过博弈以使自身的收益最大化。因此,在个人信用信息主体权益保护制度设计中必须遵循着平衡不同主体的利益,从而合理分配风险。 

三是实现社会利益和个人利益的均衡。征信是为信用信息的流动建立平台,其本身代表了社会需求,是对社会利益的维护。但是,传统私法中隐私权保护的法律理念是个人本位的,信息主体更倾向于隐瞒自己的隐私信息,就产生了与社会利益的冲突。因此,要综合平衡社会利益和个人利益,处理好权力、义务和责任之间的关系,在实现社会利益的前提下,保护个人信用信息主体的合法权益。 

(二)构建五位一体的个人信用信息主体权益保护机制。大数据时代个人信用信息主体权益保护是一项系统工程,需要自上而下进行设计,可以从制度保护、市场保护、监管保护、救济保护和自我保护五个方面构建个人信用信息主体权益保护机制。其中,制度保护,主要是通过完善相关的法律法规以及技术标准等,为信息主体权益保护提供法律保障;市场保护,通过加大市场在征信资源配置中的决定性作用,满足社会对征信产品多层次、多元化的需求,发挥市场看不见手的自我调节作用,提升个人信息的有效价值;监管保护,主要是建立政府管理和行业自律管理相结合的监管体系,通过政府介入来纠正市场失灵的情况,通过自律管理规范行业行为,协调利益关系,维护行业间的公平竞争和正当利益;救济保护,主要是通过完善行政救济、仲裁救济和司法救济的渠道和方式,使得个人信用信息主体权利受到侵害后,能够及时获得赔偿或者补偿的一种权益实现机制;自我保护,指除依靠法律、监管等外界力量来保护个人信用信息主体的合法权益外,通过开展宣传教育培训,提升个人信用信息主体的认知能力和自我保护能力。 

四、加强个人信用信息主体权益保护的具体措施 

(一)完善个人信用信息主体权益保护相关的法律法规。鉴于对个人信息的保护是维护公民财产权甚至人身权的重要方面,应尽快制定专门的个人信息保护法,对涉及个人隐私的信息、个人信息采集基本原则和范围、个人信息使用的目的和方式、个人信用信息主体的权利、信息保护内容和方式、救济渠道等进行统一规定。在此基础上,从保障和推进大数据规范发展角度,将新金融业态下的征信发展模式纳入到制度体系内,对大数据征信机构等市场主体的行为、权利、义务以及法律责任进行明确界定,对大数据技术下信息的采集、加工、使用的流程、规范以及信息安全等进行统一要求。 

大数据时代信息的特征篇3

【关键词】大数据 生物信息 知识提取 数据挖掘

1 数据挖掘的功能

数据挖掘是从大量的数据中四栋搜索隐藏于其中的具有特殊关系性的信息过程。它是数据库知识发现KDD中的一个步骤。知识发现KDD过程由以下3个阶段组成:数据准备、数据挖掘、结果表示和解释。数据挖掘跟许多学科都交叉关联,包括数据库技术、统计学、机器学习、人工智能、云计算和可视化等。

数据挖掘的实际应用功能可分为三大类和六分项:分类和聚类属于分类去隔类;回归和时间序列属于推算预测类;关联和序列则属于序列规则类。分类常被用来根据历史经验已经分好的数据来研究它们的特征,然后再根据这些特征对其他未经分类或是新的数据做预测。聚类是将数据分群,其目的是找出群间的差异来,同时找出群内成员间相似性。回归是利用一系列的现有数值来预测一个数值的可能值。基于时间序列的预测与回归功能类似,只是它是用现有的数值来预测未来的数值。关联是要找出在某一事件与数据中会同时出现的东西。

2 降维

从降维的角度讲,整个数据挖掘的过程就是一个降维的过程。在这个过程中,需要对数据删除线性关系比较强的特征数据,再用一些算法,如信号分析算法、傅里叶转换、离散小波转换等算法,从数据中提取特征,再对数据做主成分析处理,得到最后的特征,再用数据挖掘算法来将这些特征转化为人类可读取的数据或信息。

3 分布式数据挖掘解决方案

随着分布式计算技术、云计算技术、hadoop生态圈和非结构化数据库等技术的发展,以及对大数据挖掘的需求,出现了一批分布式数据挖掘,比较典型的有Apache推出的基于Hadoop的Mahout和加利福尼亚大学伯克利分校AMP实验室推出的基于Spark的MLBase。在Mahout中主要实现3种类型的数据挖掘算法:分类、聚类(集群)和协同过滤。相比Mahout而言,MLbase更好的支持迭代计算,它把数据拆分成若干份,对每一份使用不同的算法和参数运算出结果,看哪一种搭配方式得到的结果最优。

4 大数据下的具体应用实例――生物信息学的应用

生物信息学(Bioinformatics)是生命科学、计算机科学、信息科学和数学等学科交汇融合形成的一门交叉学科。近年来随着先进仪器装备与信息技术等越来越广泛和深入的整合到生物技术中来,生物医学研究中越来越频繁的涉及到大数据存储和分析等信息技术。在使用计算机协助生物信息时,处理仅有计算机辅助的方式存储数据很显然是不够的,生物信息学研究的目的是运用计算机强大的计算能力来加速生物数据的分析,理解数据中所包含的生物学意义。当前生物信息学研究的热点有:

(1)由以序列分析为代表的组成分析转向功能分析。

(2)由对单个生物分子的研究转向基因调控忘了等动态信息的研究。

(3)完整基因组数据分析。

(4)综合分析。

生物信息数据具有如下特点:高通量与大数据量;种类繁多,形式多样;异构性;网络性与动态性;高维;序列数据等特点[5]。针对这样的生物数据信息,要结合当前的大数据分析方法进行分析和理解。当前数据挖掘实现对生物信息分析的支持主要有:生物数据的语义综合,数据集成;开发生物信息数据挖掘工具;序列的相似性查找和比较;聚类分析;关联分析,生物文献挖掘等方面。

参考文献

[1]许凡.大数据时代的数据挖掘技术探讨[J].电子技术与软件工程,2015(08).

[2]洪松林.数据挖掘技术与工程实践[M].北京:机械工业出版社,2014(11).

[3]李荣.生物信息数据挖掘若干关键问题研究与应用[D].复旦大学(博士论文),2004(11).

[4]宋杰.生物信息数据挖掘中的若干方法及其应用研究[D].大连理工大学(博士论文),2005(04).

[5]孙勤红.基于梯度采样局部收敛的生物信息大数据挖掘[J].科技通报,2015(10).

作者简介

孙勤红(1979-),女,山东省人。现为三江学院计算机科学与工程学院讲师。研究方向为人工智能、数据挖掘。

沈凤仙(1984-),女,江苏省人。现供职于三江学院计算机科学与工程学院。研究方向为数据挖掘。

大数据时代信息的特征篇4

关键词:音乐检索;音乐分类;音乐信息检索系统

1.序言

随着多媒体和Internet的技术的发展和深入普及,推动着各种基于Internet 的音频应用逐步走向实用。各种音频数据的数量正在呈指数增长,其信息量也在迅速膨胀。语音和音乐是两类最重要的音频信息。如何快速有效地在大量的音乐数据中查询到所需要的内容,已经成为现代信息检索领域的一个研究重点。

目前现有绝大多数的音乐搜索平台都只支持文本的检索,比如www.baibu.com。用户可以通过歌名、歌词等信息搜索到相关的音频文件。但是,许多情况下,人们只记得一部分音乐内容,比如旋律。他们希望可以通过这些信息直接搜索到相关的歌曲。如何基于实际音乐内容快速查找到音乐信息成为当前的一个研究热点。

2.数字音频

要对音乐信息进行搜索,首先就需要了解音频信息的记录方式。当前音频信息声音可通过多种格式进行存储,总结下来基本上可以分为两类:记录声音波形变化的格式(如WAV格式)和记录声音指令的格式(以MIDI格式为代表)。

波形音频文件是以数字方式来表示波形,使用采样位数、采样频率和声道数这三个参数:对声波进行采样、量化、编码,最后转换成数字形式,并压缩储存的声音文件。

而与波形文件相MIDI是Musical Instrument Digital Interface的缩写,又称作乐器数字接口,是数字音乐/电子合成乐器的统一国际标准。MIDI文件相对波形文件来说较小,它记录的内容是一系列可以被 PC 的声卡解释的数字音乐指令(音符)。

波形音频文件是对实时播放的音乐信号进行采样和数字编码,记录了实际的演奏效果。而MIDI格式则是记录的一系列音符的演奏信息,如音符的起始、结束、控制变化等等信息。

另外随着网络和多媒体技术的进一步发展,人们对于数字音频技术的研究进一步深入,又出现了多种有损压缩的编码格式,这些编码格式,以极小的声音失真换取了较高的压缩比,比如在因特网上广泛流传的.MP3格式就是其中的代表。

正是由于不同的音频记录格式,并且在每一种格式下又各自有着一系列不同的格式,如何使不同的格式能够统一为一种能够为计算机检索所识别的代码就成为了音乐信息检索面临的主要问题。

3.音乐信息检索

鉴于音乐信息的多种多样,目前针对音乐信息的提取也提出的了多种方法。其中大致可以分为基于旋律和基于内容两种方法。

由于MIDI音乐的编码方式较为简单,记录的文件相对较小,目前音乐信息检索的一个方向就是把复杂的波形文件进行一定的处理,使之成为一段类似于MIDI音乐文件的旋律编码。目前有一些音乐信息检索的研究方向就是以MIDI文件为核心,把一系类不同格式的音乐文件通过系统自动分析和处理,转化成为以记录音乐文件旋律为主的MIDI文件,再通过与其他MIDI文件之间的相互匹配,最终达到查找出相似旋律文件的目的。

而基于内容的音频信息检索技术则直接对音频进行分析,从中抽取内容特征,然后利用这些内容特征建立索引并进行检索,避免了用MIDI文件作为音频信息的转化过程。因而基于内容的音频数据信息检索是目前发展比较迅速,研究较为深入的一个方向,它可以成为其他许多应用研究的基础。

4.基于内容的音乐信息检索

4.1音频的抽取:

对数字音乐进行搜索的前提条件,就需要明确那一段音乐是我们要进行搜索的目标,有的搜索是针对整个一个音乐文件而言,需要做到所有整个音乐文件的匹配,这样的搜索相对费时,而有些搜索只要求搜索内容相近,或者部分相似的内容,这样我们就不需要对整个音乐文件都去进行信息的抽取。在明确信息搜索的目标后,我们就需要对信息进行提取,目前提取特征有两种方法:一是提取感性特征,如音高、响度、节奏;二是计算非感性属性或称物理特性,如Mel频率倒频谱系数、平均过零率、线性预测系数等

4.2音频的分类:

由于目前的数字音乐文件数量庞大,要将所有的文件都遍历之后进行查询显然不可能。因此目前常用的方法主要是实现按一定的方法将音乐文件进行分类,如分为然后根据特征文件的分类按图索骥去进行有针对的查找。

目前常用的音频分类方法主要有:

(1)基于决策树的分类方法

所谓决策树是一个类似流程图的树型结构,树的每个结点代表一个属性(取值) 的测试,其分支代表测试结果,树的每个叶结点代表-个类别。树的最高层结点是根结点。

(2)神经网络分类算法

神经网络是一组相互连接的输入输出单元,这些单元之间的每个连接都关联一个权重。 在网络学习阶段,网络通过调整权重来实现输入样本与其相应(正确) 类别的对应。 由于网络学习主要是针对其中的连接权重进行,因此神经网络的学习有时也称为连接学习。

(3)贝叶斯分类方法

贝叶斯分类算法是统计学分类方法,它是一类利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,且方法简单、分类准确率高、速度快。[5]

(4)近邻算法

用该方法进行预测的基本概念就是相互之间"接近"的对象具有相似的预测值。如果知道其中一个对象的预测值后,可以预测其最近的邻居对象。

5.基于内容的音乐信息检索系统

由于目前音乐信息检索还不能做到完全自动化,因此目前的音乐信息检索系统应该包含以下一些步骤:

第一步,建立数据库。对数字音乐进行分析,并提取特征,再通过音频分割,识别分类以后将音乐数据装入数据库的原始音频库,将特征装入音频特征库。数据库建立以后就可以进行音乐信息检索。

第二步,确定查询特征矢量。即用户通过查询界面确定样本并设定属性值,可以是一段哼唱的声音,可以是具体的数字音乐文件,然后提交查询,系统对样本提取特征,结合属性值确定查询特征矢量。

大数据时代信息的特征篇5

关键词:高校图书馆;信息时代;管理模式

作者简介:熊桂芳(1969-),女,湖南常德人,湖南文理学院图书馆,馆员。(湖南 常德 415000)

基金项目:本文系湖南省教育厅科研基金(项目编号:10B072)、湖南文理学院青年专项基金(项目编号:QNQD0921)资助的研究成果。

中图分类号:G647?????文献标识码:A?????文章编号:1007-0079(2012)31-0140-02

随着我国高等教育的发展,高校图书馆作为文献储存、管理和传播的载体机构,对高校教学与科研起到了极大的促进作用。特别是信息时代下现代技术的发展,如计算机技术、网络技术和通信技术在图书馆管理中的运用,极大地促进了图书情报行业的发展,同时对图书馆传统的管理模式和服务模式提出了新的挑战。[1-3]因此,高校图书馆必须加强信息管理模式和服务模式的不断创新,才能适应时代的需要。

一、高校图书馆的基本特征

1.文化特征

高校图书馆是物质文化和精神文化的结合。高校图书馆不仅是人类文明和信息知识的载体,更是体现人类物质文明和精神文明发展的历程。图书馆文化是集人类之大成者,是人类不断探索自然规律和社会规律的结晶,也是传播文明的重要场所。

2.学科特征

高校图书馆建设始终是围绕高校学科建设服务的,也是图书馆为适应新的信息环境的需要。学科研究和学科发展始终是高校提升质量和迅速发展的主题。因此,在图书馆建设过程中,需要根据学科研究和学科建设需要,按照学科专业建设和文献工作流程,组织存储和编辑文献科技信息,使文献获取、检索、传递信息化,从而使高校图书馆的文献信息学科化,优化文献服务职能。在图书馆数据库建设过程中,需按照学科专业需求对文献信息进行科学编辑,整理成信息化的文献信息图书馆,开发学科专业数据库,建立学科种类系统化学科数据库体系。优先建设学科专业相关文献和重点建设学科文献数据库,通过学科专业文献数据库建设,促进各个学科教学科研快速发展,充分有效地利用图书馆的文献库资源,提高图书使用效率。

3.教育特征

高校图书馆的最重要的特征就是教育功能。高校图书馆是学校教育的第二课堂。因此,根据学校学科建设和学生知识传授的需要进行专业知识教育是高校图书馆的基本要求。提升教育教学质量,与高校图书馆在教学、科研工作方面的作用是分不开的。因此,高校图书馆建设需要适应高校专业教育教学、科研需求,以及专业课的课堂教学和教学实践需要,这样才能真正培养学生专业知识和技能。

4.信息特征

随着现代科技的迅速发展,科学知识体系日趋庞大,而人的时间和精力有限,人的一生不可能对所有的知识加以获猎,根据个人的兴趣爱好和各自学习的优势,选择适合自己的知识方向和学习导向,从而不断丰富发展某个领域的知识体系。因此,如何在浩瀚的知识海洋里寻找知识方向,捕捉和有效利用原来的文化信息,是高校图书馆需要为读者提供的基本服务。因此,高校图书馆加强文献知识的信息化管理是有效提高图书馆功能的重要手段。

5.数字特征

随着计算机技术、通信技术以及网络化技术快速发展,信息传播和信息容量井喷式发展,高校图书馆面临技术和管理的巨大挑战和机遇。各种知识不在局限于纸本文献,多媒体和光盘管理成为高校图书馆的重要途径。信息资源的数字化特征明显显现,从而使信息资源海量化、动态化,提高了信息资源的共享性。

二、信息时代下高校图书馆的新特征

信息时代下高校图书馆借助于现代计算机技术和信息技术手段建立的文献信息平台,是文献与信息交流、传播的媒介和工具。因此,信息时代下,为有效利用和提高图书馆的功能,必须充分运用现代先进科技手段,建立信息化、网络化的现代高校图书馆。

1.文献获取信息化

信息时代下高校图书馆借助计算机技术,采用文献数据库和光盘管理系统,使大量文献存储在很小的文献数据库和光盘管理系统中,从而可实现大量信息查询的电子图书馆,为读者提供大量文献信息资源和信息查询,加快了文献信息和科学知识的传播,使读者能够有效的进行相关文献信息获取,并可以对相关信息进行整合梳理,有效的提高了图书馆文献信息资源的交流服务。

2.文献载体多元化

随着人类文明的进步,文献信息发展迅速,传统的纸质文献载体已经无法满足现代文献信息存储的需求。随着计算机技术及相关存储技术的进步,光盘管理系统和硬盘存储系统,以及数据库空间的发展,电子出版物大幅度增长,文献载体多元化使现代文献信息的存储海量化,压缩了存储空间,提高了文献信息的可利用率。

3.网络共享化

传统的高校图书馆功能服务模式只是简单的借阅图书资料,并提供借阅场所,功能单一、效率低下、死板,难以有效发挥图书馆的真正作用。随着文献传播速度加快,读者对图书馆文献信息需求膨胀,因此,图书信息网络化建设可以使众多的文献信息进行加工编辑,便于图书的分类管理,并借助多媒体技术和光盘管理系统,使图书馆文献管理达到自动化共享服务,快速便捷地提供多种图书馆馆藏文献电子信息资源网络化服务,最大限度地发挥图书馆文献信息资源效率,为读者提供优质文献查找服务功能。

大数据时代信息的特征篇6

关键词 特征选取;特征排序;神经网络;多层神经网络

1 引言 随着信息 科学 技术的快速 发展 ,在 工业 界和学术界有着更复杂和更大的多变量建模 问题 。 研究 人员发现当不相关和冗余的特征向量剔除之后,模式识别技术的性能将显著的提高。由此,特征提取成为了数据预处理和数据挖掘技术的重要的步骤之一。具体来讲,特征提取有助于在线 计算 ,加强系统的可读性,以及提高系统的预测性能。 一般来讲,特征选择有两大步骤:计算评价函数值和特征子集搜寻[1]。评价函数要能反映出特征向量与数据类信息的匹配度信息,以及分类器性能变化的信息。而就特征子集搜寻来讲,为了避免繁冗的无遗漏搜寻,一些被大多数学者认可的搜寻方法被广泛采用,例如:前向选择,后向删除,双向搜寻等等[2]。www.133229.CoM与完全搜寻和随即搜寻相比,这三种顺序的搜寻方法都能简单而快速的执行。 在构造输入数据和输出数据的复杂映射方面,由于多层神经网络(mlp)的卓越性能,因而mlp被广泛的采用。本文采用mlp来作为分类器,来展示各种特征选取方法在各个数据集上的分类性能。 2 最优互信息 根据shannon信息 理论 ,一个随机变量c的不确定性可以由熵h(c)来估计。对于两个随机变量x和c,条件熵可以估计当变量x已知时,变量c的不确定性。而互信息可以估计变量c和变量x的相互依赖性。从而,h(c) , 和 三者有如下的关系[3]: ,等价于 (1) 训练分类模型的目的是最小化已知训练数据与类属性数据的不确定性。若 比较大,则意味着训练数据集x所包含的信息能够有效地预测它们的类属性;相反地,若 比较小,则意味着训练数据集x所包含的信息不能够有效地预测它们的类属性。所以,训练分类器的过程应该找一组分类器参数θ,而尽可能增大互信息 。 而对于特征选取而言,其目的是从特征全集中选取一特征子集使得互信息尽可能的大以致于特征子集f能够有效地预测训练数据的类属性。也就是说,共有个f从而即可得到,我们可以选择最大的所对应的f来作为最优的特征集来代表特征全集x。 然而,以上的描述只是考虑到了特征子集f与类属性c有最大的相关性,f未必成为最优的特征集。例如若f中每个的特征与属性c有最大的相关性时,它们当中有可能含有极大线性或非线性相关的特征甚至重复的特征。所以我们应该剔除掉这些冗余的特征,使得处理后的f成为新的最优的特征集。 即最小化。 因此,最大相关性和最小冗余性应同时考虑在一起。我们定义一个算子θ 将d和s结合起来来最大化θ ,从而可以同时优化d和s: (2) 在实际中,我们可以采取前向递增的搜寻方法,并根据(2)来找到最优的特征向量集。假设我们已经有了(m-1)个特征集fm-1。现在的任务是要选取mth特征从。这一过程可以通过最大化θ()来实现。也即优化下式: (3) 其中, 。 3 omi特征提取算法 通过以上 分析 ,我们将omi特征提取算法,表述为如下过程: 初始化:将f设为空集,x为包含所有特征的全集。 (1)计算与类属性的互信息:对每一个特征,计算 。 (2)选取第一个特征:选择特征f,对应最大的互信息值;并且设置。 (3)递归计算:选择特征f,对应最大的omi评价函数,即:

(4)如果,回到第2步,否则f即为最终所有特征向量的排序。 需要指出的是,通过计算特征向量与类属性的互信息值,来导出每个特征向量相关性的排序,在理论上是可以证明的。另外,omi评价函数可以避免估算多变量的的密度函数来求互信息。例如:计算 和 ,意味着需要先计算和。而这两项在高维数据集的实例中,无法有效地准确地估计。而omi中,只需计算和,意味着只需先计算和即可。通常这两项可以用parzen window,histogram等常用的低维密度函数估计的方法来估计。 4 其它特征提取算法 当今,特征提取的方法可以总体分为两大类:过滤式和嵌入式。过滤式是指特征提取的算法与分类器的训练算法无关;而嵌入式是指特征提取的算法与分类器的训练算法直接相关。一般而言,过滤式的方法容易执行而且运行效率高,然而嵌入式的方法选出的特征向量更可靠但是计算量非常大。本文提出的omi方法,在特征向量选取和排序时并未用到任何分类器的训练算法,所以omi属于过滤式的特征选取方法。但是在后文的实验部分可以看到omi选取的特征向量比有代表性的嵌入式特征选取方法还要好。 当今有代表性的过滤式方法为fisher score[4]。fisher score方法通过式(4)来估计每个特征向量对不同类属性的区分能力,从而得出所有特征的排序。 (4) 其中和分别是特征向量在第一类的均值和方差,而和分别是特征向量在第二类的均值和方差。从式(4) 可以看到每个特征向量的重要性只是由均值和方差的比值来衡量。所以在高维的数据集中,其特征选取的效果并不可靠。 而有代表性的嵌入式方法有:leave-one-out[5],maximum output information[6]。leave-one-out是在每删除一个特征向量时,计算一次validation数据集上的分类器错误率变化。若其错误率变化相对较大,这可推断此特征向量相对重要;反之相对不重要。由此,也可得出所有特征向量的排序。而最近新提出的maximum output information方法与mlp神经网络分类器相结合,通过计算输出信息在神经网络输入层各个节点的权值的大小来选出一个最不重要的特征向量。将其剔除后再依次重复以上过程剔除每一个特征向量。最先剔除的为最不重要的特征向量,最后剔除的为最重要的特征向量。从而也可得出所有特征向量的排序。值得注意的是,这两种嵌入式的特征选取的方法在递归计算各个特征向量的重要程度是都必须重新训练分类器,所以嵌入式的特征选取方法计算效率普遍很低。 5 实验结果 5.1 人造数据集 本文选取两个被广泛采用的人造数据集monk和weston数据集来展现omi特征提取算法能够有效地可靠地对所有特征向量进行排序。关于两个数据集的介绍见表1。本文所有数据集的分类器采用3层mlp神经网络。其内部节点的数目由5-fold crossvalidation的方法来确定。 表1 数据集介绍 数据集名称 monk weston 训练集样本个数 432 200 测试集样本个数 124 9800 特征向量个数 6 10 mlp二层节点个数 5 6 monk1数据集可以从uci网站公共数据库下载得到( http://archive.ics.uci.edu/ml/ )。已知6个特征向量与类属性的关系:当(f1=f2)或者(f5=1) 时,样本属于第一类,反之属于第二类。由此可见这

大数据时代信息的特征篇7

关键词:大数据;网络信息安全;防护措施

1引言

大数据时代下,计算机网络技术和人们生产、生活的联系更为紧密,在给人们的生活生产带来便捷的同时,网络信息安全的问题也愈来愈突出,成为威胁个人隐私、企业发展和国家安全的重要因素。面对新的发展环境,加强计算机网络信息安全防护需要从多方面进行,提高计算机网络信息防护质量,对实践操作有着积极意义,这也是未来计算机网络信息安全需要深化的重点工作。

2大数据时代特征及计算机网络信息安全保护的重要性

2.1大数据时代特征体现

处在当前大数据时代下,大数据、云计算和互联网等相互的结合应用,改变了人类的生活习惯和思维方式,大数据时代也呈现出鲜明的特征。人们对数据处理的能力越来越强,大数据时代通过利用大数据处理技术,能够处理海量的信息数据。云计算和大数据相辅相成,云计算可以将海量数据迅速处理释放价值,是数据处理能力提升的重要支持技术[1]。大数据时代的特征还体现在大数据的应用领域上,大数据几乎在各个领域中都有应用,故有比较广阔的发展前景。另外,大数据时代的特征还体现在数据整合形式的变化上,无论是政府还是企业,对数据整合的形式也愈来愈明显。

2.2大数据时代计算机网络信息安全保护的重要性

大数据时代下的计算机网络信息安全保护工作愈来愈重要,计算机网络的应用提高了数据信息传输速度和处理效率。在计算机网络的进一步发展过程中,涉及到的信息数据会更多,因此要加强对数据信息处理方面的重视,从整体上保障数据信息的安全。计算机网络信息安全问题频发,已严重威胁到人们的个人隐私,企业安全和国家的安全,只有做好信息安全保护工作,才净化整体网络环境。

3计算机网络信息安全问题影响因素和防护策略实施

3.1计算机网络信息安全问题影响因素

大数据时代下计算机网络信息安全问题体现在诸多层面,通过分析计算机网络信息安全问题,能进一步认识信息安全保护的重要性。主要的信息安全问题影响因素有以下几个层面。第一,黑客因素影响。在网络技术迅速发展同时,黑客技术也呈现出多样化的发展态势,网络黑客入侵成为计算机网络信息安全的重要威胁形式。黑客入侵主要有服务器不能正常服务,常见的威胁方式是通过系统中的漏洞攻击网络系统,从而达到不法目的[2]。黑客攻击有主动和被动的方式,主动攻击是黑客采取攻击的手段突破网络安全防线,这一形式的攻击会出现数据流更改、创建错误信息流、假冒篡改信息等。被动攻击是通过监视用户获得相应机密的信息,被动攻击的方式往往很难觉察到,所以造成的威胁也比较大。第二,自然因素影响。主要是受到外因对计算机网络和设备造成了损坏,从而影响计算机网络的信息安全。如雷电、洪水、地震等自然灾害,对计算机网络和设备会造成严重影响,造成的损坏往往不能修复。如地震可能会破坏计算机设备和网络线路的终端,使得计算机网络应用中出现信息数据丢失,进而威胁信息的安全性。第三,病毒因素影响。计算机病毒给计算机网络信息的安全带来的影响较大,由于病毒的传播的速度较快,破坏性也较大,种类诸多。因此,计算机病毒防不胜防[3]。病毒一旦侵入到计算机网络系统中,会瞬间进行传播,造成数据信息丢失,严重时会导致整个计算机网络系统瘫痪,影响网络系统的正常使用。

3.2计算机网络信息安全防护策略

大数据时代下计算机网络信息安全防护工作的重要性愈来愈突出,要从多角度进行考虑。第一,防火墙技术。大数据时代下计算机网络信息的安全防护,要从基础的防护技术层面进行考虑,防火墙技术的应用能有效隔离内网和外网,在两个网之间建立一道虚拟的围墙,保障内网的运行操作安全,能够有效防御外网的入侵。通过应用防火墙技术,能够防御未知入侵和非法攻击,并和计算机网络安全策略相结合,从整体上提高计算机网络的安全[4]。计算机网络内网安全控制,主要是通过数据信息限制,这对安全隐患信息的屏蔽和隔离操作发挥着重要作用。防火墙技术的应用也是采用这样的方式,通过隔离和限制来保障内网的安全。第二,防病毒技术。大数据时代下计算机网络信息安全的保护,要科学应用防病毒技术,从整体上提高网络信息的安全。计算机网络系统使用时需要安装杀毒软件,是最为基础的防护信息安全的技术方法。网络安全的防范中,通过系统安装杀毒软件,能定期查杀电脑系统病毒,从而降低病毒入侵率。较为常见的电脑防病毒软件有腾讯管家、360杀毒软件和金山毒霸等。安装杀毒软件时需要注意,为保障避免和系统发生冲突,一个电脑安装单个杀毒软件即可。杀毒软件也要定期更新系统,提高安全意识。第三,网络监控技术。保障计算机网络信息安全,要科学应用网络监控技术,这是提高计算机网络安全性能的重要举措。不管是病毒入侵还是黑客攻击,都有不可预测的特点,所以十分有必要加强网络监控[5]。为避免数据破坏和窃取等,可以采用入侵检测技术加强网络的安全监控,及时发现安全隐患,入侵系统采用签名和统计分析法进行开发,如签名分析方法,是掌握计算机网络信息内部弱点展开检测。统计方法的应用是依照统计学原理提供安全防护,这些都能有效及时的发现安全隐患和不安全文件,起到保护信息安全的作用。

大数据时代信息的特征篇8

关键词:大数据时代 高校档案 信息服务 创新

中图分类号:G71724文献标识码:A文章编号:1009-5349(2017)04-0127-02

在高校中,档案信息资源是高校最具保留价值的信息之一。自改革开放以来,我国高校不断增多并且规模不断扩大,留下的档案资料只增不减,如何使这些资料有条理地、长久且完整地保存下去是目前备受关注的话题。档案是内容准确、利用价值高且全面的资料,以往都是存放在固定且保密的位置,但普遍存在丢失资料和占据空间等问题,有些高校为了节约储存空间,在学校办学过程中产生的一些教学改革、科研、W科建设、师资力量、学生管理、党群以及相关部门的资料没有及时有效地归档。大数据技术的出现,很好地解决了这些方面的问题,实现了相应数据的有效归档以及高效利用。

一、大数据含义的相关理解和特征

1.大数据的含义

有关于大数据的定义有很多,有几个定位较为全面的是:麦肯锡全球研究所认为大数据是一种在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合;Gartner是一个较为权威的信息技术研究公司,它对大数据的理解是:需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。还有一些其他的理解,都对大数据的运用价值表示肯定。将大数据技术运用于高校档案管理及档案信息服务建设,能够促进其结构完善,加快信息数据储存和收集。

2.大数据的特征

大数据具有四个个性鲜明的特征,一是数据容量很大,之前的“小数据”系统已经不能够满足很多组织或团体的需求,大数据系统将TB的容量上升到PB的容量;二是数据类型多,现如今数据类型有网络日志、视频、图片、地理位置等,这些信息都能以数据符号储存;三是价值密度低,商业价值很高,例如如果储存视频,尤其是监控数据,一段视频储存数据中只有几个数据符号有价值;四是处理速度快,以秒来计算其处理速度,快速实时获取所需的信息,这是与传统储存数据系统反差最大的一个特征。

二、大数据与档案的关系

《档案法》规定:档案是指过去和现在的国家机构、社会组织以及个人从事政治、军事、经济、科学、技术、文化、宗教等活动直接形成的对国家和社会有保存价值的各种文字、图表、声像等不同形式的历史记录。单从档案的定义来看,除电子档案外,其他载体形式的档案与大数据没有任何关系,只有档案记录的信息可以称之为数据。从档案的特征来分析,档案具有社会性、历史性、确定性及原始记录性。而大数据也具有类似的特征,大数据也是人类社会活动的原始记录,其内容也具有确定性,且其记录的内容只反映事物已经完成的状态,同样具有原始记录性。因此,档案与大数据的关系仅是具有相似的特征,大数据是具有鲜明档案特性的数据集合。但是,从数据的保存价值来说,有些数据集合对国家和社会没有永久的保存价值,不需要永久保存。真正与大数据有直接联系的,只有电子档案一种形式,电子档案与大数据之间是种概念与属概念的关系。

三、高校档案信息服务提升的必要性

1.高校档案信息服务提升是顺应大数据时代的必然要求

在大数据环境下,产生的信息数据量大、种类多、并且这些数据信息的密度低,处理起来速度快。为顺应时代变化,高校档案信息服务系统需要快速改变发展模式,在此环境下寻找新方向,避免与时代脱节,避免有价值的资料丢失,最大化运用高校档案服务资源,发挥其具有的价值。

2.高校档案信息服务提升是数据信息服务的时代需求

根据调查发现,现在人们获取信息的手段各式各样,并且需求的信息也是多样化的,出现这种现象的根源在于人们的信息获取观念发生了改变。伴随着信息供给方要不断地拓展信息处理和发出方式,以数据、示例描述一个观点,增加说服力,提高服务质量,现在高校档案信息服务还没有做到这一点,高校档案信息服务部门必须做到与社会发展和需求相匹配,建立新型的档案信息服务模式。

3.高校档案信息服务提升是促进自我发展的内在要求

现在各组织或团体内部产生和获取的信息不但数量巨大,且种类繁多,尤其是高等院校,人口基数大,信息资料量也相应大一些。传统的服务方式在现在环境中使用显得比较拖沓,服务范围小,受益者少,并且服务过程比较死板,手续多,用户对此系统反映不好。必须转变高校档案管理和服务模式,才能保证其长效发展。

四、大数据时代高校档案信息服务水平提升策略

1.基于大数据理念合理定位,深挖高校档案信息资源价值

在大数据环境下,无论是资源的提供者还是资源需求者都很重视资源的经济价值和实用性。对于高等院校来说,其内部信息资源被分门别类,学生和老师可以输入关键字来获取信息,但是学校作为提供规范的教育平台,其内部资料具有方向感,也就是信息供给者根据环境有针对性地一些信息,需求者只能获取教育相关的信息。为了更加细化信息,提高高校发展速度,需要明确高校档案信息服务方向,再确定发展模式和发现方法,找出合适的大数据产品,简化信息挖掘方法,提供档案共享平台。在大数据背景下,高校档案管理人员应该科学地运用大数据技术不断地挖掘档案信息资源价值,打破以往档案资源不能外泄的思想,拓展档案信息资源建设的广度与深度。

2.推动档案信息资源内外整合,构建智能化信息服务平台

在大数据环境下,处理复杂的信息一定要有信息资源整合意识。做到信息整合首先要仔细分析和优化档案信息资源的结构,根据学校发展方向,有目的地收集信息,扩大资源途径,将传统的、纸质的资料与现在的档案信息资料进行整合,将档案信息的侧重点突出,形成有自己特色的服务系统。此外,学校不能闭门造车,要加强与第三方高校档案资源、网络档案资源的合作关系,将获取的信息进行整合,充实现有的信息数据系统。从上面分析大数据特征可以看出,在大数据环境下信息处理速度快,施行一秒钟处理信息计划,因此,高校档案信息服务管理和服务部门的工作者要充分利用技术手段,提高服务平台智能化水平,根据高校发展方向,不断地完善和革新服务平台,满足用户需要。

3.充分运用云计算的架构优势,推动高校档案数字化升级

现在信息大部分是以数字形式存储,为提高高校档案信息服务水平,推动档案信息的数字化升级是必需的,在目前的l件下,信息数字化升级过程比较复杂,在升级过程中要保证信息含量高,信息的准确度好,保证不会出现信息遗漏或更改的现象。此外,现在为了提高高校档案信息的数字化升级效率,引进云技术,在构建信息网络构架上具有一定的优势,高校档案管理部门科学合理地使用该技术,提高信息资源使用的灵敏度和广度,扩大用户使用权限。

4.加强档案信息服务思想认识,探索档案服务多元化模式

在大数据环境下,无论是用户还是信息资源的提供者都需要具有资源共享的思想,获得一加一大于二的效果,充分发挥档案信息资源的价值,尤其是高校档案管理者,更需要具有资源共享的思想。不过在进行资源共享之前需要对档案信息资源进行分类,重点在于权限分类,在确保信息资源安全的前提下,将一定权限范围内的信息进行分享,也吸收其他院校的优秀资源,不断提高档案信息服务质量。此外,将无形的信息资源转化成有形的经济价值还需要信息服务部门探索多元服务模式,从服务高校行政部门,向服务全校师生、服务社会转变,最大限度地发挥高校档案资源的价值。档案信息资源的多元化服务模式需要进一步深化,根据资源类型与用户群体特征,构建多元化、个性化、业务化档案信息服务新模式。

5.构建完善的资源共享体系和共享模式

通过大数据技术能够获取很多的便利,实现了校内众多资源的有效共享,让档案信息的采集工作、管理工作等都形成了有效的协同互动。另外,大数据技术加强了各个档案之间的共享效率。大数据中的DWA技术能够对档案进行统一的管理,大数据技术管理下多种类型的共享模式,统一在大数据技术中心平台的管理控制之下,利用P2P技术,构建起对等的网络。在这一环境当中,每一个登录档案资源库的客户端都变成了收集端和利用端,各节点之间在大数据技术的处理下实现着平等的资源信息互换。

五、结语

在大数据时代,高校档案管理既面临严峻的挑战,也有很多发展机遇,如何把握机会发展自己是当前面临的困难。现在服务行业发展迅速,作为服务于高校的档案工作人员,也有必要提升自身的服务意识,在实践中探索其发展方向,面对大量数据,挖掘其中蕴含的价值,树立大数据理念,利用新技术、新措施、新手段大胆尝试创新,提升档案信息资源数据的精准性、价值的真实性,不断推进高校档案信息服务质量。

参考文献:

[1]陈婷.大数据时代高校档案信息服务水平提升策略研究[J].中国管理信息化,2016(24):174.

[2]张金来.大数据时代高校档案信息服务创新探讨[J].智富时代,2016(10):156.

[3]毕大鹏.高校档案管理信息服务中大数据技术的应用[J].电子技术与软件工程,2016(18):196.

[4]刘加威.关于数据时代高校档案工作的思考[J].黑龙江档案,2016(4):58.

[5]高伟娜.“大数据”技术在高校档案信息服务中的应用探索[J].现代交际,2016 (15):48-149.

[6]张金来.大数据时代高校档案信息服务创新探讨[J].天津职业院校联合学报,2016(7):124-128.

[7]张惠.网络环境下高校数字档案信息安全保障初探[J].科技信息,2011(19).

[8]刘加威.智慧校园建设对数字档案管理的促进[J].齐齐哈尔医学院学报,2015(22).

大数据时代信息的特征篇9

【关键词】手机杀毒特征码J2MEKVM

据中国互联网络信息中心的《第24次中国互联网络发展状况统计报告》显示,截至2009年6月30日,我国网民规模达3.38亿,其中手机上网用户达1.55亿,占网民的46%,半年内增长了32.1%。人们在享受手机上网带来的便利的同时,却也不得不面对因手机上网带来的安全问题。这些智能手机设备一旦联上网络就会与联网的普通PC一样,立刻暴露在高风险的网络威胁之下,对联网PC的安全已经造成严重威胁的因素,例如病毒、黑客等,也开始对智能手机设备产生同样的威胁。为了解决越来越复杂的智能手机安全问题,各种手机杀毒技术应运而生。本文将主要介绍J2ME技术、基于特征码的病毒扫描技术以及它们在智能手机杀毒系统设计中的应用。

1 J2ME技术

为了推进无线电子商务等业务的发展,J2ME作为用于嵌入式系统的Java被引入无线领域,与J2SE和J2EE一起为无线应用的客户端和服务器端建立了完整的开发、部署环境。J2ME用于为信息家电市场提供应用服务。不同信息家电如移动电话、呼叫器、PDA等有不同的特性和界面,为了满足消费者与嵌入式市场不断发展和多样化的需求,J2ME采用模块化、可扩展的体系结构。它是一个3层的软件模型,构建于本地操作系统之上,如图1所示:

图1 J2ME体系结构

依照各种设备资源特性的不同,J2ME的3层体系架构分为简表层(Profile)、配置层(Configuration)、虚拟机层(Virtual Machine),然后再进一步细分,使J2ME能够在每一类设备的限制下工作,并同时提供最低限度的Java语言功能。

虚拟机层针对设备本地操作系统,支持特定的J2ME配置,包含CVM和KVM。CVM比KVM包含更多的功能和支持更多的特性,KVM是用于J2ME平台的最小的虚拟机。

配置层在3层体系结构中起承上启下的作用,并根据存储和处理能力对设备进行纵向分类,从而对虚拟机特性和基本的类库进行划分。已经标准化的配置有CLDC(Connected Limited Device Configuration)和CDC(Connected Device Configuration)。

简表层建立在配置层基础之上,用以定义与各种设备相关的属性(具体的用户界面、输入机制和数据持久性等)以及特定系列设备上可用的应用程序编程接口(API)的最小集,包括特定用途的类库和API。CLDC上已经标准化的Profile有MIDP(Mobile Information Device Profile)和IMP(Information Module Profile),而CDC上标准化的Profile有FP(Foundation Profile)、PBP(Personal Basis Profile)和PP(Personal Profile)。目前,J2ME领域里使用最广泛的就是MIDP,它主要针对手机和其它双向移动通信而设计。

2 病毒扫描技术

扫描法是用每一种病毒体含有的特定字符串对被检测的对象进行扫描。假如在被检测对象内部发现了某一种特定字符串,就表明发现了该字符串所代表的病毒。在国外,这种按搜索法工作的病毒扫描软件叫SCANNER。扫描法包括特征代码扫描法、特征字扫描法。

病毒扫描软件由两部分组成:一部分是病毒代码库,含有经过特殊选定的各种计算机病毒的代码串;另一部分是利用该代码库进行扫描的扫描程序。病毒扫描程序能识别的计算机病毒的数目完全取决于病毒代码库内所含病毒代码种类的多少。显而易见,库中病毒代码种类越多,扫描程序能认出的病毒就越多。

特征串的扫描法病毒查找软件最大的优点是易于商业化,并且可以依据检测结果做进一步的杀毒处理。缺点是新病毒的特征串未加入病毒代码库时,扫毒程序将无法识别出新病毒,且搜集已知病毒的特征代码费用开销大。

尽管如此,基于特征串的扫描法仍是使用最为普遍的计算机病毒检测方法。

3基于特征码扫描的J2ME手机杀毒系统设计方案

本病毒扫描引擎主要包括4个模块:配置加载模块、特征码加载模块、扫描模块和文件解析模块。四者关系如图2所示。首先,反病毒引擎读取配置文件,将配置信息传递给病毒扫描模块(这部分功能由配置加载模块完成)。然后对前台程序传入的扫描对象文件格式进行解析(由文件解析模块完成),并将解析结果传递给病毒扫描模块。病毒扫描模块利用病毒特征码来扫描解析后的文件,如果文件与病毒特征码匹配,则断定该文件是病毒,给出病毒名,将结果返回给前台程序,否则继续扫描。特征码加载模块主要负责病毒特征码目标文件的加载和维护。在反病毒引擎中至关重要的一块是病毒特征码的提取和维护,病毒特征码提取的准确性和及时性直接影响反病毒引擎的防毒效率。本系统采用的病毒特征码是以16进制表示的ASIIC代码,包括3种病毒特征码的格式,分别是含通配符“*”的字符串格式、含通配符“?”的字符串格式和不含通配符的字符串格式。

图2 病毒引擎模块结构图

3.1 配置加载模块

配置加载模块主要负责引擎配置参数的装入。引擎的配置参数保存在配置文件中,在初始化的时候加载。配置文件主要包括配置文件说明、数据体和配置参数数据。

配置文件说明里包含了配置的版本、配置使用、简要说明等信息,数据体包含了配置参数名以及参数取值,配置参数数据的组织格式是将参数名和取值捆绑存放。在本系统中,配置参数数据的基本格式为“参数名=取值”,主要包括3种类型的参数取值,分别为布尔型参数取值、字符串型参数取值和数值型参数取值。布尔型参数取值的格式为“参数名=yes”或“参数名=no”,主要用在如对扫描文件类型等的判断;字符串型参数取值的格式为“参数名=字符串”,主要用于对临时文件所在路径的说明等;数值型参数取值的格式为“参数名=数值”,主要用于保存包含数字的参数。

3.2 特征码加载模块

特征码加载模块主要负责病毒特征码目标文件库的装入。病毒特征码目标文件库存放对病毒特征码源文件进行加密和压缩处理后得到的特征码目标文件,处理的目的是为了保护病毒特征码的安全。病毒特征码目标文件主要包括两部分:文件头和数据体。

文件头里包含了病毒特征码的版本、加载日期等信息,数据体包含了病毒的特征码值以及病毒名。常见的特征码目标文件的组织格式是将病毒特征码和病毒名捆绑存放,即病毒特征码后面紧跟着其对应的病毒名,其好处是:简单、直接、处理速度快,但存在着资源浪费的问题。在本系统中,病毒特征码的基本格式为“病毒名[偏移值]=特征码值”,比较特殊的包含通配符“*”的特征码表示为“病毒名[偏移值1*偏移值2*偏移值3]=特征码值1*特征码值2*特征码值3”,表示包括多个特征码,并且其在文件中排列顺序为“特征码值1*特征码值2*特征码值3”,其中“特征码值1”对应的偏移值为“偏移值1”。

特征码加载流程如下:

(1)根据配置文件,遍历病毒特征码文件,若为文件,则解析该文件,若为文件夹则循环遍历;

(2)解析特征码文件,读取目标文件头,获取相关信息;

(3)对特征码目标文件的数据体进行解密;

(4)按照以下步骤逐一解析每节数据,并装入到相应的病毒特征码容器中:①读取一条病毒特征码及其偏移值offset;②利用offset恢复病毒名及特征码值;③调用加载函数,解析并加载病毒特征码;④继续解析下一条病毒特征码。

3.3 文件解析模块

文件解析模块主要由文件夹检测模块,文件类型检测、解压缩模块,文件读取模块等组成。文件夹检测模块负责识别输入对象的类型,如果是文件,则进行下一步操作;如果是文件夹,则轮询读取它下面的所有文件,放入文件列表中,逐一进行处理。文件类型检测模块判断是否为压缩文件,然后决定下一步操作。如果是压缩文件,则解压缩直至其解压后的结果不包含压缩文件,并对每一个解压结果进行处理。解压缩模块负责对打包文件进行解压缩。文件读取模块将每一文件转换成二进制流的样式,交由病毒扫描模块进行特征码匹配。文件解析模块的实现流程如图3所示:

图3 文件解析模块的实现流程图

3.4病毒扫描模块

病毒扫描模块的主要功能是对解析后的文件进行扫描。它利用特征码加载模块提供的病毒特征码去扫描文件,如果发现病毒,则提交异常事件,根据配置进行处理。如果是对单个文件进行扫描,就通知前台程序,由前台决定下一步操作;如果是对文件夹进行扫描,则记录这条扫描结果,继续进行下一个文件的病毒扫描,直到全部完成后提交前台处理。

病毒扫描模块的实现流程:①成功加载最新的病毒特征码,这部分功能通过调用病毒特征码加载模块完成;②病毒扫描模块接收由文件解析模块发送的扫描文件;③对解析后的文件类型进行判断;④根据文件类型调用相应的处理程序,进行扫描;⑤如果命中病毒特征码,引擎发送相应的事件通知前台程序;⑥检查前台返回标志,决定下一步操作。

4 测试与分析

KVM虚拟机上的病毒扫描引擎测试结果如表1。由表可知,扫描引擎基本能对包括压缩文件、文件夹和文本文件在内的对象进行扫描并检出包含病毒特征码的文件及病毒信息。

表1病毒扫描结果表

5 结束语

迄今为止,手机的安全性日趋受到人们的关注,随着J2ME技术的成熟和反病毒技术的发展,对手机病毒进行有效处理逐渐成为了可能。本文主要介绍了基于病毒特征码扫描技术的J2ME手机病毒扫描引擎的设计及具体实现方法,并对不同类型的文件进行了测试,取得了比较满意的结果。将本系统的源程序经过适当修改,便可开发出功能更加强大的手机反病毒软件,给手机网络功能的使用带来更多的安全保障。

参考文献

[1]巫喜红,凌捷. 单模式匹配算法研究[J]. 微计算机信息,

2006(22):8-3.

[2]汪永松. J2ME手机高级编程[M]. 北京:机械工业出版社,2009.

[3]孔维广. 手机病毒的传播原理与对策分析[J]. 武汉科技学院学报,2007(9).

[4]王海坤. 手机病毒的分析及研究[J]. 科技资讯,2009(8).

[5]翁晓奇,李妙旎,于浚,等. 基于3G网络的手机病毒分析[J]. 科协论坛,2009(9).

【作者简介】

大数据时代信息的特征篇10

关键词:大数据时代企业人力资源绩效管理

一、大数据时代的内涵与特征

(一)大数据时代的内涵

大数据技术的出现与发展使得人类正式进入到大数据时代。大数据,实际上就是指采用传统的处理模式无法在短时间内进行数据采集、整合与分析的数据,这些数据的内容丰富,但是信息密度相对较低,所以要想真正意义上应用往往十分困难。但是,随着现代信息技术的应用与发展,大数据已经在客观上成为现阶段互联网信息的主要来源,甚至成为生产生活当中必不可少的生产资料来源,构成了人类社会的现代化属性。

(二)大数据时代的特征

大数据时代的特征主要包括如下几个方面:其一,数据体量大。大数据基本特征就是数据量的发展,数据量的级别更是从PB发展为ZB,这样一来数据的内容更为丰富,可以利用的范围也被有效拓展,推进了企业人力资源管理模式的转变,甚至通过这样的方式来促进行业的进步与发展。其二,多样性。数据的来源与类型并不固定,往往存在多种内容与多样性的特征,除了数字结构化的信息之外,还包括有图片、视频以及图像等等,这些内容在实际的人力资源当中普遍存在,从实际出发来抓住重要信息能够显著改善工作效率,并降低工作总量,减少工作人员的负担。其三,数据价值较高。在人力资源管理活动中,数据的运用效率、数据筛选的成果往往决定了相应的价值。不同部门人员通过内部数据信息来实现资源共享,这样才能够最大限度确保人力资源信息的综合利用效率。

二、大数据时代对人力资源绩效管理的影响

人力资源绩效管理的主要任务就是通过合理科学的人力资源管理方法来确保员工能够在其工作岗位上尽可能发挥作用,以此来促进企业生产效率与效益的提升。随着大数据时代的到来,也给人力资源绩效管理工作带来了许多新的变化。

(一)挖掘员工潜力,提高交互式能力

人力资源绩效管理关键在于提升企业的内部资源配置,从而获取更高的价值。大数据时代的特征决定了数据信息的爆炸式增长,在这样的条件下,企业员工的潜力数据与信息都可以及时的收集到系统当中,采取合理筛选的方式就可以有效提升员工的内部协调能力,从而进一步发挥自身的优势与价值,更为努力地贡献自己的力量。

(二)优化组织机构,构建良好企业文化

随着大数据时代的到来,网络技术的应用为企业实现组织架构的优化起到了积极的效果。从客观上来看,大数据网络技术加速了数据更替,从而实现了内部结构的转化。为了适应这种转化,企业的学习氛围更浓厚,企业员工开始重视培训以及技能提升。

(三)提升人才管理规划水平

人力资源绩效管理的主要任务就是实现人尽其用,所以在发挥这个方面的功能时需要调整好自身的定位,做好人才管理规划工作。大数据时代企业的竞争变得日益严峻,在这样的条件下充分发挥人才的功能与价值也就显得尤其重要了。

(四)构建有效的人才管理模式

高效人才管理模式不但要求合理科学的绩效评价考核与主观判断,更需要提升考核评价的科学性与公平性。作为人力资源绩效管理部门,需要从繁琐的日常事务中解脱出来,更关注绩效改革管理的方案以及企业效益的提升,从而实现人力资源绩效的可持续发展。

三、大数据时代人力资源绩效管理现状

大数据时代开展人力资源绩效管理对于管理人员提出了更高的要求,结合现阶段我国企业人力资源绩效管理的现状,普遍存在以下两个方面的问题。

(一)认知存在偏差

随着大数据时代的到来,目前人力资源绩效管理工作的核心与重点往往集中于人员的行为与结果,在实施考察的时候,某个阶段或者某几个阶段活动中的员工工作状态以及产生的结果往往会对绩效管理产生不同程度的影响,这种影响往往是导致最终考核结果的重要原因。也就是说,即使一个员工在整个周期内有过很多成绩与成果,但是由于存在一个较大的错误,所以最终的考核评价结果往往很差。从这个角度上来看,绩效考核评价的认知存在偏差是导致现阶段人力资源绩效管理工作效果难以提升的重要原因。从理论建设的角度上来看,人力资源绩效管理工作不仅仅是考核本身,还需要关注员工的日常工作状态,采取员工工作以及管理活动来获取大量的员工信息,将员工数据信息进行内部连接后来产生更高的价值,为企业的可持续发展以及核心竞争力的构建所服务。然而,就目前来看,能够做到这一点的人力资源绩效管理人员很少。

(二)管理的智能化水平低

传统意义上的人力资源绩效管理基本依靠绩效以及资源进行管理,在数据信息的考量方面存在许多问题,由于管理机制以及管理思想方面的缺陷,导致企业人才革新以及补充都需要面临许多问题。除此之外,一些企业人力资源绩效考核工作存在明显的形式化特征,这个特征导致其绩效考核都会集中于月末、季度末以及年末,对于平时的管理则并不重视。除此之外,信息收集后往往会进行适当的处理,但是其具有明显的滞后特征,导致信息的时效性下降。参与人力资源绩效管理工作的人员基本也是根据信息数据来对员工进行激励和责罚,工作过程的认识不足,导致评价的内容十分片面、不客观,在不考虑到工作态度与潜力的前提下做出结论,直接导致大量的人才资源得不到有效的利用,甚至导致人才外流。

四、大数据时代提升企业人力资源绩效管理的策略

(一)强化数据的收集与分析

为了体现人力资源绩效管理的优势与价值,并迎合大数据时代的背景要求,就要妥善处理好数据收集与分析的相关工作。一般来说,人力资源绩效管理的数据主要包括人员数据、动态数据以及质量素质等三个方面,企业开展人力资源绩效管理工作则需要通过这三个方面来进行具体的实施。其中,人员的基本数据包括人员的年龄、数量、性别以及工作经验等基础类型的信息,通过这些信息的分析可以协助企业进一步了解企业员工的实际情况,并以此来完成计算机数据库系统的构建工作,在信息发生变化时及时调整,根据员工的基本信息来实现人力资源绩效管理的便捷化与持续化;动态变化数据主要包括人员的流失、内部员工的流动以及相应的招聘完成情况等,这些信息主要体现了企业在行业中的地位以及市场竞争能力等内容。通过良好的招聘完成率,企业可以获取高质量的优秀人才,相反则会导致人才的流失。动态数据的研究具有很强的时效性,研究这些内容可以帮助企业更好的完成数据的分析管理工作;质量素质指数主要涉及到员工出勤情况以及满意度等内容,这些数据往往存在很强的内部联系,通过挖掘这些联系可以更好地提升员工满意度,从而协调内部关系,促进企业的和谐可持续发展。

(二)合理的绩效考核指标

设置科学有效的绩效考核指标也是人力资源绩效管理工作的重点与难点。一般来说,绩效评价考核除了基本的定性指标还需要关注定量指标,通过不同类型的指标结合能够有效提升指标的合理性,包括责任心、协调性以及创新能力等内容指标,而定量指标则主要包括有客户满意度、利润以及回款率等等。无论选择何种考核评价方式,都需要调整合适的指标,这样才能够确保信息收集与统计分析的效果。

(三)加强员工与管理人员间的沟通

在传统企业管理模式当中,企业的管理层与员工往往存在不平等的关系,部分企业管理者和被管理者之间关系不和谐,导致企业的发展受到了严重的阻碍。在新型企业模式当中,企业的管理层要想提升信息的运转效率,更好地完善交流与沟通环节是必要的。员工对于企业的发展有新的想法与思路,此时应该积极的提交上去与领导共同探讨,这样一来企业也有更多的机会发现有潜力的员工,为企业储备人才、用好人才。加强管理层与员工的沟通,还可以实现企业内部和谐,充分调动员工的工作热情与创造力,避免员工出现消极怠工的情况,促进企业文化的建设与发展。

五、大数据时代人力资源绩效管理创新探究

(一)创新绩效考评方法

人力资源绩效管理工作的创新离不开绩效考评方法的创新,考评方法创新主要可以通过如下几个方面的途径:首先,做好基础数据的分析与整合,提升信息的收集质量;其次,做好人力资源变动记录与整合工作;其三,加强人力资源状况的分析,并设立预警机制,及时投入更多的精力与成本进行人力资源绩效管理。

(二)合理设计绩效考评目标

长效绩效考评目标与评价方法对于提升人力资源绩效管理的效率十分关键。通过创新考评方法能够优化过程,常用的考评方法有合成考核、评价中心法等等,在进行这些考评方法的应用时,需要做到绩效考核评价指标的定性定量相结合,同时设置科学规范的考核评价目标,通过销售额、回款率以及利润等定性指标配合定量指标进行综合考评,采用360度考评方法来确保考评的最终成果。

结语

大数据时代下,企业人力资源管理利用数字信息技术,需要将企业内部的各种数据信息化,用数据主导人力资源管理工作。大数据时代的到来意味着企业人力资源管理工作的一次全面革新。在当前时代背景下如何有效的把握大数据应用的机遇,是实现人力资源管理创新的重要途径,也是目前企业人力资源管理领域迫切需要探索的重要问题。大数据信息技术的应用提升了企业人力资源的绩效管理水平,对实现企业的可持续发展具有重要意义。

参考文献:

[1]刘昭.大数据时代企业人力资源绩效管理初探[J].中国管理信息化,2019,(08):70-71

[2]曾旭.大数据时代企业人力资源绩效管理创新途径探究[J].现代营销(信息版),2019(04):169

[3]程丽娜.浅谈大数据时代企业人力资源绩效管理创新[J].纳税,2019(08):264

[4]吴丹郸.基于大数据时代背景下企业人力资源绩效管理探讨[J].商讯,2018(18):56