大数据心得体会十篇

时间:2023-04-05 16:49:16

大数据心得体会

大数据心得体会篇1

随着信息时代的快速发展,大数据逐渐得到各行各业的重视。心理学中有很多研究表明大数据对技术的高效率,如果将其运用到心理学研究领域能带来意想不到的效果和作用。基于此,本文针对大数据时代的心理学研究变革,探讨大数据时代对心理学产生的影响和作用。

[关键词]

大数据;心理学研究;变革

和传统的数据库管理相比,大数据具备搜索快速、信息齐全、共享资源等优点,更是很好地解决了数据冗余的问题。随着时代的发展,大数据在很多行业、学科等领域得到了重视。近年来,大数据在心理学研究领域也有很多的作用和效果,心理学能够通过事物的表象反映出事物的内在特性,当然也需要对表象进行大量的研究分析,大数据在其进行研究分析方面起着不可估量的作用。

1大数据

1.1大数据的特点

大数据相对于传统数据,对社会的发展影响力更大,它的特点可以从四个方面进行阐述。第一,数据十分庞大,已从TB级别进阶到PB级别;第二,数据的类型也是非常丰富和复杂的,在图像、文章、视频和定位等一些方面有非常多的有用信息被提供;第三,它处理的速率特别快,可以通过很多途径在数据中快速提取出有用的信息,这是传统数据无法与其相比的;第四,数据提取的准确性,在任何时候数据分析准确性的高低都是关键,公司能因其准确性的高低做出最佳的决策,在现今时代,快速获取有效性信息是决定成败的重要元素之一。也正是因为大数据具备的功能和作用,它被各行各业广泛采用。

1.2大数据的用途

目前,虽然大数据在心理学研究领域并没有得到广泛的普及,但大数据技术上已经是相当普遍了,大数据在心理学方面的研究是大数据科学性的一种体现,它主要是发现和验证大数据的实际应用。同时,其在天文学、基因组学、生物等其他复杂的科研中应用广泛,是不可忽略的。通过研究者的不断改善和革新,大数据将会给各行各业带来不可估量的作用和效果。1.3大数据于心理学研究利用大数据开展心理实验研究已经是水到渠成。2014年一项针对Facebook大量用户的情绪调查研究表明,情绪对心理的影响,利用大数据把研究结果进行分类。令人惊讶的结果出现了,在主要接受积极情绪的人群中,积极向上是人们主要的想法。在接受了较多的消极情绪后,原本积极的人都会慢慢就变得消极。在以前的心理学研究中收集近70万个样本,将耗费巨大的人力与物力,而大数据技术却能够轻易的做到。

2心理学

2.1心理学的特点

人都是通过刺激下丘脑产生各种情绪,不管是何种表现都是表象,内在的情感需要通过心理学研究进行探究,心理的变化和发展是重点考虑的因素。大多数人都很排斥心理学家,认为他们是能轻易地探究人的内心。然而,在真实的心理学界并不存在人们普遍的这种想法,心理学家必须通过人们的行为举止,推测他们的心理,以逐渐推断出人心里真正的想法。心理学对于保持人们思想的积极性有着很大的促进作用,并有助于人们的身心和身体健康。

2.2心理学的研究逻辑

在心理学研究上首先要提出一个假设:在当下飞速发展的数据采集技术,不管结果是支持哪一种推测,都会使人们展开无限遐想。然后再证明研究结果与预想的大规模用户实验,进行全程跟踪记录并证实,否则意味着预想错误。心理学在进行假设检验时的研究逻辑与其他学科不同,它具有先验性,在得出最终结果前先进行推断。另外,和心理学研究的逻辑有所不同的是,大数据得出结论之前必须要经过严密的数据分析,它的研究逻辑具有后验性。心理学研究的先验性实质上是由于传统研究方法在获取数据上的局限性,而大数据可以帮助心理学突破这一局限,使先验变为后验。这有利于推动心理学研究走向科学化、规范化,同时也符合理论与实践辩证统一的哲学理念。假设检验有一个很明显的缺陷是,要想得到正确的推断,必须逐次验证各项假设,这极大地浪费了人力、物力和时间。而大数据不同,其从各项数据中提炼出来的信息就可以引导出最终要证实的结论,这就是“数据驱动”的妙处,它极大地提高了最终推断的正确性和获取合理结果的可能性,提高了工作效率。

2.3心理学传统的研究方法

大数据不仅可以解决数据冗余资源共享等问题,还让心理学研究逻辑不断得到数据采集的改进和完善,带来了全新的契机。在传统的研究方法中,心理学采用系统抽样法,抽取样本进行检验,再把结果统计在一起进行比对。反复地抽取样本才能体现结果的综合性,才能得出最终的结果。大数据时代的到来,让传统的研究方法得到改进,庞大的数据不再是头疼的问题,它能对数据进行快速对比,得出总体的比对结果,不再仅仅依赖于样本的检验。在心理学研究中,调查法占据重要的地位。问卷调查是最常见的调查法之一,把要调查的问题集中在一起,统一打印出来分发给众人填写,之后集中在一起查看大家对问题的看法。除了此之外,访谈法也是调查法中的一种。它一般是用面对面的交谈,了解各方面的信息,从而达到要调查的目的。除了听,看也能很好地对心理学现象进行阐述。人内心的想法都会有相应的肢体语言,对于一些不能用听获取信息的问题,观察法能很好的从侧面获取所需的信息。想得到比较严谨的研究结果,测验法是一个选择,它能把理论和实践结合起来,这在一定程度上完整了实验结果的准确性和实践性,更能说明研究结果。与之相像的是实验法,在大数据时代,实验法仍然是心理学研究中的“宝法”。实践让它在时代的洪流中仍不逊色,心理学研究的突破不仅要靠病例,也需要大量实验的数据证明,变与不变的量是一次次实践得来的,严格的实验条件是实验法的首要条件。

2.4心理学研究的载体

量表和问卷作为心理学研究中的主要载体,需根据自身的情况,回答问题以让别人获取信息,信息的准确度取决于提供信息的人。这受表达者表达方式的限制,而情景式和投射式的量表,可以很自然地避免这种限制。情景模拟可以直观地反应人在这种情况下的行为,这时的行为是由下丘脑直接控制发出的,具有较高的真实性。投射测量会向被研究对象提供一些刺激情景,被研究者自由表达,分析其反应推断其人格特征。这几种工具载体被积极地应用于研究各种心理学问题,同时还有很多专门针对某种研究的载体工具,不同的载体在针对不同问题时,能发挥其独特的作用。近些年来,随着认知精神科学的兴起,记录神经方面的设备和技术也得到了很好的应用和发展。

3大数据时代的心理学研究

3.1大数据时代的网络运行

大数据时代,网络是人人必不可少的联系媒介。网络浏览也是人们最快获取信息的途径,浏览过的网站会留下浏览的痕迹,浏览的痕迹能间接反映一个人的性格和内心。大量的浏览痕迹也能被快速捕捉,这些微小的痕迹在探究用户的心理素质和行为习惯方面有着相当大的作用。数据冗余不再是提取庞大数据需要担心的问题,人们的工作和生活与大数据越来越息息相关,对于在工作和生活中遇到的问题,也能够进行深入的了解和恰当的解决。现如今,越来越多的人用社交网络进行交流,传统的社交是永远不能达到这样的效果和作用的,所以网络社交从根本上创新了人们的交流方式,而通过人们在社交网络中的浏览痕迹,可以分析人们对彼此的心理,会对某些事做出什么样的回应。为什么会有虚拟世界的存在?什么样的虚拟世界可以构成一个虚拟的社会?网络的存在不是构建虚拟世界的主要因素,它只是一个虚拟基础。主要因素是人们在网络中的行为,只有类似于人类现实社会的生活状态,才能被称之为社会。在现实社会中的一切在虚拟世界中都要得到体现,其所表现出来的状态是个体在现实社会与虚拟社会的一致性,构成了人们对虚拟社会和现实社会的理解,对虚拟社会与现实社会已知悉的研究,探究两者之间的不同和一致,对认识虚拟社会、研究有关心理学理论,都具有非常重要的意义。

3.2剖析心理

研究表明人在接受某项服务或者用过什么产品后,一定会在心里产生一个想法,这可以归纳为人的主观心理感受。用户在使用某种产品上会产生海量的使用记录,大数据方法能筛选出一些类似的记录提供给需求者,快速、有效地使研究者得到数据的有效值,有利于加快研究的进度,同时尽量准确地得知用户的想法,尽最大能力满足用户的心理需求。

3.3避免错误

个体或者群体行为数据的逐渐增多,可以通过大数据进行心理行为分析,这能反映出比较大众的认知和感受,群体情绪的好坏能直接影响处理事情的能力,也有利于把握大事件的走向,避免由于数据调查精确性低导致恶性事件的发生。

3.4在线心理干预

心理干预在心理学研究中对人是很有效果的,但是执行人员的不足让心理干预不能同时进行,需要耗费大量的资源。然而运用大数据技术在网络上进行快速有效地信息获取,能提高流程的速度,这样的在线心理干预能大面积进行,也会提高效率。

3.5在线心理测评

目前,心理学界通用的主要测评手段是主观性较强的、来自用户自身的心理报告,这种方式的推广难度较高,且时效性也会受到限制,迫切需要改进。国内外学界对此已经展开了多项研究,试图运用数据技术,建立心理评估模型,借助超级计算机的力量,专家可以运用模型对广大用户实施实时的动态分析。3.6心理学知识体系的构建在大数据背景下,心理学方面的知识体系也将迎来革新。目前,心理学界的知识体系是在分析了大量现实的个体案例后建立起来的,然而大量研究表明,许多人的性格在网络上与现实中差别较大,大数据为相关人员分析人们在虚拟网络世界的人格提供了便利,有助于其了解在不同环境状态下人所能表现出的人格。

4心理学研究的新动力

在信息时代的今天,心理学的研究离不开大数据采集信息的技术,对于人类行为等的预测,是心理学研究的重要目标。而现今的心理学虽然已经有了很多研究成果,但仍然需要继续在研究的路上不断创新和前进,这对人类未来的发展有着很积极的作用。从某方面来说,行为预测这种外部表现是决策的关键。如果人们在研究结果上不过度加以解释的话,大数据方法将能直接通过群体的行为来进行数据分析,这可以对研究起到较大的帮助。心理学在逐渐发展的途中,需要的不仅是列出一大堆的课题研究,更需要考虑使用高效的方法去进行研究。

5结语

随着科技的发展,大数据成为了体现科学技术的重要产物之一。在心理学领域应适当运用这种技术,尤其对于行为这种外在表现的研究分析。目前,在大数据时代的心理学研究方面,很多研究都能依靠大数据取得较为有效的帮助,尤其是在效率和信息价值方面。同时,心理学与其他学科在很多方面也有密切的联系,适当在研究上提取出对其有用的信息也是必要的。对于研究的目标,相关人员需要充分运用高科技技术和设备,将心理学研究与大数据相联系,给传统的心理学研究提供一个新的发展方向,让心理学研究不断得到提升和完善。

主要参考文献

[1]朱廷劭,汪静莹,赵楠,等.论大数据时代的心理学研究变革[J].新疆师范大学学报:哲学社会科学版,2015(4).

[2]喻丰,彭凯平,郑先隽.大数据背景下的心理学:中国心理学的学科体系重构及特征[J].科学通报,2015(1).

大数据心得体会篇2

在这样的大背景下,《计算机世界》和《服务器与存储》共同举办的第二届绿色数据中心大会暨春季巡展在2008年4月分别在北京、上海、成都三地举行。《计算机世界》从去年7月就发起了“中国绿色IT行动”,并举办了第一届绿色数据中心大会,今年的春季巡展为第二届绿色数据中心大会的系列活动拉开了帷幕。

2008年春天最热门的话题是什么?肯定就是粮食危机。

专家指出,气候变化是推动国际粮价上涨的重要因素。全球气候变暖引发了各种自然灾害,导致多个国家粮食产量下降。此消彼长,2007年,全球生产的晶体管数量超过了大米的产量。此外,目前全球2%的二氧化碳排放来自PC、服务器和数据中心等设备。

据美国环境能源部门2007年的统计,数据中心占美国整体耗电量的1%,未来几年,数据中心供电和散热成本将超过整体成本的三分之一,占到企业IT成本的第二位。另外,据《计算机世界》对国内100家企业CIO的调查,62%的企业受到了数据中心日益严峻的散热问题困扰。

业内人士表示,在数据中心通常只有30%的能耗是真正消耗在了IT设备的负载上,将近33%的能耗用在了制冷方面。这就意味着,在IT设备上每耗费1瓦的电力,就需要耗费超过1瓦的电力来散热。据计算,每消耗一度电,相当于消耗了350克燃煤,并产生将近900克左右的二氧化碳。而目前,全球数据中心的数量超过了150万个,因此数据中心对于加剧温室气体排放的作用不容小觑。

更何况,全球数据中心还呈现出规模和数量不断扩张的趋势。有数据表明,随着数据集中在电子政务、企业信息化等领域的展开,以及基于Web的应用不断普及深入,新一代企业级数据中心建设将成为信息化中的新热点。因此,越来越多的用户和软硬件解决方案提供商将打造绿色数据中心明确作为今后的核心发展方向之一。

虚拟化担纲“绿化”

虚拟化已经成为了建设绿色数据中心的最重要手段。服务器要虚拟化,存储系统要虚拟化,客户机也要虚拟化,数据中心中的一切设备似乎都在走虚拟化之路。

英特尔公司中国区市场部服务器市场经理杨光认为,利用虚拟化技术可以很好地实现节能降耗。据了解,虚拟化可以把服务器的平均利用率从15%~20%提高到80%~90%,也就是说,可以用更少的服务器来完成更多的工作,而耗电量不会增加。

杨光介绍说:“英特尔公司自己在全球范围内都采用了虚拟化技术。2006年,据我们统计,因为采用了数据中心的虚拟化技术,在服务器硬件成本上节省了1.18亿美元,而在相应的管理成本上也节省了8200万美元。”

事实上,英特尔在自己的产品上也在不断地支持虚拟化,而且很多x86虚拟化软件公司背后也都有英特尔的投资,包括位列x86虚拟化软件头把交椅的VMware。正是因为这种独特的紧密合作关系,英特尔得以把很多虚拟软件的底层功能不断地融入到自己的处理器设计中。

VMware高级技术顾问常裕斌也认为,通过虚拟化技术对服务器进行整合并提升服务器的使用率,这在降低数据中心耗电的同时,还可以让用户充分地利用昂贵的数据中心空间,尽量减少数据中心的扩张,并提升数据中心的服务级别、改善响应时间和可用性。

“在过去的数据中心里,往往一个应用就需要一台服务器。而现在,通过虚拟化就可以虚拟出多个硬件,物理上的真实服务器的数量会大大减少,自然散热等都会大大减少。其次,服务器整合不但可以实现机架的减少,同时也可以带来管理上的便利,从而实现绿色数据中心。”常裕斌说,“比如一些银行,每个终端都配有PC,就可以把这些PC都整合在虚拟化架构中,进行一个集中的计算。而在数据中心里就是一台小的虚拟机,终端使用者通过一个客户端或者类似的终端直接访问虚拟机。这样,数据就集中在数据中心里进行维护,管理起来也更加方便。”

思杰系统公司大中华区技术总监侯季涛表示,用户并不关心数据中心中添置了什么样的设备,进行了怎样的优化;他们只是关心自己的业务和应用是否在数据中心得到了顺畅的运行。网络化彻底改变了IT的传统架构,一切应用皆以网络为基础,数据中心成为了承载各种应用的基础和核心,这就需要将数据中心承载的应用平滑地交付到最终使用者手中。“通过虚拟化,所有指定的应用全部集中在了数据中心,不但可以简化安装、管理和支持,而且到达终端的应用和数据从一开始就被集中管理,终端硬件也被大大简化。同时,还可以为用户提供一种安全、节能和随需而动的集中式终端交付。”侯季涛说。

绿色服务器铸就基石

在各种数据中心中,服务器的部署数量和功耗都名列前茅。除了通过虚拟化等手段改善服务器的利用率外,降低服务器本身的功耗和发热量也变得至关重要,可以说,其是解决数据中心能耗最直接的手段之一。

最简单的节能办法或许就是关闭数据中心中一些服务器的电源,但是对于那些需要7×24小时不停运转的业务来说,显然这种办法是不现实的。杨光认为,构建一个绿色数据中心,提高能效至关重要;另外,要对数据中心长期的需求进行预测,借助新型模块化的设计理念去整合现有的数据中心。

据介绍,自2007年11月开始,英特尔提供了基于全新45nm工艺的XEON服务器处理器,新处理器采用了英特尔最新的基于铪的高-K金属栅极技术,进一步地提升了系统性能并大幅降低了能耗,从而提高了性能功耗比,使得服务器功耗也得以大幅降低。

作为英特尔的紧密合作伙伴,宝德科技为数据中心市场定制了高效节能的服务器产品。宝德科技常务副总裁马竹茂指出,由于定制服务器可以很好地满足特定的应用性能需求,因此可以减少服务器部署的数量,进而降低数据中心的功耗并节省空间。

针对高密度的互联网接入应用,宝德定制了“双子星”服务器,也就是在1U服务器的机箱空间内部署两台服务器,这在部署密度上达到甚至超过了刀片产品。此外,针对互联网应用后台系统数据量极其庞大的特点,宝德还定制了“小巨人”服务器,在3U空间内最多可以支持16块内置硬盘,存储容量达16TB。

绿色存储花开数据中心

在数据中心的IT硬件中,除了CPU和内存外,硬盘可能就是个头最小的产品了。但是,我们却无法忽视它,因为在数据中心中通常会配置上万块的硬盘,有些甚至超过了十万块。

据StorageIO Group的数据,目前存储设备占到了数据中心全部能耗的37%~40%。在某些存储系统中,硬盘会消耗超过60%的功耗。特别是对于那些配置了数万块硬盘的大型数据中心而言,采用具有节能效应的硬盘可以让IT设备节省数兆瓦的功耗。

事实上,对于硬盘来说,往往性能越高所消耗的能量就越大。如果能找到二者完美的统一,对于整个数据中心而言可谓一大幸事。

希捷科技北亚区技术行销经理朱秋男表示,据希捷的研究发现,在某些企业的关键数据中心里,追求效益已经超过了追求容量,成为了用户首要关心的问题。“提高效益又要兼顾效能,该如何很好地结合呢?硬盘小型化是一种必然趋势,因为这样可以在每一个机架里存储更多的硬盘。”朱秋男说。

据介绍,目前希捷科技研发出的小尺寸(SFF)硬盘功耗比以往减少20%~40%。对于用户而言,可以自己按照需求对数据进行分级处理,既可以采用SFF硬盘提高热点数据性能,也可以采用具有高容量的传统3.5英寸(LFF)硬盘,为不常使用的数据增加存储空间。

同样是硬盘生产商,WD公司则把目光集中到了硬盘供电和磁盘读写方面的能耗解决上。WD中国区资深销售经理王啸虎表示说:“我们通过Intellipowe、IntelliPark、IntelliSeek三项核心技术,分别对硬盘耗电、磁头读写和数据寻找进行了智能管理,从而实现了节能的效果。根据我们的测算,1TB容量的WD greenpower硬盘的启动电流只有1安培左右,磁盘读写时的功耗可以比以往降低55%左右。”

尽管WD进入以数据中心为代表的企业级市场的时间并不长,但WD亚太区行业部市场总监罗昌平对于把绿色硬盘的经验从台式机和笔记本电脑市场复制到企业级市场充满信心,毕竟WD拥有很强的技术实力和市场开拓经验。

可以说,硬盘是绿色存储的硬件基础,而一体化信息管理则是实现绿色存储的软件手段。通过一体化信息解决方案,从海量的数据中消除各种重复、无用的数据,减少多余的设备,从而可以减少管理人员的数量,实现集中管理和智能监控。Commvault资深系统工程师林晓明认为,一体化管理一方面可以更安全地存储信息,另一方面还可以更安全地访问信息。“绿色数据中心管理的是什么?就是数据。如果不能有效地管理这些数据,绿色也就无从谈起。”林晓明说。

据林晓明介绍,所谓一体化信息解决方案,从数据管理的本质上来看,就是把在线的数据从在线的服务器或在线的存储中拿出来放到另一个地方,这个地方可以看成是一个虚拟化的存储池。而如何将数据转移到这个虚拟存储池中有很多办法,像备份、归档、复制、快照或者CDP等。利用这些传统方法实现的时候,每一种方法都需要一个软件装在系统里,或者在系统里有若干软件。而Commvault提出的一体化信息管理就是用一个平台把这些软件综合在一起,同时将数据管理好。

有效运维降低能耗

数据中心中软硬件产品的成本只是整个IT生命周期成本中比较小的一部分,更多的成本其实是发生在流程中的每一个步骤,也就是非产品的部分。因此,有业内专家认为,如果数据中心能从运维上进行节约,不管是耗电还是材料,甚至可以产生大于对固定资产投资进行管控和节约所带来的绿色效益。

Avocent中国区技术部经理季晓文表示,作为用户都期望建设一个有效、合理的绿色数据中心。因此,在建设时往往会考虑两方面的内容:一方面是利用效率更高的配电设施和制冷设备,甚至是充分利于环境因素来降低辅助设施的能耗,例如在寒冷地区建立数据中心;另一方面就是提高服务器单位耗能的计算量。季晓文认为,后者是建设绿色数据中心或者是在规划一个数据中心时必须要考虑的前提。

但是,季晓文也表示,在数据中心的实际运维中,对于实际单位能耗的计算量往往很难准确把握。“现在,在大多数的数据中心,电源能耗的费用计算并不是由数据中心管理者直接掌握的,而是由一些业务部门管理,这就造成了数据中心的不可管理性。而且,往往在新建一个数据中心时,用户并不能抛弃掉所有以前的IT基础设施,这就造成了一个很混杂的环境,包括一些陈旧的服务器,以及已经在上面运行的应用。”季晓文介绍说。

因此,对于数据中心管理者来说,需要一个统一的管理平台来掌握数据中心中各种相关基础设施。不管是对于新引入的虚拟服务器或是刀片服务器,还是以前运行的旧设备,管理者都可以清晰地了解它们的状态。在这样的运维平台上,不仅可以控制和操作管理对象,同时还可以知道管理对象带来的能耗在哪里,这样使得管理者可以更好地把“绿色”贯彻下去。

此外,其实管理对象或是运维环境不仅仅是纯粹的IT设备,还包括整个机房的温度、湿度等物理数据,如果可以把这些数据汇聚到一个平台上,对于数据中心管理而言也是非常有价值的。

当然,绿色数据中心不应该只是一个简单的绿色IT产品或是概念的叠加,西门子IT解决方案和服务集团副总经理刘辉表示,从数据中心建设开始就需要绿色的设计理念。西门子在望京新建的第三代数据中心已经实现了国内水平较高的“绿色”标准,从最初的建筑设计,到运维中的供电、配电和监控,还有机房的制冷和散热设计、冷光源照明等多方面都采取了综合的设计和管理方式,从而保证了数据中心的“绿色”。

链接

整体机房也须“绿色”

在整体机房的建设方面也是如此。APC解决方案工程师顾智卿认为,建设绿色整体机房的重点有五个方面,即部署高效率的UPS、使用高压交流配电、应用In-row制冷架构、可升级的电源及制冷设备、电源及制冷容量规划管理软件。

在实际应用中,许多数据中心UPS的运行负载率一般也就在20%左右,低负载造成UPS在电源转换环节损耗很大。而APC-MGE大力推广的模块化UPS提倡的是“按需配置UPS容量”,通过提升UPS系统的负载率达到提高电源转换效率的目的。

针对制冷和散热的问题,APC-MGE提出了以“精密制冷”为核心的、专门针对机柜制冷的解决方案。In-row制冷单元可以放在服务器机柜旁边,让冷热空气直接在机柜和空调之间以最短的路径循环,与房间级制冷相比,In-row制冷对冷气的利用率达到了70%。结合采取“面对面、背靠背”的机柜排列方式,形成冷热通道,减少了冷热空气混合,是降低机柜散热能耗问题的绿色解决之道。

记者手记

“绿色”从身体力行开始

2007年,有一部热门的好莱坞电影《虎胆龙威4》,让记者很感兴趣的是:一方面年近60岁的布鲁斯•威利斯并未显出老迈,雄风依旧;另一方面就是片中所描述的黑客、网络等热门话题。特别是根据数据中心能耗巨大的特点,通过寻找电力中心,从而轻而易举地找到了美国国家数据中心。

现在社会各种信息量的爆炸式增长,使得数据中心的负载只会有增无减。据了解,谷歌在全球有三十九个数据中心,新建数据中心全部选择在电力便宜的地区; 腾讯在未来几年数据中心也会急剧膨胀,服务器数量将从现有的2万台增加到10万台;九城公司为了应对《魔兽世界》用户的不断增加,购买的服务器也是动辄数以千计……

到底该从哪里下手解决由于数据中心规模和数据量增加而带来的能耗问题呢?从硬件吗?软件吗?还是机房呢?还是多管齐下,软硬结合、从里到外来建设绿色数据中心?

前不久,记者到一家大型企业的信息中心机房去参观,这个企业下属50多个分支机构,所有的数据实现了大集中,本想看看他们的数据中心的“绿色”程度有几分,但是正值机房扩容装修,未能如愿。

大数据心得体会篇3

关键词 大数据时代;传统媒体;媒体转型;数据新闻

中图分类号G206.2 文献标识码A 文章编号 1674-6708(2013)110-0008-02

大数据时代,传统报业转型势在必行,关键问题是转向何方以及如何转,新媒体无疑是大方向。从国内的发展情况来看,近年来传统媒体纷纷开展媒体融合、搭建图文+音频+视频等多种传播平台、采用多维度、全方位的数据新闻的报道模式,借助互联网技术逐步走向新媒体和媒体融合。然而,庞大的资金投入、资源的缺陷以及能力的局限,使得大数据时代下任何一家传统媒体都不可能做到面面俱到。因此,数据化和对数据的重视、处理,决定传统报业转型升级的方向和高度。

1大数据时代传统报业转型的机遇

环顾当今的世界,大数据已然成为一个国家最核心的社会资源和竞争力,获取和运用大数据的必要性对国家硬实力和软实力的水平都提出了很高的要求。与西方发达国家相比,中国的政府部门在社会中的地位要强得多,可作为的范围要广得多,尤其是拥有公共数据资源的数量更要大得多,但是其对外开放的程度却很低。因此,只要政府下定决心放开对数据的垄断与监控,实施开放式的数据战略,取得的综合经济效益和社会效益将更加显著。而对于媒体来说,在这个由开放的公共数据和自身拥有的数据资源相互融合所形成的新的产业链中,它们将占据重要的地位。

法国数字集团总经理Frédéric Filloux认为,其他行业得到有效利用的大数据同样适用于数字媒体产业,现实中传统媒体的忽视与不作为导致大量读者群自身形成的大数据价值还没有被挖掘出来。因此,使用行为数据可以增强新闻服务对读者的吸引力,从而带给媒体运营者更大的利益。

在十几年的信息化和数字化的变革中,无论是从报纸电子化到办公自动化还是从多媒体到媒体整合,传统媒体也在不断积累其自身拥有的媒体资产,包括海量的图片、文字、音视频资料,以及历史数据库、待编稿件库、图片数据库、社交网络、其他通讯社稿件等多种形式的数据资料。同时,开放的互联网全媒体平台所聚集的各种用户群体的社交信息,也为传统媒体提供庞大的数据背景。这些海量的数据可以说是传统媒体在大数据时代的主要优势之一。

在数据技术方面,数据挖掘技术和云计算能以较低的成本进行信息的收集和处理。例如,云计算的开发和广泛使用使普通中小企业使用大数据的门槛大大降低,同时也使得以前因高昂的收集和处理成本而放弃大量有价值的数据及信息的局面焕然一新。尤其是对于传统媒体来说,由于多媒体采编技术的使用,以及高分辨率和清晰度的音频、视频格式的更新,在大数据相应技术的支持下,记者、编辑等新闻工作者在单次采访或新闻节目中获取和处理的信息量大大增加,在新闻生产的流程中,几乎所有的新数据和老数据都有可能派上用场,并发挥价值。

在信息本身的数量与质量方面,传统媒体在新闻生产与传播的过程中产生的信息越来越多,拥有的非结构化的数据也越来越多。而一旦掌握与大数据相关的处理工具和技术,传统媒体就能够对大量非结构化的数据进行深加工和重新组合,在增强新闻价值和社会价值的同时,做好信息集成服务工作,满足社会各个阶层和各种群体、对信息的需要。

在新闻传播效果上,媒体通过大数据的分析方式,对受众的需求和行为习惯等相关信息进行,可以改变刻板印象的形成,促进新闻报道框架结构更合理的运用;同时也有利于更清晰地理解议程设置与受众个体心理和行为特征的关系,这些都无疑对媒体提升传播效果和传播价值的目标大有裨益。

2大数据时代传统报业转型的挑战

2.1针对数据本身面临的挑战

虽然,大数据的特征之一是海量数据,但这并不代表大数据就等同于海量的数据。大数据包含信息又不局限于信息,而是社会个人和社会群体在进行各种活动时所产生的巨量数据群。因此,对于媒体,尤其是传统媒体而言,对数据的分析挖掘应用实属不易。媒体在信息时代想要提高竞争力,势必面临着这样几个难以逃避的问题:能不能成功构建大数据平台,能不能顺利采集和分析大数据,能不能有创意地对大数据进行有价值的挖掘应用。

大数据时代传统媒体所面临的挑战中,一个主要的部分就是缺乏数据加工能力。在大数据时代,由于数据处理技术和服务器集群在数据处理过程中扮演着重要的作用,导致数据的所有权与使用权将日益集中于提供硬件与软件服务的供应商手中,这也使得技术对媒体发展的制约显得愈加明显。

此外,包括舆情分析、情感分析、受众偏好等与社会学、传播学有关的大数据问题,我国理论界才刚刚开始研究。目前社会中用于新闻实践的大数据研究工具还不成熟,探索分析媒体运营的环境并不良好,大量的壁垒与隔阂仍然存在于跨领域跨行业的数据共享与整合中。然而只有跨领域、跨学科、全面综合的数据分析才有可能引发真正的知识和理论的形成,进而创造价值,这正是当今大数据时代中国传统媒体所缺乏的。

2.2针对新闻工作者面临的挑战

有理由相信,大数据时代的产生与发展不会使新闻工作者的职业消失,但新闻工作者的知识储备和综合素质需要进行相应的换代升级。从这个意义上讲,新闻工作者在大数据时代面临的转型挑战主要体现在3个方面:

1)如何从海量数据中挖掘新闻。传统媒体要依靠高素质的人才和专业队伍,充分分析利用大数据资源,善于从尚未引起人们注意的冰山一角挖掘出隐藏的新闻价值,从海量信息中寻找、加工、整合新闻信息,担当好“把关人”“数据分析者”的角色;

2)如何将数据可视化。如何解决数字抽象枯燥不易理解的难题,用数据讲故事,要求新闻工作者不仅要善于从数据中挖掘新闻,还要善于用数据讲故事,运用文本解释数据集、静态或交互式的可视化数据、视频作品等文本信息,以全息化的视觉呈现方式传递信息;

3)如何保证数据的真实性和准确性。这要求传统媒体的新闻工作者在拥有“新闻鼻”、“新闻眼”的同时,更要有敏锐的数字感知能力,能够洞悉并验证具有新闻价值和社会价值的大数据来源是否可靠、数据获取程序是否科学、数据是否具有典型性和可比性、以及数据能否可视化等。新闻工作者要熟练地掌握各种数据技术的使用方法,准确地处理各种数据资料,提高数据的可信度和价值。

3 以大数据为支点,推动传统媒体全面转型

3.1树立以大数据推动传统媒体转型升级的理念

在互联网时代技术革命的冲击下,对于传统媒体来说,以大数据的视野和观念主动融入这个时代,顺应潮流,建立起有特色的新理念和新平台,将是其走向现代传媒的新起点。

回顾过去20年,互联网技术逐步改变了传播业生态格局,对传统媒体形成强烈的冲击。而传统媒体面对新技术包括大数据还存在一下误区:一是漠不关心,错失良机;二是略有耳闻,但没有付诸行动,直至地盘被蚕食;三是有认识但又比较盲目,缺乏脚踏实地的实施步骤。传统媒体需要理性面对大数据带来的影响,承认差距并梳理不上落下的功课,同时避免盲目,结合自身优势和特色,做好顶层设计和路径比较,将大数据提升到战略高度,视为其生存发展的基点。

3.2建立与数据化运作相匹配的管理制度,提升对数据的分析和展示能力

哈佛商业评论认为,大数据本质上是“一场管理革命”。要真正发挥大数据向传统媒体转型的引爆和支撑作用,必须改变管理理念和模式,建立一系列与之适配的管理体制、机制。

首先是组织架构。传统媒体要改变技术与采编、经营、管理相对分离的架构,建立符合互联网逻辑的产品经理负责制和项目负责制,建立专门的机构和系列规章制度,引导全员围绕大数据行事。

其次是让技术基因渗透到整个生产过程。传统媒体一直以内容基因为发展要素,技术部门更多承担辅助角色,这也造成了管理层对最前沿的技术缺乏了解,管理成本居高不下。大数据时代,流程中的技术基因决定了流程运转的合理性和成本。

再次,传统媒体要通过内部培训、多岗位锻炼等途径来挖掘人才,培养同时兼备数据分析和数据处理技术的人才。

最后,要引导和强化采编、经营者和技术开发者、设计者的合作。大数据时代,整体作战、团队配合显得尤为重要。

3.3呼吁全社会共同丰富和开放数据

借助于互联网、云计算和新媒体,今天的时代已是一个大数据产生并逐步公开于社会的时代,丰富的数据背景是所有大数据产业存在和发展的前提。我国拥有的数字化的数据资源远远低于欧美,国内公共部门和制造业的大数据资源积累尚处于起步阶段,在公共信息资源披露和共享方面,很多政府官员有各种顾虑,有的甚至把数据视为部门财产而拒绝向公众公开。即使就已有有限的数据资源来说,还存在标准化、准确化、完整性低,有很多“信息孤岛”、利用价值不高的情况,这大大降低了数据的价值。传统媒体拥有一定的社会话语权,应该在这方面带头呼吁全社会来共同建立一个良性发展的数据共享生态系统,以包容的心态开放数据、拥抱数据创新。

参考文献

[1]章戈浩.作为开放新闻的数据新闻――英国《卫报》的数据新闻实践.新闻记者,2013(6).

[2]吴文平.以大数据为支点,推动传统报业转型的思考.新闻实践,2013(10).

[3]辜晓进.颠覆报纸出版流程全面体现“数字优先”――《金融时报》近期的变化具有革命性意义.新闻实践,2013(10).

[4]汤景泰.大数据时代的传媒转型:观念与策略.新闻与写作,2013(9).

[5]官建文,刘扬,刘振兴.大数据时代对传媒业意味着什么?.新闻战线,2013(2).

[6]黄春平,余宗蔚.媒介融合背景下我国数字内容的监管难题与解决路径.深圳大学学报:人文社会科学版,2010(2).

[7]文卫华,李冰.大数据时代的数据新闻报道――以英国“卫报”为例.现代传播,2013(5).

[8]彭兰.社会化媒体、移动终端、大数据:影响新闻生产的新技术因素.新闻界,2012(8).

[9]徐艳.大数据时代传统媒体发展的SWOT分析.青年记者,2013(7).

[10]麦肯锡全球研究所.大数据:下一个创新、竞争和生产率的前沿,2011,5.

大数据心得体会篇4

2015年9月5日,《国务院关于印发促进大数据发展行动纲要的通知》正式,在全社会引起广泛影响。在此前后,社会上的大数据浪潮汹涌澎湃,推动和裹挟着每一个行业、部门和企业。一些单位和部门急于“抢占大数据制高点”,纷纷出台了一系列政策、措施、机构和项目;气象部门也未能例外,以气象大数据为名上项目、搞工程的苗头已经出现。如何认识大数据,大数据是否适用于气象部门,以及适用于哪些领域,是气象部门决策机构需要思考、分析和综合归纳的问题,因为这些问题的厘清有助于尽可能避免工作中的盲目性并减少失误。

(一) 大数据时代的背景

所谓“大数据时代”的到来,是水到渠成的必然结果,归纳起来有以下几个方面:

1. 数据源泛在化

移动智能设备、可穿戴设备、互联网应用等设备和系统应用的普及,使得数据的采集不再停留在专业部门的业务系统范畴:手机、身份证、交通卡、银行卡、门禁卡、网上查询、网上聊天、网购、网游、GPS定位、视频监控、ETC等一切智能设备都是数据设备,只要人迹所至,就有数据产生。较之上世纪,数据源已极大地泛在化了。

2. 网络广泛连接

在数据源极大泛在化的同时,互联网、移动互联网及物联网将所有数据源连接在一起,人类历史上首次实现了人与人、人与物、物与物之间广泛的连接和自由交换数据。从而将单台设备的数据能力升级到全球网的层次上,极大地提升了系统的智能潜力。梅特卡夫定律指出:“网络的价值与参与者的平方成正比”,网络的广泛连接极大增加了互联网的应用价值,其中包括全社会数据利用能力的增加,以及提高生产力机会的增加。

3. 软件的普及和智能化

软件是人类知识和智慧的外在形态和应用载体,软件将硬件设备、网络资源、传感器、控制器与数据组织成为能够实现目标的智能系统,软件是智能系统的灵魂,也是大数据应用的核心。数据只有在被处理和应用之时,方才成其为资源,否则只能是垃圾;所拥有数据是废是宝,最终由软件的能力决定。

4. 生态环境的形成

“四个无处不在”以及数据源的泛在化,体现了包括传感器、智能终端、高速网络、移动互联网、云平台、大数据处理技术、地理系统技术等多种信息技术共生的新生态环境,所有这一切构成了大数据生长的肥沃土壤。这些基础技术的出现和普及应用为新技术、新应用的集成创新提供了良好的机会。大数据时代是数据大爆发的时代,也是智能系统大爆发的时代。

5. 互联网巨头的推动

互联网将所有数据源连接在一起,网上业务量的激增导致互联网企业的业务数据呈指数倍激增,使得那些成功的互联网企业在迅速成为互联网巨头(如:谷歌、亚马逊、百度、阿里、腾讯等)的同时,其原有的数据存储系统也被一一撑爆,以至于这些互联网巨头们始终在马不停蹄地疯狂扩充自身的存储和处理能力。面对这些每天都在剜心割肉地消耗着不菲的维护资金的庞大业务数据,如何将其进一步变现,以变废为宝、变闲为宝,发掘这些业务数据在业务应用之外的新的价值,便成为这些互联网巨头们迫切需要解决的新课题――此即为何大数据概念的出现以及大数据技术的发展均来自互联网巨头及业务的推动的主要原因。抛开商业目的,互联网巨头们对大数据技术及应用的推动,客观上改变了人们从数据中获取信息的理念,促成了大数据应用理念的革命。

(二) 观察大数据的视角

大数据时代是信息技术发展的必然结果,它的到来不可抗拒。现象的出现和应用的需要,必然导致理论的产生。而大数据理论的主要基础,是考察该事物的视角。

1. 提取和应用信息的视角(关注于数据处理理念和方法的改变)

从数据本身的角度出发考察大数据,是大数据浪潮发端时最初的公认视角。其最具代表性的理念更新当属《大数据时代》一书的作者迈尔.舍恩伯格,该作者将大数据理念的精髓概括为三点:不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。作者在书中雄辩滔滔地论述此三味真火的背后,有其内心深处对世界本质的认识做支撑。但无论如何,作者对大数据应用归纳的新理念,对于利用大数据资源获取信息的应用提供了一种新思路,其新颖的大数据思维也为科技探索提供了一种新的模式。

《大数据时代》作者在书中关注的是如何从大数据中挖掘出更加准确和丰富的信息,以便指导和改进人们的工作、提高决策水平等等,其视角是大数据的信息提取和应用。气象部门的大数据应用既属此范围,即:从数据中提取信息供决策使用。

2. 信息和内容价值的视角(关注连接范围的是否全面)

大数据产生信息的价值并不取决于其所产自的数据集的规模大小,而在于该数据集内容的丰富与否。用一架高分辨率摄像机对准一面空白墙面连续拍摄数周,也能产生PB级的数据,但其应用价值却极低,原因很简单:虽然其体量甚大,但其中所含信息内容却极度贫乏。无人驾驶汽车的研制之所以难度甚高,除需要处理的周边环境的信息量巨大外,还在于无法全部获取周围其它行驶车辆驾驶人员当前及将要采取措施的信息。

此外,大数据的应用价值除了其内容的是否丰富以外,还取决于对本应用是否适用。阿里电商大数据可以用来分析宏观经济形势,却无法用来分析火星地表是否存在液态水,因为这些大数据内容虽然丰富,但却不包含任何有关火星方面的信息内容。

因此,一个应用广泛的大数据,一定是一个内容十分丰富――换句话说,就是连接面十分广泛、全面――的数据集,与体量没有必然关系。就价值而言,连接比规模更重要。

3. 行政决策和国家治理的视角(关注社会治理能力的提升)

国家宏观经济形势、百姓的消费热点、民众对某一重大事件的反应、流行疾病的爆发预警乃至反恐维稳的目标锁定等等,这些涉及政府行政决策的信息,以及这些信息的全面、准确和及时,都是政府在国家治理层面迫切需要的。虽然这些信息大多也有一定的正规获取渠道(甚至设有专业部门负责),但种种原因导致了这些渠道所采集和汇集的信息往往或不精细、或不准确、或不完整、或不及时,使得国家行政决策因之而难以达到预期效果。改造完善这些渠道需要耗费大量成本和时间,于是在现有的、沉睡在各部门和企业系统中的业务数据中提取相关信息,以弥补现有信息渠道的各种不足,便成为信息获取的新途径和新思路。从目前业界所热传的所有大数据应用成功案例看,绝大部分属于人文社会领域,从一个侧面印证了大数据对于改善国家宏观治理的重要意义。有效开发互联网大数据应用,可以显著提升政府的国家治理能力和决策的科学性,这是许多国家政府和智库的共识。因此,不少发达国家纷纷制订本国的国家大数据战略,我国也不例外。

4. 简单的事实:所有大数据应用成果都是业务数据的副产品

分析目前已有的大数据应用成功案例,可以发现一个事实:所有大数据应用的数据源,都来自于非专属于本应用目标的业务数据。换言之,所有大数据应用的数据来源,都不是专为本应用而特设的:啤酒和婴儿尿布的关联关系产自于对沃尔玛超市结算柜台的货品销售日志分析;阿里巴巴对2008年全球宏观经济形势的准确预测来源于对淘宝网采购单数量、规模和内容的变化、以及变化的地理分布特征分析;美国国家安全部门对的锁定,相当部分来自于对互联网巨头所掌握的电邮的内容分析,等等。原因很简单,由于成本或难度太高,人们不可能为了某项大数据应用而专门去采集原始数据。大数据应用大多只能使用那些已经存在的、非为本应用所特设的业务系统所积累的数据资源,且收集和维护这些数据的成本是由这些业务系统所属单位承担的。因此,大数据应用是业务数据的副产品。

盖缘于此,大数据应用的数据源(即:合适的业务数据)的寻找,本身就是一个难题。

(三) 大数据的辨识

1. 从应用的视角观察大数据

数据是服务于应用的,大数据也不例外。

当一个新的应用出现,现有业务数据无法满足其数据需求时,必须寻找新的数据源。在寻找过程中,如果自行采集数据能够满足需求,且成本能够接受,则采取该方式是最好的选择,因为采集的过程和方法受需求者控制,所采集的数据最接近需求(如:十一五、十二五气象部门建设的全国天气雷达站网及遍布全国所有乡镇的地面自动气象站等)。而当自行采集的成本过于昂贵、以致无法承受时,选用替代数据便是将工作继续进行下去的唯一选择了。以往信息相对贫乏的年代,可供选择的合适的替代数据不多,许多工作因之而无法开展。互联网时代信息量暴增,替代数据的选择范围有了很大改善,使得许多过去无法开展的工作,现在有可能开展起来了。然而,由于这些替代数据自身不是因本需求而产生的,故不可避免地存在诸如:体量虽大但针对本需求所需的信息稀薄,信息质量不高、故难以得到确切结论,许多现象和结论难以解释等痼疾。于是,“是全体数据而不是样本数据、是模糊结论而不是精确结论、是相关关系而不是因果关系”的大数据的理念和方法由此产生。

从应用的角度评价大数据,可以得出以下结论:

虽然就数据血统而言,大数据在实际应用中往往不属于专为本应用采集的血统纯正的数据,但它的存在和被使用却是使得众多创新应用得以实现。因此大数据是资源。

当今新的时代已经进入信息经济和知识经济的新时代,这是一个以信息和知识为基础的经济,是一个在更大程度上依赖于在生产、分配和使用等各个环节中知识和信息所作贡献的新的经济。因此大数据是新的生产力要素。

2. 大数据的可能与不能

大数据可能提供有价值的参考信息,包括:

大数据可能为政府的科学决策提供有价值的参考信息。

大数据可能对企业的业务改进提供数据支持和信息支持。

大数据可能为一些社会科学领域的学科研究提供有价值的信息。

大数据甚至有可能对自然科学研究中的一些新的科学机理的发现提供参考信息。

与此同时,不能指望单靠大数据就能全面提高政府决策水平。因为决策依赖于多方面信息的综合,大数据只是提供信息的途径之一,仅靠它是无法解决政府决策的诸多问题的。高层决策主要面对的是诸多不确定性环境,需要广阔的视野与丰富的经验。深厚的历史背景、细微的地缘差异、复杂的宗教派系之争以及民族间的矛盾等等,这些因素交织在一起,关系复杂而头绪繁多,远非数据统计分析那样简单。大数据能够为行政决策提供一项或多项较为准确的参考信息,改善影响决策的信息的质量,但信息的综合和最终的决策必须依靠人。

其次,大数据不可能直接解决科学机理问题。从大数据“模糊而非精确”、“只求相关而非探究因果”的理念可以看出,大数据只关注于现象之间的关联性,但不探究这些关联背后的因果关系,但求知其然,而不愿(甚至不屑)探究其所以然。之所以如此,是与大数据的理论构建者所固有的对世界的认知:“混乱构成了世界的本质,也构成了人脑的本质”的哲学观所决定的。本文无意探讨哲学问题,但由此可以推断:就认识论而言,大数据属于经验主义范畴,它无法直接解决科学问题,尤其是以科学机理(即所谓因果关系)为核心的气象预报科学问题。在气象理论研究领域,大数据可能的贡献在于提供参考信息(如:具有一定关联度的气象要素组合等),以供气象科学家们分析研究。

二、气象大数据辨析

(一) 气象大数据的内涵

就数据本身而言,气象大数据是指所有与气象工作相关的数据总和;从来源渠道划分,气象大数据可分为“行业大数据”和“互联网大数据”两类。其中:

“气象行业大数据”由与气象部门各项工作相关、且产生自气象部门内部的所有数据组成,包括:由气象部门建设的、具有国内最高专业水准的气象探测体系所产生的气象专业探测数据,其它部门自行采集、通过数据共享/交换等方式汇聚到气象部门、且经过气象部门严格质量控制的气象要素探测数据,由气象业务部门和业务系统产生的各类气象服务产品数据、派生数据及中间产品数据,职能部门各管理系统(如:财务系统、人力资源系统、项目管理系统等)所产生和管理的数据,各业务和管理系统的状态数据和日志数据,等等。

“气象互联网大数据”由互联网上与气象相关的所有数据所组成,包括:移动终端搭载的气象要素传感设备的探测数据,网友随手拍并上传的天气状态照片,搜索引擎对气象相关敏感词的统计分析数据,其它所有可供气象部门业务和服务应用的互联网数据等等。

“气象行业大数据”与“气象互联网大数据”间存在很大差异,限于篇幅,难以在此做详细分析。简言之,“气象行业大数据”属于气象业务数据,其生成的直接目标是服务于气象业务和工作的,故其气象信息浓度高、各种技术指标亦最为符合气象业务和工作的各项要求。“气象互联网大数据”则不然,它不是专为气象工作而生成的,它产自于其它非气象部门的行业、企业,是为满足这些行业和企业自身业务目标而生成的。这些数据之所以被纳入“气象互联网大数据”的范围,是因为这些数据包含有与特定气象应用相关的信息内容,而这些内容是气象行业大数据所缺乏的;亦即,这些数据是为弥补气象行业大数据在内容和时空密度等方面的不足而从互联网上收集来的;故其气象信息的浓度、数据质量等参差不齐,各项技术指标也往往差强人意。即便就气象要素而言,两者之间存在的差异也是很明显的,见表1:

表1、气象行业/互联网大数据中气象要素之间的差异

从内容上划分,气象行业大数据大致有:气象观测原始数据、气象观测产品数据、气象业务产品数据、气象服务产品数据、业务日志数据、设备及系统状态数据、气象管理数据等等。需要说明的是,目前对气象数据范畴的界定,只包含前四项,即:气象观测原始数据、气象观测产品数据、气象业务产品数据、气象服务产品数据。其后的业务日志数据、设备及系统状态数据、气象管理数据等尚未正式纳入气象数据的定义范围。

从性质上考察,气象行业大数据属于“气象业务数据”范畴,即:每类数据都有其特定的使用目的、使用对象及数据形态,且所有数据的初始目的都是围绕满足气象部门自身运转所特有的数据需求的。

从体量上衡量,“气象行业大数据”虽可勉强跻身大数据行列(PB级),但较之互联网公司而言,仍有至少2~4个数量级之间的差距。以目前业界现有处理技术,完全可以满足“气象行业大数据”在分析处理方面的时效要求(数值预报除外)。因此对于“气象行业大数据”而言,单纯的管理和处理技术不是问题所在。

(二) 气象大数据与预报准确率

将大数据理念和方法全面应用到气象部门,在部门内开展气象大数据工作,能否有效提高预报准确率,这是本文首先必须正面回答的问题。

1. 大数据理念和方法探究

《大数据时代》一书的作者将大数据理念的精髓概括为三点:“不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系”。深究下去,不免使人产生质疑:首先,如果通过分析少量的样本数据就可以得到事物的准确本质(如:适用于数学归纳法的数据集),是否还有必要花费巨大成本去收集和处理全体数据?其次,如果能够得到准确数据或结论(如:台风路径和登陆地点、暴雨的落区),是否还有必要刻意去追求混杂不准确的数据或结论;第三,如果能够了解并掌握因果关系(如:人类活动与气候变暖之间的关系),是否还要放弃对因果关系的探寻,而只去分析相关关系?

答案显然都是否定的。

所以,不能生搬硬套大数据的理念和方法,否则可能会出现有违基本常识的举措和结果。对于大数据理念和方法,其合理的解释应该是:如果通过分析少量的样本数据无法得到事物的本质,则人们将不得不花费更多成本去搜集和处理全体数据,以求得到事物的真实本质。如果得不到准确的数据或结论,则人们将不得不接受那些差强人意的不十分准确的数据或结论。如果无法了解到事物之间的因果关系,则人们将退而求其次,通过分析相关关系来了解事物。

因此,由《大数据时代》作者所定义的大数据方法,不应该是刻意为之的,而应该是不得已而为之的:当现有的观测数据无法满足业务需求、且布设新的探测设备代价太高或无法布设时,只能寻找其它代用数据,以弥补现有观测数据的某些不足。当无法做出准确预报时,概率预报是退而求其次的预报方法。当气候变化规律目前无法完全掌握时,气候统计预测方法便是填补气候预测方法空白的可接受的选择之一了,如此等等。

2. 观测数据和科学研究是气象学科的主要支撑

上世纪二、三十年代,无线电通信技术引入到气象地面和高空观测信息通信,人们能够获得大范围的大气立体观测资料,在此背景下,科学家们通过对观测资料的深入分析,并根据流体力学、动力学/热力学定律等物理学原理,构建起了气象学科的基本框架,并在日后的岁月里不断丰富完善。因此,气象学科是建立在观测资料基础之上,并由气象学家们通过深入的科学分析研究,发现其中的内在机理,进而形成相应的理论体系而最终构建的。随着资料的不断丰富,科学家们不断发现着新的天气/气候变化内在科学机理,气象学科因此得以成长发展。如果没有气象科学家天才卓越的分析研究成果,气象观测资料便仅仅是一堆天气现象的记录数据。因此对于气象学科而言,观测数据/产品和科学分析研究,二者缺一不可。而在人工智能达到能够具有科学家们深厚的知识背景、敏锐的捕捉现象的本能、严谨的推演技巧和天才的综合分析判断能力之前,这些科学分析研究工作就只能由科学家们承担并完成。

气象业务的现代化水平最终体现在气象预报的准确率,所追求的恰恰就是精确和及时。如果不掌握天气变化的内在规律(即所谓因果关系),单凭现象要素之间相关性的强弱,是很难达到及时精确预报的要求的。地震前许多动物的行为举止往往异常,但动物举止异常却不见得预示着地震的即将发生。止步于天气现象与气象要素之间相关性的统计分析,不对其做进一步的机理分析研究,对气象学科而言,不是科学的态度。

3. 统计分析是气象部门常用的方法

探究科学机理是十分艰难的。在尚未掌握科学机理的情况下,统计分析是常用的预报方法,如气候领域里的气候统计预测。这种通过对长时间序列气象观测资料进行统计分析,以历史上相似天气现象所发生的天气(或气候)变化的概率为依据,进行气候预测的方法,自气候学科发端之日起,便一直在采用,已达数十年之久。因此“大数据”所推崇的统计分析方法,气象部门早在数十年前便已悉数使用,并不陌生。

但这并不意味着气象部门在该领域的科学研究止步于此。事实上,目前基于动力框架的气候数值预报模式(尤其是集合预报模式等)等方法一直在积极地试验和尝试使用之中,目的就在于探索能够有效发现气候变化规律(即所谓因果关系)的路径和方法――虽然气候统计预测方法仍在使用之中。目前数值天气预报和数值气候预测中所大量采用的集合预报方法,就是“因果”与“相关”、机理与统计之间有机结合的一种尝试。

4. 气象观测数据是所有数据中最重要的贡献者

从上文“气象大数据的内涵”中的分析可得知,与一般大数据所使用的数据源不同,气象行业大数据中的气象观测数据及产品是专门为气象预报业务工作而采集的,其时空分布、数据质量及其它各种技术指标最符合气象业务的各项要求,气象业务所需信息的浓度也最高。比较而言,气象互联网大数据的气象信息密度不高,数据质量也难以保证,其它技术指标更是难以保证满足气象应用的需求。因此,从气象行业大数据中的气象观测数据和产品产生出来的统计分析结论以及学科科学机理的发现是具有权威性的。就预报准确率而言,气象观测数据/产品是所有数据中最重要的贡献者,气象互联网大数据是它的补充而绝非替代者。

5. 大数据并非提高预报准确率的终南捷径

综上所述,气象预报对准确率永远的追求决定了,气象学科必须以探究并最终掌握大气运动的内在机理为工作目标。而大数据方法是在特定的、理想状态无法满足情况下的退而求其次的方法,即:在尚未完全掌握大气运动规律、无法通过理论推演和方程计算准确预报天气或气候的情况下,统计分析方法也许是一种补充完善的途径。在无法断定抽样分析所得结论的正确性时,分析全体数据也许是一种最终解决方案。在无法提供准确预报时,概率预报也是一种不错的选择。但是,如果通过努力有可能达到理想状态,人们便不应该盲目的生搬硬套大数据方法;因为对气象预报而言,因果关系的掌握远比相关关系的发现更为重要,后者是为前者提供线索而非取代前者的。同样,精确的分析和预报结论永远比模糊的分析和预报结论更加满足预报需求,收集和处理样本数据永远比收集和处理全体数据更为高效和节省资源。

所以,大数据理念和方法并非提高预报准确率的终南捷径。

当然,笔者并不否认大数据方法在客观预报产品解释应用方面对预报效果的改善有所帮助等正面作用,但这终究是辅、修饰性的,不是提高预报准确率的根本途径,且效果难以具体量化。

尤其需要强调的是,以在预报准确率方面赶上世界先进水平为目标的气象工作者,绝不能因拥有了大数据这种退而求其次的方法而放弃对掌握气象规律这一理想事业的追求。而且,这一追求的最终实现,只能靠观测数据和产品在时空密度和质量上的不断提高,以及科学家们辛勤的分析研究。由于就数据而言,对提高预报准确率贡献价值最高的仍然是气象观测数据及产品,因此研制出高质量、高时空密度的气象观测产品数据,便仍将是提高预报准确率以及气象科学研究最重要的基础性工作。至于科学研究工作,没有捷径可走,在这里“工匠精神”永远不会过时。

(三) 气象大数据的价值分析

上文“气象大数据与预报准确率”的分析并非意味着大数据在气象部门无所作为,而只是想说明,大数据并非包治百病的灵丹妙药,而是一个宏观上可在全社会产生巨大正面效益、但也存在一些效益不甚显著区域的、实实在在的思维理念和工作方法。说到底,气象部门之所以引进大数据理念和方法,并非为了大数据而大数据,而是为了解决实际工作中存在的问题。因此,气象大数据必须以业务和工作需求为引领。当业务或工作中出现的问题没有合适的数据信息,或者虽有数据但常规处理方法无助于问题的解决时,气象大数据也许是一种可以尝试的解决途径。通过“气象行业大数据”中的各类数据,在履行其各自的直接业务目标之外,使各类数据间彼此有机融合并协同分析,是能够发掘出新的数据价值、信息价值和知识价值,从而推动业务的发展和管理的进步,不断提高气象部门的工作品质的。气象部门内层级堆叠、工作效率不高的问题长期以来有目共睹,“智慧气象”中“精细的科学管理”,即可从打通部门藩篱、消除管理信息孤岛开始。通过管理信息的整合,优化管理流程,增强职能部门间的工作协同,提高管理效率。通过充分挖掘和发挥出管理信息应用的价值来提高管理工作效率,进而提高气象部门整体的工作效率,通过大幅提高工作效率来创造价值,等等。

“气象行业大数据”产生自气象部门,是气象部门赖以运转的最主要资源,同时也是气象部门各项工作的记录载体,在所有数据资源中,它所含有的气象信息最浓;故其应用领域首先应在于气象部门业务工作的有效运转,其次才是社会服务。“气象行业大数据”潜在价值的挖掘和发挥,也应当以提高气象部门工作能力为首要目标。用好“气象行业大数据”,是开展气象大数据工作的重要内容和检验指标。

与此同时,“气象行业大数据”与“气象互联网大数据”之间的有效融合,有可能大幅提高气象观探测的时空密度。物联网技术的有效应用,可以使“气象行业大数据”中专业气象探测的时空分辨率变得富有弹性,以更加有效地应对各种业务需求和社会服务需求。此外,高时空分辨率的探测数据也可为气象科学家发现新的大气运动机理和客观规律提供前所未有的数据资源。

就应用对象及范围而言,“气象互联网大数据”中气象要素数据的产生是与搭载传感仪器的拥有者――人――密切相关的,其所沉积下来的信息中包含有珍贵的人类活动痕迹。凡人迹所至且移动通信可覆盖之地,均有可能成为“气象互联网大数据”的数据源。虽然其传感器搭载体的形式各异,探测环境也很不规范,但也正因为其搭载体拥有者是人,可放置或出入于各种人类活动场所,从餐厅到旷野、从巷道到影院、从居所到河畔,皆可随时对各种场所进行气象基本要素探测,这为气象服务的精细化、专业化和个性化提供了“气象行业大数据”所难以甚至无法提供的现场气象要素数据。此外,利用已广泛布设的非气象监测设备所采集的信息,通过分析得出所需要的气象要素,以弥补专业气象探测设备无法获得的探测信息,是一条值得深入探索的途径,GPS/MET的发掘和广泛应用就是一个典型的成功事例。可以预期,“气象互联网大数据”与“气象行业大数据”以及其它行业大数据之间的有效融合,可在气象社会服务领域开辟出空前繁荣的气象服务新局面。

总之,数据是为应用服务的,气象大数据必须将业务和工作做为最主要的引领。气象大数据战略的首要内容,不是数据的收集、数据源的拓展以及海量数据的管理技术,而是气象工作的持续创新。在技术创新、原理创新、概念创新和思想创新的氛围中,不断涌现出新的应用,根据新应用在信息和数据需求方面的特点,充分发掘现有数据资源的价值,同时有针对性地寻找并拓展新的数据资源,合理运用大数据有关技术,处理并提炼出新的有价值的信息,以推进创新的不断实现。与此同时,由于创新本身是不同概念之间的有机连接和融合,多角度的观察会增加概念连接的机会,大数据所固有的关联分析以及由此产生的相关事物的现象信息,对开拓概念连接的范围会有所帮助,对气象部门在新形势下的创新当有所裨益。于是,初始创新启动大数据应用,大数据应用促进新的创新――这应该是气象大数据战略的基本轮廓。

三、开展气象大数据工作的前提条件

(一) 现有气象数据的梳理

长期以来,人们普遍将气象观测数据及产品、以及少量的气象服务产品做为气象数据的全部,以现代信息化理论和实践来考量,这无疑是片面的。气象部门是一个整体,其有效运转除需要观测数据外,财务、人事、绩效、资产甚至设备状态信息等数据,都是不可或缺的重要信息资源,应当无一遗漏地纳入气象数据的范畴。事实上,由于长期以来对气象数据内涵理解的局限性,使得部门内对气象数据的关注点长期聚焦在气象观测数据,相应的规范标准亦多以观测数据为对象,其它类别的数据则所涉甚少,甚至没有涉及。这种不平衡导致了这些其它类别数据在管理上的各自为政、规格上的无章可循、信息间的彼此隔离、质量上的参差不齐、以及使用上的困难无序和低效。即便是长期受到关注的气象观测数据,存在问题亦不可忽视,以数据质量为例,众所周知,在周边环境未发生非气象因素改变的情况下,探测数据的质量直接取决于传感设备自身状态的正常与否。然而到目前为止,除气象卫星和天气雷达等高端探测仪器外,其它如地面自动气象站等,没有探测设备自身状态信息的获取途径,探测设备状态的判定需要依靠其所采集的气象要素是否合理、是否超出理论极限范畴等被动式手段来完成,于是出现两个问题:其一,对于真实的极端天气事件(如局地特大暴雨)数据,有可能因其数值超出气候极值而导致数据正确性的误判;其二,故障设备从开始发生故障到被检测出来的这段时间难以确定,从而导致这段时间内观测数据的质量无法保证。由此亦可推论,探测设备状态信息是相当重要的业务数据,但遗憾的是,该类数据至今既无相关标准,也未正式纳入气象数据的管理范畴。

需要指出的是,不少技术人士将所有气象数据纳入统一管理平台(如:Cimiss)视为气象数据治理的完成,这无疑也是片面的。事实上,如果上述诸如数据定义、数据分类/分级、数据分布、数据操作等诸多问题没有解决,气象数据没有经过科学的梳理和配置,所有气象数据在形式上的汇聚便起不到高效管理、有效应用和长期支持业务发展(包括业务变更)的作用。

(二) 气象数据的规划和治理

要搞好气象大数据,首先要管理好做为气象部门核心资源的“气象行业大数据”(亦即所谓“气象数据”)。在此,一个极为重要的基础性工作――对气象数据的全面规划和治理――是无法跨越的。

气象部门的所有各项工作中,无时无刻不充满着信息的产生、流动和使用。要使每个单位内部、单位之间、单位与外部门单位的频繁、复杂的信息流畅通,充分发挥信息资源的作用,不进行统一的、全面的规划是不可能的。气象数据规划,实质上就是气象部门的信息资源规划,是对气象部门日常运转所需要的各种信息,从采集、处理、传输到使用等生命周期各个环节的全面规划。其目的,是通过有效管理气象数据,实现气象部门内外数据流的畅通以及数据资源的有效利用,进而达到工作的流畅、业务的融合和整体的协同,从而提高气象部门的工作效率和效益。通过气象数据规划,可以梳理业务流程和管理流程,厘清信息需求、建立部门行业的信息标准和信息系统模型,并据此来继承、整合、优化、改进乃至再造业务流程及业务系统,从而积极稳步地推进气象大数据战略。该项工作的长时期缺位,已经给气象部门各项工作造成了十分被动的局面。

在这里,气象数据规划是整体梳理、谋划和设计,气象数据治理则是具体实施执行。

所谓数据治理,就是使气象数据自产生的那一刻开始,经历的采集、传输、处理、存储、操作以及质量和安全保障等生命周期诸多环节中的每一个环节,都处在一个统一、自洽、协同的规则之中,以使得气象数据这一部门和全社会宝贵资产始终处于正确有效的管理之下。换句话说,气象数据的治理就是治理气象数据的政策、方法、措施和具体落实。

贯彻气象数据治理,除先进的理念外,还需要有配套的组织架构、原则、过程和规则,以确保数据管理的各项职能得到正确的履行。

气象大数据的工作形态就是数据资源的开发利用,做为良好的数据资源开发利用的基础,数据规划是纲领,而数据治理则是贯彻数据规划的具体进程。

(三) 数据意识的逐步培育

提高全部门的数据意识,是开展气象大数据的基础。

数据是精准文化的核心,精准靠数据来表述。对创新而言,所有的成功都是小概率事件,唯有每一步都追求精确方才可能达到。同时,科学和精准使得思维逻辑得以严谨,以严谨逻辑表述的思维成果,确保了推理的可靠性,使后人可在前人思想成果的基础上进一步思考和拓展;严谨的思维成果成为可组织、可利用的资源,科学成果因之而得以积累,并最终发展成长。技术的精准和步骤的严谨使得成熟技术的品质更高,也使得这些技术得以方便地利用和重组,而成熟技术的再重组是科技创新的重要形态之一。此外,思维的严谨性还决定了人们科学研究的深度。在信息时代,鲜见有采用粗放、笼统、马虎和粗枝大叶方式能够持久成功的事例。没有数据意识就没有现代科技,在全气象部门培养数据与精准意识已是当务之急,科学与精确应当成为气象部门的工作信条和文化素养,是实现气象现代化最根本的基础条件。

(四) 必要的人才基础条件

所有的工作,都是以人的思维成果而指导的。大数据技术只是众多工具中的一类,工具没有自行主动解决问题的能力,工具不可能解决连人都没有想清楚的问题,解决问题的办法必须靠人的思维;人想清楚了,则相应的处理流程可由信息系统重复运作,以提高工作效率。如果一项工作,连人自己都还没有想清楚,则此时的大数据非但不能帮忙,反而可能会把事情搞得一团糟。因此,气象大数据应用的开展,人才条件是决定其成败的要素之一。

具体地说,实施气象大数据应用,除上述几项基础工作外,在人才队伍方面还需具备以下2个基础条件:

1. 建立起对应于大数据管理运营的数据管理中心的组织架构。没有一个相对完整和专业的数据管理团队,是难以发挥出大数据分析的功效的。

2. 建立起一支精干的数据分析团队,并拥有一个灵活适用的数据分析技术平台。

此外,开展气象大数据工作,可能会遇到许多意想不到的困难,如:算法和数据来源问题。如前所述,所有大数据应用的数据来源都是来自于互联网的替代数据,而由于数据源非针对该应用所采集,该应用所需要的内容可能同时存在于不同的数据源之中,且存在的形态和格式各异:同样是分析舆情,腾讯微信大数据和百度大数据的分析方法可能完全不同。面对不同的数据源,需要不同的信息提取算法。因此,合适的数据源和合适的分析算法,是开展气象大数据应用首先需要解决的问题。而气象部门在这方面,目前尚缺乏相应的专业人才和团队。因此,对于气象部门而言,利用他人的数据开展大数据应用,对可能面临的困难,需要做好一定的心理准备。

四、气象大数据中心建设问题

(一) 应当是气象行业大数据中心

开展气象大数据工作,基础设施环境(即:气象大数据中心)的建设问题,是本文必须正面回答的另一个问题,因为海量数据的处理需要相当规模的存储和计算资源予以支持。

上文已述,气象大数据由“行业”和“互联网”两部分来源构成。笔者认为,气象大数据中心应当是以存储管理行业大数据为主要目标,即:气象大数据中心应当是气象行业大数据中心。理由如下:

气象行业大数据中的各类数据,都是由气象部门业务或管理系统产生,以服务于气象业务或工作为首要目标的。根据属地化管理原则,规范管理这些数据,并负责这些数据的社会化共享服务,是气象部门的职责。因此气象大数据中心所管辖的数据中,必须包含气象行业大数据。同理,由于气象互联网大数据中的所有数据皆非产自气象部门,同样根据属地化管理原则,气象部门没有职责和义务存储管理这些非气象部门产生的数据。

在目前数据量急剧爆发的背景下,轻率地将体量硕大的互联网大数据整体搬移到自己的属地后再进行处理,不是明智的举动。按照业界“算法找数据”的原则,应尽可能采用诸如与数据源拥有方建立协作联盟、租用对方一定规模基础资源等方法,达到在数据源近旁完成处理工作的目的,以减少海量数据整体搬迁所造成的高昂代价,并提高工作时效。即:对于互联网大数据的应用而言,应尽可能采取“就近处理”的方法;在无法就近完成所有处理的情况下,也应尽量设法采用“提取”的方法,将有用的信息从数据源中提取回自己的属地分析处理,切不可轻易采用“数据找算法”的陈规陋习,将数据源整体复制到自己的属地,除非万不得已。这方面的工作需要慎重筹划,以免被昂贵的数据搬迁和数据更新成本所压垮。

总之,由于气象互联网大数据与气象行业大数据相比,无论在规模上,还是在管理时段上都难以较为准确地预估,将其纳入气象大数据中心的管理内容之一,会对大数据中心的设计和管理带来一系列极其复杂的不确定因素。因此,气象大数据中心在建设和使用初期,应以气象行业大数据为主要管理对象,并在气象互联网大数据的应用中尽可能避免海量数据的搬迁。与此同时,大数据中心在设计和实际操作过程中可以预留一定规模的基础资源,为在极端情况下互联网大数据的载入和处理预留一定的管理空间和能力。

综上所述,第一,管理气象行业大数据是气象大数据中心的职责。第二,对于互联网大数据而言,大数据中心既没有义务、也应尽可能避免对其进行长时间管理。所以,气象大数据中心应当是气象行业大数据中心。

(二) 气象大数据中心的形态和分布

1. 气象行业大数据中心同时应当是气象云中心

就应用效果而言,在资源充沛且数据处于规范管理的前提下,数据的集约化程度越高,应用的效果越理想。因此,气象大数据中心应当是气象数据汇聚、规范化管理且资源十分充沛的数据中心。云计算中心是大数据中心最好的物理形态,大数据中心应以云计算中心为基础平台,这在业界已形成共识,气象大数据中心也不例外。所以,气象大数据中心应当是一个组织机构概念,逻辑上相对独立,而其实际的物理基础设施应当是气象云中心,是气象云中心上的一个具体业务应用。

需要进一步说明的是,对气象大数据中心的规模而言,其中的行业数据的增长规模处在气象部门掌控之中,基本上可以预估。但如果将互联网大数据的应用场景也考虑在内,预留可充分应对极端情况下互联网数据源大举载入时的支撑资源,由于数据源对象的未知性,其相应的规模是难以预先测算的,偏大则可能导致资源的长时间闲置,偏小则可能届时无法发挥支撑作用。较为可行的解决方案之一是采用专有云形式,即:选择资源规模大、公共安全措施完备、专业水平高、服务信誉好且价格相对合理的云计算中心,在其上长期租赁相应规模的基础设施资源作为气象云的基础设施,其中气象大数据中心的资源需求规模可基本参照气象行业大数据的存储管理规模来进行预估。与此同时,与该云计算中心签订相应的服务合同,承诺在气象大数据中心遇到特殊情况(如极端情况下海量互联网数据的大批载入)时,该云中心可及时扩充气象大数据中心的基础资源租赁规模,并在应用结束后收回这些临时租赁的基础资源。

2. 大数据中心的分布

笔者于前文已讨论过,未来的气象云中心最终将以1+2或1+3等数量有限、地理分布相对合理的形式长期存在。且专有云较之私有云而言,是更为合理的气象云形态。限于篇幅,其理由不再重复阐述。

(三) 尽早开展应用研究工作

应及早开展针对互联网大数据在气象部门各领域创新应用的研究工作。目前这项工作在气象部门除个别先行单位(如公共气象服务中心)外,基本处于空白状态,是一片未开垦的处女地。尽早进行大数据基础知识和技能的储备,对工作的顺利开展有益无损。同时,应积极筹备组建相关的专业化团队,以期尽早具备如下能力:

数据资源发现能力:熟悉互联网上各种数据资源以及数据交易市场的业务动态,熟悉数据资产的价值评估,可在部门用户提出数据资源需求时,及时提供互联网数据资源的咨询服务,推荐合适的数据资源,以及资源的基本情况。

数据获取能力:具备在正常情况下,通过正规途径,以技术手段及时获取指定数据源中所有数据的能力。

数据分析能力:具备在收集互联网数据的基础上,针对应用目标以及数据源的特点,提出相应的分析模型,指导并最终完成对互联网数据的整理和分析,以完成应用目标中各项研究、评估和预测的能力。

数据算法实现:根据分析模型及数据源特点,形成数据分析处理软件,并完成数据处理。

分析平台:拥有分析模型建立、处理软件生成以及分析结果可视化展现的技术平台。

应适时成立相应机构(如:气象互联网大数据应用研究中心等),专门从事这方面的研究和应用工作。

五、稳步推进气象大数据战略

(一) 全面认识气象大数据

在积极探索创新应用的同时,应冷静分析气象大数据的特点和可能的适用范围,基本明了其能力边界,做到心中有数。既不被外界过度宣传所裹挟,也不被内部守旧力量所羁绊。积极而稳妥,慎重而不裹足不前。应当明白,目前国家所倡导的大数据战略,与其说是为了推行充分挖掘数据资源价值的工作方法,不如说是一种工作思维和工作方式的改进和补充,是一场全社会文化素养的改良和变革。通过对大数据不断深入的应用,持续改进全社会的生产质量、产品质量、服务质量和生活质量。

因此,不必过度介意气象大数据在某些特定领域内(如提高预报准确率等)作用的有限。大数据不是万能的,正如信息化不是万能的一样,不可能指望单凭推行大数据就能解决所有问题。充分利用一切可以利用的数据资源,不断创新、不断改进气象部门各项工作,倡导和发扬工匠精神,使各项工作更加科学化和精细化,就已达到了气象大数据战略的基本目标。

此外,气象大数据应当以应用为主导,以业务为主导,以改善各项工作为主导,更应该以技术、业务、服务和管理创新为主导。应当使全部门明了:开展气象大数据工作不等于在各地开展数据中心基础建设,更不等于在各地开展数据库建设。此外,开展气象大数据工作,应力求基础工作先行、专业团队建设先行和应用研究先行。

(二) 保持清醒、力戒浮躁

我国政府多年前便已开始倡导科学发展的理念,但目前全社会急于求成的心理依然非常普遍,似是而非且激动人心的宣传口号此起彼伏,反映出一些人的浮躁心态。气象大数据工作的开展,不宜采用运动的方式,而应该在充分营造创新氛围的前提下,由创新引导气象大数据的具体应用,循序渐进,待深入到一定程度后,再由大数据应用逐步推动创新,从而形成创新引导大数据应用,大数据应用进一步推动创新的彼此互动的良性循环局面。从过程上看,气象大数据的开展应当水到渠成,过度的宣传、强力的行政推动和盲目鲁莽的基础建设无异于揠苗助长,对大数据的应用发展有损无益。切勿被“抢占制高点”等宣传口号所蛊惑,在被某些善良单纯的记者以及别有用心的企业家鼓动得显然有些过热的大数据风潮中,保持头脑的冷静,力戒内心的浮躁,显得尤为可贵。

六、结语

大数据心得体会篇5

可穿戴设备不仅仅是一种硬件设备,它集成了传感器、射频识别、全球定位系统等,并能与移动互联网相联系,使得它在任何时间、任何地点均可实现人与物、人与环境的信息对接。这些设备不断地感知和记录下的海量数据被传输和汇聚到云端之后,产生了奇妙的效果,它们可以告知你空气质量,测算你的睡眠情况,甚至可以告诉你婴儿哭闹的原因……

运动可穿戴设备

运动中,它会第一时间检测我们的汗液、血液,监测身体情况,这些及时的检测数据会被上传到大数据中心,数据中心会根据你以往的健康状况分析体内水分平衡、耐力、肌肉承受力等信息,告诉你什么时候需要休息几分钟或放慢速度,什么时候应当加速……这样在跑步锻炼的时候,你就可以停留在一个最佳的心脏速率范围,完成更好的姿势,或者让你保持在最好的运动强度之中,达到运动的效果。

睡眠可穿戴设备

如果你睡觉时带着一款小型可穿戴设备,它将会与你手机中的APP进行连接,详细地记录着你的睡眠状况,例如你昨晚睡觉翻身了几次,深度睡眠时间是多久,浅睡眠是多长时间,还有血压波动和心跳状况等众多的与睡眠有关的数据。当你早上要醒来的时候,这个小设备会与手机闹铃结合,在你设定最晚时间之前根据你睡眠质量来启动闹铃,而这个时间是你醒来最轻松的时刻。之后,它会根据昨晚你的身体状况,为你列举早餐的营养搭配建议以及白天需要补充的维生素品种等。

医疗可穿戴设备

在医疗方面,可穿戴设备也得到很大的运用。当医院将几十万个心脏病患者的数据通过可穿戴设备上传到大数据中心,通过云计算技术,从中找到心脏病的发病特征,而数据中心会进一步分析出使用者的身体状况并发出震动警告。

大数据心得体会篇6

摘 要:以大数据用户画像技术(大数据中的核心技术之一)作为出发点,将其与高校思想政治教育进行有机结合,有效挖掘、分析和利用教与学过程中所形成的海量数据,通过数据清洗,给每位学生真实画像,打上准确精细的分类标签,甚至针对异常情况形成自动预警机制,为提高思想政治教育的实效性开启一扇新的大门,实现可以事实落地的大学生思想跟踪、预警、分析、预测和处理系统,以助推高校思想政治教育工作从一体化、整体化转向以个性化的方式服务于每位学生,使思想政治教育工作由宏观向微观发展,精准实现思想政治教育工作的“私人订制”。

关键词:大数据;用户画像技术;高校思想政治教育;创新应用

中图分类号:G641 文献标志码:A 文章编号:1002-2589(2017)07-0241-02

大数据不仅是一场技术革命,一场经济变革,也是一场国家发展全局的变革。高校思想政治教育工作事关国家的未来,更是不能设身之外。党的十八届五中全会的“十三五”规划建议提出:“实施国家大数据战略,推进数据资源开放共享。”2015年7月,《国务院办公厅关于运用大数据加强对市场主体服务和监管的若干意见》(〔2015〕51号)中,明确要在教育文化等领域实施大数据示范应用工程。同年9月,国务院《关于印发促进大数据发展行动纲要的通知》(国发〔2015〕50号)中,更是将教育作为率先实现数据开放的重要领域之一,并明确要探索发挥大数据对于变革教育方式、促进教育公平、提升教育质量的支撑作用。

因此,与时俱进地运用前沿技g――大数据用户画像技术作为出发点,将大数据的核心技术与高校思想政治教育进行有机结合,有效挖掘、分析和利用教与学过程中所形成的海量数据,通过数据清洗,给每位学生真实画像,打上准确精细的分类标签,甚至针对异常情况形成自动预警机制,这必然能够为高校思想政治教育改革提供新的借鉴。帮助高校思想政治教育工作从一体化、整体化转向以个性化的方式服务于每位学生,使思想政治教育工作由宏观向微观发展,精准实现思想政治教育工作的“私人订制”。

一、教育大数据的巨大市场和在思想政治教育领域中的广阔前景

当前高校思想政治教育工作方式主要包括开设的“思政课”教学及相关实践活动等,大部分情况下其共通特点是:将学生作为一个整体来进行一体化教育。而当前大学生思想日趋多元化,用一种通用模式来教育所有人,其效果难于达到预期。

在未能及时准确地洞察每位学生真实思想动态的前提之下,很多个性化、多样化的教育方案是缺乏事实依据,从而导致这些设定的方案缺乏适用性、灵活性,难以有的放矢,学生的参与度不高,效果不理想。

而身处网络时代的大学生,除了睡觉、吃饭、上课、自习以外,大部分的时间都在网络世界中,利用大数据用户画像技术,采集观察他们在网络中的行为数据,可以真切及时地了解他们在不同时间点的喜好、情绪以及思想动态。

因此,以大数据用户画像技术(大数据中的核心技术之一)作为出发点,探讨利用大数据用户画像技术助推高校思想政治教育工作的创新,这不仅涉及思想政治教育的理论更新,更是关涉思想政治教育改革创新的实践探索,具有很强的拓展性、建设性和实用性价值。

目前,在教育领域,使用大数据用户画像技术在实践层面上还没有真正意义上的尝试,主要因为在这方面的实战人才相当缺乏,特别是在高校当中。加上理论层面,还没有将大数据用户画像技术同高校思想政治教育进行结合的尝试,更不用说提出具体的整套实施方案。

大数据用户画像技术在商业领域已经带来了巨大的实际应用价值,而大数据不只是一个产业这么简单。它在社会的各个领域中都无所不在,会给各行各业带来分析洞察问题的新方式、新方法,也必然会带来变革创新大势。高校作为思想最活跃、知识最密集、网络信息技术运用最充分的前沿阵地,自然不能身处其外。尽管大数据在教育领域的研究和实践才刚刚开始,我们也能预测并感受到大数据这股汹涌潮流必然会对高校思想政治教育产生巨大影响和冲击。

大数据用户画像技术所拥有的个体深度洞察能力,对于高校及时准确地掌握大学生思想现状、高效引导大学生思想动向具有巨大价值。大数据用户画像技术也可以在高校思想政治教育工作中得以深度地融合和广泛的应用。至于如何真正将大数据用户画像技术完美地应用于思想政治教育工作当中,我们应积极勇敢地进行实践探索,并自信作为大数据的核心技术――用户画像技术能够为高校思想政治教育工作带来不逊于商业领域的巨大价值。

二、大数据用户画像技术在高校思想政治教育中的创新应用

如上图整体思路所示,大数据用户画像技术在高校思想政治教育中的创新应用步骤包括以下几个方面。

(一)大学生基础信息及上网数据的采集

需要采集的分析数据包括学生基础信息:姓名、电话、出生年月、生源地、民族、入学年份、学院、班级、专业、邮箱、 QQ 号、微博账号、微信号等等。学生上网数据:上网浏览的网页信息、 QQ 群发言数据、微信群发言数据等等。

(二)数据的整合清洗、语义分词

采集获得的数据需要整合清洗,关联匹配不同来源的数据,获得每个学生统一的数据视图,然后对这些数据进行语义分词,得到每个学生相关词语的频率、权重,为大数据用户画像做准备。

(三)大数据用户画像技术及分析预测预警模型

利用大数据的用户画像技术给每个学生打上基本信息、兴趣爱好、思想动态的标签,使用大数据算法设计分析、挖掘和预测的模型。

(四)高校思想政治教育理念和大数据用户画像技术的有机结合

数据只是基础,只有结合高校思想政治教育的理念、思路,才能设计出切合实际、解决实际问题的思想教育分析需求、思路与方法,更精准地指导大数据用户画像的方向与目标。

(五)基于大数据用户画像技术之上的大学生个体思想动态标签体系、群体思想动态标签体系的研究与建设

大数据用户画像技术为高校思想政治教育提供了全新的分析基础,基于其上的大学生个体、群体思想动态标签体系的研究与建设将更符合学生的实际情况,获得的标签分类数量也会更为丰富,能够为后续的思想动态预警提供真实有效的数据平台。

(六)基于大数据用户画像技术之上的大学生思想动态预警研究与建设

自动化、及时的大学生思想动态预警体系将结合当前国家、社会关注的思想异常点以及由数据分析预测出的思想异常点,形成既覆盖当前又前瞻未来的大数据思想动态预警体系。

三、大数据用户画像技术应用于高校思想政治教育中所需的技术解决方案

(一)分析数据的采集

1.学生基础数据可以连接学校的学生档案系统获得,或者以文本的形式导入大数据系统,一般为非实时数据。

2.学生的上网浏览记录,如果是通过学校统一部署的宽带接入上网的,可以部署网络抓包系统获得,并考虑实时获得这些数据。

3.QQ群文本、微信群文本,可以通过网络爬虫系统获得,并考虑实时获得这些数据。

4.其他数据,包括其他一些能够帮助用户画像的数据,比如学生的成绩、活动的记录等等。这些数据通过数据库接口或者文本导入的方式获得,一般为非实时数据。

针对非实时数据用计划任务调度,将数据抽取到大数据平台的 HDFS 分布式文件系统中;针对实时数据,使用大数据的 Kafka 及时地分发到大数据平台的 Cassandra 数据库中,大数据 Hadoop 平台计划使用 Cloudera。

(二)数据清洗整合、语义分词

采集获得的数据来自多个不同的数据源,需要匹配整合到一起,计划使用大数据工具 KNIME做数据的清洗整合。语义分词计划使用 KNIME 调用 R 语言的 Rwordseg 来完成,在正式分词之前,需要在网上收集大量的词库,以提高分词的准确率。

(三)大数据用户画像及分析

如上图所示,大体分为三个步骤。

1.先针对分词后的结果进行标签的预匹配,之后建模。在建模的过程中,需充分结合高校思想政治教育的理念与实践,设计合适的建模思路,最后得到大学生的用户画像。

2.依据大数据输出的思想动态标签,形成切实有效的思想动态体系、评分预警体系,并生成各类预警的评分数据。

3.结合前面获得的用户画像、思想动态体系、评分预警体系,设计合适的分析预测模型,对大学生的未来思想进行动态预测并生成预测数据。计划使用大数据工具 KNIME 来实现,并将结果数据放入到大数据的数据库 Impala 中,以供后续的结果展现及行动。

(四)结果展现及行动

结果将以可视化的动态图形来进行展示,既有明确输出格式的分析报告,例如分区域生源、学院、班级展示大学生性格、兴趣、思想情况的当前状况图、历史趋势图;也可选择需要的分析角度,查看相关的分析指标和结果。计划使用可视化工具Tableau进行结果展现。

四、大数据用户画像技术应用于高校思想政治教育中可能出现的难点

(一)高校思想政治教育理念和大数据用户画像技术的有机结合

可预见的是,通过大数据用户画像技术获得的大学生画像结果维度肯定是非常多的,和我们以前将大学生简单地分为三五类或者十几类不同,大学生画像的基础维度很可能就会有几千种类别。这就需要结合思想政治教育的思路,设计合理的类别规整方法,从而形成切实有效的思想动态分类标签系统。在这个过程中,需要对当前高校思想政治教育理念和大稻萦没Щ像技术均有深入理解,才能将两者有机地结合。

(二)基于大数据的大学生思想动态标签体系的建立

当前业界基于大数据针对用户的兴趣爱好性格等标签体系已经有比较多的案例,但是针对大学生思想动态的大数据标签体系几乎没有,同时,这个体系不能是静态的,而应该是和时间相关的标签体系,比如当前的思想动态标签、历史时间段的思想动态标签、未来三个月的思想动态标签等。

(三)加强数据监管,保护学生隐私

大数据心得体会篇7

关键词:奥林匹克信息;专题数据库;建设

中图分类号:G80 文献标识码:A 文章编号:1007-3612(2009)01-0050-03

21世纪是知识化和信息化的时代,数字资源建设成为高校信息资源建设评价的重要标志,也是数字图书馆建设的核心。北京体育大学图书馆是学校文献信息中心,是融教学、情报于一体的多功能的现代化体育文献信息服务中心,拥有与世界一流体育院校图书馆相匹配的设施。

推动自建专题数据库的建设,结合学校“211工程”体育文献信息服务中心建设,将计算机科学技术与体育领域相结合,整合高校丰富的体育专业信息资源,建成以体育信息为中心的全方位、多层次、开放式、高效率的体育信息服务体系,进一步提高体育专业权威性,发挥体育文献保障价值,满足体育界对体育的信息管理、数据分析与处理及决策支持的需要,为2008年奥运会提供信息资源保障。

1 研究方法

1.1 文献资料收集法

1.1.1 图书 在北京体育大学图书馆内检索并挑选出1950年至今的与奥运会、亚运会、锦标赛、杯赛、全运会相关的赛事记录中文图书,我国优秀运动员、优秀教练员和优秀运动队传记中文图书。记录运动员数据库中文图书收集列表。

1.1.2 中英文期刊、报纸访问中国知网,检索1950年至今的运动员、教练员及运动队相关中文期刊、体育类报纸,从中挑选出包含有项目相关信息的刊内文章,下载到本地机器上保存,记录运动员数据库网上中文期刊文章收集列表。

在北京体育大学图书馆内查找1950年至今的,中国知网没有提供下载的,与项目数据相关的中文期刊、报纸,从中挑选出包含项目数据的期刊文章,记录运动员数据库馆藏中文期刊收集列表。

挑选的期刊为《新体育》、《体育世界》、《体育博览》、《五环》、《中国体育教练员》、《田径》等14种,报纸为《海峡体育报》、《体育周报》、《体坛周报》、《新民体育报》等6种。

1.2 网络资源收集法收集人员借助网络搜索雷达工具,在网络上检索1984年至今的竞技体育项目单项信息,与奥运会、亚运会、锦标赛、杯赛、全运会相关的赛事信息和报道,我国奥运、亚运和全运会冠军运动员介绍和报道信息,上述运动员的教练员介绍和报道信息以及国家运动队和省级运动队信息,将网上获取的资源数据存储到临时数据库中,等待筛选、校验和入库。

1.3 专家集体咨询法 在数据库系统开发之前,对于运动员、教练员及运动对等概念进行学校专家咨询。同时对数据库建设的可行性方面进行探讨,为数据库建设的顺利实施奠定了基础。

2 结果与分析

2.1 基本框架见图1,图2,图3。

2.2 数据内容 每个模块都包含了信息添加、编辑、保存、取消、查询、退出和第一条信息、上一条信息、下一条信息、最后一条信息、预览和自动生成打印报表等功能。

2.2.1 运动员个人档案 运动员个人档案包括运动员个人基本信息、比赛成绩和奖惩情况三部分。运动员个人基本信息,主要有以下内容:编号、姓名、曾用名、英文名、年龄、性别、籍贯、简介、评论、身高、体重、爱好、所在单位、运动项目、带训教练、奖惩情况及所参加赛事和取得成绩。对于一个运动员可以添加多项记录,而且能够按姓名、参赛项目,赛事名称进行信息检索。通过这个模块,用户可以方便的查寻到运动员的比赛获奖经历,还可以查询到某个赛事、某个比赛项目历年来获奖运动员及教练员。

2.2.2 教练员信息 教练员出生日期、性别、年龄等信息。

2.2.3 运动队档案(同1) 既包括对整个运动队的介绍,也包括每个队员的详细信息。

2.2.4 事迹报道(原始资料) 与运动员、教练员、运动队的相关新闻报道等,对原始资料扫描,然后进行编辑整理,设计检索点,篇名检索目录。

2.2.5 竞技体育数据库 竞技体育项目技战术、项目规则、科研管理、竞技体育管理、竞技体育思想、竞技体育赛事、竞技体育项目设备器材及相关文献。

2.3 数据范围界定

2.3.1 优秀运动员 1)1950-2007年间,在全国运动会上获得冠军的运动员。

2)1950-2007年间,在亚运会上取得前三名的运动员。

3)1950-2007年间,在奥运会、世界杯、世锦赛上取得前六名的运动员。

4)近5年来,在国家一线队伍中服役的运动员。

2.3.2 优秀教练员 指1950-2007年间,带领过上述优秀运动员的教练员。

2.3.3 优秀运动队 1950-2007年间的国家队。

2.3.4 竞技体育 奥运比赛项目,尤其是北京体育大学奥运优势项目:乒乓球、羽毛球、女排、篮球、跳水、游泳、跆拳道、射击、体操、田径、柔道、摔跤、举重、冬季项目。

2.4 技术支持 中国优秀运动员、教练员及运动队数据库和竞技体育数据库平台的建设,需要将多种计算机技术结合在一起,是一个各项软件技术高度相结合的系统。其中涉及到海量数据的存储;在庞大的互联网数据中搜寻指定数据;灵活的数据检索功能;完善的人员权限管理机制;优秀的高级程序开发语言;以及强大的可扩展性等计算机技术和专业要求。

但通过对各项纯熟技术的应用,再通过中天诺亚体育科技有限公司的专业化软件开发团队的努力,必将完美的解决所有技术难题,呈现出一个强大的数据库信息平台系统。

2.4.1 海量数据存储 将采用sql-Server数据库或者Oracle数据库做为数据库平台的数据存储,这两种数据库软件经过微软公司和甲古文公司多年的开发和应用,已成功的应用于多个国家、各种领域的数据库项目,是非常成熟的数据库软件,必能完美的应用于数据库平台的海量数据存储工作。

2.4.2 互联网数据搜集 互联网上存在着大量的相关数据,对此部分的数据进行检索和归类将是工作的一个重点。现存的网络雷达技术可以快速、准确的对互联网数据进行搜集和整理。此项技术在GooSe、百度等大型搜索网站中都得到了很好的应用。

2.4.3 高级程序开发语言 数据库平台系统将会采用微软和Borland等公司多年来研发的c#和Delphi等高级语言进行开发,两种语言的结合,配合Web Service等先进的技术,使系统无论在局域网或互联网内,都可以安全、稳定的运行。

2.4.4 数据检索功能 对于海量数据的检索以及全文检索

功能,是现今数据库平台系统中不可缺少的重要技术。很多大中型的数据库平台系统和各种网络搜索引擎中都成功的应用了该项技术。

2.4.5 权限管理机制 权限管理是数据库平台不可缺少的一项,无论是内部数据的维护和浏览还是各种会员信息管理都是不可少的,此项技术在现今的各种数据库平台系统中都得到了广泛的应用。通过中天诺亚软件开发团队几年来对此不懈的努力研究,一定可以为此数据库平台系统定制出严格、专业、安全的权限管理机制。

2.4.6 强大的扩展性 数据库平台系统全面采用先进的Can组件开发技术,将整个系统分化为各个不同的模块进行分别开发。再通过一个完美的界面程序将所有的模块进行串联,在确保系统安全使用的前提下,又保证了系统强大的扩展性。

3 结论与建议

3.1 可行性研究 专题数据库的建设需要投入大量的人力、物力及财力,因此,在建库之前,必须认真了解使用者的需求,进行充分的调研论证,根据奥林匹克文献信息中心所藏文献特色,制定完整的实施方案。在奥林匹克文献信息中心具体实施特色数据库之前,多次邀请学校及其他相关专家与本馆专业人员进行论证,探讨数据库建设的目的和框架,并对相类似的数据库进行比较,突出特色,避免重复的建设。除此之外,还对全校师生及校外使用者做了调查,在前期充分调研的基础上,成立专门的数据库建设小组,参与数据库建设的整个过程。

3.2 概念的界定 信息收集所依据的资料能否搜集到足够多的所需资料,优秀运动员、教练员的评价标准的界定,网上资料的筛选,网上对每一方面的信息都充斥着各种各样的报道。既有权威性的,也不乏小道传言,既有专业报道,也不乏娱乐新闻,这就需要制定一个统一标准,使信息搜集有章可循。在多次邀请专家座谈、与数据库公司反复论证的基础上,对优秀运动员、教练员、运动队等术语和概念进行统一界定。在数据库的建设过程中,数据处理规范化、标准化。

3.3 数据的标准化与数据录入 网络、报纸、期刊的信息录入时,避免重复信息的录入。收集到的各种介质的信息要进行分类、整理,使零散的信息成为一个有机的整体。数据库的应用方面尤为重要。需要创建多种检索途径,设计多个检索点,不但要有中文的,还要有外文的,为广大的国外友人提供了解检索的平台。除此之外,对数据的更新完善、科技查新等方面也是需要考虑的问题。

针对以上这些问题,我校图书馆采用的是清华同方的TPI数字图书馆建设与管理平台,建立完善的数据库系统,所有的数据采用国际通用的格式,按照《中国图书馆分类法》分类,按照CNMARC标准著录格式进行标引和著录,为我们科学管理各种信息提供了一个有效、快捷的途径,为广大运动员、教练员和体育工作者及体育爱好者提供信息交流平台,也为资源共享奠定坚实的基础。把数据库技术引入到运动员、教练员信息管理中来,为我们以后体育管理工作提供了一个有力的新工具,必将为我们的工作提供更大的益处,也将促进2008年的科技奥运获得圆满成功。

大数据心得体会篇8

【关键词】University;Library;data;manage

1.引言

随着全球信息化建设如火如荼,图书馆各种软硬件系统的投入使用,使得图书馆已经成为高校重要的数据提供基地,如何使得这些软硬件系统的高效运行,更好的为广大师生服务,如何构建一个绿色、高效、稳定的数据中心已经成为大多数高校图书馆发展的当务之急。

2.高校图书馆数据中心现状

在数据集中、IT基础设施集中、运行服务集中的高校图书馆,应用逐渐呈现以下问题。

2.1 系统结构方面

由于各种应用系统被静态地部署在各个硬件之上,点对点集成方式形成了独立的应用,系统平台缺乏开放性、互联性,而各种异构技术、多种操作系统由于平台的不统一,导致多种软件组合变得困难。

2.2 应用数据方面

在高峰时段导致设备使用不均,被动响应式的管理,使得各系统间互不兼容,造成资源极大浪费,导致资源不能共享。

如何更好的规划和构建高校图书馆数据中心,使其合理的运营及维护,降低成本提高能效已经成为高校图书馆数据中心建设的重中之重。

3.构建高校图书馆数据中心

3.1 基础设施建设

高校图书馆数据中心基础设施的整体设计规划包括:服务器、存储、交换机、机柜等IT设备,机房空调、UPS、管理软件等,需要具备节能环保、高可靠可用性和合理性。

随着数据中心的迅速发展,使得数据中心成为能耗大户,数据中心因为供电和散热能力不足,就会限制IT基础设施扩展,或无法充分利用高密度计算设备,机房温度过高,就会影响计算设备的稳定运行,随之导致一系列问题的出现。有数据显示,如果不节能,未来数据中心能耗将直线上升,2~3年的能耗将超过数据中心自身建设成本,因此,减少数据中心能耗不仅为图书馆降低运营成本,更是图书馆社会责任心的一种体现,所以建设节能高效的绿色数据中心已成为一种趋势[1]。

3.1.1 数据中心机房环境建设

机房建设主要指,合理的综合布线和布局,区域的划分,机柜的摆放要因地制宜,有充足持续的电力系统稳定的UPS电源,对尘土、静电要有相应处理机制,拥有制冷新风系统使得机房的温度和湿度保持恒定。

3.1.2 计算资源及网络建设

须从整体上进行容量规划,根据应用的需求合理布局,使系统易于扩展性,实现资源共享,避免经费浪费。服务器在80%的情况下都会闲置,即便在空闲状态下,功耗也有峰值的60%,所以进行服务器虚拟化整合改造,将数据中心中的服务器由原先各种规格转变为相对统一单一方式(即按照数据中心的需求定制不同类型的服务器),能有效降低数据中心的能耗,提高利用率,从而实现数据库管理系统、数据仓库管理系统和数据的共享与交换[2]。

在数据中心内部建立冗余的网络链接,当校内的某一部分出现故障时,数据中心内部的所有数据交换不会因此而中断,保证网络的畅通无阻,此外要加强网络监控,如架设软硬件防火墙,上网行为管理等应用能及时发现问题并进行截流与疏导。

由于高校图书馆海量的电子资源资源,根据数据访问方式及重要程度采用不同的技术,通过集中存储实现数据共享、建立高可用运行环境,实现数据集中存储。

3.1.3 安全体系

在图书馆数据中心的系统架构上充分考虑网络安全和数据安全问题,是为了保证各应用系统的安全运行以及保证数据的安全性。新型病毒和安全隐患,安全策略及容灾计划亟待完善。通过部署软硬件防火墙、上网行为管理、数据的快速备份、恢复等措施来应对灾难。

3.2 管理团队建设

数据的丢失有很多因素,由于管理不善引起的误操作、磁盘等设备出问题屡见不鲜,所以人员配备上要考虑用不同层次的人员。在软硬件调试阶段要落实管理员的培训、跟踪,正式投入使用之后,各种工作规范的执行情况必须明确责任、奖罚分明,建立起完善的规章制度和工作流程,有明确的服务意识[3]。

不断引入自动化的管理手段,降低人的成本投入,从而提高管理质量和管理效率。

4.结语

高校图书馆数据中心由于传统架构导致无法共享资源,服务器与存储性能得不到充分利用,庞杂的系统更是降低了运维效率,通过虚拟化、服务器整合等技术减少机器数量,简化IT部署,实现数据中心高效、稳定、节能的绿色成长。

参考文献

[1]陈臣,马晓亭.基于虚拟化的云图书馆数据中心组织模式研究[J].图书馆学研究,2011,19:32-34.

[2]杨颖.基于图书馆数字化的数据灾备研究[J].图书馆工作与研究,2010,07:28-31.

大数据心得体会篇9

关键词:分布式通用航空服务站;系统;功能;组成

随着社会对于通用航空要求的不断提高,传统的航空服务站中的诸多缺陷开始逐渐暴露出来,为了使我国的通用航空领域能够得到更大程度的进步,必须要提出相应的措施去解决其中存在的问题,这样才能使航空运输的安全性以及效率均得到不断的提高。分布式通用航空服务站系统的开发与应用能够有效的解决传统航空服务站中存在的问题,因此有必要对这一系统进行充分的研究。需要注意的是,CNS技术属于支撑系统运行的一个主要技术,因此对这一技术研究也非常必要。

1分布式通用航空服务站系统构建的意义

分布式通用航空服务站系统构建的意义主要体现在能够解决传统航空服务站中存在的低效率以及低安全性的问题方面,同时,对这一系统进行构建也是社会经济与科技发展的必然要求。当前,技术水平已经成为了社会评价一个领域发展现状以及发展前景的主要标准,这一规律在国与国的范围内同样适用,作为一个国家软实力的主要体现,技术水平的提高对于一个国家整体综合实力的提高能够起到巨大的作用。分布式通用航空服务站的构建体现的便是我国航空领域技术水平的提高,另外,鉴于系统的应用对于交通运输效率以及安全方面的重要性,人民的生命以及财产安全也能够得到最大程度的保证。由此可见,有必要对这一系统进行构建。

2分布式通用航空服务站系统的功能与组成

以下文章主要从系统的整体构成、飞行情报中心、功能对比以及数据共享四个部分对分布式通用航空服务站系统的功能与组成方面的问题进行了阐述,希望能够为有关人员提供参考,具体情况如下所示:

2.1分布式通用航空服务站系统的功能与组成

分布式通用航空服务站系统主要包括专用数据中心、飞行情报中心以及服务站终端三个部分。其中专用数据中心包括一个,飞行情报中心与服务站终端则可以根据具体情况无限制的进行设置。服务站终端的主要功能在于将所获取的情报反应给飞行情报中心,对于服务站终端而言,其有权利对飞行情报中心的数据库进行访问,可以根据其数据库中的内容对有关飞行方面的种种信息进行获取。在收到情报之后,飞行情报中心会对数据进行整理,并与其他地区的情报中心进行沟通,从而实现数据的互相交换使用,以保证预测结果能够更加具有准确性。

2.2飞行情报中心

飞行情报中心的构成情况较为复杂,同时也与多方面存在联系。总的来说,与飞行情报中心之间存在联系的部门主要有管制中心、航空情报中心、通航用户以及服务站终端。第一、飞行情报中心会向管制中心提供综合监视数据,而管制中心则会向飞行情报中心提供必要的监视信息,这一过程需要通过ADS-B专线来完成。第二,飞行情报中心会向航空情报中心提供综合航空情报数据,而后者则会向前者提供永久性的航空资料,两者之间需要通过航空情报专线实现互相联系。第三,飞行情报中心会向通航用户提供通航服务信息,而后者则会向前者提供用户信息,两者之间的联系需要依靠互联网来实现。第四,飞行情报中心向服务站终端提供的数据与信息为综合性的,即前三者的结合,而服务站终端所反馈的信息也是前三者的结合。需要注意的是,服务站终端、飞行情报中心与通航用户三者之间是互相联系的。

2.3功能对比

通过两者之间的对比可以发现,相对于服务站终端而言,飞行情报中心无论在空地通信、监视手段、数据处理或空中交通服务方面均具有较为强大的实现手段。总的来说,飞行情报中心的功能主要体现在以下方面:第一,能够实现数据的交换与融合。飞行情报中心能够将系统中各个部分的信息接收,并将所得到的信息传输到系统各个部分,这使得系统开始成为了一个整体,同时也就能够使不同的数据之间实现交换与融合,对于各部门之间的协同运作具有重要价值。第二,能够实现监视功能。飞行情报中心能够通过对定位等技术的应用实现监视功能,实践证明,其监视效果较为良好,同时也准确性也能够得到保证。第三,VA虚拟应用也是其一个重要功能。这一功能的价值主要在于能够实现监视数据与互联网数据之间的互联,而通过互联,前者能够对后者的数据随时获取,但需要注意的是,后者只能对前者的数据进行查看,而并不能获取,这是出于对监视数据安全性的考虑而采取的一种措施。第四,提高服务水平及其完整程度。飞行情报中心能够为飞行员提供诸多的参考数据,其中便包括对天气情况的转播以及对相应的咨询服务,通过这一功能,飞行员能够随时有效的获取最新的天气信息,同时也就能够在恶劣天气到来之前采取措施进行预防,因此也就能够避免出现飞行事故,对于航空运输安全性的保证具有重要价值。上述文章已经指出,监视数据与互联网数据两者之间是可以实现信息共享的,且处于对监视数据的安全性的考虑,后者并不能随意获取前者的数据,对此,需要应用图片中的系统去实施物理隔离。需要注意的是,数据交换的过程需要根据不同情况来具体实施。虚拟应用(VA:VirtualApplication)是实现隔离的主要设施,在服务器中会包含两张网卡,两者所负责的内容不同,通过在服务器中设置防火墙的方式,便能够完成对数据安全性的保证。

3结束语

通过上述文章可以看出,作为航空服务站功能实现的主要支撑性部分,分布式通用航空服务站系统的应用对于解决航空运输效率以及安全性方面具有重要价值。这一系统主要由服务站终端、飞行情报中心以及专用数据中心三个部分构成,每一部分所发挥的作用存在差别,但对于整个系统的运行而言均十分重要,对其功能与组成的了解,能够为有关人员对系统的操作以及应用提供基础,这样才能从根本上保证我国航空领域整体水平的进一步提高。

作者:张建勤 单位:中国民用航空华北地区空中交通管理局飞行服务中心

参考文献:

大数据心得体会篇10

李忠海于忠清

(青岛大学信息工程学院,山东 青岛 266071)

【摘要】使用PVDF传感器采集人体生理信号,提出了基于CSI的生理信号处理算法,通过算法处理得到心率、呼吸率、体动以及呼吸暂停等参数。本文还设计了云服务器端对人体生理参数进行接收、存储和处理,根据采集到的生理参数本文选用了PNQ量表对睡眠质量进行分析,同时本文还设计了手机端软件将睡眠者的睡眠质量显示给用户。系统测试结果显示算法处理得到的心率/呼吸率与受试者实际的心率/呼吸率基本吻合,并且与穿戴式设备相比,该系统表现出较高性能。

关键词 云架构;PVDF;睡眠监测;CSI

【Abstract】The article uses PVDF sensors to collect physiological signals and proposes the physiological signal processing algorithm based on CSI to get the heart rate, the respiration rate, the body movement and the sleep apnea. The paper also designs a cloud server for receiving, storing and processing the parameters, and selects PNQ questionnaire to evaluate the sleep quality of the sleepers. The design of the app is used to show user’s sleep quality. System test shows that the heart rate and the respiration rate which are monitored by the system are consistent with the actual ones. And the system shows excellent performance comparing with the wearable device.

【Key words】Cloud Architecture;PVDF; Sleep Monitoring;CSI

0引言

睡眠是高等动物中普遍存在的一种重要的自然休息状态,是生命必需的过程。而随着社会的快速发展,城市化进程步伐逐渐加快,国民的睡眠质量因此受到影响。相关调查显示中国有38%的人存在睡眠问题[1],并且有睡眠问题的病人中还有相当多的人没有得到合理的诊断和治疗。因此开发一套实时的睡眠监测系统来监测人们的睡眠过程,然后对睡眠质量进行分析具有重要意义。传统的睡眠监测系统大都使用穿戴式设备,需要将感应器直接与人体皮肤接触,给睡眠者带来心理压力,影响其睡眠质量[2]。

为了更好的监测人们的睡眠过程,本文设计并实现了基于云架构的睡眠监测系统。系统采用PVDF压电薄膜传感器[3]采集人体生理信号,同时根据三次样条插值函数(Cubic Spline Interpolation,简称CSI)[4]提出了基于CSI的人体生理信号处理算法来获得睡眠者的心率、呼吸率等参数。本文还设计了云服务器端对人体生理参数进行接收、存储,并对睡眠者的睡眠质量进行评估,睡眠者的睡眠质量展示在用户手机端软件上。最后对于算法的准确性和系统性能做了测试工作。

1系统架构和详细设计

系统整体架构如图1所示。本系统包括数据采集端、云服务器端和手机客户端三部分,各部分之间用Wi-Fi通信。传感器采集到睡眠者的生理信号主要包括心跳、呼吸、体动和呼吸暂停等,生理信号经过A/D转换后在树莓派处理器(Raspberry Pi)上做预处理,获得心率、呼吸率、体动次数和呼吸暂停次数,然后将数据打包并发送到服务器端,服务器端再根据睡眠者的生理参数评估其睡眠质量,最终将评估结果反馈到用户的手机端软件显示。

1.1数据采集端

1.1.1信号采集模块和A/D转换模块

通过厂家定制的传感器是一款长条状、易携带的PVDF压电薄膜传感器,睡眠者将传感器放在床单下面靠近心脏的位置,以便能更好的监测到人体的生理信号。信号采集模块的主要任务是用传感器监测人体微弱的振动信号,然后经过传感器上的前端调理电路对其进行放大、滤波处理,得到人体的心跳信号和呼吸信号。A/D转换模块的任务是使用AD7895-3芯片对心跳、呼吸模拟信号进行模数转换,然后将转换后的数字信号传至树莓派上做算法处理。其中AD芯片与树莓派的管脚电路如图2所示。

1.1.2数据预处理模块

数据预处理模块的功能是在树莓派上使用基于CSI的人体生理信号处理算法计算心率、呼吸率、体动次数和睡眠呼吸暂停次数,然后将处理后的数据打包发送到服务器端进行存储和分析。

传感器采集到的是心跳/呼吸的模拟信号,并且信号强度在-2.5V~2.5V的量程范围,当信号强度超过2.5V电压值时即表示有体动发生,此时代表体动次数的参数M-Count加1。模拟信号经AD采样后再用算法处理得到心率、呼吸率和呼吸暂停次数。算法详细步骤如下:

(1)对于给定的心跳信号x1(t)/x2(t)呼吸信号,求出其所有的极大值点和极小值点;

(2)分别对极大值点和极小值点用三次样条差值函数进行插值,拟合出信号的上包络U(t)和L(t)下包络;

(3)计算上包络和下包络的平均值,M(t)=(U(t)+L(t))/2;

(4)计算出M(t)的波峰值(即最大值)。

对于心跳信号,波峰数即为心跳次数。对于呼吸信号,如果该波峰值和下一个波峰值在设定的阈值内时,则可以认为该波峰值是有效波峰。对呼吸信号设定阈值的目的主要是考虑到干扰信号对呼吸波的影响较大。由于正常人或患有慢性呼吸疾病的人在睡眠过程中的呼吸率一般不会超过每分钟25次,也就是说连续两次呼吸之间的时间间隔不会少于2.4秒。因此当一个正常呼吸波的波峰和下一个呼吸波峰之间时间间隔低于2.4秒时,则认为该波形是干扰波形,不计入呼吸率的计算中。根据睡眠呼吸暂停的定义[5],睡眠呼吸暂停的表现之一是呼吸气流的停止时间大于10秒(含10秒),也就是两个呼吸波峰之间的时间间隔超过10秒。因此一个正常呼吸波的波峰和下一个呼吸波的波峰之间的时间间隔超过10秒,则判定为发生一次睡眠呼吸暂停情况。

本算法是每20秒钟对正常的心跳信号和呼吸信号处理一次,每分钟心率/呼吸率的计算方法是:

每分钟心率=3×20秒钟心跳次数

每分钟呼吸率=3×20秒钟呼吸次数

1.2云服务器端

云服务器端是基于Netty实现的,主要完成了对人体生理参数的接收、存储及分析处理等工作。数据接收模块负责接收数据采集端发送的数据,数据经解码后存入数据库中。为保证数据的准确性和可靠性,数据采集端与云服务器之间进行网络通信的协议使用TCP/IP协议,编程方式为Socket套接字编程。数据存储模块用于存放用户的数据信息,包括USER表(用户表)、USER-PAR表(用户生理参数表)以及RECORD表(睡眠状况记录表)。而数据处理模块是云服务器端的核心部分,它的主要任务是对数据采集端发送来的生理参数进行分析处理,判断睡眠者整晚的睡眠质量。主要方法是数据处理模块调用数据库中用户的生理参数,通过对心率、呼吸率、体动次数和睡眠呼吸暂停次数进行分析,评估睡眠者的睡眠质量,并得出睡眠者整晚的平均心率、平均呼吸率、总睡眠时间以及睡眠呼吸暂停次数,然后将处理结果存入用户对应的RECORD表中。

本系统使用清华大学一位学者设计的一种用于评估睡眠者每晚睡眠质量的调查问卷量表[6],我们称之为PNQ(Per-Night Questionnaire)。PNQ包括9个大问题,问题6又包括8个小问题,总共16个问题。问题1~5的答案可以根据传感器采集到的睡眠者的生理参数分析得出,而问题6~9需要用户早上从手机客户端查看自己睡眠质量时填写,用户填写完之后数据发回服务器端,数据处理模块会根据PNQ量表评定方案对用户的睡眠质量进行打分,然后发回到用户的手机端显示。

1.3手机客户端

手机客户端软件是在android4.2.2环境下开发,支持安卓2.2以上系统,软件名称叫做SleepMonitor,包括用户登录验证模块、消息发送模块和睡眠质量结果显示模块,与服务器端使用HTTP协议通信。手机端设计的总体操作流程是:

(1)用户打开客户端,输入用户名、密码(由服务器为用户分配)进行登录;

(2)登录成功后进入主页面,主页面显示的是一个日历表;

(3)点击日历表中当天的日期进入调查问卷填写界面,界面显示的是PNQ量表中的问题6~9,用户根据晚上睡眠情况填写并点击提交按钮;

(4)提交后的数据发送给服务器,服务器将用户填写的问题6~9的答案与RECORD表中数据结合,并根据PNQ量表评定方案进行打分,得出用户睡眠质量;

(5)将睡眠质量评估结果发送回手机客户端显示给用户。

2系统实现与测试

本系统在开发初期主要实现了以上模块的功能。数据采集端的实物图如图3所示,PVDF传感器放在床单下面用于监测人体微弱的振动信号,信号经前端调理电路放大滤波后用AD7895-3芯片进行A/D转换,然后将数字信号传至树莓派做预处理,预处理后的数据打包后发送至服务器端。

最终用户的睡眠质量结果界面的效果图示例如图4所示,用户睡眠质量使用星级评分条显示。其中该睡眠者的睡眠质量是三星级,整晚的平均心率是62次/分钟,平均呼吸率是17次/分钟,总睡眠时间是7.8小时,整晚的睡眠呼吸暂停次数是5次。用户还可以将自己的睡眠质量分享到新浪微博、微信等平台,分享功能使用shareSDK组件实现。

图3数据采集端实物图

图4手机端睡眠质量界面

为了验证系统的准确性以及是否达到预期的性能,对系统进行了整体测试。对于算法的准确性的测试方法是选取三个测试者分别躺在放有数据采集传感器的床上,当测试者的心率/呼吸率相对稳定之后通过串口读取测试者的心率/呼吸率,与此同时进行的是通过脉搏数出测试者的心率,并通过观察测试者的呼吸情况数出他们的呼吸率。然后传感器输出的三次心率、呼吸率与测试者实际的心率、呼吸率对比。对比结果显示用该算法计算的心率、呼吸率与实际心率、呼吸率基本吻合,如表1所示。

表1心率、呼吸率计算方法准确性测试结果

对于数据传输的一致性,测试方法是通过串口读取数据采集端打包后的数据,通过观察数据连续性的标志位发现偶尔会有丢包的情况,因为通信方式采用TCP连接,考虑到是因为网络连接不稳定等其他因素导致。

3总结

本文设计的基于云架构的睡眠监测系统是面向普通家庭用户的居家式的医疗监测系统。系统利用PVDF传感器采集人体生理信号,提出了基于CSI的人体生理信号处理算法,通过算法处理得到睡眠者的心率、呼吸率、体动和呼吸暂停等参数,同时在云服务器端实现了对生理参数的接收、存储以及睡眠质量的分析等工作。系统测试结果显示算法处理后得到的心率、呼吸率与实际的基本吻合,同时与穿戴式设备相比,该系统表现出较高的性能。未来将对系统做进一步完善与改进,比如增加光照、噪声等参数的测量,为睡眠质量评估提供依据,同时完善手机端软件的功能,增加闹钟提醒等功能。

参考文献

[1]飞利浦医疗保健事业部.世界睡眠日:关注睡眠健康,发展睡眠学科[J].中国医院院长,2014,(5).

[2]李津,金捷.睡眠呼吸监测技术的研究进展[J].国际生物医学工程杂志,2008, 31(6):352-354.

[3]CK. Lee. Theory of Laminated Piezoelectric Plates for the Design of Distributed Sensors /Actuators[J]. J.Acoust.Soc.Am. 1990(3):1144-1158.

[4]马雪.三次样条插值的构造[J].科技致富向导,2014,(15):236-237.

[5]叶志前,郑涛,裘利坚.睡眠监护技术的发展[J].外国医学生物医学工程分册,2003(6):244-248.