数据解决方案十篇

时间:2023-03-28 08:42:57

数据解决方案

数据解决方案篇1

关键词:数字城市 CASS 数据更新

一、引言

目前,大部分测绘作业单位的数据生产和管理技术还相对落后,技术水平差不齐,而且通过各种方法生产的测绘产品标准也不统一,数据质量良莠不齐,甚至有些单位生产的图形还不能满足GIS对点、线、面的基本构图要求。大多数单位仍停留在传统的基于文件的数据管理模式,这样就容易造成数据管理的混乱,数据更新的不同步,增加了查询统计地理要素等相关信息的难度。有些测绘单位只是使用简单的以DWG分幅图粘帖覆盖的方式对数据进行更新维护,致使花费大量人力物力生产得到的数据不能进行重复使用,对已有数据的演变过程也不能进行历史回溯,给DWG的使用和维护带来很多不便;从数据质量控制角度来看,很多单位还出于人工或者半人工质检状态,造成数据质量监理效率低下,数据错误不能彻底消除。

南方数码公司基于对测绘信息化的理解和深厚的技术实力,提出了自己独到的动态更新解决方案。

二、南方测绘动态数据更新方案

南方动态更新整体解决方案如图,采用CASS作为前端数据采集生产软件,CASS软件可以方便的读取全站仪、GPS等硬件设备所产生的数据,还可以方便的使用CASSConvert对不同绘图软件(如:清华山维、MAPGIS等)的数据进行转换后的成果、使用CASSCAN进行扫描矢量化之后的数据成果和CASS航测联动模块生产出的航测数据成果等。

整体解决方案采用CASSCheck对数据质量进行质量监理, CASSCheck可挂接到CASS软件或者CAD软件上进行使用,是一款运行于CAD平台上的面向GIS建库的数据质量监理软件。用户可可以自定义各图层和地物属性,编码的检查规则,在进行数据生产边进行质量检查,既能提高数据质量,又能满足数字城市建设对数据生产质量的要求。

方案采用ArcSDE将空间数据库与CASS软件进行连接,通过CASS动态更新模块可以完成测量数据和空间数据库之间的无损交换。另外,使用CASS动态更新模块还可以方便的对空间数据库任一时间点属性进行回溯浏览。在更新数据库同时添加相关工程信息,方便对更新数据的统计和管理。此外,CASS还支持对测绘数据和空间数据库的双屏联动显示,这样就更直观的查看数据库的更新情况。

使用基础GIS管理系统还可以通过对用户权限及角色的设定来有效的保证空间数据库的安全。在进行用户权限管理的同时,还能对用户的操作日志进行跟踪管理,保证了空间数据库更新记录的完整及数据库更新的可回溯性。

整体解决方案还提供多种空间数据库扩展应用接口(如:办公自动化系统接口、项目管理系统接口、管线信息系统、规划管理信息系统等),方便用户对空间数据库的扩展应用。

三、生产、入库管理的无损联动

目前国内所采用的主流建库软件大多为ArcGIS,但是唯一不足之处在于该软件安装庞大,数据生产极为不方便,这就需要有一款既能满足作图方便的要求,还能满足与ArcGIS能进行数据无损交换的一个软件平台来提供给数据生产人员。

南方CASS动态更新模块依托于CASS软件,他继承了AutoCAD及CASS的所有优点,安装、操作方便简单,功能实用,是数据生产工作不可或缺的生产工具;另外,动态更新模块可以直接连接到ArcSDE数据库引擎,不通过任何换文件可完成DWG数据与基础GIS数据库的交互操作(即动态更新),更新过程无需人工干预,实现数据的无损交换。动态更新还自动保存了更新日志,方便进行数据的回溯以及对数据的版本管理。

1.安全、稳定的数据库管理

安全稳定的数据管理是基础地理信息数据可持续利用的有力保障,也是保证基础数据能发挥其最大利用价值的基础。

南方基础GIS管理系统提供了一整套数据库管理工具,使得对基础数据的查询、统计、管理等日常工作更加方便;软件提供的模块化用户权限管理机制,使得数据安全更有保障。

四、方案小结

1、紧密结合CASS9.0成图软件,充分发挥CASS9.0强大的成图功能,能满足客户多种制图需求;

2、采用全面面向GIS建库数据质检,保证了数据成果的完整性、准确性;

3、CASS更新数据时自动连接到ArcSDE,减少人为误差,提高数据可靠性,最大化地实现图形原样转换,保证数据的准确性,最重要的是实现了多源数据的共享;

4、采用大型空间关系数据库进行数据存储,最大限度的满足的“数字城市”和基础地理信息共享平台对大数据量的需求

5、基础GIS提供多用户多版本,每个用户一个版本,保证数据更新的唯一性和及时性。

6、使用多用户、多角色、模块化的权限管理机制,最大程度上保障了基础数据的安全;

7、丰富的系统接口,最大程度的满足了客户对空间数据库的扩展应用。

参考文献:

[1]王磊,城市空间数据库动态更新生产体系关键技术研究[J],测绘通报 2010年第5期

数据解决方案篇2

随着数据库市场不断变化,全世界的IT部门现在必须应对日益复杂的数据库环境。戴尔软件最近一项关于数据库管理趋势的调查证实,IT专业人员正在管理比以往任何时候更多的数据和数据源,需要承担更多的任务,并学习新的数据库技术。戴尔软件致力于帮助客户管理全部数据,并从中创造更高的价值。

戴尔软件信息管理产品执行总监Darin Bartik表示:“在过去的15年里,Toad系列一直引领数据库工具市场,我们目前的投资和创新旨在确保它在未来15年里继续引领市场。作为戴尔的‘全数据’战略的组成部分,Toad产品组合正从一套针对数据库专业人士的工具,演变为一个产品组合,让团队和企业把所有数据作为业务资产进行管理。戴尔将继续在Oracle和其他关系型数据库平台上扩大领导地位,并支持新的平台,如Hadoop、 MongoDB和SAP HANA,因为这些数据库正日益成为客户复杂数据带来的挑战的重要部分,而戴尔也正在推动Toad产品组合超越数据库本身局限,为集成和数据分析等工作简化流程。”

Toad系列在全球拥有超过200万的用户,是市场上领先的独立数据库管理解决方案,也是戴尔软件端到端信息管理产品的重要组成部分。通过实现与管理复杂的数据库环境相关的许多常见的管理、开发和数据准备工作,Toad解决方案有助于用户提高数据库的性能、可用性和工作效率。Toad系列的最新增强包使数据专业人士能够更好地管理Oracle、SAP、IBM和Hadoop数据库,并为数据分析准备来自各式平台的数据。具体更新的内容包括:

增强的敏捷应用开发。Toad for Oracle 强调其从单用户工具演变成供所有IT团队使用的解决方案,加强了对敏捷式开发最佳实践的支持,实现持续的融合方法。

通过整合Toad Intelligence Central组件,新版Toad for Oracle可以帮助开发和DBA团队更好地协作,让用户更方便地共享Toad文件和属性,如脚本、连接、自动化操作和代码分析规则。

管理团队现在可以使用新的基于Web的代码分析报告,查看历史和就绪性代码报告,且无需额外的许可证。

Toad for Oracle的其他增强功能包括重新设计的主SQL开发区和改进的团队编码区,以加强对第三方版本控制系统的支持和管理。

Toad Data Point拥有升级过的转换和清洗引擎,包括数据分析能力、新的转换规则以及处理更大的数据集的更强大引擎,让用户更轻松地操作和更改数据。

数据解决方案篇3

关键词:大数据;云计算;虚拟化

1认识大数据

相信大家都还记得2013年5月10日淘宝十周年晚会上,阿里巴巴集团董事局主席马云在其卸任集团CEO职位的演讲中说到:“大家还没搞清PC时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。”

什么是大数据?

早在1980年,当时著名的未来学家阿尔文·托夫勒便在其著作《第三次浪潮》中热情洋溢地将大数据赞颂为“第三次浪潮的华彩乐章”。不过直到时光抵达2009年,“大数据”才开始成为互联网信息技术行业的流行词汇。

环顾四周,我们都已经切身感受到了当今的信息量正在以前所未有的速度膨胀。当我们的普通民众在上世纪90年代刚刚接触个人计算机的时候,1MB的磁盘,1GB的硬盘已经是不错的配置。然而现在呢?GB、TB都已经无法满足我们丈量数据大小的需要,PB、EB、ZB已经义无反顾地承担起了丈量数据的大任。

随着互联网自媒体的普及,每天都有数以亿计的人在发微博、写微信、更新个人主页、使用社交网站、发表个人评论……全球互联网上每天会有220万TB的新数据产生,90%的数据都是在过去的24个月内创造出来的,如今,这个比例还在不断上升。

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中,他们对大数据的表述是:大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。他们对大数据的特性进行了归纳,提出了4V特点,即Volume(数据量大)、Velocity(要求实时性强)、Variety(数据的种类多样)、Value(数据是有价值的)。

而《互联网周刊》则认为“大数据”的概念远不止大量的数据和处理大量数据的技术,或者所谓的“4V特点”之类的简单概念。大数据是涵盖了人们在大规模数据的基础上所能做到的事务,而这些事务在小规模数据的基础上是无法实现的。换句话说,大数据让我们能够以一种前所未有的方式,通过对海量数据进行分析,获得具有巨大价值的产品和服务,或者深刻的洞见,进而最终形成变革世界的力量。

2大数据应用的现状分析

最早提出世界已经迎来“大数据”时代的机构则是全球知名的咨询公司——麦肯锡。麦肯锡在其研究报告中指出:数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。

大家都或多或少地意识到应该能从这些海量的数据中获取些什么,然而究竟我们能获取到什么呢?

一个被广为传播的典型案例是:在2012年初美国的一家Target超市,一位愤怒的父亲突然闯进来对店铺经理咆哮道:“你们竟然给我17岁的女儿发婴儿尿片和童车的优惠券,她才17岁啊!”经理下意识地认为是店里出了问题,也许是误发了优惠券,于是立即向这位父亲道歉。然而经理却没有意识到,其实这是公司正在运行的一套大数据系统得出的分析结论。

Target会从其会员的购买记录中去了解该顾客的性格、类别等一些列业务活动。上面的例子正是Target为适龄女性创建的一套怀孕期变化分析模型,如果相关客户第一次购买了婴儿用品,系统将会在接下去的几年中根据婴儿的生长周期向顾客推荐相关的产品,从而培养和提高客户的忠诚度。

果然,一个月后,该名愤怒的父亲打电话给商铺道歉,因为Target发来的婴儿用品优惠券不是误会,他的女儿确实怀孕了。

利用数据挖掘用户的行为习惯和喜好,在凌乱纷繁的数据背后发掘出更符合用户兴趣和习惯的信息、产品和服务,并对这些目标化的信息、产品和服务进行针对性地调整和优化,这便是大数据能带给商家最诱人的价值之一。

随着社交网络在人们生产生活中地位的快速提升,大量UGC(User Generated Content用户自生成的内容)进入互联网,上述价值的实现也变得越来越明显。

事实上,全球IT业巨头都已经意识到数据的重要意义和“大数据”时代的到来。包括IBM、EMC、惠普、微软在内的全球知名跨国公司都陆续通过收购与“大数据”相关的厂商来实现技术整合。

目前典型的大数据应用领域有:

商业智能。例如:用户行为分析,即结合用户资料、产品、服务、计费、财务等信息进行综合分析,得出细致、精确的结果,实现对用户个性化的策略控制,这在营销网络的流量经营分析中占有越来越举足轻重的地位。个性化推荐,即在各类增值业务中,根据用户喜好推荐各类业务或应用,这已成为运营商和门户提供商服务用户的一个最有效方式之一,比如应用商店的软件推荐、IPTV视频节目的点播推荐、购物或旅游网站的猜你喜欢等。

公共服务。一方面,公共机构可以利用大数据技术把积累的海量历史数据进行挖掘利用,从而提供更为广泛和深度的公共服务,如实时路况和交通引导;另一方面,公共机构也可以通过对某些领域的大数据实时分析,提高危机的预判能力,如疾病预防、环境保护等,为实现更好、更科学的危机响应提供技术基础。

政府决策。通过对数据的挖掘,从而有效提高政府决策的科学性和时效性。例如:日本大地震发生后仅仅9分钟,美国国家海洋和大气管理局(NOAA)就了详细的海啸预警。并且随即NOAA通过对海洋传感器获得的实时数据进行了计算机模拟,制定出详细的应急方案,并将制作的海啸影响模型实时在了YouTube等网站上。

3大数据解决方案的现状分析

以往谈及大的数据通常用来形容一个公司创造的大量非结构化和半结构化的数据。如今把“大数据”作为一个专有名词提及,通常指的是解决问题的一种方法,即通过收集和整理生产生活中方方面面的数据,然后对其进行整理、挖掘、分析、处理,进而从中获得有用的价值信息。这种衍化出的新的商业模式即为通常意义上的大数据解决方案。

虽然通常意义上的大数据解决方案描述了一种通常的行为,但要实现这种通常的行为,往往会遇到诸多技术和硬件上的问题。一个显而易见的问题就是:大数据包络万象,而且像音频、文本信息、视频、图片等非结构化数据正以突飞猛进的速度增长,加上移动互联网的普及所带来的如位置、生活信息等富含价值的数据,现有的,或者传统的对数据的处理手段和硬件配置已越来越跟不上数据发展的步伐。

于是革命爆发了!

哈佛大学社会学教授加里·金就说道:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”

数据需要存储,存储需要设备,存储设备的容量和可扩展性以及读取的速度成为了一大问题(容量问题);大数据不是一日而成的,往往都需要一定周期的积累,在数据的积累过程中,以前的数据和现在的数据在存储上应该是能保持一致的,无论设备升级与否,而且这些数据要长期有效,这是一个持久的问题(积累问题);与持久相对应的,互联网是变化的、经济活动是变化的、整个世界都是变化的,针对某些实时问题,如交易、金融等,用已经过去的数据显然是不合适的,这也是一大问题(延迟问题);大数据包络万象,有些是可以随意获得、和消除的,有些,如金融数据、医疗信息、政府情报等,则是需要按不同级别进行保护和加密的,特别是在需要交叉数据参考的应用中,不同部分的数据有着不同的安全需要,这又是一大问题(安全问题);为了满足上述问题,我们显然可以通过不断加大投入,购买更多的存储设备、雇佣跟多的工作人员、建设更多的数据中心和分析中心,但这一切都是由成本的,特别是对于以盈利为目的的商业机构而言,成本和收益永远都是最优先考虑的问题之一(成本问题);当然还有很多其他的问题,这里就不一一罗列了。

驱动商业机构解决上述问题的动力肯定是商业利益。以全球知名的IT制造与服务和咨询提供商IBM为例,其全球CEO调研显示,唯有在数据获取、将数据转换为洞察力、再将洞察力转化为行动力等方面表现优秀的企业,才能有持续的绩效表现。绩效突出者从海量数据中挖掘出有价信息的能力是绩效不佳者的2倍。

IBM认为由于当今企业、市场、社会、政府之间的联系变得越来越紧密,传统的数据分析正日益呈现出“大数据”时代的新特点,即容量要求更高、速度要求更快、数据类型多样和数据来源复杂4个方面。结合多家领先市场咨询机构的调研数据显示:

2010-2015年,“大数据”市场年均符合增长率为39.4%,将是整个信息与通信技术市场增速的7倍;管理及维护数据的成本将是购买存储设备所需成本的4倍;全球数据量的年均复合增长速度为59%;未来需要分析的信息源中,混合类型数据所占比重将高达85%;数据分析直接受到服务器性能制约的数据量将占到总体的87%;仅2012年一年,服务器在整体“大数据”市场投资中就将占去14%的比重。

这就意味着传统计算的低效正在为企业发展带来阻碍,企业感到当前的IT系统变得更加复杂且难以管理。数据显示:企业用于运营和维护IT系统的费用已经超过整体预算的70%,并且这一比例仍在持续增长;企业有三分之二的IT项目及解决方案部署超出了原定计划;IT架构的复杂度将以当前速度每两年就增加一倍。

于是出乎绝大多数人意料的事情发生了:IT部门,这个曾经作为企业现代化和创新化能力标志的部门,正越来越成为企业新创新的阻力而非动力。

怎么办?

很多人立即想到了另外一个热词:“云计算”。

IBM全球高级副总裁Rod Adkins认为,当前全球IT领域有了令人振奋的发展趋势和挑战,现在每天有大量数据和信息生成,这为大数据分析提供了机会;数据中心的挑战也为IT提供了新机会,比如云计算,能降低数据中心成本。

EMC资深产品经理李君鹏认为,大数据本身就是一个问题集,云技术是目前解决大数据问题集最重要有效的手段。云计算提供了基础架构平台,大数据应用在这个平台上运行。目前公认处理大数据集最有效手段的分布式处理,也是云计算思想的一种具体体现。Teradata技术总监Stephen Brobst则表示,公有云架构对数据仓库没有影响,因为企业的CIO不会无缘无故把财务数据或者客户数据放到云上,那样很危险。然而,是私有云架构确实有影响:第一,通过私有云,可以巩固数据集市,减少利用率不足的问题;第二,可以通过灵敏的方式将数据集成,实现业务价值。

于是有人就此理解为:大数据的最佳解决方案是采用云计算和分布式处理,利用互联网将运算能力、存储能力都做分布式的处理,认为这样做就可以最大程度上地降低成本、增加扩展性和灵活性。

然而事实真的如此吗?

让我们来分析一下最近IBM公司在国内针对百万人口的城市级信息中心制定的解决方案:

面对数量庞大且增长迅速的各类交通信息:120万辆机动车电子卡、4万辆机动车的实时GPS定位、200万笔公交IC卡数据、518个高清卡口的113亿张图片等,该市信息中心的领导意识到,当前多个项目能源消耗大、占地要求非常高、并且原有的网络设备难以满足新增的需求,网络设备经常更换,并且这些相互独立的数据库、服务器和存储,以及不同的访问权限和没有统一的管理界面,让本就压力巨大的数据中心的效率大打折扣,同时也极大浪费了宝贵的人力、能源和其他各种资源。

IBM给出的解决方案是:

首先,在基础平台上摒弃了分布式的服务器架构,而是采用大型服务器在基础架构上对处理能力、I/O吞吐和主存储进行了整合,这样做的最大亮点是,将原有成百计的分布式服务器整合到了个位数,极大地节省了空间和能源,做到绿色环保;因为不用考虑各分布式服务器之间的互通互联和各服务器之间的状态及负载均衡与调配,节省了相当数量的管理人员;另外大型服务器自身端到端的管理功能和适用于异构工作负载且基于策略的框架,有效帮助信息中心实现中心控制,实现极高的性能。

其次,在整合的基础平台之上,采用“云计算”框架虚拟化设计,实现了智能交通和政务网站的整合。这一方案让用户在使用上可以享受与分布式架构相同甚至更加优越的性能。由基础平台通过虚拟化形成的任意数量的虚机,在统一云管理软件URM的配置下,能够提供统一的管理视图和管理机制,简化在多套异构业务系统环境下系统的运营和维护工作。

而在本方案中的存储部分则采用了运行稳定、性能领先、技术成熟的SAN网络架构,具有很好的稳定性,能为前端各应用提供可靠的数据存储平台,并且整个SAN网络中的部件都配置了双冗余组件,保证任一部件的损坏不会影响整个系统的运行,而关键数据库的数据都通过合理的备份策略,定期备份在了物理磁带上,保证关键数据的绝对安全。

总结下来,整合的基础平台,“云计算”框架的虚拟化设计,和定制化的高速存储,打造出了最稳定、最可靠、最安全、最绿色的运行环境,让政府的大数据应用完美落地。

可见,大数据的解决方案不同于纯粹云计算的解决方案,虽然云计算带来了看上去更便宜的处理能力和存储能力,但对于往往都有相当数量级规模的大数据应用而言,在基础架构上巧妙地整合和部分的集中,反而能更好地解决安全性、可靠性、稳定性和绿色环保的需要。

4结束语

数据解决方案篇4

相信大家都还记得2013年5月10日淘宝十周年晚会上,阿里巴巴集团董事局主席马云在其卸任集团CEO职位的演讲中说到:“大家还没搞清PC时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。”

什么是大数据?

早在1980年,当时著名的未来学家阿尔文·托夫勒便在其著作《第三次浪潮》中热情洋溢地将大数据赞颂为“第三次浪潮的华彩乐章”。不过直到时光抵达2009年,“大数据”才开始成为互联网信息技术行业的流行词汇。

环顾四周,我们都已经切身感受到了当今的信息量正在以前所未有的速度膨胀。当我们的普通民众在上世纪90年代刚刚接触个人计算机的时候,1MB的磁盘,1GB的硬盘已经是不错的配置。然而现在呢?GB、TB都已经无法满足我们丈量数据大小的需要,PB、EB、ZB已经义无反顾地承担起了丈量数据的大任。

随着互联网自媒体的普及,每天都有数以亿计的人在发微博、写微信、更新个人主页、使用社交网站、发表个人评论……全球互联网上每天会有220万TB的新数据产生,90%的数据都是在过去的24个月内创造出来的,如今,这个比例还在不断上升。

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中,他们对大数据的表述是:大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。他们对大数据的特性进行了归纳,提出了4V特点,即Volume(数据量大)、Velocity(要求实时性强)、Variety(数据的种类多样)、Value(数据是有价值的)。

而《互联网周刊》则认为“大数据”的概念远不止大量的数据和处理大量数据的技术,或者所谓的“4V特点”之类的简单概念。大数据是涵盖了人们在大规模数据的基础上所能做到的事务,而这些事务在小规模数据的基础上是无法实现的。换句话说,大数据让我们能够以一种前所未有的方式,通过对海量数据进行分析,获得具有巨大价值的产品和服务,或者深刻的洞见,进而最终形成变革世界的力量。

2 大数据应用的现状分析

最早提出世界已经迎来“大数据”时代的机构则是全球知名的咨询公司——麦肯锡。麦肯锡在其研究报告中指出:数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。

大家都或多或少地意识到应该能从这些海量的数据中获取些什么,然而究竟我们能获取到什么呢?

一个被广为传播的典型案例是:在2012年初美国的一家Target超市,一位愤怒的父亲突然闯进来对店铺经理咆哮道:“你们竟然给我17岁的女儿发婴儿尿片和童车的优惠券,她才17岁啊!”经理下意识地认为是店里出了问题,也许是误发了优惠券,于是立即向这位父亲道歉。然而经理却没有意识到,其实这是公司正在运行的一套大数据系统得出的分析结论。

Target会从其会员的购买记录中去了解该顾客的性格、类别等一些列业务活动。上面的例子正是Target为适龄女性创建的一套怀孕期变化分析模型,如果相关客户第一次购买了婴儿用品,系统将会在接下去的几年中根据婴儿的生长周期向顾客推荐相关的产品,从而培养和提高客户的忠诚度。

果然,一个月后,该名愤怒的父亲打电话给商铺道歉,因为Target发来的婴儿用品优惠券不是误会,他的女儿确实怀孕了。

利用数据挖掘用户的行为习惯和喜好,在凌乱纷繁的数据背后发掘出更符合用户兴趣和习惯的信息、产品和服务,并对这些目标化的信息、产品和服务进行针对性地调整和优化,这便是大数据能带给商家最诱人的价值之一。

随着社交网络在人们生产生活中地位的快速提升,大量UGC(User Generated Content用户自生成的内容)进入互联网,上述价值的实现也变得越来越明显。

事实上,全球IT业巨头都已经意识到数据的重要意义和“大数据”时代的到来。包括IBM、EMC、惠普、微软在内的全球知名跨国公司都陆续通过收购与“大数据”相关的厂商来实现技术整合。

目前典型的大数据应用领域有:

商业智能。例如:用户行为分析,即结合用户资料、产品、服务、计费、财务等信息进行综合分析,得出细致、精确的结果,实现对用户个性化的策略控制,这在营销网络的流量经营分析中占有越来越举足轻重的地位。个性化推荐,即在各类增值业务中,根据用户喜好推荐各类业务或应用,这已成为运营商和门户提供商服务用户的一个最有效方式之一,比如应用商店的软件推荐、IPTV视频节目的点播推荐、购物或旅游网站的猜你喜欢等。

公共服务。一方面,公共机构可以利用大数据技术把积累的海量历史数据进行挖掘利用,从而提供更为广泛和深度的公共服务,如实时路况和交通引导;另一方面,公共机构也可以通过对某些领域的大数据实时分析,提高危机的预判能力,如疾病预防、环境保护等,为实现更好、更科学的危机响应提供技术基础。

政府决策。通过对数据的挖掘,从而有效提高政府决策的科学性和时效性。例如:日本大地震发生后仅仅9分钟,美国国家海洋和大气管理局(NOAA)就了详细的海啸预警。并且随即NOAA通过对海洋传感器获得的实时数据进行了计算机模拟,制定出详细的应急方案,并将制作的海啸影响模型实时在了YouTube等网站上。

3 大数据解决方案的现状分析

以往谈及大的数据通常用来形容一个公司创造的大量非结构化和半结构化的数据。如今把“大数据”作为一个专有名词提及,通常指的是解决问题的一种方法,即通过收集和整理生产生活中方方面面的数据,然后对其进行整理、挖掘、分析、处理,进而从中获得有用的价值信息。这种衍化出的新的商业模式即为通常意义上的大数据解决方案。

虽然通常意义上的大数据解决方案描述了一种通常的行为,但要实现这种通常的行为,往往会遇到诸多技术和硬件上的问题。一个显而易见的问题就是:大数据包络万象,而且像音频、文本信息、视频、图片等非结构化数据正以突飞猛进的速度增长 ,加上移动互联网的普及所带来的如位置、生活信息等富含价值的数据,现有的,或者传统的对数据的处理手段和硬件配置已越来越跟不上数据发展的步伐。

于是革命爆发了!

哈佛大学社会学教授加里·金就说道:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”

数据需要存储,存储需要设备,存储设备的容量和可扩展性以及读取的速度成为了一大问题(容量问题);大数据不是一日而成的,往往都需要一定周期的积累,在数据的积累过程中,以前的数据和现在的数据在存储上应该是能保持一致的,无论设备升级与否,而且这些数据要长期有效,这是一个持久的问题(积累问题);与持久相对应的,互联网是变化的、经济活动是变化的、整个世界都是变化的,针对某些实时问题,如交易、金融等,用已经过去的数据显然是不合适的,这也是一大问题(延迟问题);大数据包络万象,有些是可以随意获得、和消除的,有些,如金融数据、医疗信息、政府情报等,则是需要按不同级别进行保护和加密的,特别是在需要交叉数据参考的应用中,不同部分的数据有着不同的安全需要,这又是一大问题(安全问题);为了满足上述问题,我们显然可以通过不断加大投入,购买更多的存储设备、雇佣跟多的工作人员、建设更多的数据中心和分析中心,但这一切都是由成本的,特别是对于以盈利为目的的商业机构而言,成本和收益永远都是最优先考虑的问题之一(成本问题);当然还有很多其他的问题,这里就不一一罗列了。

驱动商业机构解决上述问题的动力肯定是商业利益。以全球知名的IT制造与服务和咨询提供商IBM为例,其全球CEO调研显示,唯有在数据获取、将数据转换为洞察力、再将洞察力转化为行动力等方面表现优秀的企业,才能有持续的绩效表现。绩效突出者从海量数据中挖掘出有价信息的能力是绩效不佳者的2倍。

IBM认为由于当今企业、市场、社会、政府之间的联系变得越来越紧密,传统的数据分析正日益呈现出“大数据”时代的新特点,即容量要求更高、速度要求更快、数据类型多样和数据来源复杂4个方面。结合多家领先市场咨询机构的调研数据显示:

2010-2015年,“大数据”市场年均符合增长率为39.4%,将是整个信息与通信技术市场增速的7倍;管理及维护数据的成本将是购买存储设备所需成本的4倍;全球数据量的年均复合增长速度为59%;未来需要分析的信息源中,混合类型数据所占比重将高达85%;数据分析直接受到服务器性能制约的数据量将占到总体的87%;仅2012年一年,服务器在整体“大数据”市场投资中就将占去14%的比重。

这就意味着传统计算的低效正在为企业发展带来阻碍,企业感到当前的IT系统变得更加复杂且难以管理。数据显示:企业用于运营和维护IT系统的费用已经超过整体预算的70%,并且这一比例仍在持续增长;企业有三分之二的IT项目及解决方案部署超出了原定计划;IT架构的复杂度将以当前速度每两年就增加一倍。

于是出乎绝大多数人意料的事情发生了:IT部门,这个曾经作为企业现代化和创新化能力标志的部门,正越来越成为企业新创新的阻力而非动力。

怎么办?

很多人立即想到了另外一个热词:“云计算”。

IBM全球高级副总裁Rod Adkins认为,当前全球IT领域有了令人振奋的发展趋势和挑战,现在每天有大量数据和信息生成,这为大数据分析提供了机会;数据中心的挑战也为IT提供了新机会,比如云计算,能降低数据中心成本。

EMC资深产品经理李君鹏认为,大数据本身就是一个问题集,云技术是目前解决大数据问题集最重要有效的手段。云计算提供了基础架构平台,大数据应用在这个平台上运行。目前公认处理大数据集最有效手段的分布式处理,也是云计算思想的一种具体体现。Teradata技术总监Stephen Brobst则表示,公有云架构对数据仓库没有影响,因为企业的CIO不会无缘无故把财务数据或者客户数据放到云上,那样很危险。然而,是私有云架构确实有影响:第一,通过私有云,可以巩固数据集市,减少利用率不足的问题;第二,可以通过灵敏的方式将数据集成,实现业务价值。

于是有人就此理解为:大数据的最佳解决方案是采用云计算和分布式处理,利用互联网将运算能力、存储能力都做分布式的处理,认为这样做就可以最大程度上地降低成本、增加扩展性和灵活性。

然而事实真的如此吗?

让我们来分析一下最近IBM公司在国内针对百万人口的城市级信息中心制定的解决方案:

面对数量庞大且增长迅速的各类交通信息:120万辆机动车电子卡、4万辆机动车的实时GPS定位、200万笔公交IC卡数据、518个高清卡口的113亿张图片等,该市信息中心的领导意识到,当前多个项目能源消耗大、占地要求非常高、并且原有的网络设备难以满足新增的需求,网络设备经常更换,并且这些相互独立的数据库、服务器和存储,以及不同的访问权限和没有统一的管理界面,让本就压力巨大的数据中心的效率大打折扣,同时也极大浪费了宝贵的人力、能源和其他各种资源。

IBM给出的解决方案是:

首先,在基础平台上摒弃了分布式的服务器架构,而是采用大型服务器在基础架构上对处理能力、I/O吞吐和主存储进行了整合,这样做的最大亮点是,将原有成百计的分布式服务器整合到了个位数,极大地节省了空间和能源,做到绿色环保;因为不用考虑各分布式服务器之间的互通互联和各服务器之间的状态及负载均衡与调配,节省了相当数量的管理人员;另外大型服务器自身端到端的管理功能和适用于异构工作负载且基于策略的框架,有效帮助信息中心实现中心控制,实现极高的性能。

其次,在整合的基础平台之上,采用“云计算”框架虚拟化设计,实现了智能交通和政务网站的整合。这一方案让用户在使用上可以享受与分布式架构相同甚至更加优越的性能。由基础平台通过虚拟化形成的任意数量的虚机,在统一云管理软件URM的配置下,能够提供统一的管理视图和管理机制,简化在多套异构业务系统环境下系统的运营和维护工作。

而在本方案中的存储部分则采用了运行稳定、性能领先、技术成熟的SAN网络架构,具有很好的稳定性, 能为前端各应用提供可靠的数据存储平台,并且整个SAN网络中的部件都配置了双冗余组件,保证任一部件的损坏不会影响整个系统的运行,而关键数据库的数据都通过合理的备份策略,定期备份在了物理磁带上,保证关键数据的绝对安全。

总结下来,整合的基础平台,“云计算”框架的虚拟化设计,和定制化的高速存储,打造出了最稳定、最可靠、最安全、最绿色的运行环境,让政府的大数据应用完美落地。

可见,大数据的解决方案不同于纯粹云计算的解决方案,虽然云计算带来了看上去更便宜的处理能力和存储能力,但对于往往都有相当数量级规模的大数据应用而言,在基础架构上巧妙地整合和部分的集中,反而能更好地解决安全性、可靠性、稳定性和绿色环保的需要。

4 结束语

大数据为云计算大规模与分布式的计算能力提供了应用的空间,解决了传统计算机无法解决的问题,海量的数据需要足够存储来容纳它,快速、低廉、绿色的数据中心将成为这一切的关键。

然而大数据并不意味着整合的、集中式的服务器架构已走向了末路,相反,大数据所带来的规模效应,使得我们越来越需要更加高效可靠的大型整合的混合负载服务器,巧妙地整合和适当的集中,将成为大数据解决方案里重要的一种思想和方向,特别是针对关键行业的核心数据,高安全、高可靠、高稳定将始终是使用者的首要考虑。

参考文献:

[1] 维克托·迈尔-舍尔维恩,肯尼斯·库克耶.大数据时代[M].杭州:浙江人民出版社,2013.

数据解决方案篇5

【关键词】 数据容灾 两地三中心

故宫博物院,建立于1925年10月10日,是在明朝、清朝两代皇宫及其收藏的基础上建立起来的中国综合性博物馆,也是中国最大的古代文化艺术博物馆,其文物收藏主要来源于清代宫中旧藏。

故宫博物院保存着各种文字、图片、流媒体信息,数据存储量大,种类多,随着馆藏的不断积累和丰富,拥有一套完整的网络数字化资源已经是最基本必不可少的基础设施,其规模和使用水平已经成为衡量一个博物馆现代化管理水平的一个重要依据。而作为越来越重要的博物馆数据资源,其安全性将是重中之重。因此,针对超大容量的数字图像信息、视音频信息和标本数据的安全性,迫切需要一套大容量、高性能的存储设备进行集中数据存储,并建立起一套合理的容灾方案,以便于管理、保存、易用的数字化资源存放,实现博物馆数据资源的数据保护管理。

根据故宫博物院信息化建设规划,将在数据集中的基础上,建立容灾备份中心,并在将来形成两地三中心的数据容灾方式。经过与故宫博物院领导和容灾技术专家的交流,根据故宫博物院的业务需求和系统规划提出容灾系统解决方案。

1 故宫博物院容灾方案系统需求

1.1 系统现状

故宫博物院主要信息系统系统包括办公系统、业务系统以及数据采集、加工和利用系统。办公系统和业务系统主要以服务器为主的运行模式,部门系统采用了数据集中存储的方案。数据采集、加工和利用系统通过NAS存储作为临时存储介质,对加工完成的数据通过FC SAN的架构统一的存储到专门的系统核心存储设备中。

对于数据保护方案部分,通过NBU备份软件,将重要的数据备份到带库或者是磁盘阵列中。

如何为上述业务系统提供灾难备份支持,确保了业务系统的7×24×365的业务连续性,实现了无数据丢失的灾难备份系统。将是故宫博物院信息系统下一步的建设目标。

1.2 建设目标

根据故宫博物院现行的容灾规划,容灾项目建设分成两个部分:

(1)同城容灾规划:故宫中心机房:主数据中心,用于业务的生产运行,作为集中监控中心。北京同城容灾机房:同城备份数据中心,用于在主数据中心出现短期无法解决的故障或非区域性灾难时,将部分业务或全部应用系统切换到同城备份数据中心。

(2)异地容灾规划:异地容灾机房:异地备份数据中心,用于北京发生区域性灾难发生时,在较短的时间内进行关键的业务应用系统恢复。

3 故宫博物院数据保护方案

在对故宫博物院生产中心现有环境进行细致分析的基础上,充分了解异地灾备与同城灾备建设的系统需求,严格遵循故宫博物院数据保护规划的容灾策略和设计原则,本容灾方案,包含异地灾备和同城灾备总体方案,涵盖生产中心存储整合,以及同城灾备中心、异地灾备中心建设几个主要部分。

3.1 故宫博物院数据同城容灾方案

我们在规划灾难恢复方案时,首先应根据具体业务要求明确灾难恢复方案所要达到的目标。因为不同的灾难恢复目标,会有不同的灾难恢复技术实现方案,以及炯然不同的投资规模和运行成本。通过存储设备的MirrorView同步镜像方案,实现同城容灾。

MirrorView的实施和主机、操作系统、数据库透明,即不占用主机、操作系统、数据库。而且不同的主机、操作系统、数据库可以通过一套MirrorView实现容灾。MirrorView同时支持双向的容灾互备。MirrorView用来复制基于SAN存储网络的数据。(见图1)

在异地容灾建设过程中,可根据实际情况进行分步实施。

针对故宫博物院的需求,建议采用基于存储阵列的Mirror View中心容灾方案。在北京生产中心和同城灾备中心,建议采用基于存储阵列的无数据丢失的Mirror同步容灾方案。这种方案能够在保障生产系统正常运行、性能不受影响的前提下,实现数据0丢失。

3.2 故宫博物院数据异地容灾方案

为了进一步提高数据安全性的保护,故宫博物院在实现同城容灾的基础上建立两地三中心的异地灾备中心,防范区域级的灾难。根据故宫博物院的信息化发展规划,先建设北京同城容灾中心的基础上,规划建设异地容灾中心;最终形成2地3中心的容灾架构(见图2)。

这样一个同城灾备加上异地灾备的三中心灾备方案,根据容灾规划,生产数据中心作为总行生产中心,运行绝大部分业务系统,并且作为集中的监控中心。同城备份中心实现与生产中心应用级的灾备功能,确保RTO和RPO范围内的业务持续运行,防御非区域性灾难。异地数据容灾中心实现数据级的备份,常规情况下用于测试系统,用于防御重大区域性灾难。

在北京生产中心和同城灾备中心到异地灾备中心之间建立基于磁盘阵列的Mirror异步数据复制,实现无距离限制、无数据丢失的远程数据备份方案。

生产中心的磁盘阵列与同城灾备中心磁盘阵列保持同步关系。同城灾备中心与异地备份中心间磁盘阵列为异步关系。

在正常运行时,将生产中心的存储系统设置成源磁盘,将同城灾备中心的存储系统设置成目标磁盘,这样源磁盘中的数据就会在MirrorView的管理下通过数据备份通道镜像至目标磁盘之上,Mirror同步方式可以保证写入磁盘的数据绝对不会丢失。

当生产系统发生灾难性故障时,利用同城灾备中心同步的Mirror备份数据和同城灾备中心的备份机,可有效的将生产数据恢复到完全一致的生产状态。

与此同时同城灾备中心MirrorView将实时传送至异地的灾备中心,保证同城区灾难备份系统完整性和远程备份系统的有效性、自动化。

灾难备份系统在灾难发生后能否快速接替或恢复系统工作,使业务系统尽快恢复运行,需要强有力的组织、管理工作和多种规程予以保障。得当的组织管理工作、训练有素的人员可以大大缩短恢复的时间,组织管理工作是灾难恢复工作中的重要一环。

数据解决方案篇6

文章首先对Oracle数据库应用中存在的主要问题进行了简要分析,在此基础上提出解决Oracle数据库应用问题的有效方案。期望通过本文的研究能够对Oracle数据库的推广应用有所帮助。

【关键词】Oracle数据库 应用 问题

1 Oracle数据库应用中存在的主要问题分析

Oracle数据库是一种关系型数据库管理系统,其体系结构如图1所示。

Oracle数据库的应用优势主要体现在如下几个方面:数据量大、数据保存时间长、所有数据全部可以实现共享、数据的可靠性较高、稳定性好等等。正是因为Oracle数据库所具有的这些优势,使其获得了广大使用者的认可。然而,该数据库在实际用于却存在一些问题,这在一定程度上影响了Oracle数据库的应用。

1.1 表空间数据删除引起的问题

对于Oracle数据库而言,它的表空间之间相关的数据有两种关系,一种是1对1的关系,另一种是1对多的关系,当需要永久性删除某个表空间时,这个将要被删除的表空间应当处于脱机状态,随后调取数据字典将对应的项目信息删除,再将操作系统目录中的数据文件删除即可。上述删除过程必须按照指定的顺序进行操作,若是先将表空间的数据文件删除,该表空间便无法找到存储媒体,由此可能会引起数据库应用异常,如数据库无法正常启动或关闭等。

1.2 字符集转换的问题

在Oracle数据库的应用中,中英文字符集的转换常常会出现问题,例如,开始应用该数据库时,要求使用英文的字符集,然后便选择英文字符集进行安装,在使用的过程中,由于一些新项目的增加,要求使用中文字符集,若是不对字符集进行转换,新增项目的汉字部分将会显示为3个“?”,由此给数据库的应用带来一定的影响。

1.3 回滚段联机产生的问题

在对Oracle数据库进行应用的过程中,回滚段联机是一个较为常见的问题,也是困扰大部分使用者的主要问题之一。数据库的使用者在对具体应用项目进行安装时,一般都是参照说明书的要求进行安装,由此可能会引起如下问题,即创建回滚段,然后联机,但却并未将之加入到数据库的初始化文件当中,当数据库重启之后,安装的回滚段便会处于脱机状态,这对使用者的应用带来了一定程度的影响。

2 解决Oracle数据库应用问题的有效方案

为了有效解决Oracle数据库应用中出现的各种问题,应当对数据库的性能进行优化,具体可从以下几个方面着手:

2.1 对数据库进行优化设计

想要使Oracle数据库的应用性达到最优,就必须要有一个良好的设计方案,从而使其各方面性能都达到使用者的要求,这样便能够避免实际应用中各种问题的发生。Oracle数据库的设计大体上可以分为两个方面,一方面是逻辑设计,另一方面是物理设计,在前者的设计中主要是为了将数据库中的一些冗余数据全部消除,借此来提高数据的吞吐速度,使数据的完整性得到保障,但对于大数据表而言,可能会影响其性能。所以,在物理设计的过程中,要进行综合考虑,并按照关联表当中的数据量大小以及对数据项访问的频繁程度,提高查询较为频繁的数据表冗余设计,以此来满足应用需要。

2.2 应用程序优化

相关统计结果显示,通过对应用程度进行优化,可以使数据库的性能提高60%左右。由此可见,对应用程序进行优化是提高Oracle数据库性能最为有效的途径之一,随着数据库性能的提升,其应用方面存在的问题会获得有效解决。可以通过对源代码和SQL语句两个方面对应用程序进行优化。通常情况下,SQL语句会消耗数据库中70%-90%的资源,它的执行效率高低直接关系到数据库本身的性能。为此,可对部分劣质的SQL语句进行调整,并对数据库的访问方法进行优化改进,借此来改善数据库系统的整体性能,从而提高其内存区的命中率,大幅度减少对网络带宽的占用以及I/O访问。

2.3 数据库内存分配的优化调整

对于Oracle应用实例而言,其通常都是由Oracle后台进程与SGA的一个内存区组成,在应用实例当中,SGA使用效率的高低会对数据库的性能产生极大的影响,鉴于此,可在具体应用中按照数据库的实际运行情况,对SGA的大小进行重新调整,同时,由于内存分配是在信息系统运行时进行优化配置,所以可在对磁盘I/O的检查时对其进行优化调整。

2.4 操作系统性能的优化配置

在对Oracle数据库操作系统的性能进行优化配置时,可从以下两个方面着手:

2.4.1 规划资源

提供大量的资源是调整操作系统的主要目的之一,资源的具体分配原则为使Oracle服务器的可用资源最大化,尤其是在C/S架构中,应当尽可能使服务器的全部资源都用来运行Oracle服务。因此,操作系统应当为Oracle提供足够的内存,从而可以容纳SGA、用户进程等,这样可以有效解决换页和交换的问题。

2.4.2 优化计算机的配置

对于操作系统而言,扩大内存较为常用的方式为增加虚拟内存,这部分内存属于磁盘空间,如果实际的内存空间不足时,操作系统便会将磁盘空间与内存当中的信息进行页面交换,由此会导致磁盘I/O的操作量增大,从而影响服务器的性能。通过对计算机的优化配置,可以有效减少内存的交换和分页。

3 结论

综上所述,Oracle数据库以其自身诸多的应用优势获得了使用者的一致认可,但在实际应用中,却常常会出现一些问题。为此,可以从提高Oracle数据库性能方面着手,通过各种优化措施,解决Oracle数据库应用中存在的问题,这对于促进Oracle数据库的大范围推广应用具有重要意义。

参考文献

[1]万娟.Oracle数据库应用中出现的问题及其对策[J]现代经济信息,2015(18).

[2]王春丽,王海飞.Oracle数据库安全问题探析与应对策略[J]电子世界,2016(14).

数据解决方案篇7

关键词: 大数据;电信网络;精简架构;数据即服务

Abstract: In this paper, we discuss a number of domestic and international big-data telecommunications architectures and propose our own lean big-data architecture. This new architecture combines the practical application scenarios of operators, and the universal large platform is abandoned. There are two directions in big-data development: improving business efficiency and providing data as a service (DaaS). Capturing, managing, and mining core data of a telecom operator is the basis for service implementation. Rapid deployment and application of big data is the final target. A balance also needs to be struck between in efficiency, cost and time when deploying a big-data architecture.

Key words: big data; telecommunications network; lean architecture; data as a service

中图分类号:TN915.03; TP393.03 文献标志码:A 文章编号:1009-6868 (2013) 04-0039-003

1 电信运营商建设大数据

思路及关键技术

运营商的网络和用户是运营商的核心资产,而其中流动的数据(包括用户配置基础数据、网络信令数据、网管/日志数据、用户位置数据、终端信息)是运营商的核心数据资产。对于运营商来说,最有价值的数据来自基础电信网络本身,对于基础管道数据的挖掘和分析是运营商大数据挖掘的最重要方向。抓取、管理和挖掘这些数据是运营商的当务之急[1-2]。运营商基于核心数据的大数据应用可从两个方面入手:

(1)通过大数据应用提升自身运营效率。比较典型的应用包括:信令多维分析、网络综合管理及分析、业务和运营支撑系统(BOSS)经营综合分析、精准营销等。

(2)通过数据即服务(DAAS)拓展新的服务内容,提供对外服务。包括个体及群体的位置信息以及用户行为分析等,对于第三方公司(比如零售业或者咨询公司、政府等)都是非常有价值的信息。运营商可以基于这些数据提供对外DAAS服务,拓展市场空间。

为了构建电信运营的大数据应用,从技术能力的角度可以分为数据收集与存储、信息检索汇聚、知识发现以及智慧4个层面。电信大数据技术层面如图1所示。自下而上数据挖掘深度增加,难度加大,对于系统的智能需求提升。其中关键的技术包括抽取转换装载(ETL)、并行计算框架、分布式数据库、分布式文件系统和数据挖掘、机器学习等。

面对海量的大数据,如何有效进行数据处理是需要解决的迫切问题,分布式并行处理是有效手段。传统关系型数据库多采用共享磁盘(Sharing-disk)架构,当数据量达到一定程度,将面临处理的“瓶颈”以及扩展的困难,同时成本也偏高。当前有效的做法是采用分布式文件系统/分布式数据库结合做分布并行处理。目前基于开源的Hadoop平台是业界采用较广泛的一个实现方案。Hadoop[3]的核心思想是基于Hadoop分布式文件系统(HDFS)存储文件或者基于HBase数据库(也是基于HDFS),使用分布式并行计算框架MapReduce来并行执行分发Map操作以及Reduce归约操作。在Hadoop的计算模型中,计算节点与存储节点合一。存储数据的普通PC服务器可以执行MapReduce的任务。而在Sharing-disk模型中,存储节点与计算节点是分离的,存储的数据需要传送到计算节点做计算。Hadoop计算模型适合离线批处理的场景,比如Log日志分析、文档统计分析等。它是关系型数据库管理系统(RDBMS)的有益补充。

在私有技术上实现分布式存储和并行处理,在调用接口上与Hadoop兼容,这是一个可行的技术方案。这种方案可以避免上述Hadoop的缺点,同时在性能上做更多的优化。有效的手段包括增加数据本地性(Data Locality)特性,在多次迭代的计算过程减少数据在不同节点之间的传送;使用索引和缓存加快数据的处理速度。结合存储和计算硬件进行调优也是有效的手段,可以使用数据的分层存储,将数据分布在内存、固态硬盘(SSD)、硬盘等不同介质上[4],使得与计算资源达到很好的平衡。

面对海量数据实时性的要求,比较有效的方式是采用复杂事件处理(CEP)[5]。实时流处理采用事件触发机制,对于输入的事件在内存中及时处理。同时对于多个事件能合成一个事件[6]。实时流处理需要支持规则以满足灵活的事件处理要求。实时流处理可以使用分布式内存数据库、消息总线等机制来实现快速实时响应。目前商用的CEP产品有不少,但是在功能、性能以及适用范围上有较大差异,选择成熟度高以及合适的产品是关键。

针对大数据中大量的半结构化或者非结构数据,NoSQL数据库应运而生。NoSQL数据库放弃关系模型,弱化事务,支持海量存储、高可扩展性、高可用及高并发需求。NoSQL数据库在特定应用场景下有很高的优势,是传统数据库的有效补充。按照数据模型,NoSQL主要有四大类:键-值(Key-Value)型、列存储型、文档型、图型,它们对应不同的应用场景。比如Key-Value型适合简单键-值对的高效查询,而图型适合社交关系的存储和高效查询。

针对大数据挖掘分析、搜索以及机器自适应学习等技术在企业系统中逐步应用。相关的算法种类很多,当前需求较多的是分布式挖掘和分布式搜索。

由于数据类型以及数据处理方式的改变,传统ETL已经不适用。运营商需要根据应用场景做不同的规划。目前来说,由于运营商应用系统差别较大,尚未有一种统一的处理模式。比较可行的一种方法是依据数据的功用以及特性做分层处理,比如大量的数据源首先做初筛,初筛完之后有部分数据进入数据仓库或者RDBMS或者其他应用。初筛可以使用Hadoop或者CEP或者定制的方式来完成。

针对运营商的不同应用场景,需要采用不同的技术或者技术组合。比如用户实时详单查询,数据量巨大,但是它的数据类型简单,数据以读为主,不需要复杂的Join操作,数据的分布性好。相比传统的RDBMS,使用Hadoop可以大大提升查询性能,降低处理成本。更多的应用可能需要多种技术的组合。比如信令采集及多维分析,信令数据特别是分组域(PS)信令数据量大且实时性要求高,有效解决海量数据处理与实时性要求是它的关键,需要CEP与Hadoop的组合。在当前阶段,不同的技术成熟度不一,由于业界大数据应用进展较快,我们认为当前针对不同应用的精简方案是最合适的,也就是依据应用场景,挑选最合适的组件做组合,摒弃通用化的大平台。

2 中兴通讯大数据实践

中兴通讯依托在云计算等领域的长期积累,针对大数据形成了一套完整的技术体系架构。ZTE大数据技术体系架构如图2所示。架构依据运营商的不同的应用需求,注重采用组件搭建的方式,形成端到端的精简方案。下面以两个具体的案例进行说明。

(1)用户实时位置信息服务系统

该系统实时采集蜂窝网络用户的动态位置信息,并通过规范接口提供DAAS服务。实际工程中,当期接入的用户数达两千多万,每天用户位置更新数据可达40多亿条,高峰期更新达到每秒几十万次。除了采集的位置,还可以结合其他数据源比如用户年龄等属性做分析,以应用编程接口(API)开放给上层应用。此外该系统需要有良好的可扩展性,后续可以接入其他区域的数据源。另外这套系统需要有良好的性价比,成本可控,时间可控。依据这些需求,我们在成熟的组件K-V NoSQL 数据库的基础上搭建了系统。用户实时位置信息服务系统如图3所示。

用户实时位置信息服务系统是一个典型的精简方案,它基于分布式Key-Value NoSQL数据库的分布式缓存(DCache),组装了对位置流事件实时处理的系统。DCache既是消息总线,也是内存数据库,能很好地满足实时性的要求。同时DCache基于x86刀片服务器,采用分布式架构,系统的扩展性很好,成本较低。该系统性能优越,稳定可靠,取得良好的效果。

(2)信令监测多维分析系统

随着运营商数据业务快速增长,运营商对于网络质量提升、网络运营效率有着更大的压力。通过采集网络Gn接口、Mc接口信令并加以处理分析,可以获得网络运行的完整视图,基于信令的相关专题分析,比如网络质量分析、流量效率分析、多网协同分析、客户投诉及服务分析等对于运营商网络运营有极大的价值。

信令监测多维分析的难点在于信令流量大且数据量大,比如某运营商省公司Gn接口峰值流量可以达到4 Gb/s,每天信令数据可达1 TB。需要采集信令并做多种分析以服务于不同的部门。

信令监测多维分析系统采用分层的架构,便于数据共享及和应用的扩展。信令监测多维分析系统如图4所示。使用实时流处理满足实时性高的数据分析要求,对于会话或事务详单(XDR)初步处理完的数据采用传统RDBMS存储供后续分析查询使用。对于数据量庞大的XDR采用Hadoop HBase存储并查询,原始信令采用分布式文件系统存放在本地。

在这个方案中,数据根据它的使用特性采用不同的方式存储和处理,突破RDBMS处理“瓶颈”和扩展性的“瓶颈”,达到了很好的效果。在测试中,4节点PC服务器可以全部承担某运营商省公司PS域XDR的存储,入库性能可达50 Mb/s,针对上百亿条记录查询,可以在10 s内返回。取得了很好的实践效果。

3 结束语

电信运营商面临大数据发展的机遇,都在积极推动大数据的试点和商用。在当前大数据技术快速发展的形势下,根据需求和应用场景搭建精简方案,可以帮助运营商在当前激烈竞争环境中快速获得竞争优势,在效率、成本和时间上取得最佳平衡。

参考文献

[1] Cisco Systems. Cisco visual networking index global mobile data traffic forecast update, 2011 - 2016 [EB/OL]. [2013-03-25]. http://.

[2] MANYIKA J, CHUI M, BROWN B, et al. Big data: The next frontier for innovation, competition, and productivity [R]. McKinsey Global Institute, 2011.

[3] WHITE T. Hadoop权威指南 [M]. 2版. 周敏奇, 王晓玲, 金澈清, 译. 北京:清华大学出版社, 2011.

[4] SNIA. 2012 SNIA Sprint Tutorials-NextGen Infrastructure for Big Data [EB/OL]. [2013-02-15]. http://

[5] NEUMEYER L, ROBBINS B, NAIR A, et al. S4: Distributed stream computing platform [C]//Proceedings of the IEEE International Conference on Data Mining Workshops (ICDMW’10), Dec 14-17,2010, Sydney, Australia .Los Alamitos, CA, USA: IEEE Computer Society, 2010:170-177.

[6] SHARON G, ETZION O. Event-processing network model and implementation [J]. IBM Systems Journal, 2008,47(2):321-334.

作者简介

数据解决方案篇8

企业面临数据处理难题,海智网聚打造商业数据平台

许多企业都拥有大量的数据,数据的价值越来越受到企业的重视。但是,如何把这些数据用起来,却成了中国企业普遍面临的难题。

海智网聚网络技术(北京)有限公司CTO、曾担任百度移动互联网无线搜索负责人的胡嵩对此体会颇深。他表示,许多每天跟数据打交道的企业发现自己成了神话里的西西弗斯。即便是像蒙牛、娃哈哈这样的知名企业,总部里八九成都是“表哥”或“表姐”,大量的人力资源消耗在对来自全国报表数据的汇总和完善上。他们每天80% 的时间都在做重复的工作――复制粘贴、格式整理、关联操作各个来源的数据,而最多只有20%的时间分析数据,就像西西弗斯不断重复、永无止境地将石头推向山顶。

每当听说老板要开会,数据部门乃至全公司员工就如临大敌,这意味着加班和无穷无尽的数据比对工作,而辛苦做出的图表,可能因为产品的快速周转,很多数据已经无效,这种情景几乎发生在所有大中型企业里。

到底是数据带来了价值,还是处理数据产生了巨大的成本,反而得不偿失?

胡嵩分析说,互联网时代的新贵们可以充分挖掘技术红利来解决这类问题。比如,中国最大的搜索引擎百度,每天都能产生T级的数据量,百度花了很大的人力物力逐步搭建起一套完善的数据分析平台。

但是,你要看到,整个百度做数据分析的资源加在一起,是一个上百人的研发团队和上千台机器支持。那么,非IT企业、传统制造业企业该怎么办?投入这么大的人力和财力做自己的数据平台值得吗?

两年前,胡嵩决定开发这样一款工具,帮助企业降低使用数据的门槛和成本,让数据物尽其用,让数据使用成为企业轻松具备的技能。

过去两年间,胡嵩一直和来自百度、微软、IBM、EMC、硅谷的工程师们一起潜心打造这款名为“BDP(Business Data Platform)”的商业数据平台,希望为企业打造云计算和大数据时代最顶级、最全面的商业数据平台解决方案,利用移动互联网和大数据技术帮助企业更简单高效地利用数据驱动管理。这个“工具”需要容纳企业各个来源的数据,将来自百度搜索推广、微博运营以及企业内部CRM、ERP等系统的海量数据集中在一起进行多维度的灵活分析,快速得到直观的结果,指导企业各个层级的角色做出正确的商业决策。

BDP商业数据平台甫一问世,便得到许多企业的积极反应,并且获得多家顶级风险投资基金的联合投资。

BDP帮助传统企业分析数据

蒙牛乳业集团的渠道部总监严晓峰是最早采用BDP商业数据平台的人。他抱着试试看的心理在蒙牛渠道部“1+3”项目中,尝试用这个平台对接所有的业务数据并进行梳理。

在“1+3”项目中,蒙牛渠道部每月初对上月业务情况进行回顾总结,并对下三个月进行规划。这个项目一直让严晓峰很头疼,以往各个渠道的巡店人员是通过手机将巡查结果上传到系统,数据处理人员将系统汇总后的巡查数据初步加工,完成后上传至BI系统,渠道部数据分析员通过BI系统导出数据,进行数据处理,得出月会需要用到的指标结果数据。

由于使用Excel处理大量数据时,处理速度很慢,效率极低,得到最后的结果数据需要5个人花费一整周的时间。由于是结果数据,无法将问题定位到具体门店,也无法随时随地知道数据的情况,而且数据通过报表的形式展现,可读性很差,也很难看出趋势变化。

在对接好数据库之后,胡嵩和他的团队协助蒙牛渠道部对所有业务指标进行梳理。从铺货、陈列、促销到费用,严晓峰不需要数据分析员,只需要在BDP商业数据平台上简单拖拽就可以将数据由整体逐层“钻取”到门店,再结合例外报告,将问题精确定位到门店。管理者可以对业务指标进行多层钻取和自主关联分析,对企业的业务观察也能从宏观进入微观。

严晓峰表示,“我用BDP的原因很简单,只要简单的操作就可以实现数据的汇总编辑,然后用数据去指导我们的业务关系。”

另一个勇于尝鲜的传统企业是沃尔沃汽车4S店海之沃。海之沃CEO王坚深切感受到BDP商业数据平台随时随地查看数据的好处,是在一次投资人大会上。当时投资人问起当月销售情况,其他4S店老板纷纷打电话、发短信询问,王坚马上掏出手机报出了数字。投资人又问最近客流情况,大家又是一阵手忙脚乱,他查看BDP上的数据后,说我们客流上升,大家不用查了,估计你们情况差不多。“大家觉得我们的IT水平还挺高。”王坚笑着说。

BDP与新兴商业模式天然互相吸引

除了传统企业,BDP商业数据平台还跟O2O行业这样的新型商业模式天然互相吸引。O2O行业是重度的数据生产者和使用者,要做到精细化运营,必须依赖数据。

58同城旗下的O2O生活服务平台58到家将它的所有订单数据、服务数据都集中到BDP商业数据平台上,把不同的数据源结成整体,然后做关联分析,最后用清晰易懂的图表呈现在手机上,以便于其从业务人员到大区经理再到CEO等数百人都能随时随地看到数据的状态。

数据解决方案篇9

美团的数据梦想

美团云(Meituan Open Services, MOS)是美团推出的公有云平台,致力于为千万用户提供最稳定、可靠、高效的基础设施云服务以及大数据解决方案。2013年5月,美团云正式对外开放计算资源。公有云推出初期就引发了行业内巨大的关注,资源很快售罄。同年7月,美团全业务实现向云平台的完整迁移和部署。美团云目前全面支撑美团业务,网络流量已经达到了500T/天,承载超过两亿用户的高并发访问量,支持Web端和App端多业务类型,美团云的稳定性、可信性,经过了大规模商业实践的验证。

2015年3月,美团云获得IDC牌照,8月对外开放首个高品质的自建机房。同时,可信云服务大会上,美团云正式通过可信云服务认证,在各项云服务指标的完备性和规范性方面得到了业内的认可,并凭借各项优势独揽“电商云服务奖”。目前,美团云的服务范围覆盖O2O生活服务提供商、在线教育、知名电商、互联网金融、智能硬件、新媒体、汽车等。随着获得了可信云服务认证,美团云也将继续依靠强大的技术团队,不断优化产品,注重用户体验,为更多企业级用户提供最优的底层架构以及稳定的网络服务。

据悉,截止到目前,美团的年度活跃买家数达1.3亿,合作商家超过160万户,预计2015年全年交易额将超过1000亿元。

美团庞大的数据量驱动了美团云大数据分析服务的“大梦想”。美团云CTO李爽谈到,美团云软硬一体的解决方案完全基于开源Hadoop解决方案,降低上手成本,万兆网络互联、支持Native Client和Rest API。此外,李爽还介绍了美团云经典BI产品:客户洞察和在线推荐。客户洞察通过观察、了解客户,将采集到的客户数据转化为所需的信息。在线推荐则是在线推荐筛选目标客户,生成静态名单、营销信息和接触信息。同时,他还举例了中传与美团携手同闯“互联网+”的例子。最后,李爽总结了美团在大数据方面的经验,并展示了美团云的数据平台、业务架构和分析平台。 “美团云致力为千万用户提供稳定的公有云服务及大数据解决方案,通过打造更加稳定、高效和创新活力的新一代公有云平台,我们很高兴和华为在云数据中心网络领域展开全面和良好的合作,并将双方的创新成果成功商用。我们期待这些创新能提升网络运营效率,进一步提升用户体验,为我们的客户创造更多价值!”目前,美团云正在和更多的企业合作,拓展大数据解决方案。”

携手华为 深耕云计算网络

随着美团网云化业务的爆发式增长,网络规模不断扩大,如何构建适应未来业务增长的云计算网络?如何持续提升业务上线效率,缩短上线周期?如何简化网络运维,降低运维成本,同时释放服务器能力?如何保证美团在线业务安全永续运营等几大问题,成为美团网建设的核心诉求。

“华为与美团在云数据中心网络领域有着深入且良好的合作,本次美团云成功部署华为敏捷数据中心SDN方案,有效地支撑其战略及业务的发展需求,在业界也具有重要的里程碑意义。” 华为交换机与企业通信产品线总裁刘少伟表示,“作为全球领先的信息与通信解决方案供应商,华为围绕客户的需求持续创新,与合作伙伴开放合作,在企业网络领域为客户提供有竞争力的解决方案和服务,持续提升客户体验,为客户创造最大价值。”

同时,华为企业BG网络产品总工Mark Wu表示:“此次美团云部署的华为CE12800数据中心交换机以及敏捷控制器Agile Controller,旨在为客户打造弹性、简单、开放的云数据中心网络,让网络更敏捷地为业务服务,帮助美团云连接云计算未来。”

详细解读SDN商用网络

为了构建适应未来业务发展的云计算网络,实现美团云 “稳定提升价值”的理念目标,美团与华为在SDN领域展开战略合作,携手共建面向云数据中心的SDN商用网络。

■SDN实现租户网络自动化,加速美团云业务部署

华为敏捷控制器Agile Controller兼容ODL开放架构,通过3类接口、40个API和美团云深度对接,协同美团云平台实现业务快速发放,实现了租户网络自动化,加速美团云业务部署。

■硬件VXLAN构建多租户网络,服务器性能提升2倍

美团云部署华为基于硬件VXLAN方案,把支持租户的数量由4K扩充到16M,以适应业务爆发式增长;同时通过CloudEngine交换机采用硬件VXLAN构建多租户网络,实现租户间的隔离,服务器性能提升2倍;另外,硬件VXLAN方式支持异构多虚拟计算平台,相对软件方式有很好的兼容性。

■端到端业务路径可视,实现租户网络精细化运维

华为Agile Controller敏捷控制器与CloudEngine交换机配合,打破overlay网络中虚拟网络的运维黑盒,由Agile Controller构造下发探测报文,网络转发节点逐跳上送路径信息,实现VM层面的转发路径可视,物理和虚拟网络统一运维。

■业界最佳的“双”平面扩展能力,支撑业务爆发性增长

在控制面,华为Agile Controller敏捷控制器支持业界最大的1:64弹性集群,支持业务无损升级;在转发面,全球最高性能的CE12800数据中心核心交换机,支持160Tbps交换容量,单线卡支持3.6Tbps的交换能力,是业界水平的3倍;线卡支持100ms超大缓存,满足大数据业务需求;整机支持平滑演进,满足美团云数据中心5-10年业务发展需求。

■业界最强的抗攻击防护方案,保护业务可用性

数据解决方案篇10

P键词: 实体动态属性;数据库设计;关系数据库;非关系数据库

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)05-0009-02

1 问题的提出

随着大数据时代的来临,结构化数据、半结构化数据与非结构化数据已广泛存在于各个软件应用中。任何移动应用和系统都离不开数据库进行存储数据,而数据的复杂性给它们的开发带来了困难和挑战。

在现实生活中,社会现实中的万事成物都是一个动态系统。随着时间的推移和事情的发展,各种实体都会发展变化,具体体现在实体属性的变化上,因此,我们称之为实体的动态属性[1]。例如,在一款银行绩效考核系统中的客户经理实体,随着业务的发展,客户经理的其考核内容也会发生变化,会有存款业绩、贷款业务、基金业绩、是否投诉等不断增加,也会产生相对应的业绩数值,这些不断业绩都称为该客户经理实体的动态性,详情如表1客户经理实体2017年1月份业务需求表所示。

在实际的项目开发中,固定数量的、明确的实体属性,有利于软件设计与开发人员进行项目开发。但是,动态属性的实体,由于实体属性的个数未知,属性名称未知,在系统运行过程中,根据业务的需要,随时增添新的属性,因此,给项目开发人员带来了困难和挑战。笔者在数据库设计方面经过长期的实践,探索出了针对该问题的实体的动态属性在数据库设计中的解决方法,希望对有相同需要的数据库设计人员或软件开发人提供一点参考价值。

2 定义相关数据结构

数据库中的数据结构与数据对象的数据类型、内容、性质有关的,是对数据对象的一个静态描述。为了便于说明,还以上述绩效考核系统中的客户经理实体为例进行描述。该客户经理实体包括存款业绩、贷款业务、基金业绩、是否投诉等属性,其在关系数据库中可以定义成相关字段,具体详细结构描述如下:

Create Table ClientManager(

CName nvarchar(50), //姓名字段

CDeposit decimal(18, 2), //存款业绩字段

CLoan decimal(18, 2), //贷款业绩字段

CFund decimal(18, 2), //基金业绩字段

CIsComplain nvarchar(2), //是否投诉字段

... //未知属性字段

很显然,由于实体未知属性的存在,上述结构中的字段不明确,这样的设计在目前的数据库技术中不能得以实现。

3 关系数据库中实体的设计方法

目前,市场要流行的关系型数据库门类众多,有甲骨文公司的Oracle、MySQL,有微软公司的SQL Server,还有针对移动应用的SQLite。下面针对上述实体的动态属性问题,给出两种关系型数据库的解决方法。

3.1 采用改行为列

为了改变上述字段不明确的问题,从表1中可以看出是二维表中的字段不明确,采用以行来代替列的形式,就可以把未知的列的值作为一条记录存储于表中,这样,就可以根据需求动态满足字段的增加或减少,解决该问题。但是,这样需要解决两个问题,一个是属性名的问题和另一个属性值的问题。因此,行转为列的形式中,二维表中需要属性名和属性值两列。具体的在客户经理实体中,定义为经理姓名、业绩名称和业绩额,具体详细结构描述如下:

Create Table ClientManager(

CName nvarchar(50), //经理姓名

CAchieveName nvarchar(50), //业绩名称字段

CAchieveValue nvarchar(50) //业绩额字段

在关系数据库中,客户经理的实体二维表中的业绩和业绩额从以行的形式转为以列的形式,但是,表中的记录数据增加,其具体形式如表2客户经理实体行转成列后的样式表所示。

3.2 采用两个关系实体

采用行转为列的方式能够适应简单属性值全都一个数据类型的动态属性的问题,比如,例子中的业绩额全为数值类型,开发人员在进行开发实现功能时可以进行统一计算。但是,如果属性不是一个统一的类型,比如例子中的业绩额有数值类型的,还有字符类型的。这种情况下,程序开发人员,在进行数据取值时,要有目的的进行运算,而在例子中属性值的数据类型不明确,给开发人员带来了麻烦。解决这种复杂的情况,可以增加一个实体表对属性值的取值详细信息进行描述,而将在该实体中将上一个实体的属性名作为外键,这样,就能够保证数据的一致性。在例子中,在客户经理实体的基础上,增加一个业绩设置实体,其字段有业绩名称、业绩额的取值类型、业绩额的取值长度、业绩额的取值精度,具体表述所下:

Create Table AchieveSet(

AchieveName nvarchar(50), //业绩名称字段

AValueDataType nvarchar(50), //业绩额的取值类型

AValueLength int, //业绩额的取值长度

AValuePrecision int //业绩额的取值精度

综上所述,通过行转列的方式,解决属性值同一类型的动态属性问题;通过两个实体来解决属性值非同一类型的复杂的动态属性问题。程序开发人员可以根据不同的需求,采用不同的方法对系统进行开发。

4 非关系数据库实体的设计方法

随着技术的发展,对半结构化、非结构化的数据进行处理,出现了NoSQL数据管理技术的发展。下面结合非关系数据技术,给出两种解决动态属性问题的解决方法。

4.1 采用HBase模型

HBase是一个分布式的,面向列族进行存储的数据库[4]。在HBase数据库中,动态属性可以采用它的数据模型来进行实现。定义一个属性列族,而在该列族中根据需要可以任意动态放入子列即可。具体操作是定义一个客户经理实体,在该实体中创建一个业绩列族,通过行键来存储客户经理实体记录中的经理名称,具体描述如下:

create ‘ClientManager’,'CAchieve'

其中,ClientManager’是客户经理实体,'CAchieve'是客户经理的业绩。

实体表创建完成后,可以进行操作,进行存储记录数据,其操作如下:

put 'ClientManager','张三','CAchieve:存款业绩','10000'

put 'ClientManager','张三','CAchieve:是否投诉','是'

put 'ClientManager','李四','CAchieve:基金业绩','10500'

...

其中,张三、李四列使用的是HBase行键,'CAchieve'冒号后面是动态属性。

4.2 采用MongoDB模型

MongoDB稻菘馐遣捎梦牡怠⒓合和数据库三部分来对数据进行组织[5]。在MongoDB数据库中,动态属性可以采用它的数据模型来实现,根据其文档的机制来进行实现。在例子中,采用定义一个客户经理实体的集合,在集合中插入定义好的记录文档,具体操作如下:

db.createCollection("'ClientManager'"); //定义客户经理集合

db.ClientManager.insert({"name":"李四","存款业绩":10000",是否投诉":是})

db.ClientManager.insert({"name":"李四","基金业绩":11000,"是否投诉":是})

其中,大括号{}内的数据是文档信息,存储客户经理信息,而每一键值对记录该客户经理实体的绩效信息,比如,"存款业绩":10000"等。每个文档内中的键值对中的键可以不相同,这样,就达到了实现动态属性的要求。

5 总结

截止到目前为止,关系型数据库理论和非关系型数据库理论并存,而且他们都已经发展得很成熟,在市场上广泛应用。作者从实际开发一款绩效考核系统中,考核指标不断变化的实际需求出发,调研和总结当前市场上几种处理实体属性不断变化的解决方案。根据不同的方案可选择不同的数据库技术,在开发实施过程中需要相应的技术条件和设备条件。总之,希望给后来者的学习和工作提供一些建议和帮助。

参考文献:

[1] 唐小刚,谭石强.一种实体属性非确定的关系数据库设计方法[J]. 湘南学院学报,2006(4).

[2] 李华娟.关系型数据库设计之实践技巧[J].电子技术与软件工程,2016(1).

[3] 李长春.动态字段在VFP中的设计与实现[J].计算机时代,1999(7).