数据分析方向十篇

时间:2023-05-30 16:11:30

数据分析方向

数据分析方向篇1

[关键词]新媒体营销;企业转型升级;市场营销模式

1引言

新媒体营销是随着互联网技术不断发展而衍生的重要产物,它是以移动平台为载体,以信息技术为桥梁而实现的企业网络市场竞争的过程。这种模式的出现意味着企业与现代科学技术的接轨,是企业智能化数据化发展的鲜明体现。企业在新媒体平台和技术的指导下,能够依靠各类先进技术,转变自身的发展方式。其中最为突出的应用便在于企业对数据分析的引进。

2分析数据,确立市场受众群体

企业要想在众多新媒体平台营销中脱颖而出,就必须掌握符合自身市场定位的消费群体,要让自身生产的产品能够有广泛的接受度,要取得属于自身独有的市场信任感和公信力。这也就意味着企业要主动出击,积极地吸引消费者群体的关注和重视。如果一个企业发展自身新媒体营销的方法,仅仅是通过水军或者是买来的粉丝,或者是通过转发抽奖等,那么这个企业只会在短时间内取得一定的爆发式关注,无法取得长远的市场利益,也没有办法真正的给消费者留下深刻的印象,自然也不能根据消费者的喜好和兴趣制订出针对性的市场营销方案。这就需要企业通过数据分析的方法来明确自身的受众群体。[1]首先,企业要用数据分析的方法,对自身已有的市场发展基础进行系统的分析和总结,整理出自身的市场定位和发展特点,包括品牌形象、竞争优势、产品性质等。在此基础上,大致地规划消费者的群体范围,制订相应的宣传方案和宣传规划,同时也要注意把握时间的限制,要尽可能地寻求时间和效益之间的平衡。在这一过程中,企业要按照消费者的点击喜好和频率,来制定有针对性的宣传模式,这样可以更为有效地吸引消费者的关注。其次,企业要重视用户之间的传播和转发,企业要在吸引一批粉丝的基础上适当地进行转发和抽奖活动,扩大自身的市场影响力。最后,企业也要在这一过程中精确自身的市场定位,要动态地观察宣传的成果和绩效,要寻找大众的认同感。这便要求企业要借助数据分析和检索的平台,搜索与自身宣传相关的信息确立关键词和重点语句,并分析大众对于自身的评价和看法,更好地改进营销中存在的缺陷和不足。同时要在此基础上,让自身的宣传内容更加量化和准确,更好地提升在用户之间的口碑。

3分析数据,确立市场营销载体

根据上文所述,企业在新媒体营销中所进行的宣传是离不开固定的平台和载体的,移动平台是企业信息和展现自身形象的基础与保障。因此,企业要十分重视自身新媒体营销工具的选择,要运用数据分析的方法精准地统筹和管理市场营销的信息,推动网络营销能够适应自身发展的特点和规律。同时,数据分析方法还可以把企业自身经营的特点与不同的新媒体平台进行融合,对比其结合后的实际效益和成果,同时也可以与事先的市场规划设计相比较,在此基础上选择最为合适的企业新媒体营销载体。[2]之所以运用数据分析的方法来选择企业新媒体营销载体,是因为现阶段网络企业的发展形式多种多样,不同的企业也有自身不同的市场定位和产品特点,彼此之间相互独立,但是也紧密联系。这也就意味着,各类企业在共同运用新媒体网络平台这一方法进行市场营销的同时,也要根据自身的发展特点来选择适合自己的宣传载体和工具,只有这样才可以促进宣传内容的有效传播。当下企业利用新媒体进行宣传的主要形式包括纪录片、文字和图像等,也可以是多种表现形式的结合。尽管在宣传方式上具有多样性,但是否能真正的起到吸引用户的作用还需要依靠用户的主观能动性。这就要求企业在选择好自身营销载体的基础上,利用后台运行接收数据信息的方法,分析用户点击频率最多的板块和内容,总结出现阶段自身市场发展应当跟随的主流趋势,以及分析当下营销平台运行的成果。例如当下的微博小程序,就是企业依靠文字推送或者视频的方式,与用户建立线上的交流和沟通,在此基础上根据用户的点击频率来制订出更有针对性的市场营销方案。

4分析数据,确立信息展示模式

现阶段,有许多企业建立了自身运营的自媒体平台,有相当一部分是需要用户下载相应的软件,并注册账号才可以获得相关的信息。用户在注册之后,便可以通过在移动端登录的方法来完成后续操作。[3]但也正是因为这种登录方法的存在,用户会获得比其他平台更多的市场信息。这就在一定程度上激发了用户的厌烦心理,有相当一部分用户会由于时间的限制,直接略过企业所的信息。同时,也有一部分企业将自身的信息运用网页链接或者是二维码的方式展现出来,用户必须要在登录网站的基础上再一次点开网页链接,这就会让用户觉得浏览信息是一件非常烦琐的事情。因此,企业要重视自身信息展现形式的转变,企业要尽可能地选择简洁明了的形式突出自身信息的重点,要让用户可以看到自身营销的优势和特点。企业可以用数据分析的方法,统计出用户容易接受的信息展现形式,并按照类别进行划分。当下,用户容易接纳的是企业图文并茂的信息展现形式,可以是图片和文字链接的结合,也可以是视频和文字链接的结合,或者是将链接安置在图片上。企业就可以根据用户的喜好,将自身内容展现的形式进行改革和优化,例如企业可以将市场经营的方向和产品的性能,利用形象化的图片展示出来。让用户可以一眼就看到自身的品牌特色,提高自身的吸引力。在这一过程中企业要意识到信息真实准确表达的重要性,企业可以在原有的基础上进行适当地渲染和润色,但是不能虚假信息,不能夸大其词,不能让用户接受错误且夸张的市场营销数据。

5分析数据,确定市场发展价值

企业运用数据分析的重点不仅是要打造更为针对性的市场营销方案,更是要在数据信息的分析过程中审视自身的市场经营价值,分析自身的发展建设前景,评估现阶段自身方案的质量和效益,并以此来为未来的长远发展打下坚定的基础。因此企业要用数据分析的方法,对自身新媒体运营平台进行阶段性和周期性的监督,分析现阶段自身在市场竞争中的地位。[4]监督的内容主要包括平台粉丝的浏览量和点击率、粉丝的转发量、粉丝总量的增减、除粉丝之外的市场其他用户点击率,以及现阶段市场营销的经济利润和收益等。这样就可以在很大程度上帮助企业确定自身营销平台选择的正确性,分析自身市场发展定位的准确性。

数据分析方向篇2

随着计算机技术和互联网以及物联网的不断发展,各种系统结构化和非结构化数据以前所未有的惊人速度迅猛增长,“大数据”时代已经到来。大数据是指数据结构比较复杂、数据规模大的数据集合。其数据量已经远远超出了一般数据管理工具可以承受的处理时间以及数据处理及存储管理能力。在当今大数据环境下,高校管理系统的数据结构及数据量发生了巨大的变化。在数据存储、数据管理、数据分析及数据挖掘等方面面临着巨大的机遇和挑战。为了有效地利用大数据为高校决策分析提供更好的服务,我们必须基于大数据建立相应的决策分析系统。

目前许多高校已积累大量的教学资源和管理数据,从而形成了规模巨大、结构复杂的数据集,为高校的教学管理决策提供了强有力的支持,成了高校教学管理不可缺少的一部分。随着教学改革的不断推进,高校对数据的需求已经从原来的简单事务处理方式转向面向信息分析处理、数据挖掘及决策支持等。因此,针对现有的大数据集合建立决策分析系统,对高校决策分析具有重要的实际意义。决策分析系统是目前知识发现和数据管理领域中的一项重要技术,它基于神经网络算法、机器学习及人工智能等方法进行数据挖掘和知识发现,从而在大数据中获取数据之间内在的相互联系,以及其中可能存在的某种规律,从而帮助决策者快速做出正确的决策,进而提高高校教学管理的科学性,为高校带来良好的决策管理。

1 基于大数据决策分析系统的数据存储方式

高校基于大数据决策分析系统存储数据主要是从校内外各种数据源中获得最原始数据,并对该部分数据进行整合形成数据层,然后将数据层中的数据经过抽取、清洗、转换、装载进入数据仓库从而形成支撑层,在支撑层的基础上,可以根据需求对数据进行挖掘分析,从而构建决策层。当前高校基于大数据决策分析系统的数据存储方式包括基于关系数据库的存储、基于多维数据集存储和虚拟化存储3种数据组织方式。

1.1 基于关系数据库的存储方式

该存储方式主要依托关系数据库存储数据,基于关系的数据存储方式是将分析决策系统中的数据存储在关系型数据库的表中,同时在元数据的管理下进行数据存储管理,从而完成数据分析、决策支持功能。该存储方式在构建数据库时主要采取以下步骤进行数据的抽取:首先,利用图形化的操作界面进行操作,用户能够对关系数据库的数据进行选择操作,同时可以建立和定义多维度数据模型;然后,采用特定程序从关系数据库中抽取某一维度数据。基于关系数据库的存储方式不是简单的从业务系统中抽取数据,而是对业务系统中的数据进行清洗、加工、汇总和整合,从而保证基于大数据分析决策系统内的需要,是针对高校全局的一致的数据。总之,基于关系数据库存储方式要求将学校内各个业务系统的原始数据整合,从而用来支持特定的查询、统计分析和决策支持,以便管理层对某一阶段历史数据进行统计分析。

1.2 基于多维度的数据集存储方式

基于多维度的数据存储方式和基于关系的数据库存储方式不同,是采用数据立方体的方式管理与存储数据,同时以多维度显示与组织数据,是一种基于在线联机分析处理(OLAP)的数据组织形式。该数据存储方式主要采用多维数组结构文件进行数据存储,同时具有不同维度索引及数据管理文件与数据一一对应。该数据存储方式采用“多维数据集(CUBE)”,多维数据集将传统的二维关系表组合成多维数据立方体,数据属性对应为维度(Dimension),在数据属性下的值被称作度量(Measure)。也就是说,将数据由传统的二维关系表组合成多维度立方体,在数据立方体上进行切块(Dicing)与切片(Slicing)、旋转(Turning)、上卷(Rolling-up)、下钻(Drilling-down)等一系列操作(如图1)。

图1 数据立方体的上卷、下钻等一系列操作

1.3 基于虚拟化的数据存储方式

虚拟化存储方式主要有两种存储方式,第一种是将企业内外部结构化和非结构化数据整合到单一的数据存储平台上,从而形成一个单一的数据存储资源池,这样有利于存储基础设施进行统一管理,从而容易实现数据资源共享、存储容量回收和存储空间最大化利用,进而更好的实现存储设施的重复使用,最终实现提高存储基础设施容量效率,以满足当前基于大数据的决策分析系统的需要。第二种存储方式是仅从逻辑上进行整合,也就是说,决策分析系统中没有专门的存储空间,系统中的所有数据一律存储在源业务系统的数据库中,根据决策分析系统的不同维度的需求,业务系为决策分析系统提供数据接口,形成针对决策分析系统的维度视图,决策分析系统临时从业务系统数据库中提取所需数据,从而完成不同维度的数据分析。该存储方式实现简单、成本底,但最大弱点是对业务系统数据规范性、完备性要求极高。同时,还要求业务系统数据模型应非常接近决策分析系统的多维数据模型。

2 基于大数据高校决策分析系统的层次结构

根据高校管理决策需求的特点,首先将当前各信息系统的信息如学籍信息、学工信息、招生就业信息等当前及历史数据和一些其它辅助数据经数据抽取、清洗、转换、装载进入数据仓库,在数据仓库的基础上进行数据挖掘。基于大数据的高校决策分析系统应该三层,分别为数据层支撑层和决策层(如图2)。

图2 基于大数据的高校决策分析系统层次结构

2.1 数据层

分析决策系统的底层是数据层,该层是构建决策系统的数据仓库的基础。数据层包括校内外的各种数据源,内部数据源主要包括学校的各种应用系统的数据库、数据中心的各种备份数据库和存档、以及学校内的各种其它数据资源。外部数据源包括学校之外的各种数据库和数据资源。从而形成一个内容覆盖面广且时间跨度长的海量数据仓库,位学校决策支持提供了庞大的数据基础。

2.2 支撑层

支撑层作为决策层访问数据层的桥梁,有效的解决了分析决策需求目标难以量化的特点,该层对不同数据源中数据进行收集、分类、抽取、清洗、转换从而装载到数据仓库,通过数据仓库可以对不同数据源进行统一管理,可以为决策层的各种应用提供了标准接口,从而可以构造面向主体分析的更高粒度的数据集市。同时,支撑层将数据仓库中的数据按照特定的层次进行汇总聚合,构成数据分析的多维视图。以便决策层从不同角度进行分析使用。

2.3 决策层

决策层由通用平台和面向主题平台组成。为了适应决策需求不稳定的特点,通用平台是提供一些简单分析模型和常用的数据挖掘方法,以便在通常情况下不必建立专门应用分析系统。极大提高了决策支持系统的灵活性和通用性。针对相对稳定且复杂的决策需求,面向主题平台从数据仓库抽取特定数据,建立面向主题的数据集市,建立面向主题的分析系统。

3 基于大数据分析决策系统的系统实现

基于大数据高校分析决策系统建设的总体思想是,不考虑数据源中数据的结构化问题,首先由高校管理方面的专家将所积累的管理知识整理,然后把这些知识转化成集计算机可以识别和存储的语言,从而形成知识库。其次,依靠知识库和专家知识从各种数据源中提取有用的数据,对数据进行收集、分类、抽取、清洗、转换后以新的组合形式储存到数据仓库中。在数据仓库中,经过分类、抽取、清洗、转换后的数据是以一系列元数据的形式存储的。最后,在数据仓库的基础上,可以建立通用的和面向主题的分析平台,从多维度进行统计分析,最终为不同层次决策者提供支持。因此,该基于大数据的高校决策分析系统的体系结构由数据源、数据收集、分类、清洗、转换、存储和管理、数据挖掘及知识发现、分析决策等部分组成(如图3)。

图3 基于大数据的高校决策分析系统的体系结构

3.1 数据源

数据源是指来学校内部或外部的各种结构化和非结构化的数据,这些数据可以是来自关系数据库,也可以是非关系数据库的数据,例如学籍信息、学工信息、人事管理信息、图书信息等为结构化数据。非结构化数据如教学视频、存档的试卷信息等,数据源是学校决策支持系统获取各类教学管理信息的来源,从数据源获取的数据经过分类、清洗转换、及相应的处理后存入数据仓库,作为分析决策系统的基础数据。

3.2 数据收集、抽取、分类、清洗、转换

该步骤主要完成数据的收集、抽取转换、清洗和监视等工作。目的是对来自不同数据源的信息进行整理,同时把有可能影响分析决策的数据转换成系统的数据格式;数据清洗是为了是保持数据的一致性,同时减少系统中的数据冗余;同时监视数据源上数据的是否发生变化,发现信息源的数据发生变化时,定期对数据源数据进行收集进行数据、抽取、分类、清洗、转换,以扩充和更新决策系统中的数据信息。

3.3 数据存储及数据管理

数据存储主要对数据仓库中的结构化和非结构化数据的存储和管理,数据仓库中存储了海量与高校决策有关的重要数据。支撑层中的知识库存放了大量的决策分析的共性知识、教育法规、学籍管理规定等;模型库存放决策分析的系统运行模型和处理模型,同时整个数据仓库的数据存储采用元数据管理,数据存储及管理主要负责数据仓库的数据同步、整合工作。

3.4 数据挖掘及知识发现

数据挖掘及价值发现主要采取机器学习、神经网络、知识处理等技术和传统统计学算法及计算智能(遗传算法、模糊集等)和数据库相结合的方法,从数据仓库的大数据中挖掘隐藏的规律,也就是说数据仓库中挖掘和发现知识,掌握大数据间存在的某种相互关联、提取面向主题的信息进行分析,为各种管理决策层决策提供有效的依据。

3.5 决策分析

决策层主要由面向通用的分析平台和面向主题的分析平台组成, 面向通用的分析平台是针对学校教学改革的推进,管理需求存在不稳定的特点,提供一些简单分析模型和常规的数据挖掘方法,可以为管理层提供快速决策的参考。针对相对稳定的学校战略决策需求,可以从数据仓库中抽取面向主题数据,从而建立数据集市,开发面向主题的决策平台。对于学校的各个管理层决策,可以利用这些通用分析和面向主题分析平台,从而进行多维度的综合分析,从而制定出学校的战略决策和日常的管理决策。

数据分析方向篇3

——IBM彭明盛

一、新的计算理念与潮流

综合各方面信息显示,未来全球技术最有潜力的方向包括:移动互联网、可扩展的企业服务生态网络、软件定义的系统环境、感知环境的企业、多媒体理解和可视化分析等等。这些发展都是以认知计算与数据科学的创新突破为前提的。例如,移动互联网下一代的发展方向是语义网(WEB),大数据正在引发数据科学的突破(鄂维南院士认为“数据科学将逐步达到与其他自然科学分庭抗礼的地位”)等等。因此从认知计算和数据科学角度观察IBM创新的方向,捕捉其中蕴含的全局方向性的信号,非常有意义。

从认知计算和数据科学角度看,IBM的智慧的运算,有几个关键之处,代表了未来真正的方向。

首先是情境计算的概念。目前国内外都有一股潮流,把大数据引向集中计算方向。例如把大数据理念片面引向决定论的宿命论,把大数据当成了集中模式的网格计算,在认知计算孤立迷信数学算法,将大数据应用引导到建设集中模式的BI上面。这会整体误导个性化定制的技术方向。

我在国内外同IBM的科学家交流中有一个共识,认为这不符合图灵的初衷,违背了人工智能、认知科学在人机关系上的平衡。情境计算可以视为一个方向上的纠偏,IBM在这方面的创新正在颠覆冯诺依曼体系。IBM研究中心(IBM Research)计划领导人Dharmendra Modha表示:“感知电脑必须能整合来自情境依赖形式(context dependent fashion)下不同传感器的输入信息,才能接近人脑的实时感觉运动反馈回路(sensory-motor feedback loop)。”IBM中国开发中心首席技术官毛新生也认为,在将来的企业整合(enterprise integration)和情境加速(context accumulation)中,人们的关系将从交易变为交互体验,转向了感性,其中蕴育着对算法突破的需求。

目前除了IBM之外,已有越来越多主流公司如微软、英特尔都认同情境感知(Context Awareness)这一方向。包括一向迷信数学算法的谷歌,在Facebook新算法的冲击下,也开始相信情境计算。

与这一计算方向最终同步的,将是商业上的情境定价(Contextual Pricing)模式,情境定价自美国去年12月兴起,将在多年后在中国广泛为人们认知。届时人们会彻底颠覆现在搞反方向的个性化定制。

其次,IBM对分析洞察的强调,对大数据的流俗理念也是一个纠偏。目前大数据的流俗理念普遍强调大数据的客体特征,而忽略其主体特征。IBM则以智慧来解大数据。智慧是人的特征,而非物的特征。数据只是物,是工具手段,只有同人的目的结合起来,转化为智慧,才是有用的。为此,IBM在强调大数据的3V——数量(Volume)、多样性(Variety)、速度(Velocity)——同时,着重强调第四个V,即真实性(Veracity)。IBM认为真实性是当前企业亟需考虑的重要维度。强调分析洞察,就是为了把数据转化为真实性判断。否则,大数据只能“乱花渐欲迷人眼”,让人愈发不智慧。

在这个方向上,IBM明确以"智慧的分析洞察"为核心的大数据战略,在"大数据平台"外,特别提出"大数据分析",两手都要硬。这是与众不同之处。

这对行业与企业尤为重要。因为按现在的搞法,弄了一大堆数据,却没有加工能力,就好比煤采出来了,却没法加工利用。IBM是目前业界唯一能够集咨询、服务、软硬件综合实力,提供端到端全面整合解决方案的厂商,致力于帮助用户通过大数据分析,向着更具洞察力,反应力和协作力的方向持续转型。

为此,IBM对企业提供了五项面向商业价值而非技术价值的关键建议,包括:以"客户为中心",制定前期"大数据战略规划"、制定全面完整的企业"大数据蓝图"、从现有数据入手,设定并完成短期和阶段性的"大数据战略目标"、根据业务优先级,逐步建立分析体系,循序渐进提升"大数据分析能力"以及定制可衡量的指标分析"大数据 ROI(投资回报率)"。这无疑是一个正确的方向。对当下以自我为中心,为技术而技术的大数据错误潮流,是一个有力的纠正。

二、新一代智慧运算体系的启示

当前大数据还面临初级阶段发展的特有问题,发展不成体系,呈现把行业当业务去做的“大规模的小生产”现象。但凡成点规模的公司,人人都想定制出个大数据系统,由于缺乏底层科学基础,弄得顾头不顾尾,封闭有余,开放不足,虽可以满足一时应用,但给将来的升级和持续发展留下隐患。相当于给未来的大个子穿上了一件小衣服。

作为行业领导者,IBM的智慧运算体系及时给大家做出了示范,我们可以从中看出适合未来产业做大后的体系框架。

"智慧的运算"提供了一种数字平台,用于整合硬件、基于分析的软件、网络管理服务和虚拟化,整个基础架构正在变得可以由软件定义,且工作负载可被所需分配到可编程的基础架构上。这一平台可通过三个主要特征来描述:

1. 为大数据设计(Designed for Big Data)。大数据和信息集成功能可以从大量数据中获得洞察力,从根本上改变公司使用信息的方式。

2. 由软件定义(Software-defined Environments)。为了应对当前的数据数量、多样性和速度,企业数据中心必须更动态、更灵活,在"由软件定义"的环境中,网络、存储和服务器以及软件可以随需地根据工作负载进行调试。

3. 开放协作(Open and Collaborative)。只有通过开放标准和平台,企业才能在当前丰富的创新生态系统中支持日益增多的非结构化数据、设备和服务,并且开展业务。

这三个特点,代表了三个重要的方向,都很有针对性。

目前许多厂家搞出的大数据,更象是为一大堆数据设计,而非为大数据设计。缺点是看不出给未来分析加工留下的发展纵深在哪里。举例来说,大家一窝蜂都去搞互联网支付,但将来形成的数据怎么处理?现有方案多是为自己处理数据设计,而没有考虑将来外包数据分析的需要。一旦各行各业发展起细分的支付信息分析需求和分析能力,这样的系统不可能象自用那样,为别人一一定制。就会出现当年用友的“定制”不受行业认可那样的尴尬局面。所以光有大数据平台还不够,还需要分析平台,分析生态系统设计甚至硬的分析实力。到2015年IBM在大数据分析方面的收入将有望达到160亿美金。这方面投入值得注意。

由软件定义不难,但关键难在“更动态、更灵活”。最早的时候,要实现行业与业务扩展,需要对软件系统不断进行定制,成本极高;后来SOA、中间件兴起,情况在PC时代得到极大缓解;但在移动互联网和云计算时代,更加复杂的应用环境,要求架构上的进一步创新。IBM在这方面的创新,可能代表一种新的方向。其特点类似于把软件做成一个松耦合体系,一方面是半成品软件(相当于面向体操规定动作),另一方面是根据应用待定的编程接口系统(相当于面向体操自选动作)。特别之处在于,将来APP部分是否会向自组织编程方向发展,值得密切关注。

数据分析方向篇4

整个系统以广电大数据分析平台为基础构建,系统由数据采集系统、数据分析中心、三个数据应用中心(推荐中心、决策中心和服务中心)组成和系统管理模块组成。

1.1数据采集系统

大数据时代,大数据有着来源复杂、体量巨大、价值潜伏等特点,这使得大数据分析必然要依托计算机技术予以实现.因此从两个方向上加强数据采集统建设,一是侧重于数据的处理与表示,强调采集、存取、加工和可视化数据的方法;二是研究数据的统计规律,侧重于对微观数据本质特征的提取和模式发现,在两个方向上的协同、均衡推进,以此来保障大数据平台应用的稳健成长和可持续发展.广电的网络和用户是其核心资产,而其中流动的数据(包括用户基础数据、网络数据、网管/日志数据、用户位置数据、终端信息等)是核心数据资产.对于广电运营商来说,最有价值的数据来自基础网络,对于基础网络数据的挖掘和分析是运营商大数据挖掘的最重要方向.因此其数据采集的目标包括机顶盒数据、CRM数据、帐务数据、客服数据、运维数据、媒资数据、GIS数据、财务数据和其他手工录入、表格数据.采集频率要求可以实现实时采集和定时批量采集.采集这类数据带来一个问题就是各类数据杂乱无章,会导致数据质量问题越来越严重,通过引进实时质量监控和清洗技术,建设强大的分布式计算和集群能力,提高数据监控和数据采集性能,利用分布式处理技术,实现数据抽取、数据清洗以及相应的数据质量检查工作,保证采集到高质量的数据,将广电大数据中心建设成一个覆盖广电系统全部数据的存储中心,具备采集各类结构化、非结构化海量数据的处理能力.

1.2数据分析中心

广电企业每时每刻都在产生大量的数据,需要对这些数据归集、提炼,广电企业大数据平台建设的意义在于有效掌握规模庞大的数据信息,对这些数据信息进行智能处理,从中分析和挖掘出有价值的信息.在广电大数据分析中需要对直播节目分析、互动业务分析、互联网流量分析、互联网内容分析、广电客户分析、市场收益分析、智能内容推送和广告分析等,通过这类数据分析,能够实时了解广电运营商的经营状况,提供决策支持.因此采用两种方式分析方法对收集到的数据进行分析处理.一是采用在线分析方法技术,使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的.这些信息是从原始数据直接转换过来的,他们以用户容易理解的方式反映企业的真实情况.在线分析策略是将关系型的或普通的数据进行多维数据存贮,以便于进行分析,从而达到在线分析处理的目的.这种多维数据存储可以被看作一个超立方体,沿着各个维方向存贮数据,它允许分析人员沿事物的轴线方便地分析数据,分析形式一般有切片和切块以及下钻、挖掘等操作.二是数据挖掘是从海量、不完全的、有噪声的数据中挖据出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则.这些规则蕴含了数据库中一组对象之间的特定关系,揭示出一些有用的信息,可以为经营决策、市场策划和金融预测等方面提供依据.

1.3数据应用中心

在大数据分析平台应用过程中,数据本身并不是数据分析和数据挖掘的重点,重点在于如何应用这些技术去解决企业在运营中实际的商业问题.通过对数据分析和挖掘,了解企业运行过程存在问题,预判企业中各类业务发展走向.对数据分析与挖掘结果来说主要有两个方面,一是将分析结果给客户使用,另一个是将分析结果提供给内部用户使用,因此在大数据分析平台设计中,将数据应用划分为三个应用中心:

1)推荐中心

推荐中心面向收视、宽带使用用户,通过分析使用用户的收视、互联网、消费等行为,将使用用户分群,总结群体特征,向不同群体推荐个性化的电视节目、广告和增值应用服务.从而提升用户的使用体验,提升用户的满意度和粘度.

2)决策中心

决策中心面向广电企业内部决策者、管理者、经营分析人员,通过对企业经营数据的KPI、运营监控、经营盘点,使企业决策者掌握企业运营状况及发展趋势;智能报告协助分析人员自动定位经营中的问题;即席查询在预定义的语义层基础上,实现灵活的自定义查询;通过主题分析满足各部门、岗位的多维度分析需求;通过专题分析就某一具体问题进行深入挖掘,辅助专业分析人员的工作;统计报表满足各部门常规统计需求.

3)服务中心

服务中心面向广电的合作伙伴,比如:电视台、广告商、服务和内容提供商、相关政府职能部门等.通过对使用用户收视行为的实时分析,将电视栏目实时收视率提供给电视台,电视台根据收视率进行在线的问卷调查,提高电视台的影响力,帮助其增强栏目的评价体系.为广告商提供精准的广告投放策略,实时准确的广告投放评估,帮助广告商提升广告到达率、准确度和营销效果.为服务和内容提供商的电影、电视和增值应用等产品提升收视率和使用频率,并进行评估,为其提供受众喜好特征,帮助其推出有针对性的产品.通过用户收视数据、节目反馈等信息,将相关舆情向相关政府部门汇报.

1.4系统管理

系统管理是大数据分析平台一个辅助功能模块,主要是为了系统管理员对大数据平台进行有效的监控和管理,提升大数据分析平台性能使用,包含有如下几个模块:权限管理、数据质量管理、元数据管理、调度管理、系统监控等.

2数据应用分析

移动互联网的发展为传统行业带来了新的思考,如何在互联网时代更好地实现以客户为中心的服务理念,借助大数据分析平台、海量的客户非结构化的行为数据和传统的结构化数据,可以有效提升广电个性化、人性化的服务水平.大数据分析平台通过整合广电网络中多个数据源,并按照主题进行划分,在定义主题的过程中,提供广电业务概念的规范定义.数据模型不偏重于面向某个应用,而是站在企业角度统揽全局,提供可扩展的模型设计,偏范式化的设计使平台在最大程度上保持一致和灵活扩展性.依托某广电网络公司业务开展情况,搭建数据分析平台,具有如图2所示的主题结构,共计8大类53小类,从广电网络运营的各个方面进行了数据分析.

2.1直播节目分析主题

直播电视节目作为广电运营模式中一直沿用的产品类型,对于广电用户的影响和广电运营商运营模式起着至关重要的作用.实时直播节目分析,用户可以实时查看每个时间点上每个节目收视率,以此为据来指导产品定制、节目选择、用户推广等方面的商业应用,对直播节目的多维度分析,运营商可深入分析直播节目收视特性及受众影响规律,以指导运营优化,提高节目的收视率和营收.

2.2多媒体业务分析主题

广电行业的双向网络改造不仅将视频点播、通信及娱乐业务成为可能,同时配备增值业务,如广告、支付、股票、游戏、付费节目等服务.可以明显看到哪类业务最受欢迎,哪类业务的增长趋势良好,哪类业务应用下滑得较快,哪类业务不受用户欢迎,从这样的分析结果中,可以为广电网络以后的业务引进中提供指导,避免引进的业务不受用户欢迎,同时也可以预见性的引进一些代表将来趋势性的业务,提前做好业务储备工作.互动业务的互动特性为广电运营商增加客户粘度、制定产品投放策略、获取最大化收益及市场价值提供了前所未有的空间,通过对互动业务的应用分析,可以分析出用户的行为趋势.利用这样的分析结果改善广电业务引进,提高用户的粘度和ARPU值.

2.3互联网应用分析主题

广电作为政府宣传的喉舌,一个主要的特点就是可管可控,相对此而言,互联网网络一个重要特点就是用户各类行为的不可控性.在三网融合的新环境下,广电网络一个重大改变就是引进了互联网业务,同时通过多屏互动技术使广电终端类型日益复杂,如何对广电网络引进的互联网业务和终端进行有效的管控,成为摆在广电网络运营商面前一个重要课题.运营商可以清晰地看到用户在讨论什么、在看什么,以此来分析用户将来可能采取的行为趋势,进而来引导用户舆论与行为,实现对广电网络的可管可控的最终目的.同时广电网络也可以利用互联网数据从如下两方面做了分析,运营流量及应用优化,节省网络带宽,减少运营费,同时用以提高用户体验度,增加用户粘性;充分利用线上、线下同步运营模式,深入挖掘线上讨论内容,为线下运营提供指导.

2.4广电客户分析主题

在三网融合的环境下,广电网络在逐渐摆脱事业单位模式下经营模式,向“市场驱动”、“客户驱动”经营模式的转变,“以客户为中心”的理念和策略不可或缺,而广电网络拥有的客户群和常规用户分析的客户群体有着本质区别,以往分析往往针对个体用户进行分析,广电网络面向的用户通常是以家庭为单位的,这给广电网络用户行为分析带来不可预料的困难.通过针对用户群体不同年龄、不同时间段的收视行为和上网行为分析,可以区分某一时间段内该家庭用户内个人的行为,可以清晰看到各类用户在各个阶段的变化情况,以及这个变化给广电网络运营带来的变化.从用户信息出发,以用户应用行为为主线,深入挖掘用户关系,为广电用户关系管理提供有效基础数据,提高用户满意度、忠诚度,提高广电网络市场运作的主动性.

2.5市场收益分析主题

三网融合后,广电网络作为一个市场主体,需要适应日趋激烈的市场竞争环境,提升广电运营商的企业核心竞争力,应充分利用业务支撑系统产生的大量宝贵的数据资源,建立广电企业收益分析系统,实现对收益数据的智能化加工和处理,为市场运营工作提供及时、准确、科学的决策依据.利用先进的OLAP技术和数据挖掘技术,帮助企业的经营决策层了解企业经营的现状,发现企业运营的优势和劣势,预测未来趋势;帮助细分市场和客户,指导营销、客服部门进行有针对性的营销和高效的客户关系管理;对决策的执行情况和结果进行客观准确的评估,深受用户的青睐.如图7所示的收益分析结果,可以清晰看出企业各类业务在营收中所占比例,可以明确了解哪类业务是企业的优质业务,哪类业务需要进一步加强开拓市场,同时也可以预测哪类业务会有更大的推广空间,为企业持续开展业务提供指导.

2.6智能内容推送主题

深层次挖掘用户潜在的需求,以用户的需求为导向,向用户推送有针对性的内容.广电运营商通过对用户差异性的运营策略,激发用户参与的热情,让用户有持续的良好体验,提升对用户的吸引力和黏着度.信息精准、智能推送的关键在于把握住用户的行为习惯,同时让每一个用户都可以按自己需求方便、快捷地调整、归类相关信息.大数据分析平台基于用户行为收集分析系统,挖掘出用户潜在需求,充分了解了用户的真实意愿,将有助于广电运营商建立以客户为中心的服务理念,提升社会影响力.

3总结

数据分析方向篇5

关键词 地理信息系统,计算机系统,空间数据库.

以计算机为核心的信息处理系统技术是二次世界大战后科技革命的主要标志之一.在信息的诸多类型中与空间相关的信息是十分重要的一类.人类生存的地球这个三维空间中的万物无不与空间位置相关,如何利用计算机处理空间相关信息是地理信息系统(geographic information system,简称gis)产生和发展的原动力.gis技术在国防、城市规划、交通运输、环境监测和保护等与国民经济乃至国家命脉相关的重要领域的成功应用,极大地推动了社会生产力的发展,同时,也极大地刺激了gis技术的迅速发展,使之成为世界各国激烈竞争的高科技热点之一[1].国家科委将其列入九五重中之重科技攻关项目.mapgis,viewgis,citystar,geostar等一批优秀国产gis软件已经开始在许多领域得到广泛应用,成为国内gis市场一支不可忽视的力量.

本文将侧重从gis技术的角度讨论gis的定义、研究内容及研究动态. 1.gis的定义和研究内容 1.1 gis的定义

gis是计算机科学、地理学、测量学、地图学等多门学科综合的技术.要给出gis的准确定义是困难的,因为gis涉及的面太广,站在不同的角度,给出的定义就不同.通常可以从4种不同的途径来定义gis[2].(1)面向功能的定义.gis是采集、存储、检查、操作、分析和显示地理数据的系统.(2)面向应用的定义.这种方式根据gis应用领域的不同,将gis分为各类应用系统,例如土地信息系统、城市信息系统、规划信息系统、空间决策支持系统等.(3)工具箱定义方式.gis是一组用来采集、存储、查询、变换和显示空间数据的工具的集合.这种定义强调gis提供的用于处理地理数据的工具.(4)基于数据库的定义.gis是这样一类数据库系统,它的数据有空间次序,并且提供一个对数据进行操作的操作集合,用来回答对数据库中空间实体的查询.

我们认为,虽然gis是一门多学科综合的边缘学科,但其核心是计算机科学,基本技术是数据库、地图可视化及空间分析(见图1);因此,可以这样定义:gis是处理地理数据的输入、输出、管理、查询、分析和辅助决策的计算机系统.

虽然gis使用了地图、可视化、数据库等技术,但与cad系统、计算机地图系统、数据库系统等均有很大的区别.

cad系统提供交互式的图形处理功能,以辅助象建筑、vlsi等人造对象的设计,其主要特点是设计者与计算机模型的交互.目前许多cad开始支持对象的非图形性质,而gis处理的数据大多来自现实世界,较之cad的人造对象更为复杂,数据量更大.另外,cad中的拓扑关系较为简单.更重要的是,gis强调对空间数据的分析,cad这方面的功能要弱得多.

计算机地图系统侧重于数据查询、分类及自动符号化,具有辅助设计地图和产生高质量矢量形式的输出机制.它强调数据显示而不是数据分析,地理数据往往缺少拓扑关系;另外,它与数据库的联系通常是一些简单的查询.

数据库系统是各种类型信息系统的核心.通用数据库侧重非图形数据的优化存储与查询,其图形查询与显示功能极为有限,其数据分析功能也很有限.然而,数据库的一些基本技术,如数据模型、数据存储、数据检索等,都在gis中广泛采用,成为gis的核心技术.

由此可见,gis已经形成了一个独立的、具有鲜明特色的研究领域.gis的研究内容很广泛,下面我们从输入、存储、操作和分析、输出4个方面来讨论gis的研究内容. 1.2 gis的研究内容

(1)输入.地理数据如何有效地输入到gis中是一项琐碎、费时、代价昂贵的任务,大多数的地理数据是从低质地图输入gis.常用的方法是数字化和扫描.数字化的主要问题是低效率和高代价;扫描输入则面临另一个问题,扫描得到的栅格数据如何变换成gis数据库通常要求的点、线、面、拓扑关系属性等形式.就这一领域目前的研究进展而言,全自动的智能地图识别短期内没有实现的可能;因而,交互式的地图识别是矢量化方法的一种较为现实的途径.市场上已有多种交互式矢量化软件出售.

目前gis的输入正在越来越多地借助非地图形式,遥感就是其中的一种形式.遥感数据已经成为gis的重要数据来源.与地图数据不同的是,遥感数据输入到gis较为容易,但如果通过对遥感图象的解释来采集和编译地理信息则是一件较为困难的事情;因此,gis中开始大量融入图象处理技术,许多成熟的gis产品,如mapgis中都具有功能齐全的图象处理子系统.

地理数据采集的另一项主要进展是gps技术.gps可以准确、快速地定位在地球表面的任何地点,因而,除了作为原始地理信息的来源外,gps在飞行器跟踪、紧急事件处理、环境和资源监测、管理等方面有着很大的潜力.

(2)存储.gis中的数据分为栅格数据和矢量数据两大类,如何在计算机中有效存储和管理这两类数据是gis的基本问题.在计算机高速发展的今天,尽管微机的硬盘容量已达到gb级,但计算机的存储器对灵活、高效地处理地图这类对象仍是不够的.gis的数据存储却有其独特之处.大多数的gis系统中采用了分层技术,即根据地图的某些特征,把它分成若干层,整张地图是所有层叠加的结果.在与用户的交换过程中只处理涉及到的层,而不是整幅地图,因而能够对用户的要求作出快速反应.

地理数据存储是gis中最低层和最基本的技术,它直接影响到其他高层功能的实现效率,从而影响整个gis的性能.基于微机平台的mapgis能够快速、高效地处理多达上万幅的海量地图库,这不仅在国产gis软件中处于领先地位,即使与国外同类产品相比仍是其中佼佼者,这与mapgis较好地解决了地理数据的存储问题密切相关.

(3)地理数据的操作和分析.gis中对数据的操作提供了对地理数据有效管理的手段.对图形数据(点、线、面)和属性数据的增加、删除、修改等基本操作大多可借鉴cad和通用数据库中的成熟技术;有所不同的是gis中图形数据与属性数据紧密结合在一起,形成对地物的描述,对其中一类数据的操作势必影响到与之相关的另一类数据,因而操作带来的数据一致性和操作效率问题是gis数据操作的主要问题.

地理数据的分析功能,即空间分析,是gis得以广泛应用的重要原因之一.通过gis提供的空间分析功能,用户可以从已知的地理数据中得出隐含的重要结论,这对于许多应用领域是至关重要的.

gis的空间分析分为两大类:矢量数据空间分析和栅格数据空间分析.矢量数据空间分析通常包括:空间数据查询和属性分析,多边形的重新分类、边界消除与合并,点线、点与多边形、线与多边形、多边形与多边形的叠加,缓冲区分析,网络分析,面运算,目标集统计分析.栅格数据空间分析功能通常包括:记录分析、叠加分析、滤波分析、扩展领域操作、区域操作、统计分析.

(4)输出.将用户查询的结果或是数据分析的结果以合适的形式输出是gis问题求解过程的最后一道工序.输出形式通常有两种:在计算机屏幕上显示或通过绘图仪输出.对于一些对输出精度要求较高的应用领域,高质量的输出功能对gis是必不可少的.这方面的技术主要包括:数据校正、编辑、图形整饰、误差消除、坐标变换、出版印刷等. 2 地理信息系统的发展动态

近年来地理信息系统技术发展迅速,其主要的原动力来自日益广泛的应用领域对地理信息系统不断提高的要求.另一方面,计算机科学的飞速发展为地理信息系统提供了先进的工具和手段,许多计算机领域的新技术,如面向对象技术、三维技术、图象处理和人工智能技术都可直接应用到地理信息系统中[3].下面我们对当前地理信息系统研究中的几个热点研究领域作一介绍. 2.1 gis中面向对象(object oriented)技术研究

面向对象方法为人们在计算机上直接描述物理世界提供了一条适合于人类思维模式的方法,面向对象的技术在gis中的应用,即面向对象的gis,已成为gis的发展方向.这是因为空间信息较之传统数据库处理的一维信息更为复杂、琐碎,面向对象的方法为描述复杂的空间信息提供了一条直观、结构清晰、组织有序的方法,因而倍受重视[4].图2展示了面向对象的gis的一般结构.

面向对象的gis较之传统gis有下列优点:(1)所有的地物以对象形式封装,而不是以复杂的关系形式存储,使系统组织结构良好、清晰;(2)以对象为基础,消除了分层的概念;(3)面向对象的分类结构和组装结构使gis可以直接定义和处理复杂的 地物类型;(4)根据面向对象late_binding(后编译)的思想,用户可以在现有抽象数据类型和空间操作箱上定义自己所需的数据类型和空间操作方法,增强系统的开发性和可扩充性;(5)基于icon的面向对象的用户界面,便于用户操作和使用.

 

smallworld gis是目前面向对象gis中最为典型的代表.一些传统的gis也开始部分采用面向对象的技术,如arc/info 7.0,intergraph的tigris,system 9,facet系统等.

面向对象的gis也存在一些尚待进一步研究的问题:(1)大对象的操作仍受硬件条件的限制;(2)对象的独立性与颗粒度问题;(3)矢量和栅格数据统一的、支持动态拓扑结构和复合对象表示的面向对象的数据结构问题. 2.2 时空系统(spatio_temporal system)

传统的地理信息系统只考虑地物的空间特性,忽略了其时间特性.在许多应用领域中,如环境监测、地震救援、天气预报等,空间对象是随时间变化的,而这种动态变化的规律在求解过程中起着十分重要的作用.过去gis忽略时态主要是受器件的限制,也有技术方面的原因.近年来,对gis中时态特性的研究变得十分活跃,即所谓“时空系统”[5].

地物除了具有三维空间中的空间性质外,如何刻画时间维的变化也十分重要.通常把gis的时间维分成处理时间维(transaction time dimension)和有效时间维(valid time dimension).处理时间又称数据库时间或系统时间,它指在gis中处理发生的时间.有效时间亦称事件时间或实际时间,它指在实际应用领域事件出现的时间.

根据处理时间和有效时间的划分,可以把时空系统分为4类:静态时空系统(static st system)、历史时态系统(historical st system)、回溯时态系统(rollback st system)和双时态系统(bitemporal st system).

(1)静态时空系统.它既不支持处理时间,也不支持有效时间,系统只保留应用领域的一种状态,比如当前状态.(2)历史时态系统.它只支持有效时间,这种系统适用于事件实际发生的历史对问题求解十分重要的应用领域.(3)回溯时态系统.它只支持处理时间,这种系统适用于信息系统的历史对问题求解十分重要的应用领域.(4)双时态系统.它同时支持处理时间和有效时间.处理时间记录了信息系统的历史,有效时间记录了事件发生的历史.

时空系统主要研究时空模型,时空数据的表示、存储、操作、查询和时空分析.目前比较流行的作法是在现有数据模型基础上扩充,如在关系模型的元组中加入时间,在对象模型中引入时间属性.在这种扩充的基础上如何解决从表示到分析的一系列问题仍有待进一步研究. 2.3 地理信息建模系统(geographic information modelling system,简称gims)

通用gis的空间分析功能对于大多数的应用问题是远远不够的,因为这些领域都有自己独特的专用模型,目前通用的gis大多通过提供进行二次开发的工具和环境来解决这一问题.如arc/info提供的进行二次开发的宏语言aml.二次开发工具的一个主要问题是它对于普通用户而言过于困难.而gis成功应用于专门领域的关键在于支持建立该领域特有的空间分析模型.gis应当支持面向用户的空间分析模型的定义、生成和检验的环境,支持与用户交互式的基于gis的分析、建模和决策.这种gis系统又称为地理信息建模系统.gims是目前gis研究的热点问题之一.

目前实现通用gis空间分析功能与各种领域专用模型的结合主要有两种途径.(1)松散耦合式.即除gis外,借助其他软件环境实现专用模型,其与gis之间采用数据通讯的方式联系.(2)嵌入式.即在gis中借助gis的通用功能来实现应用领域的专用分析模型.上述两种方式总体上对用户定义自己的专用模型的支持程度都是不够的.目前的gis离支持实现数据集定义、模型定义、模型生成和模型检验的全过程仍有相当大的距离.

gims的研究有几个值得注意的动向.(1)面向对象在gis中的应用.面向对象技术用对象(实体属性和操作的封装)、对象类结构(分类和组装结构)、对象间的通讯来描述客观世界,为描述复杂的三维空间提供了一条结构化的途径.这种技术本身就为模型的定义和表示提供了有效的手段,因而在面向对象gis基础上研究面向对象的模型定义、生成和检验,应当比在传统gis上用传统方法要容易得多.(2)基于icon的用户建模界面.建模过程中的对象和空间分析操作均以icon形式展示给用户,用户亦可自定义icon.用户在对icon的定义、选择和操作中完成模型的定义和检验.这种方法较之aml这类宏语言要方便和直观得多.(3)gis与其他的模型和知识库的结合.这是许多应用领域面临的一个非常实际的问题,即存在gis之外的模型和知识库如何与gis耦合成一个有机整体. 2.4 三维gis的研究

三维gis是许多应用领域对gis的基本要求.目前的gis大多提供了一些较为简单的三维显示和操作功能,但这与真三维表示和分析还有很大差距.真正的三维gis必须支持真三维的矢量和栅格数据模型及以此为基础的三维空间数据库,解决了三维空间操作和分析问题.主要研究的方向包括:(1)三维数据结构的研究,主要包括数据的有效存储、数据状态的表示和数据的可视化;(2)三维数据的生成和管理;(3)地理数据的三维显示,主要包括三维数据的操作,表面处理,栅格图象、全息图象显示,层次处理等. 3 结语

数据分析方向篇6

【关键词】前期分析;力学平衡;数学分析;坐标;变形数据

1 现状及存在问题

基坑,是指为构建筑物打基础和地下室施工所开挖的地面以下的空间。再写随着社会的进步,建设工程以及各种高层建筑物、地下室、人防工程等的需要,基坑的应用将会越来越广,对基坑的技术要求也越来越高。

基坑监测,是指在基坑施工及使用期限内,对建筑基坑及周边环境实施的检查、监控工作。目前,基坑监测主要包括:支护结构、相关自然环境、施工工况、地下水状况、基坑底部及周围土体、周围建(构)筑物、周围地下管线及地下设施、周围重要的道路、其他应监测的对象。实际监测工作中,许多监测项目都需要结合仪器观测和现场巡视的反复跟踪方式来采集基坑最真实、最客观的变形数据。同时需要在仪器观测和现场巡视等工作中不断分析、不断排除误差,以达到采集高质量数据的目的。

客观、真实的变形数据不但可以及时了解基坑的变形情况,为施工提供参考及指导性意见,可以验证基坑设计可行性、科学性,还可以为岩土力学、结构力学等多门学科的研究提供宝贵的原始数据。为了追求更真实、客观的变形数据,测量工作者以及岩土工程、结构工程等工作者想法设法寻找更加科学和实用的变形监测方法。由于变形监测的发展历史比较短,各种基坑的情况也不一样,变形监测的方法也要具体问题具体分析了。而现阶段人们对基坑变形观测工作似乎缺乏必要的分析,对这方面工作是任务式的,缺少深层次的研究。

2 对基坑变形观测的前期分析

基坑水平位移的监测是一项比较具有代表性的变形监测工作,同时也是考验测量工作者对变形观测分析能力的一个重要指标。那么,水平位移的变形观测需要分析什么,如何分析呢?下面我们以常见的基坑支护型式为例,对基坑水平位移变形观测方法的选取作一个简单的探讨。

我们知道,基坑的形状是各不相同的,要如实的把变形数据采集准确,首先要做的,就是要明确该基坑将会怎样发生位移。这是基坑水平位移观测的前提分析。而我们实际工作中遇到比较多、比较简单而又常见的基坑支护型式,是矩形形状的基坑。下面我们以矩形基坑为例作一个简单的力学分析(如图所示):

图a:基坑开挖前状态 图b:基坑开挖后状态 图a表示,基坑开挖前,基坑及外界没有土石方的分离,基坑里外相互作用力大小相等方向相反,基坑所受合力为0,基坑处于静止状态,理论上不会发生位移。 图b表示,基坑开挖后,以基坑边线为临界面,基坑里面与外面分离,基坑里外相互作用力当中缺少了由里向外的作用力,此时合力方向垂直于基坑边向里,理论上基坑边缘处会发生垂直基坑边向里的位移。

通过对基坑进行力学平衡原理的分析,我们发现基坑水平位移的变化方向是沿垂直于基坑边线向里的。现实工作中很多测量工作者往往忽略这一工作,但这个前期分析相当重要,它将直接关乎到观测数据的质量。弄清这个方向,对于将要进行的水平位移观测有一个比较明确的指导性方向:把沿垂直于基坑边线向里这个方向上的位移量观测、记录并表达出来。

a・基坑外面

图c:基坑水平位移的实际方向

在我们明确了基坑监测需要采集哪一个方向的变化量之后,才能在后面的测量工作中找准方向。如图c所示,我们要观测的位移,即监测点a,发生水平位移移动到a′时,垂直于基坑变形的位移。

从图中我们可以看出,基坑开挖之后,水平位移不一定是纯碎的垂直基坑边向里,还有其他方向的外力作用,使基坑支护部分的发生的实际位移并非纯碎的垂直于基坑变形。通过比较两点坐标,我们发现,从a点发生位移到达a′时,两点坐标既有X增量ΔX,又有Y增量ΔY,通过计算,我们得知两点发生的位移为:

ΔS=

ΔS=

而我们要的,是沿着垂直于基坑变形这一方向的位移。要计算这样的位移,我们很自然会想到利用三角函数和位移的正交分解,但这样的计算过程比较繁杂,这里就不进行讨论了。

3方法的选取及确定

那么,我们可以用什么方法将繁杂的计算过程简化呢?通过建立跟矩形基坑边垂直(或平行)的独立的直角坐标系,采用坐标观测法,可以大大简化上面所述的计算过程。

通过坐标法建立的坐标系,利用矩形基坑的特有优势,单独对水平位移的X、Y坐标进行分析,计算X、Y坐标的增量ΔX和ΔY,便可直观、快捷地计算出发生于沿垂直基坑边线方向上的位移。通过分析这种方法观测到的数据,我们不难发现:与垂直于基坑边线方向的位移相比,其他方向的位移是考验忽略不计的,也就是说,其他方向的位移趋向于无穷小。

4 案例分析

明确了水平位移观测应该做的前期分析,选取了合适的方法之后,我们就可以开展观测工作了。那么,这种方法是否真的凑效呢?东莞市中国电子松山湖研发中心基坑监测和东莞市锦裕源仪器科技有限公司智能震动分析及动平衡系统项目基坑监测均按照这样的思路进行了前期分析和通过分析确定的观测方法。让我们看看这些变形观测项目是怎样进行分析和确定方法的选取的,观测数据的真实性又是如何。

东莞市中国电子松山湖研发中心基坑监测工程监测平面布置图如下:

中国电子松山湖研发中心基坑监测平面布置图

变形观测之前,先对该基坑作前期分析:受力、变形趋势分析,因为这基坑呈矩形,所以基坑支护会发生垂直于基坑边线向里的位移。现场调查之后,得知施工现场通视条件比较好,最终确定选用坐标观测法并以基坑南面和北面边线为Y轴的平行线,东面和西面为X轴的平行线,确定独立坐标系。在此基础上,把基准点坐标确定后记录并保存好作为初始观测数据。值得注意的是,由于变形观测采用独立坐标系,坐标由测量工作者自定,所以为了确保计算方便,测量工作者一般要把坐标定的大一点,以免出现负数。我们以抽样检查的方式,抽取所观测到的基坑南面上的一组数据连续5次观测记录为标本如下:

表1:中国电子松山湖研发中心水平位移观测记录表(样本)

WY18

X坐标(mm)

Y坐标(mm)

ΔX(mm)

ΔY(mm)

一次数据

35.3642

108.5382

二次数据

35.3646

108.5382

0.4

三次数据

35.3652

108.5381

0.4

-0.1

四次数据

35.3660

108.5383

0.8

0.2

五次数据

35.3665

108.5382

0.5

-0.1

WY20

一次数据

35.3238

68.3617

二次数据

35.3244

68.3615

0.6

-0.2

三次数据

35.3249

68.3616

0.5

0.1

四次数据

35.3253

68.3616

0.4

五次数据

35.3260

68.3618

0.7

0.2

通过数据,我们可以看出,此数据Y坐标增量ΔY基本上是不变的,X坐标增量ΔX符合前期对基坑变形趋势的分析,准确地表达了基坑在施工过程中的变形情况。

东莞市锦裕源仪器科技有限公司智能震动分析及动平衡系统项目基坑支护形状如下:

智能震动分析及动平衡系统项目基坑监测平面布置图

我们作观测前期分析:此基坑为矩形基坑,基坑支护在土石方开挖期间,由于力的平衡遭到破坏,基坑支护必然会沿垂直于基坑边线向里面发生位移。通过变形观测,对所观测数据作抽样检查,样本数据如下:

表2:智能震动分析及动平衡系统项目基坑监测水平位移观测记录表(样本)

WY02

X坐标(mm)

Y坐标(mm)

ΔX(mm)

ΔY(mm)

一次数据

22.3315

42.3315

二次数据

22.3318

42.3316

0.3

0.1

三次数据

22.3319

42.3314

0.1

-0.2

四次数据

22.3326

42.3315

0.7

0.1

五次数据

22.3329

42.3315

0.3

WY03

一次数据

22.1925

62.2679

二次数据

22.1926

62.2677

0.1

-0.2

三次数据

22.1931

62.2678

0.5

0.1

四次数据

22.1932

62.2680

0.1

0.2

五次数据

22.1935

62.2679

0.3

-0.1

从样本数据看,基坑南面观测点坐标Y增量ΔY基本上为0,观测点坐标X增量ΔX的变化符合前期分析,变形数据与基坑变形相符,同样验证了基坑变形观测的前期分析。

此外,东莞市长安客天下大厦基坑监测、中山市宝丽西区棕榈彩虹花园一期B地块基坑监测、中山市隽峰花园基坑监测等基坑监测工程,均做了必要的前期分析,选取了合适的观测方法,各项观测数据都很好的验证了这些分析方法。

数据分析方向篇7

课堂教学优化研究是高校教学改革中一个亟待解决的热点问题,它直接关系到教学改革成功与否。大数据环境下教学模式的创新与改革是时展的必然要求,如何构建智慧学习环境、实现新的教学形态和学习模式是新形势下教学模式改革的重要内容。一方面,是时展的必然要求。大数据是教育未来的根基,没有数据的留存和深度挖掘,教育信息化只能流于形式,每一次技术的革命都革新了教育的一个时代。另一方面,提高教学创新与改革的成效。大数据环境下课堂教学已经发展成为新形?菹陆萄Ц母锏慕萄?模式。

1 大数据给课堂教学模式带来的影响和挑战

1.1 “大数据”提供新的教育平台

自2011年开始美国教育领域率先掀起了在线教育的改革浪潮,智能学习平台在全球逐渐兴起,如Coursera等。全球多所高校通过在线教育平台免费开放课程,实现了教育资源的共享和交流。这种在线学习平台改变了传统的面对面教学模式,必将给现代教学改革带来深刻的影响。

1.2 “大数据”发展新的教学模式

大数据时代线上学习逐渐成为学习知识的主要途径,并且能轻而易举获取最优秀的教学资源。除此之外,它还能对学习者的学习行为自动进行提示、诱导和评价,进而弥补了缺乏面对面交流指导的不足。通过智能分析、整合大量的在线学习行为,它能很轻易地掌握学习规律和特征,然后针对具体学习者提供有针对性的辅导,最终实现在线学习和即时交流学习心得,以及实现学习互动。

1.3 “大数据”重建教学评价方式

传统教学评价活动主要是学生根据任课教师的授课表现进行评价,以及教师依据学生考试成绩和平时成绩等对学生进行评价。但是,传统教学评价活动往往缺乏沟通的及时性和互动性,教学评价结果无法实现即时反馈。比如教师无法明确知道哪些教学方式是最受学生欢迎和接受的。而大数据技术通过分析师生长期教学行为,得出具有个性化的教学行为和规律。“大数据”评价方式从技术层面以更科学的方式归纳总结教学活动规律,它实现了过程导向评价而非结果导向评价。

2 大数据环境下教学模式创新的动力机制分析

近年来随着技术的不断成熟发展,“大数据”为传统教学模式的创新和改革注入了新的活力和动力。“大数据”环境下教学模式的创新,主要通过三个层面的三种转变来实现:一是教师层面从经验式教学向数据分析式教学转变;二是学生层面从依赖课堂和教师向分析自身学习行为转变;三是媒介层面从简单、单一的工具向多样、复杂的多媒体介质转变。

2.1 教师层面:从传统教学经验转向海量数据理性分析

传统教育领域主张,由富有教学经验的几十年老教师通过传、帮、带年轻教师的方式发展教师队伍。这一主张在今日仍然被广泛应用。这主要是因为,老教师经过多年教学实践形成和积累了丰富的教学经验,而这种教学经验的多少、优劣与教师的教学质量紧密相关。归根结底,教学经验的积累和运用仍然是属于有限理性范畴。在大数据时代,计算机会对存储的海量教学记录进行分析,并且能及时为有需要的教师提供相应的教学解决方案,此种教学解决方案是建立在理性的数据分析基础上的。因此,在大数据时代教师的授课方式也将迎来全新的转变,教学经验在教学活动中的优势地位将得以改变,逐渐向教学案例理性分析转变。

2.2 学生层面:从依赖于课堂和教师转向对自身学习过程的数据分析

如今的教学授课方式仍然是“一对多”的教学模式,这种“大锅饭”式集体授课方式在有限的时空范围内无法真正实现“因材施教”。在传统课堂教学中,授课教师无法照顾到每个个体差异而提供相应的教学措施,教师对课堂教学节奏的把握仍然是基于教师的经验判断,教学过程仍然是按部就班地开展。在大数据环境下实现对个体学习数据的分析是完全可能的,也就是数字化学习过程,而通过现代媒介工具则是完全可以实现数字化学习过程的。比如,通过测试题库的完成时间和答题准确率等学习记录数据,计算机针对数据进行分析,进而发现个体学生需要重新掌握哪些知识点,哪些知识点又是需要进一步巩固的,这样,学生的学习行为与知识点建立了联系,而大数据又能因人而异提供有效的指导,使每个个体能够有的放矢。

2.3 媒介层面:从简单、单一的工具转向丰富、多样的多媒体介质

传统教学模式下教材是主要的学习资源,而板书、PPT展示是主要的授课手段,这些学习载体和工具都是单向沟通的,知识接收者的信息反馈并不畅通,更别提挖掘和分析知识接收者的学习行为了。随着信息技术的发展,数据量、数据处理能力都得以质的发展,这都是依靠现代丰富的、多样的媒介工具和分析工具而实现的。通过这些工具和媒介,知识传播者和知识接收者之间的界限被打破,两者可以实现即时的沟通和交流,能更贴近接收者,理解接收者的需求。

3 “大数据”教学模式的特征分析

3.1 注重教学的预测性判断

“大数据”对传统教学活动和教学过程进行了改良,一方面“大数据”通过大量数据分析会对教学活动出现的新情况进行调整;另一方面,新知识点和新教学法随时会被挖掘出来,教学内容和知识更具有前瞻性。“大数据”的重要功能,是在复杂的教学过程中根据海量数据进行分析,进而归纳总结出具有预测性的内容。比如个体学生采用什么样的方式巩固知识和活学活用更为有效,何种教学方式与当前学生学习特征更为匹配等等。此外,通过对教学数据的分析,可以总结出学生的学习行为特征和倾向,以有效预防教学过程中不适行为的出现。

3.2 教师的专业知识与数据分析能力并重

教师的专业知识不仅是影响教学活动重要因素之一,而且还是学生衡量教师教学能力的重要标准之一。教师的专业知识要求在任何时候都是占有重要地位的,但是在大数据时代下教师还需掌握教学数据分析的能力。如何在海量数据中挖掘出具有教学意义和教学价值的知识和内容,是教师在今后教学活动和教学过程中必须掌握的一项技巧和任务。通过对教学数据的挖掘、分析和解读,对与授课对象相关的数据分析,以及如何有效利用有用数据应用到具体教学活动中,促进学生可持续发展,是极其重要的。

3.3 个性化教学成为主流,真正实现因材施教

就技术层面而言,“大数据”可以实现对学习行为特征、学习兴趣爱好,甚至学习态度的统计分析。从这个角度而言,未来的教学必将是精准化的个性化教学,对个体学生的教学活动和教学过程都可以建立在过去数据的分析基础上。教师可以通过大数据轻而易举地掌握个体学生的学习特征,了解到个体学生的特长与短处,真正从细节上掌握学生学习规律,进而真正实现因材施教。

数据分析方向篇8

[关键词]大数据 大学生 个性化就业指导

[作者简介]张家明(1976- ),男,湖北武汉人,武汉理工大学信息工程学院,副教授,硕士,研究方向为高教管理和大学生思想政治教育。(湖北 武汉 430070)

[中图分类号]G647 [文献标识码]A [文章编号]1004-3985(2014)24-0098-02

20世纪60年代初,美国麻省理工学院的气象学家爱德华・洛仑兹在研究时发现,当系统产生随机行为时,系统的初始条件取值稍有变化,所求的结果随时间的推移,前后两者就会相差越来越大,即产生随机行为的系统具有对系统初始条件的敏感依赖性。这就是“西双版纳的蝴蝶扇扇翅膀,日本就可能刮起飓风”。

西双版纳与日本相距万里,但仅仅是蝴蝶展翅这样微小的动作,也能够造成日本飓风这样巨大的影响。它所表达的理念是,耗散结构的运作,对于起始状态极为敏感,绝不能等闲视之。这就是“蝴蝶效应”,即初始条件的细微变化导致系统未来长期行为巨大差异的系统特征。因此,没有任何东西能够比蝴蝶效应更完美地表达出信息时代的“大数据资产”的高校教育管理战略思想,所有重大的变化,都只不过是一系列数据积累的结果,而这一系列数据最原始的出发点,就是蝴蝶效应中蝴蝶摆动的那几次小小的动作。

一、大数据技术应用于大学生个性化就业指导的重要性

随着因特网、物联网、云计算、移动互联网、手机、平板电脑等数据来源和数据承载方式的飞速发展,全球数据量出现爆炸式增长,大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据时代已经来临,2013年也被称为中国的大数据元年。高等学校作为人才最密集、思维最活跃、网络技术知识运用广泛的前沿阵地,高校的教育、管理和服务模式以及师生的思维方式、行为观念、学习习惯等必将受到大数据浪潮的深刻影响。

据统计2013年高校毕业生总数达699万人,目前国内整体就业形势仍然不容乐观。如何做到查明毕业生情况、了解就业市场趋势,是高校开展大学生就业服务工作的难点之一。本文以大数据时代为背景,通过大数据分析技术创新高校大学生就业工作,实现就业指导从共到个性化服务,从粗放服务到精准服务的转变。

当前,学校就业管理部门通过历年就业白皮书掌握毕业生资源基本信息、用人单位与招聘需求信息、毕业生流向、毕业生求职意向和择业行为调查、毕业生对就业工作意见等海量数据;另外,高校学工部、教务处、校园一卡通中心、相关学院部门等具有完备的学生基本信息、成绩、校园卡消费、图书馆借阅以及学生日常表现、性格特点、兴趣爱好、奖惩情况、与家长沟通等个性信息。此外,互联网上的微博、微信、QQ空间、QQ群、人人网、飞信以及校内外各类BBS贴吧和搜索引擎也蕴含着学生大量的思想状况、情绪波动、交友择业等动态信息。本文在分析上述大学生海量数据基础上,完善针对大学生个性化就业指导的大数据模型及相应分析算法,为大学生个性化就业指导提供更加客观、科学、准确的数据、算法和模型支撑。通过大数据技术预测学生的就业行为趋势,对其提供更有针对性的就业指导服务。

二、高校大学生个性化就业指导大数据分析

1.多样数据的定义和获取。多样数据应首先包含传统就业数据,即就业形势分析、就业政策、求职技巧、就业推荐信息、就业讲座信息、招聘单位、招聘会信息等;其次,个性化就业指导是根据学生的个性化信息进行“靶向”指导,需要了解学生的基本信息,包括主修专业、学习成绩、兴趣爱好、培训经历、就业意向等尽可能全面的个人信息;再次,多样数据应包括已毕业、就业学生的个人基本信息、就业去向、当前发展以及就业行业、岗位数据,囊括岗位性质、基本要求、素质要求、发展前景、成长路径等信息;最后,多样数据应包含获取的网络海量,此类信息将作为数据分析参照,为学生个性化就业提供相关性参考。

大数据的基础是海量信息数据,要进一步拓展多样数据的采集途径,并且使采集来的存储数据易于提取,能够被按照一定的条件搜索出来。另外整合学校不同部门的资源信息,同时将收集网络海量信息以期达到最大效果。

2.面向大学生个性化就业指导的大数据模型及分析方法。获取大量个性化就业指导多样数据后,便可以开始进行就业指导“大数据”分析操作,即建立分析模型、构造数据算法进行数据分析。面向就业指导的大数据分析模型应具有全面性,尽可能掌握限定范围内的“全样”而非“抽样”;分析模型更加注重效率,注重分析结果的时效性和动态变化而非精确性;对学生进行个性化就业指导更注重相关性而非确定指向性或因果性。

3.大数据分析原型系统的设计开发。通过原型系统的大数据分析,指出当前大学生的就业需求和趋向,分析学生就业单位的普遍水准和质量,为就业管理部门协调组织用人单位来校招聘提供重要参考;同时对学生个性化信息的分析,可以帮助就业指导人员实施个性化就业指导,增强就业指导的针对性和有效性。原型系统设计和测试初期以电子信息类大学生为例,“全样”采集电子信息类在校学生和毕业两年内学生的基本信息,收集学生的个性信息及相关网络数据,整理历年来电子信息类用人单位信息,进行大数据分析实测。

4.加强就业指导中的思想政治教育工作。当前就业单位对大学毕业生的就业能力和职业素养要求越来越高,大学生思想观念不断变化,大学生就业指导工作已由单纯的就业指导转为世界观、价值观、人生观和职业道德的思想政治教育。个性化就业指导首先是对学生择业观念的教育引导,帮助大学生树立正确就业观念,避免盲目跟风、随波逐流、人云亦云的就业思想,同时提高对数据信息的敏感性,主动收集、整理并认真分析。

三、大学生个性化就业指导大数据分析应注意的问题及建议

1.大数据分析应防止“三脱钩”问题。首先,防止大数据与大学生个体脱钩。随着互联网的发展,大数据时代的到来,谁掌握了大数据分析,谁就掌握了主动权,将大数据分析应用到大学生就业指导,就是掌握了信息化时代对大学生就业指导的主动权,实现更高效、更准确、更个性的就业指导。但是,面对大数据的浪潮,我们应该保持冷静,大数据的载体是大学生,不能只见数据而不见人,防止变大数据分析这一手段为目的,本末倒置。明确认识到大数据的背后是大学生的思想行为,涉及的是大学生的思维方式、行为习惯。大数据分析的最终目的不是数据的积累和模型的建立,核心价值在于引导大学生树立正确的世界观、人生观和价值观,促进大学生健康成长、成才。

其次,防止大数据与真实性脱钩。大数据时代,大学生获取信息量大、速度快,但是信息的价值密度低,大学生自身的价值体系并没完全成熟,无法准确理性判断信息的真伪,这直接影响大学生在互联网上各种平台如微博、QQ、人人网等即兴发表的言论的真实性。海量信息必然影响信息的质量,当我们将大数据分析应用于大学生个性化服务和指导时,也应注意分析搜集到的大学生信息的准确性,如果大数据本身存在偏差,必然使大数据分析的价值效应大大降低。

最后,防止大数据分析与社会实际脱钩。大数据分析的价值在于现实应用,即通过大学生全方位信息的掌握,全面认识大学生个体的优势与劣势,了解社会发展趋势及就业市场人才需求,更加科学地指导大学生实现适合自身特点的和谐性就业,实现学生、学校和社会的多方共赢。我们应该注意,大数据分析不能脱离社会实际,尤其是高校的大数据分析不能忽视学生个体的特殊性和本校、本地以及就业市场的现实条件,在避免抹杀大学生个性的同时,要更加注重防止大学生的成长成才与社会需求脱钩。

2.大学生个性化就业指导的大数据分析要努力增强科学性。高校中的大数据分析应用无疑能引发高校的“蝴蝶效应”,产生一系列翻天覆地的变革,变革意味着创新,而在创新过程中,由于新事物自身还不完善,对新事物的了解不透彻,容易迷失在信息的海洋,出现如上所述各种问题。鉴于此,大数据分析在大学生个性化就业指导中的应用如下:

首先,应该增强大数据分析的针对性。增强现实针对性,就是要将大数据分析及各种系统与模型的建立与大学生的需要结合起来。大数据分析是将高校的大学生就业指导与大学生需求紧密联系起来的桥梁,是为大学生成长成才服务的,我们不能一味追求大数据的“大”,而应该根据大数据分析和模型,了解大学生的现状,满足大学生的需求,实现学校与大学生的良性互动,指导大学生树立正确的就业观和成才观,从而使大学生走出校门后,能与社会所需人才岗位无缝对接,并在工作中体现自身的人生价值。

其次,要增强大数据分析的准确性。信息化时代,大学生思想活跃,对大学生的指导和教育难度必然加大,应组织各类别专业力量找准入口,拓宽渠道,搜集、甄选数据。充分利用辅导员长期在一线获得的大量实际信息以及学工部、教务处等记录的学生信息,通过与网络信息对比结合,准确提炼,分析加工各种信息,筛选出有价值的数据,提高大数据分析的准确性和客观性。此外,还需要培养一支专业队伍,为大学生个性化就业指导提供专业的数据分析和智力支持。

最后,要增强大数据分析的系统性。当前大学生就业难成为社会一大难题,这一问题使得高校就业指导必须进行调整,大数据分析的应用无疑为就业指导提供了新的技术和方法。但大数据分析尚处于初步发展阶段,我们应该建立一套有序、动态、系统的运行管理机制,随时根据大学生和外界的变化,对数据系统进行合理调整。大数据分析的应用还要设立一套严格的标准,这样才能保证大数据的分析应用不脱离客观现实,提高大数据分析对大学生个性化就业指导的科学化水平。数据分析模型建立后,还要注意与社会各类系统的信息共享,建立完善反馈机制,不断为数据分析模型增添新鲜血液,保持数据分析模型的持续生命力。

四、结束语

“大数据的核心就是预测。”大数据的主要功能就是通过数据算法分析海量数据,预测出事情发生的可能性,但目前大数据应用于大学生个性化就业指导方面还存在一些问题,笔者下一步加强和改进的计划包括:拓展多样数据采集途径和完善大数据分析模型及算法,结合大数据技术建立主动学习的“就业云课堂”,为大学生个性化就业指导提供更加客观、科学、准确的数据、算法和模型支撑,最终预测学生就业行为趋势,实现大学生的个性化服务就业指导服务。

[参考文献]

[1]胡逸.运用大数据技术促进大学生就业[N].中国组织人事报,2013-09-04.

[2]梁家峰.适应与创新:大数据时代的高校思想政治教育工作[J].思想教育研究,2013(6).

[3]桑庆兵.大数据在高校的应用与思考[J].南通纺织职业技术学院学报,2013(2).

数据分析方向篇9

【关键词】 云模型 大数据 典型相关分析 方法

大数据主要是指需要利用新的处理模式才能具备较强的洞察力、决策力以及流程优化能力的多样化、高增长率和巨量的信息资产。它主要具备数据体量大、类型繁多、价值密度低以及处理速度快等特征。这些特征加大了挖掘大数据的难度。随着大数据PB级规模的出现,传统的大数据典型相关分析方法已经不能满足其需求。因此,就要加强对大数据典型相关分析方法的创新研究。在这一背景下,一种根据云模型的大数据典型相关分析方法被提上了日程。

一、云模型的介绍

云模型主要是定性和定量转换的模型。在模糊数学和随机数学的基础上采用云模型来统一描画出语言值中存在的大量随机性、模糊性和二者间的关联性。用云模型来表示自然语言中的基元即语言值,用云的数字特征即期望、熵以及超熵来表示语言值的数学性质。它既体现了代表定性概念值的样本中的随机性,又体现了隶属程度的不确定性,从而展示了随机性和模糊性之间的关联。目前,云模型被广泛的应用到信任评估、图像分割和时间序列挖掘等领域上。

二、大数据典型相关分析的现状

人们在工程实践项目和科研工作中收集到的大量数据大部分都具备大数据的特性,但是把大数据作为一个独立的科学来研究是比较新鲜的。其主要相关的研究领域有:生物信息领域,一部分学者研究了生理电大数据的压缩和存储等方面问题,将生物学研究中的搜集到的数据可以看做大数据;数据挖掘领域,一些科学家研究了大数据挖掘中存在的在线特征的选择问题;大数据程序开发以及存储方面,一些科学家研究了大数据和云计算现状等。在现阶段,大数据研究过程中,还存在诸多不成熟的地方,需要对其进行进一步的完善。虽然一些学者探讨了在云计算平台下的大数据存储方法,但是并没有对大数据典型相关分析进行研究,也没有提出云模型下的大数据典型相关分析方法,使得这一类的研究比较缺乏,因此,就需要加强对大数据典型相关分析的研究,提出切实可行的方法,从而完善大数据典型相关分析,来满足大数据研究的需求。

三、基于云模型下的大数据典型相关分析方法

1、执行大数据典型相关分析的流程。大数据典型相关分析的流程包括:首先,在各个云端上依据当前云端中的数据,运用逆向云发生器形成云数字特征;其次,把各个端点云传送到中心云端,采用多维云进行合并,最终在中心云端中生成中心云;再者,依据中心云,采取正向云发生器生成中心云滴;最后,在中心云滴上实行典型相关分析。2、端点云的生成方法。利用逆向云发生器,在云端中的数据中生成云,就是端点云的生成过程。本文主要采用的是多维的逆向正态云发生器。为了提高在大数据中多维逆向正态云发生器生成云的效率,可以在随机采样的方法下,采取启发式的策略生成云。3、多维云的合并方法。在进行多维云合并时,每次只能进行一对云的加法计算。当采用反复调用方式使,每合并一次云,其新生云需要加入合并的操作中,使云的总体数量只能减少一个,大大降低了合并的效率。在大数据的背景下,由于受到数据存储或者收集方法的影响,就会使不同云端产生的数据也不尽相同,因此,在合并各个云端传递到中心云端的云时,要充分地考虑各云端数据的差异。

四、影响大数据典型相关分析方法的因素

1、中心云滴群的大小。随着云滴群的规模不断的扩大,典型相关分析的系数误差也逐渐下降,当达到一定程度时,其下降的速度趋向平缓的状态。这就显示出适当的增大云滴群的规模,可以有效地降低典型相关系数误差,通过少量的云滴可以体现了大数据中包含的相关性。2、云端数量。不同云端数量对典型相关系数的误差有着不同的差异性,当云端数量不断增多时,其运行的速度也相对提高。3、数据容量。随着数据容量的不断增大,其对应的典型相关系数的误差也随之上升。在大数据环境下,典型相关分析系数的误差有一定的波动性,同时期上升的幅度比较小。

五、总结

基于云模型的大数据典型相关分析方法主要是在小容量的中心云滴群中进行典型相关分析操作,从而提高在大数据环境下执行典型相关分析的效率。为了能够快速生成中心云滴,改进了多为逆向正态发生器,进而提高了大数据下云的生成效率。同时也总结了多维云合并计算的方法,提升了云合并的速度和质量。为之后类型的研究工作提供了可靠的理论依据,进一步完善了云模型的大数据典型相关方法。

参 考 文 献

[1]杨静,李文平,张健沛.大数据典型相关分析的云模型方法[J].通信学报,2013,34(10):122-133.

数据分析方向篇10

一、大数据背景下的数据管理理念

首先要明确几个基本理念:一是要高质量地满足外部监管要求。与业务主管部门工作性质不同,数据管理工作第一任务就是满足外部监管要求,确保不出监管责任事故,这是数据管理工作的基础和底线。二是数据要与业务紧密结合,数据对客户营销、业务发展、产品创新和风险管理都具有越来越重要的作用。数据分析不清楚、数据挖掘不充分,直接影响业务发展。三是为业务发展提供决策支持。通过数据分析,满足行领导在管理决策中所需要的信息,包括内部管理、业务发展、客户营销、风险管理等各个方面;为所辖分支机构、各业务条线提供数据服务。

二、数据管理工作转型规划

(一)明确数据是一种价值资产,不再刻意追求精准性而是强调数据的分析预测功能,关注相关性而非因果性。

银行的一切活动都被数据化,客户的每一个行为、资金流转的每一个细节、每一个决策、每一次交流都成为数据,这些数据一旦得到深入分析使用,会深刻改变银行创造价值的模式。数据的价值在被发掘后还能够不断产生新的价值,其真实价值就像浮在水面上的冰山一角,绝大部分都隐藏在表面以下。

大数据时代,为了收集到数量庞大的信息,我们需放弃严格精确的选择,因为储存和处理都不再是问题,大量结构化、非结构化数据看似垃圾,但垃圾数据里可能蕴藏着巨大财富。

关于信息数据统计与业务经营决策的结合,要相关性分析不要原因分析。数据爆炸使得科学的研究方法都落伍了,无需理论指导的纯粹的相关关系研究已经逐步取代了大量的传统研究范式。例如对冲基金通过剖析社交网络上的数据信息预测股市走向,京东和亚马逊根据用户在网站上的类似查询来进行产品推荐,微博通过用户的社交网络图来猜测其喜好。

(二)建立完善的数据管理体系

首先加强部门协作,共同实现大数据应用目标。业务部门要切实承担大数据采集、分析、应用的职责,数据管理部门要对大数据工作进行组织协调、集中管理、加强推动,尤其是支持业务部门加强数据挖掘分析;其次数据统一管理,数据管理部门统一管理数据,树立数据权威,避免数据孤岛。其它部门不能再随意自行定义数据、做自己独立的数据系统,不能再重复过去那种落后的零散的数据采集和管理方式;再次配备高素质人才,这是实施大数据管理的关键。一方面要从内部培养,数据管理人员要不断学习新的数据分析技术,掌握新的分析工具,另一方面要采取措施多补充一些人才,包括招收一批专业性强的学校毕业生、面向社会招聘一些高素质的数据管理和分析人才;最后加强对数据采集工作的管理,建立数据真实性完整性责任机制。完善基层人员提供准确、完整数据的责任和职责,建立责任机制和良好数据文化,对提供数据不真实、不完整、不及时的行为要进行追责。

(三)强化数据服务和数据挖掘分析,由管理报表工作向经营与管理数据并重,重点满足业务转型需求

报表管理固然是信息监管统工作的第一要务,但工作重点应转向更多地向业务一线、营业部门和业务条线输送数据、分析报告和分析结果,支持业务部门使用数据。数据管理部门不能仅局限为数据统计部门,要构建真正的问题导向型机构,重点关注业务发展中的问题,通过大数据分析和大数据应用,帮助业务部门一起解决问题。一是要主动搜集各机构、各部门和各条线的数据需求,并充分发挥数据管理部门的专业优势,进行深层次的挖掘和分析,满足各机构、业务部门在精准营销、风险防控、经营管理等方面的需求。二是要引导下级行充分利用现有数据资源,主动用好数据。总行层面梳理全行的数据资源,使分行全面了解全行数据资源,进而实现通过数据支持预测和决策、服务转型目标。三是整合外部数据资源,通过多种途径解决外部数据引入。对于区域性的外部商业数据,各省分行可根据需要自行采购,对于全国性的外部数据需求,总行层面统一进行采购,从而实现全行数据资源共享,以满足各机构业务转型发展对于数据的迫切需求。四是做好数据安全管理和权限取数管理工作,取数、用数要符合安全要求和管理制度。

(四)完成要全体不要抽样观念的转变

以前采样统计的目的就是用最少的数据得到最多的信息,而现在大数据更强调数据的完整性和混杂性,反而能够帮助人们进一步接近事实的真相。大数据中的“大”不是绝对意义上的大,它是指不用随机分析法这样的捷径,而采用所有数据的方法,全数据模式,样本就是总体。

从大数据的角度看,统计的主要精力应该放在趋势性、时效性和前瞻性等战略分析上。作为一个大型国有银行,若在跨业务、跨部门的系统之间去追求简单的数据一致性,是存在偏离统计主要发展方向的。如在判断是否应该向某些拥有不良信用记录的人提供小额短期贷款,传统的信息评分机制关注少量突出的事件,比如一次还款的延迟等,而大数据则分析了大量不那么突出的事件,会大大降低贷款拖欠率。

总之,国有银行需要改变大数据理念和数据操作方式,将数据分析作为统计的亮点,而不仅仅是数据管理;建立完善的数据管理体系,不再把精确性当成重心,而是接受混乱和错误的存在;侧重于分析相关关系,而不再寻求原因分析;完成要全体不要抽样观念的转变。切实让大数据管理工作成为我行实现战略转型、提高经营效益、有效降低经营风险的法宝,也成为我们解决面临的困难和问题、重塑核心竞争能力的关键。

参考文献: