大数据时代概述十篇

时间:2023-12-28 17:49:01

大数据时代概述

大数据时代概述篇1

在初中阶段如何处理统计与概率的内容?怎样发挥统计与概率在提高学生数学素养方面的功能?下面就这些问题,谈几点粗浅的看法。

一、统计与概率改革的意义

统计与概率内容的改革,对促进初中数学教学内容的现代化、结构的合理化,推动教育技术手段的现代化,改进教师的教学方式和学生的学习方式等都有积极的作用。

1.使初中数学内容结构更加合理

现行初中数学教学内容主要包括代数、几何,统计含在代数之中。初中三年总课时大约500左右,代数约占258课时,统计约占14课时,几何约 占228课时。从课时分配上可以看出,代数和几何占有相当的份量,约占总课时的95%,统计仅占4%。代数、几何属于“确定性” 数学,学习时主要依赖逻辑思维和演绎的方法,它们在培养学生的计算能力、逻辑思维能力和空间观念方面发挥着重要作用。而统计与概率属于“不确定性”数学,要寻找随机性中的规律性,学习时主要依靠辨证思维和归纳的方法,它在培养学生的实践能力和合作精神等方面更直接、更有效。统计、概率与现实生活密切联系,学生可以通过实践活动来学习数据处理的方法。

2.有效地改变教师的教学方式和学生的学习方式

转变方式是学习统计与概率的内在要求。由于统计与概率中存在着大量的活动,学生需要通过亲自参与活动来学习统计与概率的内容,掌握数据处理的方法。这些活动以有效地导致教师与学生地位的根本改变,促进教师教学方法的改进和学生学习方式的改变。教师由知识的传授者成为活动的组织者、引导者、合作者,学生由被动接受知识的容器转变为活动学习的设计者、主持者、参与者;传统的传授式教学已不能满足教学的需要,学生的学习方式由被动接受变为主动探究。

二、处理统计与概率的基本原则

1.突出过程,以统计过程为线索处理统计与概率的内容统计学的主要任务是,研究如何以有效的方式收集和处理受随机性影响的数据,通过分析数据对所考察的问题作出推断和预测,从而为决策和行动提供依据和建议。统计是一个包括数据的收集、整理、描述和分析(包括概率)的完整过程。根据统计的这个特点,初中阶段的统计内容应该反映这个完整的过程,以过程为线索设计整个初中的统计内容。首先是数据的收集,然后是对收集到的数据进行整理和描述,最后对数据进行分析。在具体内容的处理上也应突出统计的基本过程,让学生经历收集数据,整理数据、描述数据和分析数据得出结论,利用结论进行合理预测和判断的统计过程。

2.强调活动,通过活动体验统计的思想,建立统计的观念

统计与生活实际是密切联系的,在收集数据、处理数据以及利用数据进行预测、推断和决策的过程中包含着大量的活动,完成这些活动需要正确的统计思想观念的指导。统计的学习要强调让学生从事简单的数据收集、整理、描述、分析,以及根据统计结果进行判断和预测等活动,以便渗透统计的思想,建立统计的观念。

3.循序渐进、螺旋上升式安排内容

统计是一个包括数据的收集、整理、描述和分析的完整过程,这个过程中的每一步都包含着多种方法。例如,收集数据可以利用抽样调查,也可以进行全面调查;在描述数据中,可以用象形图、条形图、扇形图、直方图、折线图等各种统计图描述数据。对统计过程中的任意一步,教材不可能在一个统计过程中全面介绍,因此教材可以采用循序渐进、螺旋上升的方式处理内容,在重复统计活动的过程中,逐步安排收集数据和处理数据内容。这样安排内容不仅符合统计的特点,也符合学生的认知规律。学生对统计的过程是陌生的,这样螺旋上升式安排内容,可以使学生在重复统计活动的过程中,不断完善对统计的认识,逐步掌握统计分析的各种方法。

三、处理统计与概率时值得注意的几个问题

1.统计与概率宜分别相对集中安排

概率是刻画事件发生可能性大小的量,统计是通过处理数据,利用分析数据的结果进行预测或决策的过程。从统计学内在的知识体系看,概率是统计学的有机组成部分,在数据的分析阶段,可以利用概率进行统计分析,从数据中得出结论,根据结论进行预测或判断。因此,在初中阶段,可以把概率看成是统计过程的一个阶段。

2.使用信息技术,突出统计量的统计意义

信息技术的发展,使收集数据和处理数据变得更方便、更快捷。我们可以通过计算机网络收集数据,利用计算机软件制作统计表,绘制各种统计图以及进行概率实验,这是统计与概率在各行各业得到广泛应用的一个重要原因。在教材编写和实际教学中,应当提供使用计算机处理一些内容的方案,作为弹性处理,供有条件使用计算机的学校或学生选用。

3.淡化处理概念

虽然概率与统计的概念不多,但有些概念给出定义是困难的,教材不必追求严格定义,应将重点放在理解概念的意义上来。例如概率的概念,在中学阶段给出严格的定义是不可能的,也是没有必要的,因此在编写时,可以通过大量的例子来说明,让学生感受到概率是对随机现象中规律性的一种刻画,是对事情发生可能性大小的一种估计就可以了。

4.选材广泛,文字叙述通俗、简洁

统计(包括概率)的现实生活素材是非常丰富的,编写教材时应当充分挖掘,尽量从学生的生活实际出发来引出和呈现内容,通过丰富的素材处理内容。选材可以是学生感兴趣的生活实际问题、社会问题或人与自然的问题 等,突出现实性与时代感。

统计与概率的内容虽然有大量的图表,但也需要一定的文字语言解释说明。为不影响学生的阅读兴趣、分散学生的注意力,要避免大段的文字叙述。

大数据时代概述篇2

数据库技术的现状及其发展趋势研究开题报告 数据库技术的现状及其发展趋势研究开题报告 专业:信息管理与信息系统 学生:**学号:0924620036

一、选题背景及意义:

数据库技术主要研究如何存储、使用和管理数据 ,是计算机技术中发展最快、应用最广的技术之一。作为计算机软件的一个重要分支,数据库技术一直是倍受信息技术界关注的一个重点。尤其是在信息技术高速发展的今天,数据库技术的应用可以说是深入到了各个领域。当前,数据库技术已成为现代计算机信息系统和应用系统开发的核心技术,数据库已成为计算机信息系统和应用系统的组成核心,更是未来信息高速公路的支撑技术之一。因此,为了更好的认识和掌握数据库技术的现状及发展趋势,本文对有关数据库发展的文献进行了收集整理,以求在对现有相关理论了解、分析的基础上,对数据库发展进行综合论述,对数据库技术发展的总体态势有比较全面的认识,从而推动数据库技术研究理论的进一步发展。

二、论文综述 1、数据库技术发展历程:许多年以来在数据库技术领域很少有重大的技术创新能够引起人们对整个数据库发展历程的回顾与反思。2006年DB2 9中推出的pureXML技术,对过去数十年来关系型数据库的最基本的数据组织方式进行了重大的创新,第一次让我们对数据库的历史,以及过去支撑其发展壮大的理论基础和外部挑战从新的角度进行审视。 今天我们很少去回顾数据库的历史,对于绝大多数IT技术人员,数据库等同于关系型数据库,数据则和表紧密联系。E-R模型几乎是我们描述世界的唯一方式,SQL语言是数据库信息访问处理的唯一手段。关系型数据库已经成为了一种宗教式的信仰,数据相关的所有理论问题似乎都已经解决。

然而历史的发展总是在我们不经意间产生转折,所有重大技术的产生及发展都有其生存的土壤。40年前数据库的诞生并不是关系型数据库,第一代的数据库第一次实现了数据管理与应用逻辑的分离,采用层次结构来描述数据,是层次型数据库(IMS)。第二代数据库奠基于上世纪70年代E.F Codd博士提出的关系型理论以及SQL语言的发明。实现了数据建模和数据操作处理的标准化,关系型数据库在其后的20多年的时间取得了长足的发展,得到了广泛的应用。技术的演进主要集中在性能、扩展性和安全性等方面的提升,其基本的理论框架和技术理念并没有大的变化。

与之相反,在过去的20多年里,IT产业发生了重大的变化和一系列技术及理念的创新。数据库所生存的外部土壤随着Internet以及在网络环境下IT系统互联互通相互协作的趋势,对信息管理技术提出了新的挑战。

2、 国内研究的综述:《移动数据库技术研究综述》《Web数据库技术综述》《Web与数据库技术》《数据库技术发展趋势》

三、论文提纲

(一)数据库技术概论

1、数据库技术概念及类型

2、数据库技术发展历程

3、数据库技术应用

(二)数据库技术发展现状------关系数据库技术仍然是主流

1、发展现状概述

2、Oracle概念及应用

3、Access概念及应用

4、SQL概念及应用

5、DB2概念及应用

6、发展现状总结

(三)数据库技术发展的趋势

1、下一代数据库技术的发展主流面向对象的数据库技术与关系数据库技术

2、演绎面向对象数据库技术

3、数据库技术发展的新方向非结构化数据库

4、数据库技术发展的又一趋势数据库技术与多学科技术的有机结合

5、未来数据库技术及市场发展的两大方向数据仓库和电子商务

6、数据库技术的实践性发展面向专门应用领域的数据库技术

(四)当代与未来数据库研究的热点数据挖掘、知识发现与数据仓库

1、数据挖掘技术

2、数据仓库技术

3、知识发现技术

4、小结

5、结论

四、论文写作进度安排

(一)开题报告:论文题目、系别、专业、年级、姓名、导师

(二)目的意义和国内研究概况

(三)论文的理论依据、研究方法、研究内容

(四)研究结论

大数据时代概述篇3

叶片识别是最简单和直接的植物识别方法,采用机器学习算法是解决叶片识别的重要途径。为更有效的识别叶片,提出基于限制性玻尔兹曼机的叶片识别算法,并通过实验论证算法的可行性。

【关键词】机器学习 叶片识别 限制性玻尔兹曼机

在植物的分类或者检索研究中,通常都选取植物的局部形态特征,如植物中长出现的花、叶、枝条等植物器官。虽然这些植物特征都有各自的分类价值,但与植物其它器官相比,叶片显然具有易于提取,容易转化为计算处理图像等优势,所以常在植物识别中作为主要的参照器官,同时叶片的生长形状和颜色特征又是研究植物异化的一个重要的指标,因此在传统的植物叶片识别系统中,通常都将叶片识别作为最简单和直接的植物识别方法。

近年来,越来越多的机器学习方法在现实中被广泛的应用,机器W习方法正在传统行业中发挥着重要的作用,研究基于机器学习算法的叶片识别系统具有一定应用价值。

1 玻尔兹曼机

玻尔兹曼机(Boltzmann machine, BM)作为Hopfield网络的一种概率形式,具有良好的概率建模和计算能力。该模型最早脱胎于物理学中的能量模型,用于描述各种高阶变量间的相互作用机制,这种模型的计算方法相对复杂,但其理论框架相对来说较为完善,在BM中每个神经元以一定的概率处于0和1两种状态之下,BM的网络拓扑如图1所示。

其中单个圆表示隐藏节点,双圆代表可见节点,可见节点用于接收观察向量,作为一种概率性的Hopefield网络,BM的能量函数定义如下:

(1)

其中,wij代表节点i和节点j的连接权重, si,si表示节点i和节点j状态,θi表示节点i的输出阈值。在BM中每个节点都以一定的概率输出为零,同时也以一定的概率输出为一,概率的输出计算如下:

(2)

(3)

当上述概率大于阈值θi时,当前节点取值为1,否则取值为零。作为一种典型的反馈形神经网络,该算法的学习过程相对比较困难,传统而言,该模型采用采样的方法估计模型的权重参数,总所周知,采样方法的缺陷在于难以估计采样收敛时间,且采样过程相对缓慢,因此这种模型虽然建模能力强大,但是其若将其应用于DBN模型中,则模型的估计时间显然过长。

2 限制性玻尔兹曼机

如上所述,玻尔兹曼机由于其内部复杂的工作方式,权值的估算通常依赖采样等方式进行,这种方法耗时耗力,为进一步简化BM的拓扑结构使得网络的计算快速有效,限制性玻尔兹曼机将BM的隐藏层节点间的相互连接取消,同时取消可见层间的相互连接,限制性玻尔兹曼机的拓扑结构如图2所示。

相较于BM的结构,RBM结构简单,因此训练和学习的效率也更加有效。在标准的RBM网络中,可见层用v表示,隐藏层用h表示,且其取值一般取0和1,对于给定了权值的RBM网络,隐藏层计算算法如下:

算法1:

(1)使用公式1和2计算每个隐藏层节点的输出概率。

(2)随机从均分布U(0,1)中抽取元素u,若该元素大于隐藏概率的输出概率则隐藏层取0,否则隐藏层取1。

当RBM中节点的取值是0和1的二值时,RBM的能量函数定义如下:

(4)

其中wij表示节点i和节点j间的权值,bi表示隐藏层节点i的偏执,ai表示可见层节点j的偏执,无论是在RBM网络还是在BM网络,都是一种特殊的概率图网络,概率图中将可见节点的边缘概率最大化即是求解网络参数的最简单方式,可以证明最大化可视节点的边缘概率等价于最小化网络的能量函数。

下面考虑节点的输入不是二值函数时,网络的能量函数定义,一般而言,为应对这种情况,通常在独立网络单元中加入高斯噪声,因此可以定义能量函数如下:

3 RBM参数学习

从上述的讨论中可知,模型的训练可以通过最小化能量函数实现,现假设训练样本共有T个,与前述神经网络中相类似,求能量函数的导数,然后使用梯度下降方法得到网络的最终权重。由文献可得,与能量函数等同的似然函数的导数为:

上式中第一项表示求数据的期望,第二项表示求模型的期望,数据的期望相对来说求解较为容易,模型的求解设计到v,h的所有情况,计算量较大,为处理这类方法,在现代概率估计方法中通常使用GIBBS等采样算法,这种方法基于马尔科夫采样原理,当状态沿着马尔科夫链进行转移的时候,最后系统中的每个状态出现的概率将处于一个稳定的收敛状态,若此时再沿马尔科夫链进行转移,系统中的每种状态出现的概率将不会改变,这种收敛性与最初的初始状态无关,只与状态的转移概率有关,GIBBS采样是一种估算每一步转移概率的方法,经过该方法得到的转移概率最终的收敛概率等于目标概率,转移的状态被作为采样本,这种方法推算简单,收敛速度快,因此被广泛的用于估算各种联合分布、边缘分布。

对于Gibbs 采样,从条件概率采样往往比从边缘概率采样容易。设需要抽样的分布为p(X)=p(x1,x2,x3,...,xN),GIBBS采样对此概率的采样过程如下,给定X任意的初始值。

(1)从条件分布p(x1|xi-12,xi-13,...,xi-1N)中抽取样本xi1;

(2)从条件分布p(x2|xi1,xi-13,...,xi-1N)中抽取样本xi2;

(3)从条件分布p(x3|xi1,xi2,...,xi-1N)中抽取样本xi3;

(4)从条件分布p(xN|xi1,xi3,...,xiN-1)中抽取样本xiN。

在RBM中可以通过上述的采样过程得到模型的联合分布样本从而估计模型的总体期望,这种方法存在的缺点是,当使用梯度下降迭代求解模型参数时,每一步的模型更新都需要进行Gibbs采样,这样大大降低了模型训练的速度,这种不足在RBM应用于高维数据时尤为明显。针对这种不足Hinton等人提出一种对比离差算法(Contrastive Divergence,CD),该算法不同Gibbs采样算法估计模型的联合分布概率,CD算法可以快速求解模型本身的期望,在CD算法中,Hinton指出当使用训练数据初始化可视层时,k步的Gibbs采样就可以使联合概率得到很好的近似。

对比散度算法(CD)的目的在于使用简单的采样步骤代替GIBBS采样中复杂的采样过程,在该算法中模型梯度中的重构期望被简单的一步采样代替,从而大大降低系统的采样复杂度。对比散度的算法过程如下:

算法2: 对比散度算法

(1)对训练训练数据中的每一条记录将其赋值给可视层,计算其输出概率。

(2)从上述概率中抽样隐藏层状态h,然后通过该隐藏概率计算可视层输出概率,同样,从该概率中抽样出一个可视层状态。

(3)再次从上述抽取的可视状态出发计算隐藏层输出概率。最后得到参数的更新公式

4 基于深度网络的叶片识别实验

为了研究深层网络中,植物叶片的识别效果,这里采用中科院的ICL数据集,在本数据集中,共包含200多种叶片,每类叶片包括至少30片叶片样本,为后续讨论的方便,共设计了两组数据,一组是纹理特征不明显的叶片样本,这类叶片样本的叶片表面光滑,不容易分辨,另一组则是纹理特征相对明显,叶片相对容易分辨。

在训练时采用三层DBN模型,第一层隐层使用1000个隐藏节点,第二层与第一层相同,第三层则使用2000个隐层节点,训练前先对数据进行归一化,使其成为80*40的叶片图像,同时为扩大训练样本数量,每类样本进行复制处理,样本标签数量取十类和二十类两类样本数据库,原始样本中每类样本数量为50,复制以后每类为150,每类中使用10片样本用于分类测试,下面给出RBM迭代次数不同时,各自的识别率,如表1所示。

进一步使用纹理特征较明显的样本,图3可以看出,相对图4中的叶片样本,本次实验使用的样本在纹理方面相对更突出,该样本同样来源于ICL数据库,与上述处理类似,首先将样本进行归一化,然后观察样本识别率在RBM迭代次数变化时的平均识别率,如表2所示。

比较上述两类实验,可以发现,当实验样本形状等差异度更大时,DBN的分类性能更好,这与我们的常识是相符合的,对于相似的叶片,若网络只是使用单纯的RBM网络对叶片图像进行重建操作,则相类似的叶片在网络中的重建特征应该是类似的,此时若标记样本不足,则很难通过调整权值的方式使得网络具有优秀的分辨能力。同时从RBM的迭代次数可以发现,随着迭代次数的增多,叶片的识别精度随之提高,上述的RBM推导中可以知道,RBM的训练会随着迭代次数的增加愈加收敛于能量最低点,从而得到最优的重建性能。

⒖嘉南

[1]李超,李昂,朱耿良.基于限制性玻尔兹曼机的微博主题分类[J].电信网技术,2014(07):008.

[2]秦胜君,卢志平.基于限制玻尔兹曼机的无极性标注情感分类研究[J].科学技术与工程,2013(35):10703-10707.

[3]刘建伟,刘媛,罗雄麟.玻尔兹曼机研究进展[J].计算机研究与发展,2014,51(01):1-16.

[4]Hinton G E.Training products of experts by minimizing contrastive divergence[J].Neural computation,2002,14(08):1771-1800.

[5]Itti L,Koch C,Niebur E.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,1998(11):1254-1259.

[6]Liu T,Yuan Z,Sun J,et al.Learning to detect a salient object[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on, 2011,33(02):353-367.

大数据时代概述篇4

关键词:初等数学;概率和统计;教学方法

概率和统计是既有联系又有区别的两部分内容,就其内容而言,初等概率论属于数学思维的范畴,而描述性的统计学属于数学常识的范畴。中学“概率和统计”教学也只是初步传授概率思想和介绍数据的分析与描述。当然,概率论的教学能提供更多的培养数学思维的机会,而统计是不能离开思维而进行的,它对发展学生逻辑思维能力、提高运算能力、培养良好的个性品质等都有很大益处。更重要的是,它对于完成教学大纲的教学要求,学生今后的全面学习和走上社会从事劳动生产及研究现代技术都有很大帮助。

一、通过介绍数学史使学生明确学习概率和统计的意义

教学应从概率论的渊源讲起,如关于的概率论从16世纪就开始了,1797年第一次出现了统计这个词。历史上,帕斯卡、费尔马和贝努利都对统计学作出了开创性的贡献,但与研究确定性现象的数学问题相比它起步较晚,直到20世纪才作为一种数学思想和科学方法登入科学殿堂。教学时,应引导学生认识我国概率统计学科教育的现状,20世纪60年代大学数学系才有概率课,80年代以后才在理工大学普及,但也出现了许宝J这样驰名世界的数理统计学家。通过数学史的讲述,使学生明确学习概率统计基础知识的重要性,它是我们在日常生活和生产实践中经常用到的工具,也是今后进一步深入学习的基础。

二、发展学生的逻辑思维能力,提高学生的运算能力

“概率”部分中概念较多,公式规律性较强。教师应通过大量实例讲清它们的意义,使学生正确理解并准确区分概念,学会利用有关定义和公式计算事件的概率,掌握求解一些事件概率的方法。在统计部分主要和数据打交道,如计算很大数据的平均数、方差等,需要一定的计算能力和灵活的计算方法,应该引导学生选择最简便的方法,使学生熟悉数学工具的正确使用方法。

三、引导学生领会数学思想方法,形成数学观念

在众多数学问题中,随机性数学与确定性数学紧密联系。一方面,概率论的使用方法主要是确定性的数学方法,只是对推导出的结论作不同的解释。如初等概率论中的概率计算主要使用排列组合的计算方法,而将结果给予概率解释。另一方面,概率思想反过来推动确定性数学的发展,例如著名的蒙特卡洛方法就是用随机数学方法求确定性的数学问题,这些都可举例向学生阐述。

统计数据隐藏着概率特性,统计数字虽然枯燥,但有概率分析就活了起来。统计的任务是通过对样本分析来推断总体的特性。统计部分渗透了许多数学思想,如转化、比较、估计等。当数据较大且在一定位置上下波动时求平均数或方差,若用常规方法计算量大且较烦琐,因此可以“转化”为用简化公式的方法,通过对众数、中位数和平均数的“比较”,从不同角度描述一组数据的集中趋势,还可以通过样本平均数或方差来“估计”总体平均数或方差。

四、展现知识形成过程,激发学习兴趣

本章概念较多,而正确理解概念是准确解题的关键。如引入概率定义时,可举“生日问题”,与学生打赌,激发其学习兴趣。统计部分中涉及的问题与学生生活密切相关,如求数学平均成绩,比较两班学生成绩哪个班较好,计算商店销售额与纯利润相关程度等。这些问题学生都很感兴趣,都能主动阅读本章内容。教学时要充分利用课后的习题激发学生的求知欲,调动学生学习的积极性,从而使学生感到数学并非枯燥无味。本章教学若能注意到这一点,将会取得很好的教学效果。

五、引导学生透过偶然看必然

大数据时代概述篇5

[关键词]数据挖掘 计算机 算法

中图分类号:TV55 文献标识码:A 文章编号:1009-914X(2017)06-0138-01

正文

数据挖掘功能主要是用于指定数据挖掘任务中要找的模型类型。数据挖掘模式可以是说明数据库中数据一般特性的描述性挖掘,也可以是用于在当前数据上进行预测和推断的预测性挖掘。

一、数据挖掘技术的主要功能

1、描述功能

所谓的类/概念描述就是指将数据与类或概念相关联,对每个类/或概念用精确的、简洁的、汇总的方式进行描述。采用的描述方法主要有:数据特征化、数据分区和数据特征比较。数据特征化就是目标类数据的一般特征或特征的汇总。通过数据库查询收集用户指定类的数据,采用多种方式实现数据特征化和汇总,也可以运用多种形式提供数据输出,也可以采用规则形式或者概化关系进行结果描述。

2、分类预测功能

分类就是找出描述并区分数据类或概念的模型,这样可以较好地使用模型预测类对未知对象类进行标记。基于对训练数据集分析的导出模型可以表示为多种形式,例如:判定树、数学公式、分类规则和神经网络等。其中判定树是一个类似于流程图的树结构,在这个树结构中,树叶代表类分布或者类,分支代表测试的一个输出,每个节点代表一个属性值上的测试。判定树容易转化为分类规则。数据对象的类标记可以用分类来预测,预测通常指被预测的值是数据数值。

3、聚类分析功能

聚类就是把物理或者抽象对象的集合分组成为由类似的对象组成的多个类的过程。首先就是要把数据对象分组为多个簇或者类,不同簇中的对象差别大,而同在一个类或者簇中的对象相似性较大。就数据挖掘来讲,通过聚类分析用来获取数据分布情况,可以对每个簇进行观察,可以选定一些需要进一步分析的簇。同时,聚类分析还可以作为其他算法的预处理步骤。

4、演变分析功能

数据演变分析描述行为随时间变化的对象或者趋势,并且对此建立模型。演变分析可能包括时间相关数据的类聚、关联、区分以及特征化等,这些分析的不同特点包括序列或者周期模式匹配的数据分析、时间序列数据分析以及基于类似性的数据分析。

二、数据挖掘技术分析方法

1、聚类分析方法

通过数据聚类分析把相似性特点的数据归为若干个簇,这些簇具有最小的组间相似性和最大的组内相似性。换句话说就是要让同一聚类中的数据达到最大的相似性,让不同类聚中的数据达到最大的不同。聚类分析与分类是不同的,对目标数据库中的数据进行分类的时候,我们是知道存在哪些类,然后标记出来每一条记录属于哪一类。可是聚类是不同的,聚类预先不知道目标数据库中有多少类,以某种度量为标准的相似性,将所有的记录组成的类在不同类聚之间实现最大化,而在同一类聚之间实现最小化。 依据聚类的数据情况,可以把聚类分为属性聚类和对象聚类两类,属性聚类常常根据相似系数来度量相似性,对象聚类则通常用距离或相似系数来度量相似性。

2、关联分析方法

关联是指多个数据项之间联系的规律。关联规则挖掘是数据挖掘中最成熟的技术之一,同时还是数据挖掘的主要研究方向之一。关联规则挖掘可以发现数据库中两个或者多个数据项之间的关系,可以用来寻找大量数据之间的相关性或者关联性,进而可以对事物某些属性同时出现的规律和模式进行描述。由于关联规则不收因变量的限制,所以在数据挖掘中关联规则得到了广泛的应用。关联规则可以进行多维数据之间的相关性分析,所以关联规则适用于发现大型数据集中数据之间的关系。

3、分类分析方法

在数据挖掘技术中分类分析技术的使用率非常高。分类分析中首先要确定类别概念,根据类别的特征构造模型,标记好每个类别,该标记代表着各类数据的综合信息。然后对簇中对象的共同点以及各个簇间对象的区别加以描述。

4、决策树方法

决策树方法是数据挖掘的一个活跃领域。决策树是一个类似于流程图的树结构,是一种基于实际数据的归纳学习算法,解决以离散型变量作为属性的一种学习方法。决策树的每个分支代表一个测试输出,每个内部节点表示属性上的一个测试,而每个树叶节点则是代表着类的分布或者一个类。有代表性的决策树算法主要有C4.5和ID3算法。与其他的挖掘方法相比,决策树模型简单易懂,而且容易获得更好、更详尽的分类准确率,而且决策树方法的处理速度较快。但是决策树方法也有自身的不足,需要对连续型变量进行转换,比较难预测;当类别较多的时候,错误增加也会较快;要做很多的预处理工作才能处理时间顺序的数据等。

5、遗传算法

这种算法是一种全局优化算法,易于和其他模型结合,具有非线性求解和隐含的并行性等特点。遗传算法模拟生物的遗传机制和自然选择,采用遗传变异、自然选择、遗传结合等设计方法,通过一组遗传算子把需要求解的问题在求解空间上迭代搜索,找到问题的最优解 。目前来讲,遗传算法在神经网络、工业优化控制、模式识别、机器学习等各方面都得到了广泛的应用。当前的研究更侧重于遗传算法与局部优化算法的结合、算法的收敛性证明以及遗传算子的设计等方面的研究。

三、结论

随着人们对信息数据量的急速增长从而数据挖掘技术也随之应运而生,这使得人们对知识与信息的渴求得到了进一步满足。对于如何才能快速高效的获取知识,对于信息处理技术来说尤为重要。

参考文献

[1] 数据仓库与数据挖掘技术[M].电子工业出版社,2002.

[2] 王丽珍等编著.数据仓库与数据挖掘原理及应用[M].科学出版社,2005.

大数据时代概述篇6

[摘

要] 中美两国初中阶段“统计与概率”的内容标准在教学内容、知识背景、基本理念以及内容广度和强调重点上有异有同. 本文就中国的《新课标》与美国的《美国学校教育的原则和标准》中对初中教育阶段“统计与概率”的内容作了进一步的比较研究.

 

[关键词] 统计与概率;比较;研究

统计与概率是应用数学中一个非常重要的内容. 随着科学技术的进步与发展,我们的生活正在被以数据所构成的信息包围、控制着. 对一般的公民来说,学会对数据的认识、描述、分析与利用,是一项非常重要的能力. 在我们日常生活、自然、科技领域中,概率同样有着广泛的应用,它是我们解决一些问题时不可缺少的知识. 因此,在当今社会,概率与统计已成为每个合格公民知识素养中必不可少的一部分.

 

■ 背景分析

从 1933 年苏联数学家柯尔莫哥洛夫在他的《概率论基本概念》一书中首次给出概率的严格的公理化定义开始,随着生产和科学技术的飞速发展,概率与统计的应用也日益广泛. 正是由于概率与统计的这种广泛应用性,英、日、美、法等发达国家,在基础教育阶段就非常注重学生概率与统计知识的获得和概率与统计观念的发展. 美国在20世纪80年代明确提出,把概率与统计内容的教学延伸至幼儿园,提倡概率与统计教学的早期教育. 1989年的《美国学校数学课程与评价标准》是这种理念的具体体现,2000年《美国学校教育的原则和标准》更是强化了把概率与统计的教学提前到了幼儿园这种理念.

 

20世纪30年代,中国有一本使用很广的高中教材《范氏大代数》,其中列有“概率”的专章. 新中国成立初期,《范氏大代数》曾作为必修教材使用,但20世纪50年代学习苏联的数学教育,概率与统计被排除在中学数学课程之外. 1960 年,在“大跃进”思潮影响下的教育改革,把概率与统计内容放进了中学教材. 但由于在理论上要求过高、过深,在联系实际上又脱离中学生的生活实际,使得教师难以教、学生难以学,只在少数学校试验后不久就退出了教育舞台. 从1978年开始,历次数学教学大纲改革都规定了在初中3年级学习统计初步,但在执行过程中,统计教学并没有取得理想的效果. 2001年,我国颁布了《全日制义务教育数学课程标准》(简称《课标》),大幅度地增加了统计与概率的内容,并将统计与概率列入义务教育数学课程的学习领域. 2011年,我国又颁布了《义务教育数学课程标准》(简称《新课标》),《新课标》在《课标》的基础上做了适当地调整,使得统计内容学习的层次性更加明确.

 

■ 中美内容标准上的比较与研究

1. 中美“统计与概率”内容的比较

?摇本文将统计与概率的内容分为数据的收集组织和表示、数据分析、数据的推断和预测以及概率的应用四部分内容.

(1)中国《新课标》中的数据的收集组织和表示的内容包括:①能够收集、整理、描述数据,了解数据处理的过程;②会用扇形统计图表示数据,能用统计图直观、有效地描述数据. 《新课标》在《课标》的基础上增加了了解数据处理的过程以及能用统计图直观、有效地描述数据. 《新课标》注重学生学习的过程性,培养学生分析问题的能力.

 

美国数据收集组织和表示的内容包括:①关于两个总体的共同特征或者一个总体内的不同属性,能够形成问题、设计方案和收集数据;②合适而有效地选择、创造和应用数据的各种图象.

 

(2)中国《新课标》中数据分析的内容包括:①理解平均数的意义,会计算中位数、众数、加权平均数和方差,了解它们是表示数据的集中程度和离散程度;②了解频数和频率分布的意义,能画出频数直方图,能解释频数直方图的数据中蕴涵的信息;③能通过表格、折线图、趋势图等,感受随机现象的变化趋势. 《新课标》在《课标》的基础上增加了能计算中位数和众数的内容,扩大了学生的知识范围.

 

美国的数据分析内容包括:①发现、使用和解释集中和发散;②讨论并理解在数据组和它们的图形表示之间的联系,尤其是柱状图、茎叶图、直方图和散射图.

(3)中国《新课标》中的数据的推断和预测内容包括:①感受抽样的必要性,通过案例了解简单随机抽样;②体会样本与总体的关系,能用样本的平均数、方差来估计总体的平均数和方差;③能解释统计结果,根据结果作出简单的判断和预测,并能进行交流.

 

美国数据的推断和预测的内容包括:①从作好的样本发展关于总体特征的推测,通过模拟找出数据的差异;②在数据的散射图和相应的近似曲线的基础上,对样本的两种属性之间可能的关系进行推测;③使用推测去提出新的问题,并计划新的研究来回答它们.

 

(4)中国《新课标》中的概率的应用内容包括:①能通过列表、画树状图等方法列出简单随机事件所有可能的结果,以及指定事件发生的所有可能结果,了解事件的概率;②知道通过大量的重复实验,可以用频率来估计概率; 《新课标》明确指出所涉及的简单事件属于随机事件,强调事件的随机性.

 

美国的概率应用的内容包括:①理解并使用相应术语描述互斥事件和独立事件;②使用比例和概率的基本理解去做出和检验关于实验和模拟的结果的猜测;③通过表、树图和面积模型进行简单复合概率事件的计算.

 

2. 中美“统计与概率”内容的研究  

(1)从中美两国义务教育阶段的内容标准可以看出,中美两国都把教学内容分为统计与概率两部分,两国都十分重视统计与概率之间的联系.

(2)中美两国都重视统计与概率知识的具体背景. 如中国《新课标》提出学生要经历在实际问题中收集和处理数据,利用数据分析问题、获取信息的过程,要通过实例了解简单随机抽样、了解频数和频数分布的意义. 美国《课标》则提出中年级学习数据分析时,要为学生提供丰富的情境去提出问题和解决问题. 中国《新课标》重视与实际生活的联系,而美国《课标》更重视使用模拟法处理问题.

 

(3)从中美两国义务阶段标准的基本理念的比较来看,中美两国都注重知识与技能的发展,都强调对统计与概率的思想方法的进一步学习和意义的进一步体会,如中国《新课标》提出学生能体会统计方法的意义,能体会抽样的必要性,可以通过样本平均数、样本方差推断总体平均数和总体方差,以及进一步学习描述数据的方法. 美国《标准》则提出中年级教师应当在学生已有的数据分析和概率经验的基础上帮助学生回答更加复杂的问题……此外,在对数据和统计的学习方面,学生能够应用并进一步发展他们正在形成中的对概率的理解.

 

(4)从内容广度和强调重点的比较上看,中美两国课标的基本内容没有什么明显的差异,但中国课标偏重于基本知识和基本技能,美国偏重于能力. 对基本知识和基本技能的掌握,有利于学生熟悉地掌握所学的知识,但容易造成学生的死记硬背,不利于学生能力的发展和创新意识的培养. 对能力的偏重,有利于学生发展数学思维和创新能力,但不利于学生对知识的牢固掌握.

 

■ 注重“概率与统计”和其他数学

大数据时代概述篇7

关键词:电子文件 元数据 综述

“元数据”一词,由来已久,其最早出现于计算机信息领域。自1996年美国著名电子文件专家戴尔·比尔曼在第十三届国际档案大会上提出“元数据”以来,元数据开始进入档案学界研究人员的视野,并逐渐发展成为档案学界新的研究热点,尤其是对电子文件管理元数据的研究。笔者试图通过文献分析法,对2000——2011年我国电子文件管理元数据的研究情况进行归纳和总结。

1.数据统计分析

笔者选取了中国期刊全文数据库、中国期刊全文数据库-世纪期刊、中国博士学位论文全文数据库及中国优秀硕士学位论文全文数据库,使用高级检索,在“题名”检索项中填入检索词“元数据”,同时在逻辑“且”条件中选择“关键词”检索项并填入检索词“电子文件”,选择2000至2011作为检索时间,最终共获取有关电子文件管理元数据的论文134篇,其中中国期刊原文数据库搜索出132篇,中国优秀硕士学位论文数据库2篇。

通过对年度的统计分析,可以了解电子文件管理元数据的研究进展情况。依据本文所使用的检索方法获取的134篇论文,其年度分布情况如表1所示。

由表1可知,从2000年到2011年,有关电子文件管理元数据的论文数量明显呈上升趋势,并且自2002年开始,论文数量一直保持在比较稳定的水平,这说明现阶段,电子文件管理元数据问题仍是我国档案学者普遍关注的问题,有关此问题的研究也仍在持续进行中。

2.电子文件管理元数据研究的主要内容

2.1电子文件管理元数据的概念与功能研究

2.1.1电子文件管理元数据的概念

元数据最早出现于计算机技术领域,此后被广泛应用于多个领域。自戴维·比尔曼将其引入电子文件管理领域以来,档案学者开始对其进行研究,而有关元数据概念的研究自然首当其冲。目前为止,我国档案学者对电子文件领域内元数据的概念研究大致可分成三个阶段:初始定义阶段、著录元数据阶段以及电子文件管理元数据阶段。①

初始定义阶段,即直接引入计算机领域元数据的定义:元数据即关于数据的数据(data about data)。但这一概念过于宽泛,可以适用于各种不同领域,并不专门针对电子文件,无法作为电子文件领域的专业术语或概念,不具备专指性和唯一性。同时这个概念也过于抽象,档案工作人员无法正确的认识和理解它,更不知道在实践工作中如何具体的运用它。因此,档案学界继续对元数据的概念进行探索,进而进入元数据概念研究的第二阶段:著录元数据阶段。

著录元数据阶段。所谓著录元数据,即元数据是关于单一电子文件和文件组合的背景及相互关系的结构化著录数据。②其实这里的著录元数据也就是指著录信息,这一阶段支持这一观点的代表性学者有董永昌、何嘉荪、刘越男等。董永昌、何嘉荪就明确提出“元数据是著录信息”。著录元数据概念的提出赋予了元数据有关档案学的特定意义,同时由于著录这一概念对广大的档案工作者而言并不陌生,因而也大大提高了整个档案界对元数据的认识,有利于在实践工作中更好的操作和运用元数据。但这一观点也受到不少研究者的质疑,一些档案学者认为,元数据与著录信息在作用、获取方式、稳定性等方面都有所不同,因此不能单纯的将元数据定义为著录信息。为此,刘越男提出“在电子环境中可以将文件管理元数据理解为著录信息”③的论点,并从现代著录定义的拓展、国际元数据标准与档案著录标准的关联以及电子环境中两者的本质等方面对这一论点进行了论证。

电子文件管理元数据阶段。这一阶段我国档案研究者们引入了国际档案界提出的“电子文件管理元数据”概念,即“在对电子文件及其与文件创建和管理有关的人、过程和系统进行确认以及为其提供凭证和背景信息的过程中,有关文件的管理、利用和文件可理解性的元数据。” 电子文件管理元数据是专门设计用于满足电子文件管理需求,有关保证文件的真实性、可靠性、稳定性、安全性、完整性、可理解性与可利用性的数据。可以看出,这两个元数据的概念是从作用的角度对电子文件领域的元数据加以定义的,体现了元数据在电子文件管理中的作用。同时通过赋予电子元数据不同的作用和用途,将电子文件管理元数据与其他领域的元数据区分开来,使其具备档案学的专业内涵。

2.1.2电子文件管理元数据的功能

我国档案学界对电子文件管理元数据的功能进行研究的学者较多。目前主要有四种代表性观点:

(1)用系统论观点,将元数据的功能分为总体功能和局部功能。代表人物为徐维,他指出“元数据的功能就是指元数据系统在电子文件管理计算机系统中所能发挥的作用和能力。电子文件管理的目的就是通过元数据的功能来实现的。元数据的功能可以分为总体功能与局部功能。”④同时系统的阐述了元数据功能在文件阶段的不同体现以及总体功能与局部功能的关系。

(2)用比较研究法,建立新的元数据功能认识模型和联系模型。档案学者张正强通过对国际档案学者、国际标准化组织、国际元数据项目以及国际标准等提出的元数据功能系统进行比较分析,并从行为、能力和功效这三个方面对这些功能加以重新认识和理解,最终建立起基于行为功能、能力功能和功效功能的元数据功能模型及其联系模型。

大数据时代概述篇8

关键词:概念模型;规范化;数据元;11179;形式概念;MDR

中图分类号:TP391 文献标识码:A

1 引 言

概念模型本质上是一种对现实世界进行抽象描述的工具,从构建的角度出发,概念模型所描述信息的准确性是衡量概念模型构造方法优劣的重要指标。在当前众多的概念模型构造方法中,例如UML、OWL、ER等建模方法都可以构建概念模型,但是在语义表达程度上却各不相同,也就是准确性上存在差异。从管理的角度出发,随着概念模型规模的不断扩大,不同概念模型之间信息可共享性是衡量概念模型的另一重要指标。由于当前并没有统一规范的概念模型构建方法论,所以依据不同构造方法所建立的概念模型之间信息共享困难,例如在UML建模方法中是以面向对象思想为理论依据,最主要的特性就是抽象,也就是说关注的重点是对属性进行操作[1]。OWL建模方法以本体理论为基础,不仅描述概念之间的关系,还重点对概念之间的关系进行约束、验证,而这个特点在UML中却没有体现,因此在进行信息交互时,需要开发相应的转换接口进行转换。ER模型构造方法,可以说是一种最简单的本体语言,支持概念和概念之间的关系,只是描述语义很弱而已。

因此,建立一个规范的、具有通用性的概念模型构建方法是本文的根本出发点。规范性、通用性的实现不仅需要通用的基础理论作为支撑,也需要依据相关标准作为指导。在信息领域中,由JTC1(ISO/IEC共同建立的联合技术委员会JTC 1)起草的ISO/IEC 11179-3:2013(E)标准[2]就是这样一部具有权威性、准确性、独立性的信息标准,其独立性体现在该标准的实现不依赖于任何现有的技术。从2003年开始,该标准经历了两个版本的变化。

本文依据ISO/IEC 11179系列最新的ISO/IEC 11179-3:2013(E)标准,以形式逻辑为基础,对概念模型进行深入研究,给出概念的定义、概念之间逻辑关系的形式化定义,以及数据元素概念(DECData Element Concept)的表示方法;参照UDEF(Universal Data Element Framework)框架[3],给出了规范的概念系统模型构建方法(SCCSStandardized Construction of Concept System),并建立DEC注册系统。

2 规范概念系统模型构建方法

ISO/IEC 11179-3:2013(E)是11179-3的最新标准,对概念系统模型的各个组成要素进行了详细的定义。在标准中指出,概念系统模型由概念与概念之间的关系两部分构成。概念部分由概念、DEC、概念域三个部分组成;关系包括逻辑关系与非逻辑关系两个组成部分。

2.1 概念的定义

金岳霖先生在形式逻辑中指出,概念由内涵与外延两部分组成,概念的内涵就是概念所反映的事务的特有属性,概念的外延是客观世界中具有概念所反映的特有属性的事务[4]。而定义是揭示概念内涵的逻辑方法。因此,定义就是明确概念特有属性的方法,同样,也可以通过特有属性确定概念的定义。

定义1 概念的定义:

由定义可以发现,概念的标准化工作的重点就是要对概念的属性进行规范化,需要如下几个元数据对该属性进行描述,注册时间、注册人、定义、指称、编码等。

2.2 概念之间关系

概念与概念之间的关系按大类可划分为逻辑关系与非逻辑关系,其中逻辑关系包括相容关系与不相容关系,这里的相容关系包括同一关系、包含关系和交叉关系;不相容关系包括矛盾关系、反对关系和并列关系。非逻辑关系包括继承关系、整体部分关系、工具关系和因果关系等[5]。由于逻辑关系作为概念中主要存在的关系,因此,只给出逻辑关系的定义。相容关系进行定义如下:

定义1同一关系:设A与B是两个概念,若A = B则A与B为同一关系。

定义2包含关系:设A与B是两个概念,若AB则A与B为包含关系且B为A的上位概念,A为B的下位概念。

定义3交叉关系:设A与B是两个概念,若A∩B ≠则A与B为交叉关系。

不相容关系进行定义如下:

定义4矛盾关系:设A与B是两个概念,Ω为A与B的上位概念,若A∩B ≠∧A∪B = Ω 则A与B为矛盾关系。

定义5反对关系:设A与B是两个概念,Ω为A与B的上位概念,若A∩B ≠ ∧A∪BΩ 则A与B为对立关系。

定义6并列关系:设Ai是一个概念,Ω为Ai的上位概念,若Ai∩Aj =∧UAi = Ω(i≠j)则概念Ai在Ω上为并列关系。

2.3 DEC与数据元的关系

在ISO/IEC 11179-3:2013(E)标准中,数据元素由四个组成部分:DEC、概念域(CDConceptual Domain)、数据元素(DEData Element)、值域(VDValue Domain)。

DEC是一个由对象类与特性之间的语义关系所构成的一个概念集合[2]。从定义中可以看出,DEC由对象类与特性两部分构成。DEC在描述上独立于具体的表示,不包含任何具体的数据。在功能上,为数据元素提供语义支持。CD对概念的描述性定义进行性管理。VD是一个数据元素允许值的集合,例如对数据类型,格式,单位,最大字符数量等元数据进行管理,为数据元素提供表示支持。

2.3.1 DEC构建规则

2.3.2 DEC逻辑关系生成算法

DEC本质上是一个概念,根据概念的定义可以确定,如果概念之间的属性存在共性,那么在概念之间必然会存在着相应的逻辑关系。通过对DEC属性之间进行运算操作,可以确定如下关系生成算法。

上述数据元素概念逻辑关系生成算法,有助于实现计算机的自动识别、评价。此外,对于概念之间的推理,具有重要意义,例如,如果两个DEC之间存在交叉关系,通过DEC的交运算可以很容易判断出,两个DEC拥有一个共同的属概念。

2.4 概念系统模型

2.4.1 概念系统模型定义

概念系统模型是一个逻辑概念,类似于数据库中的表空间,对所属的概念以及概念之间的关系进行管理。在企业概念模型中,DEC是确保DE语义完整的最小的、不可分割的概念。下面给出如下二元关系以及概念系统模型的形式化定义。

定义9 二元关系:Rb = {Rr1,Rr2},其中Rb表示一个二元关系,Rr1、Rr2分别表示二元关系中的不同关系角色。

定义10 概念系统:CS =,其中CS为一个四元组、PC表示特性集合、R表示一组关系的集合、OC表示对象类集合、CD表示概念域,这里的CD是对概念的值含义进行描述或约束。

2.4.2 规范化的概念系统的构建过程

在整个概念系统中,如何有效的组织对象类,特性,成为了概念系统构建的关键一环。UDEF框架能够将DEC从定性描述转变为定量表达,它的树形层次框架结构使得DEC的组成变得结构清晰,大量的减少了数据的重复定义、重复描述[6]。此外UDEF具有在词汇表等价映射的特点,可以满足不同的语言之间的语义交互问题。因此,在对DEC进行构建时,仅需要将对象类与特性分别作为UDEF的两颗子树进行组织即可,UDEF提供的 “超类―子类”的分类法,在理论上能够为任何一个企业的任何一个领域提供任意一种DEC。

通常企业的数据建模过程需要历如下几个阶段:对所需业务划分主题区域、提取业务过程、确定业务活动、最终梳理数据元素。

概念系统构建位于数据建模的前三个阶段,首先需要确定所有的对象类与特性,继而根据概念关系,确定DEC以及DEC之间的关系,完成整个概念系统注册。规范化的概念系统的构建过程如图1所示。

Link代表一个具体的存在关系(Relation),RR表示一个关系角色(Relation Role),LE(Link End)表示具体关系的应用实例,DEC表示一个数据元素概念[7]。

2.5 数据元素

数据元素本质上是DEC的应用,数据元素由数据元素概念与值域两部分共同组成。

定义11

DE = {DEC×VD}

DE表示一个数据元素概念集合,分别由数据元素概念与值域进行笛卡尔积运算生成,DEC表示数据元素概念集合,VD代表值域集合。

3 建立DEC注册系统

为了验证数据元素概念模型在企业中的可应用性,建立了DEC系统。在该系统中实现了相关概念的注册功能。在图2所示的系统中,选择井下为主题概念系统,对所有相应的井下概念进行管理。在对象类与特性类中指称表示概念的标识名称,属性编码(UDEF)表示该属性的编码规则是按照UDEF的规范进行编码。其中属性类型表示的是要进行注册的元素,是否是DEC类型。在DEC注册中,包括了注册人、描述定义、注册日期等描述属性的注册。

图1 规范化的概念系统构建过程

图2 DEC注册系统

4 结 论

本文依据ISO/IEC11179-3:2013(E)标准,提出了SCCS概念模型构建方法。该方法的实施,不仅解决了概念模型中的信息集成与共享问题,而且对概念模型标准化工作做出了探索。此外,规范化的概念系统不仅可以应用于概念模型的标准化,还可以实现对逻辑数据模型、元数据字典、数据交换模式的标准化,以至于未来知识表示模型标准化。进一步的研究工作主要是概念搜索算法等方面进行深入研究。

参考文献

[1] 王洪伟. 基于本体的元数据模型的建立研究[D].上海:上海交通大学,2004.

[2] ISO/IEC 11179-3 Information technologyMetadata registries (MDR) Part 3 Basic attributes and registry metamodel [S]. (3nd edition), 2013.2.12.

[3] [EB/OL]http:///udef/.

[4] 金岳霖. 形式逻辑[M]. 北京:人民出版社, 2006-6-1.

[5] 冯志伟.术语学中的概念系统与知识本体[J]. 术语标准化与信息技术. 2006,(1):20-28.

大数据时代概述篇9

关键词:图书馆 大数据 信息素养 数据素养

中图分类号:G250 文献标识码:A 文章编号:1003―6938(2014)04―0117―03

我们正处于一个数据无处不在的时代,一方面,我们在生活、学习与工作中产生了大量的数据,如记录于数据库中的学习记录、产生于手机终端的信息行为等数据,另一方面,我们也依赖于大量的数据去支撑我们的工作、学习和生活,如基于大量实验数据的科学分析、基于数据统计的趋势展望等,社会也由此进入到了一个数据类型多样、来源丰富、数量庞大、价值巨大的大数据时代,对数据的获取、管理与应用也成为了大数据时代人们必备的技能素养之一。被誉为社会课堂的图书馆一直以来就承担着社会教育职能,在大数据时代,图书馆如何发挥自身的优势与教育职能,在公众的素养教育方面发挥积极作用,也因此成为了学术界特别是图书馆界研究的热点问题。鉴于此,本文在概述大数据与数据素养的关系、概念及大数据时代图书馆职能的基础上,主要对图书馆开展数据素养教育的内容与方式进行了研究。

大数据时代概述篇10

当今有关信息化的论述已俯拾皆是,信息化已从十几年前的生僻概念,转瞬间成为了社会大众耳熟能详的寻常语言。讲发展、讲转型、论和谐必有信息化信息化已如春天绽放的鲜花,随处可见,随处可闻。这种情况使得从事信息化工作的业内人士感到喜忧参半,喜的是信息化的好处被描绘得很多,忧的是实现这些好处的方法却有意无意被淡化。具体来说,就是在信息化论述中存在“四多四少”现象,即宏观多,微观少;文字多,数字少;概念多,标准少;热情多,办法少。

宏观多,微观少。在宏观上,大家都在提信息化是经济增长的“倍增器”、发展方式的“转换器”、产业升级的“助推器”。但在微观上,“倍增器”对不同经济体的增长到底能达到多少“倍增”没有定量的表述;“转换器”对哪种发展方式“转换”效果最优没有确切的指明;“助推器”对何类产业升级“助推”最为明显没有具体论证。实际上,我们对“倍增”多的、“转换”快的、“助推”好的方面应大力发展,“倍增”少的、“转换”慢的、“助推”差的,需谨慎推进。

文字多,数字少。指在对信息化的阐述中除信息产业有确切的数字表述外,对信息服务业、信息化建设、信息化环境等方面基本都是文字描述。在利用信息化对社会各方面进行“数字化”、“智慧化”的同时,信息化本身却无法用“数字化”来表述,给人一种“灯下黑”的感觉,从事信息化工作的人员对此也颇为无奈。

概念多,标准少。是指现今信息化的概念层出不穷,热点转换的速度都快于摩尔定律。但这些概念都包含什么,其界定标准是什么,发展程度的标准又是什么,如何测定这些发展是否达到了预期目标却少有叙述。如在讨论信息化建设时经常能听到一种声音,就是整合,说通过整合可以实现共享,从而减少浪费。什么是整合?信息系统中哪些可以整合,哪些不适合整合却没有定论和标准。使得整合更多停留在字面上,而非实际工作中。

热情多,办法少。是指由于对信息化的热捧,社会各界投身信息化建设的热情空前高涨。现在时常能听到人们在谈论信息化建设时说“建信息化系统不就是买台电脑,联个网,再装个软件就行了吗?没什么复杂的”。但具体建设中他们又发现买了机器、联了网、安了软件后,并不能实现信息化。

解决以上问题的方法之一就是要对“信息化”本身进行“标准化”或者说是“数字化”。首先确定“信息化”的范畴,其次确定范畴中各项内容所占的比例,最后还要确定反映内容的依据。然后,在数字化层面再来谈论信息化和发展信息化的方法和方式。在当前,我们需要做的不是对信息化的高度概括,而是对推进信息化方法的极度展示。

同时,我们还需对信息化中存在的三种“复杂性”保持清醒的认识。

技术的进步掩盖了技术的复杂性。如同车从独轮到两轮再到四轮,使车辆的操作逐渐方便一样,信息化中典型如软件的汇编语言代替机器语言、高级语言代替汇编语言、面向对象的程序设计代替面向过程的程序设计等等,把机器语言、面向过程等繁复、难懂的技术屏蔽了,代之以直观、明了的高级语言、面向对象等新技术,使大众产生了技术容易的错觉。

技术分工的细化分解了技术的复杂性。如同工业化大生产中的生产线,每个人只负责自己岗位上的有限工作,天长日久的重复动作,对生产线上的每个人来说都会认为自己的技术很容易。现在信息化建设中的许多人员,其所处的位置就如同生产线的员工一样,只要掌握有限的技术,典型如几种编程软件,就可以应付自己岗位,使其认为编程不过如此,无复杂可言。但要问生产线是如何设计、制造出来的,很可能无言以对。一言以蔽之,这种情况就是一叶障目、不见泰山。