大数据技术论文十篇

时间:2023-04-05 20:56:39

大数据技术论文

大数据技术论文篇1

数据库技术的现状及其发展趋势研究开题报告 数据库技术的现状及其发展趋势研究开题报告 专业:信息管理与信息系统 学生:**学号:0924620036

一、选题背景及意义:

数据库技术主要研究如何存储、使用和管理数据 ,是计算机技术中发展最快、应用最广的技术之一。作为计算机软件的一个重要分支,数据库技术一直是倍受信息技术界关注的一个重点。尤其是在信息技术高速发展的今天,数据库技术的应用可以说是深入到了各个领域。当前,数据库技术已成为现代计算机信息系统和应用系统开发的核心技术,数据库已成为计算机信息系统和应用系统的组成核心,更是未来信息高速公路的支撑技术之一。因此,为了更好的认识和掌握数据库技术的现状及发展趋势,本文对有关数据库发展的文献进行了收集整理,以求在对现有相关理论了解、分析的基础上,对数据库发展进行综合论述,对数据库技术发展的总体态势有比较全面的认识,从而推动数据库技术研究理论的进一步发展。

二、论文综述 1、数据库技术发展历程:许多年以来在数据库技术领域很少有重大的技术创新能够引起人们对整个数据库发展历程的回顾与反思。2006年DB2 9中推出的pureXML技术,对过去数十年来关系型数据库的最基本的数据组织方式进行了重大的创新,第一次让我们对数据库的历史,以及过去支撑其发展壮大的理论基础和外部挑战从新的角度进行审视。 今天我们很少去回顾数据库的历史,对于绝大多数IT技术人员,数据库等同于关系型数据库,数据则和表紧密联系。E-R模型几乎是我们描述世界的唯一方式,SQL语言是数据库信息访问处理的唯一手段。关系型数据库已经成为了一种宗教式的信仰,数据相关的所有理论问题似乎都已经解决。

然而历史的发展总是在我们不经意间产生转折,所有重大技术的产生及发展都有其生存的土壤。40年前数据库的诞生并不是关系型数据库,第一代的数据库第一次实现了数据管理与应用逻辑的分离,采用层次结构来描述数据,是层次型数据库(IMS)。第二代数据库奠基于上世纪70年代E.F Codd博士提出的关系型理论以及SQL语言的发明。实现了数据建模和数据操作处理的标准化,关系型数据库在其后的20多年的时间取得了长足的发展,得到了广泛的应用。技术的演进主要集中在性能、扩展性和安全性等方面的提升,其基本的理论框架和技术理念并没有大的变化。

与之相反,在过去的20多年里,IT产业发生了重大的变化和一系列技术及理念的创新。数据库所生存的外部土壤随着Internet以及在网络环境下IT系统互联互通相互协作的趋势,对信息管理技术提出了新的挑战。

2、 国内研究的综述:《移动数据库技术研究综述》《Web数据库技术综述》《Web与数据库技术》《数据库技术发展趋势》

三、论文提纲

(一)数据库技术概论

1、数据库技术概念及类型

2、数据库技术发展历程

3、数据库技术应用

(二)数据库技术发展现状------关系数据库技术仍然是主流

1、发展现状概述

2、Oracle概念及应用

3、Access概念及应用

4、SQL概念及应用

5、DB2概念及应用

6、发展现状总结

(三)数据库技术发展的趋势

1、下一代数据库技术的发展主流面向对象的数据库技术与关系数据库技术

2、演绎面向对象数据库技术

3、数据库技术发展的新方向非结构化数据库

4、数据库技术发展的又一趋势数据库技术与多学科技术的有机结合

5、未来数据库技术及市场发展的两大方向数据仓库和电子商务

6、数据库技术的实践性发展面向专门应用领域的数据库技术

(四)当代与未来数据库研究的热点数据挖掘、知识发现与数据仓库

1、数据挖掘技术

2、数据仓库技术

3、知识发现技术

4、小结

5、结论

四、论文写作进度安排

(一)开题报告:论文题目、系别、专业、年级、姓名、导师

(二)目的意义和国内研究概况

(三)论文的理论依据、研究方法、研究内容

(四)研究结论

大数据技术论文篇2

〔关键词〕知识图谱;专利地图;科技竞争态势分析;科技创新

DOI:10.3969/j.issn.1008-0821.2015.09.020

〔中图分类号〕G250252 〔文献标识码〕A 〔文章编号〕1008-0821(2015)09-0105-06

〔Abstract〕This paper presented a method of science and technology competitive situation analysis based on knowledge mapping and patent map from the perspective of the relevance of science and technology,which using academic papers and patents information together.The status and trends of science and technology competition could be disclosed and described from three aspects,Sci.& petitive environment,Sci.& Tech.innovation environment,competitive organizations and persons,through using knowledge mapping and patent map to reveal the analysis results visually from different views.It could assist and guide the Sci.& Tech.innovation activity effectively.At the same time,the method of Sci.& petitive situation analysis was demonstrated to be practical by the example of Sci.& Tech.domain of Tension Leg Platform(TLP).

〔Key words〕knowledge mapping;patent map;science and technology competitive situation analysis;science and technology innovation

党的十做出了实施创新驱动发展战略的重大部署,强调科技创新是提高社会生产力和综合国力的战略支撑,必须摆在国家发展全局的核心位置。在开展科技创新活动当中,十分有必要对当前的科技竞争态势有清醒的认识和深刻的把握,否则科技创新活动就可能遭遇失败或者走弯路。现今,国际竞争呈现出越来越激烈的态势,这就越发要求采用科学的方法和手段来进行科技竞争态势的分析,正确把握科技竞争的客观现状,有效协助、引导科技创新活动的开展。

1 研究思路与方法

11 研究思路

科技竞争是一个较宽泛的概念,本文所指科技竞争主要是从竞争态势的角度来看待科学与技术的研究与发展状况。这种理解既不同于技术竞争,也不同于科技竞争力:技术竞争仅指技术层面,并不包含科学研究方面;科技竞争力重在对科学技术水平进行比较和评价。

进行科技竞争态势分析的方式方法多种多样,相关研究也较多。本文主要从科学与技术的关联性角度,将科学研究与技术研发两方面结合起来,进行科技竞争态势分析研究。这主要是考虑到现代科学与技术之间的发展演变日益加快,特别是在高新科技领域,产品的开发、产业的发展不再只依赖于相关技术的研发,同样取决于相关基础理论(科学)研究的水平和进展。因此,结合利用科学研究与技术研发两方面的信息,进行科技竞争现状及趋势的分析,迎合了当下科技时代的发展需要,具有一定的现实意义。

科学知识一般包含在图书和学术论文当中,技术知识一般包含在专利文献当中。因此,了解某一领域的科技状况可以通过收集、整理、分析该领域的图书、学术论文、专利等文献来实现。具体到进行科技竞争分析时,一般主要从学术论文和专利两方面,获取相关科技文献并进行分析,以达到掌握科技竞争状况的目的。

目前,结合利用学术论文和专利信息进行科技竞争分析方面的研究尚较少。卞志昕(2009)提出在专利地图的基础上增加学术论文相关信息,制作出技术情报地图[1];该研究的目标仍限于技术情报层面。陈韫春(2010)提出基于科研论文和专利的视角,分析我国科研现状和存在的问题[2];该研究仅进行理论层面探讨,并未做进一步的深入研究或实践。陶蕊等(2013)基于论文和专利数据进行中美清洁煤技术研发实力与合作趋势分析[3];该研究仅针对中美两国进行比较,比较的角度也仅限研发实力、研发机构两方面。余敏杰等(2014)将论文引文分析与专利分析相结合,分析微结构光纤技术及其产业的发展态势[4];该研究以专利信息分析为主,对于论文信息仅进行引文分析。王曼娜等(2014)基于博硕士论文与专利的分析,了解我国再生水领域的研究和应用趋势[5];该研究重在通过论文和专利信息来了解有关研究进展。

目前的相关研究,一方面没有充分挖掘学术论文或专利数据所包含的信息,结合分析的角度不够全面;另一方面,并未针对科技竞争态势进行专门的研究。针对目前已有研究的不足,本文重点针对科技竞争态势,充分挖掘、结合学术论文和专利数据所包含的信息,研究分析的方式方法,实现较深入全面掌握科技竞争现状和趋势的目标。

12 研究框架与方法

当前,最为有效的信息分析方式是借用先进的信息技术手段,采用可视化方法对分析结果进行形象化揭示和展示。对学术论文所包含的科学信息进行分析一般采用科学知识图谱[6],对专利所包含的技术信息进行分析一般采用专利地图[7]。但无论是知识图谱还是专利地图,其本质均是采用可视化方法对科技信息分析结果进行形象化揭示,从静态理解是指形象化表示后的有关科技信息的各种图形表格、分布图等,从动态理解是一种分析并形象化揭示科技信息的综合性方法。

本文结合利用知识图谱和专利地图,将学术论文和专利信息分析结合在一起,实现对科技竞争态势进行全面分析的目的,研究框架如图1所示,即基于知识图谱和专利地图的科技竞争态势分析方法。

由图1可见,对于科技竞争态势的把握,主要从科技竞争环境、科技创新环境、竞争机构和人才三方面进行分析揭露。

(1)科技竞争环境分析。主要从时间和空间两个维度进行分析揭示。时间维度的分析即从历史的角度来分析科技发展的趋势,需要结合科学研究趋势图和技术研发趋势图来进行,或将两者合二为一。空间维度的分析即从地域分布的角度来分析科技研发的主要区域及其水平,需要结合科学研究地域分布图和技术研发地域分布图来进行。

(2)科技创新环境分析。当前科技竞争的核心体现在科技创新,因此科技创新环境已成为了解科技竞争态势的重要方面。学术论文和专利分别属于知识创新和技术创新的最主要成果,因而可以结合科学研究热点图和技术研发重点及趋势图,来进行知识创新热点和技术创新重点及趋势分析,从而实现对科技创新环境的掌握。

(3)竞争机构和人才分析。科技的竞争就是人才的竞争,人才通常依靠机构(组织)的力量来开展科技研发和创新活动;因此,掌握科技竞争水平较高的机构和人才队伍情况,也是了解科技竞争态势的重要方面。竞争机构分析是为了挖掘出科技研发水平和实力较高的一些科技研发机构,需要结合科学研究机构实力图和技术研发机构实力图来进行。竞争人才分析是为了挖掘出科技研发水平和实力较高的一些科技研发团队,需要结合科学研究团队实力图和技术研发团队实力图来进行。

2 实证――以张力腿平台(TLP)为例

张力腿平台(TLP)是海洋石油、天然气工业从近海向深海发展过程中诞生的一种新型平台,是我国重点发展的新兴海洋工程装备(海洋工程装备产业是我国战略性新兴产业之一),它是一种垂直系泊,通过数条张力腿与海底的顺应式平台相接[8-9]。

在科技文献数据的采集和获取方面,学术论文数据采集自爱思唯尔(Elsevier)的Scopus数据库,这主要是考虑到Scopus的数据较汤森路透(Thomson Reuters)的Web of Science数据更为全面;专利数据则是采自汤森路透(Thomson Reuters)的德温特创新索引(DII)数据库,该数据库专利数据较全面、规范。在以上两个数据库中分别检索、获取张力腿平台的学术论文和专利数据,共计获得学术论文1 673篇、专利399件;由于以上数据的检索时间为2015年初,而学术论文和专利信息的公开往往需要一定的周期,因此仍有部分2014年的数据还没有公开,所以2014年的数据量会比实际的偏少一点。

采用本文上节所述研究框架和方法,绘制相应知识图谱和专利地图,对张力腿平台的(国际)科技竞争态势进行分析。进行数据分析及制图的工具包括BibExcel[10]、Pajek[11]、VOSviewer[12]等。

21 TLP科技竞争环境分析

211 科技发展趋势分析

统计有关张力腿平台的历年学术论文和专利数量,制作其科技研发趋势图,如图2所示。

从图2可见张力腿平台的科技发展趋势:理论研究(论文)比技术开发(专利)早五六年,且活跃程度要高不少,反映出张力腿平台尚存在一些基础性问题没有得到很好的解决,导致其应用不是很广泛、深入,但也说明其进一步研发的空间还很大;从历史发展趋势看,理论研究与技术开发的趋势大体上一致;在20世纪80年代中期至90年代早期,出现过一次科技研发的高潮期,之后开始跌荡式下降,在2001年左右陷入相对低谷期;自2002年左右科技研发活动又开始缓慢地反弹,直到近三四年,才开始出现爆发式增长并持续至今;目前,张力腿平台的理论研究与技术开发均处在新的快速发展期。

212 科技研发地域分布分析

统计各国家/地区有关张力腿平台的学术论文和专利数量,分别制作其科学研究和技术研发地域分布图,如图3和图4所示。

从图3和图4可见世界主要国家/地区在张力腿平台方面的科技研发实力和水平:美国无论是在基础理论研究还是在技术开发方面,均具有绝对的领先优势,在技术开发方面优势更加的显著;除美国之外的其他国家,中国和挪威的科技研发力量相对较强,挪威在理论研究方面稍强于中国,而中国则在技术开发方面稍强于挪威;其他具有一定科技研发实力的国家有英国、日本、澳大利亚等。

22 TLP科技创新环境分析

221 知识创新热点分析

统计有关张力腿平台的学术论文中关键词的出现频次,选择出现频次较高的关键词进行共现分析,并制作共现图谱,如图5所示,即科学研究热点图。

从图5可见,张力腿平台的科学研究和知识创新热点主要有4个方面:(1)基于平台的石油开采技术,主要集中在海底取油立管及结构设计等方面;(2)系索系统研究,主要进行计算模拟、动态分析等;(3)平台的结构分析和设计,主要考虑涡流和风力影响、疲劳性能和可靠性等;(4)平台的动力响应分析,主要运用水动力学、有限元分析等方法。

222 技术创新重点及趋势分析

统计有关张力腿平台的专利技术分类(IPC)情况,专利量较多的IPC类别即张力腿平台的技术研发和创新重点;

从图6可见,在近十年间(2005-2014年),关于张力腿平台的技术创新活动(B63B35/44)呈现出增长趋势,特别是在近几年;在平台的海上停泊方法上,对于锚泊技术(B63B21/50)的研发较多,尤其近几年发展迅速,而对于系泊技术(B63B21/00)的研发则在近几年急剧下降;在平台设计和修建方法(E02B17/00)的研究上,近十年基本保持在相对较高水平,波动不大;在海底取油立管的设计(E21B17/01)上,技术研发波动性较大,曾在2007年和2012年左右出现研发高峰,其它时间内基本呈下降趋势。

23 TLP竞争机构和人才分析

231 科技研发机构分析

分别统计有关张力腿平台的学术论文和专利的发文机构和专利申请人情况,选择发文量或专利申请量较多的机构(组织),分别制作其科学研究和技术研发机构实力图,如图7和图8所示,这些机构即具有竞争力的张力腿平台科技研发机构。

从图7可见,在张力腿平台基础理论(科学)研究方面,国际上研究实力最强的机构是美国德州农工大学(Texas A and M University),其次是荷兰皇家壳牌公司(Royal Dutch Shell)、康菲公司(ConocoPhillips)及挪威科技大学(Norges Teknisk-Naturvitenskapelige Universitet)。其他科学研究实力较强的机构还包括印度理工学院德里校区和马德拉斯校区(Indian Institute of Technology,Delhi/Madras)、挪威国家石油公司(Statoil ASA)等。

从图8可见,在张力腿平台技术研发方面,国际上研发实力最强的机构是壳牌石油公司(SHELL OIL CO),其次是美国大陆石油公司(CONOCO INC)和美国海马装备有限公司(SEAHORSE EQUIP CORP),其他技术研发实力较强的机构还包括埃克森美孚(EXXON PRODN RES CO)、深水海洋科技有限公司(DEEPWATER MARINE TECHNOLOGY LLC)、维特克灰色公司(VETCO GRAY INC)等。

232 科技研发团队分析

统计有关张力腿平台的学术论文作者和专利发明人的出现频次,选择出现频次较高的作者或发明人进行共现分析,并分别制作共现图谱,如图9和图10所示,即具有竞争力的张力腿平台科技研发团队。

从图9可见,最大的张力腿平台基础理论(科学)研究团队是一个跨国组合,主要成员包括美国德州农工大学(Texas A and M University)的Kim,MH.、Kim,CH.、Niedzwecki,JM.、Natvig,BJ.,挪威科技大学(Norwegian University of Science and Technology)的Naess,A.,挪威Statoil公司的Teigen,PS等人。其次是美国德克萨斯大学奥斯汀分校(Univ of Texas at Austin)的研究团队,主要包括Kim,SB.、Powers,EJ.、Fischer,FJ.、Hong,JY等人。其他较大的研究团队包括以Chandrasekaran,S(论文发文量最多)为核心的印度理工学院(Indian Institute of Technology)团队,以Kareem,A为核心的美国圣母玛利亚大学(Univ.of Notre Dame)团队等。

从图10可见,最大的张力腿平台技术研发团队,是由独立发明人LEVERETTE S J(专利发明最多)、RIJKEN O R、KIBBEE S E,以及壳牌石油公司的HUETE D A和KIPP R M等人组成。其次是以ALLEN D W、HENNING D L、MCMILLAN D W为核心的壳牌石油公司团队。其他较大的研发团队还包括韩国RES INST IND SCI&TECHNOLOGY团队等。

3 结 语

本文以支撑科技创新活动为导向,以全面深刻把握科技竞争态势为目标,从科学与技术的关联性角度,通过充分挖掘、结合学术论文和专利数据所包含的信息,将科学研究与技术研发两方面结合起来,设计研究出基于知识图谱和专利地图的科技竞争态势分析方法。通过多个不同角度和纬度的分析,采用知识图谱和专利地图对分析结果的可视化揭示,最终从科技竞争环境、科技创新环境、竞争机构和人才三方面,对科技竞争现状和趋势进行揭示和描述。同时,以张力腿平台(TLP)科技领域为例,实证了所设计的科技竞争态势分析方法的实用性。

由于本文所做的研究是一种方法及应用的探讨,在短时间内总结出来难免有所疏忽,其中的一些观点和表述仍值得商榷。同时,仍有一些问题需要做进一步的探讨和研究,如基础理论(科学)研究(学术论文)与技术开发(专利)之间的关联性、互动性问题等。这些研究中的不足和问题,需要在今后的研究中做进一步的改进和完善。

参考文献

[1]卞志昕.技术情报地图――专利地图与学术情报的结合[J].科技情报开发与经济,2009,19(16):111-113,124.

[2]陈韫春.基于论文和专利的我国科研现状分析[J].科技管理研究,2010,30(10):14-15,19.

[3]陶蕊,武思宏,闫冬.基于论文和专利数据的中美清洁煤技术研发实力与合作趋势分析[J].世界科技研究与发展,2013,35(2):298-302.

[4]余敏杰,丁楠.基于论文和专利的光纤技术发展态势分析[J].科技与经济,2014,20(4):66-70.

[5]王曼娜,陈晨,陈晓芬,等.我国再生水领域的研究和应用趋势――基于博硕士论文与专利的分析[C].2014中国环境科学学会学术年会论文集(第五章).成都:中国环境科学学会、四川大学,2014:1167-1174.

[6]陈悦,刘则渊.悄然兴起的科学知识图谱[J].科学学研究,2005,23(2):149-154.

[7]王兴旺,孙济庆.国内外专利地图技术应用比较研究[J].情报杂志,2007,26(8):113-115,119.

[8]马延德.海洋工程装备[M].北京:清华大学出版社,2013.

[9]国家发展改革委,科技部,工业和信息化部,国家能源局.海洋工程装备产业创新发展战略(2011-2020)[EB].http:∥/gzdt/att/att/site1/20110916/001e3741a2cc0fdd4fd101.pdf,2015-03-23.

[10]OllePersson.BibExcel[CP/OL].http:∥www8.umu.se/inforsk/Bibexcel,2015-03-23.

大数据技术论文篇3

科技档案是指在自然科学研究、生产技术、基本建设等活动中形成的应当归档保存的图纸、图表、文字材料、计算材料、照片、影片、录像、录音带等科技文件材料。2010年以前,由于信息传播速度、信息量以及计算机技术的普及都落后于今天,全国各地的科技情报研究所都是使用人工的手段从科技档案中收集情报,然后再对数据进行筛选、去重、统计,这种方法既费时又费力。随着互联网的发展,数字档案平台、科技报告系统的兴起以及大数据时代的到来,科技情报研究部门对信息的需求量与日俱增,人工检索数据、筛选数据的方法必将被淘汰,取而代之的是利用算机技术自动地对数据进行检索、处理和分析。

从目前的情况来看,完全用计算机代替科技情报研究人员进行情报分析工作是不现实的,因为很多情报的判读需要科技情报研究人员常年累积的经验,计算机可以做的是在最大限度上用计算机代替人工做重复性的工作。此外,情报领域与计算机领域有一定距离,情报研究人员往往不懂计算机技术,甚至对软件的使用都感到棘手。针对上述实际需求,需要开发一个无监督的系统,该系统可以按照需要自动采集数据,并可以对数据进行去重、分析。

基于以上背景,本文计划在钱学森提出的综合集成研讨方法指导下,基于数字档案平台、科技报告系统等数据库设计建立一套以人为主,数据、信息、知识和智慧综合集成,高度智能化的人机结合智慧情报系统,从系统的物理构成来看,包括三部分:一是由参与情报解读的专家组成的专家体系;二是由为情报工作人员和专家提供各种信息服务的计算机软硬件技术组成的机器体系;三是由各种形式的信息资源组成的知识体系。从情报分析过程来看,该系统包括三部分:一是基于专家体系经验判读的定性情报综合集成系统;二是基于数据采集处理工具的定量情报分析综合集成系统;三是从定性情报到定量情报的综合集成系统。总之,该系统的建设不仅需要建立由不同学科、不同领域专家组成,具有能面对复杂巨系统问题所需要的合理知识结构的专家体系,而且还需要设计开发能够有效处理海量数据的工具,实现信息的高效采集与精确分析。从技术构成分析,归类能力、关联性分析能力、辅助解读能力、报告辅助生成能力是该系统应具备的几大核心能力。

文章将主要运用信息智能检索、数据统一结构化、信息抽取、机器学习、自然语言理解等前沿的数据挖掘分析技术,对各数据库的结构化与非结构化文本进行处理,实现对海量信息的数据挖掘,完成数据的关键词输入、引文爬取、数据解析分析、统计。最终形成关于学术专题情报报告雏形。

二、学术专题档案情报快速辅助生成系统功能需求分析与系统设计

大数据时代的数据特征为情报服务过程中数据采集提出了严峻的挑战,档案数据库和科技报告数据库等结构化信息异构、重复,质量参差不齐,时效性不强,使数据整合成为基础数据资源建设的难点;其次是是如何通过大数据时代高度发展的移动互联网技术,充分利用人际网络获得一手数据,并与网络、文献和数据库信息进行整合,也成为大数据环境下数据采集的难点。与此同时,无论何种数据来源,由于数据的价值密度低,数据筛选技术都是关键的技术难题。

本系统通过利用网络环境下的搜索引擎技术、本体库、SVM分类算法、聚类算法和信息筛选技术,构建面向大数据的档案数据库数据、科技报告数据库数据、人际网络数据和信息筛选的大数据采集与筛选工具,为情报服务的数据资源建设提供工具。

(一)系统需求分析

1.搜索需求:互联网数据库信息是情报服务的主要数据来源之一,搜索引擎技术的发展为互联网数据的获取提供了便捷、高效的工具,但是由于算法本身局限性,普通搜索引擎只能采集到约10-30%的信息,只能完成情报大概情况的收集,不能满足情报检索中查全率的要求,对于查准率也只能满足部分要求,这种现状对于情报服务来说,是对互联网信息资源的浪费。本系统需要在普通搜索引擎的基础上通过重点、互动、专业垂直搜索,完成深入的、交互式的、专业的科技情报搜索。本部分的科技情报专用搜索工具是由元搜索系统、重点搜索系统、互动搜索系统、垂直搜索系统和深网接口系统封装在一起构成。

2.大数据筛选:数据库数据具有数据价值密度低的特点,因此,数据的筛选对于情报服务的质量尤为重要。数据来源的广泛性使得大数据难以根据同一标准进行筛选,因而计算机难以独立完成筛选工作。本系统根据研究内容设定采集数据的范围,将采集得到的数据去噪、剔除相似数据后,根据领域词汇距离、情报点关键词录、情报报告关键词录摘录出较具情报价值的信息,力争把以十万计的海量信息压缩到600条以内,同时保存足够的核心信息,并采用人机结合的工作方式,提供专家判读的界面,为数据筛选的准确性提供保障。

3.动态情报跟踪与基于科技主体的社会网络情报需求。搜索引擎完成的是面向互联网数据库数据的静态数据获取工作,然而对于情报服务来说,动态跟踪能够展现情报研究对象的活动轨迹,对于情报分析具有十分重要的价值。根据社会网络理论,完成科技主体(单位和个人)相互关系的表达,从而确定某一主题下各个科技主体的特征,以使我们能从中找到适合进行情报分析判读的行业专家。本系统基于移动网络环境下的情报采集技术,创新情报采集模式,全面采集由情报所所内人员、行业专家、专业情报员,通过科技情报生产的规范化流程、规范化方法,依照科技情报质量控制体系,在情报分析模型方法库和情报分析方法工具包的协助下,完成情报的分析流程。

(二)系统模块设计

本系统根据关键词并行进行科技报告系统网页爬取与数字档案馆中的科技档案爬取,获取有效的网页信息与档案信息,去重、去噪后得到需要的网页信息与档案信息。对数据进行特定的处理,采用特定的算法对获取的数据进行处理分析,生成需要的图表格式并得出结论。具体流程如图1所示。

按照档案情报流程节点的不同,该学术专题情报快速辅助生成系统可以细分为几个大模块:搜索大模块,控制大模块,整理大模块,分析大模块及结论生成大模块。大模块下又可细分为几个小模块。学术专题情报快速辅助生成系统模块划分如图2所示

1.搜索模块:搜索大模块主要有科技报告系统网页搜索模块和数字档案搜索模块两大模块。网页搜索模块致力于在科技报告系统网络上搜索与关键字相关的网页集合,为后续的操作提供初始的科技报告系统网页信息材料来源。数字档案搜索模块是在制定好的数字档案馆中搜索与关键字相关的档案集合,得到与关键字有密切关系的档案集合,为之后的整理分析等工作提供初始的材料来源。

2.控制大模块:控制大模块主要有两个小模块:内存控制模K和线程控制模块。无论是从网页中获取信息还是从档案库中获取信息,系统在获取信息过程中获取的信息容量比较大,所以需要内存控制模块来高效的非配运行此系统的计算机的内存,以提高系统运行效率。由于要获取的信息内容十分多,因此采用并行技术进行获取信息的操作。

3.整理大模块:整理大模块主要有科技报告系统网页内容整理模块和档案库内容整理模块两大模块。科技报告系统网页内容整理模块只要是对获取到的网页进行去重,去噪等处理,得到干净、整齐的网页内容。档案内容整理模块是对已经获取到的档案集合进行去重,去噪等处理,获取格式整齐的档案内容,以便进行后续工作。

4.分析大模块:分析大模块主要有科技报告系统网页内容分析模块和档案内容分析模块两大模块。科技报告系统网页内容分析模块是对前边已经处理过的网页信息采用分类,对比等特定分析方法对这些内容进行分析,以帮助后边的模块得到想要的结果。档案内容分析模块是针对之前通过搜索,处理得到的整齐的档案信息内容采用特定的分类,对比等分析方法对档案内容进行分析,得到分析的结果。

5.结论生成大模块:结论生成大模块主要有科技报告系统网页生成结论模块和档案生成结论模块两大模块。科技报告系统网页生成结论模块使用通过关键词筛选出的网页信息经整理、分析得出的结果采用表格,图表等方式展现给用户,让用户对结论有一个直观的了解。档案生成模块使用通过关键词帅选出的论文信息经过整理、分析得到的记过采用与网页生成结论模块基本相同的样式,如表格、柱状图、饼图等方式向用户展示该关键词搜索的内容的结果。便于用户进行相关的决策等。

(三)系统架构设计

系统结构共包括元搜索模块、垂直搜索模块、URL调度器、数据存储器、多线程控制器、源码解析器和数据分析模块,其中元搜素模块主要是对科技报告系统网页数据进行检索;垂直搜索模块主要是对档案数据库进行检索。由于网页数据与档案库的格式差异较大,故本系统开发两个软件分别对网页数据和档案数据进行处理。从系统结构上来说,除了信息采集模块外,两个软件的结构基本一致,都是通过上述模块进行相互协调控制。用户在系统运行初始化时对相关参数进行设置,如检索的最大页数、检索的时间间隔等,然后输入关键词,系统结合上述功能模块就可以脱离人工自动对数据进行检索和处理,最终实现无监督的信息采集工作。

系统的基本流程:在传统网络爬虫的基础上进行改进对网页信息进行抽取,将下载下来的数据保存到内存中,与之前的一级链接相同,当内存中的数据超过一个阈值时,将它们输出到本地文件中。

当全部数据抓取下来后,数据被分为网页数据与档案数据,由于档案数据是标准的结构化数据,并且科技档案技术方案的重复率并极低,也不存在大量噪声数据,因此可以通过系统的数据分析模块对档案数据进行分析。

三、学术专题档案情报快速辅助生成系统的功能实现

文章以人工智能领域为例,使用本系统进行实验,验证本系统的可行性和有效性。一是本系统可以实现对档案数据库、科技报告数据库的中文数据采集搜索,可以自动实现对档案、科技报告相关词库的搜索,对相关文献详细信息(包标题、摘要、完成人、完成单位、完成时间、项目名称等)进行搜索采集,对相关文献内高频词汇进行统计分析。二是系统对采集到的数据进行归类、去噪、去重处理,筛选出较具情报价值的信息,运用文献计量学方法对筛选完的数据进行统计分析,形成清晰的档案文献相关信息统计分析表格。三是系统可以用来搜索某学术领域相关机构、相关专家,还可以对机构之间的合作关系、专家之间的合作关系、专家学术研究点之间的关系进行可视化展示。

大数据技术论文篇4

关键词:大数据 数据挖掘 数据分析

中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2015)11-0000-00

随着我国网络技术的快速发展,大数据挖掘技术越来越成为影响影响网络信息发展的重要因素,而大数据挖掘技术的主要内容以及经常采用的主要方法直接影响了我国未来网络技术的发展方向。因此,这一技术的发展直接影响了网络的发展。本文从大数据挖掘技术的角度出发,研究大数据挖掘技术的应用情况。

1大数据挖掘技术的概念分析

大数据挖掘及时是KDD的一个重要的过程,这种技术是从许多数据中还有一些不完整的应用中,以及一些比较纯净的应用或者是模糊不清的应用中随机抽取出来的。这些抽取出来的数据都是潜在存在的,但是不为人所发现的信息内容。那么什么叫做KDD(Knowledge Discovery In Database)呢?KDD是发现知识的一个过程。

通常情况下,大数据挖掘系统主要包含七方面的内容:用户图形界面接口、模式评估、数据挖掘引擎、数据库或数据仓库服务器、数据基地、数据仓库以及知识储备库(如图1所示)。由图1可知,数据库还有数据仓库服务器有大量的信息和数据,这些数据对很多用户都有着吸引力。图1中的知识储存库是一个简单的应用,用这个知识储存库来进行知识的探索和评价,从而确定总体的模式是不是有意义。数据挖掘引擎是整个大数据挖掘系统中十分重要的组成内容。它能够对数据的特征、关联、类别、价值等进行分类。模式评估的主要功能是在对数据进行评价的同时还要和大数据挖掘技术相互联系,从而把大数据挖掘的技术全面的应用到系统中。模型的进口是用户图形界面的接口。能够方便使用者使用这一模型。并且利用大数据挖掘技术进行信息的查询和分析。

2大数据挖掘技术的应用与挑战

2.1挖掘对象

大数据的挖掘技术面对的主要对象为大的数据库。这样一来能够有效的进行信息的搜索和查询。

2.2大数据挖掘技术体现形式局限性

当前,大数据挖掘技术在处理数据以及信息的时候所使用的方法比较有限,具有一定的局限性。通常情况下,这种技术能够分析数值型的数据,数据内容比较简单,可是仍然不能够对文本文件、公式、图片等这种没有结构或者是无结构的数据形式开展数据挖掘的工作。

2.3使用人员参加的过程和相关领域的信息

通常情况下,大数据挖掘技术的过程常常要进行信息和数据的交流。当前,所实用的数据挖掘系统很难让使用者参与到信息以及数据的筛选过程中。使用人员自身的知识能力以及经验对挖掘的开展速度有着直接的影响。而且能够顺利的获取大量的利用度十分高的数据信息等。

2.4进行知识的表现和内容的解析

很多应用程序中主要的内容都是用户自己发现并分析出来的知识。这就需要大数据技术在挖掘信息的时候不但要有分析数字还有符号的能力还需要对图片、语言等理解分析的技术。

2.5帮助保护知识内容和信息的更新换代

伴随着知识量的增多,以往旧的知识会逐渐的失去自己的作用,被新的知识内容所取代。所以知识需要不断的保护和进行及时的更新换代。当前采取的主要更新知识的方法包括维护关联规则的增量算法等。

2.6支持局限性的系统发展

当前的大数据挖掘系统还不能够在广大的系统平台上进行推广使用。一些应用程序是应用在PC上面的,还有一些应用是针对大型的主机系统中的。除此之外,还有一些是专门针对用户的。

3结语

数据挖掘技术是近几年新产生的网络技术,可是它的广泛应用性受到了很多公司以及研究人员的喜爱。这些年来,伴随着时间的推移以及网络技术的不断发展大数据挖掘技术不断的被更新,开发,而且在金融、管理、教学等行业中都得到了广泛的应用。我相信随着网络技术的不断发展,大数据挖掘技术的应用面将会越来越广。

参考文献

[1]吕竹筠,张兴旺,李晨晖 等.信息资源管理与云服务融合的内涵即共性技术体系研究[J].情报理论与实践,2012,35(09):26-32.

[2]《中国电子科学研究院学报》编辑部.大数据时代[J].中国电子科技研究院学报,2013(01):41-43.

[3]淮晓永,熊范伦,赵星.一种基于粗集理论的增量式分类规则知识挖掘方法.南京大学学报(自然科学版,计算机专辑),2000,(11):203~209.

[4]方开泰.实用多元统计分析[M].上海:华东师范大学出版社,1992:189~193.

大数据技术论文篇5

引发技术创新的动因具有多样性,科学的薪酬设计可以进一步诱发创新的内在动力。企业的研发活动是把技术、资金、人力资源、市场需求进行综合,最科学的技术创新薪酬设计是把研发人员的研发热情与其他员工的配合努力和企业的投资充分结合在一起,进行合理分配。

(一)日美欧主要国家的技术创新薪酬制度概要技术创新的范围及其转让继承的制度是多样的。在美国,被雇佣者其任务上的技术创新和使用,不存在支付奖励的要求。除此以外的技术创新,根据雇佣奖励合同,分为无偿或者有偿使用继承,这是依据技术创新范围本身合同规定的。对从业人员任务相关的实验和技术创新,使用设备的从业人员技术创新的情况下,技术创新者具有非排他性的专属权利。在瑞士,技术创新没有支付义务,另外,对“偶发技术创新”取得时,一定要支付补偿金。在法国和英国,被雇佣的技术创新者技术创新的权利是自动(继承无手续)归用人单位。法国规定需要“追加报酬”,英国对带来“显著的利益(”OutstandingBenefit)可以支付补偿金,日本和德国对个别的技术创新每次给予相应代价的奖励。

(二)技术创新动因与薪酬激励发生技术创新的诱因具有多样性,货币性的奖励是其中的一部分,另外,技术创新的归属或转移也是一个重要动因。技术创新过程分为技术创新行为本身带来的工作动机(TaskMotivation)和内在动机(IntrinsicMotivation)。技术创新的动机很重要,货币的奖励是一种配合功能。技术创新过程中,因为企业需要把人力资源、资金及技术商业化结合。该技术创新者的创意、投入、努力,再加上其他员工的合作和企业的投资,创新才能转向成果(包含专利权的形成),此时有必要明确技术创新的归属或转让的机制。Jones(2009)研究认为,可以根据“套餐”定理,包括财产权(剩余管理权和剩余利益请求权)的归属、完备的薪酬合同(技术创新者和企业的投资实际授予奖励)、财产权归属与激励关系。因为产权归属不明显和缺乏完善的薪酬合同的话,围绕其当事者之间的争论和争斗(RentDissipation)发生的可能性很高。

(三)技术创新者合理报酬对技术创新者的货币性的待遇有多种方法,技术创新者与报酬的关系通常是,技术创新者的总收入=正常收入+个别技术创新报酬。个别技术创新报酬包括:(1)披露、申请、注册等一次性(支付奖金)(;2)实际成果报酬(根据该技术创新实际商业目的使用为条件的支付)。Lazear和Rosen(1981)研究认为,成果的公示排名(淘汰赛竞争)制度与直接的成果报酬制度比较,激励强度是同等的,但是,绩效测定公示排名要排除与其他员工合作完成部分,或者在合作者之间合理分配。另外还要对个别技术创新,给予“相当的代价”的支付。

二、技术创新者的薪酬激励设计原理

Lazear(2009)认为,对技术创新的薪酬设计需要考虑几个问题(:1)研究开发不确定性比较高,成功的路径不可预测,失败的概率比较高(;2)如果按照项目最终能否成功的报酬合同签约,其中不但孕育着很大的风险,而且在研发过程中会出现与合同内容意想不到的新变数,影响薪酬的兑现;(3)研究开发项目的长期性项目参加者有可能几度变更,期间每个人的知识投入经济价值不好鉴定,如何得到相应的保证。为了解决以上问题,需要在机制设计理论上进一步进行总结认识。

(一)知识探索与薪酬激励机制March(1991)认为,技术创新是一种“实施努力”或者“知识的探索”和“知识的深化”之间的交易。“知识的探索”,是对外部的信息源学习,或者是用新方法实验完成未知知识的活动。“知识的深化”,是把现已获得的知识进行很好的组合,或者是在新的对象里应用,或对已知的知识更加深化的应用活动。对创新活动的薪酬激励平衡实施是相当复杂的。根据对日美欧的技术创新者调查研究结果,调查对象的该技术创新有晋升和职业发展空间的回答概率在研究成果激励机制中占很高比例。另外,研究成果的积累与工资薪酬水平也有很大的关系。调查显示,影响项目的构思的原因除了货币性报酬以外,对科学技术发展的贡献程度、对项目挑战好奇心的自发动机也很重要。因此,在技术创新者的薪酬激励设计时,要考虑长期内在激励的可操作性和自发动机的并存性,并把它们作为一个整体激励效果和平衡。

(二)研发风险与薪酬激励机制因为研究开发者承担着研究开发结果的不确定性,与其他业务相比风险要高。研究开发的成果与报酬密切结合是根据风险溢价的上升原理,因此,研究成果的价值和报酬之间具有强烈的关联性。Manso(2011)研究认为,使员工尽量避免风险可以采取一些有效措施,如:(1)企业应该选择风险中立型的项目,比预期回报即便少一些,但是项目风险低,可靠性、成功性更高(;2)报酬和成果的链接相对弱化一些,可以在一定程度上缓解压力,同时禁止兼职和学会活动,强化对开发项目监督过程(;3)高风险的项目群和低风险的项目群分开,分别交给不同的员工去开发。特别是对技术创新者活动的合理监测,成果和相关的弱报酬制度作为重要的补充。因此,需要把研究开发方面主观评价和长期薪酬激励机制相互结合。

(三)项目选择与薪酬激励机制Lambert(2006)的模型认为,研究成果测定应该以薪酬激励合同为基础,从而引导技术创新者对效率性项目选择。企业的管理者通过良好的沟通和监测,要对研究开发人员的信息进行努力收集,得到的信息经过审查后,给予相应奖励。尽管如此,研究开发的成果和报酬往往不一定统一,效率性的报酬合同的设计根据实际情况也可能发生变动。实际上,许多潜在的项目各自回报分布的期望值和标准偏差也不同。不管选择哪个项目都存在一定风险,企业在风险中不应该采取中立态度,应该对项目核定标准的价值;在薪酬激励机制中要在成果效果和保险效果之间进一步权衡考虑。

三、薪酬激励的定量分析方法

(一)数据来源与形成所用数据源,是2013年在日本举行的“国际技术创新者调查”的数据,包括美国、英国、法国、德国、日本等国家。利用IIP专利数据库和Onishi(2013)技术创新奖励制度调查的设计和数据结果,以及日本人工生命研究所制作的非专利文献数据库数据。具体来说,技术创新者调查的回答者的名字和内容登录到IIP专利数据库,收集了该技术创新者的全期的专利申请数据。为了防止同名同姓的技术创新者专利的重复统计,本研究只使用同一个申请专利的申请人姓名,抽样调查数据中同姓同名存在的概率是万分之一,同姓同名双重统计可能性很低。这样形成了技术创新者的统计数据,利用Onishi(2013)与技术创新奖励制度调查统计的个数据进行链接,并且与企业实施的研发业绩奖励制度具有关联性。样本技术创新者人数为1700人。使用申请专利的非专利文献引用次数分析,人工生命研究所制作的非专利文献样本数据库收录了技术创新者引用技术创新内容的记录文献的正文中记载的非专利文献。根据每件非专利文献专利统计数据可以统计全部科学论文引用次数。分析推算期间是从2008年至2013年的6年时间。

(二)研究开发的业绩与技术创新者薪酬水平实证分析采用工资函数的统计性模型来进行验证,利用上述调查的样本的技术创新者调查数据。作为推算样本,其中包括通过晋升对技术创新者的影响,技术创新者奖励报酬限定为总收入2%以下。被解释变量取这些技术创新者薪酬的对数。调査包括总收入的上限和下限,推计方法是采用IntervalRegression方法。推算的原始数据统计表如表1和表2。

(三)选择模型与推算推算模型如下所示:作为说明变量,首先是工资函数的基本变量,包括学历(学士、硕士和博士),加上论文博士的附加效果、年龄和研究开发经验(experience)。研究开发经验的时间长度是研究开发开始活动的年和调查年的差距。学历是调查时的最终学历,有44%的技术创新者是硕士,11%是博士,其中5%是论文博士。把过去的研究开发成果累积作为计算变量,调查时的技术创新的累积数量的对数值(lnpatents)及学术论文的累积件数加1取对数值(ln1papers)。根据这些数据,学术论文件数、技术创新的先进性、技术创新者的专利质量、将来的技术进一步发掘和创新等,设定为企业研究机会扩大贡献数据。作为控制变量,把其技术创新者对哪个程度的风险采取不畏惧态度(Risk_loving),该技术创新前工作单位变更的经验(Mobility)追加为说明变量。经过统计调查,技术创新者的风险回避度低的,多倾向高风险高回报的项目。另外,企业规模变量表明,在员工所属企业规模大的情况下,员工的收入明显偏高。对研究开发的影响表明,企业的规模、在研究开发活动企业级别经营范围、研究开发成果灵活使用互补性、知识产权中介交易活动,对薪酬的效果是增加的。具体计算结果如表3所示。

(四)结果说明从表3中我们可以看到,模型(1)表明传统的工资函数对技术创新者的激励效应情况;模型(2)表明对该技术创新者的累积专利件数的推算;从模型(3)和模型(4)到模型(5),是把模型(3)和模型(4)在一般情况下对经验效应和企业规模的依存度、风险偏好度、流动的经历等数据附加的同时,最后追加到模型(5)的该技术创新者的累积数推算。从模型(1)的推算结果来看,学历具有高度效应,硕士是6%、博士大约是14%的收入提高。论文博士效果是负数符号,不具有显著说明效果。年龄与收入水平的上升具有非常显著的效应,以及研究开发经验也有高度显著正效应。并且企业规模(从业人员规模)也有明显正效应,弹性系数约为4%。这些结果说明与传统的工资函数模型对技术创新者的收入推算,具有趋同结论。模型(2)是累积引进的专利件数推算。累积专利件数具有高度效应,表明10%的累积技术创新件数的增加,可以呈现0.3%的工资增长,累积专利件数的对数的2个标准偏差的差(前16%的高位技术创新者和后低位的16%的技术创新者的差),薪酬的差约7%。根据累积专利件数,年龄和研发经验的效果(工资曲线倾斜度)的影响度比较,推算对年龄是否有影响,结果是研发经验系数一半以下没有相关度,研发经验丰富与技术创新的业绩相关联是累积性提高工资的重要原因。另外,累积专利件数与学历的关联度比较小(例如,拥有博士学位的技术创新者最高工资增加14%,最低工资增加为13%,影响不大)。模型(3)是企业规模的大小,研发经验的工资曲线倾斜度很大。推算结果表明,工资曲线倾斜与企业规模正相关,达到10%程度。模型(4)是把风险偏好度和流动性作为解释变量。这些数据导入后,累积技术创新件数的系数没有减少。风险偏好度同预期一样,呈现正相关(与最高风险回避性的技术创新者相比,最偏爱风险的技术创新者的收入约高7%)。另一方面与组织间流动没有显著关联。模型(5)是学术论文数累积的推算。该变量的系数呈现1%的正相关,累积专利件数大体上拥有同样系数。论文数与专利件数相比系数偏小,标准偏差比较大,作为收入差距的原因具有很大的重要意义。根据模型(5)的推测值来看,专利及论文各自具有2个标准偏差(高位16%的技术创新者和低位16%的技术创新者差距)的差别,薪酬中各自具有6.1%、4.9%的差异。这样,年龄、经验、企业规模、学历等数据,累积的技术创新件数和论文件数与收入水平具有相当显著的差异,对激励技术创新者具有很大的诱因和影响。

四、结论与启示

大数据技术论文篇6

参考文献的格式是有国际标准和国家标准的,参考文献应该参照GB/T7714--2005著录,我们在精选相关的著名的文献资料,按顺序编码标注,依次列在论文的末尾。关注学术参考网查看更多优秀的参考文献,下面是小编整理的关于数据库论文国外参考文献,给大家阅读欣赏。

数据库论文国外参考文献:

[1]艾孜海尔江·艾合买提.基于Web数据库的数据库挖掘技术分析[J].科技致富向导,2012,24(27):217——219.

[2]刘霞,赵鑫,吕翠丽.数据库挖掘技术在网络安全防范中的应用[J].动画世界,2012,20(06).

[3]尚世菊,董祥军.多数据库中的副关联规则挖掘技术及发展趋势[J].计算机工程,2009(05).

[4]吕安民,林宗坚,李成明.数据库挖掘和知识发现的技术方法[J].测绘科学,2010(04):123——130.

[5]曾霖.基于Web数据库的数据库挖掘技术探究[J].软件,2013,27(02):174——176.

数据库论文国外参考文献:

[1]宋安,习勇,魏急波.基于μCLinux的NAT设备的设计与开发[J].电子工程师,2005-05-15.

[2]徐叶,袁敏,李国军.嵌入式Web服务器远程监控系统的设计与实现[J].计算机与现代化,2013-02-27.

[3]王俊,郭书军.嵌入式Web服务器的实现及其CGI应用[J].电子设计工程,2011-11-05.

[4]高建国,崔业勤.ARTs-EDB的内存数据存储管理[J].微计算机信息,2010-01-25.

[5]陈嘉.嵌入式主存数据库索引机制的研究与改进[D].湖南师范大学,2006:278-282.

[6]刘志东.基于嵌入式Web技术的远程射频识别系统的设计与实现[D].西北民族大学硕士论文,2012-04-01.

[7]贺永恒.基于IAIDL的信息家电体系结构研究[J].中国科技信息,2009(04):154-156.

[8]陈一明.嵌入式数据库的智能家居网关设计[J].微计算机信息,2009-04-15.

数据库论文国外参考文献:

[1]余明辉,胡耀民.基于SQLServer2008决策支持系统模型的研究和应用[J].微计算机信息,2010,26(2-3):178-180+192.

[2]张克友.基于SQLServer财务数据库安全技术的探讨[J].信阳师范学院学报(自然科学版),2008,21(4):587-590.

[3]胡家汉,李景峰.对SQLServer数据库的安全和管理策略探讨[J].计算机光盘软件与应用,2012,(2):101-102.

[4]胡登卫.高校实验室信息化管理系统SQLServer数据库安全策略研究与实施[J].商丘师范学院学报,2009,25(3):96-99+106.

[5]吴可嘉,姜莉莉,刘昌祺.Delphi下利用ADO技术实现对MSSQLServer数据库存取[J].西北轻工业学院学报,2002,20(1):75-78.

大数据技术论文篇7

非物质文化遗产是人类文明发展的重要组成部分,早在20世纪70年代,相关研究者和学者已采用摄影技术、录音技术等技术对文化遗迹、考古发现等多种非物质文化遗产进行记录和保存。而在实际工作中,这些资料却无法由于相对局限的技术手段得以长存,例如图像的失真、录音的老化等等。计算机技术和互联网技术的发展使数字化保护走入非物质文化遗产保护的范畴,并在当前取得一定的成绩。本文试从剪纸非物质文化遗产的数字化保护出发,对相关理论研究和实现手段进行探讨,为相关非物质文化遗产数字化保护提供一种新思路。

一、相关理论和技术

在非物质文化遗产保护的技术上,当前主流的技术有两种。其中一种是使用信息技术手段对非物质文化遗产所具备的信息进行采集、转换并使其适应存储环境。再之则是对其所具备的信息或做简单处理或直接不处理进行存储。后者在实现上较为简单,却为后续工作带来不少麻烦。例如信息的简单编码处理如若深度不够,后期将花费更多的资源和人力参与研究延续非物质文化遗产的内容,对非物质文化遗产的传播和原生态环境的重构也是一个困难。

相关文献指出,对于非物质文化遗产,其信息与数据的区别在于前者在于对数据进行精简之后取得的更容易被计算机或相关第三方所理解,而后者是某种物理量的真实反映。因此数据处理在某种程度上代表了处理者对信息处理的主观意愿。在此之前,英国学者提出了知识资产研究中的信息空间,即被业界广泛所知的“I模型”。I模型的出现也为非物质文化遗产的数字化保护提供了一个理论基础。I空间的三个坐标分别代表编码、抽象以及扩散。编码程度在非物质文化遗产保护上是用于衡量表达方式在多大的程度上可以为计算机所理解接受;抽象则用于对其理论的综合描述和特征提取;扩散则在另一方面体现了非物质文化遗产的传播以及后续的信息恢复和原生态构建。通过I空间,理论研究可以对非物质文化遗产的价值与传播、形式与存储、保护及其目标进行进一步讨论,此处不再赘述。

剪纸艺术是2006年国家公布的518项非物质文化遗产之一,是广大人民群众的艺术积累和结晶,品种多、分布广。在对剪纸的技术保护上,信息的采集点在于制作的技术手法和作品的表现形式。特别是作品的表现形式,是对剪纸非物质文化遗产的主要概括。当然,两者也是联系紧密的,根据上述的I空间理论,剪纸保护可以根据其在I空间的位置进行讨论。

二、剪纸的数字化保护

(一)数据库的设计

综上所述,剪纸的种类多,且表达方式多、表现效果丰富,如何对其进行数据上的信息提取是实现数字化保护的关键,结合当前计算机技术,数字化保护的基础在于数据库的设计。在实现上必须对剪纸的艺术特点进行数字化抽象提取。其中基本元素和典型符号库的设计是数据库设计的根本所在。因此首先对覆盖较为完整的剪纸图案进行收集和分析,提取出常用的元素。例如剪纸中的曲线、直线、多边形、花样、小孔、月牙形、水滴形等等。其次,对图像进行归纳,形成图像数据库。对收集的剪纸图案,可以分为动物、人物、植物、风俗、服饰和建筑等多种类别,并在软件后台数据库中建立相应的表与其对应。再之,根据应用目的,可以将其分为美化环境类、礼仪喜庆类、祭祀信仰类和服饰佩戴类四大类,四大类进行下一级的分类,通过多重分类实现库的搭建,此处亦不再赘述。

(二)软件设计

在数据库构建完毕后,软件设计可以分为图像处理模块、数据库管理模块、查询模块、数据存储模块。实现上可以通过VISUAL2010和SQL SERVER 2008进行搭配设计。

各模块功能在实现上可以由如下进行:首先图像处理模块提供了图形编辑器,人机交互界面提供给操作者绘图平台,绘制完毕的图像将进入数据存储模块中的基本图像数据库和基础元素数据库。

大数据技术论文篇8

关键词:GIS应用,问题,创新,发展

引言

GIS是地理信息系统(Geographical Information Systems)的英文缩号,是构建“数字城市”和“数字地球”的核心技术。不论是地理信息系统、地理信息软件,还是地理信息科学、地理信息服务,其英文缩写都是GIS,但每一个概念的形成到发展都差不多经历了十年,GIS学科的形成与发展非常巧地与GIS中的“S”内涵丰富联系在一起。美国环境系统研究所公司(简称ESRI公司成立于1969年),是全球最大的GIS技术和服务提供商,她的ArcGIS解决方案已经迅速成为提高政府部门和企业服务水平的重要工具。目前Arc GIS系列产品已遍布全球200多个国家和地区,超过百万个用户单位、涵盖几乎所有的GIS应用领域,其中包括美国最大的200个城市中几乎所有的政府部门,超过2/3的500强企业和7000余所高等院校。而目前我们经常在使用的各种GIS软件也是在其基础上再次开发延伸。

1目前GIS问题存在与解决

GIS是一门综合交叉的空间信息科学,它与古老的地理科学以及测绘科学

有着千丝万缕的联系。目前GIS已经发展成为一门集计算机科学,地理学、测绘科学、环境科学、城市科学、空间科学、信息科学和管理科学等多门科学为一体的新兴的综合性边缘学科。作为一门新兴的边缘、交叉学科、GIS具有独特的理论基础、知识结构、技术体系,以及功能特征,成为当代科学的前沿和一个跨学科的科学领域。但同时由于我国各部门各行业的管理体制以及教育体制等因素,造成很多学校和单位不管条件如何,为了跟风设置GIS专业多、人员多、设备投入多,而研究产生的数据资料成果质量不高,且还各自封锁,造成重复投入,各成体系,浪费惊人,“高投入、低产出”,缺少真正的核心技术。因而当务之急亟需纠正浮躁作风,针对性地集中力量开发和解决社会对GIS技术真正需求。

2GIS的应用、创新

GIS是以地理空间数据库为基础,在计算机软硬件的支持下,对空间相关

数据进行采集、管理、操作、分析、模拟和显示,并采用地理模型分析方法,适时提供多种空间和动态的地理信息,为地理研究和地理决策服务而建立起来的计算机技术系统。我国的GIS技术经过20世纪七八十年代的启蒙,80年代未90年代的发展推广,以及新世纪以来的全面应用和普及,从最初的空间数据管理与应用发展为广泛的地理空间信息服务,GIS的应用已经渗透到国民经济的各个领域,GIS技术与产业获得了迅猛发展,国际与国内相关的交流与合作也日趋频繁。而在测绘领域的“3S”技术中GIS是核心,为此也对GIS提出了挑战——需要创新。

2.1 GIS学科创新

创新是一个民族发展壮大的灵魂,创新也是一门学科保持旺盛生命力的源泉。而GIS从上世纪60年代萌芽开始,已超过半个多世纪的历程,一些基本理论与技术问题已解决。随着计算机软硬件、“3S”等技术的发展,GIS经历了面向数据处理,面向空间分析两个阶段;目前,简单的空间数据表达,已不能满足各行业对海量空间和非空间数据进行数据挖掘,从而进行辅助决策的要求,空间信息工程正进入面向空间辅助决策阶段。同时,新一代计算机网络、网格和通信息技术发展,也为空间信息系统的深层应用提供了条件和环境,地理信息科学正面临着新的发展机遇,传统的以空间信息处理为主体的GIS,正逐步被以空间信息为载体,海量(天量)空间与非空间数据挖掘和处理为主体的新的空间信息工程所取代,地理信息正在进入以大技术、大平台、大共享、大应用为特征的现代地理信息系统工程新阶段。。

2.2 GIS理论创新

没有理论创新,技术不会有根本的突破、现代的GIS理论与技术根本上是基于传统的地图模型,即利用坐标串来描述和表达空间信息。这种静态的基于地图模型的传统GIS空间数据模型面向的是空间数据,尤其是地图数据而不是直接面向空间信息,也就是空间信息必须用某种算法从空间数据中导出。在网格等新技术背景下,基于这种模型的空间信息共享面临着“空间数据的基准不一致,空间数据的时态不一致,语义描述的不一致以及数据贮存格式的不一致”等四大障碍,这即是导致“空间信息孤岛”产生的根源。目前,主要还是利用开放的空间数据标准来解决;要从根本上解决这个问题还需要研究新的数据模型理论,例如基于哲学认知的本体理论就是一个研究的热点。传统2维的空间数据模型,主要以简单的符号化方法来表现空间信息,具有很大的局限性;3维数据模型则以仿真手段为主,真实地还原空间信息本身的空间特性,但3维的空间数据模型和数据结构要比2维复杂得多,有关3维空间数据模型与数据结构的研究是目前学科前沿研究的热点和难点之一。。

2.3 GIS技术创新

技术创新在GIS学科领域占有十分重要的位置。计算机软硬件技术的发展,直接导致了GIS的诞生,将计算机技术应用于空间数据管理就产生了GIS;基于传统的地图2维空间数据模型,经典的集中式结构GIS利用空间数据文件和关系型属性空间数据库相结合的方式,管理、存储、表达(可视化)和推演(空间分析)空间信息是GIS最为成熟的技术。计算机网络技术的发展,导致了分布式网络GIS的产生;基于局域网技术,人们发展了基于客户端服务器(C/S)结构的GIS,开创了分布式GIS的先河; C/S结构实现了客户端服务器端的计算平衡,并使空间信息的共享达到了一个前所未有的水平;随着Internet的飞速发展,人们很快在C/S结构的基础上,发展了多层的浏览器/服务器(B/S)结构(WebGIS),这种结构克服了C/S结构中“胖客户端”的弊端,无论在哪里,只要有一个普通的浏览器,就可以登录WebGIS系统,用户和数据彻底分开,结构上更加松散,但目前WebGIS技术还很不成熟,在很多方面亟等发展,例如;浏览器通过中间件与应用和数据服务器进行通信和连接,那么有关GIS的各种中间件,包括控件、组件和智能体技术研究十分火热;为便于网络传输空间数据的解压缩技术研究十分关键;分布式数据与数据仓库技术(实现图形数据、属性数据、影像数据、DEM数据、专题数据和统计数据的一体化、档案化管理)基于空间数据仓库的知识挖掘技术,分布式空间数据共享技术、空间信息的Web服务技术,浏览器端的空间数据可视化技术,基于WebGIS的辅助空间决策技术等都是WebGIS的技术前沿领域。

现代大科学的一种发展趋势就是科学技术化,技术科学化,科学技术一体化。这种特点在地理空间信息科学中表现得尤为明显。如上述所提到的空间数据模型、空间信息共享、空间数据挖掘、虚拟地理环境等,理论与技术的特点都很明显,且二者密不可分,这就要求现代高级的GIS人才,要同时具有较强的理论与技术创新能力。。

3结束语

随着GIS技术的不断发展,目前世界上常用的GIS软件已达400多种、我

国的GIS软件也由2004年的51个、05年的66个一直在逐年增加。它们大小不一,风格各异,各种GIS专业应用中的电子地图、多媒体电子地图、网络电子地图、移动设备导航电子地图等多种地图可视化系统应运而生,用户范围也更加大众化。而今后更应从空间数据挖掘和知识发现研究、虚拟现实技术的实用化、地球空间信息网格技术、空间数据不确定性与数据质量控制等需要进一步推进GIS技术的创新,并对目前GIS爆炸式的发展更应引起我们足够的注意、研究与理性的思考。

主要参考文献:

﹝1﹞刘南、刘仁义· Web GIS原理及其应用﹝M﹞·北京:科学出版社2002.6.

﹝2﹞ 边馥苓·我国高等GIS教育:问题、创新与发展﹝J﹞地理信息世界2007.2.

大数据技术论文篇9

【关键词】 全要素生产率 数据包络分析 资本存量

Robert Solow提出索洛模型以来,经济增长理论大多认为,一国经济持续增长的动力只能来自于生产率的增长,而依靠要素投入的驱动方式只有水平效应而没有增长效应(Solow,1957,1958;Romer,2006)。Prescott(1998),Easterly and Levine(2001)也指出,不同国家收入和增长的差异主要来自TFP(全要素生产率),而不是要素投入或者其他。基于此认识,许多经济学家测度了不同国家和地区的全要素生产率,并以此来判断经济增长的绩效。例如,Young(1995)采用超越对数的生产函数测算了东亚地区的全要素生产率,发现东亚地区的全要素生产率很低,并据此推断东亚的经济高速增长是依靠要素大量投入得来的。Krugman(1994)和Sachs and Woo(1997)也持有此观点。与此相似的是,许多学者研究了中国的TFP以及中国经济增长的可持续性问题。但是,由于所采用的方法、数据和对什么是全要素生产率的认识不同,得出的结果也有很大差异。并且这种差异不仅在采用不同方法的文献中出现,而且采用完全相同的方法的很多文献结论也大相径庭。例如,同样采用DEA方法,张宇(2007)测算的省际TFP平均增长为5%左右,而严鹏飞(2004)的测算结果仅为0.79%。按照前者的结论,从1992年到2002年(他们文章的研究区间),我国的生产率增长为62.9%,而按照后者的结论,我国的生产率增长仅为8.2%,差异非常大。由于采用的方法完全相同,所以结论的巨大差异只能来源于数据的区别。本文以DEA方法为例,运用不同的数据组合来检验DEA测度全要素生产率的敏感性,并探究我国全要素生产率测算结果差异巨大的原因。

一、基于Malquist指数的DEA方法

DEA方法承认在实际生产中,由于种种原因,个体难以达到最优化即生产前沿面上,因此,个体决策单元离生产前沿的距离被看作是无效率的部分,这部分称为技术效率(Technical Efficiency),而生产前沿面的变化则表示技术变化(Technical Change)。如图1所示,x表示要素投入,y表示产出。图中实线表示生产可能性边界,也就是给定投入所能得到的最大产出。任何处于生产可能性边界下方的点表示生产的无效率部分。离生产可能性边界越远,则效率越低。若生产可能性曲线向上方移动,则表示技术进步。

由上述分析可知,若生产前沿面已知,该方法测度生产率的关键在于,用一种方法表示生产前沿面的变化以及决策单元离生产前沿面距离的变化。Malquist提出的用其名字命名的指数可以解决这个问题。该指数通过计算每个数据点相对于共同技术的距离的比值,来测量全要素生产率的变化。Malmquist指数可表示为(Caves,Christensen and Diwert,1982):

mo(ys,xs,yt,xt)=×

其中,Malmquist指数中的o表示以产出为导向,产出为导向的意思是说,对于给定投入,要求最大的产出。d表示距离函数,它可以通过下式计算得到。

d(yt,xt)=inf{?兹:(xt,yt/?兹)?缀St}

上式中,inf表示求下确界,S表示生产可能性集合。d(yt,xt)?燮1,当且仅当(yt,xt)是生产前沿上的点时,d(yt,xt)=1。可以看出,马氏指数实际上是四个距离函数的函数。它可以进一步分解为技术变化和技术效率的变化:

mo(ys,xs,yt,xt)=××

上述分解中,第一部分表示技术效率的变化,第二部分表示技术变化。根据Fare(1994),技术效率的变化还可以进一步分解为纯技术效率的变化和规模效率的变化,后者表示由于生产规模的变化导致的生产率变化。也就是说,技术效率可以表示为(下标v表示可变规模报酬技术,c表示不变规模报酬技术):

TE=××

其中,第一部分表示的是纯技术效率的变化,第二部分表示规模效率的变化。

全要素生产及其各种分解用马氏指数表示出来后,求全要素生产率的关键在于求出距离函数。这一工作可以通过DEA实现。而通过求解4个线性规划问题,就可以求出基于DEA的马氏指数。

二、数据来源和投入指标的度量

运用DEA测算省际全要素生产率需要三个数据:产出、劳动和资本。

产出基本上都是采用实际GDP的数据,基期一般设定为1978年。较大的区别在于数据来源是中国统计年鉴、地方统计年鉴亦或是新中国统计年鉴汇编。根据笔者的对比,地方统计年鉴和国家统计年鉴公布的数据略有不同,但是差别不大,因此对于结果的影响应该也是较小的。

劳动一般采用社会从业人员的数据,区别在于有的研究对劳动力投入进行了人力资本的调整(如傅晓霞、吴利学,2007),而有的研究并未对劳动力进行调整(王志刚,2006;傅东平,2008)。由于数据的缺乏,现有的文献一般用人均受教育年限来替代人力资本,区别在于人力资本的计算方式不一样。一种是采用平均受教育年限作为人力资本,这也是大多数文献采用的方法。另外一种文献的计算方法是,算出一个地区的平均受教育年限后,根据明瑟方程计算得出该地区人力资本。具体而言,一个地区的人力资本调整后的劳动力H为:

Hi=eLi

其中,Li表示一个地区的劳动力,?准(Ei)为明瑟方程,该方程的导数即?准'(Ei)表示教育的回报率,即每多增加一年的教育对劳动生产效率的影响。至于具体的教育回报率,一般根据Psacharopoulos(1994,2004)的研究,将小学、中学和大学的教育回报率分别设定为0.18,0.134和0.151。

资本存量的数据来源则广泛得多。由于我国不像大多数OECD国家那样定期发表资本存量的数据,因此,大量学者用不同的方法和数据估算出了我国的资本存量,包括早期的张军扩(1991),贺菊煌(1992)和Chow(1993),近期的Zhang(2008),单豪杰(2008)和徐杰等(2010)。但是,这些估算方法在数据和投资流量、折旧率的选取上明显不同,导致估计的结果特别在省际资本存量估算中差异极大。另外,不同学者在利用资本存量数据时,采用的基期也不一样,有的学者明确指出,将资本存量的数据按照资本品价格指数进行调整,以1978年为基年;而有的学者只是说明了采用了张军或其他人的资本存量数据,并没有指出基年,其默认的就是以1952年为基年。

三、我国TFP测算差异的原因分析

本文选取广为采用的两组资本存量数据,即张军等(2004)和单豪杰(2008)的资本存量数据,并且分别用1952年的价格和1978年的价格表示。劳动力数据选用三种不同的表示方法,即不经人力资本调整的劳动力(L)、采用明瑟方程进行调整的劳动力(H1)和采用平均受教育年限进行调整的劳动力(H2)。对这几种数据进行排列组合,分别采用DEA的方法计算全要素生产率,以分析DEA对数据来源的敏感性。测算的结果如表1所示。

在表1中,张军52表示张军的资本存量,以1952年的不变价格表示,其余部分以此类推。从表1的测算结果可以得出以下结论。

第一,对于同样的资本存量数据,不论是采用不经人力资本调整的劳动力,还是两种不同方法调整后的劳动力,得出的TFP及其分解的结果相差都不大,都在可以接受的范围内。但是,对于同样的资本存量数据,采用不经人力资本调整的劳动力,会使得技术效率的增长速度估计结果偏大。原因在于TFP本质上是一个余量的概念,也就是产出的增加中不能由要素的投入解释的部分。如果不对劳动力进行人力资本的调整,那么本来应该由人力资本增加解释的那部分就只能归入余量即TFP了,并且这一部分增加主要归因于效率的改善,因为此时用同等多的劳动力可以导致更多的产出。

第二,对于人力资本的两种计算方法,计算出来的TFP差别不大。并且从表1中的结果来看,采用H1(明瑟方程)测算出来的TFP比采用H2(平均受教育年限)测算出来的TFP的结果似乎略大一些。当然,由于明瑟方程方法考虑了不同教育的差别,即同样受一年的教育,小学教育的回报和大学是不一样的,因此可能更准确些。不过注意到两种方法得出的TFP变化的差别都在0.2%以下,所以为了方便起见运用平均受教育年限也是一个合适的选择。

第三,对于相同口径的劳动力投入数据,采用不同的资本存量测算出的TFP及其分解结果差异很大。如表1所示,同样是H1的数据,采用张军78价的资本存量和采用单豪杰78价的资本存量,得出的结论迥然不同。张军数据测算的结果表明,我国的全要素生产率不断恶化,而单豪杰数据的测算结果说明我国的全要素生产率有所提高。更有意思的是,同样采用某人的资本存量,而采用不同年份的价格表示,得出的结论也大相径庭。例如,同样采用H1的数据和张军(2004)的资本存量,区别仅在于资本存量是用1952年的价格表示还是用1978年的价格表示,DEAP2.1得到的结果表明,若是采用52价格表示的资本,我国省级几何平均的TFP是不断增长的,并且技术效率和技术进步并存,以技术进步为主;然而,若将同样的资本存量采用固定资产投资价格指数转换为1978年的资本存量,则估计结果表明从1978年到2010年,我国省际几何平均的TFP不断恶化,并且技术效率下降,技术退步。但是,这在理论上是难以解释的。因为,除了发生大规模战争或者疾病,已经被发明的技术不可能被遗忘,不会出现技术前沿内陷的结果。并且,从实际观察来看,改革开放以来,我国的技术出现了大幅度的进步,测算出的技术退步和实际情况明显不符。而如果利用1952年的价格表示资本存量,则不论利用张军还是单豪杰的资本存量,都能得到平均而言技术进步的结论。

从经济学理论上来看,对于同一个资本存量,不管是用哪一年的价格表示,本质上只是衡量单位的变化,不应该对结果有任何影响。退一步说,即使对于两种价格指数表示的资本存量要分出一个优劣,由于我们的GDP数据采用的是以1978年价格表示的实际GDP,那么,理论上最合适的应该是采用1978年价格表示的资本存量。但是,用这种组合计算出来的生产率,不论是采用张军的还是单豪杰的资本存量数据,都会出现我国技术退步的结论,不如采用52年价格的资本存量估计出的结果令人信服。本文认为出现这种情况主要有以下三个方面的原因:一是DEA方法可能本身存在缺陷。DEA方法的思想是,将最有效率的那些点,即利用在一定投入下产生最大产出的那些点构造生产前沿。在这种方法下,如果某一省份受到一个冲击,将会对总体生产率和技术进步的估计结果造成很大的影响。二是我国统计数据的质量太差。特别是价格数据,可能存在着录入错误等问题(叶宗裕,2010)。根据TFP的推算方法,它是指所有不能通过要素投入的变化所解释的因素,包括了技术变化、效率变化和其他统计测量误差。这样一来,一旦某省的某年数据出现异常,这个误差将会算到TFP中,并且按照DEA的算法,将会导致更大的偏误。因此,利用资本存量数据的时候要特别小心。三是全要素生产率指数自身的缺陷造成的。全要素生产率首先是一个理论上的概念,而经济理论为了分析的简化,一般假定全社会只生产一种产品,这种产品既可以用来生产充当资本品,也可以用来消费。可是现实生活中,生产的产品是五花八门,多种多样的,为了将多种投入转化为一种资本品,我们常常使用经价格指数调整后的不变价格进行加权。但是,价格指数并没有充分考虑资本品质量的变化,因而,此时的价格指数平减必然会产生一定程度上的误差,出现过度平减或平减不足的问题。

此外,最初Solow提出“索洛余量”概念的时候,假定技术的进步是外生的、非体现的、Hicks中性的(郑玉歆,1999;2007)。也就是说,生产率的提高似乎是外生叠加在生产函数上的,并不会导致要素质量的变化,在整个时期,要素的质量是固定不变的。随后测算方法的变化,如数据包络分析和随机前沿分析,实际上都隐含了这一假定。但是在实证中,投入要素的质量是不断变化的。事实上,资本品的质量总是不断提高,技术进步会在一定程度上体现在资本质量提高和劳动者质量的改善上。而我国的技术进步很大程度上是通过引进外资,通过购买先进的设备来驱动的,自主研发较少。这样,其实技术的进步和生产率的改善已经体现在资本品中了,生产率的提高已经不是非体现的和希克斯中性的了。这就是基于某些资本存量测算出来我国技术退步的原因。

四、结论

不同研究导致TFP测算结果巨大差异的主要原因,一是研究方法的不同,二是采用数据的不同。根据上述的分析可以看出,对于同一种方法而言,仅仅是采用的数据不同就可能得到完全相反的结论。而对于同一种方法,造成结论不同的主要原因在于资本存量。因此,只有先准确地估算资本存量,才能准确测度全要素生产率。

【参考文献】

[1] Battese G E,Coelli T J.:A model for technical inefficiency effects in a stochastic frontier production function for panel data[J].Empirical economics,1995,20(2).

[2] Van Beveren I:Total factor productivity estimation:A practical review[J].Journal of Economic Surveys,2012.

[3] 段文斌、尹向飞:中国全要素生产率研究评述[J].南开经济研究,2009(2).

[4] 郭庆旺、贾俊雪:中国全要素生产率的估算:1979—2004[J].经济研究,2005(6).

[5] 王志刚、龚六堂、陈玉宇:地区间生产效率与全要素生产率增长率分解(1978—2003)[J].中国社会科学,2006(2).

[6] 颜鹏飞、王兵:技术效率、技术进步与生产率增长:基于DEA的实证分析[J].经济研究,2004(12).

大数据技术论文篇10

[关键词] 科技查新;材料化学;查新点

[中图分类号] R914 [文献标识码] A

1 材料化学科技查新必要性

材料化学涉及的学科分支多,学科交叉性强,与化学、工程学、物理、能源和生物医学等学科均有广泛联系。为了适应科技和学科发展的需要,目前,人们对材料的研究也更加细致、深入,对新材料的合成、研究也越来越多、材料的种类越来越多,产生周期也越来越短,导致产生大量关于材料方面的相关信息。由于信息量大、更新周期短,这也给科研工作者申请课题、成果鉴定等方面带来一定困扰,因此科技查新十分必要。

2 材料化学科技查新方法探讨

2001起年实施的《科技查新规范》中指出:“查新是科技查新的简称,包括:专利查新、科研查新、新产品查新三种类型,是指查新机构根据查新委托人提供的需要验证其新颖性的科学技术内容,按照本规范操作,并得出结论。”

查新机构依据查新规范,结合查新委托人的要求,围绕项目的科学技术要点,提炼查新点,查证其新颖性、水平性。因此,科技查新可以为专家评价科技项目提供全面、客观、准确的科技文献检索和情报学评价,能有效提高专家评价的准确性,为科技管理提供决策依据。

2.1 材料化学科技查新中查新点的确定

由于材料化学研究热门点多、应用广泛,合成的材料品种也十分繁多,稍加改变原料的成分就可能形成一种新材料,而不同组成的材料之间性质往往存在很大差异,因此要保证文献检索的全面性和准确性,就对查新人员提出了很高的要求,一方面要具备比较扎实的专业知识,另一方面也能对这些比较前沿的学科有比较系统的了解,这样才能在保证工作过程中把握准确的创新点,选对关键词,得出可靠的查新结论和高质量的查新报告。

而事实上,查新人员的专业知识有限,往往不能及时跟上学科专业发展的速度。有的委托人为了保密自己的技术方法,对其研究内容描述十分模糊,对项目的关键技术和创新点闪烁其词。而在查新过程中,如果查新点提炼不当,将会导致查新人员在选择检索词、制定检索策略时出现偏差,直接影响查新结论的可靠性和针对性。因此查新人员和委托人要加强沟通,使得双方都能把握准查新要点,保证查新结果的全面性、准确性,避免重复研究和不必要的人力、物力浪费。

材料化学的查新多围绕在已有材料基础上设计、合成新材料,或已有材料的新应用等。通常委托人给的科学技术要点中会分析到研究该材料的背景、已有合成方法、已有材料的缺陷、拟采用的改进方法、合成新材料的结构表征、性质研究,以及应用前景等。新材料的合成,往往是在前人研究思路的基础上进行进一步改进创新,通常研究思路为:采用新原料、已有方法、已有表征手段合成新材料,并在目前的应用领域与旧材料做性能比较;或者采用旧原料、新合成方法、已有表征手段,改进材料合成的方法,并与旧合成方法做研究工艺比较;或者采用旧原料、老方法、已有表征手段,开拓新的应用领域等。因此在查新点确立时,要分析该项目研究的重点是新原料、新方法、还是新领域,只要确定哪一种是新颖性的,那么其他的表征方法、性质研究往往都是与以往的研究相同,可以不作为查新点。当然也有原料、方法、应用领域皆有创新之处的研究,但往往比较少见。

2.2 材料化学科技查新的数据库选择

检索文献时一般先查阅综述或者学位论文等文献,把握技术总体情况,然后选择和查新项目相关的综合数据库、专业数据库以及专利数据库等进行具体检索。

材料化学涉及交叉学科较多,因此需选择的数据库种类也较多。经常查阅的中文数据库有三家出版商重庆维普(重庆维普中文科技期刊数据库)、万方(万方中国学位论文全文数据库、万方中国学术会议论文全文数据库、万方中国科技成果数据库、万方数字化期刊全文数据库)、CNKI(CNKI中国期刊网全文数据库、CNKI中国博士学位论文全文数据库、CNKI中国优秀硕士学位论文全文数据库),同时也要查阅教育部和科技部的在线网站:中国学术会议在线(教育部科技发展中心)、国家科技成果网(科学技术部),此外还需查阅国家知识产权局专利检索库。以上数据库基本涵盖了材料化学科技查新所包含的中文信息资源,在中文文献检索方面能够基本满足查新需要。

与材料化学密切相关的国际公认的权威数据库主要是“三大索引”,即SCI科学引文索引、EI工程索引、ISTP科技会议录索引。其中,SCI科学引文索引收录材料化学领域最为重要的科研文献;EI工程索引收录有与材料化学相关的一些交叉学科,如材料工程、能源、生物等方面的文献;ISTP科技会议录索引主要涵盖与材料化学相关的国际学术会议论文。虽然“三大索引”收录了材料化学多数文献资源,但收录了世界范围内与化学、化工相关的科技文献的CA化学文摘数据库作为权威、专业的数据库,是材料化学科技查新必备的重要数据库资源。同时,作为世界权威的专利索引数据库Derwent World Patents Index也是材料化学必不可少的科技查新数据库。

上述数据库组合起来,再配合Dialog系统的数据库,基本覆盖了材料化学的各个方面,可以满足材料化学科技查新的中外文献及专利需求。

3 查新实例

以甲醇芳构化催化剂合成及性能研究为例,阐述材料化学科技查新的重点步骤及具体方法。

3.1 项目名称、目的

该委托查新项目要求国内外查新,因此中文、英文名称都必须填写。中文名称:新型甲醇芳构化催化剂的研制及催化活性研究。英文名称:The preparation and catalytic activity research of new Catalyst for methanol aromatization。

3.2 科学技术要点

委托人在填写查新委托单时对我国能源结构,甲醇产能,甲醇芳构化意义、发展过程、已有的技术缺陷等方面进行了详细论述,但对其主要研发内容的描述过少,技术创新点不明确。因此经过与有关技术人员多次沟通之后,委托人重新修改了科学技术要点的内容,对该课题的主要研究内容、研究方法、工艺路线等描述更加具体。

3.3 查新点与查新要求

在与技术人员沟通过程中,明确了项目查新点主要集中在甲醇芳构化新型催化剂的合成方面。通常,合成新型催化剂要经过几个方面:合成原料的选择、合成方法的选择、合成物的表征及性能评价。任何科研成果都是在前人研究基础上进一步发展的,该委托项目同样不例外,经与技术人员沟通明确了该催化剂合成选用的制备方法、表征技术和性能评价均与前人研究方法相同,唯一不同的合成原料的选择方面,确定查新点如下:负载金属离子的分子筛ZSM-5/SiC甲醇芳构化催化剂的制备及性能研究。

3.4 文献检索途径及范围

文献的中文检索范围按照上文所列数据库及专利库进行检索,外文检索范围可按上文所列范围进行检索,或者使用dialog联机检索。使用dialog系统进行检索,可以直接查找所有数据库及专利库的文献资源信息,且能直观体现各文献在数据库中的分布情况,而无需查新人员在各个数据库中分别编写检索式进行检索,可节省大量精力和时间。该课题的外文文献检索使用的是dialog联机检索。

与技术人员讨论并经过初步检索后,确定中文检索词为:ZSM-5、金属、负载/修饰、SiC/碳化硅、甲醇,英文检索词为:ZSM-5、Metal、modif*/load*、SiC/silicon carbide、Methanol。

中文检索式:主题="ZSM-5"AND (金属AND甲醇OR SiC OR碳化硅);英文检索式:SU=("ZSM-5"AND (metal or SiC OR"silicon carbide")AND(modif* OR load*)AND Methanol)。

3.5 检索结果

依据上述的文献检索范围和检索式,共检索出相关文献180篇(见表1),其中密切相关文献23篇,并遴选出对比文献9篇。

3.6 查新结论

该查新项目的主要技术特点在于:在SiC基材上合成ZSM-5/SiC复合材料,并作为催化剂载体;在ZSM-5/SiC催化剂载体上负载金属离子,制成金属/ZSM-5/SiC催化剂,并考察该催化剂在甲醇芳构化中的活性。

综合检索到的国内外相关文献,并与委托项目的查新点进行对比分析,得出以下结论:

检索到的文献分为两大类:1.在分子筛ZSM-5表面负载各种金属离子,包括非金属、碱金属、碱土金属、过渡金属、稀土金属等,制成金属/ZSM-5甲醇芳构化催化剂并研究其催化性能。2.制备ZSM-5/SiC复合催化剂,并考察其催化活性。而该项目不仅制备了ZSM-5/SiC复合载体,同时也在该载体上沉积金属离子,因此均未见与该查新项目以上技术特点相符的文献报道。

4 小结

随着科学技术和网络信息的发展,越来越多的网络信息与数据库系统覆盖范围更广、更新速度更快,使得科技查新文献检索更加便利,极大提高了科技查新的效率。材料化学的科技查新依托各种信息资源,更是具备了极大的便利性。但是由于材料化学的复杂性,科技查新人员应该不断提高相关专业知识水平、文献检索能力以及外语水平,同时与委托人进行充分沟通,才能更好地提高科技查新的质量。

参考文献:

[1]周玉芳.材料学科技查新课题中外文数据库的选择[J].现代情报,2010,30(4):126-128.

[2]戴泳.浅谈材料科学领域科技查新的新颖性判定与保障[J].情报探索,2008(3):63-65.

[3]李清.化学化工科技查新方法研究[J].上海化工,2010,35(11):27-30.

[4]方东权,王琼.博士基金课题科技查新实践与探讨―以“小麦抗赤霉病分子基础研究”为例[J].湖北农业科学,2013,52(5):1222-1225.