科学计数法的规则十篇

时间:2023-08-12 09:27:35

科学计数法的规则

科学计数法的规则篇1

1关联规则的数据挖掘分析方法在计算机教学中的作用

数据挖掘作为一种全新的计算机运用技术,在各个应用领域都发挥巨大的潜力。通常情况下,数据挖掘分析方法主要是有关联规则分析、序列模式分析以及分类分析等方法。笔者经过一些分析方法的对比,在系统开发过程中,选择关联规则算法进行相应的探讨。为了能够进一步说明关联规则的数据挖掘方法,同时有效地结合实践过程,通过对以下两个案例进行深入分析,希望能更好地了解数据挖掘方法的运用。例如,在“男同学-高分”的关联规则中,这种表示方法是在考试过程中,男同学和女同学相比得高分的几率更高,在一个具有一万条记录的事物数据库中,只有将近300条记录包括得到高分的男同学,说明这种关联支持度为3%,这个支持度相对来说较高。但是,也不能因此来做出这个关联的意义,若通过科学的统计发现其中有6000条的记录包含男同学,使可以计算出男同学的置信度为300/6000=5%,从此方面来看,这个关联规则的置信度并不是很高,同时也就不能做出这种关联的实际意义。但是,如果是此记录中只有600个是“男同学”,这样就可以知道有将近50%的人得到高分,值得关注。又如,可以针对不同类别教师所教学生的成绩进行统计。根据图中数据显示,可以假设,甲类教师-学生高分,设置为X-Y,可以知道,其支持度为50/310=16.13%,其置信度则为50/105=47.2%。因此,可以通过这种方法,以此来推导出其他的关联支持度以及置信度。

2教师因素对挖掘计算机学生成绩数据的促进作用

当前,我国计算机教学考试主要采用无纸化考试,其阅卷工作可以在计算机上自动完成,其成绩也可以由省教育厅逐一下发,通过这样的方式,可以更好地开展数据挖掘工作。例如,可以利用关联规则法研究学生A科成绩和B科成绩的关联:①在对可信度的运行过程中,学生在A科成绩为优秀时,B科也为优秀的概率;②在对支持度的运行过程中,可以描述学生A和B科目的成绩为优秀的概率;③在对期望可信度的运用过程中,可以在没有任何约束的情况下,加强对学生A和B科目成绩为优秀的概率分析;④在作用度的分析上,作为一种可信度和期望可信度的比值,当学生在A类成绩为优秀时,可以对B科目的优秀影响进行深入分析。从以上的分析中可以看出,可信度能够衡量关联规则的准确度,而且在关联规则中,支持度是当前关联规则中最为重要的衡量标准。

3关联规则推导技术的有效运用

数据挖掘所得出的关联规则只是作为数据库中的数据之间相关性的描述,同时也可以作为一种分析工具,通过历史数据来预测各种未来的行为。但是,数据挖掘所得出的结果只是作为一种概率,由于不同探究问题的类型和规模有所不同,只有灵活地运用数据挖掘技术才能进行补充。在划分方法上,可以将数据库中分成几个互不相干的模块,并且可以单独考虑到每个分块生成的所有的频集,之后可以通过所产生的频集合并生成所有可能的频集,计算出这些项集的支持度。可以针对分块规模的大小来选择被放入的主存,而且在每个阶段只需要被扫描一次,有效降低挖掘时间,提高挖掘效率。

4结语

科学计数法的规则篇2

关键词:数据挖掘;遗传算法;关联规则

中图分类号:TP18文献标识码:A文章编号:1009-3044(2008)34-1747-02

Mining Students Information with Association Rules Based on Genetic Algorithm

CHEN Jian-cheng1,2, TU Ang-yan3, XU Xue-gui2

(1.Software Institute of Tongji University, Shanghai 200092, China; 2. Department of Computer, Zhejiang Industry Polytechnic College, Shaoxing 312000, China; 3. Center of Computer, Shaoxing University, Shaoxing 312000, China)

Abstract: This paper describes the application of genetic algorithms to the data mining association rules with specific student information database. Through specific coding design, structuring fitness function, processing database, setting genetic algorithm’s parameters,many useful rules are found. This helps teachers manage and guide students scientifically. It can improve the quality of teaching and the accomplishs, and play the roles of using the little to get the big for the other courses or students database mining.

Key words: data mining; genetic algorithm; association rule

1 引言

遗传算法在解决问题时以混沌、随机和非线性为典型特征,为其他科学技术或难以解决的复杂问题提供新的计算模型。遗传算法是有效解决大量数据中嘈杂无序的特征的有效方法之一。遗传算法是模拟自然进化的通用全局搜索算法,避免了搜索过程中局部最优解,用在规则发现方面,有希望发现真正有用的规则。

关联规则Apriori算法的核心思想是发现最大项目集,这个过程是全局的搜索过程,而遗传算法是一种全局最优算法,将遗传算法用在规则的发现和提取方面能够发现真正有用的规则。本文将遗传算法应用到关联规则的提取方面,结合具体的学生成绩数据库系统的应用实例,将常见的二进制编码转换为实数编码,对适应度函数进行构造,得到一些有用的规则,并将其应用于学生的培养和教育,便于教师有针对性地对学生进行科学的管理和指导,有助于科学教学及今后的教改方向,从而提高教学质量和教师素养。

2 遗传算法中的个体表示

2.1 编码方法

应用遗传算法进行规则开采,编码是要首先解决的问题,也是遗传算法的关键步骤,直接影响遗传算法的运行效率。

实数数组的元素个数与事务数据库中的字段个数对应,实数数组的元素值则代表了字段的属性值,如表1所示。

用一个元组为N的数组来表示如表1所示的个体编码,A[1]表示字段A,A[2]表示字段B,……,A[N]表示字段N;各属性值用数值型的值表示,各字段的属性值在各自不同的范围内取值,如字段A的属性值在[A1,AL1]之间取值,字段B的属性值在[B1,BL2]之间取值,……,字段N的属性值在[N1,NLN]之间取值。由于处理后的数据库的属性值大于零,则用与所在字段的属性值的编码长度等长的由“0”组成的字符串表示,表示此属性与其他的属性无关联。

表1所示的数据库的个体编码如下所示:

用实数编码,不仅编码简单、易于实现,而且也便于遗传算子的操作,编码后的遗传算子的操作变成了对数组的操作。

2.2 适应度函数的构造

适应度函数是遗传操作中进行选择操作的唯一依据,使算法避免了随机的盲目搜索,它的设计好坏直接影响GA的性能和效率。关联规则中支持度的大小衡量了规则的重要性,支持度越大,规则越重要,反之,规则不重要。可信度是对关联规则准确度的衡量,对可信度很高而支持度很低的关联规则,由于该规则使用的机会很少而显得不重要。因此,在适应度函数的构造中,采用这样的方法:先根据支持度筛选规则,再在满足最小支持度的规则中确定它的关联程度和关联性。适应度函数的形式定义如下所示:

其中,s'为经过GA形成的一条新规则的支持度,s为用户给定的支持度的阈值,当ri为符合要求的规则时,它的适应度函数值大于1,值Vs表示被选中,否则在下一代中规则造淘汰,用Vd表示。

3 应用实例

3.1 数据库的数据处理

本文采用的是学生信息数据库。数据库的各字段说明如表3所示。

学年的取值范围为[1,4],分别表示大一、大二、大三和大四四个年级,性别编码,男:1,女:2,添加科目性质一列:属性值为:偏文用1表示,中性用2表示,偏理用3表示,偏艺术(如健美操、演奏系列、绘画系列)用4表示。

3.2 遗传算法中的参数设置

GA中需要选择的运行参数主要有个体编码串的长度L、群体大小M、交叉概率Pc、变异概率Pm、终止代数T等。这些参数设置对算法的运行性能影响较大,下面进行具体分析:

1) 编码串长度L。编码的长度与所用的编码的方法有关。本文使用的是浮点数编码,编码串长度L与决策变量的个数相等。在本文中,我们要找的是表2中的八个字段之间的关联,编码的长度为8。

2) 群体的大小M。群体的大小M对算法的影响很大,若 M 较小,虽可提高遗传算法的运算速度,却降低了群体的多样性,会引起早熟现象的发生;相反M的值较大,则遗传算法的运行效率降低。权衡利弊,且本例有的决策变量的取值范围很大,因此初始种群的个数取100。

3) 交叉概率Pc。交叉操作是遗传算法中产生新个体的主要方法,交叉概率取值过大会破坏群体中的优良模式,对进化运算不利;取值过小,产生新个体的速度减慢。在本例中,有的决策变量的取值范围很大,把交叉概率取较大的值0.8。

4) 变异概率Pm。变异使得群体保持它的多样性,变异概率取值过大,虽能够产生较多的新个体,可能会破坏优良的模式,使得遗传算法的性能近似于随机搜索算法的性能;取值过小,无法保持群体的多样性,且易出现早熟现象。与前面参数类似,考虑到有的决策变量的取值范围很大,变异概率取较大的值为0.05。

5) 终止代数T。终止代数是GA运行到指定的进化代数之后停止运行,将当前群体的最佳个体作为最优解输出,是GA运行结束条件的一个参数。在本例中,求的是满足用户给定阈值的规则,最后输出的解是一个符合要求的规则的集合,根据适应度函数以及遗传算子选择出的规则表示的是所有具有关联性的属性,但无法分辨出具体是如何关联的。但包含的所有规则中未必每条规则符合可信度要求,因此需对规则进行筛选,对符合最低可信度阈值的规则输出,否则丢弃。

3.3 算法设计

利用下面的算法对数据库的数据进行规则提取:

Step1:初始化的过程包括下列两个过程:

随机生成一个初始群体P={a1,a2,…,am};(m=100)

获取用户给定的支持度s,可信度c;

Step2:对当前种群P中的每一个个体计算适应度值,f(ai)=s'/s(i=1,2,…,m);根据适应度值对个体进行筛选,若f(ai)>0则保留该规则进入下一代,否则删除并淘汰该规则,并计算保留下来的个体数n。

n=0(初始化)

For i=1 to m do

If f(ai)>0 then

n=n+1

reserve 该规则

else

discard 该规则

end if

end for;

Step3: if n < m then

随机生成m-n个个体

else

跳过Step3这一步

end if

Step4: 初始化池pond和后代offspring(下转第1754页)

(上接第1748页)

pond=Ф

offspring=Ф

Step5:复制

For i =1 tomdo

pond=pond ∪ ai(将当前种群中的所有个体复制到池)

End for

Step6: 交叉

For i =1 tom/2do

随机地从池pond中选择两个个体aid和aim作为父本和母本,按照交叉概率Pc进行交叉

pond=pond C{aid,aim}

offspring=Offspring ∪{ aid,aim按照交叉概率Pc交叉的后代}

End for

Step7: 变异:在当前种群中按照变异概率Pm选择Pm×m个个体进行变异操作。

Step8: 终止条件判定:

与终值代数T进行比较,若符合终止条件,则终止并输出最优解,否则跳到Step2。

Step9: 进行规则提取。

3.4 结论

根据以上算法,在上述的学生数据库中发现部分关联规则如下:

?圯(1.30%support,2.33%confidence)

?圯(1.30%support,62.79%confidence)

?圯(1.30%support,30.23%confidence)

?圯(1.30%support,0%confidence)

?圯(1.30%support,0%confidence)

?圯(1.30%support,62.16%confidence)

?圯(1.30%support,37.84%confidence)

?圯(1.30%support,0%confidence)

规则表明偏文(编码为1)的课程邓小平理论(课程编码为87),文科班中文师范00级01班(班级编码为01),优秀(编码为6)为2.33%,良好(编码为5)为62.79%,中等(编码为4)30.23%;理科班数学教育00级02班(班级编码为09),优秀为0%,良好为62.16%,中等为37.84%,两个班不及格均为0%情况。

对偏文的课程,文科班的成绩相对好一些,但并不突出,这里需要说明的是虽然是同一偏文的课程,但考试的要求并不同,文科班的要求较高一些,考试的难度相对高一些。对中性科目文科班的成绩较理科班的成绩有很大的突出。

4 小结

本文结合学生信息数据库对关联规则的挖掘算法进行了探讨,提出将遗传算法应用于关联规则的提取。使用了实数数组的编码方法,方便了交叉、变异和选择算子的操作;根据不同的专业性质、年级、科目性质、课程、选修情况、学分、性别与成绩的关系,对学生成绩数据库进行数据挖掘,发现有用的知识,用同样的方法,对不同内容的学生资料数据库进行关联规则的数据挖掘,并把它们应用到学生的培养和教育上去,教师可以根据各种题型的失分多少发现学生的薄弱环节,从而加强薄弱环节的教育;发现某些基础学科和另外一些难度较大的学科的关联性,通过加强某些基础学科的教学来提高另外一些难度较大的学科的学习成绩,这有助于教师对学生的科学管理,进行有针对性地科学指导,提高教学的质量和素质;可以根据某些课程的优秀情况判断学生以后的就业去向,从而加强某些课程的教育。

参考文献:

[1] Davis L.Handbook of genetic algorithms[M].New York:Van Nostrand,1991.

[2] 陈明,王静,沈理.基于遗传算法的Fuzzy规则自动获取的研究[J].软件学报,2000,11(1):85-90.

[3] 遗传学编写组.遗传学[M].北京:中国大百科全书出版社,1983.

科学计数法的规则篇3

关键词: 关联规则分析 数据挖掘 数字图书馆

近年来,数据挖掘(data mining,也称知识发现(knowledge discovery in databases,简称KDD),受到当今图书情报领域的广泛重视,其主要目的就是设计算法,用于从海量数据中发现未知的、潜在的、读者感兴趣的有用信息。关联规则是数据挖掘研究中的一个重要的研究课题。

1.关联分析规则基本原理

Agrawal等人(1993年)[1]最先发现了顾客交易数据库中的项集间存在关联规则,其核心方法是基于频集理论的递推方法,它侧重于确定数据中不同属性域之间的联系找出频繁的数据属性域之间的相互关系。定义为:

此后人们对关联规则的挖掘问题进行了大量研究,包括对Apriori算法优化[2]、多层次关联规则算法[3]、多值属性关联规则算法[4]等,以提高算法挖掘规则的效率。

关联规则的挖掘一般可分成两个子问题:①找出所有支持度≥最小支持度阈值的频繁项集。②由频繁模式生成满足可信度阈值的关联规则。第二个问题比较容易,它在第一步的基础上很容易实现,因此关联规则挖掘算法的性能主要由第一个问题决定。因为这个问题的挑战性在于数据量巨大,所以算法的效率是关键。

2.关联规则分析在国内图书馆学领域的应用

关联规则分析经过十几年的发展,目前已经在各个领域广泛应用。从国内已有的研究成果来看,国内图书情报界越来越重视关联规则分析在图情领域各类优化问题的定量应用,并针对不同主题进行了一系列的探讨和研究,涉及的主题主要包括关联规则分析在流通信息、个性化推送、文献计量、信息检索、知识管理等方面的应用。

2.1在流通信息统计中的应用

在读者日常借阅记录事务中,每天都有大量的借还记录汇入数据库中。读者借阅的对象是文献资源,根据长期的读者借阅历史数据,我们会发现读者对文献的借阅存在着一定的关联,不同学科之间也存在着关联,以及不同的读者对文献的借阅存在着一定的模式。挖掘出这些数据之间的关联,有利于合理配置资源和提高资源的利用率,以提高图书馆的服务水平。图书流通量是反映图书利用率的最重要的技术指标,更是反映图书馆服务质量的重要因素。影响图书流通量的因素是纷繁复杂的,这些因素不仅包括馆藏图书种类和数量的多少、借阅方式的差异、读者群体的大小、借阅权限的区分,而且包括由于读者个体间的差异和不同性别、年龄、不同专业及知识层次的读者对读物产生的不同需求。显然,在上述复杂而又相关的各因素中,既有大量已知信息,又有不少未知信息、非确知信息。图书流通系统的这种既含有已知信息,又含有未知的、非确知的信息,实际上是一种灰色系统[5]。关联规则的挖掘可以发现图书馆流通数据库中一组借阅书籍之间某种关联关系的规则,其作用在于对图书流通的关联性分析和相关借阅图书的推荐。这样可以优化图书馆馆藏结构、馆内书籍分布,不仅可以帮助师生的学习教研工作,甚至可以发掘不同学科间的隐藏联系[6]。

珵继华[7]等认为多维数据空间数据的稀疏性,在低层或原始层的数据项之间很难找出强关联规则。在较高的概念层发现强关联规则很可能提供普遍意义的知识。而多层关联规则挖掘是直接面向海量数据库系统的,这类数据库通常有上百个属性和数百万个记录,并且数据表之间包含复杂的关系,这就必然导致数据挖掘过程中搜索维数和搜索空间的激增,利用高性能分布式计算机设计分布式多层关联规则算法来进行高效的分布式挖掘已经成为当前数据挖掘的一个迫切需要解决的问题。

聂珍[8]在分析单数据库多层关联规则算法SMAM的基础上提出了分布式多层关联规则挖掘算法PMAM,使得其具有较高的分布式特点。在PMAM算法中利用全局频繁与局部频繁之间的关系减少候选集,并利用概念间的层次关系及项集长度的分布规律对事务表进行约减。这样可使算法的效率得到提高,改善了内存的使用率。

2.2在个性化推送中的应用

未来图书馆的发展趋势是数字化的,然而目前,国内图书馆技术与应用基础薄弱,起步较晚,网络个性化服务发展更是滞后,其应用仍处于初始探索阶段。鉴于数据挖掘技术在数据的组织、分析与发现等方面存在巨大的潜力,学术界普遍认为它可为数字图书馆的个性化服务提供关键技术。

图书推荐服务是图书馆个性化服务的一种,在图书馆巨大的馆藏资源中,每个读者感兴趣的只能是其中的一小部分,如何高效率地找出对读者有用的书目是图书馆学要研究的问题[9]。数字图书馆个性化服务是基于用户的行为、习惯、偏好、特点及特定需求,向用户提供满足其个性化需求的信息内容和功能的一种服务[10]。

鲍静[11]运用Apriori算法通过对读者借阅数据的关联挖掘,挖掘出各年龄层次、各职业、各学历层次及不同职称的读者对图书馆图书资源利用的关联规则,并引入兴趣度,对挖掘出的关联规则做进一步分析,分析正相关关联规则、负关联规则,并根据兴趣度来分析规则的有效性,提出了基于关联挖掘的读者个性化服务模型,由借阅记录数据库、数据挖掘引擎、图形用户界面、匹配器、规则库等部分组成。

韩开来[12]等利用读者五年内书籍的借阅数据,在Apriori关联挖掘算法的基础上,对事务集中每个项集按每个项的最小支持度从小到大排列有序,最小支持度的值采用根据每个项的值结合用户指定的最小支持度上限和下限来计算。针对新书推荐特点,采用新书推荐关联规则挖掘隐藏在借阅历史数据中的有价值的信息。为个性化服务平台的构建打下基础;转换图书馆的服务模式,由被动转为主动,建立以读者为中心的个性化服务体系。

2.3在文献计量中的应用

在文献计量学的研究中,通常需要通过定量分析以确定核心期刊、核心作者、核心情报源等等。对最优目标或某种具体要求的量化数据列,即标准数据列或最优数据列,来源一般有两种方式[13],一种是人为指定,另一种是从被分析的项集合的指标值中选取最优值。用关联分析法进行处理,相较其他方法具有更为广泛的适用性,只要是由某些指标数据来对目标项或要求进行优化排序的均可用此法。方法简单,原理直观明了,计算量较少,对指标因素无任何限制,因此应用广泛。

科学文献的编排格式为文献计量学提供了可统计的外部特征。邹常诗[14]从引文、关键词、分类号等外部特征入手,采用文献计量方法分析了文献的关联性——相关文献群和相关著者群,并阐述了两个相关群的实际应用。

杨代庆等[15]分别从合著者、共关键词、共引三个角度对来自于万方数字化期刊群、SCI、EI的院士期刊文献进行关联性分析,通过期刊及院士作为媒介,最终映射到学部之间的关联关系。根据生成的关联图从关联广度、关联孤立性、关联强度分析了学部之间的关联程度及原因,并揭示了作为合著者的外部文献特征与作为关键词、共引的内容特征在学部关联性上的差异。

曹志杰[16]等提出了基于共词分析的隐性关联知识发现方法,用于发现这些尚未被发现的联系或复现这些被主观隐藏的特定联系,揭示出技术发展动向,以提高情报研究质量和情报工作地位。

徐慧[17]等利用频数统计、关联规则算法,对中国中医药期刊文献数据库中1984~2007年病毒性心肌炎文献涉及的主题词和副主题词进行分析,抽取隐含规律,为病毒性心肌炎的临床诊疗及科研提供思路。

2.4在信息检索中的应用

金玮[18]等针对Web信息检索系统在海量数据下的服务质量和效率问题,讨论了数据挖掘技术在Internet信息检索中的运用,在经典的关联规则算法研究基础上,通过引入多维链表结构,提出了利用事务集合匹配运算和链表操作高效地挖掘关联规则的算法ARMLL用于提高Web信息检索质量。实验结果表明该算法是可行的,有较高的效率。

黄名选[19]等以关联规则挖掘技术的发展为主线,将目前的研究方法归纳为五类:项无加权关联规则挖掘、项加权关联规则挖掘、项完全加权关联规则挖掘、负关联规则挖掘和增量挖掘,对这五类挖掘技术进行整体性阐述和比较性研究,指出了挖掘技术的局限性。

刘俊熙[20]认为搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,对搜索引擎的相关技术(搜索技术、索引技术、检索技术和接口技术)进行关联分析。

于春[21]等介绍相关性是信息检索科学的核心概念,用户观点则是相关性研究的主要观点;从用户角度研究相关性理论,以试验法为研究方法,力图证明存在一个核心的、可以跨不同用户类型、问题情境和信息源环境的关于信息用户在信息需求检索中的相关性判断的因素集,以此阐述如何提高信息检索的准确率,指导信息用户能够及时、准确地查找到所需信息。

2.5其他方面

除以上几个方面外,关联分析还应用在图书馆学领域的诸多方面。有的学者运用灰色关联度分析法对所调研图书馆读者满意程度进行对比分析,并进一步对读者满意度评价指标进行灰色关联分析,得出影响图书馆读者满意度的主要指标[22]。还有学者将关联规则分析应用在期刊评价、馆藏建设、专利分析等方面。

3.关联规则分析在国内图书馆学领域应用的总结和思考

从关联规则分析在国内图书馆学领域应用的文献数量来看,国内学者越来越重视这种分析工具的应用。从近年来文章的主题来看,关联规则分析在国内图书情报领域应用的研究主要集中在以下几个方面:(1)在流通信息统计中的应用;(2)在个性化服务推介方面的应用;(3)文献计量分析;(4)信息检索方面的应用;(5)读者满意度满意度评价,此外还包括期刊评价、馆藏建设、专利分析、编目规则、文献采访、学科馆员选拔、知识管理和竞争情报等。

通过对国内研究的分析,可以看到该主题的研究越来越丰富,应用越来越广泛,既有理论研究,又有实践探讨。但是同国外相比,国内的理论探讨不够深入,实证研究相对比较少,因此不论从理论还是实践上都需要向国外借鉴和学习。

参考文献:

[1]Agrawal R,Srikant R.Mining association rules between sets of items in large databases[A].Prco ACM SIGMOD Int’l Conf Management of data[C].Washington DC, May,1993:207-216.

[2]Agrawal R,SrikantR. Fast algorithms for mining association rules[A].Prco 20th Int’l Conf Very Large Database[C].Santiago,Chile,Sept,1994:487-499.

[3]Srikant R,Agrawal R.Mining generalized association rules[A].Proceedings of the 21th International Conference on Very Large Databases[C].Zurich,Switzerland,Sept,1995:407-419.

[4]尹阿东等.基于数值属性的关联规则挖掘算法[J].微机发展,2003(4):67-70.

[5]高波.对高校图书流通的灰关联法分析[J].辽宁师范大学学报(自然科学版),2001(03):327-330.

[6]王磊,刘东苏.关联规则挖掘在图书馆信息服务中的应用[J].情报杂志,2008(2):154-158.

[7]珵继华,施鹏飞.多层关联规则的有效挖掘算法[J].软件学报,1998(12):937-941.

[8]聂珍.分布式多层关联规则在图书流通优化中的应用[J].科技情报开发与经济,2008(22):1-3.

[9]夏南强,张红梅.基于数据挖掘的数字图书馆个性化服务[J].图书馆学研究,2006(1):32-34.

[10]马文峰.数字图书馆个性化信息服务检索[J].图书馆杂志,2003(4):65-67.

[11]鲍静.关联规则挖掘及其在图书流通数据中的应用研究[D].合肥工业大学,2007.

[12]韩开来.关联规则在图书馆新书推荐中的研究[J].科技信息,2008(6):10-13.

[13]李荫涛.关联分析法在情报学中的应用.情报理论与实践,1990(1):5-8.

[14]邹常诗.科学文献计量分析与文献关联性研究[J].情报资料工作,2000(4):18-20.

[15]杨代庆等.从院士期刊文献对学部关联度的挖掘探索[J].情报杂志,2009(8):26-29.

[16]曹志杰,冷伏海.共词分析法用于文献隐性关联知识发现研究[J].情报理论与实践,2009(10):99-103.

[17]徐慧等.病毒性心肌炎主题词和副主题词关联规则分析[J].世界科学技术:中医药现代化,2009(4):593-596.

[18]金玮等.Web信息检索技术中关联规则挖掘算法应用研究.情报杂志,2007(01):39-42.

[19]黄名选,陈燕红.关联规则挖掘技术研究[J].情报杂志:2008(4):119-121,115.

[20]刘俊熙.搜索引擎的搜索、索引和检索技术的关联分析[J].图书馆学研究,2005(09):84-86.

科学计数法的规则篇4

一、学习目的和要求

本章主要从两个方面阐述会计核算所需的基本知识:一方面,阐述会计科目和账户的设置;另一方面,阐述复式记账的理论与方法。学习本章,要求理解设置会计科目的意义、原则以及会计科目的分类,进而重点掌握账户的基本结构和账户的基本数量关系;理解复式记账的原理和特点,重点掌握借贷记账法的账户结构、记账规则、账户的对应关系、会计分录的编制以及借贷记账法的试算平衡原理。设置会计科目和账户以及复式记账是会计核算特有的方法,是《基础会计学》的核心内容。通过本章的学习,要能深刻理解和熟练掌握账户和借贷记账法,从而为以后各章的学习打下坚实的基础。

二、课程内容

第一节 会计科目

(一)设置会计科目的意义

会计科目的涵义;设置会计科目的意义。

(二)设置会计科目的原则

1.统一性原则

2相关性原则

3.实用性原则

4清晰性原则

(三)会计科目的分类

1.会计科目按归属的会计要素分类

资产类、负债类、所有者权益类、成本类和损益类等五大类。

2.会计科目按所提供指标的详细程度分类

包括总分类科目和明细分类科目两类。

第二节 账户

(一)账户的涵义

账户的涵义;开设账户的必要性;账户与会计科目的关系。

(二)账户的基本结构

账户应当包括的基本内容:“T”型账户的格式。

(三)账户的基本数量关系

期末余额=期初余额+本期增加额-本期减少额

第三节 复式记账原理

(一)记账方法

记账方法的涵义;单式记账法和复式记账法。

(二)复式记账法

1.复式记账原理

复式记账法的涵义;会计等式的平衡关系与复式记账原理。

2.复式记账法的特点

复式记账法的两个主要特点。

第四节 借贷记账法

(一)借贷记账法的涵义

借贷记账法的涵义:“借”、“贷”两字作为记账符号的发展过程。

(二)借贷记账法的账户结构

借贷记账法的账户基本结构。

1.资产类账户与负债和所有者权益类账户的结构

借贷记账法的账户基本数量关系;各类账户的正常余额方向。

2.收入类账户和费用类账户的结构

(三)借贷记账法的记账规则

“有借必有贷,借贷必相等”记账规则的具体表述;运用借贷记账法的记账规则记录经济业务的两个步骤。

(四)账户对应关系与会计分录

1.账户对应关系

账户的对应关系与对应账户的涵义;账户对应关系的作用。

2.会计分录

会计分录的涵义;简单会计分录和复合会计分录。

3.会计分录编制举例

(五)过账

过账的涵义;过账举例。

(六)借贷记账法的试算平衡

1.试算平衡原理

试算平衡的涵义;发生额试算平衡和余额试算平衡原理。

2试算平衡表的编制

3.试算平衡表的作用

试算平衡表的作用以及不影响借贷双方平衡的账务处理错误。

三、考核知识点

(一)会计科目

(二)账户

(三)复式记账原理

(四)借贷记账法

四、考核要求

(一)会计科目

1.识记:会计科目的涵义。

2.领会:(1)设置会计科目的意义;(2)设置会计科目的原则;(3)会计科目的分类,工商企业主要会计科目表。

(二)账户

1.识记:账户的涵义。

2.领会:(1)账户与会计科目的关系;(2)账户的基本内容;(3)“T”型账户的格式;(4)账户的基本数量关系。

(三)复式记账原理

1.识记:(1)记账方法的涵义;(2)复式记账法的涵义。

2.领会:(1)会计等式的平衡关系与复式记账原理;(2)复式记账法的特点。

(四)借贷记账法

1.识记:(1)借贷记账法的涵义和记账符号;(2)借贷记账法记账规则的具体表述;(3)账户对应关系和对应账户的涵义;(4)会计分录的涵义;(5)简单会计分录与复合会计分录的涵义;(6)过账的涵义;(7)试算平衡的涵义;(8)发生额试算平衡和余额试算平衡的涵义。

2.领会:(1)借贷记账法的账户基本结构;(2)资产类账户与负债和所有者权益类账户结构的特点;(3)收入类账户和费用类账户结构的特点;(4)借贷记账法的账户基本数量关系;(5)运用借贷记账法的记账规则记录经济业务的两个步骤;(6)账户对应关系的作用;(7)登记账簿的过程;(8)试算平衡表的作用。

科学计数法的规则篇5

一、会计师的处理方式方法的新的选择

(一)账龄分析法处理坏账的技巧和方法

新形势坏账准备计提方法最佳有效的方法是帐龄分析的方法,账龄分析法相比其他的方式方法更为精确、科学,更加真实的呈现会计数据和信息。会计核算的特点要求细致、准确,科学合理的进行,这一特点对于账龄分析法可以更加直观的反映数据。利用账龄分析法实际就是把握帐目出具的时间,利用时间的早晚来考虑数据的实效性,只有把握好这一特点,有些烂帐、坏账就不会干扰数据的核查,做到筛选出科学的符合实际的核算统计数据。

(二)移动加权平均法在核算计价中的体现

在传统的会计核算中普遍使用先进先出和后进后出的方法,全月一次加权平均法、个别计价法。在新的形势下,会计的计价核算更多的选择移动加权计价的方法。移动加权平均法的优势就在于:会计更能体现数据的动态变化,例如库房的收支的数据发生变化,计算机就会进行处理,将原始数据进行更新并进行移动加权处理。移动加权,顾名思义就是在变化中体现核算中的个性差异,达到核算中的此消彼长的数据变化的状态,在变化中寻求规律,在变化中使数据更加符合实际统计的结果。

(三)加速折旧法在会计核算中的运用

加速折旧法将成为会计信息化条件下的最佳选择,会计信息化条件下,采用加速折旧法计算折旧不再是一项复杂的工作。加速折旧法的优势在于可以符合配比原则,固定资产在使用前期因设备新、效率高,使得产量高、维修费低,所以就应多提折旧,而在后期则相反;可以符合会计准则的稳健性的原则;可提前收回投资,对于企业转换经营机制,促进企业技术进步有着重要意义;可以实现递延了企业的应交所得税及应付红利,增加企业的现金净流量,使企业从中得到一定的财务收益。

(四)代数分配法辅助生产成本分配方法的尝试

计算机环境下的代数分配的方法可以辅助生产成本的分配,可以在生产环境相对复杂,车间车床较多的情况会比其他任何一种分配方法更为简洁,而且结果最为精确,因此,在会计信息化环境下,代数分配法应成为辅助生产成本分配的最佳选择。

二、会计信息化下会计处理方法的选择应遵循以下原则

(一)及时的原则

计算机环境下的财会数据的来源和编辑以及更加具有时间的效率,体现了会计核算的及时性的特点。所以在核算中要关注现实生活中的核算数据的不断变化以及更新。只有做到数据的及时更新才能更好的完成财会的基本工作。为了让数据更加具有说服性,能进行及时的更新,所以计算机的软件、硬件必须做到适配的原则。正基于及时性的原则才能弥补数据的缺失,让数据更加具有时效性。

(二)创新的原则

没有创新就没有发展,创新是企业发展的灵魂,也是各行业必须遵循的守则,随着信息技术遍布生产生活的各个领域,会计的核算方式方法上有了很大程度的革新,墨守陈规已经不适应新形势下的会计核算的实际发展。如何让核算更加科学更加符合实际,更加便捷的提高核算的质量和核算的效率,成为会计师新的挑战。没有创新就没有发展,同样作为会计核算也要不断进行创新,在核算中不断总结好的方式方法,这样才能更加服务于财会这一行业的发展和进步。

(三)科学性原则

新形势下的会计核算大多是在信息技术环境下进行的,数据的呈现更具有开放、实效、智能等特点,如何更好的将会计的具体工作落实到位,科学合理的开展核算。因此对于核算的科学性有更为具体的要就和把握:一是信息技术环境下的数据更加直观和客观,更能减少会计自身的一些主观臆断,使数据更加具有真实性。信息技术的日益运用在会计的工作中,可以让财会数据的科学性和准确性更加得以凸显,避免人为的更改数据造成的数据的失真性。计算机环境下数据的公式化会使一些具有同一属性的表格能够一键处理,更加具有科学性和合理性。二是利用信息技术实现核算的数据的对比、分析,利用系统间的适时对接和相互协同性,使核算的结果更加科学,更加符合核算的本身。数据的对比和分析能力交给计算机进行操作更加的具有对比性,也能够找到数据间的个性差异。同时信息环境下可以对待数据进行客观公正的评价和科学的对比。找出数据间的科学对比的侧重点。三是正是基于核算的科学性的特质,可以适时的研发更加贴近实际的核算软件,使核算系统更具有规范性和科学性。选择合适的核算软件会更加直接的反映实际的数据,公正的处理数据。

三、结论

综上所述,计算机技术和信息技术得到了迅速发展,传统的会计核算模式在实践过程中逐渐暴露出了一系列的问题。改革会计核算方式,可以有效地融合电算化系统和会计核算体系,电子计算机取代了过去的预测、分析和决策等,在较大程度上提高了会计的整体效率;同时,核算的全面性和完整性也得到了保证。信息技术日新月异的今天,如果因循守旧的进行会计师工作是严重落伍的,创新是一个民族得以生存和发展的原动力,作为会计师也要与时俱进,运用科学的方式方法进行核算管理,处理方法的选择应遵循一定的原则,只有把握好方式方法遵循核算的基本准则,核算才更加符合实际,更加贴近生活,只有把握好方法和原则才能更好地履行财会管理工作。

作者:尹昱敏 单位:内蒙古满洲里市国库收付中心

参考文献:

[1]王强.基于电算化环境探析会计核算方法改革(J)中国管理信息化2015年10期

科学计数法的规则篇6

【关键词】 数据挖掘; 原理方法; 医学应用

1数据挖掘及其意义

数据挖掘又称数据库中的知识发现(Knowledge Discov-ery in Database,KDD),是从大量的数据中,抽取潜在的、有价值的知识(模型或规则)的过程。数据挖掘所探寻的模式是一种客观存在的、但隐藏在数据中暂时未被发现的知识。现在,随着数据库技术的不断发展及数据库管理系统的广泛应用,人们面对前所未有的信息数量,目前的数据库系统虽然可以高效地实现数据的录入、查询、统计等功能,却很难发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。于是,人们利用数据库存储数据,采用机器学习的方法来分析数据,挖掘大量数据背后隐藏着的重要信息和知识。这两者的结合促成了数据库中数据挖掘技术的产生和发展, 实现了对数据库海量信息的更高层次的分析。随着数据挖掘技术的逐步发展和完善,近年来在金融、电信、零售、医疗卫生、科学研究等多个领域中得到成功应用,发挥了巨大作用。当前,KDD国际研讨会的研究重点逐渐从发现方法等理论研究转向系统应用研究,注重多种发现策略和技术的集成,以及多种学科之间的相互渗透,更为医疗卫生事业的发展及医学科研工作提供了有力的武器,开辟了新的广阔前景[1]。

2数据挖掘常用的技术和工具

数据挖掘常用的技术方法有特征化规则、关联规则、分类和预测规则、聚类规则。特征化规则是对数据库中原始数据进行分析,获得它们所拥有的共同特征,又称数据总结。其目的是对数据进行浓缩,给出它的紧凑描述。其方法是根据属性列的临界值和概括层次树,对原始数据进行概括,合并相同和相似的元组,最后得到一个或几个“抽象宏记录”即为所挖掘的知识。在特征化规则的发现中,概括的程度由一个合适的阈值来控制,规则的数量被控制在阈值以内。阈值越大,发现的规则越多,但规则的概括程度越小[2]。关联规则挖掘可以发现大量数据中不同的项目集之间存在的关联或关系,从所有对象中来决定哪些相关对象应该放在一起。依照不同的标准,关联规则可以分为布尔的和量化的、单维的和多维的、单层的和多层的关联规则。关联规则的算法有很多,其中,Apriori和 DHP是比较成功的两个算法[7]。分类和预测可以用于提取数据类别的模型或预测未来的数据趋势。通过对预先建立的学习模型进行有指导的学习,最终可以获得具有一定准确率的分类方法。数据分类在统计学、机器学习、人工智能等领域都有研究,方法包括判定树归纳、贝叶斯分类和贝叶斯网络、神经网络、遗传算法和模糊集方法等。预测是构造和使用模型评估无标号样本或评估给定样本可能具有的属性值或区间值,一般采用线性回归、多元回归、非线性回归等方法获得该连续值函数模型[7]。聚类规则是将不同的母体区隔为不同构型的组群,其目的是将组与组之间的差异分辨出来,并对个别组内的相似样本进行挑选。在聚类化技术中,没有预先定义好的类别和训练样本存在,所有纪录都根据彼此相似程度来加以归类。所使用的技巧有k-means法及agglomeration法[5]。一般来讲,数据挖掘工具根据其适用的范围分为两类:专用数据挖掘工具和通用数据挖掘工具。专用数据挖掘工具是针对某个特定领域的问题提供解决方案,在涉及算法的时候充分考虑了数据、需求的特殊性,并作了优化;而通用数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型。目前,比较著名的数据挖掘工具有IBM Intel-ligent Miner、SAS Enterprise Miner、SPSS Clementine等,它们都能够提供常规的挖掘过程和挖掘模式,在操作的简易性、工具的开放性和可伸缩性方面各有特点。其它常用的数据挖掘工具还有LEVEL5 Quest 、MineSet (SGI) 、Partek 、SE-Learn 、SPSS 的数据挖掘软件Snob、Ashraf Azmy 的SuperQuery 、WINROSA 、XmdvTool 等[6]。

3数据挖掘在医学领域的应用及其前景

近年来,数据挖掘技术在医学领域中的应用越来越广泛。在疾病诊断、治疗、器官移植、基因研究、图像分析、康复、药物开发、科学研究等方面都获得了可喜的成果。南加州大学脊椎病医院利用Information Discovery进行数据挖掘,该技术已应用到肿瘤学、肝脏病理学、肝炎的生存几率预测、泌尿学、甲状腺病例诊断、风湿病学、皮肤病诊断、心脏病学、神经心理学、妇科学、产科学等医学领域。Jiawei Han和Micheline Ka-mher从异构和分布式基因数据的语义集成、DNA序列间相似的搜索和比较、同时发现的基因序列的识别、发现在疾病不同阶段的致病基因等方面阐述了数据挖掘在DNA数据分析领域中的应用问题。Muggleton等人提出利用归纳逻辑编程,根 据氨基酸序列信息预测蛋白质第二结构。Igor kononko等从医学诊断的角度阐述了统计或模式识别方法、符号法则的归纳学习、人造神经网络3类机器学习算法在医学领域中的应用。MiroslavKubat等针对心电图、脑电图等医学推测信号的分析,提出使用决策树来初始化神经络,可以大大提高对测试样本的分类准确率。Vysis应用神经网络技术为药品开发进行蛋白质分析。Robeit Groth对聚类技术在患者术后康复问题分析的应用进行了研究等。在国内,中南大学的陈爱斌、夏利民等利用boosting机器学习方法对人脸检测进行了研究。第四军医大的陈雪峰[4]等利用数据库和数据挖掘技术建立的恶性血液病数据库分析系统,不仅可辅助医生做出初步诊断而且对数据具有强大挖掘和分析功能。富春枫[2,3]等研究了机器学习的分类方法logitBoost在判别分析中的应用及其在医学领域中的应用前景等。数据挖掘在医学上的应用有其自身的优势,因为医学上收集到的数据一般是真实可靠、不受其他因素影响的,而且数据集的稳定性较强。这些对挖掘结果的维护、不断提高挖掘模式的质量都是非常有利的条件。随着电子病历的推广,用计算机存储病案在医院已经比较普遍。如果各医院将收集的数据进一步汇总,数据总量是相当大的,而且都是病人的真实数据。从这样的数据集中运用各种数据挖掘技术了解各种疾病之间的相互关系、各种疾病的发展规律,总结各种治疗方案的治疗效果,以及对疾病的诊断、治疗和医学研究都是非常有价值的。

4结语

本研究介绍了数据挖掘的意义、技术、工具及其在医学上的应用,展现了其广阔的发展前景。这为医学的发展开辟了一条新的途径,为广大医疗科技工作者提供了新的发展机遇,抓住机遇、勇于创新,就一定会在促进医学事业的发展中大有作为。

参考文献

1 Michael J. A. Berry and Gordon S. Linoff. Data Mining Tech-niques. John Wiley & Sons,2004.

2 富春枫,荀鹏程,等.Logitboost及其在判别分析中的应用. 中国卫生统计,2006,23(2):98~100.

3 丁祥武,杨莹. 数据挖掘在医学上的应用. 郧阳医学院学报,1999,3:130~132.

4 陈雪峰,蔡锋,王静.恶性血液病数据库分析系统的建立. 第四军医大学学报, 2005,25:252~254.

5 数据挖掘系列讲座,中国计算机用户-赛迪网. publish-blog.blogchina.com/blog/tb.b?diaryID=2550666.

科学计数法的规则篇7

[关键词]科学数据共享 开放共享 政策法规

[分类号]G203

1 引 言

科学数据是指在科技活动或通过其它方式所获取到的反映客观世界的本质、特征、变化规律等的原始基本数据以及根据不同科技活动需要,进行系统加工整理的各类数据集。20世纪50年代以来,随着经济全球化和现代信息处理技术、传递技术的发展,科学研究呈现出分布化、实时化、大规模化的趋势。在此背景下,科学技术前沿领域和大规模的科学数据,对科学技术活动的支撑具有重要的战略意义,科学数据在科技创新中的战略地位不断得到提升。科学数据共享在共享规模和共享程度上都达到了前所未有的水平,受到国际组织和国家政府两个层面的高度重视。国际组织和国家政府共同参与的科学数据共享活动,是目前科学数据共享实践的最高层面,也是最活跃最有效的组织方式。国际组织通过制定共享原则协调内部成员的共享行为,国家政府部门则以政策法规为手段保障国内共享活动的顺利开展。本文以科技数据委员会CODATA、经济合作与发展组织OECD和最早提出“完全与开放”共享国策的美国政府为上述两方面的代表,阐述国际组织和国家政府在促进科学数据共享活动方面采取的有效措施。

2 CODATA和OECD的科学数据共享原则及特点

2.1 CODATA和OECD的科学数据共享原则

2.1.1 CODATA《网络时代的科学原则》 CODATA是国际科学理事会ICSU的下属机构,与ICSU的另一下属机构世界数据中心WDC同是国际研究科学数据管理和应用的专门机构。为了支持对研究和教育数据的“完全与开放”获取,CO-DATA在2000年制定了《网络时代的科学原则》,提出6条原则:①科学是一项符合公众利益的投资;②科学进步依靠全面和公开地获取数据;③市场模型不适用于研究和教育数据的获取;④数据的是科学研究和知识传播的基础;⑤数据所有者的利益必须平衡社会对开放交换的需求;⑥立法者要考虑知识产权法可能对研究和教育产生的影响。

2.1.2 OECD《公共资金资助的研究数据获取原则与指南》 经济合作与发展组织,简称经合组织(OECD),是由30个市场经济国家组成的政府间国际经济组织,旨在共同应对全球化带来的经济、社会和政府治理等方面的挑战,把握全球化带来的机遇。为了指导成员国制定、完善科学数据共享政策,OECD于2006年颁布了《公共资金资助的研究数据获取原则与指南》(以下简称《原则与指南》)。该《原则与指南》要求成员国将13条原则用在制定国家科学数据共享的法律和政策中,以指导公共领域的科学数据共享活动:①开放性。以不高于分发传播费用的成本平等地获取科学数据,形成简单、及时、用户友好、基于网络的开放环境。②灵活性。成员国共享机制需要适应IT技术快速和不可预测的变化、学科领域的不同特点、研究系统的多样性、成员国法律体系和文化的不同。③透明性。最好通过因特网的形式,主动提供数据描述信息和数据生产机构的相关信息。④法律一致性。不违背已有国家安全、隐私和机密、贸易秘密、知识产权、稀有物种保护等法律。⑤保护知识产权。考虑版权和其他知识产权法律的适用性,协调公共和私人的利益关系。⑥正式性。成员国要制定明确、正式化的政策法规促进对数据的获取。⑦专业性。关注国际数据标准。⑧协作性。技术、标准方面的跨机构和国家层面的合作。⑨保证质量。采用好的共享机制、技术和设备来收集和保存数据。⑩安全性。采用技术或其他手段保证数据的完整和安全。⑩效率。通过避免数据收集的重复劳动来提高整个科学研究的效率。(12)评价。由用户、研究机构、基金组织等多方面来评价数据共享活动。(13)持续性。保障数据的长期获取。

2.2 CODATA和OECD的科学数据共享原则特点

CODATA和OECD制定的这两个原则既有各自关注的侧重点,又都体现了国际组织在开展科学数据共享方面的一些共同特点。

2.2.1 CODATA和OECD原则的侧重点 CODATA的共享原则简要概括了三方面的内容:科学数据共享的意义、共享方式和共享过程中亟待解决的问题。这6条原则是CODA-TA开展科学数据共享各项活动的基本准则,指导CODATA的技术、政策项目组开展共享活动。

OECD的共享原则是在分析科学数据产生、收集、存储、评价、传播等过程的基础上,总结影响科学数据共享的有利因素和不利因素而制定的,其目的是直接用于指导成员国制定科学数据共享政策法规。

2.2.2 CODATA和OECD原则的共同点

从原则的制定背景看,两个原则都围绕国家政府普遍关注的科学进步和科学效率问题,从国家利益、公共利益角度出发,应对因技术发展、科研方式变化产生的对数据的需求;

从共享内容和方式看,两个原则都针对公共领域的基础性、公益性科学数据,都鼓励采用低成本、无限制、平等的公有数据共享方式。这也是目前世界各国主要共享的数据和共享方式;

从共同关注的焦点看,两个原则都特别关注知识产权问题,都意识到科学数据应用与共享过程中必然产生利益均衡问题,需要通过法律手段予以解决;

从原则的制定目的和作用看,两个原则都是为了减少共享过程中的技术和法律障碍,屏蔽国家间法律、科学政策、组织机构的差异,以此为促进不同国家间的合作、构建国际共享平台、保证平台的长期运行提供支撑;

都以“准法(soft law)”形式发挥作用,国际组织共享原则不具有法律效力,它以“准法(soft law)”的形式反应了国际社会关于科学数据有效共享的共同理念,并为各国制定和发展本国国内共享政策法规提供了可借鉴的原则和规范。

2.3 国际共享原则的应用

2.3.1 协调科研团体、研究机构、国家间的交叉合作,提供各国交流平台 国际组织以共享原则为基础,通过国际会议、专家讨论、任务组、工作组、委员会或其他特定数据问题小组的方式组织相关学科的科研机构参与到国际性的共享活动中。这些活动促进了组织、机构、国家间的交叉合作,为各国科学数据工作者提供了一个国际性、多层次、跨学科的交流合作机会。WDC就是一个由40多个学科中心、四个数据中心群组成的国际数据中心。2005年由UNESCO,ICSU,OECD等组织共同资助提出“建立科学信息共有,面向机构政策和行动指南”的“全球科学信息共有先导计划”,激励

人们尝试新模式的创造、传播和科学数据的合作利用。国际合作形成一个共享全球化平台,各组织机构在需要之处建立合作、交流经验、制定数据开发指南并予以推广,以促进现有共享活动的进行并不断探索新的共享方式。

2.3.2 对发展中国家科学数据共享活动的推动 对科学数据无差别、无限制的获取与利用是科学数据共享的基本原则,但是“数字鸿沟”现象也存在于科学数据领域。近年来,中国、南非、印度等发展中国家积极参与国际共享活动,国际组织也专门针对发展中国家提供帮助,对发展中国家数据共享遇到的问题优先考虑。2002年CODATA针对发展中国家的数据开发和利用专门成立了“发展中国家数据保护与共享任务组”(The CODATA Task Group on Preservation of and Access to Sci-entific and Technical Data in Developing Countries),帮助解决发展中国家在科技数据的长期保存、归档管理和共享等活动中遇到的困难并为之提供必要的条件。2007年,UNESCO批准中国科学院等单位启动“促进发展中国家科学数据共享与应用全球联盟(UN e-SDDC)”计划(Global Alliance for Enhan-cing Access to and Application of Scientific Data in DevelopingCountries)。这项计划将由5项具体实施行动组成,分别是:组织智囊团网络、建设科学数据中心网、技术转让和技术援助网、在线培训网和应用示范网,通过全球参与网络建设、关注共同问题的方式达到共同发展的目的。

3 美国科学数据共享政策法规及特点

相比国际组织,国家政府部门能够通过有效的法律手段,将原则性要求转化为各组织机构必须遵守的政策法规,制定完善的法律法规来保障科学数据共享系统的正常运行。美国是开展科学数据共享工作比较早的国家,制定了多层面、多类型的与科学数据共享有关的法律法规,法治经验值得我们借鉴。

3.1 美国保障科学数据共享的相关政策法规

《信息自由法》和《版权法》是美国数据共享政策的法律基础。《信息自由法》规定联邦政府应该公开的数据和信息,《版权法》规定“版权保护条款下的版权保护,不适用于美国政府的作品”,这两大基本法律明确了公众对政府信息具有自由获取的权利。《全球变化研究数据管理政策声明》提出“联邦政府资助的科学数据,即公共性、基础性的国有数据,必须在没有歧视的基础上以不超过复制和发行成本的费用无限制地使用”,首次将“完全与开放”的数据共享政策作为国家科学数据共享的基本国策,把《信息自由法》的实践提高到了新的高度。《联邦政府信息管理条例》、《美国联邦政府资助的科研项目数据采集和递交的办法和程序》、《联邦政府资助并委托非赢利性机构科学研究所产生的数据管理条例》等政策明确国内各类科学数据生产者的权利与义务,协调科学数据共享过程中涉及的不同主体关系,加大了共享的深度。

在遵守国家共享机制、法律的前提下,针对不同行业数据的特点,美国还有研究机构、研究协会、基金会、行业和部门制定的具体行业数据共享政策和管理办法,作为对基本国策的补充和细化。如美国国立卫生研究院NIH根据《信息自由法》和《联邦政府资助并委托非赢利性机构科学研究所产生的数据管理条例》共享科研数据的要求,于2003年《数据共享声明》修订版,规定每年申请科研经费超过50万美元的项目,需要按规定共享科学数据。为了更好地执行此声明,NIH研究制定了《NIH数据共享政策和实施指南》、《数据共享常见问题问答》、《数据共享手册》以及非NIH机构的数据共享文档资料等若干指南,这些辅文件明确了汇交人的责任,对于帮助解决共享活动中遇到的个人隐私、数据安全、知识产权等问题有重要的指导意义。

3.2 美国科学数据共享政策法规特点

3.2.1 明确的“完全与开放”共享国策 美国采用“大循环”的共享模式,除了危及国家安全、影响政府政务和涉及个人隐私的数据和信息实行强制性保密措施外,其余的数据和信息均纳入共享范畴。美国的数据共享原则在“完全与开放”政策中得以体现,具有鲜明的国家特色。这一数据获取政策在许多政府和组织中得到采纳和应用,对世界范围内的科学数据共享活动产生了广泛的影响。

3.2.2 完善的政策法规体系 美国具有良好的信息公开传统,政府也非常重视数据共享的立法工作,已经制定了自上而下、内容具体而广泛的政策法规体系。既有国家层面的宏观指导性政策,又有微观层面的具体方针指南,不仅涉及多种科学数据的类型和来源,而且涉及科学技术、政策、管理等多方面内容,通过制定不同层次的法律法规,全面整合美国的科学数据管理体制,使得各类科学数据最终汇集到国家规划中的科学数据中心,提供统一的存储、管理和运行服务。

4 促进我国科学数据共享工程建设的策略

我国2002年正式启动“科学数据共享工程”,初步构建了由主体数据库、科学数据中心或科学数据网、门户网站所构成的三级结构的数据管理与共享服务体系,先后在资源环境、农业、人口与健康、基础与前沿、工程技术、区域综合六大领域24个部门开展了科学数据共享工作,研究制定了《国家科技计划项目科学数据汇交办法(试行)》、《地震科学数据共享管理办法》等政策法规。总体来说,工程的开展增强了人们对数据共享的重视,建成了相关领域的共享服务中心,取得了第一阶段的建设成果。但是,目前我国共享体制尚不完善,仍然缺少明确的共享机制,在资金的长期投入、数据质量保证、人才培养等方面都存在不足。为了形成“结构合理、面向全社会的、网络化、智能化”的科学数据管理与共享服务体系,笔者认为我国共享工程的建设应该借鉴国际组织和美国政府的共享策略,明确共享机制,制定完善的共享政策法规保障体系,以此促进共享工作长期、稳定地开展。

4.1 遵守国际共享原则,借鉴国际共享经验

国际共享原则是对现有研究成果的总结和对未来活动的指引,其在推动世界各国对科学数据的无差别无限制获取和利用方面发挥了巨大的作用,共享经验值得各个国家学习和借鉴。在这种背景下,我国的共享工程必须充分吸收并借鉴国际共享活动顺利开展的机制和管理方式,遵守国际共享活动的普遍原则。借鉴CODATA和OECD致力于公益性、基础性科学数据的低成本、无限制、平等获取的共享理念,应对共享中的数据质量、安全、资金投入和法律等问题。

4.2 积极参与国际活动

我国应该积极参与国际活动,创造有利于国内科学数据共享发展的条件,做到既是国际共享成果的利用者,也是全球共享活动的领导者。参与国际数据交换有利于我国利用国际资源,减少国内建设的负担;参与元数据的国际标准、技术规范的制定,能够维护我国在数据交换、开发和利用等活动中的利益。因此,积极参与并领导国际活动,能够从我国利益出发,把握国际共享趋势,填补数字鸿沟,缩小与发达国家之间的数字差距。

科学计数法的规则篇8

关键词: 人工免疫;入侵检测系统;k平均聚类算法;模糊逻辑理论

中图分类号:TP 182

文献标志码:A文章编号:1672-8513(2012)02-0141-04

Improved Generation Algorithm for the Detector Based on the Artificial Immune Theory

JIANG Yiting

(School of Information, Yunnan Normal University, Kunming 650031, China)

Abstract: The paper studied the generative mechanism of immune detectors. The rules obtained from k-means clustering algorithm are used to produce the immature detector. It proposed the method for activating the mature detector, which improved the memory detector according to the fuzzy logic theory. It improved the traditional algorithm of randomly generating immune detector in the intrusion detection system based on artificial immune. Experiments showed that this method could improve the detection performance of the detectors, a confirmation of the effectiveness of the algorithm.

Key words: artificial immune; intrusion detection system; k-means clustering algorithm; fuzzy logic theory

网络安全本身是一个模糊的概念,把模糊逻辑引入网络安全中可以平滑攻击行为和正常行为的边界,避免尖锐边界问题,同时也可以在证据不充分的情况下能够更快速、正确地判断入侵事件.关联规则就是满足支持度和置信度最小阈值的规则[1],本文研究了在入侵检测系统中引入模糊理论的概念,通过k聚类算法对生成未成熟检测器的算法进行改进,然后定义模糊集合及模糊关联规则,来完成未成熟检测器的自体耐受[2],成熟检测器向记忆检测器的进化过程.最后根据检测器的隶属度大小进行排序,选择出较好的记忆检测器集合.

1 基于k平均聚类方法的未成熟检测器生成算法

1.1 人工免疫算法简述

人工免疫算法是在生物免疫系统的克隆选择原理基础上发展出的免疫聚类算法,通过对训练样本的学习,系统自动产生记忆抗体集合,而这些记忆抗体能准确反映样本在入侵检测中非自体的特征.

在传统的基于人工免疫的入侵检测系统中,未成熟检测器是随机生成的,对于问题的解决(入侵的检测)没有预见性,且其通过免疫耐受成为成熟检测器乃至最终成为记忆检测器的概率较低,将影响到入侵检测系统的整体性能.因此,本文采用标准k平均聚类方法[3]生成未成熟的自体检测器与非自体检测器,两者相互协同工作生成成熟检测器.

1.2 未成熟检测器的规则属性

本文采用KDDCup99数据集,由于该数据集中共有41维属性,在保持知识库的分类或决策能力不变的情况下,删除不必要的属性,从而达到简化.对KDDCup99数据库的属性选取结果,可以得到构成规则的以下属性:duration, protocol_type,service, src_bytes,dst_bytes,count,srv_count,dst_host_count,dst_host_srv_count.根据属性类型分类,分为条件属性和决策属性,而条件属性是由基于粗糙集的属性选取的思想[4]选择出来的.

未成熟检测器分为自体检测器和非自体检测器,它们都是以规则集合的形式来表征,其中,自体检测器用自体规则集合来表示,自体规则由不同的基因片段组成;非自体检测器为非自体规则集合来表示,非自体规则的组成形式与自体规则相同.规则的属性结构如表1所示.

1.3 对连续属性的聚类过程

本文对7个具有连续值的属性进行聚类,以找出其分布规律.

依据模糊控制的一般原则[5],将聚类类别分为7类,即负大NB、负中NM、负小NS、中Z、正小PS、正中PM、正大PB;计算每条数据与这些聚类中心的距离;选取与其距离最短的聚类中心所在的类,并计算该类元素的平均值作为该类的中心;记录由聚类得到聚类新一代的所有中心,并将本次聚类得到的所有中心与前一代进行比较,若发生变化,则将本代聚类中心作为初始聚类中心,若本代聚类中心与前一代不发生变化,则收敛,并得到连续属性Gi最终的聚类中心和聚类半径.根据聚类中心和聚类半径计算每一个属性的每一类的聚类范围,即需要计算每个连续属性相应类中相距最远的2个点之间的距离.

2 基于模糊逻辑理论的检测器进化方法

2.1 隶属度函数的确定

前面针对不同的属性进行k平均聚类算法,根据上面的结果得到的7个聚类中心及其聚类范围,本文将定义语言变量为很少、少、较少、中等、较多、多、很多,然后根据属性意义及区域划分制定相应的隶属度函数[6].

举例说明制定隶属度函数的过程:

对于属性dst_host_srv_count;

1) 初始化属性dst_host_srv_count可取得的最小值为0;

2) 以dst_host_srv_count分类的聚类范围和聚类中心确定隶属度函数;

聚类的结果如图2所示.

2.2 隶属函数离散化

因为在之后的匹配计算中,隶属函数是连续函数,所以必须将其离散化[7].下面将以dst_host_srv_count为例描述离散化过程:

1) 对于基因片段dst_host_srv_count,根据上面的步骤得到它的取值划分范围:NB(0,23),NM(21,47),NS(45,74),Z(71,102),PS(98,144),PM(140,196),PB(191,252)

2) 初始化向量片段,dst_host_srv_count可取的范围是(0,252);

3) 约定离散为3类,并分别计算出每一段的区间为(0,84),(85,169),(170,252);

4) 根据隶属度函数计算离散化的结果,将每个区间中点值的隶属度函数作为代表值.

离散化后的结果为: 0.442+0.92127+0.23212.

2.3 输入向量离散化

本文采用的是三角形隶属函数,然后进行单点模糊化[8].设x为数据域范围内的等分值区间的均值,用于代表区域,f(x)是该点的隶属度函数.在计算过程中,采用单点模糊的方法,在检测数据时,对于数据输入,首先判断该数据落在哪一个区域内,然后取该区域内的数据离散值,其他取0,进行匹配计算将连续属性进行离散化,例如本文对一个数据域范围均分成10份,然后离散化为这样的形式:

[JP3]f(x1)x1+f(x2)x2+f(x3)x3+f(x4)x4+f(x5)x5+f(x6)x6+f(x7)x7+f(x8)x8+f(x9)x9+f(x10)x10 .[JP]

2.4 成熟检测器和记忆检测器的进化过程

在入侵检测系统中,检测器是由未成熟检测器进化到成熟检测器,再由成熟检测器进化到记忆检测器[9],具体的进化过程如下描述.

1) 首先将决策属性进行离散化,决策属性有2个:normal和unnormal,则本文将这2个决策属性进行离散化.当为normal时,可以表示为1x1+0x2;同理,当为unnormal时,可以表示为1x1+0x2.

2) 在测试数据集中,对于离散属性,例如对于protocol_type,有这样几个取值TCP、UDP、ICMP,如果输入数据该属性protocol_type=TCP,则该属性输入值可以表示为:1x1+0x2+0x3(其中x1代表TCP,x2代表UDP,x3代表ICMP).

3) 用KDDCup99(10%)中的所有数据,分别对所有的自体检测器集与非自体检测器按照下列公式进行计算:

(A′*B′)o(A*BS)S=[A′o(AS)]∩[B′o(BS)]=αβ,

(A′*B′)o(A*BN)N=[A′o(AN)]∩[B′o(BN)]=αβ,

其中,A*BN为检测器规则,A′*B′为输入数据,则需要输入数据与每一条规则分别进行计算.

4) 如果输入的数据是自体,且α>β,则说明得到的结果是normal,本次检测成功.

5) 同理如果输入数据是非自体,且α

6) 对于测试集中的每一条数据分别要与所有的未成熟自体检测器和非自体检测器进行计算.例如,选取一条自体数据记录,与所有的未成熟自体检测器进行检测计算,如果检测成功,则选取max{α}的检测器进化为成熟的自体检测器;同理,选取一条非自体数据记录,与所有的未成熟非自体检测器进行检测计算,如果检测成功,则选取max{β}的检测器进化为成熟的非自体检测器.同理,适应性最低的检测器,即min{α}和min{β}则删除.

7) 成熟检测器进化为记忆检测器的过程与上述的未成熟检测器进化为成熟检测器的过程相似,只是在测试集的选取上有所不同.成熟检测器进化为记忆检测器,要在整个KDDCup99中选取测试数据,而不只是在KDDCup99(10%)中选取.

3 结果分析

1) 首先得到聚类中心[10]和半径,然后确定聚类范围,已得到相应的规则.以duration为例,得到的聚类结果如表2所示.

同样根据相同的方法制定出每一个属性的相关语言变量,然后根据计算可以得到这样的规则:if duration=NB and protocol_type=Tcp and service=http and src_bytes=NB and dst_bytes=NB and count=NB and srv_count=NB and dst_host_count=NB and dst_host_srv_count=NB then label=normal.

根据数据集,本文共得到非自体规则即入侵规则322条,自体规则1284条.

4 结语

入侵检测系统是当前防范网络攻击,保护计算机安全的重要组成部分,免疫系统与入侵检测系统具有本质的相似性,将人工免疫系统的原理、机制与相关的规则应用于入侵检测系统研究中,构建基于人工免疫原理的入侵检测系统,是近几年入侵检测领域研究的热点,具有广阔的发展前景.下一步准备将人工免疫技术与神经网络、遗传算法相结合,综合各种算法的优点,以期取得更好的检测结果.

参考文献:

[1]张雅芬,王新. 一种挖掘负关联规则的有效方法[J].云南民族大学学报:自然科学版,2011,(204):301-304.

[2]赵林惠,戴亚平,徐立新.免疫学原理在入侵检测中的应用研究[J].计算机应用,2005(8):1726-1729.

[3]王本年,高阳.面向Option的k-聚类Subgoal发现算法[J].计算机研究与发展,2006(5):214-219.

[4]郭博,杨利峰.基于粗糙集的决策表属性重要性研究[J].科技信息,2009(5):56-62.

[5]GONZALEZ F, DASGUPTA D,KOZMA bining negative selection and classification techniques for anomaly detection[C]//Congress on Evolutiouary Compntation(CEC).Hawaii,2007:261-272.

[6]毕翔,韩江洪.基于多特征相似性融合的隶属度函数研究[J].电子测量与仪器学报,2011(10):107-115.

[7]邓小娟.基于粗糙集的属性约简算法研究[D].成都:西南交通大学,2009.

[8]姚国祥,官全龙,冯伟伦.基于人工免疫的入侵检测系统的研究[J].中山大学学报:自然科学版,2008,47(6):82-86.

[9]周豫苹,郑荔平.基于免疫接种的多分布式入侵检测技术研究[J].云南师范大学学报:自然科学版,2011,31(2):48-51.

[10]陈洪华.粗糙集理论中的属性约简方法研究[D].成都:西华大学,2008.

(上接第140页)

参考文献:

[1]AGRAWAL R, IMIELINSKI T, WAMI A S. Mining association rules between sets of items in large databases[C]//Proceedings of the ACM SIGMOD Conference on Management of Data. Washington, 1993(05): 207-216.

[2]AGRAWAL R, SRIKANT R. Fast algorithms for mining association rules[C]//Proceeding of the 20th VLDB Conference. Santiago: Morgan Kaufmann, 1994:87-499.

[3]范明译.数据挖掘:概念与技术[M].北京:机械工业出版社,2003.

[4]TAN Pangning, STEINBACH M, KUMAR V. 数据挖掘导论[M].范明,范宏建,译.北京:人民邮电出版社,2006.

[5]HAN Jiawei, PEI Jian, YIN Yiwen. Mining frequent patterns without candidate generation [C] //Proceedings of ACM SIGMOD the 2000 International Conference on Management of Data. New York: ACM, 2000:1-12.

[6]汪际和,陈平,王新.一种基于信息表的关联规则挖掘方法[J].云南民族大学学报:自然科学版,2010,19(6):432-434.

[7]殷剑宏,吴开亚.图论及其算法[M].合肥:中国科学技术大学出版社,2003.

[8]孙惠泉.图论及其应用[M].北京:科学出版社,2004.

科学计数法的规则篇9

本书共7章:1.命题逻辑:从公理和推理规则的证明。通过生活中的一个逻辑实例引入本节重点,依次介绍了纯命题演算、基于微积分的证明示例、纯正蕴涵命题演算、布尔逻辑等相关内容;2.一阶逻辑:量词的证明:包括一阶纯谓词演算与证明方法、平等谓词的相关介绍;3.集合论:脱离、对位和矛盾的论证:包括集合与子集的相关概念、并集与交集、笛卡尔积、函数与反函数、等价与序关系等相关基本知识;4.数学归纳:归纳法的定义和证明:包括整数、无理数、有限/无限基数的储备知识介绍,数学归纳法的引入与证明;5.形成集:通过超限归纳法证明已经有序集。包括超限的方法、超限集和序数及相关规律的介绍;6.选择公理:用超限归纳法证明。通过最优排序准则、集合的交叉与合并、策梅洛原则及其他相关公理证明选择性公理;7.应用:集合、功能和关系在诺贝尔奖获奖(Nobel-Prize Winning)中的应用的。引入了博弈论、匹配度及箭头的不可能性定理,解释诺贝尔奖运作过程的具体原理。

作者Yves Nievergelt是华盛顿大学数学系教授,曾于华盛顿大学获得数学硕士和博士学位,主要研究兴趣包括应用分析(数学应用于化学、医学诊断成像、物理),复杂分析、数值分析(科学规划数学)等。

本书包含大量的文献资料及相关文档的历史,主要包括逻辑、证明、集和数字理论,在理论方面逻辑严谨,内容详实,实例方面极具吸引力,可以作为一个独立的学习参考资源。本书适合数学,逻辑和计算机科学以及社会科学领域的本科二年级以上学生、感兴趣者或研究人员阅读。

科学计数法的规则篇10

“计算”是一个无人不知无人不晓的数学概念。无论是人们的日常生活,还是平常的生产实践和科学研究,都离不开计算。同时,“计算”也是一个历史悠久的数学概念,它几乎是伴随着人类文明的起源和发展而起源和发展的。但是,真正能够回答计算的本质是什么的人恐怕不会太多。应该说,在20世纪30年代以前,还没有人能够说得清计算的本质是什么,以及什么是可计算、什么是不可计算的等问题。30年代中,由于哥德尔、丘奇、图灵等数学家的工作,人们终于弄清楚了计算的本质,以及什么是可计算的和什么是不可计算的等根本性问题。由此也就形成了一个专门的数学分支——递归论或可计算性理论。在此我们就是以这一理论为背景,概括出计算的本质,并阐明其他一些根本性问题。

计算首先指的就是数的加减乘除,其次则为函数的微分、积分、方程的求解等等;另外还包括定理的证明推导。抽象地说,所谓计算就是从一个符号串f变换成另一个符号串g。比如说从符号串12+3变换成15,这就是一个加法计算。如果符号串f是xx,而符号串g是2x,从f到g的计算就是微分。定理证明也如此,令f表示一组公理和推导规则,令g是一个定理,那么从f到g的一系列变换就是定理g的证明。从这个角度看,文字翻译也是计算,如f代表一个英文句子(由英文字母及标点符号组成的符号串),而g为含义相同的中文句子,那么从f到g就是把英文翻译成中文。这些变换间有什么共同点?为什么把它们都叫做计算?

为了回答究竟什么是计算、什么是可计算性等问题,人们采取的是建立计算模型的方法。从30年代到40年代,数理逻辑学家相继提出了四种模型,它们是递归函数、λ演算、图灵机和波斯特系统。这种种模型各不相同,表面上看区别很大,它们完全是从不同的角度探究计算过程或证明过程的。但事实上,这几种模型却是等价的,即它们完全具有一样的计算能力。在这一事实基础上,最终形成了如今著名的丘奇—图灵论点:凡是可计算的函数都是一般递归函数(或都是图灵机可计算的,或都是λ演算可计算的,或都是波斯特系统可计算的)。这就确立了计算与可计算性的数学含义。这一表述过于抽象,下面我们给出一个比较直观的说法:所谓计算,就是从已知符号串开始,一步一步地改变符号串,经过有限步骤,最后得到一个满足预先规定的符号串的变换过程。现已证明:凡是可以从某些初始符号串开始而在有限步骤内计算的函数与一般递归函数是等价的。这就是说,所有可计算的函数都是通过符号串的变换来实现其计算过程的,即计算就是符号(串)的变换。(1)

与计算具有同等地位和意义的基本概念是算法。从算法的角度讲,一个问题是不是可计算的,与该问题是不是具有一个相应的算法是完全一致的。一般而言,算法就是求解某类问题的通用法则或方法。也就是一系列计算规则或程序,即符号串变换的规则。

正是这样一个原本只是数学中的基本概念,如今却成为各门科学研究的一种基本视角、观念和方法,上升为一种具有世界观和方法论特征的哲学范畴。

我们认为,人类最早把计算作为一种哲学性观念和方法而不仅是一种数学观念和方法,并自觉运用到有关领域的研究中,是一些人工智能的专家们做出的,尤其是在后来的认知科学研究中很明显地表现出这一倾向。由于纽威尔、西蒙、福多、明斯基等一大批学者的努力,物理符号系统假说、心灵的表达计算理论,心脑层次假说等相继提出。这些理论的一个共同主题就是:思维就是计算(认知就是计算)。他们明确主张:思维是一种信息加工过程,亦即计算过程,这种计算就是指某种符号操作或加工,指在能对其提供语义解释的符号代码的形式表达式上所进行的受规则制约的变换,如问题求解这种思维活动就是通过一定的算法对初始态空间进行操作,直达到目标态空间。有人更进一步主张:心灵有一套程序或一组规则,类似于控制计算机的程序,思维是一种包括对单词在内的符号的操作。(2)

除了思维、认知可看作是一种计算,一些研究视觉认知理论的学者把视觉也看作是一种计算。这主要是来自马尔的《视觉计算理论》。这一理论认为,在计算理论层次上,视觉信息处理过程由三种内部表象表征:描述图像光强度与局部几何结构的要素图;描述以观察者为中心的物体可见表面的朝向、轮廓线、深度及其他性质的二维半图;识别和理解物体的三维表象。这个理论把视觉过程理解为功能模块(像元空间、图像空间、景物空间)的变换。这意味着视觉计算的基本单位是符号表象。3在此基础之上,后来人们又提出了视觉拓扑计算理论等各种视觉计算理论。其共同点是均认为视觉过程就是一种计算过程,但是对它是一种什么样的计算还存有较大分歧。

在对认识、思维、视觉等内容进行计算主义研究的同时,人们确立了大脑就是一台计算机的信念:大脑的生物结构是其硬件,大脑的运作规律是其软件,大脑的(广义)思维过程就是其计算过程。20多年前的“计算机能否思维”的问题已经演化为当今的“人脑是否计算”的问题。更重要的是,“思维就是计算”这已不仅仅是一个哲学性的命题,而且已成为科学方法论意义上的一个科学假设。人们早已从科学意义上探究思维的计算本质,计算已成为当前认知科学中占主导地位的一种基础观念和研究方法,人们试图从计算的角度揭示出思维、意识以及整个大脑的全部奥秘。

把计算作为哲学性观念和方法运用到具体学科研究中的另一个范例是与生命科学相关的一些研究。这主要体现在20世纪80年代以来,人工生命科学、遗传算法理论和DNA计算机等新型学科的相继涌现。这些学科或理论的共同之处就在于都是以计算作为自己研究的观念和方法,主张生命就是一种算法,一个程序,一个能够实现自我复制、自我构造和自我进化的算法。人工生命的基本信条是:生命的特征并不存在于单个物质之中,而存在于物质的组合之中。生命的规律是一种动力形式的规律,这种规律独立于45亿年前地球上形成的任何特定的碳化物细节之外。即生物体的“生命力”存在于分子的组织(软件)之中,而不是存在于分子本身。人工生命就在于用计算或算法的观念与方法探索生物学领域中的奥秘。把生命与计算机类比,似乎是19世纪机械论在当今的延续,看起来有背于时展的潮流。但人工生命的奠基者朗顿认为,答案就在于进一步的伟大洞见之中:生命系统这台计算机具有与通常意义上的机器全然不同的组织形式,有生命的系统几乎总是自下而上的,从大量及其简单的系统群中突现出来,而不是工程师自上而下设计的那种机器。朗顿强调说:“最为惊人的认识是:复杂的行为并非出自复杂的基本结构。确实,极为有趣的复杂行为是从极为简单的元素中突现出来的”。4这就是说,生命包含着某种能够超越纯物质的能力,不是因为有生命的系统里被某种物理和化学之外的一种生命本质所驱动,而是因为一群遵循简单的互动规则的简单物体能够产生永远令人吃惊的行为效果。生命就是这样一种生化机器,只要启动这台机器,而不是把生命注入这台机器,即将这台机器的各个部分组织起来,让它们产生互动,从而便具有了“生命”。生命就是这样一种算法。算法对于生命的意义,就在于以过程或程序描述代替对生物的状态或结构描述,将生命表达为一种算法的逻辑,把对生命的研究转换成对算法的研究,特别是把对真实生命的研究转换成对人工生命的研究。 1994年11月美国科学家阿德勒曼在《科学》上公布的DNA计算机理论,更是从另一个角度揭示了生命就是算法,进化就是计算的观念。5DNA是生命的基石,任何生命类型的所有特征都以严格的规则编码在其DNA序列上,不管是生命的结构,还是生命的过程,在这个意义上它是一个信息库或数据库。另外,DNA所有的行为都是以程序化、模块化的形式表现,在这个意义上它又是一个程序库。无论它是作为信息库还是程序库,DNA都具有基本的计算特征。而生物体中所有现象的基本形式都是DNA的复制、切割、粘贴,这一事实深刻表明,生命本身就是由一系列复杂的计算或算法组成的。生命系统就是一台以分子算法为组织法则的多层次生物计算机,DNA计算机就是对生命这种自然计算机的一种表征。从前,分子算法,如自复制自动机、胞格自动机、遗传算法、人工生命等全都是在电子计算机上实现的,DNA计算机概念的出现是分子算法的化学实现的开端。这种立足于可控的生物化学反应或反应系统,无疑更加有力地直接地表明了生物现象与过程的计算特征。正如有人所言:DNA计算宣称数学处于生命的核心。

运用计算、算法观念和方法研究认知问题和生命系统,有着深刻而普适的科学方法论意义,它们是人们运用算法观念和方法研究其他自然现象或自然系统的两个有益的重要范例。如今,计算或算法的观念与方法已经深入到宇宙学、物理学、化学乃至经济学、社会学等诸多领域。计算、算法已经成为人们认识事物、研究问题的一种基本的普适的观念和方法,人们的科学实践,已经使计算、算法上升到哲学性的观念和方法。在这一现实背景之下,我们以为,把计算、算法作为一种哲学范畴正式提出并引入哲学已是十分必要的。这不仅是因为已经有了一些成功的范例,而且还有着更深层的学理:生命、大脑是最复杂的自然现象之一,是自然界进化的最高代表。因此,我们完全有理由猜测:整个自然界也是按算法构成的,是按算法演化的。现实世界之万事万物只不过是算法的复杂程度的多样性。从虚无到存在、从非生命到生命、从感觉到意识、思维,或许整个世界的进化过程就是一个计算复杂性不断增长的过程。这就是说,自然界就是一台巨型计算机(硬件),任何一种自然过程都是自然规律(软件)作用于一定条件下的物理或信息过程(计算过程),其本质上都体现了一种严格的计算和算法特征。生命系统作为自然界中最复杂最有特色的系统,它也就是形形色色的自然计算机中的一种。这或许就是人工生命与DNA计算理论所蕴含的最重要的哲学道理。

把计算、算法作为一个哲学范畴,还有着哲学史上的渊源关系。也许人们还没有忘记,在2500多年前,一位名叫毕达哥拉斯的古希腊人曾向世人宣称:万物皆数。今天,我们何以不能说:万物皆算法。严格地说,当年毕达哥拉斯率先提出的“数”这个重要范畴,并不是一个纯粹哲学性范畴,而是一个从数的角度寻求世界万物之本原,考察事物生成演化过程,由自然科学思维方式与哲学思维方式相互融合的过渡性范畴。这种观念在近代和现代科学与哲学中得到了充分的继承和发扬。这说明,哲学范畴在其生成、演化和发展的过程之中,总要受到各个历史时期数学发展程度、数学思维方式的影响和规定。这或许可以称为哲学范畴的数学规定,正因为如此,当今计算机科学的发展,使得我们完全可以把毕达哥拉斯的“数”向前推一大步。毕达哥拉斯哲学在当代有了更深刻更丰富的内含。

最后我们要指出的是,已经泛化到整个科学领域中的计算、算法这个概念,完全具有哲学范畴的基本特征。众所周知,哲学范畴是反映事物本质属性和普遍联系的基本概念,人类理性思维的逻辑形式。它是人类在一定历史时论思维发展水平的标示器,是帮助人们认识和把握自然现象和社会现象之网的网上扭结;是对自然、社会和思维发展过程最本质、最普遍的联系的表征。哲学范畴对各门具体科学都具有普适的哲学方法论意义。如今,人们在各方面都开始用算法的观念来看待问题、用计算的方法来解决问题,不正表明计算与算法的一种范畴性吗?历史上每次重大的科技进步,都要改变当时的哲学范畴,有时甚至是直接把科学中的基本概念移植到哲学中。当今计算机科技对哲学的影响也不例外。这正是有人所说的哲学范畴的科技命运。因此,及时总结和概括当代科技成果,把最为精华的人类理念上升为一种哲学范畴,不仅是哲学范畴自身发展之所需,更是各门科学文化进一步发展所必须。只有渗透着时代最主要、最有效的观念和方法的科学与文化,才能真正体现时代之精神,成为时代之主流。

参考文献

(1) 莫绍揆.递归论.科学出版社,1987年。

(2) 邱仁宗.当代思维研究新论.中国社会科学出版社,1993年。

(3) (美)D.马尔.视觉计算理论.科学出版社,1988年。