非结构化范文10篇

时间:2023-04-03 04:27:00

非结构化

非结构化范文篇1

世界范围的WWW正以目前每9个月增加一倍的速度飞速发展,并还将以指数速度继续增加。而另一方面,在从Web或数据仓库中找到你所需要的内容却并非进展迅速,虽然检索到相关结果的速度正以兆兆字节甚至十倍于此的速度增加。据2004年5月NielsenNormanGroup的2004Web可用性调查结果显示,所有用户(包括偶尔使用或经验丰富的用户)对搜索结果满意的次数百分比仅为42%,经验丰富的用户这一数字可以达到50%[1]。最糟糕的搜索经历常发生在使用企业网站点搜索而不是使用巨型搜索引擎的时候。另据ForresterResearch的统计表明,非结构化信息的数量正在以每年200%的速度增长。一般员工大约要花费35%的时间寻找工作所需的非结构化信息[2]。由此可见,搜索引擎必须采取措施使自己变得更为聪明,同时能更准确全面的为大多数用户带来令人满意的搜索结果。我们需要有一个工具,能同管理结构化信息一样,有效地管理我们的非结构化信息。

2有望终结传统搜索模式的Autonomy的“样板工程”Blinkx英德中文版已经推出

2004年7月,位于美国旧金山的创业公司Blinkx推出了一种新型搜索工具Blinkx,该工具可以提供类似“模糊搜索”或“语义搜索”的功能。也就是说,当用户提出类似“搜索引擎未来发展趋势如何”这样的搜索需求时,搜索引擎能够给出相关内容的搜索列表,而不会像传统搜索工具那样只是机械的给出包含“搜索”、“引擎”、“未来”、“发展”、“趋势”等词汇但却远离该主题的文章。Blinkx不仅可以搜索文本内容,还可以搜索电影电视等多媒体内容,不仅可以搜索互联网内容,还可以搜索本机和局域网上的内容。Blinkx同时还可以搜索不同的文本格式内容,如Text、Word、Excel、PPT、PDF以及各种数据库中的数据格式。有媒体把这种搜索方式称为“智能搜索”,这样的搜索引擎一直以来都是人们的梦想,或许Autonomy就是下一代搜索引擎的开端也未可知。当然Autonomy并不只局限于桌面搜索这个狭窄的领域,它不只是代表一系列产品,也不只是一家公司的名字,最主要的是它代表着一种搜索理念和技术[3]。一旦它成功,桌面搜索的格局自然也会跟着发生翻天覆地的变化。

如果安装了Blinkx的客户端软件,一个小的菜单窗口就会出现在Word、Outlook等几乎所有文档处理窗口的右上方。用户在这些窗口中处理文档时,系统会自动分析这个文档,然后自动从本机或网络上抓取相关文章或链接,以供用户参考。它还可以及时提供与文章内容相关的新闻、产品信息、视频内容等分类信息。简单地说,用户完全可以拿一篇文章来作为“查询关键词”,Blinkx通过对这篇文章进行分析,会给出与这篇文章内容最接近的网络链接或本机文档[4]。这无疑给需要处理大量数据的个人和企业提供了巨大便利。

2005年元旦刚过Blinkx进入中国市场,其中文测试版已经“竣工”。目前已经在国内某数据中心建立了一个试验平台,大约有30多台服务器正在运行着Blinkx的后台系统[5]。

Autonomy公司是Blinkx公司的股东之一,Blinkx的核心技术也来自Autonomy,因为这种密切关系,Blinkx被认为是Autonomy的“样板工程”。此前,Autonomy一直像汽车发动机一样隐藏在幕后。

Autonomy虽然在公众中的知名度不太大,但在商业应用领域中却名声显赫,并在政府、国防、新闻、金融、电信、教育等领域拥有大量中坚客户。而且,Autonomy还是一个“历史悠久”的IT公司,同时在美国和英国上市,拥有超过1.47亿美元的现金。

3Autonomy的模式识别技术,可以帮助用户发现一些事前不知道的相关信息

目前,人类研究的信息搜索技术有四个方向:关键字搜索,模式识别,语义分析,神经网络。除了关键词搜索比较成熟外,其他三项技术还处于待开发状态。模式识别的代表者就是Autonomy,语义分析和神经网络两个技术方向目前尚无压倒性的代表者,一年半载不会有突破性的研究成果。所以,模式识别就成了目前比较先进的信息搜索技术。

采用“模式识别”搜索方法,可通过判别相关识别度的高低来对数据进行检索,可以避免传统“关键词检索”造成的漏检情况的发生。比如一篇文章里如果有“大海”这个词,这篇文章有可能和企鹅有关,但是“大海”这个词用在很多不同的地方,有可能文章讲的是别的内容。但是如果一篇文章里有“大海”、“南极”、“黑色”、“白色”、“不会飞”、“羽毛”、“下蛋”、“石油”、“泄露”等这些词,这篇文章是在谈论污染和企鹅的概率就会很高。虽然整篇文章里没有“企鹅”这个词,但是很多相关度较低的词出现在一起就会带来很高的相关度,并且缺少某个描述词对其产生的结果影响微乎其微。

如果说传统的“关键字”搜索方法为“search”(搜索)的话,autonomy采用的“模式识别”方法则应该称为“discover”(发现),因为它可以让用户找到一些事前他们不知道的信息[6]。Autonomy产品中提供的“聚类”功能正是“从搜索到发现”的最佳表现。

目前,Autonomy在国外比较成功的应用案例集中在媒体、政府机构、金融和信息产业等需要集中处理大量非结构化数据的领域。2003年3月,Autonomy进入中国市场,目前主要集中在电信和政府市场。

Autonomy追求建立符合企业内部数据管理需求的平台,可将放在不同位置的不同类型的数据进行有效梳理。Autonomy曾经在美国安全局、美国国防部、美国航天局、英国警察署和美国陆军有过成功应用[7]。对于网络上出现的大量的有害信息,Autonomy可以做到事前发现,从而帮助政府机构采取及时地反应。例如,政府有关部门要打击网上非法买卖违禁药物,使用“摇头丸”、“兴奋剂”等关键词搜索出来的内容多数是关于药物危害、打击犯罪等方面的正面文章,而出现“兴奋”、“购买”、“单价”等关键词的文章,则与非法买卖违禁药物的相关度最高。通过这种非关键词搜索的“模式识别”搜索,政府监控部门可以有效打击日益猖獗的网上犯罪。所以政府机构和一些需要对信息进行监控的机构是该系统在中国的潜在市场。

4Autonomy的技术特点和优势分析

Autonomy软件设计的原则是无需用户改变已有的使用习惯,甚至无需改变已有的用户界面,它支持所有传统的检索和设置方式,包括关键词、逻辑语言、布尔语句等,同时提供给用户更多、更简洁的定义方法,如对所需信息的自然语言描述、文章概念的定义,还可以通过反馈的文章作为例子来训练个人聚焦和频道。此外,它能够通过自身软件架构的灵活性去适应已有的系统架构,嵌入到已有的应用中去,在用户熟悉的界面之下提供新的功能。Autonomy中最关键的部分就是它的动态推理引擎(DynamicReasoningEngine,简称DRE),其中信息的概念分析、内容提取、概念模式识别、相关度计算等关键工作都是由该动态推理引擎完成。当用户发出搜索指令后,它可以通过相关方法从互联网、企业内部网、终端计算机等不同位置的信息源中找到与用户要求最匹配的信息[8]。它的技术特点主要有如下几点:

4.1自动内容综合和精炼

Autonomy能操作的信息同样包括各种结构化、半结构化和非结构化数据,如RDBMS的表格、LotusNotes等结构化数据,以及HTML页面、Word文档、电子表格、电子邮件非结构化数据等。而且它可以综合及理解丰富的多媒体内容,包括音频、视频、图像文件等。综Autonomy能够自动综合来自200多种不同格式数据源的内容。所有综合后的文件如有任何改动都可以在Autonomy的基本结构和数据源之间保持同步。

4.2个性化操作

Autonomy的自动建档功能可以准确理解个人和企业用户的使用习惯和兴趣爱好,并能进行追踪。根据直接档案和隐含档案可以生成每个用户的多侧面概念型档案,它们可以自动追随用户当前的兴趣,而无需用户多次填写任何形式的表格。Autonomy自动的个性化解决方案可以将用户与有共同兴趣的档案或有间接关联的档案匹配起来。

4.3信息自动分类、聚类定义、索引

Autonomy独有的自动信息聚类避免了手工分类的麻烦,可以将相关网站信息进行全自动分类,能实时、客观地反映每个科学门类的信息变化,这与其他的模板式自动分类机制有着本质的区别[9]。

Autonomy的架构可以识别信息之间的主要关系,从而实现内容间的交叉索引对照,无论是什么文档,Autonomy都可以在操作层识别出与其相关联的资料。此外,Autonomy还可以对内容中最主要的概念进行总结,可以根据原始查询的上下文环境进行总结,并且将最适用的动态摘要提交给指定需求。最关键的是Autonomy的这一切工作都无需人工干预自动进行,对企业应用来说,这一点相当有吸引力。

4.4主动匹配和信息地图

像涉及安全方面的应用可能有非常广泛的信息搜索需求,从网站上最酷的新闻到刚刚播放的电视画面,都可能与安全问题相关。利用Autonomy的主动匹配功能,可以在用户日常工作中充分利用整个企业的信息系统为各个相关部门的相关人员提供有价值的信息。主动匹配可以将典型的文档或者以数字为中心的用户界面转变成以任务为导向的智能界面,也就是说它能自动识别用户当前的问题,并确定相关信息。

Autonomy还可以自动生成二维或三维的信息图,将某一时间段的所有信息通过形象的图像展现在用户面前,帮助用户准确、及时地把握世界各地的最新资讯。例如它的最新功能可以跟踪一系列的邮件信息,告知检测者每个邮件的流向和被转发目标。它还可以将连续的信息图生成信息走势图,观察出多个时间段的信息走势,从而用户能一眼看出某一个阶段内的信息发展趋势。这是任何其他搜索系统目前还无法提供的功能。

5企业非结构化信息搜索的商机,引得众多IT巨头纷纷加入搜索战团,处理非结构化信息的桌面搜索模式成为竞争焦点

非结构化范文篇2

世界范围的WWW正以目前每9个月增加一倍的速度飞速发展,并还将以指数速度继续增加。而另一方面,在从Web或数据仓库中找到你所需要的内容却并非进展迅速,虽然检索到相关结果的速度正以兆兆字节甚至十倍于此的速度增加。据2004年5月NielsenNormanGroup的2004Web可用性调查结果显示,所有用户(包括偶尔使用或经验丰富的用户)对搜索结果满意的次数百分比仅为42%,经验丰富的用户这一数字可以达到50%[1]。最糟糕的搜索经历常发生在使用企业网站点搜索而不是使用巨型搜索引擎的时候。另据ForresterResearch的统计表明,非结构化信息的数量正在以每年200%的速度增长。一般员工大约要花费35%的时间寻找工作所需的非结构化信息[2]。由此可见,搜索引擎必须采取措施使自己变得更为聪明,同时能更准确全面的为大多数用户带来令人满意的搜索结果。我们需要有一个工具,能同管理结构化信息一样,有效地管理我们的非结构化信息。

2有望终结传统搜索模式的Autonomy的“样板工程”Blinkx英德中文版已经推出

2004年7月,位于美国旧金山的创业公司Blinkx推出了一种新型搜索工具Blinkx,该工具可以提供类似“模糊搜索”或“语义搜索”的功能。也就是说,当用户提出类似“搜索引擎未来发展趋势如何”这样的搜索需求时,搜索引擎能够给出相关内容的搜索列表,而不会像传统搜索工具那样只是机械的给出包含“搜索”、“引擎”、“未来”、“发展”、“趋势”等词汇但却远离该主题的文章。Blinkx不仅可以搜索文本内容,还可以搜索电影电视等多媒体内容,不仅可以搜索互联网内容,还可以搜索本机和局域网上的内容。Blinkx同时还可以搜索不同的文本格式内容,如Text、Word、Excel、PPT、PDF以及各种数据库中的数据格式。有媒体把这种搜索方式称为“智能搜索”,这样的搜索引擎一直以来都是人们的梦想,或许Autonomy就是下一代搜索引擎的开端也未可知。当然Autonomy并不只局限于桌面搜索这个狭窄的领域,它不只是代表一系列产品,也不只是一家公司的名字,最主要的是它代表着一种搜索理念和技术[3]。一旦它成功,桌面搜索的格局自然也会跟着发生翻天覆地的变化。

如果安装了Blinkx的客户端软件,一个小的菜单窗口就会出现在Word、Outlook等几乎所有文档处理窗口的右上方。用户在这些窗口中处理文档时,系统会自动分析这个文档,然后自动从本机或网络上抓取相关文章或链接,以供用户参考。它还可以及时提供与文章内容相关的新闻、产品信息、视频内容等分类信息。简单地说,用户完全可以拿一篇文章来作为“查询关键词”,Blinkx通过对这篇文章进行分析,会给出与这篇文章内容最接近的网络链接或本机文档[4]。这无疑给需要处理大量数据的个人和企业提供了巨大便利。

2005年元旦刚过Blinkx进入中国市场,其中文测试版已经“竣工”。目前已经在国内某数据中心建立了一个试验平台,大约有30多台服务器正在运行着Blinkx的后台系统[5]。

Autonomy公司是Blinkx公司的股东之一,Blinkx的核心技术也来自Autonomy,因为这种密切关系,Blinkx被认为是Autonomy的“样板工程”。此前,Autonomy一直像汽车发动机一样隐藏在幕后。Autonomy虽然在公众中的知名度不太大,但在商业应用领域中却名声显赫,并在政府、国防、新闻、金融、电信、教育等领域拥有大量中坚客户。而且,Autonomy还是一个“历史悠久”的IT公司,同时在美国和英国上市,拥有超过1.47亿美元的现金。

3Autonomy的模式识别技术,可以帮助用户发现一些事前不知道的相关信息

目前,人类研究的信息搜索技术有四个方向:关键字搜索,模式识别,语义分析,神经网络。除了关键词搜索比较成熟外,其他三项技术还处于待开发状态。模式识别的代表者就是Autonomy,语义分析和神经网络两个技术方向目前尚无压倒性的代表者,一年半载不会有突破性的研究成果。所以,模式识别就成了目前比较先进的信息搜索技术。

采用“模式识别”搜索方法,可通过判别相关识别度的高低来对数据进行检索,可以避免传统“关键词检索”造成的漏检情况的发生。比如一篇文章里如果有“大海”这个词,这篇文章有可能和企鹅有关,但是“大海”这个词用在很多不同的地方,有可能文章讲的是别的内容。但是如果一篇文章里有“大海”、“南极”、“黑色”、“白色”、“不会飞”、“羽毛”、“下蛋”、“石油”、“泄露”等这些词,这篇文章是在谈论污染和企鹅的概率就会很高。虽然整篇文章里没有“企鹅”这个词,但是很多相关度较低的词出现在一起就会带来很高的相关度,并且缺少某个描述词对其产生的结果影响微乎其微。

如果说传统的“关键字”搜索方法为“search”(搜索)的话,autonomy采用的“模式识别”方法则应该称为“discover”(发现),因为它可以让用户找到一些事前他们不知道的信息[6]。Autonomy产品中提供的“聚类”功能正是“从搜索到发现”的最佳表现。

目前,Autonomy在国外比较成功的应用案例集中在媒体、政府机构、金融和信息产业等需要集中处理大量非结构化数据的领域。2003年3月,Autonomy进入中国市场,目前主要集中在电信和政府市场。Autonomy追求建立符合企业内部数据管理需求的平台,可将放在不同位置的不同类型的数据进行有效梳理。Autonomy曾经在美国安全局、美国国防部、

美国航天局、英国警察署和美国陆军有过成功应用[7]。对于网络上出现的大量的有害信息,Autonomy可以做到事前发现,从而帮助政府机构采取及时地反应。例如,政府有关部门要打击网上非法买卖违禁药物,使用“摇头丸”、“兴奋剂”等关键词搜索出来的内容多数是关于药物危害、打击犯罪等方面的正面文章,而出现“兴奋”、“购买”、“单价”等关键词的文章,则与非法买卖违禁药物的相关度最高。通过这种非关键词搜索的“模式识别”搜索,政府监控部门可以有效打击日益猖獗的网上犯罪。所以政府机构和一些需要对信息进行监控的机构是该系统在中国的潜在市场。4Autonomy的技术特点和优势分析

Autonomy软件设计的原则是无需用户改变已有的使用习惯,甚至无需改变已有的用户界面,它支持所有传统的检索和设置方式,包括关键词、逻辑语言、布尔语句等,同时提供给用户更多、更简洁的定义方法,如对所需信息的自然语言描述、文章概念的定义,还可以通过反馈的文章作为例子来训练个人聚焦和频道。此外,它能够通过自身软件架构的灵活性去适应已有的系统架构,嵌入到已有的应用中去,在用户熟悉的界面之下提供新的功能。Autonomy中最关键的部分就是它的动态推理引擎(DynamicReasoningEngine,简称DRE),其中信息的概念分析、内容提取、概念模式识别、相关度计算等关键工作都是由该动态推理引擎完成。当用户发出搜索指令后,它可以通过相关方法从互联网、企业内部网、终端计算机等不同位置的信息源中找到与用户要求最匹配的信息[8]。它的技术特点主要有如下几点:

4.1自动内容综合和精炼

Autonomy能操作的信息同样包括各种结构化、半结构化和非结构化数据,如RDBMS的表格、LotusNotes等结构化数据,以及HTML页面、Word文档、电子表格、电子邮件非结构化数据等。而且它可以综合及理解丰富的多媒体内容,包括音频、视频、图像文件等。综Autonomy能够自动综合来自200多种不同格式数据源的内容。所有综合后的文件如有任何改动都可以在Autonomy的基本结构和数据源之间保持同步。

4.2个性化操作

Autonomy的自动建档功能可以准确理解个人和企业用户的使用习惯和兴趣爱好,并能进行追踪。根据直接档案和隐含档案可以生成每个用户的多侧面概念型档案,它们可以自动追随用户当前的兴趣,而无需用户多次填写任何形式的表格。Autonomy自动的个性化解决方案可以将用户与有共同兴趣的档案或有间接关联的档案匹配起来。

4.3信息自动分类、聚类定义、索引

Autonomy独有的自动信息聚类避免了手工分类的麻烦,可以将相关网站信息进行全自动分类,能实时、客观地反映每个科学门类的信息变化,这与其他的模板式自动分类机制有着本质的区别[9]。Autonomy的架构可以识别信息之间的主要关系,从而实现内容间的交叉索引对照,无论是什么文档,Autonomy都可以在操作层识别出与其相关联的资料。此外,Autonomy还可以对内容中最主要的概念进行总结,可以根据原始查询的上下文环境进行总结,并且将最适用的动态摘要提交给指定需求。最关键的是Autonomy的这一切工作都无需人工干预自动进行,对企业应用来说,这一点相当有吸引力。

4.4主动匹配和信息地图

像涉及安全方面的应用可能有非常广泛的信息搜索需求,从网站上最酷的新闻到刚刚播放的电视画面,都可能与安全问题相关。利用Autonomy的主动匹配功能,可以在用户日常工作中充分利用整个企业的信息系统为各个相关部门的相关人员提供有价值的信息。主动匹配可以将典型的文档或者以数字为中心的用户界面转变成以任务为导向的智能界面,也就是说它能自动识别用户当前的问题,并确定相关信息。

Autonomy还可以自动生成二维或三维的信息图,将某一时间段的所有信息通过形象的图像展现在用户面前,帮助用户准确、及时地把握世界各地的最新资讯。例如它的最新功能可以跟踪一系列的邮件信息,告知检测者每个邮件的流向和被转发目标。它还可以将连续的信息图生成信息走势图,观察出多个时间段的信息走势,从而用户能一眼看出某一个阶段内的信息发展趋势。这是任何其他搜索系统目前还无法提供的功能。

5企业非结构化信息搜索的商机,引得众多IT巨头纷纷加入搜索战团,处理非结构化信息的桌面搜索模式成为竞争焦点

非结构化范文篇3

世界范围的WWW正以目前每9个月增加一倍的速度飞速发展,并还将以指数速度继续增加。而另一方面,在从Web或数据仓库中找到你所需要的内容却并非进展迅速,虽然检索到相关结果的速度正以兆兆字节甚至十倍于此的速度增加。据2004年5月NielsenNormanGroup的2004Web可用性调查结果显示,所有用户(包括偶尔使用或经验丰富的用户)对搜索结果满意的次数百分比仅为42%,经验丰富的用户这一数字可以达到50%[1]。最糟糕的搜索经历常发生在使用企业网站点搜索而不是使用巨型搜索引擎的时候。另据ForresterResearch的统计表明,非结构化信息的数量正在以每年200%的速度增长。一般员工大约要花费35%的时间寻找工作所需的非结构化信息[2]。由此可见,搜索引擎必须采取措施使自己变得更为聪明,同时能更准确全面的为大多数用户带来令人满意的搜索结果。我们需要有一个工具,能同管理结构化信息一样,有效地管理我们的非结构化信息。

2有望终结传统搜索模式的Autonomy的“样板工程”Blinkx英德中文版已经推出

2004年7月,位于美国旧金山的创业公司Blinkx推出了一种新型搜索工具Blinkx,该工具可以提供类似“模糊搜索”或“语义搜索”的功能。也就是说,当用户提出类似“搜索引擎未来发展趋势如何”这样的搜索需求时,搜索引擎能够给出相关内容的搜索列表,而不会像传统搜索工具那样只是机械的给出包含“搜索”、“引擎”、“未来”、“发展”、“趋势”等词汇但却远离该主题的文章。Blinkx不仅可以搜索文本内容,还可以搜索电影电视等多媒体内容,不仅可以搜索互联网内容,还可以搜索本机和局域网上的内容。Blinkx同时还可以搜索不同的文本格式内容,如Text、Word、Excel、PPT、PDF以及各种数据库中的数据格式。有媒体把这种搜索方式称为“智能搜索”,这样的搜索引擎一直以来都是人们的梦想,或许Autonomy就是下一代搜索引擎的开端也未可知。当然Autonomy并不只局限于桌面搜索这个狭窄的领域,它不只是代表一系列产品,也不只是一家公司的名字,最主要的是它代表着一种搜索理念和技术[3]。一旦它成功,桌面搜索的格局自然也会跟着发生翻天覆地的变化。

如果安装了Blinkx的客户端软件,一个小的菜单窗口就会出现在Word、Outlook等几乎所有文档处理窗口的右上方。用户在这些窗口中处理文档时,系统会自动分析这个文档,然后自动从本机或网络上抓取相关文章或链接,以供用户参考。它还可以及时提供与文章内容相关的新闻、产品信息、视频内容等分类信息。简单地说,用户完全可以拿一篇文章来作为“查询关键词”,Blinkx通过对这篇文章进行分析,会给出与这篇文章内容最接近的网络链接或本机文档[4]。这无疑给需要处理大量数据的个人和企业提供了巨大便利。

2005年元旦刚过Blinkx进入中国市场,其中文测试版已经“竣工”。目前已经在国内某数据中心建立了一个试验平台,大约有30多台服务器正在运行着Blinkx的后台系统[5]。

Autonomy公司是Blinkx公司的股东之一,Blinkx的核心技术也来自Autonomy,因为这种密切关系,Blinkx被认为是Autonomy的“样板工程”。此前,Autonomy一直像汽车发动机一样隐藏在幕后。Autonomy虽然在公众中的知名度不太大,但在商业应用领域中却名声显赫,并在政府、国防、新闻、金融、电信、教育等领域拥有大量中坚客户。而且,Autonomy还是一个“历史悠久”的IT公司,同时在美国和英国上市,拥有超过1.47亿美元的现金。

3Autonomy的模式识别技术,可以帮助用户发现一些事前不知道的相关信息

目前,人类研究的信息搜索技术有四个方向:关键字搜索,模式识别,语义分析,神经网络。除了关键词搜索比较成熟外,其他三项技术还处于待开发状态。模式识别的代表者就是Autonomy,语义分析和神经网络两个技术方向目前尚无压倒性的代表者,一年半载不会有突破性的研究成果。所以,模式识别就成了目前比较先进的信息搜索技术。

采用“模式识别”搜索方法,可通过判别相关识别度的高低来对数据进行检索,可以避免传统“关键词检索”造成的漏检情况的发生。比如一篇文章里如果有“大海”这个词,这篇文章有可能和企鹅有关,但是“大海”这个词用在很多不同的地方,有可能文章讲的是别的内容。但是如果一篇文章里有“大海”、“南极”、“黑色”、“白色”、“不会飞”、“羽毛”、“下蛋”、“石油”、“泄露”等这些词,这篇文章是在谈论污染和企鹅的概率就会很高。虽然整篇文章里没有“企鹅”这个词,但是很多相关度较低的词出现在一起就会带来很高的相关度,并且缺少某个描述词对其产生的结果影响微乎其微。

如果说传统的“关键字”搜索方法为“search”(搜索)的话,autonomy采用的“模式识别”方法则应该称为“discover”(发现),因为它可以让用户找到一些事前他们不知道的信息[6]。Autonomy产品中提供的“聚类”功能正是“从搜索到发现”的最佳表现。

目前,Autonomy在国外比较成功的应用案例集中在媒体、政府机构、金融和信息产业等需要集中处理大量非结构化数据的领域。2003年3月,Autonomy进入中国市场,目前主要集中在电信和政府市场。Autonomy追求建立符合企业内部数据管理需求的平台,可将放在不同位置的不同类型的数据进行有效梳理。Autonomy曾经在美国安全局、美国国防部、美国航天局、英国警察署和美国陆军有过成功应用[7]。对于网络上出现的大量的有害信息,Autonomy可以做到事前发现,从而帮助政府机构采取及时地反应。例如,政府有关部门要打击网上非法买卖违禁药物,使用“摇头丸”、“兴奋剂”等关键词搜索出来的内容多数是关于药物危害、打击犯罪等方面的正面文章,而出现“兴奋”、“购买”、“单价”等关键词的文章,则与非法买卖违禁药物的相关度最高。通过这种非关键词搜索的“模式识别”搜索,政府监控部门可以有效打击日益猖獗的网上犯罪。所以政府机构和一些需要对信息进行监控的机构是该系统在中国的潜在市场。

4Autonomy的技术特点和优势分析

Autonomy软件设计的原则是无需用户改变已有的使用习惯,甚至无需改变已有的用户界面,它支持所有传统的检索和设置方式,包括关键词、逻辑语言、布尔语句等,同时提供给用户更多、更简洁的定义方法,如对所需信息的自然语言描述、文章概念的定义,还可以通过反馈的文章作为例子来训练个人聚焦和频道。此外,它能够通过自身软件架构的灵活性去适应已有的系统架构,嵌入到已有的应用中去,在用户熟悉的界面之下提供新的功能。Autonomy中最关键的部分就是它的动态推理引擎(DynamicReasoningEngine,简称DRE),其中信息的概念分析、内容提取、概念模式识别、相关度计算等关键工作都是由该动态推理引擎完成。当用户发出搜索指令后,它可以通过相关方法从互联网、企业内部网、终端计算机等不同位置的信息源中找到与用户要求最匹配的信息[8]。它的技术特点主要有如下几点:

4.1自动内容综合和精炼

Autonomy能操作的信息同样包括各种结构化、半结构化和非结构化数据,如RDBMS的表格、LotusNotes等结构化数据,以及HTML页面、Word文档、电子表格、电子邮件非结构化数据等。而且它可以综合及理解丰富的多媒体内容,包括音频、视频、图像文件等。综Autonomy能够自动综合来自200多种不同格式数据源的内容。所有综合后的文件如有任何改动都可以在Autonomy的基本结构和数据源之间保持同步。公务员之家

4.2个性化操作

Autonomy的自动建档功能可以准确理解个人和企业用户的使用习惯和兴趣爱好,并能进行追踪。根据直接档案和隐含档案可以生成每个用户的多侧面概念型档案,它们可以自动追随用户当前的兴趣,而无需用户多次填写任何形式的表格。Autonomy自动的个性化解决方案可以将用户与有共同兴趣的档案或有间接关联的档案匹配起来。

4.3信息自动分类、聚类定义、索引

Autonomy独有的自动信息聚类避免了手工分类的麻烦,可以将相关网站信息进行全自动分类,能实时、客观地反映每个科学门类的信息变化,这与其他的模板式自动分类机制有着本质的区别[9]。Autonomy的架构可以识别信息之间的主要关系,从而实现内容间的交叉索引对照,无论是什么文档,Autonomy都可以在操作层识别出与其相关联的资料。此外,Autonomy还可以对内容中最主要的概念进行总结,可以根据原始查询的上下文环境进行总结,并且将最适用的动态摘要提交给指定需求。最关键的是Autonomy的这一切工作都无需人工干预自动进行,对企业应用来说,这一点相当有吸引力。

4.4主动匹配和信息地图

像涉及安全方面的应用可能有非常广泛的信息搜索需求,从网站上最酷的新闻到刚刚播放的电视画面,都可能与安全问题相关。利用Autonomy的主动匹配功能,可以在用户日常工作中充分利用整个企业的信息系统为各个相关部门的相关人员提供有价值的信息。主动匹配可以将典型的文档或者以数字为中心的用户界面转变成以任务为导向的智能界面,也就是说它能自动识别用户当前的问题,并确定相关信息。

非结构化范文篇4

世界范围的WWW正以目前每9个月增加一倍的速度飞速发展,并还将以指数速度继续增加。而另一方面,在从Web或数据仓库中找到你所需要的内容却并非进展迅速,虽然检索到相关结果的速度正以兆兆字节甚至十倍于此的速度增加。据2004年5月NielsenNormanGroup的2004Web可用性调查结果显示,所有用户(包括偶尔使用或经验丰富的用户)对搜索结果满意的次数百分比仅为42%,经验丰富的用户这一数字可以达到50%。最糟糕的搜索经历常发生在使用企业网站点搜索而不是使用巨型搜索引擎的时候。另据ForresterResearch的统计表明,非结构化信息的数量正在以每年200%的速度增长。

一般员工大约要花费35%的时间寻找工作所需的非结构化信息。由此可见,搜索引擎必须采取措施使自己变得更为聪明,同时能更准确全面的为大多数用户带来令人满意的搜索结果。我们需要有一个工具,能同管理结构化信息一样,有效地管理我们的非结构化信息。

2有望终结传统搜索模式的Autonomy的“样板工程”Blinkx英德中文版已经推出

2004年7月,位于美国旧金山的创业公司Blinkx推出了一种新型搜索工具Blinkx,该工具可以提供类似“模糊搜索”或“语义搜索”的功能。也就是说,当用户提出类似“搜索引擎未来发展趋势如何”这样的搜索需求时,搜索引擎能够给出相关内容的搜索列表,而不会像传统搜索工具那样只是机械的给出包含“搜索”、“引擎”、“未来”、“发展”、“趋势”等词汇但却远离该主题的文章。Blinkx不仅可以搜索文本内容,还可以搜索电影电视等多媒体内容,不仅可以搜索互联网内容,还可以搜索本机和局域网上的内容。Blinkx同时还可以搜索不同的文本格式内容,如Text、Word、Excel、PPT、PDF以及各种数据库中的数据格式。有媒体把这种搜索方式称为“智能搜索”,这样的搜索引擎一直以来都是人们的梦想,或许Autonomy就是下一代搜索引擎的开端也未可知。当然Autonomy并不只局限于桌面搜索这个狭窄的领域,它不只是代表一系列产品,也不只是一家公司的名字,最主要的是它代表着一种搜索理念和技术。一旦它成功,桌面搜索的格局自然也会跟着发生翻天覆地的变化。

如果安装了Blinkx的客户端软件,一个小的菜单窗口就会出现在Word、Outlook等几乎所有文档处理窗口的右上方。用户在这些窗口中处理文档时,系统会自动分析这个文档,然后自动从本机或网络上抓取相关文章或链接,以供用户参考。它还可以及时提供与文章内容相关的新闻、产品信息、视频内容等分类信息。简单地说,用户完全可以拿一篇文章来作为“查询关键词”,Blinkx通过对这篇文章进行分析,会给出与这篇文章内容最接近的网络链接或本机文档[4]。这无疑给需要处理大量数据的个人和企业提供了巨大便利。

2005年元旦刚过Blinkx进入中国市场,其中文测试版已经“竣工”。目前已经在国内某数据中心建立了一个试验平台,大约有30多台服务器正在运行着Blinkx的后台系统。

Autonomy公司是Blinkx公司的股东之一,Blinkx的核心技术也来自Autonomy,因为这种密切关系,Blinkx被认为是Autonomy的“样板工程”。此前,Autonomy一直像汽车发动机一样隐藏在幕后。Autonomy虽然在公众中的知名度不太大,但在商业应用领域中却名声显赫,并在政府、国防、新闻、金融、电信、教育等领域拥有大量中坚客户。而且,Autonomy还是一个“历史悠久”的IT公司,同时在美国和英国上市,拥有超过1.47亿美元的现金。

3Autonomy的模式识别技术,可以帮助用户发现一些事前不知道的相关信息

目前,人类研究的信息搜索技术有四个方向:关键字搜索,模式识别,语义分析,神经网络。除了关键词搜索比较成熟外,其他三项技术还处于待开发状态。模式识别的代表者就是Autonomy,语义分析和神经网络两个技术方向目前尚无压倒性的代表者,一年半载不会有突破性的研究成果。所以,模式识别就成了目前比较先进的信息搜索技术。

采用“模式识别”搜索方法,可通过判别相关识别度的高低来对数据进行检索,可以避免传统“关键词检索”造成的漏检情况的发生。比如一篇文章里如果有“大海”这个词,这篇文章有可能和企鹅有关,但是“大海”这个词用在很多不同的地方,有可能文章讲的是别的内容。但是如果一篇文章里有“大海”、“南极”、“黑色”、“白色”、“不会飞”、“羽毛”、“下蛋”、“石油”、“泄露”等这些词,这篇文章是在谈论污染和企鹅的概率就会很高。虽然整篇文章里没有“企鹅”这个词,但是很多相关度较低的词出现在一起就会带来很高的相关度,并且缺少某个描述词对其产生的结果影响微乎其微。

如果说传统的“关键字”搜索方法为“search”(搜索)的话,autonomy采用的“模式识别”方法则应该称为“discover”(发现),因为它可以让用户找到一些事前他们不知道的信。Autonomy产品中提供的“聚类”功能正是“从搜索到发现”的最佳表现。

目前,Autonomy在国外比较成功的应用案例集中在媒体、政府机构、金融和信息产业等需要集中处理大量非结构化数据的领域。2003年3月,Autonomy进入中国市场,目前主要集中在电信和政府市场。Autonomy追求建立符合企业内部数据管理需求的平台,可将放在不同位置的不同类型的数据进行有效梳理。Autonomy曾经在美国安全局、美国国防部、美国航天局、英国警察署和美国陆军有过成功应用。对于网络上出现的大量的有害信息,Autonomy可以做到事前发现,从而帮助政府机构采取及时地反应。例如,政府有关部门要打击网上非法买卖违禁药物,使用“摇头丸”、“兴奋剂”等关键词搜索出来的内容多数是关于药物危害、打击犯罪等方面的正面文章,而出现“兴奋”、“购买”、“单价”等关键词的文章,则与非法买卖违禁药物的相关度最高。通过这种非关键词搜索的“模式识别”搜索,政府监控部门可以有效打击日益猖獗的网上犯罪。所以政府机构和一些需要对信息进行监控的机构是该系统在中国的潜在市场。

4Autonomy的技术特点和优势分析

Autonomy软件设计的原则是无需用户改变已有的使用习惯,甚至无需改变已有的用户界面,它支持所有传统的检索和设置方式,包括关键词、逻辑语言、布尔语句等,同时提供给用户更多、更简洁的定义方法,如对所需信息的自然语言描述、文章概念的定义,还可以通过反馈的文章作为例子来训练个人聚焦和频道。此外,它能够通过自身软件架构的灵活性去适应已有的系统架构,嵌入到已有的应用中去,在用户熟悉的界面之下提供新的功能。Autonomy中最关键的部分就是它的动态推理引擎(DynamicReasoningEngine,简称DRE),其中信息的概念分析、内容提取、概念模式识别、相关度计算等关键工作都是由该动态推理引擎完成。当用户发出搜索指令后,它可以通过相关方法从互联网、企业内部网、终端计算机等不同位置的信息源中找到与用户要求最匹配的信息。它的技术特点主要有如下几点:

4.1自动内容综合和精炼

Autonomy能操作的信息同样包括各种结构化、半结构化和非结构化数据,如RDBMS的表格、LotusNotes等结构化数据,以及HTML页面、Word文档、电子表格、电子邮件非结构化数据等。而且它可以综合及理解丰富的多媒体内容,包括音频、视频、图像文件等。综Autonomy能够自动综合来自200多种不同格式数据源的内容。所有综合后的文件如有任何改动都可以在Autonomy的基本结构和数据源之间保持同步。

4.2个性化操作

Autonomy的自动建档功能可以准确理解个人和企业用户的使用习惯和兴趣爱好,并能进行追踪。根据直接档案和隐含档案可以生成每个用户的多侧面概念型档案,它们可以自动追随用户当前的兴趣,而无需用户多次填写任何形式的表格。Autonomy自动的个性化解决方案可以将用户与有共同兴趣的档案或有间接关联的档案匹配起来。

4.3信息自动分类、聚类定义、索引

Autonomy独有的自动信息聚类避免了手工分类的麻烦,可以将相关网站信息进行全自动分类,能实时、客观地反映每个科学门类的信息变化,这与其他的模板式自动分类机制有着本质的区别。Autonomy的架构可以识别信息之间的主要关系,从而实现内容间的交叉索引对照,无论是什么文档,Autonomy都可以在操作层识别出与其相关联的资料。此外,Autonomy还可以对内容中最主要的概念进行总结,可以根据原始查询的上下文环境进行总结,并且将最适用的动态摘要提交给指定需求。最关键的是Autonomy的这一切工作都无需人工干预自动进行,对企业应用来说,这一点相当有吸引力。

4.4主动匹配和信息地图

像涉及安全方面的应用可能有非常广泛的信息搜索需求,从网站上最酷的新闻到刚刚播放的电视画面,都可能与安全问题相关。利用Autonomy的主动匹配功能,可以在用户日常工作中充分利用整个企业的信息系统为各个相关部门的相关人员提供有价值的信息。主动匹配可以将典型的文档或者以数字为中心的用户界面转变成以任务为导向的智能界面,也就是说它能自动识别用户当前的问题,并确定相关信息。

Autonomy还可以自动生成二维或三维的信息图,将某一时间段的所有信息通过形象的图像展现在用户面前,帮助用户准确、及时地把握世界各地的最新资讯。例如它的最新功能可以跟踪一系列的邮件信息,告知检测者每个邮件的流向和被转发目标。它还可以将连续的信息图生成信息走势图,观察出多个时间段的信息走势,从而用户能一眼看出某一个阶段内的信息发展趋势。这是任何其他搜索系统目前还无法提供的功能。

5企业非结构化信息搜索的商机,引得众多IT巨头纷纷加入搜索战团,处理非结构化信息的桌面搜索模式成为竞争焦点

非结构化范文篇5

关键词:大数据;会计相关关系;会计数据

非结构化的数据主要包括图片、文本、视频图片等多种内容,随着大数据时代的到来,企业在长期经营过程中开始占据了所有数据的主体位置。企业而言,大量含有较高价值的信息包含在非结构性的数据当中,尤其在会计工作中必须处理好这些数据,才能保证企业信息得到有效保障。大数据技术下的会计核算体系必然会逐渐将非结构化以及碎片化的数据包含,大数据会计必然会成为以后的发展主流。目前,大数据会计急需解决好三方面问题,①大数据会计的整体结构;②如何保证一系列非结构化的数据与企业现有的高价值数据之间建立一定的关联性;③怎样才能将这些数据准确的披露在报表当中。

一、大数据会计的会计数据选择与结构分析

(一)非结构化、碎片化的数据成为会计数据主体。传统的结构化数据往往应对的信息量相对比较少,能够在有限的数据表结构中表现出数据之间的关联以及相互之间可能会造成的影响,但是随着企业信息日益庞杂,大量的非结构化数据引入,传统的数据结构管理模式已然不能满足现有的企业管理要求。以图片视频为代表的碎片化数据不同于结构化的数据,组织会计数据本身,并不能有效地发现不同数据信息之间的关联。同时在企业发展以及信息化建设的促进下,各种非结构化的数据必然会逐渐占据主体位置,在讨论研究大数据会计的数据结构时,须要将非结构的数据放置在核心位置。另外,大数据会计背景下,各方面信息的来源渠道相对比较复杂,如何对这些渠道以及获取到的信息,实现定性的描述分析是会计工作人员急需解决的问题之一。(二)大数据会计的会计数据的结构构成分析。目前,大数据会计的数据结构成分主要有非结构化的数据,碎片化数据以及传统结构化的数据等多方面内容共同组成。另外从数据可靠性以及数据真实性方面的定义来看,会计数据可以分为直接性能数据与间接性的数据两种,以碎片化为代表的非结构化数据属于间接性的数据,这些数据在后续大数据会计建设过程当中必然会占据着主导位置。相对应的直接数据能够更加直观地向会计工作人员展示出相关数据所表现出的含义以及内容。在数据信息记录过程当中,会计信息必然需要经过公司相关负责人员以及审核人员的签字盖章,在这个过程当中需要以扫描的形式完成数据上传,这些收集到的信息往往是非结构化的碎片,数据想要进一步增强会计信息的关联性,就很好地处理好这些碎片化数据之间的联系,但是从实际情况来看会计数据结构组成当中这些碎片化的数据并没有成为一个相对可靠性的会计信息。所以说在后续大数据会计建设时候会计数据必然会以货币为核心因素,这样以货币数据为核心的会计数据组成形式相对有更高的可靠性,能够很好地满足企业大量数据交互过程当中产生的数据处理需求。在大数据时代背景下,虽然数据量越来越大,但是收集信息的难度也会随之增高,由于大部分缺乏专业素养的工作人员,无法准确判断出这些不同数据之间的关系,以及哪一部分数据属于企业需要处理的核心信息。这个时候如果依靠某一个单一的碎片化会计数学,很难准确的描述出企业管理工作开展的需求以及决策产生的影响。

二、非结构化数据与企业价值相关关系的构建

对于企业来说,会计往往代表着企业经营活动产生的成本以及利润等多方面的货币信息,而货币信息作为会计核算体系的核心因素直接与企业价值挂钩。但从实际情况来看这二者之间的关系链大部分情况下都比较长,在解决企业价值与碎片化数据关系的过程当中往往很难准确表现出企业价值的所在。所以说如何构建好非结构化数据与企业价值之间的关系,是目前大数据会计工作开展的重点工作内容之一。对于企业来说在实现企业价值的过程当中能够有效实现现金流与企业账面数据的统一,进而在此基础之上准确全面地反映出企业价值信息。但是从数据结构的层面来看,现金流量与财务信息之间并没有一个很好地统一,尤其是现金流量,在完成会计核算的时候并没有纳入进来,也就是说无法将非结构化的数据作为会计信息的重要参考因素之一而对待。非结构化的会计数据信息还包括企业的潜在价值,企业潜在价值通常无法表现在财务信息当中,这个时候如何通过一些非结构化的数据将其与企业价值的含义联系在一起是决定着大数据会计制度建立的重要影响因素之一。从现有实际情况来看,这部分数据主要以外部对企业经营活动产生的评价为主,而这些问题又会根据不同的人员群体以及不同人员的消费特征产生一定的变化,也就是存在着一定的可变性,这就导致会计工作人员无法准确地把握好这些信息之间的关联。所以说再次创建大数据会计信息的时候,需要有效地将非结构化数据与一些价值之间联系在一起,来保证能够通过非结构化数据准确地表现出其价值所在。对于大数据财务报表的指定来说,许多非架构化数据是由企业日常各项活动开展过程中用户以及内部员工对企业产生的评价组成,企业获得的评价越高,在后续价值转换中才能将更多的评价转换为潜在价值。企业生产过程当中产生某一项具体的活动,对于不同的人员来说会有非常不一致的评价。在完成非结构化数据统计的时候需要将不同的人群进行有针对性的分类,这样才能够在一个相对比较平等的基础之上,得到相对稳定的评价。比如说高收入人群与低收入人群之间对于消费观念以及消费行为的看法往往会有一定的差异性,这个时候如果不对评价主体做出划分很容易导致得出的结果与实际情况产生差异。另一方面还需要根据不同人群的特征来确定该群体的消费特征以及后续对于企业价值评估当中所占有的权重。也就是说会计信息系统工作人员在通过大数据完成财务报表工作的时候,需要全面考虑到不同的信息,对于企业具体价值的影响力以及如何通过非结构化的数据更好地表现出企业不同阶段所产生的实际价值。

三、大数据会计财务报表框架设计

在未来社会经济发展过程,当中数据必然会占据着极其重要的位置,数据资源在大数据时代,应当作为企业核心竞争力之一而存在,尤其是对于财务方面的工作来说,如何通过大数据准确获取盗窃自身以及市场上其他企业的发展情况是后续相关决策达成的重要参考因素之一。对于一个企业来说,会计作为企业发展的核心影响因素之一而存在,而会计的目的本身是为企业各项数据信息的价值发现以及价值实现提供一定的助力,所以说在建立大数据会计之前,必须准确分析现有的数据信息之间的关系建立一个科学的大数据会计数据结构,这样才能够更加有效地应对大数据时代会计行业面临的一系列挑战。这个时候首当其冲的便是要重新设计财务报表的框架,在传统财务报表框架当中并不能将非结构化的数据纳入进来,也就是说无法综合考量到非结构化数据对于公司财务报表产生的影响。通过优化会计财务报表的框架设计,能够将非结构化数据与会计信息结合在一起。与此同时,企业投资者,经营者以及具体的员工在日常活动中对企业产生的价值才能更加全面的考虑进来,避免造成财务报表不全面的问题。在现代企业的财务会计工作当中包含的内容主要有资产负债表,利润表,日常经营活动产生的现金流,还有具体的所有的权益等多方面内容,对于这些信息企业在完成财务信息建设的时候需要通过大数据技术进行有针对性的披露,这也是非结构化的数据在利用过程当中的必然要求之一。大数据会计下财务报表结构的设计,对于资金来源以及不同资金在使用过程当中形成的价值以及负债有直接性的关联,这个时候不管是所有者权益还是企业资金运行过程当中产生的效果都可以将其与社会消费观念相比较,进而得出一个相对比较准确的资产负债关系。另外大数据会计结构设计师对于收益的部分需要将收入费用观念及时的转变为资产负债管理,资产负债关对于企业消费者权益的表现相对更加准确,尤其是对于产生的一系列碎片化数据,通过资产负债观能够很好地将会计信息体现出来。对于消费者来说,日常接收到的直接信息往往是具体的现金流量,这些现金流量在消费者汇报给企业会计工作人员的时候并不是结构化的,这个时候必须针对现金流量作出有针对性地调整,从而得出一个相对比较科学完整的报表。

四、结语

对于会计后续长远发展来说大数据必然是重点方向之一,会计作为企业价值数据管理以及企业日产管理活动开展的核心活动之一,必然会成为整个企业信息化假设的核心。大数据会计相对于传统的企业会计管理方法能够更加快捷地为决策者提供准确的信息参考。所以说企业在大数据会计建设中首先需要将会计信息作为一种标准化的信息完成建设活动,这样能够促使企业各方面的信息交流沟通更加顺畅,同时也能够进一步加强企业数据的管理效率。企业需要准确把握非结构化数据与现有数据之间的关系,促使大数据技术能够真正为企业发展带来主力,需要企业将自身的大数据会计建设与外部信息的获取相互结合,综合提示企业的会计数据管理能力。

参考文献:

[1]袁振兴等.大数据对会计的挑战及其应对[J].会计之友,2014(32):25-26.

[2]管天云,候春华.大数据技术在智能管道海量数据分析与挖掘中的应用[J].现代电信科技,2014(02):23-24.

非结构化范文篇6

[关键词]大数据;教学改革;投资学

一、引言

经济社会的快速发展带来了海量的数据,这些海量数据之间的价值关联逐步凸显;从各种类型数据中快速获取有价值信息的能力,就是大数据技术。大数据量(Volume)、多类型(Variety)、快速(Velocity)、价值(Val⁃ue)和真实(Veracity)等特点使得传统数据分析和决策方式变得更为困难。如何进一步确保高校教育的与时俱进,充分挖掘大数据时代课程教学的特点,深化学生创新能力和实践能力的培养是高校教育改革面临的重要任务之一。投资学是金融学专业一门重要的基础课,包含较多的理论知识和实践经验。随着教育行业信息化持续推进,教育改革的深化和发展需要在大数据思维引领下进行[1]。面对复杂、海量的数据,投资者如何制定投资决策变得越来越有挑战性。金融创新型人才不仅需要具备扎实的金融理论知识,同时也需具备大数据分析和综合决策的能力。大数据时代的到来对经济、金融类专业学生能力培养提出了新的要求,这不仅体现在投资学等专业课程上,对数学、统计学、计算机技术等课程的教学也提出了相应的要求。挖掘大数据时代的课程教学特点,深化创新教育,培养大学生创新能力和实践能力是高校教书育人所面临的重要课题。本文从投资学课程教学出发,研究大数据时代课程教学的改革特点和推进途径,为深化高校经济类专业课程教学改革提供有价值的参考。

二、投资学课程教学面临的挑战

大数据概念已植根于金融类专业教学中,这不仅推动了金融实务的持续创新,更催生了金融模式的深刻变革。经济社会的发展使得培养创新型金融专业人才离不开大数据,这不仅为高校专业课程教学深化改革指明了方向,同时对现有的教学模式也提出了新的挑战。(一)大数据思维对金融问题分析提出新要求。基于大数据的经济、金融研究与传统计量研究方法相比出现很多新的特征,比如数据的采集、清洗、分析、使用等均有别于传统的方法,这也意味着对问题的思考和分析不能墨守成规。目前,大数据技术已经逐渐渗透到银行、保险、证券、金融监管等方面,并逐步走向成熟。大数据逻辑与传统逻辑有明显区别,如传统方法是理论假说检验驱动,而如今是大数据驱动的归纳推理;大数据是自下而上的推理归纳方法,而传统逻辑则是自上而下的演绎推理方法[2]。(二)优化资产选择和资源配置决策方式。作为投资学核心内容的资产选择和优化资源配置方式需要优化。对投资者而言,股票、债券、期货、期权等金融产品的数据采集变得容易,这拓展了资产选择渠道和优化配置的视角。然而,数据量庞大、低价值密度的特点使得寻找有价值的信息辅助决策更为困难;如何有效利用海量数据挖掘出有用的信息,并构建个性化的投资方案日益重要。海量数据加简单逻辑形成有价值的信息是一件极富挑战的工作[3]。(三)数据类型多样化对分析提出新的考验。大数据时代不仅需要对海量的结构化数据进行分析,同时也需要对半结构化数据和非结构化数据进行分析整理。传统的金融理论,比如组合投资理论、有效市场理论和资产定价理论大都是基于结构化的数据展开分析的,教学和实证过程中也大多依赖于结构化数据。然而,仅对结构化数据进行分析的结果可能有所偏倚。实践证明,对于文本、网页等非结构化数据的分析也同样重要。半结构化数据(及非结构化数据)和结构化数据同样隶属于整体样本中的一部分,不管是哪种数据都夹杂着有价值的数据和无价值的数据。这方面,从金融文献研究、投资者情绪研究的相关研究成果中可见一斑。同时,大数据可扩充的性质要求对各种数据能有效及时地甄别,区分数据的价值。这就要求课程教学特别是案例教学不能仅停留在结构化的数据分析上,而是要拓展到非结构化的数据分析。事实上,教学过程中对结构化数据的重视远超过非结构化数据,而非结构化数据恰恰是大数据时代的产物和分析的基础[4]。从具有价值的数据整体挖掘出其内在反映的真实信息并找到简单逻辑变得极为关键,这将关系到下一步的投资决策。非结构化数据分析其内在信息时较为困难,需要进一步完善其分析的方法和技术。(四)综合决策的挑战。权衡投资风险及收益并做出符合自身效用最大化的决策是投资的核心工作,这需要建立在对大数据的处理分析上。分析问题的途径多了,就会对投资者的综合决策能力提出新的挑战:不仅要考虑到投资者的个性特点,同时也要求对多渠道分析结果进行归纳和总结。更为显著的是,传统的抽样实证方式难以实现对问题的系统分析,在大数据背景下,数据样本总体实证更为重要。传统实证研究和教学的基本逻辑可以归纳为:先确定研究目标、现象总体和个体,再确定所需变量或指标,最后向全部个体或部分个体获取数据。显然,是先有总体再有数据。在大数据背景下难以识别数据的基本特征,很多情况下无法事先掌握所关注问题的完整数据;这种情况下,只有找出这些数据背后的承担者才能构筑总体,所以是先有数据后有总体。目前,受大数据分析技术局限性和经济学专业学生数据处理能力的影响,投资学课程的大数据教学方式改革进展缓慢。大数据分析有利于提高投资决策的效率,是投资学课程教学改革值得探索的研究方向,也是经济、金融等专业适应新形势教学改革的必要探索。培养金融类专业人才需要对投资学教学进行改革,以适应社会的发展[5-6]。

三、投资学的教学改革探讨

大数据时代的到来,给课程教学提供了丰富的数据资源,对任课教师的自身素质、专业培养目标及要求提出了新的要求。投资学作为金融的核心课程也需要进一步调整更新,以适应如今所处的信息时代。充分掌握经济社会发展对专业人才培养的能力要求,调查学生对投资学课程教学的期望和自身创新实践能力提升的要求,探讨课程教学中大数据分析和创新实践能力的培养,厘清两者之间的影响机理,可以为课程教学改革提供支撑。经济类专业课程既具有很强的理论性,又具有鲜明的实践性。下文以“有效市场理论”展开案例教学探讨,从数据采集、数据分析和综合决策等方面开展大数据教学改革的探讨。(一)数据采集。目前大多数高校的数据平台效率低下,要努力建设成以“数据”为核心的综合信息化平台[7],为师生的各项活动提供保障。这样能提供多渠道积极收集课程教学的相关数据。一方面,针对投资对象的多元化,需采集股票、债券、期货、期权等结构化的数据,做好相应的数据分析,为实践教学和案例教学提供支撑。另一方面,也要采集文本、HTML和视频等非结构化的数据,为课程教学提供丰富的数据资源,并在传统的理论教学和数据分析的基础上,重点开展非结构化数据挖掘的相关教学和研讨。以A股市场有效性为例,证券市场大量股价数据被收集,这给有效市场教学提供了丰富的数据资源。采用单位根检验方法可通过编译循环语句处理海量时间序列数据,继而开展有效市场分析的相关实证。考虑到股票交易数据样本大,现有研究大多采用了抽样分析的方式,即侧重对市场指数的宏观分析,淡化对个股数据的探究,显然,这并未发挥出大数据时代的数据优势。从理论上说,有效市场应当是对市场整体的分析,因此采用市场指数进行分析是理所当然的。然而,抽样分析也存在局限性,大数据处理技术能够对超大规模的数据进行分析处理,对研究对象的特征既能做到总体把握,又能了解局部情况。因此,考虑到数据表现形式的差异性,我们可以将有效市场检验的数据总体划分为结构化数据和非结构化数据:结构化数据包括个股数据、市场指数等;非结构化数据包括相关研究文献等。在实证教学中,不同于传统的市场指数抽样分析模式,应该采集A股市场的所有市场指数和个股数据进行分析,这与国内学者李金昌提出的大数据时代下统计实证分析模式“发现—总结”是一致的[8]。通过对所有的个股数据进行分析处理(并结合市场指数分析)继而挖掘出市场信息传递规律,其研究结果将更具有说服力,也更符合大数据时代对数据总体分析的特点。另一方面,A股市场有效性的研究文献较多,以中国知网为例,以“市场有效性”为关键字的所有相关中文文献共计703条;通过对这些文献的筛选和挖掘,也可以形成有效市场的相关结论。(二)数据分析方法。结构化数据通常适合传统金融理论的建模分析。有效市场中的游程检验、单位根检验和长记忆性检验方法都是基于结构化数据的分析。一方面,需要对有效市场检验理论进行深入学习和研究;另一方面,对海量数据的分析和实证提出新的要求,这需要强化数学、统计学、计算机技术等课程的教学目标。非结构化数据中最为典型的便是文本挖掘,这涉及文本检索和文本分类等研究。A股市场研究文献包括中文和英文,读取文本数据库、文本分词、构建文档、统计建模是常见的分析途径,这要求在教学中对相关工具和理论原理进行学习和运用。总之,不同的数据分析方式,对课程理论教学和工具运用的要求有所不同[9],需要教师提高数据处理和挖掘的能力,这也对学生提出了新的要求。(三)综合决策。大数据分析角度和方法的差异可能导致分析结果的大相径庭。“实验结论统计归纳”要求对大数据背景下海量数据分析结论进行归纳和总结。而有效市场的分析结论可能存在差异,如何综合判定并形成有价值的决策是培养学生综合决策能力的关键。这不仅要从统计角度给出“发现—总结”的分析结论,而且要结合专业知识给出相应的经济学原理分析。以结构化数据分析为例,有效市场的个股全样本分析的结果和市场指数分析结果可能存在差异。如果是这样,则可以尝试从信息传递和投资者行为特征的角度进行深入分析。市场指数从宏观角度反映出市场状况,是所有投资者可参考的依据,其对信息传递的效率较高;而个股投资者的数量仅限于部分人群,投资者关注度过低或者过高会引起信息传递效率偏低(可能是参与者的片面性和非理性投资所造成)和信息过度反应。从非结构化数据分析可知,现有文献研究对A股市场有效性实证的结论存在争议。在1993年以前,我国证券市场普遍被认为是没有效率的;但在1993年以后,我国证券市场是否达到弱势有效市场却存在分歧。由于数据结构和类型的不一致,结构化数据和非结构化数据在相关实证分析中的结论存在显著差异,这也给有效市场的教学带来了疑惑和不确定性,但是这其实是可以从理论上给出解释的。因为有效市场定义中对信息的界定本身就不够明确,在实证中往往是从有效市场假说中的“收益率的可检测性”入手,因此,研究结论存在争议就有其必然性。另外,有效市场成立还需满足三种理论上的前提假设,这对大数据分析结果的综合运行和判断提出了更高的要求。

四、总结

综上所述,海量的金融和经济数据的大量涌现,使得传统投资学教学已不能满足创新型人才培养的需求,因此,对传统投资学教学模式进行改革势在必行。将大数据思维运用到教学中不仅可以拓宽研究范围,还可以丰富研究思路。本文从有效市场案例教学角度开展分析,为大数据教学内容和方式改革提供参考。当然,大数据时代非常关注对教学资源的共享和利用、以及教学手段和方式的改革,大数据对行业数据关联的研究也关注颇多。不可否认,经济大数据研究已经深入人心[10],这些需要在本科课程教学中给予一定的重视。

[参考文献]

[1]赵晋,张建军,王奕俊.大数据思维下教育发展机遇与挑战的再思考[J].电化教育研究,2018(6):21-26.

[2]邓国民.大数据和教育研究:认识论和方法论的思考[J].电化教育研究,2018(6):48-53.

[3]李金昌.从政治算术到大数据分析[J].统计研究,2014(11):3-14.

[4]冯小舟.对大数据时资学课程体系新规划的思考[J].金融教育研究,2016(6):77-80.

[5]张晶,易艳红.大数据时代信息管理人才培养模式的创新实践研究[J].图书馆学研究,2018(23):2-7.

[6]乌拉尔•沙尔赛开.互联网金融背景下投资学教学改革方案研究[J].乌鲁木齐职业大学学报,2017(2):81-83+92.

[7]郭峰,王耀,董焱.基于大数据的高校创新创业信息化平台构建研究[J].实验技术与管理,2017(12):26-30.

[8]李金昌.从政治算术到大数据分析[J].统计研究,2014(11):3-14.

[9]丛亮.大数据背景下高校信息化教学模式的构建研究[J].中国电化教育,2017(12):98-102+137.

非结构化范文篇7

1.智能建筑弱电方案确定基本思路

首先分析一下结构化综合布线的优点:

(1)结构化综合布线使用了标准化的线缆和接插头模块,非常便于各楼层及本楼层间的信息点管理,使得因办公室搬迁等因素造成的大量终端设备、电话机移位时,只需将插头拔出、插入新的位置,然后在弱电设备间内做跳线处理或仅仅作些软件上的更改,即可重新投入使用,而不像传统布线那样无统一标准。当设备需要移位时,会带来许多管理上的不方便或需要重新布线,对建筑装璜造成较大的破坏。

(2)结构化综合布线的扩展能力强,因为对于五类非屏蔽双绞线可以提供155Mb/s信息的传输能力,除了满足当前各种网络的需要外,还能满足未来发展的需要。根据上述结构化综合布线的两个优点,结合建筑物实际的各弱电系统,具有发展性和不稳定性的只有电话系统和计算机网络系统。而对于其他弱电系统,如火灾自动报警系统、保安监视系统、广播系统、电缆电视系统等设备,具有很好的固定性,且位置一般不会移动,对于一个固定的建筑物,这些系统的设备一经选定,频繁更新换代的可能性和必要性均很低。根据以上所述,一般都在弱电设计中把电话系统及计算机网络系统的配线统一纳入结构化综合布线,而对其他弱电系统保持相对的独立性,仍采用传统的配线方式。然而,采用上述方法还有其他一些原因,如当前大多数弱电设备厂家的系统与结构化综合布线系统不兼容。要想使这些弱电系统在结构化综合布线平台上运行,则必须增加转换设备。例如保安监控系统的摄像机,其输出的视频信号通常以同轴电缆传输,如果将其纳入结构化结合布线系统中,需在线路两端增加信号转换设备。显然,这样做既麻烦又不经济。

2.综合布线在应用中存在的问题

应用中发现有的综合布线产品,如三类、五类非屏蔽双绞线其截面均为0.5mm2(美国线规AWG24),与之相配套的配线架,出线座都只能适用于截面为0.5mm2的线缆。因此,它在支持如下几个弱电子系统时,就存在局限性或不足。

2.1广播系统(PAS)根据我国电气规范,一般将电气设备工作电压为220/380V(交流50Hz)、有效值24V以下的交流信号确定为弱电信号。而在广播系统中,如采用定压输出,线路电压可分为70V、100V、120V三档。故在广播系统中采用综合布线,会对线缆产生过电压,长期使用会对线缆的寿命产生不良影响。另外,广播系统的线路用线截面一般为1.0~2.5mm2,而非屏蔽双绞线的线芯截面只有0.5mm2,相差甚远。

2.2火灾报警及控制系统(FAS)根据我国现行的火灾自动报警系统设计规范规定:火灾自动报警系统的信号传输线路的芯线截面,穿管敷设的绝缘导线不应小于1.0mm2,线槽内敷设的绝缘导线不应小于0.75mm2。而作为综合布线系统的非屏蔽双绞线其截面积为0.5mm2。显然不能满足我国火灾自动报警系统设计规范的要求。另外,在总线制的火灾报警系统中,电源线与控制线多采用1.5~2.5mm2的导线,综合布线系统也不能满足要求。需要指出的是:我国现行消防规范要求所有消防信号线、通讯线均不可与非消防线路共管敷设。因而要用综合布线产品支持火灾报警与控制系统,必须先获得当地消防主管部门的特许。

2.3共用天线电视系统(CATV)用综合布线产品支持CATV一般都采用光纤,因此,在线路放大器、分配器、分支器的两端要加装适配器,这无疑增加投资,而且因中间环节增多,系统的可靠性也降低了。

以上阐述了综合布线系统在我国支持各弱电子系统目前仍在的一些问题,那么是不是说结构化综合布线系统不能支持上述各个弱电系统?答案是否定的。对于一座智能化程度要求很高的建筑物,在规范允许和获得特许的前提下,可以利用综合布线产品的光纤和各种对数非屏蔽双绞线缆支持计算机网络和电话通讯系统,用同轴电缆支持CATV和CCTV(监视电视),采用截面为1.0~1.5mm2的特殊定货的非屏蔽双绞线支持FAS、PAS。

非结构化范文篇8

关键词智能建筑弱电子系统结构化综合布线

对于现代化智能建筑,尤其是办公楼宇的弱电设计,采用结构化综合布线系统已成为共识。但是,目前还存在着两种看法(或做法):一是主张将所有的弱电系统都建立在结构化综合布线所搭起的平台上,也就是用结构化布线代替所有的传统弱电布线;另一则主张将计算机网络布线、电话配线纳入到结构化综合布线中,而其他的弱电系统仍采用其特有的传统布线。究竟采取哪种布线方式较为合理,作者认为应结合具体项目,从所用方案的先进性、合理性、经济性等方面综合考虑方能得出结论。

1智能建筑弱电方案确定基本思路

首先分析一下结构化综合布线的优点:

(1)结构化综合布线使用了标准化的线缆和接插头模块,非常便于各楼层及本楼层间的信息点管理,使得因办公室搬迁等因素造成的大量终端设备、电话机移位时,只需将插头拔出、插入新的位置,然后在弱电设备间内做跳线处理或仅仅作些软件上的更改,即可重新投入使用,而不像传统布线那样无统一标准。当设备需要移位时,会带来许多管理上的不方便或需要重新布线,对建筑装璜造成较大的破坏。

(2)结构化综合布线的扩展能力强,因为对于五类非屏蔽双绞线可以提供155Mb/s信息的传输能力,除了满足当前各种网络的需要外,还能满足未来发展的需要。

根据上述结构化综合布线的两个优点,结合建筑物实际的各弱电系统,具有发展性和不稳定性的只有电话系统和计算机网络系统。而对于其他弱电系统,如火灾自动报警系统、保安监视系统、广播系统、电缆电视系统等设备,具有很好的固定性,且位置一般不会移动,对于一个固定的建筑物,这些系统的设备一经选定,频繁更新换代的可能性和必要性均很低。

根据以上所述,一般都在弱电设计中把电话系统及计算机网络系统的配线统一纳入结构化综合布线,而对其他弱电系统保持相对的独立性,仍采用传统的配线方式。

然而,采用上述方法还有其他一些原因,如当前大多数弱电设备厂家的系统与结构化综合布线系统不兼容。要想使这些弱电系统在结构化综合布线平台上运行,则必须增加转换设备。例如保安监控系统的摄像机,其输出的视频信号通常以同轴电缆传输,如果将其纳入结构化结合布线系统中,需在线路两端增加信号转换设备。显然,这样做既麻烦又不经济。

2综合布线在应用中存在的问题

应用中发现有的综合布线产品,如三类、五类非屏蔽双绞线其截面均为0.5mm2(美国线规AWG24),与之相配套的配线架,出线座都只能适用于截面为0.5mm2的线缆。因此,它在支持如下几个弱电子系统时,就存在局限性或不足。

非结构化范文篇9

【关键词】数学教学;结构化视角;教材解读

实施数学结构化教学,必须注重结构化的教材解读。从结构化的视角来进行教材解读,需秉持整体、关联、发展的思想,要求教师读通教材、读透教材、读活教材。在教材解读中,教师既要瞻前顾后,又要左顾右盼,还要融会贯通。教师只有从结构化的视角来解读教材,才能帮助学生建立相对稳定、清晰、系统的认知结构。结构化教材解读,要突破短时、孤立的“课时教材”解读窠臼,进而彰显数学知识的整体性意义。

一、结构化数学教材的特征

数学教材是一种结构化的教材,关联性、非均衡性、生长性是结构化教材的主要特性。数学教材的结构化不仅包括知识结构化,而且包括编排结构化、解读结构化。知识结构化是一种客观存在,编排结构化是一种教材形态,而解读结构化是教师基于自身视角对知识、教材的再加工,是一种创造性开发。

(一)关联性

数学知识是一个结构性的整体,知识与知识之间存在着千丝万缕的关联。作为教师,必须从知识整体上解读教材,要以联系、系统、结构化的眼光来解读,让教材解读超越单一的知识点的限制,以更为广阔、更为科学的视野来确定教学内容。关注知识的关联,往往需要教师的教材解读超越单元,甚至超越教材。如整数、小数和分数的加减法的法则,尽管表现形态不同,但其内在的数理是统一的。在教学中,教师应当从数理统一的视角展开,即“只有计数单位相同才能直接相加减”来引导学生认知。把握了数学知识之间的关联,教师就能根据关联进行组织、设计与安排教学,从而将相关的教学内容结构化展开。

(二)非均衡性

结构化的知识是均衡的,但结构化的教材知识却是不均衡的。不同版本的教材,其侧重点是不同的,其对于相同的教学内容,安排的年级也是不同的。比如人教版数学教材编排了“用数对确定位置”(五年级上册),北师大版数学教材编排了“用数对确定位置”(四年级上册)和“用方向和距离确定位置”(五年级下册),苏教版数学教材同样编排了“用数对确定位置”(四年级下册)和“用方向和距离确定位置”(六年级下册)。在三种版本的数学教材中,连贯性、结构性体现较好的应当是北师大版教材。在教材解读过程中,教师要将不同版本的教材进行比较,从中汲取其他版本教材的优势为我所用。教师只有对教材进行深度的文本解读,以及对教材进行比较解读,才能从根本上把握教材编排意图。

(三)生长性

结构化的教材解读是一种生长性的解读,它对教师的教材解读能力提出了新要求。在教学中,教师要以开放性、融入性的姿态,去梳理、确定、整合教材内容。指向学科大概念知识,教师在教材解读中要凸显层级性、关联性和阶梯性。以苏教版数学教材中“分数的意义”教学为例,第一次安排在三年级上册,主要让学生认识“一个物体、一个图形的几分之一”,拓展、延伸为认识“一个物体、一个图形的几分之几”;第二次安排在三年级下册,主要让学生认识“一个整体的几分之几”;第三次安排在五年级下册,主要让学生认识“单位‘1’的量的几分之几”。在每个学段,教师需要把握教学的侧重点,而不能揠苗助长,将后续的知识前置。同时,教师的教学应当具有一种开放性、概括性,以便学生在后续学习中能积极迁移已有知识。教师只有把握了教材内容的阶段性、开放性,才能让教学具有一种生长性。结构化教材解读是一种创造性的解读,能助力学生的结构化学习,助力学生在课程教学中生长。作为教师,要具有一种课程资源整合的能力,以生为本,找到课程教学与学生学习的最佳整合点、效应点。通过激发学生数学学习内驱力,帮助学生建构完善的知识结构、体系,从而提升学生的数学学习力,让学生的数学核心素养充分生长。

二、结构化数学教材的解读

对数学教材的结构化解读,教师要思前想后、承上启下,加强数学知识关联性的认知,从而让学生的数学学习从浅层迈向深层。作为教师,要立足学生立场审视教材,要用整体思维把握教材,要从单元视角整合教材,要全面梳理教材。在教材解读中,教师要进行单元扩充、单元重组等。结构化的数学教材解读,要秉持整体性原则、关联性原则和发展性原则,从而构建立体式的学习材料资源,形成一个相对稳定、清晰、系统化的认知结构。

(一)读懂教材:让知识结构化

结构化数学教材的解读,首先要读懂教材。读懂教材,首先要让教材中的知识结构化。在数学教材中,教师要把握教材内容的相同点、相似点等,对相关内容进行整合。教材内容不仅包括显性知识,而且包括隐性知识。显性知识不仅包括起眼的定理、公式、法则等,而且包括不起眼的提示、旁白等。在教材解读中,教师不仅要关注数学知识“是什么”,更要关注数学知识“为什么”;不仅要解读教材中的文字表面的意义,更要解读教材中的文字背后的意义。以苏教版数学四年级下册的“运算律”教学为例,“运算律”这一单元包括“加法交换律”“乘法交换律”“加法结合律”“乘法结合律”“乘法分配律”等,这些内容是“并列关系”,具有相似的学习结果结构和过程结构。为此,教师不妨将“加法交换律”和“乘法交换律”进行整合,将“加法结合律”和“乘法结合律”进行整合,并引导学生猜想“减法交换律”“除法交换律”等。通过结构化的知识解读,我们不难发现,对于这部分内容,可以撇开加法和乘法的运算,引导学生思考“交换律”“结合律”本身的特征,即“交换律改变数的位置、顺序,而计算的顺序不变”“结合律是数的位置、顺序不变,变化的是计算的顺序”等。将数学知识结构化,将相关数学知识进行整合,可以让学生学得更加轻松、更加便捷、更加具有效能。对数学知识进行结构化整合,不仅可以将相关、相近的内容进行统整,而且可以将相反、相对的内容进行统整。如将正反比例的意义内容进行整合,将“求一个数比另一个数多(少)几分之几(百分之几)”等内容进行整合等。数学知识的结构化,要高点定位,把握重难点。

(二)读透教材:让认知结构化

读懂教材,往往是着眼于某一个知识点。而读透教材,则不仅要求教师将着眼点放置在知识点上,更要求教师将着眼点放置于单元之中,着眼于整体教材之中,读透教材,要求教师将学生认知结构化。读透教材,不仅要把握知识生长脉络,还要把握教材脉络;不仅要静态地把握教材,还要动态地把握教材;不仅要注重学生认知的阶段性,还要注重学生认知结构的流动性。美国教育心理学家布鲁纳曾说:“学习就是认知结构的组织、重新组织,学习结构就是学习事物是如何联系的。”在教学中,教师要根据学生的具体学情,找准认知起点,明确认知重点,把握认知取向。认知的结构化,要求教师瞻前顾后,如“认识小数”这部分内容,在苏教版数学教材中是分两次展开教学的。第一次是在三年级下册,其课题为“小数的初步认识”,主要让学生认知一位小数,是一种直观的、感性的认知。教材中对于每一个小数,都配备了相关的插图进行诠释;小数的大小比较也仅仅限于一位小数的大小比较。第二次是在五年级上册,是在认识一位小数的基础上展开的,其内容异常丰富,主要包括小数的意义、数位顺序、小数的性质、小数的化简、改写与保留等。瞻前顾后,教师要读透教材,把握每一学段教学目标,既要找准学生的认知起点,又要明确该知识的认知发展意义,从而引导学生自主建构知识体系,让学生的认知结构化。认知结构化是指在学生数学学习心理之间搭建开放性、包容性的认知图式。比如在“小数的认识”这部分内容的教学中,学生认识了小数后,就为进一步认识小数的意义奠定了坚实的基础。相较于知识结构化,认知结构化更牢固,更扎实,更具有迁移力、生命力。

(三)读活教材:让策略结构化

非结构化范文篇10

关键词:电力设备检修;文本数据;文本挖掘;大数据挖掘

随着信息化的快速发展,国家电网公司各专业积累的数据量越来越庞大。庞大数据的背后,由于数据结构和存储方式的多样化以及电力系统内部不同专业从业者的知识面层次不齐等,其中被利用的数据只占少量的部分,造成大量的有价值数据被浪费。在被浪费的数据中,以文本形式存在的数据占很大比重,如何从比较复杂的文本数据中获得需要的数据受到国家电网公司的普遍关注。国家电网公司经过SG186、三集五大等大型信息化工程的建设,积累了海量的业务数据,其中包括大量的文本数据。目前,国家电网公司对业务数据的利用主要集中在结构化数据的统计和分析,这些方法无法直接应用在非结构化文本数据中,更无法对其中隐含的价值规律进行深度分析挖掘。针对非结构化文本数据量不断增大、业务应用范围不断扩大这一现状,为了提升国家电网公司企业运营管理精益化水平,需要进一步挖掘非结构化数据中潜在的数据价值。因此,开展电力大数据文本数据挖掘技术应用场景和一般流程的研究显得尤为重要[1]。

1非结构化数据概述

与结构化数据(能够用二维表结构遵循一定的逻辑语法进行体现的数据)相比,非结构化数据不能在数据库中采用二维结构逻辑形式来表示,这些形式主要有Word文档、文本、图片、标准通用标记语言下的子集XML、HTML、Excel报表、PPT、Audio、Video、JPG、BMP等。半结构化数据处于完全结构化数据(逻辑型、关系型数据库中的数据)和完全无结构化数据(BMP、JPG、Video文件)中间,它一般的功能是对系统文件的描述,如系统应用帮助模块,有一定的逻辑结构,同时也包含数据格式,两者相融在一起,比较均衡,没有明显的界限[2]。进入21世纪后,网络技术飞速发展,特别是内联网和因特网技术取得突飞猛进的发展,各类非结构数据类型格式日益增多,以往的数据库主要用于管理结构化数据,对于非结构化数据的管理稍显乏力,为了适应非结构数据的迅猛发展,数据库的革新势在必行,在内联网和因特网技术的基础上,对数据库的内在结构进行改进和创新,使其能够兼容和处电力信息与通信技术2016年第14卷第1期8电力大数据技术理非结构数据形式。北京国信贝斯是我国非结构化数据库开发和设计的领军者,其旗下开发的IBase数据库能够兼容和处理目前市面上存在的各种文件名、格式、多媒体信息,能够基于内联网和互联网对海量信息进行搜索、管理,技术已经达到全球领先水平。

2文本挖掘技术

2.1文本挖掘

文本挖掘的对象是用自然语言描述的语句、论文、Web页面等非结构化文本信息,这类信息无法使用结构化数据的挖掘方法进行处理;文本挖掘指通过对单个词语和语法的精准分析,通过分析结构在海量的非结构化数据中检索意思相近的词语、句子或者信息[3]。

2.2文本挖掘流程

挖掘流程如图1所示。图1挖掘流程Fig.1Miningprocedure1)文本预处理:把与任务直接关联的信息文本转化成可以让文本挖掘工具处理的形式,这个过程分3步:分段;预读文本,把文本特征展现出来;特征抽取。2)文本挖掘:完成文本特征抽取后,通过智能机器检索工具识别符合主题目标的文段信息,在海量信息或者用户指定的数据域中搜索与文本预处理后得出的文本特征相符或相近的数据信息,然后通过进一步识别和判断,达到精确检索的目的,这是一个非常复杂的过程,纵跨了多个学科,包括智能技术、信息技术、智能识别技术、非结构数据库技术、可视化技术、预处理技术、读码技术等。3)模式评估:模式评估是用户根据自己的需求主题设置符合自己需求主题或目标的模式,把挖掘到的文本或信息与自己设置的模式进行匹配,如果发现符合主题要求,则存储该数据和模式以方便用户调用,如果不符合,则跳转回原来的环节进行重新检索,然后进行下一个匹配过程的模式评估。

2.3文本挖掘技术分析

解决非结构化文本挖掘问题,现阶段主要有2种方法:一是探索新型的数据挖掘算法以准确挖掘出相应的非结构化数据信息,基于数据本身所体现的复杂特性,使得算法的实施愈加困难;二是把非结构化问题直接转换成结构化,通过实施相应的数据挖掘技术达到挖掘目的。而在语义关系方面,就要应用到特定的语言处理成果完成分析过程。下文是根据文本挖掘的大致流程来介绍其所用到的相关技术。

2.3.1数据预处理技术

文本数据预处理技术大致可分为分词技术、特征表示以及特征提取法。1)分词技术主要有两大类:一种为针对词库的分词算法;另一种为针对无词典的分词技术。前者主要包含正向最大/小匹配和反向匹配等。而后者的基础思路为:在统计词频的基础上,把原文中紧密相连的2个字当作一个词来统计其出现的次数,若频率较高,就有可能是一个词,当该频率达到了预设阈值,就可把其当作一个词来进行索引。2)特征表示通常是把对应的特征项作为本文的标示,在进行文本挖掘时只需要处理相对应的特征项,就能完成非结构化的文本处理,直接实现结构化转换目的。特征表示的建立过程实际上就是挖掘模型的建立过程,其模型可分为多种类型,如向量空间模型与概率型等[5]。3)特征提取法通常是建立起特定的评价函数,以此评价完所有特征,然后把这些特征依照评价值的高低顺序进行排列,将评价值最高项作为优选项。在实际文本处理过程中所应用的评价函数主要包括信息增益、互信息以及词频等。

2.3.2挖掘常用技术

从文本挖掘技术的研究和应用情况来看,在现有的文本挖掘技术类别中应用较为广泛的主要包括文本分类、自动文摘以及文本聚类[4-5]。1)文本分类。文本分类是给机器添加相应的分类模型,当用户阅读文本时能够更为便捷,在搜索文本信息时,能够在所设定的搜索范围内快速和准确的获取。用于文本分类的算法较多,主要有决策树、贝叶斯分类、支持向量机(SVM)、向量空间模型(VectorSpaceModel,VSM)、逻辑回归(LogisticRegression,LR)以及神经网络等。2)自动文摘。自动文摘是通过计算机技术智能的把原文的中心内容浓缩成简短、连续的文字段落,以此来尽可能地降低用户阅读的文本信息量。3)文本聚类。文本聚类与文本分类的作用大抵相同,所实施的过程有所区别。文本聚类是将内容相近的文本归到同个类别,尽可能地区分内容不同的文本。其标准通常可以依照文本属性或者文本内容来进行聚类。聚类方法大致可分为平面划分法与层次聚类法。另外,除了上述常用的文本挖掘技术,许多研究还涉及关联分析、分布预测分析和结构分析等。

2.3.3文本挖掘系统模式评估方法

数据挖掘系统的评估是至关重要的,现在已有大量的研究来衡量这一标准,以下是公认的评估方法。1)查全率和查准率。查全率代表实际被检出的文本的百分比;查准率是所检索到的实际文本与查询相关文本的百分比。2)冗余度和放射性。冗余度表示信息抽取中冗余的程度;放射性表示一个系统在抽取事实不断增多时产生错误的趋势。最低的冗余度和放射性是系统追求的最终目标。3)双盲测试。先用机器生成一组输出结果,再由相关专家产生一组输出结果,然后混合2组输出结果,这种混合后的输出集再交给另一些相关专家进行验证,让他们给予准确性方面的评估。

3电力行业文本挖掘可研究实例

文本挖掘技术在国内电力行业属于新兴的前沿领域,对从业人员的素质要求相对比较高。由于现阶段知识和技术层面上匮乏,国家电网几乎没有关于此方面的项目实施。本节通过2个电力运营监测业务的应用需求,初步探讨文本挖掘的建模过程。

3.1电力运营监测业务应用需求

1)检修资金投入工作效能分析场景分析。大检修和技改是保障电网安全的重要工作。由于运检业务系统的数据质量问题,通过对量化数据的统计,无法准确掌握大修、技改资金投入的工作效能情况。但设备的实际运行状态可以通过文本类故障记录、运行日志等进行反映,因此,采用文本挖掘技术对检修工作效能进行分析与可视化展现,同时结合传统的统计方法,实现对大修技改资金投入工作效能的分析和监测。例如,可以通过分析历年的故障记录信息,反映出每年主要故障变化情况,进而结合每年大修技改资金投入情况,分析资金投入是否与预期目标相一致。2)家族缺陷识别分析。家族缺陷是指同一厂家生产的同一型号、同一批次的设备在运行过程中出现了相同或相似的缺陷。家族缺陷识别分析是通过对运行记录、故障记录等设备运行文本信息的挖掘和可视化分析,对设备家族缺陷进行识别。该场景既可以辅助基层业务人员对家族缺陷进行准确判断,同时可以作为一种辅助手段为总部专家判定家族缺陷提供参考,从而实现对家族缺陷辨识方式的优化,并基于此为检修计划制定、厂商评价、采购建议等提供决策支撑。

3.2文本分析建模过程

第1步:将原始的非结构化数据源转换为结构化数据,分析文本集合中各个文本之间共同出现的模式;汇总与家族缺陷相关的所有文档,形成原始数据源的集合。第2步:对原始数据源的集合进行分词处理,建立特征集,使用词频/逆文档频率(TermFrequency-InverseDocumentFrequency,TF/IDF)权值计算方法得到各个点的维度权值,判断关键字的词频,例如“主变1号”运行记录中多次出现,但在故障记录中很少出现,那么认为“主变1号”有很好的类别区分能力。第3步:对分词后的文档建立索引,汇总所有文档的索引形成索引库,并对索引库排序。第4步:文档向量化;构建向量空间模型,将文档表达为一个矢量,看作向量空间中的一个点;实际分析过程中对多维数据首先将其降低维度,降低维度后得到一个三维空间模型,文档向量化生成文档特征词对应表、文档相似度表。第5步:结合业务实际,对相似度较高的表中出现的关键字进行比对,例如:“主变1号”、“停电故障”等关键字在多个日志中频繁出现,则该文档所记录的相关设备存在异常的可能性较大。

3.3文本分析应用及成效

对生产信息管理系统中报缺单数据中的报缺单名称进行文本聚类,实现对缺陷的细分,进而对各类别在非聚类变量上进行分析,得出各类别的缺陷特征。经过近一年以来在国网辽宁电力公司的逐步应用,科学的分析挖掘出缺陷主要集中在开关、主变、指示灯、直流、冷却器、调速器等设备,主要出现启吕旭明(1981–),男,河北保定人,高级工程师,从事电力企业信息化、智能电网及信息安全研究与应用工作;雷振江(1976–),男,辽宁沈阳人,高级工程师,从事电力信息化项目计划、重点项目建设、信息技术研究与创新应用、信息化深化应用等相关工作;赵永彬(1975–),男,辽宁朝阳人,高级工程师,从事电力信息通信系统调度、运行、客服及信息安全等相关工作;由广浩(1983–),男,辽宁辽阳人,工程师,从事信息网络建设、信息安全等工作。作者简介:动、漏水、停机、渗水等缺陷现象。公司故障处理快速响应、及时维修、提高供电质量和服务效率得到了显著的提升。电力设备故障缺陷特征示意如图2所示。

4结语

国家电网文本挖掘的目的是从海量数据中抽取隐含的、未知的、有价值的文本数据,利用数据挖掘技术处理电力公司文本数据,将会给企业带来巨大的商业价值。本文提出的关于检修资金投入工作效能分析和家族缺陷识别分析2个文本挖掘实例只是文本挖掘在电力行业应用的一角。如今,数据挖掘技术与电力行业正处于快速发展阶段,文本挖掘的应用将越来越广泛。下一阶段的研究目标是探寻有效办法将数据挖掘技术融入到文本挖掘领域的实际应用中,使得国家电网文本挖掘项目得以顺利实施,并达到预期成效。

作者:吕旭明 雷振江 赵永彬 由广浩 单位:国网辽宁省电力有限公司 国网辽宁省电力有限公司 信息通信分公司

参考文献:

[1]费尔德曼.文本挖掘(英文版)[M].北京:人民邮电出版社,2009.

[2]孙涛.面向半结构化的数据模型和数据挖掘方法研究[D].吉林:吉林大学,2010.

[3]胡健,杨炳儒,宋泽锋,等.基于非结构化数据挖掘结构模型的Web文本聚类算法[J].北京科技大学学报,2008,30(2):217-220.HUJian,YANGBing-ru,SONGZe-feng,etal.Webtextclusteringalgorithmbasedonnonstructuraldataminingmodel[J].JournalofUniversityofScienceandTechnologyBeijing,2008,30(2):217-220.