专利信息系统设计论文

时间:2022-04-02 11:25:44

专利信息系统设计论文

1专利信息可视化分析系统的需求分析

1.1专利信息可视化分析系统的建设目标

专利信息可视化分析系统的设计是把商业智能(BI)技术应用于专利信息分析,主要是为了实现以下建设目标:①引入专利分析指标,用户可以不用知道专利指标的计算方式,只需要了解这些指标的用途,就可以利用系统得出分析结果。②建立多维分析系统,为用户从多角度分析问题提供可靠的工具,从而为专利申请和专利战略制定提供准确、及时的依据。③为企业了解竞争对手的核心技术和研究热点领域及确定专利申请战略、专利实施战略与专利保护战略服务。④为发现科技创新人才提供支持。⑤为国家从宏观层面发现技术发展趋势、提升科研水平、制定投入与产出规划等提供决策支持。这些建设目标决定了专利信息可视化分析系统设计的功能目标,主要包括功能体系结构的说明、各模块之间关系的描述、系统界面形式的选择以及各个功能模块的设计。

1.2专利信息可视化分析系统的主要功能

专利信息可视化分析系统最主要的功能是对专利数据进行可视化分析并绘制相关图谱以及对相关数据进行挖掘与预测。专利信息可视化分析系统的总体功能结构。专利信息可视化分析系统主要由四大部分组成,即数据仓库、ETL系统、OLAP和数据挖掘。数据仓库是专利数据的存储地;ETL系统可以批量地把异构的专利数据进行处理;OLAP系统是多维分析专利数据的技术核心;数据挖掘就是从大量的专利数据中发现隐藏的模式和规律。

1.3专利信息可视化分析系统的性能需求

与一般信息系统的性能需求相同,专利信息可视化分析系统的性能需求主要包括安全性需求、可靠性需求、用户界面需求、响应时间需求、灵活性需求、故障处理需求、可扩展性需求等。

1.4专利信息可视化分析系统的功能需求

专利信息可视化分析系统的功能需求可以定义为两大类,即多维数据数分析和专利数据挖掘。多维数据分析即多角度分析数据,专利信息可视化分析系统的分析角度包括专利申请时间(从整体和技术领域分析专利申请的趋势)、专利公开时间(分析专利的公开趋势,专利申请与公开的时间差,即专利申请延迟公开的大致时间)、专利机构和人(分析和评估专利机构和人)、专利申请地域(分析专利地域分布趋势及各地域技术优势和人才分布情况)、专利权人(分析专利权人的技术状况、专利申请状况、专利质量和研究热点等)、专利发明人(发现高产专利发明人和核心技术人员,与专利分类号结合可以分析专利发明人的技术特点)、专利分类号(从IPC分类和专利技术领域分析专利信息,结合区域、发明人和专利权人可以综合分析专利数据,确定各区域、发明人、专利权人的技术特点和优势)、专利授权(观察专利授权状况及相关法律状态)、专利失效(观察专利失效状况)和专利类型(分析专利类型,并结合其他角度进行综合分析,如专利技术生命周期)等。用户可以自由选择数据分析的角度,系统还需提供数据筛选功能,如制定特定的专利权人和时间段作专利分析,即数据切片,系统必须提供数据切片功能。专利数据挖掘功能包括专利发明人关联分析、专利权人关联分析、IPC关联分析、专利引证分析、专利聚类分析和专利申请时序分析等。专利发明人关联分析用来发现专利发明人之间的合作发明状况,并可以通过这个模型为企业选择合适的发明人和技术人才;专利权人关联分析用来发现专利权人之间的关系网络;IPC关联分析用来发现专利技术领域间的关系;专利引证分析利用专利之间的引用关系发现基础专利、核心专利、技术演变过程;专利聚类分析用来对专利数据进行划分;专利申请时序分析用来预测未来的专利发展趋势。

2专利信息可视化分析系统的设计思路

2.1专利数据仓库建立

2.1.1维度建模

数据仓库的模型构建与一般事务型数据库模型构建方式不同。美国的K.Ralph在长期的数据库分析与设计中总结出了一种“维度建模”法。维度建模是一种将数据结构化的设计方法,并且提供快速查询功能。维度将对象分为度量和上下文。度量常常以数值形式出现,称为“事实”,事实被大量文本形式的上下文包围。上下文被直观地分割成多个独立的逻辑块,称为“维”。维度描述了度量上下文的“5W”(即Who、What、When、Where和Why)信息以及作用方式。

2.1.2专利数据的特征

充分了解现有数据的真实情况是影响数据仓库模型的重要因素。本系统通过中国专利数据库获取了2000—2012年湖南省专利申请数据共计93754条,这些专利数据包括发明专利和实用新型专利,但不包括外观专利。

2.2专利数据处理

2.2.1专利申请日和公开日处理

专利申请日和公开日处理的过程如下:首先从原始的专利数据源的公开日字段和申请日字段提取出日期数据,然后将这两个字段的记录合并成为一个数据集,由于这个数据集中有大量的冗余数据,为提供性能需去除重复的数据,这里采用聚合的方式去除冗余数据。

2.2.2专利分类号处理

1)专利分类号处理的方案。原始数据中的专利分类号表述形式为C11B1/00(2006.01)I;C11B1/04(2006.01)I,以“;”为拆分符拆成多条记录存入数据仓库。这个步骤的处理将IPC数据首先存入DimIPC维度表,其次还要将IPC和专利申请号关联起来载入FactIPC事实表进行技术分析。专利分类号处理通常有3种方案,根据专利数据处理时间和结果,本文采用方案三。2)专利分类号处理的数据流。专利分类号的处理由3个数据流和1个包含在循环容器中的数据流所组成,这4个数据流的具体执行方式如图9所示。数据流1把原始数据中的专利申请号字段和分类号全部读取到临时的记录集中,但是在FactIPC中已存在的不再读取。这时记录集中记录是以“[专利申请号|分类号1;分类2;……]”的形式存储。

2.2.3专利事实表处理

专利事实数据处理可以包括3个方面:①专利申请区域处理;②专利机构处理;③其他数据规范化处理。如图10所示。

2.2.4专利授权和专利失效数据处理

专利授权数据处理比较简单。先把FactPatent事实表中的专利是否授权字段置为0,0代表专利没有授权。在原始数据源中读取的专利数据都是已经授权的专利数据,这里只要把获得原始数据中的专利申请号与FactPatent事实表中的数据进行比对,如果存在则将FactPatent事实表中的专利是否授权字段置为1,表示该条专利已经授权。专利失效的处理同专利授权。

2.2.5其他处理

专利发明人的拆分处理和专利权人的拆分处理与专利分类号处理类似。另外,还需要对一些在上述步骤中存在但尚未入库的数据进行手工处理。比如在进行专利事实数据处理的过程中,存在区域无法匹配的数据,要仔细检查这些数据的错误原因,然后修改再入库。

3SSIS包处理和数据检查

SSIS包建立好后接下来就是执行。SSIS包执行完以后,这时数据仓库中已有了专利数据,为了确保数据的准确性还需要对数据进行检查,看看是否存在异常。而最重要的一步检查是查看专利的记录数是否与搜集的数据吻合。

作者:文庭孝杨忠刘晓英单位:中南大学湘潭大学