金融科技创新应用分析:知识图谱是什么?怎么用?
来源: | 作者:Alex | 发布时间: 2021-07-09 | 1734 次浏览 | 分享到:

6月4日,广州公示金融科技创新监管工具第二批创新应用项目,其中包括4个项目,涉及国有商业银行、股份制商业银行、科技企业、研究机构和监管机构。

在具体应用项目上,有两个项目使用到知识图谱技术,分别是《基于知识图谱技术的风险交易预警服务》和《基于知识图谱的外汇违法违规风险行为识别应用》,申请机构分别为农业银行广东分行和国家外汇管理局广东分局、广发银行。

知识图谱是什么?

有人说,现在我们的身边充斥着太多信息,多到让人无法找出自己想要的那些,这句话在某种程度上说明了问题。机器和软件不懂人类要什么,不知道什么是重要的,它们能做的就是将所有信息都罗列出来,这势必会造成大量无效信息的堆积。

知识图谱可以解决这个问题,通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法同计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的。

简单的说,知识图谱就是从大量的信息和数据中提取到有效的、重要的信息,过滤掉无效的、重复的信息,并以图谱形式展示。在逻辑上,知识图谱分为数据层、模型层两层结构。

数据层是一系列事实所组成,模型层则建立在数据层之上,是知识图谱的核心,在模型层存储的是经过提炼的知识。

举个例子,“拜登——总统——美国”、“拜登——年龄——78岁”属于知识图谱的模型层,其中“拜登是美国的总统”、“拜登今年78岁”则是属于数据层。

在这里面还有一个重要的概念:本体,在模型层的管理上,通常采用本体库来进行管理。本体是知识的抽象,大多数本体描述的都是个体(实例)、类(概念)、属性以及关系。如果我们要做图书领域的知识库或者知识图谱,首先要对图书进行分类,这个分类就是本体。

如何构建知识图谱?

知识图谱构建从最原始的数据(包括结构化、半结构化、非结构化数据)出发,采用一系列自动或者半自动的技术手段,从原始数据库和第三方数据库中提取知识事实,并将其存入知识库的数据层和模型层,这一过程包含:信息抽取、知识表示、知识融合、知识推理四个过程,每一次更新迭代均包含这四个阶段。

信息抽取:从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达;

知识融合:在获得新知识之后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等;

知识加工:对于经过融合的新知识,要经过质量评估之后(部分要人工参与甄别),才能将合格的部分加入到知识库中,以确保知识库的质量;