第4章
知识图谱构建

如前所述,知识图谱可以将业务需求概念、事理知识、海量实体状态关联、聚合,为业务提供更全面的认知能力。知识图谱构建的业务目标是将企业分散的数据知识,在业务知识体系约束下通过知识抽取、知识融合等技术构建为知识图谱。知识图谱构建是一项成本高、耗时长、技术挑战大的系统化工程。以Cyc、Freebase等开放域知识图谱为例,其整体建设耗资数亿美元,单个三元组成本高达2~6美元。企业构建业务知识图谱,不仅涉及数据的采集、存储与计算、人工智能模型训练的基础设施成本,还涉及业务人员、业务专家、开发人员的人力成本。那么,在企业实践中应该如何最大化降低知识图谱构建成本,提高构建效率呢?

随着机器学习、深度学习技术在自然语言处理、图计算领域的快速发展,新的实体抽取、关系抽取、实体链接等知识图谱构建的模型算法不断涌现,业内不少知识图谱相关图书已从理论、算法、开源工具方向介绍了知识抽取、知识融合的基础知识。然而,在知识图谱构建的企业业务实践中,开发人员不可避免地会面临文档数据来源分散、专家样本获取困难、模型准确率不高、自动化程度低等挑战,那么应如何建设系统化知识图谱构建工具,合理地进行算法、系统、平台等技术选型,从企业的文档、业务数据中构建知识图谱,为业务带来价值呢?

企业级知识图谱构建是建立在企业信息与数据系统基础上的企业知识化工作。不少企业通过信息化、数字化、数据智能化转型已建设了企业级数据仓库、大数据计算与人工智能平台,那么知识图谱的构建任务应如何依托企业数据生产平台,将原有的数据平台、人工智能平台的数据生产流水线迭代、升级为知识图谱构建生产线呢?

本章介绍知识图谱构建的基本原理及系统解决方案,首先介绍知识图谱构建的流程,分享企业级知识图谱构建系统的数据流水线与整体技术架构;然后围绕知识抽取、知识融合两大核心流程的痛点,介绍相应的解决方案;最后分享知识质量校验体系,包括知识图谱准确度、可用性的评估方法等。