AZFT知识引擎实验室 | CCAI知识工程专题-可微知识图谱推理及在电商和金融领域的应用
Sun Nov 01 13:29:35 CST 2020

1 知识图谱与推理

    推理能力(Reasoning)是人类心智区别于普通物种的重要特征之一。人类通过推理从已知的事实来获取和习得新的知识,包含了认知、理解、抽象、演绎、归纳、溯因、类比等多种不同形式的推理思维过程。利用机器实现类似于人类心智的推理能力是人工智能自诞生以来最核心的目标和任务之一。


    知识图谱的早期理念源于万维网之父 Tim Berners-Lee 关于语义网(The Semantic Web) 的设想,旨在基于图的结构(Graph Structure)来刻画世界万物之间的关联关系,并通过互联网记录、共享和沉淀关于世界万物的知识(Knowledge)。经过近二十年的发展,知识图谱数据及技术已经在搜索引擎、智能问答、辅助语言语义理解、视觉深度理解、物联设备抽象、大数据决策分析等众多领域得到广泛应用。


    推理是知识图谱的核心技术和任务。简而言之,知识图谱推理的目标是利用图谱中已经存在的关联关系或事实来推断未知的关系或事实,在知识图谱的各项应用任务中发挥着重要作用。例如,推理可以用来实现链接预测、补全缺失属性、检测错误描述、识别语义冲突以提升图谱质量等。在查询和问答中,推理可以用来拓展问句语义和提高查询召回。在推荐计算中,推理可用来提升推荐的精准性和可解释性。此外,推理在深度语言语义理解和视觉问答中也扮演必不可少的角色。凡是包含深度语义理解的任务都会涉及推理的过程。


图1 知识图谱与机器推理

2 符号逻辑与表示学习的融合

    当前在知识图谱上实现推理大致可以分为两类:基于符号逻辑(本体公理或符号规则)的方法和基于表示学习方法。传统基于符号的方法主要优点是具备可解释性,主要缺点是不易于处理隐含和不确定的知识;基于表示学习的方法主要优点是推理效率高且能表征隐含知识,主要缺点是丢失可解释性。下面分别对这两类推理方法做概要介绍。


图2 表示学习与符号逻辑的融合

2.1 基于符号逻辑的知识图谱推理

    传统的知识图谱推理研究主要关注确定性的演绎推理。典型的在知识图谱上实现演绎逻辑推理的算法或方法有Tableaux、Datalog、Rete等。例如,通过定义本体公理(Ontological Axioms)或逻辑规则(Rules)可以实现基于演绎推理的关系补全和不一致性推理。


    如表1所示,第二列展示了采用OWL本体语言来定义一个属性链公理(Property Chain)来实现多跳关系推理的例子;第三列则展示了采用非对称公理(Asymmetric Axiom)来检测图谱中的错误三元组的例子。


表1 基于本体公理的知识图谱推理举例
    演绎推理的优点是精确且具有可解释性,即:每一条经过推理机推断出的新知识都可以通过回溯推导链来对结果进行解释。但其主要缺点是要求人工定义逻辑严谨的推理规则,因而覆盖面窄不易于扩展,且无法处理隐含或不确定的知识。

    为了避免人工定义规则,另一类方法采用基于统计归纳的方法自动地从事实库中学习规则,再利用这些从大数据中总结归纳出的规则实现推理。典型的算法如路径排序算法PRA和规则学习算法AMIE。这类方法的基本思想是通过学习实体关系的关联特征,如路径、子图等,来归纳抽象的逻辑规则。这类方法的主要优点是减少了人工定义规则的工作量,且可以利用图的关联结构对推理过程进行解释,但规则学习的计算量较大,且无法表示隐含或不确定的知识。


2.2 基于表示学习的可微知识图谱推理

    基于表示学习的知识图谱推理模型将实体和关系都投影到一个向量空间,即利用低纬稠密的向量或矩阵来表示实体和关系,并基于向量或矩阵计算来完成推理过程。例如,给定一个三元组(h,r,t),线性映射假设模型DistMult采用向量vh , vt来分别表示头尾两个实体,用矩阵Mr来表示关系,并利用向量之间的线性映射计算来作为三元组真值的得分函数 以实现推理。例如,假如知识图谱中存在三元组(John, hasParent, Mike),我们可以用如下公式来计算该三元组存在的真值:


    参数化的向量是基于知识图谱中已有的知识作为自监督信号得到的位于向量空间中的一种近似表示。这种近似表示一方面是通过可微的表示学习过程所获得的,并会因为新知识的加入而发生变化,因而本质是一种不确定性的知识表示方法;另外一方面基于向量或神经网络的推理计算本质是通过可微学习过程所获得的对推理结果的近似逼近,因而推理过程和结果也具有不确定性。因此,相比起基于演绎推理和符号规则学习的方法,基于表示学习和神经网络的方法更易于表示不确定的知识和实现不确定的推理。此外,由于推理的过程简化为矩阵计算,免除了不易于扩展的符号匹配和规则搜索的过程,因而推理效率更高。

    然而,用向量来表示实体和关系,以及用黑盒的神经网络来做推理计算所带来的两个核心问题是:可解释性和稀疏性。一方面,由于 推理的结果完全依靠了向量计算完成,而非像符号推理一样可以跟踪和回溯推理步骤,因而无法对推理结果提供解释。另外一方面,实体或关系的向量表示学习都要求知识图谱中已经存在一定数量的包含该实体或向量的三元组。然而真实的知识图谱存在大量的长尾实体或关系。知识图谱的稀疏性将导致无法学习到充分表达的向量表示,进而影响推理的准确性。

3 融合表示学习与符号规则的知识图谱推理

    本节介绍一个称为IterE的知识图谱推理方法将符号规则与知识图谱嵌入学习相结合。这种方法将基于归纳学习的知识图谱嵌入(Knowledge Graph Embedding)和基于本体公理规则(Ontological Axioms)的演绎推理相结合。一方面利用本体规则提升知识图谱中稀疏实体和关系的表示学习效果,另外一方面本体规则由于其符号表示特性,也增强了表示学习推理的可解释性。


    如图3所示,IterE框架主要包含三个模块:嵌入学习(Embedding Learning),本体规则归纳(Axiom Induction),和规则植入(Axiom Injection),简要介绍如下:

    上述三个模块以迭代方式相互影响。例如,通过Axiom Injection过程新增加的三元组将再次送到Embedding Learning模块中以更新嵌入学习的结果,再进而开始第二轮迭代,直至收敛。
图3 图谱嵌入与本体规则的迭代互补学习
    IterE的一个核心步骤是基于实体和关系的向量表示来学习本体规则(Embedding-based Axiom Learning)。一方面实体和关系的向量表示可以加速规则学习的过程,另外一方面这些学习出的规则可以进一步用来推理获得更多的三元组,特别是为稀疏实体增加更多的三元组。


    如表2所示,我们重点研究了OWL本体语言中的七种最常见的本体公理规则。例如,inverseOP可以用来定义两个关系为互反关系, 假如定义规则inverseOP(hasParent, hasChild),并已知三元组(John, hasParent, Mike),基于规则定义的互反关系语义可以推理得出(Mike, hasChild, John)。

表2 七种本体公理规则及其对应的表示学习方法

    本文结合向量表示进行规则挖掘的思路建立于我们发现了基于线性变换假设的表示学习模型对于规则挖掘具有很好的友好性。基于这一特性,我们为每一种类型的本体规则设计了该规则对应的结论(Rule Conclusion),并基于这些结论来归纳学习与关系有关的本体规则。
    
    举例说明,假如搜索发现知识图谱中同时存在(John, hasParent, Mike)和(Mike, hasChild, John)。依据线性变换假设,这些实体和关系的向量表示必须满足:vjohnMhasParent=vmike和vmikeMhasChild=vjohn. 如果这两个公式要求同时满足,则必有MhasParentMhasChild=I。其中I是单位矩阵(Identity Matrix)。这意味着,如果我们发现知识图谱中两个关系的矩阵相乘接近于一个单位矩阵,我们就可以向知识图谱中新增加一条归纳出来的互反关系规则。这些被归纳学习出的新规则将在Axiom Injection的环节中被用来推理和增加更多的三元组。其他本体规则对应的Rule Conclusion如表1所示。
 
    我们在4个数据集上对IterE进行了实验,并主要针对三个方面进行了实验验证。首先,通过链接预测的实验我们证明了本体规则学习确实帮助提升了稀疏实体预测结果。原因是基于本体规则的演绎推理可以为知识图谱中的稀疏实体增加新的三元组,这些新增的三元组将会提升相关实体和关系的向量表示的准确性。


    其次,我们验证了基于嵌入学的方法可以有效提升本体规则挖掘的效率,原因是基于嵌入表示对规则进行学习避免了了复杂的图搜索过程。此外,实验还证明在逐步迭代的过程中,表示学习结果和规则挖掘结果都实现了逐步增强,说明了迭代策略的有效性。


    最后还需要特别指出的是,整个框架将图谱嵌入学习和符号规则学习相结合,显示的符号规则将有助于提升表示学习模型的可解释性。对于这一点将在下一节有关电商场景的实际应用中进一步阐述。

4 电商知识图谱推理应用

    本节介绍知识图谱推理在阿里巴巴藏经阁知识引擎中的应用。阿里藏经阁知识引擎旨在建立面向商品知识图谱的知识引擎关键技术,主要包含五大技术模块:知识获取、知识建模、知识推理、知识融合以及知识服务。基于这些技术模块开发的知识引擎产品已经在淘宝、天猫、盒马、飞猪、天猫精灵等十几种产品上取得应用。下面重点介绍知识图谱推理在其中的一些实现和应用。


4.1 应用场景

    在商品知识图谱中,推理一方面被用于补全缺失的知识或推断新关联关系,另外一方面也被用来侦测冲突的知识以提升知识质量。例如在智能导购和商品推荐等应用中,推理被用来从大量的场景、用户和商品实体中预测缺失的“场景-商品-用户”关联关系,例如预测“小朋友的生日聚会”场景与多个有年龄属性约束的生日类商品之间的关联关系,并最终用于提升商品推荐的效果。在智能管控应用中,推理被用来侦测知识描述中的不一致性,例如侦测“低糖食品”与“含糖量大于60%”两个知识描述之间的冲突,以便识别虚假营销。在商品的归一化应用中,需要基于规则逻辑来判断两个来源不同的实体之间的SameAS关系等等。



图4 电商知识图谱推理应用场景

4.2 电商知识图谱推理

    如图4所示,阿里商品知识图谱主要包含两类知识,即:700亿+的三元组形式的商品描述型知识和300万+的电商业务规则型知识。其中规则型知识一个重要价值是可快速被迁移至相似的业务场景下进行复用。典型的规则例子如下:



    在电商业务场景下,我们需要一种能有效结合图谱嵌入和规则学习的推理方法。一方面我们需要商品实体和关系的向量表示,来快速的推理计算缺失关系,如品牌补全、场景推荐、商品标准化等等。另外一方面,我们也需要能基于商品图谱的向量表示快速的学习和挖掘新的业务规则。这些新的业务规则被交给业务专家进行评估,合格的新规则将被再次应用于推理计算获取新的三元组。

    很多实际的电商应用场景都要求在得出推理结果的同时,还要对得出结果的原因提供解释,以便供专家对业务正确性进行验证。例如模型在推理出某个商品存在虚假营销的同时,还需要提供判断的依据如因为其“含糖量大于60%”的描述与“低糖食品”的概念定义有冲突。再比如,在SameAS关系推断中,两个商品存在SameAs关系通常是因为它们的某些属性等价,模型在得出推理结果的同时还要找出这些等价的属性及其权重。

    我们将可解释的知识图谱推理框架运用到电商场景中,即采用规则来生成对推理结果的解释。我们对生成的解释进行了评估,发现提供解释后人工判断三元组正误的效率有明显提升,且准确度未受显著影响。下表展示了同款商品发现和商品信息冲突检测的可解释性推理实例。

表3. 可解释性推理的电商应用举例

5 金融知识图谱推理应用

    本节介绍知识图谱推理在蚂蚁金服金融知识引擎中的应用。蚂蚁金服金融知识引擎旨在建立面向泛金融业务领域的知识图谱服务体系,主要涵盖企业信贷,保险理赔,理财投资顾问等业务领域。相关技术产品已经在多个蚂蚁业务部门取得应用效果。


5.1 应用场景

    在企业信贷领域,尤其是面向中小企业的信贷业务,风险管理是最核心的任务。利用企业信息知识图谱可以更全面地刻画企业主体间的关联关系网络,借助属性补齐和关系预测等知识图谱推理技术,更多维度地体现企业主体的真实情况,并通过网络分析发现潜在关联风险。


    在保险行业中,利用知识抽取技术对理赔案件的信息进行结构化提取,通过对疾病诊断和医疗等相关信息的识别和理解,实体链指到保险医疗健康知识图谱,再结合理赔业务知识规则的决策引擎,从而做到智能化理赔决策,大量节约人工审核成本,降低欺诈风险,同时提升用户理赔体验。


5.2 金融知识图谱推理

    金融知识图谱的重要功能之一就是沉淀金融专家业务知识到符号逻辑规则,并与其他图谱数据相融合提升表示学习推理能力。在蚂蚁金服的推理实现中,我们将马尔可夫逻辑网络和图神经网络组合在一起,实现大规模的变分推理和高效的概率逻辑推理。一方面,图神经网络已经成为解决大型图问题的有效工具,另外一方面马尔可夫逻辑网络将逻辑规则和概率图模型结合在一起,也可以解决许多涉及金融业务规则的知识图谱推理问题。

    我们还将推理能力应用到事理图谱的处理中。这包括挖掘事件之间的相互关系,比如时序关系、因果关系等,也包含对于关联主体的影响预测,比如上下游企业的经营风险等等。特别的,传统的知识图谱中的知识是相对确定和静态的,而事理图谱中的知识是动态的,不断有新的事件发生,需要在相互关联的事件时序图中发现事件间的因果关联,归纳出动态的经验规则。

    金融知识图谱推理也有很强的可解释性需求。例如,在智能化理赔场景中,对于欺诈性用户和潜在风险关联的判别和识别中,我们都需要对推理结果提供合理的解释和依据。通常这些解释也是通过基于规则生成的解释来提供。

6 结束语

    符号知识的向量化表示更易于捕获隐含的不确定性知识,向量空间的连续性也使得基于向量的推理计算更易于泛化并免于严格的符号逻辑匹配。然而,通过可微过程学习出的数值化知识表示虽然对机器友好,但人不可理解;同时,向量化的推理计算丢失了对推理链的跟踪,因而导致推理结果不可解释。将符号规则与表示学习相结合可以一定程度上解决这一问题。一方面,在向量表示的学习过程中,植入符号规则的学习过程,可以利用同步学习出的规则增强推理结果的可解释性。另外一方面,将人工构建和机器学习出的符号规则与向量表示的学习相耦合,也可以进一步在表示学习过程中植入逻辑层的知识先验,从而使得向量表示更易于实现符号逻辑推理。因此,符号逻辑与表示学习的互补融合是解决表示学习可解释性的一种重要途径。更进一步,符号逻辑的向量化和神经网络化也使得感知层的任务(抽取、识别)能和认知层的任务(理解、推理)能够在统一的表示空间完成,因此,也是感知认知进一步融合的未来主要发展趋势之一。

作者简介

【陈华钧】浙江大学计算机科学与技术学院教授,中国人工智能学会知识工程与分布智能专委会副主任,中文开放知识图谱OpenKG发起人。主要研究方向为知识图谱与自然语言处理、大数据系统与知识工程、智能生物医药等。

【张伟】 阿里巴巴资深算法专家,阿里藏经阁知识引擎技术负责人。主要研究方向为知识图谱、自然语言处理、电子商务。

【楚巍】蚂蚁金服人工智能部研究员,蚂蚁金融知识图谱技术负责人,千人计划专家。主要研究方向为机器学习、认知计算。

阿里技术 | 达摩院 copyright@2017-2018 阿里巴巴-浙江大学前沿技术联合研究中心《法律声明》
浙公网安备: 33010002000092号
| ICP备案网站信息: 浙B2-20120091-4