欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
经济管理论文
当前位置:首页 > 经济管理论文
面向大数据管理决策的知识关联分析与知识大图构建
来源:一起赢论文网     日期:2023-02-25     浏览数:1479     【 字体:

 《管理世界》2022年第1 期摘要:基于知识关联构建知识大图,可以支撑大数据的价值分析、发现与创造,为管理决策提供丰富的知识信息和智能服务。本文首先对知识关联分析和知识大图构建问题进行了形式化的定义,利用多重语义蕴涵关系表示大数据中存在的多角度、多层次的知识关联。在此基础上,提出了面向大数据管理决策的知识关联分析与知识大图构建统一框架和体系化方法。最后,通过典型应用场景:股权知识大图穿透式监管与疫情知识大图精准溯源,对所提出方法的有效性进行了验证。关键词:知识关联 知识大图 大数据 管理决策一、引言大数据技术的快速发展极大地改变了人们生活的方式、经济社会的形态、管理决策的场景。大数据的有效利用和价值发现已经成为产业和经济发展的源动力之一(陈国青等,2021)。 大数据的价值源于其中蕴含的事物之间广泛存在的各种关联,这些关联位于不同角度、不同层次,对这些事物间的关联进行分析将进一步发现新的关联,可以应用于生产生活实践中以产生更多的价值。管理决策模型方法的发展经历了“小数据”、“小知识”、“大数据”、“大知识”4 个阶段(El Arass and Souissi 2018McDowell2021)。 在“小数据”阶段,根据研究内容提出假设,并对样本数据进行统计分析验证假设,由于数据规模的限制,模型和方法具有局限性;在“小知识”阶段,依赖于专家构建知识库,知识库规模有限,仅能对知识进行浅层的表示,支撑基于规则或简单推理的应用;在“大数据”阶段,研究对象变为全样本,数据驱动建模,关注异常点而非因果关系。然而,深度学习等大数据建模的方法在管理决策的重要场景中并没有得到充分应用,主要原因是以深度学习模型缺乏对结果的解释,难以帮助决策者理解过程和因果关系(陈国青等,2018)。 近几年,“大知识”的概念开始出现,以应对从复杂大数据中挖掘海量知识的挑战(Lu et al. 2018)。 大知识既可以实现知识驱动的自动建模,也可以帮助决策者对结果进行理解和解释。大知识的本质是全局的知识关联,形成决策智能化的认知背景,是数据驱动跨越到知识驱动管理决策的重要基础(Buyalskaya et al.2021)。知识关联是指人们在创造和利用知识的活动中因其某种内在或外在的联系而使其显示关联的行为及状态。可见知识关联是基于知识的关联,而非基于数据或信息的关联(李旭晖、凡美慧,2019)。 知识关联是语义信息上的多角度多层次的关联,反映了知识所代表事物本身存在的某种关联,与知识本身所具有的特征对应,知识关联也分为显性关联或隐性关联,需要通过挖掘去发现隐性关联。我们通常接触到的知识关联本身是显式的,即能够被明确认知和描述。对于知识之间的隐性关联,只有被发现、认知和描述后才能成为知识关联。知识关联使得知识转变为智慧,实际上是一种动态行为,反映了知识间的联系从隐性到显性的演化过程。上述特征使得知识关联具有可描述、可计算、可演化的特征。知识关联的可描述即知识单元之间的关联可以通过具象的数据载体来进行知识的表示,不同的知识表示可以有不同的描述方法,如基于本体的知识表示等(Brewster and O'Hara 2004)。 知识关联的可计算即通过描述知识的数据载体的变化使得产生或创建知识关* 本文得到国家自然科学基金“大数据驱动的管理与决策”重大研究计划重点项目“基于知识关联的金融大数据价值分析、发现及协同创造机制”(基金号:91646206)的资助。马费成为本文通讯作者。面向大数据管理决策的知识关联分析与知识大图构建*洪 亮 马费成- -207DOI:10.19744/j.cnki.11-1235/f.2022.0016联,可以通过算法产生并且有可量化的计算过程。知识关联的可演化即知识关联随着客观世界的发展与思维的不断加深,知识关联的广度和深度也会随之发生改变,每个阶段的知识计算过程组成了知识演化的基本单元,从时间序列上看,则是一个知识系统的自组织自演化过程。从知识关联的角度对大数据的价值分析,其方法、模型和手段因领域而异。在信息管理领域,知识关联的思维模式可以促进信息管理领域学科与计算机、人工智能技术的交叉融合,从而达到跨学科的共同开发与协同建设(马费成、李志元,2020)。 通过将主题模型、关联规则、共词分析等相结合,研究检索结果文献中的知识关联问题,有效揭示文献中知识之间的知识关联(阮光册、夏磊,2017)。 在金融科技领域,金融大数据中存在多角度、多层次的知识关联,促进了知识的发现、组织和利用。唐旭丽等(2019)总结分析了金融领域的典型知识关联:分类、时空、统计、事件关联,并将各类关联用静态、动态和社会本体囊括其中,且复用现有的英文金融本体FIBO,实现金融知识关联的表示。Ouyang等(2018)聚焦于金融股权知识大图的关联查询问题,解决多源异构的挑战,提出了两个及多个结点之间的关联路径查询算法,为金融领域价值分析提供了关联路径知识计算服务。Liang等(2020)通过知识关联推理以进一步挖掘企业关联的隐式知识,支持多视角和跨领域决策信息的智能融合。在疫情应急领域,Jia等(2020)将人口流动数据与全国的COVID-19确诊病例的计数和地理位置进行关联发现,不仅准确预测确诊病例的时空分布,而且能在早期阶段识别高风险地区。Williamson等(2020)探讨了新冠病毒导致死亡的因素,通过知识关联分析计算各个因素的关联强度。由上述讨论可以看出,从价值密度稀疏且缺乏关联的大数据中分析知识关联,构建知识大图,形成管理决策“大知识”,存在一定的挑战。首先,现有的知识组织和表示模型方法,如概念层次模型、知识图谱等,无法有效地表达大数据中多角度、多层次知识关联;其次,知识关联分析和知识大图构建没有统一框架和体系化方法;最后,现有研究缺乏知识大图的应用场景,难以体现知识大图在解决大数据管理决策问题时的优势。针对以上挑战,本文利用大数据技术获取和融合大数据中蕴含的知识,并建立知识之间的关联,形成系统化的全局知识视图,解决了大数据存在的价值稀疏问题,实现了从价值密度较高的知识信息中进行价值分析、发现和创造活动。主要贡献如下:(1)形式化定义知识关联和知识大图的概念,利用多重语义蕴涵关系有效地表示了多角度、多层次的知识关联,提高了知识大图的表达能力。(2)提出面向大数据管理决策的知识关联分析和知识大图构建的统一框架和体系化方法,为大数据价值分析、发现与创造提供解决方案。(3)给出了金融和疫情知识大图的典型应用场景,通过知识关联将管理决策问题与方法转化为知识大图的计算与演化,实现管理决策由数据驱动到知识驱动的跃迁。二、知识关联分析与知识大图构建问题的形式化定义定义1(知识关联)知识单元结点和关联边的有限集合分别为V E ,结点s o V 和关联r E ,三元组(s r o)为关联知识,表示s o 之间的知识关联;r R E ,其中R s o 存在的关系的集合,允许|R|1 ;∃ s s' V s s' ,即s 语义蕴涵s' ;∃ r r' E r r' ,即r 语义蕴涵r' ;设Prop 为属性集合,映射函数ϕ :(V E)×Propval为顶点或边关联属性,对于s V(或r E),ϕs p=val(或ϕr p=val ),其中p Prop p=val。从定义1 可知,首先,允许|R|1 表达了知识单元之间可能存在不同角度的关联。其次,知识单元及其关联在语义上是不同层次的,知识大图利用语义蕴涵来表达语义的上下位关系。上下位关系是指:如果知识单元s i语义蕴涵s j ,则当使用s j 时,s i 可以没有歧义地使用;同理,如果关系r i 语义蕴涵r j ,则当使用r j 时,r i 可以没有歧义地使用。如图1a)所示,“金融机构”为“银行”的上位知识单元,“金融机构”和“工商企业”之间同时存在“质押”和“股东”的关系;“质押”语义蕴涵“股权质押”,即“质押”为“股权质押”的上位关系。知识关联利用多重语义蕴涵对客观世界的事物及其之间被认知的联系进行了多角度、多层次的表达。“多角度”体现在知识单元结点之面向大数据管理决策的知识关联分析与知识大图构建管理科学与工程- -208《管理世界》2022年第1 期间可以存在多种关联,是横向的关联;“多层次”体现在知识关联之间存在上下位层次关系,是纵向的关联。定义2 (知识大图)知识大图是一个有向多重语义蕴涵图GV E= {s r o} V×E×V ,即关联知识(s r o)的集合。如图1b)所示,知识及其关联可以自然地表示为一个以知识单元为结点、以关联为边的多重语义蕴涵图,即知识大图。知识单元之间存在多重异质的边,表达了多角度的知识关联;边上的语义标签表达了多层次的语义蕴涵,比如< 股东(持股,控股)> 表示“股东”语义蕴涵“持股”和“控股”。知识单元可以分为类和实例,类描述领域内的实际概念,既可以是实际存在的事物,也可以是抽象的概念,如金融机构、医院等;实例则表示某个类的实际存在,如招商银行是金融机构的一个实例。类、子类和实例处于不同的语义层次。知识关联也处于不同语义层次,包括类之间、实例之间、类和实例之间的关联。比如,类之间存在部分和整体的关联、父类和子类的关联等。类之间存在的多层次的知识关联构成了知识大图的本体;类和实例之间的知识关联提供了实例的分类信息,并通过类的属性对实例进行了约束,提高了知识表示的准确性。目前已经存在一些基于图模型的构建知识数据集的方法,如基于RDF 的知识图谱构建(王鑫等,2019),但大多是针对同种类型数据的知识图谱的构建,无法应对领域大数据具有的多种类、多层次、跨应用的特点(陈国青等,2020)。 传统的概念层次模型依赖于树结构对知识进行组织,树中同层次的结点之间不允许存在边,难以表示知识单元之间普遍存在的知识关联;现有的知识图谱一般使用简单图进行知识的表示(Hogan et al.2021),只能表示知识单元之间存在的单一的知识关联,而知识大图则利用多重语义蕴涵图对多层次、多角度的知识关联进行准确的组织和表示。相比于知识图谱,知识大图拓展了对于知识关联的角度与层次的表示,实现了知识的全局关联,在表达能力和规模上大幅度提升。定义3(知识关联分析)给定数据集D ,知识关联分析是从D 中发现关联知识集合A ={ s r o} V×E×V ,使得ψ(A)≥ τ ,其中ψ :V×E×V R 为评分函数,其评分ψ(A)∈ R 衡量A 表示D 中事实的准确和全面程度,τ 为阈值。从定义3 可知,知识关联分析需要依据评价指标指定评分函数,利用自然语言处理等技术从多源异构大数据中抽取关联知识,对客观世界被认知的事实予以准确的表达。比如在金融股权知识大图中,分析大图中的关键股权路径,发现金融机构之间的股权控制关系。定义4(知识大图构建)给定知识关联集合A ={ s r o} V×E×V ,知识大图构建是找到知识大图G A ,使得∀(s r o),( s' r' o' )∈ G sim((s r o),( s' r' o' ))≤ φ ,其中sim(·)计算关联知识的语义相似度,φ 为相似度的阈值。从定义4 可知,构建知识大图需要在知识统一组织与表示的基础上对关联知识进行语义上的融合。知识大图构建是一个动态演化的过程,通过知识关联发现新的关联,不断扩展和完善知识大图。传统的基于知识库的管理信息系统是一种典型的“小知识”应用。在实际的管理决策应用中,知识是普遍关联的,比如在金融股权知识大图中,知识关联不仅体现在银行、保险、基金等跨领域金融机构与企业之间的股权关联,还体现在系统性金融风险与股权、舆情事件之间的复杂关联。如果要实现深度的知识关联分析和智能知识服务,显然任何知识库预设的知识边界都很容易被突破。在大数据时代,管理决策过程中产生的海量数据和快速发展的大数据技术,使得自动化或者协同构建知识大图成为可能,形成所谓的“大知识”(Lu etal. 2018)。知识关联可描述、可计算、可演化的特征决定了基于知识关联的知识大图将进一步促进管理决策由数据图1 知识关联与知识大图示例金融机构银行工商企业<质押(股权质押, 债权质押)><股东(持股, 控股)>国有企业银行<股东>国有企业金融机构 工商企业<质押><股权质押><债权质押><持股><控股>金融机构 工商企业上位关系知识关联(a)多角度、多层次知识关联 (b)多重语义蕴含知识大图- -209驱动转为知识驱动。首先,知识大图将释放现有管理决策模型的效能。一方面,知识大图能够对现有模型进行知识引导,帮助现有模型提高准确率和智能化程度。现有的管理决策模型的效果已经接近“天花板”,比如,统计分析模型根据股权比例计算金融机构之间的控制关系,难以发现通过同事、朋友等社交关系建立的隐性控制关系,而这种隐性控制关系是一种知识关联,可以利用知识大图进行揭示。另一方面,知识大图突破了现有管理决策模型的知识规模瓶颈,由知识的量变带来模型效用的质变。其次,知识大图作为管理决策的背景知识,可以对发现的新现象、新事实进行解释,增强决策者认知。知识大图使能可解释智能应用对于管理决策尤其重要:现象和事实的解释进一步促进了大数据管理决策应用的落地,克服了传统大数据模型的“黑盒子”问题,使得知识驱动成为管理与决策的主要方式。最后,知识大图也成为管理与决策的重要知识资源,为大数据管理决策赋能。三、知识关联分析知识关联分析是大数据价值发现的第一步,关键问题是从大数据中发现候选知识单元及其之间的关联。对于数据集D ,知识关联分析既要能够准确地发现D 中的知识关联,同时也要尽可能地找全知识关联,以尽可能准确地反映数据集D 记录的全部事实。目前准确率Precision 的函数定义为公式(1)(Chinchor and Sundheim 1993),表示被正确发现的关联知识占总体被评估的关联知识的比率,即:Precision=TP/TP+FP ) (1)召回率Recall 表示D 中的被正确分析出来的关联知识占总体关联知识的比率,即:Recall=TP/TP+FN) (2)其中,TP是知识关联分析发现的正确的关联知识的数量,FP是发现的错误的关联知识,FN是没有发现的正确的关联知识。在管理决策场景中,单纯以准确率或召回率作为度量标准会带来应用上的偏差。比如,在流行病筛查中,如果以准确率作为唯一度量标准,那么将只对严格的密切接触者进行检验,以提高查出阳性的准确率,但这样做的最大问题是遗漏了次密接者(密接的密接)、一般接触者等,加大了流行病传播的风险。目前常用的度量标准为F 1 值,兼顾准确率和召回率。知识关联分析的目标可以表达为:(3ROC/AUC是另一类同时考虑准确率和召回率的度量标准。在正负样本分布极不均匀的情况下,即负样本比正样本多很多(或者相反),F 1 ROC/AUC能够更好地度量分析结果的优劣;反之,在正负样本均衡的情况下,多采用ROC/AUCDavis and Goadrich2006)。 在实际数据集D 中,正负样本一般不平衡,一般选择F 1 值作为知识关联分析的评分函数。为了计算ψ(A),需要将分析出的关联知识与黄金标准(Golden Standard )验证数据集中的关联知识进行比对,进行正确性判断;该数据集包含通过人工验证正确性的关联知识(Brank et al. 2005)。 本文中也采用了人在环路(Human in the Loop)的机制对置信度较低的关联知识进行迭代式的人工协同标注,对这些关联知识进行验证和修正。基于以上评分函数,知识关联分析在知识大图概念层和实例层的分析方法有所不同。由于概念之间的语义粒度不同,概念层知识关联分析方法需要准确发现概念的语义关系并完整覆盖领域概念体系;实例层知识关联分析方法则侧重于如何准确并完整地揭示管理决策大数据中的知识及其之间的隐性关联。(一)概念层知识关联分析概念及其之间的关联是领域内不同主体之间进行交流的语义基础。概念层知识关联分析发现的关联知识(s r o)中,s o 均为概念,即经过经验或者规则提炼的形式化知识。≥ ψ ( ) A = F 1 =2 × P r e c i s i o n × R e c al lP r e c i s i o n + R e c al l τ面向大数据管理决策的知识关联分析与知识大图构建管理科学与工程- -210《管理世界》2022年第1 期目前概念层知识关联分析主要有3 类方法:第一种是领域专家人工分析。这种方法中,ψ(A)由人工分析的准确率和覆盖率决定,优点是准确率较高,缺点是对于大数据的覆盖率偏低,且人工标注代价较大。第二种是数据驱动的分析,利用规则和统计特征发现概念层的关联知识,包括发现频繁模式、约束和路径,计算概念之间的相似度等。数据驱动的分析可扩展性较强,可以支持大规模的本体构建,然而因为缺乏领域知识的引导,分析得到的关联知识集合A 的ψ(A)值一般较低。第三种是人机协同的分析,这种方法兼顾了可扩展性和分析的质量,根据领域专家少量的人工分析结果发现规则和统计特征,从而自动分析出概念层的关联知识,并在分析过程中基于专家的反馈不断优化迭代,直至ψ(A)≥ τ 。在决策场景中,概念层知识关联分析的一般步骤是:(1)概念发现,即从大数据中找出概念层的知识单元。比如,对文本数据进行预处理,从中过滤出概念相关词组;并借助领域专家或者外部词典对概念进行匹配和识别;合并表述不同但语义相同的概念,过滤不准确的概念表述,进一步对概念进行语义增强与优化。(2)概念关系抽取,即分析出概念之间的关联知识。概念层知识关联分析主要抽取概念之间直接的语义蕴涵,即上下位关系。目前上下位关系抽取的方法分为3 类:基于模板的方法(Wu et al. 2012)、基于语料库的方法(Suchanek et al.2007)和基于嵌入的方法(Wang et al.2019)。 基于模板的方法使用句法模板从文本中抽取上下位关系;基于语料库的方法从相对结构化的语料库如 WordNetHowNet中抽取上下位关系;基于嵌入的方法将单词或短语映射到一个隐式的向量空间,然后基于这些向量发现上下位关系。可以根据具体的知识关联分析目标对以上方法进行选择。比如,在对抽取精度要求较高、专业性较强的垂直领域,可以采用基于模板的方法以提高抽取的准确率;在需要兼顾准确率和召回率的开放领域,可以采用基于嵌入的方法以提高ψ(A)。(3)概念关系层级建立,根据定义1 ,发现概念关系的语义蕴涵,建立概念关系的层级,是知识关联分析的重要步骤。例如,对于抽取出的概念关系(企业,股东,金融机构),( 企业,控股,金融机构)中,发现语义蕴涵:股东⊨ 控股,从而分析出(企业,股东⊨ 控股,金融机构)的多层次关联知识。语义蕴涵的发现可以通过训练表示学习模型进行发现(Hosseini et al.2018),主要方法是利用语料库中已有的语义蕴涵关系,考虑概念的类型,建立表示学习模型,并通过计算向量相似度发现更多的语义蕴涵关系。在管理决策应用中,语料库包含的显式的语义蕴涵关系较为稀疏,需要根据语义和结构的相似性扩展语义蕴涵关系的数据集。比如,从“股东是股份制公司的出资人”语料中可知“股东”和“出资人”语义相似,因此可以扩展语义蕴涵:出资人⊨ 控股。(二)实例层知识关联分析实例层的知识关联分析,需要根据数据的结构采用不同的分析方法。对于结构化数据,则在概念层定义的本体规约下,建立结构化数据和知识关联的映射关系,根据映射关系进行转化。对于半结构化和非结构化的数据,首先需要抽取知识单元s o ,即命名实体识别,其次抽取实体之间的关系r 。对于关联知识(s r o)的抽取,问题转化为预测ψ((s r o))≥ τ 。例如在“病患2 1 22日到中心医院就诊,后到市立医院进一步检查,目前病情稳定。”语料中进行实体识别,得到“病患2 ,中心医院,市立医院”3 个实体。实体抽取得到一系列离散的知识单元,进一步抽取关系“就诊,就医”,得到关联知识(病患2 ,就诊,中心医院)、( 病患2 ,检查,市立医院)。 最后,抽取出实体的属性信息,即知识单元与属性的关联,例如可以从上述语料中得到时间属性为“122日”。将概念层的关联知识表示为(s 1 r 1 o 1),实例层的关联知识表示为(s 2 r 2 o 2)。知识关联分析还需要发现概念层与实例层的知识关联,即发现s 2 s 1 o 2 o 1 之间的上下位关系。目前主要使用分类算法(Rafiei andAdeli2017)对实例层的知识单元进行分类,建立实例层知识单元与概念层知识单元的分类关联。从以上步骤可知,抽取实体之间的关系,是实例层知识关联分析的难点。大数据环境下,通常使用基于学习的方法,根据实体的属性和上下文等知识信息,学习出实体的低维向量表示,然后将实体关系抽取转化为表示模型的简单向量操作。然而,在决策场景中,人们通常需要从大数据集合的概括性语义和小数据集合的实- -211例语义来形成对于数据内容及其含义的认识(陈国青等,2018)。 具体到实例层知识关联分析的场景,基于学习的方法虽然给出分析的结果,但是缺乏对结果的具象解释,使得结果的有效性难以得到感知和证明。因此,规则在提高关系抽取质量的同时,揭示大数据中的隐性关联的概括性语义。此外,考虑到决策场景通常具有样本稀疏或者样本不平衡的问题,基于规则对关系进行抽取可以有效解决以上问题,提升大数据环境下基于学习的方法的有效性。具体而言,我们将关系抽取规则定义为:rule. BODY rule .TAG,其中BODY 表示为一个文本模式p =[w@s-type w @o-typew] ,其中s-type and o-type 分别表示实体s o 的类型,词序列w {W} {None} s o 出现的上下文,TAG 表示关系的标签。如果语料与规则rule 匹配,则s o 的关系r 会被标注rule . TAG 标签。关系抽取规则基于实体类型和上下文的语义特征对关系进行抽取。因为知识大图中知识及其关联均具有层次化的上下位关系,所以关系抽取规则有以下性质:定理1(关系的向下兼容性)给定关联知识(s r o),如果s s' o o' ,则存在关联知识(s' r o' )。证明:根据上下位关系的定义,如果s s' o o' ,则相对于s o s' o' 是特定性较强的下位词。因此,可以推出存在(s' r o' )。定理2(规则的向上兼容性)给定rule. BODY rule .TAGrule .BODY=[w @s-typew @o-typew] ,如果rule .TAG'rule. TAG ,则rule .BODY rule .TAG' 。证明:根据上下位关系的定义,如果rule .TAG' rule .TAG,则当使用rule .TAG 时,rule .TAG' 可以没有歧义地使用。因此,可以推出rule .BODY rule .TAG' 。定理3(规则的向下兼容性)给定rule 1 .BODY rule 1 .TAGrule 1 .BODY=[w @s-type1 w @o-type1 w] rule 2.BODY=[w@s-type2 w @o-type2 w] ;如果s-type 1 s-type 2 o-type 1 o-type 2 ,则rule 2 .BODY rule 1 .TAG。证明:根据定理1 ,如果s-type 1 s-type 2 o-type 1 o-type 2 ,则当s-type 1 o-type 1 存在关系rule 1 .TAG 时,s-type2 o-type 2 也存在关系rule 1 .TAG。因此,可以推出rule 2 .BODY rule 1 .TAG。因为语义蕴涵具备自反性,当s-type1 =s-type2 o-type 1 =o-type2 时,定理3 仍然成立。我们从已经标注好的小数据集合中使用频繁模式挖掘等方法挖掘出初始规则,对于零样本的场景,可以由领域专家指定初始规则。结合定理2 和定理3 从大数据中迭代地挖掘规则,并对产生的规则集合进行优化。初始规则可以认为是小数据集合的实例语义,而通过迭代产生的更大的规则集合则已经转化为大数据集合的概括性语义。关系抽取规则在这里扮演了桥梁的角色,支撑了决策场景中对于知识关联的具象感知与解释,同时也进一步地揭示了大数据中的隐性关联,使之成为显性的知识关联。算法1 总结了知识关联分析的详细过程:输入管理决策数据集D ,关系抽取规则集合R ,机器学习模型集合M 和外部语料库C ,算法1 将输出关联知识集合A 。如果D 为结构化数据,将根据映射关系将D 转化为A1 - 2 行)。 对于非结构化和半结构化数据集,概念层使用外部语料库识别概念,实例层使用命名实体识别(NER )模型识别实体,分别形成概念集Concepts 和实体集Entities3 -5 行)。 对于所有概念和实例,首先使用机器学习模型抽取关系,然后使用抽取规则对实例层的关系进行抽取,并将分析出的关联知识(s r o)加入A6 - 14行)。 最后,对于概念,基于语义蕴涵建立知识及其关联的层次关系,对于实例,则分析出实例的分类关联(15- 21行)。 算法1 知识关联分析面向大数据管理决策的知识关联分析与知识大图构建管理科学与工程- -212《管理世界》2022年第1 期四、知识大图构建知识大图构建是一个动态演化的过程,如图2 所示,知识关联分析从多源异构数据中发现关联知识,然后再经过关联知识的融合和发现,迭代式地构建知识大图。(一)关联知识融合关联知识融合可以减少知识大图中的知识冗余,确保关联知识指向的准确性与一致性,并将关联知识集合转化为知识大图。从定义4 可知,给定关联知识(s r o)和(s' r' o '),首先需要解决的问题是计算语义相似度sim((s r o),( s' r' o' )),以确定关联知识是否可以融合。由于表达的多样性,知识单元(实体)s o s' o' 可能会存在指称项(即词或词组)不同,而指向同一实体;或者指称项相同,而并不指向同一实体的问题。由于受到本体的约束,关系r r' 一般不存在以上问题。因此,计算sim((s r o),( s' r' o' ))转化为计算实体对语义相似度sims s' ),sims o' ),simo s' )和simo o' )。如果以上相似度大于阈值φ ,则可以将两个关联知识进行融合。比如sims s' )≥ φ ,则认为s s' 指向同一实体,可以进行链接,融合为知识子图{s r o),( s r' o' } ,其中每条关联知识是知识子图中的一条边,拥有共同的知识单元s 。反之,如果sims s' < φ ,则s s' 并不指向同一实体。在sims s' )≥ φ 且simo o' )≥ φ 的情况下,即两个关联知识相对应的实体语义上是相同的,如果r=r' ,则(s' r' o' )为冗余的关联知识,否则如果r r' ,则s o 之间存在多种知识关联。如图3 所示,判断两个指称项“张三”是否指向同一个知识单元。分别从两段文本中抽取“张三”实体相关的属性值,例如:出生年月、籍贯等。计算语义相似度小于阈值,即两个“张三”不是同一知识单元,不能进行关联知识融合。(二)关联知识发现给定知识大图G ,关联知识发现是利用已有的关联知识集合G ={ s r o} ,发现关联知识(s' r' o' ),( s' r' o' )∉ G 。目前关联知识发现常用的方法是知识大图推理,主要方法是建模多个已有关联知识的间接关联,即多步关系的传递性约束。以两步推理为例:s o 存在关系r 1 o p 存在关系r 2 ,该两步路径对应的直接关系是sp 存在r 3 。知识大图的推理方法分为基于规则的推理、基于分布式表示的推理、基于神经网络的推理以及混合推理(官赛萍等,2018)。 目前管理决策较多采用简单经验知识或统计特征,或者更复杂的传递性约束为主的规则进行推理。规则的产生一般由领域专家进行定义或者从知识大图中挖掘得到。专家制定规则的代价较高,很难达到足够广的覆盖率,而挖掘的规则会引入噪声和冲突,降低了推理的准确度。更为重要的是,规则挖掘的算法更难以实现复杂规则的挖掘,难以保证规则的可靠性和可解释性。根据定理1 ,可以通过已有的关联知识,以及知识单元的上下位关系发现更多的概念关系;根据语义蕴涵的传递性 图2 知识大图构建框架结构化数据半结构化数据非结构化数据抽取 融合知识大图关联知识发现转化图3 关联知识融合示例- -213Berant et al.2011):给定r r' r'' E ,语义蕴涵r r' r' r'' ,则r r'' ,可以推理出关联知识之间的层次关系,发现潜在的知识关联,对知识大图进一步补全。比如,已知(商业银行,父类,银行)、( 银行,类型,金融机构),推理出(商业银行,类型,金融机构)。在决策场景中,知识单元之间可能会发现多种关联,通常需要对每一个候选关联知识(s r o)计算其评分函数ψ(s r o),并确定阈值τ ,当且仅当ψ(s r o)≥ τ ,(s r o)为真。在特定领域中,如果仅允许知识单元存在一种关联,则(s r o=argmax r rels ψ(s r o),其中rels 是候选关联的集合。(三)迭代式构建知识关联可演化的特征决定了知识大图需要进行迭代式构建。领域专家、知识和数据等多个价值创造主体进行决策协同和知识协同,对关联知识迭代式地融合与发现。决策协同指的是协调各主体决策并获得群体决策,知识协同指的是协调各个主体之间的知识交换。与传统主体协同不同的是,在知识关联的支持下,主体在协同过程中通过知识协同迅速获得范围更广、效用更高的新知识从而影响自身决策,形成多主体迭代式构建的计算过程。从知识大图角度来看,多主体的价值创造将体现为知识子图在预定义知识目标框架下的聚集和融合过程。设计适合知识目标框架的任务分解方法和知识融合方法,以此为基础建立基于众包激励机制的迭代式构建模型。具体来说,在迭代式构建的群体决策过程中,各主体根据观察对关联知识进行标注,需要对各主体的标注进行聚合,以得到最终的标注结果。目前,标注的聚合通常使用多数投票(Majority Voting)机制(Tao etal. 2018)。 给定n 个观察和m 个主体,每个主体对于每个观察将会从标签集合L 中选择一个标签,并对相应的关联知识行标注。主体具备的不同的能力水平决定了该主体的标注在最终结果中的权重。因此,对于第i 个观察,协同决策后的关联知识的标注a i 可以计算为:(4)其中,w j 是赋给第j 个主体的权重,表示该主体的能力水平;I(·)为指示函数,仅当a i=l 为真时,Ia i = l)为1 ,否则为0 。针对知识关联分析、融合、发现等环节可能出现的错误、冲突等问题,通过以上人在环路的众包协同过程,对知识大图中关联知识的融合与更新进行外部知识增强,从而不断优化构建质量。算法2 总结了知识大图迭代式构建过程:输入管理决策数据集D ,关系抽取规则集合R ,机器学习模型集合M ,外部语料库C ,知识关联分析目标函数ψ ,关联知识相似度阈值φ ,知识关联分析质量阈值τ ,关联知识观察个数n 和参与协同标注的主体个数m ;输出知识大图GV E)。 首先调用算法1 进行知识关联分析,返回关联知识集合A(第1 行);在知识大图构建目标ψ(A< τ 时(第2 行),对于关联知识集合A n 个质量低于阈值的关联知识,进行多主体协同标注,通过投票确定关联知识的标签(3 - 5 行);对于A 中的关联知识,进行融合和基于推理的关联知识发现(6 - 11行);最后通过相同知识单元的链接,将A 转化为知识大图GV E)并输出(12- 13行)。五、知识大图应用场景(一)应用场景1 :股权知识大图穿透式监管股权网络是系统性金融风险的微观成因和传导途径(Huang et al.2016),建立股权知识大图可以支撑系统性金融风险的穿透式监管。穿透复杂的金融股权知识大图,有效识别隐藏在复杂股权之后的实际控股股东,是金融风险监管的迫切需求。ai= ar g m axl  Lj = 1mwjI ( ) ai= l∈算法2 知识大图迭代式构建面向大数据管理决策的知识关联分析与知识大图构建管理科学与工程- -214《管理世界》2022年第1 期股权网络规模庞大、结构复杂且包含丰富的语义信息。目前的基于复杂网络的系统性金融风险研究(Huang et al.2016)难以支持监管部门和领域专家在如此大规模且语义信息丰富的股权网络中进行穿透,发现实际控制人、实际控股股东等影响系统性金融风险的关键知识关联。主要原因在于:首先,目前还没有一个包含全量股权数据的股权知识大图,对金融机构和企业之间多角度、多层次的股权知识关联进行组织和表示;其次,现有工作是基于小数据建立的模型,无法对大规模股权网络进行有效地穿透,揭示隐藏在层层股权之后的知识关联;最后,现有工作仅关注股权的实际比例,忽略了股权的语义信息,影响了穿透的准确性。比如,即使股权比例相同,“控股”和“持股”关系对于系统性金融风险的重要性有着本质的区别;“持股”、“股权质押”属于不同角度的知识关联,在穿透时需要同时考虑。本文构建了亿级股权知识大图,对股权网络中的控股、持股、股权质押等多角度、多层次知识关联进行了组织和表示,实现了股权知识的全局关联,可以揭示大规模股权网络中的复杂股权风险结构。我们所设计的股权知识大图穿透算法,实现了亿级知识大图的秒级穿透。比如,以T 银行为中心进行股权知识大图穿透,最大穿透层数达到了42层,穿透时间为115 秒,揭示了隐藏在42层之外的实际控股股东与T 银行的股权知识关联。这种复杂的股权知识关联在缺乏语义的小规模股权网络中是难以发现的。股权知识大图构建过程如下。(1)股权数据收集和整理:本文收集和整理了七大系统(银行、保险、证券、期货、租赁、信托、基金)总共1432家金融机构(总资产占全国所有金融机构资产的99%)的精确股权数据。将金融机构的股权数据与全国4200万家以上工商注册企业的基本面信息和股东信息进行融合,建立大规模股权网络数据集。(2)知识关联分析:在概念层采用人机协同的知识关联分析,建立如图4 所示的股权知识本体。首先,基于算法1 ,由领域专家建立领域语料库,识别出概念层的关联知识,比如(自然人,股东,企业),( 自然人,控股,企业),( 自然人,持股,企业);然后,采用基于语料库抽取概念之间的多角度上下位关系,比如(金融机构,父类,企业),( 工商企业,父类,企业)等;最后,训练表示模型建立概念关系的层级。在实例层,持股数据为结构化数据,首先设定映射关系将持股数据进行转化。比如,将(企业名称,股东名称,持股比例)数据根据股东的类型,转化为(金融机构,持股,企业)、( 企业,持股,企业)或者(自然人,持股,企业)的关联知识。股东的最终持股比例隐藏在层层股权网络之后,为了发现股权网络中知识单元结点v i v c之间的“控股”语义关系,需要根据公式(5)计算出v i v c 的最终持股比例δ ic :(5)其中P ic v i v c 的股权路径集合,δ(e jk )为结点v j v k 间的股权比例。非结构化数据的知识抽取得到关联知识集合A ={ s r o} V×E×V 。基于股权知识本体,从金融大数据中挖掘出关系抽取规则,比如[ 自然人,入股,企业] →股东,[ 自然人,成为,企业,最大股东] →控股。调用算法1 ,抽取出知识单元之间的关系,发现关联知识。(3)股权知识大图构建:关联知识融合利用词嵌入算法将关联知识(s r o)和(s' r' o' )中的实体及其属性转化为连续向量,并计算实体对语义相似度sims s' ),sims o' ),simo s' )和simo o' ),确定是否可以融合。同时,根据领域专家设计的知识推理规则,发现新的关联知识。比如,基于“控股”知识关联的传递性,发现股权网络中大量的隐性控制关系,揭示控制群体“资本系”。调用算法2 ,通过迭代式构建,最终得到知识单元数为60599124,关联边数为103330303 的股权知识大图。2019年,银保监会对X 银行实行 图4 股权知识本体金融机构银行证券 公募基金信托工商企业自然人国有私有<股东(持股, 控股)><人际关系(亲属, 朋友)> <质押(股权质押, 债权质押)>««企业<高管(经理, 董事)>外资<质押(股权质押, 债权质押)><股东(持股, 控股)>上位关系知识关联δi c=pic Picejk picδ(ej k)∈ ∈- -215接管,X 银行破产事件对整个金融行业产生了较大的冲击,究其原因为某资本系通过多层的股权网络,隐藏了对X 银行的控股路径和持股比例。以X 银行为中心点进行金融股权知识大图的时序穿透,如图5a)所示,2005年的X 银行的直接股东有B公司、C 公司等,其中B 公司的持股比例14. 88% 为最大,符合单一控股股东比例不得超过20% 的监管规定。然而,以X 银行为中心进行穿透可以发现,最外层的股东Z 公司通过控制F 公司,而F 公司又通过控股B 公司控制I 公司,实现对X 银行的实际控股。以Z 公司为中心进行穿透可以发现,肖某通过赵六等亲属100 % 控股了Z公司,计算最终持股比例,可以得出肖某实际控股X 银行的股权比例为29. 009 % 。肖某通过直接或者间接的方式控股了X 银行超过20% 的持股比例,规避了监管机构的监管。图5b)为X 银行的2017年度股权穿透子图,可以发现,Z 公司公开控制的企业逐渐退出X 银行的股权穿透子图,最外层股东之间无特殊的持股或控股关系。由于知识大图包含另一角度的知识关联“股权质押”,对其穿透可以发现,X 公司对S 信托有控制关系,并通过股权质押关系控股T 公司和C 公司。Z 公司的最终持股比例为28. 75% ,为实际控股股东。(二)应用场景2 :疫情知识大图精准溯源疫情爆发的根本原因是病毒通过人群之间的亲属关系、朋友关系、密切接触等复杂关联进行快速传播。重点人群及其相关病例、轨迹、人口网格、城市交通路网等大量的多源异构数据中蕴含着复杂的知识关联。构建疫情知识大图,在知识层面上建模和分析多角度、多层次的复杂关联及其对疫情传播和发展的影响,可以有效地支撑实时的疫情精准溯源与预警。如图6a)所示,河南省公布的20201 ~ 2 月期间确诊患者的流行病学调查数据,包括了病例的时空轨迹、亲属朋友等数据,根据以上数据构建疫情知识大图。(1)知识关联分析:概念层知识本体根据数据情况和精准溯源的应用目标,采用人工建立的方式。实例层根据领域先验知识进行知识关联分析。首先利用文本处理和抽取的模型,并生成轨迹抽取规则,基于算法1从调查报告中分析病例的轨迹、属性和亲属朋友关系等多角度知识关联。例如,抽取规则[ 病例,经过,地点] →轨迹点可以从文本中发现病例的轨迹点。根据国家相关规定,与确诊病例出现前两天内的轨迹有重合的人员为密切接触关系。然后,将相关规定转化为基于一阶谓词逻辑的密切接触关系判定公式:(6)图5 X 银行为中心对股权知识大图进行时序穿透Z公司肖某<控股,25%>赵六<持股,25%>孙七<持股,24%>王五<持股,24%>F公司B公司<控股,99.9286%><控股,100%>D公司<持股,12%><控股,88%>C公司G公司<持股,12.03%>H公司<持股,16.64%><控股,98.5714%><持股,1.4286%>E公司I公司<控股,100%><控股,31.49%>X银行<持股,14.88%><持股,7.07%><持股,9.98%><持股,6.75%><控股,80%> <持股,17.61%><持股,5.22%><亲属><亲属><亲属><持股,9.07%><持股,4.21%><持股,4.97%><持股,4.99%><持股,5.51%><股权质押,27665><股权质押,1774> <股权质押,39945><控股,72.31%><持股,36.36%><控股,99.98%><股权质押,27413>金融机构工商企业自然人实际控股股东肖某李四Z公司S信托O公司 P公司 R公司M公司 L公司 K公司 N公司 J公司X银行Q公司<控股,29%><控股,100%><股权质押,27665><持股,18.18%><亲属> 最终持股比例:29.42%<控股,99.86%>时序演化最终持股比例:29.009%a2005年股权穿透子图 (b2017年股权穿透子图→  ui( ) I s D i agno s e(ui)I s I nt e r s e c t(t ri, t rj)I s Sho r t(t ri, t rj)  I s C o nt ac t(ui, uj)面向大数据管理决策的知识关联分析与知识大图构建管理科学与工程- -216《管理世界》2022年第1 期其中IsDiagnoseu i)表示病例u i 确诊,IsIntersect tri trj)和IsShort tri trj)分别表示病例u i 和人员u j 轨迹有重合且时间接近,IsContact u i u j)表示u j u i 的密接者。根据公式(6),可以通过轨迹的时空关联发现潜在的密切接触关系。(2)疫情知识大图构建:基于分析出的“亲属朋友”和“密切接触”的知识关联,使用词嵌入算法进行关联知识的融合,包括了病例姓名、地名、时间的歧义和共指的消解。基于算法2 ,通过迭代式构建,形成疫情知识大图,揭示了以确诊病例为中心的多层级密切接触关系。如图6b)所示,对疫情知识大图中永城市82号确诊病例进行传播溯源,以病例82为起点,按照边上的时间戳逆时序遍历病例结点,可以快速找到潜在疫情传播路径,并通过路径“病例82→病例78→病例70→病例10”找出疫情源头病例10。查询流调数据发现该病例有武汉旅行史,即该地区本轮疫情源头为武汉返乡人员。同时,可根据病例结点的介数中心性来衡量该病例在疫情传播中的重要性。介数中心性是指经过该病例结点的潜在疫情传播路径的条数。通过计算介数中心性,发现病例71为疫情传播中的关键结点,该病例的工作地点“F ”也是疫情传播的关键场所。六、总结本文从知识关联视角系统性地介绍了知识大图的概念、方法和领域应用。知识大图反映了大数据中蕴含的多层次、多角度的知识关联,为管理决策提供了全局知识视图,将进一步提升管理决策的智能水平,具有重要的理论和实践意义。首先,基于语义蕴涵关系,定义了纵向的多层次知识关联,对于已有工作中横向的多角度知识关联进行了拓展,实现了多角度、多层次知识关联的形式化定义,在此基础上定义了知识大图为多重语义蕴含图,可以描述管理决策大数据中蕴涵的丰富语义信息。然后,提出面向大数据管理决策的知识关联分析和知识大图构建统一框架和体系化方法,实现了多主体协同的迭代式知识大图构建,提高了构建的质量。最后,将所提出的方法应用于股权和疫情知识大图的构建,分别支撑了系统性金融风险的穿透式监管和疫情精准溯源。考虑到典型的大数据管理决策场景中存在高频交易数据、实时轨迹数据等时序数据,进一步研究可以在本文基础上,继续探索知识关联的时序分析和时序知识大图的构建,以支撑实时的管理决策场景。同时,针对不同应用场景的共性和个性化需求,将知识大图理论和方法迁移到新的领域中。(作者单位:武汉大学信息管理学院、武汉大学大数据研究院、武汉大学信息资源研究中心)图6 基于疫情知识大图的精准溯源(a)病例流调数据 (b)疫情知识大图- -217参考文献(1)陈国青、吴刚、顾远东:《管理决策情境下大数据驱动的研究和应用挑战——范式转变与研究方向》,《 管理科学学报》,2018年第7 期。(2)陈国青、曾大军、卫强:《大数据环境下的决策范式转变与使能创新》,《 管理世界》,2020年第2 期。(3)陈国青、张瑾、王聪:《 “大数据—小数据”问题:以小见大的洞察》,《 管理世界》,2021年第2 期。(4)官赛萍、靳小龙、贾岩涛:《面向知识图谱的知识推理研究进展》,《 软件学报》,2018年第10期。(5)李旭晖、凡美慧:《大数据中的知识关联》,《 情报理论与实践》,2019年第2 期。(6)马费成、李志元:《新文科背景下我国图书情报学科的发展前景》,《 中国图书馆学报》,2020年第6 期。(7)阮光册、夏磊:《基于词共现关系的检索结果知识关联研究》,《 情报学报》,2017年第12期。(8)唐旭丽、马费成、傅维刚:《知识关联视角下的金融知识表示及风险识别》,《 情报学报》,2019年第3 期。(9)王鑫、邹磊、王朝坤:《知识图谱数据管理研究综述》,《 软件学报》,2019年第7 期。(10Berant J. DaganI. and Goldberger J. 2011,“Global Learning of Typed Entailment Rules”,in Lin D. MatsumotoY. MihalceaR. edsProceedings of the 49th Annual Meeting of the Association for Computational LinguisticsACL PortlandOregon United States.11BrankJ. GrobelnikM. and MladenicD. 2005,“A Survey of Ontology Evaluation Techniques ”,in GrobelnikM.Mladenic D. edsProceedings of the Conference on Data Mining and Data Warehouses Ljubljana Slovenia.12BrewsterC. O'Hara K. 2004,“Knowledge Representation With Ontologies The Present and Future ”,IEEE Intelligent Systems191),pp.72~ 81,(13Buyalskaya A. GalloM. and CamererC. F.2021,“The Golden Age of Social Science”,Proceedings of the National Academy ofSciences1185),pp.14Chinchor N. and SundheimB. M.1993,“MUC-5 Evaluation Metrics ”,in SundheimB. M.edsProceedings Fifth Message Un derstanding Conference Baltimore Maryland United States .15DavisJ. J. Goadrich M. H.2006,“The Relationship between Precision-Recall and ROC Curves ”,in Cohen W. W.MooreA.W.edsProceedings of the 23rd International Conference on Machine Learning ACMPittsburghPennsylvaniaUnited States.16El ArassM. and SouissiN. 2018,“Data Lifecycle From Big Data to SmartData ”,in El Mohajir M.Al AchhabM.El MohajirB. E.Jellouli I. edsProceedings of the 5 th IEEE International Congress on Information Science and TechnologyIEEEMarrakechMorocco.17HuangW. Q.ZhuangX. T. and YaoS. 2016,“A Financial Network Perspective of Financial InstitutionsSystemic Risk Con tributions ”,Physica AStatistical Mechanics and its Applications 456 pp.183 ~ 196 .18HoganA. BlomqvistE. Cochez M.d AmatoC. Melo G. D.Gutierrez C. ... ZimmermannA. 2021,“Knowledge Graphs ”,ACM Computing Surveys544),pp.1 ~ 37.19HosseiniM. J.ChambersN. and Reddy S. 2018,“Learning Typed Entailment Graphs with Global Soft Constraints”,Transactions of the Association for Computational Linguistics ,(6),pp.703 ~ 717 .20JiaJ. S. LuX. and YuanY. 2020,“Population Flow Drives Spatio-temporal Distribution of COVID-19in China ”,Nature 5827812),pp.389 ~ 394 .21LiangZ. PanD. and DengY. 2020,“Research on the Knowledge Association Reasoning of Financial Reports Based on aGraph Network”,Sustainability 127),pp.2795.22LuR. JinX. and Zhang S. 2018,“A Study on Big Knowledge and Its Engineering Issues”,IEEE Transactions on Knowledgeand Data Engineering319),pp.1630~ 1644.23McDowellK. 2021,“Storytelling WisdomStoryInformation and DIKW ”,Journal of the Association for Information Science andTechnology 7210),pp.1223~ 1233.24OuyangX. HongL. and Zhang L. 2018,“Query Associations Over Big Financial Knowledge Graph ”,in LiJ. MengX. ZhangY. CuiW.DuZ. edsProceedings International Conference on Big Scientific Data ManagementBeijing China.25RafieiM. H. and AdeliH. 2017,“A New Neural Dynamic Classification Algorithm ”,IEEE Transactions on Neural Networksand Learning Systems 2812),pp.3074~ 3083.26TaoD. ChengJ. YuZ. YueK. and Wang L. 2018,“Domain-weighted Majority Voting for Crowdsourcing”,IEEE Transac tions on Neural Networks and Learning Systems 301),pp.163 ~ 174 .27Suchanek F. M.KasneciG. and WeikumG. 2007,“YagoA Core of Semantic Knowledge ”,in Williamson C. L.ZurkoM. E.Patel-Schneider P. F. Shenoy P. J. edsProceedings of the 16th International Conference on World Wide Web ACMBanffAlberta Canada.28WangC. HeX. and ZhouA. 2019,“Improving Hypernymy Prediction via Taxonomy Enhanced Adversarial Learning ”,in VanHentenryckP. ZhouZ. H.edsProceedings of the Thirty-Third AAAI Conference on Artificial IntelligenceAAAIHonolulu Hawaii UnitedStates.29WuW.Li H. and WangH. 2012,“ProbaseA Probabilistic Taxonomy for Text Understanding ”,in Candan K. S.ChenY. SnodgrassR. T.GravanoL. and FuxMan A. edsSIGMOD' 12Proceedings of the ACM SIGMOD International Conference on Management of DataACMScottsdaleArizonaUnited States.30WilliamsonE. J. Walker A. J. and BhaskaranK. 2020,“Factors Associated with COVID- 19-related Death Using OpenSAFE LY”,Nature 5847821),pp.430 ~ 436 .面向大数据管理决策的知识关联分析与知识大图构建管理科学与工程- -218Knowledge Association Analysis and Big Knowledge Graph Constructionfor Big Data Management and Decision-makingHong Liang and Ma FeichengSchool of Information Management, Wuhan University; Big Data Institute, Wuhan University;Center for Studies of Information Resources, Wuhan UniversitySummary: The value of big data comes from the widely-existing associations among objects contained in thebig data. Such associations have different dimensions and levels. Knowledge association refers to the behavior andstate that show association due to internal or external connection in the activities of creating and using knowledge.Knowledge associations are multi-dimensional and multi-level semantic associations, reflecting certain associations ofthe objects represented by knowledge. Building a big knowledge graph based on knowledge association can supportthe value analysis, discovery and creation of big data and provide rich knowledge information and intelligent servicesfor management decision-making.Firstly, this paper makes a formal definition of knowledge association analysis and big knowledge graph construction. On this basis, this paper then proposes a unified framework and systematic method of knowledge associationanalysis and big knowledge graph construction for big data management decision-making. Finally, this paper introduces two typical application scenarios: penetrating supervision based on equity big knowledge graph and accurate traceability based on epidemic big knowledge graph to verify the effectiveness of the proposed methods.Based on the theory of knowledge organization, the research methods used in this paper mainly include literatureresearch, mathematical research, experimental research and case analysis. The data of the financial equity big knowledge graph includes the accurate equity data of seven financial systems (banking, insurance, securities, futures, leasing, trust and fund), a total of 1432financial institutions (with total assets accounting for 99% of the assets of all fi nancial institutions in China), as well as the fundamentals and shareholder data of more than 42million industrialand commercial registered enterprises in China. The data of the epidemic big knowledge graph utilizes the epidemiological survey of confirmed cases in Henan Province from January to February 2020, which includes spatio-temporaltrajectories, relatives and friends, etc.Knowledge association transforms management decision-making problems and methods into the calculation andevolution of big knowledge graph, which further improves the intelligence level of management decision-making. Analyzing multi-dimensional and multi-level knowledge association from big data and building big knowledge graph cansupport "big knowledge" driven management decision-making.The main contributions are as follows:( 1) The concepts of knowledge association and big knowledge graph are formally defined. The multi-dimensionaland multi-level knowledge association is effectively represented by using multiple semantic entailment relation, whichimproves the expression ability of big knowledge graph.( 2) The unified framework and systematic methods of knowledge association analysis and big knowledge graphconstruction for big data management decision-making are proposed to provide solutions for big data value analysis,discovery and creation.( 3) Two typical application scenarios of financial equity and epidemic big knowledge graph are given. Throughknowledge association, the management decision-making problems and methods are transformed into the calculationand evolution of big knowledge graph, so as to realize the transition from data-driven to knowledge-driven management decision-making.Keywords: knowledge association; big knowledge graph; big data; management decision-makingJEL Classification: G 32

[返回]
上一篇:数智赋能信息系统研究的新跃迁
下一篇:人民币汇率变动、企业创新与制造业全要素生产率