欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
博士论文
当前位置:首页 > 博士论文
基于句法语义依存分析的中文金融事件抽取
来源:一起赢论文网     日期:2021-10-04     浏览数:1041     【 字体:

 第44 第3 2021 年3 月计 算机 学 报CHINESEJOURNALOFCOMPUTERSVol .44No. 3Mar. 2021基于句法语义依存分析的中文金融事件抽取万齐智”’ 3 )万常选^胡 蓉2 ) ’ 3 )刘德喜^1 :)( 江西财经大学信息管理学院 南昌 3300 32)2)( 江西财经大学软件与物联网工程学院 南昌 330 03 2)3)( 江西财经大学数据与知识工程江西省髙校重点实验室 南昌 330013)摘 要 事件抽取在自然语言处理应用中扮演着重要的角色, 如股票市场趋势预测. 传统事件抽取较为关注触发词和论元所属类型的正确性, 较少地结合应用需求去分析研究事件抽取效果及使用价值. 在财经领域, 事件作用对象及动作是关注的重点. 因此, 本文聚焦于金融事件, 抽取三元组事件ETCSWk山〇b) . 在中文财经新闻中, 存在大量事件嵌套和成分共享等现象, 致使易出现事件漏抽和事件成分缺失的情况. 为了解决这些问题, 本文建立一个句法和语义依存分析相结合的中文事件抽取框架, 归纳了4 种常见缺省结构, 并设计相应的补全规则.首先, 基于句法依存树, 分析动词词法和句法结构, 建立核心动词链, 使得每个核心动词对应一个事件, 解决事件漏抽问题.然后, 在句法依存树的基础上添加语义依存关系, 建立事件间语义关联, 得到句法语义依存分析(SyntacticSemanticDependencyParsing, SSDP) 树. 第三, 调整SSDP树, 优化句法结构, 形成SSDP图, 使得同等句法结构的词结点处于相同层级, 为后续事件抽取提供途径. 第四, 归纳4 种常见缺省结构, 设计相应补全规则, 解决事件成分缺失问题.最后, 在中文财经新闻标题和C〇NLL2009 中文语料上进行详细的实验测试, 实验结果表明该方法是有效的.关键词 中文事件抽取; 核心动词链; 句法语义依存分析图; 事件语义关联; 缺省补全中图法分类号TP3 11DOI号1 0.1 189 7/SP.J.101 6.2021.00508ChineseFinancialEventExtractionBaseonSyntacticandSemanticDependencyParsingWANQi Zhi1 ) , 3 )WANChangXuan1 ) , 3 )HURong2 ) , 3 )LIUDe Xi1 ) , 3 )^{ School ofInformationTechnology^ Ji angxiUniversityofFinanceandEconomics^Nanchang330032)2){SchoolofSoft wareandInierneiofThingsEngineering?Jiangxi Universi tyofFinanceandEconomics?Nanchang330032)3) (JiangxiKeyLaboratoryofDataandKnowl edgeEngineering?JiangxiUniversityofFinanceandEconomics?Nanchang330013)AbstractAsasub taskofi nformati onextracti on,eventextracti onplaysani mportantrolei nnaturel anguageprocessapplicati ons,suchasstockmarkettrendforecast ,whichcanprovi destrongcl uesforeventsusers, e.g. i nvestors,managersandgovernment ,toanalyzethemarketandmakedecisions. Atpresent,mostofthestudiesabouteventextracti onpaymoreattenti ontothetypecorrectnessoftriggersandarguments,andnotconsi dertheeffectandval ueofeventextracti onbasedonappli cati onrequirements.Wecal lthi stypeofeventextractiontradi ti onaleventextracti on.Theeventtypesandstandardsintraditi onal eventextracti onarederi vedfromACE2005contai ni ng8categoriesand33sub categories, KBP2015andERE, etal.However, therearesomeli mi tati onsi nappl icationofthemtoeventextracti oni nspecificfi nanci aldomain.Forexample,thereisnottheoverweighteventtypei nACE2005,whichisaspecialbehavi ori nthefi nancial收稿日期:20 19 09 10; 在线发布日期:2020 03 0 1. 本课题得到国家自然科学基金项目( 61972184 , 615 620 32 , 6 1762042)、 江西省教育厅科学技术研究项目(GJJ180198 , GJJ180252) 资助. 万齐智, 博士研究生, 讲师, 中国计算机学会(CCF) 会员, 主要研究方向为信息抽取、 自然语言处理、 数据挖掘. Email : wanqizhil006@163. com. 万常选( 通信作者) , 博士, 教授, 博士生导师, 中国计算机学会(CCF) 杰出会员, 主要研究领域为Web数据管理、 情感分析、 数据挖掘、 信息检索. Email : wanchangxuan@263. net. 胡 蓉, 硕士, 助理研究员, 主要研究方向为信息抽取、 自然语言处理、 大数据分析.刘德喜, 博士, 教授, 博士生导师, 中国计算机学会(CCF) 髙级会员, 主要研究领域为自然语言处理、 信息检索、 Web数据管理. Email: dexi . l iu@163.com.3 期万齐智等: 基于句法语义依存分析的中文金融事件抽取509domai n. Inthispaper,wefocusonthefi nancialnewsandextractopeneventswithouttypes.Inthefi el doffinanceandeconomi cs,mosteventusersaremoreconcernedwiththeobjectsandacti onsthateventsaffect.Therefore,combi nedwiththeapplicationrequirement ,weproposetoextractthefinanci aleventET ( Sub ,Fred,Obj),whereSub, FredandObjrepresentsubject ,predi cateandobjectrespecti vely.However,Chi nesefinanci alnewsgeneral lysuffersfromtheeventnesti ngandcomponentdefaul tprobl em,whichresul ti neventomissi onandkeyel ementmi ssi ngofevents. Totackl ethi sissue,wi ththeexpressi onhabi tsandcharacteri sti csofChi nesel i nguistics,webui l daChineseeventextractionframeworkbasedonsyntacticandsemanticdependencyparsing.Thensummari zefourcommondefaul tstructuresanddesigncorrespondi ngcompl eti onrul es.Inparticular,atthebegi nni ngofthispaper,wesummari zefourprominentphenomenaintheextracti onofeventsfromtheheadli nesoffi nanci alnews,andexplorethecauseoftheseprobl ems,noi ndepthanal yzingtherel evanceofsyntacticandsemanticstructureorl ackofit.Afterthat ,weempl oythesyntacticdependencyparsingtreeandl exical structure,andproposethecoreverbchains,whi chmakesurethateachcoreverbcorrespondstoaneventsol vi ngeventl eakageprobl em. Thirdl y,weaddsemanticdependencyrel ati onbetweeneventsonthebasi sofsyntacti cdependencytree,whi chi scal l edSyntacti cSemanti cDependencyParsi ng(SSDP)tree.Inordertobetterseparatethedetectedeventsandtheirproperties,weadj ustandoptimizeSSDPtreetoformtheSSDPgraph,wherethewordnodesofthesamesyntacticstructureareatthesamel evel ,provi dingawayforsubsequenteventextraction.Fourthl y,withthedi visi onofdefaul tstructurei nl i ngui sti c,wesummari zefourcommondefaul tstructuresandproposetencorrespondi ngcompl etionrul estosol vetheprobl emofcomponentdefault.Meanwhil e,thewhol eChi neseeventextracti onalgorithmbasedSSDPgraphisshownattheendofthesection.Fi nal l y,thispaperdepictsadetai ledexperi mentalsi tuati on. Theexperi mentaldataset,label i ngstandardandeval uati onindexaregi ven.Subsequentl y,themethodi nthispaperisveri fiedontwodatasets,fi nancialnewstitl esandcommonfi el dnewsti tl es. Attheend,weconductcomprehensi vebenchmarksonChi nesefi nancialnewsti tlesandC〇NLL2009Chi neseCorpus.Theexperi mentalresul tsshowthattheproposedmethodsareeffecti ve.KeywordsChi neseeventextracti on;coreverbchai n;syntacti csemanti cdependencyparsi nggraph;eventsemanticsrel evance;defaul tcompl ementi 引 言事件抽取作为信息抽取的子任务, 在自然语言处理应用中扮演着较为重要的角色, 如股票市场趋势预测 投资者、 上市公司以及政府对股票市场趋势都比较感兴趣, 趋势预测可为其分析市场、 做出决策提供有力参考. 相关工作[ >4]利用自然语言处理技术分析了网络文本对股市趋势预测的影响, 发现金融新闻报道的事件是股市趋势预测的重要依据[ 1 ].因此, 事件抽取的内容及其质量至关重要, 将直接影响股市趋势预测效果.目前大部分事件抽取都是基于ACE2005?( 定义了事件的8 种大类、33 种小类)、KBP2015?和ERE标准[5], 这些标准及数据集应用于宏观经济预测等特定领域的事件抽取存在一定的局限性, 如在标准中并未定义股票“增持”事件类型. 文献[6 7]虽针对公司新闻和中文财经领域制定了适合自身的事件类型, 但都局限于较小范围内的某些特定事件. 目前对于哪些事件会影响股价走势尚未有定论, 致使自定义类型的事件可能对预测作用不大, 且还要求研究人员具备丰富的财经知识和经验,一定程度上增加了研究难度. 所以, 本文聚焦于财经新闻, 采取开放模式进行事件抽取.财经领域较为关注事件作用对象及动作. 本文①http : //projects,ldc.upenn.edu/ace/②https : //tac. nist .gOv//2015/KBP/5 10 计 算机 学 报 2021年结合应用需求, 确定抽取三元组事件e:t( sM6 ,Pred, ). 其中Sm6 为主语, Pred表示谓语( 事件的核心, 触发整个事件发生,一般动词居多[8], 后续称为核心动词), 〇 ̄代表宾语, 上述3 个要素均可称为事件的属性或成分. 文献[1]虽然也研究了上述三元组事件抽取, 但做了较多限制, 如谓语短语需以动词开始、介词结束, 主语和宾语需为处于谓语左右两侧的名词等. 这会导致较多有价值的事件因不满足条件而被舍弃, 如语句S:“港股恒指跌0.14%”.其中, 动词“跌”作为谓语触发事件, 并未以介词结束; 同时, 该文献未考虑复合句中因共享成分而导致的事件成分缺失问题, 使得抽取的事件不完整,一定程度上降低了事件使用价值.中文作为话题驱动语言, 为了表达的连贯性和简洁性, 常省略某些语言成分, 即句子存在缺省[ 8]. 根据中心理论[ 9 ], 主语、 谓语和宾语作为句子的主要成分. 但是, 主语是最有可能缺省的, 其次是宾语, 最后为其他位置上的词语[1 ° 1 1]. 从句法结构和语义方面划分, 可分为直接省略和间接省略. 如语句S2“英首相让步, 考虑爱尔兰担保协议”为直接省略, 后半句缺省主语“英首相”; 语句S3“京东营收增速首次跌破30%, 年内市值蒸发逾400 亿美元”属于间接省略, 后半句已存在主语“市值”, 但语义并不完整, 缺少前半句的“京东”作为修饰. 对于直接省略, 根据是否由介词引起, 又可分为介词引发和直接结构省略.如语句S4“中国动力飙近21%, 与中国能源达战略性合作框架”后半句因介词“与”引导, 缺少部分主语“中国动力 中文语句表达十分灵活, 缺省结构较为复杂多样化. 因此, 如何抽取完整的事件是本文致力解决的一个关键问题.新闻标题一般需要简明扼要地概括新闻内容.财经新闻标题偏好采用动作行为的表达形式, 致使语句中出现大量动词, 且较多连续动词. 如“3 位创投股东拟清仓减持套现超20 亿, 博天环境一字跌停”. 其中,“清仓”、“减持”、“套现”、“超”等一系列动词描绘整个过程, 可认为标识一个事件, 而动词“跌停”单独触发另一个事件. 如何识别哪些动词触发事件, 哪些动词作为简单的成分, 即确定语句中蕴含的事件数和谓语, 是本文致力解决的另一个关键问题.针对上述两个关键问题, 本文归纳了在财经新闻标题中抽取事件时较为凸显的4 种现象:(1) 事件漏抽.一条新闻标题常包含多个事件,只抽取了其中部分事件.( 2) 事件成分缺失. 抽取的事件成分不全, 主要由主语或宾语省略所致.(3) 事件成分抽取错误. 抽取的事件成分信息在语义上与文本语义存在出人.(4) 事件语义放大. 缺少限定范围, 使得抽取事件语义大于原文语义或语义不明, 主要因修饰语省略引起. 如语句S3, 事件E7\( 市值, 蒸发, 400 亿美元) 虽已抽取了SM属性, 但缺乏修饰定语“京东”,使得事件ET: 语义放大, 指向不明, 缺乏使用价值.出现上述4 种现象, 主要是因为没有深人分析句法和语义结构上的关联或是缺少关联. 其中, 前两种现象属于句法结构, 应探寻事件间和共用成分间的关联规则; 后两种现象则侧重于语义, 需要从语义角度分析其存在的关联. 因此, 本文采用句法和语义依存分析相结合的方法, 建立句法语义依存分析( SyntacticSemanticDependencyParsi ng,SSDP)图. 同时, 基于SSDP图, 归纳常见的缺省结构, 制定缺省补全规则. 首先, 根据句法依存结构, 设计规则,建立核心动词链. 其次, 添加语义依存关系, 建立S SDP树. 再次, 基于核心动词链和语义结构, 优化SSDP树, 形成SSDP图. 最后, 基于SSDP图, 分析扩展事件间的语义关系, 提出4 种缺省结构, 并设计相关补全规则, 解决抽取事件的成分缺失问题.本文的主要贡献包括:(1) 建立核心动词链. 基于句法依存结构, 分析动词词法及句法依存结构, 提出核心动词链建立规则.(2) 建立句法和语义依存分析相结合的SSDP图. 借助句法依存树, 添加语义依存关系, 建立包含事件间语义关联的SSDP树; 基于核心动词和语义结构, 将SSDP树调整为SSDP图, 使得核心动词和同等结构成分的结点尽量处于同一层级.( 3) 归纳4 种常见缺省结构, 提出相关补全规则. 根据中文使用习惯和语料数据, 归纳了4 种常见缺省结构, 并设计有效的查询补全规则.本文第2 节介绍相关工作, 分析目前相关研究的进展及优缺点; 第3 节分析核心动词词性及句法结构, 归纳核心动词链的建立规则, 为探测事件提供依据; 第4 节首先探讨基于缺省补全的中文事件抽取面临的挑战, 然后描述句法和语义依存分析相结合的SSDP图的构建方法, 为补全事件缺失成分搭建查询桥梁; 在第5 节中, 讨论4 种常见缺省结构,并分析其补全规则, 解决抽取事件的成分缺失问题;第6 节介绍本文实验数据集、 实验方法和实验结果,万齐智等: 基于句法语义依存分析的中文金融事件抽取 51 13 期验证本文方法的有效性; 最后, 第7 节对全文进行总结, 并就未来工作提出展望, 为即将开展的后续研究指明方向.2 相关工作事件抽取作为信息抽取的子任务, 在知识挖掘领域起着非常重要的作用. 近几年, 事件抽取的主要研究重点是, 如何利用不同的线索信息提高事件触发词或论元所属类型的正确率, 较少地结合应用需求去分析研究事件抽取效果及使用价值. 我们将前者称为传统事件抽取, 后者称为应用需求驱动的事件抽取.(1) 传统事件抽取的研究进展传统事件抽取一般分为4 个子任务, 触发词识别/分类和论元识别/分类, 前者称为事件探测.目前, 无论是事件探测还是完整的事件抽取, 涉及识别或抽取语句中包含事件数的研究非常少.在事件抽取方面, 文献[12]为解决新事件类型在标准数据集上识别效果不佳的问题, 选择新领域数据训练模型, 但因缺乏标注数据, 提出一种可快速收集新事件类型训练数据的方法, 并通过已有标准数据集, 训练一个可在新类型上识别Actor、Pl ace和Tune 等论元的模型,一定程度上解决了新类型事件的抽取问题. 文献[13]针对基于CRF的事件抽取联合模型的缺陷进行扩展, 旨在解决事件多标签问题, 但需对事件进行分类训练. 另外, 借助同一大类事件下, 不同子类事件间元素存在高关联性, 采取多任务学习方法解决由分类训练带来的数据稀疏问题.文献[14]提出一种动态多池化的卷积神经网络以保持多事件信息, 实现语句中多事件抽取; 同时可自动抽取词法级和语句级特征, 缓和严重依赖NLP工具的现象. 文献[15]利用双向循环神经网络和人工设计的特征联合抽取事件触发词和论元. 文献[16]研究论元与论元间的句法依赖关系, 为其建立依赖桥, 结合双向循环神经网络方法, 提高了同一事件的论元被完整抽取的概率. 文献[17]利用同一语句包含的多个事件触发词之间存在高关联性, 通过引人句法依存树和基于注意力的图卷积网络, 借助其他事件触发词类型信息进一步确定当前事件触发词所属类型, 从而提高事件抽取效果.在事件探测方面, 文献[18]研究的问题类似于文献[17], 也是借助事件间的关联来提升事件分类的效率. 但不同的是, 文献[18]指出, 较多可利用的、有关联的事件位于不同语句中, 只考虑单个语句中的事件, 存在一定局限性. 因此, 设计一个门控多级注意力机制, 自动提取并动态融合句子级和文档级信息. 文献[19]分析以往研究主要针对特定领域或特定事件类型存在的局限性, 提出在开放领域中探测无类型约束的事件. 随后提及由此带来的2 个问题: ①事件无统一定义; ②无足够训练数据. 为了克服问题①, 选择识别所有可能的事件. 但通过公布的语料可知, 基本限于一条语句只包含一个事件, 即只考虑一条语句中包含一个事件的情况.文献[20]针对以往工作只利用一次上下文信息的情况, 提出利用动态记忆网络多次使用上下文信息, 提高事件触发词分类效果. 文献[21]通过生成对抗方法, 解决由语义信息映射的高维特征空间中存在虚假特征干扰的问题, 提高了事件探测效果.通过对事件抽取相关研究的梳理发现, 事件抽取主要集中于利用寻找的线索提高事件识别或抽取的效果, 与本文研究问题还是存在一定的差别. 但是, 本文获取的事件内容与语义角色标注在形式上存在一定的相似性. 语义角色标注主要标注论元与谓词之间的角色关系, 属于浅层语义分析.(2) 语义角色标注的研究进展语义角色标注( SemanticRol eLabeli ng, SRL)包含4 个子任务, 分别是谓词识别/消歧和论元识别/分类. 针对SRL的研究, 基本上都是基于CoNLL提供的标注语料库, 这些语料库大部分已标注了谓词[2 2 2 3], 所以很多研究的重点主要聚焦于论元与谓词之间的角色关系. 近些年, 深度神经网络方法在SRL上已经取得了较好的效果[ 2 2#, 尤其是LSTM.深度学习方法较少考虑句法特征, 但直观上句法结构利于SRL, 为了验证这个假设, 文献[24 25,30]均采用基于现有的模型, 如Bi LSTM, 设计嵌人句法结构的模式, 使得深度学习模型可利用输人的句法结构实现SRL. 研究表明, 深度学习模型嵌人句法结构可提高SRL效果. 虽然句法结构能够提供一定信息, 但因其对语言类型和领域外数据的鲁棒性不高, 所以也存在较多的研究未利用句法结构[2 42 6].文献[31]则采取折衷方案, 利用超级标签获取部分句法结构信息, 提高了SRL效果.除此之外, 也有研究针对SRL基于跨度和基于依赖的2 种标注形式进行了分析. 文献[23]指出, 由于2 种标注形式的存在, 使得很多下游应用不知采取何种形式更为有利, 从而提出一种统一2 种标注5 12 计 算机 学 报 2021年形式的端到端SRL模型. 文献[26]分析了基于BIO标签的神经网络需要已标注谓词作为输人的一部分、 且无法包含跨层级特征等缺点, 提出一种端到端模型, 用于联合预测所有谓词和论元跨度, 以及它们之间的关系.文献[22]受助于人类在处理未见过事情时借鉴相似问题处理方法的启发, 提出一种不依赖句法结构的方法( Bi LSTM+AMN) , 该方法利用训练集中语句及其标签关联记忆线索, 帮助论元角色标注.上述研究较好地推动了SRL研究的进展, 但针对本文提出的研究问题, 发现仍存在以下不足:①不能结合应用需求识别以事件为单位的谓词. SRL多以动词为单位进行识别, 而在语料中, 语句通常包含较多具有动词词性的非谓词, 导致识别的事件数远多于实际的事件数.②绝大多数研究未考虑论元补全, 少量研究只实现了简单论元补全, 即同一个论元与不同谓词间的角色关系.③由于CoNLL提供了谓词标注, 因此部分研究只考虑了识别论元与谓词之间的角色关系, 并没有研究谓词识别问题.④大部分研究基于英文语料, 由于中文需要分词, 因此借助句法结构信息的模型不能较好地适用于中文语料.⑤特定领域的标注数据不足, 尤其是中文标注数据, 无法满足需大量标注数据的深度学习方法, 使得SRL效果不佳.(3) 财经领域的事件抽取对于应用需求驱动的事件抽取, 以需求为导向,有针对性地抽取所需事件.文献[7]聚焦于财经领域中事件信息分散于多个语句的现象, 自定义财经领域事件类型, 并提出抽取文档级事件的方案. 同时, 采用远程监督实现自动标注财经领域训练数据, 克服特定领域标注数据集不足的问题.文献[6]以了解公司大体情况为需求, 针对公司新闻文本, 分别采用SVM和RNNLSTM方法探测自定义的10 种不同经济事件.文献[32]以证券和金融市场决策者需了解事件各方面的综合信息为出发点, 分析了基于单个文档抽取事件的局限性, 利用不同机构可能报道同一事件以及事件存在冗余信息的线索, 提出在开放域新闻集群中抽取事件的无约束类型, 并归纳通用的事件模式.文献[1]首次提出采用结构化信息表示事件, 将抽取的事件用于预测股价波动. 文中事件定义为4 元组£=( 01 , 尸, 02 ,:〇, 其中01 为行动者, 尸代表谓语, 〇2 是目标者, T为时间戳( 主要用于对齐股票时间) . 该文利用开放信息抽取技术[ 1 2 1 3 ], 无需事先定义事件类型和人工标注训练语料. 但在抽取谓语和论元时添加了句法和词汇限制[1 3].该文献存在的不足:(1) 谓语抽取的约束条件过于严苛. 在新闻语料中, 存在较多谓语不符合约束条件.( 2) 论元识别存在一定的局限性. 首先, 充当论元的词不一定为名词短语, 且也不一定为距离谓语最近的名词短语.( 3) 没有考虑成分缺省情况. 财经新闻语料存在大量的成分缺省, 不完善缺失成分将会大大降低抽取事件的使用价值.3 建立核心动词链本节首先分析基于句法依存的核心动词句法结构, 然后总结建立核心动词链的规则, 最后给出建立核心动词链的算法.3. 1 核心动词词法及句法分析3.1.1 依存句法分析树依存句法分析(DependencyParsi ng, DP) 是自然语言处理中的关键技术之一, 其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系[3 3].主要包括两方面的内容,一是确定语言的语法体系,即对语言中合法句子的语法结构给予形式化定义;二是依存句法分析技术, 即根据给定的语法体系,自动推导出句子的句法结构, 分析句子所包含的句法单位以及这些句法单位之间的依存关系. 依存句法分析树(称为DP树) 则将句法单位之间的依存关系以树的形式表示. 本文的依存句法分析采用哈尔滨工业大学语言技术平台( LanguageTechnol ogyPl atf〇rm, LTP)M, LTP共定义了14 种依存关系,如表1 所亦.表1LTP中依存关系名及含义标记 解释 标记 解释SBV 主谓关系 FOB 前置宾语VOB 动宾关系 ADV 状中结构IOB 间宾关系 CMP 动补结构POB 介宾关系 IS 独立结构ATT 定中关系DBL 兼语COO 并列关系 LAD 左附加关系I IED 核心关系 RAD 右附加关系贿轉: 基; 懷滕析爾申纖麟#抽取 613 議 期语句Sr首钢控股购人约40.78%股权%其依存句法分析结果如图1( a)所象sDP树如图1( b) 所示. , 图1 ( a) 中的n, v,d, m分别代毫名爾、 翁坷、副词和数词; 布图1(b) 中,“购人”与父结点关系为HED.. 是本语句核心词f络点之间的边代表句法依存关系. *于模心. 词的词性通常为动词; 所以也将德: 心词: 称之为: 樣心动爾部VATTATi*\i\首钢控股购入 适 40.78% 股权ATTnvdmn40.78%|祕Ttvm\(a) 依存句法分析(b) DP#图1讀轉=87 的偎夢旬爾分析和DP树S.1. 2 權心翁词句維分析中文语句表达常采用弁列句和复合句, 在财?新南标嚴中麗为餐出. 财縴If歸标邀一般来取正3:副标题?f式, 副标题对正标题起补充说明, 更为详细地阐述正标題的内容_ 下面以一个简单的例子来说明梭心—词的甸ft:结构-例1 .“果源价格分化严重苹果期货增仓上涨副标题苹果期货增仓上涨”对?标題W果源价格分化严童^中的具体果源( 苹果) 价格情况进行描述. 该语句的DP树如图2所示(为I?简化, 树中省略了标点符号依存关荽, 后续的DP树中也全部省略) ,对于例1, 共包含3 个事件ET2 (果源价格, 分化,)、 ETS(苹.果期货, 增仓, )和ET4(苹果期货, 上涨, ) . 在图2 的DP树中, 只存在一个语句核心动词“分化 如果每个核心动词触发一个事件, 则导致£7\和£7;事件漏抽,增仓”作为 的谞词, 是ET2谓词“分化”的孩子错点, 且依存关系为COO,而ETg 的谓词“上涨w又怍为 的谓词增仓〃的孩子麵,从图2 申分析可知, LTP针翁一条语句, 旯会给出一个核心动词,?但我们可以根据其依存关系和词性, 参照每个核心动词对应一个事件的标准, 划分出多个核心动词, 从而形成一条核心动谓链. 如何建立稼心动词链将在下一小节介藉.3. 2 核心动词链建立通过对大量的语料和J:节的DP树迸行分析, 发现S条线索s ?事件的谓词一般由动词充当; ②一个语句中事件间的谓词在DP树中为父子结点,, 且保持连续; 如“分化 增仓”一“上涨、@一个语甸中事件谓词之间父子结启的边为coa., 另外, 在语言学中; 并列的19语在句法结构上獻该撕有相同地位或性质. 即它们之间废采用并列符号进行关联,如ltp采甩的coa通过对一个语句中动词并列符号的识别,. 可较好地分离语句中包含的若干事件.因此. 根据上述线索, 提出一个事件分离方法(核心动调链的逢立规则h具体规则如Ts规则1.如果LTP给出的语句核心凤是动坷S 则默认属于核心动词链中r否则考虑其满足COO关系的孩子结点, 直到找到动词为止.规则2. 加人的错点:; 暴考核心动词链中猜: 点构成coo关系的动词结点, 且确保添加的动词从语句核心词开始一直保持coo关系的连续性,一旦亦断则不再考虑后续动词,规则3. 如果 给出的语%核心词是非动■s 且其孩子中没:有满足COO关系的动词鍺点, 则纖匈末象成核心动實链,上述规则彼此间具賓一走的逻辑依赖性, 规则1是植逢核心动词:链的起点f规则2 是对扩充核心#词链的新结点进行词性、遙续性和旬法依存关系判断, 其中原始的连续性来瀨于*则lr 而规则,3 是不满足规则1 的情况( 即核心动词链方空).添: 加意: 核心动词链中的每个动词结点需满足以i:所有《贝卩 , 本文以T部分所说的核心动诃均指处于核心动词链中的结点, 所以链中结点数即为语句蕴含的事件数. H此. 利用核心动词链方法, 可解决本文提出的如何确定语句中蕴含事件数的:業傭问: 题.针对'图2中“增仓”和“上涨”鍩点, 按照规则应全部振加意: 核心动词链中,但它彳口反峽同一^件( 即主语和窠语相同) 的不同情况. 为了避免将一个事件拆分成多个#件面降低事件信息的连贯性和完. 整性, 本文做了如下优化: 对于语句中位置连续的核心动词( 如果核心动词之同只包含副词,也认为ii续) ,则将所有核心动■合并为一个整体; 表示一系列连贯动作, 如例1 中事科EIV与ET4 合并为事件ETS苹果期货.,[增仓, 上涨综合核心动词链的建立及优化规则*可#到核51 4 计 算机 学 报 2021年心动词链的建立算法, 如算法1 所示.算法1?CoreVerbChainCCVC,curNode, DPtree) ?输人: 核心动词链CVC, 当前核心动词结点cMrNoA,语句DP树D朽ra输出: 添加了新发现核心动词的核心动词链CVCFOR (〇1 〇办GCNS)//CNS为cwrJVo办的孩子结点集合IF{cnode.postag为动词且cno办 关系为COO)//多cmag为结点词性, 为结点的依存句法关系IF(cno办与cwrNo办在原句中相邻或中间只包含副词) 泠有连续核心动词IF(CVC为空)//处理初始 办为非动词,#且〇\^为空无法合并连续核心动词的情况将cnode 加人CVC;ELSE将cwo办添加至CVC中的cwriVo办列表中;//合并连续核心动词ENDIFELSE//无连续核心动词将cno办加人CVC;//将满足规则的核心动词添加至核心动词链ENDIFCore"Wr6C/iai n( CVC, oio办, DjPfr從); //: 递归查找ENDIFENDFOR4SSDP图本节讨论SSDP图构建. 首先分析解决本文所提问題面临的挑战, 然, 后介绍SSDP树的建立过程,最后描述SSDP树转变为SSDP图的过麗4,1 基于缺省补全的中文事件抽取的挑战S前, 随着机器学习利深.度攀习相关技术的飞速发暖, 大量的方法用于解决事件抽取问题^且取得了较好的效果, 但是这类方法 大屬人工标注; 数1据作为训练集.. 对于中文财经新闻领域, 人工标注的数据十分匮乏, 较大地影响了上述方法的抽取效果.M: 且r本文采取开敖機式補取开敖性事件(无具体業型的事种)., 无任何标准可用于触发词和论元标ft,一定涯度上X增大了人工标注的难度.因此, 针对本文提出的问题, 建'议选取规则匹前方法,依存旬法结构蕴含着丰富'的信息, 无论是深度学习还是规则匹.配方祛., 均将其作为一条童栗线索.针对本文的研究何题, 句法依存关系可以用T识别结构i的成分缺省, 从而启动成分补全,然而, 仅仅采用依存句法分析方法, 无法完全解决上述缺省补全何题,一穷面,一条语句可釆用'不同的表达形式, 致使旬法结构多样化?增加了补查复杂麗s 碧一方菌 *督旬.61讓达存在射序性1C即事件之间具有先后顺序> 和一定:的语义关系( 如因果关系、转折关系等) 且事件缺省的成分常包含于该事件之前的其它事件申', 故补全缺省成分的前提是變要鸯立事件间的语义关联,4.2 基于句法语义依存分析的SSDP树构建针对汉语言中的缺省, 研究成果并不多*且定义及葙围投有編一的标准tl l]. 黎锦熙W5]认为经常出现的省略包括对话省、 自述省和承前省; 吕叔湘[ 3 &]将缺省分为当前省、承上省和概括省; 王力[3 7]则分为承说省和习惯省? 随誉衩塔法学中“三个乎面”理论〈语法, 语义, 语用)的提出, 语法学者对缺省从认知角度有了如下三种基本认?t3 S].⑴旬藤緒构土蠱歲. 措緒构中#不1"少盼成分騰棚现前句_构省赂X(2) 语义结构上界定. 指应该说出的意思没有说出来的语叉省略.GT) 语用交际界定. 指因语言环赓需要的语用'省赂?其中., 裔貪环填涉及较为广泛, 可以是社会文化菁:S;、语言上下文或交I示的现场懞暈.新闻标題较为葱小、 独立, 请言上下文中的语用曹略偏少*0此本文依据上述缺魯结构的舁定, 提出一#句法与锫义分掛顧结合的事■件袖取方法?称之为句法谱义依存分析(SSDP) 方法,'请夂依_分析( SemanticDependencyParsingsSDPh用于謂画爾汇间语义依存关系. 与语义角色标注存在一定的关联?SRLR关注甸子请词与其主要论元之间的关系, 而SDP不仅务注谮词与论元,还关fe谓词与谓词、论元与论元、 论元内部的语义关系, 对旬子语义:倩息的刻画更〔加完養全面*SDP.屢宁深崖语义分析, 不仅可为我们调整DP树中部分错点结构提供语义分析, 还可”为我们建立事件间关联提供途1 轻.例1 的SDP树如图3 所示. 其中,Exf3、 H〇st、fcCoo、C:6ns.vFeai和Mann分规廉累当事養, 系、 截患角色、:并列关系、结_角色、 描写角色和方式角色.例1.?SDP树贿轉: 基; 懷滕析爾申纖麟#抽取 6K 議 期考虑到目前可甩SDP工具拇正确性一般<'图3中w严: 重《锫点错误地依存于上涨’’结点〉 , 且导Dp在结构上有时会费在冲. 突X作用对象不一致 此,.本文只利用SDP建立核心动词间关联. 为迸一步降低冲突抽可能性,建立试程囊按如下,方式进行.首先, 对DP树进行剪枝, 只倮留主语、核心动飼和?輋―主干成分/减少DP树中的铕点槳量; 其次, 对剪支后的DP树进行语义依存分析,获取核心动词间语义关联; 最后、将获取的语义关联添加至原始DP树中.另外, 核心傭爵一窺涯慶i代慮審件s審件之间的谱义依寝舞峯采用 如&6〇〇? *3聰3 和ePtrp)表示,因此针对核心动爾闻非eXX关系的情况, 隹依赖的孩子绪点中查询获取, 并作为核心动词间语义关联. 例如> 匣3 中“上涨”与“分化”结点之间的关系为 霖孩子_点中掌取e: Co〇关?擊、苹文针对DP树中结点关系. 设计事件关系二元组Ei?T( 办 其中, 办为句法依存, 关系,表示语义依存关系. 将添加了语义依存关系的DP树称为SSDP树, 其构建算:法如算法2 所示.算法2.SSDPtreeBxild(DPtne. CVQ.输入DF树?DPtW-rft 心靖SI链CVC猶掛r 句參3罾黑襟#分析树JSftP嫩《FORKs(freVerBC4;YO获取coreVer6在DPtra中对应结点;获取core"Wr6iV〇£^的主谓宾主干结构cvnMai n;将cwi Mai w按原词顺序组合形成主干语句wnMah;通过SDP工具获取 的语义依存关系coreVerbNode.sdp=senSdp\_coreVerb ̄\ ;/:,修改 中核心动词结点语义依存关系ENDFOR动调合并. 其中,“分化”和“[增仓, 上涨]”之间通过eC〇〇连接, 表示夢件间存在并列关:联. 但在句法鍺构上仍为父子关系. T节将介绍如何将SSDP树调整齿SSDP图.4. 3 基于核心动词和语义结构的SSDP树调整同一条语匈中, 每+事件的发生虽然存在前后顺序,但它们在句法绾构上(包括每个事件的核心动词^主语及宾语等)座处于相同地位, 这样不仅使#句子句法结梅一f了然, 还有利宁事件的确定和ET元組中成分的抽取.因此, 本节钍对SSDP树做了一定的优化和调整, 剪除无敏路径5 降低树的高度, 使得调整后的SSDP树更趋于扁平化, 缩短搜索路径. H调整后的SSDP树已不符合树的定义, 故将其称之为SSDP图. 具体调整方法如下*( 1) 核心动词调整■?提:升处于核心动词链中的每个核心动词结点层鈕, 使得调整后的SSDP_中所着核心动词■'点与核心根结点 _處的宣攘孩子结点冻调整前具有I吾句核心饲称为核心根结点>:具有相同层级, 即调整为 结点的直接孩子结点? 如图3所示、将“[增仓, 上擁T结点调整为办此结点的直接孩子, 使#与“分化”结点处于同级, 但真原始关系仍.保留, 并采用有向虛线进狞连接. 方向代義事件的时序往.(SBV.NULL1/(ATT,NULL)果源(SBV,NULL)/(ATT,NULL)苹果M-5 图4隹:梭心翁鋪侧藤g驗. SSDP图&SDPtme=BPt;r;ee;RETUBMSSDBtrm顧于價2 所示的DP树, 将_3 中核心动筒“分化”,上涨”间的语义依存关系eCoo添加至DP树中* 栂_勝S: SDP树如图4. 所'示s 词时迸行了核心[ Root1(HED.NUI.L)(SBV,NULL)'^^\((X) 0,eCoo )(CMP,NULL)价格 严重[增仓#涨]/(ATT,NULL)(SBV,NULL)果源期货(ATT,NULL)图4 图3: 察_s為且合聲核心翁饲后猶SSfiP树梭心动1] 爾_是将SSDP树调整为SSDP 图的关键.不仅有利f事件的划分, 而且一定程度上丨旬接促使了同等成分的结点也处矛相同层级. 如图5中具有SBV关系的“期货”和“价格”结磊, ATT关系的“果源”和*"苹皋9结点均处于相同层鈒.(2: 3 介词: 结构调整. 提升介词引导的充当主语或宾语的结点层级,使其作为对应核心稂结点的: 直接孩子结点? 菌6(a),鹿示了语句&的SSDP树经核心动ft调整后得到的SSDP图,其中?eSucc 表示顺承关系?“中舞能源”语义上为* ?达”的主?语肩结构上是 的直核參子_图SfM食圏rCa) 的基補上, 对介爾:结构进行调整,将“中国能源<’调整为“达”的直接孩子A法依春关系从POB调整为SBV,肩时保留原始依存关系(POB: *NULL ),采用无向虚线连5 16 计導机攀报: _1苹(a) 经核心动词调整后的SSDP图图:6 谱句S, 的SSDP树:经襯整gteSSRP盧( SBV. Agt ).此处,“被”字属于.殊介词, 禹然调整. 过裎与介词结构相似s 但其缺省结构补全规财存在区别? 被动语态薔对调主语和宴语, 且“被”字在调整后的图结构中无倉义. 而?6CW中介词“与"起并列连接作用s 在成分补全时应与左右成分一同翁入,基于上述调整规则* 可得到将SSDP树慨整为SSDP图的算法, 如算法3 所示*算法3.SSDPtreeAdju?t(SSDPtre^,CV〇f:输人: 语匈銘DP树SSDftw勺翁心动:爾懲输出: 语句SSDP图SSDPgra多/iFOR(〇^V^^6CVC)^/CVC中每个核心动词获取coreVer6在<SSI)jP?r從中对应结点coreVerWVotie;建立由只〇况指向coreVerWVo办之间的关联;//提升 办结点的层级, 但保留核心动词//结点之间的原始关系FOR(nodeeCCVNS)接. 其中, Agt 表;^施事关系.( 3) 被动语态调整. 提升被动语句对应结点层级, 修改句法依存关系. 如语句s6“伽马投资未披露基金运作情况, 被监管责令改正”的SSDP树经核心动词调整和被动语态调整后的SSDP 图, 分别如图7(a)和图7(b) 所示.(HED,NULL)披露 责令(SBV,NULL)^/\(V〇B,NULL)^D^NULI^\^ADV,NULI4伽马投资 情况(V〇B,NULUr[m\(VOB,NULU/(V〇B,NULL)^7p〇B,NULL)[m](a) 经核心动词调整后的SSDP图Root(HED,NULL>^^^^(HED,NULL)I 伽马投资I I 未I 準(V〇B,NULL) /W]| 监管|(POB.NULL)丨 运作(VOB,NULLy(b) 经被动语态调整后的SSDP图图7 语句S6 的SSDP树经调整后的SSDP图其中/被”结点时倉黎孩乎结点w躁管”调整为w費令股直接孩子鍺点, 且添加其对应依存关, 系//CCVNS为 的孩子结点集合IF(no办为被动语态词)//被动语态调整获取语句的语义依存关系FORCcno办6CJVS)//CNS为no办的孩子结点集合IF(cnode 为右孩子结点)#存在主语建立由core 办指向 的边;cnode.dp=SBV;cnode.sdp=senSdp\_cnode ̄\;ELSEIF为左孩子结点)《/存在宾语建立由 指向cwoA的边;cnode. dp= YO^;cnode. sdp= senSdp\_cnode ̄\;ENDIFENDFORELSEIF(no心为介词)获取语句的语义依存关系FOR(cn〇&6CJVS)//CNS为no心的孩子结点集合IF(cno办与coreVerWVWe 的语义关系为主谓关系>//介词引发的主谓关系调整建立由core VerAiVo办指向 的边;cnode.dp=SBV;cnode.sdp=senSdp\_cnode ̄\;ELSEIF(cwo办与core 的语义关系为动宾关系) 身介词引发的动宾关系调整建立由 指向<: >2 〇办的边;cnode. dp= VOB;cnode.sdp=senSdp\_cnode ̄\;ENDIFENDFORENDIF3 期万齐智等: 基于句法语义依存分析的中文金融事件抽取51 7ENDFORENDFORSSDPgraph=SSDPtree;RETURNSSDPgraph;综上所述,SSDP图的构建过程主要包含3 步,如算法4所示. 第1 步, 核心动词链的建立, 如算法1所示; 第2 步,SSDP树的生成, 如算法2 所示; 第3步, SSDP树的调整, 如算法3 所示.算法4.SSDP图构建?输人: 语句输出: 语句SSDP图SSDPgra夕CVC=0;//将核心动词链CVC置为空利用LTP工具获取wn的依存句法分析结果 私根据DjPremk生成5伙的DPtr從;=伙的根结点;=的孩子结点;//只有一个孩子结点IF( HEDno办词性为动词)将HEDno办加人CVC;EDNIFCoreVerbChai n(CVCyHEDnodey DPtree);//cvc返回满足核心动词链建立规则的核心动词IFCCVC不为空)SSDPtree=SSDPtreeBui ldiDPtree y CVO;SSDPgraph=SSDPtreeAdjustC SSDPtreey CVC);ENDIF5 缺省结构及成分补全本节先介绍4 种常见缺省结构以及缺省补全规则, 然后描述基于SSDP图的中文夢件抽取算法.5. 1 缺省结构I前关于缺省分类的划分未有统一标准、, 较:多文雜S于中文鲁州树虜 Clii n'fcseTir &eBaxik,0了8:)[3 9]和Ontoncrtss3. 0 等舊料库划分的缺杳美别迸行研究, 主蘩包含6 类缺省, 如表2所示其中;HONE-*T**PRO*|EJHONE-*pro*&比最大[1 1].表2CTB及Ontonotes3.0 中缺省分类类别 描述NONE-*T*缺省为主题或从句实施者NONE-*缺省在“把”字句、“被”字句NONE-* PRO*从句中缺省明显主语NONE- *pro*缺省的为主语或宾语NONE-*RNR*发生预指的缺省形式NONE-*?*其他类型拫据上述分类规则弁结合新闻语料分析, 本文将事件成分缺省主要分成以下4种结构.( 1) 直:接成分缺省, 根据缺省成分的复杂性》. 可分为简单缺省和组合缺省,①筒拳缺翁. 缺省成分羅构筒率, 可單独作为其它參件的某个成分(如主谣:u賽甸氏中筒单缺貧错_的: SSDP:圈如调8所示 中* ePMp 代讓目的关系 个事件用虚线框标识, 事件 (荚首相;让步,) 中简单主悟成分“英首相”作为ET7(,考虚,爱尔兰担保协议)事件的主语, 舉用点横相间的有向虚线连接, 表示其篇级关系, 并添加依脊关系(SB. V,Agt;I,②组合缺省. 棠个组合整体作为其事件的某个成分. 语 S7“油价再遭痛击, 拖累期市”中组合缺省结构的SSDP图如M9 所示. 其中 事件£:TS( 油价. 遭, 痛鸯1整体作为#件E Ts(, 拖累. 期市)中“拖累”缺失的主语, 掭加 与?"拖累”结点的依存关系(SBV.Agt h( 2) 介词引发缺省, 虫介词引发的部分成分缺语句氏中介 发缺省結构的SSDP图如圈'10所示. 其中.介词“与”引导关联“中国动力”和“'中■能源”?因‘?中_能源”绪点为SBV关系, 故添加《中国动力”与*达”结点间的依存关系( SBV,Agt } .5 18 计導机攀报: _1苹这:) 被动语态缺省* 斑“被m字等介词引发的被动语态的成分缺省.“被字属于:特殊介诃, 首先按照介词引发的缺省过程构建依存图, 然?后建立共享成分与缺笞事件的宾语关系. 语句玫中被动语态缺省戴抅的SSDP图如: 圈11 所示? 其中,Pat 治受事長系,被”结点只, 起引导连接作用, 既然引导的成分关:系已修改. 则其祖关边'可直接剪藤剪枝, 后猶依存图姐圈3J所示._移 _1 1剪枝?被”后ftSSDP嫌(4) 间接修饰缺省, 语义上存在修饰关系的缺省结构. 间接修饰缺省主要是反映事件间论元之间关系,充当修饰作用的一般为关联事件的主语或其主语的a语? 如语句s3, 其定语“京东^’作为“市值”的修饰; 语句sr深圳成立私■.基金,规模为1卯亿元”? 其宾语“私募基金”修饰后半句的主语“规模请_Ss中间接修饰缺#雜构的SSDP顧如厲13 所国13:舊句為鲁: 间: 餐修饰_養讀翁前銘DP图示,添加了“京东”与“市值”之间的定语关系(ATT,: 奠中, eResu表示因果关系?Nmod 表示名字修饰角色.5. 2 补全规则通过上节缺省结构分析可. 知, 补全_會成分可在与本事件时间屬近的早期事#中聱找, 但#_所有缺省都薷进行补全?存在语句本身无主语的情况,如‘气只别减值风险>严防商誉髯'?此, 何时启动缺—补条机制、如何获取补全内容f是缺省尊全_两大难点, 尤其是间接缺省, 无法从句法靖构上进1于判断, 必须借助语义分析.不同的缺省类JL其朴全启动时机和规则#'在義舁*下面分别对主语和宾'语缺?进行分祈.在语法结构中, 动词分为及物和不及物两类. 宾语缺省补全需_合语句核心动词类型共同分析?如果核心动词为不及物, 其缺省麗正常情况* 无需启动补全机制?当核心动词为及物动词,语句一般会跟随宾|吾对象. 或以指代词戒式给出. 真班的宾离缺省大多由介词. 或被动语态引发, 本文前述已对这些结构做了调整.由介坷钥发的缺省, 可根摒介词的识别?启动补全操作. 而被动语态前期已作成分关系调整>可直接识别抽取, 也无需补全.曲语料分折案现I 齊享主语的事件间的i吾义依存关系薦中于因果(eResti)、 顺麗£eSwc) 和目的CePurp).系.对于倚摹的聲到句算鄭子成分相对完義,通常不会共享,主语, 即使存在成分缺省,一般默认为事件实际天主瑨, 不皂动补全操作.本文主语补全时机和规则主要围绕上述3 种宙义关系, 我们称这些关系为引a关系. 下面针对具輝情况分别讨论.5.2.1 直接成分缺省补全直接成分缺省是基f依存甸法结构进行判断<当SSDP图中的核心根结点不存在^^为SBV孩子结A时, 说项只, 是句法结构上存在主语缺失^由于穿在部分实际无主谱情况, 所以是否窬寒4卜全缺#,还需再结含语义依存关系进行分析, 从而提出3*规则4?:规则:6,规则4. 如果由核心根结点触发的事件不存在具有窜义依存关系的较早事件, 规不必补全.规则5. 如巣存在盡接成分缺失, 且Ei?:T中为非引发关系, 碁最近关 件只存在一个it谣, 则在綦近的关联事件中查询获取关联事件的主语, 补全缺省主语, 即简单缺省补全.贿轉: 基; 懷滕析爾申纖麟#抽取 6? 議 期规则6. 如果存崔直接成分缺失, 且中?^为引发关系, 春晕近关联事件#存多个主每, 则取最近关联?件中駔禽当翁事件最远的主第〈关联事件第一个主语'), 补全缺省主语-规则4聲求, 补查擁作的前痗必须蠢共享翁请'的句乎在当前事件之前发生, 且存在语义依存关系.这符合捂句表达逻辑.因此肩则4 是其它缺省规则执行的前提; 规则s和规则6 分别讨论不同《^关系下的缺省补全情况.规厕5 和规则6 均是依照人们使用语言的习惯, 取关联夢件中位于语甸最前面”的主谮作为缺翁补全?图3 展示了规则5. 补全过程? 事件ET7 書在主语缺失s 因此在最近关联事件£乃中査询核心根结点的直接孩子结点, 且办<为SBV. 针对规则6, 我们通过一个示例进行说明.例2.*上航飞东言一航班因机械故障返航,B. 另调配飞机”的SSDP图如图14 所示, 其中,“调卸"事件缺少主谞*其关联事件“返航”穿在多个主语, 属此取最远主语^上航”作为■"调配,件主语..在财绖领域中,作为共享主语,一般以细分的名词唐多, 如公U、股票的筒称、机构团体等专有名词集属此, 当存在直接成分缺失, 为引发关系, 且鼙.近关联事件只存在一个主语时, 则述需倩助该主语的词性细分缺省补全情况.? POL1fli 、nz:.,fth?}}为爵性纛,其中ni、nz、nh 和j 分别表示机构团体、专有名词、人£ 和筒称?PQL为简单的词性集合, 无领域特性, 在规则判断过種中无需复杂的计#, 直镔词'性对比即可?规则7. 当最近关联喜件的主语词性不属于POL, 且主语存在定宙时, 则取主语第一个定语补全缺省主最.规则8.当最近关联事件的主语词性不唇于POL, 且主语不存在定语, 则取关联事件整体补全缺省主语,即组食缺朱补全.规则9. 当綦近关联事:彳牛的芏锫词性为名词或扇于POL, 则直接取关联事件主谞补全缺喾■趨则??规则9, 射外是:趨则¥的31补遺式, i寸论^办为引鸯关系但主涪唯一的情:ti 对内则分析关联事件主语词性. 财经领域标题常描述同一个主体的不同方面情况,当关联#件主语词性属fPOL, 则该主语作为缺曹补全成分的概率. 较大, 如例4r曹不属节PC儿且眘在定窜B寸5窣谞常为专有词I匚? 从而共享此定is,即缺#定is,如例3 所示.例3. “自主品牌车市寒冬如何活下去, 不少紙为牟瘼背兼極”&含睿件etm( ,沦为, 车展f量板. 其中, 主语寒冬°不属于POL, 但其存在A: TT“自主品牌 当事件 全主语財, 稂据规则7可获取“自主品牌'谮IfS7 的SSDP蘭如國fIf示? 主语?袖价#作为普通名词, 且不存在定语, 满足规则8, 所以事件EIV整体作为事■件ETS 的主谱,例太“禽岸人民币贬值, 跌败《?93 关口”包含事件Et(, 跌 关口). 其中w离岸人S币”作为 专有名词, 符合规则%拳件ETy的主语补全为“离岸人民币%其. SSDP图如图15 所示.g.2.2 介词及被动'欝寒缺誉补棄中文的介词fe常连接多个名iO 性词谓, 针对前面0出现的名词, 在后儀搭配介词的描述中一般将其省略? 筒单地从句法上分析, 夢件已经存在相关成分, 但逻辑上_人分析犮现, 相关成分并不露备. 同时, 对于特殊介词“被”字. 既兼: 顾T介词游点, 又包含了主语和実-语语义的反转, 也霄要特殊处理, 以便于缺省补全.因此, 专门提出规则10 和规则11 进行处理.规则10. 如果为介爾引发的成分缺省, 且为引发关系, 则在最近关联事件中查找主语补全缺520 计 算机 学 报 2021年省的主语或宾语.规则11. 如果由被动语态引起的成分缺省,且《^为引发关系, 则取最近关联事件的主语作为缺省事件的宾语成分.图10 和图12 分别展示了规则10 和规则11的补全情况. 在图10 中, 介词“与”触发启动补全,在关联事件ET1 2( 中国动力, 飙近,21 %) 中查找其主语“中国动力”, 并将其与“与中国能源”合并作为ET1 3 的主语. 在图11中, 由“被”字引起的被动语态, 根据规则11, 获取关联事件ET1 4(伽马投资, 披露, 基金运作情况) 中主语“伽马投资”作为£7\5 缺省宾语.5.2.3 间接缺省补全除了句法结构上直观的缺省, 还存在语义上的间接缺省.间接缺省主要缺省修饰语, 常由公司或机构等充当. 如果缺省事件本身已经存在词性属于POL的名词作为主语, 说明已限定范围, 缺少修饰成分的可能性较小, 此时无需补全; 当事件存在主语, 主语词性不属于尸〇1, 且《^关系为引发关系时, 才进行间接缺省补全, 其规则如下.规则12. 如果关联事件主语的词性属于POL,且主语存在定语, 同时定语的词性也属于POL, 则在最近关联事件中取距离本事件最远的定语( 关联事件第一个定语) , 补全主语的缺省修饰部分.规则13. 如果关联事件主语的词性属于POL,且主语不存在定语, 则取最近关联事件中距离本事件最远的主语(关联事件第一个主语) , 补全主语的缺省修饰部分.规则12 和规则13—定程度上属于规则9 的细化, 且同时兼顾了规则7 存在定语的情况. 不同的是, 规则9 为句法结构不存在主语时的缺省补全, 而规则12 和规则13 是解决存在主语的修饰缺省. 另外, 较多词性属于POL的公司词语位于描述本公司各项指标的定语中或直接代表默认指标( 即充当主语) , 因此补全修饰缺省可主要考虑这些情景. 如图13 满足规则12 补全条件, 故获取ATT“京东”作为事件 主语“市值”的修饰补充.尽管上述规则可涵盖绝大部分缺省, 但还是存在遗漏情况, 如共享成分为事件宾语. 因难于判断需补全的成分在关联事件中扮演的角色, 且该情况在语料中占比较小, 因此本文暂未考虑此情形, 在后期研究中将进一步分析此情况.5. 3 基于SSDP图的中文事件抽取算法综上所述, 本文研究的事件抽取主要包括3 步.第1 步, 依次扫描SSDP图中核心根结点及其孩子结点; 第2 步, 抽取事件主语、 谓语和宾语, 并判断是否启动补全; 第3 步, 基于5.2 节补全规则获取补全内容. 过程如算法5 所示.算法5. 基于SSDP图的中文事件抽取.输人: 语句的SSDPgra灿输出: 事件列表FORXcoreRoot NodeGCNS)//CNS为 沉的孩子结点集合, 即所有核心根结点ET=0?,ET.pred=coreRoot Node. tag;//mg为 结点的词标签FOR(cnode eCORNS)//CCRNS为coreRoot Node 的孩子结点、 集合IF(cnode. (ip为SBV)ET. sub=cnode. tag;ENDIFIF(cno办. 办^为VOB或FOB)ET.obj=cnode. t ag;ENDIFIF(cnotie. mg为“被”字且属于引发关系) //规则11将最近关联事件的主语添加至ELSEIF(cnode.fref不为空且属于引发关系)//规则10//>r吵为结点的介词关联标识将最近关联事件的主语添加至ELSE为SBV且coreRoot Node.sdp不属于引发关系)//规则5将最近关联事件的主语添加至ELSEIF(cnode. 为SBV且coreRoot Node. sdp属于引发关系)IF(最近关联事件中存在多个主语)//规则6将第一个主语的 添加至ELSEIF(最近关联事件中只存在一个主语)IF不属于POL且5wWV〇tie存在定语)//规则7将 的第一个定语添加至ELSEIF不属于PQL且不存在定语)//规则8将最近关联事件中所有结点的 组合添加至ET.sub;ELSEIF属于POL)//规则9将最近关联事件^^Not ie.rag添加至ENDIFENDIF万齐智等: 基于句法语义依存分析的中文金融事件抽取 5213 期ELSEIF(cnode.为SBV且cnode.抑兑tg不属于POL且corAoodVo办为引发关系)IF(关联事件主语 属于POL且subNode 存在定语且5w6N〇(ie 的定语的属于TOL)//规贝"2将最近关联事件中第一个定语添加至ELSEIF(关联事件主语mWVo也抑伽g属于POL且 不存在定语)//规则13将最近关联事件中第一个主语添加至ENDIFENDIFENDFOR将 添加至£XT列表;ENDFOR6 实验测评浪网数据集中随机选取5000 条财经新闻标题, 由计算机计算得到的规则覆盖情况如表4 所示. 其中, 事件数为7575, 事件间存在语义依存关系且后面的事件在句法结构上没有主语的事件对总数为1401( 可能存在直接成分缺省) , 事件间存在语义依存关系且后面的事件在句法结构上存在主语的事件对总数为1460( 可能存在间接缺省) , 占比的单位为%.表4 数据集中本文规则覆盖情况规则 数量 总数规则1 4842 5000规则2 23935000规则3 158 5000规则4 4098 7575规则5 685 1401规则6 4 9 1401规则7 27 1401规则数量 总数规则8154140 1规则937 61401规则10371460规则11641460规则123 11460规则13731460占比10. 9926. 842. 534. 382. 125. 00在实验中, 依存句法分析、 语义角色标注均采用哈尔滨工业大学语言技术平台LTP?, 语义依存分析使用哈工大联合科大讯飞公司共同推出的“哈工大讯飞语言云”平台?.6. 1 实验数据集本实验定位于财经新闻标题, 数据采自新浪财经网?滚动新闻, 同时为了确保数据来源多元化, 还选取了东方财富网?数据, 用于验证抽取方法针对不同数据集的鲁棒性.(1) 数据集本文选取新浪财经网( 简称新浪网) 2018 年1 月至12 月财经新闻标题, 共计492336 条; 东方财富网( 简称东方网)2019 年5 月至6 月部分财经新闻数据, 共计978 条. 数据集中抽取事件及相关指标的统计结果如表3 所示.表3 数据集中抽取事件及相关指标的统计结果数据集 新闻数 事件数 无主语数 无宾语数新浪网 4 92 336 724 294 229 34 6 198 991东方网 978 1 537 503 384合计 4 93 3 14 725 83 1 229 84 9 199 375其中, 事件数为采用本文方法由计算机抽取得到的结果, 非人工标注结果; 无主语数、无宾语数分别指计算机直接抽取( 即没有进行主语、 宾语补全)时没有抽取到主语、宾语的事件数量. 新浪网中平均每条新闻标题中有1.47 个事件, 东方网中平均每条新闻标题中有1.57 个事件.为了验证本文所提规则的覆盖性, 我们从新由表4 可知, 利用CVC比原始DP树多识别的事件占比增加56.44%(包含事件的语句数为4842,CVC能够识别的事件数为7575). 另外, 语料中直接成分缺省的补全规则占比较大, 间接缺省仅占小部分, 规则覆盖的总体情况与中文实际表达习惯较为吻合.( 2) 文本预处理新闻标题数据集中存在两个导致句法分析产生错误的问题: ①新闻标题常包含专家、 企业的意见或评述, 如标题“银保监会: 信托公司监管评级将增设支持民企评分细项”中“银保监会:”, 这些成分对于所需信息的抽取帮助甚微, 且干扰LTP句法依存分析; ②新闻正、 副标题之间一般以空格隔开, LTP对于空格并不认为隔开两个子句, 句法依存的分析效果不佳. 因此, 在预处理阶段, 首先去除正标题之前的内容(一般为“:”之前) , 然后以中文逗号代替正、 副标题之间的空格.( 3) 标注数据集原始新闻标题数据集巨大, 人工很难完成所有数据的标注, 因此随机选择部分数据进行人工标注( 新浪网1200 条, 东方网500 条) , 并以此验证事件抽取效果. 标注数据集中标注事件及相关指标的统计结果如表5 所示.①http://ltp. ai/docs/index. html②https ://www. xfyun. cn/servi ces/semant icDependence③http: //finance, sina. com. cn/rol l/#pageid=384 &-lid=251 9&-k=&- num=50&-page=l④http: //f inance,east money.com/news/cywjh. ht ml522 计 算机 学 报 2021年表5 标注数据集中标注事件及相关指标的统计结果数据集新闻数事件数无事件数主语数宾语数补全主语数补全宾语数新浪网 1200 1898 68 1569 1350 523 475东方网500718 15 571 572 213149合计 1700 2616 83 2140 1922 737 624其中, 事件数是指人工标注得到的事件数量; 无事件数是指人工标注没有发现事件的新闻标题数量; 主语数是指有主语( 含补全主语) 的事件数量;补全主语数是指从新闻标题直接标注得到的事件中缺省主语或主语不完整, 但人工可以从相关联的事件中发现并补全主语的事件数量; 宾语数、补全宾语数的概念分别类似于主语数和补全主语数. 在合计标注的数据集中, 补全主语数、 补全宾语数分别占到了主语数和宾语数的34.44%、32.47%, 进一步验证了中文语句中缺省情况的普遍性以及补全的重要性.本文共选用具备较强财经知识的3 位教师作为事件标注者. 标注标准: ①如果语句不是由动词触发, 则标注为无事件; ②如果语句有核心动词, 则认为存在事件, 且每一个核心动词触发一个事件, 但将同一个语句中相邻核心动词的多个事件合并为一个事件(核心动词间只包含副词也看成是相邻); ③如果事件应该存在主语或宾语, 则无论是否缺省, 均标注为存在主语或宾语; ④如果事件存在主语或宾语缺省, 则标注为补全主语或补全宾语, 并给出补全后的主语或宾语.当出现标注结果不一致的情形, 则由3 人讨论确认最终标注结果. 标注一致性评测结果是3 位标注者标注结果完全相同的数量占标注总数量的比例(单位: %) , 如表6 所示.表6 人工标注数据集一致性评测数据集 核心动词 事件 主语 宾语 补全主语 补全宾语新浪网98. 63 97. 79 97. 71 99. 11 94. 46 98. 32东方网 98. 33 97. 35 97. 20 98. 78 94. 37 96. 64合计 98. 55 97. 67 97. 57 99. 01 94. 30 97. 92由表6 可知, 核心动词易判断, 宾语及补全宾语结构简单, 其标注一致性均比较高. 补全主语因缺省结构复杂, 标注一致性最低, 分歧主要集中于简单缺省和组合缺省的判断, 二者作为补全成分有时均成立, 难以明确地区分.6. 2 评测指标为了更好地理解测评指标, 先对标注数据集中的相关统计指标进行说明, 具体如表7 所示. 为了简化, 可将正确抽取数、不完整抽取数分别简称为正确数、 不完整数.表7 标注数据集中的相关统计指标指标符号 指标含义 指标说明LQ 标注数(LabeledQuantity) 人工标注得到的数量EQ抽取数(Extract edQuant ity)基于本文方法由计算机抽取得到的数量CEQ正确抽取数(CorrectExt ract edQuantity)在抽取结果中抽取正确( 即抽取结果也是人工标注结果) 的数量WEQ错抽数(WrongExt ract edQuant ity)在抽取结果中抽取错误( 即抽取结果不是人工标注结果) 的数量MQ漏抽数( MissedQuantity)人工标注结果中没有被计算机抽取到的数量WQ错误数(WrongQuant ity)在抽取过程中没有正确抽取的数量, 包含错抽数和漏抽数IEQ不完整抽取数( IncompleteExtractedQuantity)核心动词抽取正确但其他属性抽取错误的事件数量注:(1) 对于事件抽取, 正确数CEQ是指所有事件属性均抽取正确的事件数量, 错抽数WEQ 是指核心动词未抽取正确的事件数量;( 2) 对于事件抽取, 抽取数EQ等于正确数CEQ、 错抽数WEQ和不完整数IEQ之和;( 3) 对于事件属性(核心动词、 主语或宾语)抽取, 抽取数EQ等于正确数CEQ和错抽数WEQ之和;(4) 对于人工标注没有发现事件的新闻标题, 如果计算机也没有抽取到事件, 这表明计算机抽取正确, 但由于标注数LQ中无法反映无事件数, 因此在计算事件抽取评测指标(准确率、 召回率和F1 值) 的时候均不考虑无事件数指标.根据以上概念, 错抽数(对于事件抽取还包括不完整抽取数)影响抽取准确率, 错误数(包括错抽数和漏抽数, 对于事件抽取还包括不完整抽取数) 影响抽取召回率. 基于表7 的相关统计指标, 可得到准确率(_?厂6£:£?'0?, _?)、召回率(_??6[<2//, _??) 和1;'1 值3 种评测指标的计算公式如下:P=CEQ/EQ,R=CEQ/LQ,F1=2XPXR/(P +R) .6. 3实验结果针对事件及事件属性(核心动词、主语或宾语) 抽取, 首先给出表7 所列各指标在标注数据集中的统计结果, 再分别就准确率P、召回率i? 和F1 值3 种指标进行评测, 以评价本文方法的抽取效果.6.3.1 实验统计数据(1) 核心动词抽取. 核心动词抽取是事件抽取的关键, 不仅反映了事件探测效果, 还直接决定其他属性抽取的意义. 标注数据集中核心动词抽取的各指标统计结果如表8 所示.表8核心动词抽取的统计结果数据集 抽取数 正确数 错抽数 漏抽数新浪网 1899 1763 136 67东方网 715 691 24 16合计 2614 2454 160 83万齐智等: 基于句法语义依存分析的中文金融事件抽取 5233 期(2) 主语抽取. 主语作为事件的实施者, 其重要性不言而喻. 标注数据集中全部主语抽取和补全主语抽取的各指标统计结果如表9 所示. 其中, 全部主语抽取为所有主语抽取情况, 包含补全主语抽取. 由表9可知, 对于合计数据集而言, 补全主语错抽数占全部主语错抽数的比例高达85.66%, 说明在本文语料中,全部主语错抽的影响主要源于补全主语错抽.表9 主语抽取的统计结果数据集全部主语 补全主语抽取数正确数错抽数漏抽数 抽取数正确数错抽数漏抽数新浪网1579137620348 594 40818 6 11东方网 573 5 1855 22 218 18335 8合计2152 18 94258 70 812 59122 1 19(3) 宾语抽取. 标注数据集中全部宾语抽取和补全宾语抽取的各指标统计结果如表10 所示.表10 宾语抽取的统计结果 ̄ ̄ ̄全部宾语抽取补全宾语抽取救据集抽取数正确数错抽数漏抽数 抽取数正确数错抽数漏抽数新浪网1337 12 11 126 35 537 436 10 1 3东方网 563 5 20 43 19 177 135 42 3合计 1900 17 31 169 54 714 571 143 6由表10 可知, 对于合计数据集而言, 补全宾语错抽数占全部宾语错抽数的比例高达84.62%, 说明在本文语料中, 全部宾语错抽的影响主要源于补全宾语错抽.(4) 事件抽取. 事件抽取包含事件所有属性的抽取, 因此正确抽取是指事件全部属性均抽取正确.标注数据集中事件抽取的各指标统计结果如表11所示.表11 事件抽取的统计结果数据集 抽取数 正确数 不完整数 错抽数 漏抽数新浪网1899 1579 184 136 67东方网 715 627 64 24 16合计 2614 2206 248 160 836.3.2 缺省结构覆盖率为了体现本文所提规则的覆盖情况, 按照第5节描述的缺省结构对人工标注语料进行了统计, 具体如表12 所示. 表中数据为语料中缺省结构出现次数在缺省总数的占比( 单位: %其中,“宾作主”表示事件宾语充当或修饰其他事件主语的情况.表12 缺省结构覆盖率数据集 简单 组合 间接 介词 被动 宾作主新浪网 69. 22 11. 09 12. 81 2. 68 3. 06 1. 15东方网 7 4. 65 8. 45 9. 8 6 2. 82 4. 23 0. 00合计 7 0. 7 9 10. 33 11. 96 2. 72 3. 40 0. 82由表12 可知, 表中6 种缺省结构涵盖了语料所有缺省情况, 本文考虑了前5 种, 其覆盖率合计值达99.18 %.“宾作主”情况仅在新浪网中出现, 覆盖率为1.15%, 说明本文提出的规则涵盖了绝大部分的缺省情况, 覆盖率可以保证.6.3.3 实验评测(1) 核心动词及事件抽取评测结果如表13 所示.表13 核心动词及事件抽取的效果数据集核心动词抽取/% 事件抽取/%准确率 召回率 值 准确率 召回率 值新浪网 92. 84 92. 89 92. 86 83. 15 83. 19 83. 17东方网96. 64 96. 24 96. 44 87. 69 87. 33 87. 51合计 93. 88 93. 81 93. 84 84. 39 84. 33 84. 36由表13 可知, 合计的核心动词抽取的F1 值达93.84%, 验证了按照核心动词链建立规则识别确认事件的有效性. 以上结果主要受益于事件绝大部分由动词触发, 而每个事件是独立的, 在语言学句法结构上均采用并列关系进行事件关联. 本文的核心动词抽取方法遵循了这一特点, 将SSDP树中核心动词进行拆分, 形成SSDP图, 图中i?〇〇z 结点的每个孩子均为核心动词. 然而, 核心动词在抽取过程中还存在一些不足, 如多词性问题, 词性的准确性一方面影响依存句法结构, 另一方面影响核心动词的识别,在一定程度上降低了核心动词抽取的效果, 后期工作可考虑结合动词搭配的论元来确定多词性词语的词性. 另外, 新浪网的F1 值为92.86%, 较东方网的96.44%低了3.58 个百分点, 主要是由两个原因导致的: ①新浪网的新闻标题更偏好于采用大量动词表达,一定程度上降低了识别新闻标题中核心动词的准确率; ②新浪网的新闻标题对正文的概括更为精简, 词汇之间的关联降低, 不利于句法分析.对于事件抽取, 通过F1 值可以发现, 其抽取效果也不错, 合计的F1 值为84.36%, 验证了本文方法对事件抽取的有效性. 但较于核心动词抽取, 因同时添加了正确抽取主语和宾语的要求, F1 值由核心动词抽取的93.84%降至事件抽取的84.36 %, 降低了9.48 个百分点. 核心动词抽取正确时事件抽取错误( 即事件不完整抽取的情况) 的统计结果如表14所示, 其中主语错抽数、 宾语错抽数中都包含了“主宾语均错抽数 针对合计数据集, 核心动词抽取正确时的主语错抽数、 宾语错抽数与不完整数的占比分别为68.95%和46.37%, 说明主语比宾524 计 算机 学 报 2021年语被错抽的可能性更大. 这是因为主语省略较宾语省略更为普遍, 且形式多样化, 规则难以全面覆盖、完全适用.表14 核心动词抽取正确时主语和宾语错抽的统计结果数据集 不完整数 主语错抽数 宾语错抽数 主宾语均错抽数新浪网东方网184641264581342315合计 2 48 171 115 38(2) 主语抽取评测结果如表15 所示. 其中, 合计的全部主语抽取的F1 值达88.26%, 验证了本文方法对于主语抽取的有效性.表15 全部主语及补全主语抽取的效果数据集全部主语抽取/ % 补全主语抽取/%准确率 召回率 值 准确率 召回率 值新浪网东方网87. 1490. 4087. 7090. 728 7. 4290. 5 668. 6983. 9478.0185. 9273.0584. 92合计 88. 01 88. 50 8 8. 2 6 72. 78 80. 30 76. 36同时, 主语抽取的效果严重依赖于核心动词抽取的效果.分析如下: ①如果核心动词抽取正确, 则主语被正确抽取的可能性较大. 例如, 针对合计数据集, 基于表14 可计算得到核心动词抽取正确时的主语错抽数与表8 中的核心动词正确数( 2454) 的占比为6.97%, 即核心动词抽取正确时主语错抽率仅为6.97%; ②如果核心动词抽取错误, 则主语被错抽的概率就要大得多. 例如, 由于核心动词错抽导致主语和宾语错抽的统计结果如表16 所示.表16核心动词错抽导致主语和宾语错抽的统计结果数据集 核心动词错抽数主语错抽数宾语错抽数主宾语均错抽数新浪网136774534东方网241098合计160875442在表16 中, 主语错抽数、宾语错抽数中都包含了“主宾语均错抽数 针对合计数据集, 主语错抽数占核心动词错抽数的比例为54.38%, 即核心动词抽取错误导致的主语错抽率高达54.38%.对于补全主语抽取, 其合计的F1 值为76.36%,验证了本文提出的主语缺省补全规则的有效性. 但相较于其他属性的抽取效果, 补全主语的F1 值最低. 主要源自于如下几个方面:①未考虑利用关联事件的宾语补全缺省主语的情况. 存在利用关联事件中的宾语补全缺省主语的情况, 如语句S8, 宾语“私募基金”作定语补全“规模②主语省略形式多样化. 缺省事件需要补全的主语以多样化的形式处于关联事件中, 给出的规则难以适用于所有情况.③语义依存关系存在错误. 本文借助了结点间语义依存关系, 但对于核心动词间的语义依存关系,SDP工具存在语义依存关系结果分析错误的情况,使得不满足相关规则, 导致抽取错误.另外, 对比两个标注数据集, 补全主语抽取的效果存在差异, 主要是由于新浪网的新闻标题过于精简并采用多动词所致, 凸显了词语多词性问题带来的影响.( 3) 宾语抽取评测结果如表17 所示.由表17 可知, 合计的全部宾语和补全宾语抽取的F1 值分别为90.58 %和85.35%, 验证了本文方法对于宾语及补全宾语抽取的有效性.表17 全部宾语及补全宾语抽取效果数据集全部宾语抽取/% 补全宾语抽取/ %准确率 召回率 值 准确率 召回率 值新浪网90. 58 89. 70 90. 14 81. 19 91. 79 86. 17东方网 92. 36 90. 91 91. 63 76. 27 90. 60 82. 82合计 91. 11 90. 06 90. 58 79. 97 91. 51 85. 35同样, 宾语抽取的效果也是严重依赖于核心动词抽取的效果. 例如, 针对合计数据集, 基于表14 可计算得到核心动词抽取正确时的宾语错抽数与表8中的核心动词正确数(2454) 的占比为4.69%, 即核心动词抽取正确时宾语错抽率仅为4.69%; 基于表16 可计算得到宾语错抽数占核心动词错抽数的比例为33.75%, 即核心动词抽取错误导致的宾语错抽率高达33.75%.相对于主语抽取, 无论是全部还是补全, 宾语抽取的效果均要更好. 由前文叙述可知, 宾语缺省形式较为常规化, 主要由介词和被动语态引起, 其余大部分为含有宾语和无宾语情况( 不及物动词作为核心动词) , 规则容易总结, 且适用性较好, 使得其效果好于主语抽取, 但对标宾语抽取规则本身, 还存在2 点不足: ①被动语态只考虑了“被”字结构, 中文中还存在一些其他表示被动的词语, 如“遭”字结构等;②语义依存关系用于判别介词引发的宾语缺省存在一■定的局限性, 其准确率还有待进一■步提尚.另外, 对于主语或宾语抽取, 其效果除了受核心动词抽取的影响以及与补全主语或补全宾语抽取的效果有关之外, 还会受LTP分词、依存句法分析结果的影响. 标注数据集中包含了部分分词及依存贿轉: 基; 懷滕析爾申纖麟#抽取 52 5 3 期句. 法分析错误的憬况, 对于吩词及依存句法分析正确的数据对象, 本文方法在事件<及各属性上的抽取效果. 均#有一定涯度的提齊* 但中文分飼举身就是一个很具挑战性的开放难題, 需要考虑语言孛特点和调语语义等情况* 有待提出更好时解决方法、针对两个人工标注数据集, 事件及各属性抽取敏果的直规对比分析鐵舉分别如經1¥ 和图17 所示* 其中., 横坐标为攀忤及各屬性下的3种指标, 纵坐标为各指标ft( 单位: 从圈16 和图17 对以看出, 东方两的抽取效莱整体略好于新浪网, 这主.愛受核心动词抽取影响.6.3.4 其他领域抽取效果为了体现本文方法臭有较好的扩展性, 选择对开敢域新闻进行夢件抽取实雜, 本文随机选取新狼网:20:18 年翁菌标癯■0条.: 其中, 人:工标注的事件数、 全部主语数和补全主语数分别齿戚,?、肋4 和12^无棄语缺省情况; 实验抽取的各项指标的统计数据如表 所示.表18新浪新闻中主语补全及事件抽取的统计结果事项 抽取数 正确数 不完整数 错抽数 漏抽数主语补全事件抽取14310004311956853693418由#注数据可知, 补全主语数在全部主语数中的占比为1^铋%, 远低ff财费新闻领域, 且通过标注发现, 缺省结构基本上集中于简单主语缺省? 这是由于领域的特性所戴,财经领域新闻标題大多描述某个公司或企业不同方面的箱: 关_.息i在中文: 表达中.: 食了简输s 隱一个主语在后续相邻语甸的表达中, 无论充当相同成分(:简单缺會》还是作定语修饰成分(:间接缺省5, 常省略. 而开放域新闻常为一个事件的发生如何影响其他事#,单个事件的成分比较健全, 所以缺省数较:少?呙外, 财经领域包含较多数值铺, 即描述事件的具体情况.这使每事件之间存在较多W果关系, 而H果关系中的结果, 有较大一部分是由一个语旬整体所致. 所以 才: 氧领域存存一定的11脅缺省?由此可知,财经颔域妓其他领域*不权存在较多的缺#倩况. 且缺省W形式较齿丰富. 进一步佐证了本文研究财经金融领域的#件抽取及缺省成分补全晷有较大的现实意义,在抽取效果上, 测1平结果如表1&所示.表19 新浪新闻中事件抽取及主语补全的效果事件抽取/% 补全主语抽取/%准确率 召回率值 准确率召回率F1 值89. 2389.1389.18 69.9380.0074.63从表1普与'_表1S 对比可知, 无?是導件抽取述是金鲁.全*有开翁域的敏舉均与食_輕; 域祖当, 且略有槔升, 说明本文方法隹领域扩雇上具有_好的适處性, #棒: 性较强, 对于事■件抽取,F1揸植表13 中提高3*tL01 个百分点, 主荽是喪为领域#业词汇较少, 分词及句法结构分析的结果较好? 在补全主语抽取方面浪:开放域缺省结构筒单_, 其F1 值比識15 擾开了Ugi 令百分点,6. 4 与其他方法的实验对比⑴纖鑛选择本文狀:两个方W幾雜对比: 方法.一龙W: 幾雜DPM和SDP抽取方: 法,验征SSDP组含的有效性;另一方面翁_SRL[LTP][4°]、SRL[Mate]①—SRL方驗'和DMC_f1 4]JRSW1 51和JME:ED71等事件.抽取方法作为对比方法, 验证基于SSDP的事件抽取及基于所港规则的缺省补全方法的优势. 其中, 2 种SRL方法直接给出语句包含#主语、 谮语和宾语,3 种事件抽取方法对窜句包含的词窜迸行触发饲、论: 元和徽元翁色分:餐?誓養说明勝是, 和JMEE方法均聚焦于设计先进方法进行传统事件抽取, 不羼于针5f_fr抽敗中的: 某个特禽W_商儀计的方__, 如①https : //code, google,com/archive/p/mate- tools/526 计 算机 学 报 2021年训练数据不足或篇章级事件等, 因此本文选择这些方法作为基线实验. 这些方法在原文中做了很多论元角色的判断, 但在我们实现相关方法时, 实验标注的数据集中只包含主语、谓语、宾语和其他角色的分类, 仅考察这些方法对事件的主语、谓语和宾语的正确分类效果.另外, 由于语言类别和语料的不同, 本文对相关方法做了以下几点修改: ①ACE2005 语料包含事件类型、实体类型等信息, 在本文实验中将此信息输人为空; ②触发词和论元及角色按照ACE2005 划分的全部类别进行分类, 但本文只对主语、谓语和宾语抽取的效果进行对比.(2) 基线实验数据集及参数设置为了避免DMCNN、JRNN和JMEE等方法因训练数据不足难以发挥其抽取效果, 同时为了进一步验证本文方法在非标题( 长句)、 开放领域数据下的抽取能力, 我们不仅在6.1 节描述的标注数据集上而且在C〇NLL2009 中文语料上进行事件抽取实验. 其中, C〇NLL2009 中文语料分训练集、 验证集和测试集3 部分, 包含的语句数分别为22277 条、1762 条和22 条.在本文标注数据集上, 我们随机选择30%作为测试集, 剩余的作为训练集, 并从训练集中随机选择10%作为验证集. 对于C〇NLL2009, 因测试集太小, 我们随机从训练集中不放回地抽取313 条语句增加至测试集, 即最后确定训练集21964 条、验证集1762 条、测试集335 条. 实验涉及的词向量由W〇rd2Vec?工具在本文2 个数据集上训练得到,词向量维度分别与文献[14]、文献[15]和文献[17]保持一致, W〇rd2 Vec 其余参数的设定标准依据词汇语义相似度. 每条语句分词个数最大设定为100. 对于基线实验模型所需的超参数取值, 采取网格搜索函数GridSearchCV选择最优值, 基于CoNLL2〇〇9的模型超参数最终取值情况如表20 所示.的测试集.另外, 本文规定只有触发词、 论元及论元角色全部正确分类( 仅指事件的主语、 谓语和宾语全部正确, 包括主语和宾语的缺省内容补全) , 才认定为本文的事件抽取正确. 所以, 测试过程分为三步, 首先进行触发词抽取, 然后判断触发词抽取情况, 仅当触发词抽取正确时才启动论元抽取, 最后依据二者的抽取情况进行综合计算, 得出最终抽取结果?( 3) 对比分析结果DP和SDP方法分别分析语句的句法和语义依存情况. 为了使实验具有可比性和说服力, 我们假设: ①DP和SDP方法均按照核心动词链的建立和调整规则进行扩展; ②两种方法都采取缺省补全规则进行属性查询补充; ③因为介词和被动语态引起的缺省, 需要结合语义分析结果进行SSDP树结构调整, 所以DP方法对上述两种缺省不做调整;④DP方法不建立事件间语义关联, 对于任何缺省均按补全规则查询.由于SRL方法给出了论元角色标注结果, 因此可直接通过标注的角色获取事件ET各属性.在新浪网标注数据集上, 5 种方法抽取的统计数据如表21 所示. 由于DMCNN、 JRNN和JMEE方法都是通过语句中词的分类直接判断抽取效果,因此在表21 中未给出这3 种方法的统计结果.表21 新浪网上事件抽取的统计结果抽取方法抽取数 正确数 不完整数 错抽数SSDP 1899 1579 242DP 1892 1441 371SDP 1759655 869SRL[LTP]1949 898 696SRL[Mat e]2533 696 8282353551009漏抽数37 430 413 9在新浪网标注数据集上, 8 种方法抽取的准确率、召回率和F1 值如表22 和图18 所示. 其中, 图18中横坐标为3 种评测指标下的事件抽取的8 种方法, 纵坐标为各指标值(单位:表20基于CONIX2009的超参数取值情况超参数bat ch_sizeepochsdropout act ivat ionlearn一rat eDMCNN64100. 2relu0. 010JRNN3250. 2tanh0. 001JMEE3280. 5tanh0. 001在实验测试方面, C〇NLL2009 未全部标注本文提出的缺省补全信息, 如间接缺省和组合缺省等.因此, 我们按照前述的标注标准对测试集进行了补充标注. 在C〇NLL2009 上的测评均基于诙补充标注表22 新浪网上事件抽取的效果对比抽取方法 ̄ ̄SSDP ̄ ̄DPSDPSRL[LTP]SRL[Mate]DMCNNJRNNJMEEFI值04①https : //code,google.com/p/word2vec/万齐智等: 基于句法语义依存分析的中文金融事件抽取 5272010°准确率图1 9C〇NLL2009召回率F1值上4 种方法的事件抽取效果对比由表22、 表23 可知, 针对C〇NLL2009 中文语料, 相较于财经新闻标题语料, 虽然SSDP方法的事件抽取效果出现了较大幅度的降低, DMCNN、JRNN和JMEE方法的事件抽取效果均有一定幅度的提高. 但是,SSDP方法的F1 值仍高于DMCNN、JRNI^和JMEE方濃14. 雜 1S.0'4个霄费点,逋过分析, SSDP方法效果降低的主要原窗包績? ①CoNLLg-008f文培料中_长甸木利I3mS结构分析.关键的核心动词结构错误將导致其包含的事件无法识. 别; ②长句不利于缺省补全, 长旬覆盖的笱构驾杂且词: 语■多增大了补全的难度; ③出现部分长句整体做为宾语的结构, 菌宾语在: 珞言学绪构上不存在COO并列关系扩,膨本文未考虑此情况,敦使长旬宾舊包含的大量*件无法识别, 同时, DMCNNJR顧和JMEE方法效果提高的原因可能是増加了财练数据所致?霍验緒果充分说朋,在:Ik融领域的'中文奮件抽取及事件成分缺失补全:#廣:, 牟文方法具有明显的优势和较强的适应?性.7 总结与展望参件抽取对宏观经挤趋势预测具有重醫意义,目曾事件抽取侧重于抽取分类的正确性, 未结含11用霉求迸行分析, 难以较好地应用于特定领域.本文针对金融4lf域财絰新闻标龜奥据, 归纳了事件=漏抽、 事件成分缺餐、 事件成: 分抽: 取镨误及事件堪义放大筹4种现象, 提出了句法和軎义依存分析相结合的事件抽敗框架—SSDP 菌, 首先, 利用准确率召回率FI值新浪; 网土8种#锻的*件抽取德果劾比表23C〇NLL2009 上事件抽取的效果对比嫌取方■ 准:确率召回率P1 値SSDP?. 0865. 16fS,20DMIlMf氣. M43.&51, isJRNI|5T,S?>48. 4852.fSJMEE?.91-4&0555. 22虜'表gr和厲is可知;, 本文方法明显优于其他方法. 这是因为SSDP结脅了句法和语义双重结构特征.因此r添加语义关联、调整优化DP树|'可提高#件的识别能力, 迸而提升属性抽取效果..F1偉上., : D; P、 Si)P比SSDP分别低了7?|、4T.iS 个W#点. DP主要是H为事件间缺乏语义关联, 没有雄据其笑联类型进行补全机制判断. 即未考虑事件间语义, 而直接采用句法结构迸行缺省补全5导致效率有所下降.. 另. 外, DP的_F1 值较高, 说明了DP句祛结构分析效果不错, 也间镔验怔了该工具被普遍采用的威因. 而SDP厕主荽;S由于语义依存镇构分析效果不佳所导致的, 周时不支持自定义词典的添加, 也遽一步增加了爾r间语义依存的错误率5 使得抽取错模数急剧壻加.SRL[LTPBTSRL[Mate]的抽取效果樣差, _F1值分别.为4.6, 6&%和 56%. 这主粟是受核心动词识别效果的影响, 窗为中文存在大量多词性的动词sSRL基本将所有动词均识别为语句请语^ 导致事件错抽数较高, 从而大幅降低T抽取敏果.关于: DMCNWJRNM和JMEE方法猶抽取敏果, 可认两个方面探讨s—方,面》 对比SSDP* 其抽取氣舉不太麗 减少了8191?m62 个首#歲rB—方面,: 翁比旗: 文雜[14-15,17],事件抽取敏果在总体上与原文中给出的结果相当,但均有所降低.主寒廣B包括f ①本文语料('新闻标题)较短*请旬含有的上下文信息有限, 深度学习难以提取较多有用?信息r ②本文语料无事件类型和实体类型等信息, 输A魯|JE减少I: ③M文来考'虑缺脅补全詹況;④中文需要分词, 而分M存在一定错误* 苘时也:会降低依存句法分析效果; ⑤供模型爾练的可用语料偏少?.CoSLL2〇〇g 中文篑: 料上》: 4种方翁齒事件抽取效果如表錄_圈19 所示.3: 期oooooooo098765431%/1000000000009876543211%/_遊靼硃图528 计 算机 学 报 2021年LTP工具获得语句的依存句法分析结果, 并将其转换为DP树; 其次, 归纳核心动词链的建立规则, 解决事件漏抽问题; 第三, 引人事件间语义依存关系,构建SSDP树; 第四, 根据核心动词链、 介词结构和被动语态结构调整SSDP树, 形成SSDP图; 最后,基于SSDP图, 建立事件成分缺失补全规则, 同时抽取中文金融事件.下一步的研究工作主要包含:(1) 通过LTP进行依存句法分析时发现, 多词性词语的句法结构分析效果较差, 如何利用论元信息进一步确定多词性词语在具体语句中的词性, 是有待克服的一个障碍.(2) 本文抽取的事件结构, 只考虑了ET三元组, 抽取哪些信息将对股市趋势预测等应用有价值,是我们感兴趣的工作.(3) 由于SSDP方法中用到的事件间语义依存分析较为简单、粒度较粗, 如何制定针对财经领域金融事件间语义关联, 将是未来的工作之一.致 谢 本文的研究工作利用了哈尔滨工业大学社会计算信息检索研究中心免费开放的LTP平台、哈尔滨工业大学联合科大讯飞公司共同推出的讯飞开放平台, 在此一并表示感请! 最后, 由衷地感请论文评审专家和编辑对本文所提出的修改建议!参 考 文 献[1]DingX, ZhangY?LiuT?et al. Usi ngst ruct uredeventst opredi ctstockpricemovement: Anempi ricalinvest igation//Proceedingsofthe2014ConferenceonEmpiricalMethodsinNat uralLanguageProcessing(EMNLP) . Doha, Qatar,2014:1415 14 25[2]DingX, ZhangY, Li u T, et al. Deeplearningforeventdrivenstockpredict ion//Proceedingsofthe24thInternat ionalJointConf erenceonArt if icialI ntelligence( IJCAI ) . BuenosAires?Argenti na,2015: 2327 2333[3]DingX,ZhangY, LiuT,etal . Knowledgedriveneventembeddingf orstockprediction//Proceedingsofthe26thInternat ionalConferenceonComputat ionalLinguist ics :TechnicalPapers( COLING) . Osaka,Japan, 2016: 21332142[4]XieB,PassonneauR, WuL,etal. Semant icframestopredictstockpricemovement//Proceedingsofthe5 1stAnnualMeet ingoft heAssociationf orComput at ionalLinguist ics( ACL). Sofia , Bulgari a, 2013: 873 883[5]AguilarJ , BellerC, McNameeP,etal . Acomparisonof theeventsandrel at ionsacrossACE, ERE,TACKBP, andFrameNet annot ationstandards//Proceedingsof the2ndWorkshoponEVENTS:Definit ion,Det ection,Coreference,andRepresentat ion. Balt imore,Maryland, 2014: 45 53[6]JacobsG?Lef everE?I l ost eV. Economiceventdetect ionincompanyspecificnewstext//Proceedingsofthe1stWorkshoponEconomi csandNaturalLanguageProcessing( ACL) .Mel bourne, Australia,2018; 1 10[7]YangI I, ChenY, LiuK,etal. DCFEE; AdocumentlevelChinesefinancialeventext ract ionsyst embasedonautomaticallylabeledtrainingdata//Proceedingsofthe56 thAnnualMeetingoftheAssociat ionf orComput ationalLi nguist icsSyst emDemonst rations( ACL). Melbourne, Aust ralia,2018: 1 6[8]LiPengFeng,ZhouGuo Dong,ZhuQiao Mi ng. Semant icsbasedjoint modelof Chineseevent t riggerext ractio n. Journalof Software,2016 ,27(2) : 28〇 2 94(inChinese)( 李培峰, 周国栋, 朱巧明. 基于语义的中文事件触发词抽取联合模型. 软件学报, 20 16,27( 2): 280 294)[9]YehCL?ChenYC. Zeroanaphoraresol ut ioninChinesewit hshallowparsing. JournalofChineseLanguageandComput ing, 2007 , 17(1): 41 56[10]LiP, ZhuQ, ZhouG. Argumentinf erencefromrelevanteventmentio nsinChineseargumentext ract ion//Proceedingsof t he51stAnnualMeet ingoft heAssociat ionforComput ationalLinguist ics( ACL) . Sofi a, Bulgaria, 2013: 1477 1487[11]TangWenWu,GuoYi , XuYong Bin, etal. Thedef aul tcommonobject ident ificat ionbasedonconditionrandomfields. Journal ofChineseInformationProcessing, 2016? 30 (6) :208 214(inChinese)( 唐文武, 过戈, 徐永斌等. 基于条件随机场的评价对象缺省识别. 中文信息学报,2016,30(6):208 214)[12]ChanYS?FaschingJ?QiuI I ,et al. Rapidcustomizat ionforeventext raction//Proceedingsof the57thAnnualMeet ingoftheAssociationf orComput ationalLingui stics: Syst emDemo nst rations( ACL) . Florence ,It aly, 20 19: 31 36[13]l i eRui Fang, DuanShao Yang. JointChineseevent ext ract ionbasedmult i tasklearning. Journalof Sof tware, 2019 , 30 ( 4 ) :10 15 1030( inChinese)(贺瑞芳, 段绍杨. 基于多任务学习的中文事件抽取联合模型. 软件学报, 20 19,30 ( 4): 10 15 1030)[14]ChenY?XuL? LiuK,et al. Eventext ract ionviadynamicmultipoolingconvolutionalneuralnet works//Proceedingsofthe53 rdAnnualMeet ingof t heAssociationforComput at ionalLi nguist ics( ACL). Beijing,China ,20 15; 167 176[15]NguyenTI I , ChoK?GrishmanR. Joint event extracti on viarecurrentneuralnetworks//Proceedingsofthe2016Conf erenceoftheNorthAmericanChapteroftheAssociat ionforComput at ionalLinguisti cs: HumanLanguageTechnologi es(NAACLI ILT) . SanDiego , Calif ornia,2016: 300 30 9[16]ShaL?QianF, ChangB,et al. Jointlyext ract ingeventtriggersandargumentsbydependencybridgeRNNandtensorbasedargumentint eraction//Proceedi ngsof the32ndAAAIConf erenceonArti ficialInt elligence( AAAI) . NewOrl eans, USA, 2018: 5 916 5923万齐智等: 基于句法语义依存分析的中文金融事件抽取 5293 期[17]LiuX, LuoZ, HuangI I . Joi ntlymultipleeventsext ractionviaatt ent ionbased graphinf ormationaggregat ion/ /Proceedingsofthe2018ConferenceonEmpiricalMethodsinNat uralLanguageProcessing( EMNLP). Brussels,Belgium, 2018:1247 12 56[18]ChenY, YangI I , LiuK, et al. Col lect iveevent detect ionviaahierarchicalandbiastaggingnetworkswithgat edmult i levelatt ent ionmechanisms//Proceedingsofthe2018ConferenceonEmpiricalMethodsinNat uralLanguageProcessi ng( EMNLP) . Brussels, Belgium,2018; 1267 1276[19]ArakiJ , MitamuraT. Opendomaineventdetect ionusi ngdist antsupervision//Proceedingsofthe27thInt ernat ionalConf erenceonComput at ionalLinguistics( COLING) . Sant aFe, USA, 2018: 878 891[20]LiuS, ChengR, YuXM,et al. Exploi tingcont ext ualinformationviadynamic memorynet workforevent det ection//Proceedingsoft he2018Conf erenceonEmpiricalMet hodsinNaturalLanguageProcessing(EMNLP). Brussels, Belgium,2018; 1030 1035[21]HongY,ZhouW,ZhangJ,et al. Sel f regulat ion: Employingagenerat iveadversarialnet worktoimproveeventdet ection//Proceedingsofthe56thAnnualMeet ingof theAssociationforComputationalLinguist ics( ACL) . Melbourne?Aust ralia,2018; 5 15 526[22]GuanC?ChengY? ZhaoI I. Semant icrolelabelingwi thassociat edmemorynetwork/ /Proceedingsofthe2019Conferenceoft heNort hAmericanChapterof theAssociat ionforComputationalLinguist ics: HumanLanguageTechnologies(NAACLI ILT) . Minneapolis , Mi nnesota,2019; 3361 3371[23]LiZ, l ieS, ZhaoI I ?etal. Dependencyorspan,endto endunif ormsemant icrolelabeling/ /Proceedingsofthe33rdAAAI ConferenceonArt ificialInt elligence( AAAI) . Honolulu,Hawaii,2019; 67306737[24]XiaQ, LiZ,ZhangM?etal. Synt ax awareneuralsemanti crolelabeling//Proceedingsofthe33rdAAAI ConferenceonArtificialIntelligence( AAAI ) . Honolulu, Hawaii , 2019:7305 73 13[25]l i eS, LiZ,ZhaoI I,et al. Syntaxforsemant icrolelabeling,tobe, ornot t obe//Proceedingsoft he56thAnnualMeet ingoft heAssociationforComput ationalLinguist ics( ACL).Melbourne,Aust rali a, 2018; 20 61 2071[26]l i eL, LeeK, Levy0, etal . Jointlypredict ingpredicat esandargumentsinneuralsemant icrolel abeling//Proceedingsofthe5 6thAnnualMeet ingoftheAssociationf orComput at ionalLi nguist ics( ACL) . Melbourne, Aust ralia, 2018:364369[27]MehatSV,LeeJY, CarbonellJ. Towardssemisupervisedlearni ngf ordeepsemant icrolelabeli ng//Proceedingsof the2018ConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP). Brussels,Belgium,2018; 4 958 4963[28]TanZ, WangM, XieJ ,etal. Deepsemanticrolelabelingwit hself at tention//Proceedingsof t he32ndAAAI ConferenceonArt ificialInt el ligence( AAAI ). NewOrleans, USA,2018;49294936[29]l i eL, LeeK, LewisM? etal. Deepsemanti crolelabeling:Whatworksand what?snext//Proceedings of the5 5th AnnualMeeti ngoft heAssociat ionfo rComput at ionalLinguist ics( ACL) . Vancouver,Canada,2017: 47 3 483[30]LiZ, l i eS, CaiJ , etal. Auni fiedsynt ax awaref rameworkforsemant icrole labeling//Proceedi ngsof the2018ConferenceonEmpi ricalMethodsinNat uralLanguageProcessing(EMNLP).Brussels, Belgium,2018: 2401 24 11[31]KasaiJ, FriedmanD?FrankR. Syntax awareneuralsemanticrolelabelingwith supert ags//Proceedings ofthe2019ConferenceoftheNorthAmericanChapteroftheAssociat ionforComput ationalLinguistics: HumanLanguageTechnologies(NAACLI ILT) . Minneapolis, Minnesot a, 2019: 701 709[32]LiuX, I luangI I , ZhangY. Opendomaineventextractionusingneurallat entvariablemodels//Proceedingsof t he57t hAnnualMeet ingoftheAssociationforComput ationalLi nguist ics( ACL). Florence ,It aly, 20 19: 2860 2871[33]ZongCheng Qing. St atisti calNat uralLanguageProcessing.2ndEdition. Beijing: TsinghuaUniversityPress, 2013(inChinese)(宗成庆. 统计自然语言处理. 第2 版. 北京: 清华大学出版社,2013)[34]CheW, LiZ, LiuT. LTP; AChi neselanguaget echnologyplatf orm//Proceedingsofthe23rdInt ernat ionalConferenceonComput ationalLinguist ics( COLING) . Beijing,China,2010; 1316[35]LiJin Xi. TheNewChineseGrammar. 1955Edition. Beijing;TheCommercialPress, 1955(inChinese)( 黎锦熙. 新著国语文法. 1955 年版.北京: 商务印书馆,1955)[36]LvShu Xiang. Essent ialsofChineseGrammar. 1982Edition.Beijing; TheCommercialPress, 1982(inChinese)( 吕叔湘. 中国文法要略. 1982 年版. 北京: 商务印书馆,1982)[37]WangLi. ModernChineseGrammar. 1985Edit ion. Beijing:TheCommercialPress, 1985(inChinese)( 王力. 中国现代语法. 1985 年版. 北京: 商务印书馆,1985)[38]QianShi Feng. Summaryofomissiondefini tion. JournalofLanguageandLit eratureStudi es, 2007 ,(1) : 1 19 122(inChinese)(钱世凤.省略界定综述. 语文学刊: 髙数版, 2007 ,(1) :119 122)[39]XueN?XiaF?I l uangS?et al. Thebracket ingguidelinesforthePennChineseTreeBank(3. 0). IRCSTechnicalReportSeries,2000:3 9[40]GuoJ, CheW, WangI I,etal. Aunifi edarchit ectureforsemanticrolelabelingandrelationclassification//Proceedingsof the26thInt ernat ionalConferenceonComput ationalLi nguist ics : TechnicalPapers( COLING) . Osaka,Japan,20 16: 1264 12 7453 0 计 算机 学 报 2021年WANQi-Zhi,Ph.D.candidate,l ecturer.Hiscurrentresearchinterestsincludeinformationextraction,natural一l anguageprocessinganddatamining.BackgroundAsasub-taskofinformationextraction,eventextractionpl aysanimportantrol einvariousNLPappl icationsincl udi ngstockpredictionandinformationretrieval.EventnestingandelementdefaultsarecommoninChinese.Inthispaper,weaddresstwoproblems , determiningthenumberofeventscontainedinaChinesesentenceandextractingthestructuredevent,whichisatripl econtainingasubject,apredicate,andanobject.Themainresearchforstructuredeventextractionfocusesonextractingal lthepropertiesofthetripl e,butdon^tobtainthedefaultcomponentofevent.Inadditiontothis, mostofotherexistingresearcheffortshavebeenputontheeventextraction,buttheypaymoreattentiononthetypecorrectnessoftriggersandarguments, whichnotconsidertothecompletenessofeventsincludingthenumberofeventsinasentenceandthepropertyinanevent.Infinancialnewsheadl ines,therearealargenumberofverbsandcomponentdefaul ts,whichcausetheeventtol eakandthepropertiesofextractedeventtobeincomplete.Furthermore,theeventtypesareonlyforstandardWANChang-Xuan,Ph.D.,professor,Ph.D.supervisor.HiscurrentresearchinterestsincludeWebdatamanagement,sentimentanalysis, dataminingandinformationretrieval.HURong,M.S.,assistantresearcher.Hercurrentresearchinterestsincludeinformationextraction,naturall anguageprocessingandbigdataanalysis.LIUDe-Xi, Ph.D. ,professor, Ph.D.supervisor.Hiscurrentresearchinterestsincludenatural l anguageprocessing,i nformationretrievalandWebdatamanagement.eventtypes , suchasACE,whichisnotexactsuitabl eforfinanceandeconomics.Ourworknotonlyextractsall theeventsinasentence,butalsocompletesthedefaultcomponents, whichcanimprovetheirusagevalue, suchasforstockmarkettrendforecasts.InconsiderationofthecharacteristicsofChinesefinancialnewsheadlines, wecapturethesyntacticrelationshipsbetweenwordsandsummarizetherulesofcoreverbchainformation,whi chcansol vetheprobl emofeventl eak.Inaddition,weaddthesemanticassociationsbetweeneventstoformtheSSDPtreeandadjustSSDPstructuretobuildtheSSDPgraph.Atl ast,wepresentfourdefaultstructures , andproposecorrespondingcompletionrules.Tothebestofourknowledge,ourworkisthefirstsol utiontowardsthisprobl em.TheresearchispartiallysupportedbytheNationalNaturalScienceFoundationofChinaunderGrantNos.6 19721 84,61 56 2032and61762042,theScience&TechnologyProjectoftheDepartmentofEducationofJiangxiProvinceunderGrantNos.GJJ1801 98andGJJ18025 2.

[返回]
上一篇:基于纳什均衡的智能合约缺陷检测
下一篇:基于贡献值和难度值的高可靠性区块链共识机制