基于句法语义依存分析的中文金融事件抽取 |
来源:一起赢论文网 日期:2021-10-04 浏览数:1233 【 字体: 大 中 小 大 中 小 大 中 小 】 |
第44 卷 第3 期2021 年3 月计 算机 学 报CHINESEJOURNALOFCOMPUTERSVol .44No. 3Mar. 2021基于句法语义依存分析的中文金融事件抽取万齐智”’ 3 )万常选^胡 蓉2 ) ’ 3 )刘德喜^1 :)( 江西财经大学信息管理学院 南昌 3300 32)2)( 江西财经大学软件与物联网工程学院 南昌 330 03 2)3)( 江西财经大学数据与知识工程江西省髙校重点实验室 南昌 330013)摘 要 事件抽取在自然语言处理应用中扮演着重要的角色, 如股票市场趋势预测. 传统事件抽取较为关注触发词和论元所属类型的正确性, 较少地结合应用需求去分析研究事件抽取效果及使用价值. 在财经领域, 事件作用对象及动作是关注的重点. 因此, 本文聚焦于金融事件, 抽取三元组事件ETCSWk山〇b) . 在中文财经新闻中, 存在大量事件嵌套和成分共享等现象, 致使易出现事件漏抽和事件成分缺失的情况. 为了解决这些问题, 本文建立一个句法和语义依存分析相结合的中文事件抽取框架, 归纳了4 种常见缺省结构, 并设计相应的补全规则.首先, 基于句法依存树, 分析动词词法和句法结构, 建立核心动词链, 使得每个核心动词对应一个事件, 解决事件漏抽问题.然后, 在句法依存树的基础上添加语义依存关系, 建立事件间语义关联, 得到句法语义依存分析(SyntacticSemanticDependencyParsing, SSDP) 树. 第三, 调整SSDP树, 优化句法结构, 形成SSDP图, 使得同等句法结构的词结点处于相同层级, 为后续事件抽取提供途径. 第四, 归纳4 种常见缺省结构, 设计相应补全规则, 解决事件成分缺失问题.最后, 在中文财经新闻标题和C〇NLL2009 中文语料上进行详细的实验测试, 实验结果表明该方法是有效的.关键词 中文事件抽取; 核心动词链; 句法语义依存分析图; 事件语义关联; 缺省补全中图法分类号TP3 11DOI号1 0.1 189 7/SP.J.101 6.2021.00508ChineseFinancialEventExtractionBaseonSyntacticandSemanticDependencyParsingWANQi Zhi1 ) , 3 )WANChangXuan1 ) , 3 )HURong2 ) , 3 )LIUDe Xi1 ) , 3 )^{ School ofInformationTechnology^ Ji angxiUniversityofFinanceandEconomics^Nanchang330032)2){SchoolofSoft wareandInierneiofThingsEngineering?Jiangxi Universi tyofFinanceandEconomics?Nanchang330032)3) (JiangxiKeyLaboratoryofDataandKnowl edgeEngineering?JiangxiUniversityofFinanceandEconomics?Nanchang330013)AbstractAsasub taskofi nformati onextracti on,eventextracti onplaysani mportantrolei nnaturel anguageprocessapplicati ons,suchasstockmarkettrendforecast ,whichcanprovi destrongcl uesforeventsusers, e.g. i nvestors,managersandgovernment ,toanalyzethemarketandmakedecisions. Atpresent,mostofthestudiesabouteventextracti onpaymoreattenti ontothetypecorrectnessoftriggersandarguments,andnotconsi dertheeffectandval ueofeventextracti onbasedonappli cati onrequirements.Wecal lthi stypeofeventextractiontradi ti onaleventextracti on.Theeventtypesandstandardsintraditi onal eventextracti onarederi vedfromACE2005contai ni ng8categoriesand33sub categories, KBP2015andERE, etal.However, therearesomeli mi tati onsi nappl icationofthemtoeventextracti oni nspecificfi nanci aldomain.Forexample,thereisnottheoverweighteventtypei nACE2005,whichisaspecialbehavi ori nthefi nancial收稿日期:20 19 09 10; 在线发布日期:2020 03 0 1. 本课题得到国家自然科学基金项目( 61972184 , 615 620 32 , 6 1762042)、 江西省教育厅科学技术研究项目(GJJ180198 , GJJ180252) 资助. 万齐智, 博士研究生, 讲师, 中国计算机学会(CCF) 会员, 主要研究方向为信息抽取、 自然语言处理、 数据挖掘. Email : wanqizhil006@163. com. 万常选( 通信作者) , 博士, 教授, 博士生导师, 中国计算机学会(CCF) 杰出会员, 主要研究领域为Web数据管理、 情感分析、 数据挖掘、 信息检索. Email : wanchangxuan@263. net. 胡 蓉, 硕士, 助理研究员, 主要研究方向为信息抽取、 自然语言处理、 大数据分析.刘德喜, 博士, 教授, 博士生导师, 中国计算机学会(CCF) 髙级会员, 主要研究领域为自然语言处理、 信息检索、 Web数据管理. Email: dexi . l iu@163.com.3 期万齐智等: 基于句法语义依存分析的中文金融事件抽取509domai n. Inthispaper,wefocusonthefi nancialnewsandextractopeneventswithouttypes.Inthefi el doffinanceandeconomi cs,mosteventusersaremoreconcernedwiththeobjectsandacti onsthateventsaffect.Therefore,combi nedwiththeapplicationrequirement ,weproposetoextractthefinanci aleventET ( Sub ,Fred,Obj),whereSub, FredandObjrepresentsubject ,predi cateandobjectrespecti vely.However,Chi nesefinanci alnewsgeneral lysuffersfromtheeventnesti ngandcomponentdefaul tprobl em,whichresul ti neventomissi onandkeyel ementmi ssi ngofevents. Totackl ethi sissue,wi ththeexpressi onhabi tsandcharacteri sti csofChi nesel i nguistics,webui l daChineseeventextractionframeworkbasedonsyntacticandsemanticdependencyparsing.Thensummari zefourcommondefaul tstructuresanddesigncorrespondi ngcompl eti onrul es.Inparticular,atthebegi nni ngofthispaper,wesummari zefourprominentphenomenaintheextracti onofeventsfromtheheadli nesoffi nanci alnews,andexplorethecauseoftheseprobl ems,noi ndepthanal yzingtherel evanceofsyntacticandsemanticstructureorl ackofit.Afterthat ,weempl oythesyntacticdependencyparsingtreeandl exical structure,andproposethecoreverbchains,whi chmakesurethateachcoreverbcorrespondstoaneventsol vi ngeventl eakageprobl em. Thirdl y,weaddsemanticdependencyrel ati onbetweeneventsonthebasi sofsyntacti cdependencytree,whi chi scal l edSyntacti cSemanti cDependencyParsi ng(SSDP)tree.Inordertobetterseparatethedetectedeventsandtheirproperties,weadj ustandoptimizeSSDPtreetoformtheSSDPgraph,wherethewordnodesofthesamesyntacticstructureareatthesamel evel ,provi dingawayforsubsequenteventextraction.Fourthl y,withthedi visi onofdefaul tstructurei nl i ngui sti c,wesummari zefourcommondefaul tstructuresandproposetencorrespondi ngcompl etionrul estosol vetheprobl emofcomponentdefault.Meanwhil e,thewhol eChi neseeventextracti onalgorithmbasedSSDPgraphisshownattheendofthesection.Fi nal l y,thispaperdepictsadetai ledexperi mentalsi tuati on. Theexperi mentaldataset,label i ngstandardandeval uati onindexaregi ven.Subsequentl y,themethodi nthispaperisveri fiedontwodatasets,fi nancialnewstitl esandcommonfi el dnewsti tl es. Attheend,weconductcomprehensi vebenchmarksonChi nesefi nancialnewsti tlesandC〇NLL2009Chi neseCorpus.Theexperi mentalresul tsshowthattheproposedmethodsareeffecti ve.KeywordsChi neseeventextracti on;coreverbchai n;syntacti csemanti cdependencyparsi nggraph;eventsemanticsrel evance;defaul tcompl ementi 引 言事件抽取作为信息抽取的子任务, 在自然语言处理应用中扮演着较为重要的角色, 如股票市场趋势预测 投资者、 上市公司以及政府对股票市场趋势都比较感兴趣, 趋势预测可为其分析市场、 做出决策提供有力参考. 相关工作[ >4]利用自然语言处理技术分析了网络文本对股市趋势预测的影响, 发现金融新闻报道的事件是股市趋势预测的重要依据[ 1 ].因此, 事件抽取的内容及其质量至关重要, 将直接影响股市趋势预测效果.目前大部分事件抽取都是基于ACE2005?( 定义了事件的8 种大类、33 种小类)、KBP2015?和ERE标准[5], 这些标准及数据集应用于宏观经济预测等特定领域的事件抽取存在一定的局限性, 如在标准中并未定义股票“增持”事件类型. 文献[6 7]虽针对公司新闻和中文财经领域制定了适合自身的事件类型, 但都局限于较小范围内的某些特定事件. 目前对于哪些事件会影响股价走势尚未有定论, 致使自定义类型的事件可能对预测作用不大, 且还要求研究人员具备丰富的财经知识和经验,一定程度上增加了研究难度. 所以, 本文聚焦于财经新闻, 采取开放模式进行事件抽取.财经领域较为关注事件作用对象及动作. 本文①http : //projects,ldc.upenn.edu/ace/②https : //tac. nist .gOv//2015/KBP/5 10 计 算机 学 报 2021年结合应用需求, 确定抽取三元组事件e:t( sM6 ,Pred, ). 其中Sm6 为主语, Pred表示谓语( 事件的核心, 触发整个事件发生,一般动词居多[8], 后续称为核心动词), 〇 ̄代表宾语, 上述3 个要素均可称为事件的属性或成分. 文献[1]虽然也研究了上述三元组事件抽取, 但做了较多限制, 如谓语短语需以动词开始、介词结束, 主语和宾语需为处于谓语左右两侧的名词等. 这会导致较多有价值的事件因不满足条件而被舍弃, 如语句S:“港股恒指跌0.14%”.其中, 动词“跌”作为谓语触发事件, 并未以介词结束; 同时, 该文献未考虑复合句中因共享成分而导致的事件成分缺失问题, 使得抽取的事件不完整,一定程度上降低了事件使用价值.中文作为话题驱动语言, 为了表达的连贯性和简洁性, 常省略某些语言成分, 即句子存在缺省[ 8]. 根据中心理论[ 9 ], 主语、 谓语和宾语作为句子的主要成分. 但是, 主语是最有可能缺省的, 其次是宾语, 最后为其他位置上的词语[1 ° 1 1]. 从句法结构和语义方面划分, 可分为直接省略和间接省略. 如语句S2“英首相让步, 考虑爱尔兰担保协议”为直接省略, 后半句缺省主语“英首相”; 语句S3“京东营收增速首次跌破30%, 年内市值蒸发逾400 亿美元”属于间接省略, 后半句已存在主语“市值”, 但语义并不完整, 缺少前半句的“京东”作为修饰. 对于直接省略, 根据是否由介词引起, 又可分为介词引发和直接结构省略.如语句S4“中国动力飙近21%, 与中国能源达战略性合作框架”后半句因介词“与”引导, 缺少部分主语“中国动力 中文语句表达十分灵活, 缺省结构较为复杂多样化. 因此, 如何抽取完整的事件是本文致力解决的一个关键问题.新闻标题一般需要简明扼要地概括新闻内容.财经新闻标题偏好采用动作行为的表达形式, 致使语句中出现大量动词, 且较多连续动词. 如“3 位创投股东拟清仓减持套现超20 亿, 博天环境一字跌停”. 其中,“清仓”、“减持”、“套现”、“超”等一系列动词描绘整个过程, 可认为标识一个事件, 而动词“跌停”单独触发另一个事件. 如何识别哪些动词触发事件, 哪些动词作为简单的成分, 即确定语句中蕴含的事件数和谓语, 是本文致力解决的另一个关键问题.针对上述两个关键问题, 本文归纳了在财经新闻标题中抽取事件时较为凸显的4 种现象:(1) 事件漏抽.一条新闻标题常包含多个事件,只抽取了其中部分事件.( 2) 事件成分缺失. 抽取的事件成分不全, 主要由主语或宾语省略所致.(3) 事件成分抽取错误. 抽取的事件成分信息在语义上与文本语义存在出人.(4) 事件语义放大. 缺少限定范围, 使得抽取事件语义大于原文语义或语义不明, 主要因修饰语省略引起. 如语句S3, 事件E7\( 市值, 蒸发, 400 亿美元) 虽已抽取了SM属性, 但缺乏修饰定语“京东”,使得事件ET: 语义放大, 指向不明, 缺乏使用价值.出现上述4 种现象, 主要是因为没有深人分析句法和语义结构上的关联或是缺少关联. 其中, 前两种现象属于句法结构, 应探寻事件间和共用成分间的关联规则; 后两种现象则侧重于语义, 需要从语义角度分析其存在的关联. 因此, 本文采用句法和语义依存分析相结合的方法, 建立句法语义依存分析( SyntacticSemanticDependencyParsi ng,SSDP)图. 同时, 基于SSDP图, 归纳常见的缺省结构, 制定缺省补全规则. 首先, 根据句法依存结构, 设计规则,建立核心动词链. 其次, 添加语义依存关系, 建立S SDP树. 再次, 基于核心动词链和语义结构, 优化SSDP树, 形成SSDP图. 最后, 基于SSDP图, 分析扩展事件间的语义关系, 提出4 种缺省结构, 并设计相关补全规则, 解决抽取事件的成分缺失问题.本文的主要贡献包括:(1) 建立核心动词链. 基于句法依存结构, 分析动词词法及句法依存结构, 提出核心动词链建立规则.(2) 建立句法和语义依存分析相结合的SSDP图. 借助句法依存树, 添加语义依存关系, 建立包含事件间语义关联的SSDP树; 基于核心动词和语义结构, 将SSDP树调整为SSDP图, 使得核心动词和同等结构成分的结点尽量处于同一层级.( 3) 归纳4 种常见缺省结构, 提出相关补全规则. 根据中文使用习惯和语料数据, 归纳了4 种常见缺省结构, 并设计有效的查询补全规则.本文第2 节介绍相关工作, 分析目前相关研究的进展及优缺点; 第3 节分析核心动词词性及句法结构, 归纳核心动词链的建立规则, 为探测事件提供依据; 第4 节首先探讨基于缺省补全的中文事件抽取面临的挑战, 然后描述句法和语义依存分析相结合的SSDP图的构建方法, 为补全事件缺失成分搭建查询桥梁; 在第5 节中, 讨论4 种常见缺省结构,并分析其补全规则, 解决抽取事件的成分缺失问题;第6 节介绍本文实验数据集、 实验方法和实验结果,万齐智等: 基于句法语义依存分析的中文金融事件抽取 51 13 期验证本文方法的有效性; 最后, 第7 节对全文进行总结, 并就未来工作提出展望, 为即将开展的后续研究指明方向.2 相关工作事件抽取作为信息抽取的子任务, 在知识挖掘领域起着非常重要的作用. 近几年, 事件抽取的主要研究重点是, 如何利用不同的线索信息提高事件触发词或论元所属类型的正确率, 较少地结合应用需求去分析研究事件抽取效果及使用价值. 我们将前者称为传统事件抽取, 后者称为应用需求驱动的事件抽取.(1) 传统事件抽取的研究进展传统事件抽取一般分为4 个子任务, 触发词识别/分类和论元识别/分类, 前者称为事件探测.目前, 无论是事件探测还是完整的事件抽取, 涉及识别或抽取语句中包含事件数的研究非常少.在事件抽取方面, 文献[12]为解决新事件类型在标准数据集上识别效果不佳的问题, 选择新领域数据训练模型, 但因缺乏标注数据, 提出一种可快速收集新事件类型训练数据的方法, 并通过已有标准数据集, 训练一个可在新类型上识别Actor、Pl ace和Tune 等论元的模型,一定程度上解决了新类型事件的抽取问题. 文献[13]针对基于CRF的事件抽取联合模型的缺陷进行扩展, 旨在解决事件多标签问题, 但需对事件进行分类训练. 另外, 借助同一大类事件下, 不同子类事件间元素存在高关联性, 采取多任务学习方法解决由分类训练带来的数据稀疏问题.文献[14]提出一种动态多池化的卷积神经网络以保持多事件信息, 实现语句中多事件抽取; 同时可自动抽取词法级和语句级特征, 缓和严重依赖NLP工具的现象. 文献[15]利用双向循环神经网络和人工设计的特征联合抽取事件触发词和论元. 文献[16]研究论元与论元间的句法依赖关系, 为其建立依赖桥, 结合双向循环神经网络方法, 提高了同一事件的论元被完整抽取的概率. 文献[17]利用同一语句包含的多个事件触发词之间存在高关联性, 通过引人句法依存树和基于注意力的图卷积网络, 借助其他事件触发词类型信息进一步确定当前事件触发词所属类型, 从而提高事件抽取效果.在事件探测方面, 文献[18]研究的问题类似于文献[17], 也是借助事件间的关联来提升事件分类的效率. 但不同的是, 文献[18]指出, 较多可利用的、有关联的事件位于不同语句中, 只考虑单个语句中的事件, 存在一定局限性. 因此, 设计一个门控多级注意力机制, 自动提取并动态融合句子级和文档级信息. 文献[19]分析以往研究主要针对特定领域或特定事件类型存在的局限性, 提出在开放领域中探测无类型约束的事件. 随后提及由此带来的2 个问题: ①事件无统一定义; ②无足够训练数据. 为了克服问题①, 选择识别所有可能的事件. 但通过公布的语料可知, 基本限于一条语句只包含一个事件, 即只考虑一条语句中包含一个事件的情况.文献[20]针对以往工作只利用一次上下文信息的情况, 提出利用动态记忆网络多次使用上下文信息, 提高事件触发词分类效果. 文献[21]通过生成对抗方法, 解决由语义信息映射的高维特征空间中存在虚假特征干扰的问题, 提高了事件探测效果.通过对事件抽取相关研究的梳理发现, 事件抽取主要集中于利用寻找的线索提高事件识别或抽取的效果, 与本文研究问题还是存在一定的差别. 但是, 本文获取的事件内容与语义角色标注在形式上存在一定的相似性. 语义角色标注主要标注论元与谓词之间的角色关系, 属于浅层语义分析.(2) 语义角色标注的研究进展语义角色标注( SemanticRol eLabeli ng, SRL)包含4 个子任务, 分别是谓词识别/消歧和论元识别/分类. 针对SRL的研究, 基本上都是基于CoNLL提供的标注语料库, 这些语料库大部分已标注了谓词[2 2 2 3], 所以很多研究的重点主要聚焦于论元与谓词之间的角色关系. 近些年, 深度神经网络方法在SRL上已经取得了较好的效果[ 2 2#, 尤其是LSTM.深度学习方法较少考虑句法特征, 但直观上句法结构利于SRL, 为了验证这个假设, 文献[24 25,30]均采用基于现有的模型, 如Bi LSTM, 设计嵌人句法结构的模式, 使得深度学习模型可利用输人的句法结构实现SRL. 研究表明, 深度学习模型嵌人句法结构可提高SRL效果. 虽然句法结构能够提供一定信息, 但因其对语言类型和领域外数据的鲁棒性不高, 所以也存在较多的研究未利用句法结构[2 42 6].文献[31]则采取折衷方案, 利用超级标签获取部分句法结构信息, 提高了SRL效果.除此之外, 也有研究针对SRL基于跨度和基于依赖的2 种标注形式进行了分析. 文献[23]指出, 由于2 种标注形式的存在, 使得很多下游应用不知采取何种形式更为有利, 从而提出一种统一2 种标注5 12 计 算机 学 报 2021年形式的端到端SRL模型. 文献[26]分析了基于BIO标签的神经网络需要已标注谓词作为输人的一部分、 且无法包含跨层级特征等缺点, 提出一种端到端模型, 用于联合预测所有谓词和论元跨度, 以及它们之间的关系.文献[22]受助于人类在处理未见过事情时借鉴相似问题处理方法的启发, 提出一种不依赖句法结构的方法( Bi LSTM+AMN) , 该方法利用训练集中语句及其标签关联记忆线索, 帮助论元角色标注.上述研究较好地推动了SRL研究的进展, 但针对本文提出的研究问题, 发现仍存在以下不足:①不能结合应用需求识别以事件为单位的谓词. SRL多以动词为单位进行识别, 而在语料中, 语句通常包含较多具有动词词性的非谓词, 导致识别的事件数远多于实际的事件数.②绝大多数研究未考虑论元补全, 少量研究只实现了简单论元补全, 即同一个论元与不同谓词间的角色关系.③由于CoNLL提供了谓词标注, 因此部分研究只考虑了识别论元与谓词之间的角色关系, 并没有研究谓词识别问题.④大部分研究基于英文语料, 由于中文需要分词, 因此借助句法结构信息的模型不能较好地适用于中文语料.⑤特定领域的标注数据不足, 尤其是中文标注数据, 无法满足需大量标注数据的深度学习方法, 使得SRL效果不佳.(3) 财经领域的事件抽取对于应用需求驱动的事件抽取, 以需求为导向,有针对性地抽取所需事件.文献[7]聚焦于财经领域中事件信息分散于多个语句的现象, 自定义财经领域事件类型, 并提出抽取文档级事件的方案. 同时, 采用远程监督实现自动标注财经领域训练数据, 克服特定领域标注数据集不足的问题.文献[6]以了解公司大体情况为需求, 针对公司新闻文本, 分别采用SVM和RNNLSTM方法探测自定义的10 种不同经济事件.文献[32]以证券和金融市场决策者需了解事件各方面的综合信息为出发点, 分析了基于单个文档抽取事件的局限性, 利用不同机构可能报道同一事件以及事件存在冗余信息的线索, 提出在开放域新闻集群中抽取事件的无约束类型, 并归纳通用的事件模式.文献[1]首次提出采用结构化信息表示事件, 将抽取的事件用于预测股价波动. 文中事件定义为4 元组£=( 01 , 尸, 02 ,:〇, 其中01 为行动者, 尸代表谓语, 〇2 是目标者, T为时间戳( 主要用于对齐股票时间) . 该文利用开放信息抽取技术[ 1 2 1 3 ], 无需事先定义事件类型和人工标注训练语料. 但在抽取谓语和论元时添加了句法和词汇限制[1 3].该文献存在的不足:(1) 谓语抽取的约束条件过于严苛. 在新闻语料中, 存在较多谓语不符合约束条件.( 2) 论元识别存在一定的局限性. 首先, 充当论元的词不一定为名词短语, 且也不一定为距离谓语最近的名词短语.( 3) 没有考虑成分缺省情况. 财经新闻语料存在大量的成分缺省, 不完善缺失成分将会大大降低抽取事件的使用价值.3 建立核心动词链本节首先分析基于句法依存的核心动词句法结构, 然后总结建立核心动词链的规则, 最后给出建立核心动词链的算法.3. 1 核心动词词法及句法分析3.1.1 依存句法分析树依存句法分析(DependencyParsi ng, DP) 是自然语言处理中的关键技术之一, 其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系[3 3].主要包括两方面的内容,一是确定语言的语法体系,即对语言中合法句子的语法结构给予形式化定义;二是依存句法分析技术, 即根据给定的语法体系,自动推导出句子的句法结构, 分析句子所包含的句法单位以及这些句法单位之间的依存关系. 依存句法分析树(称为DP树) 则将句法单位之间的依存关系以树的形式表示. 本文的依存句法分析采用哈尔滨工业大学语言技术平台( LanguageTechnol ogyPl atf〇rm, LTP)M, LTP共定义了14 种依存关系,如表1 所亦.表1LTP中依存关系名及含义标记 解释 标记 解释SBV 主谓关系 FOB 前置宾语VOB 动宾关系 ADV 状中结构IOB 间宾关系 CMP 动补结构POB 介宾关系 IS 独立结构ATT 定中关系DBL 兼语COO 并列关系 LAD 左附加关系I IED 核心关系 RAD 右附加关系贿轉: 基; 懷滕析爾申纖麟#抽取 613 議 期语句Sr首钢控股购人约40.78%股权%其依存句法分析结果如图1( a)所象sDP树如图1( b) 所示. , 图1 ( a) 中的n, v,d, m分别代毫名爾、 翁坷、副词和数词; 布图1(b) 中,“购人”与父结点关系为HED.. 是本语句核心词f络点之间的边代表句法依存关系. *于模心. 词的词性通常为动词; 所以也将德: 心词: 称之为: 樣心动爾部VATTATi*\i\首钢控股购入 适 40.78% 股权ATTnvdmn40.78%|祕Ttvm\(a) 依存句法分析(b) DP#图1讀轉=87 的偎夢旬爾分析和DP树S.1. 2 權心翁词句維分析中文语句表达常采用弁列句和复合句, 在财?新南标嚴中麗为餐出. 财縴If歸标邀一般来取正3:副标题?f式, 副标题对正标题起补充说明, 更为详细地阐述正标題的内容_ 下面以一个简单的例子来说明梭心—词的甸ft:结构-例1 .“果源价格分化严重苹果期货增仓上涨副标题苹果期货增仓上涨”对?标題W果源价格分化严童^中的具体果源( 苹果) 价格情况进行描述. 该语句的DP树如图2所示(为I?简化, 树中省略了标点符号依存关荽, 后续的DP树中也全部省略) ,对于例1, 共包含3 个事件ET2 (果源价格, 分化,)、 ETS(苹.果期货, 增仓, )和ET4(苹果期货, 上涨, ) . 在图2 的DP树中, 只存在一个语句核心动词“分化 如果每个核心动词触发一个事件, 则导致£7\和£7;事件漏抽,增仓”作为 的谞词, 是ET2谓词“分化”的孩子错点, 且依存关系为COO,而ETg 的谓词“上涨w又怍为 的谓词增仓〃的孩子麵,从图2 申分析可知, LTP针翁一条语句, 旯会给出一个核心动词,?但我们可以根据其依存关系和词性, 参照每个核心动词对应一个事件的标准, 划分出多个核心动词, 从而形成一条核心动谓链. 如何建立稼心动词链将在下一小节介藉.3. 2 核心动词链建立通过对大量的语料和J:节的DP树迸行分析, 发现S条线索s ?事件的谓词一般由动词充当; ②一个语句中事件间的谓词在DP树中为父子结点,, 且保持连续; 如“分化 增仓”一“上涨、@一个语甸中事件谓词之间父子结启的边为coa., 另外, 在语言学中; 并列的19语在句法结构上獻该撕有相同地位或性质. 即它们之间废采用并列符号进行关联,如ltp采甩的coa通过对一个语句中动词并列符号的识别,. 可较好地分离语句中包含的若干事件.因此. 根据上述线索, 提出一个事件分离方法(核心动调链的逢立规则h具体规则如Ts规则1.如果LTP给出的语句核心凤是动坷S 则默认属于核心动词链中r否则考虑其满足COO关系的孩子结点, 直到找到动词为止.规则2. 加人的错点:; 暴考核心动词链中猜: 点构成coo关系的动词结点, 且确保添加的动词从语句核心词开始一直保持coo关系的连续性,一旦亦断则不再考虑后续动词,规则3. 如果 给出的语%核心词是非动■s 且其孩子中没:有满足COO关系的动词鍺点, 则纖匈末象成核心动實链,上述规则彼此间具賓一走的逻辑依赖性, 规则1是植逢核心动词:链的起点f规则2 是对扩充核心#词链的新结点进行词性、遙续性和旬法依存关系判断, 其中原始的连续性来瀨于*则lr 而规则,3 是不满足规则1 的情况( 即核心动词链方空).添: 加意: 核心动词链中的每个动词结点需满足以i:所有《贝卩 , 本文以T部分所说的核心动诃均指处于核心动词链中的结点, 所以链中结点数即为语句蕴含的事件数. H此. 利用核心动词链方法, 可解决本文提出的如何确定语句中蕴含事件数的:業傭问: 题.针对'图2中“增仓”和“上涨”鍩点, 按照规则应全部振加意: 核心动词链中,但它彳口反峽同一^件( 即主语和窠语相同) 的不同情况. 为了避免将一个事件拆分成多个#件面降低事件信息的连贯性和完. 整性, 本文做了如下优化: 对于语句中位置连续的核心动词( 如果核心动词之同只包含副词,也认为ii续) ,则将所有核心动■合并为一个整体; 表示一系列连贯动作, 如例1 中事科EIV与ET4 合并为事件ETS苹果期货.,[增仓, 上涨综合核心动词链的建立及优化规则*可#到核51 4 计 算机 学 报 2021年心动词链的建立算法, 如算法1 所示.算法1?CoreVerbChainCCVC,curNode, DPtree) ?输人: 核心动词链CVC, 当前核心动词结点cMrNoA,语句DP树D朽ra输出: 添加了新发现核心动词的核心动词链CVCFOR (〇1 〇办GCNS)//CNS为cwrJVo办的孩子结点集合IF{cnode.postag为动词且cno办 关系为COO)//多cmag为结点词性, 为结点的依存句法关系IF(cno办与cwrNo办在原句中相邻或中间只包含副词) 泠有连续核心动词IF(CVC为空)//处理初始 办为非动词,#且〇\^为空无法合并连续核心动词的情况将cnode 加人CVC;ELSE将cwo办添加至CVC中的cwriVo办列表中;//合并连续核心动词ENDIFELSE//无连续核心动词将cno办加人CVC;//将满足规则的核心动词添加至核心动词链ENDIFCore"Wr6C/iai n( CVC, oio办, DjPfr從); //: 递归查找ENDIFENDFOR4SSDP图本节讨论SSDP图构建. 首先分析解决本文所提问題面临的挑战, 然, 后介绍SSDP树的建立过程,最后描述SSDP树转变为SSDP图的过麗4,1 基于缺省补全的中文事件抽取的挑战S前, 随着机器学习利深.度攀习相关技术的飞速发暖, 大量的方法用于解决事件抽取问题^且取得了较好的效果, 但是这类方法 大屬人工标注; 数1据作为训练集.. 对于中文财经新闻领域, 人工标注的数据十分匮乏, 较大地影响了上述方法的抽取效果.M: 且r本文采取开敖機式補取开敖性事件(无具体業型的事种)., 无任何标准可用于触发词和论元标ft,一定涯度上X增大了人工标注的难度.因此, 针对本文提出的问题, 建'议选取规则匹前方法,依存旬法结构蕴含着丰富'的信息, 无论是深度学习还是规则匹.配方祛., 均将其作为一条童栗线索.针对本文的研究何题, 句法依存关系可以用T识别结构i的成分缺省, 从而启动成分补全,然而, 仅仅采用依存句法分析方法, 无法完全解决上述缺省补全何题,一穷面,一条语句可釆用'不同的表达形式, 致使旬法结构多样化?增加了补查复杂麗s 碧一方菌 *督旬.61讓达存在射序性1C即事件之间具有先后顺序> 和一定:的语义关系( 如因果关系、转折关系等) 且事件缺省的成分常包含于该事件之前的其它事件申', 故补全缺省成分的前提是變要鸯立事件间的语义关联,4.2 基于句法语义依存分析的SSDP树构建针对汉语言中的缺省, 研究成果并不多*且定义及葙围投有編一的标准tl l]. 黎锦熙W5]认为经常出现的省略包括对话省、 自述省和承前省; 吕叔湘[ 3 &]将缺省分为当前省、承上省和概括省; 王力[3 7]则分为承说省和习惯省? 随誉衩塔法学中“三个乎面”理论〈语法, 语义, 语用)的提出, 语法学者对缺省从认知角度有了如下三种基本认?t3 S].⑴旬藤緒构土蠱歲. 措緒构中#不1"少盼成分騰棚现前句_构省赂X(2) 语义结构上界定. 指应该说出的意思没有说出来的语叉省略.GT) 语用交际界定. 指因语言环赓需要的语用'省赂?其中., 裔貪环填涉及较为广泛, 可以是社会文化菁:S;、语言上下文或交I示的现场懞暈.新闻标題较为葱小、 独立, 请言上下文中的语用曹略偏少*0此本文依据上述缺魯结构的舁定, 提出一#句法与锫义分掛顧结合的事■件袖取方法?称之为句法谱义依存分析(SSDP) 方法,'请夂依_分析( SemanticDependencyParsingsSDPh用于謂画爾汇间语义依存关系. 与语义角色标注存在一定的关联?SRLR关注甸子请词与其主要论元之间的关系, 而SDP不仅务注谮词与论元,还关fe谓词与谓词、论元与论元、 论元内部的语义关系, 对旬子语义:倩息的刻画更〔加完養全面*SDP.屢宁深崖语义分析, 不仅可为我们调整DP树中部分错点结构提供语义分析, 还可”为我们建立事件间关联提供途1 轻.例1 的SDP树如图3 所示. 其中,Exf3、 H〇st、fcCoo、C:6ns.vFeai和Mann分规廉累当事養, 系、 截患角色、:并列关系、结_角色、 描写角色和方式角色.例1.?SDP树贿轉: 基; 懷滕析爾申纖麟#抽取 6K 議 期考虑到目前可甩SDP工具拇正确性一般<'图3中w严: 重《锫点错误地依存于上涨’’结点〉 , 且导Dp在结构上有时会费在冲. 突X作用对象不一致 此,.本文只利用SDP建立核心动词间关联. 为迸一步降低冲突抽可能性,建立试程囊按如下,方式进行.首先, 对DP树进行剪枝, 只倮留主语、核心动飼和?輋―主干成分/减少DP树中的铕点槳量; 其次, 对剪支后的DP树进行语义依存分析,获取核心动词间语义关联; 最后、将获取的语义关联添加至原始DP树中.另外, 核心傭爵一窺涯慶i代慮審件s審件之间的谱义依寝舞峯采用 如&6〇〇? *3聰3 和ePtrp)表示,因此针对核心动爾闻非eXX关系的情况, 隹依赖的孩子绪点中查询获取, 并作为核心动词间语义关联. 例如> 匣3 中“上涨”与“分化”结点之间的关系为 霖孩子_点中掌取e: Co〇关?擊、苹文针对DP树中结点关系. 设计事件关系二元组Ei?T( 办 其中, 办为句法依存, 关系,表示语义依存关系. 将添加了语义依存关系的DP树称为SSDP树, 其构建算:法如算法2 所示.算法2.SSDPtreeBxild(DPtne. CVQ.输入DF树?DPtW-rft 心靖SI链CVC猶掛r 句參3罾黑襟#分析树JSftP嫩《FORKs(freVerBC4;YO获取coreVer6在DPtra中对应结点;获取core"Wr6iV〇£^的主谓宾主干结构cvnMai n;将cwi Mai w按原词顺序组合形成主干语句wnMah;通过SDP工具获取 的语义依存关系coreVerbNode.sdp=senSdp\_coreVerb ̄\ ;/:,修改 中核心动词结点语义依存关系ENDFOR动调合并. 其中,“分化”和“[增仓, 上涨]”之间通过eC〇〇连接, 表示夢件间存在并列关:联. 但在句法鍺构上仍为父子关系. T节将介绍如何将SSDP树调整齿SSDP图.4. 3 基于核心动词和语义结构的SSDP树调整同一条语匈中, 每+事件的发生虽然存在前后顺序,但它们在句法绾构上(包括每个事件的核心动词^主语及宾语等)座处于相同地位, 这样不仅使#句子句法结梅一f了然, 还有利宁事件的确定和ET元組中成分的抽取.因此, 本节钍对SSDP树做了一定的优化和调整, 剪除无敏路径5 降低树的高度, 使得调整后的SSDP树更趋于扁平化, 缩短搜索路径. H调整后的SSDP树已不符合树的定义, 故将其称之为SSDP图. 具体调整方法如下*( 1) 核心动词调整■?提:升处于核心动词链中的每个核心动词结点层鈕, 使得调整后的SSDP_中所着核心动词■'点与核心根结点 _處的宣攘孩子结点冻调整前具有I吾句核心饲称为核心根结点>:具有相同层级, 即调整为 结点的直接孩子结点? 如图3所示、将“[增仓, 上擁T结点调整为办此结点的直接孩子, 使#与“分化”结点处于同级, 但真原始关系仍.保留, 并采用有向虛线进狞连接. 方向代義事件的时序往.(SBV.NULL1/(ATT,NULL)果源(SBV,NULL)/(ATT,NULL)苹果M-5 图4隹:梭心翁鋪侧藤g驗. SSDP图&SDPtme=BPt;r;ee;RETUBMSSDBtrm顧于價2 所示的DP树, 将_3 中核心动筒“分化”,上涨”间的语义依存关系eCoo添加至DP树中* 栂_勝S: SDP树如图4. 所'示s 词时迸行了核心[ Root1(HED.NUI.L)(SBV,NULL)'^^\((X) 0,eCoo )(CMP,NULL)价格 严重[增仓#涨]/(ATT,NULL)(SBV,NULL)果源期货(ATT,NULL)图4 图3: 察_s為且合聲核心翁饲后猶SSfiP树梭心动1] 爾_是将SSDP树调整为SSDP 图的关键.不仅有利f事件的划分, 而且一定程度上丨旬接促使了同等成分的结点也处矛相同层级. 如图5中具有SBV关系的“期货”和“价格”结磊, ATT关系的“果源”和*"苹皋9结点均处于相同层鈒.(2: 3 介词: 结构调整. 提升介词引导的充当主语或宾语的结点层级,使其作为对应核心稂结点的: 直接孩子结点? 菌6(a),鹿示了语句&的SSDP树经核心动ft调整后得到的SSDP图,其中?eSucc 表示顺承关系?“中舞能源”语义上为* ?达”的主?语肩结构上是 的直核參子_图SfM食圏rCa) 的基補上, 对介爾:结构进行调整,将“中国能源<’调整为“达”的直接孩子A法依春关系从POB调整为SBV,肩时保留原始依存关系(POB: *NULL ),采用无向虚线连5 16 计導机攀报: _1苹(a) 经核心动词调整后的SSDP图图:6 谱句S, 的SSDP树:经襯整gteSSRP盧( SBV. Agt ).此处,“被”字属于.殊介词, 禹然调整. 过裎与介词结构相似s 但其缺省结构补全规财存在区别? 被动语态薔对调主语和宴语, 且“被”字在调整后的图结构中无倉义. 而?6CW中介词“与"起并列连接作用s 在成分补全时应与左右成分一同翁入,基于上述调整规则* 可得到将SSDP树慨整为SSDP图的算法, 如算法3 所示*算法3.SSDPtreeAdju?t(SSDPtre^,CV〇f:输人: 语匈銘DP树SSDftw勺翁心动:爾懲输出: 语句SSDP图SSDPgra多/iFOR(〇^V^^6CVC)^/CVC中每个核心动词获取coreVer6在<SSI)jP?r從中对应结点coreVerWVotie;建立由只〇况指向coreVerWVo办之间的关联;//提升 办结点的层级, 但保留核心动词//结点之间的原始关系FOR(nodeeCCVNS)接. 其中, Agt 表;^施事关系.( 3) 被动语态调整. 提升被动语句对应结点层级, 修改句法依存关系. 如语句s6“伽马投资未披露基金运作情况, 被监管责令改正”的SSDP树经核心动词调整和被动语态调整后的SSDP 图, 分别如图7(a)和图7(b) 所示.(HED,NULL)披露 责令(SBV,NULL)^/\(V〇B,NULL)^D^NULI^\^ADV,NULI4伽马投资 情况(V〇B,NULUr[m\(VOB,NULU/(V〇B,NULL)^7p〇B,NULL)[m](a) 经核心动词调整后的SSDP图Root(HED,NULL>^^^^(HED,NULL)I 伽马投资I I 未I 準(V〇B,NULL) /W]| 监管|(POB.NULL)丨 运作(VOB,NULLy(b) 经被动语态调整后的SSDP图图7 语句S6 的SSDP树经调整后的SSDP图其中/被”结点时倉黎孩乎结点w躁管”调整为w費令股直接孩子鍺点, 且添加其对应依存关, 系//CCVNS为 的孩子结点集合IF(no办为被动语态词)//被动语态调整获取语句的语义依存关系FORCcno办6CJVS)//CNS为no办的孩子结点集合IF(cnode 为右孩子结点)#存在主语建立由core 办指向 的边;cnode.dp=SBV;cnode.sdp=senSdp\_cnode ̄\;ELSEIF为左孩子结点)《/存在宾语建立由 指向cwoA的边;cnode. dp= YO^;cnode. sdp= senSdp\_cnode ̄\;ENDIFENDFORELSEIF(no心为介词)获取语句的语义依存关系FOR(cn〇&6CJVS)//CNS为no心的孩子结点集合IF(cno办与coreVerWVWe 的语义关系为主谓关系>//介词引发的主谓关系调整建立由core VerAiVo办指向 的边;cnode.dp=SBV;cnode.sdp=senSdp\_cnode ̄\;ELSEIF(cwo办与core 的语义关系为动宾关系) 身介词引发的动宾关系调整建立由 指向<: >2 〇办的边;cnode. dp= VOB;cnode.sdp=senSdp\_cnode ̄\;ENDIFENDFORENDIF3 期万齐智等: 基于句法语义依存分析的中文金融事件抽取51 7ENDFORENDFORSSDPgraph=SSDPtree;RETURNSSDPgraph;综上所述,SSDP图的构建过程主要包含3 步,如算法4所示. 第1 步, 核心动词链的建立, 如算法1所示; 第2 步,SSDP树的生成, 如算法2 所示; 第3步, SSDP树的调整, 如算法3 所示.算法4.SSDP图构建?输人: 语句输出: 语句SSDP图SSDPgra夕CVC=0;//将核心动词链CVC置为空利用LTP工具获取wn的依存句法分析结果 私根据DjPremk生成5伙的DPtr從;=伙的根结点;=的孩子结点;//只有一个孩子结点IF( HEDno办词性为动词)将HEDno办加人CVC;EDNIFCoreVerbChai n(CVCyHEDnodey DPtree);//cvc返回满足核心动词链建立规则的核心动词IFCCVC不为空)SSDPtree=SSDPtreeBui ldiDPtree y CVO;SSDPgraph=SSDPtreeAdjustC SSDPtreey CVC);ENDIF5 缺省结构及成分补全本节先介绍4 种常见缺省结构以及缺省补全规则, 然后描述基于SSDP图的中文夢件抽取算法.5. 1 缺省结构I前关于缺省分类的划分未有统一标准、, 较:多文雜S于中文鲁州树虜 Clii n'fcseTir &eBaxik,0了8:)[3 9]和Ontoncrtss3. 0 等舊料库划分的缺杳美别迸行研究, 主蘩包含6 类缺省, 如表2所示其中;HONE-*T**PRO*|EJHONE-*pro*&比最大[1 1].表2CTB及Ontonotes3.0 中缺省分类类别 描述NONE-*T*缺省为主题或从句实施者NONE-*缺省在“把”字句、“被”字句NONE-* PRO*从句中缺省明显主语NONE- *pro*缺省的为主语或宾语NONE-*RNR*发生预指的缺省形式NONE-*?*其他类型拫据上述分类规则弁结合新闻语料分析, 本文将事件成分缺省主要分成以下4种结构.( 1) 直:接成分缺省, 根据缺省成分的复杂性》. 可分为简单缺省和组合缺省,①筒拳缺翁. 缺省成分羅构筒率, 可單独作为其它參件的某个成分(如主谣:u賽甸氏中筒单缺貧错_的: SSDP:圈如调8所示 中* ePMp 代讓目的关系 个事件用虚线框标识, 事件 (荚首相;让步,) 中简单主悟成分“英首相”作为ET7(,考虚,爱尔兰担保协议)事件的主语, 舉用点横相间的有向虚线连接, 表示其篇级关系, 并添加依脊关系(SB. V,Agt;I,②组合缺省. 棠个组合整体作为其事件的某个成分. 语 S7“油价再遭痛击, 拖累期市”中组合缺省结构的SSDP图如M9 所示. 其中 事件£:TS( 油价. 遭, 痛鸯1整体作为#件E Ts(, 拖累. 期市)中“拖累”缺失的主语, 掭加 与?"拖累”结点的依存关系(SBV.Agt h( 2) 介词引发缺省, 虫介词引发的部分成分缺语句氏中介 发缺省結构的SSDP图如圈'10所示. 其中.介词“与”引导关联“中国动力”和“'中■能源”?因‘?中_能源”绪点为SBV关系, 故添加《中国动力”与*达”结点间的依存关系( SBV,Agt } .5 18 计導机攀报: _1苹这:) 被动语态缺省* 斑“被m字等介词引发的被动语态的成分缺省.“被字属于:特殊介诃, 首先按照介词引发的缺省过程构建依存图, 然?后建立共享成分与缺笞事件的宾语关系. 语句玫中被动语态缺省戴抅的SSDP图如: 圈11 所示? 其中,Pat 治受事長系,被”结点只, 起引导连接作用, 既然引导的成分关:系已修改. 则其祖关边'可直接剪藤剪枝, 后猶依存图姐圈3J所示._移 _1 1剪枝?被”后ftSSDP嫌(4) 间接修饰缺省, 语义上存在修饰关系的缺省结构. 间接修饰缺省主要是反映事件间论元之间关系,充当修饰作用的一般为关联事件的主语或其主语的a语? 如语句s3, 其定语“京东^’作为“市值”的修饰; 语句sr深圳成立私■.基金,规模为1卯亿元”? 其宾语“私募基金”修饰后半句的主语“规模请_Ss中间接修饰缺#雜构的SSDP顧如厲13 所国13:舊句為鲁: 间: 餐修饰_養讀翁前銘DP图示,添加了“京东”与“市值”之间的定语关系(ATT,: 奠中, eResu表示因果关系?Nmod 表示名字修饰角色.5. 2 补全规则通过上节缺省结构分析可. 知, 补全_會成分可在与本事件时间屬近的早期事#中聱找, 但#_所有缺省都薷进行补全?存在语句本身无主语的情况,如‘气只别减值风险>严防商誉髯'?此, 何时启动缺—补条机制、如何获取补全内容f是缺省尊全_两大难点, 尤其是间接缺省, 无法从句法靖构上进1于判断, 必须借助语义分析.不同的缺省类JL其朴全启动时机和规则#'在義舁*下面分别对主语和宾'语缺?进行分祈.在语法结构中, 动词分为及物和不及物两类. 宾语缺省补全需_合语句核心动词类型共同分析?如果核心动词为不及物, 其缺省麗正常情况* 无需启动补全机制?当核心动词为及物动词,语句一般会跟随宾|吾对象. 或以指代词戒式给出. 真班的宾离缺省大多由介词. 或被动语态引发, 本文前述已对这些结构做了调整.由介坷钥发的缺省, 可根摒介词的识别?启动补全操作. 而被动语态前期已作成分关系调整>可直接识别抽取, 也无需补全.曲语料分折案现I 齊享主语的事件间的i吾义依存关系薦中于因果(eResti)、 顺麗£eSwc) 和目的CePurp).系.对于倚摹的聲到句算鄭子成分相对完義,通常不会共享,主语, 即使存在成分缺省,一般默认为事件实际天主瑨, 不皂动补全操作.本文主语补全时机和规则主要围绕上述3 种宙义关系, 我们称这些关系为引a关系. 下面针对具輝情况分别讨论.5.2.1 直接成分缺省补全直接成分缺省是基f依存甸法结构进行判断<当SSDP图中的核心根结点不存在^^为SBV孩子结A时, 说项只, 是句法结构上存在主语缺失^由于穿在部分实际无主谱情况, 所以是否窬寒4卜全缺#,还需再结含语义依存关系进行分析, 从而提出3*规则4?:规则:6,规则4. 如果由核心根结点触发的事件不存在具有窜义依存关系的较早事件, 规不必补全.规则5. 如巣存在盡接成分缺失, 且Ei?:T中为非引发关系, 碁最近关 件只存在一个it谣, 则在綦近的关联事件中查询获取关联事件的主语, 补全缺省主语, 即简单缺省补全.贿轉: 基; 懷滕析爾申纖麟#抽取 6? 議 期规则6. 如果存崔直接成分缺失, 且中?^为引发关系, 春晕近关联事件#存多个主每, 则取最近关联?件中駔禽当翁事件最远的主第〈关联事件第一个主语'), 补全缺省主语-规则4聲求, 补查擁作的前痗必须蠢共享翁请'的句乎在当前事件之前发生, 且存在语义依存关系.这符合捂句表达逻辑.因此肩则4 是其它缺省规则执行的前提; 规则s和规则6 分别讨论不同《^关系下的缺省补全情况.规厕5 和规则6 均是依照人们使用语言的习惯, 取关联夢件中位于语甸最前面”的主谮作为缺翁补全?图3 展示了规则5. 补全过程? 事件ET7 書在主语缺失s 因此在最近关联事件£乃中査询核心根结点的直接孩子结点, 且办<为SBV. 针对规则6, 我们通过一个示例进行说明.例2.*上航飞东言一航班因机械故障返航,B. 另调配飞机”的SSDP图如图14 所示, 其中,“调卸"事件缺少主谞*其关联事件“返航”穿在多个主语, 属此取最远主语^上航”作为■"调配,件主语..在财绖领域中,作为共享主语,一般以细分的名词唐多, 如公U、股票的筒称、机构团体等专有名词集属此, 当存在直接成分缺失, 为引发关系, 且鼙.近关联事件只存在一个主语时, 则述需倩助该主语的词性细分缺省补全情况.? POL1fli 、nz:.,fth?}}为爵性纛,其中ni、nz、nh 和j 分别表示机构团体、专有名词、人£ 和筒称?PQL为简单的词性集合, 无领域特性, 在规则判断过種中无需复杂的计#, 直镔词'性对比即可?规则7. 当最近关联喜件的主语词性不属于POL, 且主语存在定宙时, 则取主语第一个定语补全缺省主最.规则8.当最近关联事件的主语词性不唇于POL, 且主语不存在定语, 则取关联事件整体补全缺省主语,即组食缺朱补全.规则9. 当綦近关联事:彳牛的芏锫词性为名词或扇于POL, 则直接取关联事件主谞补全缺喾■趨则??规则9, 射外是:趨则¥的31补遺式, i寸论^办为引鸯关系但主涪唯一的情:ti 对内则分析关联事件主语词性. 财经领域标题常描述同一个主体的不同方面情况,当关联#件主语词性属fPOL, 则该主语作为缺曹补全成分的概率. 较大, 如例4r曹不属节PC儿且眘在定窜B寸5窣谞常为专有词I匚? 从而共享此定is,即缺#定is,如例3 所示.例3. “自主品牌车市寒冬如何活下去, 不少紙为牟瘼背兼極”&含睿件etm( ,沦为, 车展f量板. 其中, 主语寒冬°不属于POL, 但其存在A: TT“自主品牌 当事件 全主语財, 稂据规则7可获取“自主品牌'谮IfS7 的SSDP蘭如國fIf示? 主语?袖价#作为普通名词, 且不存在定语, 满足规则8, 所以事件EIV整体作为事■件ETS 的主谱,例太“禽岸人民币贬值, 跌败《?93 关口”包含事件Et(, 跌 关口). 其中w离岸人S币”作为 专有名词, 符合规则%拳件ETy的主语补全为“离岸人民币%其. SSDP图如图15 所示.g.2.2 介词及被动'欝寒缺誉补棄中文的介词fe常连接多个名iO 性词谓, 针对前面0出现的名词, 在后儀搭配介词的描述中一般将其省略? 筒单地从句法上分析, 夢件已经存在相关成分, 但逻辑上_人分析犮现, 相关成分并不露备. 同时, 对于特殊介词“被”字. 既兼: 顾T介词游点, 又包含了主语和実-语语义的反转, 也霄要特殊处理, 以便于缺省补全.因此, 专门提出规则10 和规则11 进行处理.规则10. 如果为介爾引发的成分缺省, 且为引发关系, 则在最近关联事件中查找主语补全缺520 计 算机 学 报 2021年省的主语或宾语.规则11. 如果由被动语态引起的成分缺省,且《^为引发关系, 则取最近关联事件的主语作为缺省事件的宾语成分.图10 和图12 分别展示了规则10 和规则11的补全情况. 在图10 中, 介词“与”触发启动补全,在关联事件ET1 2( 中国动力, 飙近,21 %) 中查找其主语“中国动力”, 并将其与“与中国能源”合并作为ET1 3 的主语. 在图11中, 由“被”字引起的被动语态, 根据规则11, 获取关联事件ET1 4(伽马投资, 披露, 基金运作情况) 中主语“伽马投资”作为£7\5 缺省宾语.5.2.3 间接缺省补全除了句法结构上直观的缺省, 还存在语义上的间接缺省.间接缺省主要缺省修饰语, 常由公司或机构等充当. 如果缺省事件本身已经存在词性属于POL的名词作为主语, 说明已限定范围, 缺少修饰成分的可能性较小, 此时无需补全; 当事件存在主语, 主语词性不属于尸〇1, 且《^关系为引发关系时, 才进行间接缺省补全, 其规则如下.规则12. 如果关联事件主语的词性属于POL,且主语存在定语, 同时定语的词性也属于POL, 则在最近关联事件中取距离本事件最远的定语( 关联事件第一个定语) , 补全主语的缺省修饰部分.规则13. 如果关联事件主语的词性属于POL,且主语不存在定语, 则取最近关联事件中距离本事件最远的主语(关联事件第一个主语) , 补全主语的缺省修饰部分.规则12 和规则13—定程度上属于规则9 的细化, 且同时兼顾了规则7 存在定语的情况. 不同的是, 规则9 为句法结构不存在主语时的缺省补全, 而规则12 和规则13 是解决存在主语的修饰缺省. 另外, 较多词性属于POL的公司词语位于描述本公司各项指标的定语中或直接代表默认指标( 即充当主语) , 因此补全修饰缺省可主要考虑这些情景. 如图13 满足规则12 补全条件, 故获取ATT“京东”作为事件 主语“市值”的修饰补充.尽管上述规则可涵盖绝大部分缺省, 但还是存在遗漏情况, 如共享成分为事件宾语. 因难于判断需补全的成分在关联事件中扮演的角色, 且该情况在语料中占比较小, 因此本文暂未考虑此情形, 在后期研究中将进一步分析此情况.5. 3 基于SSDP图的中文事件抽取算法综上所述, 本文研究的事件抽取主要包括3 步.第1 步, 依次扫描SSDP图中核心根结点及其孩子结点; 第2 步, 抽取事件主语、 谓语和宾语, 并判断是否启动补全; 第3 步, 基于5.2 节补全规则获取补全内容. 过程如算法5 所示.算法5. 基于SSDP图的中文事件抽取.输人: 语句的SSDPgra灿输出: 事件列表FORXcoreRoot NodeGCNS)//CNS为 沉的孩子结点集合, 即所有核心根结点ET=0?,ET.pred=coreRoot Node. tag;//mg为 结点的词标签FOR(cnode eCORNS)//CCRNS为coreRoot Node 的孩子结点、 集合IF(cnode. (ip为SBV)ET. sub=cnode. tag;ENDIFIF(cno办. 办^为VOB或FOB)ET.obj=cnode. t ag;ENDIFIF(cnotie. mg为“被”字且属于引发关系) //规则11将最近关联事件的主语添加至ELSEIF(cnode.fref不为空且属于引发关系)//规则10//>r吵为结点的介词关联标识将最近关联事件的主语添加至ELSE为SBV且coreRoot Node.sdp不属于引发关系)//规则5将最近关联事件的主语添加至ELSEIF(cnode. 为SBV且coreRoot Node. sdp属于引发关系)IF(最近关联事件中存在多个主语)//规则6将第一个主语的 添加至ELSEIF(最近关联事件中只存在一个主语)IF不属于POL且5wWV〇tie存在定语)//规则7将 的第一个定语添加至ELSEIF不属于PQL且不存在定语)//规则8将最近关联事件中所有结点的 组合添加至ET.sub;ELSEIF属于POL)//规则9将最近关联事件^^Not ie.rag添加至ENDIFENDIF万齐智等: 基于句法语义依存分析的中文金融事件抽取 5213 期ELSEIF(cnode.为SBV且cnode.抑兑tg不属于POL且corAoodVo办为引发关系)IF(关联事件主语 属于POL且subNode 存在定语且5w6N〇(ie 的定语的属于TOL)//规贝"2将最近关联事件中第一个定语添加至ELSEIF(关联事件主语mWVo也抑伽g属于POL且 不存在定语)//规则13将最近关联事件中第一个主语添加至ENDIFENDIFENDFOR将 添加至£XT列表;ENDFOR6 实验测评浪网数据集中随机选取5000 条财经新闻标题, 由计算机计算得到的规则覆盖情况如表4 所示. 其中, 事件数为7575, 事件间存在语义依存关系且后面的事件在句法结构上没有主语的事件对总数为1401( 可能存在直接成分缺省) , 事件间存在语义依存关系且后面的事件在句法结构上存在主语的事件对总数为1460( 可能存在间接缺省) , 占比的单位为%.表4 数据集中本文规则覆盖情况规则 数量 总数规则1 4842 5000规则2 23935000规则3 158 5000规则4 4098 7575规则5 685 1401规则6 4 9 1401规则7 27 1401规则数量 总数规则8154140 1规则937 61401规则10371460规则11641460规则123 11460规则13731460占比10. 9926. 842. 534. 382. 125. 00在实验中, 依存句法分析、 语义角色标注均采用哈尔滨工业大学语言技术平台LTP?, 语义依存分析使用哈工大联合科大讯飞公司共同推出的“哈工大讯飞语言云”平台?.6. 1 实验数据集本实验定位于财经新闻标题, 数据采自新浪财经网?滚动新闻, 同时为了确保数据来源多元化, 还选取了东方财富网?数据, 用于验证抽取方法针对不同数据集的鲁棒性.(1) 数据集本文选取新浪财经网( 简称新浪网) 2018 年1 月至12 月财经新闻标题, 共计492336 条; 东方财富网( 简称东方网)2019 年5 月至6 月部分财经新闻数据, 共计978 条. 数据集中抽取事件及相关指标的统计结果如表3 所示.表3 数据集中抽取事件及相关指标的统计结果数据集 新闻数 事件数 无主语数 无宾语数新浪网 4 92 336 724 294 229 34 6 198 991东方网 978 1 537 503 384合计 4 93 3 14 725 83 1 229 84 9 199 375其中, 事件数为采用本文方法由计算机抽取得到的结果, 非人工标注结果; 无主语数、无宾语数分别指计算机直接抽取( 即没有进行主语、 宾语补全)时没有抽取到主语、宾语的事件数量. 新浪网中平均每条新闻标题中有1.47 个事件, 东方网中平均每条新闻标题中有1.57 个事件.为了验证本文所提规则的覆盖性, 我们从新由表4 可知, 利用CVC比原始DP树多识别的事件占比增加56.44%(包含事件的语句数为4842,CVC能够识别的事件数为7575). 另外, 语料中直接成分缺省的补全规则占比较大, 间接缺省仅占小部分, 规则覆盖的总体情况与中文实际表达习惯较为吻合.( 2) 文本预处理新闻标题数据集中存在两个导致句法分析产生错误的问题: ①新闻标题常包含专家、 企业的意见或评述, 如标题“银保监会: 信托公司监管评级将增设支持民企评分细项”中“银保监会:”, 这些成分对于所需信息的抽取帮助甚微, 且干扰LTP句法依存分析; ②新闻正、 副标题之间一般以空格隔开, LTP对于空格并不认为隔开两个子句, 句法依存的分析效果不佳. 因此, 在预处理阶段, 首先去除正标题之前的内容(一般为“:”之前) , 然后以中文逗号代替正、 副标题之间的空格.( 3) 标注数据集原始新闻标题数据集巨大, 人工很难完成所有数据的标注, 因此随机选择部分数据进行人工标注( 新浪网1200 条, 东方网500 条) , 并以此验证事件抽取效果. 标注数据集中标注事件及相关指标的统计结果如表5 所示.①http://ltp. ai/docs/index. html②https ://www. xfyun. cn/servi ces/semant icDependence③http: //finance, sina. com. cn/rol l/#pageid=384 &-lid=251 9&-k=&- num=50&-page=l④http: //f inance,east money.com/news/cywjh. ht ml522 计 算机 学 报 2021年表5 标注数据集中标注事件及相关指标的统计结果数据集新闻数事件数无事件数主语数宾语数补全主语数补全宾语数新浪网 1200 1898 68 1569 1350 523 475东方网500718 15 571 572 213149合计 1700 2616 83 2140 1922 737 624其中, 事件数是指人工标注得到的事件数量; 无事件数是指人工标注没有发现事件的新闻标题数量; 主语数是指有主语( 含补全主语) 的事件数量;补全主语数是指从新闻标题直接标注得到的事件中缺省主语或主语不完整, 但人工可以从相关联的事件中发现并补全主语的事件数量; 宾语数、补全宾语数的概念分别类似于主语数和补全主语数. 在合计标注的数据集中, 补全主语数、 补全宾语数分别占到了主语数和宾语数的34.44%、32.47%, 进一步验证了中文语句中缺省情况的普遍性以及补全的重要性.本文共选用具备较强财经知识的3 位教师作为事件标注者. 标注标准: ①如果语句不是由动词触发, 则标注为无事件; ②如果语句有核心动词, 则认为存在事件, 且每一个核心动词触发一个事件, 但将同一个语句中相邻核心动词的多个事件合并为一个事件(核心动词间只包含副词也看成是相邻); ③如果事件应该存在主语或宾语, 则无论是否缺省, 均标注为存在主语或宾语; ④如果事件存在主语或宾语缺省, 则标注为补全主语或补全宾语, 并给出补全后的主语或宾语.当出现标注结果不一致的情形, 则由3 人讨论确认最终标注结果. 标注一致性评测结果是3 位标注者标注结果完全相同的数量占标注总数量的比例(单位: %) , 如表6 所示.表6 人工标注数据集一致性评测数据集 核心动词 事件 主语 宾语 补全主语 补全宾语新浪网98. 63 97. 79 97. 71 99. 11 94. 46 98. 32东方网 98. 33 97. 35 97. 20 98. 78 94. 37 96. 64合计 98. 55 97. 67 97. 57 99. 01 94. 30 97. 92由表6 可知, 核心动词易判断, 宾语及补全宾语结构简单, 其标注一致性均比较高. 补全主语因缺省结构复杂, 标注一致性最低, 分歧主要集中于简单缺省和组合缺省的判断, 二者作为补全成分有时均成立, 难以明确地区分.6. 2 评测指标为了更好地理解测评指标, 先对标注数据集中的相关统计指标进行说明, 具体如表7 所示. 为了简化, 可将正确抽取数、不完整抽取数分别简称为正确数、 不完整数.表7 标注数据集中的相关统计指标指标符号 指标含义 指标说明LQ 标注数(LabeledQuantity) 人工标注得到的数量EQ抽取数(Extract edQuant ity)基于本文方法由计算机抽取得到的数量CEQ正确抽取数(CorrectExt ract edQuantity)在抽取结果中抽取正确( 即抽取结果也是人工标注结果) 的数量WEQ错抽数(WrongExt ract edQuant ity)在抽取结果中抽取错误( 即抽取结果不是人工标注结果) 的数量MQ漏抽数( MissedQuantity)人工标注结果中没有被计算机抽取到的数量WQ错误数(WrongQuant ity)在抽取过程中没有正确抽取的数量, 包含错抽数和漏抽数IEQ不完整抽取数( IncompleteExtractedQuantity)核心动词抽取正确但其他属性抽取错误的事件数量注:(1) 对于事件抽取, 正确数CEQ是指所有事件属性均抽取正确的事件数量, 错抽数WEQ 是指核心动词未抽取正确的事件数量;( 2) 对于事件抽取, 抽取数EQ等于正确数CEQ、 错抽数WEQ和不完整数IEQ之和;( 3) 对于事件属性(核心动词、 主语或宾语)抽取, 抽取数EQ等于正确数CEQ和错抽数WEQ之和;(4) 对于人工标注没有发现事件的新闻标题, 如果计算机也没有抽取到事件, 这表明计算机抽取正确, 但由于标注数LQ中无法反映无事件数, 因此在计算事件抽取评测指标(准确率、 召回率和F1 值) 的时候均不考虑无事件数指标.根据以上概念, 错抽数(对于事件抽取还包括不完整抽取数)影响抽取准确率, 错误数(包括错抽数和漏抽数, 对于事件抽取还包括不完整抽取数) 影响抽取召回率. 基于表7 的相关统计指标, 可得到准确率(_?厂6£:£?'0?, _?)、召回率(_??6[<2//, _??) 和1;'1 值3 种评测指标的计算公式如下:P=CEQ/EQ,R=CEQ/LQ,F1=2XPXR/(P +R) .6. 3实验结果针对事件及事件属性(核心动词、主语或宾语) 抽取, 首先给出表7 所列各指标在标注数据集中的统计结果, 再分别就准确率P、召回率i? 和F1 值3 种指标进行评测, 以评价本文方法的抽取效果.6.3.1 实验统计数据(1) 核心动词抽取. 核心动词抽取是事件抽取的关键, 不仅反映了事件探测效果, 还直接决定其他属性抽取的意义. 标注数据集中核心动词抽取的各指标统计结果如表8 所示.表8核心动词抽取的统计结果数据集 抽取数 正确数 错抽数 漏抽数新浪网 1899 1763 136 67东方网 715 691 24 16合计 2614 2454 160 83万齐智等: 基于句法语义依存分析的中文金融事件抽取 5233 期(2) 主语抽取. 主语作为事件的实施者, 其重要性不言而喻. 标注数据集中全部主语抽取和补全主语抽取的各指标统计结果如表9 所示. 其中, 全部主语抽取为所有主语抽取情况, 包含补全主语抽取. 由表9可知, 对于合计数据集而言, 补全主语错抽数占全部主语错抽数的比例高达85.66%, 说明在本文语料中,全部主语错抽的影响主要源于补全主语错抽.表9 主语抽取的统计结果数据集全部主语 补全主语抽取数正确数错抽数漏抽数 抽取数正确数错抽数漏抽数新浪网1579137620348 594 40818 6 11东方网 573 5 1855 22 218 18335 8合计2152 18 94258 70 812 59122 1 19(3) 宾语抽取. 标注数据集中全部宾语抽取和补全宾语抽取的各指标统计结果如表10 所示.表10 宾语抽取的统计结果 ̄ ̄ ̄全部宾语抽取补全宾语抽取救据集抽取数正确数错抽数漏抽数 抽取数正确数错抽数漏抽数新浪网1337 12 11 126 35 537 436 10 1 3东方网 563 5 20 43 19 177 135 42 3合计 1900 17 31 169 54 714 571 143 6由表10 可知, 对于合计数据集而言, 补全宾语错抽数占全部宾语错抽数的比例高达84.62%, 说明在本文语料中, 全部宾语错抽的影响主要源于补全宾语错抽.(4) 事件抽取. 事件抽取包含事件所有属性的抽取, 因此正确抽取是指事件全部属性均抽取正确.标注数据集中事件抽取的各指标统计结果如表11所示.表11 事件抽取的统计结果数据集 抽取数 正确数 不完整数 错抽数 漏抽数新浪网1899 1579 184 136 67东方网 715 627 64 24 16合计 2614 2206 248 160 836.3.2 缺省结构覆盖率为了体现本文所提规则的覆盖情况, 按照第5节描述的缺省结构对人工标注语料进行了统计, 具体如表12 所示. 表中数据为语料中缺省结构出现次数在缺省总数的占比( 单位: %其中,“宾作主”表示事件宾语充当或修饰其他事件主语的情况.表12 缺省结构覆盖率数据集 简单 组合 间接 介词 被动 宾作主新浪网 69. 22 11. 09 12. 81 2. 68 3. 06 1. 15东方网 7 4. 65 8. 45 9. 8 6 2. 82 4. 23 0. 00合计 7 0. 7 9 10. 33 11. 96 2. 72 3. 40 0. 82由表12 可知, 表中6 种缺省结构涵盖了语料所有缺省情况, 本文考虑了前5 种, 其覆盖率合计值达99.18 %.“宾作主”情况仅在新浪网中出现, 覆盖率为1.15%, 说明本文提出的规则涵盖了绝大部分的缺省情况, 覆盖率可以保证.6.3.3 实验评测(1) 核心动词及事件抽取评测结果如表13 所示.表13 核心动词及事件抽取的效果数据集核心动词抽取/% 事件抽取/%准确率 召回率 值 准确率 召回率 值新浪网 92. 84 92. 89 92. 86 83. 15 83. 19 83. 17东方网96. 64 96. 24 96. 44 87. 69 87. 33 87. 51合计 93. 88 93. 81 93. 84 84. 39 84. 33 84. 36由表13 可知, 合计的核心动词抽取的F1 值达93.84%, 验证了按照核心动词链建立规则识别确认事件的有效性. 以上结果主要受益于事件绝大部分由动词触发, 而每个事件是独立的, 在语言学句法结构上均采用并列关系进行事件关联. 本文的核心动词抽取方法遵循了这一特点, 将SSDP树中核心动词进行拆分, 形成SSDP图, 图中i?〇〇z 结点的每个孩子均为核心动词. 然而, 核心动词在抽取过程中还存在一些不足, 如多词性问题, 词性的准确性一方面影响依存句法结构, 另一方面影响核心动词的识别,在一定程度上降低了核心动词抽取的效果, 后期工作可考虑结合动词搭配的论元来确定多词性词语的词性. 另外, 新浪网的F1 值为92.86%, 较东方网的96.44%低了3.58 个百分点, 主要是由两个原因导致的: ①新浪网的新闻标题更偏好于采用大量动词表达,一定程度上降低了识别新闻标题中核心动词的准确率; ②新浪网的新闻标题对正文的概括更为精简, 词汇之间的关联降低, 不利于句法分析.对于事件抽取, 通过F1 值可以发现, 其抽取效果也不错, 合计的F1 值为84.36%, 验证了本文方法对事件抽取的有效性. 但较于核心动词抽取, 因同时添加了正确抽取主语和宾语的要求, F1 值由核心动词抽取的93.84%降至事件抽取的84.36 %, 降低了9.48 个百分点. 核心动词抽取正确时事件抽取错误( 即事件不完整抽取的情况) 的统计结果如表14所示, 其中主语错抽数、 宾语错抽数中都包含了“主宾语均错抽数 针对合计数据集, 核心动词抽取正确时的主语错抽数、 宾语错抽数与不完整数的占比分别为68.95%和46.37%, 说明主语比宾524 计 算机 学 报 2021年语被错抽的可能性更大. 这是因为主语省略较宾语省略更为普遍, 且形式多样化, 规则难以全面覆盖、完全适用.表14 核心动词抽取正确时主语和宾语错抽的统计结果数据集 不完整数 主语错抽数 宾语错抽数 主宾语均错抽数新浪网东方网184641264581342315合计 2 48 171 115 38(2) 主语抽取评测结果如表15 所示. 其中, 合计的全部主语抽取的F1 值达88.26%, 验证了本文方法对于主语抽取的有效性.表15 全部主语及补全主语抽取的效果数据集全部主语抽取/ % 补全主语抽取/%准确率 召回率 值 准确率 召回率 值新浪网东方网87. 1490. 4087. 7090. 728 7. 4290. 5 668. 6983. 9478.0185. 9273.0584. 92合计 88. 01 88. 50 8 8. 2 6 72. 78 80. 30 76. 36同时, 主语抽取的效果严重依赖于核心动词抽取的效果.分析如下: ①如果核心动词抽取正确, 则主语被正确抽取的可能性较大. 例如, 针对合计数据集, 基于表14 可计算得到核心动词抽取正确时的主语错抽数与表8 中的核心动词正确数( 2454) 的占比为6.97%, 即核心动词抽取正确时主语错抽率仅为6.97%; ②如果核心动词抽取错误, 则主语被错抽的概率就要大得多. 例如, 由于核心动词错抽导致主语和宾语错抽的统计结果如表16 所示.表16核心动词错抽导致主语和宾语错抽的统计结果数据集 核心动词错抽数主语错抽数宾语错抽数主宾语均错抽数新浪网136774534东方网241098合计160875442在表16 中, 主语错抽数、宾语错抽数中都包含了“主宾语均错抽数 针对合计数据集, 主语错抽数占核心动词错抽数的比例为54.38%, 即核心动词抽取错误导致的主语错抽率高达54.38%.对于补全主语抽取, 其合计的F1 值为76.36%,验证了本文提出的主语缺省补全规则的有效性. 但相较于其他属性的抽取效果, 补全主语的F1 值最低. 主要源自于如下几个方面:①未考虑利用关联事件的宾语补全缺省主语的情况. 存在利用关联事件中的宾语补全缺省主语的情况, 如语句S8, 宾语“私募基金”作定语补全“规模②主语省略形式多样化. 缺省事件需要补全的主语以多样化的形式处于关联事件中, 给出的规则难以适用于所有情况.③语义依存关系存在错误. 本文借助了结点间语义依存关系, 但对于核心动词间的语义依存关系,SDP工具存在语义依存关系结果分析错误的情况,使得不满足相关规则, 导致抽取错误.另外, 对比两个标注数据集, 补全主语抽取的效果存在差异, 主要是由于新浪网的新闻标题过于精简并采用多动词所致, 凸显了词语多词性问题带来的影响.( 3) 宾语抽取评测结果如表17 所示.由表17 可知, 合计的全部宾语和补全宾语抽取的F1 值分别为90.58 %和85.35%, 验证了本文方法对于宾语及补全宾语抽取的有效性.表17 全部宾语及补全宾语抽取效果数据集全部宾语抽取/% 补全宾语抽取/ %准确率 召回率 值 准确率 召回率 值新浪网90. 58 89. 70 90. 14 81. 19 91. 79 86. 17东方网 92. 36 90. 91 91. 63 76. 27 90. 60 82. 82合计 91. 11 90. 06 90. 58 79. 97 91. 51 85. 35同样, 宾语抽取的效果也是严重依赖于核心动词抽取的效果. 例如, 针对合计数据集, 基于表14 可计算得到核心动词抽取正确时的宾语错抽数与表8中的核心动词正确数(2454) 的占比为4.69%, 即核心动词抽取正确时宾语错抽率仅为4.69%; 基于表16 可计算得到宾语错抽数占核心动词错抽数的比例为33.75%, 即核心动词抽取错误导致的宾语错抽率高达33.75%.相对于主语抽取, 无论是全部还是补全, 宾语抽取的效果均要更好. 由前文叙述可知, 宾语缺省形式较为常规化, 主要由介词和被动语态引起, 其余大部分为含有宾语和无宾语情况( 不及物动词作为核心动词) , 规则容易总结, 且适用性较好, 使得其效果好于主语抽取, 但对标宾语抽取规则本身, 还存在2 点不足: ①被动语态只考虑了“被”字结构, 中文中还存在一些其他表示被动的词语, 如“遭”字结构等;②语义依存关系用于判别介词引发的宾语缺省存在一■定的局限性, 其准确率还有待进一■步提尚.另外, 对于主语或宾语抽取, 其效果除了受核心动词抽取的影响以及与补全主语或补全宾语抽取的效果有关之外, 还会受LTP分词、依存句法分析结果的影响. 标注数据集中包含了部分分词及依存贿轉: 基; 懷滕析爾申纖麟#抽取 52 5 3 期句. 法分析错误的憬况, 对于吩词及依存句法分析正确的数据对象, 本文方法在事件<及各属性上的抽取效果. 均#有一定涯度的提齊* 但中文分飼举身就是一个很具挑战性的开放难題, 需要考虑语言孛特点和调语语义等情况* 有待提出更好时解决方法、针对两个人工标注数据集, 事件及各属性抽取敏果的直规对比分析鐵舉分别如經1¥ 和图17 所示* 其中., 横坐标为攀忤及各屬性下的3种指标, 纵坐标为各指标ft( 单位: 从圈16 和图17 对以看出, 东方两的抽取效莱整体略好于新浪网, 这主.愛受核心动词抽取影响.6.3.4 其他领域抽取效果为了体现本文方法臭有较好的扩展性, 选择对开敢域新闻进行夢件抽取实雜, 本文随机选取新狼网:20:18 年翁菌标癯■0条.: 其中, 人:工标注的事件数、 全部主语数和补全主语数分别齿戚,?、肋4 和12^无棄语缺省情况; 实验抽取的各项指标的统计数据如表 所示.表18新浪新闻中主语补全及事件抽取的统计结果事项 抽取数 正确数 不完整数 错抽数 漏抽数主语补全事件抽取14310004311956853693418由#注数据可知, 补全主语数在全部主语数中的占比为1^铋%, 远低ff财费新闻领域, 且通过标注发现, 缺省结构基本上集中于简单主语缺省? 这是由于领域的特性所戴,财经领域新闻标題大多描述某个公司或企业不同方面的箱: 关_.息i在中文: 表达中.: 食了简输s 隱一个主语在后续相邻语甸的表达中, 无论充当相同成分(:简单缺會》还是作定语修饰成分(:间接缺省5, 常省略. 而开放域新闻常为一个事件的发生如何影响其他事#,单个事件的成分比较健全, 所以缺省数较:少?呙外, 财经领域包含较多数值铺, 即描述事件的具体情况.这使每事件之间存在较多W果关系, 而H果关系中的结果, 有较大一部分是由一个语旬整体所致. 所以 才: 氧领域存存一定的11脅缺省?由此可知,财经颔域妓其他领域*不权存在较多的缺#倩况. 且缺省W形式较齿丰富. 进一步佐证了本文研究财经金融领域的#件抽取及缺省成分补全晷有较大的现实意义,在抽取效果上, 测1平结果如表1&所示.表19 新浪新闻中事件抽取及主语补全的效果事件抽取/% 补全主语抽取/%准确率 召回率值 准确率召回率F1 值89. 2389.1389.18 69.9380.0074.63从表1普与'_表1S 对比可知, 无?是導件抽取述是金鲁.全*有开翁域的敏舉均与食_輕; 域祖当, 且略有槔升, 说明本文方法隹领域扩雇上具有_好的适處性, #棒: 性较强, 对于事■件抽取,F1揸植表13 中提高3*tL01 个百分点, 主荽是喪为领域#业词汇较少, 分词及句法结构分析的结果较好? 在补全主语抽取方面浪:开放域缺省结构筒单_, 其F1 值比識15 擾开了Ugi 令百分点,6. 4 与其他方法的实验对比⑴纖鑛选择本文狀:两个方W幾雜对比: 方法.一龙W: 幾雜DPM和SDP抽取方: 法,验征SSDP组含的有效性;另一方面翁_SRL[LTP][4°]、SRL[Mate]①—SRL方驗'和DMC_f1 4]JRSW1 51和JME:ED71等事件.抽取方法作为对比方法, 验证基于SSDP的事件抽取及基于所港规则的缺省补全方法的优势. 其中, 2 种SRL方法直接给出语句包含#主语、 谮语和宾语,3 种事件抽取方法对窜句包含的词窜迸行触发饲、论: 元和徽元翁色分:餐?誓養说明勝是, 和JMEE方法均聚焦于设计先进方法进行传统事件抽取, 不羼于针5f_fr抽敗中的: 某个特禽W_商儀计的方__, 如①https : //code, google,com/archive/p/mate- tools/526 计 算机 学 报 2021年训练数据不足或篇章级事件等, 因此本文选择这些方法作为基线实验. 这些方法在原文中做了很多论元角色的判断, 但在我们实现相关方法时, 实验标注的数据集中只包含主语、谓语、宾语和其他角色的分类, 仅考察这些方法对事件的主语、谓语和宾语的正确分类效果.另外, 由于语言类别和语料的不同, 本文对相关方法做了以下几点修改: ①ACE2005 语料包含事件类型、实体类型等信息, 在本文实验中将此信息输人为空; ②触发词和论元及角色按照ACE2005 划分的全部类别进行分类, 但本文只对主语、谓语和宾语抽取的效果进行对比.(2) 基线实验数据集及参数设置为了避免DMCNN、JRNN和JMEE等方法因训练数据不足难以发挥其抽取效果, 同时为了进一步验证本文方法在非标题( 长句)、 开放领域数据下的抽取能力, 我们不仅在6.1 节描述的标注数据集上而且在C〇NLL2009 中文语料上进行事件抽取实验. 其中, C〇NLL2009 中文语料分训练集、 验证集和测试集3 部分, 包含的语句数分别为22277 条、1762 条和22 条.在本文标注数据集上, 我们随机选择30%作为测试集, 剩余的作为训练集, 并从训练集中随机选择10%作为验证集. 对于C〇NLL2009, 因测试集太小, 我们随机从训练集中不放回地抽取313 条语句增加至测试集, 即最后确定训练集21964 条、验证集1762 条、测试集335 条. 实验涉及的词向量由W〇rd2Vec?工具在本文2 个数据集上训练得到,词向量维度分别与文献[14]、文献[15]和文献[17]保持一致, W〇rd2 Vec 其余参数的设定标准依据词汇语义相似度. 每条语句分词个数最大设定为100. 对于基线实验模型所需的超参数取值, 采取网格搜索函数GridSearchCV选择最优值, 基于CoNLL2〇〇9的模型超参数最终取值情况如表20 所示.的测试集.另外, 本文规定只有触发词、 论元及论元角色全部正确分类( 仅指事件的主语、 谓语和宾语全部正确, 包括主语和宾语的缺省内容补全) , 才认定为本文的事件抽取正确. 所以, 测试过程分为三步, 首先进行触发词抽取, 然后判断触发词抽取情况, 仅当触发词抽取正确时才启动论元抽取, 最后依据二者的抽取情况进行综合计算, 得出最终抽取结果?( 3) 对比分析结果DP和SDP方法分别分析语句的句法和语义依存情况. 为了使实验具有可比性和说服力, 我们假设: ①DP和SDP方法均按照核心动词链的建立和调整规则进行扩展; ②两种方法都采取缺省补全规则进行属性查询补充; ③因为介词和被动语态引起的缺省, 需要结合语义分析结果进行SSDP树结构调整, 所以DP方法对上述两种缺省不做调整;④DP方法不建立事件间语义关联, 对于任何缺省均按补全规则查询.由于SRL方法给出了论元角色标注结果, 因此可直接通过标注的角色获取事件ET各属性.在新浪网标注数据集上, 5 种方法抽取的统计数据如表21 所示. 由于DMCNN、 JRNN和JMEE方法都是通过语句中词的分类直接判断抽取效果,因此在表21 中未给出这3 种方法的统计结果.表21 新浪网上事件抽取的统计结果抽取方法抽取数 正确数 不完整数 错抽数SSDP 1899 1579 242DP 1892 1441 371SDP 1759655 869SRL[LTP]1949 898 696SRL[Mat e]2533 696 8282353551009漏抽数37 430 413 9在新浪网标注数据集上, 8 种方法抽取的准确率、召回率和F1 值如表22 和图18 所示. 其中, 图18中横坐标为3 种评测指标下的事件抽取的8 种方法, 纵坐标为各指标值(单位:表20基于CONIX2009的超参数取值情况超参数bat ch_sizeepochsdropout act ivat ionlearn一rat eDMCNN64100. 2relu0. 010JRNN3250. 2tanh0. 001JMEE3280. 5tanh0. 001在实验测试方面, C〇NLL2009 未全部标注本文提出的缺省补全信息, 如间接缺省和组合缺省等.因此, 我们按照前述的标注标准对测试集进行了补充标注. 在C〇NLL2009 上的测评均基于诙补充标注表22 新浪网上事件抽取的效果对比抽取方法 ̄ ̄SSDP ̄ ̄DPSDPSRL[LTP]SRL[Mate]DMCNNJRNNJMEEFI值04①https : //code,google.com/p/word2vec/万齐智等: 基于句法语义依存分析的中文金融事件抽取 5272010°准确率图1 9C〇NLL2009召回率F1值上4 种方法的事件抽取效果对比由表22、 表23 可知, 针对C〇NLL2009 中文语料, 相较于财经新闻标题语料, 虽然SSDP方法的事件抽取效果出现了较大幅度的降低, DMCNN、JRNN和JMEE方法的事件抽取效果均有一定幅度的提高. 但是,SSDP方法的F1 值仍高于DMCNN、JRNI^和JMEE方濃14. 雜 1S.0'4个霄费点,逋过分析, SSDP方法效果降低的主要原窗包績? ①CoNLLg-008f文培料中_长甸木利I3mS结构分析.关键的核心动词结构错误將导致其包含的事件无法识. 别; ②长句不利于缺省补全, 长旬覆盖的笱构驾杂且词: 语■多增大了补全的难度; ③出现部分长句整体做为宾语的结构, 菌宾语在: 珞言学绪构上不存在COO并列关系扩,膨本文未考虑此情况,敦使长旬宾舊包含的大量*件无法识别, 同时, DMCNNJR顧和JMEE方法效果提高的原因可能是増加了财练数据所致?霍验緒果充分说朋,在:Ik融领域的'中文奮件抽取及事件成分缺失补全:#廣:, 牟文方法具有明显的优势和较强的适应?性.7 总结与展望参件抽取对宏观经挤趋势预测具有重醫意义,目曾事件抽取侧重于抽取分类的正确性, 未结含11用霉求迸行分析, 难以较好地应用于特定领域.本文针对金融4lf域财絰新闻标龜奥据, 归纳了事件=漏抽、 事件成分缺餐、 事件成: 分抽: 取镨误及事件堪义放大筹4种现象, 提出了句法和軎义依存分析相结合的事件抽敗框架—SSDP 菌, 首先, 利用准确率召回率FI值新浪; 网土8种#锻的*件抽取德果劾比表23C〇NLL2009 上事件抽取的效果对比嫌取方■ 准:确率召回率P1 値SSDP?. 0865. 16fS,20DMIlMf氣. M43.&51, isJRNI|5T,S?>48. 4852.fSJMEE?.91-4&0555. 22虜'表gr和厲is可知;, 本文方法明显优于其他方法. 这是因为SSDP结脅了句法和语义双重结构特征.因此r添加语义关联、调整优化DP树|'可提高#件的识别能力, 迸而提升属性抽取效果..F1偉上., : D; P、 Si)P比SSDP分别低了7?|、4T.iS 个W#点. DP主要是H为事件间缺乏语义关联, 没有雄据其笑联类型进行补全机制判断. 即未考虑事件间语义, 而直接采用句法结构迸行缺省补全5导致效率有所下降.. 另. 外, DP的_F1 值较高, 说明了DP句祛结构分析效果不错, 也间镔验怔了该工具被普遍采用的威因. 而SDP厕主荽;S由于语义依存镇构分析效果不佳所导致的, 周时不支持自定义词典的添加, 也遽一步增加了爾r间语义依存的错误率5 使得抽取错模数急剧壻加.SRL[LTPBTSRL[Mate]的抽取效果樣差, _F1值分别.为4.6, 6&%和 56%. 这主粟是受核心动词识别效果的影响, 窗为中文存在大量多词性的动词sSRL基本将所有动词均识别为语句请语^ 导致事件错抽数较高, 从而大幅降低T抽取敏果.关于: DMCNWJRNM和JMEE方法猶抽取敏果, 可认两个方面探讨s—方,面》 对比SSDP* 其抽取氣舉不太麗 减少了8191?m62 个首#歲rB—方面,: 翁比旗: 文雜[14-15,17],事件抽取敏果在总体上与原文中给出的结果相当,但均有所降低.主寒廣B包括f ①本文语料('新闻标题)较短*请旬含有的上下文信息有限, 深度学习难以提取较多有用?信息r ②本文语料无事件类型和实体类型等信息, 输A魯|JE减少I: ③M文来考'虑缺脅补全詹況;④中文需要分词, 而分M存在一定错误* 苘时也:会降低依存句法分析效果; ⑤供模型爾练的可用语料偏少?.CoSLL2〇〇g 中文篑: 料上》: 4种方翁齒事件抽取效果如表錄_圈19 所示.3: 期oooooooo098765431%/1000000000009876543211%/_遊靼硃图528 计 算机 学 报 2021年LTP工具获得语句的依存句法分析结果, 并将其转换为DP树; 其次, 归纳核心动词链的建立规则, 解决事件漏抽问题; 第三, 引人事件间语义依存关系,构建SSDP树; 第四, 根据核心动词链、 介词结构和被动语态结构调整SSDP树, 形成SSDP图; 最后,基于SSDP图, 建立事件成分缺失补全规则, 同时抽取中文金融事件.下一步的研究工作主要包含:(1) 通过LTP进行依存句法分析时发现, 多词性词语的句法结构分析效果较差, 如何利用论元信息进一步确定多词性词语在具体语句中的词性, 是有待克服的一个障碍.(2) 本文抽取的事件结构, 只考虑了ET三元组, 抽取哪些信息将对股市趋势预测等应用有价值,是我们感兴趣的工作.(3) 由于SSDP方法中用到的事件间语义依存分析较为简单、粒度较粗, 如何制定针对财经领域金融事件间语义关联, 将是未来的工作之一.致 谢 本文的研究工作利用了哈尔滨工业大学社会计算信息检索研究中心免费开放的LTP平台、哈尔滨工业大学联合科大讯飞公司共同推出的讯飞开放平台, 在此一并表示感请! 最后, 由衷地感请论文评审专家和编辑对本文所提出的修改建议!参 考 文 献[1]DingX, ZhangY?LiuT?et al. Usi ngst ruct uredeventst opredi ctstockpricemovement: Anempi ricalinvest igation//Proceedingsofthe2014ConferenceonEmpiricalMethodsinNat uralLanguageProcessing(EMNLP) . Doha, Qatar,2014:1415 14 25[2]DingX, ZhangY, Li u T, et al. Deeplearningforeventdrivenstockpredict ion//Proceedingsofthe24thInternat ionalJointConf erenceonArt if icialI ntelligence( IJCAI ) . BuenosAires?Argenti na,2015: 2327 2333[3]DingX,ZhangY, LiuT,etal . Knowledgedriveneventembeddingf orstockprediction//Proceedingsofthe26thInternat ionalConferenceonComputat ionalLinguist ics :TechnicalPapers( COLING) . Osaka,Japan, 2016: 21332142[4]XieB,PassonneauR, WuL,etal. Semant icframestopredictstockpricemovement//Proceedingsofthe5 1stAnnualMeet ingoft heAssociationf orComput at ionalLinguist ics( ACL). Sofia , Bulgari a, 2013: 873 883[5]AguilarJ , BellerC, McNameeP,etal . Acomparisonof theeventsandrel at ionsacrossACE, ERE,TACKBP, andFrameNet annot ationstandards//Proceedingsof the2ndWorkshoponEVENTS:Definit ion,Det ection,Coreference,andRepresentat ion. Balt imore,Maryland, 2014: 45 53[6]JacobsG?Lef everE?I l ost eV. Economiceventdetect ionincompanyspecificnewstext//Proceedingsofthe1stWorkshoponEconomi csandNaturalLanguageProcessing( ACL) .Mel bourne, Australia,2018; 1 10[7]YangI I, ChenY, LiuK,etal. DCFEE; AdocumentlevelChinesefinancialeventext ract ionsyst embasedonautomaticallylabeledtrainingdata//Proceedingsofthe56 thAnnualMeetingoftheAssociat ionf orComput ationalLi nguist icsSyst emDemonst rations( ACL). Melbourne, Aust ralia,2018: 1 6[8]LiPengFeng,ZhouGuo Dong,ZhuQiao Mi ng. Semant icsbasedjoint modelof Chineseevent t riggerext ractio n. Journalof Software,2016 ,27(2) : 28〇 2 94(inChinese)( 李培峰, 周国栋, 朱巧明. 基于语义的中文事件触发词抽取联合模型. 软件学报, 20 16,27( 2): 280 294)[9]YehCL?ChenYC. Zeroanaphoraresol ut ioninChinesewit hshallowparsing. JournalofChineseLanguageandComput ing, 2007 , 17(1): 41 56[10]LiP, ZhuQ, ZhouG. Argumentinf erencefromrelevanteventmentio nsinChineseargumentext ract ion//Proceedingsof t he51stAnnualMeet ingoft heAssociat ionforComput ationalLinguist ics( ACL) . Sofi a, Bulgaria, 2013: 1477 1487[11]TangWenWu,GuoYi , XuYong Bin, etal. Thedef aul tcommonobject ident ificat ionbasedonconditionrandomfields. Journal ofChineseInformationProcessing, 2016? 30 (6) :208 214(inChinese)( 唐文武, 过戈, 徐永斌等. 基于条件随机场的评价对象缺省识别. 中文信息学报,2016,30(6):208 214)[12]ChanYS?FaschingJ?QiuI I ,et al. Rapidcustomizat ionforeventext raction//Proceedingsof the57thAnnualMeet ingoftheAssociationf orComput ationalLingui stics: Syst emDemo nst rations( ACL) . Florence ,It aly, 20 19: 31 36[13]l i eRui Fang, DuanShao Yang. JointChineseevent ext ract ionbasedmult i tasklearning. Journalof Sof tware, 2019 , 30 ( 4 ) :10 15 1030( inChinese)(贺瑞芳, 段绍杨. 基于多任务学习的中文事件抽取联合模型. 软件学报, 20 19,30 ( 4): 10 15 1030)[14]ChenY?XuL? LiuK,et al. Eventext ract ionviadynamicmultipoolingconvolutionalneuralnet works//Proceedingsofthe53 rdAnnualMeet ingof t heAssociationforComput at ionalLi nguist ics( ACL). Beijing,China ,20 15; 167 176[15]NguyenTI I , ChoK?GrishmanR. Joint event extracti on viarecurrentneuralnetworks//Proceedingsofthe2016Conf erenceoftheNorthAmericanChapteroftheAssociat ionforComput at ionalLinguisti cs: HumanLanguageTechnologi es(NAACLI ILT) . SanDiego , Calif ornia,2016: 300 30 9[16]ShaL?QianF, ChangB,et al. Jointlyext ract ingeventtriggersandargumentsbydependencybridgeRNNandtensorbasedargumentint eraction//Proceedi ngsof the32ndAAAIConf erenceonArti ficialInt elligence( AAAI) . NewOrl eans, USA, 2018: 5 916 5923万齐智等: 基于句法语义依存分析的中文金融事件抽取 5293 期[17]LiuX, LuoZ, HuangI I . Joi ntlymultipleeventsext ractionviaatt ent ionbased graphinf ormationaggregat ion/ /Proceedingsofthe2018ConferenceonEmpiricalMethodsinNat uralLanguageProcessing( EMNLP). Brussels,Belgium, 2018:1247 12 56[18]ChenY, YangI I , LiuK, et al. Col lect iveevent detect ionviaahierarchicalandbiastaggingnetworkswithgat edmult i levelatt ent ionmechanisms//Proceedingsofthe2018ConferenceonEmpiricalMethodsinNat uralLanguageProcessi ng( EMNLP) . Brussels, Belgium,2018; 1267 1276[19]ArakiJ , MitamuraT. Opendomaineventdetect ionusi ngdist antsupervision//Proceedingsofthe27thInt ernat ionalConf erenceonComput at ionalLinguistics( COLING) . Sant aFe, USA, 2018: 878 891[20]LiuS, ChengR, YuXM,et al. Exploi tingcont ext ualinformationviadynamic memorynet workforevent det ection//Proceedingsoft he2018Conf erenceonEmpiricalMet hodsinNaturalLanguageProcessing(EMNLP). Brussels, Belgium,2018; 1030 1035[21]HongY,ZhouW,ZhangJ,et al. Sel f regulat ion: Employingagenerat iveadversarialnet worktoimproveeventdet ection//Proceedingsofthe56thAnnualMeet ingof theAssociationforComputationalLinguist ics( ACL) . Melbourne?Aust ralia,2018; 5 15 526[22]GuanC?ChengY? ZhaoI I. Semant icrolelabelingwi thassociat edmemorynetwork/ /Proceedingsofthe2019Conferenceoft heNort hAmericanChapterof theAssociat ionforComputationalLinguist ics: HumanLanguageTechnologies(NAACLI ILT) . Minneapolis , Mi nnesota,2019; 3361 3371[23]LiZ, l ieS, ZhaoI I ?etal. Dependencyorspan,endto endunif ormsemant icrolelabeling/ /Proceedingsofthe33rdAAAI ConferenceonArt ificialInt elligence( AAAI) . Honolulu,Hawaii,2019; 67306737[24]XiaQ, LiZ,ZhangM?etal. Synt ax awareneuralsemanti crolelabeling//Proceedingsofthe33rdAAAI ConferenceonArtificialIntelligence( AAAI ) . Honolulu, Hawaii , 2019:7305 73 13[25]l i eS, LiZ,ZhaoI I,et al. Syntaxforsemant icrolelabeling,tobe, ornot t obe//Proceedingsoft he56thAnnualMeet ingoft heAssociationforComput ationalLinguist ics( ACL).Melbourne,Aust rali a, 2018; 20 61 2071[26]l i eL, LeeK, Levy0, etal . Jointlypredict ingpredicat esandargumentsinneuralsemant icrolel abeling//Proceedingsofthe5 6thAnnualMeet ingoftheAssociationf orComput at ionalLi nguist ics( ACL) . Melbourne, Aust ralia, 2018:364369[27]MehatSV,LeeJY, CarbonellJ. Towardssemisupervisedlearni ngf ordeepsemant icrolelabeli ng//Proceedingsof the2018ConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP). Brussels,Belgium,2018; 4 958 4963[28]TanZ, WangM, XieJ ,etal. Deepsemanticrolelabelingwit hself at tention//Proceedingsof t he32ndAAAI ConferenceonArt ificialInt el ligence( AAAI ). NewOrleans, USA,2018;49294936[29]l i eL, LeeK, LewisM? etal. Deepsemanti crolelabeling:Whatworksand what?snext//Proceedings of the5 5th AnnualMeeti ngoft heAssociat ionfo rComput at ionalLinguist ics( ACL) . Vancouver,Canada,2017: 47 3 483[30]LiZ, l i eS, CaiJ , etal. Auni fiedsynt ax awaref rameworkforsemant icrole labeling//Proceedi ngsof the2018ConferenceonEmpi ricalMethodsinNat uralLanguageProcessing(EMNLP).Brussels, Belgium,2018: 2401 24 11[31]KasaiJ, FriedmanD?FrankR. Syntax awareneuralsemanticrolelabelingwith supert ags//Proceedings ofthe2019ConferenceoftheNorthAmericanChapteroftheAssociat ionforComput ationalLinguistics: HumanLanguageTechnologies(NAACLI ILT) . Minneapolis, Minnesot a, 2019: 701 709[32]LiuX, I luangI I , ZhangY. Opendomaineventextractionusingneurallat entvariablemodels//Proceedingsof t he57t hAnnualMeet ingoftheAssociationforComput ationalLi nguist ics( ACL). Florence ,It aly, 20 19: 2860 2871[33]ZongCheng Qing. St atisti calNat uralLanguageProcessing.2ndEdition. Beijing: TsinghuaUniversityPress, 2013(inChinese)(宗成庆. 统计自然语言处理. 第2 版. 北京: 清华大学出版社,2013)[34]CheW, LiZ, LiuT. LTP; AChi neselanguaget echnologyplatf orm//Proceedingsofthe23rdInt ernat ionalConferenceonComput ationalLinguist ics( COLING) . Beijing,China,2010; 1316[35]LiJin Xi. TheNewChineseGrammar. 1955Edition. Beijing;TheCommercialPress, 1955(inChinese)( 黎锦熙. 新著国语文法. 1955 年版.北京: 商务印书馆,1955)[36]LvShu Xiang. Essent ialsofChineseGrammar. 1982Edition.Beijing; TheCommercialPress, 1982(inChinese)( 吕叔湘. 中国文法要略. 1982 年版. 北京: 商务印书馆,1982)[37]WangLi. ModernChineseGrammar. 1985Edit ion. Beijing:TheCommercialPress, 1985(inChinese)( 王力. 中国现代语法. 1985 年版. 北京: 商务印书馆,1985)[38]QianShi Feng. Summaryofomissiondefini tion. JournalofLanguageandLit eratureStudi es, 2007 ,(1) : 1 19 122(inChinese)(钱世凤.省略界定综述. 语文学刊: 髙数版, 2007 ,(1) :119 122)[39]XueN?XiaF?I l uangS?et al. Thebracket ingguidelinesforthePennChineseTreeBank(3. 0). IRCSTechnicalReportSeries,2000:3 9[40]GuoJ, CheW, WangI I,etal. Aunifi edarchit ectureforsemanticrolelabelingandrelationclassification//Proceedingsof the26thInt ernat ionalConferenceonComput ationalLi nguist ics : TechnicalPapers( COLING) . Osaka,Japan,20 16: 1264 12 7453 0 计 算机 学 报 2021年WANQi-Zhi,Ph.D.candidate,l ecturer.Hiscurrentresearchinterestsincludeinformationextraction,natural一l anguageprocessinganddatamining.BackgroundAsasub-taskofinformationextraction,eventextractionpl aysanimportantrol einvariousNLPappl icationsincl udi ngstockpredictionandinformationretrieval.EventnestingandelementdefaultsarecommoninChinese.Inthispaper,weaddresstwoproblems , determiningthenumberofeventscontainedinaChinesesentenceandextractingthestructuredevent,whichisatripl econtainingasubject,apredicate,andanobject.Themainresearchforstructuredeventextractionfocusesonextractingal lthepropertiesofthetripl e,butdon^tobtainthedefaultcomponentofevent.Inadditiontothis, mostofotherexistingresearcheffortshavebeenputontheeventextraction,buttheypaymoreattentiononthetypecorrectnessoftriggersandarguments, whichnotconsidertothecompletenessofeventsincludingthenumberofeventsinasentenceandthepropertyinanevent.Infinancialnewsheadl ines,therearealargenumberofverbsandcomponentdefaul ts,whichcausetheeventtol eakandthepropertiesofextractedeventtobeincomplete.Furthermore,theeventtypesareonlyforstandardWANChang-Xuan,Ph.D.,professor,Ph.D.supervisor.HiscurrentresearchinterestsincludeWebdatamanagement,sentimentanalysis, dataminingandinformationretrieval.HURong,M.S.,assistantresearcher.Hercurrentresearchinterestsincludeinformationextraction,naturall anguageprocessingandbigdataanalysis.LIUDe-Xi, Ph.D. ,professor, Ph.D.supervisor.Hiscurrentresearchinterestsincludenatural l anguageprocessing,i nformationretrievalandWebdatamanagement.eventtypes , suchasACE,whichisnotexactsuitabl eforfinanceandeconomics.Ourworknotonlyextractsall theeventsinasentence,butalsocompletesthedefaultcomponents, whichcanimprovetheirusagevalue, suchasforstockmarkettrendforecasts.InconsiderationofthecharacteristicsofChinesefinancialnewsheadlines, wecapturethesyntacticrelationshipsbetweenwordsandsummarizetherulesofcoreverbchainformation,whi chcansol vetheprobl emofeventl eak.Inaddition,weaddthesemanticassociationsbetweeneventstoformtheSSDPtreeandadjustSSDPstructuretobuildtheSSDPgraph.Atl ast,wepresentfourdefaultstructures , andproposecorrespondingcompletionrules.Tothebestofourknowledge,ourworkisthefirstsol utiontowardsthisprobl em.TheresearchispartiallysupportedbytheNationalNaturalScienceFoundationofChinaunderGrantNos.6 19721 84,61 56 2032and61762042,theScience&TechnologyProjectoftheDepartmentofEducationofJiangxiProvinceunderGrantNos.GJJ1801 98andGJJ18025 2. |
[返回] |