基于句法语义依存分析的中文金融事件抽取 - 博士论文 - 一起赢论文辅导网--专业代写代发SCI、EI、核心期刊、代写MBA、硕博毕业论文。QQ910330594

欢迎访问一起赢论文辅导网

加入收藏 | 设为主页 | 联系我们

本站动态

联系我们

QQ：3949358033

微信：paperwinner

工作时间：9:00-24:00

成功案例

博士论文

当前位置：首页 > 博士论文

基于句法语义依存分析的中文金融事件抽取

来源：一起赢论文网日期：2021-10-04 浏览数：1709 【字体：大中小】

第４４卷第３期２０２１年３月计算机学报ＣＨＩＮＥＳＥＪＯＵＲＮＡＬＯＦＣＯＭＰＵＴＥＲＳＶｏｌ．４４Ｎｏ． ３Ｍａｒ． ２０２１基于句法语义依存分析的中文金融事件抽取万齐智”’ ３）万常选＾胡蓉２） ’ ３）刘德喜＾１：）（江西财经大学信息管理学院南昌３３００３２）２）（江西财经大学软件与物联网工程学院南昌３３００３２）３）（江西财经大学数据与知识工程江西省髙校重点实验室南昌３３００１３）摘要事件抽取在自然语言处理应用中扮演着重要的角色，如股票市场趋势预测．传统事件抽取较为关注触发词和论元所属类型的正确性，较少地结合应用需求去分析研究事件抽取效果及使用价值．在财经领域，事件作用对象及动作是关注的重点．因此，本文聚焦于金融事件，抽取三元组事件ＥＴＣＳＷｋ山〇ｂ）．在中文财经新闻中，存在大量事件嵌套和成分共享等现象，致使易出现事件漏抽和事件成分缺失的情况．为了解决这些问题，本文建立一个句法和语义依存分析相结合的中文事件抽取框架，归纳了４种常见缺省结构，并设计相应的补全规则．首先，基于句法依存树，分析动词词法和句法结构，建立核心动词链，使得每个核心动词对应一个事件，解决事件漏抽问题．然后，在句法依存树的基础上添加语义依存关系，建立事件间语义关联，得到句法语义依存分析（ＳｙｎｔａｃｔｉｃＳｅｍａｎｔｉｃＤｅｐｅｎｄｅｎｃｙＰａｒｓｉｎｇ，ＳＳＤＰ）树．第三，调整ＳＳＤＰ树，优化句法结构，形成ＳＳＤＰ图，使得同等句法结构的词结点处于相同层级，为后续事件抽取提供途径．第四，归纳４种常见缺省结构，设计相应补全规则，解决事件成分缺失问题．最后，在中文财经新闻标题和Ｃ〇ＮＬＬ２００９中文语料上进行详细的实验测试，实验结果表明该方法是有效的．关键词中文事件抽取；核心动词链；句法语义依存分析图；事件语义关联；缺省补全中图法分类号ＴＰ３１１ＤＯＩ号１０．１１８９７／ＳＰ．Ｊ．１０１６．２０２１．００５０８ＣｈｉｎｅｓｅＦｉｎａｎｃｉａｌＥｖｅｎｔＥｘｔｒａｃｔｉｏｎＢａｓｅｏｎＳｙｎｔａｃｔｉｃａｎｄＳｅｍａｎｔｉｃＤｅｐｅｎｄｅｎｃｙＰａｒｓｉｎｇＷＡＮＱｉＺｈｉ１），３）ＷＡＮＣｈａｎｇＸｕａｎ１），３）ＨＵＲｏｎｇ２），３）ＬＩＵＤｅＸｉ１），３）＾｛Ｓｃｈｏｏｌ ｏｆＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ＾ ＪｉａｎｇｘｉＵｎｉｖｅｒｓｉｔｙｏｆＦｉｎａｎｃｅａｎｄＥｃｏｎｏｍｉｃｓ＾Ｎａｎｃｈａｎｇ３３００３２）２）｛ＳｃｈｏｏｌｏｆＳｏｆｔｗａｒｅａｎｄＩｎｉｅｒｎｅｉｏｆＴｈｉｎｇｓＥｎｇｉｎｅｅｒｉｎｇ？Ｊｉａｎｇｘｉ ＵｎｉｖｅｒｓｉｔｙｏｆＦｉｎａｎｃｅａｎｄＥｃｏｎｏｍｉｃｓ？Ｎａｎｃｈａｎｇ３３００３２）３） （ＪｉａｎｇｘｉＫｅｙＬａｂｏｒａｔｏｒｙｏｆＤａｔａａｎｄＫｎｏｗｌｅｄｇｅＥｎｇｉｎｅｅｒｉｎｇ？ＪｉａｎｇｘｉＵｎｉｖｅｒｓｉｔｙｏｆＦｉｎａｎｃｅａｎｄＥｃｏｎｏｍｉｃｓ？Ｎａｎｃｈａｎｇ３３００１３）ＡｂｓｔｒａｃｔＡｓａｓｕｂｔａｓｋｏｆｉｎｆｏｒｍａｔｉｏｎｅｘｔｒａｃｔｉｏｎ，ｅｖｅｎｔｅｘｔｒａｃｔｉｏｎｐｌａｙｓａｎｉｍｐｏｒｔａｎｔｒｏｌｅｉｎｎａｔｕｒｅｌａｎｇｕａｇｅｐｒｏｃｅｓｓａｐｐｌｉｃａｔｉｏｎｓ，ｓｕｃｈａｓｓｔｏｃｋｍａｒｋｅｔｔｒｅｎｄｆｏｒｅｃａｓｔ，ｗｈｉｃｈｃａｎｐｒｏｖｉｄｅｓｔｒｏｎｇｃｌｕｅｓｆｏｒｅｖｅｎｔｓｕｓｅｒｓ，ｅ．ｇ． ｉｎｖｅｓｔｏｒｓ，ｍａｎａｇｅｒｓａｎｄｇｏｖｅｒｎｍｅｎｔ，ｔｏａｎａｌｙｚｅｔｈｅｍａｒｋｅｔａｎｄｍａｋｅｄｅｃｉｓｉｏｎｓ． Ａｔｐｒｅｓｅｎｔ，ｍｏｓｔｏｆｔｈｅｓｔｕｄｉｅｓａｂｏｕｔｅｖｅｎｔｅｘｔｒａｃｔｉｏｎｐａｙｍｏｒｅａｔｔｅｎｔｉｏｎｔｏｔｈｅｔｙｐｅｃｏｒｒｅｃｔｎｅｓｓｏｆｔｒｉｇｇｅｒｓａｎｄａｒｇｕｍｅｎｔｓ，ａｎｄｎｏｔｃｏｎｓｉｄｅｒｔｈｅｅｆｆｅｃｔａｎｄｖａｌｕｅｏｆｅｖｅｎｔｅｘｔｒａｃｔｉｏｎｂａｓｅｄｏｎａｐｐｌｉｃａｔｉｏｎｒｅｑｕｉｒｅｍｅｎｔｓ．Ｗｅｃａｌｌｔｈｉｓｔｙｐｅｏｆｅｖｅｎｔｅｘｔｒａｃｔｉｏｎｔｒａｄｉｔｉｏｎａｌｅｖｅｎｔｅｘｔｒａｃｔｉｏｎ．Ｔｈｅｅｖｅｎｔｔｙｐｅｓａｎｄｓｔａｎｄａｒｄｓｉｎｔｒａｄｉｔｉｏｎａｌ ｅｖｅｎｔｅｘｔｒａｃｔｉｏｎａｒｅｄｅｒｉｖｅｄｆｒｏｍＡＣＥ２００５ｃｏｎｔａｉｎｉｎｇ８ｃａｔｅｇｏｒｉｅｓａｎｄ３３ｓｕｂｃａｔｅｇｏｒｉｅｓ，ＫＢＰ２０１５ａｎｄＥＲＥ，ｅｔａｌ．Ｈｏｗｅｖｅｒ，ｔｈｅｒｅａｒｅｓｏｍｅｌｉｍｉｔａｔｉｏｎｓｉｎａｐｐｌｉｃａｔｉｏｎｏｆｔｈｅｍｔｏｅｖｅｎｔｅｘｔｒａｃｔｉｏｎｉｎｓｐｅｃｉｆｉｃｆｉｎａｎｃｉａｌｄｏｍａｉｎ．Ｆｏｒｅｘａｍｐｌｅ，ｔｈｅｒｅｉｓｎｏｔｔｈｅｏｖｅｒｗｅｉｇｈｔｅｖｅｎｔｔｙｐｅｉｎＡＣＥ２００５，ｗｈｉｃｈｉｓａｓｐｅｃｉａｌｂｅｈａｖｉｏｒｉｎｔｈｅｆｉｎａｎｃｉａｌ收稿日期：２０１９０９１０；在线发布日期：２０２００３０１．本课题得到国家自然科学基金项目（６１９７２１８４，６１５６２０３２，６１７６２０４２）、江西省教育厅科学技术研究项目（ＧＪＪ１８０１９８，ＧＪＪ１８０２５２）资助．万齐智，博士研究生，讲师，中国计算机学会（ＣＣＦ）会员，主要研究方向为信息抽取、自然语言处理、数据挖掘．Ｅｍａｉｌ： ｗａｎｑｉｚｈｉｌ００６＠１６３． ｃｏｍ．万常选（通信作者），博士，教授，博士生导师，中国计算机学会（ＣＣＦ）杰出会员，主要研究领域为Ｗｅｂ数据管理、情感分析、数据挖掘、信息检索．Ｅｍａｉｌ： ｗａｎｃｈａｎｇｘｕａｎ＠２６３． ｎｅｔ．胡蓉，硕士，助理研究员，主要研究方向为信息抽取、自然语言处理、大数据分析．刘德喜，博士，教授，博士生导师，中国计算机学会（ＣＣＦ）髙级会员，主要研究领域为自然语言处理、信息检索、Ｗｅｂ数据管理．Ｅｍａｉｌ： ｄｅｘｉ． ｌｉｕ＠１６３．ｃｏｍ．３期万齐智等：基于句法语义依存分析的中文金融事件抽取５０９ｄｏｍａｉｎ． Ｉｎｔｈｉｓｐａｐｅｒ，ｗｅｆｏｃｕｓｏｎｔｈｅｆｉｎａｎｃｉａｌｎｅｗｓａｎｄｅｘｔｒａｃｔｏｐｅｎｅｖｅｎｔｓｗｉｔｈｏｕｔｔｙｐｅｓ．Ｉｎｔｈｅｆｉｅｌｄｏｆｆｉｎａｎｃｅａｎｄｅｃｏｎｏｍｉｃｓ，ｍｏｓｔｅｖｅｎｔｕｓｅｒｓａｒｅｍｏｒｅｃｏｎｃｅｒｎｅｄｗｉｔｈｔｈｅｏｂｊｅｃｔｓａｎｄａｃｔｉｏｎｓｔｈａｔｅｖｅｎｔｓａｆｆｅｃｔ．Ｔｈｅｒｅｆｏｒｅ，ｃｏｍｂｉｎｅｄｗｉｔｈｔｈｅａｐｐｌｉｃａｔｉｏｎｒｅｑｕｉｒｅｍｅｎｔ，ｗｅｐｒｏｐｏｓｅｔｏｅｘｔｒａｃｔｔｈｅｆｉｎａｎｃｉａｌｅｖｅｎｔＥＴ （Ｓｕｂ，Ｆｒｅｄ，Ｏｂｊ），ｗｈｅｒｅＳｕｂ，ＦｒｅｄａｎｄＯｂｊｒｅｐｒｅｓｅｎｔｓｕｂｊｅｃｔ，ｐｒｅｄｉｃａｔｅａｎｄｏｂｊｅｃｔｒｅｓｐｅｃｔｉｖｅｌｙ．Ｈｏｗｅｖｅｒ，Ｃｈｉｎｅｓｅｆｉｎａｎｃｉａｌｎｅｗｓｇｅｎｅｒａｌｌｙｓｕｆｆｅｒｓｆｒｏｍｔｈｅｅｖｅｎｔｎｅｓｔｉｎｇａｎｄｃｏｍｐｏｎｅｎｔｄｅｆａｕｌｔｐｒｏｂｌｅｍ，ｗｈｉｃｈｒｅｓｕｌｔｉｎｅｖｅｎｔｏｍｉｓｓｉｏｎａｎｄｋｅｙｅｌｅｍｅｎｔｍｉｓｓｉｎｇｏｆｅｖｅｎｔｓ． Ｔｏｔａｃｋｌｅｔｈｉｓｉｓｓｕｅ，ｗｉｔｈｔｈｅｅｘｐｒｅｓｓｉｏｎｈａｂｉｔｓａｎｄｃｈａｒａｃｔｅｒｉｓｔｉｃｓｏｆＣｈｉｎｅｓｅｌｉｎｇｕｉｓｔｉｃｓ，ｗｅｂｕｉｌｄａＣｈｉｎｅｓｅｅｖｅｎｔｅｘｔｒａｃｔｉｏｎｆｒａｍｅｗｏｒｋｂａｓｅｄｏｎｓｙｎｔａｃｔｉｃａｎｄｓｅｍａｎｔｉｃｄｅｐｅｎｄｅｎｃｙｐａｒｓｉｎｇ．Ｔｈｅｎｓｕｍｍａｒｉｚｅｆｏｕｒｃｏｍｍｏｎｄｅｆａｕｌｔｓｔｒｕｃｔｕｒｅｓａｎｄｄｅｓｉｇｎｃｏｒｒｅｓｐｏｎｄｉｎｇｃｏｍｐｌｅｔｉｏｎｒｕｌｅｓ．Ｉｎｐａｒｔｉｃｕｌａｒ，ａｔｔｈｅｂｅｇｉｎｎｉｎｇｏｆｔｈｉｓｐａｐｅｒ，ｗｅｓｕｍｍａｒｉｚｅｆｏｕｒｐｒｏｍｉｎｅｎｔｐｈｅｎｏｍｅｎａｉｎｔｈｅｅｘｔｒａｃｔｉｏｎｏｆｅｖｅｎｔｓｆｒｏｍｔｈｅｈｅａｄｌｉｎｅｓｏｆｆｉｎａｎｃｉａｌｎｅｗｓ，ａｎｄｅｘｐｌｏｒｅｔｈｅｃａｕｓｅｏｆｔｈｅｓｅｐｒｏｂｌｅｍｓ，ｎｏｉｎｄｅｐｔｈａｎａｌｙｚｉｎｇｔｈｅｒｅｌｅｖａｎｃｅｏｆｓｙｎｔａｃｔｉｃａｎｄｓｅｍａｎｔｉｃｓｔｒｕｃｔｕｒｅｏｒｌａｃｋｏｆｉｔ．Ａｆｔｅｒｔｈａｔ，ｗｅｅｍｐｌｏｙｔｈｅｓｙｎｔａｃｔｉｃｄｅｐｅｎｄｅｎｃｙｐａｒｓｉｎｇｔｒｅｅａｎｄｌｅｘｉｃａｌ ｓｔｒｕｃｔｕｒｅ，ａｎｄｐｒｏｐｏｓｅｔｈｅｃｏｒｅｖｅｒｂｃｈａｉｎｓ，ｗｈｉｃｈｍａｋｅｓｕｒｅｔｈａｔｅａｃｈｃｏｒｅｖｅｒｂｃｏｒｒｅｓｐｏｎｄｓｔｏａｎｅｖｅｎｔｓｏｌｖｉｎｇｅｖｅｎｔｌｅａｋａｇｅｐｒｏｂｌｅｍ． Ｔｈｉｒｄｌｙ，ｗｅａｄｄｓｅｍａｎｔｉｃｄｅｐｅｎｄｅｎｃｙｒｅｌａｔｉｏｎｂｅｔｗｅｅｎｅｖｅｎｔｓｏｎｔｈｅｂａｓｉｓｏｆｓｙｎｔａｃｔｉｃｄｅｐｅｎｄｅｎｃｙｔｒｅｅ，ｗｈｉｃｈｉｓｃａｌｌｅｄＳｙｎｔａｃｔｉｃＳｅｍａｎｔｉｃＤｅｐｅｎｄｅｎｃｙＰａｒｓｉｎｇ（ＳＳＤＰ）ｔｒｅｅ．Ｉｎｏｒｄｅｒｔｏｂｅｔｔｅｒｓｅｐａｒａｔｅｔｈｅｄｅｔｅｃｔｅｄｅｖｅｎｔｓａｎｄｔｈｅｉｒｐｒｏｐｅｒｔｉｅｓ，ｗｅａｄｊｕｓｔａｎｄｏｐｔｉｍｉｚｅＳＳＤＰｔｒｅｅｔｏｆｏｒｍｔｈｅＳＳＤＰｇｒａｐｈ，ｗｈｅｒｅｔｈｅｗｏｒｄｎｏｄｅｓｏｆｔｈｅｓａｍｅｓｙｎｔａｃｔｉｃｓｔｒｕｃｔｕｒｅａｒｅａｔｔｈｅｓａｍｅｌｅｖｅｌ，ｐｒｏｖｉｄｉｎｇａｗａｙｆｏｒｓｕｂｓｅｑｕｅｎｔｅｖｅｎｔｅｘｔｒａｃｔｉｏｎ．Ｆｏｕｒｔｈｌｙ，ｗｉｔｈｔｈｅｄｉｖｉｓｉｏｎｏｆｄｅｆａｕｌｔｓｔｒｕｃｔｕｒｅｉｎｌｉｎｇｕｉｓｔｉｃ，ｗｅｓｕｍｍａｒｉｚｅｆｏｕｒｃｏｍｍｏｎｄｅｆａｕｌｔｓｔｒｕｃｔｕｒｅｓａｎｄｐｒｏｐｏｓｅｔｅｎｃｏｒｒｅｓｐｏｎｄｉｎｇｃｏｍｐｌｅｔｉｏｎｒｕｌｅｓｔｏｓｏｌｖｅｔｈｅｐｒｏｂｌｅｍｏｆｃｏｍｐｏｎｅｎｔｄｅｆａｕｌｔ．Ｍｅａｎｗｈｉｌｅ，ｔｈｅｗｈｏｌｅＣｈｉｎｅｓｅｅｖｅｎｔｅｘｔｒａｃｔｉｏｎａｌｇｏｒｉｔｈｍｂａｓｅｄＳＳＤＰｇｒａｐｈｉｓｓｈｏｗｎａｔｔｈｅｅｎｄｏｆｔｈｅｓｅｃｔｉｏｎ．Ｆｉｎａｌｌｙ，ｔｈｉｓｐａｐｅｒｄｅｐｉｃｔｓａｄｅｔａｉｌｅｄｅｘｐｅｒｉｍｅｎｔａｌｓｉｔｕａｔｉｏｎ． Ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｄａｔａｓｅｔ，ｌａｂｅｌｉｎｇｓｔａｎｄａｒｄａｎｄｅｖａｌｕａｔｉｏｎｉｎｄｅｘａｒｅｇｉｖｅｎ．Ｓｕｂｓｅｑｕｅｎｔｌｙ，ｔｈｅｍｅｔｈｏｄｉｎｔｈｉｓｐａｐｅｒｉｓｖｅｒｉｆｉｅｄｏｎｔｗｏｄａｔａｓｅｔｓ，ｆｉｎａｎｃｉａｌｎｅｗｓｔｉｔｌｅｓａｎｄｃｏｍｍｏｎｆｉｅｌｄｎｅｗｓｔｉｔｌｅｓ． Ａｔｔｈｅｅｎｄ，ｗｅｃｏｎｄｕｃｔｃｏｍｐｒｅｈｅｎｓｉｖｅｂｅｎｃｈｍａｒｋｓｏｎＣｈｉｎｅｓｅｆｉｎａｎｃｉａｌｎｅｗｓｔｉｔｌｅｓａｎｄＣ〇ＮＬＬ２００９ＣｈｉｎｅｓｅＣｏｒｐｕｓ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄｓａｒｅｅｆｆｅｃｔｉｖｅ．ＫｅｙｗｏｒｄｓＣｈｉｎｅｓｅｅｖｅｎｔｅｘｔｒａｃｔｉｏｎ；ｃｏｒｅｖｅｒｂｃｈａｉｎ；ｓｙｎｔａｃｔｉｃｓｅｍａｎｔｉｃｄｅｐｅｎｄｅｎｃｙｐａｒｓｉｎｇｇｒａｐｈ；ｅｖｅｎｔｓｅｍａｎｔｉｃｓｒｅｌｅｖａｎｃｅ；ｄｅｆａｕｌｔｃｏｍｐｌｅｍｅｎｔｉ引言事件抽取作为信息抽取的子任务，在自然语言处理应用中扮演着较为重要的角色，如股票市场趋势预测投资者、上市公司以及政府对股票市场趋势都比较感兴趣，趋势预测可为其分析市场、做出决策提供有力参考．相关工作［＞４］利用自然语言处理技术分析了网络文本对股市趋势预测的影响，发现金融新闻报道的事件是股市趋势预测的重要依据［１］．因此，事件抽取的内容及其质量至关重要，将直接影响股市趋势预测效果．目前大部分事件抽取都是基于ＡＣＥ２００５？（定义了事件的８种大类、３３种小类）、ＫＢＰ２０１５？和ＥＲＥ标准［５］，这些标准及数据集应用于宏观经济预测等特定领域的事件抽取存在一定的局限性，如在标准中并未定义股票“增持”事件类型．文献［６７］虽针对公司新闻和中文财经领域制定了适合自身的事件类型，但都局限于较小范围内的某些特定事件．目前对于哪些事件会影响股价走势尚未有定论，致使自定义类型的事件可能对预测作用不大，且还要求研究人员具备丰富的财经知识和经验，一定程度上增加了研究难度．所以，本文聚焦于财经新闻，采取开放模式进行事件抽取．财经领域较为关注事件作用对象及动作．本文①ｈｔｔｐ ： ／／ｐｒｏｊｅｃｔｓ，ｌｄｃ．ｕｐｅｎｎ．ｅｄｕ／ａｃｅ／②ｈｔｔｐｓ：／／ｔａｃ．ｎｉｓｔ．ｇＯｖ／／２０１５／ＫＢＰ／５１０ 计算机学报 ２０２１年结合应用需求，确定抽取三元组事件ｅ：ｔ（ｓＭ６，Ｐｒｅｄ，）．其中Ｓｍ６为主语，Ｐｒｅｄ表示谓语（事件的核心，触发整个事件发生，一般动词居多［８］，后续称为核心动词），〇￣代表宾语，上述３个要素均可称为事件的属性或成分．文献［１］虽然也研究了上述三元组事件抽取，但做了较多限制，如谓语短语需以动词开始、介词结束，主语和宾语需为处于谓语左右两侧的名词等．这会导致较多有价值的事件因不满足条件而被舍弃，如语句Ｓ：“港股恒指跌０．１４％”．其中，动词“跌”作为谓语触发事件，并未以介词结束；同时，该文献未考虑复合句中因共享成分而导致的事件成分缺失问题，使得抽取的事件不完整，一定程度上降低了事件使用价值．中文作为话题驱动语言，为了表达的连贯性和简洁性，常省略某些语言成分，即句子存在缺省［８］．根据中心理论［９ ］，主语、谓语和宾语作为句子的主要成分．但是，主语是最有可能缺省的，其次是宾语，最后为其他位置上的词语［１ ° １１］．从句法结构和语义方面划分，可分为直接省略和间接省略．如语句Ｓ２“英首相让步，考虑爱尔兰担保协议”为直接省略，后半句缺省主语“英首相”；语句Ｓ３“京东营收增速首次跌破３０％，年内市值蒸发逾４００亿美元”属于间接省略，后半句已存在主语“市值”，但语义并不完整，缺少前半句的“京东”作为修饰．对于直接省略，根据是否由介词引起，又可分为介词引发和直接结构省略．如语句Ｓ４“中国动力飙近２１％，与中国能源达战略性合作框架”后半句因介词“与”引导，缺少部分主语“中国动力中文语句表达十分灵活，缺省结构较为复杂多样化．因此，如何抽取完整的事件是本文致力解决的一个关键问题．新闻标题一般需要简明扼要地概括新闻内容．财经新闻标题偏好采用动作行为的表达形式，致使语句中出现大量动词，且较多连续动词．如“３位创投股东拟清仓减持套现超２０亿，博天环境一字跌停”．其中，“清仓”、“减持”、“套现”、“超”等一系列动词描绘整个过程，可认为标识一个事件，而动词“跌停”单独触发另一个事件．如何识别哪些动词触发事件，哪些动词作为简单的成分，即确定语句中蕴含的事件数和谓语，是本文致力解决的另一个关键问题．针对上述两个关键问题，本文归纳了在财经新闻标题中抽取事件时较为凸显的４种现象：（１）事件漏抽．一条新闻标题常包含多个事件，只抽取了其中部分事件．（２）事件成分缺失．抽取的事件成分不全，主要由主语或宾语省略所致．（３）事件成分抽取错误．抽取的事件成分信息在语义上与文本语义存在出人．（４）事件语义放大．缺少限定范围，使得抽取事件语义大于原文语义或语义不明，主要因修饰语省略引起．如语句Ｓ３，事件Ｅ７＼（市值，蒸发，４００亿美元）虽已抽取了ＳＭ属性，但缺乏修饰定语“京东”，使得事件ＥＴ：语义放大，指向不明，缺乏使用价值．出现上述４种现象，主要是因为没有深人分析句法和语义结构上的关联或是缺少关联．其中，前两种现象属于句法结构，应探寻事件间和共用成分间的关联规则；后两种现象则侧重于语义，需要从语义角度分析其存在的关联．因此，本文采用句法和语义依存分析相结合的方法，建立句法语义依存分析（ＳｙｎｔａｃｔｉｃＳｅｍａｎｔｉｃＤｅｐｅｎｄｅｎｃｙＰａｒｓｉｎｇ，ＳＳＤＰ）图．同时，基于ＳＳＤＰ图，归纳常见的缺省结构，制定缺省补全规则．首先，根据句法依存结构，设计规则，建立核心动词链．其次，添加语义依存关系，建立Ｓ ＳＤＰ树．再次，基于核心动词链和语义结构，优化ＳＳＤＰ树，形成ＳＳＤＰ图．最后，基于ＳＳＤＰ图，分析扩展事件间的语义关系，提出４种缺省结构，并设计相关补全规则，解决抽取事件的成分缺失问题．本文的主要贡献包括：（１）建立核心动词链．基于句法依存结构，分析动词词法及句法依存结构，提出核心动词链建立规则．（２）建立句法和语义依存分析相结合的ＳＳＤＰ图．借助句法依存树，添加语义依存关系，建立包含事件间语义关联的ＳＳＤＰ树；基于核心动词和语义结构，将ＳＳＤＰ树调整为ＳＳＤＰ图，使得核心动词和同等结构成分的结点尽量处于同一层级．（３）归纳４种常见缺省结构，提出相关补全规则．根据中文使用习惯和语料数据，归纳了４种常见缺省结构，并设计有效的查询补全规则．本文第２节介绍相关工作，分析目前相关研究的进展及优缺点；第３节分析核心动词词性及句法结构，归纳核心动词链的建立规则，为探测事件提供依据；第４节首先探讨基于缺省补全的中文事件抽取面临的挑战，然后描述句法和语义依存分析相结合的ＳＳＤＰ图的构建方法，为补全事件缺失成分搭建查询桥梁；在第５节中，讨论４种常见缺省结构，并分析其补全规则，解决抽取事件的成分缺失问题；第６节介绍本文实验数据集、实验方法和实验结果，万齐智等：基于句法语义依存分析的中文金融事件抽取 ５１１３期验证本文方法的有效性；最后，第７节对全文进行总结，并就未来工作提出展望，为即将开展的后续研究指明方向．２相关工作事件抽取作为信息抽取的子任务，在知识挖掘领域起着非常重要的作用．近几年，事件抽取的主要研究重点是，如何利用不同的线索信息提高事件触发词或论元所属类型的正确率，较少地结合应用需求去分析研究事件抽取效果及使用价值．我们将前者称为传统事件抽取，后者称为应用需求驱动的事件抽取．（１）传统事件抽取的研究进展传统事件抽取一般分为４个子任务，触发词识别／分类和论元识别／分类，前者称为事件探测．目前，无论是事件探测还是完整的事件抽取，涉及识别或抽取语句中包含事件数的研究非常少．在事件抽取方面，文献［１２］为解决新事件类型在标准数据集上识别效果不佳的问题，选择新领域数据训练模型，但因缺乏标注数据，提出一种可快速收集新事件类型训练数据的方法，并通过已有标准数据集，训练一个可在新类型上识别Ａｃｔｏｒ、Ｐｌａｃｅ和Ｔｕｎｅ等论元的模型，一定程度上解决了新类型事件的抽取问题．文献［１３］针对基于ＣＲＦ的事件抽取联合模型的缺陷进行扩展，旨在解决事件多标签问题，但需对事件进行分类训练．另外，借助同一大类事件下，不同子类事件间元素存在高关联性，采取多任务学习方法解决由分类训练带来的数据稀疏问题．文献［１４］提出一种动态多池化的卷积神经网络以保持多事件信息，实现语句中多事件抽取；同时可自动抽取词法级和语句级特征，缓和严重依赖ＮＬＰ工具的现象．文献［１５］利用双向循环神经网络和人工设计的特征联合抽取事件触发词和论元．文献［１６］研究论元与论元间的句法依赖关系，为其建立依赖桥，结合双向循环神经网络方法，提高了同一事件的论元被完整抽取的概率．文献［１７］利用同一语句包含的多个事件触发词之间存在高关联性，通过引人句法依存树和基于注意力的图卷积网络，借助其他事件触发词类型信息进一步确定当前事件触发词所属类型，从而提高事件抽取效果．在事件探测方面，文献［１８］研究的问题类似于文献［１７］，也是借助事件间的关联来提升事件分类的效率．但不同的是，文献［１８］指出，较多可利用的、有关联的事件位于不同语句中，只考虑单个语句中的事件，存在一定局限性．因此，设计一个门控多级注意力机制，自动提取并动态融合句子级和文档级信息．文献［１９］分析以往研究主要针对特定领域或特定事件类型存在的局限性，提出在开放领域中探测无类型约束的事件．随后提及由此带来的２个问题： ①事件无统一定义； ②无足够训练数据．为了克服问题①，选择识别所有可能的事件．但通过公布的语料可知，基本限于一条语句只包含一个事件，即只考虑一条语句中包含一个事件的情况．文献［２０］针对以往工作只利用一次上下文信息的情况，提出利用动态记忆网络多次使用上下文信息，提高事件触发词分类效果．文献［２１］通过生成对抗方法，解决由语义信息映射的高维特征空间中存在虚假特征干扰的问题，提高了事件探测效果．通过对事件抽取相关研究的梳理发现，事件抽取主要集中于利用寻找的线索提高事件识别或抽取的效果，与本文研究问题还是存在一定的差别．但是，本文获取的事件内容与语义角色标注在形式上存在一定的相似性．语义角色标注主要标注论元与谓词之间的角色关系，属于浅层语义分析．（２）语义角色标注的研究进展语义角色标注（ＳｅｍａｎｔｉｃＲｏｌｅＬａｂｅｌｉｎｇ，ＳＲＬ）包含４个子任务，分别是谓词识别／消歧和论元识别／分类．针对ＳＲＬ的研究，基本上都是基于ＣｏＮＬＬ提供的标注语料库，这些语料库大部分已标注了谓词［２２２３］，所以很多研究的重点主要聚焦于论元与谓词之间的角色关系．近些年，深度神经网络方法在ＳＲＬ上已经取得了较好的效果［２２＃，尤其是ＬＳＴＭ．深度学习方法较少考虑句法特征，但直观上句法结构利于ＳＲＬ，为了验证这个假设，文献［２４２５，３０］均采用基于现有的模型，如ＢｉＬＳＴＭ，设计嵌人句法结构的模式，使得深度学习模型可利用输人的句法结构实现ＳＲＬ．研究表明，深度学习模型嵌人句法结构可提高ＳＲＬ效果．虽然句法结构能够提供一定信息，但因其对语言类型和领域外数据的鲁棒性不高，所以也存在较多的研究未利用句法结构［２４２６］．文献［３１］则采取折衷方案，利用超级标签获取部分句法结构信息，提高了ＳＲＬ效果．除此之外，也有研究针对ＳＲＬ基于跨度和基于依赖的２种标注形式进行了分析．文献［２３］指出，由于２种标注形式的存在，使得很多下游应用不知采取何种形式更为有利，从而提出一种统一２种标注５１２ 计算机学报 ２０２１年形式的端到端ＳＲＬ模型．文献［２６］分析了基于ＢＩＯ标签的神经网络需要已标注谓词作为输人的一部分、且无法包含跨层级特征等缺点，提出一种端到端模型，用于联合预测所有谓词和论元跨度，以及它们之间的关系．文献［２２］受助于人类在处理未见过事情时借鉴相似问题处理方法的启发，提出一种不依赖句法结构的方法（ＢｉＬＳＴＭ＋ＡＭＮ），该方法利用训练集中语句及其标签关联记忆线索，帮助论元角色标注．上述研究较好地推动了ＳＲＬ研究的进展，但针对本文提出的研究问题，发现仍存在以下不足：①不能结合应用需求识别以事件为单位的谓词．ＳＲＬ多以动词为单位进行识别，而在语料中，语句通常包含较多具有动词词性的非谓词，导致识别的事件数远多于实际的事件数．②绝大多数研究未考虑论元补全，少量研究只实现了简单论元补全，即同一个论元与不同谓词间的角色关系．③由于ＣｏＮＬＬ提供了谓词标注，因此部分研究只考虑了识别论元与谓词之间的角色关系，并没有研究谓词识别问题．④大部分研究基于英文语料，由于中文需要分词，因此借助句法结构信息的模型不能较好地适用于中文语料．⑤特定领域的标注数据不足，尤其是中文标注数据，无法满足需大量标注数据的深度学习方法，使得ＳＲＬ效果不佳．（３）财经领域的事件抽取对于应用需求驱动的事件抽取，以需求为导向，有针对性地抽取所需事件．文献［７］聚焦于财经领域中事件信息分散于多个语句的现象，自定义财经领域事件类型，并提出抽取文档级事件的方案．同时，采用远程监督实现自动标注财经领域训练数据，克服特定领域标注数据集不足的问题．文献［６］以了解公司大体情况为需求，针对公司新闻文本，分别采用ＳＶＭ和ＲＮＮＬＳＴＭ方法探测自定义的１０种不同经济事件．文献［３２］以证券和金融市场决策者需了解事件各方面的综合信息为出发点，分析了基于单个文档抽取事件的局限性，利用不同机构可能报道同一事件以及事件存在冗余信息的线索，提出在开放域新闻集群中抽取事件的无约束类型，并归纳通用的事件模式．文献［１］首次提出采用结构化信息表示事件，将抽取的事件用于预测股价波动．文中事件定义为４元组￡＝（０１，尸，０２，：〇，其中０１为行动者，尸代表谓语，〇２是目标者，Ｔ为时间戳（主要用于对齐股票时间）．该文利用开放信息抽取技术［１２１３］，无需事先定义事件类型和人工标注训练语料．但在抽取谓语和论元时添加了句法和词汇限制［１３］．该文献存在的不足：（１）谓语抽取的约束条件过于严苛．在新闻语料中，存在较多谓语不符合约束条件．（２）论元识别存在一定的局限性．首先，充当论元的词不一定为名词短语，且也不一定为距离谓语最近的名词短语．（３）没有考虑成分缺省情况．财经新闻语料存在大量的成分缺省，不完善缺失成分将会大大降低抽取事件的使用价值．３建立核心动词链本节首先分析基于句法依存的核心动词句法结构，然后总结建立核心动词链的规则，最后给出建立核心动词链的算法．３．１核心动词词法及句法分析３．１．１依存句法分析树依存句法分析（ＤｅｐｅｎｄｅｎｃｙＰａｒｓｉｎｇ，ＤＰ）是自然语言处理中的关键技术之一，其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系［３３］．主要包括两方面的内容，一是确定语言的语法体系，即对语言中合法句子的语法结构给予形式化定义；二是依存句法分析技术，即根据给定的语法体系，自动推导出句子的句法结构，分析句子所包含的句法单位以及这些句法单位之间的依存关系．依存句法分析树（称为ＤＰ树）则将句法单位之间的依存关系以树的形式表示．本文的依存句法分析采用哈尔滨工业大学语言技术平台（ＬａｎｇｕａｇｅＴｅｃｈｎｏｌｏｇｙＰｌａｔｆ〇ｒｍ，ＬＴＰ）Ｍ，ＬＴＰ共定义了１４种依存关系，如表１所亦．表１ＬＴＰ中依存关系名及含义标记 解释 标记 解释ＳＢＶ 主谓关系 ＦＯＢ 前置宾语ＶＯＢ 动宾关系 ＡＤＶ 状中结构ＩＯＢ 间宾关系 ＣＭＰ 动补结构ＰＯＢ 介宾关系 ＩＳ 独立结构ＡＴＴ 定中关系ＤＢＬ 兼语ＣＯＯ 并列关系 ＬＡＤ 左附加关系ＩＩＥＤ 核心关系 ＲＡＤ 右附加关系贿轉：基；懷滕析爾申纖麟＃抽取 ６１３ 議期语句Ｓｒ首钢控股购人约４０．７８％股权％其依存句法分析结果如图１（ａ）所象ｓＤＰ树如图１（ｂ）所示．，图１ （ａ）中的ｎ， ｖ，ｄ，ｍ分别代毫名爾、翁坷、副词和数词；布图１（ｂ）中，“购人”与父结点关系为ＨＥＤ．．是本语句核心词ｆ络点之间的边代表句法依存关系．＊于模心．词的词性通常为动词；所以也将德：心词：称之为：樣心动爾部ＶＡＴＴＡＴｉ＊＼ｉ＼首钢控股购入适４０．７８％股权ＡＴＴｎｖｄｍｎ４０．７８％｜祕Ｔｔｖｍ＼（ａ）依存句法分析（ｂ）ＤＰ＃图１讀轉＝８７的偎夢旬爾分析和ＤＰ树Ｓ．１．２權心翁词句維分析中文语句表达常采用弁列句和复合句，在财？新南标嚴中麗为餐出．财縴Ｉｆ歸标邀一般来取正３：副标题？ｆ式，副标题对正标题起补充说明，更为详细地阐述正标題的内容＿下面以一个简单的例子来说明梭心—词的甸ｆｔ：结构－例１．“果源价格分化严重苹果期货增仓上涨副标题苹果期货增仓上涨”对？标題Ｗ果源价格分化严童＾中的具体果源（苹果）价格情况进行描述．该语句的ＤＰ树如图２所示（为Ｉ？简化，树中省略了标点符号依存关荽，后续的ＤＰ树中也全部省略），对于例１，共包含３个事件ＥＴ２ （果源价格，分化，）、ＥＴＳ（苹．果期货，增仓，）和ＥＴ４（苹果期货，上涨，）．在图２的ＤＰ树中，只存在一个语句核心动词“分化如果每个核心动词触发一个事件，则导致￡７＼和￡７；事件漏抽，增仓”作为的谞词，是ＥＴ２谓词“分化”的孩子错点，且依存关系为ＣＯＯ，而ＥＴｇ的谓词“上涨ｗ又怍为的谓词增仓〃的孩子麵，从图２申分析可知，ＬＴＰ针翁一条语句，旯会给出一个核心动词，？但我们可以根据其依存关系和词性，参照每个核心动词对应一个事件的标准，划分出多个核心动词，从而形成一条核心动谓链．如何建立稼心动词链将在下一小节介藉．３．２核心动词链建立通过对大量的语料和Ｊ：节的ＤＰ树迸行分析，发现Ｓ条线索ｓ ？事件的谓词一般由动词充当； ②一个语句中事件间的谓词在ＤＰ树中为父子结点，，且保持连续；如“分化增仓”一“上涨、＠一个语甸中事件谓词之间父子结启的边为ｃｏａ．，另外，在语言学中；并列的１９语在句法结构上獻该撕有相同地位或性质．即它们之间废采用并列符号进行关联，如ｌｔｐ采甩的ｃｏａ通过对一个语句中动词并列符号的识别，．可较好地分离语句中包含的若干事件．因此．根据上述线索，提出一个事件分离方法（核心动调链的逢立规则ｈ具体规则如Ｔｓ规则１．如果ＬＴＰ给出的语句核心凤是动坷Ｓ则默认属于核心动词链中ｒ否则考虑其满足ＣＯＯ关系的孩子结点，直到找到动词为止．规则２．加人的错点：；暴考核心动词链中猜：点构成ｃｏｏ关系的动词结点，且确保添加的动词从语句核心词开始一直保持ｃｏｏ关系的连续性，一旦亦断则不再考虑后续动词，规则３．如果给出的语％核心词是非动■ｓ且其孩子中没：有满足ＣＯＯ关系的动词鍺点，则纖匈末象成核心动實链，上述规则彼此间具賓一走的逻辑依赖性，规则１是植逢核心动词：链的起点ｆ规则２是对扩充核心＃词链的新结点进行词性、遙续性和旬法依存关系判断，其中原始的连续性来瀨于＊则ｌｒ而规则，３是不满足规则１的情况（即核心动词链方空）．添：加意：核心动词链中的每个动词结点需满足以ｉ：所有《贝卩，本文以Ｔ部分所说的核心动诃均指处于核心动词链中的结点，所以链中结点数即为语句蕴含的事件数．Ｈ此．利用核心动词链方法，可解决本文提出的如何确定语句中蕴含事件数的：業傭问：题．针对＇图２中“增仓”和“上涨”鍩点，按照规则应全部振加意：核心动词链中，但它彳口反峽同一＾件（即主语和窠语相同）的不同情况．为了避免将一个事件拆分成多个＃件面降低事件信息的连贯性和完．整性，本文做了如下优化：对于语句中位置连续的核心动词（如果核心动词之同只包含副词，也认为ｉｉ续），则将所有核心动■合并为一个整体；表示一系列连贯动作，如例１中事科ＥＩＶ与ＥＴ４合并为事件ＥＴＳ苹果期货．，［增仓，上涨综合核心动词链的建立及优化规则＊可＃到核５１４ 计算机学报 ２０２１年心动词链的建立算法，如算法１所示．算法１？ＣｏｒｅＶｅｒｂＣｈａｉｎＣＣＶＣ，ｃｕｒＮｏｄｅ，ＤＰｔｒｅｅ） ？输人：核心动词链ＣＶＣ，当前核心动词结点ｃＭｒＮｏＡ，语句ＤＰ树Ｄ朽ｒａ输出：添加了新发现核心动词的核心动词链ＣＶＣＦＯＲ （〇１〇办ＧＣＮＳ）／／ＣＮＳ为ｃｗｒＪＶｏ办的孩子结点集合ＩＦ｛ｃｎｏｄｅ．ｐｏｓｔａｇ为动词且ｃｎｏ办关系为ＣＯＯ）／／多ｃｍａｇ为结点词性，为结点的依存句法关系ＩＦ（ｃｎｏ办与ｃｗｒＮｏ办在原句中相邻或中间只包含副词）泠有连续核心动词ＩＦ（ＣＶＣ为空）／／处理初始办为非动词，＃且〇＼＾为空无法合并连续核心动词的情况将ｃｎｏｄｅ加人ＣＶＣ；ＥＬＳＥ将ｃｗｏ办添加至ＣＶＣ中的ｃｗｒｉＶｏ办列表中；／／合并连续核心动词ＥＮＤＩＦＥＬＳＥ／／无连续核心动词将ｃｎｏ办加人ＣＶＣ；／／将满足规则的核心动词添加至核心动词链ＥＮＤＩＦＣｏｒｅ＂Ｗｒ６Ｃ／ｉａｉｎ（ ＣＶＣ，ｏｉｏ办，ＤｊＰｆｒ從）；／／：递归查找ＥＮＤＩＦＥＮＤＦＯＲ４ＳＳＤＰ图本节讨论ＳＳＤＰ图构建．首先分析解决本文所提问題面临的挑战，然，后介绍ＳＳＤＰ树的建立过程，最后描述ＳＳＤＰ树转变为ＳＳＤＰ图的过麗４，１基于缺省补全的中文事件抽取的挑战Ｓ前，随着机器学习利深．度攀习相关技术的飞速发暖，大量的方法用于解决事件抽取问题＾且取得了较好的效果，但是这类方法大屬人工标注；数１据作为训练集．．对于中文财经新闻领域，人工标注的数据十分匮乏，较大地影响了上述方法的抽取效果．Ｍ：且ｒ本文采取开敖機式補取开敖性事件（无具体業型的事种）．，无任何标准可用于触发词和论元标ｆｔ，一定涯度上Ｘ增大了人工标注的难度．因此，针对本文提出的问题，建＇议选取规则匹前方法，依存旬法结构蕴含着丰富＇的信息，无论是深度学习还是规则匹．配方祛．，均将其作为一条童栗线索．针对本文的研究何题，句法依存关系可以用Ｔ识别结构ｉ的成分缺省，从而启动成分补全，然而，仅仅采用依存句法分析方法，无法完全解决上述缺省补全何题，一穷面，一条语句可釆用＇不同的表达形式，致使旬法结构多样化？增加了补查复杂麗ｓ碧一方菌 ＊督旬．６１讓达存在射序性１Ｃ即事件之间具有先后顺序＞ 和一定：的语义关系（如因果关系、转折关系等）且事件缺省的成分常包含于该事件之前的其它事件申＇，故补全缺省成分的前提是變要鸯立事件间的语义关联，４．２基于句法语义依存分析的ＳＳＤＰ树构建针对汉语言中的缺省，研究成果并不多＊且定义及葙围投有編一的标准ｔｌｌ］．黎锦熙Ｗ５］认为经常出现的省略包括对话省、自述省和承前省；吕叔湘［３＆］将缺省分为当前省、承上省和概括省；王力［３７］则分为承说省和习惯省？随誉衩塔法学中“三个乎面”理论〈语法，语义，语用）的提出，语法学者对缺省从认知角度有了如下三种基本认？ｔ３Ｓ］．⑴旬藤緒构土蠱歲．措緒构中＃不１＂少盼成分騰棚现前句＿构省赂Ｘ（２）语义结构上界定．指应该说出的意思没有说出来的语叉省略．ＧＴ）语用交际界定．指因语言环赓需要的语用＇省赂？其中．，裔貪环填涉及较为广泛，可以是社会文化菁：Ｓ；、语言上下文或交Ｉ示的现场懞暈．新闻标題较为葱小、独立，请言上下文中的语用曹略偏少＊０此本文依据上述缺魯结构的舁定，提出一＃句法与锫义分掛顧结合的事■件袖取方法？称之为句法谱义依存分析（ＳＳＤＰ）方法，＇请夂依＿分析（ＳｅｍａｎｔｉｃＤｅｐｅｎｄｅｎｃｙＰａｒｓｉｎｇｓＳＤＰｈ用于謂画爾汇间语义依存关系．与语义角色标注存在一定的关联？ＳＲＬＲ关注甸子请词与其主要论元之间的关系，而ＳＤＰ不仅务注谮词与论元，还关ｆｅ谓词与谓词、论元与论元、论元内部的语义关系，对旬子语义：倩息的刻画更〔加完養全面＊ＳＤＰ．屢宁深崖语义分析，不仅可为我们调整ＤＰ树中部分错点结构提供语义分析，还可”为我们建立事件间关联提供途１轻．例１的ＳＤＰ树如图３所示．其中，Ｅｘｆ３、Ｈ〇ｓｔ、ｆｃＣｏｏ、Ｃ：６ｎｓ．ｖＦｅａｉ和Ｍａｎｎ分规廉累当事養，系、截患角色、：并列关系、结＿角色、描写角色和方式角色．例１．？ＳＤＰ树贿轉：基；懷滕析爾申纖麟＃抽取 ６Ｋ 議期考虑到目前可甩ＳＤＰ工具拇正确性一般＜＇图３中ｗ严：重《锫点错误地依存于上涨’’结点〉，且导Ｄｐ在结构上有时会费在冲．突Ｘ作用对象不一致此，．本文只利用ＳＤＰ建立核心动词间关联．为迸一步降低冲突抽可能性，建立试程囊按如下，方式进行．首先，对ＤＰ树进行剪枝，只倮留主语、核心动飼和？輋―主干成分／减少ＤＰ树中的铕点槳量；其次，对剪支后的ＤＰ树进行语义依存分析，获取核心动词间语义关联；最后、将获取的语义关联添加至原始ＤＰ树中．另外，核心傭爵一窺涯慶ｉ代慮審件ｓ審件之间的谱义依寝舞峯采用如＆６〇〇？＊３聰３和ｅＰｔｒｐ）表示，因此针对核心动爾闻非ｅＸＸ关系的情况，隹依赖的孩子绪点中查询获取，并作为核心动词间语义关联．例如＞匣３中“上涨”与“分化”结点之间的关系为霖孩子＿点中掌取ｅ：Ｃｏ〇关？擊、苹文针对ＤＰ树中结点关系．设计事件关系二元组Ｅｉ？Ｔ（办其中，办为句法依存，关系，表示语义依存关系．将添加了语义依存关系的ＤＰ树称为ＳＳＤＰ树，其构建算：法如算法２所示．算法２．ＳＳＤＰｔｒｅｅＢｘｉｌｄ（ＤＰｔｎｅ．ＣＶＱ．输入ＤＦ树？ＤＰｔＷ－ｒｆｔ 心靖ＳＩ链ＣＶＣ猶掛ｒ句參３罾黑襟＃分析树ＪＳｆｔＰ嫩《ＦＯＲＫｓ（ｆｒｅＶｅｒＢＣ４；ＹＯ获取ｃｏｒｅＶｅｒ６在ＤＰｔｒａ中对应结点；获取ｃｏｒｅ＂Ｗｒ６ｉＶ〇￡＾的主谓宾主干结构ｃｖｎＭａｉｎ；将ｃｗｉＭａｉｗ按原词顺序组合形成主干语句ｗｎＭａｈ；通过ＳＤＰ工具获取的语义依存关系ｃｏｒｅＶｅｒｂＮｏｄｅ．ｓｄｐ＝ｓｅｎＳｄｐ＼＿ｃｏｒｅＶｅｒｂ￣＼ ；／：，修改中核心动词结点语义依存关系ＥＮＤＦＯＲ动调合并．其中，“分化”和“［增仓，上涨］”之间通过ｅＣ〇〇连接，表示夢件间存在并列关：联．但在句法鍺构上仍为父子关系．Ｔ节将介绍如何将ＳＳＤＰ树调整齿ＳＳＤＰ图．４．３基于核心动词和语义结构的ＳＳＤＰ树调整同一条语匈中，每＋事件的发生虽然存在前后顺序，但它们在句法绾构上（包括每个事件的核心动词＾主语及宾语等）座处于相同地位，这样不仅使＃句子句法结梅一ｆ了然，还有利宁事件的确定和ＥＴ元組中成分的抽取．因此，本节钍对ＳＳＤＰ树做了一定的优化和调整，剪除无敏路径５降低树的高度，使得调整后的ＳＳＤＰ树更趋于扁平化，缩短搜索路径．Ｈ调整后的ＳＳＤＰ树已不符合树的定义，故将其称之为ＳＳＤＰ图．具体调整方法如下＊（１）核心动词调整■？提：升处于核心动词链中的每个核心动词结点层鈕，使得调整后的ＳＳＤＰ＿中所着核心动词■＇点与核心根结点＿處的宣攘孩子结点冻调整前具有Ｉ吾句核心饲称为核心根结点＞：具有相同层级，即调整为结点的直接孩子结点？如图３所示、将“［增仓，上擁Ｔ结点调整为办此结点的直接孩子，使＃与“分化”结点处于同级，但真原始关系仍．保留，并采用有向虛线进狞连接．方向代義事件的时序往．（ＳＢＶ．ＮＵＬＬ１／（ＡＴＴ，ＮＵＬＬ）果源（ＳＢＶ，ＮＵＬＬ）／（ＡＴＴ，ＮＵＬＬ）苹果Ｍ－５图４隹：梭心翁鋪侧藤ｇ驗．ＳＳＤＰ图＆ＳＤＰｔｍｅ＝ＢＰｔ；ｒ；ｅｅ；ＲＥＴＵＢＭＳＳＤＢｔｒｍ顧于價２所示的ＤＰ树，将＿３中核心动筒“分化”，上涨”间的语义依存关系ｅＣｏｏ添加至ＤＰ树中＊栂＿勝Ｓ：ＳＤＰ树如图４．所＇示ｓ词时迸行了核心［Ｒｏｏｔ１（ＨＥＤ．ＮＵＩ．Ｌ）（ＳＢＶ，ＮＵＬＬ）＇＾＾＼（（Ｘ）０，ｅＣｏｏ ）（ＣＭＰ，ＮＵＬＬ）价格严重［增仓＃涨］／（ＡＴＴ，ＮＵＬＬ）（ＳＢＶ，ＮＵＬＬ）果源期货（ＡＴＴ，ＮＵＬＬ）图４图３：察＿ｓ為且合聲核心翁饲后猶ＳＳｆｉＰ树梭心动１］爾＿是将ＳＳＤＰ树调整为ＳＳＤＰ图的关键．不仅有利ｆ事件的划分，而且一定程度上丨旬接促使了同等成分的结点也处矛相同层级．如图５中具有ＳＢＶ关系的“期货”和“价格”结磊，ＡＴＴ关系的“果源”和＊＂苹皋９结点均处于相同层鈒．（２：３介词：结构调整．提升介词引导的充当主语或宾语的结点层级，使其作为对应核心稂结点的：直接孩子结点？菌６（ａ），鹿示了语句＆的ＳＳＤＰ树经核心动ｆｔ调整后得到的ＳＳＤＰ图，其中？ｅＳｕｃｃ表示顺承关系？“中舞能源”语义上为＊？达”的主？语肩结构上是的直核參子＿图ＳｆＭ食圏ｒＣａ）的基補上，对介爾：结构进行调整，将“中国能源＜’调整为“达”的直接孩子Ａ法依春关系从ＰＯＢ调整为ＳＢＶ，肩时保留原始依存关系（ＰＯＢ： ＊ＮＵＬＬ ），采用无向虚线连５１６ 计導机攀报：＿１苹（ａ）经核心动词调整后的ＳＳＤＰ图图：６谱句Ｓ，的ＳＳＤＰ树：经襯整ｇｔｅＳＳＲＰ盧（ＳＢＶ．Ａｇｔ）．此处，“被”字属于．殊介词，禹然调整．过裎与介词结构相似ｓ但其缺省结构补全规财存在区别？被动语态薔对调主语和宴语，且“被”字在调整后的图结构中无倉义．而？６ＣＷ中介词“与＂起并列连接作用ｓ在成分补全时应与左右成分一同翁入，基于上述调整规则＊可得到将ＳＳＤＰ树慨整为ＳＳＤＰ图的算法，如算法３所示＊算法３．ＳＳＤＰｔｒｅｅＡｄｊｕ？ｔ（ＳＳＤＰｔｒｅ＾，ＣＶ〇ｆ：输人：语匈銘ＤＰ树ＳＳＤｆｔｗ勺翁心动：爾懲输出：语句ＳＳＤＰ图ＳＳＤＰｇｒａ多／ｉＦＯＲ（〇＾Ｖ＾＾６ＣＶＣ）＾／ＣＶＣ中每个核心动词获取ｃｏｒｅＶｅｒ６在＜ＳＳＩ）ｊＰ？ｒ從中对应结点ｃｏｒｅＶｅｒＷＶｏｔｉｅ；建立由只〇况指向ｃｏｒｅＶｅｒＷＶｏ办之间的关联；／／提升办结点的层级，但保留核心动词／／结点之间的原始关系ＦＯＲ（ｎｏｄｅｅＣＣＶＮＳ）接．其中，Ａｇｔ表；＾施事关系．（３）被动语态调整．提升被动语句对应结点层级，修改句法依存关系．如语句ｓ６“伽马投资未披露基金运作情况，被监管责令改正”的ＳＳＤＰ树经核心动词调整和被动语态调整后的ＳＳＤＰ图，分别如图７（ａ）和图７（ｂ）所示．（ＨＥＤ，ＮＵＬＬ）披露责令（ＳＢＶ，ＮＵＬＬ）＾／＼（Ｖ〇Ｂ，ＮＵＬＬ）＾Ｄ＾ＮＵＬＩ＾＼＾ＡＤＶ，ＮＵＬＩ４伽马投资情况（Ｖ〇Ｂ，ＮＵＬＵｒ［ｍ＼（ＶＯＢ，ＮＵＬＵ／（Ｖ〇Ｂ，ＮＵＬＬ）＾７ｐ〇Ｂ，ＮＵＬＬ）［ｍ］（ａ）经核心动词调整后的ＳＳＤＰ图Ｒｏｏｔ（ＨＥＤ，ＮＵＬＬ＞＾＾＾＾（ＨＥＤ，ＮＵＬＬ）Ｉ伽马投资Ｉ Ｉ未Ｉ 準（Ｖ〇Ｂ，ＮＵＬＬ） ／Ｗ］｜监管｜（ＰＯＢ．ＮＵＬＬ）丨运作（ＶＯＢ，ＮＵＬＬｙ（ｂ）经被动语态调整后的ＳＳＤＰ图图７语句Ｓ６的ＳＳＤＰ树经调整后的ＳＳＤＰ图其中／被”结点时倉黎孩乎结点ｗ躁管”调整为ｗ費令股直接孩子鍺点，且添加其对应依存关，系／／ＣＣＶＮＳ为的孩子结点集合ＩＦ（ｎｏ办为被动语态词）／／被动语态调整获取语句的语义依存关系ＦＯＲＣｃｎｏ办６ＣＪＶＳ）／／ＣＮＳ为ｎｏ办的孩子结点集合ＩＦ（ｃｎｏｄｅ为右孩子结点）＃存在主语建立由ｃｏｒｅ办指向的边；ｃｎｏｄｅ．ｄｐ＝ＳＢＶ；ｃｎｏｄｅ．ｓｄｐ＝ｓｅｎＳｄｐ＼＿ｃｎｏｄｅ￣＼；ＥＬＳＥＩＦ为左孩子结点）《／存在宾语建立由指向ｃｗｏＡ的边；ｃｎｏｄｅ．ｄｐ＝ ＹＯ＾；ｃｎｏｄｅ．ｓｄｐ＝ ｓｅｎＳｄｐ＼＿ｃｎｏｄｅ￣＼；ＥＮＤＩＦＥＮＤＦＯＲＥＬＳＥＩＦ（ｎｏ心为介词）获取语句的语义依存关系ＦＯＲ（ｃｎ〇＆６ＣＪＶＳ）／／ＣＮＳ为ｎｏ心的孩子结点集合ＩＦ（ｃｎｏ办与ｃｏｒｅＶｅｒＷＶＷｅ的语义关系为主谓关系＞／／介词引发的主谓关系调整建立由ｃｏｒｅＶｅｒＡｉＶｏ办指向的边；ｃｎｏｄｅ．ｄｐ＝ＳＢＶ；ｃｎｏｄｅ．ｓｄｐ＝ｓｅｎＳｄｐ＼＿ｃｎｏｄｅ￣＼；ＥＬＳＥＩＦ（ｃｗｏ办与ｃｏｒｅ的语义关系为动宾关系）身介词引发的动宾关系调整建立由指向＜：＞２〇办的边；ｃｎｏｄｅ． ｄｐ＝ ＶＯＢ；ｃｎｏｄｅ．ｓｄｐ＝ｓｅｎＳｄｐ＼＿ｃｎｏｄｅ￣＼；ＥＮＤＩＦＥＮＤＦＯＲＥＮＤＩＦ３期万齐智等：基于句法语义依存分析的中文金融事件抽取５１７ＥＮＤＦＯＲＥＮＤＦＯＲＳＳＤＰｇｒａｐｈ＝ＳＳＤＰｔｒｅｅ；ＲＥＴＵＲＮＳＳＤＰｇｒａｐｈ；综上所述，ＳＳＤＰ图的构建过程主要包含３步，如算法４所示．第１步，核心动词链的建立，如算法１所示；第２步，ＳＳＤＰ树的生成，如算法２所示；第３步，ＳＳＤＰ树的调整，如算法３所示．算法４．ＳＳＤＰ图构建？输人：语句输出：语句ＳＳＤＰ图ＳＳＤＰｇｒａ夕ＣＶＣ＝０；／／将核心动词链ＣＶＣ置为空利用ＬＴＰ工具获取ｗｎ的依存句法分析结果私根据ＤｊＰｒｅｍｋ生成５伙的ＤＰｔｒ從；＝伙的根结点；＝的孩子结点；／／只有一个孩子结点ＩＦ（ ＨＥＤｎｏ办词性为动词）将ＨＥＤｎｏ办加人ＣＶＣ；ＥＤＮＩＦＣｏｒｅＶｅｒｂＣｈａｉｎ（ＣＶＣｙＨＥＤｎｏｄｅｙ ＤＰｔｒｅｅ）；／／ｃｖｃ返回满足核心动词链建立规则的核心动词ＩＦＣＣＶＣ不为空）ＳＳＤＰｔｒｅｅ＝ＳＳＤＰｔｒｅｅＢｕｉｌｄｉＤＰｔｒｅｅｙＣＶＯ；ＳＳＤＰｇｒａｐｈ＝ＳＳＤＰｔｒｅｅＡｄｊｕｓｔＣ ＳＳＤＰｔｒｅｅｙ ＣＶＣ）；ＥＮＤＩＦ５缺省结构及成分补全本节先介绍４种常见缺省结构以及缺省补全规则，然后描述基于ＳＳＤＰ图的中文夢件抽取算法．５．１缺省结构Ｉ前关于缺省分类的划分未有统一标准、，较：多文雜Ｓ于中文鲁州树虜Ｃｌｉｉｎ＇ｆｃｓｅＴｉｒ＆ｅＢａｘｉｋ，０了８：）［３９］和Ｏｎｔｏｎｃｒｔｓｓ３．０等舊料库划分的缺杳美别迸行研究，主蘩包含６类缺省，如表２所示其中；ＨＯＮＥ－＊Ｔ＊＊ＰＲＯ＊｜ＥＪＨＯＮＥ－＊ｐｒｏ＊＆比最大［１１］．表２ＣＴＢ及Ｏｎｔｏｎｏｔｅｓ３．０中缺省分类类别 描述ＮＯＮＥ－＊Ｔ＊缺省为主题或从句实施者ＮＯＮＥ－＊缺省在“把”字句、“被”字句ＮＯＮＥ－＊ ＰＲＯ＊从句中缺省明显主语ＮＯＮＥ－＊ｐｒｏ＊缺省的为主语或宾语ＮＯＮＥ－＊ＲＮＲ＊发生预指的缺省形式ＮＯＮＥ－＊？＊其他类型拫据上述分类规则弁结合新闻语料分析，本文将事件成分缺省主要分成以下４种结构．（１）直：接成分缺省，根据缺省成分的复杂性》．可分为简单缺省和组合缺省，①筒拳缺翁．缺省成分羅构筒率，可單独作为其它參件的某个成分（如主谣：ｕ賽甸氏中筒单缺貧错＿的：ＳＳＤＰ：圈如调８所示中＊ｅＰＭｐ代讓目的关系个事件用虚线框标识，事件（荚首相；让步，）中简单主悟成分“英首相”作为ＥＴ７（，考虚，爱尔兰担保协议）事件的主语，舉用点横相间的有向虚线连接，表示其篇级关系，并添加依脊关系（ＳＢ．Ｖ，Ａｇｔ；Ｉ，②组合缺省．棠个组合整体作为其事件的某个成分．语Ｓ７“油价再遭痛击，拖累期市”中组合缺省结构的ＳＳＤＰ图如Ｍ９所示．其中事件￡：ＴＳ（油价．遭，痛鸯１整体作为＃件Ｅ Ｔｓ（，拖累．期市）中“拖累”缺失的主语，掭加与？＂拖累”结点的依存关系（ＳＢＶ．Ａｇｔｈ（２）介词引发缺省，虫介词引发的部分成分缺语句氏中介发缺省結构的ＳＳＤＰ图如圈＇１０所示．其中．介词“与”引导关联“中国动力”和“＇中■能源”？因‘？中＿能源”绪点为ＳＢＶ关系，故添加《中国动力”与＊达”结点间的依存关系（ＳＢＶ，Ａｇｔ｝．５１８ 计導机攀报：＿１苹这：）被动语态缺省＊斑“被ｍ字等介词引发的被动语态的成分缺省．“被字属于：特殊介诃，首先按照介词引发的缺省过程构建依存图，然？后建立共享成分与缺笞事件的宾语关系．语句玫中被动语态缺省戴抅的ＳＳＤＰ图如：圈１１所示？其中，Ｐａｔ治受事長系，被”结点只，起引导连接作用，既然引导的成分关：系已修改．则其祖关边＇可直接剪藤剪枝，后猶依存图姐圈３Ｊ所示．＿移＿１１剪枝？被”后ｆｔＳＳＤＰ嫌（４）间接修饰缺省，语义上存在修饰关系的缺省结构．间接修饰缺省主要是反映事件间论元之间关系，充当修饰作用的一般为关联事件的主语或其主语的ａ语？如语句ｓ３，其定语“京东＾’作为“市值”的修饰；语句ｓｒ深圳成立私■．基金，规模为１卯亿元”？其宾语“私募基金”修饰后半句的主语“规模请＿Ｓｓ中间接修饰缺＃雜构的ＳＳＤＰ顧如厲１３所国１３：舊句為鲁：间：餐修饰＿養讀翁前銘ＤＰ图示，添加了“京东”与“市值”之间的定语关系（ＡＴＴ，：奠中，ｅＲｅｓｕ表示因果关系？Ｎｍｏｄ表示名字修饰角色．５． ２补全规则通过上节缺省结构分析可．知，补全＿會成分可在与本事件时间屬近的早期事＃中聱找，但＃＿所有缺省都薷进行补全？存在语句本身无主语的情况，如‘气只别减值风险＞严防商誉髯＇？此，何时启动缺—补条机制、如何获取补全内容ｆ是缺省尊全＿两大难点，尤其是间接缺省，无法从句法靖构上进１于判断，必须借助语义分析．不同的缺省类ＪＬ其朴全启动时机和规则＃＇在義舁＊下面分别对主语和宾＇语缺？进行分祈．在语法结构中，动词分为及物和不及物两类．宾语缺省补全需＿合语句核心动词类型共同分析？如果核心动词为不及物，其缺省麗正常情况＊无需启动补全机制？当核心动词为及物动词，语句一般会跟随宾｜吾对象．或以指代词戒式给出．真班的宾离缺省大多由介词．或被动语态引发，本文前述已对这些结构做了调整．由介坷钥发的缺省，可根摒介词的识别？启动补全操作．而被动语态前期已作成分关系调整＞可直接识别抽取，也无需补全．曲语料分折案现Ｉ齊享主语的事件间的ｉ吾义依存关系薦中于因果（ｅＲｅｓｔｉ）、顺麗￡ｅＳｗｃ）和目的ＣｅＰｕｒｐ）．系．对于倚摹的聲到句算鄭子成分相对完義，通常不会共享，主语，即使存在成分缺省，一般默认为事件实际天主瑨，不皂动补全操作．本文主语补全时机和规则主要围绕上述３种宙义关系，我们称这些关系为引ａ关系．下面针对具輝情况分别讨论．５．２．１直接成分缺省补全直接成分缺省是基ｆ依存甸法结构进行判断＜当ＳＳＤＰ图中的核心根结点不存在＾＾为ＳＢＶ孩子结Ａ时，说项只，是句法结构上存在主语缺失＾由于穿在部分实际无主谱情况，所以是否窬寒４卜全缺＃，还需再结含语义依存关系进行分析，从而提出３＊规则４？：规则：６，规则４．如果由核心根结点触发的事件不存在具有窜义依存关系的较早事件，规不必补全．规则５．如巣存在盡接成分缺失，且Ｅｉ？：Ｔ中为非引发关系，碁最近关件只存在一个ｉｔ谣，则在綦近的关联事件中查询获取关联事件的主语，补全缺省主语，即简单缺省补全．贿轉：基；懷滕析爾申纖麟＃抽取 ６？ 議期规则６．如果存崔直接成分缺失，且中？＾为引发关系，春晕近关联事件＃存多个主每，则取最近关联？件中駔禽当翁事件最远的主第〈关联事件第一个主语＇），补全缺省主语－规则４聲求，补查擁作的前痗必须蠢共享翁请＇的句乎在当前事件之前发生，且存在语义依存关系．这符合捂句表达逻辑．因此肩则４是其它缺省规则执行的前提；规则ｓ和规则６分别讨论不同《＾关系下的缺省补全情况．规厕５和规则６均是依照人们使用语言的习惯，取关联夢件中位于语甸最前面”的主谮作为缺翁补全？图３展示了规则５．补全过程？事件ＥＴ７書在主语缺失ｓ因此在最近关联事件￡乃中査询核心根结点的直接孩子结点，且办＜为ＳＢＶ．针对规则６，我们通过一个示例进行说明．例２．＊上航飞东言一航班因机械故障返航，Ｂ．另调配飞机”的ＳＳＤＰ图如图１４所示，其中，“调卸＂事件缺少主谞＊其关联事件“返航”穿在多个主语，属此取最远主语＾上航”作为■＂调配，件主语．．在财绖领域中，作为共享主语，一般以细分的名词唐多，如公Ｕ、股票的筒称、机构团体等专有名词集属此，当存在直接成分缺失，为引发关系，且鼙．近关联事件只存在一个主语时，则述需倩助该主语的词性细分缺省补全情况．？ ＰＯＬ１ｆｌｉ、ｎｚ：．，ｆｔｈ？｝｝为爵性纛，其中ｎｉ、ｎｚ、ｎｈ和ｊ分别表示机构团体、专有名词、人£ 和筒称？ＰＱＬ为简单的词性集合，无领域特性，在规则判断过種中无需复杂的计＃，直镔词＇性对比即可？规则７．当最近关联喜件的主语词性不属于ＰＯＬ，且主语存在定宙时，则取主语第一个定语补全缺省主最．规则８．当最近关联事件的主语词性不唇于ＰＯＬ，且主语不存在定语，则取关联事件整体补全缺省主语，即组食缺朱补全．规则９．当綦近关联事：彳牛的芏锫词性为名词或扇于ＰＯＬ，则直接取关联事件主谞补全缺喾■趨则？？规则９，射外是：趨则￥的３１补遺式，ｉ寸论＾办为引鸯关系但主涪唯一的情：ｔｉ对内则分析关联事件主语词性．财经领域标题常描述同一个主体的不同方面情况，当关联＃件主语词性属ｆＰＯＬ，则该主语作为缺曹补全成分的概率．较大，如例４ｒ曹不属节ＰＣ儿且眘在定窜Ｂ寸５窣谞常为专有词Ｉ匚？从而共享此定ｉｓ，即缺＃定ｉｓ，如例３所示．例３． “自主品牌车市寒冬如何活下去，不少紙为牟瘼背兼極”＆含睿件ｅｔｍ（，沦为，车展ｆ量板．其中，主语寒冬°不属于ＰＯＬ，但其存在Ａ：ＴＴ“自主品牌当事件全主语財，稂据规则７可获取“自主品牌＇谮ＩｆＳ７的ＳＳＤＰ蘭如國ｆＩｆ示？主语？袖价＃作为普通名词，且不存在定语，满足规则８，所以事件ＥＩＶ整体作为事■件ＥＴＳ的主谱，例太“禽岸人民币贬值，跌败《？９３关口”包含事件Ｅｔ（，跌关口）．其中ｗ离岸人Ｓ币”作为专有名词，符合规则％拳件ＥＴｙ的主语补全为“离岸人民币％其．ＳＳＤＰ图如图１５所示．ｇ．２．２介词及被动＇欝寒缺誉补棄中文的介词ｆｅ常连接多个名ｉＯ性词谓，针对前面０出现的名词，在后儀搭配介词的描述中一般将其省略？筒单地从句法上分析，夢件已经存在相关成分，但逻辑上＿人分析犮现，相关成分并不露备．同时，对于特殊介词“被”字．既兼：顾Ｔ介词游点，又包含了主语和実－语语义的反转，也霄要特殊处理，以便于缺省补全．因此，专门提出规则１０和规则１１进行处理．规则１０．如果为介爾引发的成分缺省，且为引发关系，则在最近关联事件中查找主语补全缺５２０ 计算机学报 ２０２１年省的主语或宾语．规则１１．如果由被动语态引起的成分缺省，且《＾为引发关系，则取最近关联事件的主语作为缺省事件的宾语成分．图１０和图１２分别展示了规则１０和规则１１的补全情况．在图１０中，介词“与”触发启动补全，在关联事件ＥＴ１２（中国动力，飙近，２１％）中查找其主语“中国动力”，并将其与“与中国能源”合并作为ＥＴ１３的主语．在图１１中，由“被”字引起的被动语态，根据规则１１，获取关联事件ＥＴ１４（伽马投资，披露，基金运作情况）中主语“伽马投资”作为￡７＼５缺省宾语．５．２．３间接缺省补全除了句法结构上直观的缺省，还存在语义上的间接缺省．间接缺省主要缺省修饰语，常由公司或机构等充当．如果缺省事件本身已经存在词性属于ＰＯＬ的名词作为主语，说明已限定范围，缺少修饰成分的可能性较小，此时无需补全；当事件存在主语，主语词性不属于尸〇１，且《＾关系为引发关系时，才进行间接缺省补全，其规则如下．规则１２．如果关联事件主语的词性属于ＰＯＬ，且主语存在定语，同时定语的词性也属于ＰＯＬ，则在最近关联事件中取距离本事件最远的定语（关联事件第一个定语），补全主语的缺省修饰部分．规则１３．如果关联事件主语的词性属于ＰＯＬ，且主语不存在定语，则取最近关联事件中距离本事件最远的主语（关联事件第一个主语），补全主语的缺省修饰部分．规则１２和规则１３—定程度上属于规则９的细化，且同时兼顾了规则７存在定语的情况．不同的是，规则９为句法结构不存在主语时的缺省补全，而规则１２和规则１３是解决存在主语的修饰缺省．另外，较多词性属于ＰＯＬ的公司词语位于描述本公司各项指标的定语中或直接代表默认指标（即充当主语），因此补全修饰缺省可主要考虑这些情景．如图１３满足规则１２补全条件，故获取ＡＴＴ“京东”作为事件主语“市值”的修饰补充．尽管上述规则可涵盖绝大部分缺省，但还是存在遗漏情况，如共享成分为事件宾语．因难于判断需补全的成分在关联事件中扮演的角色，且该情况在语料中占比较小，因此本文暂未考虑此情形，在后期研究中将进一步分析此情况．５．３基于ＳＳＤＰ图的中文事件抽取算法综上所述，本文研究的事件抽取主要包括３步．第１步，依次扫描ＳＳＤＰ图中核心根结点及其孩子结点；第２步，抽取事件主语、谓语和宾语，并判断是否启动补全；第３步，基于５．２节补全规则获取补全内容．过程如算法５所示．算法５．基于ＳＳＤＰ图的中文事件抽取．输人：语句的ＳＳＤＰｇｒａ灿输出：事件列表ＦＯＲＸｃｏｒｅＲｏｏｔＮｏｄｅＧＣＮＳ）／／ＣＮＳ为沉的孩子结点集合，即所有核心根结点ＥＴ＝０？，ＥＴ．ｐｒｅｄ＝ｃｏｒｅＲｏｏｔＮｏｄｅ． ｔａｇ；／／ｍｇ为结点的词标签ＦＯＲ（ｃｎｏｄｅｅＣＯＲＮＳ）／／ＣＣＲＮＳ为ｃｏｒｅＲｏｏｔＮｏｄｅ的孩子结点、集合ＩＦ（ｃｎｏｄｅ．（ｉｐ为ＳＢＶ）ＥＴ．ｓｕｂ＝ｃｎｏｄｅ． ｔａｇ；ＥＮＤＩＦＩＦ（ｃｎｏ办．办＾为ＶＯＢ或ＦＯＢ）ＥＴ．ｏｂｊ＝ｃｎｏｄｅ． ｔａｇ；ＥＮＤＩＦＩＦ（ｃｎｏｔｉｅ．ｍｇ为“被”字且属于引发关系）／／规则１１将最近关联事件的主语添加至ＥＬＳＥＩＦ（ｃｎｏｄｅ．ｆｒｅｆ不为空且属于引发关系）／／规则１０／／＞ｒ吵为结点的介词关联标识将最近关联事件的主语添加至ＥＬＳＥ为ＳＢＶ且ｃｏｒｅＲｏｏｔＮｏｄｅ．ｓｄｐ不属于引发关系）／／规则５将最近关联事件的主语添加至ＥＬＳＥＩＦ（ｃｎｏｄｅ． 为ＳＢＶ且ｃｏｒｅＲｏｏｔＮｏｄｅ． ｓｄｐ属于引发关系）ＩＦ（最近关联事件中存在多个主语）／／规则６将第一个主语的添加至ＥＬＳＥＩＦ（最近关联事件中只存在一个主语）ＩＦ不属于ＰＯＬ且５ｗＷＶ〇ｔｉｅ存在定语）／／规则７将的第一个定语添加至ＥＬＳＥＩＦ不属于ＰＱＬ且不存在定语）／／规则８将最近关联事件中所有结点的组合添加至ＥＴ．ｓｕｂ；ＥＬＳＥＩＦ属于ＰＯＬ）／／规则９将最近关联事件＾＾Ｎｏｔｉｅ．ｒａｇ添加至ＥＮＤＩＦＥＮＤＩＦ万齐智等：基于句法语义依存分析的中文金融事件抽取 ５２１３期ＥＬＳＥＩＦ（ｃｎｏｄｅ．为ＳＢＶ且ｃｎｏｄｅ．抑兑ｔｇ不属于ＰＯＬ且ｃｏｒＡｏｏｄＶｏ办为引发关系）ＩＦ（关联事件主语属于ＰＯＬ且ｓｕｂＮｏｄｅ存在定语且５ｗ６Ｎ〇（ｉｅ的定语的属于ＴＯＬ）／／规贝＂２将最近关联事件中第一个定语添加至ＥＬＳＥＩＦ（关联事件主语ｍＷＶｏ也抑伽ｇ属于ＰＯＬ且不存在定语）／／规则１３将最近关联事件中第一个主语添加至ＥＮＤＩＦＥＮＤＩＦＥＮＤＦＯＲ将添加至￡ＸＴ列表；ＥＮＤＦＯＲ６实验测评浪网数据集中随机选取５０００条财经新闻标题，由计算机计算得到的规则覆盖情况如表４所示．其中，事件数为７５７５，事件间存在语义依存关系且后面的事件在句法结构上没有主语的事件对总数为１４０１（可能存在直接成分缺省），事件间存在语义依存关系且后面的事件在句法结构上存在主语的事件对总数为１４６０（可能存在间接缺省），占比的单位为％．表４数据集中本文规则覆盖情况规则 数量 总数规则１ ４８４２ ５０００规则２ ２３９３５０００规则３ １５８ ５０００规则４ ４０９８ ７５７５规则５ ６８５ １４０１规则６ ４９ １４０１规则７ ２７ １４０１规则数量总数规则８１５４１４０１规则９３７６１４０１规则１０３７１４６０规则１１６４１４６０规则１２３１１４６０规则１３７３１４６０占比１０． ９９２６． ８４２． ５３４． ３８２． １２５． ００在实验中，依存句法分析、语义角色标注均采用哈尔滨工业大学语言技术平台ＬＴＰ？，语义依存分析使用哈工大联合科大讯飞公司共同推出的“哈工大讯飞语言云”平台？．６．１实验数据集本实验定位于财经新闻标题，数据采自新浪财经网？滚动新闻，同时为了确保数据来源多元化，还选取了东方财富网？数据，用于验证抽取方法针对不同数据集的鲁棒性．（１）数据集本文选取新浪财经网（简称新浪网）２０１８年１月至１２月财经新闻标题，共计４９２３３６条；东方财富网（简称东方网）２０１９年５月至６月部分财经新闻数据，共计９７８条．数据集中抽取事件及相关指标的统计结果如表３所示．表３数据集中抽取事件及相关指标的统计结果数据集 新闻数 事件数 无主语数 无宾语数新浪网 ４９２３３６ ７２４２９４ ２２９３４６ １９８９９１东方网 ９７８ １５３７ ５０３ ３８４合计 ４９３３１４ ７２５ ８３１ ２２９８４９ １９９３７５其中，事件数为采用本文方法由计算机抽取得到的结果，非人工标注结果；无主语数、无宾语数分别指计算机直接抽取（即没有进行主语、宾语补全）时没有抽取到主语、宾语的事件数量．新浪网中平均每条新闻标题中有１．４７个事件，东方网中平均每条新闻标题中有１．５７个事件．为了验证本文所提规则的覆盖性，我们从新由表４可知，利用ＣＶＣ比原始ＤＰ树多识别的事件占比增加５６．４４％（包含事件的语句数为４８４２，ＣＶＣ能够识别的事件数为７５７５）．另外，语料中直接成分缺省的补全规则占比较大，间接缺省仅占小部分，规则覆盖的总体情况与中文实际表达习惯较为吻合．（２）文本预处理新闻标题数据集中存在两个导致句法分析产生错误的问题： ①新闻标题常包含专家、企业的意见或评述，如标题“银保监会：信托公司监管评级将增设支持民企评分细项”中“银保监会：”，这些成分对于所需信息的抽取帮助甚微，且干扰ＬＴＰ句法依存分析； ②新闻正、副标题之间一般以空格隔开，ＬＴＰ对于空格并不认为隔开两个子句，句法依存的分析效果不佳．因此，在预处理阶段，首先去除正标题之前的内容（一般为“：”之前），然后以中文逗号代替正、副标题之间的空格．（３）标注数据集原始新闻标题数据集巨大，人工很难完成所有数据的标注，因此随机选择部分数据进行人工标注（新浪网１２００条，东方网５００条），并以此验证事件抽取效果．标注数据集中标注事件及相关指标的统计结果如表５所示．①ｈｔｔｐ：／／ｌｔｐ． ａｉ／ｄｏｃｓ／ｉｎｄｅｘ． ｈｔｍｌ②ｈｔｔｐｓ：／／ｗｗｗ． ｘｆｙｕｎ． ｃｎ／ｓｅｒｖｉｃｅｓ／ｓｅｍａｎｔｉｃＤｅｐｅｎｄｅｎｃｅ③ｈｔｔｐ：／／ｆｉｎａｎｃｅ， ｓｉｎａ． ｃｏｍ． ｃｎ／ｒｏｌｌ／＃ｐａｇｅｉｄ＝３８４＆－ｌｉｄ＝２５１９＆－ｋ＝＆－ｎｕｍ＝５０＆－ｐａｇｅ＝ｌ④ｈｔｔｐ： ／／ｆｉｎａｎｃｅ，ｅａｓｔｍｏｎｅｙ．ｃｏｍ／ｎｅｗｓ／ｃｙｗｊｈ． ｈｔｍｌ５２２ 计算机学报 ２０２１年表５标注数据集中标注事件及相关指标的统计结果数据集新闻数事件数无事件数主语数宾语数补全主语数补全宾语数新浪网 １２００ １８９８ ６８ １５６９ １３５０ ５２３ ４７５东方网５００７１８ １５ ５７１ ５７２ ２１３１４９合计 １７００ ２６１６ ８３ ２１４０ １９２２ ７３７ ６２４其中，事件数是指人工标注得到的事件数量；无事件数是指人工标注没有发现事件的新闻标题数量；主语数是指有主语（含补全主语）的事件数量；补全主语数是指从新闻标题直接标注得到的事件中缺省主语或主语不完整，但人工可以从相关联的事件中发现并补全主语的事件数量；宾语数、补全宾语数的概念分别类似于主语数和补全主语数．在合计标注的数据集中，补全主语数、补全宾语数分别占到了主语数和宾语数的３４．４４％、３２．４７％，进一步验证了中文语句中缺省情况的普遍性以及补全的重要性．本文共选用具备较强财经知识的３位教师作为事件标注者．标注标准： ①如果语句不是由动词触发，则标注为无事件； ②如果语句有核心动词，则认为存在事件，且每一个核心动词触发一个事件，但将同一个语句中相邻核心动词的多个事件合并为一个事件（核心动词间只包含副词也看成是相邻）； ③如果事件应该存在主语或宾语，则无论是否缺省，均标注为存在主语或宾语； ④如果事件存在主语或宾语缺省，则标注为补全主语或补全宾语，并给出补全后的主语或宾语．当出现标注结果不一致的情形，则由３人讨论确认最终标注结果．标注一致性评测结果是３位标注者标注结果完全相同的数量占标注总数量的比例（单位：％），如表６所示．表６人工标注数据集一致性评测数据集 核心动词 事件 主语 宾语 补全主语 补全宾语新浪网９８． ６３ ９７． ７９ ９７． ７１ ９９． １１ ９４． ４６ ９８． ３２东方网 ９８． ３３ ９７． ３５ ９７． ２０ ９８． ７８ ９４． ３７ ９６． ６４合计 ９８． ５５ ９７． ６７ ９７． ５７ ９９． ０１ ９４． ３０ ９７． ９２由表６可知，核心动词易判断，宾语及补全宾语结构简单，其标注一致性均比较高．补全主语因缺省结构复杂，标注一致性最低，分歧主要集中于简单缺省和组合缺省的判断，二者作为补全成分有时均成立，难以明确地区分．６．２评测指标为了更好地理解测评指标，先对标注数据集中的相关统计指标进行说明，具体如表７所示．为了简化，可将正确抽取数、不完整抽取数分别简称为正确数、不完整数．表７标注数据集中的相关统计指标指标符号 指标含义 指标说明ＬＱ 标注数（ＬａｂｅｌｅｄＱｕａｎｔｉｔｙ） 人工标注得到的数量ＥＱ抽取数（ＥｘｔｒａｃｔｅｄＱｕａｎｔｉｔｙ）基于本文方法由计算机抽取得到的数量ＣＥＱ正确抽取数（ＣｏｒｒｅｃｔＥｘｔｒａｃｔｅｄＱｕａｎｔｉｔｙ）在抽取结果中抽取正确（即抽取结果也是人工标注结果）的数量ＷＥＱ错抽数（ＷｒｏｎｇＥｘｔｒａｃｔｅｄＱｕａｎｔｉｔｙ）在抽取结果中抽取错误（即抽取结果不是人工标注结果）的数量ＭＱ漏抽数（ＭｉｓｓｅｄＱｕａｎｔｉｔｙ）人工标注结果中没有被计算机抽取到的数量ＷＱ错误数（ＷｒｏｎｇＱｕａｎｔｉｔｙ）在抽取过程中没有正确抽取的数量，包含错抽数和漏抽数ＩＥＱ不完整抽取数（ＩｎｃｏｍｐｌｅｔｅＥｘｔｒａｃｔｅｄＱｕａｎｔｉｔｙ）核心动词抽取正确但其他属性抽取错误的事件数量注：（１）对于事件抽取，正确数ＣＥＱ是指所有事件属性均抽取正确的事件数量，错抽数ＷＥＱ是指核心动词未抽取正确的事件数量；（２）对于事件抽取，抽取数ＥＱ等于正确数ＣＥＱ、错抽数ＷＥＱ和不完整数ＩＥＱ之和；（３）对于事件属性（核心动词、主语或宾语）抽取，抽取数ＥＱ等于正确数ＣＥＱ和错抽数ＷＥＱ之和；（４）对于人工标注没有发现事件的新闻标题，如果计算机也没有抽取到事件，这表明计算机抽取正确，但由于标注数ＬＱ中无法反映无事件数，因此在计算事件抽取评测指标（准确率、召回率和Ｆ１值）的时候均不考虑无事件数指标．根据以上概念，错抽数（对于事件抽取还包括不完整抽取数）影响抽取准确率，错误数（包括错抽数和漏抽数，对于事件抽取还包括不完整抽取数）影响抽取召回率．基于表７的相关统计指标，可得到准确率（＿？厂６￡：￡？＇０？，＿？）、召回率（＿？？６［＜２／／，＿？？）和１；＇１值３种评测指标的计算公式如下：Ｐ＝ＣＥＱ／ＥＱ，Ｒ＝ＣＥＱ／ＬＱ，Ｆ１＝２ＸＰＸＲ／（Ｐ ＋Ｒ）．６．３实验结果针对事件及事件属性（核心动词、主语或宾语）抽取，首先给出表７所列各指标在标注数据集中的统计结果，再分别就准确率Ｐ、召回率ｉ？和Ｆ１值３种指标进行评测，以评价本文方法的抽取效果．６．３．１实验统计数据（１）核心动词抽取．核心动词抽取是事件抽取的关键，不仅反映了事件探测效果，还直接决定其他属性抽取的意义．标注数据集中核心动词抽取的各指标统计结果如表８所示．表８核心动词抽取的统计结果数据集 抽取数 正确数 错抽数 漏抽数新浪网 １８９９ １７６３ １３６ ６７东方网 ７１５ ６９１ ２４ １６合计 ２６１４ ２４５４ １６０ ８３万齐智等：基于句法语义依存分析的中文金融事件抽取 ５２３３期（２）主语抽取．主语作为事件的实施者，其重要性不言而喻．标注数据集中全部主语抽取和补全主语抽取的各指标统计结果如表９所示．其中，全部主语抽取为所有主语抽取情况，包含补全主语抽取．由表９可知，对于合计数据集而言，补全主语错抽数占全部主语错抽数的比例高达８５．６６％，说明在本文语料中，全部主语错抽的影响主要源于补全主语错抽．表９主语抽取的统计结果数据集全部主语 补全主语抽取数正确数错抽数漏抽数 抽取数正确数错抽数漏抽数新浪网１５７９１３７６２０３４８ ５９４ ４０８１８６ １１东方网 ５７３ ５１８５５ ２２ ２１８ １８３３５ ８合计２１５２ １８９４２５８ ７０ ８１２ ５９１２２１ １９（３）宾语抽取．标注数据集中全部宾语抽取和补全宾语抽取的各指标统计结果如表１０所示．表１０宾语抽取的统计结果￣￣￣全部宾语抽取补全宾语抽取救据集抽取数正确数错抽数漏抽数抽取数正确数错抽数漏抽数新浪网１３３７ １２１１ １２６ ３５ ５３７ ４３６ １０１ ３东方网 ５６３ ５２０ ４３ １９ １７７ １３５ ４２ ３合计 １９００ １７３１ １６９ ５４ ７１４ ５７１ １４３ ６由表１０可知，对于合计数据集而言，补全宾语错抽数占全部宾语错抽数的比例高达８４．６２％，说明在本文语料中，全部宾语错抽的影响主要源于补全宾语错抽．（４）事件抽取．事件抽取包含事件所有属性的抽取，因此正确抽取是指事件全部属性均抽取正确．标注数据集中事件抽取的各指标统计结果如表１１所示．表１１事件抽取的统计结果数据集 抽取数 正确数 不完整数 错抽数 漏抽数新浪网１８９９ １５７９ １８４ １３６ ６７东方网 ７１５ ６２７ ６４ ２４ １６合计 ２６１４ ２２０６ ２４８ １６０ ８３６．３．２缺省结构覆盖率为了体现本文所提规则的覆盖情况，按照第５节描述的缺省结构对人工标注语料进行了统计，具体如表１２所示．表中数据为语料中缺省结构出现次数在缺省总数的占比（单位：％其中，“宾作主”表示事件宾语充当或修饰其他事件主语的情况．表１２缺省结构覆盖率数据集 简单 组合 间接 介词 被动 宾作主新浪网 ６９．２２ １１． ０９ １２． ８１ ２． ６８ ３． ０６ １． １５东方网 ７４． ６５ ８． ４５ ９． ８６ ２． ８２ ４． ２３ ０． ００合计 ７０． ７９ １０． ３３ １１． ９６ ２． ７２ ３． ４０ ０． ８２由表１２可知，表中６种缺省结构涵盖了语料所有缺省情况，本文考虑了前５种，其覆盖率合计值达９９．１８％．“宾作主”情况仅在新浪网中出现，覆盖率为１．１５％，说明本文提出的规则涵盖了绝大部分的缺省情况，覆盖率可以保证．６．３．３实验评测（１）核心动词及事件抽取评测结果如表１３所示．表１３核心动词及事件抽取的效果数据集核心动词抽取／％ 事件抽取／％准确率 召回率 值 准确率 召回率 值新浪网 ９２． ８４ ９２． ８９ ９２． ８６ ８３． １５ ８３． １９ ８３． １７东方网９６． ６４ ９６． ２４ ９６． ４４ ８７． ６９ ８７． ３３ ８７． ５１合计 ９３． ８８ ９３． ８１ ９３． ８４ ８４． ３９ ８４． ３３ ８４． ３６由表１３可知，合计的核心动词抽取的Ｆ１值达９３．８４％，验证了按照核心动词链建立规则识别确认事件的有效性．以上结果主要受益于事件绝大部分由动词触发，而每个事件是独立的，在语言学句法结构上均采用并列关系进行事件关联．本文的核心动词抽取方法遵循了这一特点，将ＳＳＤＰ树中核心动词进行拆分，形成ＳＳＤＰ图，图中ｉ？〇〇ｚ结点的每个孩子均为核心动词．然而，核心动词在抽取过程中还存在一些不足，如多词性问题，词性的准确性一方面影响依存句法结构，另一方面影响核心动词的识别，在一定程度上降低了核心动词抽取的效果，后期工作可考虑结合动词搭配的论元来确定多词性词语的词性．另外，新浪网的Ｆ１值为９２．８６％，较东方网的９６．４４％低了３．５８个百分点，主要是由两个原因导致的： ①新浪网的新闻标题更偏好于采用大量动词表达，一定程度上降低了识别新闻标题中核心动词的准确率； ②新浪网的新闻标题对正文的概括更为精简，词汇之间的关联降低，不利于句法分析．对于事件抽取，通过Ｆ１值可以发现，其抽取效果也不错，合计的Ｆ１值为８４．３６％，验证了本文方法对事件抽取的有效性．但较于核心动词抽取，因同时添加了正确抽取主语和宾语的要求，Ｆ１值由核心动词抽取的９３．８４％降至事件抽取的８４．３６％，降低了９．４８个百分点．核心动词抽取正确时事件抽取错误（即事件不完整抽取的情况）的统计结果如表１４所示，其中主语错抽数、宾语错抽数中都包含了“主宾语均错抽数针对合计数据集，核心动词抽取正确时的主语错抽数、宾语错抽数与不完整数的占比分别为６８．９５％和４６．３７％，说明主语比宾５２４ 计算机学报 ２０２１年语被错抽的可能性更大．这是因为主语省略较宾语省略更为普遍，且形式多样化，规则难以全面覆盖、完全适用．表１４核心动词抽取正确时主语和宾语错抽的统计结果数据集 不完整数 主语错抽数 宾语错抽数 主宾语均错抽数新浪网东方网１８４６４１２６４５８１３４２３１５合计 ２４８ １７１ １１５ ３８（２）主语抽取评测结果如表１５所示．其中，合计的全部主语抽取的Ｆ１值达８８．２６％，验证了本文方法对于主语抽取的有效性．表１５全部主语及补全主语抽取的效果数据集全部主语抽取／％ 补全主语抽取／％准确率 召回率 值 准确率 召回率 值新浪网东方网８７． １４９０． ４０８７． ７０９０． ７２８７． ４２９０． ５６６８． ６９８３． ９４７８．０１８５． ９２７３．０５８４． ９２合计 ８８． ０１ ８８． ５０ ８８． ２６ ７２． ７８ ８０． ３０ ７６． ３６同时，主语抽取的效果严重依赖于核心动词抽取的效果．分析如下： ①如果核心动词抽取正确，则主语被正确抽取的可能性较大．例如，针对合计数据集，基于表１４可计算得到核心动词抽取正确时的主语错抽数与表８中的核心动词正确数（２４５４）的占比为６．９７％，即核心动词抽取正确时主语错抽率仅为６．９７％； ②如果核心动词抽取错误，则主语被错抽的概率就要大得多．例如，由于核心动词错抽导致主语和宾语错抽的统计结果如表１６所示．表１６核心动词错抽导致主语和宾语错抽的统计结果数据集核心动词错抽数主语错抽数宾语错抽数主宾语均错抽数新浪网１３６７７４５３４东方网２４１０９８合计１６０８７５４４２在表１６中，主语错抽数、宾语错抽数中都包含了“主宾语均错抽数针对合计数据集，主语错抽数占核心动词错抽数的比例为５４．３８％，即核心动词抽取错误导致的主语错抽率高达５４．３８％．对于补全主语抽取，其合计的Ｆ１值为７６．３６％，验证了本文提出的主语缺省补全规则的有效性．但相较于其他属性的抽取效果，补全主语的Ｆ１值最低．主要源自于如下几个方面：①未考虑利用关联事件的宾语补全缺省主语的情况．存在利用关联事件中的宾语补全缺省主语的情况，如语句Ｓ８，宾语“私募基金”作定语补全“规模②主语省略形式多样化．缺省事件需要补全的主语以多样化的形式处于关联事件中，给出的规则难以适用于所有情况．③语义依存关系存在错误．本文借助了结点间语义依存关系，但对于核心动词间的语义依存关系，ＳＤＰ工具存在语义依存关系结果分析错误的情况，使得不满足相关规则，导致抽取错误．另外，对比两个标注数据集，补全主语抽取的效果存在差异，主要是由于新浪网的新闻标题过于精简并采用多动词所致，凸显了词语多词性问题带来的影响．（３）宾语抽取评测结果如表１７所示．由表１７可知，合计的全部宾语和补全宾语抽取的Ｆ１值分别为９０．５８％和８５．３５％，验证了本文方法对于宾语及补全宾语抽取的有效性．表１７全部宾语及补全宾语抽取效果数据集全部宾语抽取／％ 补全宾语抽取／％准确率 召回率 值 准确率 召回率 值新浪网９０． ５８ ８９． ７０ ９０． １４ ８１． １９ ９１． ７９ ８６． １７东方网 ９２． ３６ ９０． ９１ ９１． ６３ ７６． ２７ ９０． ６０ ８２． ８２合计 ９１． １１ ９０． ０６ ９０． ５８ ７９． ９７ ９１． ５１ ８５． ３５同样，宾语抽取的效果也是严重依赖于核心动词抽取的效果．例如，针对合计数据集，基于表１４可计算得到核心动词抽取正确时的宾语错抽数与表８中的核心动词正确数（２４５４）的占比为４．６９％，即核心动词抽取正确时宾语错抽率仅为４．６９％；基于表１６可计算得到宾语错抽数占核心动词错抽数的比例为３３．７５％，即核心动词抽取错误导致的宾语错抽率高达３３．７５％．相对于主语抽取，无论是全部还是补全，宾语抽取的效果均要更好．由前文叙述可知，宾语缺省形式较为常规化，主要由介词和被动语态引起，其余大部分为含有宾语和无宾语情况（不及物动词作为核心动词），规则容易总结，且适用性较好，使得其效果好于主语抽取，但对标宾语抽取规则本身，还存在２点不足： ①被动语态只考虑了“被”字结构，中文中还存在一些其他表示被动的词语，如“遭”字结构等；②语义依存关系用于判别介词引发的宾语缺省存在一■定的局限性，其准确率还有待进一■步提尚．另外，对于主语或宾语抽取，其效果除了受核心动词抽取的影响以及与补全主语或补全宾语抽取的效果有关之外，还会受ＬＴＰ分词、依存句法分析结果的影响．标注数据集中包含了部分分词及依存贿轉：基；懷滕析爾申纖麟＃抽取 ５２５ ３期句．法分析错误的憬况，对于吩词及依存句法分析正确的数据对象，本文方法在事件＜及各属性上的抽取效果．均＃有一定涯度的提齊＊但中文分飼举身就是一个很具挑战性的开放难題，需要考虑语言孛特点和调语语义等情况＊有待提出更好时解决方法、针对两个人工标注数据集，事件及各属性抽取敏果的直规对比分析鐵舉分别如經１￥和图１７所示＊其中．，横坐标为攀忤及各屬性下的３种指标，纵坐标为各指标ｆｔ（单位：从圈１６和图１７对以看出，东方两的抽取效莱整体略好于新浪网，这主．愛受核心动词抽取影响．６．３．４其他领域抽取效果为了体现本文方法臭有较好的扩展性，选择对开敢域新闻进行夢件抽取实雜，本文随机选取新狼网：２０：１８年翁菌标癯■０条．：其中，人：工标注的事件数、全部主语数和补全主语数分别齿戚，？、肋４和１２＾无棄语缺省情况；实验抽取的各项指标的统计数据如表所示．表１８新浪新闻中主语补全及事件抽取的统计结果事项 抽取数正确数不完整数错抽数漏抽数主语补全事件抽取１４３１０００４３１１９５６８５３６９３４１８由＃注数据可知，补全主语数在全部主语数中的占比为１＾铋％，远低ｆｆ财费新闻领域，且通过标注发现，缺省结构基本上集中于简单主语缺省？这是由于领域的特性所戴，财经领域新闻标題大多描述某个公司或企业不同方面的箱：关＿．息ｉ在中文：表达中．：食了简输ｓ隱一个主语在后续相邻语甸的表达中，无论充当相同成分（：简单缺會》还是作定语修饰成分（：间接缺省５，常省略．而开放域新闻常为一个事件的发生如何影响其他事＃，单个事件的成分比较健全，所以缺省数较：少？呙外，财经领域包含较多数值铺，即描述事件的具体情况．这使每事件之间存在较多Ｗ果关系，而Ｈ果关系中的结果，有较大一部分是由一个语旬整体所致．所以才：氧领域存存一定的１１脅缺省？由此可知，财经颔域妓其他领域＊不权存在较多的缺＃倩况．且缺省Ｗ形式较齿丰富．进一步佐证了本文研究财经金融领域的＃件抽取及缺省成分补全晷有较大的现实意义，在抽取效果上，测１平结果如表１＆所示．表１９新浪新闻中事件抽取及主语补全的效果事件抽取／％ 补全主语抽取／％准确率 召回率值 准确率召回率Ｆ１值８９． ２３８９．１３８９．１８ ６９．９３８０．００７４．６３从表１普与＇＿表１Ｓ对比可知，无？是導件抽取述是金鲁．全＊有开翁域的敏舉均与食＿輕；域祖当，且略有槔升，说明本文方法隹领域扩雇上具有＿好的适處性，＃棒：性较强，对于事■件抽取，Ｆ１揸植表１３中提高３＊ｔＬ０１个百分点，主荽是喪为领域＃业词汇较少，分词及句法结构分析的结果较好？在补全主语抽取方面浪：开放域缺省结构筒单＿，其Ｆ１值比識１５擾开了Ｕｇｉ令百分点，６．４与其他方法的实验对比⑴纖鑛选择本文狀：两个方Ｗ幾雜对比：方法．一龙Ｗ：幾雜ＤＰＭ和ＳＤＰ抽取方：法，验征ＳＳＤＰ组含的有效性；另一方面翁＿ＳＲＬ［ＬＴＰ］［４°］、ＳＲＬ［Ｍａｔｅ］①—ＳＲＬ方驗＇和ＤＭＣ＿ｆ１４］ＪＲＳＷ１５１和ＪＭＥ：ＥＤ７１等事件．抽取方法作为对比方法，验证基于ＳＳＤＰ的事件抽取及基于所港规则的缺省补全方法的优势．其中，２种ＳＲＬ方法直接给出语句包含＃主语、谮语和宾语，３种事件抽取方法对窜句包含的词窜迸行触发饲、论：元和徽元翁色分：餐？誓養说明勝是，和ＪＭＥＥ方法均聚焦于设计先进方法进行传统事件抽取，不羼于针５ｆ＿ｆｒ抽敗中的：某个特禽Ｗ＿商儀计的方＿＿，如①ｈｔｔｐｓ ： ／／ｃｏｄｅ， ｇｏｏｇｌｅ，ｃｏｍ／ａｒｃｈｉｖｅ／ｐ／ｍａｔｅ－ ｔｏｏｌｓ／５２６ 计算机学报 ２０２１年训练数据不足或篇章级事件等，因此本文选择这些方法作为基线实验．这些方法在原文中做了很多论元角色的判断，但在我们实现相关方法时，实验标注的数据集中只包含主语、谓语、宾语和其他角色的分类，仅考察这些方法对事件的主语、谓语和宾语的正确分类效果．另外，由于语言类别和语料的不同，本文对相关方法做了以下几点修改： ①ＡＣＥ２００５语料包含事件类型、实体类型等信息，在本文实验中将此信息输人为空； ②触发词和论元及角色按照ＡＣＥ２００５划分的全部类别进行分类，但本文只对主语、谓语和宾语抽取的效果进行对比．（２）基线实验数据集及参数设置为了避免ＤＭＣＮＮ、ＪＲＮＮ和ＪＭＥＥ等方法因训练数据不足难以发挥其抽取效果，同时为了进一步验证本文方法在非标题（长句）、开放领域数据下的抽取能力，我们不仅在６．１节描述的标注数据集上而且在Ｃ〇ＮＬＬ２００９中文语料上进行事件抽取实验．其中，Ｃ〇ＮＬＬ２００９中文语料分训练集、验证集和测试集３部分，包含的语句数分别为２２２７７条、１７６２条和２２条．在本文标注数据集上，我们随机选择３０％作为测试集，剩余的作为训练集，并从训练集中随机选择１０％作为验证集．对于Ｃ〇ＮＬＬ２００９，因测试集太小，我们随机从训练集中不放回地抽取３１３条语句增加至测试集，即最后确定训练集２１９６４条、验证集１７６２条、测试集３３５条．实验涉及的词向量由Ｗ〇ｒｄ２Ｖｅｃ？工具在本文２个数据集上训练得到，词向量维度分别与文献［１４］、文献［１５］和文献［１７］保持一致，Ｗ〇ｒｄ２ Ｖｅｃ其余参数的设定标准依据词汇语义相似度．每条语句分词个数最大设定为１００．对于基线实验模型所需的超参数取值，采取网格搜索函数ＧｒｉｄＳｅａｒｃｈＣＶ选择最优值，基于ＣｏＮＬＬ２〇〇９的模型超参数最终取值情况如表２０所示．的测试集．另外，本文规定只有触发词、论元及论元角色全部正确分类（仅指事件的主语、谓语和宾语全部正确，包括主语和宾语的缺省内容补全），才认定为本文的事件抽取正确．所以，测试过程分为三步，首先进行触发词抽取，然后判断触发词抽取情况，仅当触发词抽取正确时才启动论元抽取，最后依据二者的抽取情况进行综合计算，得出最终抽取结果？（３）对比分析结果ＤＰ和ＳＤＰ方法分别分析语句的句法和语义依存情况．为了使实验具有可比性和说服力，我们假设： ①ＤＰ和ＳＤＰ方法均按照核心动词链的建立和调整规则进行扩展； ②两种方法都采取缺省补全规则进行属性查询补充； ③因为介词和被动语态引起的缺省，需要结合语义分析结果进行ＳＳＤＰ树结构调整，所以ＤＰ方法对上述两种缺省不做调整；④ＤＰ方法不建立事件间语义关联，对于任何缺省均按补全规则查询．由于ＳＲＬ方法给出了论元角色标注结果，因此可直接通过标注的角色获取事件ＥＴ各属性．在新浪网标注数据集上，５种方法抽取的统计数据如表２１所示．由于ＤＭＣＮＮ、ＪＲＮＮ和ＪＭＥＥ方法都是通过语句中词的分类直接判断抽取效果，因此在表２１中未给出这３种方法的统计结果．表２１新浪网上事件抽取的统计结果抽取方法抽取数正确数不完整数错抽数ＳＳＤＰ １８９９ １５７９ ２４２ＤＰ １８９２ １４４１ ３７１ＳＤＰ １７５９６５５ ８６９ＳＲＬ［ＬＴＰ］１９４９ ８９８ ６９６ＳＲＬ［Ｍａｔｅ］２５３３ ６９６ ８２８２３５３５５１００９漏抽数３７４３０４１３９在新浪网标注数据集上，８种方法抽取的准确率、召回率和Ｆ１值如表２２和图１８所示．其中，图１８中横坐标为３种评测指标下的事件抽取的８种方法，纵坐标为各指标值（单位：表２０基于ＣＯＮＩＸ２００９的超参数取值情况超参数ｂａｔｃｈ＿ｓｉｚｅｅｐｏｃｈｓｄｒｏｐｏｕｔ ａｃｔｉｖａｔｉｏｎｌｅａｒｎ一ｒａｔｅＤＭＣＮＮ６４１００．２ｒｅｌｕ０．０１０ＪＲＮＮ３２５０． ２ｔａｎｈ０． ００１ＪＭＥＥ３２８０． ５ｔａｎｈ０． ００１在实验测试方面，Ｃ〇ＮＬＬ２００９未全部标注本文提出的缺省补全信息，如间接缺省和组合缺省等．因此，我们按照前述的标注标准对测试集进行了补充标注．在Ｃ〇ＮＬＬ２００９上的测评均基于诙补充标注表２２新浪网上事件抽取的效果对比抽取方法￣￣ＳＳＤＰ￣￣ＤＰＳＤＰＳＲＬ［ＬＴＰ］ＳＲＬ［Ｍａｔｅ］ＤＭＣＮＮＪＲＮＮＪＭＥＥＦＩ值０４①ｈｔｔｐｓ：／／ｃｏｄｅ，ｇｏｏｇｌｅ．ｃｏｍ／ｐ／ｗｏｒｄ２ｖｅｃ／万齐智等：基于句法语义依存分析的中文金融事件抽取 ５２７２０１０°准确率图１９Ｃ〇ＮＬＬ２００９召回率Ｆ１值上４种方法的事件抽取效果对比由表２２、表２３可知，针对Ｃ〇ＮＬＬ２００９中文语料，相较于财经新闻标题语料，虽然ＳＳＤＰ方法的事件抽取效果出现了较大幅度的降低，ＤＭＣＮＮ、ＪＲＮＮ和ＪＭＥＥ方法的事件抽取效果均有一定幅度的提高．但是，ＳＳＤＰ方法的Ｆ１值仍高于ＤＭＣＮＮ、ＪＲＮＩ＾和ＪＭＥＥ方濃１４．雜１Ｓ．０＇４个霄费点，逋过分析，ＳＳＤＰ方法效果降低的主要原窗包績？ ①ＣｏＮＬＬｇ－００８ｆ文培料中＿长甸木利Ｉ３ｍＳ结构分析．关键的核心动词结构错误將导致其包含的事件无法识．别； ②长句不利于缺省补全，长旬覆盖的笱构驾杂且词：语■多增大了补全的难度； ③出现部分长句整体做为宾语的结构，菌宾语在：珞言学绪构上不存在ＣＯＯ并列关系扩，膨本文未考虑此情况，敦使长旬宾舊包含的大量＊件无法识别，同时，ＤＭＣＮＮＪＲ顧和ＪＭＥＥ方法效果提高的原因可能是増加了财练数据所致？霍验緒果充分说朋，在：Ｉｋ融领域的＇中文奮件抽取及事件成分缺失补全：＃廣：，牟文方法具有明显的优势和较强的适应？性．７总结与展望参件抽取对宏观经挤趋势预测具有重醫意义，目曾事件抽取侧重于抽取分类的正确性，未结含１１用霉求迸行分析，难以较好地应用于特定领域．本文针对金融４ｌｆ域财絰新闻标龜奥据，归纳了事件＝漏抽、事件成分缺餐、事件成：分抽：取镨误及事件堪义放大筹４种现象，提出了句法和軎义依存分析相结合的事件抽敗框架—ＳＳＤＰ菌，首先，利用准确率召回率ＦＩ值新浪；网土８种＃锻的＊件抽取德果劾比表２３Ｃ〇ＮＬＬ２００９上事件抽取的效果对比嫌取方■ 准：确率召回率Ｐ１値ＳＳＤＰ？． ０８６５． １６ｆＳ，２０ＤＭＩｌＭｆ氣．Ｍ４３．＆５１， ｉｓＪＲＮＩ｜５Ｔ，Ｓ？＞４８． ４８５２．ｆＳＪＭＥＥ？．９１－４＆０５５５． ２２虜＇表ｇｒ和厲ｉｓ可知；，本文方法明显优于其他方法．这是因为ＳＳＤＰ结脅了句法和语义双重结构特征．因此ｒ添加语义关联、调整优化ＤＰ树｜＇可提高＃件的识别能力，迸而提升属性抽取效果．．Ｆ１偉上．，：Ｄ；Ｐ、Ｓｉ）Ｐ比ＳＳＤＰ分别低了７？｜、４Ｔ．ｉＳ个Ｗ＃点．ＤＰ主要是Ｈ为事件间缺乏语义关联，没有雄据其笑联类型进行补全机制判断．即未考虑事件间语义，而直接采用句法结构迸行缺省补全５导致效率有所下降．．另．外，ＤＰ的＿Ｆ１值较高，说明了ＤＰ句祛结构分析效果不错，也间镔验怔了该工具被普遍采用的威因．而ＳＤＰ厕主荽；Ｓ由于语义依存镇构分析效果不佳所导致的，周时不支持自定义词典的添加，也遽一步增加了爾ｒ间语义依存的错误率５使得抽取错模数急剧壻加．ＳＲＬ［ＬＴＰＢＴＳＲＬ［Ｍａｔｅ］的抽取效果樣差，＿Ｆ１值分别．为４．６，６＆％和５６％．这主粟是受核心动词识别效果的影响，窗为中文存在大量多词性的动词ｓＳＲＬ基本将所有动词均识别为语句请语＾导致事件错抽数较高，从而大幅降低Ｔ抽取敏果．关于：ＤＭＣＮＷＪＲＮＭ和ＪＭＥＥ方法猶抽取敏果，可认两个方面探讨ｓ—方，面》对比ＳＳＤＰ＊其抽取氣舉不太麗减少了８１９１？ｍ６２个首＃歲ｒＢ—方面，：翁比旗：文雜［１４－１５，１７］，事件抽取敏果在总体上与原文中给出的结果相当，但均有所降低．主寒廣Ｂ包括ｆ ①本文语料（＇新闻标题）较短＊请旬含有的上下文信息有限，深度学习难以提取较多有用？信息ｒ ②本文语料无事件类型和实体类型等信息，输Ａ魯｜ＪＥ减少Ｉ： ③Ｍ文来考＇虑缺脅补全詹況；④中文需要分词，而分Ｍ存在一定错误＊苘时也：会降低依存句法分析效果； ⑤供模型爾练的可用语料偏少？．ＣｏＳＬＬ２〇〇ｇ中文篑：料上》：４种方翁齒事件抽取效果如表錄＿圈１９所示．３：期ｏｏｏｏｏｏｏｏ０９８７６５４３１％／１０００００００００００９８７６５４３２１１％／＿遊靼硃图５２８ 计算机学报 ２０２１年ＬＴＰ工具获得语句的依存句法分析结果，并将其转换为ＤＰ树；其次，归纳核心动词链的建立规则，解决事件漏抽问题；第三，引人事件间语义依存关系，构建ＳＳＤＰ树；第四，根据核心动词链、介词结构和被动语态结构调整ＳＳＤＰ树，形成ＳＳＤＰ图；最后，基于ＳＳＤＰ图，建立事件成分缺失补全规则，同时抽取中文金融事件．下一步的研究工作主要包含：（１）通过ＬＴＰ进行依存句法分析时发现，多词性词语的句法结构分析效果较差，如何利用论元信息进一步确定多词性词语在具体语句中的词性，是有待克服的一个障碍．（２）本文抽取的事件结构，只考虑了ＥＴ三元组，抽取哪些信息将对股市趋势预测等应用有价值，是我们感兴趣的工作．（３）由于ＳＳＤＰ方法中用到的事件间语义依存分析较为简单、粒度较粗，如何制定针对财经领域金融事件间语义关联，将是未来的工作之一．致谢本文的研究工作利用了哈尔滨工业大学社会计算信息检索研究中心免费开放的ＬＴＰ平台、哈尔滨工业大学联合科大讯飞公司共同推出的讯飞开放平台，在此一并表示感请！最后，由衷地感请论文评审专家和编辑对本文所提出的修改建议！参考文献［１］ＤｉｎｇＸ，ＺｈａｎｇＹ？ＬｉｕＴ？ｅｔ ａｌ． Ｕｓｉｎｇｓｔｒｕｃｔｕｒｅｄｅｖｅｎｔｓｔｏｐｒｅｄｉｃｔｓｔｏｃｋｐｒｉｃｅｍｏｖｅｍｅｎｔ： Ａｎｅｍｐｉｒｉｃａｌｉｎｖｅｓｔｉｇａｔｉｏｎ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１４ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ（ＥＭＮＬＰ）． Ｄｏｈａ， Ｑａｔａｒ，２０１４：１４１５１４２５［２］ＤｉｎｇＸ，ＺｈａｎｇＹ，Ｌｉｕ Ｔ，ｅｔ ａｌ． Ｄｅｅｐｌｅａｒｎｉｎｇｆｏｒｅｖｅｎｔｄｒｉｖｅｎｓｔｏｃｋｐｒｅｄｉｃｔｉｏｎ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２４ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ（ＩＪＣＡＩ）． ＢｕｅｎｏｓＡｉｒｅｓ？Ａｒｇｅｎｔｉｎａ，２０１５： ２３２７２３３３［３］ＤｉｎｇＸ，ＺｈａｎｇＹ，ＬｉｕＴ，ｅｔａｌ． Ｋｎｏｗｌｅｄｇｅｄｒｉｖｅｎｅｖｅｎｔｅｍｂｅｄｄｉｎｇｆｏｒｓｔｏｃｋｐｒｅｄｉｃｔｉｏｎ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２６ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ ：ＴｅｃｈｎｉｃａｌＰａｐｅｒｓ（ＣＯＬＩＮＧ）． Ｏｓａｋａ，Ｊａｐａｎ，２０１６： ２１３３２１４２［４］ＸｉｅＢ，ＰａｓｓｏｎｎｅａｕＲ，ＷｕＬ，ｅｔａｌ． Ｓｅｍａｎｔｉｃｆｒａｍｅｓｔｏｐｒｅｄｉｃｔｓｔｏｃｋｐｒｉｃｅｍｏｖｅｍｅｎｔ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ５１ｓｔＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ（ＡＣＬ）． Ｓｏｆｉａ，Ｂｕｌｇａｒｉａ，２０１３： ８７３８８３［５］ＡｇｕｉｌａｒＪ， ＢｅｌｌｅｒＣ， ＭｃＮａｍｅｅＰ，ｅｔａｌ． Ａｃｏｍｐａｒｉｓｏｎｏｆ ｔｈｅｅｖｅｎｔｓａｎｄｒｅｌａｔｉｏｎｓａｃｒｏｓｓＡＣＥ， ＥＲＥ，ＴＡＣＫＢＰ，ａｎｄＦｒａｍｅＮｅｔ ａｎｎｏｔａｔｉｏｎｓｔａｎｄａｒｄｓ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ ｔｈｅ２ｎｄＷｏｒｋｓｈｏｐｏｎＥＶＥＮＴＳ：Ｄｅｆｉｎｉｔｉｏｎ，Ｄｅｔｅｃｔｉｏｎ，Ｃｏｒｅｆｅｒｅｎｃｅ，ａｎｄＲｅｐｒｅｓｅｎｔａｔｉｏｎ． Ｂａｌｔｉｍｏｒｅ，Ｍａｒｙｌａｎｄ， ２０１４： ４５５３［６］ＪａｃｏｂｓＧ？ＬｅｆｅｖｅｒＥ？ＩｌｏｓｔｅＶ． Ｅｃｏｎｏｍｉｃｅｖｅｎｔｄｅｔｅｃｔｉｏｎｉｎｃｏｍｐａｎｙｓｐｅｃｉｆｉｃｎｅｗｓｔｅｘｔ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１ｓｔＷｏｒｋｓｈｏｐｏｎＥｃｏｎｏｍｉｃｓａｎｄＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ（ＡＣＬ）．Ｍｅｌｂｏｕｒｎｅ， Ａｕｓｔｒａｌｉａ，２０１８； １１０［７］ＹａｎｇＩＩ，ＣｈｅｎＹ， ＬｉｕＫ，ｅｔａｌ． ＤＣＦＥＥ； ＡｄｏｃｕｍｅｎｔｌｅｖｅｌＣｈｉｎｅｓｅｆｉｎａｎｃｉａｌｅｖｅｎｔｅｘｔｒａｃｔｉｏｎｓｙｓｔｅｍｂａｓｅｄｏｎａｕｔｏｍａｔｉｃａｌｌｙｌａｂｅｌｅｄｔｒａｉｎｉｎｇｄａｔａ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ５６ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓＳｙｓｔｅｍＤｅｍｏｎｓｔｒａｔｉｏｎｓ（ＡＣＬ）． Ｍｅｌｂｏｕｒｎｅ， Ａｕｓｔｒａｌｉａ，２０１８： １６［８］ＬｉＰｅｎｇＦｅｎｇ，ＺｈｏｕＧｕｏＤｏｎｇ，ＺｈｕＱｉａｏＭｉｎｇ． Ｓｅｍａｎｔｉｃｓｂａｓｅｄｊｏｉｎｔ ｍｏｄｅｌｏｆ Ｃｈｉｎｅｓｅｅｖｅｎｔ ｔｒｉｇｇｅｒｅｘｔｒａｃｔｉｏｎ． Ｊｏｕｒｎａｌｏｆ Ｓｏｆｔｗａｒｅ，２０１６，２７（２）： ２８〇２９４（ｉｎＣｈｉｎｅｓｅ）（李培峰，周国栋，朱巧明．基于语义的中文事件触发词抽取联合模型．软件学报，２０１６，２７（２）： ２８０２９４）［９］ＹｅｈＣＬ？ＣｈｅｎＹＣ． ＺｅｒｏａｎａｐｈｏｒａｒｅｓｏｌｕｔｉｏｎｉｎＣｈｉｎｅｓｅｗｉｔｈｓｈａｌｌｏｗｐａｒｓｉｎｇ． ＪｏｕｒｎａｌｏｆＣｈｉｎｅｓｅＬａｎｇｕａｇｅａｎｄＣｏｍｐｕｔｉｎｇ，２００７，１７（１）： ４１５６［１０］ＬｉＰ，ＺｈｕＱ，ＺｈｏｕＧ． ＡｒｇｕｍｅｎｔｉｎｆｅｒｅｎｃｅｆｒｏｍｒｅｌｅｖａｎｔｅｖｅｎｔｍｅｎｔｉｏｎｓｉｎＣｈｉｎｅｓｅａｒｇｕｍｅｎｔｅｘｔｒａｃｔｉｏｎ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ ｔｈｅ５１ｓｔＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ（ＡＣＬ）． Ｓｏｆｉａ， Ｂｕｌｇａｒｉａ， ２０１３： １４７７１４８７［１１］ＴａｎｇＷｅｎＷｕ，ＧｕｏＹｉ，ＸｕＹｏｎｇＢｉｎ， ｅｔａｌ． Ｔｈｅｄｅｆａｕｌｔｃｏｍｍｏｎｏｂｊｅｃｔ ｉｄｅｎｔｉｆｉｃａｔｉｏｎｂａｓｅｄｏｎｃｏｎｄｉｔｉｏｎｒａｎｄｏｍｆｉｅｌｄｓ． Ｊｏｕｒｎａｌ ｏｆＣｈｉｎｅｓｅＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇ， ２０１６？３０（６）：２０８２１４（ｉｎＣｈｉｎｅｓｅ）（唐文武，过戈，徐永斌等．基于条件随机场的评价对象缺省识别．中文信息学报，２０１６，３０（６）：２０８２１４）［１２］ＣｈａｎＹＳ？ＦａｓｃｈｉｎｇＪ？ＱｉｕＩＩ，ｅｔ ａｌ． Ｒａｐｉｄｃｕｓｔｏｍｉｚａｔｉｏｎｆｏｒｅｖｅｎｔｅｘｔｒａｃｔｉｏｎ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ ｔｈｅ５７ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ： ＳｙｓｔｅｍＤｅｍｏｎｓｔｒａｔｉｏｎｓ（ＡＣＬ）． Ｆｌｏｒｅｎｃｅ，Ｉｔａｌｙ，２０１９： ３１３６［１３］ｌｉｅＲｕｉＦａｎｇ，ＤｕａｎＳｈａｏＹａｎｇ． ＪｏｉｎｔＣｈｉｎｅｓｅｅｖｅｎｔ ｅｘｔｒａｃｔｉｏｎｂａｓｅｄｍｕｌｔｉｔａｓｋｌｅａｒｎｉｎｇ． Ｊｏｕｒｎａｌｏｆ Ｓｏｆｔｗａｒｅ， ２０１９，３０（４）：１０１５１０３０（ｉｎＣｈｉｎｅｓｅ）（贺瑞芳，段绍杨．基于多任务学习的中文事件抽取联合模型．软件学报，２０１９，３０（４）： １０１５１０３０）［１４］ＣｈｅｎＹ？ＸｕＬ？ ＬｉｕＫ，ｅｔ ａｌ． Ｅｖｅｎｔｅｘｔｒａｃｔｉｏｎｖｉａｄｙｎａｍｉｃｍｕｌｔｉｐｏｏｌｉｎｇｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ５３ ｒｄＡｎｎｕａｌＭｅｅｔｉｎｇｏｆ ｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ（ＡＣＬ）． Ｂｅｉｊｉｎｇ，Ｃｈｉｎａ，２０１５； １６７１７６［１５］ＮｇｕｙｅｎＴＩＩ， ＣｈｏＫ？ＧｒｉｓｈｍａｎＲ． Ｊｏｉｎｔ ｅｖｅｎｔ ｅｘｔｒａｃｔｉｏｎ ｖｉａｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１６ＣｏｎｆｅｒｅｎｃｅｏｆｔｈｅＮｏｒｔｈＡｍｅｒｉｃａｎＣｈａｐｔｅｒｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ： ＨｕｍａｎＬａｎｇｕａｇｅＴｅｃｈｎｏｌｏｇｉｅｓ（ＮＡＡＣＬＩＩＬＴ）． ＳａｎＤｉｅｇｏ，Ｃａｌｉｆｏｒｎｉａ，２０１６： ３００３０９［１６］ＳｈａＬ？ＱｉａｎＦ，ＣｈａｎｇＢ，ｅｔ ａｌ． ＪｏｉｎｔｌｙｅｘｔｒａｃｔｉｎｇｅｖｅｎｔｔｒｉｇｇｅｒｓａｎｄａｒｇｕｍｅｎｔｓｂｙｄｅｐｅｎｄｅｎｃｙｂｒｉｄｇｅＲＮＮａｎｄｔｅｎｓｏｒｂａｓｅｄａｒｇｕｍｅｎｔｉｎｔｅｒａｃｔｉｏｎ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ ｔｈｅ３２ｎｄＡＡＡＩＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ（ＡＡＡＩ）． ＮｅｗＯｒｌｅａｎｓ，ＵＳＡ，２０１８： ５９１６５９２３万齐智等：基于句法语义依存分析的中文金融事件抽取 ５２９３期［１７］ＬｉｕＸ，ＬｕｏＺ，ＨｕａｎｇＩＩ． Ｊｏｉｎｔｌｙｍｕｌｔｉｐｌｅｅｖｅｎｔｓｅｘｔｒａｃｔｉｏｎｖｉａａｔｔｅｎｔｉｏｎｂａｓｅｄ ｇｒａｐｈｉｎｆｏｒｍａｔｉｏｎａｇｇｒｅｇａｔｉｏｎ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１８ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ（ＥＭＮＬＰ）． Ｂｒｕｓｓｅｌｓ，Ｂｅｌｇｉｕｍ， ２０１８：１２４７１２５６［１８］ＣｈｅｎＹ，ＹａｎｇＩＩ，ＬｉｕＫ，ｅｔ ａｌ． Ｃｏｌｌｅｃｔｉｖｅｅｖｅｎｔ ｄｅｔｅｃｔｉｏｎｖｉａａｈｉｅｒａｒｃｈｉｃａｌａｎｄｂｉａｓｔａｇｇｉｎｇｎｅｔｗｏｒｋｓｗｉｔｈｇａｔｅｄｍｕｌｔｉｌｅｖｅｌａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍｓ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１８ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ（ＥＭＮＬＰ）． Ｂｒｕｓｓｅｌｓ， Ｂｅｌｇｉｕｍ，２０１８； １２６７１２７６［１９］ＡｒａｋｉＪ，ＭｉｔａｍｕｒａＴ． Ｏｐｅｎｄｏｍａｉｎｅｖｅｎｔｄｅｔｅｃｔｉｏｎｕｓｉｎｇｄｉｓｔａｎｔｓｕｐｅｒｖｉｓｉｏｎ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２７ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ（ＣＯＬＩＮＧ）． ＳａｎｔａＦｅ，ＵＳＡ，２０１８： ８７８８９１［２０］ＬｉｕＳ，ＣｈｅｎｇＲ，ＹｕＸＭ，ｅｔ ａｌ． Ｅｘｐｌｏｉｔｉｎｇｃｏｎｔｅｘｔｕａｌｉｎｆｏｒｍａｔｉｏｎｖｉａｄｙｎａｍｉｃ ｍｅｍｏｒｙｎｅｔｗｏｒｋｆｏｒｅｖｅｎｔ ｄｅｔｅｃｔｉｏｎ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１８ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ（ＥＭＮＬＰ）． Ｂｒｕｓｓｅｌｓ，Ｂｅｌｇｉｕｍ，２０１８； １０３０１０３５［２１］ＨｏｎｇＹ，ＺｈｏｕＷ，ＺｈａｎｇＪ，ｅｔ ａｌ． Ｓｅｌｆｒｅｇｕｌａｔｉｏｎ： Ｅｍｐｌｏｙｉｎｇａｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋｔｏｉｍｐｒｏｖｅｅｖｅｎｔｄｅｔｅｃｔｉｏｎ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ５６ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆ ｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ（ＡＣＬ）． Ｍｅｌｂｏｕｒｎｅ？Ａｕｓｔｒａｌｉａ，２０１８； ５１５５２６［２２］ＧｕａｎＣ？ＣｈｅｎｇＹ？ ＺｈａｏＩＩ． Ｓｅｍａｎｔｉｃｒｏｌｅｌａｂｅｌｉｎｇｗｉｔｈａｓｓｏｃｉａｔｅｄｍｅｍｏｒｙｎｅｔｗｏｒｋ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１９ＣｏｎｆｅｒｅｎｃｅｏｆｔｈｅＮｏｒｔｈＡｍｅｒｉｃａｎＣｈａｐｔｅｒｏｆ ｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ： ＨｕｍａｎＬａｎｇｕａｇｅＴｅｃｈｎｏｌｏｇｉｅｓ（ＮＡＡＣＬＩＩＬＴ）． Ｍｉｎｎｅａｐｏｌｉｓ，Ｍｉｎｎｅｓｏｔａ，２０１９； ３３６１３３７１［２３］ＬｉＺ，ｌｉｅＳ，ＺｈａｏＩＩ？ｅｔａｌ． Ｄｅｐｅｎｄｅｎｃｙｏｒｓｐａｎ，ｅｎｄｔｏｅｎｄｕｎｉｆｏｒｍｓｅｍａｎｔｉｃｒｏｌｅｌａｂｅｌｉｎｇ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３３ｒｄＡＡＡＩ ＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ（ＡＡＡＩ）． Ｈｏｎｏｌｕｌｕ，Ｈａｗａｉｉ，２０１９； ６７３０６７３７［２４］ＸｉａＱ，ＬｉＺ，ＺｈａｎｇＭ？ｅｔａｌ． Ｓｙｎｔａｘａｗａｒｅｎｅｕｒａｌｓｅｍａｎｔｉｃｒｏｌｅｌａｂｅｌｉｎｇ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３３ｒｄＡＡＡＩ ＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ（ＡＡＡＩ）． Ｈｏｎｏｌｕｌｕ， Ｈａｗａｉｉ， ２０１９：７３０５７３１３［２５］ｌｉｅＳ，ＬｉＺ，ＺｈａｏＩＩ，ｅｔ ａｌ． Ｓｙｎｔａｘｆｏｒｓｅｍａｎｔｉｃｒｏｌｅｌａｂｅｌｉｎｇ，ｔｏｂｅ， ｏｒｎｏｔ ｔｏｂｅ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ５６ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ（ＡＣＬ）．Ｍｅｌｂｏｕｒｎｅ，Ａｕｓｔｒａｌｉａ， ２０１８； ２０６１２０７１［２６］ｌｉｅＬ，ＬｅｅＫ，Ｌｅｖｙ０，ｅｔａｌ． Ｊｏｉｎｔｌｙｐｒｅｄｉｃｔｉｎｇｐｒｅｄｉｃａｔｅｓａｎｄａｒｇｕｍｅｎｔｓｉｎｎｅｕｒａｌｓｅｍａｎｔｉｃｒｏｌｅｌａｂｅｌｉｎｇ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ５６ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ（ＡＣＬ）． Ｍｅｌｂｏｕｒｎｅ， Ａｕｓｔｒａｌｉａ， ２０１８：３６４３６９［２７］ＭｅｈａｔＳＶ，ＬｅｅＪＹ，ＣａｒｂｏｎｅｌｌＪ． Ｔｏｗａｒｄｓｓｅｍｉｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇｆｏｒｄｅｅｐｓｅｍａｎｔｉｃｒｏｌｅｌａｂｅｌｉｎｇ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ ｔｈｅ２０１８ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ（ＥＭＮＬＰ）． Ｂｒｕｓｓｅｌｓ，Ｂｅｌｇｉｕｍ，２０１８； ４９５８４９６３［２８］ＴａｎＺ，ＷａｎｇＭ，ＸｉｅＪ，ｅｔａｌ． Ｄｅｅｐｓｅｍａｎｔｉｃｒｏｌｅｌａｂｅｌｉｎｇｗｉｔｈｓｅｌｆａｔｔｅｎｔｉｏｎ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ ｔｈｅ３２ｎｄＡＡＡＩ ＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ（ＡＡＡＩ）． ＮｅｗＯｒｌｅａｎｓ， ＵＳＡ，２０１８；４９２９４９３６［２９］ｌｉｅＬ，ＬｅｅＫ，ＬｅｗｉｓＭ？ ｅｔａｌ． Ｄｅｅｐｓｅｍａｎｔｉｃｒｏｌｅｌａｂｅｌｉｎｇ：Ｗｈａｔｗｏｒｋｓａｎｄ ｗｈａｔ？ｓｎｅｘｔ／／Ｐｒｏｃｅｅｄｉｎｇｓ ｏｆ ｔｈｅ５５ｔｈ ＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ（ＡＣＬ）． Ｖａｎｃｏｕｖｅｒ，Ｃａｎａｄａ，２０１７： ４７３４８３［３０］ＬｉＺ，ｌｉｅＳ，ＣａｉＪ，ｅｔａｌ． Ａｕｎｉｆｉｅｄｓｙｎｔａｘａｗａｒｅｆｒａｍｅｗｏｒｋｆｏｒｓｅｍａｎｔｉｃｒｏｌｅ ｌａｂｅｌｉｎｇ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ ｔｈｅ２０１８ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ（ＥＭＮＬＰ）．Ｂｒｕｓｓｅｌｓ，Ｂｅｌｇｉｕｍ，２０１８： ２４０１２４１１［３１］ＫａｓａｉＪ，ＦｒｉｅｄｍａｎＤ？ＦｒａｎｋＲ． Ｓｙｎｔａｘａｗａｒｅｎｅｕｒａｌｓｅｍａｎｔｉｃｒｏｌｅｌａｂｅｌｉｎｇｗｉｔｈ ｓｕｐｅｒｔａｇｓ／／Ｐｒｏｃｅｅｄｉｎｇｓ ｏｆｔｈｅ２０１９ＣｏｎｆｅｒｅｎｃｅｏｆｔｈｅＮｏｒｔｈＡｍｅｒｉｃａｎＣｈａｐｔｅｒｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ： ＨｕｍａｎＬａｎｇｕａｇｅＴｅｃｈｎｏｌｏｇｉｅｓ（ＮＡＡＣＬＩＩＬＴ）． Ｍｉｎｎｅａｐｏｌｉｓ，Ｍｉｎｎｅｓｏｔａ，２０１９： ７０１７０９［３２］ＬｉｕＸ，ＩｌｕａｎｇＩＩ，ＺｈａｎｇＹ． Ｏｐｅｎｄｏｍａｉｎｅｖｅｎｔｅｘｔｒａｃｔｉｏｎｕｓｉｎｇｎｅｕｒａｌｌａｔｅｎｔｖａｒｉａｂｌｅｍｏｄｅｌｓ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ ｔｈｅ５７ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ（ＡＣＬ）． Ｆｌｏｒｅｎｃｅ，Ｉｔａｌｙ，２０１９： ２８６０２８７１［３３］ＺｏｎｇＣｈｅｎｇＱｉｎｇ． ＳｔａｔｉｓｔｉｃａｌＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．２ｎｄＥｄｉｔｉｏｎ． Ｂｅｉｊｉｎｇ： ＴｓｉｎｇｈｕａＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ，２０１３（ｉｎＣｈｉｎｅｓｅ）（宗成庆．统计自然语言处理．第２版．北京：清华大学出版社，２０１３）［３４］ＣｈｅＷ，ＬｉＺ， ＬｉｕＴ． ＬＴＰ； ＡＣｈｉｎｅｓｅｌａｎｇｕａｇｅｔｅｃｈｎｏｌｏｇｙｐｌａｔｆｏｒｍ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２３ｒｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ（ＣＯＬＩＮＧ）． Ｂｅｉｊｉｎｇ，Ｃｈｉｎａ，２０１０； １３１６［３５］ＬｉＪｉｎＸｉ． ＴｈｅＮｅｗＣｈｉｎｅｓｅＧｒａｍｍａｒ． １９５５Ｅｄｉｔｉｏｎ． Ｂｅｉｊｉｎｇ；ＴｈｅＣｏｍｍｅｒｃｉａｌＰｒｅｓｓ， １９５５（ｉｎＣｈｉｎｅｓｅ）（黎锦熙．新著国语文法．１９５５年版．北京：商务印书馆，１９５５）［３６］ＬｖＳｈｕＸｉａｎｇ． ＥｓｓｅｎｔｉａｌｓｏｆＣｈｉｎｅｓｅＧｒａｍｍａｒ． １９８２Ｅｄｉｔｉｏｎ．Ｂｅｉｊｉｎｇ； ＴｈｅＣｏｍｍｅｒｃｉａｌＰｒｅｓｓ， １９８２（ｉｎＣｈｉｎｅｓｅ）（吕叔湘．中国文法要略．１９８２年版．北京：商务印书馆，１９８２）［３７］ＷａｎｇＬｉ． ＭｏｄｅｒｎＣｈｉｎｅｓｅＧｒａｍｍａｒ． １９８５Ｅｄｉｔｉｏｎ． Ｂｅｉｊｉｎｇ：ＴｈｅＣｏｍｍｅｒｃｉａｌＰｒｅｓｓ， １９８５（ｉｎＣｈｉｎｅｓｅ）（王力．中国现代语法．１９８５年版．北京：商务印书馆，１９８５）［３８］ＱｉａｎＳｈｉＦｅｎｇ． Ｓｕｍｍａｒｙｏｆｏｍｉｓｓｉｏｎｄｅｆｉｎｉｔｉｏｎ． ＪｏｕｒｎａｌｏｆＬａｎｇｕａｇｅａｎｄＬｉｔｅｒａｔｕｒｅＳｔｕｄｉｅｓ，２００７，（１）： １１９１２２（ｉｎＣｈｉｎｅｓｅ）（钱世凤．省略界定综述．语文学刊：髙数版，２００７，（１）：１１９１２２）［３９］ＸｕｅＮ？ＸｉａＦ？ＩｌｕａｎｇＳ？ｅｔ ａｌ． ＴｈｅｂｒａｃｋｅｔｉｎｇｇｕｉｄｅｌｉｎｅｓｆｏｒｔｈｅＰｅｎｎＣｈｉｎｅｓｅＴｒｅｅＢａｎｋ（３．０）． ＩＲＣＳＴｅｃｈｎｉｃａｌＲｅｐｏｒｔＳｅｒｉｅｓ，２０００：３９［４０］ＧｕｏＪ，ＣｈｅＷ，ＷａｎｇＩＩ，ｅｔａｌ． Ａｕｎｉｆｉｅｄａｒｃｈｉｔｅｃｔｕｒｅｆｏｒｓｅｍａｎｔｉｃｒｏｌｅｌａｂｅｌｉｎｇａｎｄｒｅｌａｔｉｏｎｃｌａｓｓｉｆｉｃａｔｉｏｎ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ ｔｈｅ２６ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ： ＴｅｃｈｎｉｃａｌＰａｐｅｒｓ（ＣＯＬＩＮＧ）． Ｏｓａｋａ，Ｊａｐａｎ，２０１６： １２６４１２７４５３０ 计算机学报 ２０２１年ＷＡＮＱｉ－Ｚｈｉ，Ｐｈ．Ｄ．ｃａｎｄｉｄａｔｅ，ｌｅｃｔｕｒｅｒ．Ｈｉｓｃｕｒｒｅｎｔｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｓｉｎｃｌｕｄｅｉｎｆｏｒｍａｔｉｏｎｅｘｔｒａｃｔｉｏｎ，ｎａｔｕｒａｌ一ｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇａｎｄｄａｔａｍｉｎｉｎｇ．ＢａｃｋｇｒｏｕｎｄＡｓａｓｕｂ－ｔａｓｋｏｆｉｎｆｏｒｍａｔｉｏｎｅｘｔｒａｃｔｉｏｎ，ｅｖｅｎｔｅｘｔｒａｃｔｉｏｎｐｌａｙｓａｎｉｍｐｏｒｔａｎｔｒｏｌｅｉｎｖａｒｉｏｕｓＮＬＰａｐｐｌｉｃａｔｉｏｎｓｉｎｃｌｕｄｉｎｇｓｔｏｃｋｐｒｅｄｉｃｔｉｏｎａｎｄｉｎｆｏｒｍａｔｉｏｎｒｅｔｒｉｅｖａｌ．ＥｖｅｎｔｎｅｓｔｉｎｇａｎｄｅｌｅｍｅｎｔｄｅｆａｕｌｔｓａｒｅｃｏｍｍｏｎｉｎＣｈｉｎｅｓｅ．Ｉｎｔｈｉｓｐａｐｅｒ，ｗｅａｄｄｒｅｓｓｔｗｏｐｒｏｂｌｅｍｓ，ｄｅｔｅｒｍｉｎｉｎｇｔｈｅｎｕｍｂｅｒｏｆｅｖｅｎｔｓｃｏｎｔａｉｎｅｄｉｎａＣｈｉｎｅｓｅｓｅｎｔｅｎｃｅａｎｄｅｘｔｒａｃｔｉｎｇｔｈｅｓｔｒｕｃｔｕｒｅｄｅｖｅｎｔ，ｗｈｉｃｈｉｓａｔｒｉｐｌｅｃｏｎｔａｉｎｉｎｇａｓｕｂｊｅｃｔ，ａｐｒｅｄｉｃａｔｅ，ａｎｄａｎｏｂｊｅｃｔ．Ｔｈｅｍａｉｎｒｅｓｅａｒｃｈｆｏｒｓｔｒｕｃｔｕｒｅｄｅｖｅｎｔｅｘｔｒａｃｔｉｏｎｆｏｃｕｓｅｓｏｎｅｘｔｒａｃｔｉｎｇａｌｌｔｈｅｐｒｏｐｅｒｔｉｅｓｏｆｔｈｅｔｒｉｐｌｅ，ｂｕｔｄｏｎ＾ｔｏｂｔａｉｎｔｈｅｄｅｆａｕｌｔｃｏｍｐｏｎｅｎｔｏｆｅｖｅｎｔ．Ｉｎａｄｄｉｔｉｏｎｔｏｔｈｉｓ，ｍｏｓｔｏｆｏｔｈｅｒｅｘｉｓｔｉｎｇｒｅｓｅａｒｃｈｅｆｆｏｒｔｓｈａｖｅｂｅｅｎｐｕｔｏｎｔｈｅｅｖｅｎｔｅｘｔｒａｃｔｉｏｎ，ｂｕｔｔｈｅｙｐａｙｍｏｒｅａｔｔｅｎｔｉｏｎｏｎｔｈｅｔｙｐｅｃｏｒｒｅｃｔｎｅｓｓｏｆｔｒｉｇｇｅｒｓａｎｄａｒｇｕｍｅｎｔｓ，ｗｈｉｃｈｎｏｔｃｏｎｓｉｄｅｒｔｏｔｈｅｃｏｍｐｌｅｔｅｎｅｓｓｏｆｅｖｅｎｔｓｉｎｃｌｕｄｉｎｇｔｈｅｎｕｍｂｅｒｏｆｅｖｅｎｔｓｉｎａｓｅｎｔｅｎｃｅａｎｄｔｈｅｐｒｏｐｅｒｔｙｉｎａｎｅｖｅｎｔ．Ｉｎｆｉｎａｎｃｉａｌｎｅｗｓｈｅａｄｌｉｎｅｓ，ｔｈｅｒｅａｒｅａｌａｒｇｅｎｕｍｂｅｒｏｆｖｅｒｂｓａｎｄｃｏｍｐｏｎｅｎｔｄｅｆａｕｌｔｓ，ｗｈｉｃｈｃａｕｓｅｔｈｅｅｖｅｎｔｔｏｌｅａｋａｎｄｔｈｅｐｒｏｐｅｒｔｉｅｓｏｆｅｘｔｒａｃｔｅｄｅｖｅｎｔｔｏｂｅｉｎｃｏｍｐｌｅｔｅ．Ｆｕｒｔｈｅｒｍｏｒｅ，ｔｈｅｅｖｅｎｔｔｙｐｅｓａｒｅｏｎｌｙｆｏｒｓｔａｎｄａｒｄＷＡＮＣｈａｎｇ－Ｘｕａｎ，Ｐｈ．Ｄ．，ｐｒｏｆｅｓｓｏｒ，Ｐｈ．Ｄ．ｓｕｐｅｒｖｉｓｏｒ．ＨｉｓｃｕｒｒｅｎｔｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｓｉｎｃｌｕｄｅＷｅｂｄａｔａｍａｎａｇｅｍｅｎｔ，ｓｅｎｔｉｍｅｎｔａｎａｌｙｓｉｓ，ｄａｔａｍｉｎｉｎｇａｎｄｉｎｆｏｒｍａｔｉｏｎｒｅｔｒｉｅｖａｌ．ＨＵＲｏｎｇ，Ｍ．Ｓ．，ａｓｓｉｓｔａｎｔｒｅｓｅａｒｃｈｅｒ．Ｈｅｒｃｕｒｒｅｎｔｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｓｉｎｃｌｕｄｅｉｎｆｏｒｍａｔｉｏｎｅｘｔｒａｃｔｉｏｎ，ｎａｔｕｒａｌｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇａｎｄｂｉｇｄａｔａａｎａｌｙｓｉｓ．ＬＩＵＤｅ－Ｘｉ，Ｐｈ．Ｄ．，ｐｒｏｆｅｓｓｏｒ，Ｐｈ．Ｄ．ｓｕｐｅｒｖｉｓｏｒ．Ｈｉｓｃｕｒｒｅｎｔｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｓｉｎｃｌｕｄｅｎａｔｕｒａｌ ｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ，ｉｎｆｏｒｍａｔｉｏｎｒｅｔｒｉｅｖａｌａｎｄＷｅｂｄａｔａｍａｎａｇｅｍｅｎｔ．ｅｖｅｎｔｔｙｐｅｓ，ｓｕｃｈａｓＡＣＥ，ｗｈｉｃｈｉｓｎｏｔｅｘａｃｔｓｕｉｔａｂｌｅｆｏｒｆｉｎａｎｃｅａｎｄｅｃｏｎｏｍｉｃｓ．Ｏｕｒｗｏｒｋｎｏｔｏｎｌｙｅｘｔｒａｃｔｓａｌｌ ｔｈｅｅｖｅｎｔｓｉｎａｓｅｎｔｅｎｃｅ，ｂｕｔａｌｓｏｃｏｍｐｌｅｔｅｓｔｈｅｄｅｆａｕｌｔｃｏｍｐｏｎｅｎｔｓ，ｗｈｉｃｈｃａｎｉｍｐｒｏｖｅｔｈｅｉｒｕｓａｇｅｖａｌｕｅ，ｓｕｃｈａｓｆｏｒｓｔｏｃｋｍａｒｋｅｔｔｒｅｎｄｆｏｒｅｃａｓｔｓ．ＩｎｃｏｎｓｉｄｅｒａｔｉｏｎｏｆｔｈｅｃｈａｒａｃｔｅｒｉｓｔｉｃｓｏｆＣｈｉｎｅｓｅｆｉｎａｎｃｉａｌｎｅｗｓｈｅａｄｌｉｎｅｓ，ｗｅｃａｐｔｕｒｅｔｈｅｓｙｎｔａｃｔｉｃｒｅｌａｔｉｏｎｓｈｉｐｓｂｅｔｗｅｅｎｗｏｒｄｓａｎｄｓｕｍｍａｒｉｚｅｔｈｅｒｕｌｅｓｏｆｃｏｒｅｖｅｒｂｃｈａｉｎｆｏｒｍａｔｉｏｎ，ｗｈｉｃｈｃａｎｓｏｌｖｅｔｈｅｐｒｏｂｌｅｍｏｆｅｖｅｎｔｌｅａｋ．Ｉｎａｄｄｉｔｉｏｎ，ｗｅａｄｄｔｈｅｓｅｍａｎｔｉｃａｓｓｏｃｉａｔｉｏｎｓｂｅｔｗｅｅｎｅｖｅｎｔｓｔｏｆｏｒｍｔｈｅＳＳＤＰｔｒｅｅａｎｄａｄｊｕｓｔＳＳＤＰｓｔｒｕｃｔｕｒｅｔｏｂｕｉｌｄｔｈｅＳＳＤＰｇｒａｐｈ．Ａｔｌａｓｔ，ｗｅｐｒｅｓｅｎｔｆｏｕｒｄｅｆａｕｌｔｓｔｒｕｃｔｕｒｅｓ，ａｎｄｐｒｏｐｏｓｅｃｏｒｒｅｓｐｏｎｄｉｎｇｃｏｍｐｌｅｔｉｏｎｒｕｌｅｓ．Ｔｏｔｈｅｂｅｓｔｏｆｏｕｒｋｎｏｗｌｅｄｇｅ，ｏｕｒｗｏｒｋｉｓｔｈｅｆｉｒｓｔｓｏｌｕｔｉｏｎｔｏｗａｒｄｓｔｈｉｓｐｒｏｂｌｅｍ．ＴｈｅｒｅｓｅａｒｃｈｉｓｐａｒｔｉａｌｌｙｓｕｐｐｏｒｔｅｄｂｙｔｈｅＮａｔｉｏｎａｌＮａｔｕｒａｌＳｃｉｅｎｃｅＦｏｕｎｄａｔｉｏｎｏｆＣｈｉｎａｕｎｄｅｒＧｒａｎｔＮｏｓ．６１９７２１８４，６１５６２０３２ａｎｄ６１７６２０４２，ｔｈｅＳｃｉｅｎｃｅ＆ＴｅｃｈｎｏｌｏｇｙＰｒｏｊｅｃｔｏｆｔｈｅＤｅｐａｒｔｍｅｎｔｏｆＥｄｕｃａｔｉｏｎｏｆＪｉａｎｇｘｉＰｒｏｖｉｎｃｅｕｎｄｅｒＧｒａｎｔＮｏｓ．ＧＪＪ１８０１９８ａｎｄＧＪＪ１８０２５２．

[返回]

上一篇：基于纳什均衡的智能合约缺陷检测
下一篇：基于贡献值和难度值的高可靠性区块链共识机制