欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
材料论文
当前位置:首页 > 材料论文
基于词语对狄利克雷过程的时序摘要
来源:一起赢论文网     日期:2015-12-22     浏览数:4724     【 字体:

 41 卷第期自动化学报Vol. 41, No. 82015 ACTA AUTOMATICA SINICA August, 2015基于词语对狄利克雷过程的时序摘要席耀一李弼程李天彩黄山奇2摘要时序摘要是按照时间顺序生成摘要对话题的演化发展进行概括已有的相关研究忽视或者不能准确发现句子中隐含的子话题信息针对该问题本文建立了一种新的主题模型即词语对狄利克雷过程并提出了一种基于该模型的时序摘要生成方法首先通过模型推理得到句子的子话题分布然后利用该分布计算句子的相关度和新颖度最后按时间顺序抽取与话题相关且新颖度高的句子组成时序摘要实验结果表明本文方法较目前的代表性研究方法生成了更高质量的时序摘要.关键词时序摘要狄利克雷过程词语对主题模型引用格式席耀一李弼程李天彩黄山奇基于词语对狄利克雷过程的时序摘要自动化学报, 2015, 41(8): 1452¡1460DOI 10.16383/j.aas.2015.c150001Temporal Summarization Based on Biterm Dirichlet ProcessXI Yao-Yi1 LI Bi-Cheng1 LI Tian-Cai1 HUANG Shan-Qi2Abstract Temporal summarization aims at extracting sentences chronologically to give an overview about the evolutionof a topic. Existing researches either neglect the information of latent subtopics, or fail to accurately discover them. Inthis paper, we develop a novel topic model called biterm Dirichlet process and generate the temporal summary basedon it. Firstly, we get the subtopic distribution in each sentence through posterior inference. Secondly, we calculateeach sentence0s relevance and novelty degree according to its subtopic distribution. Finally, we chronologically extractthe sentences which are relevant and novel to generate the temporal summary. Experiments demonstrate the betterperformance of our approach compared with currently representative methods.Key words Temporal summarization, Dirichlet process, biterm, topic modelCitation Xi Yao-Yi, Li Bi-Cheng, Li Tian-Cai, Huang Shan-Qi. Temporal summarization based on biterm Dirichletprocess. Acta Automatica Sinica, 2015, 41(8): 1452¡1460时序摘要(Temporal summarization) 是传统多文档摘要与更新摘要技术的延伸与发展指的是对于某一话题按照其发展的时间顺序对不同阶段的相关文档进行摘要分析要求每一时间段的摘要不能包含之前时间段内已出现的话题信息即时序摘要要求随着时间的发展对摘要进行动态更新不断添加随话题发展新出现的信息因此又称之为序列更新摘要(Sequential update summarization)、时间线摘要(Timeline summarization) 或者故事线摘要(Storyline summarization).目前国内外很多学者都针对时序摘要开展了相关研究已有的方法均是通过抽取原文句子并组合得到摘要主要分为以下三类基于时间分段的收稿日期2015-01-04 录用日期2015-04-08Manuscript received January 4, 2015; accepted April 8, 2015国家社会科学基金(14BXW028) 资助Supported by National Social Science Foundation of China(14BXW028)本文责任编委赵铁军Recommended by Associate Editor ZHAO Tie-Jun1. 解放军信息工程大学信息系统工程学院郑州450001 2. 65022部队沈阳1101621. Institute of Information System Engineering, PLA Informa-tion Engineering University, Zhengzhou 450001 2. Unit 65022,Shenyang 110162方法、基于句子簇的方法和基于子话题发现的方法.基于时间分段的方法[1¡3] 一般按照文档的发布时间将文档集分段然后分别生成每一时间段的摘要并将各个时间段的摘要按照时间顺序拼接得到时序摘要该方法简单直观但是由于新闻报道的重复性特点使得很多内容相同的句子并没有随时间分段而分开增加了冗余信息被误判为摘要句的可能性基于句子簇的方法[4¡5] 认为如果两个句子所报道事件的发生时间比较接近那么这两个句子属于同一子话题的可能性较大该方法需要对句子进行时间消解难度较大基于子话题发现的方法能够挖掘话题的语义信息便于摘要句的选择.话题一般由若干子话题组成例如\9 ¢ 11 恐怖袭击话题通常包含以下几个子话题恐怖袭击发生、美国政府紧急应对、国际社会强烈谴责等文档集中的句子一般与某一子话题或几个子话题相关,而基于时间分段的方法和基于句子簇的方法通常忽视了该相关性没有利用深层语义信息仅是通过浅层次的词语特征信息选择句子主题模型自2003 年由Blei [6] 正式提出以来就被应用于挖掘文档集中的隐含主题[7], 取得了不错的效果在时序摘要研究中已有学者尝试利用主题模型发现隐含子话题,8 期席耀一等基于词语对狄利克雷过程的时序摘要1453并辅助生成摘要. Gao [8] 将动态隐含狄利克雷分配模型应用于Twitter 数据流的摘要生成当中.Huang [9] 提出Mixture-event-aspect model, 用于发现全局子话题和局部子话题并根据子话题出现的时间顺序分别生成相应的摘要. Li [10] 提出演化分层狄利克雷过程对话题演化进行建模进而生成时序摘要取得了比较好的性能.为了抽取摘要句文献[8¡10] 均尝试利用主题模型发现每一Twitter 或者句子的隐含子话题.由于主题模型依赖于词语共现挖掘隐含子话题Twitter 和句子均属于短文本特征稀疏词语共现信息少不利于传统主题模型的应用为解决这一问题, Yan [11] 提出了词语对主题模型(Bitermtopic model, BTM)1. 该模型跳出单一短文本的限制直接从文档集中提取所有特征的共现信息避免受到单一短文本特征稀疏的影响. BTM 模型假设文档集中子话题的先验分布服从狄利克雷分布导致其必须事先指定主题个数然而实际应用中面临的数据对用户来讲一般是未知的不可能准确知道其中隐含的主题数目这降低了BTM 模型的应用价值为解决上述问题本文建立了一种新的主题模型,即词语对狄利克雷过程(Biterm Dirichlet process,BDP), 并利用该模型抽取句子生成时序摘要. BDP将单个句子视为一篇文档以狄利克雷过程作为文档集中子话题分布的先验分布可以自动确定文档集的子话题数目首先通过模型推理得到每一句子的子话题分布然后根据时序摘要的特点利用该分布计算句子的相关度和新颖度最后按时间顺序抽取与话题相关且新颖度高的句子组成时序摘要.本文的组织结构如下节介绍了相关研究现状节详细介绍了本文生成时序摘要的方法,最后给出了实验结果与分析.1 相关工作关于时序摘要的最早研究可以追溯至2001 ,Allan [12] 首次提出时序摘要的概念然而由于当时的文档摘要技术还不成熟且时序摘要研究面临的困难较多之后几年研究关注的焦点仍然是传统的多文档摘要技术. 2004 , Chieu [4] 首先解析每一句子所描述事件的时间然后根据每一句子的兴趣度和突发性对句子进行排序经过去冗余后根据时间顺序生成时间线摘要. 2008 , Lin [13] 研究了基于故事线的摘要来分析话题首先识别事件然后构建主故事线最后为主故事线中的每一事件生成摘要并按照事件顺序前后相连得到基于故事线的摘要然而将每一事件的摘要直接相连不可避免会导致最终的摘要中存在冗余. 2009 贺瑞芳等[14] 提出了基于宏微观重要性判别模型的时序多文档摘要方法该方法通过宏观重要性判别模型判断不同时间段的重要性通过微观重要性判别模型判断句子的重要性并选择重要程度高的句子组成每一时间段的摘要最后将重要时间段的摘要按照时间顺序前后连接得到最终的时序摘要贺瑞芳等的研究虽然考虑了对不同时间段的重要性进行区分,但是假设冗余信息仅存在于各个时间段内部与实际不符. 2011 , Yan [1¡2] 提出进行时间线摘要的研究尝试以摘要的形式给出话题的演化轨迹其方法的核心是构造目标函数然后通过全局和局部最优化选择句子生成摘要. Yan 等的研究既考虑了区分不同时间段的重要性又考虑了通过最优化的方式解决摘要信息的冗余问题然而其还没有考虑利用话题中的隐含语义信息. 2012 , Chen [15]将矩阵奇异值分解引入时序摘要的生成当中首先检测themes; 然后识别每一theme 中的事件同时生成每一事件的摘要最后识别事件之间的演化关系. Chen 等的方法仍然没有考虑滤除摘要内的冗余信息. 2013 , Huang [9] 在生成摘要的过程中考虑利用全局子话题和局部子话题信息但是需要事先确定子话题数目. Xu [5] 首次考虑将不同的子话题分别以时间线摘要的形式展示给用户提出了二维故事图的概念即以图展示整个话题的时序摘要图中包含多条故事线每一故事线均对应了一个子话题. Li [10] 研究了基于演化分层狄利克雷过程的时间线摘要生成方法其将文档按时间段划分之后利用一个三层狄利克雷过程进行建模既能识别每一时间段的主题又能获取不同时间段主题之间的关系.上述研究均是在话题相关文档已知的前提下进行的属于静态时序摘要的范畴为促进动态时序摘要的研究美国国家标准与技术研究院(NationalInstitute of Standards and Technology, NIST) 2012 年提出进行时序摘要的国际评测并将其作为2013 TREC 国际评测会议(Text retrieval con-ference) 的任务之一[16]. 该评测吸引了国内外多家研究机构的参与但是从评测结果来看动态时序摘要还有待更深入的研究.另外近年来随着社交媒体的迅速发展研究者尝试对社交媒体数据流进行摘要分析以帮助不同需求的用户能够从大规模数据流中快速掌握感兴趣话题的主要信息这一研究又称为数据流摘要[17¡20]. 与时序摘要主要考虑对单一话题进行摘要分析不同数据流摘要面向的是包含多个话题的社1Biterm 在本文中指的是共现词语对例如句子\中国战胜日本中包含三个共现词语对分别是\中国战胜"\中国日本\战胜日本".1454 自动化学报41 卷交媒体数据流要求从不同时期的数据流中抽取代表性的Twitter 博文作为其摘要.2 研究方法基于BDP 的时序摘要生成方法首先建立BDP模型发现文档集中的隐含子话题并得到每一句子的子话题分布然后利用该分布计算句子的相关度和新颖度选择既相关又新颖的句子最后对选择的句子按照时间顺序排序组成时序摘要.2.1 子话题发现本文利用BDP 发现文档集中隐含的子话题.BDP 在建模过程中打破了单一文档的边界限制,直接根据文档集内的词语共现信息挖掘隐含子话题.2.1.1 BDP 模型建立BDP 模型假设文档集中的主题先验分布服从狄利克雷过程如图所示.词语对狄利克雷过程Fig. 1 Biterm Dirichlet process狄利克雷过程是基于分布上的分布对于测度空间(£;B) 上的概率分布G0, 如果对(£;B)的任意有限分割(T1; T2; ¢ ¢ ¢ ; TK), G 均满足(G(T1);G(T2); ¢ ¢ ¢ ;G(TK)) »Dir(®G0(T1); ®G0(T2); ¢ ¢ ¢ ; ®G0(TK)) (1)则称满足狄利克雷过程记为G » DP(®;G0).其中, ® 是聚焦参数为正实数(Positive real num-ber), G0 为基分布.目前常采用的狄利克雷过程构造方法有三种,分别是截棍过程(Stick-breaking construction)、中国餐馆过程(Chinese restaurant process, CRP) 和波利亚罐子模型(Polya urn scheme). 利用CRP 构造狄利克雷过程时将文档集视为一个中国餐馆每个顾客视为一个Biterm. 假设一个中国餐馆能容纳无数张桌子每张桌子能容纳下无数顾客进入餐馆中的每个顾客用表示第一个顾客进入餐馆后选定第一张桌子坐下第二个顾客进入餐馆后要么会和第一个顾客坐在一起要么会另选一张桌子坐下, ¢ ¢ ¢ . 那么个顾客会以nj=(n ¡ 1 + ®)的概率选择已经占有的桌子µj , 其中nj 表示选择该桌子坐下的顾客数®=(n¡1+®) 的概率选择一张没有顾客坐的新桌子顾客被分到已经有顾客坐的桌子的概率主要和nj 相关这样导致\一个坐的人越多的桌子再有人坐的可能性越大"; 而顾客坐到没有人坐的桌子的概率主要和® 相关.狄利克雷过程认为一组数据是由一个混合模型(Mixture model) 抽样产生的该模型包含多个混合成分(Mixture components), 每个数据都与一个混合成分相关如果将CRP 中的桌子视为隐含子话题那么利用BDP 生成文档集的过程如下:1) 选取基分布G » DP(®;G0), 表示文档集内的子话题分布;2) 对于文档集内的每一个Biterm, 将其记为bj , 中抽取子话题µj , 然后根据子话题µj 生成bj 所包含的两个词语wj1 wj2.2.1.2 模型推理根据CRP 构造BDP 模型的过程本文采用Gibbs 采样算法对BDP 模型进行近似后验推理.由于篇幅有限本文仅给出Gibbs 采样的迭代式详细推导可参考文献[21¡22]. 每一符号的具体含义详见表1.1 BDP 推理中部分符号的含义Table 1 Notations in BDP inference符号含义mz 由子话题生成的Biterm nvz 由子话题生成的特征的数目特征数目即词典大小jBj Biterm 总数第个顾客选择桌子坐下的条件概率分布为p(µj = zjz¡j ;B¡j) /(m¡jz f¡wj1z (wj1)f¡wj2z (wj2); z has been used®f¡wj1znew (wj1)f¡wj2znew (wj2); z = znew(2)本文假设每一子话题均服从对称狄利克雷分布'z » Dir(¯), f¡wjiz (wji = v) =8>><>>:nz¡wji;v + ¯nz¡wji + V ¯; z has been used1V; z = znew;j = 1; ¢ ¢ ¢ ; jBj (3)8 期席耀一等基于词语对狄利克雷过程的时序摘要1455上标中的¡ 表示不包含相应变量的计数例如m¡jz 表示由子话题生成的Biterm (不包括第Biterm). 通过模型推理可以得到文档集中的子话题数目K、每一子话题的词语概率分布fwz (又记为p(wjz))、文档集内每一子话题的概率分布p(z)以及每一句子的子话题概率分布p(zjs), 具体计算方法如下:fwz = nzw P + ¯wnzw + V ¯(4)p(z) = nz + ®jBj + K®(5)p(zjs) =Xbp(zjb)p(bjs) (6)其中, p(zjb) p(bjs) 采用文献[11] 中的方法计算得到如式(7) 和式(8) 所示即根据贝叶斯公式计算p(zjb), 采用每一Biterm 在句子中的经典分布估计p(bjs).p(zjb) = p(z)p(wijz)p(wj jz)KPz=1p(z)p(wijz)p(wj jz)(7)p(bjs) = msP (b)bms(b)(8)2.2 摘要句子选择完成子话题发现后如何从文档集合中选择既重要又新颖的句子是一个关键时序摘要相比多文档摘要考虑了时间因素如果将多文档摘要视为空间中的一个点那么时序摘要可以视为由多个点在时间轴上连成的一条线多文档摘要需要满足: 1)覆盖率高即摘要内容尽可能覆盖文档集的主要信息; 2) 冗余信息少即摘要内的重复信息应尽可能少这两个要求在考虑时间维度的前提下又多了一层新的含义首先是覆盖率高由于话题随时间在不断演化因此每一时间段的话题内容之间一般都会有所区别时序摘要需要覆盖每一时间段的主要内容其次是新颖信息多冗余信息少时序摘要既要求同一时间段内的冗余信息尽可能少又要保证不同时间段之间的冗余信息尽可能少即需要进行跨时间段冗余信息滤除(Cross-date redundancyremoval).时序摘要应该既能反映出话题内容的变化又尽量避免冗余信息每一时间段的摘要应重点体现该时间段内话题的主要内容同时避免与之前时间段的话题内容出现重复根据时序摘要的特点在每一时间段选择那些与当前时间段话题主要内容密切相关且包含没有在之前时间段出现过的话题新信息的句子添加入摘要本文根据句子的相关度和新颖度选择句子其分别定义如下.句子相关度句子与当前时间段文档集所描述话题信息的相关程度.句子新颖度句子与当前时间段之前文档集包含信息的重叠程度.对于时间段的句子集合ST , 以每一句子与该时间段的主题分布的相似性作为其相关度的度量,相似度越高则相关性越强引入递减logistic 函数³1(x) = 1=(1 + ex) KL 散度(Kullback-Leiblerdivergence), 每一句子的相关度计算如下:FIR(sT ) = ³1(KL(sT kTopicDisT )) (9)每一句子的新颖度则以其与时刻之前的文档集的主题分布的距离进行度量距离越远则新颖度越大引入递增logistic 函数³2(x) = ex=(1 + ex),每一句子的信息新颖度计算如下:FIN(sT ) = ³2(KL(sT kHistoryTopicDisT )) (10)根据每一句子的相关度和新颖度可得该句的总体评分为Score(sT ) = ¸ £ FIR(sT ) + (1 ¡ ¸) £ FIN(sT )(11)为了避免每一时间段的摘要中出现冗余句子,本文采用了MMR 策略[23], 其中句子与句子之间的相似度计算方式如下:cos(s1; s2) =KPk=1p(s1jk) £ p(s2jk)sKPk=1p2(s1jk) £sKPk=1p2(s2jk)(12)假设经过后验推理得到了个主题µ1, µ2, ¢ ¢ ¢ ,µK, 时间段的主题分布TopicDisT 计算如图2所示.时间段的主题分布计算过程Fig. 2 Calculation of topic distribution at time T, p(kjs) 的计算如式(6) 所示每一时间段之前的文档集的主题分布计算与图类似.1456 自动化学报41 2.3 摘要句子排序要生成时序摘要需要将选择的句子按照一定方式排序本文从以下两个方面对句子进行排序得到摘要:1) 根据选择句子来源文档的时间按照先后顺序排列;2) 对于同一时间的句子根据其在文档中出现的相对位置排序位置靠前的排在前面具体为每一句子都对应一个取值区间为[0; 1] 的数值表示其在文档中的相对位置数值越小排序越靠前.3 实验结果与分析由于目前还没有标准的时序摘要评测数据集,本文人工构建了评测数据集具体构建过程如下:首先从互联网上随机选择若干突发性热门话题话题选择的标准是属于突发事件、规范性好、持续时间长选择突发事件是因为这类事件一般受关注度较高感兴趣用户较多规范性好则是考虑到互联网的海量数据中包含大量噪声信息很多数据本身很不规范处理起来难度较高持续时间长则是考虑到便于更好地评价时序摘要方法的性能然后邀请若干语言专家分别为几个话题人工生成摘要.按照此构建过程本文的数据集实际包含了四个话题详细统计信息如表和表所示这四个话题均属于突发事件持续时间较长且分别来源于国内四大门户网站的新闻专题版块经过网站编辑的整理比较规范每个话题均邀请两名专家为其生成标准摘要.数据来源信息Table 2 Information of the data source来源篇数新浪专题380腾讯专题619凤凰专题620网易专题1433.1 实验性能评价本文采用文档摘要研究中的通用评价标准Rouge[24] 对时序摘要的质量进行评价Rouge评测指标中有多种子指标Rouge-NRouge-LRouge-W 其中每一项评测指标都能产生出个得分(召回率准确率, F1 ). 下面以Rouge-N 为例进行说明.N 元语言模型的召回率Rouge-N-R Rouge-N-R =PI2GTPN-gram2ICountmatch(N-gram)PI2GTPN-gram2ICount(N-gram)(13)N 元语言模型的准确率Rouge-N-P Rouge-N-P =PI2CTPN-gram2ICountmatch(N-gram)PI2CTPN-gram2ICount(N-gram)(14)以上两者的F1 值为Rouge-N-F =2 £ Rouge-N-P £ Rouge-N-RRouge-N-P + Rouge-N-R(15)其中, N 元语言模型的长度, N-gram 2 GT表示在标准答案摘要GT 中出现的元语言模型,N-gram 2 CT 表示在系统自动生成的摘要中出现的元语言模型. Countmatch(N-gram) 是在候选文档摘要中和标准答案中都出现的元语言模型数量, Count (N-gram) 则表示仅出现在标准答案摘要或是系统自动生成的摘要中的元语言模型数量受篇幅所限本文仅给出摘要的Rouge-1-FRouge-2-F Rouge-W-F 由于标准的Rouge工具仅适用于英文评测本文对其进行了改进使其同样可以用于中文评测.为方便评价生成摘要的质量本文参照多文档摘要评测任务的要求,限定每一话题摘要的最大长度表数据集的基本统计信息Table 3 Detailed information of the data sets话题篇数句子数天数标准摘要平均长度1. 2013 12 月俄罗斯伏尔加格勒系列爆炸137 1 628 7 6502. 2013 月韩国波音客机旧金山坠毁628 5 158 47 1 5003. 2014 月昆明火车站恐怖袭击事件270 2 661 12 8504. 2013 月波士顿马拉松恐怖袭击727 6 031 40 1 2508 期席耀一等基于词语对狄利克雷过程的时序摘要1457为标准摘要的平均长度然后评价所生成摘要的质量.3.2 参数调优在利用句子相关度和新颖度为句子评分时引入了参数¸为了验证¸ 对摘要性能的影响本文以0.05 为步长取¸ 在[0; 1] 区间的变化值分别计算相应的Rouge-1Rouge-2 以及Rouge-W 3展示了各度量值随¸ 增加的变化情况可以看到,当¸ = 0:35 各度量值均达到最大并且从图3中可以看出:1) 当¸ = 0, 即仅考虑句子的相关度时各度量值均比较低说明在时序摘要中跨时间段的冗余信息是存在的滤除冗余信息有助于提高摘要质量;2) 当¸ = 1, 即仅考虑句子的新颖度时各度量值也出现了一定程度的下降这与实际情形相符即摘要首先要满足话题相关性.参数¸ 的影响Fig. 3 In°uence of parameter ¸3.3 与其他摘要生成方法的性能对比本文选取文档摘要研究中的两种经典算法LexRank[25] Centroid[26] 作为Baseline, 并将本文方法(BDP) 与时序摘要研究中两种典型方法进行比较分别是基于宏微观重要性判别模型[14]的方法(Macro-Micro) 和基于EHDP[10] 的方法(EHDP). 总体性能对比如图所示各方法在每一话题上的详细对比结果如表所示由于LexRank算法和Centroid 算法均未考虑时间信息本文对其抽取的句子按照句子出现的时间先后进行了排序.LexRank 算法是文档摘要领域的经典算法首先根据句子之间的余弦相似度构建一个以句子为节点的连通图然后利用PageRank 算法对节点进行排序最后选择排序靠前的句子作为摘要句.Centroid 算法根据句子的Centroid 评分、位置和与首句重复程度选择句子. Centroid 评分高、位置靠前且与首句重复信息少的句子会被选为摘要句.总体性能对比Fig. 4 Overall performance comparisonMacro-Micro 算法首先选择重要时间段然后选择重要时间段内的句子作为该时间段的摘要.EHDP 算法通过构建演化分层狄利克雷过程来利用句子内隐含的子话题信息. EHDP 方法没有考虑不同时间段之间的区别, Li [10] 在实验中假定每一时间段的摘要均不超过50 个字如果机械按照Li等的实验设置会导致生成的摘要质量较差为更客观地衡量EHDP 方法的性能本文在实现EHDP方法时根据每一话题的摘要总长度限制和时间段个数平均计算每一时间段摘要的长度.从图和表可以看出, LexRank Centroid方法性能最差这是因为其仅根据词语特征判断句子重要性准确率低同时发现, Centroid 方法倾向于选择较长的句子因为长句子的Centroid 评分较高更容易被选中为摘要句两者相比较, Centroid方法性能较优这是因为其考虑的特征更全面.Macro-Micro 方法对时间段进行了区分影响了召回率但是总体性能相较LexRank Centroid方法提高不少该方法充分利用文档和句子在时间轴上的分布来判断时间段重要性并选择句子取得了较好性能这说明有必要对时间段进行区分但是该方法没有考虑跨时间段的冗余信息滤除生成的摘要中经常出现重复信息影响了该方法的性能另外其以句子所含事件触发词重要性的累加和作为句子重要性的判断依据并且倾向于选择包含新出现触发词的句子使得其容易受到噪声信息干扰例如话题中的句子\昨日下午继阿里木江¢ 哈力克先生捐款后在广州摆地摊的维族男子卡哈尔¢ 买买提也通过新疆都市报与本报联系希望能为`3 ¢ 01严重暴力恐怖袭击事件的伤者捐款经过了解后,卡哈尔¢ 买买提决定为伤情严重的石克香女士捐款1 000 ". 由于该句子包含多个新出现的动词使得其被Macro-Micro 方法选为摘要句该句子虽然与话题相关但是属于次要信息标准摘要中并未包含1458 自动化学报41 卷表不同方法在四个话题上的结果Table 4 Performance comparison on each topicTopic Method Rouge-1 Rouge-2 Rouge-WLexRank 0.31051 0.06526 0.09545Centroid 0.42807 0.14773 0.128281. 俄罗斯伏尔加格勒爆炸Macro-Micro 0.43800 0.14545 0.13228EHDP 0.44596 0.14178 0.12218BDP 0.47399 0.19010 0.14827LexRank 0.37693 0.06646 0.09337Centroid 0.36718 0.06350 0.080672. 韩国波音客机旧金山坠毁Macro-Micro 0.43700 0.11519 0.11189EHDP 0.39111 0.12849 0.11393BDP 0.44160 0.12994 0.12443LexRank 0.26436 0.03571 0.06350Centroid 0.28905 0.04878 0.060663. 昆明火车站恐怖袭击Macro-Micro 0.35191 0.07448 0.08501EHDP 0.37194 0.10576 0.09710BDP 0.39147 0.12082 0.10043LexRank 0.34955 0.05428 0.09428Centroid 0.31436 0.05420 0.077564. 波士顿马拉松恐怖袭击Macro-Micro 0.38999 0.08717 0.10125EHDP 0.38666 0.13076 0.11918BDP 0.42917 0.16267 0.12900类似信息.EHDP 方法性能优于Baseline, 说明挖掘隐含子话题信息有助于提高摘要质量. EHDP 方法在话题上的Rouge-1 值低于Macro-Micro 方法原因是Macro-Micro 方法仅生成重要节点的摘要EHDP 方法并未考虑节点的重要性由于话题持续时间较长因此EHDP 方法生成的摘要长度过长,准确率相较Macro-Micro 方法低, Rouge-1-F 值也受到了影响虽然EHDP 方法在话题上性能比Macro-Micro 方法差但是其在其他个话题上的性能几乎均优于Macro-Micro 方法另外, EHDP方法的Rouge-2 Rouge-W 值优于Macro-Micro方法说明EHDP 方法生成的摘要中包含的元语言模型(2-gram) 多数也在标准摘要中出现过.EHDP 方法和BDP 方法均利用词语共现挖掘隐含子话题信息词语共现信息中包含着2-gram, 因此挖掘隐含子话题有助于提高Rouge-2 Rouge-W.BDP 方法取得了最优性能虽然BDP 方法与EHDP 方法相比没有考虑摘要的连贯性Macro-Micro 方法相比没有考虑去除非重要时间段Centroid 方法相比没有在选择句子时考虑句子的位置等重要特征LexRank 方法相比没有考虑全局信息但是BDP 方法生成的摘要最接近标准摘要表明BDP 方法能更好地挖掘句子内的隐含语义信息并且根据句子的相关度和新颖度选择句子生成时序摘要是有效的另外经过观察生成的摘要有以下几点发现:1) 考虑历史信息能够提高句子新颖度计算的准确率有效滤除跨时间段的冗余信息;2) 由于是直接抽取句子生成摘要摘要中经常包含一些无用信息例如\XX 报道"\消息称"后续研究可以考虑进行句子压缩[27] 等优化;3) 内容集中的话题摘要质量优于内容分散的话题摘要例如话题和话题的相关文档主要是报道相关事件本身的发展而话题和话题中有很多报道是关于记者对伤亡者家属和目击者的采访,影响了摘要的质量;4) 持续时间短的话题的摘要质量优于持续时间长的话题的摘要质量例如话题的摘要质量优于其他持续时间较长的话题.给出了利用本文方法生成的关于话题1\俄罗斯伏尔加格勒爆炸的时序摘要.4 总结本文提出了一种基于BDP 的时序摘要生成方法该方法直接利用文档集内的词语共现模式来挖掘句子的主题分布与传统主题模型相比, BDP 直接利用文档集内的词语共现模式发现主题,跳过了文期席耀一等基于词语对狄利克雷过程的时序摘要1459基于BDP 生成的关于话题\俄罗斯伏尔加格勒爆炸的时序摘要Table 5 Temporal summary generated by BDP for \Explosions in the Russian city of Volgograd"时序话题摘要俄罗斯伏尔加格勒号火车站于当地时间29 日下午12 : 45 时发生爆炸已致18 40 多人受伤.2013-12-29 但报道并未提及爆炸发生的原因俄总统普京责成有关部门为受伤者提供一切必要的救助.伏尔加格勒州政府将明年日至日定为哀悼日伏尔加格勒市政府宣布取消新年所有庆祝活动.俄罗斯国家反恐委员会在一份声明中说: \初步迹象显示爆炸由一名女性自杀式炸弹袭击者制造".2013-12-30 据俄罗斯媒体30 日报道俄国家反恐委员会表示伏尔加格勒州无轨电车恐怖袭击案的一种说法是安放在车厢内的炸弹被引爆.俄伏尔加格勒无轨电车遭袭策划2011 年莫斯科多莫杰多沃机场自杀式袭击的伊斯兰武装势力头目2013-12-31 乌马罗夫在今年月公开叫嚣阻止索契冬奥会的举办伏尔加格勒发生恐怖爆炸事件后国际社会纷纷对恐怖袭击予以谴责并对遇难者家属以及俄罗斯政府和人民致以慰问.2014-01-01当地时间2014 日凌晨俄罗斯总统普京乘坐专机抵达俄南部城市伏尔加格勒两天前,这里曾经连续发生两起恐怖主义爆炸袭击这几天伏尔加格勒所有大规模的群众性新年庆祝活动都已经取消了.当地时间2014 俄罗斯伏尔加格勒为火车站爆炸袭击遇难者举行葬礼消息称: \警方逮捕了700 2014-01-02 名行政违法人员、12 名被通缉的犯罪分子和70 名嫌疑犯". 消息指出在伏尔加格勒发生两起恐怖袭击后开展的旋风反恐行动中执法人员检查了全州6 000 余处设施.俄内务部伏尔加格勒州内务总局日称在新年第一天的\旋风反恐行动中逮捕700 余名违法者一名俄2014-01-03 罗斯卫生部官员于当地时间日表示又有名在伏尔加格勒恐怖爆炸袭击中受伤的人员入院治疗这使得在地方诊所住院接受治疗的伤者人数升至46 .俄罗斯国家反恐委员会30 日发布消息说在伏尔加格勒实施自杀式袭击的两名恐怖分子的身份已被查明.2014-01-30 此外俄罗斯强力部门工作人员29 日在俄达吉斯坦共和国逮捕另外两人他们被指控涉嫌为恐怖分子实施袭击提供协助目前详细情况正在进一步调查.档层避免了诸如句子等短文本的特征稀疏问题所造成的影响而且BDP 能够自动发现文档集的主题数目易于对未知数据集进行建模在选择句子时,本文通过计算句子的相关度和新颖度选择句子在计算句子新颖度时考虑了历史文档集减少了跨时间段的冗余信息虽然BDP 模型应用于时序摘要取得了不错的效果但是BDP 模型需要从整个文档集中抽取共现信息每当有新文档到来时需要重新对整个文档集进行建模未来的研究可以考虑在BDP中加入时序信息使得能够对摘要进行动态更新以适应在线处理的情形.References1 Yan R, Wan X J, Otterbacher J, Kong L, Li X M, Zhang Y.Evolutionary timeline summarization: a balanced optimiza-tion framework via iterative substitution. In: Proceedings ofthe 34th Annual International ACM SIGIR Conference onResearch and Development in Information Retrieval. Bei-jing, China: ACM, 2011. 745¡7542 Yan R, Kong L, Huang C R, Wan X J, Li X M, ZhangY. Timeline generation through evolutionary trans-temporalsummarization. In: Proceedings of the 2011 Conference onEmpirical Methods in Natural Language Processing. Edin-burgh, UK: ACL, 2011. 433¡4433 Tran G B, Tran T A, Tran N K. Leveraging learning to rankin an optimization framework for timeline summarization.In: Proceedings of the 36th Annual International ACM SI-GIR Workshop on Time-aware Information Access. Dublin,Ireland: ACM, 2013. 433¡4434 Chieu H L, Lee Y K. Query based event extraction along atimeline. In: Proceedings of the 27th Annual InternationalACM SIGIR Conference on Research and Development inInformation Retrieval. She±eld, UK: ACM, 2004. 425¡4325 Xu S Z, Wang S S, Zhang Y. Summarizing complex events:a cross-modal solution of storylines extraction and recon-struction. In: Proceedings of the 2013 Conference on Em-pirical Methods in Natural Language Processing. Seattle,USA: ACL, 2013. 1281¡12916 Blei D M, Ng A Y, Jordan M I. Latent Dirichlet allocation.Journal of Machine Learning Research, 2003, 3: 993¡10227 Cao Jian-Ping, Wang Hui, Xia You-Qing, Qiao Feng-Cai,Zhang Xin. Bi-path evolution model for online topic modelbased on LDA. Acta Automatica Sinica, 2014, 40(12): 2877¡2886(曹建平王晖夏友清乔凤才张鑫基于LDA 的双通道在线主题演化模型自动化学报, 2014, 40(12): 2877¡2886)8 Gao D H, Li W J, Zhang R X. Sequential summarization: anew application for timely updated twitter trending topics.In: Proceedings of the 51st Annual Meeting of the Associ-ation for Computational Linguistics. So¯a, Bulgaria: ACL,2013. 567¡5719 Huang L F, Huang L E. Optimized event storyline genera-tion based on mixture-event-aspect model. In: Proceedingsof the 2013 Conference on Empirical Methods in NaturalLanguage Processing. Seattle, USA: ACL, 2013. 726¡7351460 自动化学报41 10 Li J W, Li S J. Evolutionary hierarchical dirichlet process fortimeline summarization. In: Proceedings of the 51st AnnualMeeting of the Association for Computational Linguistics.So¯a, Bulgaria: ACL, 2013. 556¡56011 Yan X H, Guo J F, Lan Y Y, Cheng X Q. A biterm topicmodel for short texts. In: Proceedings of the 22nd Interna-tional World Wide Web Conference. Rio de Janeiro, Brazil:ACM, 2013. 1445¡145512 Allan J, Gupta R, Khandelwal V. Temporal summaries ofnew topics. In: Proceedings of the 24th Annual Interna-tional ACM SIGIR Conference on Research and Develop-ment in Information Retrieval. New Orleans, USA: ACM,2001. 10¡1813 Lin F R, Liang C H. Storyline-based summarization for newstopic retrospection. Decision Support Systems, 2008, 45(3):473¡49014 He Rui-Fang, Qin Bing, Liu Ting, Pan Yue-Qun, Li Sheng.Temporal multi-document summarization based on macro-micro importance discriminative model. Journal of Com-puter Research and Development, 2009, 46(7): 1184¡1191(贺瑞芳秦兵刘挺潘越群李生基于宏微观重要性判别模型的时序多文档文摘计算机研究与发展, 2009, 46(7): 1184¡1191)15 Chen C C, Chen M C. TSCAN: a content anatomy ap-proach to temporal topic summarization. IEEE Transactionson Knowledge and Data Engineering, 2012, 24(1): 170¡18316 Aslam J, Diaz F, Ekstrand-Abueg M, Pavlu V, Sakai T.TREC 2013 temporal summarization. In: Proceedings of the22nd Text Retrieval Conference. Gaithersburg, USA: NIST,[Online], available: http://trec.nist.gov/pubs/trec22/trec-2013.html, January 1, 201517 Shou L D, Wang Z H, Chen K, Chen G. Sumblr: continu-ous summarization of evolving tweet streams. In: Proceed-ings of the 36th Annual International ACM SIGIR Confer-ence on Research and Development in Information Retrieval.Dublin, Ireland: ACM, 2013. 533¡54218 Olariu A. E±cient online summarization of microbloggingstreams. In: Proceedings of the 14th Conference of the Eu-ropean Chapter of the Association for Computational Lin-guistics. Gothenburg, Sweden: ACL, 2013. 236¡24019 Olariu A. Hierarchical clustering in improving microblogstream summarization. In: Proceedings of the 14th Interna-tional Conference on Intelligent Text Processing and Com-putational Linguistics. Samos, Greece: Springer, 2013. 424¡43520 Zubiaga A, Spina D, Amigo E, Gonzalo J. Towards real-timesummarization of scheduled events from twitter streams. In:Proceedings of the 23rd ACM Conference on Hypertext andSocial Media. Milwaukee, USA: ACM, 2013. 319¡32021 Teh Y W, Jordan M I, Beal M J, Blei D M. Hierarchicaldirichlet processes. Journal of the American Statistical As-sociation, 2006, 101(476): 1566¡158122 Gri±ths T L, Steyvers M. Finding scienti¯c topics. Proceed-ings of the National Academy of Science of the United Statesof America, 2004, 101(Suppl 1): 5228¡523523 Carbonell J, Goldstein J. The use of MMR, diversity-basedreranking for reordering documents and producing sum-maries. In: Proceedings of the 21st Annual InternationalACM SIGIR Conference on Research and Development inInformation Retrieval. Melbourne, Australia: ACM, 1998.335¡33624 Lin C Y, Hovy E. Automatic evaluation of summaries usingN-gram co-occurrence statistics. In: Proceedings of the 2003Conference of the North American Chapter of the Associ-ation for Computational Linguistics on Human LanguageTechnology. Edmonton, Canada: ACL, 2003. 71¡7825 Erkan G, Radev D R. LexRank: graph-based lexical central-ity as salience in text summarization. Journal of Arti¯cialIntelligence Research, 2004, 22(1): 457¡47926 Radev D R, Jing H Y, Stys M, Tam D. Centroid-based sum-marization of multiple documents. Information Processingand Management, 2004, 40(6): 919¡93827 Li P,Wang Y L, Gao W, Jiang J. Generating aspect-orientedmulti-document summarization with event-aspect model.In: Proceedings of the 2011 Conference on Empirical Meth-ods in Natural Language Processing. Edinburgh, UK: ACL,2011. 1137¡1146席耀一解放军信息工程大学信息系统工程学院博士研究生. 2011 年获得解放军信息工程大学硕士学位主要研究方向为自然语言处理本文通信作者.E-mail: brian3333@163.com(XI Yao-Yi Ph. D. candidate at theInstitute of Information System Engi-neering, PLA Information EngineeringUniversity. He received his master degree from PLA In-formation Engineering University in 2011. His research in-terest covers natural language processing. Correspondingauthor of this paper.)李弼程解放军信息工程大学信息系统工程学院教授主要研究方向为文本分析与理解语音处理与识别图像/视频处理与识别信息融合.E-mail: lbclm@gmail.com(LI Bi-Cheng Professor at the In-stitute of Information System Engineer-ing, PLA Information Engineering Uni-versity. His research interest covers text analysis and un-derstanding, speech/image/video processing and recogni-tion, and information fusing.)李天彩解放军信息工程大学信息系统工程学院硕士研究生. 2012 年获得南京邮电大学学士学位主要研究方向为自然语言处理. E-mail: litc1125@126.com(LI Tian-Cai Master student at theInstitute of Information System Engi-neering, PLA Information EngineeringUniversity. He received his bachelor de-gree from Nanjing University of Posts and Telecommunica-tions in 2012. His research interest covers natural languageprocessing.)黄山奇65022 部队工程师. 2011 年获得解放军信息工程大学硕士学位主要研究方向为自然语言处理.E-mail: luckyhsq@foxmail.com(HUANG Shan-Qi Engineer atUnit 65022. He received his master de-gree from PLA Information Engineer-ing University in 2011. His research in-terest covers natural language processing.)

[返回]
上一篇:Bezier 曲线变角度层合板设计及屈曲特性分析
下一篇:基于波速驱动的机器海豚平均推进速度控制方法