一种基于用户评论自动分析的APP维护和演化方法_肖建茂 - 博士论文 - 一起赢论文辅导网--专业代写代发SCI、EI、核心期刊、代写MBA、硕博毕业论文。QQ910330594

欢迎访问一起赢论文辅导网

加入收藏 | 设为主页 | 联系我们

本站动态

联系我们

QQ：3949358033

微信：paperwinner

工作时间：9:00-24:00

成功案例

博士论文

当前位置：首页 > 博士论文

一种基于用户评论自动分析的APP维护和演化方法_肖建茂

来源：一起赢论文网日期：2021-03-13 浏览数：3435 【字体：大中小】

第４３卷第１１期２０２０年１１月计算机学报ＣＨＩＮＥＳＥＪＯＵＲＮＡＬＯＦＣＯＭＰＵＴＥＲＳＶｏｉ． ４３Ｎｏ． １１Ｎｏｖ．２０２０一种基于用户评论自动分析的ＡＰＰ维护和演化方法肖建茂陈世展冯志勇刘朋立薛霄（天津市认知计算与应用重点实验室天津３００３５０）（天津大学智能与计算学部天津３００３５０）摘要应用程序分发平台（如Ｇｏｏｇｌｅ Ｐｌａｙ Ｓｔｏｒｅ或Ａｐｐｌｅ ＡｐｐＳｔｏｒｅ）允许用户以评分或者评论等形式向下载的应用程序提交反馈．这些反馈信息可以直接或者间接地反映用户意图，及时准确地挖掘用户意图可以极大地帮助移动开发人员持续维护和改善他们的ａＰＰ，从而更好地满足用户期望．然而，对于很多流行的应用来说，由于其用户评论数据量大、非结构化以及评论质量不一致等，使得识别其中有价值的信息成为一项极具挑战的任务．因此，将用户评论进行自动化分析以减缓人工分析工作量成为ａｐｐ评论挖掘的新思路．本文我们提出了一种自动化用户评论分析方法 ＡＲＩＣＡ（Ａｕｔｏｍａｔｉｃ ＲｅｖｉｅｗＩｎｔｅｎｔｉｏｎＣｌａｓｓｉｆｉｃａｔｉｏｎ Ａｎａｌｙｓｉｓ）．首先，ＡＲＩＣＡ根据用户的评论反馈，自动将评论信息进行意图分类，并使用ＬＤＡ主题模型对每个分类意图下评论进行主题划分；其次，在每个主题下对表达语义相似的评论进行聚类，进一步，ＡＲＩＣＡ使用情感分析工具ＳｅｎｔｉＳｔｒｅｎｇｔｈ获取用户情感，然后对用户评论的情感分布进行分析来识别用户的重要意图；最后，综合考虑用户意图和用户情感偏好等多维度信息计算用户评论得分并以此划分评论优先级，从而为开发者进行用户评论意见推荐．我们使用Ｇｏｏｇｌｅ Ｐｌａｙ中真实的ａｐｐ评论数据来验证ＡＲＩＣＡ的评论意图分类和句子聚类的性能．实验结果表明，ＡＲＩＣＡ在用户评论意图分类过程中准确度达到８０％，和现有的基于卷积神经网络的方法ＴｅｘｔＣＮＮ的相比，ＡＲＩＣＡ的Ｆ－Ｍｅａｓｕｒｅ提髙了 １９． １％？同时，评论句子聚类过程中获得８６％的准确率．另外，为了验证ＡＲＩＣＡ推荐用户评论的有效性，我们使用官方的ａＰＰ更新日志来实证分析ＡＲＩＣＡ推荐的用户评论建议是否可以真实地被开发者釆用．结果表明，ＡＲＩＣＡ可以高效为开发者推荐具有价值信息的评论，这对于开发者进行后续的ａｐｐ维护和演化任务具有重要意义．关键词用户评论；意图分类；情感分析；维护和演化；意见推荐中图法分类号ＴＰ３１１ＤＯＩ 号 １０． １１８９７／ＳＰ．Ｊ．  １０１６．  ２０２０．０２１８４ＡｎＡｕｔｏｍａｔｉｃＡｎａｌｙｓｉｓｏｆＵｓｅｒＲｅｖｉｅｗｓＭｅｔｈｏｄｆｏｒＡＰＰＥｖｏｌｕｔｉｏｎ ａｎｄＭａｉｎｔｅｎａｎｃｅＸＩＡＯＪｉａｎ－ＭａｏＣＨＥＮＳｈｉ－ＺｈａｎＦＥＮＧ Ｚｈｉ－ＹｏｎｇＬＩＵＰｅｎｇ－ＬｉＸＵＥ－Ｘｉａｏ（Ｔｉａｎｊｉｎ  ＫｅｙＬａｂｏｒａｔｏｒｙ ｏｆＣｏｇｎｉｔｉｖｅ Ｃｏｍｐｕｔｉｎｇ ａｎｄ Ａｐｐｌｉｃａｔｉｏｎ ＊ Ｔｉａｎｊｉｎ３００３５０）（．Ｃｏｌｌｅｇｅ ｏｆ Ｉｎｔｅｌｌｉｇｅｎｃｅ ａｎｄ Ｃｏｍｐｕｔｉｎｇ ？ Ｔｉａｎｊｉｎ  Ｕｎｉｖｅｒｓｉｔｙ？ Ｔｉａｎｊｉｎ ３００３５０）ＡｂｓｔｒａｃｔＡｐｐｌｉｃａｔｉｏｎｄｉｓｔｒｉｂｕｔｉｏｎｐｌａｔｆｏｒｍｓ ｓｕｃｈ ａｓ Ｇｏｏｇｌｅ ＰｌａｙＳｔｏｒｅｏｒ ＡｐｐｌｅＡｐｐＳｔｏｒｅ ａｌｌｏｗｕｓｅｒｓ  ｔｏｓｕｂｍｉｔ ｆｅｅｄｂａｃｋｓ ｔｏｄｏｗｎｌｏａｄａｐｐｌｉｃａｔｉｏｎｓｉｎ ｔｈｅ ｆｏｒｍｏｆ  ｒａｔｉｎｇｓ ｏｒ ｒｅｖｉｅｗｓ．Ｔｈｅｓｅｆｅｅｄｂａｃｋｓｃａｎｄｉｒｅｃｔｌｙ ｏｒ ｉｎｄｉｒｅｃｔｌｙ ｒｅｆｌｅｃｔ ｕｓｅｒｓ？ ｉｎｔｅｎｔｉｏｎ，ａｎｄｉｔｃａｎ ｇｒｅａｔｌｙ ｈｅｌｐｍｏｂｉｌｅ ｄｅｖｅｌｏｐｅｒｓ （ｏｒａｐｐｐｒｏｖｉｄｅｒ）ｔｏｃｏｎｔｉｎｕｏｕｓｌｙｍａｉｎｔａｉｎ ａｎｄｉｍｐｒｏｖｅ ｔｈｅｉｒａｐｐｌｉｃａｔｉｏｎｓ，ｓｕｃｈａｓｆｉｘｔｈｅｅｘｉｓｔｉｎｇｂｕｇｓ，ａｄｄｏｒｒｅｆｉｎｉｎｇｔｈｅａｐｐｆｅａｔｕｒｅｓ＊ｅｔｃ．ａｎｄｓｏａｓｔｏｂｅｔｔｅｒ ｓａｔｉｓｆｙｉｎｇｕｓｅｒｅｘｐｅｃｔａｔｉｏｎｓｃｏｎｔｉｎｕｏｕｓｌｙ．Ａｐｐｒｅｖｉｅｗｓｐｒｏｖｉｄｅａｎ ｏｐｐｏｒｔｕｎｉｔｙ ｔｏｐｒｏａｃｔｉｖｅｌｙｃｏｌｌｅｃｔ ｕｓｅｒ ｃｏｍｐｌａｉｎｔｓ ａｎｄ收稿日期：２０１９－１１－１９；在线发布日期：２０２０－０５－１３．本课题得到国家自然科学基金重点基金（６１８３２０１４）、国家自然科学基金（６１５７２３５０）、国家重点研发计划（２０１７ＹＦＢ１４０１２０１）资助．肖建茂，博士研究生，中国计算机学会（ＣＣＦ）学生会员，主要研究方向为服务计算、智能化软件工程．Ｅ－ｍａｉｌ： ｚｔ＿ｘｊｍ＠ｔｊｕ．ｅｄｕ． ｃｎ．陈世展，博士，副教授，中国计算机学会（ＣＣＦ）会员，主要研究方向为服务计算、面向服务的体系架构．冯志勇，博士，教授，中国计算机学会（ＣＣＦ）会员，主要研究领域为知识工程、服务计算、计算机认知．刘朋立，硕士研究生，主要研究方向为服务计算、软件工程．薛霄（通信作者），博士，教授，中国计算机学会（ＣＣＦ）会员，主要研究领域为服务计算、计算实验．Ｅ－ｍａｉｌ： ｊＺＸＵｅｘｉａ〇＠ｔｊｕ．ｅｄｕ．ｃｎ．肖建茂等：一种基于用户评论自动分１１期 析的ＡＰＰ维护和演化方法 ２１８５ｐｒｏｍｐｔｌｙ ｉｍｐｒｏｖｅａｐｐｓ＾ｕｓｅｒ ｅｘｐｅｒｉｅｎｃｅ，ｉｎｔｅｒｍｓｏｆｂｕｇｆｉｘｉｎｇａｎｄｆｅａｔｕｒｅｒｅｆｉｎｅｍｅｎｔ．Ｈｏｗｅｖｅｒ，ｆｏｒ ｍａｎｙ ｐｏｐｕｌａｒ ａｐｐｌｉｃａｔｉｏｎｓ＞ｓｉｎｃｅｔｈｅ ｌａｒｇｅ ａｍｏｕｎｔ ｏｆｕｓｅｒｒｅｖｉｅｗ ｄａｔａ，ｕｎｓｔｒｕｃｔｕｒｅｄｒｅｖｉｅｗｄａｔａ，ａｎｄｉｎｃｏｎｓｉｓｔｅｎｔｒｅｖｉｅｗｑｕａｌｉｔｙ， ｉｄｅｎｔｉｆｙｉｎｇ ｔｈｅｖａｌｕａｂｌｅｒｅｖｉｅｗ ｉｎｆｏｒｍａｔｉｏｎ ｂｅｃｏｍｅｓａｃｈａｌｌｅｎｇｉｎｇｔａｓｋ．Ｔｈｅｒｅｆｏｒｅ， ｃｌａｓｓｉｆｉｃａｔｉｏｎ ｏｆ ｕｓｅｒｒｅｖｉｅｗｓｉｎｔｏｓｐｅｃｉｆｉｃ ｔｏｐｉｃｓａｎｄａｕｔｏｍａｔｅｄａｎａｌｙｓｉｓ  ｔｏｒｅｄｕｃｅ ｔｈｅｗｏｒｋｌｏａｄｏｆ ｍａｎｕａｌ  ａｎａｌｙｓｉｓｈａｓ ｂｅｃｏｍｅａ ｎｅｗｉｄｅａ ｆｏｒ ａｐｐ ｒｅｖｉｅｗｍｉｎｉｎｇａｎａｌｙｓｉｓ． Ｉｎ ｔｈｉｓｐａｐｅｒ，ｗｅｐｒｏｐｏｓｅａｍｅｔｈｏｄｎａｍｅｄＡＲＩＣＡ （ＡｕｔｏｍａｔｉｃＲｅｖｉｅｗ ＩｎｔｅｎｔｉｏｎＣｌａｓｓｉｆｉｃａｔｉｏｎＡｎａｌｙｓｉｓ）ｔｏａｕｔｏｍａｔｉｃａｌｌｙａｎａｌｙｚｅ ｃｒｏｗｄｕｓｅｒ ｒｅｖｉｅｗｓｔｏｅｆｆｉｃｉｅｎｔｌｙｐｒｏｖｉｄｅｄｅｖｅｌｏｐｅｒｓ ｗｉｔｈ ｓｏｆｔｗａｒｅｍａｉｎｔｅｎａｎｃｅ ａｎｄ ｅｖｏｌｕｔｉｏｎ ｓｕｇｇｅｓｔｉｏｎｓ． Ｆｉｒｓｔｌｙ，ＡＲＩＣＡｃｌａｓｓｉｆｉｅｓｔｈｅｒｅｖｉｅｗｓ ｉｎｔｏｄｉｆｆｅｒｅｎｔｃａｔｅｇｏｒｉｅｓ ａｃｃｏｒｄｉｎｇ ｔｏｔｈｅ ｕｓｅｒ？ｓ ｆｅｅｄｂａｃｋｓ， ａｎｄ ｔｈｅｎｕｓｅｓ ｔｈｅ ＬＤＡｔｏｐｉｃｍｏｄｅｌｔｏｃｌａｓｓｉｆｙｔｈｅｒｅｖｉｅｗｓｕｎｄｅｒｅａｃｈｕｓｅｒ’ｓｉｎｔｅｎｔｃａｔｅｇｏｒｙ．Ｔｈｉｓａｌｌｏｗｓ ａｐｒｅｌｉｍｉｎａｒｙｓｃｒｅｅｎｉｎｇ ｏｆｕｓｅｒｒｅｖｉｅｗｓｔｏ ｏｂｔａｉｎ ｒｅｖｉｅｗｉｎｆｏｒｍａｔｉｏｎ ｕｎｄｅｒ ｅａｃｈｉｎｔｅｎｔｃａｔｅｇｏｒｙ．Ｓｅｃｏｎｄｌｙ，ＡＲＩＣＡｃｌｕｓｔｅｒｓ ｕｓｅｒ ｖｉｅｗｓ ｗｉｔｈｓｉｍｉｌａｒ ｓｅｍａｎｔｉｃｅｘｐｒｅｓｓｉｏｎｓｕｎｄｅｒｅａｃｈ ｒｅｖｉｅｗ ｔｏｐｉｃｔｏｆｕｒｔｈｅｒｆｉｌｔｅｒ ｔｈｅｒｅｄｕｎｄａｎｔｉｎｆｏｒｍａｔｉｏｎｉｎｒｅｖｉｅｗｓ， ｓｏ ｔｈａｔ ｃａｎｅａｓｉｅｒａｎｄｉｎｔｕｉｔｉｖｅｔｏｕｎｄｅｒｓｔａｎｄｔｈｅｕｓｅｒ’ｓｏｒｉｇｉｎａｌｆｅｅｄｂａｃｋａｎｄｃａｐｔｕｒｅｔｈｅ ｕｓｅｒ’ｓｔｒｕｅ ｉｎｔｅｎｔｉｏｎｍｏｒｅａｃｃｕｒａｔｅｌｙ．Ａｆｔｅｒｗａｒｄｓ，ＡＲＩＣＡｕｓｅｓｔｈｅ ｓｅｎｔｉｍｅｎｔａｎａｌｙｓｉｓ ｔｏｏｌｃａｌｌｅｄ ＳｅｎｔｉＳｔｒｅｎｇｔｈｔｏｏｂｔａｉｎｕｓｅｒ ｓｅｎｔｉｍｅｎｔ，ａｎｄｔｈｅｎａｎａｌｙｚｅｓ ｔｈｅｓｅｎｔｉｍｅｎｔ ｄｉｓｔｒｉｂｕｔｉｏｎｏｆ ｕｓｅｒ ｒｅｖｉｅｗｓ ｔｏ ｉｄｅｎｔｉｆｙｔｈｅｕｓｅｒ’ｓｓｉｇｎｉｆｉｃａｎｔｉｎｔｅｎｔｉｏｎｓ．Ｆｉｎａｌｌｙ， ｔｈｅ ｍｕｌｔｉｄｉｍｅｎｓｉｏｎａｌｉｎｆｏｒｍａｔｉｏｎｓｕｃｈ ａｓｕｓｅｒ ｉｎｔｅｎｔｉｏｎｓａｎｄ ｓｅｎｔｉｍｅｎｔｐｒｅｆｅｒｅｎｃｅｓａｒｅｃｏｎｓｉｄｅｒｅｄｃｏｍｐｒｅｈｅｎｓｉｖｅｌｙｆｏｒ  ｃａｌｃｕｌａｔｉｎｇ ｔｈｅ ｒｅｖｉｅｗ ｓｃｏｒｅ ａｎｄ ｔｈｅｎＡＲＩＣＡｐｒｉｏｒｉｔｉｚｅｓ ｒｅｖｉｅｗｓｆｏｒ ｒｅａｌｉｚｉｎｇｔｈｅｏｐｉｎｉｏｎｓ ｒｅｃｏｍｍｅｎｄａｔｉｏｎｆｏｒ ｔｈｅｄｅｖｅｌｏｐｅｒｓ．Ｗｅ ｕｓｅ ｒｅａｌ ａｐｐ ｒｅｖｉｅｗ ｄａｔａ ｆｒｏｍＧｏｏｇｌｅ Ｐｌａｙｔｏｖｅｒｉｆｙ ｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆ ｒｅｖｉｅｗｉｎｔｅｎｔ ｃｌａｓｓｉｆｉｃａｔｉｏｎａｎｄ ｓｅｎｔｅｎｃｅ ｃｌｕｓｔｅｒｉｎｇｏｆＡＲＩＣＡ．Ｔｈｅ ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓ ｓｈｏｗ  ｔｈａｔ ＡＲＩＣＡｈａｓｐｒｅｃｉｓｉｏｎ ｏｆ ８０％ｉｎ ｔｈｅｐｒｏｃｅｓｓ ｏｆ ｕｓｅｒｒｅｖｉｅｗｉｎｔｅｎｔｉｏｎｃｌａｓｓｉｆｉｃａｔｉｏｎ，ｃｏｍｐａｒｅｄｗｉｔｈ ｔｈｅ ｓｔａｔｅ－ｏｆ－ｔｈｅ－ａｒｔ ｅｘｉｓｔｉｎｇａｕｔｏｍａｔｉｃ ｕｓｅｒｉｎｔｅｎｔｉｏｎｓ ｍｉｎｉｎｇｍｅｔｈｏｄＴｅｘｔＣＮＮｗｈｉｃｈ ｂａｓｅｄ ｏｎ Ｃｏｎｖｏｌｕｔｉｏｎａｌ ＮｅｕｒａｌＮｅｔｗｏｒｋｓ（ＣＮＮ），ｔｈｅＦ－Ｍｅａｓｕｒｅ ｏｆＡＲＩＣＡ ｉｓ ｉｍｐｒｏｖｅｄｂｙ１９．  １％．Ｍｅａｎｗｈｉｌｅ，ＡＲＩＣＡ ａｃｈｉｅｖｅｓ  ８６％ｏｆｔｈｅ ｐｒｅｃｉｓｉｏｎｄｕｒｉｎｇｔｈｅ ｃｌｕｓｔｅｒｉｎｇｏｆｒｅｖｉｅｗｓｅｎｔｅｎｃｅｓ， ｗｈｉｃｈｐｒｏｖｉｄｅｓｅｆｆｅｃｔｉｖｅｓｕｐｐｏｒｔ ｆｏｒｓｕｂｓｅｑｕｅｎｔｄｅｖｅｌｏｐｅｒｓ ｔｏｒｅｃｏｍｍｅｎｄａｐｐ ｕｐｄａｔｅ ｔａｓｋｓ．Ｆｕｒｔｈｅｒ， ｗｅｕｓｅｔｈｅｏｆｆｉｃｉａｌａｐｐ ｃｈａｎｇｅｌｏｇａｓａｇｒｏｕｎｄｔｒｕｔｈ， ａｎｄｅｍｐｉｒｉｃａｌｌｙａｎａｌｙｚｅｄ ｗｈｅｔｈｅｒｏｕｒｒｅｃｏｍｍｅｎｄｅｄｕｓｅｒ ｒｅｖｉｅｗｓｃａｎｂｅｔｒｕｌｙａｄｏｐｔｅｄｂｙｄｅｖｅｌｏｐｅｒｓ，ｔｈｅ ｒｅｓｕｌｔｓｓｈｏｗ ｔｈａｔＡＲＩＣＡｃａｎｅｆｆｉｃｉｅｎｔｌｙｈｅｌｐｄｅｖｅｌｏｐｅｒｓｂｅｔｔｅｒｕｎｄｅｒｓｔａｎｄ ｔｈｅｕｓｅｒ？ｓｒｅａｌ ｒｅｑｕｉｒｅｍｅｎｔｓ， ｗｈｉｃｈ ｉｓｏｆ ｇｒｅａｔ ｓｉｇｎｉｆｉｃａｎｃｅ ｆｏｒｄｅｖｅｌｏｐｅｒｓｔｏｐｅｒｆｏｒｍｓｕｂｓｅｑｕｅｎｔａｐｐｍａｉｎｔｅｎａｎｃｅ ａｎｄ ｅｖｏｌｕｔｉｏｎ ｔａｓｋｓ．Ｉｎ ａｄｄｉｔｉｏｎ，ｗｅ ａｌｓｏｐｕｂｌｉｓｈｔｈｅ ｏｒｉｇｉｎａｌｄａｔａｓｅｔ，ｔｈｅｍａｎｕａｌｌｙｌａｂｅｌｅｄｄａｔａｓｅｔａｎｄ ｔｈｅｓｏｕｒｃｅｃｏｄｅｏｆＡＲＩＣＡｏｎｇｉｔｈｕｂｗｈｉｃｈ ｐｒｏｖｉｄｅｍａｔｅｒｉａｌｓ  ｆｏｒｏｔｈｅｒ ｒｅｌｅｖａｎｔｒｅｓｅａｒｃｈｅｒｓ．Ｋｅｙｗｏｒｄｓｕｓｅｒｒｅｖｉｅｗｓ；ｉｎｔｅｎｔｃｌａｓｓｉｆｉｃａｔｉｏｎ；ｓｅｎｔｉｍｅｎｔａｎａｌｙｓｉｓ；ｍａｉｎｔｅｎａｎｃｅａｎｄｅｖｏｌｕｔｉｏｎ；ｏｐｉｎｉｏｎ ｒｅｃｏｍｍｅｎｄａｔｉｏｎｓｉ引言移动用户可以在应用程序分发平台（如Ａｐｐｌｅ的ＡｐｐＳｔｏｒｅ和谷歌的Ｇｏｏｇｌｅ Ｐｌａｙ）获取他们想要的应用程序并分享他们对应用程序的意见和反馈［１］．这些反馈信息可以作为用户和开发者进行沟通的一个重要渠道，用户使用ａｐｐ后的反馈信息可以指导ａｐｐ开发者完成多项软件维护和演化任务：比如修复相关的ｂｕｇｓ或ｉｓｓｕｅｓ、或者改进ａｐｐ现有的特性或功能［２］．然而，去处理、分析和找出这些有价值的用户评论信息存在诸多挑战．首先，应用平台每天都会产生大量的用户评论．Ｐａｇａｎｏ等人Ｍ通过实证研究发现手机应用程序每天大约收到２３条评论，而像Ｆａｃｅｂｏｏｋ这样的热门应用程序每天会在Ｇｏｏｇｌｅ Ｐｌａｙ上收到超过１万条评论？，如果人工进ＣＤＡｐｐＡｎｎｉｅ， ｈｔｔｐｓ：／／ｗｗｗ．ａｐｐａｎｎｉｅ．ｃｏｍ／ｅｎ／２１８６ 计算机学报 ２０２０年行分析将耗时耗力．其次，用户评论中夹杂大量的噪声数据，比如拼写错误的单词、重复的单词和非英语的单词，并且大多数ａｐｐ评论文本长度较短，并且不遵循语法规则的特点，导致没有足够的信息量来进行统计推理［１］．再次，用户评论的质量差别很大，从提供改进想法的有用评论，到一般性的表扬以及用户的投诉抱怨（比如“Ａｃｃｏｕｎｔ ｈａｓｎ’ｔ ｂｅｅｎ ｈａｃｋｅｄ，ｐｌｅａｓｅＨｘ ｔｈｉｓ！”，“ｉｌｏｖｅ ｉｔ，ｉ ｊｕｓｔｌｏｖｅｉｔ”，“ｔｈｉｓ ｉｓａｖｅｒｙ ｂａｄａｐｐ！！ ！”）都大量散布在ａｐｐ评论中？对于这些评论，如果采用人工阅读的方式进行处理将会消耗大量的时间［５］．因此，对用户评论信息进行自动化分析，系统地过滤、聚合和分类具有十分重要的意义．自动化评论分析方法主要是根据特定的主题（例如：ｂｕｇ修复、功能改善等）对用户评论进行分类（或者优先级排序）［６１１］．Ｍａａｌｅｊ等人Ｗ结合文本分类、自然语言处理和情感分析等技术来实现对应用评论的分类，将应用评论分为错误报告，特征请求，用户体验和评级四个大类，Ｐａｎｉｃｈｅｌｌａ等人［８ “ ２］同样采用自然语言处理、文本分析和情感分析技术组合的方式将评论分为寻求信息、信息搜寻、功能要求、问题发现等有限的几个类别．虽然这些工作可以从冗余的移动应用评论中自动提取部分有效的信息．但对一些流行的ａｐｐ来说，由于其评论数据庞大，用上述方法分析得到的结果对开发者进行具体的维护任务仍然是不够的，这些研究工作都是根据非常有限的一组类别对评论进行分类，并产生一个非结构化评论集群列表，最后仍然需要手动分析才能理解他们讨论的主题，而用户真正关心ａｐｐ哪一方面具体的信息仍不够准确．据我们查阅目前所发表的文献发现，只有ＤｉＳｏｒｂｏ等人［１３提出的ＳＵＲＦ方法结合了用户评论主题提取、用户意图分类以及系统地定义了围绕ａｐｐ具体某些方面（比如：ＵＩ、下载信息等）需要进行维护的工作，并可以有效帮助开发人员规划下一步的ａＰＰ更新任务．但我们认为这个方法还是不够自动化，ＳＵＲＦ的主题分类需要自定义概念词典，然后人工去验证，同时随着新的用户评论产生，字典的有效性会受到限制；另一方面，ＳＵＲＦ推荐建议时没有考虑用户评论的真实情感倾向，评论时间等维度信息．事实上，这些信息对于帮助反应真实的用户意图具有重要作用，可以更准确地帮助开发者高效地识别用户的真实需求．因此，本文我们提出一种更加自动化的用户评论挖掘分析方法ＡＲＩＣＡ．ＡＲＩＣＡ首先利用ＮＬＰ最新的ＢＥＲＴ［１５］模型将用户评论意图进行自动分类；其次，在意图分类的基础上，利用主题模型ＬＤＡ技术和词向量技术结合实现评论主题聚类；并进一步将各个评论主题下的评论进行聚类分析，得到最能表达用户意图的语句；最后，将聚类后的评论，结合用户情感倾向，评论时间信息以及用户评论点赞数等信息综合进行开发者建议推荐．这样可以实现自动化高效的用户评论信息挖掘，从而为开发者推荐关于ａｐｐ维护更新最相关的评论内容．本文的贡献如下：（１）提出了一种利用最新的自然语言处理技术ＢＥＲＴ模型来实现的用户评论意图自动分类的方法，大大的提高了用户意图分类的准确性．和现有的最好基于卷积神经网络（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ，ＣＮＮ）方法ＴｅｘｔＣＮＮ［１６：１的用户意图自动挖掘相比，ＡＲＩＣＡ的Ｆ－Ｍｅａｓｕｒｅ提高了 １９．１％．（２）综合考虑了用户评论的情感、评论意图、评论时间等多维度等的信息对用户评论进行优先级排序，为开发人员推荐用户真实需求，为后续ａｐｐ的版本演化和维护提供高效建议．（３）我们公开了本文方法使用到的原始数据集和人工标注的数据集（用于复现以及未来的研究），以及该方法实现的源代码？．（４）我们使用官方的ａｐｐ更新日志来进行详细的案例分析，验证了ＡＲＩＣＡ为开发者进行评论意见推荐的高效性．本文第２节介绍本文的相关工作；第３节阐述我们方法的整体思路和使用到的相关技术；第４节阐述我们设计的实验和分析方法；第５节展示和讨论实验结果；第６节描述可能影响我们工作有效性的威胁；第７节总结论文并概述了下一步的研究工作．２相关工作对于人类而言，理解应用评论十分简单，这是因为人能够根据积累的知识做出判断．例如“Ｉｌｉｋｅｔｈｉｓａｐｐｌｉｃａｔｉｏｎ”和“ｔｈｉｓ  ａｐｐｌｉｃａｔｉｏｎｉｓｇｏｏｄ，ｌｉｋｅ ｉｔ”．人类可以清楚的知道这两句话表达的意思是相似的．然而对应用评论进行理解和自动化分析则是一项充①ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｘｕａｎｈｕｉ０１２９／ＡＲＩＣＡ肖建茂等：一种基于用户评论自动分析的ＡＰＰ维护和演化方法 ２１８７ １１期满挑战的任务．ＡＰＰ评论数据和长文本数据不同，大多数ａｐｐ评论具有短小并且不遵循语法规则的特点，因此没有足够的信息量来进行统计推理Ｗ ．传统对评论的分析方法主要是检查评论中是否包含某个关键字并手动定义关键字列表，然后检查文本中是否包含关键字来挖掘评论的价值［１７］，如Ｂａｋｉｕ等人Ｄ８］提出一种基于评论分析用户情感的方法，他们将用户评论中经常出现的关键词识别为特征，并将提取的特征与用户情感关联，然后使用主题建模进行分组，最后将提取的功能相关的评论分类为与可用性和用户体验相关的需求类别来进行评论挖掘．Ｄａｂｒｏｗｓｋｉ等人［１９］针对用户评论分类的类别，提出了一种对用户感兴趣的特定功能检索工具，从而能够进一步支持需求工程师了解用户针对ａｐｐ特定功能的需求，以更好地维护对应的ａｐｐ．近年来，已经有相关学者对用户评论自动分类方法进行了研究．Ｃｈｅｎ等人［６］对大量的ａｐｐ评论进行研究，发现在评论中有很多用户单纯的表达喜恶，如“ｇｏｏｄ， Ｉｌｉｋｅ ｉｔ”等，这些评论无论对于开发者还是其他的用户来说，都没有提供有效的信息．基于此现象，他们开发了一种工具可以将评论分为信息性和非信息性，并过滤无用的信息，从而提取评论中有效的信息．Ｃｉｕｒｕｍｅｌｅａ等人［２° ］基于用户评论定义了一个包含移动应用特定类别（例如性能、资源、电池、内存等）的高级和低级分类，并基于此构建了用户请求引用器（ＵＲＲ）原型，然后使用机器学习和信息检索技术进行评论自动分类．Ｇｕｚｍａｎ等人［２］应用ＮＬＴＫ工具对应用评论进行特征提取并使用ＳｅｎｔｉＳｔｒｅｎｇｔｈ工具进行情感分析，从而挖掘用户评论中的细粒度特征．为了使挖掘得到评论更好的方便开发人员进行开发，在文献［２］的基础上，Ｇｕｚｍａｎ等人［１ ° ］进一步提出了一种以用户评论特征和情感为中心的检索方法ＤＩＶＥＲＳＥ，它可以自动为开发人员提供一个多样化的用户评论样本，这些样本代表着整个评论集中用户提到的不同意见和体验．Ｄｈｉｎａｋａｒａｎ等人［２１］提出了一种结合主动学习以减少ａｐｐ评论分析中涉及到的人工操作的方法，其将评论分为功能请求、错误、评级和用户体验几个类别，并使用主动学习相关策略应用到评论分类中进行分析．Ｍｅｓｓａｏｕｄ等人［２２］针对开发人员难以手动分析用户评论并将它们归类到适当的评论类别中，提出了一种使用多标签主动学习方法来实现用户评论的分类问题，从而更好地保证评论的快速准确挖掘．Ｋｈａｌｉｄ等人［２３］重点研究了２０个免费下载的ｉ〇Ｓ应用程序的低评级用户评论，他们发现了１２种类型的用户投诉以及它们的频率和影响，这可以帮助开发者更好地优先考虑利用现有的资源来保证ａｐｐ的质量．Ｌｉｕ等人［２４］通过提取ａｐｐ描述中的特征词的方法来指导评论的分析，并建立了用户情感和主题特征词之间的关联，该方法将贡献最大的词作为主题名，并通过时间、评论的评分及评论的客观与否来设置评论优先级，从而实现评论推荐．但是，他们忽略了同一个问题可能会被多个用户提起，也忽略了其他有贡献的主题词的作用．Ｓｃａｌａｂｒｉｎｏ等人［２５］提出了用ＤＢＳＣＡＮ聚类算法来实现对评论的聚类，从而挖掘用户评论的意见．Ｇａｏ等人［２Ｓ］基于在线ａｐｐ评论数据，提出了一种自动化框架ＩＤＥＡ来自动分析用户评论，ＩＤＥＡ分别使用了ＬＤＡ主题模型检测和推断分析来识别评论中的紧急问题，并通过ａｐｐ官方更新日志验证了ＩＤＥＡ的有效性？除此之外，也有一些比较新颖的工作来进行ａｐｐ评论数据分析挖掘用户需求，比如Ｄａｌｐｉａｚ等人［２７］提出来一个工具ＲＥＳＷＯＴ，用于通过对应用程序商店中竞争对手ａｐｐ的评论分析中挖掘用户需求．上述方法都可以在某种程度上缓解人工分析用户评论的工作，但不能细粒度让开发者理解用户的真实意图，从而难以指导开发者直接进行后续ａｐｐ维护和演化任务．为了更好地理解用户细粒度需求，Ｄｉ Ｓｏｒｂｏ等人［２８］提出了意图挖掘的概念．具体来说，他们提出了一种意图分类法，将开发人员讨论中的句子从邮件列表中分为六类：特征请求、意见询问、问题发现、解决方案建议、信息寻求和信息提供．Ｇｕｚｍａｎ等人？提出了用于将应用程序评论分类为与软件维护相关类别的方法．具体来讲，他们将用户评论分为错误报告、功能优势、功能缺陷、用户请求，好评、投诉和使用情况这几个类别，这可以为开发人提供细致的用户评论建议．Ｍａａｌｅｊ等人［７］结合文本分类、自然语言处理和情感分析等技术来实现对应用评论的分类，将应用评论分为错误报告，特征请求，用户体验和评级四个大类．Ｐａｎｉｃｈｅｌｌａ等人Ｍ同样采用自然语言处理、文本分析和情感分析技术组合的方式将评论分为信息提供、信息搜寻、特征请求、解决方案以及问题发现等几个类别［１１］，并公开了一个基于这个分类的评论数据集［２９］．在文献［８］工作的基础上，Ｈｕａｎｇ等人［１６］基于卷积神经网络（ＣＮＮ）的基础上提出了ＴｅｘｔＣＮＮ用于评论意图的分类，该工作将文献［８］中的用户意图增加了方面评估和无意２１８８ 计算机学报 ２０２０年义这２个类别，然后用标记的文本进行训练，和直接基于ＣＮＮ［３° ］、ＬｉｂＳＶＭ［３１］等分类算法相比，获得了当前意图分类最好的效果．相比于直接进行用户评论主题提取或聚类，上述这些方法都将用户评论信息数据进行了进一步的细化．经过我们调研大量的文献发现．目前只有ＤｉＳｏｒｂｏ等人［１３］研究工作不仅将用户评论意图进行了细粒度分类，同时重点考虑开发者关注的ａｐｐ多个方面相关的主题信息．但他们的主题分类需要自定义概念字典，然后人工去验证，这将导致评论推荐的效果受到字典的丰富性影响，且分类的自动化程度不够．综上，无论是基于传统的关键词提取用户评论信息还是基于用户意图分类进行自动用户评论分析，最重要的是用户意图划分的合理性以及意图分类的准确性，同时需要考虑多维度因素实现综合的评论优先级推荐，这是挖掘用户评论中的蕴含的价值信息的核心内容，也是开发者能否顺利实施后续ａｐｐ维护和演化任务的关键．３ＡＲＩＣＡ整体框架我们的目的是为了给开发者在其更新维护应用时提供高效的参考意见．为了实现这一目标，我们将用户评论分析定位到句子级别，因为在原始用户评论中，有些句子与软件开发和维护相关，而有些则与之无关．ＡＲＩＣＡ可以自动实现：（１）对用户评论进行意图分类，分类成和ａｐｐ更新和维护方面相关的类别以２）对各个意图下用户评论进行主题分类，从而进一步提高评论的内聚性，同时将各个主题下用户评论进行句子聚类，得到和用户评论意图最相关的句子；（３）重点分析用户评论的情感分布并识别用户重要意图ｄ４）综合考虑用户意图、情感倾向以及评论时间等多维度信息计算用户评论综合得分，并制定评论优先级规则进行用户评论推荐．图１展示了方法的整体框架处理流程，下面我们进行逐一介绍．＂ｃａ＂ＷｏｒｄＭａｐｐｅｒＬＤＡ ＋Ｗｏｒｄ２ｖｅｃＡ）评论主题分类ＷｏｒｄＭａｐｐｅｒ ＋Ｗｏｒｄ２ｖｅｃ，一、＇Ｚ．Ｊ 丨 ＤＢＳＣＡＮＢ）评论句子聚类② 主题分类和句子聚类Ｖｖｗ用户情感获取０用户情感分布③ 情感分析■■■■■：）评论优先级④ 综合意见推荐图１ＡＲ１ＣＡ整体框架３．１数据预处理移动用户通过终端（比如智能手机）提交的评论一般包含许多噪声数据，比如随意的单词，重复的单词以及非英文的单词等，这些会影响对数据处理的结果．因此，我们首先需要对评论数据进行数据预处理．本文我们使用ＮＬＰ相关技术实现评论的数据预处理，具体包括过滤掉非英文词汇，无用的表情符号等，同时使用正则表达式过滤掉网址、邮箱等干扰信息．另一方面，由于用户通常在移动设备上提交他们的评论，而这些移动设备通常尺寸比较小，没有实体键盘，因此打字既困难又耗时．很容易会产生错误．这种情况导致在用户对这些移动应用的评论中经常出现拼写错误（即拼错单词）、缩略词和缩写，比如单词“ ｕｓｅｆｕｌｌ”，显然用户是想要表达的是“ ｕｓｅｆｕｌ ”，“ｆｒｉｅｎｄｓ” 缩写成了“ｆｍｄｓ”．这样就会导致我们在进行评论分析时将他们当成不同的词来处理，这会对数据分析结果造成不良的影响，产生噪声数据．因此需要将拼写错误、缩略词和缩写的词进行还原．本文肖建茂等：一种基于用户评论自动分１１期 析的ＡＰＰ维护和演化方法 ２１８ ９我们基于文献［３２］自定义的词典ｗｏｒｄＭａｐｐｅｒ？，一个手工整理了近３００ ０００和ａｐｐ评论相关的词汇字典，其中包含了在用户评论中常见的拼写错误、缩写和缩略的单词及其校正后的单词．在该字典的基础上．我们进一步往字典中增加ａｐｐ评论相关的更细致词汇，比如“ｙｏｕ’ｒｅ —ｙｏｕ ａｒｅ” 等？最后利用完善后的字典可以很好地将常见的容易拼写错误或者缩略的单词进行校正还原．３．２评论意图分类为了帮助开发人员更容易地理解用户在应用市场的评论反馈，Ｅ）ｉ Ｓｏｒｂｏ等人［１４］提出用户评论反馈分类方法ＳＵＲＦ，旨在从软件维护和演化的角度对应用程序评论中包含的信息段落进行建模．如表１所示．他们把用户的评论意图分为５类，分别为信息提供、信息搜寻、特征请求、问题发现以及其他，并且证明这种分类可以很好地被开发者所理解并进行后续ａｐｐ维护和演化任务．本文我们使用的也是这种意图分类方法，因为这些意图可以很好表达用户对ａｐｐ的真实诉求，同时也可以让开发者容易理解．表】用户评论意图分类类别类别 描述信息提供 告知其他用户或者开发者ＡＰＰ某方面信息的句子信息搜寻描述试图从其他用户或开发人员获取信息或帮助的句子特征请求 表达用户观点、建议或ＡＰＰ某些方面需要增强的句子问题发现 报告异常行为或问题的句子其他 不属于任何以上类别的句子传统的文本分类通常使用ＴＦ－ＩＤＦ方法来提取特征进行分类，但这种方法忽略了同一语义的不同表达方式．因此，Ｈｕａｎｇ等人基于ＣＮＮ进行句子意图的分类，该方法将句子进行向量化表示，向量间的距离代表了句子的相似度，与ＴＦ－ＩＤＦ相比，该方法考虑了词与词之间的关系，有效地提高了分类效率，但他们的方法的效率还是不够的，因为他们只是考虑了词与词之间的关系，并没有考虑词上下文之间的关系．因此，本文我们采用了最新的自然处理模型ＢＥＲＴ进行自动的用户意图分类，ＢＥＲＴ是一种基于ｔｒａｎｓｆｏｒｍｅｒ架构的双向模型，它在进行评论句子向量化后包含了上下文的信息，可以有效地弥补基于ＣＮＮ方法的不足．ＢＥＲＴ的输入表７Ｋ（ｉｎｐｕｔｒｅｐｒｅｓｅｎｔａｔｉｏｎ）能够在一个词（ｔｏｋｅｎ）序列中明确地表示单个文本句子或一对文本句子（例如，［Ｑｕｅｓｔｉｏｎ，Ａｎｓｗｅｒ］）．对于给定词，其输人表示通过对相应的词嵌人（ｔｏｋｅｎｅｍｂｅｄｄｉｎｇｓ）、分割嵌人（ｓｅｇｍｅｎｔｅｍｂｅｄｄｉｎｇｓ）和位置嵌人（ｐｏｓｉｔｉｏｎ ｅｍｂｅｄｄｉｎｇ）进行求和来构造．图２展示了一个基于ＢＥＲＴ进行评论意图分类的例子，输人的评论句子“ Ｗｅｎｅｅｄｎｉｇｈｔｍｏｄｅ”作为一？个句子整体输人到ＢＥＲＴ模型中，第一个词是一个特殊的符号［ＣＬＳ］，表示为分类，然后经过词、分割和位置嵌入进行求和操作，每个位置对应的输出为一个维度为ｈｉｄｄｅｎ＿ｓｉｚｅ（ＢＥＲＴＢａｓｅ中为 ７６８）的向量？．本文我们执行的是评论句子意图分类任务，因此我们只关注第一个位置的输出（也就是被我们用［ＣＬＳ］符号代替的位置）向量．输出的这个向量作为我们前馈神经网络（Ｆｅｅｄ－ｆｏｒｗａｒｄ ｎｅｕｒａｌ ｎｅｔｗｏｒｋ）分类器的输入，最后得到用户评论句子的意图分类结果．图中句子的分类结果为特征请求．评论句子［ＣＬＳ］ＷｅＴｏｋｅｎｎｂｅｄｄｉｎｇ ＩｎｅｎｔＰｏｓｉｔｉｏｎｄｄｉｎｇＥｍｂｅｄｄｉｎｇ＾［ＣＬＳ］ｅａ Ｅ〇＾ｗｅｅａｎｅｅｄｎｉｇｈｔ ！〇 ＋ＥＡｅ２Ｅｂｅ３ｅｂＥ，［ＳＥＰ：输入Ｅｂ ＥｓＢＥＲＴ ＡＳ ＡＳＥＲＶＩＣＥ分类器（Ｆｅｅｄ－ｆｏｒｗａｒｄｎｅｕｒａｌ ｎｅｔｗｏｒｋ＋ｓｏｆｔｍａｘ ）｜分类结果信息给予｜信息搜寻Ｕ特？！请求问题发现其他输出图２基于ＢＥＲＴ的评论意图分类示例３．３主题分类及句子聚类用户的意图分类只能在宏观层面表示用户的想法，开发者并不能直接基于这个意图分类进行ａｐｐ维护任务．因此，需要进一步对各个意图分类下的评论信息进一步进行提取，从而实现更加细粒度的用户评论挖掘．这里主要包含评论的主题分类和每个主题下句子聚类．３．３．１评论主题分类单从句子意图分类这个维度对充分利用评论中的信息是不够的．比如，当信息搜寻类别中存在大量的评论句子时，开发者要从中找到和ａｐｐ维护相关信息仍然费时费力．因此，我们需要进一步提取出每个意图下用户评论隐藏的主题，这些主题可以表达出该意图类别下用户关心的内容，这可以帮助开发者更直接地了解用户的具体意图．①ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．  ｃｏｍ／ｘｕａｎｈｕｉ０１２９／ＡＲＩＣＡ／ｂｌｏｂ／ｍａｓｔｅｒ／ｆｉｌｅ／ｗｏｒｄＭａｐｐｅｒ． ｔｘｔ②ｈｔｔｐｓ ： ／／ｇｉｔｈｕｂ． ｃｏｍ／ｇｏｏｇｌｅ－ｒｅｓｅａｒｃｈ／ｂｅｒｔ２１９０ 计算机学报 ２０２０ 年ＬＤＡ［Ｍ］是一种经典的主题建模算法，可以用来识别大规模文档集或语料库中潜藏的主题信息．本文我们使用ＬＤＡ主题模型来实现用户评论主题分类，并采用ｗ〇ｒｄ２ｖｅｃ［３４］词向量实现用户评论的向量化．同时，为了保证ＬＤＡ模型能够对新产生的用户评论进行主题划分，我们取每个主题下概率最大的前Ｎ个词进行加权求和作为该主题的中心向量，对于新产生的用户评论，我们计算它和各个主题中心距离，并把距离主题最近的评论划分为该评论的主题．这样可以使得用户新产生的评论及时地进行主题自动划分．这里向量距离为余弦距离，计算公式如式（１）所示：ｎＲｅｖｉｅｗ一Ｓｉｍ＝—ｆ——（１）其中，ａ？，和ｙ，分别表示为主题中心向量和新产生的评论句子向量．的取值范围为（０，１），取值越大，距离越近．句子主题分类过程的伪代码如算法１所示？算法１．用户评论主题分类．输人：Ｄ： ｔｈｅｓｅｔ ｏｆ ｕｓｅｒ一ｒｅｖｉｅｗ；ｋ： ｔｈｅ ｎｕｍｂｅｒ ｏｆ ｔｏｐｉｃｓｉｚｅ：ｔｈｅ  ｓｉｚｅ ｏｆ ｗｏｒｄ ｅｍｂｅｄｄｉｎｇｒｅｖｉｅｗ ＼ｐｅｎｄｉｎｇ ｒｅｖｉｅｗ＾： ｔｏｐｉｃ＿ｉｄ： ｔｈｅ ｔｏｐｉｃ＿ｉｄｏｆ ｉｎｐｕｔ ｒｅｖｉｅｗＰｒｏｃｅｄｕｒｅ：１．ｉｎｉｔｉａｌｉｚａｔｉｏｎ：  ｔｏｐｉｃｓ＾ＬＤＡＣＤｆｋ）２． ＦＯＲＥＡＣＨ ｔｏｐｉｃｓｔｏｐｉｃｓＤＯ３．ｔｏｐｉｃｊｗｏｒｄｓｔｏｐｉｃ，ｋｅｙｗｏｒｄｓ４．ＦＯＲＥＡＣＨ ｔｏｐｉｃ＿ｘｖｏｒｄ６ｔｏｐｉｃｊｗｏｒｄｓ ＤＯ５．ｃａｌｃｕｌａｔｅ ｗｅｉｇｈｔ ｖｅｃｔｏｒｓｕｍ；６．ＥＮＤＦＯＲ７．ｗｅｉｇｈｔ ｖｅｃｔｏｒ ｓｕｍ ａｓ ｓｕｍ＿ｖｅｃ＼８．ａｄｄｓｕｍ＿ｊｖｅｃ ｔｏｔｏｐｉｃ＿ｖｅｃｓ；９． ＥＮＤＦＯＲ１０． ｒｅｖｉｅｚｖ＿ｖｅｃ＾＊—Ｖｅｃｔｏｒ（ｒｅｖｉｅｘｖ）１１． ｉｎｉｔｉａｌｉｚａｔｉｏｎ： ｍｉｎＶｅｃ１２． ｉｎｉｔｉａｌｉｚａｔｉｏｎｓ  ｔｏｐｉｃ＿ｉｄ＾＊１；１３． ＦＯＲＥＡＣＨ ｔｏｐｉｃ＿ｖｅｃ＾：ｔ〇ｐｉｃ＿ｖｅｃｓＤＯ１４．ＩＦｄｉｓｔａｎｃｅ （ｔｏｐｉｃ＿ｖｅｃ，ｒｅｖｉｅｗ ＿ｖｅｃ）〈ｍｉｎＶｅｃＴＨＥＮ１５．ｍｉｎＶｅｃ —ｄｉｓｔａｎｃｅ（ｔｏｐｉｃ＿ｖｅｃ ’ ｒｅｖｉｅｗ一ｖｅｃ）１６．ｔｏｐｉｃ＿ｉｄ－＊￣ｔｏｐｉｃ＿ｖｅｃ．ｉｄ１７．ＥＮＤ ＩＦ１８．ＥＮＤＦＯＲ１９．ＲＥＴＵＲＮ ｔ〇ｐｉｃ＿ｉｄ３．３．２评论句子聚类在同一个评论主题下，评论的句子仍然较多，尤其是对于一些流行的ａｐｐ，存在一系列的句子是在讨论ａＰＰ同一个方面的内容，即存在语义相关．因此，我们进一步在每个主题下把语义相似的句子进行聚类，这样可以为开发者过滤大量冗余信息，从而更加容易和直观地理解用户的原始反馈并能更快地捕获用户的真实意图，为进一步进行ａｐｐ相关的实际维护和演化任务提供支撑．另一方面，由于每个主题下用户评论的聚类个数未知．因此，本文我们采用一种基于密度的聚类算法ＤＢＳＣＡＮ［３５］来对每个评论主题下的语句进行聚类，这可以避免々－ｍｅａｎｓ聚类时选择初始聚类中心对聚类结果影响．同时，由于ＤＢＳＣＡＮ算法的输入为向量，并且考虑到用户评论语句存在相似性，我们同样使用ｗｏｒｄ２ｖｅｃ对评论句子处理，从而得到词向量模型．进一步，在进行聚类时，我们对句子进行预处理后分别求出各个词的向量，并对词向量加权求和．加权之后的向量不仅对数据进行了降维，同时也表示了句子的语义信息．最后，将加权之后的向量使用ＤＢＳＣＡＮ算法进行聚类，找到句子之间距离较短、相似度较高的并将其聚类到一块，从而帮助开发者快速识别用户的真实意图．３．４评论情感分析在不同的时间段下，用户的情感会可能发生大幅度的变化，尤其在ａｐｐ出现ｂｕｇ或隐私安全等问题时，会导致用户情感可能出现诸如波峰和波谷等趋势．当用户情感出现波峰或者波谷时，这很大程度上是和ａｐｐ相关的特征发生变化所导致，比如当ａｐｐ出现崩溃或隐私等问题时，用户会通过评论及时表达出很多负面的情感，当ａｐｐ出现新的功能特征，或者发布新版本时（此时一般伴随新功能的产生），用户整体会通过评论及时表达出较高正面的情感，而在一般情况下，用户的情感趋于平稳．图３展示了用户的情感演化趋势．在Ｔ，时间片下用户情感达到波谷，在Ｔ，时间片下达到波峰，其他时间片下变化较小．我们基于不同时间段的用户情感倾向来对用户意图进行权重分配，比如当用户情感趋势处在波谷时，推荐权重更大，而在用户情感趋势在波峰或者稳定时，推荐的权重较小，这是因为情感波峰或者稳定时，用户可能没有遇到明显的问题，此时用户更多的可能是在表达使用ａｐｐ的一些体验信息．而在波谷时可能由于ａｐｐ出现ｂｕｇ等情况，此时用户更有可能表达出对ａｐｐ的相关意图（如肖建茂等：一种基于用户评论自动分１１期 析的ＡＰＰ维护和演化方法 ２１９ １请求修复ｂｕｇ等）．这可以帮助开发者了解用户的情感以及这些情感如何和用户的意图相关联，从而为开发者推荐更精准的用户建议．时间片图３用户情感趋势示意图３．４．１获取评论情感得分情感分析是为每个评论分配固定的正值或负值的过程［３Ｓ］．为了分析用户评论中的情感，我们使用ＳｅｎｔｉＳｔｒｅｎｇｔｈ＂、情感分析工具来实现用户评论情感分析，它对于诸如Ｔｗｉｔｔｅｒ和电影评论之类的社交媒体中的短文本具有很高的准确性：：ｉ８］． Ｐａｇａｎｏ等人［３］发现，ＡｐｐＳｔｏｒｅ中８０．  ４％的评论所包含字符少于１６０．同时，ＳｅｎｔｉＳｔｒｅｎｇｔｈ可以很好地计算短文本中正面和负面的情感强度，即使是非正式语言也是如此？而ａｐｐ的评论信息与ＳｅｎｔｉＳｔｒｅｎｇｔｈ的这些优势刚好非常匹配，这使得ＳｅｍｉＳｔｒｅｎｇｔｈ成为分析ａｐｐ用户评论情感的理想工具．ＳｅｍｉＳｔｒｅｎｇｔｈ可以将评论信息进行句子级别处理，并分配相应的正值或负值．其中分值范围是［― ５，５］，其中［＋１，＋５］表７Ｋ正面情感，＋５表本非常正面的情感，＋ １表示没有正面情感．类似地，［一５，一１］表示负面情感，＿５表示非常负面的情感，一１表示不存在任何负面情感．在本文中，针对每一个评论语句，我们取该句子得分范围中绝对值较大的值作为句子的最后得分，因为绝对值更大的值更能反映句子的实际情感．另外，由于负值可以更好地体现用户的意图，当句子得分的正值和负值相等，取负值作为整个句子得分，从而避免漏掉相应的评论句子信息．值得注意的是，由于用户评论中的表情符号，极性词等也会影响用户的情感．因此，情感分析时我们无需将评论语句经过３．１节所述的数据预处理过程，而是直接分析用户评论情感得分．表２展示了经过ＳｅｎｔｉＳｔｒｅｎｇｔｈ工具得到的３个评论句子得分示例．表２基于ＳｅｎｔｉＳ丨ｒｅｎｇｔｈ的评论得分评论句子 单词得分 句子得分ｕｐｌｏａｄｉｎｇ  ｐｉｃｔｕｒｅｓ ｗｉｔｈ ｔｈｅａｐｐ ｉｓ ｓｏ ａｎｎｏｙｉｎｇ！ｕｐｌｏａｄｉｎｇ ｐｉｃｔｕｒｅｓ ｗｉｔｈ ｔｈｅａｐｐ ｉｓ ｓｏ ａｎｎｏｙｉｎｇ ［—３］！  ［１ ｐｕｎｃｔｕａｔｉｏｎ ｅｍｐｈａｓｉｓ］｛１，一３｝ｌｏｖｅ ｌｉｓｔｅｎｉｎｇ ｔｏ  Ｐａｎｄｏｒａ ．．．  ｈａｓ ｅｖｅｒｙｔｈｉｎｇｙｏｕ ｃｏｕｌｄ  ｎｅｅｄ  ａｎｄ ｗａｎｔ．ｗｏｒｋｓ ｇｒｅａｔ Ｉ ｐｒｅｆｅｒ ｏｖｅｒＡｍａｚｏｎｍｕｓｉｃ！ ！ｌｏｖｅ［３］ｌｉｓｔｅｎｉｎｇ ｔｏ Ｐａｎｄｏｒａ ［ｐｒｏｐｅｒ ｎｏｕｎ］． ．．［ｓｅｎｔｅｎｃｅ：  ３，＿ １］ ｈａｓ ｅｖｅｒｙｔｈｉｎｇｙｏｕ ｃｏｕｌｄ ｎｅｅｄ ａｎｄ ｗａｎｔ ［ｓｅｎｔｅｎｃｅ： １，一 １］ ［ｒｅｓｕｌｔ： ｍａｘ  ａｎｄ －ｏｆ ａｎｙ  ｓｅｎｔｅｎｃｅ］［ｏｖｅｒａｌｌ ｒｅｓｕｌｔ＝ｌ  ａｓ ｐｏｓ〉一ｎｅｇ］｝ｗｏｒｋｓ ｇｒｅａｔ ［３］Ｉｐｒｅｆｅｒ ｏｖｅｒ  Ａｍａｚｏｎ［ｐｒｏｐｅｒ  ｎｏｕｎ］ｍｕｓｉｃ！ ！匸１ｐｕｎｃｔｕａｔｉｏｎｅｍｐｈａｓｉｓ］ ［ｓｅｎｔｅｎｃｅ： ４，一１］［ｒｅｓｕｌｔ ： ｍａｘ ａｎｄ－ ｏｆ  ａｎｙ ｓｅｎｔｅｎｃｅ］ ［  ｏｖｅｒａｌｌ｛４，－ｒｅｓｕｌｔ＝ １ ａｓ  ｐｏｓ〉一ｎｅｇ］｛３，－１｝１｝３． ４． ２评论情感分布用户在不同时间段内对ａｐｐ情感会发生变化，假设用户在时间段Ｔ，对ａｐｐ给出了《条评论，基于３． ４．１ 节，得到ｉ？Ｓ（ｓｃｏｒｅ）＝ ｛ＲＳ，．】，尺Ｓ，．２，…，为《条评论情感得分．值得注意的是，在固定的时间段内，用户对同一个ａｐｐ的评论数目并不固定．因此，我们把：Ｔ，时间段内用户整体对ａｐｐ的平均情感得分Ａｉ？ＳＧ？ｒｅ）作为用户群体的情感倾向，计算公式如式（２）所示：ＡＲＳ（ｓｃｏｒｅ） ＝ —ＲＳ＾，ｎＡ—＊（２）其中，７＾，…，Ｕ表示一系列等长且不重复的时间间隔，尺心表示为ａｐｐ在：Ｔ，时间段内的第７条评论情感得分，〃表示在Ｔ，时间段内的评论数目？图４通过折线图展示了在不同时间段内用户对ａｐｐ的情感得分分布，这里我们选择了当下比较流行的应用Ｆａｃｅｂｏｏｋ和Ｕｂｅｒ分析，可以看到用户情感展示多元化的变化趋势，在不同的时间段内，用户的情感会出现迅速上升或者下降的趋势，从而出现诸如波峰和波谷等趋势，也有出现一段时间内用户情感比较稳定的趋势．这些情感波谷趋势是后续开发者进行ａｐｐ维护和更新需要重点关注的地方．２１９２ 计算机学报 ２０２０年Ｆａｃｅｂｏｏｋ２０１８－１２－１９ ２０１８－１２－２７ ２０１９－０１－０４ ２０１９－０１－１２ ２０１９－０１－２０ＤａｔｅＵｂｅｒ图４不同时间段下用户评论情感趋势３．４．３情感波谷识别我们根据用户的情感变化．得到用户在使用ａｐｐ中的情感分布曲线，当用户的评论在波谷（即负面情绪集中）时，我们认为此时用户所提出的评论反馈更能够反映用户意图．识别用户情感波谷的主要思想是通过划分固定的时间段（比如３天、一周，可根据需要动态调整），然后在该时间段内寻找情感波谷，用户情感波谷识别具体流程如算法２所示．算法２．用户情感波谷识别．输人：Ｄ： ｔｈｅ  ｓｅｔ ｏｆ  ｕｓｅｒ一ｒｅｖｉｅｗ ｗｈｉｃｈ ｈａｓ ｓｅｎｔｉｍｅｎｔ一ｓｃｏｒｅａｎｄｄａｔｅ；ｅ： ｔｈｅ ＴｈｒｅｓｈｏｌｄｏｆＤａｙｓ＾５４： ｔｒｏｕｇｈＪｉｉｓｔ ＼ ｔｈｅ ｌｉｓｔ ｏｆ ｔｒｏｕｇｈｓＰｒｏｃｅｄｕｒｅ：１．ｉｎｉｔｉａｌｉｚａｔｉｏｎ：ｕｎｋｎｏｗｎ；２．ＦＯＲＥＡＣＨｄ＾ＤＢＯ３．ＩＦ＝ｕｎｋｎｏｗｎＴＨＥＮ４．ＩＦ ｄ．ｓｅｎｔｉｍｅｎｔ＿ｓｃｏｒｅ＾＞ｄＪｒ＼ＴＨＥＮ５．ｓｔａｔｕｓ— ｄｏｗｎｈｉｌｌ；６．ＥＮＤＩＦ７．ＥＬＳＥＴＨＥＮ８．ｓｔａｔｕｓ — ｕｐｈｉ  Ｕ？’９．ＥＮＤＥＬＳＥ１０．ＥＮＤ ＩＦ１１．ＩＦ ｄ．．ｓｔａｔｕｓ —＝ｄｏｗｎｈｉｌｌ ＴＨＥＮ１２．ＩＦ ｄ． ｓｅｎｔｉｍｅｎｔ＿ｓｃｏｒｅ＜ｉ． ｓｅｎｔｉｍｅｎｔ＿ｓｃｏｒｅＴＨＥＮ１３．ＩＦｄ．ｄａｔｅ￣ｔｒｏｕｇｈ＿ｌｉｓｔ＼＿ —＼￣＼．ｄａｔｅ＜ｉｅ ＴＨＥＮ１４．ＩＦ ｔｒｏｕｇｈ＿ｌｉｓｔ ［—＼￣＼．ｓｅｎｔｉｍｅｎｔ＿ｓｃｏｒｅ  ］＞ｄ．ｓｅｎｔｉｍｅｎｔ＿ｓｃｏｒｅ ＴＨＥＮ１５．ｔｒｏｕｇｈ＿ｌｉｓｔ ［ — １］ ＾＊—ｄ；１６．ＥＮＤＩＦ１７．ＥＬＳＥ ＴＨＥＮ：１８．ａｄｄｄｔｏ ｔｒｏｕｇｈ＿Ｌｉｓｔ；１９．ＥＮＤＥＬＳＥ２０．ＥＮＤＩＦ２１．ＥＮＤＩＦ２２．ＥＮＤ ＦＯＲ２３． ＥＮＤＩＦ２４． ＲＥＴＵＲＮ对３．５评论优先级推荐对于开发者来说，他们更希望有一种方法可以同时做到：（１）很容易地获取到用户评论的有用信息“ ２）正确地理解需要完成的维护任务；（３） ａｐｐ哪一个方面的内容是用户最关注且希望得到修复的．因此，我们需要找到一种合适的方式来对挖掘得到的用户评论信息推荐给开发者．为了解决这个问题，我们制定了一种评价用户评论优先级的机制，从而为开发者推荐合理且高效的用户评论建议．我们的机制同时考虑了５个方面（Ａｓｐｅｃｔ）的因素：ＡＳ１：用户意图类别的重要性．一般来讲．意图分类中最重要的是问题发现和特征请求这两个类别，因为这更有可能是和ａｐｐ维护相关的内容，这对于开发者更加重要．其次是信息提供和信息搜寻两个类别．值得注意的是，由于开发者只关心功能性的评论．因此，意图分类成其他类别的评论我们将其划分为最弱的优先级．ＡＳ２：用户情感．如３．４节所描述，用户通常会及时通过评论来表达使用ａｐｐ的实时体验，这些评论信息可以反映用户真实的情感．比如当ａｐｐ出现隐私安全时，用户的行为一般为抱怨，此时表达的是负面的情绪；当ａｐｐ出现新功能时，用户表达的情感一般为正面的，此时的情感得分较高．情感得分越低（即情感趋势出现波谷时），此时更能反映用户的真实意图．ＡＳ３：用户评论的时间．用户的评论的时间距离１１期 肖建茂等：一种基于用户评论自动分析的ＡＰＰ维护和演化方法 ２１９３现在越近，对开发者重要性越大．ＡＳ４：评论句子的长度．评论句子的长度越长，通常越能表达用户的意图信息．ＡＳ５：点赞数．点赞数越多，说明越多用户认可该评论观点，推荐时占的权重越大．３．５．１评论综合得分计算将每个聚类后簇中的各个句子的得分求和来获取获取综合得分，在每个簇下，我们为每一个簇分配一个综合的得分，计算公式如式（３）所示：ＴｏｔａｌＳｃｏｒｅ ＝（Ｉｎｓｒ ＸＳｅｎｔｉｍｅｎｔ＿Ｓｃｏｒｅ Ｘ／ ＝ ｉＴｉｍｅ＿ＳｃｏｒｅｉＸ Ｓｅｎ＿ＩｎｆｏｒｉＸＨｅｌｐｓ＿Ｓｃｏｒｅｉ＇） ｉ３）其中，Ｉｎｓｒ，Ｓｅｎｔｉｍｅｎｔ一Ｓｃｏｒｅ，Ｔｉｍｅ＾Ｓｃｏｒｅｉ，Ｓｅｎ—Ｉｎｆｏｎ以及与我们的五个方面因素相对应，也就是ＡＳ１？ＡＳ５． ＴｏｉａＺＳｃｏｒｅ是评论的综合得分，ＴｏｔａＺＳｃｏｒｅ越大，推荐的优先级越高．上述各个变量的取值范围都是（〇，１］，乘积越大，表示该簇的重要程度越大．其中，表示的是用户意图的重要性，用户意图的分类可以清晰地表达开发者需要维护的任务．我们根据用户意图的重要性给每个句子分配相应的权重，其中问题发现和特征请求类别的权重设置为１，信息搜寻和信息查找类别设置的权重为〇．  ５，其他类别设置为０． １．对于情感趋势得分（）计算，我们将在波谷前后各一天的评论数据的权重设置为１，其他时段的设置为〇． ５．虽然用户意图和情感的权重也可以设置为其他相关的值，但是对不同权重的影响进行系统的研究是我们未来议程的一部分．对于开发者来说，如果某个问题被多个用户都提出，说明该问题是个普适的问题，应该得到开发者的重视．在应用商店中，允许用户对其他用户的评论点赞，即如果用户认为有的评论表达出了自己想表达的内容，他可以点赞该评论．是点赞数得分．用户评论被点赞数的得分计算公式如式（４）所示．其中为当前评论的有帮助数，ｍａｘ／ｉｅＺ／）为当前ａｐｐ中评论中最大的点赞数．Ｈｅｌｐ＿Ｓｃｏｒｅ＝ｒ．ｈｅｌｐｆｕｌｎｕｍｍａｘｈｅｌｐ（４）用户在应用商店中进行评论时，会有时间属性，即用户是在何时进行评论的．这些时间信息可以为我们提供诸多信息．评论的时间离我们越远，通常该评论越不具有时效性，我们认为其价值较小．本文用Ｔｉｍｅ＿Ｓｃｏ ｒｅ表示时间得分，式（５）表示了时间得分的计算方法？其中，ｒｅｗ＇ｅｗｆｚＶｗｅ是评论的时间，ｗｎ＇ｗｉｉｗｅ是数据集中最早的评论时间，ｃｗｒｒｅｗ？ｆｍｅ是当前时间．７７；Ｔｚｅ＿ＳＣ〇ｒｅ值越大，表示其距离现在越近，其重要性越大．？？ｒｅｖｉｅｗｔｉｍｅ＿ｍｉｎｔｉｍｅ ＋ １，、Ｔｉｍｅ＿Ｓｃｏｒｅ＝———（５）ｃｕｒｒｅｎｔｔｉｍｅ＿ｍｉｎｔｉｍｅ＋ １由于评论中句子的长度是不固定的，并且随着句子长度的增加，句子的信息量是增加的．但是，随着句子长度的越来越大，其信息量的增加是有限的．我们设置一个阈值Ａ当超过该值时，用户评论的信息量增加变慢．信息量的计算公式如式（６）所示，其中，Ｊｗ／ｏｒ，是指句子／的信息量得分，Ｚｅｗ （ Ｓｅｎｋｎｃｅ ）是指句子的长度．Ｓｅｎ」ｎｆｏｒｉ＝—（６）１＿ｊ＿＾―＜，  ｌＳｅｎｔｅｎｃｅｉ）３．５． ２评论综合推荐为了使开发者能够便捷地检索到用户评论中重要的信息，同时正确的理解要完成的维护任务．我们提供了一个可视化的在线原型系统向开发者展示挖掘得到的评论句子，各个评论句子分别划分到不同的意图类别，同时为了进一步保证ＡＲＩＣＡ方法推荐评论的可读性，我们只选择综合评分（也就是ＴｏｔｏＺＳｃｏｒｅ）前１０的评论句子进行展示．特别的，我们同时基于用户情感倾向和评论意图等将挖掘得到的评论划分为紧急需求（或意见）、核心需求以及其他需求三个等级，其中情感倾向处于波谷附近的评论为用户的紧急需求（紧急需求可能包含问题发现等），用户意图分类为问题发现和特征请求为核心需求，属于其他这个类别的评论为其他需求．图５展示了Ｄｅｅｚｅｒ应用的用户评论意见推荐，我们根据用户意图分类分别展示各个分类下的推荐的评论．其中每一条评论分别包含了评论时间，情感分数以及相应的评论等级．比如推荐的前３条评论内容都是关于歌曲停止播放的问题，情感分数不高，且多个用户在同一个时间段都有提到．因此，ＡＲＩＣＡ会自动将它们划分为紧急需求，因为这是ａＰＰ出现歌曲播放的ｂｕｇ，而开发者可以直接根据ＡＲＩＣＡ推荐的评论建议进行直接的ａｐｐ更新维护任务．２１９４ 计算机学报 ２０２０ 年Ｄｅｅｚｅｒ Ｍｕｓｉｃ  ＰｌａｙｅｒＤｅｅｚｅｒ  Ｍｕｓｉｃ ＰｌａｙｅｒＰＲＯＢＬＥＭＤＩＳＣＯＶＥＲＹＦＥＡＴＵＲＥＲＥＱＵＥＳＴＩＮＦＯＲＭＡＴＩＯＮＳＥＥＫＩＮＧＩＮＦＯＲＭＡＴＩＯＮＧＩＶＩＮＧＯＴＨＥＲ１：  Ｉｖｅ  ｒｅｉｎｓｔａｌｌｅｄ ｔｈｅ ａｐｐｌｉｃａｔｉｏｎ ｔｈｒｅｅ  ｔｉｍｅｓ ｓｏ ｆａｒ ｂｅｃａｕｓｅ ｉｔ ｓｔｏｐｓｐｌａｙｉｎｇｓｏｎｇｓ ａｎｄｔｈｅｎ ｉ ｈａｖｅ  ｔｏ ｕｎｉｎｓｔａｌｌ  ａｎｄ ｒｅｉｎｓｔａｌｌ  ａｇａｉｎ ｆｏｒ  ｔｈｅ ｓｏｎｇｓ ｔｏ  ｗｏｒｋ ａｎｄ Ｉ ｈａｖｅｐｒｅｍｉｕｍｓｏｙｅａｈ Ｋｉｎｄｌｙ ｆｉｘ ｔｈｉｓ ｉｓｓｕｅ日期：２０１８－０７－０８悄感分数：２【ＫＳ１求１２： Ｉｔ  ｓａｙｓ  ｌｏａｄｉｎｇ ｂｕｔ ｔｈｅ ｓｏｎｇ ｎｅｖｅｒｐｌａｙｓ  ａｎｄ ｙｅｓ  ｉｔｓ  ｃｏｎｎｅｃｔｅｄ ｔｏ  ｔｈｅｗｉｆｉ．曰期？ ２０１８－０７－０８悄？分＆？？ １【ＫＳ霈求］３：  Ｅｘｃｅｐｔ  ｔｈａｔ  ｓｏｍｅｔｉｍｅｓ  ａｎｄ ｔｈｉｓ ｈａｓ  ｓｔａｒｔｅｄ ｈａｐｐｅｎｉｎｇ ｒｅｃｅｎｔｌｙ． ｔｈｅ  ａｐｐｌｉｃａｔｉｏｎ ｓｔｏｐｓｐｌａｙｉｎｇｓｏｎｇｓ  ｗｈｅｔｈｅｒ  ｔｈ？ｙ ａｒｅ ｄｏｗｎｌｏａｄｅｄ  ｏｒ ｎｏｔ  ？日期２０１８－０７－０８情感分数：２【ＳＳＳ求Ｉ图５评论综合推荐示例４实验设计我们使用自然语言处理相关的技术将用户评论进行意图分类、主题分类以及句子聚类，并提出了综合多维信息对用户评论信息进行优先级划分的方法．我们的目的在于对应用的开发者提供ａｐｐ维护相关的建议，以此来减少开发人员在获取用户反馈中的时间消耗，使其能够从大量的评论信息中找到关键的信息．我们的实验设计主要受以下四个问题指导：ＲＱ１：和基于传统的关键词提取等意图分类相比，我们的意图分类方法是否更加具有优势？ＲＱ２：基于ＤＢＣＡＮ的聚类是否能达到将相似语义的评论语句聚类成一组？ＲＱ３：  ＡＲＩＣＡ对用户评论的意见推荐是否能高效地为开发者进行ａｐｐ的维护和更新提供真实参考？ＲＱ４：用户的情感对开发者建议推荐的影响如何？４．１数据准备本文提出的自动化评论分析方法涉及到的数据包括用户评论数据集以及ａｐｐ的更新日志数据．４． １．１用户评论数据集为了回答我们的研究问题，我们基于ＧｏｏｇｌｅＰｌａｙ的应用评论来评估我们的方法．在选择ａｐｐ时，我们采用以下几个原则：（１）这些ａｐｐ是市场上流行的应用程序，这意味着开发者会定期更新他们的应用程序以２）包含不同类别的应用程序；（３）应用程序有大量的用户评论，从而可以验证评论自动化分析的效果．基于这些原则可以在某种程度上保证所提出方法的泛化性．最后，我们选择了５个应用程序，详细情况如表３所示．表３评论数据集Ａｐｐ名字 类别 评论数 版本数Ｔｗｉｔｔｅｒ Ｎｅｗｓ ８＾Ｍａｇａｚｉｎｅｓ ３５５９８ ６Ｃｈｒｏｍｅ Ｃｏｍｍｕｎｉｃａｔｉｏｎ ４６ ０４５ ５Ｇｍａｉｌ Ｃｏｍｍｕｎｉｃａｔｉｏｎ ２２３６３ ４Ｕｂｅｒ ＭａｐｓＮａｖｉｇａｔｉｏｎ １３ ０５３ ７Ｉｎｓｔａｇｒａｍ Ｓｏｃｉａｌ ９１０６９ ５在表３中，我们列出了应用程序的名称、类别、爬取的评论数以及评论集合中ａｐｐ的版本数．总体而言，我们从４个类别下５个ａｐｐ获得了２０８１２８条评论．４． １．  ２Ａｐｐ更新日志Ａｐｐ更新日志描述了最新版本的ａｐｐ的主要修改内容，以吸引用户安装和体验新版本．一般来说，开发人员会在更新日志中记录与应用程序是否添加或删除功能相关的信息，以及应用程序是否在某些设备上进行了改进，还是针对特定的ｂｕｇ进行了修复．表 ４展示了Ｇｏｏｇｌｅ Ｐｌａｙ中Ｔｗｉｔｔｅｒ２０１９．  １１． １１版本的更新日志详情．表４Ｔｗｉｔｔｅｒ２０１９．１１．  １１更新日志版本２０１９．１１．１１Ｗｈａｔ＇ｓＮｅｗ ｉｎ Ｖ ２０１９．１１．１１：ｆｅｗ ｕｐｄａｔｅｓ ｔｏ ｍａｋｅ Ｔｗｉｔｔｅｒ  ｂｅｔｔｅｒ！— Ｗｅ’ｒｅｍａｋｉｎｇ  ｉｔ ｅａｓｉｅｒ ｆｏｒ ｙｏｕ  ｔｏ ｓｅｅ ｔｈｅｍｏｓｔ ｒｅｌｅｖａｎｔ ａｎｄｉｎｔｅｒｅｓｔｉｎｇ  ｃｏｎｖｅｒｓａｔｉｏｎｓ ｉｎ ｙｏｕｒ  ｔｉｍｅｌｉｎｅ．—Ｎｏｗ ｙｏｕ ｃａｎ  ｆｏｌｌｏｗ ｓｐｅｃｉｆｉｃｔｏｐｉｃｓ  ｔｏ ｓｅｅ ｔｏｐ  Ｔｗｅｅｔｓ ａｂｏｕｔ ｔｈｅｔｈｉｎｇｓ ｙｏｕ ｌｏｖｅ．肖建茂等：一种基于用户评论自动分１１期 析的ＡＰＰ维护和演化方法 ２１９ ５如表４所示，Ｔｗｉｔｔｅｒ的２０１９．  １１．  １１版本给出了最近的一些更新，如增加了“关注特定主题”和“ 查看热门推文” 的功能，这些更改表现出了开发人员所关注的问题．尽管更新日志可能不能覆盖对ａｐｐ新版本发布的所有修改，但是它们代表了 ａｐｐ主要更新的内容．因此，对于验证所从用户评论中挖掘的用户意图是否对开发人员有帮助，ａｐｐ更新日志是一个合理的选择．４．２分析方法为了回答问题１和问题２，我们从数据集中随机选取了 １９５５条句子进行手工标记用户的意图？．然后，我们使用机器学习和ＮＬＰ任务中常用的度量标准，将分类的结果与手动标记的真值集进行比较．在下面的部分中，我们将描述创建的真值集和使用的衡量标准．４． ２． １创建真值集合为了创建真值集合，我们分别从各个ａｐｐ中采用分层随机抽样策略选取评论，在抽样的过程中，我们验证了每个应用中提取的句子的百分比与原始集合中每个应用中评论的百分比相同．最后按照３．  ２节中的用户评论意图分类进行标记．当句子与任何预先确定的类别不匹配时，我们就会将句子标记为其他类别，值得注意的是真值集包含了训练集和测试集．在标注的过程中，我们选取两名同学分别进行用户评论意图标记，两名同学本科和硕士都就读于计算机软件专业，他们有丰富的背景知识．当两人标记的结果出现分歧时，我们另找第三个同学进行标记．本着少数服从多数的原则，我们将句子分类为两个人共同分类的结果作为最后的意图分类．另一方面，由于用户评论的意图并不是均衡分布的．例如，用户只是单纯地表达喜恶的较多，特征请求较少．所以，我们随机标记的数据具有数据不均衡性．对此我们采用过采样的方法来对数据进行处理，即把数据少的类别进行多次采样来减缓对分类结果的影响，相当于增加了类别少的分类错误的惩罚．表５展示了我们标注的数据真集的整体结果．这个真集被用于为我们的意图分类算法生成训练集和测试集．特别的，我们随机选取其中８０％为训练集，剩余的２０％组成测试集．表Ｓ意图分类标注结果类别Ａｐｐ占比Ｉｎｓｔａｇｒａｍ Ｔｗｉｔｔｅｒ Ｃｈｒｏｍｅ Ｇｍａｉｌ ＵｂｅｒＮｕｍ Ｒａｔｉｏ Ｎｕｍ Ｒａｔｉｏ Ｎｕｍ Ｒａｔｉｏ Ｎｕｍ Ｒａｔｉｏ Ｎｕｍ Ｒａｔｉｏ信息给予 １４５ ０．１９ １０６ ０． ２６ ４８ ０． １７ ３０ ０．１４ ５８ ０． ２１信息搜寻 １２１ ０．１６ ５６ ０．１４ ５５ ０． ２０ ４３ ０． ２０ ８０ ０．２８特征请求 １４５ ０．１９ ５６ ０．１４ ２８ ０． １０ ４１ ０．１９ ５８ ０．２１问题发现 １０６ ０．１４ ６１ ０．１５ ４５ ０． １６ ４４ ０． ２１ ４３ ０．  １５其他 ２５８ ０．  ３３ １３０ ０． ３２ １０１ ０． ３６ ５５ ０． ２６ ４２ ０．  １５表６统计了上述真值集中所有ａｐｐ下各个用户意图类别下评论句子数据及比例．其中其他类别是最常见的类别，占训练集的２９． ９％，说明用户实际的评论很大一部分内容都是些和ａｐｐ本身不是很相关的内容，这也符合一般的真实情况，比如我们经常可以看到用户的随意评论，表情评论或评论语句非常短，例如直接说“ｎｉｃｅ ａｐｐ！” 或“ｇｏｏｄａｐｐ”，这些评论没有为开发者带来开发任务相关的信息．信息提供和信息搜寻紧随其后分别为１９．８％和１８． １％，而问题发现和特征请求分别只出现在１６．８％和１５．２％表６评论句子标记结果类别 句子数 占比信息给予 ３８７ ０．  １９７ ９５４信息搜寻 ３５５ ０？ １８１５８６特征请求 ２９９ ０． １５２９４１问题发现 ３２８ ０． １６７７７４其他 ５８６ ０？  ２９９７４４的句子中，这说明用户评论中实际给出问题或特征请求相关的内容相对较少．４． ２．  ２衡量指标ＲＱ１的衡量标准：在我们的评估中，我们将人工生成的真相集与自动生成的分类进行比较．我们使用机器学习中常用的准确率／Ｖｅｃｂｏｎ、召回率■Ｒｅｃａ／Ｚ和Ｆ－ｍｅａｓｕｒｅ指标来评估结果．他们的定义如式（７）所示：ＰｒｅｃｉｓｉｏｎＴＰＴＰ＋ ＦＰＲｅｃａｌｌ ＝ＴＰＴＰ＋ ＦＮ（７）Ｆ－Ｍｅａｓｕｒｅ＝２Ｐｒｅｄ ｓｉｏｎｙ＾ＲｅｃａｌｌＰｒｅｃｉｓｉｏｎ￣＼￣ＲｅｃａｌＬＴＰ（Ｔｎｉｅ Ｐｏｓｉｔｉｖｅ）表示为将句子实际为正类①ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｘｕａｎｈｕｉ０１２９／ＡＲＩＣＡ／ｔｒｅｅ／ｍａｓｔｅｒ／ｃｆａｔａ２１９６计算机学报２０２０年且分类为正类，ＦＰ（ＦａｌＳｅＰｏｓｉｔｉｖｅ）表示将句子实际为负类，但分类为正类．而实际为正类，但分类的为负类的句子表示为ＦＮ（ＦａｌｓｅＮｅｇａｔｉｖｅｓ）？另外，考虑到本文评论意图分类是多分类问题，因此我们取各个分类结果的整体平均值作为衡量指标，即宏查准率（＾＾＼＾￡＇；＿〇／３／＾），宏查全率（］＾（２（：厂０尺６＜：）以及宏？＇１值（ＭｗｒｏＦｌ），它们的计算公式如式（８）所示：ＭａｃｒｏＰｒｅ ＝Ｉ”＝ — 乏］Ｐｒｅｃｉｓｉｏｎ”＾ ｉ ＝ ｉＭａｃｒｏＲｅｃ ＝ Ｒｅｃａｌｌ＾（８）Ｍａｃｒｏ ＦＩ ＝１ｖ％— ／， Ｆ－ｍｅａｓｕｒｅ，７２３其中，ｗ表示分类的类别数，本文中意图分类为５种．即ｗ ＝ ５．对于ＲＱ２，由于需要将句子语义相近的进行聚类，但是我们事先并不知道需要聚类的簇数Ａ值，故像ｔｍｅａｎｓ需要指出聚类簇数的算法并不合适．ＤＢＳＣＡＮ是基于密度的算法，不需要指定聚类簇数，并且可以处理非凸分布的数据集．因此，我们采用密度聚类方法ＤＢＳＣＡＮ进行句子的聚类．ＤＢＳＣＡＮ需要两个参数：最小密度ｍｉｎＰｔｓ及距离两点之间的最大距离￡，找到合适的ｍｉｎｐｏｉｎｔｓ和半径是聚类效果的关键．为了回答ＲＱ３和ＲＱ４，我们使用官方真实的更新日志来验证ＡＲＩＣＡ的效果，同时比较加入情感分析和不加人情感分析的推荐结果去观察最后的用户评论意见推荐效果．５结果分析ＲＱ１：和基于传统的关键词提取等意图分类相比．我们的意图分类方法是否更加具有优势？高效的意图分类是实现开发者准确获取用户建议的基础，为了表达我们的意图分类算法的高效性，我们分别设计了不同的分类算法来进行比较．在评论意图分类的过程中，分别使用了经典的ＴＦ－ＩＤＦ、ｗｏｒｄ２ｖｅｃ和ＢＥＲＴ词向量模型将评论句子进行向量化，并作为分类算法的输人，比较最后的意图分类效果．为了展示本文ＢＥＲＴ模型的高效性，我们分另１Ｊ 使用ＲａｎｄｏｍＦｏｒｅｓｔ、ｓｖｍ、ＬｏｇｉｓｔｉｃＲｅｇｒｅｓｓｉｏｎ、ＸＧＢＣｌａｓｓｉｆｉｅｒ、ＴｅｘｔＣＮＮ［１９］以及ＢＥＲＴ原生算法来进行比较．表７展本了各个分类算法下Ｍ２ｃｒｏＰ；＊ｅ，ＭａｆｒａＲｅｃ以及ＡＷｍＦｌ的结果．我们可以看到在不同的向量模型下，ＢＥＲＴ模型均取得了最好的分类效果，其中ＬｏｇｉｓｔｉｃＲｅｇｒｅｓｓｉｏｎ分类算法取得的效果最佳，ＭａｃｒｏＰｒｅ 为０．７９，ＭｕｃｒｏＲｅｃ 为 ０．８１，ＭｃｉｃｒｏＦｌｉ 为 ０．８１．表７不同分类方法的结果分类方法衡量指标ＴＦ－ＩＤＦ Ｗｏｒｄ２ｖｅｃ ＢＥＲＴＭａｃｒｏＰｒｅ ＭａｃｒｏＲｅｃ ＭａｃｒｏＦｌ ＭａｃｒｏＰｒｅ ＭａｃｒｏＲｅｃ ＭａｃｒｏＦｌ ＭａｃｒｏＰｒｅ ＭａｃｒｏＲｅｃ ＭａｃｒｏＦｌＲａｎｄｏｍＦｏｒｅｓｔ ０． ６９ ０． ６９ ０． ６９ ０． ６６ ０． ６６ ０． ６６ ０． ７１ ０． ７１ ０． ７０Ｓｖｍ ０． ７０ ０． ７１ ０．７１ ０．  ７１ ０． ６４ ０． ６４ ０． ７５ ０． ７４ ０． ７２ＬｏｇｉｓｔｉｃＲｅｇｒｅｓｓｉｏｎ ０． ７１ ０． ６７ ０． ６９ ０． ７１ ０．７１ ０． ７１ ０． ７９ ０． ８１ ０．８１ＸＧＢＣｌａｓｓｉｆｉｅｒ ０． ６６ ０． ６５ ０． ６６ ０． ６９ ０． ６９ ０． ６９ ０． ７３ ０． ７３ ０．７３ＦＦＮＮ（ＢＥＲＴ 原生） ０． ７１ ０． ７１ ０． ７０ ０． ７５ ０． ７６ ０．７６ ０．７７ ０． ７８ ０． ７８除了与上述传统的分类方法比较外，我们还与当下意图识别最好的工作之？ ？ ＴｅｘｔＣＮＮ［１９］进行了比较，我们将本文的测试数据集在ＴｅｘｔＣＮＮ方法上进行分类，并对其超参数进行调整，得到整体的Ｍｕｃｒ〇＿Ｆｌ值为０． ６８，其混淆矩阵如图６所示．从表７中我们可以看出我们的基于ＢＥＲＴ的意图分类算法均大幅度高于ＴｅｘｔＣＮＮ方法的０？ ６８，其中基于ＬｏｇｉｓｔｉｃＲｅｇｒｅｓｓｉｏｎ分类的ＭａｃｒｏＦｌ提高了１９． １％．表 ８展亦／基于ＢＥＲＴ模型，Ｌｏｇｉｓｔｉｃ Ｒｅｇｒｅｓｓｉｏｎ分类算法下各个用户意图类别的综合结果，其中ＭａｆｒｏｆＶｈＭａｃｍＲｅｆ以及ＭａｃｒｏＦｌ的平均值分别达到０？  ７９６、０． ８０２和０？ ８３２５．而信息搜寻类别的各个指标达到〇． ９５以上，高效的用户意图分类可以为ＴｅｘｔＣＮＮＦＲ丨ＧＩＳＯｔｈｅｒＰＤＴｒｕｅ ｌａｂｅｌ图６基于ＴｅｘｔＣＮＮ分类混淆矩阵肖建茂等：一种基于用户评论自动分１１期 析的ＡＰＰ维护和演化方法 ２１９ ７表８基于ＢＥＲＴ模型的评论意图分类结果类别 Ｐｒｅｃｉｓｉｏｎ Ｒｅｃａｌｌ ＦＩ－ｓｃｏｒｅ信息给予 ０．  ７１ ０． ６１ ０． ６６信息搜寻 ０．  ９５ ０．９７ ０． ９６特征请求 ０．  ７６ ０．８０ ０． ７８问题发现 ０． ７７ ０．８２ ０． ７９其他 ０．  ７９ ０．８１ ０． ８０平均 ０．  ７９６ ０． ８０２ ０． ８３２５后续开发者推荐准确用户需求提供理论支持．ＲＱ２：基于ＤＢＣＡＮ的聚类是否达能将相似语义的评论语句聚类成一组？评论句子聚类效果的好坏直接关系到最后为开发者进行用户意图推荐的有效性．我们使用稠密型向量表示方法ｗ〇ｒｄ２ｖｅｃ对预处理后的评论数据进行词向量化表示．在具体进行聚类时，我们对评论句子分别求出各个词的向量，并对词向量加权求和．最后将词向量处理过后的句子用ＤＢＳＣＡＮ算法进行聚类，从而找到句子之间距离较短、相似度较高的句子聚类到一块．ＤＢＳＣＡＮ算法涉及两个参数，分别是最小密度ｍｉｎＰｏｉｎｔｓ及距离两点之间的最大距离ｅ．不同的ｍｉｎＰｏｉｎｔｓ和ｅ直接会影响最后的聚类效果．本文由于我们要将多个的句子进行聚类，因此，我们将最小密度设置为２，而对于距离两点之间的最大距离ｅ，我们动态地去调整参数来获取分类效果最好的ｅ值．为了验证聚类算法的效果，我们随机从Ｉｎｓｔａｇｒａｍａｐｐ下选取１〇〇条句子进行聚类分析．同时让我们组两名同学分别将它们进行人工聚类分析，将语义相似的句子聚类成一个类别，对于有争议的句子，我们通过进一步地讨论来决定句子所属的类别．在实际的人工聚类的过程中，发现有８５个句子未出现争议．由于ｅ取值范围在０和１之间，所以我们在进行调参时将其取值设置为ｎＸＯ． １．通过设置不同的ｅ，然后比较聚类的结果，我们得到最佳的ｅ值为〇． ５，此时．ＭａｃｒｏｆＶｅ为０．  ７８．为了进一步获取更好的分类效果．我们进一步对ｅ进行微调．最后得到最佳ｅ值为０． ５５，此时ｉＷａｃｒｏ／Ｖｅ为０． ８６，达到最好的效果．在确定好最佳的ｅ值后．我们对Ｉｎｓｔａｇｒａｍ下面的１００５０个句子进行聚类分析，得到的簇数目为１３０４，极大减少了用户评论中的冗余信息．表９展示了我们聚类句子的一个示例，我们可以从中看到，在聚类类别１４０中，虽然用户表达所用的词语不同，但是其语义却是相似的，都是表达视频和音频的播放问题，而类别１３６表达的是用户喜欢这个社交媒体平台，语义也非常相似．这表明我们评论聚类效果可以很好支撑后续的开发者意见推荐．表９基于ＤＢＳＣＡＮ的句子聚类句子ｉｄ 评论句子 簇３９３０ｓｏｍｅｔｉｍｅｓｐｌａｙｖｉｄｅｏｅｎｄａｕｄｉｏ ｋｅｅｐｇｏ ｅｘｉｔｃｏｍｐｌｅｔｅｌｙ．１４０３２５４ｐｒｏｂｌｅｍｒｉｇｈｔ ｖｉｄｅｏ  ｌｏａｄ ｐｌａｙ ｋｅｅｐ ｓｃｒｏｌｌ  ｖｉｄｅｏｋｅｅｐ  ｐｌａｙ ｖｉｄｅｏ．１４０１１１１ａｌｓｏ  ｓｏｍｅｔｉｍｅｓ  ａｕｄｉｏ  ｓｔｏｐ ｖｉｄｅｏ  ｋｅｅｐ ｐｌａｙ ｂａｃｋ？ｇｒｏｕｎｄ ｓｃｒｏｌｌ．１４０４８９０ ｐｒｏｂｌｅｍｖｉｄｅｏ ｋｅｅｐ ｐｌａｙ  ｓｏｕｎｄ ｓｃｒｏｌｌ ｐｏｓｔ． １４０１０８１ ｌｏｖｅｂｅｓｔ  ｓｏｃｉａｌｍｅｄｉｕｍｐｌａｔｆｏｒｍ． １３６１６４１ ｏｎｅｂｅｓｔ ｓｏｃｉａｌｍｅｄｉｕｍｐｌａｔｆｏｒｍ． １３６为了更好地展示我们的聚类效果，我们使用文献［３９］提出的一种有效的降维方式“ｔ－ＳＮＥ” 技术来可视化我们的聚类效果，当数据维度高于２维时，聚类结果可以以二维的方式展示出来．图７可视化了Ｉｎｓｔａｇｒａｍ下评论句子数目较多十个聚类簇．可以发现，我们的聚类算法可以很好地聚类语义相似的句子．高效的聚类语义相关的句子可以提高为开发者推荐用户评论意见的准确性．图７丨ｎｓｔａｇｒａｍ评论句子聚类效果可视化ＲＱ３：我们对用户评论的意见推荐是否能高效地为开发者进行ａｐｐ的维护和更新提供真实参考？我们分别从ＡＲＩＣＡ有效性分析和讨论来评估我们的模型是否有助于开发人员分析用户反馈．（１）有效性分析本节我们通过Ａｐｐａｎｎｉｅ（ — 个包含对ＧｏｏｇｌｅＰｌａｙ以及ＡｐｐｌｅＡｐｐＳｔｏｒｅ中ａｐｐ的数据分析平台）中的应用程序的更新日志来验证我们对用户评论推荐的有效性．特别的，为了验证ＡＲＩＣＡ的可行性和高效性，我们特意选取了和意图分类不同的其他ａｐｐ的用户评论来进行验证分析．值得注意的是，通过检查ａｐｐ的更新日志发现，Ｇｏｏｇｌｅ Ｐｌａｙ中ａｐｐ在更新时有的开发者不写更新日志，或者只是粗略地描述ａｐｐ的更新情况，比如更新日志中只写了２１９８ 计算机学报 ２０２０ 年“Ｂｕｇ ｆｉｘｅｓａｎｄｐｅｒｆｏｒｍａｎｃｅｉｍｐｒｏｖｅｍｅｎｔｓ”，其中的ｂｕｇ和性能改进内容不够具体，无法对ＡＲＩＣＡ进行验证．因此，我们在检查这些应用程序的历史更新日志时，手动删除以上没有具体修改信息的日志．最后，我们选择了 ＦｒｅｅＲｉｎｇｔｏｎｅｓ 和Ｄｅｅｚｅｒ ＭｕｓｉｃＰｌａｙｅｒ ２个ａｐｐ进行实证分析验证，ａｐｐ详细信息如表１０所示？表１０更新日志数据集Ａｐｐ名字 类别 评论数 时间段 版本数Ｄｅｅｚｅｒ ＭｕｓｉｃＰｌａｙｅｒＭｕｓｉｃＳ－Ａｕｄｉｏ １３８３４２０１８． ０３．０５？２０１９．０１．２４３５ＦｒｅｅＲｉｎｇｔｏｎｅｓ Ｍｕｓｉｃ＆－Ａｕｄｉｏ ８８１３２０１４． ０２． ２４？２０１９．０１．２４７６表１１ 展示了Ｆｒｅｅ Ｒｉｎｇｔｏｎｅｓ版本７． １．１和２０１８年８月１４日，７．  ２． ０版本修复了 ａｐｐ的搜索功能以及增加了新的来电铃声（表１１粗体部分的更新内容）．这表示我们推荐的评论基本上都有被开发者所处理，并在相应的下一个版本进行了更新．为了更好地量化我们推荐评论的整体效果，我们使用如下自定义的衡量指标来验证ＡＲＩＣＡ？衡量指标ＰｒｗＭｏ／ｖ表示推荐的准确性，为推荐的前ｔｏｐ－々条评论中有多少内容反映在更新日志中，Ｆ，，．ｖＷ衡量了ｆＶｅｃｈｏｗ（．与７．之间的平衡，值越高，表明推荐的评论更精确地覆盖了更新日志，并且更多的更新日志反映在推荐的ｔｏｐ－Ａ评论中．它们计算公式如式（９）所示：ｎ． ．Ｓ（Ｃｆ］Ｒ）ｒｒｅｃｔｓｔｏｒｉｃ＝￣■ －，７． ２． ０的更新时间及更新内容，表１２为ＡＲＩＣＡ推荐的前１０条评论句子．我们手动检查每一个版本识别出的ａｐｐ问题是否可以反映在下一个版本的变更日志中．根据表１２，我们可以看到用户群体在２０１８年７月２０日反馈了搜索功能无法工作以及抱怨只有“ 工厂模式” 铃声（表１２的粗体部分）的评论．而在表１１ＦｒｅｅＲｉｎｇｔｏｎｅｓ更新日志版本 时间 更新日志信息７． １． １ ２０１８． ７． ０３（１）Ｆｕｎｃｔｉｏｎａｌｉｔｙ ｏｆ  ｔｈｅ ａｐｐ ｉｍｐｒｏｖｅｄ（２）Ｎｅｗ ｒｉｎｇｔｏｎｅｓ ｐａｃｋａｇｅ ａｄｄｅｄ７．  ２．  ０ ２０１８．８． １４（１） Ｓｔａｂｉｌｉｔｙ ａｎｄ  ｒｅｌｉａｂｉｌｉｔｙ ｏｆ ｔｈｅａｐｐ ｉｍｐｒｏｖｅｄ（２）Ｆｉｘｅｄ  ａｎ ｉｓｓｕｅ ｗｉｔｈ  ｔｈｅ ｓｅａｒｃｈ  ｆｕｎｃｔｉｏｎ．（３）Ｎｅｗ ｒｉｎｇｔｏｎｅｓｃａｔｅｇｏｒｙ ａｄｄｅｄ－Ｔｈｅ ｂｅｓｔｏｆ ２０１８． Ｃｈｅｃｋｉｔ  ｏｕｔ．表１２ＡＲＩＣＡ推荐的评论句子时间段推荐的评论句子，【情感分】，评论时间（１）Ｉ  ｄｏｗｎｌｏａｄｅｄ  ｔｈｉｓ ａｐｐｌｉｃａｔｉｏｎ ｏｎ ｍｙ ｎｅｗｐｈｏｎｅ ｓｏ  Ｉ ｃａｎ  ｈａｖｅ  ｔｈｅｓａｍｅ ｒｉｎｇｔｏｎｅ Ｉｄｉｄ ｏｎｍｙ ｏｌｄ ｐｈｏｎｅ．【一１】，２０１８． ０７．２０（２）Ｉ ｓａｗ ａ ｓｎｉｐｐｅｔｏｆ ａｎｏｔｈｅｒｒｅｖｉｅｗ ｔｈａｔｃｏｍｐｌａｉｎｅｄｔｈａｔｔｈｉｓａｐｐｌｉｃａｔｉｏｎｏｎｌｙｈａｓ“ｆａｃｔｏｒｙ－ｌｉｋｅ”ｒｉｎｇｔｏｎｅｓ．【一２】，２０１８．０７．２０（３）Ｍｏｓｔ ｏｔｈｅｒ  ｒｉｎｇｔｏｎｅ ａｐｐｓ ｄｏ ｎｏｔ ｈａｖｅ ａｎｙｔｈｉｎｇＩｗｏｕｌｄ ｅｖｅｎ ｃｏｎｓｉｄｅｒ  ｕｓｉｎｇ． 【一１】，２０１８．０７．２０Ｃ４） Ｃｏｕｌｄ ｎｏｔ ｂｅ ｂｏｔｈｅｒｅｄ  ｔｏ  ｔｒｙ ａｎｄ  ｓｏｒｔ ｉｔ ｏｕｔｓｏ  ｕｎｉｎｓｔａｌｌｅｄ ｉｔ．Ｖｅｒｓｉｏｎ ７． ２． ０，（５） Ｓｅａｒｃｈｆｕｎｃｔｉｏｎ ｄｉｄｎｏｔｗｏｒｋ．【—１】，即 ２０１８．８．１４２０１８．０７． ０８之前（６）Ｔｈｅ ｈａｎｄｆｕｌ  ｏｆ ｔｏｎｅｓ  Ｉ  ｈｅａｒｄ ｗｅｒｅ ａｗｆｕｌ．（７） Ｔｈｉｓ  ａｐｐｌｉｃａｔｉｏｎ ｉｓａ ｃｏｍｐｌｅｔｅｗａｓｔｅ〇￡ｔｉｍｅｊｕｓｔ  ｄｅｌｅｔｅ ｉｔａｎｄ  ｓａｖｅ ｙｏｕｒ ｍｅｍｏｒｙ  ｓｐａｃｅ！（８）Ｔｈｉｓｉｓ  ａ ｈｏｒｒｉｂｌｅ ａｐｐ，ａｎｙｔｈｉｎｇｍｏｒｅ ｏｒ ｌｅｓｓｐｏｐｕｌａｒ，  ｏｒ ｃｌａｓｓｉｃａｌ， ｏｒ ｐｒｅｔｔｙ ｍｕｃｈ  ａｎｙｔｈｉｎｇａｔ ａｌｌ  ｙｏｕ  ｔｙｐｅ ｉｎｔｈｅ ｓｅａｒｃｈ ｊｕｓｔ ｄｏｅｓ ｎｏｔ ａｐｐｅａｒｔｏ  ｂｅ ｏｎ ｔｈｉｓ ａｐｐ．【一４】，２０１８． ０７． ２０（９） Ｇｒｅａｔｑｕａｌｉｔｙ ａｎｄ ａ ｗｉｄｅ ｖａｒｉｅｔｙ ｏｆ  ｓｔｙｌｅｓ ｔｏｃｈｏｏｓｅ ｆｒｏｍ．（１０）Ｒｉｎｇｔｏｎｅｓ ａｒｅ ａｖａｉｌａｂｌｅ ｉｎ“ｐａｃｋｓ”ｔｈａｔ ｍｕｓｔｂｅｄｏｗｎｌｏａｄｅｄ ｂｅｆｏｒｅ ｋｎｏｗｉｎｇ ｗｈａｔ ｉｓｉｎｔｈｅｍ．Ｒｅｃｕｌｌｒ＝ＳＣＣＯＲ）Ｓ（Ｒ）（９）Ｆｈ ｙｂｒｉｄ＝２ＸＰｒｅｃｉｓｉｏｒｉｃ ＸＲｅｃａｌｌｊＰｒｅｃｉｓｉｏｎｃ￣＼＾ＲｅｃａｌｌＴ其中，Ｓ（Ｃ）表示更新日志的记录数，ＳＣＲ）为推荐的前ｔｏｐｊ条评论，Ｓ（ＣＨｉ？）为推荐的评论内容中有多少反映了ａｐｐ更新日志中的更改信息．我们基于上述衡量指标，在ａｐｐ Ｆｒｅｅ Ｒｉｎｇｔｏｎｅｓ上获得了Ｐｍ：ｉｓｉｏ？２ｃ＝０． ６６７，Ｊ？ｅｃａ＂ｒ＝０．４，Ｆ，，ｙ）ｒ，ｗ＝０？ ６３１的效果．这表明ＡＲＩＣＡ推荐用户评论建议的可行性和高效性．（２）有效性讨论由于在ａｐｐ新的版本的更新日志可能不会覆盖所有的更改，但叱代表了 ＡＲＩＣＡ性能的下界［２Ｓ］，它不仅推荐了关于ａｐｐ的出现的“ｓｅａｒｃｈｆｕｎｃｔｉｏｎ”的ｂｕｇ评论，同时也推荐了关于增加铃声包的功能，至于更新日志中关于ａｐｐ的稳定性和可靠性，虽然用户一般不会使用类似的评论直接表达，但会通过如评论（９）所述的内容来间接反映ａｐｐ的质量．此外，如表１２所示，ＡＲＩＣＡ除了可以识别关于ａｐｐ更新日志的大多数内容，同时也可以推荐关于信息给予类别的内容，比如评论（１），（９）和（１０）是关于用户给出一些使用ａｐｐ的体验信息，这些信息对于开发者对用户使用ａｐｐ体验有一个直观的了解，但一般不会在更新日志中体现．因此，尽管我们的方法可能不能覆盖所有的更新内容，但对于用户重点关注的问题，都能够很好地检测出来并呈现给开发者．ＲＱ４：用户的情感对开发者建议推荐的影响如何？用户的情感倾向直接反映了用户的评论意图，肖建茂等：一种基于用户评论自动分１１期 析的ＡＰＰ维护和演化方法 ２１９ ９本文我们主要考虑的是情感波谷对评论综合推荐的影响，表１３展示了比较考虑了情感因素和未考虑情感因素对评论推荐的影响．从中可以看到．加人了情感分析后，Ｐｒｅｃｂ／ｏｗｃ，■ 和＾都相应地提高，这说明用户的情感倾向对于提高评论推荐的准确性具有重要价值．表１３情感因素对推荐评论结果的影响衡量指标名字 Ｐｒｅｃｉｓｉｏｎｃ，ｔｏｐ－々＝５Ｒｅｃａｌｌｒ？ｔｏｐ－厶＝５Ｆｈｙｂｒｉｄｔｏｐ－々＝５Ｐｒｅｃｉｓｉｏｎｃ？ｔｏｐ－々＝１０Ｒｅｃａｌｌｒ？ｔｏｐ－是＝１０Ｆｈｙｂｒｉｄ？ｔｏｐ－是＝１０ＦｒｅｅＲｉｎｇｔｏｎｅｓ ０．６６７ ０． ６ ０．６３１ ０．６６７ ０．４ ０． ５ＦｒｅｅＲｉｎｇｔｏｎｅｓ（未考虑情感） ０． ６６７ ０．４ ０． ６３１ ０． ６６７ ０．  ３ ０． ４１４ＤｅｅｚｅｒＭｕｓｉｃ Ｐｌａｙｅｒ ０．５ ０．４ ０．４４４ ０． ７５ ０．４ ０．５２２Ｄｅｅｚｅｒ Ｍｕｓｉｃ  Ｐｌａｙｅｒ（未考虑情感） ０． ２５ ０． ２ ０． ２２ ０． ５ ０．４ ０． ４４４为了更细粒度地说明我们推荐的评论的高效性，我们分别对推荐评论的前５和前１０个评论计算他们准确度并进行比较，其中可以发现ＪＶｅｃ■以〇？ｃ变大，这是因为推荐的评论越多，越能覆盖ａｐｐ主要的更新信息．而相反，可能变小，比如考虑情感因素情况下，当ｔｏｐ－々＝５时，ＦｒｅｅＲｉｎｇｔｏｎｅｓ的ｉ？ｅｃａＺＺＴ＝〇． ６，而在ｔｏｐ－是＝１０时为０．４．鉴于此，我们手动的对比分析更新日志和推荐的评论发现，这是由于更新日志一般只是把当前ａｐｐ版本的重要更新记录（比如ｂｕｇ修复或者增加的新的功能）展示出来，给出的日志信息有限，而我们推荐的评论除了问题发现和特征请求外，同时包含了信息给予、信息搜寻和其他这３个类别的评论信息，这会在？定程度上降低ａｐｐ整体的但这３个类别的用户反馈信息同样对开发者具有借鉴意义．图８展示了ＡＲＩＣＡ为Ｆｒｅｅ Ｒｉｎｇｔｏｎｅｓ推荐的前ｔｏｐ－々评论对推荐结果的影响（取前２１条），可以发现随着ｔｏｐ－々值增加，Ｐｒｅｃｉｓｉｏｎ（＇先保持０？６６７不变，当ｔｏｐ－々＝１５时，＝ １，这表明随着ｔｏｐ－々增加，基本能覆盖更新日志中提到的更改信息．相反，？Ｒａａ／Ｇ则随着ｔｏｐ－々増加而减少，这是因为ＡＲＩＣＡ推荐的评论不仅包含更新日志信息（即ａｐｐ主要的更改），同时也会包含用户关注的一些其他的内容，而表现出类似的趋势．本文我们主要关注的是推荐的评论是否可以很好的覆盖ａｐｐ的更新日志，即所以将ｔｏｐｊ值设置为１５，对于其他的ｔｏｐ－々值，也可以根据开发者的需要动态设置．特别地，图９展示了Ｄｅｅｚｅｒ情感趋势图，可以发现在不同的时间段Ｄｅｅｚｅｒ会出现波谷情况，此时的用户评论理论上更具有代表性．比如２０１８． ０７． １２波谷时，我们检测ＡＲＩＣＡ推荐评论的前５条评论中发现有３条都是在２０１８． ０７． ０８反馈的，且都是关于ａｐｐ不能播放歌曲的内容，即用户反馈了 ｂｕｇ，这很好地解释了在用户情感波谷时用户的评论包含更重要的信息，这对综合评论推荐具有重要意义．ＤｅｅｚｅｒＤａｔｅ图９Ｄｅｅｚｅｒ情感趋势图波谷识别６有效性挑战在我们的方法实施过程中对有效性存在威胁的因素主要体现在两个方面： 图８ｔｏｐ－々值对结果影响２２００ 计算机学报 ２０２０ 年（１）内部影响因素对于真值集的构造，我们依赖于容易出错的人工判断，因为在决定一个句子是否属于某个特定类别时，存在一定程度的主观性．为了解决这个问题，我们根据两个注释者的判断建立了一个真值集．此外，每个标签类别的定义也被提出来进行了严格的讨论．当分类出现分歧时，由第三个人介人来确定句子最后意图分类，这可以有效地缓解手工标注存在主观性的问题，从而增加真值集的可信度．（２）外部影响因素用户评论情感分析是根据ａｐｐ评论信息计算用户评论情感得分，真实场景下用户的情感并不能完全正确地识别．此外，由于ａｆ＞ｐ评论随机且大多为短文本，对于ａｐｐ评论情感分析更加困难，为此我们使用了ＳｅｎｔｉＳｔｒｅｎｇｔｈ情感分析工具，它针对短文本以及非正式语言具有很高的准确性，这样可以减少情感分析不够准确带来的用户意见推荐影响，从而提高推荐的效率．同时，为了保证我们方法的泛化性，我们选择不同类别下不同版本的用户评论数据进行分析，在具体进行用户建议推荐时，我们选择和训练集不同的ａｐｐ用户评论数据进行分析，以保证我们方法的可用性和泛化性．７总结和下一步工作应用市场的用户群体评论可以被用来分析应用程序维护和演化的各个方面内容．及时准确地理解用户意图对于开发人员（或者ａｐｐ提供商）进行ａｐｐ更新和维护至关重要．Ａｐｐ评论提供了一个可以主动收集用户抱怨等反馈的机会，开发者可以通过用户的反馈来修复对应的ｂｕｇ和改进或者增加特定的功能特征来及时改善用户体验．本文我们提出一种自动分析用户群体评论的方法ＡＲＩＣＡ来高效地为开发者提供软件维护和演化的建议．ＡＲＩＣＡ首先将根据用户评论信息进行评论意图分类，然后根据每个评论意图类别实现评论句子级别的主题分类并聚类，最后综合考虑聚类句子长度、评论被点赞数、时间维度信息、用户意图信息、情感变化趋势等多维度信息，对评论进行优先级排序，并为开发者直接提供更具参考价值的用户评论．在评论意图分类过程中，分类准确度达到８０％，评论句子聚类过程中获得８６％准确率，为后续开发者进行意见推荐提供有效支撑．同时，我们通过以谷歌官方的ａｐｐ更新日志为落地数据，实证分析了我们推荐的用户评论建议可以高效为开发者进行后续的ａｐｐ维护和演化提供参考．下一步我们将结合多维度的用户反馈信息，比如用户和开发者间的邮件记录，用户在社交媒体评论的ａ｛）ｐ数据等，重点考虑用户与开发者之间的交互．比如结合开发者对ａｐｐ的ｉｓｓｕｅ或ｃｏｍｍｉｔ等行为，挖掘用户反馈的ｂｕｇ等是否可以在代码层面体现出来，进而分析用户和开发者之间的潜在协同机制，从而更好地为ａｐｐ维护和演化提供社会码层面参考．参考文献［１］Ｉｎｕｋｏｌｌｕ ＶＮ， Ｋｅｓｈａｍｏｎｉ Ｄ Ｄ，Ｋａｎｇ Ｔ，ｅｔａｌ． Ｆａｃｔｏｒｓｉｎｆｌｕｅｎｃｉｎｇｑｕａｌｉｔｙｏｆ ｍｏｂｉｌｅａｐｐｓ：Ｒｏｌｅ ｏｆ ｍｏｂｉｌｅａｐｐｄｅｖｅｌｏｐｍｅｎｔｌｉｆｅ ｃｙｃｌｅ． Ｉｎｔｅｒｎａｔｉｏｎａ！ Ｊｏｕｒｎａｌ ｏｆ ＳｏｆｔｗａｒｅＥｎｇｉｎｅｅｒｉｎｇＡｐｐｌｉｃａｔｉｏｎｓ＊ ２０１４，  ５（５）： １５－３４［２］Ｇｕｚｍａｎ Ｅ， Ｍａａｌｅｊ Ｗ， ｅｔ ａｌ． Ｈｏｗｄｏ  ｕｓｅｒｓｌｉｋｅ ｔｈｉｓ ｆｅａｔｕｒｅ？Ａｆｉｎｅｇｒａｉｎｅｄ ｓｅｎｔｉｍｅｎｔａｎａｌｙｓｉｓ ｏｆ  ａｐｐ ｒｅｖｉｅｗｓ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ ２０１４ ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌ ＲｅｑｕｉｒｅｍｅｎｔｓＥｎｇｉｎｅｅｒｉｎｇＣｏｎｆｅｒｅｎｃｅ．Ｋａｒｌｓｋｒｏｎａ＊  Ｓｗｅｄｅｎ，  ２０１４； １５３－１６２［３］Ｐａｇａｎｏ Ｄ， ＭａａｌｅｊＷ， ｅｔ ａｌ．Ｕｓｅｒｆｅｅｄｂａｃｋｉｎ ｔｈｅ ＡｐｐＳｔｏｒｅ：Ａｎ ｅｍｐｉｒｉｃａｌ ｓｔｕｄｙ／／Ｐｒｏｃｅｅｄｉｎｇｓ ｏｆ ｔｈｅ ２０１４ＩＥＥＥＩｎｔｅｒｎａ？ｔｉｏｎａｌ ＲｅｑｕｉｒｅｍｅｎｔｓＥｎｇｉｎｅｅｒｉｎｇ Ｃｏｎｆｅｒｅｎｃｅ． Ｒｉｏ ｄｅ Ｊａｎｅｉｒｏ，ＢｒａｓｉＵ２０１３：  １２５－１３４［４］Ｗａｎｇ  Ｚｈｏｎｇ－Ｙｕａｎ，Ｃｈｅｎｇ Ｊｉａｎ－Ｐｅｎｇ，Ｗａｎｇ Ｈａｉ－Ｘｕｎ，ｅｔ ａｌ．Ｓｈｏｒｔ ｔｅｘｔ ｕｎｄｅｒｓｔａｎｄｉｎｇ： Ａ ｓｕｒｖｅｙ． Ｊｏｕｒｎａｌ ｏｆ ＣｏｍｐｕｔｅｒＲｅｓｅａｒｃｈａｎｄ  Ｄｅｖｅｌｏｐｍｅｎｔ， ２０１６， ５３（２）： ２６２－２６９（ｉｎ Ｃｈｉｎｅｓｅ）（王仲远，程健睹，王海勋等．短文本理解研究．计算机研究与发展，２０１６，  ５３（２）：２６２－２６９）［５］Ｙａｎｇ Ｈ， ＬｉａｎｇＰ． Ｉｄｅｎｔｉｆｉｃａｔｉｏｎ ａｎｄｃｌａｓｓｉｆｉｃａｔｉｏｎ  ｏｆｒｅｑｕｉｒｅｍｅｎｔｓｆｒｏｍ ａｐｐ ｕｓｅｒ ｒｅｖｉｅｗｓ／／Ｐｒｏｃｅｅｄｉｎｇｓ ｏｆ ｔｈｅ ２０１５  ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ  ＳｏｆｔｗａｒｅＥｎｇｉｎｅｅｒｉｎｇ．Ｆｉｒｅｎｚｅ，Ｉｔａｌｙ，２０１５：７－１２［６］ＣｈｅｎＮ， Ｌｉｎ Ｊ， Ｈｏｉ ＳＣＨ， ｅｔ ａｉ． ＡＲ－ｍｉｎｅｒ：Ｍｉｎｉｎｇ ｉｎｆｏｒｍａｔｉｖｅｒｅｖｉｅｗｓ ｆｏｒｄｅｖｅｌｏｐｅｒｓｆｒｏｍｍｏｂｉｌｅ ａｐｐｍａｒｋｅｔｐｌａｃｅ／／Ｐｒｏｃｅｅｄｉｎｇｓ ｏｆ ｔｈｅ ２０１５ Ｉｎｔｅｒｎａｔｉｏｎａｌ  ＣｏｎｆｅｒｅｎｃｅｏｎＳｏｆｔｗａｒｅＥｎｇｉｎｅｅｒｉｎｇ．Ｈｙｄｅｒａｂａｄ，Ｉｎｄｉａ，  ２０１４：７６７－７７８［７］Ｍａａｌｅｊ  Ｗ， Ｎａｂｉｌ Ｈ． Ｂｕｇ ｒｅｐｏｒｔ，ｆｅａｔｕｒｅ ｒｅｑｕｅｓｔ， ｏｒ  ｓｉｍｐｌｙｐｒａｉｓｅ？ Ｏｎ ａｕｔｏｍａｔｉｃａｌｌｙｃｌａｓｓｉｆｙｉｎｇ ａｐｐ ｒｅｖｉｅｗｓ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ ｔｈｅ２０１５ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌ Ｒｅｑｕｉｒｅｍｅｎｔｓ ＥｎｇｉｎｅｅｒｉｎｇＣｏｎｆｅｒｅｎｃｅ． Ｏｔｔａｗａ，Ｃａｎａｄａ，２０１５： １１６－１２５［８］ＰａｎｉｃｈｅｌｌａＳ？ Ｄｉ  Ｓｏｒｂｏ Ａ， Ｇｕｚｍａｎ Ｅ， ｅｔａｉ． Ｈｏｗｃａｎｉｉｍｐｒｏｖｅ ｍｙａｐｐ ？Ｃｌａｓｓｉｆｙｉｎｇｕｓｅｒ ｒｅｖｉｅｗｓ ｆｏｒ ｓｏｆｔｗａｒｅｍａｉｎｔｅｎａｎｃｅ ａｎｄ ｅｖｏｌｕｔｉｏｎ／／Ｐｒｏｃｅｅｄｉｎｇｓ ｏｆ ｔｈｅ２０１５ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ ｏｎＳｏｆｔｗａｒｅＭａｉｎｔｅｎａｎｃｅ ａｎｄＥｖｏｌｕｔｉｏｎ． Ｂｒｅｍｅｎ＊ Ｇｅｒｍａｎｙ， ２０１５： ２８１－２９０［９］Ｇｕｚｍａｎ Ｅ，ＥｌｈａｌａｂｙＭ，ＢｒｕｅｇｇｅＢ，ｅｔ ａｌ．Ｅｎｓｅｍｂｌｅｍｅｔｈｏｄｓｆｏｒ  ａｐｐ ｒｅｖｉｅｗｃｌａｓｓｉｆｉｃａｔｉｏｎ： Ａｎ ａｐｐｒｏａｃｈ ｆｏｒ ｓｏｆｔｗａｒｅ肖建茂等：一种基于用户评论１１期 自动分析的ＡＰＰ维护和演化方法 ２２０ １ｅｖｏｌｕｔｉｏｎ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ ｔｈｅ ２０１６ ＩＥＥＥ／ＡＣＭＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ ｏｎＡｕｔｏｍａｔｅｄ ＳｏｆｔｗａｒｅＥｎｇｉｎｅｅｒｉｎｇ．Ｓｉｎｇａｐｏｒｅ，２０１６： ７７１－７７６［１０］ＧｕｚｍａｎＥ， Ａｌｙ０？Ｂｒｕｅｇｇｅ Ｂ，ｅｔ ａｌ．Ｒｅｔｒｉｅｖｉｎｇｄｉｖｅｒｓｅｏｐｉｎｉｏｎｓ ｆｒｏｍａｐｐ  ｒｅｖｉｅｗｓ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ ｔｈｅ ２０１５ Ｉｎｔｅｒｎａ－ｔｉｏｎａｌ Ｓｙｍｐｏｓｉｕｍ ｏｎＥｍｐｉｒｉｃａｌＳｏｆｔｗａｒｅＥｎｇｉｎｅｅｒｉｎｇａｎｄＭｅａｓｕｒｅｍｅｎｔ．Ｂｅｉｊｉｎｇ＊ Ｃｈｉｎａ，  ２０１５： １－１０［１１］ｌａｃｏｂ Ｃ， Ｈａｒｒｉｓｏｎ Ｒ？ Ｆａｉｌｙ Ｓ？ ｅｔ ａｌ．Ｏｎｌｉｎｅｒｅｖｉｅｗｓａｓｆｉｒｓｔｃｌａｓｓ ａｒｔｉｆａｃｔｓ ｉｎｍｏｂｉｌｅａｐｐ ｄｅｖｅＩｏｐｍｅｎｔ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ  ｔｈｅ６ｔｈ  Ｉｎｔｅｒｎａｔｉｏｎａｌ ＣｏｎｆｅｒｅｎｃｅｏｎＭｏｂｉｌｅ Ｃｏｍｐｕｔｉｎｇ＊ Ａｐｐｌｉｃａｔｉｏｎｓａｎｄ Ｓｅｒｖｉｃｅｓ． Ａｕｓｔｉｎ， ＵＳＡ， ２０１４：  ４７－５３［１２］Ｍａｒｔｉｎ Ｗ，ＳａｒｒｏＦ？ＪｉａＹ， ｅｔ ａｌ． Ａｓｕｒｖｅｙｏｆ ａｐｐ ｓｔｏｒｅａｎａｌｙｓｉｓ ｆｏｒｓｏｆｔｗａｒｅ ｅｎｇｉｎｅｅｒｉｎｇ．ＩＥＥＥ Ｔｒａｎｓａｃｔｉｏｎｓ ｏｎＳｏｆｔｗａｒｅ  Ｅｎｇｉｎｅｅｒｉｎｇ＊  ２０１７， ４３（９）：  ８１７－８４７［１３］ＤｉＳｏｒｂｏ Ａ，Ｐａｎｉｃｈｅｌｌａ Ｓ？ Ａｌｅｘａｎｄｒａ ＣＶ， ｅｔ ａｌ．Ｗｈａｔｗｏｕｌｄ ｕｓｅｒｓ ｃｈａｎｇｅ ｉｎ ｍｙ  ａｐｐ？Ｓｕｍｍａｒｉｚｉｎｇ ａｐｐ ｒｅｖｉｅｗｓｆｏｒｒｅｃｏｍｍｅｎｄｉｎｇｓｏｆｔｗａｒｅｃｈａｎｇｅｓ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ ｔｈｅ２０１６ＡＣＭ ＳＩＧＳＯＦＴ Ｉｎｔｅｒｎａｔｉｏｎａｌ Ｓｙｍｐｏｓｉｕｍ ｏｎ ｔｈｅ Ｆｏｕｎｄａｔｉｏｎｓｏｆ ＳｏｆｔｗａｒｅＥｎｇｉｎｅｅｒｉｎｇ． Ｗａｓｈｉｎｇｔｏｎ， ＵＳＡ， ２０１６： ４９９－５１０［１４］Ｄｉ Ｓｏｒｂｏ Ａ，Ｐａｎｉｃｈｅｌｌａ Ｓ，Ａｌｅｘａｎｄｒｉａ Ｃ Ｖ，ｅｔ ａｌ． ＳＵＲＦ：Ｓｕｍｍａｒｉｚｅｒ 〇￡ ｕｓｅｒ ｒｅｖｉｅｗｓｆｅｅｄｂａｃｋ／／Ｐｒｏｃｅｅｄｉｎｇｓ ｏｆ ｔｈｅ２０１７ＩＥＥＥ ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ  ｏｎ ＳｏｆｔｗａｒｅＥｉ＾ｉｎｅｅｒｉｎｇ．ＢｕｅｎｏｓＡｉｒｅｓ＊ Ａｒｇｅｎｔｉｎａ＊ ２０１７： ５５－５８［１５］Ｄｅｖｌｉｎ  Ｊ， Ｃｈａｎｇ Ｍ， Ｌｅｅ Ｋ， ｅｔ ａｌ． ＢＥＲＴ： Ｐｒｅ－ｔｒａｉｎｉｎｇ ｏｆｄｅｅｐ ｂｉｄｉｒｅｃｔｉｏｎａｌ ｔｒａｎｓｆｏｒｍｅｒｓｆｏｒ ｌａｎｇｕａｇｅ  ｕｎｄｅｒｓｔａｎｄｉｎｇ／／Ｐｒｏｃｅｅｄｉｎｇｓ ｏｆ ｔｈｅ ２０１９ＡｎｎｕａｌＣｏｎｆｅｒｅｎｃｅ ｏｆｔｈｅ ＮｏｒｔｈＡｍｅｒｉｃａｎＣｈａｐｔｅｒｏｆ ｔｈｅ ＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ． Ｍｉｎｎｅｓｏｔａ＊ ＵＳＡ，  ２０１９： ４１７１－４１８６［１６］ＨｕａｎｇＱｉａｏ，Ｘｉａ Ｘｉｎ＊Ｌｏ Ｄ＊ｅｔ  ａｌ． Ａｕｔｏｍａｔｉｎｇ ｉｎｔｅｎｔｉｏｎｍｉｎｉｎｇ．ＩＥＥＥ Ｔｒａｎｓａｃｔｉｏｎｓ ｏｎ Ｓｏｆｔｗａｒｅ Ｅｎｇｉｎｅｅｒｉｎｇ＊２０１８．１（１）： １－２２［１７］Ａｎｔｏｎｉｏｌ Ｇ＊ Ａｙａｒｉ Ｋ？ Ｐｅｎｔａ Ｍ Ｄ，ｅｔ ａｌ． Ｉｓ ｉｔ ａ ｂｕｇｏｒ ａｎｅｎｈａｎｃｅｍｅｎｔ？ ： Ａｔｅｘｔ－ｂａｓｅｄａｐｐｒｏａｃｈｔｏｃｌａｓｓｉｆｙｃｈａｎｇｅｒｅｑｕｅｓｔｓ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ ｔｈｅ２０１７ Ｃｏｎｆｅｒｅｎｃｅ ｏｆ ｔｈｅＣｅｎｔｒｅｆｏｒＡｄｖａｎｃｅｄ Ｓｔｕｄｉｅｓ ｏｎ ＣｏｌｌａｂｏｒａｔｉｖｅＲｅｓｅａｒｃｈ． ＲｉｃｈｍｏｎｄＨｉｌｌ， Ｃａｎａｄａ， ２００８： ３０４－３１８［１８］Ｂａｋｉｕ Ｅ＊  Ｇｕｚｍａｎ Ｅ． Ｗｈｉｃｈ ｆｅａｔｕｒｅ ｉｓ ｕｎｕｓａｂｌｅ？Ｄｅｔｅｃｔｉｎｇｕｓａｂｉｌｉｔｙ ａｎｄｕｓｅｒｅｘｐｅｒｉｅｎｃｅ ｉｓｓｕｅｓｆｒｏｍｕｓｅｒｒｅｖｉｅｗｓ／／Ｐｒｏｃｅｅｄｉｎｇｓ ｏｆ ｔｈｅ２０１７ ＩＥＥＥ ２５ｔｈ Ｉｎｔｅｒｎａｔｉｏｎａｌ ＲｅｑｕｉｒｅｍｅｎｔｓＥｎｇｉｎｅｅｒｉｎｇ  ＣｏｎｆｅｒｅｎｃｅＷｏｒｋｓｈｏｐｓ． Ｌｉｓｂｏｎ？ Ｐｏｒｔｕｇａｌ， ２０１７：１８２－１８７［１９］Ｄａｂｒｏｗｓｋｉ Ｊ？ ＬｅｔｉｅｒＥ＊ Ｐｅｒｉｎｉ  Ａ， ｅｔ ａｌ． Ｆｉｎｄｉｉ＾ａｎｄ  ａｎａｌｙｚｉｎｇａｐｐ  ｒｅｖｉｅｗｓｒｅｌａｔｅｄｔｏ  ｓｐｅｃｉｆｉｃ ｆｅａｔｕｒｅｓ：Ａｒｅｓｅａｒｃｈｐｒｅｖｉｅｗ／／Ｐｒｏｃｅｅｄｉｎｇｓ ｏｆ ｔｈｅ ２０１９Ｉｎｔｅｒｎａｔｉｏｎａｌ Ｃｏｎｆｅｒｅｎｃｅ ｏｎＲｅｑｕｉｒｅ？ｍｅｎｔｓＥｎｇｉｎｅｅｒｉｎｇ： Ｆｏｕｎｄａｔｉｏｎ ｆｏｒ Ｓｏｆｔｗａｒｅ Ｑｕａｌｉｔｙ． Ｅｓｓｅｎ，Ｇｅｒｍａｎｙ＊ ２０１９：１８３－１８９［２０］Ｃｉｕｒｕｍｅｌｅａ Ａ，  Ｓｃｈａｕｆｅｌｂｉｉｈｌ Ａ＊ Ｐａｎｉｃｈｅｌｌａ Ｓ？  ｅｔａＬＡｎａｌｙｚｉｎｇｒｅｖｉｅｗｓａｎｄ ｃｏｄｅ ｏｆ ｍｏｂｉｌｅ ａｐｐｓｆｏｒ ｂｅｔｔｅｒ ｒｅｌｅａｓｅ ｐｌａｎｎｉｎｇ／ ／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ ｔｈｅ ２０１７ＩＥＥＥ Ｉｎｔｅｒｎａｔｉｏｎａｌ ＣｏｎｆｅｒｅｎｃｅｏｎＳｏｆｔｗａｒｅＡｎａｌｙｓｉｓ＊  Ｅｖｏｌｕｔｉｏｎ ａｎｄＲｅｅｎｇｉｎｅｅｒｉｎｇ． Ｋｌａｇｅｎｆｕｒｔ，Ａｕｓｔｒｉａ，  ２０１７：  ９１－１０２［２１］Ｄｈｉｎａｋａｒａｎ ＶＴ？ Ｐｕｌｌｅ Ｒ，Ａｊｍｅｒｉ Ｎ？ｅｔａｌ． Ａｐｐｒｅｖｉｅｗ ａｎａｌｙｓｉｓｖｉａａｃｔｉｖｅｌｅａｒｎｉｎｇ：Ｒｅｄｕｃｉｎｇｓｕｐｅｒｖｉｓｉｏｎ ｅｆｆｏｒｔｗｉｔｈｏｕｔｃｏｍｐｒｏｍｉｓｉｎｇ ｃｌａｓｓｉｆｉｃａｔｉｏｎ ａｃｃｕｒａｃｙ／／Ｐｒｏｃｅｅｄｉｎｇｓ ｏｆ  ｔｈｅ ２０１８ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＲｅｑｕｉｒｅｍｅｎｔｓＥｎｇｉｎｅｅｒｉｎｇＣｏｎｆｅｒｅｎｃｅ．Ｂａｎｆｆ， Ｃａｎａｄａ＊ ２０１８： １７０－１８１［２２］Ｍｅｓｓａｏｕｄ  ＭＢ，  Ｊｅｎｈａｎｉ Ｉ？ Ｊｅｍａａ ＮＢ， ｅｔ ａｌ． Ａｍｕｌｔｉ－ｌａｂｅｌａｃｔｉｖｅ ｌｅａｒｎｉｎｇ ａｐｐｒｏａｃｈ ｆｏｒ ｍｏｂｉｌｅ ａｐｐ ｕｓｅｒｒｅｖｉｅｗ  ｃｌａｓｓｉｆｉｃａｔｉｏｎ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１９ Ｉｎｔｅｒｎａｔｉｏｎａｌ ＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅ Ｓｃｉｅｎｃｅ， Ｅｎｇｉｎｅｅｒｉｎｇａｎｄ  Ｍａｎａｇｅｍｅｎｔ． Ａｔｈｅｎｓ，Ｇｒｅｅｃｅ，  ２０１９： ８０５－８１６［２３］Ｋｈａｌｉｄ Ｈ，Ｓｈｉｈａｂ Ｅ，Ｎａｇａｐｐａｎ Ｍ，ｅｔ ａｌ． Ｗｈａｔ ｄｏｍｏｂｉｌｅａｐｐ  ｕｓｅｒｓ ｃｏｍｐｌａｉｎ ａｂｏｕｔ？ ＩＥＥＥＳｏｆｔｗａｒｅ， ２０１４＊３２（３）：７０－７７［２４］Ｌｉｕ Ｙ， Ｌｉｕ Ｌ？Ｌｉｕ  Ｈ，ｅｔ ａｌ．  Ａｎａｌｙｚｉｎｇｒｅｖｉｅｗｓ ｇｕｉｄｅｄ  ｂｙａｐｐｄｅｓｃｒｉｐｔｉｏｎｓｆｏｒｔｈｅｓｏｆｔｗａｒｅ ｄｅｖｅｌｏｐｍｅｎｔ ａｎｄｅｖｏｌｕｔｉｏｎ．Ｊｏｕｒｎａｌ ｏｆ ＳｏｆｔｗａｒｅＭａｉｎｔｅｎａｎｃｅａｎｄＥｖｏｌｕｔｉｏｎ， ２０１８，３０（１２）： ｅ２１１２．ｌ－ｅ２１１２． ２２［２５］Ｓｃａｌａｂｒｉｎｏ Ｓ＊Ｂａｖｏｔａ Ｇ，Ｒｕｓｓｏ Ｂ＊ｅｔ ａｌ．Ｌｉｓｔｅｎｉｎｇ ｔｏｔｈｅｃｒｏｗｄｆｏｒｔｈｅ ｒｅｌｅａｓｅ ｐｌａｎｎｉｎｇｏｆｍｏｂｉｌｅ ａｐｐｓ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓ  ｏｎＳｏｆｔｗａｒｅ  Ｅｎｇｉｎｅｅｒｉｎｇ， ２０１７，  ４５（１）：６８－８６［２６］Ｇａｏ Ｃ？Ｚｅｎｇ Ｊ？ Ｌｙｕ ＭＲ，ｅｔａｌ． Ｏｎｌｉｎｅ ａｐｐ ｒｅｖｉｅｗ ａｎａｌｙｓｉｓｆｏｒｉｄｅｎｔｉｆｙｉｎｇｅｍｅｒｇｉｎｇｉｓｓｕｅｓ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ ｔｈｅ２０Ｘ８ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ ｏｎＳｏｆｔｗａｒｅＥｎｇｉｎｅｅｒｉｎｇ．Ｇｏｔｈｅｎｂｕｒｇ， Ｓｗｅｄｅｎ， ２０１８：  ４８－５８［２７］ＤａｌｐｉａｚＦ？ Ｐａｒｅｎｔｅ Ｍ．ＲＥ－ＳＷＯＴ：Ｆｒｏｍ ｕｓｅｒ ｆｅｅｄｂａｃｋ ｔｏｒｅｑｕｉｒｅｍｅｎｔｓｖｉａ ｃｏｍｐｅｔｉｔｏｒａｎａｌｙｓｉｓ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ ｔｈｅ２０１９ ＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｉｎｇＣｏｎｆｅｒｅｎｃｅ ｏｎＲｅｑｕｉｒｅｍｅｎｔｓＥｎｇｉｎｅｅｒｉｎｇ： Ｆｏｕｎｄａｔｉｏｎ ｆｏｒ  Ｓｏｆｔｗａｒｅ Ｑｕａｌｉｔｙ．Ｊｅｊｕ Ｉｓｌａｎｄ，ＳｏｕｔｈＫｏｒｅａ，  ２０１９： ５５－７０［２８］Ｄｉ ＳｏｒｂｏＡ，ＰａｎｉｃｈｅｌｌａＳ，Ｖｉｓａｇｇｉｏ ＣＡ，ｅｔ ａｌ． Ｄｅｖｅｌｏｐｍｅｎｔｅｍａｉｌｓｃｏｎｔｅｎｔａｎａｌｙｚｅｒ： Ｉｎｔｅｎｔｉｏｎｍｉｎｉｎｇｉｎｄｅｖｅｌｏｐｅｒｄｉｓｃｕｓｓｉｏｎｓ／／Ｐｒｏｃｅｅｄｉｎｇｓ ｏｆ ｔｈｅ ２０１５ＩＥＥＥ／ＡＣＭ Ｉｎｔｅｒｎａ？ｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ ｏｎＡｕｔｏｍａｔｅｄＳｏｆｔｗａｒｅ Ｅｎｇｉｎｅｅｒｉｎｇ．Ｌｉｎｃｏｌｎ． Ｎｅｂｒａｓｋａ＊  ２０１５： １２－２３［２９］Ｇｒａｎｏ Ｇ＊ Ｍｅｒｃａｌｄｏ Ｆ，Ｍｅｒｃａｌｄｏ Ｆ．  ｅｔ ａｌ． Ａｎｄｒｏｉｄ  ａｐｐｓ ａｎｄｕｓｅｒ ｆｅｅｄｂａｃｋ：Ａ ｄａｔａｓｅｔ ｆｏｒ ｓｏｆｔｗａｒｅ ｅｖｏｌｕｔｉｏｎａｎｄ ｑｕａｌｉｔｙｉｍｐｒｏｖｅｍｅｎｔ／／Ｐｒｏｃｅｅｄｉｎｇｓ ｏｆ ｔｈｅ ２０１７ ＡＣＭＳＩＧＳＯＦＴ Ｉｎｔｅｒ？ｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐ ｏｎ ＡｐｐＭａｒｋｅｔ Ａｎａｌｙｔｉｃｓ． Ｗａｓｈｉｎｇｔｏｎ  ？ＵＳＡ， ２０１７：  ８－１１［３０］ＫｉｍＹ．Ｃｏｎｖｏｌｕｔｉｏｎａｌ  ｎｅｕｒａｌ  ｎｅｔｗｏｒｋｓｆｏｒｓｅｎｔｅｎｃｅ ｃｌａｓｓｉｆｉ－ｃａｔｉｏｎ／／Ｐｒｏｃｅｅｄｉｎｇｓ ｏｆｔｈｅ ２０１４ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎ ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．Ｄｏｈａ，Ｑａｔａｒ，２０１４： １７４６－１７５１［３１］Ｃｈａｎｇ Ｃ－Ｃ， ＬｉｎＣ－Ｊ．ＬｉｂＳＶＭ： Ａｌｉｂｒａｒｙ ｆｏｒ ｓｕｐｐｏｒｔ ｖｅｃｔｏｒｍａｃｈｉｎｅｓ．ＡＣＭＴｒａｎｓａｃｔｉｏｎｓ ｏｎＩｎｔｅｌｌｉｇｅｎｔ ＳｙｓｔｅｍｓａｎｄＴｅｃｈｎｏｌｏｇｙ，  ２０１１，  ２（３）： １－２７［３２］Ｖｕ ＰＭ， Ｎｇｕｙｅｎ ＴＴ，Ｐｈａｍ ＨＶ＊ ｅｔ ａｌ．Ｍｉｎｉｎｇ ｕｓｅｒｏｐｉｎｉｏｎｓ ｉｎ ｍｏｂｉｌｅ ａｐｐ ｒｅｖｉｅｗｓ： Ａ ｋｅｙｗｏｒｄ－ｂａｓｅｄａｐｐｒｏａｃｈ／／Ｐｒｏｃｅｅｄｉｎｇｓ ｏｆ  ｔｈｅ２０１５ ＩＥＥＥ／ＡＣＭＩｎｔｅｒｎａｔｉｏｎａｌ ＣｏｎｆｅｒｅｎｃｅｏｎＡｕｔｏｍａｔｅｄＳｏｆｔｗａｒｅ Ｅｎｇｉｎｅｅｒｉｎｇ． Ｌｉｎｃｏｌｎ，Ｎｅｂｒａｓｋａ？２０１５： ７４９－７５９２２０２ 计算机学报 ２０２０年［３３］Ｂｌｅｉ Ｄ Ｍ， ＮｇＡ Ｙ， ＪｏｒｄａｎＭＩ， ｅｔａｌ． Ｌａｔｅｎｔ Ｄｉｒｉｃｈｌｅｔａｌｌｏｃａｔｉｏｎ． Ｊｏｕｒｎａｌ ｏｆＭａｃｈｉｎｅ ＬｅａｒｎｉｎｇＲｅｓｅａｒｃｈ， ２００３，（３）： ９９３－１０２２［３４］Ｍｉｋｏｌｏｖ  Ｔ？ Ｓｕｔｓｋｅｖｅｒ Ｉ， Ｃｈｅｎ Ｋ， ｅｔ ａｌ． Ｄｉｓｔｒｉｂｕｔｅｄ  ｒｅｐｒｅ？ｓｅｎｔａｔｉｏｎｓ  ｏｆｗｏｒｄｓ  ａｎｄ ｐｈｒａｓｅｓ ａｎｄ ｔｈｅｉｒ， ｃｏｍｐｏｓｉｔｉｏｎａｌｉｔｙ．Ａｄｖａｎｃｅｓ ｉｎ Ｎｅｕｒａｌ Ｉｎｆｏｒｍａｔｉｏｎ Ｐｒｏｃｅｓｓｉｎｇ Ｓｙｓｔｅｍｓ， ２０１３，（２６）：３１１１－３１１９［３５］ＥｓｔｅｒＭ，Ｋｒｉｅｇｅｌ Ｈ，ＳａｎｄｅｒＪ，ｅｔ ａｌ．Ａ ｄｅｎｓｉｔｙ－ｂａｓｅｄａｌｇｏｒｉｔｈｍ ｆｏｒ ｄｉｓｃｏｖｅｒｉｎｇ ｃｌｕｓｔｅｒｓｉｎ ｌａｒｇｅｓｐａｔｉａｌｄａｔａｂａｓｅｓｗｉｔｈ ｎｏｉｓｅ／／Ｐｒｏｃｅｅｄｉｎｇｓ  ｏｆ ｔｈｅ １９９６ ＡＣＭ ＳＩＧＫＤＤ Ｉｎｔｅｒｎａ？ｔｉｏｎａｌ Ｃｏｎｆｅｒｅｎｃｅ ｏｎ Ｋｎｏｗｌｅｄｇｅ Ｄｉｓｃｏｖｅｒｙ ａｎｄ Ｄａｔａ Ｍｉｎｉｎｇ．Ｐｏｒｔｌａｎｄ， Ｏｒｅｇｏｎ， １９９６： ２２６－２３１［３６］Ｋｕｃｕｋｔｕｎｃ （），Ｃａｍｂａｚｏｇｌｕ ＢＢ， Ｗｅｂｅｒ Ｉ，ｅｔ  ａｌ．Ａ ｌａｒｇｅ－ｓｃａｌｅｓｅｎｔｉｍｅｎｔ ａｎａｌｙｓｉｓ ｆｏｒ Ｙａｈｏｏ！ ａｎｓｗｅｒｓ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＸＩＡＯＪｉａｎ－Ｍａｏ． Ｐｈ．Ｄ．  ｃａｎｄｉｄａｔｅ．Ｈｉｓ ｍａｉｎｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｓｉｎｃｌｕｄｅｓｅｒｖｉｃｅｃｏｍｐｕｔｉｎｇ，ｉｎｔｅｌｌｉｇｅｎｔ ｓｏｆｔｗａｒｅｅｎｇｉｎｅｅｒｉｎｇ．ＣＨＥＮＳｈｉ－Ｚｈａｎ，Ｐｈ．Ｄ．，ａｓｓｏｃｉａｔｅｐｒｏｆｅｓｓｏｒ．Ｈｉｓｒｅｓｅａｒｃｈ ｉｎｔｅｒｅｓｔｓ ｉｎｃｌｕｄｅ ｓｅｒｖｉｃｅ ｃｏｍｐｕｔｉｎｇａｎｄ ｔｈｅ ｓｅｒｖｉｃｅ－ＢａｃｋｇｒｏｕｎｄＴｈｅ ｒｅｓｅａｒｃｈｗｏｒｋｉｎｔｈｉｓ ｐａｐｅｒ ｉｓ ａｂｏｕｔ ｍｏｂｉｌｅ ａｐｐｍａｉｎｔｅｎａｎｃｅ ａｎｄｅｖｏｌｕｔｉｏｎ．Ｗｅｈａｖｅ ｐｒｏｐｏｓｅｄａｎｅｆｆｉｃｉｅｎｔａｕｔｏｍａｔｅｄ ｕｓｅｒ ｒｅｖｉｅｗｍｉｎｉｎｇａｎｄ ａｎａｌｙｓｉｓ ｍｅｔｈｏｄ， ｗｈｉｃｈ ｉｓｏｆ  ｇｒｅａｔｓｉｇｎｉｆｉｃａｎｃｅ ｆｏｒ ｄｅｖｅｌｏｐｅｒｓ ｔｏ ｍａｉｎｔａｉｎ ｔｈｅ ａｐｐ．Ｔｈｉｓｍｅｔｈｏｄ ｃａｎ ｅｆｆｅｃｔｉｖｅｌｙｍｉｎｉｎｇ ｔｈｅ ｒｅｖｉｅｗｓｓｕｂｍｉｔｔｅｄｂｙｔｈｅｕｓｅｒ ｉｎｔｈｅ ａｐｐｓｔｏｒｅ， ａｎｄ ｅｘｔｒａｃｔ ｔｈｅ ｕｓｅｆｕｌ ｉｎｆｏｒｍａｔｉｏｎ ｆｒｏｍｔｈｅｒｅｖｉｅｗｓｆｏｒｔｈｅｄｅｖｅｌｏｐｅｒ．Ｍｏｒｅｐｒａｃｔｉｃａｌ，ｔｈｅ ｍｅｔｈｏｄｃａｎ ｒｅｃｏｍｍｅｎｄｔｈｅｒｅｖｉｅｗｓｒｅｌａｔｅｄｔｏｔｈｅ ａｐｐｍａｉｎｔｅｎａｎｃｅａｎｄ ｖｅｒｓｉｏｎ  ｕｐｄａｔｅ ｔｈａｔ ｔｈｅ ｕｓｅｒ ｍｏｓｔ ｃｏｎｃｅｒｎｓ ａｎｄ ｈｏｐｅ ｔｈｅｄｅｖｅｌｏｐｅｒ  ｔｏｐａｙａｔｔｅｎｔｉｏｎ ｔｏ．Ｂｙｏｕｒ ｍｅｔｈｏｄ？ ｔｈｅ ｌａｂｏｒｃｏｓｔｏｆ ｍａｎｕａｌ ｒｅａｄｉｎｇｒｅｖｉｅｗｓ ｃａｎ ｂｅ ｇｒｅａｔｌｙｒｅｄｕｃｅｄ．Ｔｈｅ ｐｒｅｖｉｏｕｓｍｅｔｈｏｄ ｏｆ ｍｉｎｉｎｇｕｓｅｒｒｅｖｉｅｗｓ ｉｓｔｏ ｃｌａｓｓｉｆｙｕｓｅｒ ｒｅｖｉｅｗｓ ｉｎｔｏｄｉｆｆｅｒｅｎｔ ｃａｔｅｇｏｒｉｅｓ，ａｎｄ ｔｈｅｎ ｃｏｍｂｉｎｅ ｗｉｔｈｔｅｘｔ ａｎａｌｙｓｉｓ， ｎａｔｕｒａｌ ｌａｎｇｕａｇｅ ｐｒｏｃｅｓｓｉｎｇ ａｎｄ ｏｔｈｅｒｔｅｃｈｎｏｌｏｇｉｅｓｔｏｒｅａｌｉｚｅ ａｐｐｒｅｖｉｅｗｉｎｆｏｒｍａｔｉｏｎｍｉｎｉｎｇ．Ｈｏｗｅｖｅｒ， ｔｈｅｉｎｆｏｒｍａｔｉｏｎｍｉｎｉｎｇ ｆｒｏｍｔｈｅ ａｐｐｒｅｖｉｅｗｂｙｔｈｅｓｅ ｍｅｔｈｏｄｓｇｅｎｅｒａｌｌｙｃａｎ’ｔ ｂｅ ｄｉｒｅｃｔｌｙ ｆｏｒ  ｄｅｖｅｌｏｐｅｒｓ ｔｏｍａｋｅ  ａｃｔｉｏｎａｂｌｅｔｈｅ２０１２ ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ ｏｎ Ｗｅｂ Ｓｅａｒｃｈ ａｎｄ ＤａｔａＭｉｎｉｎｇ． Ｗａｓｈｉｎｇｔｏｎ， ＵＳＡ， ２０１２：６３３－６４２［３７］Ｔｈｅｌｗａｌｌ Ｍ， ＢｕｃｋｌｅｙＫ． ＰａｌｔｏｇｌｏｕＧ，ｅｔ ａｌ．Ｓｅｎｔｉｍｅｎｔｓｔｒｅｎｇｔｈ  ｄｅｔｅｃｔｉｏｎｉｎｓｈｏｒｔｉｎｆｏｒｍａｌ ｔｅｘｔ．Ｊｏｕｒｎａｌ ｏｆｔｈｅＡｍｅｒｉｃａｎ Ｓｏｃｉｅｔｙｆｏｒ  ＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅ ａｎｄ 丁ｅｃｈｎｏｌｏｇｙ．２０１０，  ６１（１２）： ２５４４－２５５８［３８］Ｔｈｅｌｗａｌｌ Ｍ，ＢｕｃｋｌｅｙＫ．ＰａｌｔｏｇｌｏｕＧ，ｅｔａｌ．Ｓｅｎｔｉｍｅｎｔｓｔｒｅｎｇｔｈ ｄｅｔｅｃｔｉｏｎ  ｆｏｒ ｔｈｅｓｏｃｉａｌ Ｗｅｂ．Ｊｏｕｒｎａｌ ｏｆ ｔｈｅ ＡｓｓｏｃｉａｔｉｏｎｆｏｒＩｎｆｏｒｍａｔｉｏｎ  Ｓｃｉｅｎｃｅ ａｎｄ Ｔｅｃｈｎｏｌｏｇｙ， ２０１２， ６３（１）： １６３－１７３［３９］Ｄｅｒ Ｍａａｔｅｎ Ｌ Ｖ， Ｈｉｎｔｏｎ Ｇ Ｅ． Ｖｉｓｕａｌｉｚｉｎｇ ｄａｔａ ｕｓｉｎｇ ｔ－ＳＮＥ．ＪｏｕｒｎａｌｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇ Ｒｅｓｅａｒｃｈ，２００８？９（２６０５）：２５７９－２６０５ｏｒｉｅｎｔｅｄ ａｒｃｈｉｔｅｃｔｕｒｅ．ＦＥＮＧＺｈｉ－Ｙｏｎｇ． Ｐｈ． Ｄ． ． ｐｒｏｆｅｓｓｏｒ． Ｈｉｓ ｒｅｓｅａｒｃｈ ｉｎｔｅｒｅｓｔｓｉｎｃｌｕｄｅ ｋｎｏｗｌｅｄｇｅｅｎｇｉｎｅｅｒｉｎｇ，ｓｅｒｖｉｃｅ ｃｏｍｐｕｔｉｎｇａｎｄｃｏｍｐｕｔｅｒ ｃｏｇｎｉｔｉｏｎ．ＬＩＵ Ｐｅｎｇ－Ｌｉ，Ｍ． Ｓ． ｃａｎｄｉｄａｔｅ．Ｈｉｓｍａｉｎ ｒｅｓｅａｒｃｈ ｉｎｔｅｒｅｓｔｓｉｎｃｌｕｄｅ ｓｅｒｖｉｃｅ ｃｏｍｐｕｔｉｎｇ， ｓｏｆｔｗａｒｅ ｅｎｇｉｎｅｅｒｉｎｇ．ＸＵＥ Ｘｉａｏ． Ｐｈ． Ｄ．，ｐｒｏｆｅｓｓｏｒ． Ｈｉｓ ｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｓｉｎｃｌｕｄｅ ｓｅｒｖｉｃｅｃｏｍｐｕｔｉｎｇａｎｄ ｃｏｍｐｕｔａｔｉｏｎａｌｅｘｐｅｒｉｍｅｎｔ．ｔａｓｋｓｆｏｒ ｓｕｂｓｅｑｕｅｎｔａｐｐｍａｉｎｔｅｎａｎｃｅ ａｎｄ ｅｖｏｌｕｔｉｏｎ． Ｍｏｒｅｏｖｅｒ，ｔｈｅｓｅ，ｍｅｔｈｏｄｓ ｒａｒｅｌｙ ｐｒｏｖｉｄｅ  ａｎ ｉｎｔｅｒａｃｔｉｖｅ ｔｏｏｌ ｆｏｒｄｅｖｅｌｏｐｅｒｓｔｏｅａｓｙｕｎｄｅｒｓｔａｎｄｔｈｅ ｕｓｅｒｓ’ｒｅａｌ ｉｎｔｅｎｔｉｏｎ．Ｗｅ  ｂｅｌｉｅｖｅ ｔｈａｔ ｏｕｒ ｒｅｓｅａｒｃｈ ｍｅｔｈｏｄｓ ｃａｎ ｉｍｐｒｏｖｅ ｔｈｅｅｆｆｉｃｉｅｎｃｙｏｆａｕｔｏｍａｔｅｄ ａｎａｌｙｓｉｓ ｏｆｕｓｅｒｒｅｖｉｅｗｓａｔ ｔｈｅｔｈｅｏｒｅｔｉｃａｌ ｌｅｖｅｌａｎｄｉｄｅｎｔｉｆｙｔｈｅ ｕｓｅｒｓ？ｒｅａｌｉｎｔｅｎｔｉｏｎｓ． Ａｔｔｈｅｐｒａｃｔｉｃａｌａｐｐｌｉｃａｔｉｏｎ ｌｅｖｅｌ，ｔｈｉｓｍｅｔｈｏｄｃａｎｐｒｏｖｉｄｅｄｅｖｅｌｏｐｅｒｓ ｗｉｔｈｄｉｒｅｃｔ ａｎｄ ｉｎｔｅｒａｃｔｉｖｅａｐｐｍａｉｎｔｅｎａｎｃｅ ｔａｓｋｓ，ｓｏ ａｓ ｔｏ ｃｏｎｔｉｎｕｏｕｓｌｙ ｍｅｅｔ ｔｈｅ ｕｓｅｒｓＪｒｅａｌ ｒｅｑｕｉｒｅｍｅｎｔｓａｎｄｉｍｐｒｏｖｅ ｕｓｅｒ ｓａｔｉｓｆａｃｔｉｏｎ．Ｔｈｉｓ ｗｏｒｋｉｓｓｕｐｐｏｒｔｅｄｂｙｔｈｅ ＮａｔｉｏｎａｌＫｅｙＲ＆－ＤＰｒｏｇｒａｍｏｆＣｈｉｎａ ｕｎｄｅｒＧｒａｎｔＮｏ． ２０１７ＹＦＢ１４０１２０１，ｔｈｅＮａｔｉｏｎａｌ  Ｎａｔｕｒａｌ ＳｃｉｅｎｃｅＦｏｕｎｄａｔｉｏｎｏｆ ＣｈｉｎａｕｎｄｅｒＧｒａｎｔＮｏ． ６１５７２３５０． ｔｈｅ Ｎａｔｉｏｎａｌ Ｎａｔｕｒａｌ Ｓｃｉｅｎｃｅ ＫｅｙＦｏｕｎｄａｔｉｏｎｏｆ  Ｃｈｉｎａ ｕｎｄｅｒＧｒａｎｔ Ｎｏ． ６１８３２０１４ ａｎｄ ｔｈｅ ＳｈｅｎｚｈｅｎＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ Ｆｏｕｎｄａｔｉｏｎ （ＪＣＹＪ２０１７０８１６０９３９４３１９７）．

[返回]

上一篇：一种用于图像检索的多层语义二值描述符_吴泽斌
下一篇：社区环境下基于节点交互和主题的影响力计算模型_王大刚