欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
MBA论文
当前位置:首页 > MBA论文
基于多分类器动态选择与成本敏感优化集成的电信客户流失预测研究
来源:一起赢论文网     日期:2014-02-19     浏览数:4155     【 字体:

基于多分类器动态选择与成本敏感优化集成的电信客户流失预测研究罗 彬1 邵培基1 夏国恩21.电子科技大学经济与管理学院2.广西财经学院工商管理系摘要针对不同样本在特征空间中具有不同的区域特性和不同分类算法之间的预测互补性在电信客户流失预测理论基础上融合多分类器动态集成理论和成本敏感学习理论建立了电信客户流失多分类器集成预测的利润函数并提出了一类新的基于多分类器动态选择与成本敏感优化集成的电信客户流失预测模型 首先使用K均值聚类法聚类训练样本成多个分区接着使用NaiveBayes算法多层感知机算法和J48算法在各分区样本上构建客户流失预测子分类器最后使用改进人工鱼群算法分别对各分区的子分类器进行成本敏感优化集成实验结果表明所提出的基于多分类器动态选择与成本敏感优化集成模型的分类性能不仅优于由训练集全体样本所构建的3个单模型也优于基于改进人工鱼群算法优化集成这3个单模型而得到的集成模型关键词客户流失预测多分类器动态选择成本敏感优化集成成本敏感学习人工鱼群算法中图分类号C93TP3 文献标识码A 文章编号1672-884X201209-1373-09AStud yonPredictionofTelecomCustomerChurnBasedonDynamicSelectionOptimizationandInte grationofCostSensitivit yLUOBin1 SHAOPei ji1 XIAGuoen21.UniversityofElectronicScienceandTechnologyofChinaChengduChina2.GuangxiUniversityofFinanceandEconomicsNanningChinaAbstractOnaccountthatthedifferentsampleshavethepredictioncomplementaritiesbetweendifferentsectioncharactersanddifferentclassificational gorithmsinfeaturespaceandbasedonthetheor yofTelecomcustomerchurnpredictionthispaperestablishedtheprofitsfunctionstopredictTelecomcustomerchurninte gratingmulti-classifiers andanewcustomerchurnpredictionmodelisputforwardinTelecombasedonthedynamicselectionandoptimizin ginte gratingofcostsensitivit y.Firstl ythetrainin gsetsamplesareclusteredintomultiplesubareasbyusingK-meansclusterin gal -gorithm.Thenthecustomerchurnpredictionsub-classifiersareestablishedbasedonthesamplesinthesubareasbyusingNaiveBayesAlgorithm MultilayerPerceptronandJ48Al gorithm res pectivel y.Finall ythesubareasub-classifiersareinte gratedandoptimizedbyuseoftheImprovedArtificialFish-schoolAlgorithmIAFSA.Theexperimentresultsshowthattheclassif yingperformanceofthemod-elbasedonthedynamicinte grationofmulti-classifiersandoptimizin ginte gratingofcostsensitivit ynotonl yexcelsthethreesin glemodelconstructedbasedonthewholesamples butalsoexcelsthemodelinte gratingofthethreesin glemodelbyIAFSA.Keywordscustomerchurnprediction dynamicselectionofmultipleclassifiers optimizin ginte-grationofcostsensitivit ycostsensitivit ylearnin gartificialfish-schoolal gorithm AFSA收稿日期2010-01-29基金项目国家自然科学基金资助项目70801021 中国博士后科学基金资助项目20080431276 教育部人文社会科学资助项目08JC6300193731第9卷第9期2012年9月管 报ChineseJournalofManagementVol.9No.9Sep.2012电信客户流失预测具有2个特点 成本敏感性 若将一个电信流失客户错误预测成非流失客户进而让客户挽留部门错失挽留机会而造成的损失远远大于把一个非流失客户错误预测成流失客户所造成挽留资源的浪费13由此这种成本敏感特点决定电信客户流失预测不适合使用基于预测精度的预测方法因为该方法只适用于不同类别的错误预测损失是相等的情况 非对称性 电信客户流失预测是属于类别严重不对称的分类问题即在样本数据中流失客户数量远远少于不流失客户数量13 这种数据特征意味着使用传统的基于类别对称假设的分类算法是难以提高稀有类别的预测精度的 针对上述情况通过文献分析得到对解决成本敏感性问题和类别不对称性问题最有效手段是使用成本敏感学习理论和模型集成理论目前基于成本敏感学习理论的客户流失预测已引起了学者的研究兴趣 如钱苏丽等1和蒋国瑞等2都使用了成本敏感学习理论来改进支持向量机算法提出的基于改进支持向量机的电信客户流失预测模型都获得了较好的预测性能XIE等3使用成本敏感学习理论改进了随机森林分类算法提出的基于改进随机森林算法的银行客户流失预测模型也获得较好效果 与此同时基于模型集成的客户流失预测研究也受到极大关注 如王纯麟等4针对单分类器模型不足提出一种基于AdaBoost组合分类器的电信客户流失预测模型并取得了较好结果 但该集成模型只采用了C4.5作为基分类器算法可能存在某些区域样本对该算法很敏感而导致训练次数增加和过拟合现象出现 鉴于此有学者提出充分利用样本的区域特性来构建区域分类器 如征荆等5提出将样本在特征空间聚类成不同区域选择距测试样本最近区域的最优分类器组作为最后判别的分类器组并取得较好效果 尽管这些研究都充分利用了样本区域特性建立了区域分类器但还没充分考虑不同分类算法的互补性以及各分类器集成的最优权重目前基于成本敏感学习理论的电信客户流失预测研究13和基于模型集成理论的电信客户流失预测研究4都已出现但还未见到同时含有这2类理论的研究文献 本文根据不同分类算法对不同区域样本具有不同适应性和不同分类算法之间存在一定互补性提出了一种新的基于多分类器动态选择与成本敏感优化集成的电信客户流失预测模型 实验结果表明所提出的客户流失预测方法和模型是可行且有效的1理论基础1.1电信客户流失预测理论KEAVENEY6定义的电信行业客户流失是指客户不再重复购买或终止原先使用的服务 电信客户流失之所以能够预测主要基于以下假设电信客户的消费行为和习惯在一定程度上影射在其历史消费记录中且在一定时期内保持相对稳定7 电信客户流失预测是个二分类问题可描述为C=c fXn fX1式中C为客户流失状态函数分为c流失和n不流失fX为客户流失预测模型输出客户流失概率X为客户特征属性集 为客户流失判断阈值1.2分类算法根据文献和数据分析本文将采用Naive-Bayes算法多层感知机算法和J48算法来构建区域子分类器 NaiveBayes算法是一种简单有效的分类算法具体算法见文献8 多层感知机算法是神经网络中的一种分类算法它在许多领域都得到应用具 献9J48算法是属于决策树分类算法之一它的分类效果较突出1.3分类器成本敏感学习理论目前分类器成本敏感学习理论是数据挖掘和机器学习中的前沿课题我国在该领域刚刚起步因而文献较少 该理论最早可以追溯到1984年BREIMAN等10 对分类回归树的研究随 后DOMINGOS11 于Bagg ing的MetaCost算法TING12 提出了代价敏感的决策树算法GAMA13 提出了基于朴素贝叶斯的代价敏感学习 目前分类器成本敏感学习理论多用于模式识别和故障诊断领域而在电信客户流失预测领域则非常稀少13 分类器成本敏感学习理论的实现主要有3种模式改变样本分布修改算法结构和修改预测结果 目前最常见模式是前2种第3种模式极为少见由于本文将采用多分类器动态集成模式因而只能选择第3种实现模式来构建预测模型1.4多分类器动态集成理论从HANSEN等14 于1990年开创性地提出了神经网络集成后很多研究人员对多分类4731管理学报第9卷第9期2012年9月器集成理论基础进行了探讨将其应用到实际问题域中并取得了很好的效果1516 多分类器集成方法有线性集成非线性集成和动态集成 前2种比 见动态集成研究却不多多分类器动态集成又可分为多分类器动态选择多分类器动态集成和多分类器动态选择与动态集成2基于多分类器动态选择与成本敏感优化集成的电信客户流失预测模型针对电信客户流失预测具有成本敏感性和非对称性特点因此需要采用基于成本敏感学习理论和多分类器动态集成理论来构建电信客户流失预测模型 在构建模型的过程中重点解决3个问题 如何实现多分类器的动态集成? 如何建立多分类器的成本敏感学习?如何求得多分类器的最优组合权重?2.1集成模型的基本原理本文将采取多分类器动态选择与优化集成的思想来建立客户流失预测集成模型见图1图1基于多分类器动态选择和成本敏感优化集成的客户流失预测模型(1)集成模型训练过程的基本原理 将原始数据进行预处理后使用K均值聚类算法将训练集的样本在特征空间中聚类成个不同的分区在相同分区内的样本具有最大的相似性而相异分区间的样本具有最大的相异性 基于每个分区中的样本分别使用差异很大的Na-iveBa yes算法NB 多层感知机算法MP和J48算法J48构建隶属于各个分区的客户流失预测子分类器 构建以每个分区中多分类器线性组合预测利润函数为优化目标的优化决策问题并使用改进人工鱼群算法IAFSA分别求解每个分区中的优化决策问题以此求得多分类器的线性组合最优权重系数(2)该集成模型测试过程的基本原理经过数据预处理的测试样本通过由K均值聚类法训练的分类器判断出样本的归属区域使用该区域的NB子分类器MP子分类器和J48子分类器对测试样本进行分别预测使用IAFSA优化得到的线性组合最优权重系数将各子分类器的预测结果进行集成得到测试样本的最后预测结果根据集成模型训练过程和测试过程分析得到 通过由K均值聚类算法训练的分类器对样本归属进行分类识别这样就解决了样本动态选择各分区归属问题实现了多分类器的动态选择 这种模式充分利用了各分区的样本区域特性进而使各分区分类器具有更好的分类性能 使用基于错误预测成本的成本敏感学习利润函数作为集成模型构建函数和评价标准从而使构建的客户流失预测集成模型具有更好的预测效果和更强的适应性 当各分区多分类器的线性组合权重经由IAFSA优化后则实现了多分类器的优化集成这样就充分利用了不同分类算法的互补性使集成模型的预测性得到进一步提高2.2多分类器动态选择在集成模型中实现多分类器动态选择的关键是使用了K均值聚类算法17 它将客户样本在特征空间中聚类成不同的区域并在不同区域中建立了多个不同分类器 因此若某客户样本落入不同区域就可以使用对应区域分类器进行客户流失预测从而实现多分类器动态选择 基于K均值聚类算法17 的多分类器动态选择算法如下步骤1输入预处理后的客户数据步骤2使用K均值聚类建立数据分区域模型步骤2.1选择K=m值以确定簇总数步骤2.2在训练数据集中任意选择K=m个样本实例把它们作为初始的簇中心步骤2.3使用简单的欧氏距离将剩余样本实例赋给距离它们最近的簇中心步骤2.4使用每个簇中的样本实例来计算每个簇的新平均值步骤2.5如果新平均值等于上次迭代过程中的平均值终止该过程否则使用新平均值作为簇中心重复步骤2.3 步骤2.5步骤3测试样本通过基于K均值聚类的5731基于多分类器动态选择与成本敏感优化集成的电信客户流失预测研究 邵培基 夏国恩分区分类模型后就分别进入各自的所属区域并选择对应区域的子分类器进行预测2.3多分类器成本敏感优化集成当电信客户样本实现了多分类器动态选择之后就可以将各区域分类器的预测结果进行成本敏感优化集成 电信客户实际状态的数学描述如下Sacti=c pactj=1u pacti=02式中Sacti为第i个客户的实际流失状态pacti为第i个客户的实际流失概率 当Sacti=c时则该客户的实际流失概率为1否则为0当使用多分类器集成模式对电信客户进行预测其未来的流失状态时其预测的数学描述如下Sprei=c yiu yi3式中Sprei为第i个客户的预测状态yi为集成模型对第i个客户的组合预测值 为预测判断阈值 若集成模型预测出客户流失概率大于或等于阈值则该客户将流失否则该客户不流失多分类器线性集成模型为yi=Kk=1wkyik 4式中yik为第k个子分类器对第i个客户的预测值k=12 Kwk为集成模型中第k个子分类器的组合权重系数共K个子分类器由此根据客户实际状况和客户流失集成预测结果将产生分类错差矩阵见图2图2客户流失预测模型的错差矩阵在电信客户流失管理实践中在图2中的4种预测收益是不相等的通常有如下关系1正确预测收益均为正C11 0C00 0C11 C00 即把一个实际流失客户正确预测为流失所获得的收益远远大于把一个实际不流失客户正确预测为不流失所获得的收益2错误预测收益均为负C10 0C01 0C10 C01 即把一个实际流失客户错误预测为不流失客户造成的损失远远大于把一个实际不流失客户错误预测为流失客户而浪费的营销费用根据上面的分析可以建立基于多分类器集成的电信客户流失预测利润函数maxJ=N11C11+N00C00+N10C10+N01C01 5式中N11C11+N00C00 是正确预测而得到挽留机会的潜在收益N10C10+N01C01 是错误预测而失去挽留机会的潜在损失C11 C10 C00 C01是通过行业领域专家调查获得N11 N10 N00 N01是通过训练模型的分类错差矩阵见 图2获得本文的多分类器集成是按照式5进行成本敏感学习的 此模型不仅考虑模型的正确预测收益还考虑了错误预测损失从而该模型在电信客户流失管理应用实践中较基于预测精度的方法更具有科学性和现实意义2.4基于人工鱼群算法的集成模型权重系数求解在线性集成中如何寻找一组优化的组合权重系数是模型集成取得成功的关键 国内外学者在解决组合权重系数最优问题时将更多的目光放在一些新的智能优化算法上面而人工鱼群算法AFSA就是智能优化算法中较为年轻的一种它是我国学者李晓磊等18 于2002年提出的一种群集智能随机优化算法是模拟鱼群的觅食聚群和追尾等行为从构造单条鱼的行为做起通过鱼群中各个体的局部寻优达到全局最优的目的 该算法具有全局搜索快速收敛等优点因此本文将首次引进人工鱼群算法来解决电信客户流失预测集成模型的组合权重系数的优化决策问题AFSA的相关定义和行为描述1819(1)相关定义 人工鱼个体的状态可表示为向量 =x1x2 xn xi为寻优变量人工鱼在当前位置的食物浓度为F=f 人工鱼个体之间的距离dij= i-j V为人工鱼的感知距离e为人工鱼的移动步长 为人工鱼拥挤度因子(2)人工鱼的行为描述 觅食行为聚群行为和追尾行为i觅食行为 当人工鱼的状态为i 在可见域dij V随机选择一个状态j 果i 则向该方向前进一步反之则随机重新选择状态判断是否满足条件如此反复几次后仍不满足条件则随机前进一步 其数学描述如下xinextk=xik +Rexjk-xikj-iFj Fixinextk=xik +Re Fj Fi6式中i=12 nRe为0e间的随机数6731管理学报第9卷第9期2012年9月xik xjk和xinextk分别为状态向量i j和 inextk的第k个元素ii聚群行为 人工鱼的当前状态为i在可见域内的伙伴数目为n形成集合Ki 且Ki= j| j-i 7若Ki 则表示可见域内存在其他伙伴则按下式探索伙伴的中心位置XcXck =1nnj=1Xjk 8式中Xck表示中心位置向量c的第k个元素Xjk表示第j个伙伴j的第k个元素 计算该中心位置食物浓度Fi 如果满足eAq FiFi Aq 9表明伙伴中心食物浓度较高且不拥挤则执行下式否则执行觅食行为xinextk=xik +Rexck -xikc-i10若Ki= 则表示可见域内不存在其他伙伴则执行觅食行为iii追尾行为 人工鱼的当前状态为i在可见域内所有伙伴中最大的伙伴 max 满足Fmax=Fi 11表明伙伴 max的食物浓度高且不拥挤则执行下式否则执行觅食行为xinextk=xik +Rexmaxk-xikXmaxk-Xi12式中Xmaxk表示状态向量 max的第k个元素若人工鱼在当前可见域内无其他伙伴则执行觅食行为(3)公告板 算法中设置一个公告板用以记录人工鱼个体的最优状态和该位置的食物浓度 每条人工鱼执行一次操作后将自身状态与公告板进行比较若优于公告板则用自身状态取代公告板状态基本人工鱼群算法在解决实际问题时还有一些不足如人工鱼步长e与视野V对算法的收敛速度和收敛精度影响很大 若设置不当则会陷入局部极值或者达不到精度19 针对以上不足本文利用文献提出的改进人工鱼群算法如下(1)变尺度步长[19] 人工鱼可以根据当前的环境恶劣程度调整移动的步长 变步长einext =Fmax-FiFmax-Fmine 13式中Fi为当前食物浓度Fmax为在视野内的最大食物浓度Fmin为在视野内最小食物浓度步长e的每次迭代都从环境中充分获得了有用信息 食物浓度并利用其对自身进行改进在迭代初期迭代速度很快但随迭代的进行步长会逐渐减小有利于前期加快搜索进度且后期提高局部搜索精度(2)自适应视野[19] 人工鱼群的视野也随迭代过程进行自适应改变这有利于人工鱼群的寻优 自适应计算公式如下Vinext =Vmax-Vmax-Vminimaxk 14式中Vmax Vmin分别为视野的最大值和最小值imax为最大迭代次数k为当前迭代次数在寻优初期每条人工鱼在较大的视野内游动扩展了算法的搜索范围后来逐渐减小使鱼能在缩小的视野内进行更细致的寻优(3)改进觅食行为[19] 随机移动若干次如果有改善则向更好的方向游去按照概率P向全局最优值移动一步否则按照概率1-P随机选择下一个状态其计算式为xinextk=xik +Rexjk-xikj-i按概率Pxinextk=xik +Re 按概率1-P15这3个改进策略都是对寻优过程进行优化其中前面2个策略都是在接近最优解时调节寻优的速度和步伐避免在函数奇异值的地方寻优失败最后一个改进策略是为了避免陷入局部最优区域而错失全局最优解 经过这3种改进策略的处理能加快寻优速度提高全局寻优精度改进人工鱼群算法在解决式5型问题时需要将约束优化问题转化为非约束优化问题此外由于改进人工鱼群算法是求最大值问题因此基于多分类器动态选择多区域后的成本敏感集成模型的组合权重系数优化问题可更新为maxJ′i=Ji-A1-3k=1wki216s.t.1 wki 0k=123i=12 m式中J′i为区域i的优化目标函数Ji为区域i的预测模型的预测利润wki为区域i内预测模型k的组合权重系数i为区域序号A为等式约束条件的惩罚因子一般是一个较 数当等式约束条件满足时式中的最后部分就为0否则就是一个较大的数这样就能够实现式5型优化问题的解决使用前面介绍的改进人工鱼群算法求解式16的优化问题时得到集成模型的最优组合权重系数wki 后再将wki 代入式4即可得到客户流失预测集成模型对第i个客户流失概率7731基于多分类器动态选择与成本敏感优化集成的电信客户流失预测研究 邵培基 夏国恩的组合预测值最后将yi 代入式3求出集成模型对第i个客户流失状态的判断2.5集成模型的评价本文模型评价标准的计算式为O=N11C11+N00C00+N10C10+N01C01 17式中各参数的说明见式53实证分析3.1实验数据限于和合作公司的保密协议约束本文涉及的实验数据不宜作更详细说明 实验所用原始数据为某电信企业某年17月的20000个语音客户数据这些客户不仅在网时长都超过1年时间且6月份都在网但有部分客户7月份处于离网状态 经过行业领域专家参与数据属性选择最后得到的客户数据包括132个原始数据属性主要由客户注册登记数据客户通话行为数据客户缴费行为数据客户费用结构数据客户服务投诉数据等组成 首先对原始数据进行清洗处理接着对样本中的连续属性值使用基于SOM神经网络进行非监督式的离散化处理然后使用粗糙集属性约简法对离散属性进行约简最后获得一个含8个属性的最小约简属性集用于实证分析 中将16月的客户数据作为输入指标7月的客户状态作为输出指标进行建模而测试数据也是从该数据集中提取的但不重复 各数据集结构见表1表1各数据集结构数据集名称 客户类型 数量 比例%原始数据集流失客户非流失客户626193743.1396.87训练集DTrain流失客户非流失客户22567723.2296.78测试集DTest流失客户非流失客户8929372.9497.063.2实验结果为了验证本文所提出的基于多分类器动态选择与成本敏感优化集成的电信客户流失预测模型的有效性根据图1的模型原理设计如下实验实验1基于K均值的特征空间聚类实验该实验主要是依据样本特征空间的聚类分布区域的不同首先采用K均值聚类算法在训练集DTrain上进行聚类分析获得一个基于样本特征空间K均值聚类的用于样本区域识别判断的分类器以及K个互不相同的训练集D1TrainD2Train D3Train 再使用该分类器对测试集DTest进行分类测试从而将测试样本分成K个互不相同的测试数据集D1Test D2Test D3Test 这就为后续动态选择不同区域的多分类器实验做了前提准备该实验结果见表2表2基于K均值的特征空间聚类实验数据集区域1训练集D1Train测试集D1Test区域2训练集D2Train测试集D2Test区域3训练集D3Train测试集D3Test样本数量 2987 1318 1042 440 2968 1268非流失客户数2970 1317 1003 432 2799 1188流失客户数 17 39 169 80注 该实验是在数据挖掘软件Clementine12.0的环境下实现的 表中数据集关系为DTrain=D1Train+D2Train+D3TrainDTest=D1Test+D2Test+D3Test实验2基于人工鱼群优化集成模型对比实验 该实验分别使用NaiveBayes分类算法多层感知机分类算法和J48分类算法在训练集DTrain上训练3个子分类器NB子分类器MP子分类器J48子分类器 并使用改进人工鱼群算法对3个子分类器的输出结果进行优化集成该实验结果见表3表3基于人工鱼群优化集成模型对比实验模型类型 数据集 模型名称训练集预测利润测试集预测利润子分类器模型 DTrain NB模型 151190 63890DTrain MP模型 152440 66490DTrain J48模型 143190 63940集成模型 3个子模型的集成结果基于改进人工鱼群算法优化集成模型158490 67240注基于人工鱼群优化集成模型的组合权重系数为NB模型 为0.5345MP模型为0.3483J48模型为0.1721实验3基于分类器动态选择与人工鱼群算法优化集成模型对比实验该实验是在实验1的 上在每个不同分区的训练数据集D1Train D2Train D3Train 上分别使用NB分类算法MP分类算法和J48分类算法构建基于每个分区的子分类器D1NB子分类器D1MP子分类器D1J48子分类器D2NB子分类器D2MP子分类器D2J48子分类器D3NB子分类器D3MP子分类器D3J48子分类器 然后采用改进人工鱼群算法分别优化集成每个分区的子分类器的预测结果并得到每个分区的集成模型和子分类器集成的最优组合权重接着使用每个分区的测试集去测试基于各分区的集成模型这样通过动态选择不同分区的分类器进行预测并结合改进人工鱼群算法优化集成分区子分类器的预测结果最后整理得到测试集DTest的预测结果该实验结果见表48731管理学报第9卷第9期2012年9月表4基于分类器动态选择与人工鱼群算法优化集成模型对比实验模型类型数据集集成模型的组合权重系数NB模型MP模型J48模型训练集预测利润测试集预测利润分区域优化集成模型区域1 0.00740.69460.2980 62200 29440区域2 0.51560.48440.0000 22660 8290区域3 0.69400.27510.0309 76180 32210动态集成模型3个区域综合结果基于K均值和改进人工鱼群算法动态集成模型161040 69940注3个区域综合预测结果中的训练集预测利润和测试集预测利润都是由3个区域的预测利润求和得到在3个实验中实验参数设置如下1在K均值聚类算法中m=3客户流失预测模型的判断阈值=0.5客户流失预测模型错差矩阵中的4个 为C11 =200C10 -100C01 =-30C00 =20等式约束条件的惩罚因子A=1010值得说明的是在K均值聚类算法中最先设定m=4但实验后却发现其中一个分区的流失客户数极为稀少以至于不能进行后续的实验因此就放弃m=4接下来设置m=2但实验发现由于聚类类别很少也不能很好地区别样本因此就放弃m=2最后设置m=3实验结果良好因此最后取m=3一般来说m的大小一定是与样本数量有关的m的不同取值在一定程度上将会影响到预测结果若m值越大则样本的区域特征表现得就越充分但是太大后则会出现区域分类器的泛化能力降低本文是采用实验方法确定取值的2在改进人工鱼群算法中变 为3人工鱼的感知距离视野V=1.0最大感知距离视 野Vmax =1.0最 离视野Vmax=0.3人工鱼的初始移动步长e=0.2鱼群规模为100可见域内的人工鱼群的伙伴数目为30食物浓度连续无改进的最大迭代次数为50改进人工鱼群算法的最大迭代次数为5003.3实验分析3.3.1 基于K均值的特征空间聚类实验从表2的实验结果可以作如下分析(1)样本在3个特征聚类区域的分布有差异 从训练数据在3个特征聚类区域的分布来看在区域1和区域3的分布几乎相当但在区域2则少很多从测试数据来看在区域1和区域3的分布也大致相当在区域2也少很多因此区域1和区域3是样本比较密集的区域而区域2则较为稀疏(2)流失客户比率在3个特征聚类区域的分布有差异 在聚类区域1的训练集和测试集的流失客户比率分别为0.57%和0.08%两者比值为7.13在聚类区域2的训练集和测试集的流失客户比率分别为3.74%和1.82%两者比值为2.05在聚类区域3的训练集和测试集的流失客户比率分别为5.69%和6.31%两者比值为0.90 由此可得如下结论 训练集和测试集的流失客户比率由低到高的排列顺序是区域1区域2区域3 各区域训练集和测试集中客户流失比率的比值由大到小的排列顺序是区域1区域2区域3综合上面的分析可以得到如下结论 聚类区域1的样本分布密集尽管在其区域上训练集和测试集的客户流失比率较小但是在其区域上训练集和测试集的客户流失比率的比值却较大 聚类区域2的样本分布稀疏在其区域上训练集和测试集的客户流失比率居中但是在其区域上训练集和测试集的客户流失比率的比值也居中 聚类区域3的样本分布密集尽管在其区域上训练集和测试集的客户流失比率较高但是在其区域上训练集和测试集的客户流失比率的比值却较小3.3.2 基于人工鱼群优化集成模型对比实验(1)3个子分类器模型之间的对比分析在表3的3个子分类器模型中使用MP分类算法训练所得到的子分类器模型在训练集上获得的预测利润152440和在试集上所获得的预测利润66490都是最大的 因此MP模型是最优秀的模型 然而尽管使用J48所获得的模型在训练集中获得的预测利润143190低于NB模型所获得预测利润151190 但是它在测试集上所获得的预测利润63940却高于NB模型所获得预测利润63890 因此实验结果表明使用NB分类算法构建分类模型更容易产生过拟合现象因而其泛化能力较低综合实验结果和上面分析可以得到即使基于相同数据由不同分类算法构建的分类器模型的预测能力也是有差异的(2)子分类器模型和集成模型的对比分析 从表3可得出由改进人工鱼群算法集成由不同分类算法在相同数据集上构建的分类器模型而得到的集成模型比任何一个子分类器模型的预测效果都好 如集成模型比最好的子分类器模型MP模型在训练集和测试集上的预测利润分别高出3.82%和1.12% 实验结果表明基于改进人工鱼群算法能有效提高集成模型的预测能力9731基于多分类器动态选择与成本敏感优化集成的电信客户流失预测研究 邵培基 夏国恩3.3.3 基于人工鱼群动态优化集成模型对比实验(1)3个区域预测利润对比分析 将表4中3个分区中的预测利润与对应区域的样本数相除得到的比率预测利润样本数分别为训练集区域1为20.8236区域2为21.7466区域3为25.6671测试集区域1为22.3369区域2为18.8409区域3为25.4022因此在3个区域中测试样本的预测利润由大到小的顺序为区域3区域1区域2这与实验1中得到的结论区域1和区域3是样本比较密集的区域而区域2则较为稀疏有一定的内在关联关系即稀疏区域的样本预测较为困难密集区域的样本预测相对容易(2)动态集成模型与其它模型的对比分析比较表3和表4可以得到 在实验3中基于K均值聚类的多分类器动态选择与改进人工鱼群算法的动态集成模型比实验2中基于改进人工鱼群算法优化3个子分类器的集成模型的分类性能要好如实验3中动态集成模型在训练集上的预测利润和测试集上的预测利润比实验2中优化集成模型分别高出1.58%和3.86% 在实验3中的动态集成模型比实验2中最好的单模型在训练集上的预测利润和测试集上的预测利润分别高出5.34%和4.93%实验结果说明基于相同数据所建立的基于K均值聚类的多分类器动态选择与改进人工鱼群算法的动态集成模型不仅比任何单模型都有较为明显的分类优势而且比传统意义上的多分类器优化集成模型也有较好的分类优势在实证中通过改变式6的4个参数取值来测试参数的敏感性 限于篇幅略去该过程实验结果表明这4个参数对于集成模型具有重要意义它不仅是构成集成模型优化函数的重要参数而且直接影响到最后集成模型的实证结果 但有2个问题值得注意 这4个参数的取值一般是请业内专家估计获得 这4个参数在同一电信企业变化不大而不同企业则一般是不同的此外本研究还对集成模型与常见的神经网络分类模型做了对比实验最后实验结果表明 集成模型的预测结果比神经网络的单一模型有更好的稳定性和更高的预测准确性 这是因为集成模型充分利用了样本的区域特性以及不同分类算法之间的分类互补性而神经网络模型训练是寻找一个满足样本特征整体空间的模型因此神经网络模型的泛化能力和预测稳定性要差一些 集成模型的训练时间远远小于训练一个预测精度较高的神经网络单一模型尤其是当训练样本的数量较大时就尤为明显综上所述本文提出基于K均值聚类的多分类器动态选择与改进人工鱼群算法的成本敏感优化集成方法和模型对于解决电信客户流失预测问题是有效且可行的这为我国电信客户流失预测研究和客户挽留管理实践提供了一种新的思路和方法4结语本文针对电信客户流失问题的复杂性提出了采用多分类器动态选择与成本敏感优化集成方法来代替传统意义上的单模型方法以及基于预测精度的预测方法来解决电信客户流失预测问题本文实验结果证明 基于多分类器动态选择与成本敏感优化集成的电信客户流失预测模型比任何单模型和单纯基于改进人工鱼群算法优化的集成模型在分类性能上都有明显的优势这也说明本文所提出的多分类器动态选择与成本敏感集成方法对于解决电信客户流失预测问题是有效且可行的 基于改进人工鱼群优化算法对解决电信客户流失预测多分类器优化集成问题具有一定优势本文提出的思路方法和模型虽然是基于电信客户流失预测的但稍加改进后即可方便地应用于其他领域 今后在此基础上有必要将其他分类算法和最新智能优化算法融入到电信客户流失预测的动态集成模型研究中参 献1钱苏丽何建敏王纯麟.基于改进支持向量机的电信客户流失预测模型J.管理科学200720154 58.2蒋国瑞司学峰.基于代价敏感SVM的电信客户流失预测 究J.计 究2009 262521 523.3XIEYYLIXNGAIEWTetal.CustomerChurnPredictionUsingImprovedBalancedRandomForestsJ.ExpertSystemswithApplications20093635445 5449.4王纯麟何建敏.基于AdaBoost的电信客户流失预测模型J.价值工程20072106 109.5征荆丁晓青吴佑寿.基于最小代价的多分类器动态集成J.计算机学报1999222182 187.6KEAVENEYSM.CustomerSwitchingBehaviorin0831管理学报第9卷第9期2012年9月ServiceIndustries AnExplorator yStudyJ.JournalofMarketing199559271 82.7MOZERMCWOLNIEWICZR.PredictingSubscriberDissatisfactionandImprovin gRetentionintheWirelessTelecommunicationsIndustr yJ. NeuralNetworksIEEETransactions 2000113690 696.8刘丽珍宋瀚涛陆玉昌.基于NaiveBayes的CLIF-NB文本分 法J.小 统20052691575 1577.9关健刘大昕.一种基于多层感知机的无监督异常检测方法J.哈 报2004 254495 498.10BREIMANLFRIEDMANJH OLSENRAetal.ClassificationandRegressionTreesM.Bel-montWad-sworthInternationalGroup1984.11 DOMINGOSP.MetaCostAGeneralMethodforMakingClassifiersCost-SensitiveC Proceedingsofthe5thACMSIGKDDInternationalConferenceonKnowledgeDiscover yandDataMining.SanDie-goCA1999155 164.12 TINGKM.AnInstanceWeightingMethodtoIn-duceCost-SensitiveTreesJ.IEEETransactionsonKnowledgeandDataEngineerin g2002 143659 665.13 GAMAJ.ACost-sensitiveIterativeBayesC DI-ETTERICHTMARGINEANTUDPROVOSTFetal.Worksho ponCostSensitiveLearningIC-ML2000.CaliforniaStandfordUniversityPress2000.14 HANSENLKSALAMONP. NeuralNetworkEnaemblesJ.IEEETransactionsonPatternA-nal ysisandMachineIntelli gence19901210 9931001.15 孙灏杜培军赵卫常等.基于多分类器组合的高分辨率遥感影像目标识别J.地理与地理信息科学200925 132 35.16 张石清赵知劲.基于多分类器投票组合的语音情感识 别J.微电子学与计算机2008 251217 20.17 ROIGERRJGEATZMW.数据挖掘教程M.翁敬农译.北京清华大学出版社2003.18 李晓磊邵之江钱积新.一种基于动物自治体的寻优模式鱼群算法J.系统工程理论与实践20022211 32 38.19 曹承志张坤郑 等.基于人工鱼群算法的BP神经网络速度辨识器J.系统仿真学报20092141047 1050.编辑 刘继宁通讯作者罗彬1974 男四川渠县人 电子科技大学经济与管理学院成都市610054博士研究生 研究方向为商务智能研究E-mailLuobin10000163.com2012中国工程管理论坛征文通知中国工程院主办的中国工程管理论坛旨在推动我国工程管理理论建设研究与提高工程管理实践水平探讨我国工程管理现状和发展的关键问题已成功举办了五届随着我国社会经济协调发展战略的不断深化以及金融危机对全球经济的深刻影响加快转变经济发展方式正面临着前所未有的机遇和挑战为此中国工程院拟于2012年9月在合肥举办第六届中国工程管理论坛主题为加快转变经济发展方式与工程管理 论坛诚邀学术界产业界及社会各界的专家学者参加围绕经济发展方式转变相关工程管理问题以及中国工程管理理论体系等开展跨学科跨行业跨地区的学术研讨为实现我国经济协调发展做出新的贡献现将论坛有关事项通知如下论坛主要议题 经济发展方式与工程管理 中国工程管理理论体系 战略性新兴产业发展与工程管理 节能降耗工程管理 各行业工程管理 工程管理专业学位建设主办单位中国工程院 安徽省人民政府承办单位中国工程院工程管理学部 安徽省科技厅 中南大学 合肥工业大学论坛时间和地点时间2012年9月21日报到2012年9月22 23日 地点合肥市稻香楼宾馆论坛联系人联系人 王青娥 电话0731-2655065 传真0731-2655065 E-mailcemf2012 vi p.163.com联系人 刘业政 电话0551-2904991 传真0551-2904991 E-mailcemf2012 126.com联系人 于泽华 常军乾 电话010-59300345 010-59300280 传真010-59300243Emailyzh cae.cncjq cae.cn1831基于多分类器动态选择与成本敏感优化集成的电信客户流失预测研究 邵培基 夏国恩

[返回]
上一篇:MBA毕业论文的写法
下一篇:供应链协调中的消费者策略行为与价格保障研究