大数据背景下江苏有线电视收视率预测 - 计算机论文 - 一起赢论文辅导网--专业代写代发SCI、EI、核心期刊、代写MBA、硕博毕业论文。QQ910330594

欢迎访问一起赢论文辅导网

加入收藏 | 设为主页 | 联系我们

本站动态

联系我们

QQ：3949358033

微信：paperwinner

工作时间：9:00-24:00

成功案例

计算机论文

当前位置：首页 > 计算机论文

大数据背景下江苏有线电视收视率预测

来源：一起赢论文网日期：2015-08-16 浏览数：3699 【字体：大中小】

内容提要收视率是广播电视行业的重要指标，近几年由于部分样本受人为因素影响导致电视收视率出现较大偏差而受到广泛的质疑，引起了很大的反响。本文以江苏某地区有线电视互动双向机顶盒所提供的全部客户收视数据为基础，运用ETL数据挖掘技术产生了全样本电视收视率数据，选取了其中若干个具有代表性的时间点数据，应用时间序列分析中的ARIMA模型对所得样本数据进行分析，产生了各个时间点的ARIMA模型，进而借助所得到的系列模型对短期电视收视率进行了预测。

关键词全样本数据电视收视率 ETL工具 ARIMA模型

一、引言

收视率是电视频道价值的重要衡量标准之一。自2009年AC尼尔森退出中国市场以后，目前在全国范围内最具有影响力的电视收视率调查是由央视-索福瑞公司（CSM）开展的调查，是基于统计学原理，按照大数法则进行严格抽样后进行的，其数据的采集采用的是日记卡法或者测量仪法。从统计学意义上来说这种方法科学合理，完全能够满足电视收视率调查的需要，但是在实际应用中存在着较大的问题。2010年六月至七月间人民日报连续发布3篇文章，指出国内电视收视率调查由于人为因素导致调查样本出现了严重污染，造成电视收视率调查的数据严重失真的报道以后，更是引发了全社会的广泛关注和业界的深刻反思。一个千万级人口的大城市样本户为500户左右，少数样本户被收买就足以改变整个收视率的数据，进而导致所产生的收视率数据严重失真。国家标准管理委员会颁布的首个电视收视率调查国家标准于2014年7月1日正式开始实施。标准要求数据提供方必须对样本户资料严格保密，防止样本户受到第三方的影响。这虽然是电视收视率调查的一种进步，但并没有从根本上解决样本户过少带来的问题，更何况能够在多大程度上得到严格执行本身就是一个问题。通过有线电视互动双向机顶盒收集的全样本数据为电视收视率调查提供了一条新的思路，可以克服抽样调查带来的数据失真的弊病，而在此基础上所进行的电视收视率预测才能更加客观和有效。样本获取方法的改进以及预测方法的完善，将有助于广播电视行业在新媒体的冲击下跟上社会发展的步伐，顺势而为，调整自身的经营策略，更好地服务社会发展自己。

二、相关研究综述

毋庸置疑，电视收视率是市场经济发展到一定阶段的产物，是电视行业最重要的指标之一，是电视广告客户最为依赖的指标，也是电视台和电视节目制作者了解观众的主要窗口。而关于电视收视率的预测对于广播电视企业决策和广告用户而言具有十分重要的意义。关于电视收视率的分析，日益受到业界的广泛关注。姚芳、李越、肖春来（2011）根据抽样数据采用时间序列模型对30家电视日收视率进行了分析，分别采用ARIMA模型和乘积季度模型进行了预测，取得了一定的效果。付强（2013）认为通过云计算和大数据技术对于用户收视行为的分析，可以有针对性的向用户推荐关联的节目，智能投放广告，也可以将需要推广的电视频道通过推送广告的方式发到用户终端等。黄文森（2014）认为 “大数据” 弥补了传统收视率调查采用随机样本的缺陷，实现了对全部受众收视行为的测量，为分析受众的收视行为提供了渠道，确保了收视调查数据的安全性和稳定性。尹培培、周文粲（2014）认为基于双向网络、海量样本回路技术的收视调查是发展方向。因为这种调查方式收视结果精准，会快速发展成为将来的主流技术。同时应将电视收视与新媒体收视结合起来实现跨屏收视调查，结合大数据技术，实现基于多屏、跨屏、多维度的大数据收视监测网络。邬建中（2013）认为大数据时代电视产业应定位为家庭数据信息港，可以提高家庭数据的处理效率，成为家庭数据处理交互集成平台，顺应了 “物联网” 发展的需要，为家庭决策提供帮助，成为家庭与数据源之间的集成处理平台与桥梁。刘辉、杜秀华（2009）运用平均收视率数据采用ARMA模型对电视收视率进行了预测。综上所述，以前电视收视率数据分析主要是依据统计调查方法得到的。大数据背景下，通过新技术的推广应用使得原先的单向交流变成双向交流。本文采用的数据是通过互动双向机顶盒收取用户全面有效的收视信息，通过专业的数据分析，进而获得准确的全样本电视收视率数据，采用时间序列分析中的单整自回归移动平均结合模型(ARIMA)对所获得的全样本电视收视率数据进行了分析，进而借助所得到的系列模型对短期电视收视率进行了预测。

三、 ETL工具

在电视收视率数据获取中的应用所谓ETL工具就是进行数据的抽取、转换和加载，包括数据提取、数据转换、数据清洗和数据加载。

1. 收视率分析中的ETL模型。通过数字有线电视接收机的互动双向机顶盒收取客户的收视行为，将得到的基础数据信息进行加工、分类及整理，构建客户收视行为数据仓库，获得比以往更为准确的收视指标的过程。在数据仓库的构建过程中，需要明确ETL的数据维度、数据粒度、常用分析指标和数据的映射过程。（1）确定数据维度。机顶盒将用户操作信息获取并回传，有效数据包括多个维度，其中最主要的为：（1）时间，精确到秒，可以随意选取所需时段；（2）空间，按用户所在地区进行分析；（3）频道，按照收视频道进行整体分析，并可进一步细分到每天的栏目；（4）用户，识别用户标记喜爱频道，进行用户属性分析。（2）确定数据粒度。原始数据以用户每操作为单位记录，时间精确到秒，数据增长量大。因而，根据通用的方法，将原始数据表粒度设置为每天。原始数据转换表示由原始数据变化而来，也以一天数据量为一个粒度。原始数据转换表的空间维度，即数据来源位置，参考现行江苏行政区域划分。对于原始数据转换表的基本分析结果，区别于传统收视率的15分钟间隔，以每分钟情况作为分析间隔，更加准确。在各地区每天的数据分析结果的基础上，可以进一步挖掘更深层的数据情况。（3）明确分析指标。收视行为分析中，最重要的三项指标是收视率、市场份额和开机率。南京中数媒介研究公司数据依托江苏各地市互动双向机顶盒采集到的数据样本，可以对不同时段、不同地区的任一组合做出准确的分析。由于采用互动双向机顶盒采集的用户信息，可以更准确的统计用户收视行为。指标计算公式区别于传统粗粒度数据样本，采用粒度更细单位更精的数据，以得到更准确的收视率。节目依托于频道，因此，某节目收视率可以推广为某频道某时段的收视率，根据选择时段的不同发生相应变化。由于数据精度高，市场占有率可由传统市场占有率公式变形。在节目播出时间内，所有频道的收视时长，均精确到秒。（4）明确数据映射过程。通过对原始数据进行格式转换、无效数据（如，用户或频道为空等）清洗后，得到用户在某一频道停留的完整信息，进行分析后可得到各地区每日的收视情况，包括各频道趋势、时段收视情况和栏目收视情况等。进一步对这些信息进行深入分析，可得到某地区某时期不同频道的综合表现、跨地区某指定频道收视趋势对比等更有价值的信息。为了提高深入分析的效率，可以把原始数据的初次分析结果继续装载到汇总数据库中，将数据重新按照所需时间、空间、频道等维度进行整理，更好的利用已有资源。

2. 电视收视率分析中ETL的实现方式。ETL的实现有多种方法，常用的有三种。一是借助ETL工具实现，二是编程实现，三是利用ETL工具和编程相结合实现。前两种方法各有优缺，利用工具可以快速建立ETL工程，屏蔽了复杂编码任务，提高了速度，降低了难度，但是缺少灵活性。编程的方法灵活，提高ETL的运行效率，但是技术要求高。第三种综合了前两种的优点，较大的提高ETL的开发速度和效率。中数媒介在ETL上主要采用编程手段实现。原始数据的采集是通过部署在各地现场的采集服务器进行，每日定时导出并远程获取全天数据到公司中心服务器。数据运算在分析主机上进行，通过批处理脚本使用FTP命令完成，设置可变动参数，每日自动下载对应数据，完成原始数据的准备。数据处理基本命令涉及到SQL命令和调用外部命令等，它以脚本的形式创建为SQL SERVER作业，通过作业计划功能，可定时自动进行原始数据的导入和基本分析，包括每日基本的频道趋势情况、时段收视情况、栏目情况等。目前原始数据包含的信息范围较广，多个字段信息在收视分析中暂用不到，因此，只需抽取主要字段，并将其格式转换为SQL SERVER中的关系表即可，在这个过程中，要进行数据格式规范，如格式不符则同时进行格式转换。定义空值、或时间范围超出规定范围的值为脏数据，将其清除，有效数据则进行相关分析。定时任务处理完后，通过脚本程序输出结果，形成简易提示。由于节目分析过程需要准确EPG，而目前ETG格式除了XML可以直接使用，其他形式需要人工校对，此部分需要相应地区分析师进行人工操作。所有分析集中在一台分析主机进行，分析师通过远程连接的方式使用对应数据库。为了保障远程登录处理速度和数据的安全，通过建立内部小型局域网实现。通过局域网部署分析主机在公司内网与小型局域网之间，有效阻隔了客户端对内网的直接访问。分析主机只在小型局域网中，不能直接被公网用户访问，也增加了数据的安全性。

3. 电视收视率数据处理分析流程。数据处理分析流程主要包括数据采集、数据初步分析和数据深度分析等。（1）数据采集。每日自动下载对应数据，包括频道数据、入库机顶盒数到本地服务器指定文件夹（2）数据初步分析。数据初步分析的过程包括： ①数据库管理员编写定时任务对自动下载到本地的数据进行初步分析，包括每日基本的频道趋势情况、时段收视情况、栏目情况等。②定时任务处理完后，通过脚本程序输出结果，形成简易提示。由于节目分析过程需要准确EPG，而目前ETG格式除了XML可以直接使用，其他形式需要人工校对，此部分需要相应地区分析师进行人工操作。③数据库管理员每日检查定时任务的完成情况，及时汇报给数据分析师。（3）数据深度分析。数据深度分析的过程包括： ①数据分析师向市场部相关负责人获取收视报告需求。②数据分析师对需求进行整理，将整理后的需求提交给数据库管理员。③数据库管理员根据需求编写SQL语句脚本程序。④数据分析师运行脚本程序，在对话框中提取数据，包括从初步分析产生的表中提取符合检索条件的数据。⑤数据分析师将数据导入Excel中，制作分钟趋势图、频道排名、节目排名等图表。⑥将图表粘贴进Word中，并添加相应文字说明。对word进行美工、排版。⑦根据客户要求调整文件格式。通过上述ETL工具的数据挖掘技术的应用，得到江苏某地区所有有线电视客户的2013年3月9日至2014年6月8日周六和周日两天20:00至23:59江苏卫视节目的电视收视率全样本数据，时间间隔为60秒（如图1所示）。全样本数据的好处是避免了选取部分样本所带来的容易造假的缺陷。据此展开时间序列分析中的ARIMA模型的分析和预测研究。江苏卫视一般在周六和周日21:10开始播放其王牌节目《非诚勿扰》。从上图可以看出，节目给收视率造成了很大影响。随着节目的开播，收视率很快上升，而广告播出时间点，收视率则下降明显。所以根据节目开始前、开始时、前部节目、中间广告、后部节目、临近结束和结束后选取7个时间点进行分析和预测，这7个时间点分别是20:40， 21:10， 21:40， 21:50， 22:00， 23:00， 23:20。

四、基于ARIMA模型的电视收视率预测

通过ETL工具得到的全样本电视收视率时间序列既存在一定的不确定性，又具有内在的规律性，比较适合运用时间序列分析模型 — —ARIMA模型来进行分析和预测。ARMA模型是在20世纪70年代由美国的George Box和英国的Gwilym Jenkins共同建立的，所以也被称为Box-Jenkins法，简称B-J法。是一种随机时间序列预测方法，在短期预测方面具有较高的精确度。ARMA模型要求时间序列必须是平稳的时间序列，当不是平稳时间序列时，应采用ARIMA模型，即单整自回归移动平均混合模型，其实质是通过差分过程把非平稳时间序列转换为平稳时间序列，然后再应用ARMA模型进行分析和预测。

1. ARIMA模型在ARIMA(p,d,q)模型中， p表示自回归AR(p)的阶数， d表示单整的阶数， q表示移动平均MA （q）的阶数。ARIMA(p,d,q)模型是ARMA(p,q)的一般形式，包含3种情况， AR(p)、 MA(q)和ARMA(p,q)。如果时间序列不平稳则转变为平稳时间序列后再建立以上模型。AR(p)模型对应的代数表达式为：y t =c+α 1 y t-1 ++α 2 y t-2 +...+α p y t-p +ε tMA(q)模型对应的代数表达式为：y t =c+ε t +β 1 ε t-1 +β 2 ε t-2 +...+β q ε t-qARMA(p,q)模型对应的代数表达式为：y t =c+α 1 y t-1 ++α 2 y t-2 +...+α p y t-p +ε t +β 1 ε t-1 +β 2 ε t-2 +...+β q ε t-q其中， p,q分别表示滞后的阶数， ε t 是白噪声序列，即是一个具有有限均值和有限方差的独立同分布随机变量序列，其样本的自相关函数接近于零。ARIMA的建模过程包括模型识别阶段、参数估计阶段、模型检验阶段和预测应用阶段等四个阶段。ARIMA的模型识别阶段。ARIMA的模型识别阶段指的是p,d,q三个参数的确定。其中， d的识别是根据差分阶数来确定的，对序列进行单位根检验，若存在单位根则对差分后的序列进行判断，如果d阶差分后序列平稳了，则就确定了d。p和q的识别一般借助于样本的自相关函数ACF图和偏自相关函数PACF图进行初步判断（见表1）。在进行模型识别的时候，为了简化定阶的过程，常常采用AIC(Akaike Information Criterion)、 SC(Schwarz Criterion)和HQ(Hannan-Quinn Criterion)准则作为最小信息准则。依据最小信息准则选择模型时，希望选择AIC、 SC、 HQ最小的，但常常出现选择结果不一致的情况。在实际应用的时候，要在模型简洁和预测精度之间进行权衡。ARIMA的参数估计阶段。在模型识别以后应该对选定的模型进行参数估计。参数估计的步骤一般分两步进行，一是进行参数的初步估计，二是在初步估计的基础上按照估计准则求得模型参数的精细估计。ARIMA的模型检验阶段。为了判断所建立的模型优劣程度需要对模型的残差序列进行检验，判断是否是白噪声序列。如果残差序列是白噪声序列则可以认为所建立的模型是合理的，可以用来进行下一步的预测，否则就需要对模型进行改进。模型的检验可以采用拉格朗日乘子（LM）检验，是由Breusch和Godfrey于1978年提出的，不仅可以用来进行残差序列的独立性检验，而且还给出了模型改进的方向。其原假设为残差序列不存在自相关，即所建立的模型是合理的。ARIMA的预测应用阶段。通过检验的模型可以用来进行预测， ARIMA模型对于短期预测具有较高的精度，随着预测时间的延后，精度会逐渐下降。

2. ARIMA模型的应用（1）数据的选取与处理本文运用中数媒介提供的江苏某地区基于互动机顶盒的2013年3月9日至2014年6月8日周六和周日两天20:40， 21:10， 21:40， 21:50， 22:00， 23:00， 23:20等7个时间点的电视收视率全样本数据。在ARIMA模型的分析和预测过程中运用了EViews 7.2和R 3.1.1软件。下面以21:10时间点为例说明分析的过程。（2）时间序列的基本统计特征在进行ARIMA(p,d,q)模型的分析之初，首先通过绘制时间序列的曲线图来判断序列的形式。序列的形式有三种类型，分别是： ①一是不含截距项也不含时间趋势的序列，序列围绕零值波动； ②二是含有截距项不含时间趋势，序列偏离零值波动，但不具有明显的时间序列； ③三是含有截距项和时间趋势，序列随时间而向某一方向明显移动。从图2可以看出，电视收视率时间序列不平稳，需要对序列进行平稳性检验。（3）时间序列平稳性检验只有平稳的时间序列才能直接建立ARMA模型。在实际问题中，大多数的时间序列是不平稳的。判断时间序列是否平稳可以通过计算差分后序列的自相关系数，根据自相关分析图进行初步判断。平稳时间序列的一个重要特征是它的自相关函数随着时间k的增加而成指数型衰减，故有判别准则如下：如果时间序列自相关系数很快地趋向于0 （滞后阶数k大于2或3时），则可能不存在随机趋势，序列是平稳的；否则可能具有随机趋势，序列是不平稳的。从图3可以看出，电视收视率时间序列的滞后期到15的时候，柱状图仍没有下降到0，表明该序列是非平稳的。下面对电视收视率时间序列进行一阶差分，计算差分后序列的自相关系数，得出其一阶差分后序列的自相关分析图。从图4可以看出电视收视率时间序列一阶差分后序列的自相关系数快速趋向于0，说明该序列一阶差分后序列是平稳时间序列。（4）时间序列平稳性的ADF单位根检验在自相关函数图检验时间序列的平稳性之后，需要对时间序列的平稳性进行单位根检验。单位根检验有DF检验和ADF检验两种， DF检验是ADF检验的特殊形式， ADF检验是DF检验的进一步拓展。图5中表示原假设是：一阶差分后序列具有一个单位根，即原序列为一个非平稳序列。Lag length 表示基于AIC准则自动选取的四期滞后。单位根检验的结果显示， T-staistic栏的值与1%、 5%、 10%水平的绝对值进行比较， T值绝对值大于上述某水平绝对值，表示在多少水平下拒绝原假设，此处均大于水平绝对值，说明拒绝原假设，既原序列不具有单位根，是平稳序列。Prob栏显示接受原假设的概率，此处为0，表示拒绝原假设，即一阶差分后序列不具有单位根，是平稳时间序列。（5） ARIMA模型的识别ARIMA(p,d,q)模型的识别就是判断确定p、 d、 q三个参数。首先确定参数d。如果时间序列是平稳的，则d等于0。如果不平稳则对序列进行差分，若d阶差分后平稳，则称序列为d阶单整序列， d也就随之确定。d 的取值一般是 0,1 或2。参数p和q的确定可以借助于自相关函数 ACF 图和偏自相关函数 PACF图进行判断。AM(p)模型的偏自相关函数在p期滞后之后突降为0，自相关函数表现为逐渐衰减的态势。MA(q)模型的自相关函数在q期滞后之后突降为0，偏自相关函数表现为逐渐衰减的态势。所以， d确定为1。根据自相关图和偏自相关图进行选择。（6） ARIMA模型的建立根据上述的初步判断试设模型后进行比较，按照残差序列相关性、调整R2、 AIC、 SC等模型的判断准则进行选择。对ARIMA(p,d,q)模型进行残差序列相关性检验可以采用LM检验。图 6 是 ARIMA(4,1,1)模型建立的各项系数的回归结果，对应的是c、 α1、α2、 α3、 α4、 β1的回归结果。Prob.栏反映的是各回归系数的显著性，可以根据显著性水平决定某项系数是否纳入模型。图 7 是 ARIMA(4,1,1)模型的残差序列检验结果。其原假设是：残差序列不具有序列相关性，有F统计量和R2统计量两个指标可以用来判定。此处，两个统计量都接受残差不存在序列相关性的原假设。图8是ARIMA(0,1,1)模型建立的各项系数的回归结果，对应的是c、 β1的回归结果。图 9 是 ARIMA(0,1,1)模型的残差序列检验结果。可以看到F统计量和R2统计量都接受残差序列相关性的原假设。（7）比较ARIMA模型的优劣对ARIMA(p,d,q)模型进行残差序列相关性检验。ARIMA模型需要对建立的各种可能模型依据一些重要指标进行比较和分析，从中选择最合适的模型。表2针对电视收视率时间序列建立的是ARIMA(3,1,7) 模型、 ARIMA(3,1,5)模型、 ARIMA(4,1,1)模型和 ARIMA(0,1,1)模型的指标比较。调整R 2 表示模型的整体拟合优度，该值介于0和1之间，其数值越大说明拟合效果越好。AIC和SC都表示信息准则，对于模型来说其数值越小越好。残差序列相关性是模型取舍的关键指标之一，假如出现严重的残差序列相关性，即残差序列相关性检验显著拒绝原假设，即使其他指标很好耶要拒绝使用该模型。从表 3 可以看出， ARI⁃MA(3,1,7)在调整 R 2 、AIC 和 SC 三项指标方面优于 ARIMA(3,1,5)、 ARIMA(4,1,1)和 ARIMA(0,1,1)，但由于 ARIMA(3,1,7)和ARIMA(3,1,5)的残差序列相关，首先被排除。而ARIMA(4,1,1)和ARIMA(0,1,1)的残差序列不相关，且调整R 2 、 AIC和SC三项指标在正常范围以内，且ARIMA(0,1,1)的大部分系数的Prob.值优于ARIMA(4,1,1)，同时兼顾简洁原则所以选择ARIMA(0,1,1)作为最优模型。模型的估计结果如下： dy t =-0.003258+ε t -0.929927ε t-1 。即IMA(1,1)模型，该模型代表了许多时间序列，是经济和商业中产生的常见序列。重复上述过程，得到20:40， 21:40， 21:50， 22:00， 23:00， 23:20等6个时间点的ARIMA模型如表3所示。（8） ARIMA模型预测为得到电视收视率时间序列的水平值而不是其变化的预测值，可以做曾经用来获得变化值的一价差分变换的反变换。预测期越往后预测置信区间越大，表明随着时间的延长预测精度变差。表4是7个时间点的ARIMA模型预测值。根据ARIMA模型短期预测精度较高的特点，对选取的7个时间点进行了4期预测，预测值数据如表4所示。预测预测数据可以用来为广播电视企业广告定价和开展定向推送等业务提供参考。

五、结束语

这一研究结果的意义在于：首先，通过江苏某地区有线电视互动双向机顶盒所提供的全部客户收视数据为基础，运用ETL工具数据挖掘技术产生了全样本电视收视率数据。通过有线电视互动双向机顶盒获取数据，可以得到基于全部客户的电视收视率数据，从而有效地避免了采用抽样技术选取部分样本所产生较大误差的情况，具有较强的真实性，体现收视率统计的客观性和代表性。其次，选取了全样本数据中若干个具有代表性的时间点数据，应用时间序列分析中的ARIMA模型就该数据进行了统计分析，产生了各个时间点的ARIMA模型，并运用该系列模型进行了预测。为广播电视行业广告客户提供较为科学的依据，也为以后广播电视行业采取节目定向推送等新技术的运用提供参考。

参考文献1. 刘世平：《数据挖掘技术及应用》，〔北京〕高等教育出版社2010年版，第177-178页。2.〔美〕 Ruey S. Tsay：《金融时间序列分析》 (第3版)，王远林、王辉、潘家柱译，〔北京〕人民邮电出版社2012年版，第55-70页。3. 易丹辉：《时间序列分析:方法与应用》，〔北京〕中国人民出版社2012年版，第48-93页。4. 古扎拉蒂、波特：《计量经济学基础》 (第5版)，费剑平译，〔北京〕中国人民大学出版社2012年版，第786-793页。5. 李嫣怡、刘荣、丁维岱：《EViews统计分析与应用》 (修订版)，〔北京〕电子工业出版社2013年版，第147-160页。6. 刘辉、杜秀华：《基于ARMA模型的电视台收视率预测方法设计和实现》，〔北京〕《控制工程》 2009年第5期S0第9-11页。7. 姚芳、李越、肖春来：《基于时间序列模型的全国30家电台收视率分析》，〔北京〕《数学的实践与认识》 2011年第7期第34-38页。8. 梁招娣、刘小龙：《基于RBF神经网络的电视收视率预测》，〔郑州〕《河南科学》 2013年第9期第1428-1431页。9. 涂娟娟、刘同明：《基于决策树的电视节目收视率预测模型》，〔北京〕《微计算信息》 2007年第3期第251-252页。

[返回]

上一篇：计算机机箱的电磁脉冲耦合模拟仿真
下一篇：基于 BP 神经网络的鲜鸡蛋货架期预测模型构建