欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
MBA论文
当前位置:首页 > MBA论文
大数据情境下的数据完备化
来源:一起赢论文网     日期:2022-10-17     浏览数:668     【 字体:

 摘要:随着数字经济时代的到来,数据作为一种重要的生产要素,深刻改变了管理决策范式。对具有超规模、跨领域、流信息的大数据的分析利用成为了赋能管理实践的重要因素,其中数据的质量与完备性是影响后续数据价值提炼的重要前提。然而受限于数据采集方式与过程、被采集主体行为模式特点等因素,数据常常呈现超高缺失率的特点。超高数据缺失会严重影响数据分析及所承载的管理决策效果。因而,预先对大数据进行有效完备化对保证后续分析决策效果具有重要意义。本文对大数据情境下的数据完备化问题进行了系统梳理,重点给出在超高维度、多源异构、时空关联的情境下的大数据完备化问题的主要挑战、求解思路及其对管理学研究的启示,以期为大数据完备化及赋能管理决策奠定理论和方法学基础。关键词:数据完备化 超高维度 多源异构 时空关联 管理决策一、引言随着移动互联环境下新兴技术的快速发展,来自公共管理、电子商务、金融服务、医疗健康等应用领域的大数据不断涌现,深刻地改变了社会经济生活的面貌,推动我们所处的社会与经济向数字经济时代迈进。随着移动互联技术的深入、数据采集和存贮技术的飞跃发展,具有超大规模、超高维度、多源异构、流式产生特点的大数据日益可测可获,基于数据的管理决策逐渐成为科学研究和应用的主流(徐宗本等,2014)。 近年来,对大数据的开发应用已上升至国家战略高度,2020年中共中央和国务院发布的《中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》中,将数据与土地、劳动力、资本、技术等传统要素并列为生产要素之一。在这一环境下,领域情境、决策主体、理念假设、方法流程等决策要素受到冲击,催生了大数据决策范式的诞生(陈国青等,2020)。数据作为大数据决策范式下的重要生产要素,其本身的完备与质量关乎后续决策效果。通过多种渠道采集而成的大数据尽管体量很大,但往往具有非常高的缺失比例,从而对利用其进行管理决策提出了新的挑战。如在线购物场景中,推荐系统常用于为用户推荐其感兴趣的商品或服务,以辅助其后续购物决策。用户历史评分数据常被用作推荐系统的输入,用于预测消费者对尚未购买商品的评分。然而,由于商品数量众多而用户接触到的商品非常有限,用户历史评分数据呈现高度缺失的特点。著名的在线视频公司Netflix 曾举办过一个数据挖掘比赛,该比赛提供给选手的电影评分数据集具有大量缺失值(Feuerverger et al.2012),如图1所示。该评分数据中共包含约48万观影者和1 8 千部电影。然而每位观影者平均仅对约200 部电影给出过评分,其他评分都是缺失的,缺失比例高达98. 8 % 。若直接使用具有超高缺失比例的数据训练推荐系统,难以对用户的真实偏好做出准确的预测,甚至会产生严重有偏差的推荐结果。这不仅会误导用户的购物决策,长此以往还会破坏用户对平台的信任(Kleinberget al.2018)。 如能将该评分矩阵有效地进行补充,尽可能地恢复数据的原貌和内在结构,就可将该完整评分* 本文得到国家自然科学基金重大研究计划重点支持项目面向管理决策大数据分析的理论与方法(基金号:92046021)、国家自然科学基金重点项目大数据驱动的管理决策模型与算法(基金号:71532001)、国家自然科学基金青年项目高维低秩矩阵完备化问题的研究(基金号:12001109)、国家自然科学基金青年项目基于动态适应性建模的个性化商品促销推荐方法与应用研究(基金号:72101007)、上海市青年科技英才扬帆计划项目(19YF1402800)、上海市科技创新行动计划社会发展科技攻关项目(20dz 1200600)的资助。王聪为本文通讯作者。大数据情境下的数据完备化:挑战与对策*陈松蹊 毛晓军 王 聪大数据情境下的数据完备化:挑战与对策管理科学与工程- -196DOI:10.19744/j.cnki.11-1235/f.2022.0015《管理世界》2022年第1 期数据作为推荐系统模型的输入,进而为构建实时推荐系统、深层分析提供有效的准备。超大规模的数据缺失问题,也给统计学研究带来了新的挑战。大量缺失数据的存在使得数据整体的不确定性增加,确定性成分更难把握。在小规模数据缺失的场景中,常对缺失数据进行删除处理,如LittleRubin2019)中介绍的complete-case analysis 。然而在小数据集上的现有研究表明,缺失数据往往伴随选择偏差或隐性偏差,直接删除缺失数据,会造成数据资源的浪费,更可能加重由上述选择偏差导致的估计偏差。而对于超大规模缺失的大数据而言,数据删除方法会导致90% 以上的数据被删除,显然是不可行的。因而,对大数据中的缺失数据进行完备化,尽可能地还原其固有的结构是大数据分析及进一步在其基础上进行管理决策的一个重要步骤。尽管缺失数据填补是近 30年统计学一个活跃的研究方向,形成了一套相关方法(Rubin1987Little1988Little and Rubin 1989Allison 2000Zhang2003Ibrahim et al. 2005Reiter and Raghunathan2007Dur⁃rant 2009Little and Rubin 2019)。 但这些方法所能处理的缺失率鲜有能随着数据维度的变化而变化的,无法处理超大规模量级的缺失数据。此外,由于大数据具有超高维度、多源异质、流式产生等特点,对大数据完备化方法设计提出了挑战。因此,在对缺失数据进行完备化过程中,需充分考虑数据情境特点及其中的数据缺失机制,以设计简洁有效的数据完备化方法。本文将首先介绍数据完备化问题的一般性形式,进而考虑不同情境特点下的数据完备化方法设计问题,并给出在管理学领域的应用场景。二、数据完备化问题的形式化定义我们首先介绍大数据完备化问题的一般框架,再对不同数据缺失机制下的数据完备化方法进行梳理,并针对大数据的超高维度、多源异质、时空关联场景的特点分别展开探讨。由于大数据常常以矩阵形态存在,不失一般性,本文首先以矩阵形态考虑数据完备化问题,之后会扩展到更一般的流数据情况。矩阵完备化研究的问题是如何根据较少的观测值精确地对原始矩阵进行还原。整个问题可以视为一个带有结构性假设的优化问题。在常见的矩阵完备化方法中,通常采用低秩结构假设,即高维矩阵的行或列是由少量行或列隐含生成。以上述Netflix 电影评分矩阵高维矩阵为例,在低秩结构的假设下,可认为该矩阵只是由少量与电影类型及用户类型有关的隐变量生成。下面我们给出矩阵完备化的数学框架。令A 0 =a 0 ijn 1 × n 2 表示不可观测的真实矩阵,其具有n 1 n 2 列。我们假设其具有低秩性质,即矩阵A 0 的秩rank A 0)是一个比较小的整数。令Y =y ijn 1 × n 2 A 0 加上均值为0 的噪音之后的可观测数据矩阵。在实际中,Y只有小部分的元素可被观测到,其他为缺失元素。Y 的每个y ij 都可以写成y ij =a0 ij + ε ij ,其中a 0 ij 表示A 0 对应位置的元素,ε ij 表示均值为0 的干扰噪音。矩阵完备化问题的核心任务就是通过适当的完备化方法来得到真实矩阵A 0 的估计矩阵 。一般来说,可以通过求解如下优化问题来获得:(1)其中,A 表示由A 0 的可能解构成的解空间集合,argmi⁃n A 代表关于A 的极小化。人们通常假设矩阵问题的解被限定在用无穷范数表示的球内,也就是说A = { ≤ a } ,其中 =max{| a ij |} 代表矩阵的无穷范数。LA Y)表示一个损失函数,即用于衡量矩阵A Y 的差异的函数,通常取平方损失函数或者绝对值损失函数形式。惩罚项RA)为一正则化项,用于对矩阵A 的结构进行一定的规约,比如对高秩的解进行惩罚鼓励低秩的解,并解决一些参数的过拟合问题等。在上述优化问题中,损失函数是用来评价模型的预测值和真实值不同程度的函数。通常情况下损失函数越小,图1 在线观影系统用户评分矩阵示例注:其中?代表评分缺失,星级代表评分高低AAA= a r g m i nA ∈{ } L ( A, Y ) + R( A)Ai,j‖ ‖ A∞‖ ‖ A∞- -197模型的性能也越好。其中常见的一类损失函数是平方损失函数,经常应用于回归问题。最小化平方损失函数又称最小二乘法,其几何意义是高维空间中的一个向量在低维子空间的投影。与此同时,对于常见的正态分布参数估计问题,通过极大似然估计求解也可以等价于一个最小化平方损失函数的问题。惩罚项是对损失函数的补充调节,为了使得填充后的高维矩阵具有低秩结构,一个自然的想法是直接使用矩阵的秩本身作为惩罚函数,即将矩阵的秩,也就是矩阵非0 奇异值的个数纳入到上述优化函数的正则化项中。然而已有研究表明,这样的方式是NP- 难的(Chistov and Grigoriev 1984),难以在多项式时间内得到有效的计算结果。Candès Recht2009)及Recht2011)提出了用核范数 作为惩罚函数来解决矩阵完备化问题。具体而言,核范数是矩阵奇异值的和。数学意义上,矩阵的秩本身是非凸的,而核范数则是矩阵的秩的凸近似,是凸的。因此使用 会使得整个优化问题变得更容易计算,不再是NP- 难,能够在多项式时间内进行求解。在实际中,我们需要通过已有的数据来构造损失函数LA Y)。 若所有数据的观测值直接可得,则对于平方损失函数而言,一个直接的选择是 ,其中 表示矩阵的Frobenius范数。然而,由于Y 中仅有部分数据可被观测到,我们无法直接使用以上LA Y)形式,而需要结合问题的特点,构建损失函数的形式。如上所述,矩阵数据完备化问题可表示为如问题(1)所示的一个优化问题。由于不同场景下造成大数据缺失的机制不尽相同,数据缺失呈现不同的形态,人们需结合问题特点进行分析并采用有针对性的数据完备化方式加以解决。以下我们将从大数据的3 个典型特点(即超高维度、多源异质、时空关联)出发,讨论在这3种情境下数据完备化问题的特点及对应的挑战,并结合作者近年来的研究,阐述相关的领域情境、概念内涵、问题建模、求解路径以及管理决策意义。三、超高维度缺失数据完备化问题超高维度是大数据的一个突出特点。如在电子商务环境中,常常包括上亿级别的用户及商品,从而使得用户商品评分矩阵呈现超高维度的特点。而用户所接触及评论的商品数量非常有限,从而产生大量缺失的点评数据。为实现超高维度缺失数据的完备化工作,需对数据缺失机制进行分析以具体化(1)中损失函数LA Y)及惩罚项RA)的形式设定。对于RA)而言,为了使得填充后的高维矩阵具有低秩结构,通常情况下我们使用核范数 作为惩罚函数来解决矩阵完备化问题。对于RA)而言,由于在高维缺失的情况下,有大量的数据无法被观测到。需要构建一个只由0 / 1 元素组成的观测示性矩阵T =tij),其中如果tij = 1 ,则y ij 可被观测到,反之则令tij = 0 。对于示性矩阵T ,假设其对应的观测概率矩阵为Θ =θ ij),其中θ ij 代表tij 1 的概率,即tij 服从以θ ij 成功概率的伯努利分布,具体示例如图2 所示。根据不同的数据缺失机制,θ ij 的表示形式各不相同,从而使得LA Y)的设定形式不尽相同,以下将分别就完全随机缺失、随机缺失、非随机缺失机制下的数据矩阵完备化问题的特点、优化问题设定及求解方法进行介绍。(一)完全随机缺失机制(Missing Completely At Random)在完全随机缺失(Missing Completely At Random,简称MCAR)的情况下,一个元素是否被观测到的概率与y ij 以及数组中观测到的任何其他变量都无关,其中均匀缺失机制(Uni⁃formly Missing Mechanism)是一种特殊情形。在均匀缺失机制下,Y 中每个元素具有相同的边缘缺失概率,即Θ 矩阵中所有θ ij ≡ θ 。这曾经是高维L ( ) A, Y =1n1n2‖ ‖ Y - A2F‖ ‖ MF= t r ac e( M MT)2 原始矩阵、示性矩阵、观测概率矩阵示例‖ ‖ A*‖ ‖ A*大数据情境下的数据完备化:挑战与对策管理科学与工程‖ ‖ A*- -198《管理世界》2022年第1 期矩阵完备化中常采用的一种缺失机制假设,在数据矩阵完备化的最早文献中被普遍使用(Candès and Recht 2009Keshavan et al.2010Recht 2011Rohde and Tsybakov 2011Koltchinskii et al.2011)。 在均匀缺失机制下即使具体的观测概率θ 未知,可以使用 作为损失函数,其中° 的运算为矩阵之间Had⁃amard 算子,用于表示矩阵对应位置元素相乘所得到的新矩阵。此时,对问题(1)中的损失函数和正则化项部分进行替换,可以得到用于刻画数据完备化的优化问题:(2)其中,λ 是一个调节参数,用于平衡损失函数与促进低秩的正则化项之间的相对权重。在均匀随机缺失下,Candès Recht2009)在观测值没有噪音的情况下给出如下经典的理论结果:对于一个n 1 × n 2 的秩为r 的矩阵A 0 ,当该矩阵满足特定的不连贯条件(Incoherence Condition)且数据均匀缺失的情形下,人们只需观测到cn 1 + n 2r log2n 1 + n 2)个矩阵元素就可以接近1 的概率对高维矩阵进行完备化。当观测值有噪音的时候,Candès Plan2010)及Koltchinskii 等(2011)研究了在不同噪音情形下具有均匀缺失机制的高维矩阵完备化问题,对于填充数据矩阵误差的上界及最优收敛速度进行了分析。Mazumder等(2010)设计了针对问题(2)进行优化求解的softImpute 算法并且提供了相应的R 可供研究者直接使用。我们将softImpute算法应用到维度高达480000× 18000 Netflix 比赛数据上,该算法可仅用3 . 3 个小时左右的时间拟合得到一个秩为95的矩阵,对应的均方误差能够仅为0 . 9497,可达到较好的完备化效果。然而,均匀缺失机制通常不能反映实际问题中的缺失机制,很多时候我们需要考虑其他的数据缺失机制情形。(二)随机缺失机制(Missing At Random )另一类常用的数据缺失机制是随机缺失机制(Missing At Random,简称MAR),即y ij 是否被观测到的概率只与一些可观测到的协变量有关,而与其具体取值y ij 无关,即观测概率矩阵Θ 中的元素可表示为协变量x ij 的函数,即θ ij = θx ij)。在MAR情形下,可采用 作为损失函数,其中 。由MAR性质可得此时损失函数LA Y)是 的无偏估计。在实际构建矩阵完备化优化问题时,数据矩阵重构的具体形式又与观测概率矩阵Θ 是否已知有关。在绝大多数情况下,观测概率矩阵Θ 的先验知识并不可得。换言之,我们需先构建Θ 的估计 ,再代入上述损失函数LA Y)中。此时数据完备化优化问题可表示为:(3)由此可见,对 建模的质量直接决定了最终可得的矩阵 的性质。下面我们将总结几类常见的 建模方法,包括结合协变量信息的Logistic模型、低秩模型、不依赖具体模型设定的非参数模型。1 . 利用协变量信息的缺失机制建模在协变量信息X 已知的情况下,可将数据观测概率θ ij 表示为协变量的函数,即θ ij = Pr tij = 1 |xij= θx ij)。以电影推荐场景为例,若用户及电影的特征已知,如已知用户性别、年龄、职业等,同时知晓电影类型、导演等信息,则用户评分是否可以被观测到可表示为这些协变量的函数。具体而言,可采用Logistic模型对观测概率矩阵Θ 进行建模(Mao et al.2019):(4)其中,γ =γ j)表示协变量X 的系数向量。对于这里的参数γ j ,我们可以通过极大似然估计来做参数估计。在得到Θ 的估计 后,我们可进一步对评分矩阵A 0 建立列空间分解的半参数模型A 0 = X β 0 + B 0 来改变问题(3)的形式,其中B 0 是一个低秩矩阵。为了满足模型的可识别性,Mao 等(2019)假设协变量X 的列空间与低秩矩阵B 0 的列空间正交。通过使用额外的协变量X 和这个正交性质,Mao 等(2019)把通常使用的迭代算法变成了只需要求解一具有解析解的奇异值分解(Singular Value Decomposition SVD )算法,从而大大地降低了计算L ( ) A, Y =1n1n2‖ ‖ T ° ( ) A - Y2FA= a r g m i n| | | | A∞≤ a{ }1n1n2‖ ‖ T ° ( ) A - Y2F+ λ‖ ‖ A*L ( ) A, Y =1n1n2‖ ‖T ° Θ°(- 1 / 2)° ( ) A - Y2FΘ°(- 1 / 2)= (θ- 1 / 2i j)E ‖ ‖ Y - A2FΘA= a r g m i n| | | | A∞≤ a{ }1n1n2‖ ‖T ° Θ°(- 1 / 2)° ( ) A - Y2F+ λ‖ ‖ A*ΘΘAθi j= P r ( ) ti j= 1| X =exTi·γj1 + exTi·γjΘ- -199复杂度。与此同时,该研究也给出了完备化矩阵的均方误差的上界,并刻画了使用额外协变量X 所带来的理论优势。具体的奇异值分解算法可以参考Cai等(2010)。 Mao 等(2019)将该方法应用于实际数据 MovieL ⁃ens100 K②进行完备化。该数据包含由943 个影评人对1682部电影给出100000个评分,及额外的影评人和电影协变量信息。通过使用额外的协变量信息,模型完备化效果可得到一定的提升。2 . 低秩模型在缺少协变量信息对θ ij 建模的情况下,也可考虑以低秩缺失机制实现对Θ 的稳健估计(Mao et al.2021)。 即假设缺失机制矩阵Θ 具有低秩性质,Θ 可由一个高维低秩的隐矩阵M =m ij)经过联接函数族F ={ f }映射得到,即Θ = fM)。 这时候对于观测到的矩阵Y 可以分解出两个低秩矩阵,具体参见图3 所示,其中A 0 代表完整的真实评分矩阵,具有低秩性,T 0 - 1 示性矩阵,联接函数f 背后的隐矩阵M 也具有低秩性。对于缺失机制Θ 的低秩估计 ,可通过对隐矩阵M 做均值分解的方法来克服可能存在的概率的高估问题(Mao et al.2021)。 具体而言,首先对M 做均值分解M = μ J + Z ,其中μ M 的所有元素的均值,J 是元素全为1的矩阵,而Z 是剩下的元素和为0 的矩阵。进一步地,在特定的约束条件下最大化如下带核范数惩罚的似然函数问题:从而同时得到μ Z 的估计量 和 。这里我们可以采用Chen等(2016)提出的交替方向乘子法(Alter⁃nating Direction Method of Multipliers,简称ADMM )来完成。在同时获得 和 之后,就可以分别得到M Θ的估计, 和 。通过进一步结合一些截短方法,我们可以使最终得到的概率矩阵估计 更加光滑,避免出现一些极小值。将 带入式(3)中可以进一步得到最终的评分矩阵 的估计。理论研究表明,在真实缺失机制为均匀缺失的情况下,即便我们通过低秩模型来做了缺失概率矩阵估计 ,最终我们的目标矩阵估计 依然可以以概率1 得到最优收敛速度;另一方面,在非均匀缺失的低秩模型下,只要最小缺失概率满足一定条件,我们依旧可以以概率1 得到评分矩阵估计 的误差上界的最优估计。对于最终评分矩阵 的估计的目标函数(3),可以采用由BeckTeboulle2009)提出的快速迭代收缩阈值算法(Fast Itera ⁃tive Shrinkage-Thresholding Algorithm)。 Mao 等(2021)将该方法应用到实际数据Yahoo Webscope③上。该数据包含了由15400 个乐评人对1000首歌曲给出的300000个评分。通过引入低秩缺失机制,该方法相较于采用均匀缺失机制的完备化方法效果提升了约25% 3 . 非参数模型尽管上述对Θ 的估计方式可在对应缺失假设下取得一定的效果,但其对数据矩阵完备化的效果严重依赖于缺失模型假设是否正确,其在实际应用中难以被验证。而对于最终完成高维矩阵完备化的这个目标来说,并不需要一定给出正确的缺失概率Θ 。这是因为最终我们是通过解决优化问题(1)来得到A 0 的估计,而缺失概率Θ 的估计只是中间的一步副产品。如果我们找到一个合适的权重矩阵W 来替代 ,这里 ,比如说使得 和 在总体上的误差足够接近,使得对于最终估计A 0 带来的概率矩阵部分的误差可以忽略不计,那么我们还是可以得到好的A 0 的估计。理想情况下,若示性矩阵T 的生成概率Θ =θ ij)已知,则只需要直接选取权重矩阵为W =()即可。在生成概率Θ 未知的情况下,通过观察我们有 ,其中J 是一个所有元素全部为1 的矩阵。Wang等(2021)考虑找合适的权重矩阵W 使得度量 足够小。进一步的,为了克服权重矩阵W 总共有n 1 n 2 个参数带来的过拟合问题,Wang等(2021) 图3 低秩缺失机制示例f ( ) μ , Z| λ =∑i , j{ } ti jl o g( )f ( ) μ + zi j+ (1 - ti j) l o g( ) 1 - f ( ) μ + zi j- λ‖ ‖ Z*ΘμZμZM= μJ + ZΘ= ( M) F ΘΘAΘAAθL= m i n{ } θi jAΘ°(- 1)Θ  (- 1)= (θ- 1i j)Θ°(- 1)WE (T ° Θ°( ) - 1) = J‖ ‖ T ° W - Jθ- 1i j大数据情境下的数据完备化:挑战与对策管理科学与工程- -200《管理世界》2022年第1 期通过求解(5)式带有约束的优化问题,来求解W 矩阵:(5)其中,κ 是一个调节参数。由此可得权重估计矩阵 。这里得到的权重矩阵 不仅不依赖于缺失机制,甚至不依赖于观测矩阵Y 。所以该方法比较稳健。在得到权重矩阵 之后,类似问题(3),可通过如下的风险函数对高维矩阵A 0 进行填充:(6)对于上述问题,也可采用BeckTeboulle2009)提出的快速迭代收缩阈值算法进行求解。Wang等(2021)将该方法应用到实际数据Coat Shopping Dataset④Yahoo Webscope⑤上。Coat Shopping Dataset包含了由290个用户对300 种商品给出的约7000个评分信息。通过引入不依赖于缺失机制的非参数模型,该方法与采用均匀缺失机制和一些特殊的秩一(rank-one )缺失机制的完备化方法相比效果都有所提升。(三)非随机缺失机制(Missing Not At Random )另一种常见的数据缺失机制为非随机缺失(Missing Not At Random ,简称MNAR),即数据缺失与否取决于其具体取值y ij ,这有违于之前所描述的MAR机制。如Yahoo! 进行的一项调查显示,在5400名参与者中,有64. 85% 认为他们对歌曲的喜好程度会影响他们公开评分的意愿,即用户评分矩阵的缺失情况并非是随机于y ij 的值,而是依赖于y ij 。在此情境下为实现对Y 的无偏估计,可采用逆倾向性得分(Inverse Propensity Score,简称IPS 方法)即使用P ij = 1 / Eθ ij |yij)对每一维观测值进行逆概率加权(Schnabel et al.2016),进而数据完备化问题可表示为式(7)所示的形式:(7)由此,非随机缺失机制下的数据完备化方法可以分为以下两个步骤,其一是估计逆倾向性得分矩阵P ,其二是根据估计出的在逆倾向性得分进行数据完备化。在逆倾向性得分估计准确的情形下,对Y 的还原可视为是无偏的。然而逆倾向性得分是否无偏本身在实际应用中并无法进行验证。而且尽管IPS 统计量具有无偏性,其在实际应用中常表现出较大的方差变异。由此,相关研究进一步设计了双稳健统计量用于对缺失数据矩阵进行加权(Wang et al.2019)。上述不同缺失机制下超高维度大数据完备化方法可应用于电子商务、内容服务等诸多领域。如在电子商务情境下,推荐系统预测用户偏好以实现个性化推荐的重要实现方式为预测用户对商品的评分,即可视为对用户评分矩阵的完备化问题。由于用户及产品都呈现超高维度的特点,在进行矩阵完备化过程中需根据不同的缺失机制设计相应的优化问题,以实现对用户偏好的还原进一步展开个性化推荐。四、多源异质场景下数据完备化问题多源异质是大数据的另一突出特点。体量庞大的大数据通常由多种来源的数据汇集而成,不同源的数据的概率分布或模型通常是不同的,因而汇集而成的大数据呈现了异质性的特点。在这种情况下的缺失数据完备化问题需充分考虑数据的多源异质特点。如在智慧城市监测过程中,由于传感器记录时间粒度不够精细、仪器故障等问题,常常会出现数据缺失问题。而且由于数据是由多地部署的传感器采集汇集而成,数据具有很强的多源异质特点,在处理其数据缺失时应格外关注。具体而言,数据的多源异质性既包含数据分布相同但参数不同的情形,也包括数据分布不同的情形。以下我们将分别对两种多源异质情形进行讨论。(一)数据分布相同但参数不同的情形这是一种较为温和的多源异质情形,即不同来源的数据具有相同分布族,但分布参数不同。在现实中一种常见数据场景是二元数值问题,以视频推荐系统和新闻推荐系统为例,通常观众对于特定视频或者新闻可m i nW ≥ 1‖ ‖ T ° W - J + κ ‖ ‖ T ° W2FWWWA= a r g m i n| | | | A∞≤ a{ }1n1n2‖ ‖T ° W°(1 / 2)° ( ) A - Y2F+ λ‖ ‖ A*A= a r g m i n| | | | A∞≤ a■■||■■||1n1n2‖‖‖‖‖‖T ° ( ) A - YP2F+ λ‖ ‖ A*- -201以表达点赞或者的态度,这类数据可以抽象成二元取值数据{ 1 - 1 } 。其所对应的推荐系统也就是二元的推荐系统。其他的二元数值数据场景还包括政治选举数据和市场调查数据等。Davenport等(2014)在问题(1)的框架下研究了观测值y ij 是二元数值{ 1 - 1 } 的情形下的矩阵完备化问题。其考虑的二元数值的模型为:(8)其中,a 0 ij 表示观测概率矩阵对应的参数矩阵A 0 中的元素,每一维a 0 ij 取值可以不同,从而反映出数据异质性特点。这时我们所关心的真实矩阵等价于参数矩阵A 0 。注意到真实的参数矩阵A 0 与最终的观测值Y 通过一个联接函数f 来联系。如第三节所示,常见的联接函数f 可以取成Logit或者Probit 函数。进一步地,我们考虑用对应的负对数似然函数来作为损失函数LA Y),即:(9)其中,T =tij)是对应的示性矩阵,对应的惩罚项同样使用核范数 以使得结果具有低秩性。Dav⁃enport 等(2014)将该方法应用到实际数据MovieLens100 K⑦上。为了使得观测到的评分变成二元数值,Daven⁃port 等(2014)根据已有评分的均分3 . 5 作为划分,大于等于3 . 5 的评分映射成+ 1 ,小于3 . 5 的评分映射成- 1 ,从而形成二元数值{ 1 - 1 } 。通过采用上述的最小化负对数似然函数损失函数和核范数惩罚,相较于经典的均匀缺失机制下的矩阵完备化方法,该方法将准确率从60% 提升到了73% 。更一般地,Fan 等(2019)在问题(1)的框架下提出了基于广义高维迹回归模型。对应地,他们考虑使用指数分布族对应的负对数似然函数来作为损失函数LA Y)。具体而言,在问题(1)的框架下,基于指数族分布特征构建损失函数,即:(10)其中,N = ∑tij 是观测到的元素个数,b·)是一个已知的跟具体分布函数有关的联接函数。比如对于常见的高斯分布,由其对应的指数族分布的表达式,ba ij= σ2a2ij/ 2 ,其中σ2是已知的方差常数;对于取值为0 1 Bernoulli 分布,我们有ba ij=log1 +exp a ij));对于Poisson分布,有ba ij=exp a ij)。 在Fan 等(2019)的工作里,他们使用同样的核范数惩罚 来使得最终的参数矩阵 具有近似低秩的性质。Fan 等(2019)将该方法应用到S&P 500 的股票收益率预测和图像分类的经典数据集 CIFAR 10⑧上。在S&P 500 的股票收益率预测问题上,该方法采用核范数作为惩罚项,普遍比不带惩罚项的方法得到的效果好。在图像分类问题上,该方法采用了卷积神经网络(Convolutional neural networkCNN )加上核范数惩罚的方法,比对应的卷积神经网络加上L 1 范数惩罚项效果更好。(二)数据分布不同的情形这是一种更一般的刻画数据多源异质性的情形,即各来源数据的概率分布与模型各不相同。比如我们在多任务学习的框架下想要同时解决分类问题和回归预测问题,其中分类问题的数据可以来自条件Bernoulli 分布,回归预测问题则可以来自Gaussian 分布。比如连续值数据可以是Gaussian 分布,0 / 1 取值数据可以用Ber⁃noulli分布或Logistic模型,多值离散数据可以用Multi-probit分布模型等条件分布。AlayaKlopp2019)考虑了基于指数分布族的损失函数LA Y)构建。他们假设观测到的矩阵Y 的数据元素来自S 个不同的概率分布,即数据Y 和其对应的真实参数矩阵A 0 可以分成S 块,分别记为Y =[ Y1),……YS] A 0=[ ……] ,其中 =( ),s = 1 ……S 。具体来说,假设每个数据 属于参数可取不同值的指数分布。在该模型的假设下,实际场景里的数据可以来自于不同的来源和任务。针对每个分布,即便分布形式一样,其中的具体参数也可以完全不同,比如同样都是高斯分布,不同的任务可以有不同的均值μ 和方差σ2。基于这一前提假设,AlayaKlopp2019)考虑以加权平均方式的损失函数来同时完成S 个不同任务,基于指数分布族的特征构建矩阵完备化问题的损失函数:yi j=■■||1 以概率 f ( ) a0 , i j- 1 以概率1 - f ( ) a0 , i jL ( ) A, Y =∑( ) i , jti j { }Ι■ ■yij= 1l o g( )f ( ) ai j+ Ι■ ■yij= - 1l o g( ) 1 - f ( ) ai jR ( ) A = ‖ ‖ A*L ( ) A, Y =1N∑( ) i , jti j { } b(ai j) - yi jai jR ( ) A = ‖ ‖ A*AA1 0AS 0as 0 i jAS 0ys i j大数据情境下的数据完备化:挑战与对策管理科学与工程- -202《管理世界》2022年第1 期(11)其中每个s 代表不同的任务和数据来源,Ts=( )是每个不同来源数据分别对应的示性矩阵,N=∑ 是总的观测值。此时,数据异质性特通过不同的联接函数b s·)体现,即代表不同的数据的分布及任务。对于不同源数据之间共享的特征,我们则是通过公共的惩罚项 来约束进行同步学习,使得多源异质数据A 0能够共享低秩的结构信息。在这个框架下,AlayaKlopp2019)建立了预测误差的上界。AlayaKlopp2019)将该方法应用到模拟数据集上,该方法比分别单独估计每个来源的矩阵完备化的准确率更高。Robin等(2020)同样也考虑了上述的问题框架,更具体地,他们对于具体参数矩阵A 0 进行了更加细致地建模,类似于Mao 等(2019)的思路,将A 0 分解成主效应和相互效应两个部分A 0 = α U + L 。对应地,用来约束多源异质数据A 0 的惩罚项RA)则变为(12)式,进一步可通过求解整体优化问题来寻求最优完备化方式。(12)多源异质情境下的数据完备化方法可以广泛应用于多种领域。如在面向制造企业车间执行层的生产信息化管理系统(MES )整合了包括RFID、条码设备、传感器等多种渠道采集的数据。由于不同采集设备的数据分布形态各不相同,且可能以不同的频率产生故障,从而造成采集到的数据中的缺失情况呈现多源异质的特点。应用上述数据完备化方式可对其中蕴含的多源异质特点进行充分建模,从而实现更优的数据完备化效果以供后续分析决策使用。五、时空关联场景下的缺失数据完备化问题流式产生是大数据的另一突出特点,即大数据以一定的时间颗粒度产生及被记录下来。若在此情境下发生数据缺失问题将具有强时空关联性的特点。如在金融大数据领域,常见的数据来源包括股价、交易记录、高频交易信息、分析师预测、新闻、社交媒体用户情绪数据等。而机构/ 散户对于某一公司/ 股票的关注情况常常并不连续,造成大量信息缺失。但这些缺失信息之间呈现出强时序性的特点。在设计相关数据完备化方法时,应对其特点充分加以考虑。在此类数据完备化问题中,为实现对时空维度的刻画,通常在二维矩阵表示的数据形态中引入新的用于表征时间或空间的维度,从而形成张量(Tensor )数据。张量指的是多维(或者K 维)阵列数据。特别地,一维张量(K = 1)对应的是向量数据;二维张量(K = 2)对应的是矩阵数据。通常人们将K ≥ 3 的张量称为高阶张量。如在考虑时间动态性的推荐系统里,除了已有的用户商品的二维评分矩阵,还会考虑额外的时间标签信息。又如,对于一些交通网络数据,也能获得额外的时间或者空间信息形成张量形式。相应地,如果观测值带有缺失的情况下,我们需要考虑张量完备化来完成对应的高维数据完备化。为了符号简洁和讨论方便,本文只对三阶张量形态的数据完备化进行介绍,更高阶的张量模型可以做类似推广。如果不对张量的维度做特殊的结构假设,我们可以将矩阵完备化方法直接推广到张量完备化里来。常用的张量分解方法为Kiers2000)给出CANDECOMP/PARAFAC 分解,简称CP分解;其中CANDECOMcanonical decomposition的缩写,该方法在Carroll Chang1970)中提出;PARAFAC parallel factors的缩写,在Harshman1970)中提出。对于秩为r 的张量A 0 ,根据张量秩的定义,我们可以将它表示成r 个秩为1 的张量之和,即:(13)其中, , , , 为CP分解的表示符号,具体如图4 所示。对于观测到的带有缺失值的流数据,我们能对应地产生一个由{ 0 1 } 元素组成的指示符张量T =tijk ),其中tijk y ijk 的缺失指示,即tijk = 0 表示缺失;tijk = 1 为非缺失。进而可以直接将矩阵数据完备化问题的形式推广到张L ( ) A, Y =1N∑s = 1S∑( ) i , jt( s)i j { } bs ( )a( ) si j- y( ) si ja( s)i jR( A) = ‖ ‖ A*R ( ) A = | | α0+ ‖ ‖ L*A0= ⟦ ⟧ U0, V0, W 0=∑i = 1ru0 i° v0 i° w0 iU0= [ ] u0 1, u0 2, ⋯, u0 r∈n1× rV0= [ ] v0 1, v0 2, ⋯, v0 r∈n2× rW 0= [ ] w0 1, w0 2, ⋯, w0 r∈n3× r⟦ ⟧ ⋯ts i jts i jR R R- -203量形式。在一般的情况下,损失函数和正则化项部分可分别表示为:(14)(15)在张量完备化问题中,为了减少计算的复杂度,我们通常假设要完备化的张量的秩r 是已知的。对于带有时空属性维度的张量,Zhou等(2015)考虑在惩罚项RA)上继续加上一些带有时空属性的特殊结构约束。特别地,他们考虑如下惩罚项:(16)其中,F G 是空间约束矩阵,H 是时间约束矩阵,λ α 是两个不同的调节参数。不同于矩阵完备化问题,在张量完备化中,需对具有时空属性的维度做特殊的结构约束(如AR模型、Toeplitz矩阵等),使得该完备化不是简单的矩阵完备化的拓展,而是得到一个具有时空性质的张量。考虑时空关联性的数据完备化方法在管理实践中具有广阔的应用前景。如在对大气环境进行长期监测以应用于宏观政策分析时,监测数据中的缺失情形呈现时空关联的特点,需在完备化过程中加以考虑。通过加入上述对特殊时空属性的结构约束,可保证数据完备化结果体现了时空关联情形,更好地保障完备化效果,以供后续环境政策分析决策使用。六、讨论与总结随着移动互联环境下新兴技术的快速发展,多维度、跨领域的大规模数据日益可测可获,不仅深刻地改变了社会经济生活的面貌,也孕育着管理决策理论与方法的重大变革,推动管理决策研究向大数据驱动范式转变。然而,超高比例的数据缺失现象常常制约着数据价值挖掘及后续管理决策的进行。为提升数据质量及完备性,需结合问题情境特点设计精准高效的数据完备化方法。在实际应用中根据问题特点选择合适的方法进行数据完备化对后续分析及管理决策制定至关重要。在进行方法选择时,可从以下两方面考虑。首先,我们可以从实际数据特点出发。如果实际数据是维数大于等于3 维的张量数据,我们优先考虑流式数据完备化方法,进一步地,如果一些数据维度有特定的信息,比如包含时间或者空间等信息,则可以考虑应用具有时空性质的流数据完备化方法。如果是一般的矩阵数据,则需要首先对数据分布进行判断。如对二元数据,可以采用二元数值矩阵完备化方法。对于连续型数据,可以采用平方损失函数的矩阵完备化方法。如果数据来自不同的分布,则可以应用指数分布族等混合型分布的矩阵完备化方法。其次,选择不同完备化方法的另一个主要影响因素是数据缺失机制。在实际应用中相对比较难以验证实际的缺失机制是否符合模型假设,因而我们建议可分别采取比较经典的缺失机制,比如完全随机缺失机制中的均匀缺失,随机缺失机制中的低秩缺失机制来得到初步结果。如果初步结果相差不大,则可以采用这些得到的结果,如果结果差别很大,说明缺失机制较为复杂。建议可以采用非参数模型的缺失机制,通过构建平衡权重的方法来完成矩阵完备化。关于完备化后的数据矩阵的统计学性质及在管理实践中的应用也是统计学领域近期的关注方向。其一,完备化好的矩阵可直接用于管理决策。如在电子商务、内容推荐等领域广泛应用的推荐系统,在对用户商品评分矩阵进行补全后,可直接采用对完备化后的评分值进行排序的方式展开Top- N 推荐(Kang et al.2016)。 其二,可对完备化好的矩阵进行后续统计推断、机器学习等任务。如 图4 CP分解示意图L ( ) A, Y =1n1n2n3‖ ‖T ° ( ) ⟦ ⟧ U , V, W - Y2FR ( ) A = λ(‖ ‖ U2F+ ‖ ‖ V2F+ ‖ ‖ W2F)λ( ) ‖ ‖ U2F+ ‖ ‖ V2F+ ‖ ‖ W2F+ α ( ) ⟦ ⟧ F U , V, W + ⟦ ⟧ U , GV, W + ⟦ ⟧ U , V, H W大数据情境下的数据完备化:挑战与对策管理科学与工程- -204《管理世界》2022年第1 Chen等(2019)分别对采用凸和非凸方法进行完备化后的矩阵构造了对应的纠偏统计量,使得纠偏后的矩阵能够对缺失数据和低秩因子等构建置信区间和置信区域。XiaYuan2021)通过数据分裂构建具有渐近正态性质的矩阵估计,从而对线性形式的参数提供置信区间的估计和假设检验。通过这些方法,在对矩阵完成完备化后,我们可以进一步地针对完备化好的矩阵应用一些传统统计方法进行推断。综上,本文在系列工作的基础上对大数据情境下数据完备化问题进行了梳理。针对大数据时代数据所呈现的超高维度、多源异质、时空关联的三类典型情境,分别总结了其情境特点、数据完备化挑战、求解思路及管理意义。后续研究可进一步探索融合多种情境特点的大数据完备化问题的建模形式、求解路径,并进一步思考相关方法在管理实践中的具体应用及价值测算。(作者单位:陈松蹊,北京大学光华管理学院、北京大学统计科学中心;毛晓军,上海交通大学数学科学学院;王聪,北京大学光华管理学院)注释①https //cran.r-project.org/web/packages/softImpute/index.html.②⑦https //grouplens.org/datasets/movielens/100 k/.③⑤⑥http //research.yahoo.com/Academic Relations.④http //www.cs.cornell.edu/~schnabts/mnar/.⑧https://www.cs.toronto.edu/~kriz/cifar.html.参考文献(1)陈国青、曾大军、卫强、张明月、郭迅华:《大数据环境下的决策范式转变与使能创新》,《 管理世界》,2020年第2 期。(2)徐宗本、冯芷艳、郭迅华、曾大军、陈国青:《大数据驱动的管理与决策前沿课题》,《 管理世界》,2014年第11期。(3Allison P. D.2000“Multiple Imputation for Missing DataA Cautionary Tale”Sociological Methods & Research 283),pp.301 ~309 .4AlayaM. Z. and Klopp O. 2019“Collective Matrix Completion”Journal of Machine Learning Research 20pp.148 1 ~ 148 43.5BeckA. and Teboulle M.2009“A Fast Iterative Shrinkage-thresholding Algorithm for Linear Inverse Problems”SIAM Journalon Imaging Sciences21),pp.183 ~ 202 .6Candès E. J. and Recht B. 2009“Exact Matrix Completion Via Convex Optimization”Foundations of Computational Mathemat ⁃ics96),pp.717 ~ 772 .7Candes E J. Plan Y. 2010“Matrix Completion with Noise”Proceedings of the IEEE986),pp.925 ~ 936 .8CaiJ. F. Candès E. J. and ShenZ. 2010“A Singular Value Thresholding Algorithm for Matrix Completion”SIAM Journal onOptimization204),pp.1956~ 1982.9Carroll J. D. and Chang J. J. 1970“Analysis of Individual Differences in Multidimensional Scaling Via an N-way Generalizationof ‘Eckart-Young ’Decomposition ”Psychometrika 353),pp.283 ~ 319 .10ChenC. HeB. YeY. and YuanX. 2016“The Direct Extension of ADMM for Multi-block Convex Minimization Problems isNot Necessarily Convergent”Mathematical Programming1551 ~ 2),pp.57~ 79.11ChenY. FanJ. MaC. and Yan Y. 2019“Inference and Uncertainty Quantification for Noisy Matrix Completion”Proceedingsof the National Academy of Sciences 11646),pp.22931 ~ 22937 .12ChistovA. L. and GrigorievD. Y.1984“Complexity of Quantifier Elimination in the Theory of Algebraically Closed Fields ”International Symposium on Mathematical Foundations of Computer Science SpringerBerlinHeidelbergpp.17~ 31.13DavenportM. A.Plan Y. Van Den BergE. and Wootters M.2014“1 -bit Matrix Completion ”Information and Inference AJournal of the IMA 33),pp.189 ~ 223 .14DurrantG. B.2009“Imputation Methods for Handling Item-nonresponse in PracticeMethodological Issues and Recent De⁃bates”International Journal of Social Research Methodology124),pp.293 ~ 304 .15FanJ. GongW. and ZhuZ. 2019“Generalized High-dimensional Trace Regression Via Nuclear Norm Regularization ”Jour ⁃nal of Econometrics2121),pp.177 ~ 202 .16Feuerverger A. HeY. and Khatri S. 2012“Statistical Significance of the Netflix Challenge ”Statistical Science272),pp.202 ~231 .17HarshmanR. A.1970“Foundations of the PARAFAC ProcedureModels and Conditions for an‘Explanatory ’Multimodal Fac⁃tor Analysis ”UCLA Working Papers in Phonetics16pp.1 ~ 84.18IbrahimJ. G.ChenM. H.Lipsitz S. R. and Herring A. H.2005“Missing-data Methods for Generalized Linear ModelsAComparative Review”Journal of the American Statistical Association100469),pp.332 ~ 346 .19KangZ. Peng C. and Cheng Q. 2016“Top-n Recommender System Via Matrix Completion ”Thirtieth AAAI Conference on Arti ⁃ficial Intelligencepp.179 ~ 185 .20Keshavan R. H.MontanariA. and OhS. 2010“Matrix Completion from Noisy Entries”Journal of Machine Learning Research 11pp.2057~ 2078.- -20521KiersH. A. L. 2000“Towards a Standardized Notation and Terminology in Multiway Analysis ”Journal of ChemometricsAJournal of the Chemometrics Society 143),pp.105 ~ 122 .22Kleinberg J. LakkarajuH. Leskovec J. Ludwig J. and Mullainathan S. 2018“Human Decisions and Machine Predictions”The Quarterly Journal of Economics 1331),pp.237 ~ 293 .23Koltchinskii V. LouniciK. and TsybakovA. B.2011“Nuclear-norm Penalization and Optimal Rates for Noisy Low-rank Ma ⁃trix Completion ”The Annals of Statistics 395),pp.2302~ 2329.24LittleR. J. A.1988“Missing-data Adjustments In Large Surveys”Journal of Business & Economic Statistics 63),pp.287 ~296 .25LittleR. J. A. and RubinD. B.1989“The Analysis of Social Science Data with Missing Values”Sociological Methods & Re⁃search 182 ~ 3),pp.292 ~ 326 .26LittleR. J. A. and RubinD. B.2019Statistical Analysis with Missing Data John Wiley & Sons.27MaoX. ChenS. X. and Wong R. K. W. 2019“Matrix Completion with Covariate Information ”Journal of the American Statisti⁃cal Association114525),pp.198 ~ 210 .28MaoX. WongR. K. W. and ChenS. X.2021“Matrix Completion under Low-Rank Missing Mechanism”Statistica Sinica 314),pp.2005~ 2030.29MazumderR. HastieT. and TibshiraniR. 2010“Spectral Regularization Algorithms for Learning Large Incomplete Matrices”Journal of Machine Learning Research 11pp.2287~ 2322.30RechtB. 2011“A Simpler Approach to Matrix Completion”Journal of Machine Learning Research 1212),pp.3413~ 3430.31ReiterJ. P. and Raghunathan T. E.2007“The Multiple Adaptations of Multiple Imputation”Journal of the American Statisti⁃cal Association102480),pp.1462~ 1471.32RohdeA. and TsybakovA. B.2011“Estimation of High-dimensional Low-rank Matrices”The Annals of Statistics 392),pp.887 ~ 930 .33RobinG. KloppO. JosseJ. MoulinesÉ. and TibshiraniR. 2020“Main Effects and Interactions in Mixed and Incomplete Da⁃ta Frames”Journal of the American Statistical Association115531),pp.1292~ 1303.34RubinD. B.1987Multiple Imputation for Nonresponse in SurveysNew York: Wiley35Schnabel T. SwaminathanA. SinghA. ChandakN. and JoachimsT. 2016“Recommendations as Treatments DebiasingLearning and Evaluation”International Conference on Machine LearningPMLR pp.1670~ 1679.36WangJ. WongR. K. W. MaoX. and ChanK. C. G.2021“Matrix Completion with Model-free Weighting”In InternationalConference on Machine LearningPMLR pp.10927 ~ 10936 .37WangX. ZhangR. Sun Y. and QiJ. 2019“Doubly Robust Joint Learning for Recommendation on Data Missing Not at Ran ⁃dom ”International Conference on Machine LearningPMLR pp.6638~ 6647.38XiaD. and YuanM.2021“Statistical Inferences of Linear Forms for Noisy Matrix Completion ”Journal of the Royal StatisticalSociety Series BStatistical Methodology),831),pp.58~ 77.39ZhangP. 2003“Multiple ImputationTheory and Method”International Statistical Review/Revue International Statistical Re ⁃view pp.581 ~ 592 .40ZhouH. ZhangD. XieK. and ChenY. 2015“Spatio-temporal Tensor Completion for Imputing Missing Internet Traffic Da⁃ta ”IEEE 34th International Performance Computing and Communications ConferenceIPCCC ),IEEEpp.1 ~ 7 .(上接第163 页)Industrial Marketing Management Vol. 43No.6 pp.938 ~ 950 .71WalshJ. P. 1995“Managerial and Organizational CognitionNotes from a Trip Down Memory Lane ”Organization Science Vol. 6 No.3 pp.280 ~ 321 .72WangT. and ChenY. 2018“Capability Stretching in Product Innovation ”Journal of Management Vol. 44No.2 pp.784 ~ 810 .73WassmerU. Li S. and MadhokA. 2017“Resource Ambidexterity through Alliance Portfolios and Firm Performance”StrategicManagement JournalVol. 38No.2 pp.384 ~ 394 .74WenJ. QuallsW. J. and ZengD. 2020“Standardization Alliance NetworksStandard-Setting Influenceand New Product Out⁃comes ”Journal of Product Innovation Management Vol. 37No.2 pp.138 ~ 157 .75YangW.GaoY. Li Y. Shen H. and Zheng S. 2017“Different Roles of Control Mechanisms in Buyer-supplier Conflict AnEmpirical Study from China ”Industrial Marketing Management Vol. 65pp.144 ~ 156 .76YinR. K.2009Case Study ResearchDesign and MethodsBeverly HillsCASage Publications Inc.77YinR. K.2013“Validity and Generalization in Future Case Study Evaluations ”EvaluationVol. 19No.3 pp.321 ~ 332 .78YooY. Boland R. J.Lyytinen K. and MajchrzakA. 2012“Organizing for Innovation in the Digitized World ”OrganizationScience Vol. 23No.5 pp.1398~ 1408.79YooY. Henfridsson O. and Lyytinen K. 2010“The New Organizing Logic of Digital InnovationAn Agenda for InformationSystems Research”Information Systems ResearchVol. 21No.4 pp.724 ~ 735 .80ZittrainJ. 2006“The Generative Internet ”Harvard Law ReviewVol. 119 No.7 pp.1974~ 2040.■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■大数据情境下的数据完备化:挑战与对策管理科学与工程- -206Missing Data Completion in the Big Data Era: Challenges and SolutionsChen Song Xia,b, Mao Xiaojuncand Wang Conga(a. Guanghua School of Management, Peking University, Beijing; b. Center for Statistical Science, Peking University,Beijing; c. School of Mathematical Sciences, Shanghai Jiao Tong University, Shanghai)Summary: With the advent of the digital economy era, data has been regarded as an important production fac⁃tor and has profoundly changed the paradigm of managerial decision-making. The analysis and utilization of big datahave become an important factor in enabling managerial practices. The quality and completeness of the data is an im⁃portant prerequisite for subsequent data value creation. However, due to factors such as the data collection method,collection process, and behavior patterns of the subjects collected, the big data often exhibits the characteristics of ul⁃tra-high missing rate, which seriously affects the subsequent effects of data analytics and decision-making. Therefore,the effective completion of big data is significant to subsequent data analytics and decision-making.Given that most big data are in matrix format, this article systematically studies the big data completion problemfirst from the perspective of matrix completion. The core task of the matrix completion problem is to obtain an esti⁃mated matrix A^of the true matrix A0 through the observed matrix Y with a high missing rate. To make the problemtractable, some structural assumption is usually imposed on the estimated matrix, e.g., assuming that the observed ma ⁃trix is generated by a small number of rows or columns. Hence, this article proposes to formulate the data completionproblem as an optimization problem to obtain the estimated A^by minimizing the combination of loss function L( A,Y )and the regularization term R ( A), i.e.,Subsequently, the article describes the matrix completion optimization problems in three typical contexts of bigdata, i.e., big data with ultra-high dimension, multi-source heterogeneity, and temporal-spatial correlation. In eachcontext, the specification of the loss function and the regularization is introduced and the solution paths are describedwith concrete managerial examples. In the big data with ultra-high dimension context, the low-rank regularizer is usu⁃ally imposed on the structure of the estimated matrix. For the loss function part, three types of missing mechanisms, i.e., missing completely at random, missing at random and missing not at random, are considered and the loss func⁃tions are derived accordingly. In the heterogeneous data context, two typical scenarios are studied, i.e., mild heteroge⁃neity with data from the same distribution of different parameters, and strong heterogeneity, where data come from dif⁃ferent distributions. The article articulates the state-of-the-art optimization problem specification, solution methodsas well as potential completion outcomes for both settings. For the temporal-spatial correlated case, the tensor comple⁃tion problem can be formulated to take account of the temporal or spatial information, and thus the loss function, aswell as the regularization parts, are designed accordingly. Tensor factorization methods can be used to solve the high-dimensional optimization problem.The article also provides a guideline to select different data completion methods based on the characteristics ofthe data, such as missing mechanism, dimensionality, source diversification, etc. Furthermore, this article also discuss⁃es how follow-up data analytics can be carried out after completion.This article contributes to related literature as well as managerial practices in three folds. First, a unified prob⁃lem formulation framework with easy extension is proposed. Second, various state-of-the-art solutions are systemati⁃cally summarized with their applicability, pros and cons, which provides a good reference for relevant scholars andmanagerial practitioners. Third, the effective usage of the data completion methods will contribute to managerial deci⁃sion-making.Keywords: data completion; ultra-high dimension; multi-source heterogeneity; temporal-spatial correlation; man⁃agerial decision-makingJEL Classification: C 81A = a r g m i nA ∈{ } L ( A, Y ) + R( A)A

[返回]
上一篇:大型国企发挥产业链链长职能的路径与机制
下一篇:大气污染协同治理的理论机制与经验证据