摘要: 针对原油价格预测问题, 提出一种基于 EM D ( 经验模式分解) 和 S V M s ( 支持向量机) 的非线性组合预测方法。该方法运用 EM D 技术将原油价格序列分解成若干个不同频率的分量, 根据频率高低将各分量分组叠加得到 3 个新序列, 分别代表市场波动价格、 重大事件价格、 趋势价格; 针对此 3 个序列, 构建不同 SV M s 模型分别进行预测, 得到各序列预测值; 用SV M s 针对各序列预测值构建组合模型得到最终预测值。采用 WT I 和 Br ent 原油现货价格数据验证本方法的有效性, 结果表明, 此方法与单一的 S V M s 模型和人工神经网络模型相比,具有较高的预测精度。
关键词: 原油价格; 经验模式分解; 本征模函数; 支持向量机; 组合预测
Ab st rac t : I n or der t o p r edic t w or ld c r u de oil p r ic e, an emp ir ic al mo de dec om pos it i o n ( EM D)bas e d s up po r t vec t or machin e ( S V M ) en semb le lear nin g par adig m is p r op osed. T he or igin al cr ud e oilsp ot p r ic e s er ie s ar e fir s t d e com pos e d i n t o a f init e n u mb e r of ind e p end e n t i n t r ins ic mo de fu nct i o ns( I M F s) , w it h dif fer ent fr e qu encie s . T h e n th e I M F s ar e comp osed int o t hr e e s u b - ser ie s , namely f luc t u atin g pr oc ess , big event s a n d a t r e n d, b a s e d on f ine - to - c o a r se r ec o ns tr uct i o n r ule. T h e n d iff er e n tSV M mod els ar e us ed t o m odel and f or ec ast t h e th r ee su b - ser ies r esp ec t ively. F inally , t h e f or ec as ts ofth e t h r ee su b - s e r ies ar e c o mb i n ed w it h an ot her SV M mod e l t o f or m u la t e an en semb le f or ec ast f or th eor igin al cr ud e oil pr ice ser ie s . T o validat e t h e p r op osed en semb le lear n i n g p a r a d igm, t w o main cr u deoil p r ic e ser ies, Wes t T exas I n t er mediate ( W T I ) cr u de oil sp ot p r ic e and Br en t c r u de oil s po t p r ic e ar eus e d . T h e emp i r i cal r e s ult s demon st r at e e f fectiven e s s an d at tr activ e n e s s o f t h e p r op os e d EM D - bas e dSV M e n semb le lear n i n g p a r ad i g m c om par ed w i t h s ing le S V M s a n d ar t i f ic ial n eur al net w or k s.
K ey wor d s: cr ud e oil pr ice ; EM D ; I M F; S V M ; en semb le f or ec ast in g
准确预测原油价格对于国家、企业和投资者有十分重要的现实意义, 也是学术界研究的热点问题[ 1]。文献表明, 从定性角度对原油价格进行预测是一些学者采用的方法[ 2 ]; 从定量角度出发的计量经济模型和统计模型是原油价格预测的常用方法[ 3, 4 ], 但是, 由于原油价格序列是非线性和非平稳时间序列, 所以精确预测原油价格是一项非常有挑战性的工作。传统的统计模型和经济学模型建立在数据是线性的假设之上的, 很难捕捉到隐藏在原油价格序列中的非线性模式,通常不能得到精确的原油价格预测结果。为了克服传统模型的局限性, 人工神经网络(ANN)、支持向量机和遗传规划(GP)等计算智能方法被运用于原油价格预测[ 5~ 7 ]。
实验结果表明,这些方法的预测精度优于传统模型。借助于数字信号处理领域的经验模式分解(empirical modedecomposition, EMD)技术和人工神经网络模型, YU等[ 8]先运用EMD对原油价格序列进行分解, 得到若干个本征模函数# 1884 #第 7 卷第 12 期2 010 年 1 2 月管 理 学 报C h i n ese J ou r nal of M an agemen tV ol . 7 N o. 1 2Dec. 2 01 0序列(个数一般为log2 (N), N为时间序列样本点个数)和一个剩余分量;然后运用前馈神经网络(feed-forwardneural network, FNN)模型对每个本征模函数以及剩余分量进行预测; 最后用自适应线性神经网络(adaptivelinear neuralnetwork, ALNN) 模型将各分预测值进行组合,取得较好的预测效果。本文基于EMD和SVMs的预测方法对原油价格序列进行建模与预测, 技术思路和文献[8]相似, 但主要区别在于: ¹不直接对EMD分解得到的分量序列建模, 而是先进行组合, 形成3个新的序列, 从而大大减少了建模工作量和建模复杂程度; º相比ANN建模要求实验者具有网络拓扑结构设计、学习函数选择等丰富经验, SVMs建模复杂程度相对较低; »运用WTI和Brent 原油现货价格数据验证本文所提出的方法, 结果表明, 不仅比单一的ANN和SVMs模型预测效果好, 也优于文献[8]中所提出的方法。
1 模型原理
1.1 经验模式分解EMD由HUANG等[ 9, 10]在1998年提出,它通过对信号的/筛选0将信号分解成不同频率的本征模函数(intrinsicmodefunction, IMF),IMF具有如下特点: ¹极值(极大值和极小值)数与过零点的数目相等或最多相差1个; º在任意时刻, 其上下包络线的均值必须是0。具体的分解过程如下:步骤1 确定数据序列x(t)的局部极值点,包括局部极大值和局部极小值。步骤2 找出所有局部极大值并利用3次样条插值函数连接成上包络xup (t); 同理, 利用3次样条插值函数连接所有局部极小值构成下包络xl o w (t)。步骤3 根据上下包络计算包络均值m(t), m(t)=[xup (t)+xl o w (t)]/2。步骤4 计算新数列c(t), c(t)=x(t)-m(t)。步骤5 如果c(t)满足条件IMF的2个特点,那么c(t)就是一个IMF, 此时用r(t)=x(t)-c(t)来代替步骤1中的x(t); 如果c(t)不是IMF,那用c(t)代替步骤1中的x(t)。步骤6 重复步骤1~步骤5直到c(t)是一个IMF,记为c1 (t)。通过对剩余部分r1 (t)=x(t)-c1 (t)实施以上步骤可以提取出下一个本征模函数, 这里c1 (t)是第1个本征模函数。这个分解过程可以一直进行下去, 直到rn (t)只有一个局部极值点或变成一个单调函数, 此时已经提取不出本征模函数。过滤程序结束后, 数据序列x(t)可以写成x ( t ) =Eni = 1c i ( t ) + rn ( t ) , ( 1)式中,n为本征模函数的个数; rn (t)是最终剩余变量,它是x(t)的主要趋势项;ci (t)为本征模函数,这些模函数之间几乎是正交的。
1.2 分解分量组合通过以上分解提取的本征模函数具有不同时间尺度, 因此可以对IMF分量ci (t)按频率从高到低排列后进行组合。实际运用中, 常采用频率由高到低的原则对本征模函数进行组合,步骤如下:步骤1 计算本征模函数c1 (t)到cn (t)的均值。步骤2 用-t 检验确定均值显著偏离于零的本征模函数ci (t)。步骤3 从第1个本征模函数直到第i-1个本征模函数简单相加重构为高频部分; 第i个本征模函数到第n个本征模函数简单相加重构为低频部分。
1.3 支持向量机SVM是由VAPNIK[ 1 1~ 14]提出的一种新兴的基于统计学习理论的机器学习技术, 是最大间隔超平面、Mercer核、凸二次规划、稀疏解和松弛变量等技术的集大成者。该方法具有结构简单、学习速度快、全局最优、泛化性能好等优点,能较好地解决小样本、非线性、高维数和局部极小等问题。其模型的基本思想[ 15]是: 对给定的训练样本集合T={(xi , yi )}ni = 1 (其中xi 为输入变量, yi 为输出数值, n为样本总数),通过一个非线性映射<, 把数据输入空间的输入变量x 映射到高维特征空间; 然后在特征空间中进行线性回归, 构造出最优学习器:f ( x ) = XT< ( x ) + b , ( 2)式中, X和b是通过正则化和结构风险准则来估计的。根据结构风险最小化准则可得:mi n12+ X+2+ CEli = 1( N i + N*i )2,s . t .y i - XT<( x i ) - b [ E + N i ,XT< ( x i ) + b - y i [ E + N*i ,N i , N*i \ 0 , i = 1, 2, ,, n 。( 3)式中,Ni 和N*i 为松弛变量, 分别表示在不敏感损失E的约束下训练误差的容许上限和容许下限;C( \0)为惩罚因子, 控制对误差超出E的样# 188 5 #基于 E M D 和 S V M s 的原油价格预测方法 ) ) ) 杨云飞 鲍玉昆 胡忠义 等本的惩罚程度。根据对偶理论及鞍点条件, 原始问题式(3)的对偶形式为:mi n12 Eli , j = 1( A*i - A i ) ( A*j - A j ) [ <( x i ) , < ( x j ) ] +EEli = 1( A*i + A i ) -Eli = 1y i ( A*i - A i ) ,s . t .Eli = 1( A i - A*i ) = 0,0 [ A i [ C , 0 [ A*i [ c ,i = 1 , 2 , ,l ,( 4)且有X =Eli = 1( A*i - A i ) , ( 5)式中,Ai 是A*i 非负的拉格朗日乘子, 式(4)为凸二次规划问题, Ai 和A*i 可以通过式(4)得到。根据Karush-Kuhn-Tucker 条件[ 1 6], 可求得Ai 、A*i 和b, 其中只有少数ai 、a*i 不为0, 这些参数对应的样本, 即在不灵敏区边界上或外面的样本称为支持向量(SV)。将式(5)带入式(2)可得f ( x ) =Eli = 1( A*i - ai ) k( x i , x J ) + b, ( 6)式中,k(xi ,xj )=[<(xi ), <(xj )]称为核函数, 任何函数只要满足Mercer条件[ 17 ], 均可作为核函数。常用的核函数有:线性核函数k( x , y ) = ( x , y ) ; ( 7)多项式核函数k ( x , y ) = [ ( x , y ) + t ]d; ( 8)RBF核函数k ( x , y ) = ex p -+ x - y +2R2 ; ( 9)Sigmoid核函数k( x , y ) = t an h [ A ( x , y ) + B ] , ( 1 0)式中,t、d、R2、A和B为核函数的参数。
2 EM D - S V M s - S V M s 模型
EMD可将非平稳的原油价格序列按其内在特性自适应地分解为若干个不同频率的IMF, IMF按照其频率由高到低重新组合后更能突出原油价格的局部特征。根据ZHANG等[ 18]的工作, 原油价格由市场波动项、重大事件项和趋势项组成, 对这3组有具体经济含义的部分进行分析能更清楚地把握原油价格特性。根据各组数据特征, 分别采用不同核函数类型和参数的SVMs 模型进行预测; 同时, 采用SVMs对分项预测值的组合关系进行建模, 获得最终预测值。其基本思想是: 将各项同时刻的预测值作为输入, 将该时刻实际价格作为输出,经过足够样本的学习,建立各分量预测值和实际值之间的函数映射关系; 对于训练好的模型,当输入变量为各分项预测值时, 其输出即为原油价格的最终预测值。综上所述, 本文所提出的预测方法可以表述为EMD-SVMs-SVMs 模型, 其基本步骤如下:步骤1 对原油价格序列进行EMD分解得到n个本征模函数和1个剩余分量;步骤2 根据频率的高低把本征模函数组合成2个部分, 剩余分量不变;步骤3 对上述3 个子序列分别建立SVMs预测模型, 进行预测;步骤4 将得到的各序列预测值输入训练得到的SVMs组合模型,得到最终预测值。图1反映了EMD-SVMs-SVMs预测模型的工作流程。图 1 E M D - S V M s - S V M s 预测流程图
3 数据实验
3.1 实验数据及评价标准本文采用国际原油市场的重要价格序列WTI和Brent现货市场日交易价格作为实验样本数据,数据来源于美国能源局网站(http: //www. eia. doe.gov)。选取2个数据集来验证模型的有效性: 第1个数据集为1987年5月20日~2007年2月1日之间的WTI和Brent 原油价格数据集合;第2个数据集为文献[8]中所用的数据集合, 即1986年1月1日~2006年9月30日WTI原油价格数据和1987年5月20日~2006年9月30日的Brent原油价格数据。限于篇幅, 本文只给出了在第1个数据集上进行的实验分析过程,以及在第2个数据集上的分析结果。在第1个数据集上, 剔除非交易日数据后得到WTI原油现货价格数据4975个、Brent 原油现货价# 1886 #管理学 报第 7 卷 第 12 期 2 010 年 1 2 月# 188 7 #基于 E M D 和 S V M s 的原油价格预测方法 ) ) ) 杨云飞 鲍玉昆 胡忠义 等的影响下油价会出现剧烈波动, 但随着事件影响的消失, 油价会恢复到趋势价格附近。重大事件价格由低频的IMF构成,是原油价格的重要组成部分, 在受到诸如战争等重大事件影响下出现剧烈的波动, 持续期一般为4~5年。原油价格除了受趋势项和重大事件影响外, 还受到很多其他因素影响, 比如天气、工人罢工和库存变化等。考虑到这些因素的影响时间都比较短,把这些因素划归到高频的市场波动项, 由高频的IMF组成。市场波动项虽然对原油价格的影响不大, 但由于其波动的频繁性,使得市场波动项在原油价格短期预测中非常重要。根据市场波动项、重大事件影响项和趋势项各自的变化规律, 分别选用不同的SVM函数及参数建立预测模型, 再进行组合预测。核函数和参数选择见表1。表 1 分项 S V M s 模型核函数和参数核函数WT I高频RB F低频线性趋势线性Brent高频RB F低频线性趋势线性参数设置C= 32C = 0. 1E = 0. 05C= 64E = 0. 000 1C = 1E = 0. 000 1C = 32C = 0. 1E = 0. 05C = 4E = 0. 000 1C = 0. 25E = 0. 000 1选定相应的SVMs对各分项预测后,预测误差见表2。表 2 分项预测误 差W T IRM S E M A P E D S/ %Br e ntR M S E M A P E D S/ %高频 0. 085 207 8. 441 0. 524 76 0. 085 263 1. 173 0. 513 17低频 4. 250 1 @ 10- 67. 668 2 @ 10- 30. 955 31 6. 783 1 @ 10- 60. 016 266 0. 955 09趋势项 6. 583 6 @ 10- 59. 349 3 @ 10- 40. 972 83 3. 521 7 @ 10- 65. 941 2 @ 10- 40. 982 56从表2可以看出, SVMs模型在低频重大事件影响项和趋势项上的预测能力相当出色。在高频市场波动项上的表现很差, 主要原因是高频市场波动项受市场投机影响比较大, 还受诸如天气、罢工、库存等因素影响, 这无疑增加了预测难度。把IMF组合为高频和低频2项进行预测, 有助于避免预测过程中的误差累积,可以提高最终的组合预测精度。组合预测时, 选用多项式核函数。对WTI和Brent 原油价格的最终组合预测结果见图8和图9。基于同样的数据集1, 本文选择文献[8]中提出的EMD-FNN-ALNN模型、单一的BP神经网络模型和单一的SVMs模型进行比较, 其预测结果见表3。在数据集2上, EMD-SVMsSVMs模型和EMD-FNN-ALNN模型进行比较, 预测结果见表4。实验结果表明, EMDSVMs-SVMs的预测结果明显优于单一的BP神经网络模型和单一的SVMs, 与EMD-FNN-# 1888 #管理学 报第 7 卷 第 12 期 2 010 年 1 2 月ALNN模型相比, 在模型复杂度明显较低的情况下, 也取得了较好的预测结果, 从而说明本文所提出的模型具有较优的预测能力。表 3 预测误差比较( 数据集 1 )模型WT IRMS E MA PE D S/ %BrentRMS E M A PE DS/ %EMD - SV Ms - SV Ms 0. 182 5 0. 018 7 86. 51 0. 192 6 0. 023 1 87. 91SV Ms 0. 314 0 0. 081 4 68. 72 0. 450 2 0. 060 9 70. 62BP 0. 865 2 1. 072 4 69. 53 0. 896 3 1. 565 6 69. 03EMD - FN N - AL NN 0. 350 2 0. 067 3 84. 32 0. 280 6 0. 052 3 82. 73表 4 预测误差比较( 数据集 2 )模型W T IR M S E D S / %Br entRM S E D S/ %EM D - SV M s - S V M s 0. 261 86. 23 0. 285 87. 94EM D - F N N - A L N N 0. 273 86. 99 0. 225 87. 81
4 结语
将非平稳的原油价格序列用EMD技术进行分解, 并对分解后的序列按照不同频率进行重新组合, 从而构成具有不同经济含义的时间序列,针对这些序列采用SVMs建立不同预测模型, 一方面降低了建模复杂度, 另一方面能够更为准确地刻画不同经济含义时间序列的数据特征,对于预测结果具有更好的解释性。
参 考 文 献[ 1 ] A BO S ED RA S , BA GH E S T A N I H . O n t h e Pred i ct i v eA cc u r ac y o f C ru d e O i l Fu t u re Pr i ces[ J] . E n e r g y Pol - icy, 2 00 4, 32 ( 1 2) : 1 3 89 ~ 1 3 93 .[ 2] 范英, 王恺, 张跃军, 等. 20 09 年国际原油市场分析 与价格预测[ J] . 战略与决策研究, 20 09 , 4 ( 1 ) : 4 2~ 4 5.[ 3] M O RA NA C A S emi par ame t ri c A p pr oach t o S h or t T er m Oi l P ri ce Fo recas t i n g [ J ] . En erg y E con omi c s ,20 01 , 2 3( 3) : 3 25 ~ 338 .[ 4] M IRM IRA NI S, L I H C . A C om par i s on of VA R an dN eu ral Net w or ks w i t h Gen et i c A l g or i t h m i n F or ec as t i n g Pr i ce o f O i l [ J ] . A dv ances i n E c o no met ri c s ,20 04 , 1 9: 20 3~ 2 23 .[ 5] W AN G S Y , Y U L , L A I K K . Cr ud e O i l Pr i ce Fo re cast i ng w i t h T EI@ I M et h od ol og y[ J] . J ou rn al of S ys t ems S ci en c es and Co mpl exi t y, 2 00 5, 1 8 ( 2 ) : 1 45 ~16 6.[ 6] XI E W , Y U L , X U S Y, et al . A N ew M et h od f orC ru d e Oi l P ri ce Fo recas t i n g B as ed o n S u p po rt V ect orM ach i n es [ J ] . L ect u re No t es i n Co mpu t er S ci en c e,20 06 , 3 99 4: 44 1~ 4 51 .[ 7 ] A M IN - N AS E RI M R, GH A RA CH E H E A. A H y b ri d A rt i f i ci al In t el l i g ence A p p roach t o M on t h l y Fo re cast i ng of C r ud e Oi l Pr i ce T i me S eri es[ C] / / T h e Pr o ce ed i n gs o f t h e 1 0t h Int ern at i on al C on f eren ce on En gi neer i n g A p pl i cat i o ns o f Neu ral N et w ork s , 20 07 : 1 60~ 1 67 .[ 8] Y U L, WA N G S Y , L A I K K . F or e cas t i n g C ru de O i lP ri ce w i t h an E md - B ased Neu ra l N e t w o rk En s embl eL earn i n g Par adi gm [ J ] . E n erg y E con omi cs , 2 00 8, 30( 5 ) : 2 6 23 ~ 2 6 35 .[ 9] HU AN G N E , S H E N Z, L ON G S R. A N ew V i ew o fN on l i near Wat er W aves : T he H i l b ert S p ect ru m [ J ] .A n nu al R e v i ew of F l u i d M ech an i cs, 19 99 , 3 1 ( 1 ) :41 7 ~ 4 57 .[ 10 ] H U A N G N E , S H E N Z , L ON G S R . T h e E mp i ri c alM od e Decomp os i t i on an d t h e H i l ber t S p ec t ru m f orNo nl i n ear an d N on s t at i on ar y T i me Ser i es A n al y s i s[ C ] / / T h e R oya l So ci et y A : M at h emat i cal , Ph ys i cal& E ng i n eeri ng S ci ences , 1 998 : 9 03 ~ 99 5.[ 11 ] VA P NIK V . T h e N at u re of S t at i st i cal L earn i n gT h e o ry [ M ] . N ew Yo rk : S p ri ng - V erl a g , 1 99 5.[ 12 ] VA P NIK V . Es t i ma t i on of Depen den ci es B as e d onEmp i r i cal D a t a [ M ] . B erl i n: S p ri n ger - V erl ag, 1 98 2.[ 13 ] C O RT E S C , V A PN IK V . S u pp or t - V e ct o r N et w ork s[ J ] . M ac h i ne L earn i n g, 19 95 , 2 0( 3 ) : 27 3~ 2 97 .[ 14 ] VA P NIK V , G OL OW IC H S , S M O L A M . S u pp or tVect o r M et h od f o r Fu n c t i on Ap p rox i mat i on , R e g res s i o n Es t i mat i on , an d S i g n al Pr oces si ng [ C ] / / A d v ances i n Neu ra l In f or mat i on P ro c es s i n g S ys t ems 9,M A, 19 97 : 2 81 ~ 287 .[ 15 ] B U RG ES C . A T u t or i al on Su p po rt V ec t o r M a ch i n es f o r P at t ern Recog ni t i on [ J ] . Dat e M i n i n g a n dK n ow l ed ge Di sco very , 1 99 8, 2 ( 2 ) : 12 1~ 1 27 .[ 16 ] 徐 成贤, 陈志平, 李乃成. 近代优化方法[ M ] . 北京:科 学出版社, 20 02 .[ 17 ] VA P NIK V N . St at i s t i cal L eari n g T h eo ry [ M ] .New Yo rk : W i l ey, 1 99 8.[ 18 ] Z HA N G X , L AI K K, W A N G S Y . A New A p p ro ac h f o r Cr ud e O i l Pri c e A na l ys i s Bas ed o n E mpi r i c al M od e Decomp os i t i on [ J ] . E ner gy E con omi c s ,2 00 8, 30 ( 3 ) : 9 05 ~ 91 8.( 编辑 张光辉)通讯作者: 鲍玉昆 ( 1 97 4 ~ ) , 男, 湖北襄 阳人。华 中科 技大学( 武汉 市 43 00 74 ) 管 理学 院副 教授, 博士。研 究 方向为智能预 测与 决策 技 术、 数据 挖 掘。E - mai l : yu ku n bao@ mai l . h us t . edu . cn# 188 9 #基于 E M D 和 S V M s 的原油价格预测方法 ) ) ) 杨云飞 鲍玉昆 胡忠义 等基于 E M D 和 SV M s 的原油价格预测方法杨云飞 鲍玉昆 胡忠义 张 瑞( 华中科技大学管理学院)摘要: 针对原油价格预测问题, 提出一种基于 EM D ( 经验模式分解) 和 S V M s ( 支持向量机) 的非线性组合预测方法。该方法运用 EM D 技术将原油价格序列分解成若干个不同频率的分量, 根据频率高低将各分量分组叠加得到 3 个新序列, 分别代表市场波动价格、 重大事件价格、 趋势价格; 针对此 3 个序列, 构建不同 SV M s 模型分别进行预测, 得到各序列预测值; 用SV M s 针对各序列预测值构建组合模型得到最终预测值。采用 WT I 和 Br ent 原油现货价格数据验证本方法的有效性, 结果表明, 此方法与单一的 S V M s 模型和人工神经网络模型相比,具有较高的预测精度。关键词: 原油价格; 经验模式分解; 本征模函数; 支持向量机; 组合预测中图分类号: C9 3; G 203 文献标识码: A 文章编号: 1 672 - 884 X( 20 10) 1 2 - 1 884 - 06C ru d e O il Pr i c e Pr e dic t ion b ase d on E mp iric al Mod e De c omposit ion and S u p por t Ve ct or Mach ine sY A N G Y u nf e i BA O Y u k un H U Z ho ng yi ZH A N G Ru i( H uazh on g U n iver sit y of S c ience and T ec h no logy , W uh an, Ch i n a)Ab st rac t : I n or der t o p r edic t w or ld c r u de oil p r ic e, an emp ir ic al mo de dec om pos it i o n ( EM D)bas e d s up po r t vec t or machin e ( S V M ) en semb le lear nin g par adig m is p r op osed. T he or igin al cr ud e oilsp ot p r ic e s er ie s ar e fir s t d e com pos e d i n t o a f init e n u mb e r of ind e p end e n t i n t r ins ic mo de fu nct i o ns( I M F s) , w it h dif fer ent fr e qu encie s . T h e n th e I M F s ar e comp osed int o t hr e e s u b - ser ie s , namely f luc t u atin g pr oc ess , big event s a n d a t r e n d, b a s e d on f ine - to - c o a r se r ec o ns tr uct i o n r ule. T h e n d iff er e n tSV M mod els ar e us ed t o m odel and f or ec ast t h e th r ee su b - ser ies r esp ec t ively. F inally , t h e f or ec as ts ofth e t h r ee su b - s e r ies ar e c o mb i n ed w it h an ot her SV M mod e l t o f or m u la t e an en semb le f or ec ast f or th eor igin al cr ud e oil pr ice ser ie s . T o validat e t h e p r op osed en semb le lear n i n g p a r a d igm, t w o main cr u deoil p r ic e ser ies, Wes t T exas I n t er mediate ( W T I ) cr u de oil sp ot p r ic e and Br en t c r u de oil s po t p r ic e ar eus e d . T h e emp i r i cal r e s ult s demon st r at e e f fectiven e s s an d at tr activ e n e s s o f t h e p r op os e d EM D - bas e dSV M e n semb le lear n i n g p a r ad i g m c om par ed w i t h s ing le S V M s a n d ar t i f ic ial n eur al net w or k s.K ey wor d s: cr ud e oil pr ice ; EM D ; I M F; S V M ; en semb le f or ec ast in g收稿日期: 2 010 - 04 - 27基金项目: 国家自然科学基金资助项目( 70 77 10 42 )准确预测原油价格对于国家、企业和投资者有十分重要的现实意义, 也是学术界研究的热点问题[ 1]。文献表明, 从定性角度对原油价格进行预测是一些学者采用的方法[ 2 ]; 从定量角度出发的计量经济模型和统计模型是原油价格预测的常用方法[ 3, 4 ], 但是, 由于原油价格序列是非线性和非平稳时间序列, 所以精确预测原油价格是一项非常有挑战性的工作。传统的统计模型和经济学模型建立在数据是线性的假设之上的, 很难捕捉到隐藏在原油价格序列中的非线性模式,通常不能得到精确的原油价格预测结果。为了克服传统模型的局限性, 人工神经网络(ANN)、支持向量机和遗传规划(GP)等计算智能方法被运用于原油价格预测[ 5~ 7 ]。实验结果表明,这些方法的预测精度优于传统模型。借助于数字信号处理领域的经验模式分解(empirical modedecomposition, EMD)技术和人工神经网络模型, YU等[ 8]先运用EMD对原油价格序列进行分解, 得到若干个本征模函数# 1884 #第 7 卷第 12 期2 010 年 1 2 月管 理 学 报C h i n ese J ou r nal of M an agemen tV ol . 7 N o. 1 2Dec. 2 01 0序列(个数一般为log2 (N), N为时间序列样本点个数)和一个剩余分量;然后运用前馈神经网络(feed-forwardneural network, FNN)模型对每个本征模函数以及剩余分量进行预测; 最后用自适应线性神经网络(adaptivelinear neuralnetwork, ALNN) 模型将各分预测值进行组合,取得较好的预测效果。本文基于EMD和SVMs的预测方法对原油价格序列进行建模与预测, 技术思路和文献[8]相似, 但主要区别在于: ¹不直接对EMD分解得到的分量序列建模, 而是先进行组合, 形成3个新的序列, 从而大大减少了建模工作量和建模复杂程度; º相比ANN建模要求实验者具有网络拓扑结构设计、学习函数选择等丰富经验, SVMs建模复杂程度相对较低; »运用WTI和Brent 原油现货价格数据验证本文所提出的方法, 结果表明, 不仅比单一的ANN和SVMs模型预测效果好, 也优于文献[8]中所提出的方法。1 模型原理1.1 经验模式分解EMD由HUANG等[ 9, 10]在1998年提出,它通过对信号的/筛选0将信号分解成不同频率的本征模函数(intrinsicmodefunction, IMF),IMF具有如下特点: ¹极值(极大值和极小值)数与过零点的数目相等或最多相差1个; º在任意时刻, 其上下包络线的均值必须是0。具体的分解过程如下:步骤1 确定数据序列x(t)的局部极值点,包括局部极大值和局部极小值。步骤2 找出所有局部极大值并利用3次样条插值函数连接成上包络xup (t); 同理, 利用3次样条插值函数连接所有局部极小值构成下包络xl o w (t)。步骤3 根据上下包络计算包络均值m(t), m(t)=[xup (t)+xl o w (t)]/2。步骤4 计算新数列c(t), c(t)=x(t)-m(t)。步骤5 如果c(t)满足条件IMF的2个特点,那么c(t)就是一个IMF, 此时用r(t)=x(t)-c(t)来代替步骤1中的x(t); 如果c(t)不是IMF,那用c(t)代替步骤1中的x(t)。步骤6 重复步骤1~步骤5直到c(t)是一个IMF,记为c1 (t)。通过对剩余部分r1 (t)=x(t)-c1 (t)实施以上步骤可以提取出下一个本征模函数, 这里c1 (t)是第1个本征模函数。这个分解过程可以一直进行下去, 直到rn (t)只有一个局部极值点或变成一个单调函数, 此时已经提取不出本征模函数。过滤程序结束后, 数据序列x(t)可以写成x ( t ) =Eni = 1c i ( t ) + rn ( t ) , ( 1)式中,n为本征模函数的个数; rn (t)是最终剩余变量,它是x(t)的主要趋势项;ci (t)为本征模函数,这些模函数之间几乎是正交的。1.2 分解分量组合通过以上分解提取的本征模函数具有不同时间尺度, 因此可以对IMF分量ci (t)按频率从高到低排列后进行组合。实际运用中, 常采用频率由高到低的原则对本征模函数进行组合,步骤如下:步骤1 计算本征模函数c1 (t)到cn (t)的均值。步骤2 用-t 检验确定均值显著偏离于零的本征模函数ci (t)。步骤3 从第1个本征模函数直到第i-1个本征模函数简单相加重构为高频部分; 第i个本征模函数到第n个本征模函数简单相加重构为低频部分。1.3 支持向量机SVM是由VAPNIK[ 1 1~ 14]提出的一种新兴的基于统计学习理论的机器学习技术, 是最大间隔超平面、Mercer核、凸二次规划、稀疏解和松弛变量等技术的集大成者。该方法具有结构简单、学习速度快、全局最优、泛化性能好等优点,能较好地解决小样本、非线性、高维数和局部极小等问题。其模型的基本思想[ 15]是: 对给定的训练样本集合T={(xi , yi )}ni = 1 (其中xi 为输入变量, yi 为输出数值, n为样本总数),通过一个非线性映射<, 把数据输入空间的输入变量x 映射到高维特征空间; 然后在特征空间中进行线性回归, 构造出最优学习器:f ( x ) = XT< ( x ) + b , ( 2)式中, X和b是通过正则化和结构风险准则来估计的。根据结构风险最小化准则可得:mi n12+ X+2+ CEli = 1( N i + N*i )2,s . t .y i - XT<( x i ) - b [ E + N i ,XT< ( x i ) + b - y i [ E + N*i ,N i , N*i \ 0 , i = 1, 2, ,, n 。( 3)式中,Ni 和N*i 为松弛变量, 分别表示在不敏感损失E的约束下训练误差的容许上限和容许下限;C( \0)为惩罚因子, 控制对误差超出E的样# 188 5 #基于 E M D 和 S V M s 的原油价格预测方法 ) ) ) 杨云飞 鲍玉昆 胡忠义 等本的惩罚程度。根据对偶理论及鞍点条件, 原始问题式(3)的对偶形式为:mi n12 Eli , j = 1( A*i - A i ) ( A*j - A j ) [ <( x i ) , < ( x j ) ] +EEli = 1( A*i + A i ) -Eli = 1y i ( A*i - A i ) ,s . t .Eli = 1( A i - A*i ) = 0,0 [ A i [ C , 0 [ A*i [ c ,i = 1 , 2 , ,l ,( 4)且有X =Eli = 1( A*i - A i ) , ( 5)式中,Ai 是A*i 非负的拉格朗日乘子, 式(4)为凸二次规划问题, Ai 和A*i 可以通过式(4)得到。根据Karush-Kuhn-Tucker 条件[ 1 6], 可求得Ai 、A*i 和b, 其中只有少数ai 、a*i 不为0, 这些参数对应的样本, 即在不灵敏区边界上或外面的样本称为支持向量(SV)。将式(5)带入式(2)可得f ( x ) =Eli = 1( A*i - ai ) k( x i , x J ) + b, ( 6)式中,k(xi ,xj )=[<(xi ), <(xj )]称为核函数, 任何函数只要满足Mercer条件[ 17 ], 均可作为核函数。常用的核函数有:线性核函数k( x , y ) = ( x , y ) ; ( 7)多项式核函数k ( x , y ) = [ ( x , y ) + t ]d; ( 8)RBF核函数k ( x , y ) = ex p -+ x - y +2R2 ; ( 9)Sigmoid核函数k( x , y ) = t an h [ A ( x , y ) + B ] , ( 1 0)式中,t、d、R2、A和B为核函数的参数。2 EM D - S V M s - S V M s 模型EMD可将非平稳的原油价格序列按其内在特性自适应地分解为若干个不同频率的IMF, IMF按照其频率由高到低重新组合后更能突出原油价格的局部特征。根据ZHANG等[ 18]的工作, 原油价格由市场波动项、重大事件项和趋势项组成, 对这3组有具体经济含义的部分进行分析能更清楚地把握原油价格特性。根据各组数据特征, 分别采用不同核函数类型和参数的SVMs 模型进行预测; 同时, 采用SVMs对分项预测值的组合关系进行建模, 获得最终预测值。其基本思想是: 将各项同时刻的预测值作为输入, 将该时刻实际价格作为输出,经过足够样本的学习,建立各分量预测值和实际值之间的函数映射关系; 对于训练好的模型,当输入变量为各分项预测值时, 其输出即为原油价格的最终预测值。综上所述, 本文所提出的预测方法可以表述为EMD-SVMs-SVMs 模型, 其基本步骤如下:步骤1 对原油价格序列进行EMD分解得到n个本征模函数和1个剩余分量;步骤2 根据频率的高低把本征模函数组合成2个部分, 剩余分量不变;步骤3 对上述3 个子序列分别建立SVMs预测模型, 进行预测;步骤4 将得到的各序列预测值输入训练得到的SVMs组合模型,得到最终预测值。图1反映了EMD-SVMs-SVMs预测模型的工作流程。图 1 E M D - S V M s - S V M s 预测流程图3 数据实验3.1 实验数据及评价标准本文采用国际原油市场的重要价格序列WTI和Brent现货市场日交易价格作为实验样本数据,数据来源于美国能源局网站(http: //www. eia. doe.gov)。选取2个数据集来验证模型的有效性: 第1个数据集为1987年5月20日~2007年2月1日之间的WTI和Brent 原油价格数据集合;第2个数据集为文献[8]中所用的数据集合, 即1986年1月1日~2006年9月30日WTI原油价格数据和1987年5月20日~2006年9月30日的Brent原油价格数据。限于篇幅, 本文只给出了在第1个数据集上进行的实验分析过程,以及在第2个数据集上的分析结果。在第1个数据集上, 剔除非交易日数据后得到WTI原油现货价格数据4975个、Brent 原油现货价# 1886 #管理学 报第 7 卷 第 12 期 2 010 年 1 2 月# 188 7 #基于 E M D 和 S V M s 的原油价格预测方法 ) ) ) 杨云飞 鲍玉昆 胡忠义 等的影响下油价会出现剧烈波动, 但随着事件影响的消失, 油价会恢复到趋势价格附近。重大事件价格由低频的IMF构成,是原油价格的重要组成部分, 在受到诸如战争等重大事件影响下出现剧烈的波动, 持续期一般为4~5年。原油价格除了受趋势项和重大事件影响外, 还受到很多其他因素影响, 比如天气、工人罢工和库存变化等。考虑到这些因素的影响时间都比较短,把这些因素划归到高频的市场波动项, 由高频的IMF组成。市场波动项虽然对原油价格的影响不大, 但由于其波动的频繁性,使得市场波动项在原油价格短期预测中非常重要。根据市场波动项、重大事件影响项和趋势项各自的变化规律, 分别选用不同的SVM函数及参数建立预测模型, 再进行组合预测。核函数和参数选择见表1。表 1 分项 S V M s 模型核函数和参数核函数WT I高频RB F低频线性趋势线性Brent高频RB F低频线性趋势线性参数设置C= 32C = 0. 1E = 0. 05C= 64E = 0. 000 1C = 1E = 0. 000 1C = 32C = 0. 1E = 0. 05C = 4E = 0. 000 1C = 0. 25E = 0. 000 1选定相应的SVMs对各分项预测后,预测误差见表2。表 2 分项预测误 差W T IRM S E M A P E D S/ %Br e ntR M S E M A P E D S/ %高频 0. 085 207 8. 441 0. 524 76 0. 085 263 1. 173 0. 513 17低频 4. 250 1 @ 10- 67. 668 2 @ 10- 30. 955 31 6. 783 1 @ 10- 60. 016 266 0. 955 09趋势项 6. 583 6 @ 10- 59. 349 3 @ 10- 40. 972 83 3. 521 7 @ 10- 65. 941 2 @ 10- 40. 982 56从表2可以看出, SVMs模型在低频重大事件影响项和趋势项上的预测能力相当出色。在高频市场波动项上的表现很差, 主要原因是高频市场波动项受市场投机影响比较大, 还受诸如天气、罢工、库存等因素影响, 这无疑增加了预测难度。把IMF组合为高频和低频2项进行预测, 有助于避免预测过程中的误差累积,可以提高最终的组合预测精度。组合预测时, 选用多项式核函数。对WTI和Brent 原油价格的最终组合预测结果见图8和图9。基于同样的数据集1, 本文选择文献[8]中提出的EMD-FNN-ALNN模型、单一的BP神经网络模型和单一的SVMs模型进行比较, 其预测结果见表3。在数据集2上, EMD-SVMsSVMs模型和EMD-FNN-ALNN模型进行比较, 预测结果见表4。实验结果表明, EMDSVMs-SVMs的预测结果明显优于单一的BP神经网络模型和单一的SVMs, 与EMD-FNN-# 1888 #管理学 报第 7 卷 第 12 期 2 010 年 1 2 月ALNN模型相比, 在模型复杂度明显较低的情况下, 也取得了较好的预测结果, 从而说明本文所提出的模型具有较优的预测能力。表 3 预测误差比较( 数据集 1 )模型WT IRMS E MA PE D S/ %BrentRMS E M A PE DS/ %EMD - SV Ms - SV Ms 0. 182 5 0. 018 7 86. 51 0. 192 6 0. 023 1 87. 91SV Ms 0. 314 0 0. 081 4 68. 72 0. 450 2 0. 060 9 70. 62BP 0. 865 2 1. 072 4 69. 53 0. 896 3 1. 565 6 69. 03EMD - FN N - AL NN 0. 350 2 0. 067 3 84. 32 0. 280 6 0. 052 3 82. 73表 4 预测误差比较( 数据集 2 )模型W T IR M S E D S / %Br entRM S E D S/ %EM D - SV M s - S V M s 0. 261 86. 23 0. 285 87. 94EM D - F N N - A L N N 0. 273 86. 99 0. 225 87. 814 结语将非平稳的原油价格序列用EMD技术进行分解, 并对分解后的序列按照不同频率进行重新组合, 从而构成具有不同经济含义的时间序列,针对这些序列采用SVMs建立不同预测模型, 一方面降低了建模复杂度, 另一方面能够更为准确地刻画不同经济含义时间序列的数据特征,对于预测结果具有更好的解释性。
参 考 文 献[ 1 ] A BO S ED RA S , BA GH E S T A N I H . O n t h e Pred i ct i v eA cc u r ac y o f C ru d e O i l Fu t u re Pr i ces[ J] . E n e r g y Pol - icy, 2 00 4, 32 ( 1 2) : 1 3 89 ~ 1 3 93 .[ 2] 范英, 王恺, 张跃军, 等. 20 09 年国际原油市场分析 与价格预测[ J] . 战略与决策研究, 20 09 , 4 ( 1 ) : 4 2~ 4 5.[ 3] M O RA NA C A S emi par ame t ri c A p pr oach t o S h or t T er m Oi l P ri ce Fo recas t i n g [ J ] . En erg y E con omi c s ,20 01 , 2 3( 3) : 3 25 ~ 338 .[ 4] M IRM IRA NI S, L I H C . A C om par i s on of VA R an dN eu ral Net w or ks w i t h Gen et i c A l g or i t h m i n F or ec as t i n g Pr i ce o f O i l [ J ] . A dv ances i n E c o no met ri c s ,20 04 , 1 9: 20 3~ 2 23 .[ 5] W AN G S Y , Y U L , L A I K K . Cr ud e O i l Pr i ce Fo re cast i ng w i t h T EI@ I M et h od ol og y[ J] . J ou rn al of S ys t ems S ci en c es and Co mpl exi t y, 2 00 5, 1 8 ( 2 ) : 1 45 ~16 6.[ 6] XI E W , Y U L , X U S Y, et al . A N ew M et h od f orC ru d e Oi l P ri ce Fo recas t i n g B as ed o n S u p po rt V ect orM ach i n es [ J ] . L ect u re No t es i n Co mpu t er S ci en c e,20 06 , 3 99 4: 44 1~ 4 51 .[ 7 ] A M IN - N AS E RI M R, GH A RA CH E H E A. A H y b ri d A rt i f i ci al In t el l i g ence A p p roach t o M on t h l y Fo re cast i ng of C r ud e Oi l Pr i ce T i me S eri es[ C] / / T h e Pr o ce ed i n gs o f t h e 1 0t h Int ern at i on al C on f eren ce on En gi neer i n g A p pl i cat i o ns o f Neu ral N et w ork s , 20 07 : 1 60~ 1 67 .[ 8] Y U L, WA N G S Y , L A I K K . F or e cas t i n g C ru de O i lP ri ce w i t h an E md - B ased Neu ra l N e t w o rk En s embl eL earn i n g Par adi gm [ J ] . E n erg y E con omi cs , 2 00 8, 30( 5 ) : 2 6 23 ~ 2 6 35 .[ 9] HU AN G N E , S H E N Z, L ON G S R. A N ew V i ew o fN on l i near Wat er W aves : T he H i l b ert S p ect ru m [ J ] .A n nu al R e v i ew of F l u i d M ech an i cs, 19 99 , 3 1 ( 1 ) :41 7 ~ 4 57 .[ 10 ] H U A N G N E , S H E N Z , L ON G S R . T h e E mp i ri c alM od e Decomp os i t i on an d t h e H i l ber t S p ec t ru m f orNo nl i n ear an d N on s t at i on ar y T i me Ser i es A n al y s i s[ C ] / / T h e R oya l So ci et y A : M at h emat i cal , Ph ys i cal& E ng i n eeri ng S ci ences , 1 998 : 9 03 ~ 99 5.[ 11 ] VA P NIK V . T h e N at u re of S t at i st i cal L earn i n gT h e o ry [ M ] . N ew Yo rk : S p ri ng - V erl a g , 1 99 5.[ 12 ] VA P NIK V . Es t i ma t i on of Depen den ci es B as e d onEmp i r i cal D a t a [ M ] . B erl i n: S p ri n ger - V erl ag, 1 98 2.[ 13 ] C O RT E S C , V A PN IK V . S u pp or t - V e ct o r N et w ork s[ J ] . M ac h i ne L earn i n g, 19 95 , 2 0( 3 ) : 27 3~ 2 97 .[ 14 ] VA P NIK V , G OL OW IC H S , S M O L A M . S u pp or tVect o r M et h od f o r Fu n c t i on Ap p rox i mat i on , R e g res s i o n Es t i mat i on , an d S i g n al Pr oces si ng [ C ] / / A d v ances i n Neu ra l In f or mat i on P ro c es s i n g S ys t ems 9,M A, 19 97 : 2 81 ~ 287 .[ 15 ] B U RG ES C . A T u t or i al on Su p po rt V ec t o r M a ch i n es f o r P at t ern Recog ni t i on [ J ] . Dat e M i n i n g a n dK n ow l ed ge Di sco very , 1 99 8, 2 ( 2 ) : 12 1~ 1 27 .[ 16 ] 徐 成贤, 陈志平, 李乃成. 近代优化方法[ M ] . 北京:科 学出版社, 20 02 .[ 17 ] VA P NIK V N . St at i s t i cal L eari n g T h eo ry [ M ] .New Yo rk : W i l ey, 1 99 8.[ 18 ] Z HA N G X , L AI K K, W A N G S Y . A New A p p ro ac h f o r Cr ud e O i l Pri c e A na l ys i s Bas ed o n E mpi r i c al M od e Decomp os i t i on [ J ] . E ner gy E con omi c s ,2 00 8, 30 ( 3 ) : 9 05 ~ 91 8.