摘要:以归一化处理后的1986-2010年河南省农田有效灌溉面积的统计数据作为样本数据,分别采用BP神经网络和支持向量机回归两种方法建立了农田有效灌溉面积的预测模型。预测结果表明,支持向量机的预测方法具有更高的预测精度和更强的泛化能力,预测误差仅为BP神经网络预测误差的11.8%,更适合进行农田有效灌溉面积的预测。最后采用两种模型分别对河南省“十二五”期间的农田有效灌溉面积进行了预测,指出了其变化趋势。
关键词:农田有效灌溉面积;BP神经网络;支持向量机;预测
农田有效灌溉面积指有固定水源、灌溉工程设施配套、土地平整、在一般年景下能够进行正常灌溉的耕地面积,包括机灌面积、电灌面积、自流灌溉面积和喷灌面积[1]。它是反映农田水利建设和水利化的重要指标,也是我国各地区制定水利发展规划的重要指标之一。对农田有效灌溉面积进行预测可以为了解未来农村水利基础设施的建设状况提供有价值的参考信息,同时也可为相关部门合理制定行业发展规划提供理论支持。
1 预测方案的确定与预测方法的选择
1.1 预测方案的确定
农田有效灌溉面积的变化受多方面因素的影响,比如政策、中央财政资金投入、地方财政资金投入、农民收入状况等。这些因素并不是孤立地对农田有效灌溉面积产生影响,而是耦合在一起以非线性的方式影响农田有效灌溉面积的变化。
农田有效灌溉面积的预测有两大类方案:一种为结构式的预测方法,就是通过一定的方式建立起各主要影响因素与农田有效灌溉面积之间的关系,然后根据未来各影响因素的变化去预测相对应的农田有效灌溉面积;另一种为数据序列预测法,就是将各年度的农田有效灌溉面积数值作为连续的时间序列看待,可以认为农田有效灌溉面积的变化规律已经蕴含在数据序列之中,再采用合适的方法对该序列在未来的取值进行预测。
在第一种方案中,首先需要确定具体影响农田有效灌溉面积变化的因素种类及其影响规律,另外还需要对各因素的未来变化进行预测。准确地确定影响农田有效灌溉面积变化的各种因素本身就很有难度,各因素对有效灌溉面积影响规律的辨识也同样是一个比较复杂的问题,而预测各因素未来的变化更是一个几乎和预测农田有效灌溉面积难度相当的问题。在第二种方案中,首先需要建立起能够充分反映农田有效灌溉面积变化规律的预测模型,然后通过求取该预测模型在未来的输出值即可实现预测。两种方案相比,显然第二种方案更容易实现。因此,在以下研究中采用数据序列预测方案。
1.2 预测方法的选择
在数据序列的预测中,目前广泛采用的方法有移动平均法、指数平滑法、线性回归法、灰色预测法、神经网络法和支持向量机方法等。这些方法中神经网络法和支持向量机方法从本质上来说更为适合应用于非线性预测问题。而农田有效灌溉面积所构成的数据序列是一个典型的非线性序列。显然在该研究中采用神经网络法和支持向量机方法较为合适。为了充分研究这两种方法的适用性,以下对这两种方法进行对比分析。
2 两种预测方法的理论基础及特性分析
2.1 BP神经网络预测的理论基础及特性分析
在各类神经网络中,BP神经网络堪称最经典、使用最为广泛的一种神经网络[2,3]。
BP神经网络是误差反向传播(Back error propagation,简称BP)神经网络的简称。BP神经网络通常由1个输入层、若干隐含层和1个输出层组成,在每层中可以包括若干个神经元。各相邻层神经元之间多为全连接方式,而同层神经元之间则无连接[4]。各神经元间的连接传递相应的权值,隐含层及输出层各神经元都有自己的阈值。BP神经网络作为一种前馈网络,具有前馈网络的共性。研究表明,三层前馈网络就能够以任意精度逼近任意连续函数及其各阶导数[5]。对序列进行建模,从本质上来说就是获得序列的变化泛函,BP神经网络的函数逼近功能正好可以实现此过程。
但BP神经网络也存在若干缺陷,其中比较突出的是网络结构的不易确定、易限于局部收敛和收敛速度慢。其中网络结构的不易确定是指在确定网络结构参数的过程中没有准确的依据可以遵循。而局部收敛则对BP神经网络的函数逼近功能影响较大。
2.2 支持向量机预测的理论基础及特性分析
3 预测模型的建立
3.1 样本数据的准备
从河南统计年鉴中收集了1986-2010年河南省农田有效灌溉面积的统计数据[10]。为了降低预测模型的复杂程度,采用峰值法对这些数据进行了归一化处理。将归一化后的1986-2009年数据作为训练样本,2010年数据作为检验样本。
确定预测模型每次的输入样本中包含6个数据,即用连续6年的数据预测第七年的数据。据此可建立训练时的输入样本矩阵(6×18)和输出样本向量(1×18)。
3.2 预测模型基本参数的确定与训练
1)BP神经网络基本参数的确定与训练。确定BP神经网络的隐含层数为1,输入层神经元数为6,输出层神经元数为1,隐含层神经元数为11。隐含层和输出层的激励函数分别采用正切型Sigmoid函数和对数型Sigmoid函数。为了提高收敛速度,训练时采用了Levenberg-Marquardt数值优化算法。
2)支持向量机基本参数的确定与训练。采用Epsilon型支持向量机回归算法,经过多次试验,确定拉格朗日乘子上界为5,不敏感函数取值为0.000 01,核函数采用高斯型,高斯核函数的宽度取0.15。
4 预测与分析
4.1 两种模型预测能力对比
利用训练完毕的两种预测模型仿真预测1992-2009年的河南省农田有效灌溉面积并进行反归一化处理。反归一化后的各预测值、预测误差的绝对值和预测相对误差的绝对值见表1。从表1可以看出,支持向量机的各预测值与实际值更为接近,其预测误差的绝对平均值、预测相对误差的绝对平均值都远小于BP神经网络预测结果的对应参数。图1中的各预测数据也全部经过了归一化处理,从图1中1992-2009部分也可以看出,支持向量机的预测值基本和实际值重合在一起,而BP神经网络的预测值在一些地方则与实际值相差较大,说明基于支持向量机的预测模型泛化能力更强。 利用这两种预测模型分别预测作为检验样本的2010年河南省农田有效灌溉面积,反归一化后的预测结果如表2和图1所示。从表2和图1可以看出,基于支持向量机的预测模型在检验样本处的实际预测精度也远高于BP神经网络,其预测误差仅为BP神经网络预测误差的11.8%。
4.2 河南省“十二五”期间农田有效灌溉面积的预测与分析
实际上,预测结果是在现有条件的基础上从数据序列的角度进行的预测,如果在“十二五”期间,政府大幅增加水利行业的资金投入,最终的发展情况将会比该预测结果更好。
5 小结
在对农田有效灌溉面积进行预测时,数据序列预测法比结构式预测法更为简单易行。在各种数据序列预测方法中,神经网络预测方法和基于支持向量机的预测方法更为适合农田有效灌溉面积的非线性变化规律。
研究针对BP神经网络和支持向量机两种预测方法进行了对比分析。理论研究表明,基于支持向量机的预测方法可以克服BP神经网络的诸多缺陷,具有优越性。
以河南省1986-2010年的农田有效灌溉面积统计数据为基础,详细阐述了利用两种预测方法建立预测模型的过程,并进行了应用验证。验证结果表明,基于支持向量机的预测方法具有更好的泛化能力,预测精度更高。最后获得了河南省“十二五”期间农田有效灌溉面积的预测数据并指出了其发展趋势。
参考文献:
[1] 郑家亨.统计大辞典[M]. 北京:中国统计出版社,1995.
[2] 卞凤兰,黄晓明,刘 睿.城镇化进程中公路网用地的BP神经网络预测模型[J].东南大学学报(自然科学版),2010,40(5):1073-1076.
[3] 尹健康,陈昌华,邢小军,等. 基于BP神经网络的烟田土壤水分预测[J]. 电子科技大学学报,2010,39(6):891-895.
[4] 陈 明. 神经网络模型[M]. 大连:大连理工大学出版社,1995.
[5] 柳小桐. BP神经网络输入层数据归一化研究[J].机械工程与自动化,2010(3):122-123,126.
[6] 张 华,曾 杰.基于支持向量机的风速预测模型研究[J]. 太阳能学报,2010,31(7):928-932.
[7] CHEN B J,CHANG M W,LIN C J. Load forecasting using support vector machines:A study on EUNITE competition 2001[J]. IEEE Transactions on Power Systems,2004,19(4):1821-1830.
[8] VAPNIK V N. The Nature of Statistical Learning Theory[M].New York:Springer,1995.
[9] HSU C W, LIN C J. A comparison of methods for multi-class support vector machines[J]. IEEE Transactions on Neural Networks,2002,13(3):415-425.
[10] 河南省统计局,国家统计局河南调查总队. 河南省统计年鉴—2011[M].北京:中国统计出版社,2011.