一、项目研究进展情况
本项目研究已获取陕西省延长县的历史滑坡编录图、野外记录的相关资料、 数字高程模型、研究区域 1∶10万比例尺地质图、 Landsat-8遥感影像。利用ARCGIS10.2软件得到了陕西省延长县内的高程、平面曲率和岩性等10类滑坡评价因子。采用SVM和RF进行了滑坡易发性建模分析并获取了相应的易发性指数。按自然间断点法划分并生成了SVM、RF滑坡易发性分级图。最后,利用ROC曲线评估了SVM和RF两种模型的预测性能。达到了预期效果,具体进展如下:
基于GIS和随机森林的滑坡易发性预测研究
黄发明,胡松雁
(1.南昌大学建筑工程学院,江西 南昌 330031;2. 中国地质大学工程学院,湖北 武汉 430074)
摘要:区域滑坡易发性预测已经成为国内滑坡研究领域的主要趋势。首先,本文利用ARCGIS10.2软件获取陕西省延长县内的高程、平面曲率和岩性等10类滑坡评价因子。其次,采用SVM和RF进行滑坡易发性建模分析并获取相应的易发性指数。之后,按自然间断点法划分并生成SVM、RF滑坡易发性分级图。最后,利用ROC曲线来评估SVM和RF两种模型的预测性能。结果表明:1) RF模型拥有更高的预测精度,其AUC (ROC曲线下的面积)为0.861;2) 两种模型的易发区分布规律具有相似性,都集中在中部地区并呈条状向东南和西北两个方向延伸。3)RF模型在预测延长县滑坡易发性方面要优于SVM模型,能有效反映延长县地区滑坡灾害的分布特征和发育规律。
关键词:滑坡易发性评价;支持向量机模型;随机森林模型;
Landslide susceptibility prediction
based on GIS and random forest
Huang Faming, Hu Songyan
(1. School of Civil Engineering
and Architecture, Nanchang University, Nanchang, 330031, China; 2. Faculty of
Engineering, China University of Geosciences, Wuhan, Hubei, 430074, China)
Abstract: Regional landslide
susceptibility prediction has become the main trend in the field of landslide
research in China. Firstly, ArcGIS10.2 software was used to obtain 10 types
of landslide evaluation factors, including elevation、plane curvature and lithology, in Yanchang County, Shaanxi Province.
Secondly, SVM and RF were used for modeling and analysis of landslide
susceptibility, and the corresponding susceptibility index was obtained.
Then, according to the natural discontinuous point method, the classification
maps of landslide susceptibility of SVM and RF were generated. Finally, ROC curves
are used to evaluate the prediction performance of SVM and RF models.The
results show that: 1) the RF model has higher prediction accuracy, and its
AUC (area under ROC curve) is 0.861; 2) The two models’ regularities of
distribution are similar, both of which are concentrated in the central
region and extend to the southeast and northwest in strips. 3) RF model is
better than SVM model in predicting landslide susceptibility in Yanchang
County, and can effectively reflect the distribution characteristics and
development rules of landslide disasters in Yanchang County.
Key
Words: Landslide susceptibility; Support vector machine; Random forest model;
1 引言
我国幅员辽阔,复杂的自然地理、地质构造条件、人类工程活动以及差异性的气候条件为滑坡的产生提供了良好的发育条件。滑坡由于多具备中小型规模、发生频率高以及分布范围广等特点,每年都给当地的基础设施、居民安全和财产造成巨大损失[1]。
陕西省延长县多分布在陕北黄土高原,大部分分布着厚度较大的黄土滑坡。独特的地形以及极端雨季条件下导致了滑坡、崩塌和泥石流等地质灾害现象的出现,并导致经济损失。据统计,延长县现存在42处地质灾害隐患点包括11处滑坡和31处崩塌[2]。因此,合理评估滑坡灾害的易发性,有利于降低和避免生命伤亡和财产损失,促进社会的可持续发展[3-4]。
目前,国内外滑坡灾害易发性评价模型虽然丰富但没有形成统一的评价标准,其中,机器学习模型包括:多层感知器[5]、随机森林(Random Forest, RF)[6]、支持向量机(Support Vector Machine, SVM)[7]、层次分析法[8]、模糊数学法[9]、决策树[10]等。除了研究模型外,滑坡致灾因子的选择也很重要,与易发性区划分结果直接相关。滑坡的影响因素互相依存、互相影响,目前对于滑坡致灾因子的选择和分级主要依靠文献调研和经验总结[11]。
综上所述,本文通过选取陕西省延长县内高程和坡度等10类滑坡评价因子,并结合支持向量机和随机森林模型来获取更合理的滑坡易发性图。
2 研究方法
2.1 研究思路
本文通过对比分析SVM和RF模型的预测性能以获取更合理的研究区易发性图,主要内容包括如下:
(1)获取各评价因子及其频率比值。基于滑坡编录信息和地质环境选取十个评价因子,并采用频率比法获取各评价因子频率比值。
(2)获取模型训练集和测试集。将十个评价因子频率比值作为输入变量,滑坡和非滑坡(标记为1和0)作为输出变量,并按70%和30%比例将其随机拆分为训练集和测试集。
(3)模型构建。利用训练集和测试集进行SVM和RF模型的构建和测试。
(4)易发性分布图的绘制。通过训练好的模型预测研究区滑坡易发性并制图。
(5)利用ROC曲线来评估上述2种模型的预测性能。
2.2支持向量机(SVM)模型
SVM通过核函数将一组数据从低维映射到高维特征空间,并寻找出一个使类别间距最大化的超平面,从而实现输出变量线性可分[12-13]。首先假设一组数据为,通过线性回归函数 拟合并确定 和 [18-20]。采用松弛变量 来控制分类误差,相应的线性函数拟合为:
(1)
式中, 为分类误差因子,其中 大于0表示有分类误差。此时变换为求解最小化函数问题:
(2)
式中,常数 为超出分类误差 的错分程度,代入Lagrange函数后的线性拟合函数改为:
(3)
2.3 随机森林(RF)模型
随机森林主要是通过多颗决策树中每棵树的投票结果来获取最优的分类结果[14]。每个决策树因有放回的方式以及随机获取数据特征所得到的的数据集而具备更全面的输入变量信息。通过多颗决策树的集合能够避免模型的过度拟合,使模型更加稳健[15]。此外,国内外大量的理论和应用研究从不同的角度证明了随机森林模型的准确性,其能去除数据异常值和噪声,是目前公认的最好的机器学习模型之一[16]。
随机森林主要特征是能够给出相应输入变量的基尼指数,也即各输入变量的重要性排序。随机森林分类树中用不纯度度量最佳分割,不纯度通过Gini指数法计算得出[17]。通过计算评价因子k在节点分割时的基尼指数的减少值 ,将森林中所有节点的 求和后对所有树取平均,即为评价因子k的重要性。以评价因子平均基尼减小值占所有评价因子平均基尼减少值总和的百分比度量评价因子的重要程度。可按式(4)计算:
(4)
式中m、n、t分别是评价因子总数、分类树棵数和单棵树节点数, 为第 个评价因子在第h棵树的第j个节点的基尼指数减少值; 为第k个评价因子的重要性。
3 研究区概况及评价因子体系的建立
3.1延长县简介
延长县地处陕西省东北部,县内地势由西北向东南倾斜,面积2368 km2(图1)。海拔为470-1383米,四周高,中间低。该县位于陕甘宁盆地盆地构造单元台向斜线上,地层变化很小,没有断层或大褶皱构造。鄂尔多斯平台的总体形状向西北倾斜,构造活动频率较低,新构造活动较少,相对稳定,以隆起为主。该地区滑坡主因是河床纵坡大,河谷深切重。
延长县具有黄土高原地貌,该县气温正常,降水较少。域内河流弯曲狭窄,植被覆盖率低,丘陵沟壑交错。研究区地层依次有:三叠系碎屑沉积岩、上新统三趾马红土、第四纪体系。马红土分布不连续,其上层黄土抗剪强度较差。马兰黄土属于滑坡易发地层,其具有特殊的结构与性质,孕育了延长县的黄土滑坡[18]。
图1 研究区概况及滑坡编录
Fig. SEQ Fig. \* ARABIC 1 Overview of
the study area and landslide catalog
3.2 滑坡易发性评价因子体系
3.2.1 数据来源
研究区的基础数据来源有:1) 历史滑坡编录图以及野外记录的相关资料,用于滑坡分布图获取;2) 数字高程模型,数据来自于第一次全国地理国情普查成果数据,用于高程、坡度和坡向等地形地貌评价因子的获取;3) 研究区域 1∶10万比例尺地质图,用于地层岩性的获取;4) Landsat-8遥感影像,用于归一化植被指数(normalized
difference vegetation index, NDVI)、归一化建筑指数(normalized
difference building index, NDBI)、归一化差异水体指数(modified
normalized difference water index, MNDWI)等评价因子获取;
此外,本文选择单元大小为30 m的栅格作为滑坡易发性评价单元。利用ArcGIS 10.2软件将82处滑坡面转换为3403个栅格单元,研究区则划分为2428列、1858行,共2622482个栅格单元。
3.2.2 评价因子选取
评价因子的有效选取会影响评价结果的可靠性与准确性。其选取原主要包括客观存在性、显著性和继承性等[19-20]。遵循以上原则,本文选取了高程、坡度、坡向、平面曲率、剖面曲率、岩性、NDVI、NDBI、MNDWI、总辐射等10类滑坡评价因子(图2),各环境因子的属性区间分级如表1所示。
(1) 地形地貌因子:高程是导致滑坡的关键因素[21]。如表2和图2(a)所示,当高程在866.99 m~ 1014.68 m区域时较易出现滑坡。坡度和坡向均从DEM数据提取而来。当坡度在14.2°~ 50.29°或坡向在112.5 ~ 202.5时,有利于滑坡的发育。平面曲率定义为坡向的坡度,在水平方向上反映地表所有的山脊线和山谷线,如表2、图 2(d) 所示。剖面曲率定义为坡度的坡度,在垂直方向上表征坡度的变换程度,如表2所示。
(2) 地表覆被因子:NDVI通常反映当地植被的覆盖程度[22]。NDBI则于表征地表建筑密度。如表2、图2(f)、 图2(g)所示,当NDVI在0.161~0.248,NDBI在0.523~0.569和0.617~0.701时,频率比大于1,表明该范围较易产生滑坡。
(3) 水文环境因子:水不仅会加速岩石土体的侵蚀作用,还会使得滑动面间的夹层土更易软化搓动,从而导致滑坡更易发生[23]。MNDWI主要用于阐述地表水分分布,其更易从水体中区分阴影。由表2、图2 (h)及图2 (i)可知,MNDWI指数在0.192~0.328和0.418~0.513以及总辐射在90~225区域时易发生滑坡。
(4) 基础地质因子:岩性也是滑坡易发因素,如表2、图2(e),泥岩类和砂岩与泥岩类较易滑坡的发育[24]。
表1 滑坡易发性评价的环境因子分级体系
Table 1 Environmental factor grading system for
evaluation of landslide susceptibility
因子类别
|
环境因子
|
因子分级
|
地形地貌
|
高程/m
|
473.14-656.00;656.00-772.04;772.04-866.99;866.99-944.35;944.35-1014.68;1014.68-1085.01;1085.01-1165.89;1165.89-1369.84;
|
坡度/(°)
|
0-6.10;6.10-10.45;10.45-14.20;14.20-17.55;17.55-20.70;20.70-23.86;23.86-27.61;27.61-50.29;
|
坡向
|
‘-1.000;0-22.5和337.5-360;22.5-67.5;67.5-112.5;112.5-157.5;157.5-202.5;202.5-247.5;247.5-292.5;292.5-337.5;
|
平面曲率
|
0-9.91;9.91-18.21;18.21-27.48;27.48-37.39;37.39-47.93;47.93-59.12;59.12-70.62;70.62-81.49;
|
剖面曲率
|
0-2.46;2.46-4.34;4.34-6.33;6.33-8.33;8.33-10.44;10.44-12.90;12.90-15.95;15.95-29.90;
|
地表覆盖因子
|
NDVI
|
0.054-0.161;0.161-0.222;0.222-0.248;0.248-0.271;0.271-0.290;0.290-0.316;0.316-0.514;0.514-0.880;
|
NDBI
|
0.015-0.032;0.032-0.523;0.523-0.550;0.550-0.569;0.569-0.585;0.585-0.601;0.601-0.617;0.617-0.701;
|
水文环境
|
MNDWI
|
0.192-0.328;0.328-0.356;0.356-0.384;0.384-0.418;0.418-0.455;0.455-0.513;0.513-0.640;0.640-0.981;
|
总辐射
|
0-90;90-170;170-185;185-198;198-211;211-225;225-239;239-255;
|
工程地质
|
岩性
|
泥岩和油页岩;泥岩;砂岩与泥岩;石英砂岩;风积和洪积黄土;
|
3.2.3 评价因子频率比分析
本文主要通过频率比法来揭示滑坡与各评价因子之间的内在联系。运用ArcGIS软件,采用自然间断点法把选取的基础评价因子划分8个等级(其中,地层岩性因子按照地层组合划分),并得到各评价因子各个区间内研究区栅格数和滑坡栅格数及其频率比值,结果如表2所示。频率比值的大小决定了该区域是否有利于滑坡的产生[25-26]。
由表2可知,滑坡易出现在海拔在866.99 m~ 1014.68 m,坡度在14.2°~ 50.29°,坡向在112.5 ~ 202.5,平面曲率在0 ~ 18.21,剖面曲率在0 ~ 8.33,岩性类型为泥岩类和砂岩与泥岩类,NDVI在0.161~0.248,NDBI在0.523~0.569和0.617~0.701,MNDWI指数在0.192~0.328和0.418~0.513以及总辐射在90~225等区域内。
表2 各评价因子分级和频率比值
Table 2 Grading and frequency ratio of each
evaluation factor
环境因子
|
变量值
|
类型
|
全区栅格数
|
栅格/%
|
滑坡内栅格数
|
坡内栅格比例/%
|
频率比
|
坡向
|
-1
|
连续型
|
190
|
0.007
|
0
|
0.000
|
0.000
|
0-22.5和337.5-360
|
222188
|
8.472
|
211
|
6.200
|
0.732
|
22.5-67.5
|
304138
|
11.597
|
576
|
16.926
|
1.459
|
67.5-112.5
|
484681
|
18.482
|
481
|
14.135
|
0.765
|
112.5-157.5
|
345859
|
13.188
|
636
|
18.689
|
1.417
|
157.5-202.5
|
254226
|
9.694
|
430
|
12.636
|
1.303
|
202.5-247.5
|
333472
|
12.716
|
451
|
13.253
|
1.042
|
247.5-292.5
|
382265
|
14.576
|
241
|
7.082
|
0.486
|
292.5-337.5
|
295463
|
11.267
|
377
|
11.078
|
0.983
|
坡度/(°)
|
0-6.10
|
连续型
|
262663
|
10.016
|
38
|
1.117
|
0.111
|
6.10-10.45
|
420175
|
16.022
|
148
|
4.349
|
0.271
|
10.45-14.20
|
485296
|
18.505
|
369
|
10.843
|
0.586
|
14.20-17.55
|
477773
|
18.218
|
638
|
18.748
|
1.029
|
17.55-20.70
|
417670
|
15.927
|
803
|
23.597
|
1.482
|
20.70-23.86
|
309745
|
11.811
|
741
|
21.775
|
1.844
|
23.86-27.61
|
186825
|
7.124
|
540
|
15.868
|
2.227
|
27.61-50.29
|
62335
|
2.377
|
126
|
3.703
|
1.558
|
平面曲率
|
0-9.91
|
连续型
|
531824
|
20.279
|
1028
|
30.209
|
1.490
|
9.91-18.21
|
536386
|
20.453
|
938
|
27.564
|
1.348
|
18.21-27.48
|
415938
|
15.860
|
563
|
16.544
|
1.043
|
27.48-37.39
|
298275
|
11.374
|
338
|
9.932
|
0.873
|
37.39-47.93
|
229817
|
8.763
|
194
|
5.701
|
0.651
|
47.93-59.12
|
188588
|
7.191
|
154
|
4.525
|
0.629
|
59.12-70.62
|
160843
|
6.133
|
78
|
2.292
|
0.374
|
70.62-81.49
|
260811
|
9.945
|
110
|
3.232
|
0.325
|
剖面曲率
|
0-2.46
|
连续型
|
518211
|
19.760
|
691
|
20.306
|
1.028
|
2.46-4.34
|
614610
|
23.436
|
839
|
24.655
|
1.052
|
4.34-6.33
|
531797
|
20.278
|
736
|
21.628
|
1.067
|
6.33-8.33
|
377404
|
14.391
|
492
|
14.458
|
1.005
|
8.33-10.44
|
264686
|
10.093
|
294
|
8.639
|
0.856
|
10.44-12.90
|
181130
|
6.907
|
223
|
6.553
|
0.949
|
12.90-15.95
|
99956
|
3.812
|
94
|
2.762
|
0.725
|
15.95-29.90
|
34688
|
1.323
|
34
|
0.999
|
0.755
|
高程/m
|
473.14-656.00
|
连续型
|
65566
|
2.500
|
0
|
0.000
|
0.000
|
656.00-772.04
|
162922
|
6.213
|
0
|
0.000
|
0.000
|
772.04-866.99
|
282304
|
10.765
|
336
|
9.874
|
0.917
|
866.99-944.35
|
422849
|
16.124
|
1078
|
31.678
|
1.965
|
944.35-1014.68
|
552133
|
21.054
|
1068
|
31.384
|
1.491
|
1014.68-1085.01
|
551281
|
21.021
|
605
|
17.778
|
0.846
|
1085.01-1165.89
|
395921
|
15.097
|
207
|
6.083
|
0.403
|
1165.89-1369.84
|
189506
|
7.226
|
109
|
3.203
|
0.443
|
NDVI
(归一化植被指数)
|
0.054-0.161
|
连续型
|
4323
|
0.165
|
0
|
0.000
|
0.000
|
0.161-0.222
|
222528
|
8.485
|
346
|
10.167
|
1.198
|
0.222-0.248
|
347566
|
13.253
|
503
|
14.781
|
1.115
|
0.248-0.271
|
522175
|
19.911
|
590
|
17.338
|
0.871
|
0.271-0.290
|
651814
|
24.855
|
837
|
24.596
|
0.990
|
0.290-0.316
|
726302
|
27.695
|
958
|
28.152
|
1.016
|
0.316-0.514
|
147748
|
5.634
|
169
|
4.966
|
0.881
|
0.514-0.880
|
26
|
0.001
|
0
|
0.000
|
0.000
|
NDBI
(归一化建筑指数)
|
0.015-0.032
|
连续型
|
166
|
0.006
|
0
|
0.000
|
0.000
|
0.032-0.523
|
20500
|
0.782
|
3
|
0.088
|
0.113
|
0.523-0.550
|
144671
|
5.517
|
263
|
7.728
|
1.401
|
0.550-0.569
|
328825
|
12.539
|
477
|
14.017
|
1.118
|
0.569-0.585
|
461789
|
17.609
|
517
|
15.192
|
0.863
|
0.585-0.601
|
638451
|
24.345
|
610
|
17.925
|
0.736
|
0.601-0.617
|
636591
|
24.274
|
816
|
23.979
|
0.988
|
0.617-0.701
|
391489
|
14.928
|
717
|
21.070
|
1.411
|
MNDWI
(归一化差异水体指数)
|
0.192-0.328
|
连续型
|
414411
|
15.802
|
749
|
22.010
|
1.393
|
0.328-0.356
|
732165
|
27.919
|
866
|
25.448
|
0.912
|
0.356-0.384
|
565063
|
21.547
|
559
|
16.427
|
0.762
|
0.384-0.418
|
421031
|
16.055
|
479
|
14.076
|
0.877
|
0.418-0.455
|
292549
|
11.155
|
421
|
12.371
|
1.109
|
0.455-0.513
|
192388
|
7.336
|
329
|
9.668
|
1.318
|
0.513-0.640
|
4737
|
0.181
|
0
|
0.000
|
0.000
|
0.640-0.981
|
138
|
0.005
|
0
|
0.000
|
0.000
|
总辐射
|
0-90
|
连续型
|
6815
|
0.260
|
0
|
0.000
|
0.000
|
90-170
|
68498
|
2.612
|
98
|
2.880
|
1.103
|
170-185
|
187607
|
7.154
|
456
|
13.400
|
1.873
|
185-198
|
276782
|
10.554
|
448
|
13.165
|
1.247
|
198-211
|
339667
|
12.952
|
507
|
14.899
|
1.150
|
211-225
|
424230
|
16.177
|
589
|
17.308
|
1.070
|
225-239
|
537676
|
20.503
|
567
|
16.662
|
0.813
|
239-255
|
781207
|
29.789
|
738
|
21.687
|
0.728
|
岩性栅格
|
泥岩和油页岩
|
离散型
|
179598
|
6.848
|
0
|
0.000
|
0.000
|
泥岩
|
140332
|
5.351
|
364
|
10.696
|
1.999
|
砂岩与泥岩
|
134435
|
5.126
|
425
|
12.489
|
2.436
|
石英砂岩
|
2231
|
0.085
|
0
|
0.000
|
0.000
|
风积和洪积黄土
|
2165886
|
82.589
|
2614
|
76.815
|
0.930
|
图2 延长县滑坡评价因子图:(a) 高程 (b) 坡度 (c) 坡向 (d) 平面曲率 (e) 岩性 (f) NDVI (g) NDBI (h) MNDWI (i) 总辐射 (剖面曲率省略)
Fig. 2 Landslide evaluation factor
maps of Yanchang County: (a) Elevation, (b) Slope, (c) Aspect, (d) Plane
curvature, (e) Lithology, (f) NDVI, (g) NDBI, (h) MNDWI, (i) Global radiation
(Profile curvature is not present)
4 滑坡易发性评价
4.1 参数设置
本文RF模型主要利用R语言中的RF软件包来进行滑坡易发性预测建模。其中,RF模型的精度主要采用因子特征数量m和树的数量t来表现[30]。基于袋外误差的筛选所获取的n和t的最佳参数分别为3和800。而SVM模型主要利用SPSS Modeler 18.0来进行滑坡易发性预测建模。其中,规则化参数C为10,回归精确度e为0.1,RBF伽马为0.8。
4.2 滑坡易发性制图
利用上述获取的最佳参数来训练模型并绘制研究区滑坡易发性图,并将其划分为极低、低、中、高和极高5类易发区。其中,RF易发性图下的极低、低、中、高和极高易发区的面积占比分别为26.523%、24.449%、21.954%、16.348%、10.726%;SVM易发性图下的极低、低、中、高和极高易发区的面积占比分别为20.48%、26.67%、14.80%、12.88%、16.17%。
由图3可知,SVM易发性图与RF易发性图相似,SVM易发性图的极高易发区域面积有所增大。该县滑坡灾害的极低和低易发区整体上分布在延长县域四周,而极高和高易发区主要集中在中部地区并呈条状向东南和西北两个方向延伸。主要原因为延长县城区沿中部延河分布,河流对岸堤的长期冲刷作用以及城镇化不断推进所导致的人类工程活动频繁有利于滑坡的产生。此外,在南部和北部等山区内沟壑交错,地层黄土松散岩性脆弱,在强降雨条件下发生滑坡灾害的概率极大。
图3 滑坡易发性分布图:(a) SVM,(b) RF
Fig. 3 Distribution maps of
landslide susceptibility: (a) SVM, (b)
RF
4.3 精度评价
受试者特征曲线(ROC曲线)因其适用于分类器的整体性能评估而广泛应用于滑坡领域中的二分类整体精度评价。ROC曲线主要以1-特异性和敏感性的横纵坐标构成。1-特异性表示滑坡被错误分类的比例,而敏感性则表示滑坡正确分类的比例。模型的精度由ROC曲线和水平轴所围成的面积(AUC)评估,AUC越接近1,表示模型的预测性能越好[27-28]。
本文应用ROC曲线对RF和SVM模型进行精度评估。由图4可知,两模型都具有较好的预测性能。RF和SVM模型的AUC分别为0.861和0.824。综上,RF模型的预测精度更好。
图4各模型的ROC曲线
Fig. 4 ROC
curves of all models
4.4 机器学习建模分析
研究表明,机器学习模型中,随机森林(Random Forest, RF)较其他模型展现出了明显的优势。诸如:吴润泽等[29]在对三峡库区湖北段的滑坡易发性研究显示,RF取得较为合理的分级结果,是一种出色的算法;刘坚等[30]对三峡库区建立RF模型、SVM模型及逻辑回归模型,结果显示RF的预测精度要高于其他模型;郝国栋[31]等在商南县易发性评价中比较模型评价指标及AUC 值,得出RF预测精度高于逻辑回归模型;2020年,林荣福等[32]将RF与信息量法相结合,从分区图、灾害点密度等方面对汉中市进行研究,结果证实RF的准确性、可靠性优于信息量法。与传统模型相比,RF作为目前优势较为明显的机器学习模型之一,具有学习过程快、针对性强、可维持准确度、可平衡误差、可侦测偏离者等优点。
5 结论
本文探讨了SVM和RF模型对陕西省延长县滑坡易发性的预测效果,其结论如下:
1) 两模型都有较好的预测性能,其相应的AUC值分别为0.861和0.824。
2) 两模型易发性图的分布规律相似,高、极高易发区域主要分布在沿延河附近,而低和极低易发区域则分布在研究区四周。
3) 在相同的研究区域内,精度更高的RF模型的极高易发区面积比SVM模型小。
综上所述,基于RF和SVM的易发性研究都能较好地预测延长县滑坡易发性,但RF模型在预测延长县滑坡易发性方面要优于SVM模型,能有效反映延长县地域滑坡分布特征及发育规律。
参考文献:
[1] 刘汉龙,马彦彬,仉文岗,文海家.大数据技术在地质灾害防治中的应用综述.防灾减灾工程学报.
https://doi.org/10.13409/j.cnki.jdpme.2021.04.002
[2] 郭天颂,张菊清,韩煜,等.2019.基于粒子群优化支持向量机的延长县滑坡易发性评价[J].地质科技情报,38(3):236-243.
[3] 殷坤龙. 2010. 滑坡灾害风险分析[M]. 科学出版社. ( Yin Kunlong 2010. Landslide disaster risk
analysis [M]. Science Press.)
[4] Petley D.
2012. Global patterns of loss of life from landslides[J]. Geology, 40(10):927-930.
[5] 易庆林, 曾怀恩,黄海峰. 2013. 利用BP神经网络进行水库滑坡变形预测[J]. 水文地质工程地质, 40(01): 124-128.
[6] 刘坚,李树林,陈涛. 2018.基于优化随机森林模型的滑坡易发性评价[J].武汉大学学报(信息科学版), 43(7):1085-1091.
[7] 李利峰,张晓虎,邓慧琳,等. 2020.基于 SVM-LR 融合模型的滑坡灾害易发性评价———以山阳县为例[J]. 科学技术与工程, 20(26): 10618-10625.Li Lifeng,Zhang Xiaohu,Deng Huilin,et al. 2020.Assessment of landslide susceptibility based on
SVM-LR model: a case of Shanyang County[J].Science Technology and Engineering,20(26): 10618-10625.
[8] 黄发明, 殷坤龙, 蒋水华, 等. 2018. 基于聚类分析和支持向量机的滑坡易发性评价. 岩石力学与工程学报, 37, 156-167.
[9] 黄发明, 汪洋, 董志良,等.2019. 基于灰色关联度模型的区域滑坡敏感性评价[J]. 地球科学, 44(02): 664-676.
[10] 田乃满, 兰恒星, 伍宇明,等.2020. 人工神经网络和决策树模型在滑坡易发性分析中的性能对比[J]. 地球信息科学学报, 22(12): 2304-2316.
[11] 田 钦,张 彪,郭建飞,等. 2020.基于信息量和逻辑回归耦合模型的滑坡易发性评价[J].科学技术与工程, 20( 21) : 8460-8468. Tian Qin,Zhang Biao,Guo Jianfei,et al. 2020. Landslide susceptibility assessment based on the
coupling model of information value and logistic regression[J].Science Technology and Engineering,20( 21) : 8460-8468
[12] 武雪玲, 任福, 牛瑞卿,等. 2013. 斜坡单元支持下的滑坡易发性评价支持向量机模型. 武汉大学学报(信息科学版), 38, 1499-1503.
[13] 戴福初, 姚鑫,谭国焕. 2007. 滑坡灾害空间预测支持向量机模型及其应用. 地学前缘, 14, 153-159.
[14] 徐 乔,孟凡利,余绍淮. 2019.基于面向对象随机森林分类模型的滑坡遥感解译[J]. 中外公路,39( 3) : 30-34.Xu Qiao,Meng Fanli,Yu Shaohuai. 2019.Atellite
image landslide interpretation using random forest algorithm based on
object-oriented method[J].Journal of
China & Foreign
Highway,39 ( 3 )
:30-34.
[15] 邓念东,崔阳阳,郭有金. 2020. 基于FR-RF模型的滑坡易发性评价[J]. 科学技术与工程, 20( 34) : 13990-13996 Deng Niandong,Cui Yangyang,Guo Youjin. 2020.Frequency ratio-random forest-model-based
landslide susceptibility assessment[J].Science Technology and Engineering,20( 34) : 13990-13996.
[16] 吴润泽,胡旭东,梅红波, 等.基于随机森林的滑坡空间易发性评价—以三峡库区湖北段为例.地球科学.
[17] 方匡南,吴见彬,朱建平,等. 2011.随机森林方法研究综述[J].统计与信息论坛,26(03):32-38.
[18] 韩 煜. 2017. 基于ArcGIS的延长县区域滑坡灾害易发性评价.
[19] 李欣海. 2013.随机森林模型在分类与回归分析中的应用[J].应用昆虫学报,50(04):1190-1197.
[20] Genuer R,
Poggi J M, Tuleau-Malot C. 2010. Variable selection using Random Forests[J]. Pattern
Recognition Letters, 31(14):2225-2236.
[21] 范 强, 巨能攀, 向喜琼, 等. 2015. 证据权法在滑坡易发性分区中的应用———以贵州桐梓河流域为例. 灾害学, 30, 124-129.
[22] 张 俊. 2016. 三峡库区万州区滑坡灾害风险评估研究[硕士学位论文][D]. 武汉:中国地质大学. (ZHANG Jun. 2016. Landslide risk
assessment in Wanzhou Conunty,Three
Gorges Reservoir[M. S. Thesis][D]. Wuhan:China
University of Geosciences,2016.(in
Chinese))
[23] 冯杭建, 周爱国, 俞剑君, 等. 2016. 浙西梅雨滑坡易发性评价模型对比. 地球科学-中国地质大学学报, 41, 403-415.
[24] Breiman, L.
2001. Random Forests. Machine Learning, 45(1): 5-32.
doi:10.1023/A:1010933404324.
[25] 夏 辉, 殷坤龙, 梁 鑫, 等. 2018.基于 SVM-ANN 模型的滑坡易发性评价——以三峡库区巫山县为例.中国地质灾害与防治学报.
[26] Aditian A,Kubota T,Shinohara Y. 2018.Comparison of GIS-based land-slide susceptibility
models using frequency ratio,logistic
regression,and artificial
neural network in a tertiary region of Ambon,Indonesia[J]. Geomorphology, 318( 1)
: 101-111.
[27] 刘 月,王宁涛,周 超, 等. 2020. 基于ROC曲线与确定性系数法集成模型的三峡库区奉节县滑坡易发性评价. 安全与环境工程.
[28] Wang L J,Sawada K,Moriguchi S. 2013. Landslide susceptibility analysis with
logistic regression model based on FCM sampling strategy[J]. Computer & Sciences,57:81-92.
[29] 吴润泽,胡旭东,梅红波,等.2020.基于随机森林的滑坡空间易发性评价—以三峡库区湖北段为例.地球科学.
[30] 刘 坚,李树林,陈 涛.2018. 基于优化随机森林模型的滑坡易发性评价. 武汉大学学报.
[31] 郝国栋. 2019.基于随机森林模型的商南县滑坡易发性评价[D].西安: 西安科技大学.Hao Guodong. 2019.Landslide susceptibility assessment based on
random forest model in Shangnan County[D].Xi’ an: Xi’an University of Science and Technology.
[32] 林荣福,刘纪平,徐胜华, 等. 2020. 随机森林赋权信息量的滑坡易发性评价方法.测绘科学.
|