基于广义线性模型的概率风险评价方法及其应用
张进春,吴超
(中南大学 资源与安全工程学院,湖南 长沙,410083)
摘要:应用广义线性模型处理风险评价中响应变量为属性变量或离散型变量的问题,对风险事件依风险等级的累计发生概率进行logistic变换,以变换的累计发生概率作为连接函数,基于风险样本事件先验信息建立回归模型。针对待评价的风险事件,利用所建立的回归模型分别计算各风险等级的累计发生概率和发生概率,以其最大发生概率所对应的等级作为风险事件的最终评价等级。在建模过程中,采用极大似然估计法对回归系数进行参数估计并采用Newton-Raphson迭代算法求解,模型的拟合优度采用皮尔逊χ2检验。应用本方法建立煤与瓦斯突出的概率风险评价模型,并对具体矿井煤与瓦斯突出的概率风险进行评价。研究结果表明:采用该方法可准确得出评价结果。
关键词:广义线性模型;概率风险评价;极大似然估计;皮尔逊χ2检验
中图分类号:X913.4 文献标志码:A 文章编号:1672-7207(2011)06-1719-06
Probabilistic risk assessment method based on generalized linear models and its application
ZHANG Jin-chun, WU Chao
(School of Recourses and Safety Engineering, Central South University, Changsha 410083, China)
Abstract: The basic principle of generalized linear models(GLM) was used in risk assessment method. The cumulative occurrence probability of the risk was transformed into logistic form according to its level. The risk assessment regression model was founded based on the prior information of the samples taking the transformed cumulative probability as the linking function. Then every level’s cumulative occurrence probabilities of the risks assessed were gained using the founded regression model and the occurrence probability was calculated. The final risk level was determined with the level of maximum occurrence probability. The coefficients of the regression model were estimated with MLE and calculated by Newton-Raphson iterative algorithm, and the goodness of fit of the model was tested by Pearson χ2 test. The method was applied in coal and gas outburst risk evaluation and a specific mine was assessed. The results show that this method is accurate and valuable.
Key words: generalized linear models(GLM); probabilistic risk assessment; maximum likelihood estimation(MLE); Pearson χ2 test
风险事件的发生是在多个影响因素共同作用下的随机事件。风险评价就是根据多个影响因素的状态确定事件可能处于的状态及其发生的概率[1]。风险事件具体发生的状态通常采用属性变量或离散型变量表征,因此,风险评价属于有序多类别评价问题,而随机性则是其本质特性。常见的风险评价方法如模糊综合评价法[2-3]、灰色理论评价法[4-15]、TOPSIS[6]法等基于专家经验进行风险评价,无法避免主观性;而神经网络[7-15]、支持向量机等智能算法[9-10]基于样本信息的先验知识,克服了专家经验的主观性,评价结果的准确性较高。但上述方法均没有给出风险事件发生的概率,最终导致评价结论为确定性结论,不能反映风险事件的随机特性。近年来发展起来的广义线性模型(Generalized linear models,简称GLM)[11]突破了传统回归模型对响应变量的正态性与方差齐性的要求,在2个方面对传统回归模型进行了推广:一方面,响应变量的分布服从指数族分布,如二项分布、泊松分布等,不要求响应变量必须服从正态分布;另一方面,引进连接函数将响应变量的期望值与解释变量的线性组合联系起来。广义线性模型具有对响应变量的宽泛要求等优越特性,特别适合于非线性、多类别问题的回归。在此,本文作者基于广义线性模型的基本原理,提出采用变换的风险事件发生的累计发生概率作为联系函数,基于风险样本的先验信息建立风险评价回归模型,并利用回归模型进行概率风险评价的方法。
1 广义线性模型的基本原理
广义线性模型基于指数簇分布,可以对非正态分布的数据进行回归分析,但又保留了很多正态线性回归模型的常规思想。其基本形式表示为[11]:
(1)
var[Yi]=fV(μi)/ωi (2)
式中:Yi 为因变量向量;g(x)为联系函数;Xij为已知自变量矩阵;βj为需要估计的模型参数向量;ξi为干扰项;为方差函数V(x)的散布参数;ωi为每一观察值的信度或权重;var为方差。广义线性模型的基本构成包括随机部分、系统部分和联系函数3个部分。
(1) 随机成分用于明确因变量的概率分布。随机成分包含自然指数分布族中某一个分布的若干独立观察值Y=(y1,y2,…,yn)。自然指数分布族概率分布的每个观察值的密度函数为:
(3)
式中:a(·),b(·)和c(·)为已知函数;θ为典则参数;为散度参数。任何一个可以写成这种形式的分布都是自然指数分布族的一员。
(2) 系统成分确定预测解释变量的线性函数。广义线性模型的系统成分通过一个线性模型η=Xβ将向量与一组解释变量联系起来。其中:X为设计矩阵,包括解释变量的n个观察值;η为线性预测向量。
(3) 联系函数用于描述系统成分与随机成分的期望值之间的函数关系。设 =(1,2,…,n),μi与ηi通过ηi=g(μi)联系。其中,g(?)为任意单调可导函数。模型通过式(4)将因变量观察值的期望值与解释变量连系起来。
;i=1,2,…,n (4)
2 基于GLM的概率风险评价方法
2.1 风险概率GLM回归
设某风险事件有J个类别或等级rj(j=1,2,…,J);设n组观测数据(y|X)i=(y|x1,x2,…,xk)i(i=1,2,…,n)。其中:y=(y1,y2,…,yJ)为表示风险事件的类别向量;yi(0,1,…,J);X=( x1,x2,…,xk),为自变量向量。设Pi为在自变量Xi条件下风险事件属于某一等级rj的累计发生概率,Pi=P(yi≤j|Xi)。由于0≤Pi≤1,考虑到Pi的微小变化很难用普通的方法发现或处理,Pi与x1,x2,…,xk的关系很难用线性模型描述,因此,采用对Pi进行logistic变换[12]加以解决:
(5)
Q的取值区间变为(-∞,+∞)。假设Q与自变量之间X具有线性关系,基于广义线性模型的基本原理,由式(4)和(5)取联系函数:
(6)
式中:βi(i=1,2,…,k)为系数向量;εi为残差。
利用极大似然估计,获得参数β的估计,回代式(5)和(6)则得到回归方程:
(7)
式中:为回归系数估计。
2.2 参数β的极大似然估计
普通线性回归假设响应变量为正态分布,采用最小二乘法进行参数估计。广义线性模型对响应变量的正态性不做要求,故不同于普通线性回归,其参数β采用极大似然估计法进行估计。n组观测数据(yi|Xi)(i=1,2,…,n)在相互独立的条件下,其似然函数表示各观测的边际概率的乘积,为了简化计算,以对数似然函数表示:
(8)
则参数β的最优解存在于似然函数的最大极值点处,即似然函数对每个系数的一阶导数为0:
(9)
采用Newton-Raphson[13]迭代算法求解,当似然函数收敛时,算法终止:
(10)
(11)
2.3 模型的检验
所建立的风险概率回归模式是否具有较高的拟合优度,必须对其进行检验。普通线性回归模型基于最小二乘法建立回归方程,通过预测值与实际值的离差进行方差检验。当响应变量为连续型变量时,该方法适用。然而,由于在风险事件评价中,响应变量为属性变量或离散变量,故基于离差的方差检验方法不适用。采用皮尔逊χ2检验法[14]对风险概率回归模式方程的拟合优度进行检验:
(12)
式中:χ2为皮尔逊检验统计量;n为样本总数;mj为样本数据中属于某风险类别rj的个数;Pj为相应风险类别的rj累计概率。
皮尔逊χ2检验根据各风险类别的实际观测频数与理论期望频数的相对平方偏差的总和进行检验:若χ2充分大,则应认为回归的拟合优度不显著;否则,则认为显著。
2.4 风险评价
对于某待评价样本,代入式(4)求取样本评价结果的J个累计概率,进而求取样本隶属于各个特定评价等级的概率:
(13)
且。若某一评价等级的概率pj=,则样本的最终评价等级为ri。
3 评价方法在煤与瓦斯突出风险评价中的应用
在煤矿生产过程中,煤与瓦斯突出事故极易造成大量人员伤亡和财产损失,因其后果严重而成为煤矿灾害之首。煤与瓦斯突出预测与评价也成为煤矿安全管理的重点。由于煤与瓦斯突出事故的内在机理极其复杂,迄今为止,仍然没有得出突出影响因素与突出事件之间相关解析规律。基于经验的传统预测技术存在一定的不精确性,且很难反映出各突出影响因素下瓦斯突出的统计特性,即没有给出概率。苗琦等[15]基于灰色关联分析的神经网络方法,以我国典型突出矿井的煤与瓦斯突出实例建立煤与瓦斯突出评价模型,并选择云南恩洪煤矿为煤与瓦斯突出矿井评价对象进行评价。针对文献[15]中的数据,利用基于GLM的概率风险评价方法对其进行风险预测与评价。
3.1 评价模型的建立
根据突出强度,将煤层煤与瓦斯突出分为4种情况:非突出煤层(记为“无”);少量突出(煤质量在50 t以下,记为“小”);一般突出(煤质量为50~100 t,记为“中”);大量突出(煤质量在100 t以上,记为“大”)。 选取瓦斯放散初速度(Δp)、煤的坚固性系数( f )、瓦斯压力、煤体破坏类型和开采深度作为影响煤与瓦斯突出强度的因素指标。其中煤体破坏类型分为5类:Ⅰ 非破坏煤;Ⅱ 破坏煤;Ⅲ 强烈破坏煤;Ⅳ 粉碎煤; Ⅴ 全粉煤,分别表示为序号1~5。样本原始数据见 表1。
以突出强度作为响应变量,以放散初速度、煤的坚固性系数、瓦斯压力、煤体破坏类型和开采深度作为预测变量,以表1中20个样本数据建立煤与瓦斯突出的风险概率GLM回归模型。模型系数的极大似然估计迭代过程如图1所示,模型的对数似然函数在经过18步迭代后收敛于最大值-18.464 5。模型的皮尔逊检验显示χ2=69.59,自由度为52,对应的概率p为0.052(>0.050),因此,模型具有较高的拟合优度。
3.2 模型的应用
云南恩洪煤矿为煤与瓦斯突出矿井,经鉴定在标高为1 874~1 932 m以下具有突出危险性。以该矿的煤与瓦斯突出实例为研究对象,选择8个突出实例作为评价样本,见表2。
图1 模型系数的极大似然估计迭代求解过程
Fig.1 Iterative calculating process of coefficients of regression model
应用所建立的概率风险评价模型,对该矿8个突出实例进行概率评价,评价结果见表3。表3中分别给出了应用模型预测的8个样本隶属于4种突出强度类型的累计概率及判断各种样本突出类别的概率。8个样本突出强度隶属于各个突出等级的最大概率均对应于“小”突出的等级。与表2相比,由于8个样本的实际突出强度也属于“小”突出等级,由此可以判断所建立的评价模型准确地给出了评价结果。
作为对比,表4给出了本文提出的方法与其他评价方法的评价结果,其中:“有”表示煤层有突出危险;“无”表示煤层无突出危险。由表4可以看出:采用本文提出的概率风险评价方法和BP神经网络预测法所得样本的强度等级与实际发生强度等级相吻合,而采用单项指标评价法和综合指标评价法所得强度等级与实际发生强度等级存在一定的误差。与BP神经网络预测法的评价结果相比,采用概率风险评价法不仅得出了准确的评价结果,而且得出了样本隶属于各突出强度等级的概率。这就是概率风险评价法的优点。
表1 煤与瓦斯突出原始数据
Table 1 Original data of coal and gas outburst
表2 云南恩洪煤矿煤与瓦斯突出实例
Table 2 Coal and gas outburst of Enhong Mine in Yunnan Province
表3 评价结果
Table 3 Evaluation results
表4 多种评价结果的对比
Table 4 Comparison of results with several evaluation methods
4 结论
(1) 风险评价多为有序多分类评价,其响应变量多为属性变量或离散变量。广义线性模型属于指数非线性回归,对响应变量的要求更低。本文基于广义线性模型的基本原理,构建的风险评价方法能有效地处理风险事件发生等级为属性变量或离散变量的问题。
(2) 构建的风险评价方法采用对风险事件不同等级的累计发生概率进行变换,以变换后的累计发生概率作为广义线性模型的连接函数建立风险评价回归模型,利用回归模型对风险事件概率进行评价。该风险评价方法有效地体现了风险事件的随机性,因此,该风险评价方法更加科学和符合实际。
(3) 采用广义线性模型的概率风险评价方法对具体矿井的煤与瓦斯突出概率风险进行评价,结果表明该方法是准确和有效的。与其他评价方法相比,该概率风险评价方法不仅能够进行风险评价,而且能给出各个风险等级的发生概率。
参考文献:
[1] 汪元辉. 安全系统工程[M]. 天津: 天津大学出版社, 1999, 132-133.
WANG Yuan-hui. Safety system engineering[M]. Tianjin: Tianjin University Press, 1999: 132-133.
[2] Zenga J, Ana M, Smith N J. Application of a fuzzy based decision making methodology to construction project risk assessment[J]. International Journal of Project Management, 2007, 25(6): 589-600.
[3] 张进春, 吴超, 侯锦秀. 生产车间安全管理状况的区间数模糊综合评价方法研究[J]. 安全与环境学报, 2006, 6(2): 135-138.
ZHANG Jin-chun, WU Chao, HOU Jin-xiu. Study on the fuzzy integrate evaluating method of interval number on the workshop safety management[J]. Journal of Safety and Environment, 2006, 6(2): 135-138.
[4] 仇一颗, 仇劲松. 基于灰色层次法的公路工程造价风险评价[J]. 公路工程, 2009, 34(4): 54-57.
QIU Yi-ke, QIU Jin-song. Grey hierarchy evaluation for the cost risks of highway projects[J]. Central South Highway Engineering, 2009, 34(4): 54-57.
[5] 高阳, 罗军舟. 基于灰色关联决策算法的信息安全风险评估方法[J]. 东南大学学报, 2009, 39(2): 225-229.
GAO Yang, LUO Jun-zhou. Information security risk assessment based on grey relational decision-making algorithm[J]. Journal of Southeast University, 2009, 39(2): 225-229.
[6] WANG Ying-ming,Elhag T M S. Fuzzy TOPSIS method based on alpha level sets with an application to bridge risk assessment [J]. Expert Systems with Applications, 2006, 31(2): 309-319.
[7] Lean Y B, WANG Shou-yang, Kin K L K K. Credit risk assessment with a multistage neural network ensemble learning approach[J]. Expert Systems with Applications, 2008, 34(2): 1434-1444.
[8] 杨成, 孙春林, 孟利峰. 基于小波神经网络的承制单位信用风险评价[J]. 军械工程学院学报, 2009, 21(3): 14-17.
YANG Cheng, SUN Chun-lin, MENG Li-feng. Credit risk evaluation of supplier based on wavelet neural network[J]. Journal of Ordnance Engineering College, 2009, 21(3): 14-17.
[9] 赵新丽, 李书全. 基于SVM的国际工程项目风险评价方法研究[J]. 吉林建筑工程学院学报, 2007, 24(1): 13-15.
ZHAO Xin-li, LI Shu-quan. Study on risk evaluation method of international project based on SVM[J]. Journal of Jilin Architectural and Civil Engineering, 2007, 24(1): 13-15.
[10] 李勘. 基于支持向量机的武器装备研制项目风险评价方法[J]. 上海交通大学学报, 2008, 42(11): 1851-1854.
LI Kan. Risk evaluation method of weapon equipment development project based on support vector machine[J]. Journal of Shanghai Jiaotong University, 2008, 42(11): 1851-1854.
[11] 陈希孺.广义线性模型(一)[J]. 数理统计与管理, 2002, 21(5): 54-61.
CHEN Xi-ru. Generalized linear models(Ⅰ)[J]. Application of Statistics and Management, 2002, 21(5): 54-61.
[12] 何晓群. 多元统计分析[M]. 北京: 中国人民大学出版社, 2004: 235-242.
HE Xiao-qun. Multivariate statistical analysis[M]. Beijing: China Renmin University Press, 2004: 235-242.
[13] Menard S. Coefficients of determination for multiple logistic regression analysis[J]. The American Statistician, 2000, 51(1): 17-24.
[14] 吴翊, 李永乐, 胡庆军. 应用数理统计[M]. 长沙: 国防科技大学出版社, 2003: 75-82.
WU Yu, LI Yong-le, HU Qing-jun. Applied mathematics & statistics[M]. Changsha: National Defense University Press, 2003: 75-82.
[15] 苗琦, 杨胜强, 欧晓英, 等. 煤与瓦斯突出灰色-神经网络预测模型的建立及应用[J]. 采矿与安全科学学报, 2008, 25(3): 309-312.
MIAO Qi, YANG Sheng-qiang, OU Xiao-ying, et al. Establishment and application of grey-neural network forecasting model of coal and gas outburst[J]. Journal of Mining & Safety Engineering, 2008, 25(3): 309-312.
(编辑 陈灿华)
收稿日期:2010-07-10;修回日期:2010-09-21
基金项目:国家自然科学基金资助项目(50974132)
通信作者:吴超(1957-),男,广东揭阳人,博士,教授,从事安全与环保研究;电话:0731-88876524;E-mail:wuchao@mail.csu.edu.cn