污染正态分布的熵估算
周访滨1, 2,朱建军1,陈永奇1, 3,王正武2
(1. 中南大学 地球科学与信息物理学院,湖南 长沙,410083;
2. 长沙理工大学 交通运输工程学院,湖南 长沙,410004;
3. 香港理工大学 土地测量与地理资讯学系,香港,999077)
摘要:针对污染分布密度函数特性,研究污染正态分布常用2种模型密度函数的近似推演。采用Kullback-Leibler距离研究2种模型概率密度函数的差异性,导出污染正态分布的主体分布概率密度函数、均值漂移模型下和方差扩大模型下总体分布概率密度函数之间的Kullback-Leibler距离表达式。研究结果表明:在主体分布为标准正态分布时,2种模型的概率密度函数差异与均值平移参数λ和方差膨胀因子α密切相关,呈非线性正比关系;污染分布密度函数不一致必将导致熵估算出现很大差异;导出污染正态分布熵估算的关键不在于选取概率密度函数,而在于寻求一种适合熵值运算规律的方案。
关键词:污染分布;污染正态分布;概率密度函数;差异性;熵;熵系数
中图分类号:P207 文献标志码:A 文章编号:1672-7207(2013)03-1269-06
Entropy estimation of contaminated normal distribution
ZHOU Fangbin1, 2, ZHU Jianjun1, CHEN Yongqi1, 3, WANG Zhengwu2
(1. School of Geosciences and Info-Physics, Central South University, Changsha 410083, China;
2. School of Traffic and Transportation Engineering, Changsha University of Science & Technology, Changsha 410004, China;
3. Department of Land Surveying and Geo-informatics, Hong Kong Polytechnic University, Hong Kong 999077, China)
Abstract: The probability density function (PDF) feature of contaminated normal distribution was investigated. The Kullback-Leibler distance was suggested to measure PDF difference between mean shift model and variance inflation model. Three Kullback-Leibler distance formulas about contaminated normal basis distribution PDF, mean shift model PDF and variance inflation model PDF were deduced. A numerical simulation was performed to analyze the difference of the two kinds of models. The results show that the PDF difference of two kinds of models is related to mean shift parameter λ and the variance inflation factor α closely when the main distribution is standard normal distribution and the relationship is nonlinear proportional. Two kinds of general models PDF can not be used to estimate contaminated normal distribution entropy and entropy coefficient. An approximate formula is suggested for entropy estimation of contaminated normal distribution.
Key words: contaminated distribution; contaminated normal distribution; probability density function; difference; entropy; entropy coefficient
对污染分布进行研究是抗差估计的基础[1],在近代测量误差解析和数据处理中发挥了重要作用,至今仍是诸多学科数据处理研究中的热点。熵自从19世纪中叶克劳修斯将其作为热力学的一个概念被提出,尤其是1948年申农信息熵被提出,熵概念不断被泛化并广泛应用于信息论、控制论、生物学、天体物理学、能源科学、材料科学、医学、经济学、相对论等学科中。近年来,熵在数据处理领域的应用非常宽泛。Lee等[2]提出了一种非凸模糊隶属函数测度的模糊熵,比一般模糊隶属函数更具有灵活性,并应用于互信息分析。一些研究者将熵理论用于工程类评价模型中的影响因子权重计算和系统优化参数选择[3-6],如:Zhou等[3]将其应用于岩体可爆性评价;Liu等[4]将其应用于地下采矿方法选择;解传银[5]应用于滑坡灾害敏感性评价;Han等[6]则从3个方面举例说明采用熵值计算方法确定权重的不科学性;吴红梅等[7]基于熵理论描述系统脆性的一些指标,给出子系统脆性熵、脆性风险熵、复杂系统脆性熵和子系统脆性联系熵的定义,并利用这些函数从不同角度描述复杂系统内部的不确定性;刘俊怡等[8-9]将熵用于图像处理;张贝等[10]概述了贝叶斯最大熵地统计学方法的理论发展过程及其在土壤和环境科学中的应用。目前,在研究误差熵及其相关统计量的关系问题[11-17]和地形熵及其在DEM中的应用问题[18-21]上也有许多成果,如:孙海燕[12]研究了测量平差中熵与不确定区间问题;范爱民等[13]提出了误差熵不确定带模型;李大军等[14]研究了未知分布误差的熵不确定度和多维随机变量的熵不确定度;Zhu等[14]利用最大熵原理将不等式约束平差问题转换成后验分布并求解;游扬声等[15]研究了误差熵的估计问题;Chen等[16-17]基于最大最小熵理论研究了参数最优估计和主成分分析法;陶旸等[18-21]将熵理论应用于地形信息处理和DEM质量检查。以上研究成果都离不开熵的计算问题,在通常情况下,对于连续性随机变量,只要已知其概率密度函数,便可根据信息熵的定义计算其熵和熵系数。孙海燕[11]给出了测量数据处理中常见的正态分布、均匀分布和P-范分布熵的计算公式。对于污染分布的熵估算问题,由于受密度函数表达的不确定因素等影响,目前人们对其研究较少,污染分布的熵特性及其估算亟待解决。为此,本文作者研究污染正态分布概率密度函数的近似表达,采用Kullback-Leibler距离[22]研究污染正态分布常见2种模型概率密度函数的差异性,探寻污染正态分布熵估算存在的问题。通过分析2种模型概率密度函数的差异性,发现污染分布密度函数的不一致必将导致熵估算的很大差异,导出污染正态分布的熵估算关键不在于选取概率密度函数,而在于寻求一种适合熵值运算规律的方案,为此,提出一种污染正态分布熵和熵系数估算的近似方法。
1 污染正态分布的概率密度函数表达形式
污染分布模式是由Turkey 于1960年提出的,形象描述了测量数据可能来自不同分布的母体,其经典模型为
(1)
式中:FC为总体分布函数;F为主体分布函数,是某种标准分布或称基础分布函数;H为污染分布函数;ε为污染率。基于测量数据大多呈正态分布,一般认为数据的主体服从正态分布,式(1)改写为
(2)
FN为正态分布函数,因此,式(2)称为污染正态分布函数。
参照式(2),一般将污染正态分布的概率密度函数fC表示为
(3)
由于污染率ε和污染分布的概率密度函数h难以确定,对fC的准确表达带来困难,通常认为污染正态分布存在2种模型,即“均值漂移”模型和“方差扩大”模型[23]。
1.1 均值漂移模型概率密度函数
均值漂移模型认为污染分布导致主体正态分布的数学期望发生了平移。设来自主体正态分布的观测数据,来自污染分布的观测数据lj导致主体分布数学期望改变的平移参数为λ,则整个观测数据,即
(4)
式(4)表明:均值漂移模型将污染源的影响高度弱化,只考虑一阶矩的影响。
1.2 方差扩大模型概率密度函数
方差扩大模型认为污染分布导致主体正态分布的方差产生了膨胀。设来自主体正态分布的观测数据,来自污染分布的观测数据lj导致主体分布方差改变的膨胀因子为,则整个观测数据,且 >> 1,即有
(5)
式(5)表明:均值漂移模型将污染源的影响适度弱化,考虑了二阶矩的影响。
1.3 分析与讨论
以上污染正态分布概率密度函数的2种模型在理论分析和数据处理方法上都回避了污染率和污染分布的表达问题,虽然蓝悦明等[24]推证了2种模型在参数最优估计中具有等价性,但并不表示这2种模型的概率密度函数相同或具有相同的数字特征。
从2种模型的概率密度函数表达形式上可以看出:二者均避开了污染率ε的不可知性,模糊化了污染分布的实际表达形式,通过改变主体分布参数逼近表达总体分布仍然为正态分布。杨元喜等[1]指出逼近的方法在理论上并不严密,但用于数据处理计算相当有效。习惯上,大多数研究采用方差扩大模型,主要是由于理论推证和应用方便。在一般情况下,数学期望和方差决定了正态分布的唯一性,从矩的角度考察2种模型的差异程度。显然,方差扩大模型比均值移动模型更有效地逼近实际总体分布,方差扩大模型考虑了污染对原有主体分布密度函数二阶矩的影响,而均值移动模型仅仅考虑了污染对原有主体分布密度函数一阶矩的影响。以上分析无法给出这2种模型密度函数具体的差异程度,需寻求一种方法定量分析这2种模型概率密度函数的差异性。
2 污染正态分布密度函数的差异性
2.1 Kullback-Leibler距离
为了进一步考察这2种模型密度函数的差异,在此引用Kullback-Leibler距离[22]研究这2种模型密度函数在近似表达上的差异程度。Kullback-Leibler距离和的一般定义为:
(6)
式中:和为2个密度函数;Sf和Sg分别为和的支撑集,且约定,<。
2.2 Kullback-Leibler距离下的污染正态分布密度函数差异性
设f0,f1和f2分别为污染正态分布的主体分布、均值漂移模型下和方差扩大模型下污染正态分布的总体分布密度函数,根据式(6),可推导出它们之间的Kullback-Leibler距离表达式,即
(7)
(8)
(9)
从式(7)~(9)可以看出:f0,f1和f2之间差异完全取决于均值平移参数λ、方差扩大因子和主体分布的方差,而与主体分布的数学期望无关。若主体分布为标准正态分布,则这2种模型的密度函数差异与主体分布参数无关,仅与λ和相关。为更直观表达,假定主体正态分布为标准正态分布,数值模拟计算见表1。
分析表1中的数值演算结果及式(7)~(9),可以得出:
(1) 若li~N(0, 1),则有,,。
(2) 存在>。
以上结论说明污染正态分布密度函数不论在何种近似下,随着污染源影响增大,非线性正比偏离主体分布的态势越来越明显,并且均值移动模型和方差扩大模型之间的差异也是随着均值移动参数和方差膨胀因子变大而增大。
3 污染正态分布熵的近似估算
3.1 污染正态分布熵的特性分析
从熵的角度去考量污染正态分布,一组服从正态分布的观测数据{Xi} (i=1, 2, …, n),若数据中不含粗差,即数据未被污染,则有,这组观测数据{X i}的熵保持稳定;若数据中含有粗差,即数据被污染,则污染显然来自包含于{X i}中的小部分数据{X i} (j=1, 2, …, m; m<< n),有,这组观测数据{X i}的熵必然发生变化。按照熵的运算规律,{X i}的熵在污染存在的情况下应该减小。因为在同等条件下,正态分布具有最大熵,污染若加剧,则熵相应减小。显然,熵与污染率成反比,这是污染分布熵估算应遵循的规律。
表1 λ和α不同取值下的d(f1, f2)
Table 1 d(f1, f2)at different λ and α
在一般情况下,熵的估算离不开概率密度函数,不同的密度函数必然导致不同的估算结果。分析污染正态分布密度函数的差异性可以看出:在污染正态分布熵的估算中,采用任何一种近似的概率密度函数都可能在数值上存在不同程度的差异,而且这种差异随着相关参数的增大而增大。因此,污染正态分布熵估算的关键不在于选取那种近似的概率密度函数,而是应该寻求一种更适合熵运算规律的方案。
3.2 污染正态分布熵的一种近似估算
通过对污染正态分布的概率密度函数差异性分析及其熵特性分析可知:污染正态分布的熵估算不能建立在对概率密度函数的取舍上,而应该根据污染正态分布自身的熵特性寻求解决方案。观察污染分布表达式形式,利用污染率和主体分布熵的组合则可有效表达污染正态分布熵的近似估算。
在通常情况下,已知某种分布的概率密度函数f(x),则可计算其熵H(x):
(10)
对于标准正态分布,熵HN(x)和熵系数KN为:
(11)
(12)
将式(4)和(5)代入式(10),可得到与标准正态分布相同的熵和熵系数表达式,这是污染正态分布概率密度函数近似处理的结果。在同等条件下,正态分布具有最大熵,以正态分布密度函数形式计算污染正态分布的熵显然偏大,失去了熵在污染正态分布研究中的意义,因此,再以“均值漂移”或“方差扩大”模型的概率密度函数计算污染分布的熵和熵系数显然不合理。式(3)全面表达了污染正态分布的概率密度函数,由于污染率ε和污染分布概率密度函数h很难确定,通常放弃对它们的估算而寻求诸如“均值漂移”和“方差扩大”模型的近似表达。不论是“均值漂移”还是“方差扩大”模型,二者均力图通过函数内部的特征数字改变以达到逼近的目的,若不顾及污染率ε的估计问题,则认为数据中的污染部分改变了数据原有正态分布的性质,导致熵发生改变。污染的存在导致污染正态分布偏离主体分布,污染率则成为污染正态分布概率密度函数近似表达的一种有效度量。因此,将污染率等同于熵变率,则可以有效表达和估算污染正态分布的熵和熵系数,即存在:
(13)
(14)
从数据被污染导致熵的变化角度去理解,综合式(13)~(14),污染正态分布的熵和熵系数借助污染率得到有效表达,符合熵的运算规则和数值表现规律。
3.3 算例
数据取自文献[25]中一组大样本GPS RTK观测数据,这些数据惯常认为服从正态分布,但蓝悦明等[24]分析认为这组数据的分布不能唯一确定,本文作者认为该组数据符合污染分布特性,其中X分量的数据主体分布明显呈正态分布,分别取中误差的2倍和3倍为粗差限差估算污染率,利用本文提出的熵估算方案估算X分量的数据误差分布的熵和熵系数,并与样本数据实际计算的熵加以比较,结果见表2。
表2 以ε估算的熵和熵系数
Table 2 Estimation of entropy and entropy coefficient based on ε
从表2可以看出:以污染率和数据主体分布的信息可有效估算污染分布的熵和熵系数,只是因为污染率的统计计算关系到不同限差取值问题,一般会出现不同的计算结果。从本算例以污染率估算和以样本数据实算的熵和熵系数结果对比可知:以2倍中误差为污染限差统计计算的污染率估算熵和熵系数更好地逼近样本数据实算值,并且熵的估算逼近程度比熵系数的估算逼近程度优。
4 结论
(1) 通过分析和研究污染正态分布常用的2种近似表达的概率密度函数的特性,从矩的角度指出了两者近似上的差别,方差扩大模型的近似程度明显比均值漂移模型的近似程度优。
(2) 应用Kullback-Leibler距离研究了2种模型概率密度函数的差异性。在主体分布为标准正态分布时,这2种模型的概率密度函数差异与均值平移参数λ和方差膨胀因子α密切相关,呈非线性正比关系。
(3) 揭示了这2种模型不能有效估算污染正态分布熵和熵系数的内在原因,根据熵的运算规则和数值表现规律给出了污染正态分布熵和熵系数估算的一种有效表达,算例证明了其可行性。
(4) 其他污染分布的熵估算可借助污染率和主体分布熵组合的这种近似表达方式进行,其表达方式有待进一步研究。
致谢:武汉大学测绘学院蓝悦明教授提供了源数据,在此深表谢意!
参考文献:
[1] 杨元喜, 柴洪州, 宋力杰. 污染分布的逼近及引用[J]. 测绘学报, 1999, 28(3): 209-214.
YANG Yuanxi, CHAI Hongzhou, SONG Lijie. Approximation for contaminated distribution and its applications[J]. Acta Geodaetica et Cartographica Sinica, 1999, 28(3): 209-214.
[2] Lee S H, Lee S M, Sohn G Y, et al. Fuzzy entropy design for non convex fuzzy set and application to mutual information[J]. Journal of Central South University of Technology, 2011, 18(1): 184-189.
[3] ZHOU Jian, LI Xibing. Integrating unascertained measurement and information entropy theory to assess blastability of rock mass[J]. Journal of Central South University, 2012, 19(5): 1953-1960.
[4] LIU Aihua, DONG Lei, DONG Longjun. Optimization model of unascertained measurement for underground mining method selection and its application[J]. Journal of Central South University of Technology, 2010, 17(4): 744-749.
[5] 解传银. 基于权重模型的滑坡灾害敏感性评价[J]. 中南大学学报: 自然科学版, 2011, 42(6): 1772-1779.
XIE Chuanyin. Landslides hazard susceptibility evaluation based on weighting model[J]. Journal of Central South University: Science and Technology, 2011, 42(6): 1772-1779.
[6] HAN Runchun, XIAO Jixian. Deciding weighing by entropy value method is an error[C]//Proceedings of Second International Conference on Information and Computing Science. New York: IEECS Press, 2009: 255-257.
[7] 吴红梅, 金鸿章. 基于熵理论复杂系统的脆性[J]. 中南大学学报: 自然科学版, 2009, 40(1): 347-351.
WU Hongmei, JIN Hongzhang. Brittleness of complex system based on entropy theory[J]. Journal of Central South University: Science and Technology, 2009, 40(1): 347-351.
[8] 刘俊怡, 李德仁, 李微, 等. 一种基于均值比率和最佳熵的SAR影像边缘检测方法[J]. 武汉大学学报: 信息科学版, 2007, 32(6): 494-497.
LIU Junyi, LI Deren, LI Wei, et al. A method for SAR imagery edge detection based on ratio of averages and optimal entropy[J]. Geomatics and Information Science of Wuhan University, 2007, 32(6): 494-497.
[9] Peter E W, Michael W H. Error entropy and mean square error minimization for lossless image compression[C]// Proceedings of IEEE ICIP 2006. New York: IEECS Press, 2006: 2261-2264.
[10] 张贝, 李卫东, 杨勇, 等. 叶斯最大熵地统计学方法及其在土壤和环境科学上的应用[J]. 土壤学报, 2011, 48(4): 831-839.
ZHANG Bei, LI Weidong, YANG Yong, et al. The Bayesian maximum entropy geostatistical approach and its application in soil and environmental sciences[J]. Acta Pedologica Sinica, 2011, 48(4): 831-839.
[11] 孙海燕. 熵与不确定度区间[J]. 武汉测绘科技大学学报, 1994, 19(1): 63-72.
SUN Haiyan. Entropy and the uncertainty interval[J]. Journal of Wuhan Technical University of Surveying and Mapping, 1994, 19(1): 63-72.
[12] 范爱民, 郭达志. 误差熵不确定带模型[J]. 测绘学报, 2001, 30(1): 48-53.
FAN Aimin, GUO Dazhi. The uncertainty band model of error entropy[J]. Acta Geodaetica et Cartographica Sinica, 2001, 30(1): 48-53.
[13] 李大军, 程朋根, 龚健雅, 等. 多维随机变量的熵不确定度[J]. 计量学报, 2006, 27(3): 290-293.
LI Dajun, CHENG Penggen, GONG Jianya, et al. Entropy uncertainty of multi-dimensional random variable[J]. Acta Metrologica Sinica, 2006, 27(3): 290-293.
[14] ZHU J J, Santerre R, Chang X W. A bayesian method for linear, inequality-constrained adjustment and its application to GPS positioning[J]. Journal of Geodesy, 2005, 78(9): 528-534.
[15] 游扬声, 马力, 刘星. 误差熵的估计问题研究[J]. 武汉大学学报: 信息科学版, 2008, 33(7): 748-751.
YOU Yangsheng, MA Li, LIU Xing. On estimation of error entropy[J]. Geomatics and Information Science of Wuhan University, 2008, 33(7): 748-751.
[16] CHEN Badong, ZHU Yu, HU Jinchun, et al. On optimal estimations with minimum error entropy criterion[J]. Journal of the Franklin Institute, 2010, 347: 545-558.
[17] HE Ran, HU Baogang, YUAN Xiaotong, et al. Principal component analysis based on non-parametric maximum entropy[J]. Neurocomputing, 2010, 73: 1840-1852.
[18] 陶旸, 汤国安, 王春, 等. DEM子集划分对地形信息量计算的影响研究[J]. 武汉大学学报: 信息科学版, 2009, 34(12): 1463-1466.
TAO Yang, TANG Guoan, WANG Chun, et al. Influence of DEM subset partition on terrain information content[J]. Geomatics and Information Science of Wuhan University, 2009, 34(12): 1463-1466.
[19] 席雷平, 陈自力, 李小民. 基于地形熵的地形适配区选择准则研究[J]. 弹箭与制导学报, 2010, 30(4): 247-249.
XI Leiping, CHEN Zili, LI Xiaomin. Discussion on the navigable terrain selection algorithm based on terrain entropy[J]. Journal of Projectiles, Rockets, Missiles and Guidance, 2010, 30(4): 247-249.
[20] Wise S. Assessing the spatial characteristics of DEM interpolation error through cross-validatiom[J]. Computers & Geosciences, 2011, 37(8): 978-991.
[21] Wise S. Information entropy as a measure of DEM quality[J]. Computers & Geosciences, 2012, 48(5): 102-110.
[22] 蔡择林, 李开灿. 常见分布的最大Kullback-Leibler距离[J]. 武汉大学学报: 理学版, 2007, 53 (5): 513-517.
CAI Zelin, LI Kaican. Maximum Kullback-Leibler distance of some conventional distributions[J]. Journal of Wuhan University: Nat Sci Ed, 2007, 53(5): 513-517.
[23] 周世健, 曾绍炳. 均值漂移模型和方差扩大模型的等价[J]. 矿山测量, 1995(1): 8-10.
ZHOU Shijian, ZENG Shaobing. The equivalence of mean shift model and variance inflation model[J]. Mine Surveying, 1995(1): 8-10.
[24] 蓝悦明, 王楠. GPS观测值误差分布的研究[J]. 测绘通报, 2011(2): 6-7, 13.
LAN Yueming, WANG Nan. The study of probability density function for GPS RTK observations[J]. Bulletin of Surveying and Mapping, 2011(2): 6-7, 13.
(编辑 陈灿华)
收稿日期:2012-07-10;修回日期:2012-09-10
基金项目:国家自然科学基金资助项目(51278068);湖南省教育厅项目(09C089);长沙理工大学道路结构与材料交通行业重点实验室开放基金资助项目(kfj100205);湖南省重点学科建设项目(2012)
通信作者:朱建军(1962-),男,湖南双峰人,教授,博士生导师,从事测量数据处理等研究;电话:13873138896;E-mail: zjj@csu.edu.cn