多环芳烃气相色谱保留指数与结构参数的定量关系
戴益民1, 2, 3,黄可龙1,李浔2, 3,曹忠2, 3,曾巨澜2, 3
(1. 中南大学 化学化工学院,湖南 长沙,410083;
2. 长沙理工大学 电力与交通材料保护湖南省重点实验室,湖南 长沙,410004;
3. 长沙理工大学 化学与生物工程学院,湖南 长沙,410004)
摘要:将距离矩阵与邻接矩阵相结合,提出新颖的表征多环芳烃分子支化度的描述子CN和表征多环芳烃分子结构的描述子CT;采用线性回归方法构建100种多环芳烃气相色谱保留指数的定量相关模型。所得模型的非交叉验证系数R=0.997 0,交叉验证相关系数RCV=0.996 7。随机选出70 种多环芳烃化合物作为训练集,其余30种作为测试集来验证模型的预测能力和稳健性。研究结果表明:训练集和测试集的复相关系数分别为0.997 2和0.996 8,定量计算结果与实验结果较吻合。
关键词:多环芳烃;结构参数;气相色谱保留指数;定量结构-色谱保留关系
中图分类号:O658 文献标志码:A 文章编号:1672-7207(2011)08-2227-06
Quantitative relationship between gas chromatography retention
indexes and structural parameters for PAHs
DAI Yi-min1, 2, 3, HUANG Ke-long1, LI Xun2, 3, CAO Zhong2, 3, ZENG Ju-lan2, 3
(1. School of Chemistry and Chemical Engineering, Central South University, Changsha 410083, China;
2. Hunan Provincial Key Laboratory of Materials Protection for Electric Power and Transportation,
Changsha University of Science and Technology, Changsha 410004, China;
3. School of Chemistry and Biological Engineering, Changsha University of Science and Technology, Changsha 410004, China)
Abstract: Two novel molecular structure descriptors based on distance matrix and adjacency matrix, named CN and CT were proposed which characterized branch vertex and molecular structural size of polycyclic aromatic hydrocarbons (PAHs), respectively. A quantitative structure-retention relationship (QSRR) model for estimating gas chromatography retention indexes of 100 polycyclic aromatic hydrocarbons was constructed by multiple linear regression (MLR). A satisfactory results were obtained that the correlation coefficients in partial least square and cross validation using leave-one-out (LOO) were 0.997 0 and 0.996 7, respectively. In order to verify the predictability and stability of the model, the samples were divided into 70 training sets and 30 test sets randomly. The results indicate that the correlation coefficients of training set and test set are 0.997 2 and 0.996 8, respectively. The quantitatively calculated results are in agreement with experimental ones basically.
Key words: polycyclic aromatic hydrocarbons (PAHs); structural parameter; gas chromatography retention indexes; quantitative structure-retention relationship (QSRR)
煤、石油以及有机质不完全燃烧产生大量的多环芳烃化合物,由于它们大多在环境中的化学稳定性高,水溶性低且长期残留,因而具有潜在的致癌、致畸和致突变作用,对环境的危害极大。如何在多环芳烃异构体尚难以获得标识化合物且缺乏其普遍的色谱数据的情况下简捷而又快速地对其生物毒性和环境行为进行预测,筛选出具有潜在危害的化学品成为重要的研究课题[1-2]。气相色谱保留指数是进行色谱定性分析的基础,当固定相一定时,化合物在色谱柱上的保留行为与分子结构及其化学和电性特征密切相关;因此,根据分子结构特征建立定量结构-色谱保留关系(QSRR)对预测化合物的保留指数、选择色谱分离条件以及探索色谱保留机制是非常有效的途径。随着QSRR 技术日益被重视,已有很多研究利用拓扑、电性和几何特征等对化合物分子进行结构描述,并建立分子结构-色谱保留之间的定量相关模型来预测化合物的色谱保留指数[3-8],但QSRR主要集中用于烷烃、烯烃、醇和胺类化合物的研究,而用于多环芳烃化合物的研究较少[9-10]。鉴于此,本文作者选择100个多环芳烃化合物为研究对象,在分子距离矩阵和邻接矩阵的基础上提取出表征多环芳烃分子支化度的描述子CN和表征多环芳烃分子结构的描述子CT,应用线性回归方法进行建模。
1 原理与方法
化合物的气相色谱保留指数是分子微观结构的宏观反映。通常多环芳烃的色谱保留值随其碳原子数和其相对分子质量的增加而呈近似递增规律,但取代多环芳烃的保留值,由于分子结构特点及其内部相互作用的影响,使其随碳原子数和相对分子质量增加明显表现出线性偏离;因此,探讨能够准确描述多环芳烃分子结构的参数是进行其定量结构色谱保留关系研究的关键。目前,常用的参数有几何参数、电子参数和拓扑参数,而通过图论方法得到表征化合物结构的分子描述符,是定量表征化合物的重要手段。对于任一n个顶点的分子图可以构造1个n×n的距离矩阵和邻接矩阵。距离矩阵中元素dij等于图中连接顶点i和j的最小边数,当i和j间不连通时,dij取无穷大。邻接矩阵中任何边r和边s邻接,则在矩阵的(r,s)和 (s,r)位置记为1,其他位置记为0。对于任一分子图,其距离矩阵D和邻接矩阵A分别表示为:
通常分子拓扑指数的计算可通过对描述分子图的邻接矩阵和距离矩阵的处理来实现。距离矩阵主要反映分子结构大小及其支化度信息,而邻接矩阵反映分子的连接方式。为充分考虑分子中顶点原子的性质和成键情况及分子中原子与原子的连接关系,在距离矩阵D和邻接矩阵A的基础上作如下处理得到矩阵C:
C=D?A
利用MATLAB程序求出矩阵C的所有特征值λi,为此提出2个新的分子结构描述子CN和CT:
(1)
(2)
其中:描述子CN由矩阵C的特征值加和的平方根所构成,表征由多环芳烃的距离矩阵和邻接矩阵相乘得到的对称矩阵向量范数[11]。另外,根据平面直角坐标系中2点之间距离公式可知:描述子CN等于多环芳烃分子中各顶点到分子中心的距离,能有效反映分子支化度及各顶点之间相互作用的程度。CT由矩阵C的特征值的和所构成,表征分子结构的大小。当界面分子处于不对称力场时,分子主体间相互作用与分子界面上相互作用力的差异导致分子结构发生变化。与六元环相比,由于五元环中缺失的顶点与相邻两顶点之间不存在相互作用,扭转角发生改变导致分子构型发生变化,相应分子体积和表面积减少。
2 结果与讨论
2.1 数据来源
本文研究的100个多环芳烃化合物的气相色谱保留指数见文献[12]。表1所示为所有化合物的名称及相应的实验气相色谱保留值。
2.2 模型与检验
根据式(1)和(2),在计算机上采用MATLAB软件编程求出分子结构描述子CN和CT,见表1。利用线性回归法将100个多环芳烃的气相色谱保留指数与其结构参数CN和CT建立相应的两描述子回归模型,并采用留一法对该模型进行交互校验检测,所得结果 如下:
IR=(-10.263 5±5.403 6)+(-0.060 2±0.072 3)CN+
(9.875 3±0.361 7)CT (3)
n=100;m=2;R=0.997 0;RCV =0.996 7;
SRM=6.233 6;F=8 045.66
其中:IR的表达式中,括号内前面数字为回归系数期望值,后面数字为标准偏差;n为样本数;m为变量数;R为复相关系数;RCV为交互检验的复相关系数;SRM为均方根误差;F为Fisher检验值。由以上结果可知:其削减误差为99.4%,表明采用描述子CN和CT来描述多环芳烃气相色谱保留指数的变化规律仅0.6%的随机因素未被揭示。按式(3)得出的部分计算值见表1,其平均相对误差为1.37%,最大相对误差仅为4.76%,预测值与实验值较吻合,且其复相关系数R和RCV非常接近,说明描述子CN和CT包含了影响多环芳烃气相色谱保留指数的主要结构因素;同时,模型有很强自身拟合能力以及对外部样本的预测能力。
表1 部分多环芳烃的分子结构描述子CN和CT以及气相色谱保留指数的实验值和计算值
Table 1 Molecular structural descriptors CN and CT of part PAHs and experimental/calculated gas
chromatography retention index data
建立QSRR 模型的目的是预测未知化合物的色谱保留行为,因此,模型不仅要求相关性能好,建模误差小,同时还要求预测能力强,即对不包含在训练集内的样本即外部测试集里的样本具有较强的预测能力。为此,将100个多环芳烃随机抽出近2/3样本作为训练集,剩余的化合物(表1中带“*”号)作为测试集用来检验模型的预测能力。同样采用线性回归法对训练集进行回归分析:
IR=(-12.029 0±6.518 3)+(-0.079 5±0.083 7)CN+
(9.987 4±0.425 8)CT (4)
n=70;R=0.997 2;RCV=0.996 8;
SRM=6.162 0;F=5 891.11
结果表明:由训练集所建立的模型拟合质量和预测能力与全部数据的模型结果非常接近,说明模型具有很好的稳健性。用基于训练集数据所建立的QSRR模型来预测测试集中的多环芳烃气相色谱保留指数,预测结果如图1所示,所有样本都均匀分布于过原点45°直线周围,没有特别明显的异常点。
为了更加直观地观测误差的分布情况,由训练集与测试集的模型估计误差分布图(图2,化合物序号见表1)可知:绝大多数样本的误差分布在±2倍均方根误差以内,仅几个为明显离群值。另外,将100个样本的Cook距离值与中心化杠杆值作图也得到同样的结论,仅36和72号等几个样本稍显异常。
2.3 模型比较
为进一步评价本文所选择的参数对多环芳烃气相色谱保留指数进行预测的有效性,在相同样本数的情况下,Kang等[9]根据分子极化效应理论,采用碳链的准长度与准共轭体系表面积作为描述符进行多元线性回归(MLR)分析;周丽平等[10]从分子图论拓扑学角度出发,提出用六元素组成的分子距边矢量表达多环芳烃化学结构,对其气相色谱保留值进行定量相关性研究,相关结果如表2所示。从表2可知:本文所用方法仅根据分子的距离矩阵和邻接矩阵提取2个分子结构描述符得到模型统计结果均优于文献[9-10]中的结果,而且该方法具有参数计算简单、无需查找任何数据的优点。
图1 100个多环芳烃保留指数计算值与实验值比较
Fig.1 Comparison of experimental values and predict values of retention index for 100 PAHs
图2 100个多环芳烃保留指数计算结果偏差
Fig.2 Deviations of retention index for 100 PAHs
2.4 模型的物理意义
当色谱分离条件一定时,被测组分的气相色谱保留指数主要与分子本身结构及其化学和电性特征密切相关。本文定义的CN表征由多环芳烃的距离矩阵和邻接矩阵相乘得到的对称矩阵向量范数,反映分子支化度的情况,结果表明:随着支化度的加大,化合物在固定相上的色谱保留作用降低,这可能是同分异构体的分子支化度加大后其分子形状类似球体,与色谱柱固定相接触面积变小,分子间色散力也随之变小的缘故。而CT反映分子结构大小,随着碳链长度增加,分子体积增大,色散力也加大,因而,化合物在固定相上的保留作用增强,相应的多环芳烃气相色谱保留指数值增大。应当指出的是:当多环芳烃分子中含有五元环时,描述子CT须在正常求得结果的基础上减去2才能得到良好的回归结果。这可能是与六元环相比,五元环的扭转角变化较大导致构型发生变化[13],分子色散力与极化率变小,使分子与色谱柱固定相接触面积变小的缘故。
表2 本文QSRR模型与文献[9-10]中的回归模型统计结果比较
Table 2 Statistical results comparison of QSRR models for this paper and Refs. [9-10]
虽然所建模型都符合建模要求,但有必要讨论分子结构描述子各自对整个模型所做的贡献,进而探讨具有不同物理意义的参数对多环芳烃气相色谱保留指数的影响。为此,采用相对贡献(Ψr)和百分数贡献(Ψf)[14]来定量描述参数对模型的贡献。其中,Ψr和Ψf分别定义为:
(5)
(6)
式中:ai和分别为模型中第i个描述子前的系数及该参数的平均值;R2为模型的判定系数。通过分析,CN的相对贡献和百分数贡献分别为-8.007和2.03%;CT的相对贡献和百分数贡献分别为384.741和97.37%,可知CN和CT对所构建的QSRR模型贡献不同,增加分子体积、减小分子支化度有利于多环芳烃气相色谱保留指数的增加。CT的贡献更大,说明分子结构大小是决定多环芳烃气相色谱保留指数变化规律的主要因素,而支化度则起补充作用。
3 结论
(1) 用描述子CN和CT对多环芳烃的气相色谱保留指数进行模拟,模型对内部样本具有较强的估计能力,同时,对外部样本具有较强的预测能力。
(2) 描述参数计算简单,仅根据分子的距离矩阵和邻接矩阵就可以得到满意的结果。所建模型不仅在一定程度上阐明了多环芳烃气相色谱保留指数与其分子结构信息之间的关系,同时也为研究多环芳烃化合物的色谱保留行为提供一种新的方法。
参考文献:
[1] Ferreira M M C. Polycyclic aromatic hydrocarbons: A QSPR study[J]. Chemosphere, 2001, 44(2):125-146.
[2] Santiuste J M, Harangi J, Takács J M. Mosaic increments for predicting the gas chromatographic retention data of the chlorobenzenes[J]. Journal of Chromatography A, 2003, 1002(1/2): 155-168.
[3] Liu F P, Liang Y Z, Cao C Z, et al. QSPR study of GC retention indices for saturated esters on seven stationary phases based on novel topological indices[J]. Talanta, 2007, 72(4): 1307-1315.
[4] Farkas O, Zenkevich I G, Stout F, et al. Prediction of retention indices for identification of fatty acid methyl esters[J]. Journal of Chromatography A, 2008, 1198/1199: 188-195.
[5] Chen H F. Quantitative predictions of gas chromatography retention indexes with support vector machines, radial basis neural networks and multiple linear regression[J]. Analytica Chimica Acta, 2008, 609(1): 24-36.
[6] 王宇, 刘树深, 赵劲松, 等. 电拓扑状态预测有机磷酸酯类化合物的气相色谱保留指数[J].化学学报, 2006, 64(10): 1043-1050.
WANG Yu, LIU Shu-shen, ZHAO Jing-song, et al. Prediction of gas chromatographic retention indices of organophosphates by electrotopological state index[J]. Acta Chimica Sinica, 2006, 64(10): 1043-1050.
[7] 刘凤萍, 梁逸曾, 曹晨忠. 拓扑-量子指数醛酮气相色谱保留指数及沸点的定量构效关系[J]. 分析化学, 2007, 35(2): 227-232.
LIU Feng-ping, LIANG Yi-zeng, CAO Chen-zhong. Quantitative structure property relationship study of gas chromatographic retention indices and boiling points for oxo-compounds using topological-quantum descriptors[J]. Chinese Journal of Analytical Chemistry, 2007, 35(2): 227-232.
[8] LI Xiao-ru, LAN Zheng-gang, LIANG Yi-zeng. Analysis of volatile chemical components of Radix Paeoniae Rubra by gas chromatography-mass spectrometry and chemometric resolution[J]. Journal of Central South University of Technology, 2007, 14(1): 57-61.
[9] Kang J J, Cao C Z, Li Z L. Quantitative structure–retention relationship studies for predicting the gas chromatography retention indices of polycyclic aromatic hydrocarbons quasi-length of carbon chain and pseudo-conjugated system surface[J]. Journal of Chromatography A, 1998, 799: 361-367.
[10] 周丽平, 夏之宁, 李伯玉, 等. 多环芳烃分子结构的距边矢量表征及其气相色谱保留指数预测[J]. 色谱, 2001, 19(1): 25-31.
ZHOU Li-ping, XIA Zhi-ning, LI Bo-yu, et al. Estimation of gas chromatographic retention index for polycyclic aromatic hydrocarbons using VMDE[J]. Chinese Journal of Chromatography. 2001, 19(1): 25-31.
[11] 李志斌. 线性代数[M]. 北京: 机械工业出版社, 2006: 97-98.
LI Zhi-bin. Linear algebra[M]. Beijing: China Machine Press, 2006: 97-98.
[12] Lee M L, Novotny M V, Bartle K D. Analytical chemistry of polycyclic aromatic compounds[M]. New York: AcVmdemic Press, 1981: 1-5
[13] 邢其毅, 裴伟伟, 徐瑞秋, 等. 基础有机化学[M]. 3版. 北京: 高等教育出版社, 2005: 88.
XING Qi-yi, PEI Wei-wei, XU Rui-qiu, et al. Fundamentals of organic chemistry[M]. 3rd ed. Beijing: Higher Education Press, 2005: 88.
[14] Needham D E, Wei I C, Seybold P G. Molecular mounting of the physical properties of the alcanes[J]. Journal of American Chemical Society, 1988, 110: 4186-4194.
(编辑 陈灿华)
收稿日期:2010-09-21;修回日期:2010-12-09
基金项目:国家自然科学基金资助项目(21075011;21003014);国家高技术研究发展计划(“863”计划)项目(2008AA05Z405);湖南省自然科学基金资助项目(09JJ3016);教育部新世纪优秀人才支持计划项目(NCET-10-0138);湖南省教育厅科学研究基金资助项目(09C066);电力与交通材料保护湖南省重点实验室开放基金资助项目(2010CL01)
通信作者:戴益民(1974-),男,湖南长沙人,博士研究生,讲师,从事量化计算及分子模拟研究;电话:0731-85258733;E-mail:yimindai@163.com