试论数据挖掘在化学研究生产中的应用论文

2016-12-01

试论数据挖掘在化学研究生产中的应用全文如下：

1 引言

化学是一门研究化合物组成、性质以及变化的一门学科。在长期的化学、化工实验中产生了大量的数据，但是数据的海量增加却造成了诸如信息过量、信息安全隐患、信息真假难辨等困难。同时，这些海量的数据内部存在着很多有价值的信息和规律，如何从这些数据中发现更多更有价值的信息和规律也成为化学、化工专家关注的焦点，需要是发明之母，面对这一要求，数据挖掘技术在化学、化工中的应用也就应运而生，并显示了强大的生命力。在化学领域内，数据挖掘理论和算法的发展，极大地促进了计算机化学、化学计量学和化学信息学等新学科的发展。本文就针对数据挖掘方法在化学、化工各方面的应用进行简述。

2 数据挖掘的概述

数据挖掘(Data mining)，是数据库知识发现(KDD, Knowledge-Discovery in Databases)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索发现隐藏于其中的规律和信息的过程。近十年来，数据挖掘技术不管是在理论上还是在实际应用上，都已取得了很大的进展[1]，同时也出现了各种专用或商用的数据挖掘软件。

数据挖掘领域利用的主要思想有：统计学的抽样、估计和假设检验;人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘同时也迅速地接纳了最优化、进化计算、信息论、信号处理、可视化和信息检索等领域方面的思想。目前，常用的数据挖掘方法主要有以下几种：数学统计方法、决策树、模式识别方法、人工神经网络方法、遗传算法、粗糙集方法、支持向量机方法等。

3 数据挖掘在化学与化工生产中的应用

数据挖掘利用多学科领域的知识从全新的角度以及更深层次中发掘存在于海量信息内部有效的、新颖的模式。在化学与化工生产中利用这种数据挖掘技术可从化学和化工生产数据中寻找潜在的规律，同时利用这些规律指导企业的生产过程，最终实现生产过程的优化以及企业效益的最大化。

3.1 中草药成分分析中的数据挖掘

方兆华等对化妆品专利中草药成分利用关联规则进行分析，得出化妆品中有当归、白芷和芦荟等高频单味药，有当归-川芎等高频药对，有芦荟-芝麻-向日葵子等高频药组;基于置信度和支持度分析，得到了化妆品中中草药应用的13 条强关联规则，如向日葵子-芝麻等。陆爱军等利用关联规则对中医药效、植物科属、化学的成分活性、中药提取物和现代药理之间的相互关系进行研究，在分析之前对数据进行预处理，然后再对处理后的数据进行挖掘，从而得到一些有趣的关联规则，比如中药药效和植物科分类的关联规则,都是因为在该科下面的植物很多具有相应的中药药效。

3.2 化学研究中的数据挖掘

朱建国分析了数据的具体特征，采用ID3 的决策树算法将数据的离散化和属性选择进行预处理，使决策树树状结构的分类器对数据能进行更有效的分类。通过二苯乙烯系列化合物实验数据的建树过程，以及对所得到的规则进行分析，将决策树有效地运用在二苯乙烯系列化合物研究过程中，并开发方案实现系统让研究者能够清晰地表达分类规则，从而给研究者带来了极大的方便。

李峰等将数据挖掘应用在稀土掺杂纳米TiO2结构与光催化活性的关系中，用多元逐步回归分析对数据样本间的联系进行挖掘，从而发现结构参数与光催化剂的表观速率常数间之间存在着良好的相关性，其相关系数大于0.99，说明该模型具有良好的稳定性和预测能力。溶胶-凝胶法制备的不同稀土掺杂纳米TiO2不管是实验结果还是计算机模拟结果都表明其纳米结构相似，光催化活性是相近的，对于系列光催化剂制备及其动力学性质研究都能较好地建立起定量构效关系，进而通过XRD参数测试，发现活性相近的催化剂，为选择高效的光催化剂节约资源。

Ru等人提出了一种称为BSVR(Boosting support vector regression)的方法，该方法支持向量回归，以Boosting 结合支持向量回归(SVR)为分类器，继而用它来处理硝基苯类，并且将其用作5-脂肪氧化酶抑止剂的1-phenyl[2H]-tetrahydro-triazine-3-one类化合物的QSAR数据预测毒性，实验结果表明这种方法在病毒性预测的准确性方面有明显的提高。

Cai 与Feng 等人提出了一种称为LogistBoost 的算法，该算法基于对数回归策略，可以对蛋白质结构数据(基于氨基酸序列)的二类、多类分类问题进行预测，实验结果表明这种算法具有很好的预测结果。Boosting 算法在蛋白质结构分类方面的预测应用是以构成蛋白质的氨基酸种类、排列顺序作为主要属性对蛋白质的二级结构进行判断。随着数据挖掘在化学中的应用，Boosting算法有望能够对蛋白质的3D结构进行预测。Friedman 等人提出了梯度Boosting 算法，该方法在回归问题上直接应用Boosting 算法，从而有效解决了数据挖掘中在化学应用中回归问题上常见的问题，而Tao 等人提出的新Boosting算法则能够有效解决数据挖掘在化学应用中异常值的检测问题。

3.3 化工生产中的数据挖掘

张泉灵等利用多支持度关联规则的挖掘算法，开发了化工生产过程的数据挖掘软件，通过数据挖掘软件对操作参数和配方进行优化，使产品的收率和有效成分得到提高，并将该系统应用在三唑磷的合成过程中，使三唑磷提高了1.5%的收率，同时三唑磷的含量也提高了三个百分点，从80%提高到83%，为企业带来了较好的经济的效益和社会效益。

陆治荣等利用数据挖掘方法开发了适用于生产过程优化、故障诊断、优化新产品研制和配方设计的系列软件DMOS，该软件为化工、炼油等行业生产过程优化的工程化运营创造了条件，并将该系统应用到某石化厂，主要解决丙烯的收率不能满足下游生产的问题，更重要的是回收的丙烯收率的提高可以提高经济效益，结果表明经过DMOS数据挖掘后提出了新的生产参数，对原来正常的生产状态进行优化后提高了丙烯的收率，优化后丙烯的收率从14.7%提高到了19.11%。

基于合成氨生产效益的数据挖掘，用于解决氨合成装置DMOS合成氨优化系统，用于解决合成氨工业生产参数的优化，实现氨合成装置生产时实时工况诊断、实时趋势浏览、优化操作指导、报表生成等功能。通过对云维集团有限公司氨合成装置合成塔生成数据的数据挖掘，找出了影响装置目标变量的主要工艺参数，建立目标变量与有关工艺参数间的数学模型，通过实验表明所建模型的可靠性强，能够优化装置工艺操作，提高合成氨产量，全面提高企业的经济效益。

3.4 化学分类中的数据挖掘

李琳等[15]利用决策树对玻璃和葡萄酒进行分类，玻璃有9 个属性作为衡量指标，葡萄酒为意大利某地的三种酒、含有13 个属性作为分类指标。他们首先使用MDLP(最小长度描述方法)进行离散化，再用LVF(LasVegas Filter)方法进行属性选择，剔除冗余数据后，再由C4.5 方法构建决策树。通过实验表明：由决策树建成的分类模型具有良好的预报性能，适合于化学分类知识模式的挖掘。基于预处理的决策树克服了一般决策树方法难以处理连续型数据集的缺点，又具有其它方法所不具备的优势，可从大量数据中挖掘出潜在的分类知识，并具有简沽直观的表达形式，易为专业人员理解和分析。

4 结论

本文对数据挖掘方法在化学和化工生产过程中如何利用海量数据、发现和挖掘出新的规律和信息，为化学研究和化工生产提供有效准确的依据。虽然数据挖掘技术在化学和化工生产过程中获得了大量应用，但是，目前应用的范围不是很广。在化学和化工生产过程中的应用是数据挖掘当前的一个研究热点，受到越来越多研究人员的青睐。数据挖掘技术能够根据大量的化学和化工生产领域中的数据挖掘出有价值且隐藏的知识。因此，在化学研究过程中、化工生产过程的建模、控制、优化、故障诊断等方而有非常重要研究的价值，并且越发显示其重要作用。