基于梯度提升决策树的烘丝初始脱水量研究
摘要
关键词
滚筒烘丝机;脱水量;烘丝入口水分;物料流量
正文
1. 引言
在烟草工业生产中,烟丝脱水量是一个非常重要的参数,它直接影响到烘丝出口烟丝含水率,从而影响烟丝质量和生产效率。因此,研究如何准确预测烘丝脱水量,对于提高烟草工业生产质量和降低生产成本具有重要意义。
在过去的研究中,烟草工业生产中的烘丝脱水量预测主要基于经验公式和工艺经验,通过对烘丝机的操作参数进行调整,达到预期脱水量。然而,这些经验模型存在着预测精度低、适用范围窄、工艺调整周期长等问题,难以满足烟草工业生产发展的需要[1-2]。本文充分考虑烘丝脱水量的影响因素,建立模型预测烘丝入口水分和烘丝出口水分设定值,用烘丝入口水分预测值、烘丝出口水分设定值和物料流量均值估算值,计算烘丝初始脱水量设定值。
2. 材料与方法
2.1 烘丝入口水分模型建立
2.1.1 数据集构建
1、数据选取
根据实际生产过程中烘丝入口水分的影响因素,获取到有效属性字段为25个。如表1所示,特征变量部分共包含24个特征变量,而目标变量部分则包含一个特征变量即烘丝入口水分。
表1 烘丝入口水分模型输入字段
特征变量字段 | |||
预混段环境湿度 | 预混段环境湿度 | 预混段批次启停 | 预混段电秤占用 |
预混柜环境温度 | 预混柜环境湿度 | 加料段环境温度 | 加料段环境湿度 |
加料段批次启停 | 加料段电秤占用 | 加料柜环境温度 | 加料柜环境湿度 |
预混段时间间隔 | 加料柜时间间隔 | 加料段时间间隔 | 预混柜时间间隔 |
大批次号 | 产线 | 预混段蒸汽比例 | 预混段加水比例 |
加料段加料比例 | 加料段入口水分 | 出口烟片含水率 | 烘丝段时间间隔 |
目标变量字段 | |||
烘丝入口水分 | |||
根据时间跨度将已有数据集分为三个部分:第一部分时间跨度从2021年9月至2022年4月。第二部分时间跨度为2022年4月至2022年5月。第三部分时间跨度为2022年6月至7月。
2、数据处理
(1)空值处理
为了保证数据完整性,本文采用前值填充的方法对数据集中值为空的字段进行填充处理。
(2)时间格式处理
将原始数据中的时间格式数据调整为python中pandas[13]框架内的datatime格式。
(3)负值处理
根据电秤占用以及批次启停字段的值对原始数据集中不合理的负值进行筛选。
(4)B线环境温度/湿度数据处理
龙烟公司制丝二区有A、B、C三条线,原始数据集中缺少B线环境温湿度数据,为了解决该问题,本文使用同时段的A线和C线的温湿度数据取两者的均值作为B线的温湿度数据。
(5)批次均值计算
原始数据集中的数据频率为10秒/次,但每一个大批次仅包含一条数据。因此,我们通过计算均值的方式将数据频率标准化。
2.1.2 模型构建
1、GBDT[4]算法原理
GBDT算法全称为梯度提升树算法,由梯度提升算法和决策树算法合成而来,具备两者优势:其一,能避免决策树算法过度拟合问题和样本变动引起树结构剧烈改变问题,其二,能灵活处理不同类型的数值。
2、特征选择
GBDT是以CART决策树为基模型的集成学习模型。在回归问题中,根据特征在模型生成过程中作为分裂变量的次数和当前次分裂带来的增益提升,得到不同特征的相对特征重要性[5]。
通过特征选择方法,得出相对特征重要性大于300的特征变量作为模型输入特征,如图1所示:
图1 特征变量相对特征重要性
3、GBDT算法结构
GBDT中树模型的函数表达式如公式(1)所示:
公式(1)
其中, C1…n,m,jm为第
棵树第
个节点的预测值,如果输入的特征向量x1…xn落在最大的信息增益所对的节点所划分的样本子空间上,则
为1,反之为0。本文的GBDT模型为决策树的加法模型,其表达式如公式(2)所示:
公式(2)
其中Fm为第
棵树的预测值,F0为预测初始值,
为第
棵树的学习率,fm(x1...xn)为第
棵树的预测值。
2.1.3 模型训练
本文使用随机搜索算法对模型的学习率、迭代次数、模型过拟合
正则项参数进行优化。随机搜索算法作为一种调参的手段,其核心是穷举搜索模式。即在所有候选的参数选择中,通过循环遍历,找到表现最好的参数。通过随机搜索算法,本文选取的学习率为0.05,迭代数为500,过拟合
正则项参数为0.1。
2.1.4 模型评价指标
选用均方误差MSE、平均绝对误差MAE、拟合优度R2三个指标评价模型性能。
MSE指模型预测值与样本真实值之差平方的期望值,计算公式如公式(3)所示:
公式(3)
MAE指模型预测值与样本真实值之间距离的平均值,计算公式如公式(4)所示:
公式(4)
拟合优度R2指模型预测值与样本真实值的拟合程度,计算公式如公式(5)所示:
公式(5)
其中,
表示样本数,
表示系数,
表示样本真实值,
表示模型预测值,
表示样本均值。
1.3 热风流量与物料流量的预估值测算
选择近1个月历史数据中与当前预测批次生产条件()烘丝入口水分、牌号、环境温度、环境湿度等)最为相近的批次生产时的热风流量均值和物料流量均值,推荐为初始热风流量设定值和初始物料流量设定值,其中初始物料流量设定值为物料流量均值加上经验值50。
1.4 烘丝出口水分设定值测算
根据近1个月历史数据集中相同温湿度情况下烘丝出口水分到风选出口水分的损失值,测算出烘丝出口水分设定值,计算方式为:烘丝出口水分设定值=风选后水分设定值-水分损失值。
1.5 烘丝机初始脱水量设定值测算
根据上述结果计算烘丝初始脱水设定值,计算方式为:烘丝机初始脱水量设定值=(预测的烘丝入口水分-测算的烘丝出口水分设定值)/(100-测算的烘丝出口水分设定)*物料流量均值。
2.结果与分析
2.1 烘丝入口水分模型
2.1.1 模型训练结果
图2 烘丝入口水分模型预测值与实际值对比
如图2所示为部分烘丝入口水分预测值与实际值结果对比图,由图可见,烘丝入口水分预测值和实际值的标偏基本在0.1%-0.2%之间。
2.1.2 烘丝入口水分模型评价
由烘丝入口水分预测值与实际值可算得模型误差如表2所示:
表2 烘丝入口水分预测模型误差
MSE | 3% |
MAE | 11% |
R2 | 98.6% |
从表中可以看出,预测模型的均方误差、平均绝对误差均在允许误差范围内,从拟合优度可以看出模型的拟合程度较高,表明烘丝入口水分预测模型具有良好的预测精度和准确性。
2.2烘丝机初始脱水量设定值测算结果
由于烘丝机脱水量只需在批次开始时设定一个初始值,因此本文选择烘丝出口水分和加香出口水分作为烘丝机初始脱水量设定值测算结果的评价指标。
图3 烘丝、加香出口水分标偏
从图3可以看出,烘丝出口水分标偏值基本在0.1-0.2之间,加香出口水分标偏值基本在0-0.1之间,因此,可以说明本文测算出的烘丝机初始脱水量设定值具有较高的准确性和稳定性,基本可以满足生产过程中的指标要求。
3.结论
本文采用GBDT算法构建烘丝入口水分预测模型,通过历史寻优估算物料流量均值和烘丝出口水分设定值,用这三个参数测算出烘丝机初始脱水量设定值。烘丝入口水分实际值和预测值的对比,表明本文的预测模型具有良好的预测精度和准确度。利用烘丝出口水分和加香出口水分作为评价指标,可以表明本文测算出的烘丝机初始脱水量设定值具有较高的准确性和稳定性。
参考文献:
[1]贵州中烟工业有限责任公司. 一种薄板烘丝机脱水量的计算方法:CN201911193129.8[P]. 2020-03-13.
[2]曹家升,翟让,姚庆丰,等. 滚筒式薄板烘丝机出口含水率控制优化分析[J]. 中国设备工程,2021(22):64-67. DOI:10.3969/j.issn.1671-0711.2021.22.039.
[3]华振宇. 两个Python第三方库:Pandas和NumPy的比较[J]. 电脑知识与技术,2023,19(1):71-73,76.
[4]Friedman J H .Greedy Function Approximation: A Gradient Boosting Machine[J].Annals of Statistics, 2001, 29(5):1189-1232.DOI:10.2307/2699986.
[5]谢少捷,王伟,何福善.基于梯度提升决策树的特征筛选与钢卷力学性能预测[J].机械工程材料, 2021, 45(10): 104~110.
...