基于机器学习的古代玻璃制品的类别划分

期刊: 环球科学 2023年第8期 DOI: PDF下载

伍成城

长沙理工大学，长沙市天心区，410114

摘要

文物的鉴别分类是一个复杂的研究问题，不仅在于文物诸多特征之间有密切的关系，而且时间、环境等外在因素对相关特征有显著影响。本文基于出土玻璃文物的特征数据信息，对文物属性进行分析，利用机器学习为类别划分提供方案。

关键词

文物成分分析机器学习支持向量机

正文

0 引言

由于时间的推移和外部环境的作用，古代玻璃制品常常在质地、纹饰、颜色等方面产生变化，使得准确鉴别与分类成为一项具有挑战性的任务。

传统的古代玻璃鉴别方法主要依赖于考古学家和玻璃专家的经验和知识，其主观性和繁琐性限制了其在大规模样本中的应用。随着机器学习算法在各个领域取得突破性进展，将其应用于古代玻璃鉴别成为一种值得探索的新思路。本论文旨在通过利用机器学习算法，结合纹饰、颜色、化学成分、是否风化等属性进行综合分析，实现对高钾玻璃和铅钡玻璃等类别的自动化鉴别。

1 数据预处理

对玻璃文物的表面风化与其玻璃类型、纹饰和颜色的关系进行分析时，将缺项数据不纳入分析的数据集中。对文物表面化学成分进行统计分析时，数据中空白处表示未检测到该成分，将其含量占比表示为 0。针对每一文物监测点的14项化学成分指标，对其进行相加处理操作，得到各指标含量累加值，并将成分累加值未介于于85% ~105%之间的数据视为无效数据，不纳入分析的数据集中。

2 文物类别的改变服从帕累托分布证明

分析全部文物、高钾、钡铅文物元素占比分布图发现，大部分文物以硅元素为主，而其次即是钾、铅、钡。同时发现高钾、铅钡类型的文物其对应元素的含量普遍相对较高^[¹^]，因此若文物原有钾、铅、钡的含量经过风化转换后主体含量发生了改变，可以认为文物类别发生了改变。

QQ图片20230822212834.png

(a) 全部文物元素占比分布 (b) 高钾文物部分元素占比分布

图片1.png

(b) 铅钡文物部分元素占比分布

图 1: 文物元素分布图

对各个元素的均值进行统计并验证发现元素分布满足帕累托分布，如下图所示，并且通过查阅相关文献，得出一般土壤中元素相互置换的概率，由此猜想：文物种类发生改变的概率满足帕累托分布。

命题: 文物类别的改变服从帕累托分布

证明: 记：P = (p_{i j})，其中p_ij为土壤中第i个元素转化为第j个元素的概率；m′_i表示风化后某元素的含量，m_i表示未风化某元素的含量，△m_i表示对应第 i 个元素含量的改变量，文物原来的第i个元素含量分布为λi, 则有△m_i= (1 − p_ii) ∗m_i, 故m′_i 图片12.png 则m′_i= p_ii∗m_i, 由P矩阵可知，对角线元素服从N(0.76,0.12)，又有λ_i服从帕累托分布，故m_i/0.76服从帕累托分布，又若元素比例变化了0.6算为文物类别的改变，0.6<0.72, 故文物类别的改变服从帕累托分布。

图片2.png

图 2: 总体文物均值元素分布图

由此说明，所使用的绝大部分样本都是准确的，具有一定的规律与模型求解意义。

3 化学成分指标权重构建

3.1 利用熵权法初步确定权重

为了使获得的玻璃类型分类规律更为客观准确，选择熵权法对玻璃文物的 14个化学成分指标确定权重，用所得的权重来反映它们对于玻璃类型分类的影响^[²^]。其具体求解步骤如下：

Step1：初始数据标准化处理

根据文物化学成分组成数据得到一个成分含量矩阵X，其中X_ij表示第i个采样点的第j个化学成分的含量，若X_ij为空则赋0值，n为采样点样本总个数。

考虑到各指标不属于同一类别无法直接进行比较，因此为消除量纲对评价的影响，且对于所需处理的矩阵不存在负值，采用如下方法进行数据标准化处理，Z_ij为标准化后的相应化学成分含量。

图片3.png

Step2：求出信息熵计算中需要使用的概率得到概率矩阵

概率矩阵Q可以表征第j项指标下第i个样本所占的比重，对于矩阵中的某一元素，将其除以它所在列的元素总和即可得到该元素被取得的概率，最终所得矩阵即为概率矩阵Q。

图片4.png

Step3：确定各化学成分指标指标的权重

使用如下公式可以得到各指标的信息熵，其中m表示评价对象的个数。

图片5.png

利用得到各指标信息熵可求得各指标的信息效应值。信息效应值可定义为：

图片6.png

需要说明的是，信息效应值越大，其对应的信息越多。

为消除奇异样本数据导致的不良影响，将效应值进行归一化处理，并得到各指标的熵权W_j。

图片7.png

3.2 根据各指标含量情况对权重进行适度修正

对于上述使用熵权法所得到的权重，考虑到具体实际情况，发现存在部分权重失真的情况，所得结果与事实不相吻合，因此需要进行适度修正。

部分化学成分仅在少数文物样本中出现，导致其权重相较于实际出现偏差。于是定义一个修正系数矩阵β, 其中，Z_nj为第j个化学成分指标出现的总次数，n为总样本数。

图片8.png

将修正系数矩阵β与权重矩阵W相乘即可得到调整后的修正权重矩阵W_correct，具体方法如下：

图片9.png

3.3 熵权法权重求解结果

熵权法权重求解部分结果如下：

表5：部分权重结果

类型	二氧化硅	氧化钠	氧化钾	氧化钙	氧化镁
权重	0.02136473	0.08088257	0.17099177	0.07773255	0.06676575

4 分类模型说明

在问题的模型建立与求解过程中，使用了机器学习分类模型，包含感知机模型、决策树算法^[⁴^]、支持向量机(SVM)模型^[³^]与Logistic回归模型。考虑到附件中样本数目较少，将纹饰、颜色与综合后的化学成分指标作为输入值，以类别作为标签，得到输出值，作出散点图如图4所示。机器学习模型易出现过拟合等情况对分类结果造成一定影响，在过程中进行了多次实验，且充分利用与挖掘数据信息，使其具有参数较少、算法较为简单等优点，机器学习分类模型在本题中表现较良好。下面将对以上分类模型以及处理工作作出介绍。

1）使用多个分类模型进行问题求解。使用四种分类模型进行求解，综合考虑各模型的实验得分，选择最优的模型，对分类问题进行综合分析求出结果。

2）增加实验次数。通过多次进行实验得出分类规律，避免了偶然性对实验结果的影响，使所得规律更具普遍性与合理性。

3）减少实验数据特征。为简化数据模型，使用熵权法对化学成分含量这一属性进行赋值处理，使数据得以简化且具有科学性。

4）使用K折交叉验证法第模型进行调优处理。使用K折交叉验证或随机划分法将数据集进行等比例划分，其中一份数据作为测试数据用于后续测试，其他K-1份数据作为训练数据。图片10.png

图 3: K折交叉验证算法描述

5）进行参数优化。对于决策树使用前剪枝、控制树的最大深度等方式，分别控制深度为2、3进行实验，数据过少不易过深。对于SVM与支持向量机加入惩罚项进行实验，对于感知机，由于性能较差，没有做过多的尝试。

图片11.png

图 4：样本分布图

5 分类模型求解过程与结果分析

进行多组参数不同的实验下图所示，主要修改了决策树的深度、logistic回归的惩罚系数，以及SVM的惩罚系数。具体而言，图a选择决策树深度为2，logistic与支持向量机的惩罚系数为0.8，图b选择决策树深度为3，logistic与支持向量机的惩罚系数为0.8，图c选择决策树深度为4，logistic与支持向量机的惩罚系数为0.8，图d选择决策树深度为5，logistic与支持向量机的惩罚系数为0.8，综合看来，分类模型的相关参数与模型性能有较大的关系，受参数改变的波动性较大，因此经过反复尝试，选择较优的参数对模型准确率的提升有较大的帮助。

QQ图片20230822212927.png

（a）对比实验1 （b）对比实验2

QQ图片20230822212938.png

（c）对比实验3 （d）对比实验4

6 结论

为探究高钾玻璃、铅钡玻璃的分类规律，优先考虑构造较为简单的支持向量机 (SVM) 模型，并且进行四种分类器的对比，采用多次划分对实验进行 8 次重复对比等方式一定程度上解决数据量过少导致的模型过拟合的问题。同时由于文物属性较少而化学成分类型较多，为了进一步适应模型，建立修正系数的熵权法计算各成分对应权重，并对化学成分指标进行综合分析，选取纹饰，颜色，化学成分为输入，输出预测的文物类型。分析发现，未进行参数优化前，支持向量机模型与决策树模型的平均性能较优，平均准确率在均在 0.90 附近波动，而感知机模型准确率在 0.8 附近波动，logistic 回归效果最差，准确率在 0.65 附近波动。

【参考文献】

[1] 司守奎. 孙兆亮. 《数学建模算法与应用》. [M]. 北京: 国防工业出版社, 2015.

[2] 李静. 埋藏土壤环境对文物的影响分析研究. 2018.

[3] 李荣雨,程磊.基于SVM最优决策面的决策树构造[J].电子测量与仪器学报,2016,30(03):34

2-351.DOI:10.13382/j.jemi.2016.03.003.

[4] 李荣雨; 程磊; 基于 svm 最优决策面的决策树构造,2016

作者简介：伍成城（2002.8-），男，汉族，湖南永州人，本科，研究方向为数据科学与大数据技术

...

阅读全文