基于算法研究的数据规范化治理应用
摘要
关键词
算法研究;数据;规范化治理
正文
引言:当前我国能源与动力工程经历了一场深刻的数字化与智能化变革,无论是风、电、光,其中涉及到了大量的可再生能源,包括了风电和光伏等一系列能源需要做好功率预测,能够提高内燃机、燃气轮机在燃烧过程中的优化效果,并做好故障诊断工作。在整个工程中,核心点在于更加依赖机器的自主学习与深度学习,以此作为先进数据驱动算法。但是这些算法性能并非凭空而来,提高数据的准确性和泛化能力,通过不断对算法进行优化,构建更多高质量的算法模型,提高后续使用时的使用效果。
一、基于算法研究的数据规范化治理应用的意义
随着时代的不断发展,能源系统的复杂性在不断增加,数据在治理时也能够更好地朝向自动化和规范化的治理方向。构建数据全生命周期的统一治理平台,为智能化数据管理提供更为坚实的、可靠的数据基石。能源与动力系统由于其具有复杂性、动态性以及物理环境相对严酷性等一系列特点,在进行数据收集、数据处理与数据分析过程中,很容易出现多种不同的问题原因之一是数据的来源是丰富的,数据可能来源于不同的传感器、控制系统以及运行日志,进而导致数据在使用过程中本身具有两个特点,分别是多元性与异构性。在不同的环境下温度、压力、流量、振动等不同的物理特性所带来的量纲不同,即在数值范围内相差的个数较多。当前需要将这些原始数据快速地录入到算法中,把这些原始数据录入到相应的算法进行计算,并输出相应的数据。但是由于数值计算的不稳定或是模型训练过程中难以进行收敛,进而导致模型的数值范围较大,但是其训练质量却无法得到提升。为此,需要通过算法对数据进行规范化治理,才能够确保在能源与动力工程算法研究效果能够满足工程发展的实际需求,进一步提高我国能源与动力工程的发展质量。
二、基于算法研究的数据规范化治理存在的问题
1.量纲与尺度不一
量纲与尺度不一是目前能源与动力中最常见的也是最普遍的问题之一,其中常见的数据问题如下表1所示,以某燃气轮机为例,在数据运行的过程中,由于数据本身存在不同的特征,无论是量纲和数值范围均不同,为此,该方式无法直接用于算法和后续训练中,模型在使用时会自然而然地被“转速”和“功率”等一系列大数值本身所含有的特征所主导,导致量纲与尺度不一。
表1:某燃气轮机运行数据特征示
特征名称 | 量纲 | 典型数值范围 | 物理意义 |
转速 | rpm | 3000-10000 | 转子旋转速度 |
进口温度 | ℃ | 10-40 | 压气机进口空气温度 |
燃料流量 | m³/h | 0.5-10 | 天然气供给量 |
振动幅值 | mm/s | 0.1-5 | 轴承振动强度 |
输出功率 | MW | 10-100 | 发电功率 |
2.存在明显的异常值与噪声
在能源与工程中多个不同因素均会影响到数据使用时的效果,其中包括了传感器故障、传输干扰与工况剧烈切换等因素,如果数据中存在大量的异常情况,或者是出现随机噪声,都会导致数据出现严重的被扭曲现象,导致数据管理中缺乏规范。例如,选择最大值、最小值、均值、方差等进行计算,均会导致整个数据集出现明显的变化,数据在后续应用的过程中,效果也会下降。例如,在使用传感器时如果出现了极大异常值会导致所有的数据在最小-最大归一化后,其他正常的数据均会聚集在0附近,导致数据的分布被破坏,最终形成了数据分布的动态漂移,同样会导致数据出现问题,数据规范化治理应用效果也会下降。例如,当一台风电机组在不同的情况下,例如低风速、额定风速和切出风速下的情况下,运行参数存在明显区别,如果是燃气轮机,在面对不同的数据统计情况下数据特性也会出现一定的改变,例如在启停、升负荷、降负荷的过程中,数据统计特性也会出现一定的变化,这种持续性的变化形成的是一种动态化的数据漂移。传统的算法在使用的过程中缺乏全局最大值、全局均值,没有采用全局的、固定的参数,会导致内部工况模式不同,差异性更为明显,最后会导致数据规范化效果不断下降,甚至出现数据模式混淆等情况,难以被算法模型进行应用,该模型的学习效果也会不断下降,这也是能源数据治理与分析中最重要的一部分,应明确这是数据规范化中的核心内容。
3.多源数据融合遇见困境
现代化的能源管理中为了提高数据的处理效果,需要考虑到不同监控系统中的数据,包括SCADA、DCS、振动监测系统,这些数据无论是在采集的时候其频率、效果或者精度、时效性等均不同,当下需要对这些不同的数据进行处理,实现数据的同步应用与规范化处置,保证所有的数据都可以实现高质量地管理,实现对数据的智能化应用。但是目前在数据处理的过程中效果相对较差,难以满足数据处理与应用的实际需求,更会导致数据融合效果无法满足能源管理的实际需求。
三、数据规范化治理的对策与应用实例
根据上述问题进行分析,可以采用针对性的、系统性的处理对策,提高数据的规范化质量效果,无论是通过核心规范化方法、结合工况识别的动态自适应归一化,最终目的都是提高数据的处理和应用效果。
1.核心规范化方法
数据规范化一直以来都是数据预处理中的核心内容。其本质是通过数字的数学变化,将原本的、原始数据转换到一个统一的无量纲的尺度上,进而进一步消除特征间的量纲与尺度之间所蕴含的影响,这种方式对于提高算法性能而言具有极为重要的影响和意义。在利用在计算法进行数据规范化处理时,需要明确其核心的规范化方法。通过Zscore标准化、最大最小归一化与鲁棒,鲁棒缩放等一系列方式来提高数据的规范化质量,并且提升算法模型的收敛速度与计算效率。在进行算法优化的过程中,无论是哪一种算法,对数据的尺度都相对较为敏感,特别是当特征尺度差异相对较大时,损失函数的等高线所呈现的是一种扁长的椭圆形状。随着梯度的不断下降,其路径其算法路径会变得更为曲折,在进行模型收敛时,速度也会相对较缓,通过规范化可以将所有的特征均转换到相近的尺度下,创造出更圆的损失函数,进而实现大幅加速规范化的收敛过程。例如,基于神经网络,燃气轮机,燃气轮机的排气温预测模型中,整个输入特征包括了转速,进口压力和燃油流量。燃油流量范围在0~10000rpm,整体的压力为0~5兆帕,而燃油流量则在0~10m³。每小时三者之间的数值范围差异相对较大,为此,需要结合相应的数据对其进行规范化处理,其中z-score标准化该方法更加适用于分析数据的分布近似状态,了解其未知情况,通过减去均值再除以标准差的方式,可以做好数据的转换,明确数据变化均额,将数据变化为均值为零、标准差为一的有效分布。针对最小、最大数据规划管理时,将数据线性地映射到0~1区间,对异常值相对较为敏感,但是在该算法中进行数据管理时也容易受到异常值本身所带来的影响。为了进一步克服异常值带来的负面影响,当前还可以采用基于中位数和4分位数的鲁棒缩放方法。它可以通过中位数在使用过程中的重点,利用中位数去代替原本的均值,使得4分位数间距可以有效去代替标准差。这种方法在使用时不会受到异常值所带来的影响,也不会出现异常值拉偏其更加适用于包含异常值的数据集。
不规范的数据在使用时可能会引入无意识的偏差,而这种无意识的偏差会导致模型过度关注数值大的特征,进而导致模型逐步忽视了数值小的情况。在进行规范化处理时需要了解规范化处理,能够让所有特征平等的数据在进行使用时使用效果得到改善,让模型的精度与泛化能力得以提升。这种算法相比于传统的算法而言,能够提高模型预测精准度与泛化程度,对未知数据的处理能力得到提升。特别是在使用过程中面对故障诊断时,诊断效果和分类质量都能够得到改善,统一的数据规范标准,也能够了解不同数据的来源、不同时期不同可以将数据进行分类整理。在同一标准下处理相应数据,这种方式既可以增强数据的稳定性,同时也可以更好地了解不同研究结果之间本身所蕴含的数据可比性。特别是对我国能源动力企业而言,需要建立统一的数据治理规范,实现算法模型的标准化部署以及规范化处理。
2.结合工况识别的动态自适应归一化的创新应用
在能源与动力工程中做好数据分布动态漂移管理是当前行业发展中的核心挑战,也是治理创新中的重要对策。通过结合工况识别动态资讯、规划管理的应用核心内容在于先分类,后实现归一化。通过监督学习算法了解在不同的情况下、不同运行工况所带有的独特模式,分析每一种工况的实际情况,了解在不同的工况模式下如何进行计算。通过归一化参数计算,提高其工况动态识别的整体效果。以风电机组scada数据为例,使用过程中,其遇到的问题包括由于风电机组在使用时的功率输出受到多个不同因素的影响,其与风速呈现的是非线性关系。在实际运行过程中,将运行数据大致分为以下几种模式:分别是停机、启动额定运行与线功率运行等,如果选择全局归一化会导致这些数据之间本身的界限会逐渐的模糊,面对这种情况,在进行解决时需要做到以下几点:第一,做好工况的识别管理可以采用如K-Means、DBSCAN这两种算法,对整个运行过程中所涉及到的风速功率以及将距角等一系列关键参数进行聚类分析,并且快速的识别出在不同的算法中,涉及到的数据以及运行工况状况,做好动态的规划管理。第二,通过动态规划管理可以快速识别出每一个工况簇的实际情况,并且根据其内部数据进行均值的分析,进行标准值最大值、最小值的确定,并获取全新的数据点。通过数据点来判断其所属的工况模式以及工况状况,对相应的数据参数等进行规范化的处理和确定。这种方法在当前同样极大限度地提高了数据在进行规范化管理时的质量保证。在同一模式下数据的分布性、一致性得以提升,为后续数据管理,数据功率预测以及故障预警等一系列算法应用过程中提供更加清晰的、更加准确的、更加科学的学习样本。
3.治理效果实证分析
为了更好地对数据规范化治理的有效性进行验证,需要选择多个不同的对比试验进行分析,其中包括了以下两个案例:第一个案例,基于SVM的风电机组齿轮箱常见的故障分类分析,在出现故障后需要分析风场中的SCADA数据,常见的数据包括了正常下和故障中的振动、温度等10个特征。在数据实证中,还需要做好方法的对比分析,其中分别是没有经过规范化的、已经完成规范化的Z-Score标准化、Min-Max归一化后的数据,其具体数据如下表2所示。可以得出,在完成算法的规范化处理后,分类器中涉及的各类不同性能指标效果均会得到提升,达成最优的数据效果。
表2基于不同数据处理方法下分析SVM故障分类与性能对比
处理方式 | 准确率 | 精确率 | 召回率 | F1-Score |
未规范化 | 76.9% | 0.75 | 0.74 | 0.752 |
Min-Max归一化 | 89.1% | 0.83 | 0.82 | 0.873 |
Z-Score标准化 | 93.6% | 0.94 | 0.93 | 0.945 |
在第二个案例中,则是基于LSTM的燃气轮机排气温度预测。在燃气轮机日常运行的过程中,涉及到了多个不同的特征包括运行数据,包含转速、燃料量、环境温度等多个不同的数据。分析算法中可以选择LSTM网络,通过全局归一化与自适应归一化提高预测效果,通过对两者进行数据和模型的对比发现,选择RMSE模型的预测误差更低,更能满足算法研究的数据规范化治理应用需求。
结语
综上所述,在能源与动力工程中做好数据的规范化治理是极为重要的一个环节,贯穿了整个项目研究的生命周期,这是一个基础性、战略性的工作。在本文分析的过程中也需要考虑到由于能源数据存在明显的存量存在明显的量纲不一、动态漂移等问题。为此,需要针对其情况提出相应的治理对策,创新性地利用算法实现对数据的动态自适应的归一化处理,了解其中所存在的漂移问题,提高算法模型在使用时的精度,泛化能力以及收敛速度。
参考文献:
[1]王璐,漆志刚,戴倚霞,等.国家高端智库数据体系建设与应用——中国石油集团经济技术研究院智能化发展探索实践[J].国际石油经济,2024,32(S1):16-21.
[2]王毕元,邓星野.基于大数据分析的新能源发电数据分析与预测研究[J].电气技术与经济,2024,(07):239-241.
...