基于人工智能技术的鲲鹏云服务系统可靠性评估方法

期刊: 环球科学 2023年第14期 DOI: PDF下载

谢丛茵

11022419820630002X

摘要

鲲鹏云服务系统，作为华为全面云计算解决方案的核心，以鲲鹏处理器为引擎，致力于提供高性能、高可靠性的云服务，覆盖计算、存储、网络等多个方面，构建用户灵活、安全、可扩展的云平台。本文除了强调鲲鹏云服务系统的卓越可靠性外，主要涉及基于人工智能技术的云服务系统可靠性评估的方法。系统采用华为自主研发的鲲鹏处理器和完备的硬件架构，通过先进的容错技术和高可用性设计，在各种情况下提供稳定、可靠的云服务。在可靠性评估中，系统具备自动化的故障检测与恢复机制，强大的安全性和监控体系，有助于降低潜在风险，为用户提供可信赖的云计算环境。这一整合了人工智能技术的特色使得鲲鹏云服务系统更具竞争力和创新性。在鲲鹏云服务系统的建设中，可靠性评估的方法和人工智能技术的运用共同推动了系统的发展，为用户提供了更为可信赖和高效的云计算环境。

关键词

人工智能技术;鲲鹏产业;云服务系统;可靠性评估;人工神经网络

正文

0引言

鲲鹏产业生态圈是一个闭环的信息架构，采用鲲鹏处理器构建的鲲鹏云服务体系，提供操作系统、中间件、虚拟化等多个行业的应用，并具备高度的安全性、保密性和可用性。鲲鹏处理器采用独特架构，通过硬件与软件协同工作，实现了更高效的资源利用和性能优化。系统的面向未来的架构设计使其能够满足不同行业和应用场景的需求，为企业提供创新性、可靠性强的云计算解决方案。鲲鹏云服务体系的可靠度是保障鲲鹏产业健康发展的重要保障，也是研究的重点。另外，本文还突出了人工智能技术在鲲鹏云服务系统中的应用。系统利用先进的人工智能算法进行故障检测和预测，提高了系统的自我学习和适应能力。通过智能化的安全性和监控机制，系统能够更及时地响应潜在威胁，进一步增强了系统的可靠性。

1鲲鹏云服务系统可靠性定义

鲲鹏云服务系统以其卓越的可靠性而脱颖而出，核心在于采用华为自主研发的鲲鹏处理器和完备的硬件架构。这一系统通过先进的容错技术和高可用性设计，确保在各种极端情况下依然能够提供稳定、可靠的云服务。同时，鲲鹏云服务系统具备自动化的故障检测与恢复机制，能够及时识别并处理潜在问题，确保系统持续运行。其强大的安全性和监控体系也有助于降低潜在风险，为用户提供了可信赖的云计算环境。综合而言，鲲鹏云服务系统以其卓越的可靠性表现，为用户提供了稳固、高效、安全的云计算解决方案。

2鲲鹏云服务系统的运行故障进行建模分析

鲲鹏云服务系统的运行故障建模分析需要考虑多个因素，其中包括硬件、软件、网络等各个层面。在硬件方面，可以考虑鲲鹏处理器的性能稳定性、散热系统效能等，通过建立性能模型和故障树分析来评估可能的硬件故障模式。在软件方面，需要关注操作系统、虚拟化技术以及应用程序的健壮性，通过模拟不同的软件配置和异常情况来评估系统的容错性。此外，网络通信也是关键因素，建模分析应考虑网络拓扑、带宽、延迟等因素，以便评估在网络故障情况下系统的表现。通过这些综合建模和分析，可以更全面地了解鲲鹏云服务系统在不同故障场景下的运行表现，为提高系统的可用性和容错性提供有针对性的优化建议。

3实例测试

为验证本文方法的有效性与性能,进行实例测试｡实例分析对象是河南某大学与华为等企业共同打造的鲲鹏云服务系统项目｡该项目的最新研究成果为鲲鹏920的云服务器,因此对鲲鹏920云服务器的运行可靠性进行实例评估测试｡为了增加实验的可信度,将模糊阈值法及数据挖掘法作为对比实验方法｡

本次实验的主要焦点是对鲲鹏920云服务器中的电子邮件服务功能进行详实评估。鲲鹏通用计算增强型云服务器搭载鲲鹏920处理器及25GE智能高速网卡基于open Euler开源OS以及配套的数据库、中间件，以较低的成本提供了基础的计算能力，满足了用户基础业务上云的诉求。同时可以根据工作负载的需要满足业务的突发高峰。鲲鹏开发套件也帮助开发者加速应用迁移和算力升级。该鲲鹏通用计算增强型弹性云服务器适用于对自主研发、安全隐私要求较高的政企金融场景，对网络性能要求较高的互联网场景，对核数要求较多的大数据、HPC场景，对成本比较敏感的建站、电商等场景等。

通过总结每次调用服务器的输出结果，旨在验证鲲鹏云服务系统的可靠性。在测试评估中，我们将主要关注响应时间、吞吐量和可靠性这三个标准。

首先，针对响应时间的评估，我们记录每次调用服务器的输出结果，并在实验中设置有效评估时间长度为30秒。在这个过程中，我们将监测每个服务调用的响应时间，确保它在合理的范围内，以验证系统的实时性和用户体验。

其次，吞吐量是评估系统性能的关键指标之一。通过在评估前导时间为6秒的情况下，每个服务调用的时间间隔为15秒，我们能够计算出系统在一定时间内能够处理的服务请求数量，从而获得系统的吞吐量数据。

最后，可靠性是本次评估的另一重要标准。我们通过采集可靠性时间序列数据，每个时间序列涵盖5个数据点，以确保对系统稳定性的全面评估。这包括长达36小时的36H数据集和长达2个月的2M数据集，以覆盖不同规模的数据，确保实验结果的实用性和有效性。

通过这些详实的测试用例，我们能够全面了解鲲鹏云服务系统在电子邮件服务方面的性能表现，为用户提供可信赖、高效的云计算环境提供有力支持。

3.1数据集规模对可靠性评估结果的影响

在36H数据集中,任意挑选多个连续样本构成6个新的子数据集合,数据集内依次包含1000､1500､2000､2500､3000､3500个时间序列,各时间序列长度均为3s｡在2M数据集合内挑选10~60d的可靠性时间序列,对3种方法进行不同数据集规模下的可靠性评估误差实验,如图4所示｡

图1 36H 与2M 数据集下可靠性评估误差对比

从图1(a)可知,训练样本个数较少时,3种方法的可靠性评估精度都很低,伴随数据规模的持续增加,本文方法的评估准确率不断提升,训练样本为2500时,本文方法评估正确性已基本为最优,且随训练样本个数的攀升,优势也更加明确｡

从图1(b)可以看出,训练数据集样本足够大的情况下,全部方法的评估准确性均有所提高,但提高速率较慢｡其中,模糊阈值法在3种方法中表现最差,评估结果正确性显著低于其他方法,本文方法与数据挖掘法表现比较接近｡综合图1(a)小规模数据集､图1(b)大规模数据集,在训练过程中,本文方法都具有较低的绝对误差值,并且相比较下更加适合大规模数据评估,可靠性更强､错误更少,符合鲲鹏云服务系统可靠性评估需求｡

3.2可靠性评估收敛性分析

在人工智能领域中，人工神经网络方法是一种基于生物神经系统结构设计的计算模型，被广泛应用于各种任务，包括可靠性评估。在本文中，使用36H与2M数据集对人工神经网络方法进行了测试，以评估其在收敛时间上的可靠性。

实验结果显示，训练样本个数与方法的收敛时间呈正相关关系。当训练样本较少且时间较短时，三种方法均能实现迅速收敛。然而，随着训练样本个数和时间的增加，本文采用的人工神经网络方法在收敛时间上表现出更为显著的优势，最终以最快的速度实现了可靠性评估。

这一优势可以归因于本文方法的独特之处。采用了人工神经网络方法，该方法融合了系统储存区和操作区，同时利用自身的自适应能力和学习能力。这种结合使得鲲鹏云服务系统的可靠性更快地实现了收敛，从而在保证评估结果精度的基础上，实现了评估结果的快速输出目标。这说明人工神经网络方法在可靠性评估中具有明显的优越性，特别在大规模数据集和复杂任务下表现更为出色。具体结果如下：

依旧使用36H与2M数据集测试可靠性评估收敛时间,由此评价计算的及时性,实验结果如图2所示｡从图2可知,训练样本个数和方法的收敛时间为正相关关联,训练样本个数较少与时间较短状态下,3种方法均能实现迅速收敛,但伴随训练样本个数与时间的增加,本文方法在收敛时间上的优势更加显著,最终最快速地实现可靠性评估｡这是因为本文方法采用人工神经网络方法,融合系统储存区和操作区,并利用自身的自适应能力与学习能力,让鲲鹏云服务系统可靠性更快的收敛性,在保证评估结果精度基础上实现评估结果快速输出目标｡

图236H 与2M 数据集下可靠性评估收敛性对比

4总结

本文深入探讨了鲲鹏云服务系统的可靠性及运行故障建模分析，通过实例测试验证了方法的有效性。鲲鹏云服务系统以其稳固高效、安全可靠的特性，为云计算领域提供了卓越的解决方案，同时本文的建模分析方法为系统运维提供了实用的参考与指导。鲲鹏云服务系统的稳定性和高效性不仅在技术上取得了显著成就，同时也为云计算行业树立了良好的典范。本文的建模分析方法为系统运维提供了实用的参考与指导，使运维人员能够更全面地了解系统的性能和潜在故障点，有针对性地进行维护和改进工作，确保鲲鹏云服务系统能够持续稳定、安全可靠地运行，为用户提供无忧的云服务体验。这一研究成果不仅对鲲鹏云服务系统的发展具有重要意义，同时也在云计算领域的可靠性研究中迈出了实质性的一步。

参考文献

[1]闫龙川,白东霞,刘万涛,等.人工智能技术在云计算数据中心能量管理中的应用与展望[J].中国电机工程学报,2019(1):31-42.

[2]房超,李正风,薛颖,等.基于比较分析的人工智能技术创新路径研究[J].中国工程科学,2020,22(4):147-153.

[3]赵新超,吕卫民.基于虚拟样本与模糊阈值的可靠性评估方法[J].火力与指挥控制,2020,45(2):91-96.

[4]王宝生,唐秀欢,包利红,等.基于数据挖掘的非能动系统功能可靠性评估方法研究[J].核动力工程,2020,41(2):78-83.

...

阅读全文