信创背景下云平台国产化演进问题分析

期刊: 环球科学 DOI: PDF下载

左悦 李斌

中国电信黑龙江分公司 黑龙江省哈尔滨市 150009

摘要


关键词

正文


前言

云计算自 2006 年提出至今,大致经历了形成阶段、发展阶段和应用阶段。云计算发展至今,全球各国政府纷纷制推出“云优先”策略,我国云计算政策环境与云计算技术不断发展完善,云计算应用从互联网行业向政务等传统行业加速渗透。

为应对政务应用对云平台国产化的需求,各地市建设的政务云将逐步演进为全国产化数字底座,并从资源统筹统建向PaaS统筹建设演进,增强高可靠性保证政务业务连续性,补充灾备能力,保障数据安全。现有地市建设的云平台从管理节点到计算节点大部分是依托X86态服务器建设的,而云平台如何选择合理技术路线,保证关键业务能力不降级是云平台国产化演进的关键问题。

 

云平台国产化设计

云平台的国产化演进要按照“稳步推进,新建优先;通用先行,重要先行;主动迭代,短期共存”的原则推进。“稳步推进,新建优先”指有计划、有节奏推行,在确保业务稳定为前提下小步快跑,对于新建的业务应用优先基于安全可靠平台架构进行开发部署。“通用先行,重要先行”指在对于通用类、公共类应用、重要类应用,可以优先考虑部署在安全可靠、自主可控平台之上。“主动迭代,短期共存”指在推进过程中,允许现有的X86资源池与新的资源池共存,确保业务的连续性,以及保护政府投资,在达到更新换代的年限时,主动淘汰,将业务部署到安全可靠、自主可控的平台之上。

在实际建设过程中,除了针对当前建设的重点外,还要充分考虑后续的可持续性发展建设方向,在技术路线选择上必需处理好各方面的关系,兼顾近期与长远的目标,立足现在又面向未来。当前国产化替代存在多种技术路线,各种技术路线在当前现状下自成体系,因此在进行路线选择时既要考虑技术实用性,又要考虑技术的先进性和可扩展性,从整体多场景角度进行技术路线的需求,确保投资建设能持续发挥作用。因此云平台国产化演进需要具备以下特点:

1、高可靠性与高性能

各个地市云平台的电子政务系统是面向各委办局以及民众提供服务,因此需要确保整个平台的高可靠性,确保在平台上运行的各类政务应用的稳定性和可访问性。运行于平台之上的各类政务应用的性能很大程度受到平台本身性能的影响,因此性能对各委办局政务应用的用户体验至关重要,需采用科学、精简、高性能的资源管理与服务提供技术,同时确保整个系统具备一定冗余能力确保平台的高可靠性。

2、标准化、规范化与已有系统迁移

现有政务应用系统需要经过科学分析、评估,按需逐步迁移至安全可靠平台上,一方面充分利用既有政务应用资源,另一方面迁移和新建的政务应用能够更加平滑的实现迁移。

3、技术体系与管理运行

本次建设与服务体系的供应与以往平台建设存在着不同,除了注重既有资源利用、信创技术路线的采用,还需建立与之匹配的管理体制机制,确保建设完成后的高效运行与管理。

云平台国产化路线选择

1、 ARM架构与X86架构

随着国家对信息安全的重视,信创云平台可以更好地保障客户的数据安全。国产化的技术方案可以更好地满足国家安全标准,避免因为使用外国技术而面临安全风险。国产化路线可以更好地掌握技术的核心,降低对外部技术的依赖。这样可以更好地掌握技术的发展方向,更好地满足客户的需求。 国产化路线同时可以更好地降低技术成本使用国产化的技术方案可以避免因为使用外国技术而面临高额的技术费用,同时也可以更好地控制技术的开发和维护成本。

国产化路线可以更好地获得国内技术支持。使用国产化的技术方案可以更好地获得国内技术支持,避免因为使用外国技术而面临技术支持不足的问题。

“硬件自主”方向,国产化云平台底层可适配各类自主可控硬件基础设施(CPU/NPU/服务器/网路设备等),同时具备软硬协同能力,提升云服务承载容量,发挥组合优势,实现业务迁移性能不降级,功能无损失。

在保证底层硬件自主的基础上,国产化云平台所有基础软件都可保证自身可信,针对开源软件的风险进行治理,保证软件供应链安全。云平台全栈采用国产自主研发软件,拥有完全自主知识产权,软件架构、核心代码完全自研,具备完善开源软件管理体系/漏洞管理机制,在此基础上,还需具备操作系统、云原生、数据库、大数据、AI等服务大规模部署的能力,保证平台服务/功能完善,支撑关基应用业务发展。

基于国产芯片提供基于云计算的各种服务,包括云服务器、云存储、云安全等。

2、虚拟化路线选择

主流虚拟化技术包括开源、开放的KVM和XEN以及基于企业自有的、付费的VMware、Hyper-v等本期工程采用了开源OpenStack架构,因此,与之匹配的虚拟化层也应采用开源开放的虚拟化软件。

当前业界采用的主流的开源虚拟化软件主要是KVM和XEN两种。KVM是指基于Linux内核(Kernel-based)的虚拟机(Virtual Machine)。KVM最大的好处就在于它是与Linux内核集成的,所以速度很快。

XEN是一个开放源代码虚拟机监视器,Xen的缺点是操作系统必须进行显式地修改(“移植”)以在Xen上运行(但是提供对用户应用的兼容性),所以比较麻烦,因此Xen无需特殊硬件支持,就能达到高性能的虚拟化,但Linux的官方内核在较早之前已经去掉了对Xen的支持。

KVM具备高性能、易扩展性和linux的支持,从而成为更多开源云架构所采用的虚拟化技术,并逐步演进为一种趋势。因此,采用KVM虚拟化技术构建云服务商平台,能保证未来的发展和技术的先进性,并且实现对OpenStack的支持和与云监管平台的兼容。

云平台国产化与非国产化演进方案

整体按照“稳步推进,新建优先;通用先行,重要先行;主动迭代,短期共存”的原则推进。“稳步推进,新建优先”指有计划、有节奏推行,在确保业务稳定为前提下小步快跑,对于新建的业务应用优先基于安全可靠平台架构进行开发部署。“通用先行,重要先行”指在对于通用类、公共类应用、重要类应用,可以优先考虑部署在安全可靠、自主可控平台之上。“主动迭代,短期共存”指在推进过程中,允许现有的X86资源池与新的资源池共存,确保业务的连续性,以及保护政府投资,在达到更新换代的年限时,主动淘汰,将业务部署到安全可靠、自主可控的平台之上。

应用系统国产化演进策略,如下图所示:(橙色部分标识X86,绿色部分标识国产化)

 

短期策略下,政务业务应用采用双平面承载,部分业务直接迁移至国产化环境,部分业务仍基于X86环境进行开源技术改造。最终目标上全面实现基于国产化和开源技术的信息化改造建设。

在业务应用底座变化涉及迁移时,我们需要基于业务场景、应用架构、软件自身特性等多维度分析,进行方案全局设计及优化,针对性制定迁移方案。

在业务场景维度针对业务可中断场景:新增节点需要预先部署,验证后快速替换,针对业务不可中断场景,需要结合架构特征,制定热迁移方案。同时结合应用自身特性,针对多副本,容忍多个节点失效的应用,可以设计多节点并行搬迁方案,提升搬迁效率,针对增量数据恢复,数据提前批量拷贝,搬迁后数据增量式恢复,避免全量数据恢复。同时结合容灾特性,需要支持数据备份还原;

典型场景搬迁方案涉及分布式集群、主备、单机软件三大类,需要根据情况选择差异化搬迁,确保搬迁可靠性,主备和集群部署的业务系统通常具备高HA属性,可以主备倒换、伸缩扩容等方式不中断整体业务进行平滑搬迁,单机型应用通常需要中断业务进行搬迁,因此建议优先搬迁主备和集群部署的业务系统,再搬迁单节点型业务系统。

1. 针对单节点型应用,其典型应用特征是于单节点服务器上集成系统的全部功能,典型应用于微型网站和小型后台系统。搬迁特点是可能会中断业务,搬迁步骤主要涉及:重新部署,停止服务,搬迁替换(涉及状态信息存储等需同步搬迁),典型应用Web应用(Nginx,HAProxy)等

2. 针对主备型应用,业务应用采用主备架构是为了解决单点模式不稳定的风险,通过部署多个服务系统,当主系统出现故障时,其他系统能够代替该主系统继续正常对外提供服务,保持业务系统无中断运行。搬迁特征是不中断业务,或者是对业务影响极小,可以先备后主,结合应用软件主备同步的高可用机制,平滑搬迁,搬迁步骤是先进行增加XC备节点,再进行主备节点切换,在低峰期停止业务写入,检查主备数据一致性,切换主备节点,进行业务割接;然后切换主备节点,进行业务割接;部署XC架构服务器后,进行全量数据同步,接入到集群后同步增量数据;业务正常则移除原节点,异常则需要还原,暂停应用读写,切换原X86备节点为主节点,修改业务连接,切换流量到原始节点;

3. 集群型应用,集群型应用主要为了适应大规模应用负载,而设计的高可用、高稳定的集群应用。通过管理层和业务层的分层架构和管理,实现业务持续不中断的运行和提供服务。搬迁特征是不中断业务,管理节点主备模式搬迁,计算/存储节点等基于分布式软件伸缩扩容机制,滚动替代、平滑搬迁,搬迁步骤:节点隔离,重新部署,节点加入;典型应用如大数据(HDP等)、虚拟化(OpenStack)等;

测试上线

国产化搬迁涉及到运营商行业关键基础设施的安全,需要进行全面的功能和性能测试,保障商用上线;这里面需要涉及到层层测试,从而保障搬迁业务稳定运行。

Ø 功能测试:测试业务基本功能在鲲鹏服务器上运行是否正常,含单元测试及系统集成测试

Ø 性能测试:测试业务性能表现是否符合目标,同时监测各系统指标是否正常,必要时涉及性能调优

Ø 长稳测试:长时间运行测试程序以检测业务能否长期稳定运行;

Ø 上线运行:割接上线保障

作者简介:左悦(1984-11),女,汉族,黑龙江齐齐哈尔,本科,研究方向:系统上云、运维管理

李斌(1973-12),男 ,汉族,黑龙江哈尔滨,本科,职称:中级通信工程师,研究方向:云计算、IT运维


...


阅读全文