政务云运维进化论:从 “被动响应” 到 “全链路智能” 的必然之路
在如今数字化浪潮已然席卷全球之际,政务云充当着支撑智慧政务建设的关键“数字底座”,正实实在在地经历着一场从起初“能用”,逐步发展到“好用”,进而迈向“智能”的极为深刻的变革。政务云运维,是保障这一“数字底座”能够稳定运行的核心环节,同样是在技术不断迭代以及业务需求持续推动的双重力量驱动之下,一步步走过了一条从最初的“被动响应”,慢慢转变为“主动预防”,最后发展成“全链路智能”的演进之路。这条演进之路可不单单只和技术升级有关系,它更是在相当程度上深刻地影响着政务服务所呈现出来的效率以及质量状况,还紧密关乎着公众对于数字政府所抱有的信任以及内心的期待。
政务云运维的三个发展阶段:从 “人治” 到 “智治” 的跨越
政务云运维的发展情况,一直是和政务信息化建设的步伐保持着同步的态势。去回顾它的演进历程的话,大体上能够划分成三个特色比较鲜明的阶段,而这每一个阶段其实都反映出了在不同时代背景之下,政务云在稳定运行方面所面临的各种各样的需求以及诸多挑战。
初始阶段:也就是2010至2015年这段时期,呈现出基础设施导向的‘被动运维’状况。
自2010年往后,我国着手推动电子政务展开集约化建设,而政务云作为一种能够集中对IT资源加以部署的全新模式,也随之顺势而生。在这一时期当中,政务云主要是以物理服务器、存储设备以及基础网络作为核心部分的,当时其运维工作所侧重的要点就在于要切实保障硬件设备可以正常地运行起来。在那个时候,运维团队大多会采用那种‘人盯设备’的模式,往往是依赖于人工去进行巡检以及故障的报修操作,在处理故障的时候通常就是‘哪里出现了问题就去修理哪里’,整体上缺乏对系统的整体运行状态予以准确把握的能力。
就拿某省级政务云平台来说,在其刚开始运行的时候,曾经出现过这样的情况:因为服务器磁盘空间不够了,结果使得社保查询系统没法正常运转,直接就宕机了。这之后呢,运维人员费了足足3个小时的时间,才好不容易找到了故障发生的原因。在这3个小时期间,有大量的市民都没办法正常去办理相关的业务,这件事也引起了社会上不小的关注。像这种等到出了问题之后才去想办法补救的运维模式,很明显地暴露出了它存在的一些短板,比如说响应速度特别慢,工作效率也很低等问题,这样的情况是很难达到政务服务要一直保持‘不断档’的这种基本要求的。
第二阶段所处的时段是2015年至2020年,此阶段呈现出以虚拟化作为导向的‘主动监控’这一特点。
当虚拟化技术不断发展趋于成熟之际,政务云渐渐从物理机主导的时代跨进了虚拟机的时代。虚拟机具备能够快速完成部署以及可弹性扩展的特性,正因如此,政务云具备了承载更多跨部门业务系统的能力,不过与此同时也催生了新的运维方面的挑战,即虚拟资源始终处于动态变化的状态,这一情况致使传统那种基于物理设备的监控方式失去了效用。
面对这样的变化情况,运维工具开启了朝着“主动监控”方向升级的进程。其会通过部署相关的监控软件来采集诸如CPU、内存以及网络带宽等方面的指标,以此达成对虚拟资源予以实时监测的目的。一旦这些指标超出预先所设定的阈值,那么系统便会自动发出警报,而运维人员就能够依据这一情况提前介入并展开相应的处理工作。在这一阶段当中,运维工作的核心要点在于“指标监控”。虽说相较于以往,在故障预警方面确实是有了一定的进步,不过其仍旧仅仅局限在对资源层展开孤立的监测,对于业务系统全链路的关联分析方面却是有所欠缺的。
某一地级市的政务服务平台之前曾有过这样一种状况:其监控系统所呈现出的情况是,所有服务器的各项资源指标看上去均处于正常状态,然而市民们却反馈说在线申报系统时常会出现卡顿的情况。运维团队在经过了多日的仔细排查之后方才察觉到,问题的根源其实是在于跨部门数据接口那里出现了传输延迟的状况。要知道,像这样属于业务层面的隐性故障,很明显是已经超出了资源监控所能涉及到的范围了。
第三阶段:业务导向的 “全链路智能运维”(2020 年至今)
随着“一网通办”“跨省通办”等政务服务方面的改革不断推进,政务云所承载的业务变得越发复杂起来,通常一个政务服务事项常常得调用多个部门的业务系统以及数据资源才行。在这样的情形之下,运维方面的核心需求已然从过去单纯的“保障资源稳定”转变升级成了“保障业务流畅”,而传统的那种呈“烟囱式”的监控模式以及“碎片化”的运维模式,是完完全全难以与之相适应的了。
全链路智能运维便是在这样的背景之下出现了。它把业务系统当作核心所在,凭借分布式追踪、大数据分析这类技术,去搭建起一个从用户端一直到服务器端,从前端应用一直延伸到后端数据的全链路可视化监控体系。这种模式一方面能够对业务运行状态展开实时监测,另一方面还能够自动去分析故障产生的根源所在,甚至还可以对潜在风险做出预测,进而促使运维达成了从“技术保障”朝着“业务赋能”转变的这一质的飞跃。
勤源科技:政务云全链路智能运维的践行者
在政务云全链路智能运维方面,勤源科技凭借着突出的技术实力以及大量的实践经验,在行业内占据了优势地位,已然成为了佼佼者。勤源科技长时间扎根于政务云运维领域,对政务云运维存在的痛点以及相应需求有着透彻的认识。依靠其自主研发的全链路智能运维解决办法,勤源科技实实在在地为各地政务云平台的升级改造给予了强有力的支撑。
勤源科技所推出的全链路智能运维方案有着独特的技术特色,即‘一个探针监控整个业务系统’。依靠这一特色,该方案达成了对政务云业务系统予以精准监测以及深度洞察的成效。具体而言,在每一个业务系统当中去部署那种轻量级的探针,如此一来,便能够实时地采集系统所涉及的性能指标、交易数据以及用户行为等诸多方面的信息,随后再把这些采集到的数据传输至统一设立的运维管理平台,进而在该平台上展开分析处理的相关操作。这种‘一对一’的监控模式,一方面提高了数据采集的准确程度与全面程度,另一方面还使得对业务系统的性能所产生的影响有所降低,最终有力地确保了政务云业务可以稳定地运行下去。
除了具备技术方面的优势之外,勤源科技在政务云FinOps(也就是云成本优化这一方面)同样有着相当突出的表现。勤源科技会对政务云资源的使用状况展开精细化的分析,基于这样的分析,它能够为客户去制定具有个性化特点的成本优化策略,以此来助力政府部门削减云服务方面的成本,并且促使资源利用率得以提高。就拿某省级政务云项目来讲,勤源科技运用了智能弹性调度以及冷热数据分级存储等一系列的技术手段,最终成功地让云服务成本降低了31%之多,同时资源利用率也提升了41%,进而收获了极为显著的经济效益与社会效益。
随着数字政府的建设持续推进,政务云运维会碰到更多的挑战,同时也迎来诸多机遇。从过去单纯的‘被动响应’转变为如今的‘全链路智能’,这可不单单是技术层面的升级,更是运维理念方面的重大革新。全链路智能运维已然成为未来政务云运维的发展走向,会给智慧政务建设给予更为稳固的保障。