全链路智能运维:破解政务云运维难题的 “金钥匙”
虽说政务云运维已然迈进全链路智能时代了,不过,还是存在部分地区的政务云平台,它们受到传统运维模式的限制,在为智慧政务建设提供支撑的时候,就显得有些力不从心啦。这些存在着的瓶颈,一方面制约了政务服务效率的提升,另一方面,还变成了阻碍数字政府建设朝着更深层次去发展的一道‘障碍’。
一、传统运维模式的瓶颈:政务云升级路上的 “绊脚石”
瓶颈一:故障定位 “雾里看花”,跨系统协同难
传统的运维工具往往呈现出“各自为战”的态势,像服务器监控方面的数据、网络监控方面的数据以及应用监控等方面的数据,全都分散于不同的平台之上,如此一来便形成了所谓的“数据孤岛”现象。当某一个业务系统发生故障的时候,运维人员就得在多个不同的平台之间来回进行切换以便查询相关信息,而且还需要手动去对这些分散的数据进行关联操作,这一过程不但会耗费大量的时间和精力,并且还极有可能因为所获取的信息不够完整,进而致使故障定位出现偏差的情况。
就好比在某省的‘互联网 + 监管’系统里,曾经碰到过企业信用信息查询不出来这样的情况。当时运维团队一开始是对应用服务器展开排查的,一番查看下来,并没有发现什么不对劲的地方;随后,又去检查数据库了,查看后发现其性能指标也都处于正常的范围当中;直到最后才察觉到,原来是跨省数据共享接口的加密协议存在不兼容的问题。这整个排查的过程前前后后总共耗费了12个小时,在这期间,监管部门根本没办法正常地去开展相关的工作,这也就对执法的效率产生了影响。像这样出现了故障却如同谜团一般难以搞清楚的困境,其根源其实就是缺少了对业务全链路展开统一的监控以及关联方面的分析。
瓶颈二:成本管理 “粗放模糊”,资源配置失衡
政务云的成本优化已然成为近些年来各地政府所着重关注的方面。在传统的运维模式当中,资源的使用状况和业务需求二者之间并没能达成精准的匹配,常常容易出现诸如“过度配置”或者“配置不足”这样的一些问题。部分部门为了防止业务出现卡顿的情况,便盲目地去申请超出所需的资源,如此一来,服务器便常年都处在低负载运行的这种状态之下,进而使得财政资金被白白浪费掉了;与此同时,另外还有一些部门却因为所拥有的资源并不充足,结果导致其业务系统接二连三地出现性能方面的瓶颈状况。
某市级政务云平台所统计的数据表明,在其承载着的60多个业务系统当中,存在着这样的情况:有23个系统的服务器CPU使用率在很长一段时间内都是低于20%的。然而,像社保、医保这类极为重要的核心系统,在业务量达到高峰时期,却屡屡因为资源不够充足而出现卡顿的状况。这种一部分系统闲置、一部分系统繁忙的‘忙闲不均’的情况,恰恰反映出了传统运维工作在成本精细化管理方面存在着明显的不足之处,具体来说就是没办法依据业务负载的实际情况去灵活地动态调整资源配置,并且要想实现政务云成本达到最优分配的状态也是极为困难的。
瓶颈三:业务迭代 “牵一发而动全身”,运维适配滞后
伴随公众针对政务服务所呈现出的需求愈发趋向于多元化发展态势,政务业务系统自身的迭代更新速度也在持续不断地加快进程。就哪怕仅仅是一个规模相对较小的功能方面的更新操作而言,其便极有可能会牵涉到前端界面、后端接口以及数据库等等诸多环节的相应调整事宜。而传统意义上的运维模式,鉴于其本身欠缺对于业务全链路所应当具备的那种动态感知能力,所以往往会在系统完成更新之后,出现所谓的“适配性故障”情况。
二、全链路智能运维化解运维瓶颈
全链路智能运维的产生,绝非是技术层面的偶然创新之举,实则是政务云在发展至特定阶段后所必然形成的产物。它把云计算、大数据、人工智能以及物联网等一系列前沿技术加以融合,从而给政务云运维领域带来了涉及各个方面的变革。
技术逻辑:构建 “端到端” 的智能监控体系
全链路智能运维所涉及到的技术逻辑,大体上能够归纳为四个极为关键的环节,这四个环节依次是数据采集环节、数据整合环节、智能分析环节以及决策执行环节。
在数据采集这个环节当中,去部署像探针、传感器这类的设备,如此一来,便能够对政务云全栈数据展开实时的采集操作。这里所采集到的数据,可不单单只有传统意义上的性能指标,事实上还把业务交易数据、用户行为数据等等都涵盖在内了,这就为接下来要开展的分析工作预备下了颇为丰富的素材资料。
在数据整合这个环节当中,要充分借助大数据技术的力量,把分散于各个不同系统里面的,并且格式也各不相同的采集数据,去做一番细致的清洗工作,同时还要进行相应的转换操作,之后再将它们汇总到一起,以此来构建出一个统一的运维数据湖。在完成了上述这些步骤的基础之上,进一步通过数据建模的方式以及关联分析的手段,去打破那种所谓的“数据孤岛”现象,从而建立起关于业务系统全链路的数字化模型,最终达成从基础设施一直到业务应用的可视化映射这一目标。
智能分析在全链路智能运维当中处于核心地位。凭借机器学习以及深度学习这类人工智能算法,针对整合完毕的数据展开深度层面的挖掘工作。从一个方面来讲,借助异常检测算法能够实时察觉到业务运行期间所出现的异常行为,像是交易失败率一下子升高了、接口响应时间变得超长等情况;从另一个方面来看,运用根因分析算法可以自动去追溯故障的根源所在,进而明确问题发生的具体环节以及其影响的范围。
在决策执行这个环节当中,会依照智能分析所得到的结果,自然而然地去触发与之相对应的运维策略。就比如说吧,要是检测出来某一个业务系统的负载已经高到了一定程度,那么系统便会自动开启弹性扩容的相关机制,从而对服务器资源予以增加;而倘若发现了某个接口存在故障的情况,系统就会自动切换至备用接口,与此同时,还会把这一情况通知给运维人员,好让他们来完成修复的工作。
功能优势:实现 “可视、可管、可控” 的运维目标
1. 业务可视化借助全链路可视化技术得以实现,如此一来,运维人员就能够以直观的方式看清政务云所承载的各项业务流程,同时也能清楚知晓每个流程所涉及的系统组件状况、数据的具体流向以及用户交互的实际情况。这种可视化方面的能力,一方面有助于运维人员快速地对故障点进行定位,另一方面还能够助力运维团队站在业务的角度去深入理解系统的运行状态,进而为优化业务流程给予相应的数据支撑。
2. 故障能够得到有效管理:全链路智能运维有着颇为出色的故障预警以及自动处置的能力。它借助对以往历史数据展开学习并且对实时数据加以监测的方式,使得系统可以提前对潜在故障做出预测,而且一旦故障发生,能在第一时间自动去采取相应措施予以处理,像是自动重启相关服务、切换链路这类操作。与此同时,系统还能够针对故障开展分类、分级方面的管理工作,依据故障的严重程度以及影响范围的具体情况,合理地调配运维资源,以此来提升故障处理的效率。
3. 资源处于可控状态:凭借着对业务负载加以实时监测以及预测,全链路智能运维能够达成资源的动态分配以及优化操作。当处于业务高峰时段,会自动增添计算、存储还有网络方面的资源,以此确保业务系统可以顺畅地运行起来;而在业务低谷时期,又会自动回收那些闲置的资源,进而达到降低能耗与成本的目的。并且,经由对资源使用状况展开精细化的分析之后,还能够为政务云在采购、扩容等相关决策上给予科学的依据,从而防止出现资源浪费以及过度投资的情况。
三、勤源科技:政务云全链路智能运维的践行者
在政务云全链路智能运维方面,勤源科技凭借着突出的技术实力以及大量的实践经验,在行业内占据了优势地位,已然成为了佼佼者。勤源科技长时间扎根于政务云运维领域,对政务云运维存在的痛点以及相应需求有着透彻的认识。依靠其自主研发的全链路智能运维解决办法,勤源科技实实在在地为各地政务云平台的升级改造给予了强有力的支撑。
勤源科技所推出的全链路智能运维方案有着独特的技术特色,即‘一个探针监控整个业务系统’。依靠这一特色,该方案达成了对政务云业务系统予以精准监测以及深度洞察的成效。
在全流程监控这件事情上,勤源科技精心构建起了一个从基础设施一直到业务应用的端到端监控体系。其针对网络、服务器、数据库以及中间件等各类基础设施展开实时的监测工作,并且还对业务系统当中的交易流程、接口调用以及用户体验等诸多关键环节加以细致的分析,如此一来,便达成了对政务云全链路运行状态进行全面掌控的目标。
除了具备技术方面的优势之外,勤源科技在政务云FinOps(也就是云成本优化这一方面)同样有着相当突出的表现。勤源科技会对政务云资源的使用状况展开精细化的分析,基于这样的分析,它能够为客户去制定具有个性化特点的成本优化策略,以此来助力政府部门削减云服务方面的成本,并且促使资源利用率得以提高。
在实际的应用场景当中,勤源科技所推出的全链路智能运维方案,已经在诸多省市的政务云平台之上获得了有效验证。就拿某一个市级的政务云来举例说明,当引入勤源科技的相关解决方案之后,系统出现故障的概率足足下降了55%,业务处理达成的效率也相应地提升了35%,运维方面所需要耗费的成本更是降低了40%,服务群众过程中所接到的投诉数量也大幅度地减少了,群众对于服务的满意程度也明显地提高了。