导读
上一期中讲,建设统一运维监控的过程中,首要第一步是做好数据治理,只有循序渐进的踏实耕耘,再来播种施肥,才能让智能运维在最后开美丽的花、结香甜的果。
知其然,亦知其所以然
让运维实现有深度的可观测
打好了基石(数据治理),下面就是逐步去实现智能运维中的深度可观测。
那什么是有深度的可观测?
老杨理解的是把他拆为两个方面,即观和测。
1、监控为观
观其实在传统监控中间有非常多的实践,也有很多工具,但仅仅是监控是不够的。它没有跨域的异常挖掘的能力、全面根因定位的能力等。老杨认为真正的观应该能做到以下三点:
从源端来看,首先要能找全问题:从指标、日志、拓补、链路(trace)去充分挖掘异常,而不是单纯的从某一类指标中发现问题;
其次是找准问题:能够充分且智能的结合经验,利用动态阈值、红线规则、日志聚类等从异常中找到真正的问题所在。
到了末端,对于这些问题要准确的过滤掉无关内容,减少问题去除噪音,能够在周期内去重,能够把相似问题合并等等。
2、分析为测
当上面的过程全部联动起来后,才能做到测。在这里能够对事件级别分清缓急,把它们的重定级然后准确的分派通知;再次可以理清之间的关联,完成梳理问题时序、影响范围的界定、交易维度的排错等;最后就能直指根因,实现根因告警、根因指标输出、具体错误提示等,这之间将要用到一个个点状的场景和多个算法的结合来实现。
以我们一个农商行客户为例,这里从业务场景出发,下钻到交易链路下的某些单个系统,全方位地挖掘可能影响交易链路的风险点,并且可以把这些业务风险的原因进行留存,以作为一种知识库的积累和沉淀。
那么以后对于一些已经处理过的故障,就可以形成事前处理的应急处置预案,也就是全面可观测性所带来的一部分优势和结果。
老杨的总结
人类的整部科技史都是起伏交替向上发展的
如上图所示,左侧的期望值(黑线)在最初往往都是高于技术本身的价值,AIOps如同其他AI类创新一样,会被大家觉得决策智能的时代很快将会来临,但这个时间期里急于求成的结果也仅仅是在一些点状场景中提升了效率。
经过一段时间的积累、熟悉、沉淀,期望值会从峰值下降,但这并不意味着期望变少,而是市场逐渐归于理性,开始真正落地实践,找寻合适的发展方向。
右侧代表的市场渗透率(红线),随着市场的逐渐冷静,落地实践的企业越来越多,技术也慢慢在实践中走向成熟,这样运维的数字化和智能化才会慢慢走向繁荣。
我们相信,智能运维的趋势、热度仍在不断攀升,虽然还未能到达理想中的决策智能时代,但通过不断的落地实践会让这一天更早的到来。