本文整理自 GOPS2017·上海站演讲《从说到做-大型企业智能运维的360度解析》
讲师简介
孙杰,国内一线运维专家,从业十几载的IT老兵,专注于系统、运维、云计算和数据中心管理,先后在外企、互联网、电商、大型企业任职,参与实施数据中心建设、私有云架构规划及运维管理、大数据挖掘等相关工作,在若干大中型项目的建设和部署运维中,积累了丰富的架构设计、项目实施和一线经验。凭借丰富的技术经验和乐于分享精神,先后受邀出席全球云计算峰会、可信云大会、GOPS全球运维大会等全国性技术会议并发表热点主题分享,受到广泛好评。不仅是技术分享的推崇者,也是IT行业的实践者、布道者。
听了有关AI运维之后有很多人感到比较焦虑,我所从事的运维或开发将来会不会被AI给替代掉呢?
现在新技术发展的特别快,各种语言、技术、理念让大家确实感到自顾不暇跟不上趟,但是有一点,在这里我要特别重申一下,AI在目前这个阶段还是一种辅助大家来进行判断和学习、定位处理问题的工具,就像无人驾驶,现在可以做到完全没有人驾驶吗?肯定不行,未来无人驾驶是完全可以替代人的,但它还有很长一段路要走。AI运维就像无人驾驶一样,未来前景很光明,但任重道远。
大部分的智能运维还没有完全落地,我所在的企业也是处在一个探索的阶段。在一个传统的企业它的运维该如何走?从以前的脚本到工具、自动化,再到现在的智能运维,中间这个步骤该怎么走?今天就从下面五个方面给大家分享下:
一、构建一个全面科学的IT运维管理体系
第一个IT部门的整体认可不足。虽然说IT在任何单位现在都是一个比较重要的部门,但是还有很多领导仍然认为它是一个成本中心,不是一个利润中心,认为这个部门是花钱的,而不是像业务部门创造业务价值和创造利润的。
第二个对于运维工作人员负荷比较大,工作模式不被员工认可。在没有自动化运维和平台之前,整个运维团队只有八个人,如果每个人一天处理六到十个故障,基本上没有时间去研究别的东西了。传统运维压力很大,疲于奔命和救火,必须要寻求改变,走向自动化、平台化、智能化。
第三运行的态势相关信息掌握不足。监控是多维度的,不同的业务会有不同的指标,所有加起来有上万个指标,但却没有整体态势变化图、很难成体系,不能实现智能感知和态势预测,整个运维态势就很难保持平稳。
第四依据业务需求调整服务和设置资源的能力不足。在业务故障处理的时候需要很长的过程,中间涉及到很多的相关技术部门,需要和业务方进行交互,仅靠较少的人力几乎做不到。
我们希望在现有的业务体系里面,运维部门要实现这样的运维目标?
第一个全面的性能管理。能够提供对现在所有的设备和服务质量进行实时监测,并且提供动态阈值的告警。
第二个统一的资源管理。很多企业业务都上云了,需要有统一的监控平台,可以把所有业务相应资源视图抓取出来,便于我们对整体资源有一个合理的预估和分配,并从整体角度评估各个业务部门对资源的使用情况。
第三个及时的故障告警管理。我们发现有很多产品还不能做到完全及时的告警,告警发生后总是延时才能知晓,需要实时的准确的告警,减少延迟和误报。
第四集中统一展现管理。把很多不同的监控子系统集成起来,这个在现在的企业里面需求是很大的,借助于各种工具,采集数据之后自动合成一个报表统一展现出来,方便管理。
我们关注的核心问题有:
第一我们是一个跨地域的平台,是多数据中心,我们希望有一个IT的综合运维平台,来统一管理。
第二是深入监控并进行集中统一的可视化管理,提高效率。
第三就是有效的预防问题的产生,降低运维成本。另外就是问题出现后,能够快速跟踪定位,降低人力成本。
第四多维的报表为决策提供有力支撑,科学预判趋势。
第五全局业务服务视角和平台化扩展以及大数据分析的融合,满足企业对于业务高效和快速迭代的需求。
第六保护和优化IT资产。以前各个业务都是自己的一套系统,有自己的开发和运维人员以及监控系统,这对企业来说是重复造轮子了。现在上云后,把原有的系统集中整合到云上,通过统一的监控和资源管理最好的保护和优化资产。