智能运维就是由 AI 代替运维人员？

本文整理自 GOPS2017·上海站演讲《从说到做-大型企业智能运维的360度解析》

讲师简介

孙杰，国内一线运维专家，从业十几载的IT老兵，专注于系统、运维、云计算和数据中心管理，先后在外企、互联网、电商、大型企业任职，参与实施数据中心建设、私有云架构规划及运维管理、大数据挖掘等相关工作，在若干大中型项目的建设和部署运维中，积累了丰富的架构设计、项目实施和一线经验。凭借丰富的技术经验和乐于分享精神，先后受邀出席全球云计算峰会、可信云大会、GOPS全球运维大会等全国性技术会议并发表热点主题分享，受到广泛好评。不仅是技术分享的推崇者，也是IT行业的实践者、布道者。

听了有关AI运维之后有很多人感到比较焦虑，我所从事的运维或开发将来会不会被AI给替代掉呢？

现在新技术发展的特别快，各种语言、技术、理念让大家确实感到自顾不暇跟不上趟，但是有一点，在这里我要特别重申一下，AI在目前这个阶段还是一种辅助大家来进行判断和学习、定位处理问题的工具，就像无人驾驶，现在可以做到完全没有人驾驶吗？肯定不行，未来无人驾驶是完全可以替代人的，但它还有很长一段路要走。AI运维就像无人驾驶一样，未来前景很光明，但任重道远。

大部分的智能运维还没有完全落地，我所在的企业也是处在一个探索的阶段。在一个传统的企业它的运维该如何走？从以前的脚本到工具、自动化，再到现在的智能运维，中间这个步骤该怎么走？今天就从下面五个方面给大家分享下：

一、构建一个全面科学的IT运维管理体系

第一个IT部门的整体认可不足。虽然说IT在任何单位现在都是一个比较重要的部门，但是还有很多领导仍然认为它是一个成本中心，不是一个利润中心，认为这个部门是花钱的，而不是像业务部门创造业务价值和创造利润的。
第二个对于运维工作人员负荷比较大，工作模式不被员工认可。在没有自动化运维和平台之前，整个运维团队只有八个人，如果每个人一天处理六到十个故障，基本上没有时间去研究别的东西了。传统运维压力很大，疲于奔命和救火，必须要寻求改变，走向自动化、平台化、智能化。
第三运行的态势相关信息掌握不足。监控是多维度的，不同的业务会有不同的指标，所有加起来有上万个指标，但却没有整体态势变化图、很难成体系，不能实现智能感知和态势预测，整个运维态势就很难保持平稳。
第四依据业务需求调整服务和设置资源的能力不足。在业务故障处理的时候需要很长的过程，中间涉及到很多的相关技术部门，需要和业务方进行交互，仅靠较少的人力几乎做不到。

我们希望在现有的业务体系里面，运维部门要实现这样的运维目标？

第一个全面的性能管理。能够提供对现在所有的设备和服务质量进行实时监测，并且提供动态阈值的告警。
第二个统一的资源管理。很多企业业务都上云了，需要有统一的监控平台，可以把所有业务相应资源视图抓取出来，便于我们对整体资源有一个合理的预估和分配，并从整体角度评估各个业务部门对资源的使用情况。
第三个及时的故障告警管理。我们发现有很多产品还不能做到完全及时的告警，告警发生后总是延时才能知晓，需要实时的准确的告警，减少延迟和误报。
第四集中统一展现管理。把很多不同的监控子系统集成起来，这个在现在的企业里面需求是很大的，借助于各种工具，采集数据之后自动合成一个报表统一展现出来，方便管理。

我们关注的核心问题有：

第一我们是一个跨地域的平台，是多数据中心，我们希望有一个IT的综合运维平台，来统一管理。
第二是深入监控并进行集中统一的可视化管理，提高效率。
第三就是有效的预防问题的产生，降低运维成本。另外就是问题出现后，能够快速跟踪定位，降低人力成本。
第四多维的报表为决策提供有力支撑，科学预判趋势。
第五全局业务服务视角和平台化扩展以及大数据分析的融合，满足企业对于业务高效和快速迭代的需求。
第六保护和优化IT资产。以前各个业务都是自己的一套系统，有自己的开发和运维人员以及监控系统，这对企业来说是重复造轮子了。现在上云后，把原有的系统集中整合到云上，通过统一的监控和资源管理最好的保护和优化资产。

智能运维就是 由 AI 代替运维人员？

讲师简介

一、构建一个全面科学的IT运维管理体系

悦读

智能运维就是由 AI 代替运维人员？